BR112019016230A2

BR112019016230A2 - método e sistemas para a reconstrução de sequências de referência genômicas a partir de leituras de sequência genômica comprimidas

Info

Publication number: BR112019016230A2
Application number: BR112019016230A
Authority: BR
Inventors: Alberti Claudio; Khoso Baluch Mohamed
Original assignee: Genomsys Sa
Priority date: 2016-10-11
Filing date: 2017-12-14
Publication date: 2020-04-07
Also published as: PE20191056A1; JP2020505702A; CL2019000972A1; AU2017341685A1; CO2019003595A2; CO2019009920A2; EP3526707A4; PH12019550059A1; SG11201903272XA; WO2018071080A3; PH12019501881A1; KR20190062541A; CL2019000968A1; EP3526694A1; PE20191227A1; BR112019016232A2; BR112019007360A2; US20190385702A1; IL265928A; PE20191057A1

Abstract

é revelado um método e um aparelho que incluem a representação de um genoma de referência em termos de elementos de sintaxe que descrevem as diferenças entre o referido genoma de referência e as sequências genômicas alinhadas. as referidas sequências genômicas foram previamente alinhadas com o referido genoma de referência. cada uma das sequências genômicas alinhadas é descrita por meio de um subconjunto de elementos de sintaxe. elementos de sintaxe descrevendo todas as sequências genômicas são particionados em blocos de acordo com suas propriedades estatísticas. cada bloco de elementos de sintaxe é codificado por entropia. os blocos codificados por entropia são então concatenados para formar um fluxo de bits comprimido. as diferenças entre o genoma de referência e as sequências alinhadas são expressas em termos de elementos de sintaxe. os referidos elementos de sintaxe são particionados em blocos de acordo com as suas propriedades estatísticas e cada bloco é codificado por entropia. os elementos de sintaxe codificados por entropia são então incorporados no fluxo de bits de blocos codificados de elementos de sintaxe que descrevem leituras alinhadas. o método divulgado permite a reconstrução do genoma de referência usado para alinhamento ao decodificar as sequências genômicas compactadas, preservando diferentes opções de acesso aleatório nos dados compactados e permitindo uma compressão eficiente.

Description

MÉTODO E SISTEMAS PARA A RECONSTRUÇÃO DE SEQUÊNCIAS DE REFERÊNCIA GENÔMICAS A PARTIR DE LEITURAS DE SEQUÊNCIA GENÔMICA COMPRIMIDAS

REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS [001] Este pedido de patente reivindica a prioridade e o benefício dos pedidos de patente PCT / US2017 / 041579 041579 e PCT / US17 /17842.

CAMPO TÉCNICO DA INVENÇÃO [002] Esta invenção se refere à compressão sem perdas de leituras de sequências genômicas alinhadas com as informações de alinhamento associadas e com os genomas de referência, ou suas porções, utilizados para alinhar as referidas sequências genômicas. Uma sequência genômica é entendida, de modo abrangente, como uma concatenação de moléculas chamadas nucleotídeos para formar fragmentos de ácido desoxirribonucleico (DNA) ou de ácido ribonucleico (RNA). A presente invenção pode ser aplicada a qualquer sequência de referência de símbolos utilizados para alinhar sequências mais curtas usando o mesmo alfabeto.

[003] A presente invenção aplica-se a sequências genômicas alinhadas que foram comprimidas por meio de um método de compressão sem referência. Uma tentativa inicial nessa direção é a descrita por Voges, J., Munderloh, M., Ostermann, J., “Predictive Coding of Aligned Next-Generation Sequencing Data” (2016 Data Compression Conference (DCC)) ou por Benoit G. e outros, Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph” (BMC Bioinformatics. 2015; 16: 288.) com, no entanto, várias limitações abordadas na presente invenção.

[004] No contexto da presente memória descritiva, a compressão de referência menos de sequências genômicas alinhados compreende a criação de uma ou mais sequências de referência locais chamadas “contig” construídas por sobreposição e concatenação de sequências genômicas mapeadas em regiões adjacentes ou sobrepostas do genoma de referência utilizados para o alinhamento. Para uma invenção exaustiva de contig, consulte

Petição 870190075592, de 06/08/2019, pág. 17/342

2/55 https://en.wikipedia.org/wiki/Contig. Os referidos contigs não precisam de ser incluídos no fluxo de bits comprimido, uma vez que são reconstruídos na extremidade de descodificação como parte do processo de descodificação. Uma vez que um contig foi construído para uma região genômica onde uma ou mais sequências genômicas foram mapeadas, compressão baseada em referência é aplicada às ditas sequências genômicas, descrevendo-as em termos de descritores genômicos e comprimindo cada bloco de descritores genômicos do mesmo tipo com um codificador de entropia específica. Essa abordagem permite alcançar taxas de compactação melhores do que esquemas de compactação de uso geral, como GZIP, LZMA, BZ e preserva o acesso aleatório.

[005] A compressão baseada em referência de sequências genômicas alinhadas baseia-se em representar as referidas sequências alinhadas em termos das suas posições de mapeamento e diferenças em relação a uma ou mais sequências de referência utilizadas para alinhamento e codificação apenas das ditas posições e diferenças. Considerando que tal abordagem permite atingir taxas de compressão muito altas (aumentando aproximadamente linearmente com a cobertura, em que com o termo cobertura se pretende o número médio de leituras que contêm cada nucleotídeo de um genoma de referência), o processo de codificação e decodificação requer a disponibilidade de as sequências de referência específicas usadas para o alinhamento e a compressão. Uma desvantagem da abordagem é que se a sequência de referência usada para o alinhamento e a compactação não estiver disponível no lado de decodificação (por exemplo, devido à falta de uma identificação única do genoma de referência ou sua versão, ou caso a fonte dos dados originais não esteja mais disponível), o conteúdo compactado não pode ser recuperado. Soluções baseadas na inclusão dos genomas de referência na representação comprimida para armazenamento ou transmissão resultariam prejudiciais em termos de eficiência de compressão.

[006] Para resolver este problema, existem métodos de compressão sem referência, permitindo a compressão e descompressão de leituras de sequências genômicas alinhadas sem utilizar o genoma de referência utilizado para o

Petição 870190075592, de 06/08/2019, pág. 18/342

3/55 alinhamento. Alguns desses métodos adotam compressores para propósitos gerais, como GZIP, BZIP2, LZMA e atingem baixas taxas de compressão na ordem de 3: 1. Métodos mais eficientes baseiam-se na construção de uma ou mais sequências de referência das próprias leituras alinhadas por meio de um processo chamado “ assembly ”, no qual leituras mapeadas em intervalos genômicos adjacentes do genoma de referência usado para alinhamento são usadas para construir sequências mais longas, encontrar subsequências compartilhadas e concatená-las. A sequência mais longa obtida a partir da concatenação ou mesclagem das mais curtas é chamada de “contig”. Tais métodos incluem a já citada publicação de Voges, J., Munderloh, M., Ostermann, J., “Predictive Coding of Aligned Next-Generation Sequencing Data” (2016 Data Compression Conference (DCC)) e o artigo de Benoit, G et al. ““Reference-free compression of high throughput sequencing data with a probabilistic de Bruijn graph” (BMC Bioinformatics. 2015; 16: 288).

[007] Esta invenção aborda o problema da compress eficiente do genoma de referência utilizado para o alinhamento de leituras de sequências genômicas quando se aplica conjuntamente compress de sequências genômicas sem referência.

SUMÁRIO DA INVENÇÃO [008] As características das reivindicações abaixo resolvem o problema das soluções do estado da técnica proporcionando um método para compressão sem perda de genomas de referência no caso de compress de sequências genômicas sem referência, o referido método compreendendo as etapas de:

- alinhar as referidas leituras a uma ou mais sequências de referência, criando assim leituras alinhadas,

- montar as leituras alinhadas, criando assim um contig

- comparar a dita sequência de referência e o dito contig, obtendo-se assim informação relacionada com a posição das discordâncias e o tipo de discordâncias

Petição 870190075592, de 06/08/2019, pág. 19/342

4/55

- codificar a entropia, a informação relacionada com a posição das discordâncias e o tipo de discordâncias.

[009] Num outro aspecto do método de compressão, a montagem das referidas leituras alinhadas compreende a etapa de selecionar, para cada posição na sequência de referência, o nucleotídeo que está presente com a frequência mais elevada nas leituras alinhadas nessa posição.

[010] Num outro aspecto do método de compressão, a referida informação relacionada com a posição de desemparelhamentos e o tipo de emparelhamentos incorretos é indicada utilizando respectivamente um primeiro descritor (203) e um segundo descritor (204).

[011] Num outro aspecto do método de compressão, o primeiro descritor e o segundo descritor são encapsulados numa mesma Unidade de Acesso, de modo a permitir a reconstrução seletiva da sequência de referência utilizada para o alinhamento no dispositivo de descodificação.

[012] Num outro aspecto do método de compressão, o comprimento do dito contig é definido como parâmetro de entrada para o codificador ou dinamicamente adaptado pelo codificador.

[013] Num outro aspecto do método de compressão o referido primeiro descritor é binarizado utilizando uma binarização Unária Truncada Unitária Dividida, em que a dita binarização Unária Truncada Unitária Dividida é uma concatenação de binarizações uniculares truncadas repetidas, em que cada binarização unária truncada é aplicada a partes do valor a ser binarizado que tem N bits de comprimento, em que N é um parâmetro pré-selecionado.

[014] Num outro aspecto do método de compressão, o referido segundo descritor é binarizado utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e, se o referido valor for igual ao maior valor possível a ser binarizado, o 0 bit final é descartado.

[015] Num outro aspecto do método de compressão, o referido método não codifica informação que sinaliza a utilização de um genoma de referência específico.

Petição 870190075592, de 06/08/2019, pág. 20/342

5/55 [016] Em outro aspecto do método de compressão, o dito comprimento do dito contig está contido em um cabeçalho de sintaxe.

[017] O aparelho para codificar dados da sequência do genoma, compreendendo os referidos dados da sequência do genoma leituras de sequências de nucleotideos, compreende meios para:

- montar as leituras alinhadas, criando assim um contig

- comparar a dita sequência de referência e o dito contágio, obtendo-se assim informação relacionada com a posição das discordâncias e o tipo de discordâncias

[018] O aparelho para codificar dados da sequência do genoma, em que os referidos meios para montar as referidas leituras alinhadas compreendem ainda meios para selecionar, para cada posição na sequência de referência, o nucleotídeo que está presente com a maior frequência nas leituras alinhadas nessa posição.

[019] O aparelho para codificar dados de sequências do genoma, compreendendo ainda meios para indicar a referida informação relacionada com a posição de emparelhamentos incorretos e o tipo de desemparelhamentos, respectivamente, por um primeiro descritor (203) e um segundo descritor (204).

[020] O aparelho para codificar dados da sequência do genoma, compreendendo ainda meios para encapsular o referido primeiro descritor e segundo descritor na mesma Unidade de Acesso, de modo a permitir a reconstrução seletiva da sequência de referência utilizada para o alinhamento no dispositivo de decodificação.

[021] O aparelho para codificar dados da sequência do genoma, compreendendo ainda meios para receber o comprimento do referido contig como parâmetro de entrada e meios para adaptar dinamicamente o comprimento do referido contig.

Petição 870190075592, de 06/08/2019, pág. 21/342

6/55 [022] O aparelho para codificar os dados da sequência do genoma, compreendendo ainda meios de binarização para binarizar o referido primeiro descritor empregando uma binarização unária truncada unitária dividida, em que a referida unária truncada unitária dividida é uma concatenação de binarizações unárias truncadas repetidas, em que cada binarização unária truncada é aplicada a porções do valor a ser binarizado que têm N bits de comprimento, em que N é um parâmetro pré-selecionado.

[023] O aparelho para codificar dados da sequência do genoma, compreendendo ainda meios de binarização para binarizar o referido segundo descritor utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual ao maior valor possível a ser binarizado o O-bit final é descartado.

[024] O aparelho para codificar dados da sequência do genoma, compreendendo ainda meios para codificar o referido comprimento do referido contig num cabeçalho de sintaxe.

[025] Um método para decodificar os dados codificados da sequência do genoma, compreende as etapas de:

- analisar o arquivo de entrada codificado, para obter sequências contig

- informações de decodificação de entropia relacionadas à posição de uma incompatibilidade e tipo de incompatibilidade em um contig

- desmontar o contig empregando a referida informação relacionada com a posição de um desajuste e tipo de discordância num contig, obtendo assim uma sequência genômica de nucleotídeo.

[026] Num outro aspecto do método de descodificação, desmontar o contig empregando a referida informação relacionada com a posição de um desemparelhamento e tipo de emparelhamento numa contenção obtendo assim uma sequência genômica de nucleotídeo compreende ainda descodificação de entropia de um primeiro descritor (203) e um segundo descritor (204) [027] Num outro aspecto, o método de descodificação compreende ainda a descapsulação da mesma Unidade de Acesso do referido primeiro descritor e

Petição 870190075592, de 06/08/2019, pág. 22/342

7/55 segundo descritor, de modo a obter a reconstrução seletiva da sequência genômica de nucleotideos.

[028] Num outro aspecto, o método de descodificação compreende ainda a descodificação do comprimento do referido contig a partir de um cabeçalho de sintaxe contido no arquivo de entrada.

[029] Num outro aspecto, o método de descodificação compreende adicionalmente g uma binarização reversa do referido primeiro descritor, em que o referido primeiro descritor é binarizado utilizando uma binarização llnária Truncada Unitária Dividida, em que o referido Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas., onde cada binarização unária truncada é aplicada a partes do valor a ser binarizado que são de N bits de comprimento, em que N é um parâmetro pré-selecionado [030] Num outro aspecto, o método de descodificação compreende ainda uma binarização reversa do referido segundo descritor em que o referido segundo descritor é binarizado utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual ao maior possível valor a ser binarizado o O-bit final é descartado.

[031] Num outro aspecto do método de descodificação, o referido arquivo de entrada não contém informação que sinalize a utilização de um genoma de referência específico.

[032] Um aparelho para descodificar os dados da sequência do genoma codificado, compreende meios para:

- analisar o arquivo de entrada codificado, para obter sequências contig

[033] O aparelho para descodificar os dados codificados da sequência do genoma, em que os referidos meios para desmontar o contig utilizando a referida

Petição 870190075592, de 06/08/2019, pág. 23/342

8/55 informação relacionada com a posição de um desemparelhamento e tipo de emparelhamento numa contig contendo assim uma sequência genômica de nucleotídeo compreendem ainda meios para descodificar a entropia de um primeiro descritor (203) e um segundo descritor (204).

[034] Um aparelho para descodificar os dados da sequência do genoma codificado, compreendendo ainda meios para a reconstrução seletiva da sequência genômica dos nucleotídeos, desencapsulando da mesma unidade de acesso o referido primeiro descritor e o segundo descritor.

[035] O aparelho para descodificar os dados da sequência do genoma codificado, compreende ainda meios para descodificar a partir de um cabeçalho de sintaxe contido no arquivo de entrada a informação relacionada com o comprimento do referido contig.

[036] O aparelho para descodificar os dados codificados da sequência do genoma, compreende ainda meios para uma binarização reversa do referido primeiro descritor, em que o referido primeiro descritor é binarizado utilizando uma binarização Unária Truncada Unitária Dividida, em que o dito Unário Truncado Unitário Dividido é uma concatenação de repetidos binarizações unárias truncadas, onde cada binarização unária truncada é aplicada a porções do valor a ser binarizado que são de N bits de comprimento, em que N é um parâmetro préselecionado.

[037] O aparelho para descodificar os dados codificados da sequência do genoma, compreende ainda meios para uma binarização reversa do referido segundo descritor em que o referido segundo descritor é binarizado utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual para o maior valor possível a ser binarizado, o O-bit final é descartado.

BREVE DESCRIÇÃO DOS DESENHOS [038] A Figura 1 mostra como as sequências genômicas são mapeadas em uma sequência de referência e, em seguida, usadas para construir um conjunto por meio de operações de mesclagem e concatenação. O conjunto construído pode

Petição 870190075592, de 06/08/2019, pág. 24/342

9/55 diferir da sequência de referência nas posições em que as sequências genômicas alinhadas apresentam nucleotídeos diferentes dos presentes na sequência de referência.

[039] A Figura 2 mostra como as discordâncias entre a sequência de referência e o contig são representadas em termos de posições e tipo de discordância e depois codificadas usando codificadores de entropia implementando diferentes binarizações e transformações como definido nesta invenção.

[040] A Figura 3 representa um aparelho codificador compreendendo as etapas de alinhar sequências genômicas em relação a um genoma de referência, construindo contigs fundindo e concatenando as ditas sequências alinhadas, gerando descritores representando as sequências genômicas em relação aos contigs, comprimindo cada bloco de descritores com um dedicado codificador de entropia.

[041] A Figura 4 mostra o processo de descodificação de um fluxo de bits comprimido compreendendo as etapas de demultiplexagem do fluxo de bits de entrada para extrair os descritores codificados por entropia, descodificação de entropia de cada tipo de descritores, construção de contigs, descodificação de sequências de sequências alinhadas usando os contigs construídos, reconstrução do genoma de referência usando os contigs e as posições e tipos de incompatibilidade contig.

[042] A Figura 5 mostra como as leituras de sequência mapeadas entre a coordenada N e a coordenada M na sequência de referência são usadas para construir um contig de comprimento de nucleotídeos MN. A compactação baseada em referência é então aplicada às leituras de sequência mapeadas usando o contig construído. Os descritores genômicos que representam as leituras sequenciais mapeadas são entropia codificados e multiplexados na mesma Unidade de Acesso que os descritores genômicos codificados por entropia representando as diferenças entre a sequência de referência usada para o alinhamento e o contigado construído.

Petição 870190075592, de 06/08/2019, pág. 25/342

10/55 [043] A Figura 6 mostra como uma Unidade de Acesso encapsula descritores compactados que representam leituras de sequência mapeadas em um intervalo contíguo da sequência de referência. As informações de cabeçalho são anexadas aos descritores compactados para permitir a análise de dados.

[044] A Figura 7 mostra como uma Unidade de Acesso do tipo P é composta por um cabeçalho e a multiplexação de blocos de descritores representando as posições de mapeamento de leituras (pos), a informação de complemento reverso (rcomp), a informação de pareamento em caso de leituras finais emparelhadas (par ), o comprimento das leituras no caso de comprimento de leituras variáveis (rlen) e sinalizadores de mapeamento (flags). É usado para codificar leituras da classe P [045] A Figura 8 mostra um sistema de coordenadas em uma Sequência de Referência e mapeamento de pares de leitura e leitura em uma Sequência de Referência.

[046] A Figura 9 mostra como os posicionamentos não mapeados em pares de leitura podem ser montados para construir um contig que possa preencher a lacuna em uma sequência de referência. Além disso, os pares de leitura anteriormente não mapeados podem ser mapeados para o contig recémmontado.

[047] A Figura 10 mostra um exemplo de transformação e binarização de cinco desemparelhamentos entre um genoma de referência e um contig montado.

[048] A Figura 11 mostra como as regiões do genoma de referência usadas para alinhamento em que nenhuma leitura de sequência é mapeada são codificadas em Unidades de Acesso dedicadas para permitir a reconstrução completa do genoma de referência na extremidade de decodificação.

DESCRIÇÃO DETALHADA DA INVENÇÃO [049] As sequências genômicas ou proteómicas referidas na presente invenção incluem, por exemplo, e não como limitação, sequências nucleotídicas, sequências de ácido desoximbonucleico (DNA), ácido ribonucleico (RNA) e sequências de aminoácidos. Embora a invenção aqui seja em detalhes

Petição 870190075592, de 06/08/2019, pág. 26/342

11/55 consideráveis com relação à informação genômica na forma de uma sequência de nucleotídeos, será entendido que os métodos e sistemas para compressão podem ser implementados também para outras sequências genômicas ou proteômicas, embora com algumas variações, como será entendido por uma pessoa perita na arte.

[050] A informação de sequenciamento do genoma é gerada por máquinas de High Throughput Sequencing (HTS) na forma de sequências de nucleotídeos (i.e. bases) representadas por sequências de letras de um vocabulário definido. O menor vocabulário é representado por cinco símbolos: {A, C, G, T, N} representando os 4 tipos de nucleotídeos presentes no DNA: adenina, citosina, guanina e timina. Em RNA timina é substituída por uracila (II). N indica que a máquina de sequenciamento não foi capaz de chamar qualquer base e, portanto, a natureza real do nucleotídeo nessa posição é indeterminada. Caso os códigos de ambigüidade da IIIPAC sejam adotados pela máquina de sequenciamento como vocabulário, o alfabeto usado para os símbolos é composto pelos seguintes símbolos: {A, C, G, T, U, W, S, Μ, K, R, Y, B, D, Η, V, N ou -}. No caso de aminoácidos, os símbolos suportados são: {A, C, D, E, F, G, Η, I, K, L, M,

N, P, Q, R, S, T, V, A, Y}.

Terminologia [051] No contexto desta invenção, as sequências de nucleotídeos produzidas pelas máquinas de sequenciação são chamadas leituras. As leituras de sequência podem ser compostas de um número de nucleotídeos variando de algumas dezenas a milhares. Algumas tecnologias de sequenciamento produzem leituras de sequência compostas de pares, dos quais uma leitura é originada de uma cadeia de DNA e a outra é originada da outra cadeia. Uma leitura associada a outra leitura em um processo de sequenciamento produzindo pares é dita como sua companheira.

[052] Um elemento comum de abordagens eficientes à compressão de leituras de sequência genômica é a exploração da correlação de dados de sequência em relação a uma sequência de referência. Mesmo que o perfil somático da

Petição 870190075592, de 06/08/2019, pág. 27/342

12/55 população humana seja extremamente diversificado, a porção real do número de nucleotídeos que difere de pessoa para pessoa é de apenas 0,1% do número total de nucleotídeos que compõem um genoma inteiro. Portanto, a informação genômica específica que caracteriza cada indivíduo é muito limitada em relação a toda a informação transportada por um genoma inteiro. Quando um genoma de referência preexistente estiver disponível, seja para o sequenciamento anterior ou como uma referência de consenso “média” publicada, a maneira mais comum, a partir de hoje, de codificar a informação é identificar e codificar apenas as diferenças em relação ao genoma de referência.

[053] Para fazer isso com leituras de sequência bruta, geralmente expressas na forma de arquivos de dados FASTQ, uma etapa preliminar de pré-processamento do mapeamento em um genoma de referência. No caso de um genoma de referência apropriado não estiver disponível, ou se a polarização introduzida pelo uso de uma referência específica não é desejável, a construção de uma nova sequência de referência por meio de montagem da leitura de sequência a mão em sequências mais longas chamados contigs, é uma alternativa possível.

[054] Ao longo desta invenção, uma sequência de referência é uma sequência de nucleotídeos associada a um sistema de coordenadas de números inteiros monodimensional, para o qual cada coordenada de número inteiro está associada a um único nucleotídeo. Os valores das coordenadas podem ser iguais ou maiores que zero. Este sistema de coordenadas no contexto deste invento é baseado em zero (isto é, o primeiro nucleotídeo tem a coordenada 0 e diz-se que está na posição 0) e aumenta linearmente da esquerda para a direita.

[055] Quando a sequência de mapeamento é lida em uma sequência de referência, a referida sequência de referência é usada como eixo de um sistema de coordenadas monodimensional no qual a posição mais à esquerda é designada como 0. Para cada sequência lida, mapeada para uma sequência de referência, o nucleotídeo mapeado na posição sequência de referência identificado pelo menor coordenar número é geralmente referido como as sequências de nucleotídeos “mais à esquerda”, enquanto que as sequências de

Petição 870190075592, de 06/08/2019, pág. 28/342

13/55 nucleotideos mapeada na posição sequência de referência identificado pela maior coordenar número é referido como o de nucleotideos “mais à direita”. Isto é ilustrado na Figura 8. Ao longo desta invenção, um nucleotídeo é também referido como uma base.

[056] Quando uma leitura de sequência é mapeada para uma sequência de referência, a coordenada da base mapeada mais à esquerda é representada como representando a posição de mapeamento da leitura na sequência de referência.

[057] Uma base presente na leitura alinhada e não presente na sequência de referência (também conhecida como inserção) e bases preservadas pelo processo de alinhamento mas não mapeadas na sequência de referência (também conhecidas como clipes suaves) não possuem posições de mapeamento.

[058] Quando uma leitura de sequência não pode ser mapeada para qualquer posição mapeada das sequências de referência usadas de acordo com as regras de correspondência especificadas, diz-se que ela não está mapeada.

[059] O processo de construir sequências genômicas mais longas procurando regiões sobrepostas entre as leituras de sequência é chamado de montagem.

[060] Uma sequência genômica mais longa construída para montar leituras mais curtas é chamada de contig (ver https://en.wikipedia.org/wiki/Contig).

[061] As leituras de sequência que falham ao construir qualquer contig durante um processo de montagem são consideradas desalinhadas.

[062] Um genoma de referência é composto por uma ou mais sequências de referência e é montado por cientistas como um exemplo representativo do conjunto de genes de uma espécie. Por exemplo, GRCh37, o genoma humano do Consórcio de Referência do Genoma (build 37) é derivado de treze voluntários anônimos de Buffalo, Nova York. No entanto, uma sequência de referência também pode consistir numa sequência sintética concebida e meramente construída para melhorar a compressibilidade das leituras tendo em vista o seu processamento posterior.

Petição 870190075592, de 06/08/2019, pág. 29/342

14/55 [063] Nesta invenção, a leitura que compõe um par de leitura com um mapeamento de base na menor coordenada em uma sequência de referência é referida como Read 1, enquanto sua correspondência é referida como Read 2. [064] A distância, expressa como o número de nucleotídeos (ou bases), separando duas leituras geradas como um par, por uma máquina de sequenciamento usando a tecnologia atual de sequenciamento de última geração, é desconhecida e é determinada pelo mapeamento de ambas as leituras que compõem o par minimizando funções de correspondência apropriadas a uma sequência de referência.

[065] Ao longo desta invenção, uma Unidade de Acesso (AU) é definida como uma estrutura de dados lógicos contendo uma representação codificada de informações genômicas ou metadados relacionados para facilitar o acesso e a manipulação do fluxo de bits. É a menor organização de dados que pode ser decodificada por um dispositivo de decodificação implementando a invenção descrita nesta invenção.

[066] De acordo com o tipo de informação codificada, uma UA pode ser decodificada independentemente de qualquer outra UA ou usando informações contidas em outras UAs.

[067] As UAs podem ser classificadas em uma multiplicidade de tipos de acordo com a natureza dos dados da sequência codificada. Uma Unidade de Acesso contém uma sequência de referência, ou uma parte dela, ou leituras codificadas ou pares de leitura pertencentes a uma única classe de dados. Qualquer UA único não pode conter dois ou mais tipos de dados de sequência. Por exemplo, uma Unidade de Acesso pode conter todo o cromossomo 1 do GRCh37, o genoma humano do Consórcio de Referência do Genoma (build 37). Outra Unidade de Acesso pode conter a representação codificada de nucleotídeos do cromossomo 1 do GRCh37 que estão localizados entre as coordenadas 50 ' 000 e 150 ' 000. Outra Unidade de Acesso pode conter apenas leituras ou pares de leituras que mapeiam perfeitamente a sequência de referência sem qualquer incompatibilidade. Outra Unidade de Acesso pode conter leituras ou pares de

Petição 870190075592, de 06/08/2019, pág. 30/342

15/55 leitura que contêm apenas “N” símbolos como incompatibilidades em relação à sequência de referência. Outra Unidade de Acesso pode conter leituras ou pares de leitura que contenham qualquer tipo de substituição (por exemplo, uma base presente no par de leitura ou leitura é diferente da base na posição de mapeamento correspondente na sequência de referência). Outra unidade de acesso pode conter leituras ou pares de leitura que contêm incompatibilidades, inserções, exclusões e bases cortadas flexíveis. Outra unidade de acesso pode conter apenas pares de leitura ou leitura que não mapeiam na sequência de referência. Outra Unidade de Acesso pode conter apenas pares de leitura nos quais uma leitura é mapeada e a outra não é mapeada na sequência de referência. Outro tipo de Unidade de Acesso pode conter apenas segmentos codificados de um genoma de referência composto por uma ou mais sequências de referência (por exemplo, cromossomos).

[068] A característica essencial de uma Unidade de Acesso é que ela contém em formato compactado todos os elementos necessários para reconstruir as informações genômicas de leituras de sequência ou pares de leituras, sequências de referência, informações de alinhamento associadas e metadados de leituras ou pares de leituras. Em outras palavras, para reconstruir totalmente as leituras, ou os pares lidos, ou a sequência de referência e as informações associadas transportadas por uma Unidade de Acesso, é necessário recuperar e descompactar a própria Unidade de Acesso e, quando aplicável, as Unidades de Acesso contendo as sequência de referência a que as Unidades de Acesso se referem.

[069] Em cada Unidade de Acesso, os descritores listados na próxima seção e representando as informações em pares de leitura ou leitura codificados são agregados em blocos de dados separados - um por tipo - para explorar suas propriedades estatísticas homogêneas para obter codificação de entropia de alto desempenho.

[070] Cada Unidade de Acesso contém o subconjunto compactado de descritores representando leituras de sequência ou pares de leitura pertencentes

Petição 870190075592, de 06/08/2019, pág. 31/342

16/55 à mesma classe de dados mapeada para uma região genômica em uma sequência de referência. Essa região genômica na sequência de referência é definida por uma coordenada de início (ou posição inicial) e uma coordenada final (ou posição final).

[071] Um exemplo de Unidade de Acesso é ilustrado na Figura 6. As Unidades de Acesso são compostas por blocos de descritores genômicos codificados, conforme descrito na próxima seção. Para permitir o transporte através de uma rede, os blocos são decompostos em pacotes. Ao compactar leituras de sequência genômica, cada Unidade de Acesso contém um descritor compactado que representa leituras de sequência mapeadas para um intervalo genômico na sequência de referência ou leituras de sequência não mapeadas. As Unidades de Acesso podem ser usadas para transportar genomas de referência ou suas partes. Uma sequência de referência pode ser codificada como uma única sequência longa de nucleotideos ou dividida em sequências mais curtas codificadas como leituras de sequência genômica não mapeadas.

[072] No contexto desta invenção, os descritores genômicos são elementos de sintaxe que representam parte da informação (e também elementos de uma estrutura de sintaxe de um formato de arquivo e/ou fluxo de bits) necessários para reconstruir (isto é, decodificar) sequências de referência codificadas, leituras de sequência e informações de mapeamento associadas.

[073] Os descritores genômicos divulgados nesta invenção estão listados na Tabela 1.

Tabela 1. Descritores genômicos e seu significado

ID	Nome abreviado	Descricao
1	pos	Posicao mapeada de uma leitura numa sequencia de referencia
2	pair	Distancia entre uma leitura e sua companheira
3	rlen	Tamanho de uma leitura de sequencia
4	rcomp	Cadeia de DNA ou RNA sobre a qual a leitura foi mapeada

Petição 870190075592, de 06/08/2019, pág. 32/342 / 55

5	mmpos	Posicao de discordâncias (i.e. substituições, delecoes e insercoes) em leituras alinhadas com respeito a sequências de referencia
6	mmtype	Tipos de discordâncias com respeito a sequências de referencia nas posicoes associadas
7	clips	Bases que nao puderam ser mapeadas na sequencia de referencia pelo processo de mapeamento e que foramo tanto matidas (bases “suaves clipes”) ou descartadas (bases “duras clipes”)
8	flags	flags de mapeamento possibilitando que o alinhador especifique o resultado de mapeamento tal como se a leitura de sequencia fosse um PCR ou duplicata optica
9	mmap	Posicoes de mapeamento múltiplo que sao associadas com uma unica leitura ou par de leituras no processo de mapeamento
10	msar	Identificacao de existência de leituras spliced reads (i.e. leituras que quando cortadas em pedaços tem posicoes de mapeamento com maiores graus de precisão de mapeamento do que quando sao mapeadas como leituras de mapeamento simples conectadas numa unica posicao numa sequencia de referencia)
11	ureads	Representação de leituras de sequencia que nao podem ser mapeadas em qualquer posicao da sequencia de referencia com graus específicos de precisão de alinhamento,
12	rtype	Sinalizacao do descritor no sub-conjunto de descritores utilizado para codificar as leituras de sequencia que nao podem ser mapeadas em qualquer posicao da sequencia de referencia com graus específicos de precisão de alinhamento
13	rftp	Posicao de discordâncias entre um contig e uma sequencia de referencia. As posicoes de discordâncias sao terminadas com um caractere especial terminador.
14	rftt	Tipo de discordâncias entre um contig e uma sequencia de referencia.
15	rgroup	Etiqueta associada a cada leitura de sequencia comprimida utilizada para criar grupos de leituras que compartilham a mesma etiqueta
16	mscore	O score por alinhamento. Utilizado para representar mapeamento/alinhamento por leitura por alinhadores de sequencia

Petição 870190075592, de 06/08/2019, pág. 33/342

18/55

genômica.

[074] De acordo com o método divulgado nesta invenção, as sequências de referência ou sua parte, leituras de sequência e a informação de alinhamento associada são codificadas usando um subconjunto dos descritores listados acima que são então codificados por entropia usando uma multiplicidade de codificadores de entropia de acordo com cada descritor específico propriedades estatísticas. Blocos de descritores comprimidos com propriedades estatísticas homogêneas são estruturados em Unidades de Acesso que representam a menor representação codificada de uma ou mais sequências genômicas que podem ser manipuladas por um dispositivo implementando a invenção descrita nesta invenção.

[075] A invenção descrita neste relatório descritivo define um método para representar em termos de descritores genômicos uma sequência de referência usada para alinhar leituras de sequências genômicas. Tais descritores genômicos são comprimidos usando codificadores de entropia específicos. Os blocos de descritores comprimidos são então encapsulados na mesma Unidade de Acesso contendo os descritores genômicos compactados, permitindo a reconstrução de leituras de sequência mapeadas na referida sequência de referência, de modo a permitir transporte eficiente e acesso seletivo.

[076] Numa forma de realização, os presentes princípios são dirigidos à compressão sem perdas de ambas as leituras de sequência genômica com informação de alinhamento associada e sequências de referência utilizadas para o alinhamento. A compressão eficiente é obtida através da construção de sequências mais longas chamadas contigs, mesclando ou concatenando leituras de sequências mapeadas em regiões contíguas da sequência de referência e, em seguida, realizando a compressão baseada em referência de leituras de sequências em relação ao contig construído. A melhor compactação é obtida usando elementos de sintaxe separados chamados “descritores genômicos” para representar todos os recursos que caracterizam leituras de sequências genômicas

Petição 870190075592, de 06/08/2019, pág. 34/342

19/55 mapeadas em uma sequência de referência. 0 formato SAM armazena informações de alinhamento com a sequência de nucleotideos e outros metadados, como as pontuações de qualidade associadas aos pares de bases, as informações de pareamento no caso de leituras finais em pares e assim por diante. De acordo com os princípios da presente invenção, cada uma das características associadas a uma leitura da sequência genômica mapeada ou não mapeada representada por um descritor genômico. Descritores genômicos do mesmo tipo são concatenados em blocos que são comprimidos usando diferentes codificadores de entropia. Deve ser apreciado que a presente invenção não comprime nenhum dos campos SAM tais como a cadeia CIGAR, os sinalizadores de mapeamento, cadeias de nucleotideos ou cadeias de valores de qualidade, mas representam o mesmo tipo de informação utilizando os 16 descritores genômicos ou subespécies específicas, conjuntos deles. A transcodificação de ida e volta de / para o SAM e o formato apresentado é possível para os onze campos obrigatórios do SAM.

[077] As soluções de última geração armazenam genomas montados na forma de arquivos FASTA comprimidos, em que cada sequência de referência (por exemplo, cromossomos) é armazenada como uma sequência de símbolos representando os quatro nucleotideos. Cada sequência de referência faz parte de um genoma de referência (também conhecido como assembly de genoma), que é compactado e armazenado em um banco de dados. Várias montagens de genomas obtidas em diferentes momentos do tempo a partir de alinhamentorial orgânico pertencente ao mesmo organismo ou indivíduo são armazenadas para representar sua história genética. Quando a análise genômica requer a comparação dos dados da sequência do genoma com os genomas de referência existentes, as aplicações da análise genômica efetuam consultas a uma base de dados para recuperar um ou mais genomas de referência de interesse e realizam a análise genômica.

[078] Numa forma de realização preferida, os princípios divulgados nesta invenção podem ser aplicados para implementar armazenamento eficiente de

Petição 870190075592, de 06/08/2019, pág. 35/342

20/55 coleções de genomas de referência incorporados em dados de sequências genômicas comprimidas sem a necessidade de armazenar os genomas comprimidos como recursos separados. Em vez de armazenar os conjuntos genômicos como estruturas de dados separadas a partir dos dados da sequência do genoma, o método e os princípios divulgados nesta invenção permitem armazenar apenas os dados da sequência do genoma com metadados associados permitindo a reconstrução dos genomas utilizados para o alinhamento.

Representação comprimida de leituras de sequências genômicas e sequências de referência [079] Quando as leituras de sequência foram mapeadas em relação a uma sequência de referência pré-existente ou construída, cada leitura de sequência pode ser totalmente representada por um número de elementos denotados nesta divulgação como descritores genômicos ou simplesmente descritores.

[080] Por exemplo, no caso de uma sequência de leitura que corresponde perfeitamente a um segmento de uma sequência de referência, o único subconjunto de descritores necessário para representar a sequência lida é composto pela coordenada da posição de mapeamento na referência (normalmente a coordenada de referência), a posição de mapeamento da base mais à esquerda da sequência lida), o comprimento da sequência lida em si e a informação indicando se a leitura está mapeando na fita de DNA direta ou reversa em relação à sequência de referência.

[081] Caso não seja possível encontrar qualquer posição de mapeamento para a qual todas as bases da sequência lidas correspondam a todas as bases da sequência de referência, o mapeamento (ou mapeamentos) com o número mínimo de incompatibilidades é retido. Nesse caso, é necessário um subconjunto de descritores diferente para também expressar as substituições, as inserções, as eliminações e as bases cortadas que podem ocorrer em correspondência da posição de mapeamento com o número mínimo ou próximo a mínimo de desemparelhamentos. Com este sub-conjunto de descritores, as leituras de

Petição 870190075592, de 06/08/2019, pág. 36/342

21/55 sequência podem ser reconstruídas utilizando as informações transportadas pelos descritores e as informações transportadas pela sequência de referência.

[082] O processo de sequenciamento do genoma pode gerar duplicatas lidas (ou seja, duas ou mais cópias exatas da mesma sequência genômica) por duas razões físicas principais:

- a ocorrência de uma Dupla Reação em Cadeia da Polimerase,

- a ocorrência de uma duplicata óptica no processo de aquisição de dados. Uma leitura é chamada como uma duplicata óptica se o par de leituras estiverem no mesmo bloco e a distância entre leituras for menor que um determinado parâmetro de configuração, dependendo do experimento.

[083] O processo de mapeamento também pode produzir outros tipos de informação, tais como: múltiplas posições de mapeamento possíveis e os escores relacionados, a qualidade do mapeamento, a especificação de leituras emendadas, o mapeamento em duas referências diferentes (geralmente cromossomos) de leituras pertencentes a um par. características do processo de sequenciamento (por exemplo, PCR ou duplicado óptico). Todas essas informações requerem descritores adicionais específicos que estendam cada subconjunto que é então compactado, aplicando para cada subconjunto de descritores algoritmos de codificação de entropia apropriados.

[084] Portanto, cada par de leitura ou leitura pode ser representado de maneira exclusiva por um subconjunto específico de descritores, de acordo com os resultados do processo de mapeamento.

Classificação da leitura de sequência de acordo com regras de correspondência [085] A leitura de sequência gerada pelas máquinas de sequenciação são classificadas pela invenção revelada em seis diferentes “classes” de acordo com os resultados correspondentes do alinhamento em relação a um ou mais sequências de referência “pré-existentes”.

[086] Ao alinhar uma sequência de nucleotídeos de DNA em relação a uma sequência de referência, os seguintes casos podem ser identificados:

Petição 870190075592, de 06/08/2019, pág. 37/342

22/55

- Uma região na sequência de referência é encontrada para coincidir com a sequência de leitura sem qualquer erro (ou seja, mapeamento perfeito). Essa sequência de nucleotídeos é referenciada como “leitura perfeitamente correspondente” ou denotada como “Classe P”.

- Verifica-se que uma região na sequência de referência coincide com a sequência lida com um tipo e um número de desemparelhamentos determinado apenas pelo número de posições em que a máquina de sequenciamento que gera a leitura não foi capaz de chamar qualquer base (ou nucleotídeo). Esse tipo de incompatibilidade é denotado por um “N”, a letra usada para indicar uma base de nucleotídeos indefinida. Neste documento, esse tipo de incompatibilidade é chamado de incompatibilidade de tipo n. Essas sequências pertencem às leituras de “Classe N”. Uma vez que a leitura é classificada como pertencente à Classe N, é útil limitar o grau de imprecisão de correspondência a um determinado limite superior e estabelecer um limite entre o que é considerado uma correspondência válida e o que não é. Portanto, as leituras atribuídas à Classe N também são resequênciaidas pela configuração de um limite (MAXN) que define o número máximo de bases indefinidas (isto é, bases chamadas como “N” ) que uma leitura pode conter. Essa classificação define implicitamente a precisão mínima correspondente (ou o grau máximo de incompatibilidade) de que todas as leituras pertencentes à participação da Classe N se referem à sequência de referência correspondente, que constitui um critério útil para aplicar pesquisas de dados seletivas aos dados compactados. A título de exemplo e não limitative, algumas aplicações de análise podem exigir que as leituras mapeadas contenham apenas um máximo de 3 bases indeterminadas (“N”) quando mapeadas para um genoma de referência para serem consideradas candidatas aceitáveis para análise posterior. Com os formatos existentes, como SAM / BAM, um pipeline de processamento precisa descompactar todo o conjunto de dados e analisar todos os registros descompactados para descartar leituras com mais de 3 “N” símbolos e manter apenas aqueles com 3 ou menos de 3 “N” símbolos antes de prosseguir com uma análise mais aprofundada. De acordo com um aspecto das presentes

Petição 870190075592, de 06/08/2019, pág. 38/342

23/55 princípios, uma aplicação de codificação é capaz de comprimir separadamente lê com 3 ou menos “N” símbolos de modo que um pipeline de processamento pode descodificar e utilizá-los sem qualquer necessidade de processamento ou armazenamento adicionais.

- Constata-se que uma região na sequência de referência corresponde à sequência lida com tipos e número de desemparelhamentos determinados pelo número de posições em que a máquina de sequenciamento que gera a leitura não foi capaz de chamar qualquer base de nucleotídeo, se presente (isto é, “tipo n”) incompatibilidades), mais o número de incompatibilidades em que uma base diferente, do que a presente na referência, foi chamada. Esse tipo de incompatibilidade denotado como “substituição” também é chamado de Variação Nucleotídica Única (SNV) ou Polimorfismo de Nucleotídeo Único (SNP - Single Nucleotide Polymorphism). Neste documento, esse tipo de incompatibilidade também é chamado de incompatibilidade do tipo s. A sequência lida é então referenciada como “M leituras não correspondentes” e atribuída à “Classe M”. Como no caso da Classe N, também para todas as leituras pertencentes à “Classe M” é útil limitar o grau de imprecisão de correspondência a um determinado limite superior e estabelecer um limite entre o que é considerado uma correspondência válida e o que é não é. Portanto, as leituras atribuídas à Classe M também são restritas definindo um conjunto de limites, um para o número “N” de incompatibilidades de “tipo η” (MAXN) se presente, e outro para o número de substituições “s” (MAXS ). Uma terceira restrição é um limite definido por qualquer função dos números “N” e “s”, f (n, s). Essa terceira restrição permite gerar classes com um limite superior de imprecisão de correspondência de acordo com qualquer critério de acesso seletivo significativo. Por exemplo, e não como limitação, f (n, s) pode ser (n + s) 1/2 ou (n + s) ou qualquer expressão linear ou não linear que defina um limite com o nível máximo de imprecisão correspondente é admitido para uma leitura pertencente à “Classe M”. Tal limite constitui um critério muito poderoso para implementar pesquisas de dados seletivas sofisticadas para os dados compactados ao analisar leituras de sequência para

Petição 870190075592, de 06/08/2019, pág. 39/342

24/55 várias finalidades. A título de exemplo e não de limitação, que permite a selecção de origem genômica comprimido lê contendo qualquer combinação possível do número de “tipo n” erros de emparelhamento e “tipo S” de erros de emparelhamento (substituições) para além do limite simples aplicada ao um tipo ou de outro. As soluções existentes, como o formato SAM / BAM, não suportam nativamente a seleção de leituras de sequência alinhadas que possuem um número definido pelo usuário de incompatibilidades em relação ao genoma de referência. A seleção da sequência genômica indica que, no máximo, um número “N” de substituições em relação a um genoma de referência exigiría:

1. a descompactação de todo o arquivo BAM no arquivo SAM textual

2. a análise do SAM decodificado usando analisadores de texto configurados para selecionar as leituras desejadas [087] Essa abordagem exigiría um espaço de armazenamento muito grande (o texto SAM é cerca de 2,5 vezes maior que o BAM) e um tempo de processamento longo na ordem de várias horas para uma cobertura de 30x.

[088] De acordo com um aspecto dos presentes princípios, a sequência genômica lê apresentando qualquer número de incompatibilidades definido pelo usuário pode ser compactado separadamente para estar disponível para descompactação sem a necessidade de descompactar todo o conjunto de dados.

- Uma quarta classe é constituída por leituras de sequenciamento apresentando pelo menos uma incompatibilidade de qualquer tipo entre “inserção”, “deleção” (i.e. indels ) e “recortada”, mais, se presente, qualquer tipo de incompatibilidade pertencente à classe N ou M é referida como “leituras incompatíveis” e atribuída a uma “Classe I”. As inserções são constituídas por uma sequência adicional de um ou mais nucleotídeos não presentes na referência, mas presentes na sequência lida. Neste documento, esse tipo de incompatibilidade é chamado de incompatibilidade “tipo i. Na literatura, quando a sequência inserida é nas bordas da sequência que é também referido como “suave cortada” (isto é, os nucleotídeos não são correspondentes a referência mas são mantidas na alinhado lê ao contrário de nucleotídeos “duros cortados”

Petição 870190075592, de 06/08/2019, pág. 40/342

25/55 que são rejeitados). Neste documento, esse tipo de incompatibilidade é chamado de incompatibilidade de tipo c. Deleção são “buracos” (falta de nucleotídeos) na leitura em relação à referência. Neste documento, esse tipo de incompatibilidade é chamado de incompatibilidade de tipo d. Como no caso das classes “N” e “M”, é possível e apropriado definir um limite para a imprecisão correspondente. A definição do conjunto de restrições para “Classe I” é baseada nos mesmos princípios usados para “Classe M” e é reportada na Tabela 1 nas últimas linhas da tabela. Além de um limite para cada tipo de incompatibilidade admissível para dados de Classe I, uma restrição adicional é definida por um limite determinado por qualquer função do número de discordâncias “N”, “s”, “d”, “i” e “c”, W (n, s, d, i, c). Tal restrição adicional possibilita gerar classes com um limite superior de imprecisão de correspondência de acordo com qualquer critério de acesso seletivo definido pelo usuário significativo. Por exemplo, e não como limitação, w (n, s, d, i, c) pode ser (n + s + d + i + c) 1/5 ou (n + s + d + i + c) ou qualquer expressão linear ou não linear que defina um limite para o nível máximo de imprecisão correspondente admitido para uma leitura pertencente à “Classe I”. Tal limite constitui um critério muito útil para aplicar as pesquisas de dados seletivos desejados para os dados comprimidos ao analisar leitura de sequência para diversos fins, pois permite definir um novo limite para qualquer combinação possível do número de incompatibilidades admissíveis em leituras “Classe I” além o limite simples aplicado a cada tipo de divergência admissível.

- Uma quinta classe inclui todas as leituras que não encontram nenhum mapeamento considerado válido (ou seja, não satisfazendo o conjunto de regras de correspondência que definem um limite superior à imprecisão máxima correspondente, conforme especificado na Tabela 1) para cada classe de dados quando se referem à sequência de referência. Essas sequências são chamadas de “Não mapeadas” quando se referem às sequências de referência e são classificadas como pertencentes à “Classe U”.

Classificação de pares de leitura de acordo com regras de correspondência

Petição 870190075592, de 06/08/2019, pág. 41/342

26/55 [089] A classificação especificada na seção anterior se refere a leituras de sequência única. No caso de tecnologias de sequenciamento que geram leitura em pares (ou seja, Illumina Inc.) em que duas leituras são conhecidas por serem separadas por uma sequência desconhecida de comprimento variável, é apropriado considerar a classificação do par inteiro para uma única classe de dados. Uma leitura que é acoplada a outra é dita como sua “companheira”.

[090] Se ambas as leituras pareadas pertencerem à mesma classe, a atribuição a uma classe do par inteiro é óbvia: o par inteiro é atribuído à mesma classe para qualquer classe (por exemplo, P, N, Μ, I, U). No caso em que as duas leituras pertencem a uma classe diferente, mas nenhuma delas pertence à Classe U, o par inteiro é atribuído à classe com a prioridade mais alta definida de acordo com a seguinte expressão:

P < N < Μ < I em que “Classe P” tem a prioridade mais baixa e “Classe I” tem a prioridade mais alta.

[091] No caso de apenas uma das leituras pertencer à Classe U e sua correspondência a qualquer uma das Classes P, N, Μ, I, uma sexta classe é definida como Classe HM, que significa Half Mapped.

[092] A definição dessa classe específica de leituras é motivada pelo fato de que é usada para tentar determinar lacunas ou regiões desconhecidas existentes em genomas de referência (também conhecidas como regiões pouco conhecidas ou desconhecidas). Essas regiões são reconstruídas por pares de mapeamento nas bordas usando o par lido que pode ser mapeado nas regiões conhecidas. O alinhamento não mapeado é então usado para construir os chamados “contigs” da região desconhecida, como é mostrado na figura 9. Por conseguinte, proporcionar um acesso seletivo apenas a esse tipo de pares de leitura reduz grandemente a carga de computação associada permitindo que o processamento muito eficiente de tais dados originados por grandes quantidades de conjuntos de dados do que usar as soluções do estado da arte necessite de ser inteiramente inspecionado.

Petição 870190075592, de 06/08/2019, pág. 42/342

27/55 [093] A tabela abaixo resume as regras de correspondência aplicadas às leituras para definir a classe de dados a que cada leitura pertence. As regras são definidas nas cinco primeiras colunas da tabela em termos de presença ou ausência de tipos de incompatibilidade (diferenças de tipo n, s, d, i e c). A sexta coluna fornece regras em termos de limite máximo para cada tipo de incompatibilidade e qualquer função f (n, s) e w (n, s, d, i, c) dos possíveis tipos de incompatibilidade.

Tabela 2. O tipo de discordâncias e o conjunto de restrições que cada leitura de sequência deve satisfazer para ser classificada nas classes de dados definidas nesta divulgação da invenção.

Numero e tipos de discordância encontrados quando se alinha uma leitura com uma sequencia de referencia	Conjunto de restrições de precisão de alinhamento	Classe de alinhamento
No. de bases desconhe cidas (“N”)	No. de substituicoe s	No. de delecoes	No. de insercoe s	No. de bases clip
0	0	0	0	0	0	P
n > 0	0	0	0	0	n < MAXN	N
n > MAXN	U
n > 0	s > 0	0	0	0	n < MAXN e s < MAXS e f(n,s) < MAXM	M
n > MAXN ou s > MAXS ou f(n,s) > MAXM	U
n > 0	s > 0	d>0*	i > 0*	c > 0*	n < MAXN e s < MAXS e d <MAXDe i < MAXI e c < MAXC w(n,s,d,i,c) < MAXTOT	1
*pelo menos ums discordância de tipod, i, c precisa estar presente (i.e. d>0 or i>0 or c>0)
d > 0	i > 0	c > 0	n > MAXN ou s > MAXS ou d > MAXD ou i > MAXI ou c > MAXC w(n,s,d,i,c) >	U

Petição 870190075592, de 06/08/2019, pág. 43/342

28/55

MAXTOT

Comparação com abordagens de última geração [094] Abordagens comumente usadas, como SAM e CRAM, não codificam leituras ou pares de leitura de acordo com o subconjunto específico de descritores necessários para representar suas informações de mapeamento. O SAM e o CRAM não classificam as leituras de sequência em classes de dados de acordo com o número e o tipo de incompatibilidades que elas contêm em relação à sequência de referência à qual são mapeadas. Além disso, esses formatos não codificam leituras de sequência separadamente em Unidades de Acesso contendo apenas leituras de sequência pertencentes a uma única classe de dados. No caso de leituras de sequência geradas em pares, as abordagens do estado da arte não as codificam como elementos únicos particionados em classes de acordo com a precisão do mapeamento em relação à sequência de referência. Tais abordagens de ponta são caracterizadas pelas seguintes limitações e desvantagens:

1. A codificação de leituras ou leituras de pares sem classificar as leituras de sequência em classes de dados separadas de acordo com os resultados do mapeamento versus uma sequência de referência e usar um superconjunto exclusivo de descritores é uma abordagem ineficiente que produz um desempenho de compactação deficiente.

2. A falta de modelagem de origem para os dados compactados e o uso de compressores para fins gerais, como ZIP, GZIP e LZMA, produzem baixas taxas de compactação.

3. A codificação de pares de leitura como leituras de sequências separadas requer a duplicação de vários descritores contendo a mesma informação, tal como, por exemplo, os identificadores de leitura (nomes de leitura), resultando assim ineficiente e produz um desempenho de compressão pobre.

4. A recuperação da informação necessária para reconstruir pares de leitura resulta ser complexa e ineficiente, uma vez que o processo requer uma busca sequencial de força bruta em possivelmente todo o conjunto de dados que

Petição 870190075592, de 06/08/2019, pág. 44/342

29/55 pode ser extremamente grande no caso da tecnologia NGS (Next-Generation Sequencing).

5. O acesso seletivo para ler ou ler pares mapeados para regiões genômicas específicas requer a pesquisa de todo o conjunto de dados para garantir que todos os pares de leitura ou leitura sejam recuperados.

[095] Ao codificar pares de leitura por meio de um único subconjunto de descritores, as seguintes vantagens técnicas são evidentes para um técnico no assunto:

1. As informações comuns a ambas as leituras, que são claramente redundantes, não são replicadas codificando um par como elemento único (por exemplo, identificadores de par de leituras, distância de mapeamento, identificadores de referência de mapeamento, várias informações de qualidade de mapeamento atualmente codificadas por sinalizadores específicos no formato de arquivo SAM)

2. A recuperação da informação de emparelhamento mútuo (ou seja, a informação que fornece a leitura que é o alinhamento de qualquer leitura à mão) é simples e não requer qualquer processamento adicional. Por outro lado, no estado da técnica, pode ser necessário analisar todo o volume de dados.

[096] Para permitir acesso seletivo eficiente a partes específicas de dados de sequenciamento e poder transportá-los em uma rede de dados digital, o conjunto de descritores usados para representar leituras de sequência alinhadas a uma referência são estruturados em blocos de dados independentes e separados logicamente chamados de Unidades de Acesso. (AU). Cada Unidade de Acesso contém apenas a representação compactada de uma única classe de dados e pode ser decodificada independentemente de quaisquer outras Unidades de Acesso ou usando apenas as Unidades de Acesso que transportam a representação codificada da região de sequência de referência usada para mapeamento. Isso permite acesso seletivo e recursos de transporte fora de ordem.

Petição 870190075592, de 06/08/2019, pág. 45/342

30/55 [097] A fim de aumentar a eficiência de compressão deste invento elimina a necessidade de especificar o “identificador de referência de mapeamento” descritor para cada par ler tendo ambos os pares mapeados na mesma sequência de referência. Cada Unidade de Acesso pode conter apenas leituras ou pares que mapeiam na mesma referência. Usando essa solução, o descritor que representa o identificador de sequência de referência precisa ser codificado apenas uma vez por cada Unidade de Acesso ou conjunto de Unidades de Acesso (e não repetido para cada leitura, como feito atualmente nos formatos SAM / BAM).

[098] A única exceção da regra expressa acima é o caso de pares de leitura com as duas leituras mapeadas em diferentes sequências de referência (por exemplo, cromossomos). Neste caso, o par é dividido e as duas leituras são codificadas como dois registros genômicos separados e cada leitura codificada contém o identificador da sequência de referência para a qual seu posicionamento é mapeado.

[099] Dados experimentais demonstraram que o desenvolvimento de codificadores de entropia adequados às propriedades estatísticas dos descritores genômicos proporcionam melhor desempenho de compressão com relação ao uso de um compressor de uso geral (por exemplo, algoritmo do tipo LZ) aplicado a um conjunto heterogêneo de dados. Como consequência, ao codificar a sequência genômica em pares por meio de um subconjunto específico de descritores, maior compressão é alcançada graças à menor entropia que caracteriza cada subconjunto separado de descritores e maior eficiência de processamento ao reconstruir e recuperar pares de leitura.

[100] As vantagens em termos de proporções de compressão alcançáveis proporcionadas pela abordagem descrita nesta invenção são descritas nas secções seguintes onde as diferentes binarizações e transformações aplicadas a diferentes blocos de descritores genômicos antes da codificação de entropia são descritas com o desempenho relacionado.

Codificação de genomas de referência com dados de sequência

Petição 870190075592, de 06/08/2019, pág. 46/342

31/55 [101] Numa forma de realização, os presentes princípios são dirigidos à compressão sem perdas de sequências de referência, tais como genomas de referência ou conjuntos de genoma, quando é realizada uma compressão sem referência de dados de sequências alinhadas. Compactação sem referência de dados de sequência alinhados de acordo com Voges, J., Munderloh, M., Ostermann, J., “Predictive Coding of Aligned Next-Generation Sequencing Data” (2016 Data Compression Conference (DCC)) pode ser implementada usando ο descritores genômicos de 1 a 12 definidos na Tabela 1 desta invenção. Voges usa um buffer circular para armazenar progressivamente leituras de sequência codificadas e construir o contig relacionado usando a sequência SAM CIGAR associada a cada sequência alinhada. Embora esta abordagem mencionada possa conseguir uma compressão eficiente dos dados de sequenciação do genoma 101 mapeados numa sequência de referência 100, não suporta a representação e compressão da própria sequência de referência 100, porque um motor de descodificação só será capaz de reconstruir o contig e o comprimido lê a sequência genômica, mas o genoma de referência original usado para o alinhamento não está contido nos dados compactados. Esta divulgação visa utilizar os descritores genômicos não. 13 e 14 na Tabela 1 para conseguir uma compressão eficiente do genoma de referência utilizado para o alinhamento quando é aplicada uma compressão sem referência aos dados da sequência do genoma. Isto é conseguido armazenando nos dados comprimidos as diferenças entre os contigs montados durante o processo de compressão e o genoma de referência usado para o alinhamento. No final da decodificação, o processo de decodificação irá reconstruir o contig utilizado para a leitura da sequência genômica de descompressão e - por meio dos descritores 13 e 14 - será capaz de reconstruir o genoma de referência utilizado para o alinhamento.

[102] A Figura 1 mostra como leituras de sequência alinhadas 101 podem ser usadas para construir uma sequência mais longa 102 denominada contig a ser usada para realizar compressão baseada em referência. O contig é montado selecionando, por cada posição no genoma de referência, o nucleotídeo que está

Petição 870190075592, de 06/08/2019, pág. 47/342

32/55 presente com a maior freqüência nas leituras alinhadas nessa posição. Se tal nucleotídeo é o mesmo que na sequência de referência, isso é dito que é uma “correspondência”. Caso contrário, se for diferente, diz-se que é um “desajuste”. Isso não é possível na abordagem de Voges, onde o buffer deve ser fixado a priori, também devido a escolhas de design predefinidas.

[103] Além disso, na presente invenção, o comprimento do contig pode ser definido pelo usuário (por exemplo, em um arquivo de parâmetro de entrada) ou dinamicamente atualizado pelo codificador. As informações sobre o comprimento do contig podem ser enviadas do codificador para o decodificador em uma estrutura de dados contida no formato de arquivo usado para armazenar ou transmitir as informações genômicas compactadas, como a mostrada na Tabela

18. Esse novo recurso tem a vantagem considerável de ser definido por um parâmetro, pode ser adaptado às várias arquiteturas de codificador e decodificador e suas limitações relevantes, e também é adaptável à evolução das várias arquiteturas que serão usadas para codificação e decodificação das sequências do genoma e complexidade computacional da sequência a ser codificada.

[104] O comprimento contig pode ser expresso em termos de número de nucleotideos e/ou número de leituras usadas no processo de codificação e decodificação. Este processo é mostrado na figura.

[105] Adicionalmente, a figura 2 mostra como as ditas “incompatibilidades” (202) entre a sequência de referência 200 e o contig 201 são codificadas usando os descritores no. 13 e não. 14 da tabela 1. A entropia codificando tais descritores e encapsulando-os na mesma Unidade de Acesso contendo os descritores utilizados para comprimir as leituras de sequências alinhadas possibilita a reconstrução no dispositivo de decodificação do genoma de referência utilizado para o alinhamento.

[106] Numa outra forma de realização da invenção, as regiões do genoma de referência utilizadas para o alinhamento que não são abrangidas por qualquer uma das leituras mapeadas, podem ser comprimidas (isto é, entropia codificadas),

Petição 870190075592, de 06/08/2019, pág. 48/342

33/55 encapsuladas e transportadas em Unidades de Acesso específicas. Tais Unidades de Acesso contêm apenas a representação comprimida do genoma de referência usado para o alinhamento e cobrem as regiões genômicas nas quais nenhuma leitura de sequência é mapeada. Isso é mostrado na figura 11, onde regiões do genoma de referência usadas para alinhamento, mas nas quais nenhuma leitura é mapeada, são codificadas em Unidades de Acesso específicas. A vantagem técnica de tal invenção é a possibilidade de reconstruir completamente na extremidade de decodificação o genoma de referência usado para o alinhamento sem a necessidade de armazenar uma quantidade de dados correspondente ao volume completo de um genoma de referência.

[107] As vantagens técnicas dessa abordagem em relação à solução de Voges et al. citadas aqui são as seguintes:

1. O genoma de referência usado para o alinhamento está disponível no dispositivo de decodificação sem qualquer transmissão fora da banda de dados adicionais (por exemplo, o genoma comprimido ou qualquer outra referência a repositórios externos)

2. O genoma de referência pode ser reconstruído seletivamente no dispositivo de decodificação com uma granularidade igual à região genômica coberta por cada Unidade de Acesso. Regiões parciais do genoma de referência podem ser acessadas com um mecanismo de acesso aleatório. Isso permite um processamento de dados muito mais eficiente em relação à solução existente, que exige descompressão e manipulação de todos os 3,2 bilhões de nucleotídeos que compõem um genoma de referência humano, mesmo se a análise for restrita a uma região genômica muito menor

3. Os descritores rftp e rftt descritos nesta invenção podem ser usados por pipelines de análise do genoma como indicadores do novo Polimorfismo de Nucleotídeo Único (também conhecido como SNP, ver httpsV/en wikip^ presente nos dados da sequência comprimida quando o genoma de referência usado para alinhamento pertence ao mesmo indivíduo ao qual pertencem os dados de

Petição 870190075592, de 06/08/2019, pág. 49/342

34/55 sequência compactada. Ele tem que ser apreciado que - no muito elevado (mais do que 30 vezes) de cobertura - pode ser considerado como uma nova montagem de um indivíduo a 102 contig construído durante o processo de compressão de referência-menos genoma s. Quando o contig é comparado a um genoma 100 de referência previamente obtido pertencente ao mesmo indivíduo, as diferenças encontradas são uma indicação da possível presença de um polimorfismo de nucleotídeo único (também conhecido como SNP, veja https://en.wikipedia.org/wiki/ Polimorfismo de nucleotídeo único).

Codificação de entropia de descritores genômicos [108] Subconjuntos de descritores genômicos definidos nesta invenção são usados para representar dados genômicos pertencentes às seis classes definidas de acordo com o princípio desta invenção. As Figuras 6 e 7 mostram que leituras de sequências genômicas mapeadas em regiões contíguas das sequências de referência são representadas por blocos de descritores genômicos encapsulados em uma Unidade de Acesso. Os referidos blocos de descritores são codificados por entropia utilizando diferentes codificadores de entropia especificamente adaptados às propriedades estatísticas de cada descritor. Essa abordagem fornece melhores taxas de compactação do que outras abordagens, como SAM / BAM ou CRAM, porque cada bloco de descritores genômicos representa uma fonte de informações que pode ser modelada com mais eficiência do que um registro SAM ou CRAM. Os registros SAM e CRAM são grupos de elementos heterogêneos que não compartilham as mesmas propriedades estatísticas dos descritores genômicos definidos nesta invenção.

[109] As transformações e binarizações aplicadas aos descritores juntamente com os parâmetros de configuração necessários para os codificadores de entropia dos referidos descritores proporcionando melhores razões de compressão do que a solução do estado da técnica e são divulgados nesta invenção como relatado abaixo.

Transformação de descritores

Petição 870190075592, de 06/08/2019, pág. 50/342

35/55 [110] A transformação de descritores é um processo pelo qual um descritor de valor s que representa uma característica genômico, tal como uma posição de desemparelhamento dentro de uma sequência genômica ou de uma incompatibilidade de tipo se transforma num valor correspondente diferente, a fim de atingir melhor o desempenho da compressão. Numa forma de realização, de acordo com os princípios desta invenção, as posições de desemparelhamentos representadas pelo descritor rftp são transformadas de acordo com as seguintes etapas:

1. A entrada para o processo de transformação são posições de desemparelhamentos expressos como distâncias em nucleotídeos do primeiro nucleotídeo da sequência lida. Isto é mostrado na figura 2, onde os quatro desemparelhamentos 203 dos contigs montados em relação à sequência de referência estão na posição 4, 6, 10 e 13.

2. Cada posição absoluta é então transformada em uma posição diferencial em relação à incompatibilidade anterior. A primeira incompatibilidade mantém o mesmo valor. Os valores das quatro posições são então transformados em 4, 2, 4, 3. Esses valores são a entrada para o processo de binarização do descritor rftp descrito abaixo.

[111] Numa forma de realização, de acordo com os princípios desta invenção, os tipos de erros de correspondência representados pelo descritor rftt são transformados de acordo com as seguintes etapas:

1. A entrada para o processo de transformação é um tipo de incompatibilidade expresso como símbolos de nucleotídeos. Isto é mostrado na figura 2, onde os quatro desemparelhamentos 204 dos contigados montados em relação à sequência de referência são do tipo A, A, G, A.

2. Cada nucleotídeo é então transformado num valor inteiro representando a posição do nucleotídeo num vector 209 contendo todos os símbolos possíveis. Isso é mostrado na figura 10. Os quatro tipos de incompatibilidade são então transformados em 0, 0, 2, 0. Esses valores são a entrada para o processo de binarização do descritor rftt descrito abaixo.

Petição 870190075592, de 06/08/2019, pág. 51/342

36/55

Binarização de descritores [112] Numa forma de realização, a presente invenção utiliza codificação aritmética binária adaptativa ao contexto (CABAC) para a compressão dos descritores genômicos. O CABAC primeiro converte em uma representação binária todos os símbolos a serem codificados. O processo de binarização converte um símbolo de valor não-binário (por exemplo, uma posição de mapeamento, um comprimento de leitura mapeado ou um tipo de incompatibilidade) em um código binário antes da codificação aritmética.

[113] A seleção de binarizações apropriadas adaptadas às propriedades estatísticas de cada descritor fornece melhores taxas de compressão do que os formatos existentes baseados em compressores de uso geral aplicados em blocos de elementos heterogêneos.

[114] Nas seções a seguir, essas variáveis são definidas:

- symVal: valor não binário do descritor genômico a ser binarizado.

- cLength: representa o número de bits com os quais o valor é binarizado.

- cMax: é o maior valor possível a ser binarizado. Valores maiores serão truncados.

[115] Enquanto as tabelas de binarização a seguir são calculadas para valores fixos dessas variáveis, deve ser apreciado que os princípios atuais não estão limitados a esses valores, e assim outros valores também podem ser usados de acordo com os princípios atuais, mantendo o espírito de os princípios presentes.

[116] Cada algoritmo de binarização usado nesta divulgação é identificado por um identificador como mostrado na Tabela 3.

Tabela 3. Tipo de binarizações e respectivos identificadores

ld binarizacao	Tipo de binarizacao
0	Binary Coding (Bl)
1	Truncated Unary (TU)
2	Exponential Golomb (EG)
3	Signed Exponential Golomb (SEG)
4	Truncated Exponential Golomb (TEG)
5	Signed Truncated Exponential Golomb (STEG)
6	Split Unit-wise Truncated Unary (SUTU)
7	Signed Split Unit-wise Truncated Unary (SSUTU)
8	Double Truncated Unary (DTU)

Petição 870190075592, de 06/08/2019, pág. 52/342

37/55

9	Signed Double Truncated Unary (SDTU)

Codificação Binária (BI) [117] Esta é uma representação binária padrão, na qual cada valor numérico é codificado em sua representação binária. A variável cLength - mostrada na Tabela 15 quando binarizationjd = 0 - representa os números de bits com os quais o valor será representado.

Binarização llnária (TU) Truncada [118] Uma sequência binária TU é a concatenação de symVal, seguida de um zero. Se symVal == cMax, o O-bit final é descartado. A Tabela 4 ilustra as cadeias de bin da binarização unária truncada com cMax = 3.

Tabela 4. Cadeia bin da binarização unária truncada com cMax == 3

symVal	Cadeia binaria
0	0
1	1	0
2	1	1	0
3	1	1	1
binldx	0	1	2

[119] A sintaxe para este processo de binarização, juntamente com a decodificação aritmética, é descrita abaixo.

decode_cabac_TU(ctxTable, ctxldx, cMax) { for (binldx=0; binldx<cMax; binldx++) { binValue if (binValue == 0) break }

return binldx }

[120] binValue é o valor binarizado que pode ser 0 ou 1.

Binarização Exponencial de Golomb (EG)

Petição 870190075592, de 06/08/2019, pág. 53/342

38/55 [121] 0 processo de análise para descritores genômicos binarizados usando esta técnica começa com a leitura dos bits começando no local atual no fluxo de bits até e incluindo o primeiro bit não zero, e contando o número de bits iniciais que são iguais a 0.

[122] Esse processo é especificado da seguinte maneira:

leadingZeroBits= -1 for( b = 0; !b; leadingZeroBits++ ) b = read_bits( 1 ) [123] A variável symVal é então atribuída da seguinte forma: symVal = 2^{leadingZeroBlts} - 1 + read_bits( leadingZeroBits ) onde os bits de leitura da chamada de função lêem um número de bits de um meio de armazenamento igual ao parâmetro passado como entrada. O valor retomado de read_bits (leadingZeroBits ) é interpretado como uma representação binária de um inteiro não assinado com o bit mais significativo gravado primeiro.

[124] A Tabela 5 ilustra a estrutura do código Exp-Golomb, separando a sequência de bits em bits prefixo e sufixo. Os bits de prefixo são aqueles que são analisados como especificado acima para o cálculo de ZeroBeres principais, e são mostrados como 0 ou 1 na coluna de cadeia de bits da Tabela 5. Os bits de sufixo são os bits que são analisados no cálculo de symVal e são mostrados como x j na Tabela 5, com i na faixa de 0 a leadingZeroBits - 1, inclusive. Cada x ,é igual a 0 ou 1.

Tabela 5. Representações binárias para valores de symVal de 0 a 62

Forma de sequencia bit	Faixa de symVal
1	0
0 1 x₀	1..2
0 0 1 Xt x₀	3..6
0 0 0 1 x₂ Xi Xo	7..14
0 0 0 0 1 x₃ x₂ Xi Xo	15..30
0 0 0 0 0 1 x₄ x₃ x₂ Xi Xo	31..62

Petição 870190075592, de 06/08/2019, pág. 54/342

39/55 [125] A Tabela 6 ilustra as atribuições exp ícitas de cadeias de bits para valores symVal.

Tabela 6. Sequencias de bit Exp-Golomb e symVal em forma explícita

Sequencia bit	symVal
1	0
0 1 0	1
0 1 1	2
00 100	3
00101	4
00110	5
00111	6
0001000	7
0001001	8
0001010	9

[126] Dependendo do descritor genômico, o valor de um elemento de sintaxe binarizado é decodificado usando um dos seguintes métodos:

1. 0 valor do descritor genômico decodificado é igual ao valor symVal correspondente ao descritor binarizado

2. O valor do descritor genômico decodificado é calculado pela aplicação da decodificação Exponencial-Golomb de 0 ordens, conforme definido, por exemplo, em https://en.wikipedia.orq/wiki/Exponential-Golomb coding com symVal como entrada.

Binarização Exponencial Significada de Golomb (SEG) [127] De acordo com este método de binarização, o descritor genômico é associado ao symVal ordenando o elemento sintático pelo seu valor absoluto em ordem crescente e representando o valor positivo para um determinado valor absoluto com o symVal inferior. [128] A Tabela 7 mostra a regra de atribuição.

Petição 870190075592, de 06/08/2019, pág. 55/342

40/55

Tabela 7. Atribuição de elemento de sintaxe a symVal para descritores genômicos codificados por Exp-Golomb assinados.

symVal	valor de elemento de sintaxe
0	0
1	1
2	-1
3	2
4	-2
5	3
6	-3
k	(-1)^k+1 Ceil( k-2 )

Binarização de Golomb Exponencial Truncado (TEG) [129] Este processo de binarização requer o uso de um parâmetro de entrada adicional tegParam que define como a binarização é calculada.

[130] A saída desse processo é a binarização do TEG do elemento de sintaxe.

[131] Uma cadeia bin do TEG é a concatenação de tipos de binarização 1 (no caso de symVal == 0) ou 2 (no caso de symVal> 0):

1. A binarização unária truncada com cMax = tegParam para o valor Min (symVal, tegParam)

2. Se symVal! = 0, a binarização exponencial de golomb para o valor Abs (symVal) - tegParam [132] A Tabela 8 ilustra as cadeias de bin da binarização de Golomb Exponencial Truncada com tegParam == 2.

Tabela 8. Sequência Bin da Binarização Exponencial Truncada de Golomb com tegParam = 2

symVal	Unario truncado	Golomb exponencial
0	0	-	-	-	-
1	1	0	-	-	-
2	1	1	1	-	-
3	1	1	0	1	0

Petição 870190075592, de 06/08/2019, pág. 56/342

41/55

4	1	1	0	1	1

binldx	0	1	2	3	4

Binarização Exponencial Truncada Assassinada Golomb (STEG) [133] Este processo de binarização requer o uso de um parâmetro de entrada adicional stegParam.

[134] Uma sequência binária STEG é a concatenação de binarizações 1 (no caso de symVal == 0) ou 2 (para outros casos):

1. A binarização exponencial de golomb truncado para Abs (symVal)

2. Se symVal! = 0, um sinalizador de um bit é igual a 1 (se symVal <0) ou igual a 0 (se symVal> 0).

[135] A Tabela 9 ilustra as cadeias de bin da binarização de Golomb Exponencial Truncado Assinado com stegParam = 2.

Tabela 9. Sequência Binária da Binarização Exponencial Truncada de Golomb com StegParam = 2

symVal	Golomb truncado exponencial	Sinal Flag
	Unario truncado	Golomb exponencial

-4	1	1	0	1	1	1
-3	1	1	0	1	0	1
-2	1	1	1	-	-	1
-1	1	0	-	-	-	1
0	0	-	-	-	-	-
1	1	0	-	-	-	0
2	1	1	1	-	-	0
3	1	1	0	1	0	0
4	1	1	0	1	1	0

binldx	0	1	2	3	4	Max(binldx)+1

Petição 870190075592, de 06/08/2019, pág. 57/342

42/55

Binarização llnária Truncada Unitária (SUTU) em Divisão [136] Este processo de binarização requer o uso de dois parâmetros de entrada splitUnitSize e outputSymSize. outputSymSize deve sempre ser um múltiplo de splitUnitSize.

[137] A cadeia binária de SUTU é uma concatenação de repetidas binarizações de TU, onde cada binarização de TU é aplicada a partes de symVal que são de tamanho splitUnitSize. Em outras palavras, symVal é representado por x sequência binária obtida com a binarização de TU, onde x = outputSymSize / splitUnitSize. O parâmetro cMax para cada cadeia binária é definido como cMax = (1 « splitUnitSize) -1.

[138] A Tabela 10 ilustra as cadeias binárias de binarizações unárias truncadas unitárias divididas com splitUnitSize = 2 e outputSymbSize = 8.

Tabela 10. Cadeia de escaninho da binarização unária truncada com divisão da divisão com splitUnitSize = 2, outputSymSize = 8.

symVal	TU Instancia 1 cMax==3	TU Instancia 2 cMax==3	TU Instancia 3 cMax==3	TU Instancia 4 cMax==3
0	0	-	-	0	-	-	0	-	-	0	-	-
1	1	0	-	0	-	-	0	-	-	0	-	-
3	1	1	1	0	-	-	0	-	-	0	-	-
15	1	1	1	1	1	1	0	-	-	0	-	-
31	1	1	1	1	1	1	1	0	-	0	-	-
63	1	1	1	1	1	1	1	1	1	0	-	-
binldx	0	1	2	3	4	5	6	7	8	9	10	11

[139] A sintaxe do fluxo de bits para este processo de binarização é descrita abaixo.

Tabela 11. Processo de decodificação de CABAC para binarização de TU. decode_cabac_SUTU(ctxTable, ctxldx, splitUnitSize, outputSymSize) { output_symb = 0

Petição 870190075592, de 06/08/2019, pág. 58/342

43/55 cMax = (1 <<splitUnitSize) - 1 for (i=0; icoutputSymSize; i+=splitUnitSize) { tmp = decode_cabac_TU(ctxTable, ctxldx, cMax) ctxldx += cMax output_sym |= (tmp«i) } return output_sym }

Binarização Unária Truncada Unitária (SSUTU) Signed Split [140] Este processo de binarização requer o uso de dois parâmetros de entrada splitUnitSize e outputSymSize.

[141] A cadeia binária SSUTU é obtida por uma extensão do processo de binarização SUTU com o sinal de symVal codificado como um sinalizador separado.

- A binarização SUTU para o valor Abs (symVal).

- Se symVal! = 0, um sinalizador de um bit é igual a 1 (se symVal <0) ou igual a 0 (se symVal> 0).

[142] A Tabela 12 ilustra as cadeias binárias da binarização Unária Truncada Unificada de Divisão Significada com splitUnitSize = 2, outputSymbSize = 8.

Tabela 12 Cadeia Bin da binarização unária truncada por unidade com divisão dividida com splitUnitSize = 2, outputSymSize = 8.

symVal	TU Instancia 1 cMax==3	TU Instancia 2 cMax==3	TU I Instancia 3 cMax==3	TU Instancia 4 cMax==3	Sinal
-63	1	1	1	1	1	1	1	1	1	0	-	-	1
-31	1	1	1	1	1	1	1	0	-	0	-	-	1
-15	1	1	1	1	1	1	0	-	-	0	-	-	1
-3	1	1	1	0	-	-	0	-	-	0	-	-	1
-1	1	0	-	0	-	-	0	-	-	0	-	-	1
0	0	-	-	0	-	-	0	-	-	0	-	-	-

Petição 870190075592, de 06/08/2019, pág. 59/342

44/55

1	1	0	-	0	-	-	0	-	-	0	-	-	0
3	1	1	1	0	-	-	0	-	-	0	-	-	0
15	1	1	1	1	1	1	0	-	-	0	-	-	0
31	1	1	1	1	1	1	1	0	-	0	-	-	0
63	1	1	1	1	1	1	1	1	1	0	-	-	0
binldx	0	1	2	3	4	5	6	7	8	9	10	11	12

[143] A sintaxe deste processo de binarização é descrita abaixo. decode_cabac_SSUTU(ctxTable, ctxldx, splitUnitSize, outputSymSize) { output_sym = decode_cabac_SUTU(ctxTable, ctxldx, splitUnitSize, outputSymSize) if(output_sym > 0) { ctxldx += ((1 <<splitUnitSize) - 1) * (outputSymSize / splitUnitSize) sign_flag if(sign_flag == 1) output_sym = -output_sym }

return output_sym }

[144] sign_flag representa a decodificação cabac de um bit na variável de contexto identificada por ctxldx.

[145] decode_cabac_SUTU () representa o processo de decodificação do cabac para a binarização do SUTU.

Binarização Unária Truncada Dupla (DTU) [146] Este processo de binarização requer o uso de dois parâmetros de entrada splitUnitSize e outputSymSize.

[147] A cadeia binária DTU é uma concatenação de duas binarizações, ou seja, a binarização da TU e a binarização da SUTU. O parâmetro cMax é usado para a binarização da TU, e os parâmetros splitUnitSize e outputSymSize são usados para a binarização SUTU (onde seu cMax é derivado internamente).

Petição 870190075592, de 06/08/2019, pág. 60/342

45/55

- A primeira instância da binarização de TU para o valor Min (Abs (symVal), cMax).

- Se Abs (symVal)> cMax, a segunda instância da binarização SUTU para o valor Abs (symVal) - cMax.

[148] A Tabela 13 ilustra as cadeias binárias da binarização Unária Truncada Dupla com cMax = 1, splitUnitSize = 2, outputSymSize = 8.

Tabela 13 Sequência Bin da Binarização Unária Truncada Dupla com cMax = 1, splitUnitSize = 2, outputSymSize = 8.

symVal	TU Instancia cMax=1	SUTU Instancia: splitUnitSize = 2, outputUnitSize = 8
TU Instancia 1 cMax=3	TU Instancia 2 cMax=3	TU Instancia 3 cMax=3	TU Instancia 4 cMax=3
0	0							-
1	1							-
3	1	1	1	0	0	-	-	0	-	-	0	-	-
15	1	1	1	0	1	1	1	0	-	-	0	-	-
31	1	1	1	0	1	1	1	1	0	-	0	-	-
63	1	1	1	0	1	1	1	1	1	1	0	-	-
binldx	0	1	2	3	4	5	6	7	8	9	10	11	12

[149] O processo de binarização é descrito abaixo. decode_cabac_DTU(ctxTable, ctxldx, cMax, splitUnitSize, outputSymSize) { output_sym = 0 if(cMax > 0) { output_sym = decode_cabac_TU(ctxTable, ctxldx, cMax) if(output_sym > cMax) { output_sym += decode_cabac_SUTU(ctxTable, ctxldx+cMax, splitUnitSize, outputSymSize) }

} else

Petição 870190075592, de 06/08/2019, pág. 61/342

46/55 output_sym = decode_cabac_SUTU(ctxTable, ctxldx, splitUnitSize, outputSymSize) return output_sym }

[150] decode_cabac_TU () representa o processo de decodificação do cabac para a binarização de Til.

[151] decode_cabac_SUTU () representa o processo de decodificação do cabac para a binarização SUTII.

Binarização llnária Truncada Dupla (SDTll) Assinada [152] Este processo de binarização requer o uso de dois parâmetros de entrada adicionais splitUnitSize e outputSymSize.

[153] A cadeia binária do SDTll é obtida por uma extensão do processo de binarização da DTU com o sinal de symVal codificado como um sinalizador.

- A binarização do DTU para o valor Abs (symVal).

[154] A Tabela 14 ilustra as cadeias de bin da binarização unária truncada dupla com cMax = 1, splitUnitSize = 2, outputSymSize = 8.

Tabela 14 Cadeia Bin da Binarização Unária Troncalizada Dupla Assinada com cMax = 1, splitUnitSize = 2, outputSymSize = 8.

symVal	TU Instancia cMax=1	SUTU Instancia: splitUnitSize = 2, outputUnitSize = 8	Sinal
TU Instancia 1 cMax=3	TU Instancia 2 cMax=3	TU Instancia 3 cMax=3	TU Instancia 4 cMax=3
-63	1	1	1	0	1	1	1	1	1	1	0	-	-	1
-31	1	1	1	0	1	1	1	1	0	-	0	-	-	1
-15	1	1	1	0	1	1	1	0	-	-	0	-	-	1
-3	1	1	1	0	0	-	-	0	-	-	0	-	-	1
-1	1						-							1

Petição 870190075592, de 06/08/2019, pág. 62/342

47/55

0	0							-
1	1						-							0
3	1	1	1	0	0	-	-	0	-	-	0	-	-	0
15	1	1	1	0	1	1	1	0	-	-	0	-	-	0
31	1	1	1	0	1	1	1	1	0	-	0	-	-	0
63	1	1	1	0	1	1	1	1	1	1	0	-	-	0
binldx	0	1	2	3	4	5	6	7	8	9	10	11	12	13

[155] A sintaxe deste processo de binarização é descrita abaixo.

decode_cabac_SDTU(ctxTable, ctxldx, cMax, splitUnitSize, outputSymSize) { output_sym = decode_cabac_DTU(ctxTable, ctxldx, cMax, splitUnitSize, outputSymSize) if(output_sym > 0) { ctxldx += cMax + ((1 <<splitUnitSize) - 1) * (outputSymSize / splitUnitSize) sign_flag if(sign_flag == 1) output_sym = -output_sym }

return output_sym }

[156] sign_flag representa a decodificação cabac de um bit na variável de contexto identificada por ctxldx.

[157] decode_cabac_DTU () representa a decodificação do cabac com a binarização do DTU.

Parâmetros de binarização [158] Cada algoritmo de binarização introduzido nas seções anteriores requer parâmetros de configuração nas extremidades de codificação e decodificação. Numa forma de realização, os referidos parâmetros de configuração são encapsulados numa estrutura de dados descrita na Tabela 15. Cada algoritmo de binarização é identificado por um identificador, conforme listado na Tabela 3.

Petição 870190075592, de 06/08/2019, pág. 63/342

48/55

Tabela 15. Estrutura dos parâmetros de binarização

ID binarizacao	parametros
0	cLength
1	cMax
2	-
3	-
4	tegParam
5	stegParam
6	splitUnitSize, outputSymSize
7	splitUnitSize, outputSymSize
8	cMax, splitUnitSize, outputSymSize
9	cMaxsplitUnitSize, outputSymSize

[159] Na Tabela 15, a seguinte semântica se aplica:

[160] cMax representa o maior valor a ser binarizado. Valores maiores serão truncados.

[161] cLength representa os números de bits com os quais o valor é binarizado.

[162] tegParam representa a variável tegParam definida neste documento para a binarização do TEG.

[163] stegParam representa a variável stegParam definida neste documento para binarização STEG.

[164] splitllnitSize representa a variável splitllnitSize definida neste documento para binarizações SUTll, SSUTll e DTU.

[165] outputSymSize representa a variável outputSymSize definida neste documento para binarizações SUTll, SSUTll DTU e SDTU.

Evidência da vantagem técnica da presente invenção [166] Aplicando a binarização indicada da CABAC aos respectivos descritores genômicos como indicado na Tabela 16, o desempenho de compressão relatado na Tabela 17 pode ser obtido. A melhoria no desempenho de compress do modo descrito nesta invenção pode ser apreciada por comparação com os tamanhos de arquivos correspondentes das abordagens BAM e CRAM e um dos melhores compressores na literatura conhecido como DeeZ (ver Numanagic, I., et al “Comparison of high-throughput sequencing data compression tools”, Nature

Petição 870190075592, de 06/08/2019, pág. 64/342

49/55

Methods (ISSN: 1548-7091), vol. 13, p. 1005-1008 London: Nature Publishing Group, 2016). Deve ser levado em conta que o desempenho de compressão de DeeZ, BAM e CRAM é calculado adicionando o tamanho do genoma de referência comprimido utilizado para o alinhamento com os tamanhos dos dados da sequência do genoma comprimido. De acordo com os princípios da presente divulgação, o genoma de referência é incorporado no arquivo comprimido. Na prática atual, o referido genoma de referência comprimido é um arquivo FASTA (texto ASCII) comprimido usando compressores de uso geral, como GZIP, LZMA, Bzip2. Na comparação proposta, o genoma de referência hs37d5.fa foi comprimido usando o comando xz Linux com a opção de compactação máxima (9).

Tabela 16. Binarizações associadas a cada descritor genômico

descriptor id	binarization id
1	8
2	6
3	6
4	1
5	6
6	1
7	Concatenacao de 5, 1, 3, 0 nos bytes compondo cada descritor
8	0
9	6
10	3
11	1
12	1
13	6
14	1

Binarização aplicada aos descritores rftp e rftt [167] Um exemplo de binarização de rftp e rftt é fornecido nesta seção e ilustrado na figura 10.

[168] Os descritores associados a cinco descasamentos entre um gen contig e um genoma de referência usados para alinhamento são mostrados abaixo:

rftp	5	7	12	13	15
rftt	C	T	T	C	A

Petição 870190075592, de 06/08/2019, pág. 65/342

50/55 [169] Cada símbolo de nucleotídeo é associado a um código inteiro:

Nucleotídeo	codigo
A	0
C	1
G	2
T	3
N	4

[170] Após a transformação, os valores se tomam:

rftp	5	2	5	1	2
rftt	1	3	3	1	0

[171] Os valores binarizados para o rftp são calculados da seguinte forma:

1. O valor do terminador pode ser binarizado como 0 ou 1. Aqui, para este exemplo, selecionamos 0.

2. Se terminador = 0, então binarização no. 6 com splitUnitSize = 4, outputSymbolSize = 12 é usado e as seguintes cadeias binárias são associadas aos valores de rftp a 5 =11110 b 2 =110 c 5 =11110 d 1=10 e 2 = 110 [172] Os valores binarizados para rftt são calculados da seguinte forma:

1. Conhecendo o nucleotídeo presente no genoma de referência, remova o símbolo correspondente dos possíveis símbolos a serem codificados. Ou seja, para a primeira incompatibilidade do exemplo, se o símbolo correspondente na referência for um 'G', o espaço dos possíveis símbolos a serem codificados é 0, 1, 3, 4.

2. As freqüências de símbolos dos tipos de incompatibilidade nos dados a serem codificados são medidas e indexadas de 0 a 3. O índice 0 é afetado pela incompatibilidade mais frequente e o índice 3 é afetado pela incompatibilidade

Petição 870190075592, de 06/08/2019, pág. 66/342

51/55 menos frequente. Neste exemplo, uma indexação podería ser: {0 => 3, 1 => 0, 2 => 4, 3 => 1}

3. No exemplo dado, as cinco incompatibilidades seriam binarizadas usando a binarização TU como:

Símbolo	índice	Binarizacao TU com cMax = 3
1	3	111
3	0	0
3	0	0
1	3	0
0	1	10

[173] Com a abordagem de binarização mostrada acima, os seguintes resultados de compactação são obtidos:

Tabela 17. Desempenho de compactação em relação a soluções de última geração (tamanhos em bytes).

Compressor	BAM	CRAM	Deez	Método proposto
9827_2#49.bam (ERR317482)Pouca cobertura	4,755,859,110	3,124,448,497	2,592,665,720	2,164,362,407
Genoma ref. hs37d5.fa	707,712,316	707,712,316	707,712,316	N/A*
Total	5,463,571,426	3,832,160,813	3,300,378,036	2,164,362,407
NA12878_S1.ba m - Muita cobertura	117,653,446,18 7	64,565,636,39 1	64,334,196,40 8	47,759,141,38 8
Genoma ref. hs37d5.fa	707,712,316	707,712,316	707,712,316	N/A*
Total	118,361,158,503	65,273,348,70 7	65,041,908,724	47,759,141,388

* nenhuma informação adicional é necessária, uma vez que já está disponível na representação comprimida de acordo com os princípios desta invenção.

Parâmetros de codificação

Petição 870190075592, de 06/08/2019, pág. 67/342

52/55 [174] Em uma modalidade, os parâmetros necessários para codificar e decodificar cada Unidade de Acesso são encapsulados em uma estrutura de dados nomeada conforme definido na Tabela 18.

Tabela 18. Parâmetros de codificação para descritores genômicos

Nome do parametro	Cardinal.	Descricao
dataset type	1	Tipo de dado codificado em Unidades de Acesso com referenda a estes parâmetros de codificação.
reads length	1	Tamanho do nucleotídeo de leituras de sequência em casos de tamanhos de leitura constantes. Ο valor 0 indica a presença de leituras de tamanho variável (coberto pelo elemento de sintaxe rlen como aqui definido).
QV depth	1	Numero de Quality Values associados a cada nucleotídeo codificado. 0 significa que nenhum Quality Values foi codificado.
alignment score depth	1	Numero de alinhamentos de scores associados com cada alinhamento codificado. 0 significa que nenhum score de alinhamento foi codificado.
terminator size	1	Representa o tamanho em bytes menos um (e.g. 0 = 1 byte) do símbolo terminador usado para o descritor mmpos definido em Error! Reference source not found.
terminator value	1	Representa o valor do símbolo terminador usado para o descritor mmpos definido na tabela 1.
number of classes	1	Numero de classes de dados codificados em todas as Unidades de Acesso que se referem a estes parâmetros de codificação.
class ID	Numero de classes	Identificador associado a uma das classes de dados aqui definidas (P, N, Μ, I, HM, U).
number of descriptors	1	Numero total de descritores contidos nas Unidades de Acesso que se referem a estes parâmetros de configuração
coding mode ID	Numero de descritore s	Um dos modos de codificação aqui definidos
decoder configuration	Numero de descritore s	Estrutura de dados contendo os parâmetros de configuração de decodificador como aqui especificado
number of groups	1	Numero de valores diferentes do descritor rgroup listado na tabela 1 presente em todas as Unidades de Acesso que se referem aos parâmetros de codificação atuais.
group name	Numero	Identificador null-terminated string de um grupo de

Petição 870190075592, de 06/08/2019, pág. 68/342

53/55

	de grupos	leitura.
multiple alignments flag	1	flag sinalizando a presença de alinhamentos múltiplos na Unidade de Acesso. Quando ajustado em 0 nenhum alinhamento múltiplo esta presente
spliced reads flag	1	flag sinalizando a presença de spliced reads na Unidade de Acesso. Quando ajustado em 0 nenhuma leitura spliced esta presente.
multiple signature base	1	flag sinalizando o uso de assinaturas múltiplas numa Unidade de Acesso contendo leituras de sequências não mapeadas (Classe U).
signature size	1	Tamanho, em bits, de cada inteiro representando uma assinatura codificada.
score exponent	1	Numero de bits usados para codificar a parte exponencial do score de alinhamentos múltiplos codificados no descritor mscore. Como especificado em IEEE RFC 754 este valor pode estar entre 0 e 11.0 descritor mscore e definido na tabela 1.
score fractional	1	Numero de bits usados para codificar a parte fracional do score de alinhamentos múltiplos codificados no descritor mscore. Como especificado em IEEE RFC 754 este valor pode estar entre 0 e 52. O descritor mscore e definido na tabela 1.
contig buffer size	1	Tamanho, em bits, do buffer usado para construir o contig 102 na figura 1.
contig buffer count	1	Numero de leituras usadas para construir o contig 102 na figura 1.

Aparelho de codificação [175] A Figura 3 mostra um aparelho de codificação de acordo com os princípios desta invenção. O aparelho de codificação recebe como entrada um genoma de referência 302 e sequências genômicas não alinhadas 300, por exemplo, produzidas por um aparelho de sequenciação do genoma. Os aparelhos de sequenciação de genomas são conhecidos na técnica, como o Illumina HiSeq 2500, os dispositivos Thermo-Fisher Ion Torrent ou o Oxford Nanopore MinlON. Os dados de sequência desalinhados 300 são introduzidos numa unidade de alinhamento de leituras 301, que mapeia as sequências num genoma de referência 302. As sequências genômicas alinhadas 303 são então utilizadas por um aparelho de montagem 304 para construir um ou mais contigs 305. A construção de contigs pode pode ser configurado pelos parâmetros de codificação 313 tais como o comprimento contig ou o número de leituras de sequência usadas

Petição 870190075592, de 06/08/2019, pág. 69/342

54/55 para construir cada contig. Os conteúdos de construções 305 são então utilizados para efetuar compressão baseada em referência nas sequências genômicas alinhadas 303. O compressor 306 base de referência gera elementos de sintaxe denominados descritores que representam sequências genômicas mapeadas e não mapeadas. O genoma de referência 302 utilizado para alinhamento e os contigs construídos 305 são alimentados a um aparelho de codificação diferencial de genoma de referência 307 que gera descritores representando as posições e tipo de desemparelhamentos entre o genoma de referência 302 e os contigs 305. Os descritores genômicos 308 gerados pela referência 306 e o codificador diferencial de genoma de referência 307 são primeiro binarizados por várias unidades de binarização 312 e depois entropia codificada por vários codificadores de entropia 309. Os descritores genômicos codificados por entropia são então alimentados a um aparelho de multiplexagem 310 para construir uma ou mais Unidades de Acesso compondo um bitstream comprimido 311. O fluxo de bits multiplexado contém também estruturas de parâmetros de codificação 313 construídas por um codificador de parâmetros de codificação 314. Cada Unidade de Acesso contém descritores codificados por entropia representando informação de alinhamento e leituras de sequência pertencentes a uma classe de dados como definido nesta invenção.

Aparelho de decodificação [176] A Figura 4 mostra um aparelho de descodificação de acordo com os princípios desta invenção. Uma unidade de demultiplexagem 401 recebe um fluxo de bits multiplexado 400 de uma rede ou de um elemento de armazenamento e extrai a carga útil codificada de entropia das Unidades de Acesso que compõem o referido fluxo de bits. Os decodificadores de entropia 402 recebem as cargas úteis extraídas e descodificam os diferentes tipos de descritores genômicos nas suas representações binárias. As ditas representações binárias são então alimentadas a vários decodificadores binários 410 que geram descritores genômicos 403 e 409. Um descodif icador de parâmetros de codificação 411 recebe parâmetros de codificação multiplexados com a informação genômica e alimenta-os à unidade

Petição 870190075592, de 06/08/2019, pág. 70/342

55/55

404 encarregada de construir os contigs para a sequência de descodificação. Os descritores genômicos que representam as leituras de sequência genômica 409 são introduzidos numa unidade de reconstrução de sequências que constrói um ou mais contigs 405 como parte do processo de descodificação e reconstrói as sequências genômicas alinhadas 407. Os contigs 405 e os descritores descodificados de entropia 403 representam as diferenças entre os contigs e o genoma de referência utilizado para o alinhamento são então alimentados a uma unidade de reconstrução de genoma de referência 406 que reconstrói o genoma de referência 408 utilizado para o alinhamento.

[177] As técnicas inventivas aqui divulgadas podem ser implementadas em hardware, software, firmware ou qualquer combinação das mesmas. Quando implementadas em software, elas podem ser armazenadas em um meio de computação e executadas por uma unidade de processamento de hardware. A unidade de processamento de hardware pode compreender um ou mais processadores, processadores de sinal digital, microprocessadores de uso geral, circuitos integrados específicos da aplicação ou outros circuitos lógicos discretos.

[178] As técnicas desta invenção podem ser implementadas numa variedade de dispositivos ou aparelhos, incluindo telefones móveis, computadores de apoio, servidores, tablets e dispositivos semelhantes.

Claims

REIVINDICAÇÕES

1. Método para codificar dados de alinhamento de sequência do genoma, compreendendo as leituras de sequências de nucleotideos, o referido método caracterizado pelo fato de compreender as etapas de:

- alinhar as referidas leituras a uma ou mais sequências de referência, criando assim leituras alinhadas,

- mapear os referidos dados de sequência genômica

- montar as leituras alinhadas, criando assim um contig

- comparar a dita sequência de referência e o dito contágio, obtendo-se assim informação relacionada com a posição das discordâncias e o tipo de discordâncias

- gerar descritores genômicos representando as sequência genômicas com respeito aos contigs

- codificar a entropia dos referidos descritores genômicos, a informação relacionada com a posição das discordâncias e o tipo de discordâncias com respeito ao genoma de referência com diferentes codificadores de entropia,

- multiplexer os referidos descritores genômicos codificados e a referida posição e tipo de discordância na mesma unidade de acesso.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a montagem das referidas leituras alinhadas compreende a etapa de selecionar, para cada posição na sequência de referência, o nucleotídeo que está presente com a frequência mais elevada nas leituras alinhadas nessa posição.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de a referida informação relacionada com a posição de emparelhamentos incorretos e o tipo de emparelhamentos incorretos serem indicados utilizando respectivamente um primeiro descritor (203) e um segundo descritor (204).
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que o referido primeiro descritor e segundo descritor são encapsulados numa mesma Unidade de Acesso, de modo a permitir a reconstrução seletiva da sequência de referência utilizada para o alinhamento no dispositivo de descodificação.

Petição 870190075592, de 06/08/2019, pág. 73/342

2/7
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de o comprimento do dito contig ser definido como parâmetro de entrada para o codificador ou adaptado dinamicamente pelo codificador.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o referido primeiro descritor é binarizado usando uma binarização llnária Truncada Unitária Dividida, em que o dito Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas, onde cada binarização unária truncada é aplicada a porções do valor a ser binarizado que são N bits de comprimento, em que N é um parâmetro pré-selecionado.
7. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o referido segundo descritor é binarizado utilizando uma binarização Unária Truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual ao maior valor possível a ser binarizado, o 0 bit final descartado.
8. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o dito método não codifica informação sinalizando o uso de um genoma de referência específico.
9. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que o referido comprimento do referido contig está contido num cabeçalho de sintaxe.
10. Aparelho para codificar dados da sequência do genoma, os referidos dados da sequência do genoma compreendendo leituras de sequências de nucleotideos, o referido aparelho caracterizado pelo fato de compreender meios para:

- alinhar as referidas leituras a uma ou mais sequências de referência, criando assim leituras alinhadas,

- mapear os referidos dados de sequência genômica

- montar as leituras alinhadas, criando assim um contig

- comparar a dita sequência de referência e o dito contágio, obtendo-se assim informação relacionada com a posição das discordâncias e o tipo de discordâncias

Petição 870190075592, de 06/08/2019, pág. 74/342

3/7

- gerar descritores genômicos representando as sequência genômicas com respeito aos contigs

- codificar a entropia dos referidos descritores genômicos, a informação relacionada com a posição das discordâncias e o tipo de discordâncias com respeito ao genoma de referência com diferentes codificadores de entropia,

- multiplexer os referidos descritores genômicos codificados e a referida posição e tipo de discordância na mesma unidade de acesso.
11. Aparelho, de acordo com a reivindicação 10, caracterizado pelo fato de que os referidos meios para montar as referidas leituras alinhadas compreendem ainda meios para selecionar, para cada posição na sequência de referência, o nucleotídeo que está presente com a frequência mais elevada nas leituras alinhadas nessa posição.
12. Aparelho de acordo com a reivindicação 11, caracterizado pelo fato de compreender ainda meios para indicar a referida informação relacionada com a posição de emparelhamentos incorretos e o tipo de desemparelhamentos, respectivamente por um primeiro descritor (203) e um segundo descritor (204).
13. Aparelho, de acordo com a reivindicação 12, caracterizado pelo fato de compreender ainda meios para encapsular o referido primeiro descritor e segundo descritor na mesma Unidade de Acesso, de modo a permitir a reconstrução seletiva da sequência de referência utilizada para o alinhamento no dispositivo de decodificação.
14. Aparelho, de acordo com a reivindicação 13, caracterizado pelo fato de compreender ainda meios para receber o comprimento do referido contig como parâmetro de entrada e meios para adaptar dinamicamente o comprimento do referido contig.
15. Aparelho, de acordo com a reivindicação 14, caracterizado pelo fato de compreender adicionalmente meios de binarização para binarização do referido primeiro descritor empregando uma binarização Unária Truncada Unitária Dividida, em que o dito Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas, onde cada binarização unária truncada

Petição 870190075592, de 06/08/2019, pág. 75/342

4/7 é aplicada, para partes do valor a ser binarizado que são N bits de comprimento, em que N é um parâmetro pré-selecionado.
16. Aparelho, de acordo com a reivindicação 14, caracterizado pelo fato de que compreende ainda binarização meios para binarizing referido segundo descritor através do emprego de uma binarização unária truncado, em que o valor do referido segundo descritor é seguido por um zero e, se o referido valor é igual a maior valor possível para ser binarizados o arrasto 0 bit é descartado.
17. Aparelho, de acordo com a reivindicação 16, caracterizado pelo fato de compreender ainda meios para codificar o referido comprimento do referido contig num cabeçalho de sintaxe.
18. Método para decodificar dados de sequência de genoma codificado, caracterizado pelo fato de compreender as etapas de:

- analisar o arquivo de entrada codificado, para obter unidades de acesso de dados genômicos demultiplexando (401) as referidas unidades de acesso para obter descritores genômicos codificados e informações com relação a uma posição e tipo de discordância de dados de uma sequência genômica com respeito ao genoma de referência

- ter informações de decodificação de entropia com um decodificador de entropia diferente relacionadas à posição de uma incompatibilidade e tipo de incompatibilidade em um contig

- modificar o contig empregando a referida informação relacionada com posições e tipos de desemparelhamentos, obtendo assim uma sequência genômica de nucleotídeos que representa o genoma de referência utilizado para o alinhamento antes da compressão e informações adicionais (403) para recostruir o genoma de referência.
19. Método, de acordo com a reivindicação 18, caracterizado pelo fato de que a modificação do contágio empregando a dita informação relacionada a posições e tipos de desemparelhamentos, obtendo assim a dita sequência genômica de nucleotídeos, compreende adicionalmente a decodificação de entropia de um primeiro descritor (203) e um segundo descritor (204).

Petição 870190075592, de 06/08/2019, pág. 76/342

3/1
20. Método, de acordo com a reivindicação 19, caracterizado pelo fato de compreender, ainda, desencapsular da mesma unidade de acesso o referido primeiro descritor e o segundo descritor, de modo a obter a reconstrução seletiva da referida sequência genômica de nucleotídeos.
21. Método, de acordo com a reivindicação 20, caracterizado pelo fato de compreender ainda a decodificação do comprimento do referido contig a partir de um cabeçalho de sintaxe contido no arquivo de entrada.
22. Método, de acordo com a reivindicação 19, caracterizado pelo fato de compreender ainda uma binarização reversa do referido primeiro descritor, em que o referido primeiro descritor é binarizado usando uma binarização Unária Truncada Unitária Dividida, em que o dito Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas, onde cada binarização unária truncada é aplicada a partes do valor a ser binarizado que são N bits de comprimento, em que N é um parâmetro pré-selecionado.
23. Método, de acordo com a reivindicação 19, caracterizado pelo fato de compreender ainda uma binarização reversa do referido segundo descritor em que o referido segundo descritor é binarizado utilizando uma binarização Unariamente Truncada, em que o valor do referido segundo descritor é seguido de um zero e se o referido valor for igual ao maior valor possível para ser binarizado o O-bit final é descartado.
24. Método, de acordo com a reivindicação 19, caracterizado pelo fato de que o referido arquivo de entrada não contém informação sinalizando a utilização de um genoma de referência específico.
25. Aparelho para descodificar dados da sequência do genoma codificado, caracterizado pelo fato de compreender meios para:

- analisar o arquivo de entrada codificado, para obter unidades de acesso de dados genômicos demultiplexando (401) as referidas unidades de acesso para obter descritores genômicos codificados e informações com relação a uma posição e tipo de discordância de dados de uma sequência genômica com respeito ao genoma de referência

Petição 870190075592, de 06/08/2019, pág. 77/342

- ter informações de decodificação de entropia com um decodificador de entropia diferente relacionadas à posição de uma incompatibilidade e tipo de incompatibilidade em um contig

- modificar o contig empregando a referida informação relacionada com posições e tipos de desemparelhamentos, obtendo assim uma sequência genômica de nucleotídeos que representa o genoma de referência utilizado para o alinhamento antes da compressão e informações adicionais (403) para recostruir o genoma de referência.
26. Aparelho, de acordo com a reivindicação 25, caracterizado pelo fato de que os referidos meios para modificar o contig empregando a dita informação relacionada com posições e tipos de desemparelhamentos num contíguo, obtendo assim uma sequência genômica de nucleotídeos, compreendem ainda meios para decodificação de entropia de um primeiro descritor (203) e segundo descritor (204)
27. Aparelho, de acordo com a reivindicação 26, caracterizado pelo fato de compreender ainda meios para a reconstrução seletiva da sequência genômica de nucleotídeos, desencapsulando de uma mesma unidade de acesso o referido primeiro descritor e o segundo descritor.
28. Aparelho, de acordo com a reivindicação 27, caracterizado pelo fato de compreender ainda meios para descodificar a partir de um cabeçalho de sintaxe contido no arquivo de entrada a informação relativa ao comprimento do referido contig.
29. Aparelho, de acordo com a 26, caracterizado pelo fato de compreender ainda meios para uma binarização reversa do referido primeiro descritor, em que o referido primeiro descritor é binarizado utilizando uma binarização llnária Truncada Unitária Dividida, em que o referido Unário Truncado Unitário Dividido é uma concatenação de binarizações unárias truncadas repetidas., onde cada binarização unária truncada é aplicada a partes do valor a ser binarizado que são N bits de comprimento, em que N é um parâmetro pré-selecionado.

Petição 870190075592, de 06/08/2019, pág. 78/342

7/7
30. Aparelho, de acordo com a 26, caracterizado pelo fato de compreender ainda meios para uma binarização reversa do referido segundo descritor, em que o referido segundo descritor é binarizado utilizando uma binarização unária truncada, em que o valor do referido segundo descritor é seguido por um zero e se o referido valor for igual ao maior valor possível a ser binarizado o O-bit final é descartado.