BR112019007315A2

BR112019007315A2 - método e aparelho para representação compacta de dados de bioinformática

Info

Publication number: BR112019007315A2
Application number: BR112019007315A
Authority: BR
Inventors: Renzi Daniele; Zoia Giorgio
Original assignee: Genomsys Sa
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2019-09-17
Also published as: CO2019003587A2; EA201990922A1; PH12019500793A1; KR20190071741A; EP3526711B1; WO2018068829A1; ES2947521T3; JP2020503580A; ZA201902786B; SG11201903177PA; US20200051664A1; AU2016426571A1; CA3039690A1; EP3526711A1; MX2019004124A; EP4235680A3; CL2019000957A1; PL3526711T3; CN110168649A; EP4235680A2

Abstract

trata-se de método e aparelho para a compressão de dados de sequência de genoma produzidos por máquinas de sequenciamento de genoma. as sequências de nucleotídeos são alinhadas a uma ou mais sequências de referência, classificadas de acordo com graus de precisão de correspondência, convertidas em código como uma multiplicidade de camadas de elementos de sintaxe, com o uso de diferentes modelos de fonte e conversores em código de entropia para cada camada em que os dados são particionados.

Description

“MÉTODO E APARELHO PARA REPRESENTAÇÃO COMPACTA DE DADOS DE BIOINFORMÁTICA”

DESCRIÇÃO

CAMPO DA TÉCNICA [001] A presente revelação fornece um método inovador de representação de dados de sequenciamento de genoma que reduz o espaço de armazenamento utilizado e aprimora o desempenho de acesso fornecendose uma nova funcionalidade que não é disponível com os métodos de representação conhecidos da técnica anterior.

ANTECEDENTES [002] Uma representação adequada de dados de sequenciamento de genoma é fundamental para possibilitar aplicações de análise genômica eficazes como chamada de variantes de genoma e todas as outras análises realizadas com vários propósitos processando-se os dados de sequenciamento e metadados.

[003] O sequenciamento de genoma humano se tornou rentável através do surgimento de tecnologias de sequenciamento de baixo custo e alta produtividade. Tal oportunidade abre novas perspectivas em vários campos que varia do diagnóstico e tratamento de câncer à identificação de doenças genéticas, a partir de vigilância de patógeno para a identificação de anticorpos à criação de novas vacinas, fármacos e personalização de tratamentos personalizados.

[004] Os hospitais, provedores de análise genômica, bioinformática e grandes centro de armazenamento de dados biológicos buscam por soluções de processamento de informações genômicas rentáveis, rápidas, confiáveis e interconectadas, que poderíam possibilitar escalar a medicina genômica a uma escala mundial. Visto que uma das dificuldades no processo de sequenciamento se tornou o armazenamento de dados, os métodos para representar os dados de sequenciamento de genoma em uma forma comprimida são crescentemente investigados.

[005] As representações de informações de genoma mais usadas de dados de sequenciamento são baseadas na conversão em zip de formatos de FASTQ e SAM. O objetivo é comprimir os formatos de arquivo tradicionalmente usados (respectivamente FASTQ e SAM para dados não

Petição 870190034495, de 10/04/2019, pág. 5/95

2/27 alinhados e alinhados). Tais arquivos são constituídos por caracteres de texto simples e são comprimidos, como mencionado acima, com o uso de abordagens de propósito geral como esquemas de LZ (de Lempel e Ziv, os autores que publicaram as primeiras versões) (os bem conhecidos zip, gzip etc). Quando os compressores de propósito geral como gzip são usados, o resultado da compressão é geralmente uma única bolha de dados binários. As informações em tal forma monolítica resultam consideravelmente difíceis de arquivar, transferir e elaborar, particularmente quando, como no caso de sequenciamento de alta produtividade, o volume de dados é extremamente grande. O formato de BAM é caracterizado por desempenho de compressão insatisfatório devido ao foco na compressão do formato de SAM ineficaz e redundante em vez do foco na extração das informações genômicas reais transmitidas por arquivos de SAM e devido à adoção de algoritmos de compressão de texto de propósito geral, como gzip em vez de explorar a natureza específica de cada fonte de dados (os dados genômicos em si).

[006] Uma abordagem mais sofisticada à compressão de dados genômicos que é menos usada, porém, mais eficaz do que BAM é a CRAM. A ORAM fornece uma compressão mais eficaz para a adoção de codificação diferencial em relação a uma referência existente (a mesma explora parcialmente a redundância de fonte de dados), porém, ainda é desprovida de recursos como atualizações incrementais, suporte para transmissão contínua e acesso seletivo às classes específicas de dados comprimidos.

[007] Essas abordagens geram razões de compressão insatisfatórias e estruturas de dados que são difíceis de navegar e manipular uma vez que são comprimidas. A análise a jusante pode ser muito lenta devido à necessidade de manusear estruturas de dados grandes e rígidas, até mesmo para realizar uma operação simples ou para acessar regiões selecionadas do conjunto de dados genômico. A ORAM depende do conceito do registro de ORAM. Cada registro de CRAM codifica uma única leitura mapeada ou não mapeada codificando-se todos os elementos necessários para reconstruir a mesma.

[008] A CRAM tem as seguintes desvantagens:

[009] 1. Para CRAM, a indexação de dados está fora do escopo do relatório descritivo (consultar seção 12 do relatório descritivo de CRAM v3.0)

Petição 870190034495, de 10/04/2019, pág. 6/95

3/27 e é implementada como um arquivo separado. Em contrapartida, a abordagem da invenção descrita no presente documento emprega um método de indexação de dados que é integrado ao processo de codificação e os índices são embutidos na corrente de bits codificada.

[010] 2. Em CRAM todos os blocos de dados de núcleo podem conter qualquer tipo de leituras mapeadas (leituras perfeitamente correspondentes, leituras somente com substituições, leituras com inserções ou deleções (também chamadas de “indels”)). Não há uma noção de classificação e agrupamento de leituras em classes de acordo com o resultado de um mapeamento em relação a uma sequência de referência.

[011] 3. Na presente invenção, não há noção de encapsulamento de registro de cada leitura visto que os dados necessários para reconstruir cada leitura estão espalhados entre vários recipientes de dados chamados de “camadas”. Isso possibilita um acesso mais eficaz ao conjunto de leituras com características biológicas específicas (por exemplo, leituras com substituições, porém, sem indels, ou leituras perfeitamente mapeadas) sem a necessidade de decodificar cada (bloco de) leitura (ou leituras) para inspecionar seus recursos.

[012] 4. Em um registro de CRAM, cada tipo de dados é denotado por um sinalizador específico. Na presente invenção, não há uma noção de sinalizador que denota dados, visto que isso é intrinsecamente definido pela “camada” à qual os dados pertencem. Isso implica um número amplamente reduzido de símbolos a serem usados e uma redução consequente da entropia de fonte de informações que resulta em uma compressão mais eficaz. Isso se deve ao fato de que o uso de “camadas” diferentes possibilita que o codificador reutilize o mesmo símbolo através de cada camada com diferentes significados. Em CRAM, cada sinalizador sempre deve ter o mesmo significado, visto que não há uma noção de contextos e cada registro de CRAM pode conter qualquer tipo de dados.

[013] 5. Em CRAM, substituições, inserções e deleções são expressas de acordo com diferentes sintaxes, enquanto a abordagem proposta usa um único alfabeto e codificação para substituições, inserções e deleções. Isso torna o processo de codificação e decodificação mais simples e produz um modelo de entropia inferior de fonte cuja conversão em código rende correntes de bits de alta compressão.

Petição 870190034495, de 10/04/2019, pág. 7/95

4/27 [014] A presente invenção tem por objetivo comprimir sequências genômicas organizando-se e particionando-se dados, de modo que as informações redundantes a serem convertidas em código sejam minimizadas e os recursos como acesso seletivo e suporte para atualizações incrementais sejam possibilitados.

[015] Um dos aspectos da abordagem apresentada é a definição de classes de dados e metadados a serem codificados separadamente e a serem estruturados em camadas diferentes. Os aprimoramentos mais importantes dessa abordagem em relação aos métodos existentes consiste:

[016] 1. em um aumento de desempenho de compressão devido à redução da entropia de fonte de informações constituída fornecendo-se um modelo eficaz para cada classe de dados ou metadados;

[017] 2. na possibilidade de realizar acessos seletivos às porções dos dados e metadados comprimidos para qualquer propósito de processamento adicional;

[018] 3. na possibilidade de atualizar de modo incrementai (sem a necessidade de recodificação) dados e metadados codificados com novos dados e/ou metadados de sequenciamento e/ou novos resultados de análise.

BREVE DESCRIÇÃO DOS DESENHOS [019] A Figura 1 mostra como a posição dos pares de leituras mapeadas são codificados na camada de pos como diferença da posição absoluta da primeira leitura mapeada.

[020] A Figura 2 mostra como duas leituras em um par podem ser provenientes de dois filamentos de DNA.

[021] A Figura 3 mostra como o complemento reverso da leitura 2 será codificado se o filamento 1 for usado como referência.

[022] A Figura 4 mostra as quatro combinações possíveis de leituras que compõem um par de leituras e a respectiva codificação na camada de rcomp.

[023] A Figura 5 mostra como calcular a distância de emparelhamento no caso de comprimento constante de leituras para três pares de leitura.

[024] A Figura 6 mostra como os erros de emparelhamento codificados na camada de par possibilitam que o decodificador reconstrua o

Petição 870190034495, de 10/04/2019, pág. 8/95

5/27 emparelhamento de leitura correto com o uso da MPPPD codificada.

[025] A Figura 7 mostra a codificação de uma distância de emparelhamento quando uma leitura é mapeada em uma referência diferente de sua correspondente. Nesse caso, os descritores adicionais são adicionados às distância de emparelhamento. Um é um sinalizador de sinalização, o segundo é um identificador de referência e, então, a distância de emparelhamento.

[026] A Figura 8 mostra a codificação de N incompatibilidades em uma camada de nmis.

[027] A Figura 9 mostra um par de leituras mapeadas que apresenta substituições em relação a uma sequência de referência.

[028] A Figura 10 mostra como calcular as posições de substituições como valores absolutos ou diferenciais.

[029] A Figura 11 mostra como calcular os símbolos que codificam tipos de substituições quando nenhum código da IUPAC é usado. Os símbolos representam a distância - em um vetor de substituição circular - entre a molécula presente na leitura e aquela presente na referência em tal posição.

[030] A Figura 12 mostra como codificar as substituições para a camada de snpt.

[031] A Figura 13 mostra como calcular os códigos de substituição quando os códigos de ambiguidade da IUPAC são usados.

[032] A Figura 14 mostra como a camada de snpt é codificada quando os códigos da IUPAC são usados.

[033] A Figura 15 mostra como, para as leituras de classe I, o vetor de substituição usado é igual àquele para a classe M com a adição de códigos especiais para as inserções dos símbolos A, C, G, T, N.

[034] A Figura 16 mostra alguns exemplos de codificação de incompatibilidades e indels no caso de códigos de ambiguidade da IUPAC. O vetor de substituição é muito mais longo nesse caso e, portanto, os símbolos calculados possíveis são mais do que no caso de cinco símbolos.

[035] A Figura 17 mostra um modelo de fonte diferente para incompatibilidades e indels, em que cada camada contém a posição das incompatibilidades ou inserções de um único tipo. Nesse caso, nenhum símbolo é codificado para o tipo de indel ou incompatibilidade.

Petição 870190034495, de 10/04/2019, pág. 9/95

6/27 [036] A Figura 18 mostra um exemplo de codificação de incompatibilidades e indels. Quando nenhuma incompatibilidade ou indel de um dado tipo está presente para uma leitura, um 0 é codificado na camada correspondente. O 0 atua como o separados e terminado de leituras em cada camada.

[037] A Figura 19 mostra como uma modificação na sequência de referência pode transformar as leituras de M em leituras de P. Essa operação pode reduzir a entropia de informações da estrutura de dados especialmente no caso de alta cobertura.

[038] A Figura 20 mostra um codificador genômico 2010 de acordo com uma modalidade da presente invenção.

[039] A Figura 21 mostra um decodificador genômico 218 de acordo com uma modalidade da presente invenção.

SUMÁRIO [040] Os recursos das reivindicações independentes abaixo solucionam o problema de soluções existentes da técnica anterior fornecendose um método para classificação de sequências de genoma e um método para compressão com o uso da dita classificação. Em um aspecto, um método para a classificação de dados de sequência de genoma produzidos por uma máquina de sequenciamento, em que os ditos dados de sequência de genoma compreendem sequências de “bases” de nucleotídeos, em que a dita classificação é realizada de acordo com uma sequência de referência, [041 ] em que o dito método compreende as etapas de:

[042] identificar as sequências de classe P, que compreendem regiões correspondentes na sequência de referência sem incompatibilidades;

[043] identificar sequências de classe N, que compreendem regiões correspondentes na sequência de referência com um número de incompatibilidades representadas por posições em que a máquina de sequenciamento não foi capaz de chamar nenhuma “base”;

[044] identificar sequências de classe M, que compreendem regiões correspondentes na sequência de referência com um número de incompatibilidades representadas por posições em que a máquina de sequenciamento não foi capaz de chamar nenhuma base ou chamou uma base diferente da sequência de referência;

Petição 870190034495, de 10/04/2019, pág. 10/95

7/27 [045] identificar as sequências de classe I, que compreendem as mesmas incompatibilidades da classe M, mais a presença de inserções ou deleções;

[046] identificar as sequências de classe U que compreendem todas as leituras que não encontram nenhum mapeamento válido na sequência de referência.

[047] Em outro aspecto, um método para a compressão de dados de sequência de genoma produzidos por uma máquina de sequenciamento, em que os ditos dados de sequência de genoma compreendem as sequências de nucleotídeos, [048] em que o dito método compreende as etapas de:

[049] alinhar as ditas leituras a uma sequência de referência, criando, assim, leituras alinhadas;

[050] classificar as ditas leituras alinhadas de acordo com uma multiplicidade de graus de precisão de correspondência com a sequência de referência, criando, assim, classes de leituras alinhadas;

[051] codificar as ditas leituras alinhadas como camadas de elementos de sintaxe;

[052] em que os ditos elementos de sintaxe são selecionados de acordo com as ditas classes de leituras alinhadas.

[053] Em outro aspecto, um método para a descompressão de uma corrente genômica comprimida, em que o dito método compreende as etapas de:

[054] avaliar a dita corrente genômica comprimida em camadas genômicas de elementos de sintaxe, [055] expandir as ditas camadas genômicas em leituras classificadas de sequências de nucleotídeos, [056] decodificar seletivamente as ditas leituras classificadas de sequências de nucleotídeos com referência a uma ou mais sequências de referência de modo a produzir leituras não comprimidas de sequências de nucleotídeos.

[057] Um aspecto adicional, um codificador genômico 2010 para a compressão de dados de sequência de genoma 209, em que os ditos dados de sequência de genoma 209 compreendem leituras de sequências de

Petição 870190034495, de 10/04/2019, pág. 11/95

8/27 nucleotídeos, em que o dito codificador genômico 2010 compreende:

[058] uma unidade alinhadora 201 configurada para alinhar as ditas leituras a uma ou mais sequências de referência, criando, assim, leituras alinhadas, [059] uma unidade de classificação de dados 204, configurada para classificar as ditas leituras alinhadas de acordo com graus de precisão de correspondência com a uma ou mais sequências de referência, criando, assim, classes de leituras alinhadas;

[060] uma ou mais unidades de codificação de camadas 205 a 207, configuradas para codificar as ditas leituras alinhadas classificadas como camadas de elementos de sintaxe selecionando-se os ditos elementos de sintaxe de acordo com as ditas classes de leituras alinhadas.

[061] Em outro aspecto, um decodificador genômico 218 para a descompressão de uma corrente genômica comprimida 211, em que o dito decodificador genômico 218 compreende:

[062] meio de avaliação 210, 212 a 214 configurado para avaliar a dita corrente genômica comprimida em camadas genômicas de elementos de sintaxe 215, [063] um ou mais decodificadores de camada 216 a 217 configurados para decodificar as camadas genômicas em leituras classificadas de sequências de nucleotídeos 2111, [064] decodificadores de classes de dados genômicos 213 configurados para decodificar seletivamente as ditas leituras classificadas de sequências de nucleotídeos em uma ou mais sequências de referência, de modo a produzir leituras não comprimidas de sequências de nucleotídeos.

DESCRIÇÃO DETALHADA [065] As sequências proteômicas ou genômicas mencionadas na presente invenção incluem, por exemplo, e não como uma limitação, sequências de nucleotídeos, sequências de Ácido desoxirribonucleico (DNA), Ácido Ribonucleico (RNA) e sequências de aminoácidos. Embora a descrição no presente documento esteja em detalhes consideráveis em relação às informações genômicas na forma de uma sequência de nucleotídeos, será entendido que os métodos e os sistemas para compressão podem ser implementados para outras sequências proteômicas ou genômicas também,

Petição 870190034495, de 10/04/2019, pág. 12/95

9/27 embora com algumas variações, como será entendido por uma pessoa versada na técnica.

[066] As informações de sequenciamento de genoma são geradas por máquinas de Sequenciamento de Alta Produtividade (HTS) na forma de sequências de nucleotídeos (conhecidos como bases) representadas por cadeias de letras de um vocabulário definido. O menor vocabulário é representado por cinco símbolos: {A, C, G, Τ, N} que representam os 4 tipos de nucleotídeos presentes no DNA, a saber, Adenina, Citosina, Guanina e Timina. Em RNA, a Timina é substituída por Uracila (U). N indica que a máquina de sequenciamento não foi capaz de chamar nenhuma base e, portanto, a natureza real da posição é indeterminada. No caso de códigos de ambiguidade da IUPAC serem adotados pela máquina de sequenciamento, o alfabeto usado para os símbolos é (A, C, G, T, U, W, S, Μ, K, R, Y, B, D, Η, V, N ou -).

[067] As sequências de nucleotídeos produzidas por máquinas de sequenciamento são chamadas de “leituras”. As leituras de sequência podem ter entre algumas dúzias e vários milhares de nucleotídeos de comprimento. Algumas tecnologias produzem leituras de sequência em pares em que uma leitura é de um filamento de DNA e a segunda é do outro filamento. No sequenciamento de genoma, o termo cobertura é usado para expressar o nível de redundância da sequência dados em relação a uma sequência de referência. Por exemplo, para alcançar uma cobertura de 30x em um genoma humano (3,2 bilhões de bases de comprimento), uma máquina de sequenciamento deve produzir um total de 30 x 3,2 bilhões de bases, de modo que, em média, cada posição na referência seja “coberta” 30 vezes.

[068] Ao longo da presente revelação, uma sequência de referência é qualquer sequência em que as sequências de nucleotídeos produzidas por máquinas de sequenciamento são alinhadas/mapeadas. Um exemplo de sequência, na realidade, podería ser um genoma de referência, uma sequência montada por cientistas como um exemplo representativo de um conjunto de genes de uma espécie. Por exemplo, GRCh37, o genoma humano do Consórcio de Referência de Genoma (construção 37) é derivado de treze voluntários anônimos de Buffalo, Nova Iorque. Entretanto, uma sequência de referência também podería consistir em uma sequência sintética concebida para meramente aprimorar a capacidade de compressão das leituras em vista

Petição 870190034495, de 10/04/2019, pág. 13/95

10/27 de seu processamento adicional.

[069] Os dispositivos de sequenciamento podem introduzir erros nas leituras de sequência como [070] 1. Uso de um símbolo errado (isto é, que representa um ácido nucleico diferente) para representar o ácido nucleico realmente presente na amostra sequenciada; isso é geralmente chamado de “erro de substituição” (incompatibilidade);

[071] 2. Inserção em uma leitura de sequência de símbolos adicionais que não se referem a nenhum ácido nucleico realmente presente; isso é geralmente chamado de “erro de inserção”;

[072] 3. Deleção de uma leitura de sequência de símbolos que representam ácidos nucleicos que estão realmente presentes na amostra sequenciada; isso é geralmente chamado de “erro de deleção”;

[073] 4. Recombinação de um ou mais fragmentos em um único fragmento que não reflete a realidade da sequência originária;

[074] O termo “cobertura” é usado na literatura para quantificar a extensão à qual um genoma de referência ou uma parte do mesmo pode ser coberta pelas leituras de sequência disponíveis. Diz-se que a cobertura é:

[075] · parcial (menor do que 1X) quando algumas partes do genoma de referência não são mapeadas por nenhuma leitura de sequência disponível [076] · única (1X) quando todos os nucleotídeos do genoma de referência são mapeados por um e apenas um símbolo presente nas leituras de sequência [077] · múltipla (2X, 3X, NX) quando cada nucleotídeo do genoma de referência é mapeado múltiplas vezes.

[078] A presente invenção tem por objetivo definir um formato de representação de informações genômicas em que as informações relevantes são acessíveis e transportáveis de modo eficaz e o peso das informações redundantes é reduzido.

[079] Os principais aspectos da invenção revelada são:

[080] 1. A classificação das leituras de sequência em diferentes classes de acordo com os resultados do alinhamento em relação às sequências de referência para possibilitar o acesso seletivo aos dados

Petição 870190034495, de 10/04/2019, pág. 14/95

11/27 codificados de acordo com critérios relacionados aos resultados de alinhamento e à precisão de correspondência.

[081] 2. A decomposição dos dados e metadados de leitura de sequência em camadas homogêneas para obter fontes de informações distintas com entropia de informações reduzidas.

[082] 3. A possibilidade de modelar cada fonte separada com o modelo de fonte distinto adaptado a cada uma das características estatísticas incluindo a possibilidade de alterar o modelo de fonte dentro de cada classe de leituras e camada para cada uma das unidades de dados acessíveis (unidades de acesso). A adoção dos modelos adequados de probabilidade adaptativos ao contexto e conversores em código de entropia associados de acordo com as propriedades estatísticas de cada modelo de fonte.

[083] 4. A definição de correspondências e dependências entre as camadas para possibilitar o acesso seletivo aos dados sem a necessidade de decodificar todas as camadas, se nem todas as informações forem necessárias [084] 5. Codificar cada classe de dados de sequência e camadas de metadados associadas em relação a uma sequência de referência que pode ser modificada, de modo a reduzir a entropia de fontes de informações de classes e camadas de dados. Após uma primeira codificação com base em uma referência, o sequenciamento das incompatibilidades detectadas pode ser usado para “adaptar/modificar” a sequência de referência para reduzir adicionalmente a entropia geral de informações. Esse processo pode ser realizado iterativamente, desde que a redução de entropia de informações seja relevante.

[085] A seguir, cada um dentre os aspectos acima será descrito adicionalmente.

CABEÇALHO DE ARQUIVO PRINCIPAL

CLASSIFICAÇÃO DAS LEITURAS DE SEQUÊNCIA [086] As leituras de sequência geradas por máquinas de sequenciamento são classificadas pela invenção revelada em cinco “classes” diferentes de acordo com os resultados do alinhamento em relação a uma ou mais dadas sequências de referência.

[087] Ao alinhar uma sequência de DNA de nucleotídeos em

Petição 870190034495, de 10/04/2019, pág. 15/95

12/27 relação a uma sequência de referência são cinco os possíveis resultados:

[088] 1. É constatado que uma região na sequência de referência corresponde à leitura de sequência sem nenhum erro (mapeamento perfeito). Tal sequência de nucleotídeos será chamada de “leitura perfeitamente correspondente” ou denotada como “Classe P”.

[089] 2. É constatado que uma região na sequência de referência é correspondente à leitura de sequência com um número de incompatibilidades constituído por um número de posições nas quais a máquina de sequenciamento não foi capaz de chamar nenhuma base (ou nucleotídeo). Tais incompatibilidades são denotadas por um “N”. Tais sequências serão chamadas de “leituras incompatíveis de N” ou “Classe N”.

[090] 3. É constatado que uma região na sequência de referência é correspondente à leitura de sequência com um número de incompatibilidades constituído por um número de posições nas quais a máquina de sequenciamento não foi capaz de chamar nenhuma base (ou nucleotídeo) OU uma base diferente daquela relatada no genoma de referência foi chamada. Tal tipo de incompatibilidade é chamada de Variação de Único Nucleotídeo (SNV) ou Polimorfismo de Único Nucleotídeo (SNP). A sequência será chamada de “leituras incompatíveis de M” ou “Classe M”.

[091] 4. Uma quarta classe é constituída por leituras de sequenciamento que apresentam um tipo de incompatibilidade que inclui as mesmas incompatibilidades da classe M mais a presença de inserções ou deleções (conhecidas como indels). As inserções são representadas por uma sequência de um ou mais nucleotídeos não presentes na referência, porém, presentes na sequência de leitura. Na literatura, quando a sequência inserida está nas bordas da sequência, é chamada de “corte suave” (isto é, os nucleotídeos não correspondem à referência, mas são mantidos nas leituras alinhadas ao contrário dos nucleotídeos de corte rígido que são descartados). Manter ou descartar nucleotídeos é tipicamente a decisão do usuário implementada como uma configuração da ferramenta de alinhamento. A deleção consiste em “orifícios” (nucleotídeos faltantes) na leitura alinhada em relação à referência. Tais sequências serão chamadas de “leituras incompatíveis de I” ou “Classe I”.

[092] 5. Uma quinta classe inclui todas as leituras que agora

Petição 870190034495, de 10/04/2019, pág. 16/95

13/27 encontram qualquer mapeamento válido no genoma de referência de acordo com as restrições de alinhamento especificadas. É dito que tais sequências não são mapeadas e pertencem à “Classe U”.

[093] As leituras não mapeadas restantes em relação a uma sequência de referência podem ser montadas em uma única sequência com o uso de algoritmos de montagem tipo de-novo. Uma vez que uma sequência de referência recém-montada tiver sido criada, as leituras não mapeadas podem ser adicionalmente mapeadas em relação à mesma e ser classificadas em uma dentre as 4 classes P, N, M e I.

DECOMPOSIÇÃO DAS INFORMAÇÕES NECESSÁRIAS PARA REPRESENTAR LEITURAS DE SEQUÊNCIA EM CAMADAS DE DESCRITORES [094] Uma vez que a classificação de leituras for concluída com a definição das Classes, o processamento adicional consiste na definição de um conjunto de elementos de sintaxe distintos que representam as informações restantes que possibilitam a reconstrução da sequência de leitura de DNA quando representada como sendo mapeada em uma dada sequência de referência. A estrutura de dados desses elementos de sintaxe exige que o armazenamento de parâmetros globais e metadados seja usado pelo mecanismo de decodificação. Os dados são estruturados em um cabeçalho principal descrito na tabela abaixo.

Elemento	Tipo	Descrição
ID Exclusivo	Arranjo de bytes	Identificador exclusivo para o conteúdo codificado
Versão	Arranjo de bytes	Versão maior + menor do algoritmo de codificação
Tamanho de Cabeçalho	Integral	Tamanho em bytes do conteúdo codificado inteiro
Comprimento de Leituras	Integral	Tamanho de leituras no caso de comprimento constante de leituras. Um valor especial (por exemplo, 0) é reservado para comprimento variável de leituras
Contagem de ref.	Integral	Número de sequências de referência usadas
Contadores de Unidades de Acesso	Arranjo de bytes (por	Número total de Unidades de Acesso codificadas por sequência

Petição 870190034495, de 10/04/2019, pág. 17/95

14/27

	exemplo, números inteiros)	de referência
IDs de ref.	Arranjo de bytes	Identificadores exclusivos para sequências de referência
Tabela de índice principal Posições de alinhamento da primeira leitura em cada bloco (Unidade de Acesso). Isto é, posição menor da primeira leitura no genoma de referência por cada bloco das 4 classes 1 por classe de pos (4) por referência	Arranjo de bytes (por exemplo, números inteiros)	Esse é um arranjo multidimensional que suporta o acesso aleatório às Unidades de Acesso.
TABELA 1 - ESTF	tUTURADE	CABEÇALHO PRINCIPAL.

[095] Um segmento de DNA chamado como uma dada sequência de referência pode ser totalmente expressado por:

[096] · A posição inicial no sequência de referência (pos) [097] · Um sinalizador que sinaliza se a leitura deve ser considerada como um complemento reverso versus a referência (rcomp).

[098] · Uma distância até o par correspondente no caso de leituras emparelhado (par).

[099] · O valor do comprimento de leitura no caso de a tecnologia de sequenciamento produzir leituras de comprimento variável (len). No caso do comprimento constante de leituras, o comprimento de leitura associado a cada leitura pode, obviamente, ser omitido e pode ser armazenado no cabeçalho de arquivo principal.

[100] · Para cada incompatibilidade:

[101] o Posiçlão de incompatibilidade (nmis para classe N, snpp para classe M, r indp para classe I) [102] o O tipo de incompatibilidade (não presente na classe N, snpt na classe M, indt na classe I) [103] · Os sinalizadores que indicam características específicas da leitura de sequência como [104] o os modelo que tem múltiplos segmentos em sequenciamento [105] o cada segmento adequadamente alinhado de acordo com

Petição 870190034495, de 10/04/2019, pág. 18/95

15/27 o alinhador [106] ο segmento não mapeado [107] o próximo segmento no modelo não mapeado [108] o sinalização do primeiro ou último segmento [109] o falha de controle de qualidade [110] o PCR ou duplicação óptica [111] o alinhamento secundário [112] o alinhamento suplementar [113] · Linha opcional de nucleotídeos de corte suave quando presente (indo na classe I) [114] Essa classificação cria grupos de descritores (elementos de sintaxe) que pode ser usado para representar inequivocamente as leituras de sequência de genoma. A tabela abaixo sumariza os elementos de sintaxe necessários para cada classe de leituras alinhadas.

	P	N	M	1
pos	X	X	X	X
par	X	X	X	X
rcomp	X	X	X	X
sinalizadores	X	X	X	X
rlen	X	X	X	X
nmis		X
snpp			X
snpt			X
indp				X
indt				X
indo				X

TABELA 2 - CAMADAS DEFINIDAS POR CLASSE DE DADOS.

[115] As leituras pertencentes às classe P são caracterizadas e podem ser perfeitamente reconstruídas por apenas uma posição, informações de complemento reverso e um deslocamento entre correspondentes no caso, os mesmos foram obtidos por uma tecnologia de sequenciamento que rende pares correspondentes, alguns sinalizadores e um comprimento de leitura.

[116] A próxima seção detalha adicionalmente como esses descritores são definidos.

Petição 870190034495, de 10/04/2019, pág. 19/95

16/27

CAMADA DE DESCRITOR DE POSIÇÃO [117] [1] Na camada de posição (pos), apenas a posição de mapeamento da primeira leitura codificada é armazenada como valor absoluto na sequência de referência. Todos os outros descritores de posição assumem um valor que expressa a diferença em relação à posição anterior. Tal modelagem da fonte de informações, definida pela sequência de descritores de posição de leitura, em geral, é caracterizada por uma entropia reduzida particularmente para processos de sequenciamento que geram resultados de cobertura altos.

[118] [2] Por exemplo, a Figura 1 mostra como, após a descrição, a posição inicial do primeiro alinhamento, como a posição “10.000“ na sequência de referência, a posição da segunda leitura iniciando na posição 10.180 é descrita como “180”. Com altas coberturas (> 50x) a maioria dos descritores do vetor de posição irá apresentar ocorrências muito altas de valores baixos como 0 e 1 e outros números inteiros pequenos. A Figura 9 mostra como as posições de três pares de leitura são descritas em uma camada de pos.

CAMADA DE DESCRITOR DE COMPLEMENTO REVERSO [119] [3] Cada leitura dos pares de leitura produzidos através de tecnologias de sequenciamento pode ser originada a partir de um dos filamentos de genoma da amostra orgânica sequenciada. Entretanto, apenas um dentre os dois filamentos é usado como a sequência de referência. A Figura 2 mostra como, em um par de leituras, uma leitura (leitura 1) pode ser proveniente de um filamento e a outra (leitura 2) pode ser proveniente do outro.

[120] [4] Quando o filamento 1 é usado com a sequência de referência, a leitura 2 pode ser codificada como o complemento reverso do fragmento correspondente no filamento 1. Isso é mostrado na Figura 3.

[121] [5] No caso de leituras acopladas, são quatro as combinações possíveis de pares de correspondentes de complemento direto e reverso. Isso é mostrado na Figura 4. A camada de rcomp codifica as quatro combinações possíveis.

[122] [6] A mesma codificação é usada para as informações de complemento reverso de leituras pertencentes às classes N, M, P e I. Para possibilitar o acesso seletivo às diferentes classes de dados, as informações de

Petição 870190034495, de 10/04/2019, pág. 20/95

17/27 complemento reverso de leituras pertencentes às quatro classes são codificadas em camadas diferentes como representado na Tabela 2.

CAMADA DE DESCRITOR DE INFORMAÇÕES DE EMPARELHAMENTO [123] [7] O descritor de emparelhamento é armazenado na camada de par. Tal camada armazena descritores que codificam as informações necessárias para reconstruir os pares de leituras originários, quando a tecnologia de sequenciamento empregada produz leituras por pares. Embora na data da revelação da invenção a vasta maioria dos dados de sequenciamento sejam gerados com o uso de uma tecnologia que gera leituras emparelhadas, esse não é o caso de todas as tecnologias. Essa é a razão pela qual a presença dessa camada não é necessária para reconstruir todas as informações de dados de sequenciamento se a tecnologia de sequenciamento dos dados genômicos considerada não gerar informações de leituras emparelhadas.

DEFINIÇÕES:

[124] · par correspondente: leitura associada a outra leitura em um par de leituras (por exemplo, a Leitura 2 é o par correspondente da Leitura 1 no exemplo anterior) [125] · distância de emparelhamento: número de posições de nucleotídeo na sequência de referência que separam uma posição na primeira leitura (âncora de emparelhamento, por exemplo, o último nucleotídeo da primeira leitura) de uma posição da segunda leitura (por exemplo, o primeiro nucleotídeo da segunda leitura) [126] · distância de emparelhamento mais provável (MPPD): essa é a distância de emparelhamento mais provável expressada em número de posições de nucleotídeo.

[127] · distância de emparelhamento de posição (PPD): a PPD é uma forma de expressar uma distância de emparelhamento em termos do número de leituras que separam uma leitura de seu respectivo correspondente presente em uma camada de descritor de posição específica.

[128] · distância de emparelhamento de posição mais provável (MPPPD): é o número mais provável de leituras que separam uma leitura de seu par correspondente presente em uma camada de descritor de posição

Petição 870190034495, de 10/04/2019, pág. 21/95

18/27 específica.

[129] · erro de emparelhamento de posição (PPE): é definido como a diferença entre a MPPD ou a MPPPD e a posição real do correspondente.

[130] · âncora de emparelhamento: a posição do último nucleotídeo da primeira leitura em um par usado como referência para calcular a distância do par correspondente em termos de número de posições de nucleotídeo ou número de posições de leitura.

[131] A Figura 5 mostra como a distância de emparelhamento entre os pares de leitura é calculada.

[132] [8] A camada de descritor de par é o vetor de erros de emparelhamento calculados como o número de leituras a serem omitidas para alcançar o par correspondente da primeira leitura de um par em relação à distância de emparelhamento de decodificação definida.

[133] [9] A Figura 6 mostra um exemplo de como os erros de emparelhamento são calculados, tanto como um valor absoluto quanto como um vetor diferencial (caracterizado por entropia inferior para altas coberturas).

[134] [10] Os mesmos descritores são usados para as informações de emparelhamento de leituras pertencentes às classes N, Μ, P e I. Para possibilitar o acesso seletivo às diferentes classes de dados, as informações de emparelhamento de leituras pertencentes às quatro classes são codificadas em diferentes camada como representado em:

INFORMAÇÕES DE EMPARELHAMENTO NO CASO DE LEITURAS MAPEADAS EM SEQUÊNCIAS DE REFERÊNCIA DIFERENTES [135] [11] No processo de mapeamento de leituras de sequência em uma sequência de referência, não é incomum ter a primeira leitura em um par mapeada em uma sequência de referência (por exemplo, cromossomo 1) e a segunda em uma sequência de referência diferente (por exemplo, cromossomo 4). Nesse caso, as informações de emparelhamento descritas acima precisam ser integradas por informações adicionais relacionadas à sequência de referência usada para mapear uma das leituras. Isso é alcançado convertendo-se em código [136] 1. Um valor reservado (sinalizador) que indica que o par é mapeado em duas sequências diferentes (valores diferentes indicam se a

Petição 870190034495, de 10/04/2019, pág. 22/95

19/27 leitura 1 ou a leitura 2 são mapeadas na sequência que não é codificada atualmente) [137] 2. Um identificador de referência exclusiva que se refere aos identificadores de referência codificados na estrutura de cabeçalho principal como descrito na Tabela 1.

[138] 3. O terceiro elemento contém as informações de mapeamento na referência identificada no ponto 2 e expressada como deslocamento em relação à última posição codificada.

[139] A Figura 7 fornece um exemplo dessa situação.

[140] [12] Na Figura 7, visto que a Leitura 4 não é mapeada na sequência de referência atualmente codificada, o codificador genômico sinaliza essas informações esboçando-se descritores adicionais na camada de par. No exemplo mostrado abaixo, a Leitura 4 do par 2 é mapeada na referência n² 4, enquanto a referência atualmente codificada éan-1. Essas informações são codificadas com o uso de 3 componentes:

[141] 1) Um valor reservado especial é codificado como a distância de emparelhamento (nesse caso, Oxffffff) [142] 2) Um segundo descritor fornece um ID de referência como listado no cabeçalho principal (nesse caso, 4) [143] 3) O terceiro elemento contém as informações de mapeamento sobre a referência em questão (170).

DESCRITORES DE INCOMPATIBILIDADE PARA LEITURAS DE CLASSE N [144] [13] A classe N inclui todas as leituras nas quais apenas incompatibilidades constituídas por “N” estão presentes no lugar de uma chamada de base de A, C, G ou T. Todas as outras bases da leitura correspondem perfeitamente à sequência de referência.

[145] A Figura 8 mostra como:

[146] as posições de “N” na leitura 1 são codificadas como [147] · posição absoluta na leitura 1 ou [148] · como posição diferencial em relação ao N anterior na mesma leitura.

[149] as posições de “N” na leitura 2 são codificadas como [150] · a posição absoluta no comprimento de leitura 2 + leitura 1

Petição 870190034495, de 10/04/2019, pág. 23/95

20/27 ou [151] · a posição diferencial em relação ao N anterior [152] [14] Na camada de nmis, a conversão em código de cada par de leituras é terminada por um símbolo separador especial.

[153] A Figura 8 mostra como as incompatibilidades “N” (em que, em uma dada posição de mapeamento, um “N” está presente em uma leitura em vez de uma base real na sequência de referência) são codificadas apenas como a posição da incompatibilidade [154] 1. em relação ao início da leitura ou [155] 2. em relação à incompatibilidade anterior (codificação de diferencial)

DESCRITORES QUE CONVERTEM EM CÓDIGOS AS SUBSTITUIÇÕES (INCOMPATIBILIDADES OU SNPS), INSERÇÕES E DELEÇÕES [156] Uma substituição é definida como a presença, em uma leitura mapeada, de uma base nucleotídeo diferente em relação àquele que está presente na sequência de referência na mesma posição.

[157] [15] A Figura 9 mostra exemplos de substituições em um par de leituras mapeadas. Cada substituição é codificada como “posição” (camada de snpp) e “tipo” (camada de snpt). Dependendo da ocorrência estatística de substituições, a inserção ou deleção, modelos de fonte diferentes dos descritores associados podem ser definidos e os símbolos gerados convertidos em códigos na camada associada.

MODELO DE FONTE 1: SUBSTITUIÇÕES COMO POSIÇÕES E TIPOS

DESCRITORES DE POSIÇÕES DE SUBSTITUIÇÕES [158] Uma posição de substituição é calculada como os valores da camada de nmis, isto é:

[159] Na leitura 1, as substituições são codificadas [160] · como a posição absoluta na leitura 1 ou [161] · como a posição diferencial em relação à substituição anterior na mesma leitura. Na leitura 2, as substituições são codificadas [162] · como a posição absoluta no comprimento de leitura 2 + leitura 1 ou

Petição 870190034495, de 10/04/2019, pág. 24/95

21/27 [163] · como posição diferencial em relação à substituição anterior [164] A Figura 10 mostra como as substituições (em que, em uma dada posição de mapeamento, um símbolo em uma leitura é diferente do símbolo na sequência de referência) são convertidas em código como [165] 1. a posição da incompatibilidade [166] em relação ao início da leitura ou [167] em relação à incompatibilidade anterior (codificação de diferencial) [168] 2. o tipo de incompatibilidade representada como um código calculado como descrito na Figura 10 [169] Na camada de snpp, a conversão em código de cada par de leituras é terminada por um símbolo “separador” especial.

DESCRITORES DE TIPOS DE SUBSTITUIÇÕES [170] Para a classe M (e I como descrito nas próximas seções), as incompatibilidades são convertidas em código por um índice (que se move da direita para a esquerda) a partir de um símbolo real presente na referência ao símbolo de substituição correspondente presente na leitura {A, C, G, T, N, Z}. Por exemplo, se a leitura alinhada apresentar um C em vez de um T, que está presente na mesma posição na referência, o índice de incompatibilidade será denotado como “4”. O processo de decodificação lê o elemento de sintaxe codificado, o nucleotídeo na dada posição na referência e se move da esquerda para a direita para recuperar o símbolo decodificado. Por exemplo, um “2” recebido para uma posição em que um G está presente na referência será decodificado como “N”. A Figura 11 mostra todas as substituições possíveis e os respectivos símbolos de codificação. Obviamente, modelos de probabilidade diferentes e adaptativos ao contexto podem ser atribuídos a cada índice de substituição de acordo com as propriedades estatísticas de cada tipo de substituição para cada classe de dados para minimizar a entropia dos descritores.

[171] No caso de adoção dos códigos de ambiguidade da IUPAC, o mecanismo de substituição resulta exatamente igual, entretanto, o vetor de substituição é estendido como: S = {A, C, G, T, N, Z, M, R, W, S, Y, K, V, H, D, B}.

Petição 870190034495, de 10/04/2019, pág. 25/95

22/27 [172] A Figura 12 fornece um exemplo de codificação de tipos de substituições na camada de snpt.

[173] Alguns exemplos de codificação de substituições quando códigos de ambiguidade da IUPAC são adotados são fornecidos na Figura 13. Um exemplo adicional de índices de substituição é fornecido na Figura 14.

CONVERSÃO EM CÓDIGO DE INSERÇÕES E DELEÇÕES [174] [16] Para a classe I, as incompatibilidades e as deleções são codificadas por índices (que se movem da direita para a esquerda) a partir do símbolo real presente na referência para o símbolo de substituição correspondente presente na leitura: {A, C, G, Τ, N, Z}. Por exemplo, se a leitura alinhada apresentar um C em vez de um T presente na mesma posição na referência, o índice de incompatibilidade será “4”. No caso de a leitura apresentar uma deleção onde um A está presente na referência, o símbolo codificado será “5”. O processo de decodificação lê o elemento de sintaxe convertido em código, o nucleotídeo na dada posição na referência, e se move da esquerda para a direita para recuperar o símbolo decodificado. Por exemplo, um “3” recebido para uma posição em que um G está presente na referência será decodificado como “Z”.

[175] As inserções são codificadas como 6, 7, 8, 9, 10 respectivamente para A, C, G, Τ, N inseridos.

[176] [17] A Figura 15 mostra um exemplo de como codificar substituições, inserções e deleções em um par de leituras de classe I. Para suportar a totalidade do conjunto de códigos de ambiguidade da IUPAC, o vetor de substituição S = {A, C, G, Τ, N, Z} deve ser substituído por S = {A, C, G, T, N, Z, M, R, W, S, Y, K, V, H, D, B} como descrito no parágrafo anterior para incompatibilidades. Nesse caso, os códigos de inserção precisam ter valores diferentes, a saber 16, 17, 18, 19, 20 no caso de o vetor de substituição ter 16 elementos. O mecanismo é ilustrado na Figura 16.

MODELO DE FONTE 2: UMA CAMADA POR TIPO DE SUBSTITUIÇÃO E INDELS [177] [18] Para uma estatística de dados, um modelo de conversão em código diferente daquele descrito na seção anterior pode ser desenvolvido para substituições e indels que resultam em uma fonte com entropia inferior. Tal modelo de conversão em código é uma alternativa às

Petição 870190034495, de 10/04/2019, pág. 26/95

23/27 técnicas descritas acima apenas para incompatibilidades e para incompatibilidades e indels.

[178] Nesse caso, uma camada de dados é definida para cada símbolo de substituição possível (5 sem códigos da IUPAC, 16 com códigos da IUPAC), mais uma camada para deleções e mais 4 camadas para inserções. Para a simplicidade de explicação, porém, não como uma limitação da aplicação do modelo, a seguinte descrição irá focar no caso em que nenhum código da IUPAC é suportado.

[179] [19] A Figura 17 mostra como cada camada contém a posição das incompatibilidades ou inserções de um único tipo. Se nenhuma incompatibilidade ou inserção para tal tipo estiver presente no par de leituras codificadas, um 0 é codificado na camada correspondente. Para possibilitar que o decodificador inicie o processo de decodificação para as camadas descritas nessa seção, o cabeçalho de cada uma das unidades de acesso contém um sinalizador que sinaliza a primeira camada a ser decodificada. No exemplo da Figura 18, o primeiro elemento a ser decodificado é a posição 2 na camada C. Quando nenhuma incompatibilidade ou indel de um dado tipo está presente em um par de leituras, um 0 é adicionado às camadas correspondentes. No lado de decodificação, quando o apontador de decodificação para cada camada aponta para um valor de 0, o processo de decodificação se move para o próximo par de leituras.

CODIFICAÇÃO DE SINALIZADORES DE SINALIZAÇÃO ADICIONAIS [180] [20] Cada classe de dados introduzida acima (P, Μ, N, I) pode exigir a codificação de informações adicionais na natureza das leituras codificadas. Essas informações podem ser relacionadas, por exemplo, ao experimento de sequenciamento (por exemplo, indicando uma probabilidade de duplicação de uma leitura) ou pode expressar alguma característica do mapeamento de leitura (por exemplo, primeira ou segunda no par). No contexto da presente invenção, essas informações são codificadas em uma camada separada para cada classe de dados. A vantagem principal de tal abordagem é a possibilidade de acessar seletivamente essas informações apenas no caso de necessidade e apenas na região de sequência de referência solicitada. Outros exemplos do uso de tais sinalizadores são:

Petição 870190034495, de 10/04/2019, pág. 27/95

24/27 [181] · leitura emparelhada [182] · leitura mapeada em par adequado [183] · leitura ou correspondente não mapeado [184] · leitura ou correspondente de filamento reverso [185] · primeira/segunda no par [186] · alinhamento não primário [187] · leitura falha em verificações de qualidade de plataforma/comerciante [188] · leitura é PCR ou duplicata óptica [189] · alinhamento suplementar

ADAPTAÇÃO DAS SEQUÊNCIAS DE REFERÊNCIA [190] [21 ] As incompatibilidades codificadas para as classes N, M e I podem ser usadas para criar “referências modificadas” a serem usadas para recodificar leituras na camada N, M ou I (em relação à primeira sequência de referência, RO) como as leituras de p em relação ao genoma “adaptado”, R1. Por exemplo, se for denotado com r_in^AM a i^esima leitura da classe M contendo incompatibilidades em relação ao genoma de referência n, então, após a “adaptação” obtém-se r_in^AM = r_(i(n+1))^AP com A(Refn)=Refn+1, em que A é a transformação da sequência de referência n na sequência de referência n + 1.

[191] A Figura 19 mostra como as leituras contendo incompatibilidades (leituras de M) em relação à sequência de referência 1 (RS1) podem ser transformadas em leituras perfeitamente correspondentes (leituras de P) em relação à sequência de referência 2 (RS2) obtidas a partir de RS1 modificando-se as posições de incompatibilidade. Essa transformação pode ser expressa como

RS2 = A(RS1) [192] [22] Se a expressão da transformação A que vai de RS1 a RS2 exige menos bits da expressão das incompatibilidades presentes nas leituras de M, esse método de codificação resulta em uma entropia de informações menor e, portanto, melhor compressão.

MODELOS DE FONTE, CONVERSORES EM CÓDIGO DE ENTROPIA E MODOS DE CONVERSÃO EM CÓDIGO.

[193] [23] Para cada camada da estrutura de dados genômicos

Petição 870190034495, de 10/04/2019, pág. 28/95

25/27 revelada na presente invenção, diferentes algoritmos de conversão em código podem ser adotados de acordo com os recursos específicos dos dados ou metadados portados pela camada e suas propriedades estatísticas. O “algoritmo de conversão em código” deve ser destinado à associação de um “modelo de fonte” específico do descritor como um “conversor em código de entropia” específico. O “modelo de fonte” específico pode ser especificado e selecionado para obter a conversão em código mais eficaz dos dados em termos de minimização da entropia de fonte. A seleção do conversor em código de entropia pode ser conduzida através de considerações de eficácia de conversão em código e/ou recursos de distribuição de probabilidade e problemas de implementação associados. Cada seleção de um algoritmo de conversão em código específico será chamado de “modo de conversão em código” aplicado a uma “camada” inteira.

[194] Cada “modelo de fonte” associado a um modo de conversão em código é caracterizado por:

[195] · A definição dos elementos de sintaxe emitidos por cada fonte (por exemplo, posição de leituras, informações de emparelhamento de leituras, incompatibilidades em relação a uma sequência de referência etc.) [196] · A definição do modelo de probabilidade associado.

[197] · A definição do conversor em código de entropia associado.

VANTAGENS ADICIONAIS [198] [24] Essa classificação permite a implementação de modos de conversão em código eficazes que exploram a caracterização de informações de fonte de entropia inferior modelando-se as sequências de elementos de sintaxe através de fontes de dados separadas únicas (por exemplo, distância, posição, etc.).

[199] [25] Outra vantagem da invenção é a possibilidade de acessar apenas o subconjunto de tipo de dados de interesse. Por exemplo, uma dentre as aplicações mais importantes na genômica consiste em encontrar as diferenças de uma amostra genômica em relação a uma referência (SNV) ou uma população (SNP). Atualmente, tal tipo de análise exige o processamento das leituras de sequência completas, enquanto, adotando-se a representação de dados revelada pela invenção, as incompatibilidades já são

Petição 870190034495, de 10/04/2019, pág. 29/95

26/27 isoladas em uma a três classes de dados apenas (dependendo do interesse na consideração de códigos de N e indels).

[200] [26] Uma vantagem adicional é a possibilidade de realizar transcodificação eficaz a partir de dados e metadados comprimidos com referência a uma “sequência de referência” específica para outra “sequência de referência” quando uma nova “sequência de referência” é publicada ou quando o remapeamento é realizado nos dados já mapeados (por exemplo, com o uso de um algoritmo de mapeamento diferente).

[201] [27] A Figura 20 mostra um aparelho de codificação 207 de acordo com os princípios da presente invenção. O aparelho de codificação 207 recebe, como entrada, dados de sequência brutos 209, por exemplo produzidos por um aparelho de sequenciamento de genoma 200. O aparelho de sequenciamento de genoma 200 é conhecido na técnica, como os dispositivos Illumina HiSeq 2500 ou Thermo-Fisher Ion Torrent. Os dados de sequência brutos 209 são alimentados a uma unidade alinhadora 201, que prepara as sequências para codificação alinhando-se as leituras a uma sequência de referência. Alternativamente, um montador tipo de-novo 202 pode ser usado para criar uma sequência de referência a partir das leituras disponíveis buscando prefixos ou sufixos sobrepostos, de modo que segmentos mais longos (chamados de “contigs”) podem ser montados a partir das leituras. Após terem sido processadas por um montador tipo de-novo 202, as leituras podem ser mapeadas na sequência mais longa obtida. As sequências alinhadas, então, são classificadas pelo módulo de classificação de dados 204. As classes de dados 208, então, são alimentadas aos codificadores de camadas 205 a 207. As camadas genômicas 2011, então, são alimentadas aos codificadores aritméticos 2012 a 2014 que codificam as camadas de acordo com as propriedades estatísticas dos dados ou metadados portados pela camada. O resultado é uma corrente genômica 2015.

[202] A Figura 21 mostra um aparelho de decodificação 218 de acordo com os princípios da presente revelação. Um aparelho de decodificação 218 recebe uma corrente de bits genômica multiplexada 2110 a partir de uma rede ou um elemento de armazenamento. A corrente de bits genômica multiplexada 2110 é alimentada a um demultiplexador 210, para produzir correntes separadas 211 que são, então, alimentadas a decodificadores de

Petição 870190034495, de 10/04/2019, pág. 30/95

27/27 entropia 212 a 214, para produzir camadas genômicas 215. As camadas genômicas extraídas são alimentadas aos decodificadores de camada 216 a 217 para decodificar adicionalmente as camadas em classes de dados. Os decodificadores de classe 219 processam adicionalmente os descritores genômicos e mesclam os resultados para produzir leituras não comprimidas de sequências, que podem, então, ser adicionalmente armazenadas nos formatos conhecidos na técnica, por exemplo, um arquivo de texto ou arquivo comprimido em zip, ou arquivos de FASTQ ou SAM/BAM.

[203] Os decodificadores de classe 219 podem reconstruir as sequências genômicas originais alavancando-se as informações sobre as sequências de referência originais portadas por uma ou mais correntes genômicas. No caso de as sequências de referência não serem transportadas pelas correntes genômicas, as mesmas devem estar disponíveis no lado de decodificação e acessíveis pelos decodificadores de classe.

[204] As técnicas da invenção reveladas através do presente documento podem ser implementadas em hardware, software, firmware ou qualquer combinação dos mesmos. Quando implementadas em software, as mesmas podem ser armazenadas em uma mídia de computador e executadas por uma unidade de processamento de hardware. A unidade de processamento de hardware pode compreender um ou mais processadores, processadores de sinal digital, microprocessadores de propósito geral, circuitos integrados de aplicação específica ou outro conjunto de circuitos de lógica distinto.

[205] As técnicas da presente revelação podem ser implementadas em uma variedade de dispositivos ou aparelhos, incluindo telefones móveis, computadores tipo desktop, servidores, computadores tipo tablet e dispositivos similares.

Claims

REIVINDICAÇÕES

1. Método para a compressão de dados de sequência de genoma produzidos por uma máquina de sequenciamento, em que os ditos dados de sequência de genoma compreendem leituras de sequências de nucleotídeos, em que o dito método é caracterizado pelo fato de que compreende as etapas de:

alinhar as ditas leituras a uma ou mais sequências de referência, criando, assim, leituras alinhadas, classificar as ditas leituras alinhadas de acordo com a possibilidade de um mapeamento perfeito com a dita uma ou mais sequências de referência ser encontrado, o número de incompatibilidades com a dita uma ou mais sequências de referência, a presença de substituições de símbolos, a presença de inserções ou deleções ou símbolos de corte nas ditas leituras alinhadas em relação à dita uma ou mais sequências de referência, a presença de leituras não mapeadas, criando, assim, classes de leituras alinhadas, e codificar as ditas leituras classificadas e alinhadas como uma multiplicidade de camadas de elementos de sintaxe compreendendo descritores que representam inequivocamente as ditas leituras classificadas e alinhadas, em que codificar as ditas leituras alinhadas classificadas como uma multiplicidade de camadas de elementos de sintaxe compreende selecionar os ditos elementos de sintaxe de acordo com as ditas classes de leituras alinhadas, em que a codificação das ditas leituras alinhadas classificadas como multiplicidade de camadas de elementos de sintaxe é adaptada de acordo com as propriedades estatísticas dos dados ou metadados portados pela camada, em que a codificação das ditas leituras alinhadas classificadas como multiplicidade de camadas de elementos de sintaxe associa um modelo de fonte específico e um conversor em código de entropia específico a cada camada, em que ocorre a decomposição da sequência de leitura de dados e metadados em camadas homogêneas de elementos de sintaxe para obtenção de fontes de fontes de informação distintas com entropia de

Petição 870190034495, de 10/04/2019, pág. 89/95
2/5 informação reduzida.

2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que as ditas camadas de elementos de sintaxe compreendem uma posição ao longo da sequência de referência, uma distância entre duas posições na sequência de referência e informações que indicam se as leituras de sequência são complementos reversos.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que as ditas camadas de elementos de sintaxe compreendem adicionalmente a posição de uma variante em relação à sequência de referência, o tipo de variante, a posição de uma deleção em relação à sequência de referência, a posição de um ou mais símbolos não presentes na sequência de referência, porém, presentes nas leituras alinhadas, o tipo de inserção em uma dada posição.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o dito conversor em código de entropia é um conversor em código aritmético adaptativo ao contexto.
5. Método para a descompressão de uma corrente genômica comprimida em concordância com o método, de acordo com a reivindicação 1, em que o dito método é caracterizado pelo fato de que compreende as etapas de:

• avaliar a dita corrente genômica comprimida em camadas genômicas de elementos de sintaxe, • expandir as ditas camadas genômicas em leituras classificadas de sequências de nucleotídeos, e • decodificar seletivamente as ditas leituras classificadas de sequências de nucleotídeos em uma ou mais sequências de referência de modo a produzir leituras não comprimidas de sequências de nucleotídeos.
6. Codificador genômico 2010 para a compressão de dados de sequência de genoma 209, em que os ditos dados de sequência de genoma 209 compreendem leituras de sequências de nucleotídeos, em que o dito codificador genômico 2010 é caracterizado pelo fato de que compreende:

uma unidade alinhadora 201 configurada para alinhar as ditas leituras a uma ou mais sequências de referência, criando, assim, leituras

Petição 870190034495, de 10/04/2019, pág. 90/95

3/5 alinhadas, uma unidade de classificação de dados 204, configurada para classificar as ditas leituras alinhadas de acordo com graus de precisão de correspondência com a uma ou mais sequências de referência, criando, assim, classes de leituras alinhadas;

uma ou mais unidades de codificação de camadas 205 a 207, configuradas para codificar as ditas leituras alinhadas classificadas como camadas de elementos de sintaxe selecionando-se os ditos elementos de sintaxe de acordo com as ditas classes de leituras alinhadas, em que a codificação das ditas leituras alinhadas classificadas como multiplicidade de camadas de elementos de sintaxe é adaptada de acordo com as propriedades estatísticas dos dados ou metadados portados pela camada, em que a codificação das ditas leituras alinhadas classificadas como multiplicidade de camadas de elementos de sintaxe associa um modelo de fonte específico e um conversor em código de entropia específico a cada camada, em que ocorre a decomposição da sequência de leitura de dados e metadados em camadas homogêneas de elementos de sintaxe para obtenção de fontes de fontes de informação distintas com entropia de informação reduzida.
7. Decodificador genômico 218 para a descompressão de uma corrente genômica 211 comprimida pelo codificador genômico, de acordo com a reivindicação 6, em que o dito decodificador genômico 218 é caracterizado pelo fato de que compreende:

• meio de avaliação 210, 212 a 214 configurado para avaliar a dita corrente genômica comprimida em camadas genômicas de elementos de sintaxe 215, • um ou mais decodificadores de camada 216 a 217 configurados para decodificar as camadas genômicas em leituras classificadas de sequências de nucleotídeos 2111, e • decodificadores de classes de dados genômicos 213 configurados para decodificar seletivamente as ditas leituras classificadas de sequências de nucleotídeos em uma ou mais sequências de referência, de modo a produzir

Petição 870190034495, de 10/04/2019, pág. 91/95

4/5 leituras não comprimidas de sequências de nucleotídeos.
8. Decodificador genômico, de acordo com a reivindicação 7, caracterizado pelo fato de que a uma ou mais sequências de referência são armazenadas na corrente de genoma comprimida 211.
9. Decodificador genômico, de acordo com a reivindicação 7, caracterizado pelo fato de que a uma ou mais sequências de referência são fornecidas ao decodificador por meio de um mecanismo fora de banda.
10. Decodificador genômico, de acordo com a reivindicação 7, caracterizado pelo fato de que a uma ou mais sequências de referência são construídas no decodificador.
11. Mídia legível por computador caracterizada pelo fato de que compreende instruções que, quando executadas, fazem com que pelo menos um processador realize o método, de acordo com qualquer uma das reivindicações 1 a 5.