BR112019007296A2

BR112019007296A2 - estruturas de dados eficazes para representação de informações de bioinformática

Info

Publication number: BR112019007296A2
Application number: BR112019007296A
Authority: BR
Inventors: Renzi Daniele; Zoia Giorgio
Original assignee: Genomsys Sa
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2019-09-17
Also published as: IL265908A; SG11201903175VA; US20210304841A1; CA3039688C; FI4075438T3; JP6902104B2; ES2922420T3; PH12019500791A1; CL2019000954A1; EP3526709A1; CN110088839B; JP2019537810A; IL265908B1; CO2019003583A2; KR20190062544A; AU2016426569B2; EP3526709B1; NZ753247A; EP4075438A1; AU2016426569A1

Abstract

trata-se de método e aparelho para a representação de dados de sequência de genoma organizados em um formato de arquivo estruturado. a estrutura de dados contém a representação de sequências de nucleotídeos: na forma comprimida, alinhada e referente a uma ou mais sequências de referência e classificadas de acordo com diferentes graus de precisão de correspondência. as leituras classificadas e alinhadas são convertidas em códigos na forma de camadas de elementos de sintaxe, em que as informações, incluindo um cabeçalho, são particionadas em unidades de acesso independentes ou dependentes.

Description

“ESTRUTURAS DE DADOS EFICAZES PARA REPRESENTAÇÃO DE INFORMAÇÕES DE BIOINFORMÁTICA”

DESCRIÇÃO

CAMPO DA TÉCNICA [001] A presente invenção revela uma Camada de Armazenamento de Informações Genômicas (Formato de Arquivo Genômico) que define uma estrutura de dados genômicos que inclui a coleção de dados heterogêneos associados às informações geradas por dispositivos e aplicativos relacionados ao sequenciamento, processamento e análise de genoma durante os diferentes estágios de processamento de dados genômicos (o chamado “ciclo de vida de informações genômicas”).

ANTECEDENTES [002] As informações proteômicas ou genômicas geradas por máquinas de sequenciamento de DNA, RNA ou proteína são transformadas, durante os diferentes estágios de processamento de dados, para produzir dados heterogêneos. Nas soluções da técnica anterior, esses dados são atualmente armazenados em arquivos de computador que têm estruturas diferentes e não relacionadas. Essas informações, portanto, são bem difíceis de arquivar, transferir e elaborar.

[003] As sequências proteômicas ou genômicas mencionadas na presente invenção incluem, por exemplo, e não como uma limitação, sequências de nucleotídeos, sequências de Ácido desoxirribonucleico (DNA), Ácido Ribonucleico (RNA) e sequências de aminoácidos. Embora a descrição no presente documento esteja em detalhes consideráveis em relação às informações genômicas na forma de uma sequência de nucleotídeos, será entendido que os métodos e os sistemas para armazenamento podem ser implementados para outras sequências proteômicas ou genômicas também, embora com algumas variações, como será entendido por uma pessoa versada na técnica.

[004] O ciclo de vida de informações proteômicas ou genômicas a partir da geração (sequenciamento) de dados à análise é representado na Figura 1, em que as diferentes fases do ciclo de vida genômico e os formatos de arquivo intermediários associados são mostrados. Como mostrado na Figura 1, as etapas típicas do ciclo de vida de informações genômicas

Petição 870190034462, de 10/04/2019, pág. 5/83

2/26 compreendem: Extração de Leituras de Sequência, Mapeamento e Alinhamento, Detecção de Variante, Anotação de Variante e Análise Funcional e Estrutural.

[005] A Extração de Leituras de Sequência é o processo realizado por um operador humano ou uma máquina - de representação de fragmentos de informações genéticas na forma de sequências de símbolos que representam as moléculas que compõem uma amostra biológica. No caso de ácidos nucleicos, tais moléculas são chamadas de “nucleotídeos”. As sequências de símbolos produzidas pela extração são comumente chamadas de “leituras”. Essas informações são geralmente codificadas na técnica anterior como arquivos de FASTA, incluindo um cabeçalho textual e uma sequência de símbolos que representa as moléculas sequenciadas.

[006] Quando a amostra biológica é sequenciada para extrair DNA de um organismo vivo, o alfabeto é composto pelos símbolos (A,C,G,T,N).

[007] Quando a amostra biológica é sequenciada para extrair RNA de um organismo vivo, o alfabeto é composto pelos símbolos (A,C,G,U,N).

[008] No caso de conjunto de símbolos estendido de IUPAC, os chamados “códigos de ambiguidade” também são gerados pela máquina de sequenciamento, o alfabeto usado para os símbolos que compõem as leituras são (A, C, G, T, U, W, S, Μ, K, R, Y, B, D, Η, V, N ou -).

[009] Quando os códigos de ambiguidade da IUPAC não são usados, uma sequência de pontuações de qualidade pode ser associada a cada leitura de sequência. Em tal caso, as soluções da técnica anterior codificam as informações resultantes como um arquivo de FASTQ.

[010] O alinhamento de sequência se refere ao processo de dispor as leituras de sequência encontrando-se as regiões de similaridade que podem ser uma consequência de relações funcionais, estruturais ou evolucionárias entre as sequências. Quando o alinhamento é realizado com referência a uma sequência de nucleotídeos pré-existente chamada de “sequência de referência”, o processo é chamado de “mapeamento”. O alinhamento de sequência também pode ser realizado sem uma sequência préexistente (isto é, genoma de referência), em tais casos o processo é conhecido na técnica anterior como alinhamento tipo “de novo”. As soluções da técnica

Petição 870190034462, de 10/04/2019, pág. 6/83

3/26 anterior armazenam tais informações em arquivos de SAM, BAM ou CRAM. O conceito de alinhar as sequências para reconstruir um genoma parcial ou completo é representado na Figura 2.

[011] A Detecção de Variante (conhecida como chamada de variante) é o processo de tradução do resultado alinhado de máquinas de sequenciamento de genoma para um sumário das características exclusivas do organismo que é sequenciado que não podem ser encontradas em outras sequências pré-existentes ou podem ser encontradas apenas em algumas sequências pré-existentes. Essas características são chamadas de “variantes” porque são expressas como diferenças entre o genoma do organismo sob estudo e um genoma de referência. As soluções da técnica anterior armazenam essas informações em um formato de arquivo específico chamado de arquivo de VCF.

[012] A Anotação de Variante é o processo de atribuir informações funcionais às variantes genômicas. Isso implica a classificação de variantes de acordo com sua relação com sequências de codificação no genoma e de acordo com seu impacto na sequência de codificação e no produto de gene. Na técnica anterior, isso é geralmente armazenado em um arquivo de MAF.

[013] A Análise de filamentos de DNA (variante, CNV = variação de número de cópia, metilação etc.) para definir sua relação com funções e estrutura de genes (e proteínas) é chamada de análise funcional e estrutural. Há várias soluções diferentes na técnica anterior para o armazenamento desses dados.

[014] Uma visão simplificada da relação entre os formatos de arquivo usados em pipelines de processamento de genoma é representada na Figura 3. Nesse arquivo de diagrama, a inclusão não implica a existência de uma estrutura de arquivo aninhada, mas representa apenas o tipo e a quantidade de informações que podem ser codificadas para cada formato (isto é, SAM contém todas as informações em FASTQ, porém, organizadas em uma estrutura de arquivo diferente). A CRAM contém as mesmas informações genômicas que SAM/BAM, porém, fornece mais flexibilidade no tipo de compressão que pode ser usada, portanto, é representada como um superconjunto de SAM/BAM.

Petição 870190034462, de 10/04/2019, pág. 7/83

4/26 [015] O uso de múltiplos formatos de arquivo para o armazenamento de informações genômicas é altamente ineficaz e dispendioso. Apresentar diferentes formatos de arquivo em diferentes estágios do ciclo de vida de informações genômicas implica um crescimento linear de espaço de armazenamento utilizado, mesmo se as informações incrementais forem muito pequenas em comparação com o volume inicial de dados de sequenciamento. Isso se torna insustentável em termos tanto de espaço quanto de custos gerados e impede que aplicações genômicas alcancem uma porção mais ampla da população. As desvantagens adicionais de soluções conhecidas da técnica anterior são listadas abaixo.

[016] 1. Acessar, analisar ou adicionar anotações (metadados) aos dados brutos armazenados em arquivos de FASTQ comprimidos ou qualquer combinação dos mesmos exige descompressão e recompressão de todo o arquivo com uso extensivo de tempo e recursos computacionais.

[017] 2. Recuperar tipos específicos de informações como posição de mapeamento de leitura, posição de variante de leitura e tipo, tipos e posição de indels, ou quaisquer outros metadados e anotação contidos em dados armazenados alinhados em arquivos de BAM exige o acesso ao volume total de dados associados a cada leitura. O acesso seletivo a uma única classe de metadados não é possível com as soluções da técnica anterior.

[018] 3. Os formatos de arquivo da técnica anterior exigem que o arquivo total seja recebido no usuário final antes que o processamento possa ser iniciado. Por exemplo, o alinhamento de leituras podería ser iniciado antes que o processo de sequenciamento tenha sido concluído, dependendo de uma representação de dados adequada. O sequenciamento, alinhamento e a análise poderíam prosseguir e ser executados em paralelo.

[019] 4. A estruturação e a capacidade de distinguir os dados genômicos obtidos através de diferentes processos de sequenciamento de acordo com sua semântica de geração específica (por exemplo, o sequenciamento obtido em um momento diferente da vida do mesmo indivíduo, não podem ser suportadas dependendo das soluções da técnica anterior. O mesmo ocorre para o sequenciamento obtido por diferentes tipos de amostras biológicas do mesmo indivíduo.

[020] 5. A criptografia dos dados integrais ou porções

Petição 870190034462, de 10/04/2019, pág. 8/83

5/26 selecionadas dos mesmo não é suportada por soluções da técnica anterior. Por exemplo, a criptografia de regiões de DNA selecionadas; apenas aquelas sequências contendo variantes; apenas sequências quiméricas; apenas sequências não mapeadas; metadados específicos (por exemplo, origem da amostra sequenciada, identidade do indivíduo sequenciado, tipo de amostra) não é possível.

[021] 6. A transcodificação de dados de sequenciamento alinhados a uma dada referência (isto é, um arquivo de SAM/BAM) em uma nova referência exige o processamento do volume integral de dados, mesmo se a nova referência for diferente apenas por uma única posição de nucleotídeo em relação à referência anterior.

[022] 7. A transferência de dados genômicos é lenta e ineficaz, visto que os formatos de dados usados atualmente são organizados em arquivos monolíticos de até várias centenas de Gigabytes de tamanho que precisam ser totalmente transferidos na extremidade de recebimento para serem processados. Isso implica que a análise de um segmento pequeno dos dados exige a transferência de todo o arquivo com custos significativos em termos de largura de banda consumida e tempo de espera. Frequentemente a transferência online é proibitiva para grandes volumes dos dados a serem transferidos, e o transporte dos dados é realizado movendo-se fisicamente os meios de armazenamento como unidades de disco rígido ou servidores de armazenamento de uma localização para outra.

[023] 8. O processamento dos dados é lento e ineficaz pelo fato de que as informações não são estruturadas de tal modo que as porções das diferentes classes de dados e metadados exigidas por aplicações de análise comumente usadas não possam ser recuperadas sem a necessidade de acessar os dados em sua totalidade. Esse fato implica que os pipelines de análise comuns podem exigir ser executados por dias ou semanas, desperdiçando recursos de processamento precisos e dispendiosos pela necessidade, em cada estágio, de acessar, de avaliar e filtrar grandes volumes de dados, mesmo se as porções de dados relevantes para o propósito de análise específica forem muito menores. Essas limitações impedem que profissionais de cuidados com a saúde obtenham oportunamente relatórios de análise genômica e imediatamente a surtos de doenças.

Petição 870190034462, de 10/04/2019, pág. 9/83

6/26 [024] Há uma necessidade evidente de fornecer uma representação adequada de dados e metadados de sequenciamento genômico (Formato de Arquivo Genômico) através da organização e do particionamento dos dados, de modo que a compressão de dados e metadados seja maximizada e várias funcionalidades, como o acesso seletivo e o suporte para atualizações incrementais e outra funcionalidade de manuseio de dados útil nos diferentes estágios do ciclo de vida de dados genômicos sejam possibilitados de modo eficaz.

[025] Os principais aspectos da solução revelada são:

[026] 1. A classificação das leituras de sequência em diferentes classes de acordo com os resultados do alinhamento em relação a uma sequência de referência para possibilitar o acesso seletivo aos dados codificados de acordo com critérios relacionados aos resultados de alinhamento. Isso implica uma especificação de um formato de arquivo que “contém” elementos de dados estruturados na forma comprimida. Tal abordagem pode ser vista como um oposto das abordagens da técnica anterior, SAM e BAM, por exemplo, em que os dados são estruturados em forma não comprimida e, então, o arquivo integral é comprimido. Uma primeira vantagem nítida da abordagem é ser capaz de fornecer, de modo eficaz e natural, várias formas de acesso seletivo aos elementos de dados no domínio comprimido, que é impossível ou extremamente difícil nas abordagens da técnica anterior.

[027] 2. A decomposição das leituras classificadas em camadas de metadados homogêneos para reduzir a entropia de informações tanto quanto possível. A decomposição das informações genômicas em “camadas” específicas de dados e metadados homogêneos apresenta a vantagem considerável de possibilitar a definição de diferentes modelos das fontes de informações caracterizadas por entropia baixa. Tais modelos, não apenas podem diferir de camada para camada, mas também podem diferir dentro de cada camada. Essa estruturação possibilita o uso da compressão específica mais adequada para cada classe de dados ou metadados e porção dos mesmos com ganhos significativos na eficácia de codificação versus abordagens da técnica anterior.

[028] 3. A estruturação das camadas em Unidades de Acesso,

Petição 870190034462, de 10/04/2019, pág. 10/83

7/26 isto é, informações genômicas que podem ser decodificadas independentemente com o uso apenas de parâmetros globalmente disponíveis (por exemplo, configuração de decodificador) ou com o uso de informações contidas em outras Unidades de Acesso. Quando os dados comprimidos dentro das camadas são particionados em Blocos de Dados incluídos em Unidades de Acesso, diferentes modelos das fontes de informações caracterizados por entropia baixa podem ser definidos.

[029] 4. As informações são estruturadas, de modo que qualquer subconjunto relevante de dados usados por aplicações de análise genômica seja acessível de modo eficaz e seletivamente por meio de interfaces adequadas. Esses recursos possibilitam um acesso mais rápido aos dados e rendem um processamento mais eficaz. Uma Tabela de índice Principal e Tabelas de índice Locais possibilitam o acesso seletivo às informações portadas pelas camadas de dados codificados (isto é, comprimidos) sem a necessidade de decodificar o volume integral de dados comprimidos. Ademais, um mecanismo de associação entre as várias camadas de dados é especificado para possibilitar o acesso seletivo de qualquer combinação possível de subconjuntos de camadas de dados e/ou metadados semanticamente associadas sem a necessidade de decodificar todas as camadas.

[030] 5. O armazenamento conjunto da Tabela de índice Principal e das Unidades de Acesso.

BREVE DESCRIÇÃO DOS DESENHOS [031] A Figura 1 é um diagrama de blocos do ciclo de vida típico de informações genômicas.

[032] A Figura 2 é representado um diagrama que mostra o conceito de alinhamento de sequências para reconstruir um genoma parcial ou completo.

[033] A Figura 3 é um diagrama conceituai que ilustra uma visão simplificada da relação entre os formatos de arquivo usados em pipelines de processamento de genoma.

[034] A Figura 4 mostra pares de leituras mapeados para uma sequência de referência.

[035] A Figura 5 mostra um exemplo de Unidades de Acesso de

Petição 870190034462, de 10/04/2019, pág. 11/83

8/26 acordo com os princípios da presente revelação.

[036] A Figura 6 mostra um exemplo de Acesso incluindo um cabeçalho e camadas compostas por blocos de dados.

[037] A Figura 7 mostra a relação entre “Pacotes de Dados” genômicos, “Blocos” genômicos, Unidades de Acesso genômicas, camadas genômicas e Classes de Leituras de Correntes genômicas.

[038] A Figura 8 mostra uma tabela de índice principal com os vetores de loci de mapeamento da primeira leitura contidos por cada Unidade de Acesso.

[039] A Figura 9 mostra a estrutura genérica do Cabeçalho Principal e uma representação parcial de MIT que mostra as posições de mapeamento da primeira leitura em cada AU de pos de classe P.

[040] A Figura 10 mostra um segundo tipo de armazenamento de dados na MIT.

[041] A Figura 11 mostra que as Unidades de Acesso contendo leituras de classe P mapeadas na sequência de referência n² 2 entre a posição 150.000 e 250.000 são acessadas com o uso dos valores contidos no vetor T1p.

[042] A Figura 12 mostra que uma modificação na sequência de referência pode transformar leituras de M em leituras de P.

[043] A Figura 13 é um diagrama de blocos que mostra o ciclo de vida de informações genômicas de acordo com os princípios da presente invenção.

[044] A Figura 14 mostra um extrator de leituras de sequência de acordo com os princípios da presente invenção.

[045] A Figura 15 mostra um codificador genômico 2010 de acordo com os princípios da presente invenção.

[046] A Figura 16 mostra um decodificador genômico 218 de acordo com os princípios da presente invenção.

SUMÁRIO [047] Os recursos da reivindicação 1 solucionam o problema de soluções existentes da técnica anterior através do fornecimento de [048] um método para o armazenamento de uma representação de dados de sequência de genoma em um formato de arquivo genômico, em

Petição 870190034462, de 10/04/2019, pág. 12/83

9/26 que os ditos dados de sequência de genoma compreendem leituras de sequências de nucleotídeos, compreendendo as etapas de: alinhar as ditas leituras a uma ou mais sequências de referência, criando, assim, leituras alinhadas, classificar as ditas leituras alinhadas de acordo com diferentes graus de precisão de correspondência com a dita uma ou mais sequências de referência, criando, assim, classes de leituras alinhadas; codificar as ditas leituras alinhadas classificadas como camadas de elementos de sintaxe, estruturar as ditas camadas de elementos de sintaxe com informações de cabeçalho, criando, assim, unidades de acesso sucessivas, criar uma tabela de índice principal, contendo uma seção para cada classe de leituras alinhadas, compreendendo as posições de mapeamento na sequência de referência da primeira leitura de cada uma das unidades de acesso de cada classe de dados; armazenar de modo conjunto a dita tabela de índice principal e os ditos dados de unidade de acesso.

[049] Armazenando-se de modo conjunto as tabelas de índice e a dita representação dos dados de sequência de genoma, em vez de diferentes arquivos separados para cada tipo de dados da representação de dados de sequência de genoma como mencionado na descrição de ciclo de vida acima, muitas vantagens são imediatamente evidentes, a saber:

[050] · Os resultados de qualquer estágio intermediário de processamento de dados de sequência de genoma pode ser adicionado de modo incrementai aos dados existentes sem a necessidade de transcodificar em um formato de arquivo diferente. Por exemplo, as informações de alinhamento podem ser adicionadas aos dados brutos sem a necessidade de alterar o formato de arquivo existente. Os resultados de chamada de variantes podem ser incluídos nos dados de sequência alinhados existentes com uma atualização incrementai.

[051] · Os dados de sequência genômica podem ser recuperados de acordo com suas características específicas sem a necessidade de acessar o arquivo inteiro ou regiões do mesmo que não correspondem aos critérios da consulta. Por exemplo, as consultas podem ser executadas para acessar seletivamente:

[052] o as leituras de sequência que correspondem perfeitamente em um ou mais genomas de referência

Petição 870190034462, de 10/04/2019, pág. 13/83

10/26 [053] o as leituras de sequência que contêm apenas incompatibilidades em que um símbolo “N” está presente em vez de um símbolo de nucleotídeo ou aminoácido real [054] o as leituras de sequência que contêm qualquer tipo de incompatibilidade na forma de substituição de símbolos em relação a um ou mais genomas [055] o as leituras de sequência que contêm incompatibilidades e inserção ou deleções (indels) [056] o as leituras de sequência que contêm incompatibilidades, inserção ou deleções (indels) e símbolos de corte suave em relação a um ou mais genomas de referência [057] o as leituras de sequência que não podem ser mapeadas em relação ao genoma (ou genomas) de referência considerado [058] o Todos os Polimorfismos de Único Nucleotídeo (SNPs) que estão presentes entre limiares especificados de profundidade [059] o Todas as leituras de sequência quiméricas [060] o Todas as leituras de sequência com pontuações de qualidade acima de um limiar especificado [061] Todos os metadados associados a um conjunto especificado de leituras de sequência [062] Classificando-se as leituras alinhadas de acordo com uma confiança de correspondência com a sequência de referência, o acesso seletivo aos dados codificados de acordo com critérios relacionados aos resultados de alinhamento pode ser alcançado.

[063] Codificando-se as leituras alinhadas classificadas como camadas de elementos de sintaxe, a codificação pode ser adaptada de acordo com os recursos específicos dos dados ou metadados portados pela camada e suas propriedades estatísticas.

[064] Estruturando-se as camadas de elementos de sintaxe com informações de cabeçalho em unidades de acesso sucessivas, a codificação, o armazenamento e a transmissão podem ser adaptados de acordo com a natureza dos dados. Por exemplo, a codificação pode ser adaptada por unidade de acesso para usar o modelo de fonte mais eficaz para cada camada de dados em termos de minimização da entropia.

Petição 870190034462, de 10/04/2019, pág. 14/83

11/26 [065] De acordo com um aspecto revelado, um método para extrair as leituras de sequências de nucleotídeos armazenados em um arquivo genômico, em que o dito arquivo genômico compreende uma tabela de índice principal e dados de unidades de acesso armazenados de acordo com os princípios da presente revelação, em que o dito método compreende as etapas de: receber entrada de usuário que identifica o tipo de leituras a serem extraídas, recuperar a tabela de índice principal a partir do dito arquivo genômico, recuperar as unidades de acesso correspondentes ao dito tipo de leituras a serem extraídas, reconstruir as ditas leituras de sequências de nucleotídeos mapeando as ditas unidades de acesso recuperadas em uma ou mais sequências de referência.

[066] A presente invenção revela adicionalmente uma Máquina de Sequenciamento de Genoma que compreende: Uma Máquina de Sequenciamento de Genoma que compreende: uma unidade de sequenciamento de genoma, configurada para emitir leituras de sequências de nucleotídeos a partir de uma amostra biológica, uma unidade de alinhamento, configurada para alinhar as ditas leituras a uma ou mais sequências de referência, criando, assim, leituras alinhadas, uma unidade de classificação, configurada para classificar as ditas leituras alinhadas de acordo com graus de precisão de correspondência com a dita uma ou mais sequências de referência, criando, assim, classes de leituras alinhadas; uma unidade de codificação, configurada para codificar as ditas leituras alinhadas classificadas como camadas de elementos de sintaxe, uma unidade de subdivisão, configurada para estruturar as ditas camadas de elementos de sintaxe com informações de cabeçalho, criando, assim, unidades de acesso sucessivas, uma unidade de processamento de tabela de índice, configurada para criar uma tabela de índice principal, contendo uma seção para cada classe de leituras alinhadas, compreendendo as posições de mapeamento nas uma ou mais sequências de referência da primeira leitura de cada uma das unidades de acesso de cada classe de dados; uma unidade de armazenamento, configurada para armazenar de modo conjunto a dita tabela de índice principal e os ditos dados de unidade de acesso.

[067] De acordo com um aspecto revelado, um extrator para extrair leituras de sequências de nucleotídeos armazenadas em um arquivo

Petição 870190034462, de 10/04/2019, pág. 15/83

12/26 genômico, em que o dito arquivo genômico compreende uma tabela de índice principal e dados de unidades de acesso armazenados de acordo com os princípios da presente revelação, em que o dito extrator compreende: meio de entrada de usuário configurado para receber entrada que identifica o tipo de leituras a serem extraídas, meio de recuperação configurado para recuperar a dita tabela de índice principal do dito arquivo genômico, meio de recuperação configurado para recuperar as unidades de acesso correspondentes ao dito tipo de leituras a serem extraídas, meio de reconstrução configurado para reconstruir as ditas leituras de sequências de nucleotídeos, mapeando as ditas unidades de acesso recuperadas em uma ou mais sequências de referência.

[068] De acordo com um aspecto revelado, um aparelho de processamento digital é programado para realizar um método como apresentado no parágrafo imediatamente anterior. De acordo com outro aspecto revelado, uma mídia de armazenamento não transitória é acessada por um aparelho de processamento digital e armazena instruções executáveis pelo aparelho de processamento digital para realizar um método como apresentado no parágrafo anterior.

[069] De acordo com outro aspecto revelado, uma mídia de armazenamento não transitória é legível por um processador digital e armazena software para processar dados proteômicos ou genômicos representados como linhas de caracteres proteômicos ou genômicos que compreendem caracteres de um conjunto de caracteres de bioinformática, em que cada base ou peptídeo dos dados proteômicos ou genômicos é representado no formato descrito nos parágrafos anteriores. Em algumas modalidades, o software processa os dados proteômicos ou genômicos com o uso de transformações de processamento de sinal digital.

DESCRIÇÃO DETALHADA CLASSIFICAÇÃO DAS LEITURAS DE SEQUÊNCIA [070] As leituras de sequência geradas por máquinas de sequenciamento são classificadas pela invenção revelada em cinco “classes” diferentes de acordo com os resultados do alinhamento em relação a uma ou mais sequências de referência.

[071] Ao alinhar uma sequência de DNA de nucleotídeos em relação a uma sequência de referência são cinco os possíveis resultados:

Petição 870190034462, de 10/04/2019, pág. 16/83

13/26 [072] 1. É constatado que uma região na sequência de referência corresponde à leitura de sequência sem nenhum erro (mapeamento perfeito). Tal sequência de nucleotídeos será chamada de “leitura perfeitamente correspondente” ou denotada como “Classe P”.

[073] 2. É constatado que uma região na sequência de referência é correspondente à leitura de sequência com um número de incompatibilidades constituído por um número de posições nas quais a máquina de sequenciamento não foi capaz de chamar nenhuma base (ou nucleotídeo). Tais incompatibilidades são denotadas por um “N”. Tais sequências serão chamadas de “leituras incompatíveis de N” ou “Classe N”.

[074] 3. É constatado que uma região na sequência de referência é correspondente à leitura de sequência com um número de incompatibilidades constituído por um número de posições nas quais a máquina de sequenciamento não foi capaz de chamar nenhuma base (ou nucleotídeo) OU uma base diferente daquela relatada no genoma de referência foi chamada. Tal tipo de incompatibilidade é chamada de Variação de Único Nucleotídeo (SNV) ou Polimorfismo de Único Nucleotídeo (SNP). A sequência será chamada de “leituras incompatíveis de M” ou “Classe M”.

[075] 4. Uma quarta classe é constituída por leituras de sequenciamento que apresentam um tipo de incompatibilidade que inclui as mesmas incompatibilidades da classe M mais a presença de inserções ou deleções (conhecidas como indels). As inserções são representadas por uma sequência de um ou mais nucleotídeos não presentes na referência, porém, presentes na sequência de leitura. Na literatura, quando a sequência inserida está nas bordas da sequência, é chamada de “corte suave” (isto é, os nucleotídeos não correspondem à referência, mas são mantidos nas leituras alinhadas ao contrário dos nucleotídeos de corte rígido que são descartados). A deleção consiste em “orifícios” (nucleotídeos faltantes) na leitura alinhada em relação à referência. Tais sequências serão chamadas de “leituras incompatíveis de I” ou “Classe I”.

[076] 5. Uma quinta classe inclui todas as leituras que agora encontram qualquer mapeamento válido no genoma de referência de acordo com as restrições de alinhamento especificadas. É dito que tais sequências não são mapeadas e pertencem à “Classe U”.

Petição 870190034462, de 10/04/2019, pág. 17/83

14/26 [077] As leituras não mapeadas podem ser montadas em uma única sequência com o uso de algoritmos de montagem tipo de-novo. Uma vez que a nova sequência tiver sido criada, as leituras não mapeadas podem ser adicionalmente mapeadas em relação à mesma e ser classificadas em uma dentre as quatro classes P, N, M e I.

DECOMPOSIÇÃO DAS INFORMAÇÕES GENÔMICAS EM CAMADAS.

[078] Uma vez que a classificação de leituras for concluída com a definição das classes, o processamento adicional consiste na definição de um conjunto de elementos de sintaxe distintos que representam as informações restantes que possibilitam a reconstrução da sequência de leitura de DNA quando representada como sendo mapeada em uma dada sequência de referência. Um segmento de DNA chamado como uma dada sequência de referência pode ser totalmente expressado por:

[079] · A posição inicial no genoma de referência (pos).

[080] · Um sinalizador que sinaliza se a leitura deve ser considerada como um complemento reverso versus a referência (rcomp).

[081] · Uma distância até o par correspondente no caso de leituras emparelhado (par).

[082] · O valor do comprimento de leitura no caso de a tecnologia de sequenciamento produzir leituras de comprimento variável. No caso do comprimento constante de leituras, o comprimento de leitura associado a cada leitura pode, obviamente, ser omitido e pode ser armazenado no cabeçalho de arquivo principal.

[083] · Sinalizadores adicionais que descrevem características específicas da leitura (leitura duplicada, primeira ou segunda leitura em um par etc...).

[084] · Para cada incompatibilidade:

[085] o Posição de incompatibilidade (nmis para classe N, snpp para classe M e indp para classe I) [086] o O tipo de incompatibilidade (não presente na classe N, snpt na classe M, indt na classe I) [087] · Linha opcional de nucleotídeos de corte suave quando presente (indc na classe I).

Petição 870190034462, de 10/04/2019, pág. 18/83

15/26 [088] Essa classificação cria grupos de descritores (elementos de sintaxe) que pode ser usado para representar inequivocamente as leituras de sequência de genoma. A tabela abaixo sumariza os elementos de sintaxe necessários para cada classe de leituras alinhadas.

	P	N	M	1
pos	X	X	X	X
par	X	X	X	X
rcomp	X	X	X	X
sinalizadores	X	X	X	X
rlen	X	X	X	X
nmis		X
snpp			X
snpt			X
indp				X
indt				X
indc				X

TABELA 1 - CAMADAS DEFINIDAS POR CLASSE DE DADOS.

[089] As leituras pertencentes às classe P são caracterizadas e podem ser perfeitamente reconstruídas por apenas uma posição, informações de complemento reverso e uma distância entre correspondentes no caso, os mesmos foram obtidos por uma tecnologia de sequenciamento que rende pares correspondentes, alguns sinalizadores e um comprimento de leitura.

[090] A Figura 4 ilustra como as leituras podem ser acopladas em pares (de acordo com a tecnologia de sequenciamento mais comum da Illumina Inc.) e mapeadas em uma sequência de referência. Os pares de leituras mapeados na sequência de referência são codificados em uma multiplicidade de camadas de descritores homogêneos (isto é, posições, distâncias entre leituras em um par, incompatibilidades etc....).

[091] Uma camada é definida como um vetor de descritores relacionados a um dentre a multiplicidade de elementos necessários para identificar exclusivamente as leituras mapeadas na sequência de referência. Seguem exemplos de camadas que portam, cada uma, um vetor de descritores:

[092] · camada de posição de leituras

Petição 870190034462, de 10/04/2019, pág. 19/83

16/26 [093] · camada de complemento reverso [094] · camada de informações de emparelhamento [095] · camada de posição de incompatibilidade [096] · camada de tipo de incompatibilidade [097] · camada de indels [098] · camada de bases cortadas [099] · camada de comprimentos de leituras (presente apenas no caso de comprimento variável de leituras) [100] · camada de sinalizadores de BAM

BLOCOS DE DADOS, UNIDADES DE ACESSO E CAMADA DE DADOS GENÔMICOS [101] A estrutura de dados adicionalmente revelada pela presente invenção depende dos conceitos de:

[102] Um Bloco de Dados é definido como um conjunto dos elementos de vetor de descritor, do mesmo tipo (por exemplo, posições, distâncias, complemento reverso sinalizadores, posição e tipo de incompatibilidade) que compõem uma camada. Uma camada é tipicamente composta por uma multiplicidade de blocos de dados. Um bloco de dados pode ser particionado em Pacotes de Dados Genômicos que consistem em unidades de transmissão que têm um tamanho tipicamente especificado de acordo com as exigências do canal de comunicação. Tal recurso de particionamento é desejável para alcançar eficácia de transporte com o uso de protocolos de comunicação de rede típicos.

[103] Uma unidade de acesso é definida como um subconjunto de dados genômicos que podem ser totalmente decodificados independentemente a partir de outras unidades de acesso com o uso apenas de dados globalmente disponíveis (por exemplo, configuração de decodificador) ou com o uso de informações contidas em outras unidades de acesso. Uma unidade de acesso é composta por um cabeçalho e através do resultado de multiplexação de blocos de dados de diferentes camadas. Vários pacotes do mesmo tipo são encapsulados em um bloco e vários blocos são multiplexados em uma unidade de acesso. Esses conceitos são representados na Figura 5. A Figura 6 mostra uma unidade de acesso que consiste em um cabeçalho e uma ou mais camadas de blocos de dados da mesma natureza. A

Petição 870190034462, de 10/04/2019, pág. 20/83

17/26

Figura 6 mostra um exemplo de uma estrutura de unidade de acesso genérica representada na Figura 5, em que [104] · blocos de dados da camada 1 contêm informações relacionadas à posição de leituras em uma sequência de referência;

[105] · blocos de dados da camada 2 contêm informações a respeito de complementaridade reversa de leituras;

[106] · blocos de dados da camada 3 contêm informações relacionadas às informações de emparelhamento de leitura;

[107] · blocos de dados da camada 4 contêm informações a respeito do comprimento de leituras.

[108] Uma Camada de Dados Genômicos é definida como um conjunto de blocos de dados genômicos que codificam dados do mesmo tipo (por exemplo, blocos de posição de leituras perfeitamente correspondentes em um genoma de referência são codificados na mesma camada).

[109] Uma Corrente de Dados Genômicos é uma versão empacotada de uma Camada de Dados Genômicos, em que os dados genômicos codificados são portados como carga de trabalho de Pacotes de Dados Genômicos incluindo dados de serviço adicionais em um cabeçalho. Consultar a Figura 7 para um exemplo de empacotamento de 3 Camadas de Dados Genômicos em 3 Corrente de Dados Genômicos.

[110] Uma Multiplexação de Dados Genômicos é definida como uma sequência de Unidades de Acesso Genômicas usadas para transmitir dados genômicos relacionados a um ou mais processos de sequenciamento, análise ou processamento genômico. A Figura 7 fornece um esquema da relação entre uma Multiplexação Genômica que porta três Correntes de Dados Genômicos decompostas em Unidades de Acesso. As Unidades de Acesso encapsulam os Blocos de Dados pertencentes às três correntes e particionados em Pacotes Genômicos a serem enviados em uma rede de transmissão.

MODELOS DE FONTE, CONVERSORES EM CÓDIGO DE ENTROPIA E MODOS DE CONVERSÃO EM CÓDIGO.

[111] Para cada camada da estrutura de dados genômicos revelada na presente invenção, diferentes algoritmos de conversão em código podem ser empregados de acordo com os recursos específicos dos dados ou

Petição 870190034462, de 10/04/2019, pág. 21/83

18/26 metadados portados pela camada e suas propriedades estatísticas. O “algoritmo de conversão em código” deve ser destinado à associação de um “modelo de fonte” específico do descritor como um “conversor em código de entropia” específico. O “modelo de fonte” específico pode ser especificado e selecionado para obter a conversão em código mais eficaz dos dados em termos de minimização da entropia de fonte. A seleção do conversor em código de entropia pode ser conduzida através de considerações de eficácia de conversão em código e/ou recursos de distribuição de probabilidade e problemas de implementação associados. Cada seleção de um algoritmo de conversão em código específico será chamado de “modo de conversão em código” aplicado a uma “camada” inteira ou a todos os “blocos de dados” contidos em uma unidade de acesso. Cada “modelo de fonte” associado a um modo de conversão em código é caracterizado por:

[112] · A definição dos elementos de sintaxe emitidos por cada fonte (por exemplo, posição de leituras, informações de emparelhamento de leituras, incompatibilidades em relação a uma sequência de referência etc.) [113] · A definição do modelo de probabilidade associado.

[114] · A definição do conversor em código de entropia associado.

[115] Para cada camada de dados, o modelo de fonte adotado em uma unidade de acesso é independente do modelo de fonte usado por outras unidades de acesso para a mesma camada de dados. Isso possibilita que cada unidade de acesso use o modelo de fonte mais eficaz para cada camada de dados em termos de minimização da entropia.

TABELAS

TABELA DE ÍNDICE PRINCIPAL [116] Para suportar o acesso seletivo a regiões específicas dos dados alinhados, a estrutura de dados descrita nesse documento implementa uma ferramenta de indexação chamada de Tabela de índice Principal (MIT). Esse é um arranjo multidimensional contendo duas classes de dados:

[117] 1. os loci em que as leituras específicas mapeiam nas sequências de referência usadas. Esses valores contidos na MIT são as posições de mapeamento da primeira leitura em cada unidade de acesso de pos, de modo que o acesso não sequencial a cada unidade de acesso seja

Petição 870190034462, de 10/04/2019, pág. 22/83

19/26 suportado. Essas seções da MIT contêm uma seção por cada classe de dados (P, N, M e I) e por cada sequência de referência.

[118] 2. os apontadores para as unidades de acesso contendo os dados necessários para reconstruir os blocos de leituras após aqueles cujas posições de mapeamento são armazenadas nos vetores de posição mencionados no ponto 1. Cada vetor de apontadores é chamado de Tabela de índice Local.

POSIÇÕES DE MAPEAMENTO DE UNIDADES DE ACESSO [119] A Figura 8 mostra um esquema da MIT que destaca os quatro vetores contendo as posições de mapeamento na sequência de referência (possivelmente mais de um) de cada uma das unidades de acesso de cada classe de dados.

[120] A MIT é contida no Cabeçalho Principal dos dados codificados. A Figura 9 mostra a estrutura genérica do Cabeçalho Principal e um exemplo de vetor de MIT para a classe P de leituras codificadas.

[121] Os valores contidos na MIT representada na Figura 9 são usados para acessar diretamente a região de interesse (e a unidade de acesso correspondente) no domínio comprimido.

[122] Por exemplo, com referência à Figura 9, se um analista exigiu o acesso às leituras perfeitamente correspondentes mapeadas na região compreendida entre a posição 150.000 e 250.000 na referência n² 2, um aplicativo de decodificação pularia para o vetor de posição da classe P e a segunda referência na MIT e buscaria os dois valores k1 e k2, de modo que k1 < 150.000 e k2 > 250.000. No exemplo da Figura 9, isso iria resultar nas posições 3 e 4 do segundo bloco (segunda referência) do vetor de MIT referindo-se à posição de mapeamento da classe P. Esses valores retornados, então, serão usados pelo aplicativo de decodificação para buscar as posições das unidades de acesso adequadas a partir da camada de pos como descrito na próxima seção.

APONTADORES DE UNIDADES DE ACESSO [123] O segundo tipo de dados contidos nos vetores restantes da MIT (Figura 8) consiste nos vetores de apontadores para a posição física de cada unidade de acesso na corrente de bits codificada. Cada vetor é chamado de Tabela de índice Local, visto que seu escopo é limitado a uma classe

Petição 870190034462, de 10/04/2019, pág. 23/83

20/26 homogênea de informações codificadas.

[124] Para cada uma dentre as quatro classes de leituras mapeadas (P, N, Μ, I) vários tipos de unidades de acesso são necessários para reconstruir as leituras codificadas (pares). Os tipos específicos de unidades de acesso associadas a cada classe de dados dependem do resultado da função correspondente aplicada nas leituras em cada uma das classes em relação a uma ou mais sequências de referência como descrito acima.

[125] No exemplo anterior da Figura 9, para acessar a região 150.000 a 250.000 de leituras alinhadas na sequência de referência n² 2, o aplicativo de decodificação recuperou as posições 3 e 4 a partir do vetor de posições da classe P na MIT. Esses valores devem ser usados pelo processo de decodificação para acessar o 3² e 4- elementos do vetor de unidades de acesso correspondentes (nesse caso, o segundo) da MIT. No exemplo mostrado na Figura 11, os contadores de Unidades de Acesso Totais contidos no Cabeçalho Principal são usados para omitir as posições de unidades de acesso relacionadas à referência 1 (4 no exemplo). Os índices contendo as posições físicas das unidades de acesso solicitadas da corrente codificada são, portanto, calculados como:

[126] Posição de AU solicitada = AUs de referência 1 a serem omitidos + posição recuperada com o uso da MIT [127] isto é, [128] Primeira posição de AU: 4 + 3 = 7 [129] Última posição de AU: 4 + 4 = 8 [130] Isso significa que a região de interesse (leituras de classe P mapeadas na sequência de referência n² 2 entre a posição 150.000 e 250.000 são contidas nas unidades de acesso apontadas pelos apontadores armazenados na 1- e 8^â colunas da Tabela de índice Principal, fileira T1p (Unidades de Acesso de Tipo 1 de tipo p).

[131] A Figura 11 mostra como os elementos de um vetor da MIT (por exemplo, Pos de Classe P) aponta para os elementos de uma LIT (vetor de pos de Tipo 1 no exemplo da Figura 11).

ADAPTAÇÃO DA SEQUÊNCIA DE REFERÊNCIA [132] As incompatibilidades codificadas para as classes N, M e I

Petição 870190034462, de 10/04/2019, pág. 24/83

21/26 podem ser usadas para criar um “genoma modificado” a ser usado para recodificar leituras na camada Ν, M ou I (em relação ao primeiro genoma de referência, R_o) como leituras de p em relação ao genoma “adaptado”, Ri. Por exemplo, se for denotado com r, a i^esima leitura da classe M contendo incompatibilidades em relação ao genoma de referência n, então, após a “adaptação”, podería ser obtido r = r^_n+1) com A(Ref_n)=Ref_n+i, em que A é a transformação da sequência de referência n na sequência de referência n + 1.

[133] A Figura 12 mostra como as leituras contendo incompatibilidades (leituras de M) em relação à sequência de referência 1 (RS1) podem ser transformadas em leituras perfeitamente correspondentes (leituras de P) em relação à sequência de referência 2 (RS2) obtidas a partir de RS1 modificando-se as posições de incompatibilidade. Essa transformação pode ser expressa como

RS2 = A(RS1) [134] Se a expressão da transformação A que vai de RS1 a RS2 exige menos bits da expressão das incompatibilidades presentes nas leituras de M, esse método de codificação resulta em uma entropia de informações menor e, portanto, melhor compressão.

[135] Em algumas circunstâncias, uma ou mais modificações no genoma de referência podem reduzir a entropia geral de informações transformando-se um conjunto de leituras de Ν, M ou I em leituras de P.

[136] Uma arquitetura de sistema de acordo com os princípios da presente invenção agora é descrita de acordo com a Figura 13. Em uma fonte, um ou mais dispositivos 130 e/ou aplicativos de sequenciamento de genoma geram e representam informações genômicas 131 em um formato que contém [137] · Uma ou mais sequências de símbolos que representam ácidos nucleicos [138] · Um identificador exclusivo por cada sequência genômica [139] · Um valor de qualidade opcional por cada símbolo [140] · Metadados opcionais [141] · Uma ou mais sequências de referência opcionais a serem usadas para processar adicionalmente as sequências genômicas geradas.

[142] Uma unidade de alinhamento de leituras 132 recebe os

Petição 870190034462, de 10/04/2019, pág. 25/83

22/26 dados de sequência brutos e alinha os mesmos em uma ou mais sequências de referência disponíveis ou monta os mesmos em sequências mais longas buscando-se prefixos e sufixos sobrepostos aplicando um método conhecido como montagem tipo “de-novo”.

[143] Uma unidade de classificação de leituras 134 recebe os dados de sequência de genoma alinhados 133 e aplica uma função correspondente a cada sequência em relação a:

[144] · uma ou mais sequências de referência disponíveis ou [145] · a uma referência interna construída durante o processo de alinhamento (no caso de montagem tipo “de-novo”).

[146] Uma unidade de codificação de camadas 136 recebe as classes de leituras 135 produzidas pela unidade de classificação 134 e produz as camadas de elementos de sintaxe 137.

[147] Uma unidade de codificação de cabeçalho e Unidades de Acesso 138 encapsula as camadas de elementos de sintaxe 137 em Unidades de Acesso e adiciona um cabeçalho a cada Unidade de Acesso.

[148] Uma unidade de codificação de Tabela de índice Principal 1310 cria um índice de apontadores para as Unidades de Acesso recebidas 139 [149] Uma unidade de compressão 1312 transforma a saída da dita representação em um formato mais compacto (comprimido) 1315 para reduzir o espaço de armazenamento utilizado;

[150] Um dispositivo de armazenamento local ou remoto 1316 armazena as informações comprimidas 1315.

[151] Uma unidade de descompressão 1313 descomprime as informações comprimidas 1315 para recuperar os dados descomprimidos 1317 equivalentes às informações genômicas 131.

[152] Uma unidade de análise 1314 processes adicionalmente as ditas informações genômicas 1317 atualizando-se de modo incrementai os metadados contidos nas mesmas.

[153] Um ou mais dispositivos ou aplicativos de sequenciamento de genoma 1318 podem adicionar informações adicionais aos dados genômicos existentes adicionando-se os resultados de um processo de sequenciamento genômico adicional sem a necessidade de recodificar as

Petição 870190034462, de 10/04/2019, pág. 26/83

23/26 informações genômicas existentes; para produzir dados atualizados 1319. O alinhamento e a compressão devem ser aplicados aos dados genômicos recém-gerados antes de mesclar os mesmos com os dados existentes.

[154] Uma dentre as diversas vantagens da modalidade descrita acima é que os dispositivos e aplicativo de análise de genoma que precisam ter acesso aos dados poderão consultar e recuperar as informações necessárias com o uso de uma ou mais dentre as tabelas de índice.

[155] Um extrator de leituras de sequência 140 de acordo com os princípios da presente invenção é revelado na Figura 14.

[156] O dispositivo de extrator 140 utiliza a Tabela de índice Principal descrita na presente invenção para ter acesso aleatório a quaisquer leituras de sequência armazenadas em um Formato de Arquivo Genômico de acordo com a presente revelação. O dispositivo de extrator 140 compreende um meio de entrada de usuário 141 para receber, a partir da entrada de usuário, informações 142 sobre os dados específicos a serem recuperados. Por exemplo, o usuário pode especificar:

[157] a. Uma região genômica em termos de:

[158] i. Posição absoluta inicial e final em um genoma de referência [159] ii. Uma sequência de referência inteira (por exemplo, um cromossomo) [160] b. Apenas um tipo específico de leituras codificadas de sequência como:

[161] i. leituras de sequência que correspondem perfeitamente a uma ou mais sequências de referência [162] ii. As leituras de sequência que apresentam exatamente N incompatibilidades em relação a uma ou mais sequências de referência [163] ill. As leituras de sequência que apresentam um número de incompatibilidades em relação a uma ou mais sequências de referência abaixo ou acima de um limiar especificado [164] iv. As leituras de sequência que apresentam inserções e deleções em relação a uma sequência de referência.

[165] O extrator de MIT 143 da Figura 14 avalia o cabeçalho principal do Arquivo Genômico para acessar as informações contidas como

Petição 870190034462, de 10/04/2019, pág. 27/83

24/26 representado na Figura 9:

[166] c. Um identificador exclusivo [167] d. A versão da sintaxe usada [168] e. O tamanho, em bytes, do cabeçalho principal [169] f. O número de sequências de referência usadas para codificar as leituras de sequência [170] g. O número de blocos de dados contidos pela corrente [171 ] h. Os identificadores de referências [172] i. A Tabela de índice Principal.

[173] O avaliador de MIT e extrator de AU 145 recupera as unidades de acesso solicitadas explorando-se as seguintes informações da Tabela de índice Principal:

[174] j. vetores das posições no genoma de referência da primeira leitura em cada unidade de acesso. A Figura 9 mostra como o dispositivo de decodificação pode ler tal posição e encontrar qual Unidade de Acesso contém as leituras codificadas mapeadas dentro da região solicitada.

[175] k. A Tabela de índice Local de cada camada codificada. Esses vetores são usados para recuperar a posição física daquelas unidades de acesso identificadas nas etapas que contêm as leituras de sequência mapeadas na região genômica solicitada por um usuário [176] I. As Tabelas de índice Locais são definidas por cada classe de dados, portanto, o dispositivo de extrator irá extrair apenas aquelas classes que se referem a leituras de sequência solicitadas pelo usuário. Por exemplo, no caso de uma solicitação apenas das leituras perfeitamente correspondentes, o dispositivo extraído irá acessar apenas a LIT relacionada à classe P como representado na Figura 8.

[177] Com o uso de informações encontradas nas unidades de acesso recuperadas e da uma ou mais sequências de referência, codificadas na corrente de bits genômica ou disponíveis no dispositivo de extração, o reconstrutor de leituras 147 pode reconstruir as leituras de sequência originais.

[178] A Figura 15 mostra um aparelho de codificação 207 de acordo com os princípios da presente invenção. O aparelho de codificação esclarece adicionalmente os aspectos de compressão da arquitetura de sistema da Figura 13, entretanto, a Tabela de índice Principal e a criação de

Petição 870190034462, de 10/04/2019, pág. 28/83

25/26 unidades de acesso são omitidas no codificador da Figura 15, que produz uma corrente comprimida sem aquelas informações de estruturação e metadados. O aparelho de codificação 207 recebe, como entrada, dados de sequência brutos 209, por exemplo produzidos por um aparelho de sequenciamento de genoma

200. O aparelho de sequenciamento de genoma 200 é conhecido na técnica, como os dispositivos Illumina HiSeq 2500 ou Thermo-Fisher Ion Torrent. Os dados de sequência brutos 209 são alimentados a uma unidade alinhadora

201, que prepara as sequências para codificação alinhando-se as leituras a uma sequência de referência. Alternativamente, um montador tipo de-novo 202 pode ser usado para criar uma sequência de referência a partir das leituras disponíveis buscando prefixos ou sufixos sobrepostos, de modo que segmentos mais longos (chamados de “contigs”) podem ser montados a partir das leituras. Após terem sido processadas por um montador tipo de-novo 202, as leituras podem ser mapeadas na sequência mais longa obtida. As sequências alinhadas, então, são classificadas pelo módulo de classificação de dados 204. As classes de dados 208, então, são alimentadas aos codificadores de camadas 205 a 207. As camadas genômicas 2011, então, são alimentadas aos codificadores aritméticos 2012 a 2014 que codificam as camadas de acordo com as propriedades estatísticas dos dados ou metadados portados pela camada. O resultado é uma corrente genômica 2015.

[179] A Figura 16 mostra um aparelho de decodificação correspondente 218. Um aparelho de decodificação 218 recebe uma corrente de bits genômica multiplexada 2110 a partir de uma rede ou um elemento de armazenamento. A corrente de bits genômica multiplexada 2110 é alimentada a um demultiplexador 210, para produzir correntes separadas 211 que são, então, alimentadas a decodificadores de entropia 212 a 214, para produzir camadas genômicas 215. As camadas genômicas extraídas são alimentadas aos decodificadores de camada 216 a 217 para decodificar adicionalmente as camadas em classes de dados. Os decodificadores de classe 219 processam adicionalmente os descritores genômicos e mesclam os resultados para produzir leituras não comprimidas de sequências, que podem, então, ser adicionalmente armazenadas nos formatos conhecidos na técnica, por exemplo, um arquivo de texto ou arquivo comprimido em zip, ou arquivos de FASTQ ou SAM/BAM. Os decodificadores de classe 219 podem reconstruir as

Petição 870190034462, de 10/04/2019, pág. 29/83

26/26 sequências genômicas originais alavancando-se as informações sobre as sequências de referência originais portadas por uma ou mais correntes genômicas. No caso de as sequências de referência não serem transportadas pelas correntes genômicas, as mesmas devem estar disponíveis no lado de decodificação e acessíveis pelos decodificadores de classe.

[180] Em um ou mais exemplos, as técnicas da invenção reveladas através do presente documento podem ser implementadas em hardware, software, firmware ou qualquer combinação. Quando implementadas em software, as mesmas podem ser armazenadas em uma mídia de computador e executadas por uma unidade de processamento de hardware. A unidade de processamento de hardware pode compreender um ou mais processadores, processadores de sinal digital, microprocessadores de propósito geral, circuitos integrados de aplicação específica ou outro conjunto de circuitos de lógica distinto.

[181] As técnicas da presente revelação podem ser implementadas em uma variedade de dispositivos ou aparelhos, incluindo telefones móveis, computadores tipo desktop, servidores, computadores tipo tablet e similares.

[182] Muitas outras vantagens são descritas nas reivindicações a seguir.

Claims

REIVINDICAÇÕES

1. Método implementado por computador para o armazenamento de uma representação de dados de sequência de genoma em um formato de arquivo genômico, em que os ditos dados de sequência de genoma compreendem leituras de sequências de nucleotídeos, caracterizado pelo fato de que compreende as etapas de:

• alinhar as ditas leituras a uma ou mais sequências de referência, criando, assim, leituras alinhadas, • classificar as ditas leituras alinhadas de acordo com a possibilidade de um mapeamento perfeito com a dita uma ou mais sequências de referência ser encontrado, o número de incompatibilidades com a dita uma ou mais sequências de referência, a presença de substituições de símbolos, a presença de inserções ou deleções e símbolos de corte suave nas ditas leituras alinhadas em relação à dita uma ou mais sequências de referência, a presença de leituras não mapeadas, criando, assim, classes de leituras alinhadas, • codificar as ditas leituras alinhadas classificadas como camadas de elementos de sintaxe, em que as ditas camadas de elementos de sintaxe compreendem descritores homogêneos que identificam exclusivamente as ditas leituras alinhadas classificadaSi • estruturar as ditas camadas de elementos de sintaxe com informações de cabeçalho, criando, assim, unidades de acesso sucessivas, • criar uma tabela de índice principal, contendo uma seção para cada classe de leituras alinhadas, que compreende as posições de mapeamento na dita uma ou mais sequências de referência da primeira leitura de cada uma das unidades de acesso de cada classe de dados; e • armazenar de modo conjunto a dita tabela de índice principal e os ditos dados de unidade de acesso.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a dita tabela de índice principal compreende adicionalmente um vetor de apontadores para a posição física de cada unidade de acesso subsequente.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a dita tabela de índice principal contém adicionalmente uma seção para cada sequência de referência.

Petição 870190034462, de 10/04/2019, pág. 80/83

2/4
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a codificação da ditas leituras alinhadas classificadas como camadas de elementos de sintaxe é adaptada de acordo com os dados homogêneos portados pela camada.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que a codificação das ditas leituras alinhadas classificadas como camadas de elementos de sintaxe é adicionalmente adaptada de acordo com as propriedades estatísticas dos dados homogêneos portados pela camada.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que a codificação das fitas leituras alinhadas classificadas como camadas de elementos de sintaxe associa um modelo de fonte dos dados homogêneos com um conversor em código de entropia específico.
7. Método, de acordo com a reivindicação 6, caracterizado pelo fato de que o modelo de fonte adotado em uma Unidade de Acesso é independente do modelo de fonte usado por outras Unidades de Acesso para a mesma camada de dados.
8. Método para extrair as leituras de sequências de nucleotídeos armazenadas em um arquivo genômico, em que o dito arquivo genômico compreende uma tabela de índice principal e dados de unidades de acesso armazenados em conformidade com o método, de acordo com a reivindicação 1, em que o dito método é caracterizado pelo fato de que compreende as etapas de:

• receber entrada de usuário que identifica o tipo de leituras a serem extraídas, • recuperar a tabela de índice principal a partir do dito arquivo genômico, • recuperar as unidades de acesso correspondentes ao dito tipo de leituras a serem extraídas, e • reconstruir as ditas leituras de sequências de nucleotídeos que mapeiam as ditas unidades de acesso recuperadas em uma ou mais sequências de referência.
9. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que o arquivo genômico compreende adicionalmente as uma ou mais sequências de referência.

Petição 870190034462, de 10/04/2019, pág. 81/83

3/4
10. Método, de acordo com a reivindicação 8, caracterizado pelo fato de que as uma ou mais sequências de referência são fornecidas por meio de um mecanismo fora de banda.
11. Máquina de sequenciamento de genoma caracterizada pelo fato de que compreende:

• uma unidade de sequenciamento de genoma 130 configurada para emitir leituras de sequências de nucleotídeos 131 a partir de uma amostra biológica, • uma unidade de alinhamento 132 configurada para alinhar as ditas leituras a uma ou mais sequências de referência, criando, assim, leituras alinhadas 133, • uma unidade de classificação 134, configurada para classificar as ditas leituras alinhadas de acordo com a possibilidade de um mapeamento perfeito com a dita uma ou mais sequências de referência ser encontroado, o número de incompatibilidades com a dita uma ou mais sequências de referência, a presença de substituições de símbolos, a presença de inserções ou deleções e símbolos de corte suave nas ditas leituras alinhadas em relação à dita uma ou mais sequências de referência, • a presença de leituras não mapeadas, com a dita uma ou mais sequências de referência, criando, assim classes de leituras alinhadas 135;

• uma unidade de codificação 136, configurada para codificar as ditas leituras alinhadas classificadas como camadas de elementos de sintaxe 137, em que as ditas camadas de elementos de sintaxe compreendem descritores homogêneos que identificam exclusivamente as ditas leituras alinhadas classificadas, • uma unidade de subdivisão 138 configurada para estruturar as ditas camadas de elementos de sintaxe com informações de cabeçalho, criando, assim, unidades de acesso sucessivas 139, • uma unidade de processamento de tabela de índice 1310 configurada para criar uma tabela de índice principal contendo uma seção para cada classe de leituras alinhadas, que compreende as posições de mapeamento na sequência de referência da primeira leitura de cada uma das unidades de acesso de cada classe de dados;

• uma unidade de armazenamento 1312 a 1316 configurada para

Petição 870190034462, de 10/04/2019, pág. 82/83

4/4 armazenar de modo conjunto a dita tabela de índice principal e os ditos dados de unidade de acesso 1311.
12. Máquina de sequenciamento de genoma, de acordo com a reivindicação 8, caracterizada pelo fato de que a tabela de índice principal compreende adicionalmente um vetor de apontadores para a posição física de cada unidade de acesso subsequente.
13. Máquina de sequenciamento de genoma, de acordo com a reivindicação 8, caracterizada pelo fato de que a codificação da ditas leituras alinhadas classificadas como camadas de elementos de sintaxe é adaptada de acordo com dados homogêneos portados pela camada.
14. Extrator 140 para extrair as leituras de sequências de nucleotídeos armazenadas em um arquivo genômico, em que o dito arquivo genômico compreende uma tabela de índice principal e dados de unidades de acesso armazenados em conformidade com o método, de acordo com a reivindicação 1, em que o dito extrator 140 é caracterizado pelo fato de compreende:

• meio de entrada de usuário 141 configurado para receber parâmetros de entrada 142 identificando o tipo de leituras a serem extraídas, • meio de recuperação 143 configurado para recuperar a dita tabela de índice principal 144 do dito arquivo genômico, • meio de recuperação 145 configurado para recuperar as unidades de acesso 146 correspondentes ao dito tipo de leituras a serem extraídas, • meio de reconstrução 147 configurado para reconstruir as ditas leituras de sequências de nucleotídeos 148 que mapeiam as ditas unidades de acesso recuperadas em uma ou mais sequências de referência.
15. Mídia legível por máquina caracterizada pelo fato de que compreende uma pluralidade de instruções que, em resposta a serem executadas em um dispositivo de computação, fazem com o dispositivo de computação realize o método, de acordo com as reivindicações 1 a 10.