BR112019007313A2

BR112019007313A2 - método e sistema para a transmissão de dados de bioinformática

Info

Publication number: BR112019007313A2
Application number: BR112019007313A
Authority: BR
Inventors: Renzi Daniele; Zoia Giorgio
Original assignee: Genomsys Sa
Priority date: 2016-10-11
Filing date: 2016-10-11
Publication date: 2019-09-17
Also published as: CL2019000955A1; EA201990931A1; IL265907A; JP2019537170A; AU2016426572A1; CA3039692A1; CN110178183B; WO2018068830A9; EP3526712B1; MX2019004126A; KR20190062543A; PH12019500795A1; CO2019003580A2; PL3526712T3; EP3526712A1; PE20191059A1; US20200051668A1; SG11201903174SA; JP6949970B2; ES2867874T3

Abstract

trata-se de método e sistema para a transmissão de dados genômicos. a transmissão de dados genômicos é realizada empregando-se a multiplexação de um conjunto de dados genômicos comprimidos estruturados em uma corrente de dados genômicos particionados em unidades de acesso aleatoriamente acessíveis.

Description

“MÉTODO E SISTEMA PARA A TRANSMISSÃO DE DADOS DE BIOINFORMÁTICA”

CAMPO DA TÉCNICA [001] O presente pedido fornece novos métodos para armazenamento, acesso, transmissão e multiplexação eficazes de dados de bioinformática e, em particular, dados de sequenciamento genômico.

ANTECEDENTES [002] Uma representação adequada de dados de sequenciamento genômico é fundamental para possibilitar um processamento, um armazenamento e uma transmissão eficazes de dados genômicos para tornar possível e facilitar aplicações de análise como chamada de variantes de genoma e toda análise realizada, com vários propósitos, processando-se os metadados e dados de sequenciamento. Atualmente, as informações de sequenciamento de genoma são geradas por máquinas de Sequenciamento de Alta Produtividade (HTS) na forma de sequências de nucleotídeos (conhecidos como bases) representadas por cadeias de letras de um vocabulário definido.

[003] Essas máquinas de sequenciamento não leem genomas ou genes inteiros, porém, as mesmas produzem fragmentos aleatórios curtos de sequências de nucleotídeos conhecidos como leituras de sequência.

[004] Uma pontuação de qualidade é associada a cada nucleotídeo em uma leitura de sequência. Tal número representa o nível de confiança fornecido pela máquina para a leitura de um nucleotídeo específico em uma localização específica na sequência de nucleotídeos.

[005] Esses dados de sequenciamento brutos gerados por máquinas de NGS são comumente armazenados em arquivos de FASTQ (consultar, ainda, a Figura 1).

[006] O menor vocabulário para representar as sequências de nucleotídeos obtidas por um processo de sequenciamento é composto por cinco símbolos: {A, C, G, T, N} representando os 4 tipos de nucleotídeos presentes no DNA, a saber Adenina, Citosina, Guanina e Timina mais o símbolo N para indicar que a máquina de sequenciamento não pôde chamar nenhuma base com um nível suficiente de confiança, portanto, o tipo de base em tal posição permanece indeterminado no processo de leitura. Em RNA, a Timina é substituída por Uracila (U). As sequências de nucleotídeos produzidas

Petição 870190034493, de 10/04/2019, pág. 74/165

2/58 por máquinas de sequenciamento são chamadas de “leituras”. No caso de leituras emparelhadas o termo “modelo” é usado para designar a sequência original a partir da qual o par de leituras foi extraído. As leituras de sequência podem ser compostas por um número de nucleotídeos em uma faixa de poucas dúzias até vários milhares. Algumas tecnologias produzem leituras de sequência em pares em que cada leitura pode ser proveniente de um dentre os dois filamentos de DNA.

[007] No campo de sequenciamento de genoma o termo “cobertura” é usado para expressar o nível de redundância dos dados de sequência em relação a um genoma de referência. Por exemplo, para alcançar uma cobertura de 30x em um genoma humano (3,2 bilhões de bases de comprimento), uma máquina de sequenciamento deve produzir um total de cerca de 30 x 3,2 bilhões de bases, de modo que, em média, cada posição na referência seja “coberta” 30 vezes.

SOLUÇÕES DO ESTADO DA TÉCNICA [008] As representações de informações de genoma mais usadas de dados de sequenciamento são baseadas em formatos de arquivo FASTQ e SAM que são comumente disponibilizados na forma compactada para reduzir o tamanho original. Os formatos de arquivo tradicionais, respectivamente FASTQ e SAM para dados de sequenciamento não alinhados e alinhados, são constituídos por caracteres de texto simples e são, portanto, comprimidos com o uso de abordagens de propósito geral como esquemas de LZ (de Lempel e Ziv) (zip bem conhecido, gzip etc). Quando os compressores de propósito geral como gzip são usados, o resultado da compressão é geralmente uma única bolha de dados binários. As informações em tal forma monolítica resultam consideravelmente difíceis de arquivar, transferir e elaborar, particularmente no caso de sequenciamento de alta produtividade quando os volumes de dados são extremamente grandes.

[009] Após o sequenciamento, cada estágio de um pipeline de processamento de informações genômicas produz dados representados por uma estrutura de dados completamente nova (formato de arquivo) apesar do fato de que, na realidade, apenas uma pequena fração dos dados gerados é nova em relação ao estágio anterior.

[010] A Figura 1 mostra os estágios principais de um pipeline

Petição 870190034493, de 10/04/2019, pág. 75/165

3/58 típico de processamento de informações genômicas com a indicação da representação de formato de arquivo associado.

[011] As soluções comumente usadas apresentam várias desvantagens: o arquivamento de dados é ineficaz pelo fato de que um formato de arquivo diferente é usado em cada estágio dos pipelines de processamento de informações genômicas, o que implica em replicação múltipla de dados, com o consequente aumento rápido do espaço de armazenamento necessário. Isso é ineficaz e desnecessário e também tem se tornado insustentável para o aumento do volume de dados gerado por máquinas de HTS. Isso, de fato, tem consequências em termos de espaço de armazenamento disponível e custos gerados, e também impede que os benefícios da análise genômica nos cuidados com a saúde alcancem uma porção maior da população. O impacto dos custos de IT gerados pelo crescimento exponencial de dados de sequência a serem armazenados e analisados é atualmente um dos principais desafios que a comunidade científica e que a indústria de cuidados com a saúde precisam enfrentar (consultar Scott D. Kahn “On the future of genomic data” Science 331, 728 (2011) e Pavlichin, D.S., Weissman, T., e G. Yona. 2013. “The human genome contracts again” Bioinformatics 29(17): 2.199 a 2.202). Ao mesmo tempo, há várias iniciativas para tentar escalonar o sequenciamento de genoma a partir de poucos indivíduos selecionados para grandes populações (consultar Josh P. Roberts “Million Veterans Sequenced” - Nature Biotechnology 31,470 (2013)) [012] A transferência de dados genômicos é lenta e ineficaz, visto que os formatos de dados usados atualmente são organizados em arquivos monolíticos de até várias centenas de Gigabytes de tamanho que precisam ser totalmente transferidos na extremidade de recebimento para serem processados. Isso implica que a análise de um segmento pequeno dos dados exige a transferência de todo o arquivo com custos significativos em termos de largura de banda consumida e tempo de espera. Frequentemente a transferência online é proibitiva para grandes volumes dos dados a serem transferidos, e o transporte dos dados é realizado movendo-se fisicamente os meios de armazenamento como unidades de disco rígido ou servidores de armazenamento de uma localização para outra.

[013] Essas limitações que ocorrem ao empregar as abordagens

Petição 870190034493, de 10/04/2019, pág. 76/165

4/58 do estado da técnica são superadas pela presente invenção.

[014] O processamento dos dados é lento e ineficaz pelo fato de que as informações não são estruturadas de tal modo que as porções das diferentes classes de dados e metadados exigidas por aplicações de análise comumente usadas não possam ser recuperadas sem a necessidade de acessar os dados em sua totalidade. Esse fato implica que os pipelines de análise comuns podem exigir ser executados por dias ou semanas, desperdiçando recursos de processamento precisos e dispendiosos devido à necessidade, em cada estágio, de acessar, de avaliar e filtrar grandes volumes de dados, mesmo se as porções de dados relevantes para o propósito de análise específica forem muito menores.

[015] Essas limitações impedem que profissionais de cuidados com a saúde obtenham oportunamente relatórios de análise genômica e imediatamente a surtos de doenças. A presente invenção fornece uma solução para essa necessidade.

[016] Há outra limitação técnica que é superada pela presente invenção.

[017] Na realidade, a invenção tem por objetivo fornecer uma representação adequada de dados e metadados de sequenciamento genômico organizando-se e particionando-se os dados de modo que a compressão de dados e metadados seja maximizada e várias funcionalidades como acesso seletivo e suporte para atualizações incrementais sejam possibilitadas de modo eficaz.

[018] Um aspecto-chave da invenção é uma definição específica de classes de dados e metadados a serem representados por um modelo de fonte adequado, codificado (isto é, comprimido) separadamente sendo estruturado em camadas específicas. Os resultados mais importantes da presente invenção em relação aos métodos existentes do estado da técnica consistem:

[019] · no aumento de desempenho de compressão devido à redução da entropia de fonte de informações constituída fornecendo-se um modelo eficaz para cada classe de dados ou metadados;

[020] · na possibilidade de realizar acessos seletivos às porções dos dados e metadados comprimidos para qualquer propósito de

Petição 870190034493, de 10/04/2019, pág. 77/165

5/58 processamento adicional;

[021] · na possibilidade de atualizar de modo incrementai (sem a necessidade de recodificação) e adicionar dados e metadados codificados com novos dados e/ou metadados de sequenciamento e/ou novos resultados de análise;

[022] · na possibilidade de processar de modo eficaz os dados assim que os mesmos forem produzidos pela máquina de sequenciamento ou ferramentas de alinhamento sem a necessidade de aguardar o final do processo de sequenciamento ou alinhamento.

[023] O presente pedido revela um método e sistema que solucionam o problema de manipulação, armazenamento e transmissão eficaz de quantidades muito grandes de dados genômicos de sequenciamento, empregando-se uma abordagem de unidades de acesso estruturadas combinada com técnicas de multiplexação.

[024] O presente pedido supera todas as limitações das abordagens da técnica anterior relacionadas à funcionalidade de acessibilidade de dados genômicos, processamento eficaz de subconjuntos de dados, funcionalidade de transmissão e de transmissão contínua combinada com uma compressão eficaz.

[025] Atualmente, o formato de representação mais usado para dados genômicos é o formato textual de Mapeamento de Alinhamento de Sequência (SAM) e seu correspondente binário BAM. Os arquivos de SAM são arquivos de texto de ASCII legíveis por ser humano enquanto BAM adota uma variante baseada em bloco de gzip. Os arquivos de BAM podem ser indexados para possibilitar uma modalidade limitada de acesso aleatório. Isso é suportado pela criação de um arquivo de índice separado.

[026] O formato de BAM é caracterizado por desempenho de compressão insatisfatório pelas seguintes razões:

[027] 1. Focaliza na compressão do formato de arquivo SAM ineficaz e redundante em vez da extração das informações genômicas reais transmitidas por arquivos de SAM e no uso de modelos adequados para a compressão dos mesmos.

[028] 2. Emprega um algoritmo de compressão de texto de propósito geral como gzip em vez de explorar a natureza específica de cada

Petição 870190034493, de 10/04/2019, pág. 78/165

6/58 fonte de dados (as informações genômicas em si).

[029] 3. É desprovido de qualquer conceito relacionado à classificação de dados que possibilitariam um acesso seletivo às classes específicas de dados genômicos.

[030] Uma abordagem mais sofisticada à compressão de dados genômicos que é menos comumente usada, porém, mais eficaz do que BAM é CRAM (relatório descritivo de CRAM: https://samtools.github.io/htsspecs/CRAMv3.pdf). A CRAM fornece uma compressão mais eficaz para a adoção de codificação diferencial em relação a uma referência existente (a mesma explora parcialmente a redundância de fonte de dados), porém, ainda é desprovida de recursos como atualizações incrementais, suporte para transmissão contínua e acesso seletivo às classes específicas de dados comprimidos.

[031] A CRAM depende do conceito do registro de CRAM. Cada registro de CRAM codifica uma única leitura mapeada ou não mapeada codificando-se todos os elementos necessários para reconstruir a mesma.

[032] As principais diferenças da presente invenção em relação à abordagem de CRAM são:

[033] 1. Para CRAM, a indexação de dados está fora do escopo do relatório descritivo (consultar seção 12 do relatório descritivo de CRAM v3.0) e é implementada como um arquivo separado. Na presente invenção, a indexação de dados é integrada com o processo de codificação e os índices são embutidos na corrente de bits codificada.

[034] 2. Em CRAM todos os blocos de dados de núcleo podem conter qualquer tipo de leituras mapeadas (leituras perfeitamente correspondentes, leituras somente com substituições, leituras com indels). Na presente invenção não há noção de classificação e agrupamento de leituras em classes de acordo com o resultado de um mapeamento em relação a uma sequência de referência.

[035] 3. Na invenção descrita não há noção de encapsulamento de registro de cada leitura visto que os dados necessários para reconstruir cada leitura estão espalhados entre vários recipientes de dados chamados de “camadas”. Isso possibilita um acesso mais eficaz ao conjunto de leituras com características biológicas específicas (por exemplo, leituras com substituições,

Petição 870190034493, de 10/04/2019, pág. 79/165

7/58 porém, sem indels, ou leituras perfeitamente mapeadas) sem a necessidade de decodificar cada (bloco de) leitura (ou leituras) para inspecionar seus recursos.

[036] 4. Em um registro de CRAM, cada tipo de dados é denotado por um sinalizador específico. Diferentemente de CRAM, na presente invenção não há uma noção de sinalizador que denota dados, visto que isso é intrinsecamente definido pela “camada” à qual os dados pertencem. Isso implica um número amplamente reduzido de símbolos a serem usados e uma redução consequente da entropia de fonte de informações que resulta em uma compressão mais eficaz. Isso se deve ao fato de que o uso de “camadas” diferentes possibilita que o codificador reutilize o mesmo símbolo através de cada camada com diferentes significados. Em CRAM, cada sinalizador sempre deve ter o mesmo significado, visto que não há uma noção de contextos e cada registro de CRAM pode conter qualquer tipo de dados.

[037] 5. Em CRAM, substituições, inserções e deleções são expressas de acordo com diferentes sintaxes, enquanto a presente invenção usa um único alfabeto e codificação para substituições, inserções e deleções. Isso torna o processo de codificação e decodificação mais simples e produz um modelo de fonte de entropia inferior cuja conversão em código rende correntes de bits caracterizadas por desempenho de compressão superiores.

[038] Os algoritmos de compressão genômica usados no estado da técnica podem ser classificados nessas categorias:

[039] · Com base em transformada [040] o com base em LZ [041] o Reordenação de leitura [042] · Com base em montagem [043] · Modelagem estatística [044] As duas primeiras categorias compartilham a desvantagem de não explorar as características específicas da fonte de dados (leituras de sequência genômica) e processar os dados genômicos como linha de texto a ser comprimida sem considerar as propriedades específicas de tal tipos de informações (por exemplo, redundância entre as leituras, referência a uma amostra existente). Dois dentre os kits de ferramentas mais avançados para compressão de dados genômicos, a saber, CRAM e Goby (“Compression of structured high-throughput sequencing data”, F. Campagne, K. C. Dorff, N.

Petição 870190034493, de 10/04/2019, pág. 80/165

8/58

Chambwe, J. T. Robinson, J. P. Mesirov, T. D. Wu), fazem uso insatisfatório de conversão em código aritmético, visto que os mesmos implicitamente modelam dados como independentes e distribuídos identicamente por uma Distribuição geométrica. Goby é ligeiramente mais sofisticado, visto que converte todos os campos em uma lista de números inteiros e cada lista de codificada independentemente com o uso de conversão em código aritmético sem o uso de qualquer contexto. No modo de operação mais eficaz, Goby é capaz de realizar alguma modelagem interlistas através das listas de números inteiros para aprimorar a compressão. Essas soluções da técnica anterior rendem razões de compressão insatisfatórias e estruturas de dados que são difíceis, se não impossíveis, de acessar seletivamente e manipular uma vez que forem comprimidas. Os estágios de análise a jusante podem resultar em serem ineficazes e muito lentos devido à necessidade de manusear estruturas de dados grandes e rígidas, até mesmo para realizar uma operação simples ou para acessar regiões selecionadas do conjunto de dados genômico.

[045] Uma visão simplificada da relação entre os formatos de arquivo usados em pipelines de processamento de genoma é representada na Figura 1. Nesse arquivo de diagrama, a inclusão não implica a existência de uma estrutura de arquivo aninhada, mas representa apenas o tipo e a quantidade de informações que podem ser codificadas para cada formato (isto é, SAM contém todas as informações em FASTQ, porém, organizadas em uma estrutura de arquivo diferente). A CRAM contém as mesmas informações genômicas que SAM/BAM, porém, tem mais flexibilidade no tipo de compressão que pode ser usada, portanto, é representada como um superconjunto de SAM/BAM.

[046] O uso de múltiplos formatos de arquivo para o armazenamento de informações genômicas é altamente ineficaz e dispendioso. Apresentar diferentes formatos de arquivo em diferentes estágios do ciclo de vida de informações genômicas implica um crescimento linear de espaço de armazenamento utilizado, mesmo se as informações incrementais forem mínimas. As desvantagens adicionais de soluções da técnica anterior são listadas abaixo.

[047] 1. Acessar, analisar ou adicionar anotações (metadados) aos dados brutos armazenados em arquivos de FastQ comprimidos ou

Petição 870190034493, de 10/04/2019, pág. 81/165

9/58 qualquer combinação dos mesmos exige a descompressão e a recompressão de todo o arquivo com uso extensivo de recursos computacionais e tempo.

[048] 2. Recuperar subconjuntos específicos de informações como posição de mapeamento de leitura, posição de variante de leitura e tipo, tipos e posição de indels, ou quaisquer outros metadados e anotação contidos em dados armazenados alinhados em arquivos de BAM exige o acesso ao volume total de dados associados a cada leitura. O acesso seletivo a uma única classe de metadados não é possível com as soluções da técnica anterior.

[049] 3. Os formatos de arquivo da técnica anterior exigem que o arquivo total seja recebido no usuário final antes que o processamento possa ser iniciado. Por exemplo, o alinhamento de leituras podería ser iniciado antes que o processo de sequenciamento tenha sido concluído, dependendo de uma representação de dados adequada. O sequenciamento, alinhamento e a análise poderíam prosseguir e ser executados em paralelo.

[050] 4. A solução da técnica anterior não suporta a estruturação e não é capaz de distinguir dados genômicos obtidos através de diferentes processos de sequenciamento de acordo com sua semântica de geração específica (por exemplo, sequenciamento obtido em um momento diferentes da vida do mesmo indivíduo). A mesma limitação ocorre para o sequenciamento obtido por diferentes tipos de amostras biológicas do mesmo indivíduo.

[051] 5. A criptografia dos dados integrais ou porções selecionadas dos mesmo não é suportada por soluções da técnica anterior. Por exemplo, a criptografia de:

[052] a. regiões de DNA selecionadas [053] b. apenas aquelas sequências contendo variantes [054] c. apenas sequências quiméricas [055] d. apenas sequências não mapeadas [056] e. metadados específicos (por exemplo, origem da amostra sequenciada, identidade de indivíduo sequenciado, tipo de amostra) [057] 6. A transcodificação de dados de sequenciamento alinhados a uma dada referência (isto é, um arquivo de SAM/BAM) em uma nova referência exige o processamento do volume integral de dados, mesmo se a nova referência for diferente apenas por uma única posição de nucleotídeo em relação à referência anterior.

Petição 870190034493, de 10/04/2019, pág. 82/165

10/58 [058] Portanto, há uma necessidade de uma Camada de Armazenamento de Informações Genômicas (Formato de Arquivo Genômico) adequada que possibilite a compressão eficaz, suporte o acesso seletivo no domínio comprimido, suporte a adição incrementai de metadados heterogêneos no domínio comprimido em todos os níveis dos diferentes estágios do processamento de dados genômicos.

[059] A presente invenção fornece uma solução às limitações do estado da técnica empregando-se o método, os dispositivos e os programas de computador conforme reivindicado no conjunto de reivindicações anexo.

LISTA DE FIGURAS [060] A Figura 1 mostra as principais etapas de um pipeline genômico típico e os formatos de arquivo relacionados.

[061] A Figura 2 mostra a relação mútua entre os formatos de arquivo genômico mais usados [062] A Figura 3 mostra como as leituras de sequência genômica são montadas em um genoma integral ou parcial por meio de montagem tipo de-novo ou alinhamento com base em referência.

[063] A Figura 4 mostra como as posições de mapeamento de leituras na sequência de referência são calculadas.

[064] A Figura 5 mostra como as distâncias de emparelhamento de leituras são calculadas.

[065] A Figura 6 mostra como os erros de emparelhamento são calculados.

[066] A Figura 7 mostra como a distância de emparelhamento é codificada quando um par correspondente de leitura é mapeado em um cromossomo diferente.

[067] A Figura 8 mostra como as leituras de sequência podem ser provenientes do primeiro ou do segundo filamento de DNA de um genoma.

[068] A Figura 9 mostra como uma leitura mapeada no filamento 2 tem uma leitura complementada reversa correspondente no filamento 1.

[069] A Figura 10 mostra as quatro combinações possíveis de leituras que compõem um par de leituras e a respectiva codificação na camada de rcomp.

[070] A Figura 11 mostra como N incompatibilidades são

Petição 870190034493, de 10/04/2019, pág. 83/165

11/58 codificadas em uma camada de nmis.

[071] A Figura 12 mostra um exemplo de substituições em um par de leituras mapeadas.

[072] A Figura 13 mostra como posições de substituições podem ser calculadas como valores absolutos ou diferenciais.

[073] A Figura 14 mostra como símbolos que codificam substituições sem códigos da IUPAC são calculados.

[074] A Figura 15 mostra como tipos de substituição são codificados na camada de snpt.

[075] A Figura 16 mostra como símbolos que codificam substituições com códigos da IUPAC são calculados.

[076] A Figura 17 mostra um modelo de fonte alternativa para a substituição em que apenas as posições são codificadas, porém, uma camada por tipo de substituição é usada.

[077] A Figura 18 mostra como codificar substituições, inserções e deleções em um par de leituras da classe I quando os códigos da IUPAC não são usados.

[078] A Figura 19 mostra como codificar substituições, inserções e deleções em um par de leituras da classe I quando os códigos da IUPAC são usados.

[079] A Figura 20 mostra a estrutura do cabeçalho da estrutura de dados de informações genômicas.

[080] A Figura 21 mostra como a Tabela de índice Principal contém as posições nas sequências de referência da primeira leitura em cada Unidade de Acesso.

[081] A Figura 22 mostra um exemplo de MIT parcial que mostra as posições de mapeamento da primeira leitura em cada AU de pos da classe P.

[082] A Figura 23 mostra como a Tabela de índice Local no cabeçalho de camada é um vetor de apontadores para as AUs na carga de trabalho.

[083] A Figura 24 mostra um exemplo da Tabela de índice Local.

[084] A Figura 25 mostra a relação funcional entre a Tabela de índice Principal e as Tabelas de índice Locais

Petição 870190034493, de 10/04/2019, pág. 84/165

12/58 [085] A Figura 26 mostra como as Unidades de Acesso são compostas por blocos de dados que pertencem a várias camadas. As Camadas são compostas por Blocos subdivididos em Pacotes.

[086] A Figura 27 mostra como uma Unidade de Acesso Genômica de tipo 1 (contendo informações posicionais, de emparelhamento, complemento reverso e comprimento de leitura informações) é empacotada e encapsulada em uma Multiplexação de Dados Genômicos.

[087] A Figura 28 mostra como as Unidades de Acesso são compostas por um cabeçalho e blocos multiplexados que pertencem a uma ou mais camadas de dados homogêneos. Cada bloco pode ser composto por um ou mais pacotes contendo os descritores reais das informações genômicas.

[088] A Figura 29 mostra a estrutura de Unidades de Acesso de tipo 0, que não precisam se referir a quaisquer informações provenientes de outras unidades de acesso para serem acessadas ou decodificadas e acessadas.

[089] A Figura 30 mostra a estrutura das Unidades de Acesso de tipo 1.

[090] A Figura 31 mostra a estrutura das Unidades de Acesso de tipo 2 que contêm dados que se referem a uma unidade de acesso de tipo 1. Essas são as posições de N nas leituras codificadas.

[091] A Figura 32 mostra a estrutura das Unidades de Acesso de tipo 3 que contêm dados que se referem a uma unidade de acesso de tipo 1. Essas são as posições e os tipos de incompatibilidades nas leituras codificadas.

[092] A Figura 33 mostra a estrutura das Unidades de Acesso de tipo 4 que contêm dados que se referem a uma unidade de acesso de tipo 1. Essas são as posições e os tipos de incompatibilidades nas leituras codificadas.

[093] A Figura 34 mostra os primeiros cinco tipos de Unidades de Acesso.

[094] A Figura 35 mostra que as Unidades de Acesso de tipo 1 se referem às Unidades de Acesso de tipo 0 para serem decodificadas.

[095] A Figura 36 mostra que as Unidades de Acesso de tipo 2 se referem às Unidades de Acesso de tipo 0 e 1 para serem decodificadas.

Petição 870190034493, de 10/04/2019, pág. 85/165

13/58 [096] A Figura 37 mostra que as se referem às Unidades de Acesso de tipo 0 e 1 [097] A Figura 38 mostra que as se referem às Unidades de Acesso de tipo 0 e 1

Unidades de Acesso de tipo 3 para serem decodificadas.

Unidades de Acesso de tipo 4 para serem decodificadas.

[098] A Figura 39 mostra as Unidades de Acesso necessárias para decodificar as leituras de sequência com incompatibilidades mapeadas no segundo segmento da sequência de referência (AU 0 a 2).

[099] A Figura 40 mostra como os dados de sequência genômica brutos que se tornam disponíveis podem ser, de modo incrementai, adicionados aos dados genômicos pré-codificados.

[100] A Figura 41 mostra como uma estrutura de dados baseada nas Unidades de Acesso possibilita que a análise de dados genômicos seja iniciada antes que o processo de sequenciamento seja concluído.

[101] A Figura 42 mostra como uma nova análise realizada em dados existentes pode implicar que leituras sejam movidas das AUs de tipo 4 para uma de tipo 3.

[102] A Figura 43 mostra como os dados de análise recémgerados são encapsulados em uma nova AU de tipo 6 e um índice correspondente é criado na MIT.

[103] A Figura 44 mostra como transcodificar dados devido à publicação de uma nova sequência de referência (genoma).

[104] A Figura 45 mostra como as leituras mapeadas para uma nova região genômica com melhor qualidade (por exemplo, sem indels) são movidas da AU de tipo 4 para a AU de tipo 3 [105] A Figura 46 mostra como, no caso de uma nova localização de mapeamento ser encontrada, (por exemplo, com menos incompatibilidades) as leituras relacionadas podem ser movidas de uma AU para outra do mesmo tipo.

[106] A Figura 47 mostra como a criptografia seletiva pode ser aplicada em Unidades de Acesso de Tipo 4 apenas à medida em que contêm as informações sensíveis a serem protegidas.

[107] A Figura 48 mostra o encapsulamento de dados em uma multiplexação genômica em que um ou mais conjuntos de dados genômicos 482 a 483 contêm Correntes genômicas 484 e as correntes de Listas de

Petição 870190034493, de 10/04/2019, pág. 86/165

14/58

Conjuntos de dados Genômicos 481, as Tabelas de Mapeamento de Conjunto de Dados Genômico 485 e as Tabelas de Mapeamento de Identificadores de Referência 487. Cada corrente genômica é composta por um Cabeçalho 488 e as Unidades de Acesso 486. As Unidades de Acesso encapsulam os Blocos 489, que são compostos pelos Pacotes 4810.

[108] A Figura 49 mostra como os dados de sequência genômica brutos ou dados genômicos alinhados são processados para serem encapsulados em uma Multiplexação Genômica. Os estágios de alinhamento, de realinhamento, de montagem podem ser necessários para preparar os dados para a codificação. As camadas geradas são encapsuladas em Unidades de Acesso e multiplexadas pelo Multiplexador Genômico [109] A Figura 50 mostra como um desmultiplexador genômico (501) extrai as camadas de Unidades de Acesso da Multiplexação Genômica, um decodificador por tipo de AU (502) extrai os descritores genômicos que são, então, decodificados (503) em vários formatos genômicos como, por exemplo, FASTQ e SAM/BAM

DESCRIÇÃO DETALHADA [110] A presente invenção descreve um formato de arquivo de multiplexação e as unidades de acesso relevantes a serem usados para armazenar, transportar, acessar e processar informações genômicas ou proteômicas na forma de sequências de símbolos que representam moléculas.

[111] Essas moléculas incluem, por exemplo, nucleotídeos, aminoácidos e proteínas. Uma das informações mais importantes representadas como sequência de símbolos consiste nos dados gerados por dispositivos de sequenciamento de genoma de alta produtividade.

[112] O genoma de qualquer organismo vivo é geralmente representado como uma linha de símbolos que expressam a cadeia de ácidos nucleicos (bases) que caracterizam aquele organismo. A tecnologia de sequenciamento de genoma do estado da técnica atual pode produzir apenas uma representação fragmentada do genoma na forma de várias (até bilhões de) linhas de ácidos nucleicos associadas aos metadados (identificadores, nível de precisão etc.). Tais linhas são geralmente chamadas de “leituras de sequência” ou “leituras”.

[113] As etapas típicas do ciclo de vida de informações

Petição 870190034493, de 10/04/2019, pág. 87/165

15/58 genômicas compreendem extração de leituras de Sequência, Mapeamento e Alinhamento, detecção de Variante, anotação de Variante e Análise Funcional e Estrutural (consultar a Figura 1).

[114] A extração de leituras de Sequência é o processo realizado por um operador humano ou uma máquina - de representação de fragmentos de informações genéticas na forma de sequências de símbolos que representam as moléculas que compõem uma amostra biológica. No caso de ácidos nucleicos, tais moléculas são chamadas de “nucleotídeos”. As sequências de símbolos produzidas pela extração são comumente chamadas de “leituras”. Essas informações são geralmente codificadas na técnica anterior como arquivos de FASTA, incluindo um cabeçalho textual e uma sequência de símbolos que representa as moléculas sequenciadas.

[115] Quando a amostra biológica é sequenciada para extrair DNA de um organismo vivo, o alfabeto é composto pelos símbolos (A,C,G,T,N).

[116] Quando a amostra biológica é sequenciada para extrair RNA de um organismo vivo, o alfabeto é composto pelos símbolos (A,C,G,U,N).

[117] No caso de conjunto de símbolos estendido de IUPAC, os chamados “códigos de ambiguidade” também são gerados pela máquina de sequenciamento, o alfabeto usado para os símbolos que compõem as leituras são (A, C, G, T, U, W, S, Μ, K, R, Y, B, D, Η, V, N ou -).

[118] Quando os códigos de ambiguidade da IUPAC não são usados, uma sequência de pontuação de qualidade pode ser associada a cada leitura de sequência. Em tal caso, as soluções da técnica anterior codificam as informações resultantes como um arquivo de FASTQ. Os dispositivos de sequenciamento podem introduzir erros nas leituras de sequência como:

[119] 1. identificação de um símbolo errado (isto é, que representa um ácido nucleico diferente) para representar o ácido nucleico realmente presente na amostra sequenciada; isso é geralmente chamado de “erro de substituição” (incompatibilidade);

[120] 2. inserção em uma leitura de sequência de símbolos adicionais que não se referem a nenhum ácido nucleico realmente presente; isso é geralmente chamado de “erro de inserção”;

[121] 3. deleção de uma leitura de sequência de símbolos que

Petição 870190034493, de 10/04/2019, pág. 88/165

16/58 representam ácidos nucleicos que estão realmente presentes na amostra sequenciada; isso é geralmente chamado de “erro de deleção”;

[122] 4. recombinação de um ou mais fragmentos em um único fragmento que não reflete a realidade da sequência originária.

[123] O termo “cobertura” é usado na literatura para quantificar a extensão à qual um genoma de referência ou uma parte do mesmo pode ser coberta pelas leituras de sequência disponíveis. Diz-se que a cobertura é:

[124] · parcial (menor do que 1X) quando algumas partes do genoma de referência não são mapeadas por nenhuma leitura de sequência disponível [125] · única (1X) quando todos os nucleotídeos do genoma de referência são mapeados por um e apenas um símbolo presente nas leituras de sequência [126] · múltipla (2X, 3X, NX) quando cada nucleotídeo do genoma de referência é mapeado múltiplas vezes.

[127] O alinhamento de sequência se refere ao processo de dispor as leituras de sequência encontrando-se as regiões de similaridade que podem ser uma consequência de relações funcionais, estruturais ou evolucionárias entre as sequências. Quando o alinhamento é realizado com referência a uma sequência de nucleotídeos pré-existente chamada de “genoma de referência”, o processo é chamado de “mapeamento”. O alinhamento de sequência também pode ser realizado sem uma sequência préexistente (isto é, genoma de referência), em tais casos o processo é conhecido na técnica anterior como alinhamento tipo “de novo”. As soluções da técnica anterior armazenam essas informações em arquivos de SAM, BAM ou CRAM. O conceito de alinhar as sequências para reconstruir um genoma parcial ou completo é representado na Figura 3.

[128] A detecção de Variante (conhecida como chamada de variante) é o processo de tradução do resultado alinhado de máquinas de sequenciamento de genoma, (leituras de sequência geradas por dispositivos de NGS e alinhadas), para um sumário das características exclusivas do organismo que é sequenciado que não podem ser encontradas em outra sequência pré-existente ou podem ser encontradas apenas em poucas sequências pré-existentes. Essas características são chamadas de “variantes”

Petição 870190034493, de 10/04/2019, pág. 89/165

17/58 porque são expressas como diferenças entre o genoma do organismo sob estudo e um genoma de referência. As soluções da técnica anterior armazenam essas informações em um formato de arquivo específico chamado de arquivo de VCF.

[129] A anotação de Variante é o processo de atribuir informações funcionais às variantes genômicas identificadas pelo processo de chamada de variante. Isso implica a classificação de variantes de acordo com sua relação com sequências de codificação no genoma e de acordo com seu impacto na sequência de codificação e no produto de gene. Na técnica anterior, isso é geralmente armazenado em um arquivo de MAF.

[130] O processo de análise de filmamento de DNA (variante, CNV = variação de número de cópia, metilação etc,) para definir sua relação com as funções e a estrutura de genes (e proteínas) é chamada de análise funcional ou estrutural. Há várias soluções diferentes na técnica anterior para o armazenamento desses dados.

FORMATO DE ARQUIVO GENÔMICO [131] A invenção revelada no presente documento consiste na definição de uma estrutura de dados comprimidos para representar, processar, manipular e transmitir dados de sequenciamento de genoma que diferem das soluções da técnica anterior para pelo menos os seguintes aspectos:

[132] - Não depende de quaisquer formatos de representação da técnica anterior de informações genômicas (isto é, FASTQ, SAM).

[133] - Implementa uma nova classificação original dos dados genômicos e metadados de acordo com suas características específicas. As leituras de sequência são mapeadas para uma sequência de referência e agrupadas em classes distintas de acordo com os resultados do processo de alinhamento. Isso resulta em classes de dados com entropia inferior de informações que podem ser codificadas de modo mais eficaz aplicando diferentes algoritmos de compressão específicos.

[134] - Define elementos de sintaxe e o processo de codificação/decodificação relacionado transmitindo as leituras de sequência e as informações de alinhamento para uma representação que é mais eficaz para ser processada para aplicações de análise a jusante.

[135] Classificar as leituras de acordo com o resultado de

Petição 870190034493, de 10/04/2019, pág. 90/165

18/58 mapeamento e converter as mesmas em código com o uso de descritores a serem armazenados em camadas (camada de posição, camada de distância de correspondente, camada de tipo de incompatibilidade etc, etc, ...) apresenta as seguintes vantagens:

[136] · Uma redução da entropia de informações quando os diferentes elementos de sintaxe são modelados por um modelo de fonte específico.

[137] · Um acesso mais eficaz aos dados que já são organizados em grupos/camadas que têm um significado específico para os estágios de análise a jusante e que podem ser acessados separada e independentemente.

[138] · A presença de uma estrutura de dados modular que pode ser atualizada de modo incrementai acessando-se apenas as informações necessárias, sem a necessidade de decodificar todo o conteúdo de dados.

[139] · As informações genômicas produzidas por máquinas de sequenciamento são, de modo intrínseco, altamente redundantes devido à natureza das informações em si e à necessidade de atenuar os erros intrínsecos no processo de sequenciamento. Isso implica que as informações genéticas relevantes que precisam ser identificadas e analisadas (as variações em relação a uma referência) são apenas uma pequena fração dos dados produzidos. Os formatos de representação de dados genômicos da técnica anterior não são concebidos para “isolar” as informações significativas em um dado estágio de análise do restante das informações, de modo a torná-las prontamente disponíveis para as aplicações de análise.

[140] · A solução trazida pela invenção revelada é representar dados genômicos de tal modo que qualquer porção relevante dos dados seja prontamente disponível para as aplicações de análise sem a necessidade de acessar e descomprimir a totalidade de dados e a redundância dos dados é reduzida de modo eficaz por compressão eficaz para minimizar o espaço de armazenamento necessário e a largura de banda de transmissão.

[141 ] Os elementos-chave da invenção são:

[142] 1. A especificação de um formato de arquivo que “contém” elementos de dados estruturados e seletivamente acessíveis (Unidades de Acesso (AU) em forma comprimida. Tal abordagem pode ser vista como um oposto das abordagens da técnica anterior, SAM e BAM, por exemplo, em que

Petição 870190034493, de 10/04/2019, pág. 91/165

19/58 os dados são estruturados em forma não comprimida e, então, o arquivo integral é comprimido. Uma primeira vantagem nítida da abordagem é ser capaz de fornecer, de modo eficaz e natural, várias formas de acesso seletivo estruturado aos elementos de dados no domínio comprimido, que é impossível ou extremamente difícil nas abordagens da técnica anterior.

[143] 2. A estruturação das informações genômicas em “camadas” específicas de dados e metadados homogêneos apresenta a vantagem considerável de possibilitar a definição de diferentes modelos das fontes de informações caracterizadas por entropia baixa. Tais modelos, não apenas podem diferir de camada para camada, mas, também podem diferir dentro de cada camada quando os dados comprimidos dentro das camadas são particionados em Blocos de Dados incluídos em Unidades de Acesso. Essa estruturação possibilita o uso da compressão mais adequada para cada classe de dados ou metadados e porção dos mesmos com ganhos significativos na eficácia de codificação versus abordagens da técnica anterior.

[144] 3. As informações são estruturadas em Unidades de Acesso (AU), de modo que qualquer subconjunto relevante de dados usados por aplicações de análise genômica seja acessível de modo eficaz e seletivamente por meio de interfaces adequadas. Esses recursos possibilitam um acesso mais rápido aos dados e rendem um processamento mais eficaz.

[145] 4. A definição de uma Tabela de índice Principal e de Tabelas de índice Locais possibilitando o acesso seletivo às informações portadas pelas camadas de dados codificados (isto é, comprimidos) sem a necessidade de decodificar o volume integral de dados comprimidos.

[146] 5. A possibilidade de realizar o realinhamento de dados genômicos já alinhados e comprimidos que precisam ser realinhados versus genomas de referência recém-publicados através da realização de uma transcodificação eficaz de porções de dados selecionadas no domínio comprimido. A liberação frequente de novos genomas de referência atualmente exige o consumo de recursos e tempo para que os processos de transcodificação realinhem dados genômicos já comprimidos e armazenados em relação às referências recém-publicadas, visto que todo o volume de dados precisa ser processado.

[147] O método descrito no presente documento tem por objetivo

Petição 870190034493, de 10/04/2019, pág. 92/165

20/58 explorar o conhecimento anteriormente disponível sobre dados genômicos para definir um alfabeto para elementos de sintaxe com entropia reduzida. Em genomas, o conhecimento disponível é representado por uma sequência genômica existente geralmente - mas não necessariamente - da mesma espécie que aquela a ser processada. Como um exemplo, os genomas humanos de indivíduos diferentes diferem apenas em uma fração de 1%. Por outro lado, essa pequena quantidade de dados contém informações suficientes para possibilitar um diagnóstico precoce, medicina personalizada, síntese de fármacos personalizada etc. Essa invenção tem por objetivo definir um formato de representação de informações genômicas, em que as informações relevantes são acessíveis e transportáveis de modo eficaz e o peso das informações redundantes é reduzido.

[148] Os recursos técnicos usados na presente invenção são:

[149] 1. Decomposição das informações genômicas em “camadas” de metadados homogêneos para reduzir a entropia de informações tanto quanto possível;

[150] 2. Definição de uma Tabela de índice Principal e Tabelas de índice Locais para possibilitar o acesso seletivo às camadas de informações codificadas sem a necessidade de decodificar a totalidade das informações codificadas;

[151] 3. Adoção de diferentes modelos de fonte e conversores em código por entropia para converter em código os elementos de sintaxe pertencentes a diferentes camadas definidas no ponto 1;

[152] 4. Correspondência entre camadas dependentes para possibilitar o acesso seletivo aos dados sem a necessidade de decodificar todas as camadas, se não for necessário;

[153] 5. Codificação diferencial em relação a uma ou mais sequências de referência adaptativas que podem ser modificadas para reduzir a entropia. Após uma primeira codificação com base em referência, as incompatibilidades registradas podem ser usadas para “adaptar/modificar” as sequências de referência para reduzir adicionalmente a entropia de informações. Esse é um processo que pode ser realizado iterativamente, desde que a redução de entropia de informações seja significativa.

[154] Para solucionar todos os problemas supracitados da

Petição 870190034493, de 10/04/2019, pág. 93/165

21/58 técnica anterior (em termos de acesso eficaz a posições aleatórias no arquivo, a transmissão e armazenamento eficazes, compressão eficaz) o presente pedido reordena e empacota, em conjunto, os dados que são mais homogêneos e ou semanticamente significativos para a facilidade de processamento.

[155] A presente invenção também adota uma estrutura de dados baseada no conceito de Unidade de Acesso e a multiplexação dos dados relevantes.

[156] Os dados genômicos são estruturados e codificados em diferentes unidades de acesso. Doravante segue uma descrição dos dados genômicos que são contidos em diferentes unidades de acesso.

CLASSIFICAÇÃO DE DADOS GENÔMICOS [157] As leituras de sequência geradas por máquinas de sequenciamento são classificadas pela invenção revelada em 5 “Classes” diferentes de acordo com os resultados do alinhamento em relação a uma ou mais sequências de referência ou genomas.

[158] Ao alinhar uma sequência de DNA de nucleotídeos em relação a uma sequência de referência são cinco os possíveis resultados:

[159] 1. É constatado que uma região na sequência de referência corresponde à leitura de sequência sem nenhum erro (mapeamento perfeito). Tal sequência de nucleotídeos será chamada de “leitura perfeitamente correspondente” ou denotada como “Classe P” [160] 2. É constatado que uma região na sequência de referência é correspondente à leitura de sequência com um número de incompatibilidades constituído por um número de posições nas quais a máquina de sequenciamento não foi capaz de chamar nenhuma base (ou nucleotídeo). Tais incompatibilidades são denotadas por um “N”. Tais sequências serão chamadas de “leituras incompatíveis de N” ou “Classe N”.

[161] 3. É constatado que uma região na sequência de referência é correspondente à leitura de sequência com um número de incompatibilidades constituído por um número de posições nas quais a máquina de sequenciamento não foi capaz de chamar nenhuma base (ou nucleotídeo) OU uma base diferente daquela relatada na sequência de referência foi chamada. Tal tipo de incompatibilidade é chamada de Variação de Único Nucleotídeo

Petição 870190034493, de 10/04/2019, pág. 94/165

22/58 (SNV) ou Polimorfismo de Único Nucleotídeo (SNP). A sequência será chamada de “leituras incompatíveis de M” ou “Classe Μ”.

[162] 4. Uma quarta classe é constituída por leituras de sequenciamento que apresentam um tipo de incompatibilidade que inclui as mesmas incompatibilidades da classe M mais a presença de inserções ou deleções (conhecidas como indels). As inserções são representadas por uma sequência de um ou mais nucleotídeos não presentes na referência, porém, presentes na sequência de leitura. Na literatura, quando a sequência inserida está nas bordas da sequência, é chamada de “corte suave” (isto é, os nucleotídeos não correspondem à referência, mas são mantidos nas leituras alinhadas ao contrário dos nucleotídeos de corte rígido que são descartados). Manter ou descartar nucleotídeos é tipicamente a decisão do usuário implementada como uma configuração da ferramenta de alinhamento. A deleção consiste em “orifícios” (nucleotídeos faltantes) na leitura alinhada em relação à referência. Tais sequências serão chamadas de “leituras incompatíveis de I” ou “Classe I”.

[163] 5. Uma quinta classe inclui todas as leituras que agora encontram qualquer mapeamento válido na sequência de referência de acordo com as restrições de alinhamento especificadas. É dito que tais sequências não são mapeadas e pertencem à “Classe U” [164] As leituras não mapeadas podem ser montadas em uma única sequência com o uso de algoritmos de montagem tipo de-novo. Uma vez que a nova sequência tiver sido criada, as leituras não mapeadas podem ser adicionalmente mapeadas em relação à mesma e ser classificadas em uma dentre as 4 classes P, N, M e I.

[165] A estrutura de dados dos ditos dados genômicos exige que o armazenamento de parâmetros e metadados globais seja usado pelo mecanismo de decodificação. Os dados são estruturados em um cabeçalho principal descrito na tabela abaixo.

Elemento	Tipo	Descrição
ID Exclusivo	Arranjo de bytes	Identificador exclusivo para o conteúdo codificado
Versão	Arranjo de bytes	Versão maior + menor do algoritmo de codificação

Petição 870190034493, de 10/04/2019, pág. 95/165

23/58

Tamanho de Cabeçalho	Integral	Tamanho em bytes do conteúdo codificado inteiro
Comprimento de Leituras	Integral	Tamanho de leituras no caso de comprimento constante de leituras. Um valor especial (por exemplo, 0) é reservado para comprimento variável de leituras
Contagem de ref.	Integral	Número de sequências de referência usadas
Contadores de Unidades de Acesso	Arranjo de bytes (por exemplo, números inteiros)	Número total de Unidades de Acesso codificadas por sequência de referência
IDs de ref.	Arranjo de bytes	Identificadores exclusivos para sequências de referência
Tabela de índice principal Posições de alinhamento da primeira leitura em cada bloco (Unidade de Acesso). Isto é, posição menor da primeira leitura no genoma de referência por cada bloco das 4 classes 1 por classe de pos (4) por referência	Arranjo de bytes (por exemplo, números inteiros)	Esse é um arranjo multidimensional que suporta o acesso aleatório às Unidades de Acesso.
TABELA 1 - ESI [166] Uma vez	ÍRUTURA DE CABE< que a classificação d	ÇALHO PRINCIPAL e leituras for concluída com a

definição das Classes, o processamento adicional consiste na definição de um conjunto de elementos de sintaxe distintos que representam as informações restantes que possibilitam a reconstrução da sequência de leitura de DNA quando representada como sendo mapeada em uma dada sequência de referência. Um segmento de DNA chamado como uma dada sequência de referência pode ser totalmente expressado por:

[167] · A posição inicial na pos de sequência de referência (292).

[168] · Um sinalizador que sinaliza se a leitura deve ser considerada como um complemento reverso versus a rcomp de referência (293).

[169] · Uma distância até o par correspondente no caso de par de leituras emparelhado (294).

Petição 870190034493, de 10/04/2019, pág. 96/165

24/58 [170] · O valor do comprimento de leitura (295) no caso de a tecnologia de sequenciamento produzir leituras de comprimento variável. No caso do comprimento constante de leituras, o comprimento de leitura associado a cada leitura pode, obviamente, ser omitido e pode ser armazenado no cabeçalho de arquivo principal.

[171 ] · Para cada incompatibilidade:

[172] o A nmis de posição de incompatibilidade (300) para a classe N, snpp (311) para a classe M, e indp (321) para a classe I) [173] o O tipo de incompatibilidade (não presente na classe N, snpt (312) na classe M, indt (322) na classe I) [174] · Os sinalizadores (296) que indicam características específicas da leitura de sequência como:

[175] o os modelo que tem múltiplos segmentos em sequenciamento [176] o cada segmento adequadamente alinhado de acordo com o alinhador [177] o segmento não mapeado [178] o próximo segmento no modelo não mapeado [179] o sinalização do primeiro ou último segmento [180] o falha de controle de qualidade [181] o PCR ou duplicação óptica [182] o alinhamento secundário [183] o alinhamento suplementar [184] · linha de nucleotídeos de corte suave (323) quando presente para a classe I [185] Essa classificação cria grupos de descritores (elementos de sintaxe) que pode ser usado para representar inequivocamente as leituras de sequência de genoma. A tabela abaixo sumariza os elementos de sintaxe necessários para cada classe de leituras alinhadas.

P	N	Μ 1
pos	X	X	X	X
par	X	X	X	X
rcomp	X	X	X	X
sinalizadores	X	X	X	X

Petição 870190034493, de 10/04/2019, pág. 97/165

25/58 rlen X X nmis snpp snpt indp indt indc

X X

X

TABELA 2 - CAMADAS DEFINIDAS POR CLASSE DE DADOS.

[186] As leituras pertencentes às classe P são caracterizadas e podem ser perfeitamente reconstruídas por apenas uma posição, informações de complemento reverso e um deslocamento entre correspondentes no caso, os mesmos foram obtidos por uma tecnologia de sequenciamento que rende pares correspondentes, alguns sinalizadores e um comprimento de leitura.

[187] A próxima seção detalha como esses descritores são definidos.

CAMADA DE DESCRITORES DE POSIÇÃO [188] Em cada Unidade de Acesso, apenas a posição de mapeamento da primeira leitura codificada é armazenada no cabeçalho de AU como posição absoluta no genoma de referência. Todas as outras posições são expressas como uma diferença em relação à posição anterior e são armazenadas em uma camada específica. Essa modelagem da fonte de informações, definida pela sequência de posições de leitura, em geral, é caracterizada por uma entropia reduzida particularmente para processos de sequenciamento que geram resultados de cobertura altos. Uma vez que a posição absoluta do primeiro alinhamento tiver sido armazenada, todas as posições de outras leituras são expressas como diferença (distância) em relação à primeira.

[189] Por exemplo, a Figura 4 mostra como, após a codificação, a posição inicial do primeiro alinhamento, como a posição “10.000“ na sequência de referência, a posição da segunda leitura iniciando na posição 10.180 é codificada como “180”. Com dados de cobertura alta (> 50x) a maioria dos descritores do vetor de posição irá mostrar ocorrências muito altas de valores baixos como 0 e 1 e outros números inteiros pequenos. A Figura 4 mostra como as posições de três pares de leitura são codificadas em uma

Petição 870190034493, de 10/04/2019, pág. 98/165

26/58 camada de pos.

[190] O mesmo modelo de fonte é usado para as posições de leituras pertencentes às classes N, Μ, P e I. Para possibilitar qualquer combinação de acesso seletivo aos dados, as posições de leituras pertencentes às quatro classes são codificadas em camadas separadas como representado na Tabela I.

CAMADA DE DESCRITORES DE EMPARELHAMENTO [191] O descritor de emparelhamento é armazenado na camada de par. Tal camada armazena descritores que codificam as informações necessárias para reconstruir os pares de leituras originários, quando a tecnologia de sequenciamento empregada produz leituras por pares. Embora na data da revelação da invenção a vasta maioria dos dados de sequenciamento sejam gerados com o uso de uma tecnologia que gera leituras emparelhadas, esse não é o caso de todas as tecnologias. Essa é a razão pela qual a presença dessa camada não é necessária para reconstruir todas as informações de dados de sequenciamento se a tecnologia de sequenciamento dos dados genômicos considerada não gerar informações de leituras emparelhadas.

DEFINIÇÕES:

[192] · par correspondente: leitura associada a outra leitura em um par de leituras (por exemplo, a Leitura 2 é o par correspondente da Leitura 1 no exemplo da Figura 4) [193] · distância de emparelhamento: número de posições de nucleotídeo na sequência de referência que separam uma posição na primeira leitura (âncora de emparelhamento, por exemplo, o último nucleotídeo da primeira leitura) de uma posição da segunda leitura (por exemplo, o primeiro nucleotídeo da segunda leitura) [194] · distância de emparelhamento mais provável (MPPD): essa é a distância de emparelhamento mais provável expressada em número de posições de nucleotídeo.

[195] · distância de emparelhamento de posição (PPD): a PPD é uma forma de expressar uma distância de emparelhamento em termos do número de leituras que separam uma leitura de seu respectivo correspondente presente em uma camada de descritor de posição específica.

Petição 870190034493, de 10/04/2019, pág. 99/165

27/58 [196] * distância de emparelhamento de posição mais provável (MPPPD): é o número mais provável de leituras que separam uma leitura de seu par correspondente presente em uma camada de descritor de posição específica.

[197] · erro de emparelhamento de posição (PPE): é definido como a diferença entre a MPPD ou a MPPPD e a posição real do correspondente.

[198] · âncora de emparelhamento: a posição do último nucleotídeo da primeira leitura em um par usado como referência para calcular a distância do par correspondente em termos de número de posições de nucleotídeo ou número de posições de leitura.

[199] A Figura 5 mostra como a distância de emparelhamento entre os pares de leitura é calculada.

[200] A camada de descritor de par é o vetor de erros de emparelhamento calculados como o número de leituras a serem omitidas para alcançar o par correspondente da primeira leitura de um par em relação à distância de emparelhamento de decodificação definida.

[201] A Figura 6 mostra um exemplo de como os erros de emparelhamento são calculados, tanto como um valor absoluto quanto como um vetor diferencial (caracterizado por entropia inferior para altas coberturas).

[202] Os mesmos descritores são usados para as informações de emparelhamento de leituras pertencentes às classes N, M, P e I. Para possibilitar o acesso seletivo às diferentes classes de dados, as informações de emparelhamento de leituras pertencentes às quatro classes são codificadas em diferentes camada como representado em:

INFORMAÇÕES DE EMPARELHAMENTO NO CASO DE LEITURAS MAPEADAS EM REFERÊNCIAS DIFERENTES [203] No processo de mapeamento de leituras de sequência em uma sequência de referência, não é incomum ter a primeira leitura em um par mapeada em uma referência (por exemplo, cromossomo 1) e a segunda em uma referência diferente (por exemplo, cromossomo 4). Nesse caso, as informações de emparelhamento descritas acima precisam ser integradas por informações adicionais relacionadas à sequência de referência usada para mapear uma das leituras. Isso é alcançado convertendo-se em código

Petição 870190034493, de 10/04/2019, pág. 100/165

28/58 [204] 1. Um valor reservado (sinalizador) que indica que o par é mapeado em duas sequências diferentes (valores diferentes indicam se a leitura 1 ou a leitura 2 são mapeadas na sequência que não é codificada atualmente) [205] 2. um identificador de referência exclusiva que se refere aos identificadores de referência codificados na estrutura de cabeçalho principal como descrito em Tabela 1.

[206] 3. um terceiro elemento que contém as informações de mapeamento na referência identificada no ponto 2 e expressada como deslocamento em relação à última posição codificada.

[207] A Figura 7 fornece um exemplo dessa situação.

[208] Na Figura 7, visto que a Leitura 4 não é mapeada na sequência de referência atualmente codificada, o codificador genômico sinaliza essas informações esboçando-se descritores adicionais na camada de par. No exemplo mostrado na Figura 7, a Leitura 4 do par 2 é mapeada na referência n²4, enquanto a referência atualmente codificada é a n² 1. Essas informações são codificadas com o uso de 3 componentes:

[209] 1) Um valor reservado especial é codificado como a distância de emparelhamento (nesse caso, Oxffffff) [210] 2) Um segundo descritor fornece um ID de referência como listado no cabeçalho principal (nesse caso, 4) [211] 3) O terceiro elemento contém as informações de mapeamento sobre a referência em questão (170).

CAMADA DE DESCRITOR DE COMPLEMENTO REVERSO [212] Cada leitura dos pares de leitura produzidos através de tecnologias de sequenciamento pode ser originada a partir de um dos filamentos de genoma da amostra orgânica sequenciada. Entretanto, apenas um dentre os dois filamentos é usado como a sequência de referência. A Figura 8 mostra como, em um par de leituras, uma leitura (leitura 1) pode ser proveniente de um filamento e a outra (leitura 2) pode ser proveniente do outro.

[213] Quando o filamento 1 é usado com a sequência de referência, a leitura 2 pode ser codificada como o complemento reverso do fragmento correspondente no filamento 1. Isso é mostrado na Figura 9.

[214] No caso de leituras acopladas, são quatro as combinações

Petição 870190034493, de 10/04/2019, pág. 101/165

29/58 possíveis de pares de correspondentes de complemento direto e reverso. Isso é mostrado na Figura 10. A camada de rcomp converte em código as quatro combinações possíveis.

[215] A mesma conversão em código é usada para as informações de complemento reverso de leituras pertencentes às classes P, N, Μ, I. Para possibilitar o acesso seletivo melhorado aos dados, as informações de complemento reverso de leituras pertencentes às quatro classes são convertidas em códigos em diferentes camadas como representado em Tabela 2.

INCOMPATIBILIDADES DE CLASSE N [216] A Classe N inclui todas as leituras que mostram incompatibilidades, em que N está presente em vez de uma chamada de base. Todas as outras bases são perfeitamente correspondentes na sequência de referência.

[217] As posições de Ns na leitura 1 são codificadas como [218] · posição absoluta na leitura 1 OU [219] · como posição diferencial em relação ao N anterior na mesma leitura (o que tiver a entropia mais baixa).

[220] As posições de Ns na leitura 2 são codificadas como [221] · a posição absoluta no comprimento de leitura 2 + leitura 1 OU [222] · posição diferencial em relação ao N anterior (o que tiver entropia mais baixa).

[223] Na camada de nmis, a codificação de cada par de leituras é terminada por um símbolo “S” separador especial. Isso é mostrado na Figura 11.

CODIFICAÇÃO DE SUBSTITUIÇÕES (INCOMPATIBILIDADES OU SNPs) [224] Uma substituição é definida como a presença, em uma leitura mapeada, de um nucleotídeo diferente em relação àquele que está presente na sequência de referência na mesma posição (consultar a Figura 12).

[225] Cada substituição pode ser codificada como [226] · “posição” (camada de snpp) e “tipo” (camada de snpt).

Petição 870190034493, de 10/04/2019, pág. 102/165

30/58

Consultar a Figura 13, a Figura 14, a Figura 16 e a Figura 15.

[227] OU [228] · “posição” apenas, porém, com o uso de uma camada de snpp por tipo de incompatibilidade. Consultar a Figura 17

POSIÇÕES DE SUBSTITUIÇÕES [229] Uma posição de substituição é calculada como para os valores da camada de nmis, isto é:

[230] Na leitura 1, as substituições são codificadas [231] · como a posição absoluta na leitura 1 OU [232] · como a posição diferencial em relação à substituição anterior na mesma leitura. Na leitura 2, as substituições são codificadas [233] Na leitura 2, as substituições são codificadas:

[234] · como a posição absoluta no comprimento de leitura 2 + leitura 1 OR [235] · como a posição diferencial em relação à substituição anterior, a Figura 13 mostra como as posições de substituições são codificadas na camada snpp. As posições de substituições podem ser calculadas como valores absolutos ou como valores diferenciais.

[236] Na camada de snpp, a codificação de cada par de leituras é terminada por um símbolo “separador” especial.

DESCRITORES DE TIPOS DE SUBSTITUIÇÕES [237] Para a classe M (e I como descrito nas próximas seções), as incompatibilidades são convertidas em código por um índice (que se move da direita para a esquerda) a partir de um símbolo real presente na referência ao símbolo de substituição correspondente presente na leitura {A, C, G, T, N, Z}. Por exemplo, se a leitura alinhada apresentar um C em vez de um T, que está presente na mesma posição na referência, o índice de incompatibilidade será denotado como “4”. O processo de decodificação lê o elemento de sintaxe codificado, o nucleotídeo na dada posição na referência e se move da esquerda para a direita para recuperar o símbolo decodificado. Por exemplo, um “2” recebido para uma posição em que um G está presente na referência será decodificado como “N”. A Figura 14 mostra todas as substituições possíveis e os respectivos símbolos de codificação quando os códigos de ambiguidade da IUPAC não são usados e a Figura 15 fornece um exemplo de

Petição 870190034493, de 10/04/2019, pág. 103/165

31/58 codificação de tipos de substituições na camada de snpt.

[238] No caso da presença de códigos de ambiguidade da IUPAC, os índices de substituição são alterados como mostrado na Figura 16.

[239] No caso de a codificação de tipos de substituição descritos acima apresentar alta entropia de informações, um método alternativo de codificação de substituição consiste em armazenar apenas as posições de incompatibilidades nas camadas separadas, uma por nucleotídeo, como representado na Figura 17.

CODIFICAÇÃO DE INSERÇÕES E DELEÇÕES [240] Para a classe I, as incompatibilidades e as deleções são codificadas por índices (que se movem da direita para a esquerda) a partir do símbolo real presente na referência para o símbolo de substituição correspondente presente na leitura: {A, C, G, T, N, Z}. Por exemplo, se a leitura alinhada apresentar um C em vez de um T presente na mesma posição na referência, o índice de incompatibilidade será “4”. No caso de a leitura apresentar uma deleção onde um A está presente na referência, o símbolo codificado será “5”. O processo de decodificação lê o elemento de sintaxe convertido em código, o nucleotídeo na dada posição na referência, e se move da esquerda para a direita para recuperar o símbolo decodificado. Por exemplo, um “3” recebido para uma posição em que um G está presente na referência será decodificado como “Z”, que indica a presença de uma deleção na leitura de sequência.

[241] As inserções são codificadas como 6, 7, 8, 9, 10 respectivamente para A, C, G, T, N inseridos.

[242] No caso de adoção dos códigos de ambiguidade da IUPAC, o mecanismo de substituição resulta exatamente igual, entretanto, o vetor de substituição é estendido como: S = {A, C, G, T, N, Z, M, R, W, S, Y, K, V, H, D, B}.

[243] A Figura 18 e a Figura 19 mostram exemplos de como codificar as substituições, inserções e deleções em um par de leituras da classe I.

[244] As seguintes estruturas de formato de arquivo, unidades de acesso e multiplexação são descritas com referência aos elementos de codificação revelados acima no presente documento. Entretanto, as unidades

Petição 870190034493, de 10/04/2019, pág. 104/165

32/58 de acesso, o formato de arquivo e a multiplexação produzem a mesma vantagem técnica, ainda, com outros e algoritmos diferentes de modelagem de fonte e compressão de dados genômicos.

FORMATO DE ARQUIVO: ACESSO SELETIVO ÀS REGIÕES DE DADOS GENÔMICOS

TABELA DE ÍNDICE PRINCIPAL [245] Para suportar o acesso seletivo a regiões específicas dos dados alinhados, a estrutura de dados descrita nesse documento implementa uma ferramenta de indexação chamada de Tabela de índice Principal (MIT). Esse é um arranjo multidimensional que contém os loci em que as leituras específicas mapeiam nas sequências de referência usadas. Os valores contidos na MIT são as posições de mapeamento da primeira leitura em cada camada de pos, de modo que o acesso não sequencial a cada Unidade de Acesso seja suportado. A MIT contém uma seção por cada classe de dados (P, N, M e I) e por cada sequência de referência. A MIT é contida no Cabeçalho Principal dos dados codificados. A Figura 20 mostra a estrutura genérica do Cabeçalho Principal, a Figura 21 mostra uma representação visual genérica da MIT e a Figura 22 mostra um exemplo da MIT para a classe P de leituras codificadas.

[246] Os valores contidos na MIT representada na Figura 22 são usados para acessar diretamente a região de interesse (e a AU correspondente) no domínio comprimido.

[247] Por exemplo, com referência à Figura 22, se for exigido o acesso à região compreendida entre a posição 150.000 e 250.000 na referência 2, um aplicativo de decodificação pularia para a segunda referência na MIT e buscaria os dois valores k1 e k2, de modo que k1 < 150.000 e k2 > 250.000. Em que k1 e k2 são 2 índices lidos a partir da MIT. No exemplo da Figura 22, isso resultaria nas posições 3 e 4 do segundo vetor da MIT. Esses valores retornados, então, serão usados pelo aplicativo de decodificação para buscar as posições dos dados adequados a partir da Tabela de índice Local da camada de pos como descrito na próxima seção.

[248] Junto com os apontadores para a camada contendo os dados pertencentes às quatro classes de dados genômicos descritas acima, a MIT pode ser usada como um índice de metadados e/ou anotações adicionais

Petição 870190034493, de 10/04/2019, pág. 105/165

33/58 adicionadas aos dados genômicos durante seu ciclo de vida.

TABELA DE ÍNDICE LOCAL [249] Cada camada de dados descrita acima é prefixada com uma estrutura de dados chamada de cabeçalho local. O cabeçalho local contém um identificador exclusivo da camada, um vetor de contadores de Unidades de Acesso por cada sequência de referência, uma Tabela de índice Local (LIT) e opcionalmente alguns metadados específicos de camada. A LIT é um vetor de apontadores para posição física dos dados pertencentes a cada AU na carga de trabalho de camada. A Figura 23 representa o cabeçalho de camada genérico e a carga de trabalho em que a LIT é usada para acessar regiões específicas dos dados codificados de uma forma não sequencial.

[250] No exemplo anterior, para acessar a região 150.000 a 250.000 de leituras alinhadas na sequência de referência n² 2, o aplicativo de decodificação recuperou as posições 3 e 4 a partir da MIT. Esses valores devem ser usados pelo processo de decodificação para acessar o 3² e o 4²elementos da seção correspondente da LIT. No exemplo mostrado na Figura 24, os contadores de Unidades de Acesso Total contidos no cabeçalho de camada são usados para omitir os índices de LIT relacionados às AUs relacionadas à referência 1 (5 no exemplo). Os índices contendo as posições físicas das AUs solicitadas na corrente codificada são, portanto, calculados como:

[251] a posição dos blocos de dados pertencentes à AU solicitada = blocos de dados pertencentes às AUs de referência 1 a serem omitidos + a posição recuperada com o uso da MIT, isto é, [252] Primeira posição de bloco: 5 + 3 = 8 [253] última posição de bloco: 5 + 4 = 9 [254] Os blocos de dados recuperados com o uso do mecanismo de indexação chamado de Tabela de índice Local, como parte das Unidades de Acesso solicitadas.

[255] A Figura 26 mostra como os blocos de dados recuperados com o uso da MIT e da LIT compõem uma ou mais Unidades de Acesso.

UNIDADES DE ACESSO [256] Os dados genômicos classificados em classes de dados e estruturados em camadas comprimidas ou não comprimidas são organizados

Petição 870190034493, de 10/04/2019, pág. 106/165

34/58 em diferentes unidades de acesso.

[257] As Unidades de Acesso (AU) Genômicas são definidas como seções de dados de genoma (em uma forma comprimida ou não comprimida) que reconstrói as sequências de nucleotídeos e/ou os metadados relevantes, e/ou a sequência de DNA/RNA (por exemplo, a referência virtual) e/ou os dados de anotação gerados por uma máquina de sequenciamento de genoma e/ou um dispositivo de processamento genômico ou aplicativo de análise.

[258] Uma Unidade de Acesso é um bloco de dados que pode ser decodificado independentemente de outras Unidades de Acesso com o uso apenas de dados globalmente disponíveis (por exemplo, configuração de decodificador) ou com o uso de informações contidas em outras Unidades de Acesso.

[259] As Unidades de Acesso contêm informações de dados relacionadas aos dados genômicos na forma de informações posicionais (absolutas e/ou relativas), informações relacionadas ao complemento reverso e possivelmente emparelhamento e dados adicionais. É possível identificar vários tipos de unidades de acesso.

[260] As unidades de acesso são diferenciadas por:

[261] · tipo, caracterizando a natureza dos dados genômicos e conjuntos de dados que portam e a forma como podem ser acessados, [262] · ordem, fornecendo uma ordem exclusiva para unidades de acesso pertencentes ao mesmo tipo.

[263] As unidades de acesso de qualquer tipo podem ser adicionalmente classificadas em diferentes “categorias”.

[264] Doravante segue uma lista não exaustiva da definição de diferentes tipos de unidades de acesso genômicas:

[265] 1) as unidades de acesso de tipo 0 não precisam se referir a quaisquer informações provenientes de outras unidades de acesso para serem acessadas ou decodificadas e acessadas (consultar a Figura 29). A totalidade das informações portadas pelos dados ou conjuntos de dados que as mesmas contêm podem ser independentemente lidas e processadas por um dispositivo de decodificação ou aplicativo de processamento.

[266] 2) as unidades de acesso do tipo 1 contêm dados que se

Petição 870190034493, de 10/04/2019, pág. 107/165

35/58 referem aos dados portados por unidades de acesso de tipo 0 (consultar a Figura 30). Ler ou decodificar e processar os dados contidos nas unidades de acesso do tipo 1 exige que haja acesso a uma ou mais unidades de acesso de tipo 0.

[267] As unidades de acesso desse tipo podem conter informações de incompatibilidade ou dissimilaridade ou não correspondência em relação às informações contidas na unidade de acesso de tipo 0.

[268] 3) as unidades de acesso de tipo 2, 3 e 4 contêm dados que se referem a uma unidade de acesso de tipo 1 (consultar a Figura 31, a Figura 32 e a Figura 33). Ler ou decodificar e processar os dados ou conjuntos de dados contidos por unidades de acesso de tipo 2, 3 e 4 exige informações portadas pelos dados ou conjuntos de dados contidos em unidades de acesso de tipo 0 e 1. A diferença entre as unidades de acesso de tipos 2, 3 e 4 depende da natureza das informações que as mesmas contêm.

[269] 4) as unidades de acesso de tipo 5 contêm metadados (por exemplo, pontuações de qualidade) e/ou dados de anotação associados aos dados ou conjuntos de dados contidos na unidade de acesso de tipo 1. As unidades de acesso de tipo 5 podem ser classificadas e rotuladas em diferentes camadas.

[270] 5) as unidades de acesso de tipo 6 contêm dados ou conjuntos de dados classificados como dados de anotação. As unidades de acesso de tipo 6 podem ser classificadas e rotuladas em camadas.

[271] 6) As unidades de acesso de tipos adicionais podem estender a estrutura e mecanismos descritos no presente documento. Como um exemplo, mas sem limitações, os resultados da chamada de variante genômica, a análise estrutural e funcional pode ser codificada em unidades de acesso de novos tipos. A organização de dados em Unidades de Acesso descritas no presente documento não previne nenhum tipo de dados a serem encapsulados nas Unidades de Acesso em que o mecanismo é completamente transparente em relação à natureza de dados codificados.

[272] As unidades de acesso desse tipo podem conter informações de incompatibilidade ou dissimilaridade ou não correspondência em relação às informações contidas na unidade de acesso de tipo 0.

[273] A Figura 28 mostra como as Unidades de Acesso são

Petição 870190034493, de 10/04/2019, pág. 108/165

36/58 compostas por um cabeçalho e uma ou mais camadas de dados homogêneos. Cada camada pode ser composta por um ou mais blocos. Cada bloco contém vários pacotes e os pacotes são uma sequência estruturada dos descritores introduzidos acima para representar, por exemplo, as posições de leituras, informações de emparelhamento, informações de complemento reverso, posições de incompatibilidades e tipos etc.

[274] Cada unidade de acesso pode ter um número diferente de pacotes em cada bloco, porém, dentro de uma Unidade de Acesso, todos os blocos têm o mesmo número de pacotes.

[275] Cada pacote de dados pode ser identificado pela combinação de 3 identificadores X Y Z, em que:

[276] · X identifica a unidade de acesso à qual pertence [277] · Y identifica o bloco ao qual pertence (isto é, o tipo de dados que o mesmo encapsula) [278] · Z é um identificador que expressa a ordem de pacote em relação a outros pacotes no mesmo bloco [279] A Figura 28 mostra um exemplo de Unidades de Acesso e rotulação de pacotes.

[280] A Figura 34 à Figura 38 mostram Unidades de Acesso de vários tipos, a sintaxe comum para denotar as mesmas é a seguinte:

[281] AU_T_N é uma unidade de acesso de tipo T, com o identificador N, que pode implicar ou não implicar uma noção de ordem de acordo com o Tipo de Unidade de Acesso. Os identificadores são usados para associar exclusivamente as Unidades de Acesso de um tipo àquelas de outros tipos exigidos para decodificar completamente os dados genômicos portados.

[282] As unidades de acesso de qualquer tipo podem ser classificadas e rotuladas em diferentes “categorias” de acordo com diferentes processos de sequenciamento. Por exemplo, mas sem limitações, a classificação e a rotulação podem ocorrer durante [283] - sequenciamento do mesmo organismo em diferentes momentos (as unidades de acesso contêm informações genômicas com uma conotação “temporal”), [284] - sequenciamento de amostras orgânicas de natureza diferente dos mesmos organismos (por exemplo, pele, sangue, cabelo para

Petição 870190034493, de 10/04/2019, pág. 109/165

37/58 amostras humanas) . Essas são unidades de acesso com conotação “biológica”.

[285] As unidades de acesso de tipo 1, 2, 3 e 4 são construídas de acordo com o resultado de uma função de correspondência aplicada em fragmentos de sequência de genoma (conhecidos como leituras) em relação à sequência de referência codificada nas Unidades de Acesso de tipo 0 às quais se referem.

[286] Por exemplo as unidades de acesso (AUs) de tipo 1 (consultar a Figura 30) podem conter as posições e os sinalizadores de complemento reverso daquelas leituras que resultam em uma correspondência perfeita (ou máxima pontuação possível correspondente à função de correspondência selecionada) quando uma função de correspondência é aplicada às regiões específicas da sequência de referência codificada em AUs de tipo 0. Juntamente com os dados contidos em AUs de tipo 0, tais informações de função de correspondência são suficientes para reconstruir completamente todas as leituras de sequência de genoma representadas pelo conjunto de dados portado pelas unidades de acesso de tipo 1.

[287] Com referência aos dados genômicos, a classificação descrita anteriormente no presente documento, as Unidades de Acesso de tipo 1 descritas acima iriam conter informações relacionadas às leituras de sequência genômica da classe P (correspondências perfeitas).

[288] No caso de comprimento variável de leituras e leituras emparelhadas, os dados contidos nas AUs de tipo 1 mencionados no exemplo anterior, precisam ser integrados com os dados que representam as informações a respeito do emparelhamento de leituras e comprimento de leituras para que se possa reconstruir completamente os dados genômicos incluindo a associação de pares de leituras. Em relação à classificação de dados introduzidos anteriormente no presente documento, as camadas de par e rlen seriam codificadas em AU de tipo 1.

[289] As funções de correspondência aplicadas em relação às unidades de acesso de tipo 1 para classificação de conteúdo de AU para o tipo 2, 3 e 4 podem fornecer resultados como:

[290] - cada sequência contida na AU de tipo 1 corresponde perfeitamente às sequências contidas na AU de tipo 0 em correspondência

Petição 870190034493, de 10/04/2019, pág. 110/165

38/58 com a posição especificada;

[291] - cada sequência contida na AU de tipo 2 corresponde perfeitamente a uma sequência contida na AU de tipo 0 em correspondência com a posição especificada, exceto pelos símbolos “N” presentes (base não chamada pelo dispositivo de sequenciamento) na sequência na AU de tipo 2;

[292] - cada sequência contida na AU de tipo 3 inclui variantes na forma de símbolos substituídos (variantes) em relação à sequência contida na AU de tipo 0 em correspondência à posição especificada;

[293] - cada sequência contida na AU de tipo 4 inclui variantes na forma de símbolos substituídos (variantes), inserções e/ou deleções em relação à sequência contida na AU de tipo 0 em correspondência com a posição especificada.

[294] As unidades de acesso de tipo 0 são ordenadas (por exemplo, enumeradas), porém, não precisam ser armazenadas e/ou transmitidas de uma maneira ordenada (vantagem técnica: processamento paralelo/transmissão contínua paralela, multiplexação) [295] As unidades de acesso de tipo 1,2, 3 e 4 não precisam ser ordenadas e não precisam ser armazenadas e/ou transmitidas de uma maneira ordenada (vantagem técnica: processamento paralelo/transmissão contínua paralela).

EFEITOS TÉCNICOS [296] O efeito técnico de estruturar informações genômicas em unidades de acesso como descrito no presente documento é que os dados genômicos:

[297] 1. podem ser seletivamente consultados para acessar:

[298] - “categorias” específicas de dados (por exemplo, com uma conotação específica temporal ou biológica) sem precisar descomprimir a totalidade dos dados ou conjuntos de dados genômicos e/ou os metadados relacionados.

[299] - regiões específicas do genoma para todas as “categorias”, um subconjunto de “categorias”, uma única “categoria” (com ou sem os metadados associados) sem a necessidade de descomprimir outras regiões do genoma [300] 2. podem ser atualizados de modo incremental com novos

Petição 870190034493, de 10/04/2019, pág. 111/165

39/58 dados que podem estar disponíveis quando:

[301] - uma nova análise for realizada nos dados ou conjuntos de dados genômicos [302] - novos dados ou conjuntos de dados genômicos forem gerados por sequenciamento dos mesmos organismos (diferentes amostras biológicas, diferente amostra biológica do mesmo tipo, por exemplo, amostra de sangue, porém, adquirida em um momento diferente, etc.) [303] 3. podem ser transcodificados de modo eficaz em um novo formato de dados no caso de [304] - novos dados ou conjuntos de dados genômicos serem usados como nova referência (por exemplo, novo genoma de referência portado por AU de tipo 0) [305] - atualização da especificação do formato de codificação [306] Em relação às soluções da técnica anterior como SAM/BAM, os recursos técnicos supracitados abordam os problemas da exigência de que uma filtração de dados ocorra no nível de aplicativo quando a totalidade de dados tiver sido recuperada e descomprimida do formato codificado.

[307] Doravante seguem exemplos de situação de aplicação em que a estrutura de unidade de acesso se torna instrumental para uma vantagem tecnológica.

ACESSO SELETIVO [308] Em particular, a estrutura de dados revelada com base em Unidades de Acesso de diferentes tipos possibilita [309] - extrair apenas as informações lidas (dados ou conjuntos de dados) do sequenciamento total de todas as “categorias” ou um subconjunto (isto é, uma ou mais camadas) ou uma única “categoria” sem precisar descomprimir, ainda, as informações de metadados associados (limitação de estado da técnica atual: SAM/BAM que nem mesmo podem suportar a distinção entre diferentes categorias ou camadas) [310] - extrair todas as leituras alinhadas em regiões específicas da sequência de referência presumida para todas as categorias, os subconjuntos das categorias, uma única categoria (com ou sem os metadados associados) sem a necessidade de descomprimir, ainda, outras regiões do

Petição 870190034493, de 10/04/2019, pág. 112/165

40/58 genoma (limitação do estado da técnica atual: SAM/BAM);

[311] A Figura 39 mostra como o acesso às informações genômicas mapeadas no segundo segmento da sequência de referência (AU 0 a 2) com incompatibilidades exige apenas a decodificação das AUs 0 a 2, 1 a 2 e 3 a 2, somente. Esse é um exemplo do acesso seletivo de acordo com ambos os critérios relacionados a uma região de mapeamento (isto é, a posição na sequência de referência) e critérios relacionados à função de correspondência aplicada às leituras de sequência codificada em relação à sequência de referência (por exemplo, incompatibilidades apenas nesse exemplo).

[312] Uma vantagem técnica adicional é que a consulta nos dados é muito mais eficaz em termos de acessibilidade de dados e velocidade de execução, visto que pode ser baseado no acesso e na decodificação apenas de “categorias” selecionadas, regiões específicas de sequências genômicas mais longas e apenas camadas específicas para unidades de acesso de tipo 1, 2, 3, 4 que correspondem aos critérios das consultas aplicadas e qualquer combinação das mesmas.

[313] A organização de unidades de acesso de tipo 1,2, 3, 4 em camadas permite a extração eficaz de sequências de nucleotídeos [314] - com variações específicas (por exemplo, incompatibilidades, inserções, deleções) em relação a um ou mais genomas de referência;

[315] - que não mapeiam para nenhum dentre os genomas de referência considerados;

[316] - que mapeiam perfeitamente em um ou mais genomas de referência;

[317] - que mapeiam com um ou mais níveis de precisão

ATUALIZAÇÃO INCREMENTAL [318] As unidades de acesso de tipo 5 e 6 permitem uma fácil inserção de anotações sem a necessidade de desempacotar /decodificar/descomprimir o arquivo total, adicionando, assim, ao manuseio eficaz do arquivo, o que é uma limitação de abordagens da técnica anterior. As soluções de compressão existentes podem precisar acessar e processar uma grande quantidade de dados comprimidos antes que os dados genômicos

Petição 870190034493, de 10/04/2019, pág. 113/165

41/58 desejados possam ser acessados. Isso irá causar uma utilização de largura de banda de RAM ineficaz e mais consumo de potência também em implementações de hardware. Os problemas de consumo de potência e acesso à memória podem ser aliviados com o uso da abordagem baseada em Unidades de Acesso descritas no presente documento.

[319] O mecanismo de indexação de dados descrito na Tabela de índice Principal (consultar a Figura 21) juntamente com a utilização de Unidades de Acesso possibilita a atualização incremental do conteúdo codificado como descrito abaixo.

INSERÇÃO DE DADOS ADICIONAIS [320] Novas informações genômicas podem ser periodicamente adicionadas aos dados genômicos existentes por várias razões. Por exemplo, quando:

[321] · um organismo é sequenciado em diferentes momentos no tempo;

[322] · várias amostras diferentes do mesmo indivíduo são sequenciadas ao mesmo tempo;

[323] · novos dados gerados por um processo de sequenciamento (transmissão contínua).

[324] Nas situações mencionadas acima, a estruturação de dados com o uso das Unidades de Acesso descritas no presente documento e a estrutura de dados descrita na seção de formato de arquivo possibilita a integração incrementai dos dados recém-gerados sem a necessidade de recodificar os dados existentes. O processo de atualização incrementai pode ser implementado como a seguir:

[325] 1. As AUs recém-geradas podem simplesmente ser concatenadas no arquivo com as AUs pré-existentes e [326] 2. a indexação dos dados recém-gerados ou conjuntos de dados são incluídas na Tabela de índice Principal descrita na seção de formato de arquivo do presente documento. Um índice deve posicionar a AU recémgerada na sequência de referência existente, outros índices consistem em apontadores das AUs recém-geradas no arquivo físico para possibilitar o acesso direto e seletivo às mesmas.

[327] Esse mecanismo é ilustrado na Figura 40, em que os

Petição 870190034493, de 10/04/2019, pág. 114/165

42/58 dados pré-existentes codificados em 3 AUs de tipo 1 e 4 AUs por cada tipo de 2 a 4 são atualizadas com 3 AUs por tipo com dados de codificação provenientes, por exemplo, de um novo ciclo de sequência para o mesmo indivíduo.

[328] No caso de uso específico de transmissão contínua de dados genômicos e conjuntos de dados em forma comprimida, a atualização incremental de um conjunto de dados pré-existentes pode ser útil ao analisar dados assim que forem gerados por uma máquina de sequenciamento e antes que o sequenciamento em si seja concluído. Um mecanismo de codificação (compressor) pode montar várias AUs em paralelo “agrupando-se” as leituras de sequência que mapeiam na mesma região da sequência de referência selecionada. Uma vez que a primeira AU contém um número de leituras acima de um limiar/parâmetro pré-configurado, a AU está pronta para ser enviada ao aplicativo de análise. Juntamente com a Unidade de Acesso recém-codificada, o mecanismo de codificação (o compressor) deve assegurar que todas as Unidades de Acesso das quais a nova AU depende já foram enviadas para a extremidade de recebimento ou são enviadas juntamente com a mesma. Por exemplo, uma AU de tipo 3 irá exigir que as AUs adequadas de tipo 0 e de tipo 1 estejam presentes na extremidade de recebimento para ser adequadamente decodificada.

[329] Por meio do mecanismo descrito, um aplicativo de chamada de variante de recebimento podería começar a chamar as variantes na AU recebida antes que o processo de sequenciamento tenha sido concluído no lado de transmissão. Um esquema desse processo é representado na Figura 41.

NOVA ANÁLISE DE RESULTADOS [330] Durante o ciclo de vida de processamento de genoma, várias iterações de análise de genoma podem ser aplicadas nos mesmos dados (por exemplo, chamada de variante diferente com o uso de algoritmo de processamento diferente). O uso de AUs como definido no presente documento e a estrutura de dados descrita na seção de formato de arquivo do presente documento possibilitam a atualização incrementai de dados comprimidos existentes com os resultados da nova análise.

[331] Por exemplo, a nova análise realizada em dados

Petição 870190034493, de 10/04/2019, pág. 115/165

43/58 comprimidos existentes pode produzir novos dados nesses casos:

[332] 1. Uma nova análise pode modificar resultados existentes já associados aos dados codificados. Esse caso de uso é representado na Figura 42 e é implementado movendo-se total ou parcialmente o conteúdo de uma Unidade de Acesso de um tipo para outro. No caso de novas AUs precisarem ser criadas (devido a um tamanho máximo por AU predefinido), os índices relacionados na Tabela de índice Principal devem ser criados e o vetor relacionado é classificado quando necessário.

[333] 2. Novos dados são produzidos a partir da nova análise e precisam ser associados a dados codificados existentes. Nesse caso, as novas AUs de tipo 5 podem ser produzidas e concatenadas com o vetor existente de AUs do mesmo tipo. Isso e a atualização relacionada da Tabela de índice Principal são representados na Figura 43.

[334] Os casos de uso descritos acima e representados na Figura 42 e na Figura 43 são possibilitados por:

[335] 1. A possibilidade de ter acesso direto apenas a dados com qualidade de mapeamento insatisfatória (por exemplo, AUs de tipo 4);

[336] 2. A possibilidade de remapear leituras para uma nova região genômica criando-se simplesmente uma nova Unidade de Acesso que possivelmente pertence a um novo tipo (por exemplo, leituras incluídas em uma AU de Tipo 4 podem ser remapeadas para uma nova região com menos (tipo 2 a 3) incompatibilidades e incluídas em uma AU recém-criada);

[337] 3. A possibilidade para criar AU de tipo 6 contendo apenas os resultados de análise recém-criados e/ou anotações relacionadas. Nesse caso, as AUs recém-criadas exigem que contenha apenas “apontadores” para as AUs existentes às quais se referem.

TRANSCODIFICAÇÃO [338] Os dados genômicos comprimidos podem exigir transcodificação, por exemplo, nas seguintes situações:

[339] · Publicação de novas sequências de referência;

[340] · Uso de um algoritmo de mapeamento diferente (remapeamento).

[341] Quando os dados genômicos são mapeados em um genoma de referência público existente, a publicação de uma nova versão da

Petição 870190034493, de 10/04/2019, pág. 116/165

44/58 dita sequência de referência ou o desejo de mapear os dados com o uso de um algoritmo de processamento diferente, atualmente exige um processo de remapeamento. Ao remapear os dados comprimidos com o uso de formatos de arquivo da técnica anterior como SAM ou CRAM, a totalidade dos dados comprimidos deve ser descomprimida em sua forma “bruta” para ser mapeada novamente com referência à sequência de referência recém-disponível ou com o uso de um algoritmo de mapeamento diferente. Isso é verdadeiro mesmo se a referência recém-publicada for apenas ligeiramente diferente da anterior, ou se o algoritmo de mapeamento diferente usado produzir um mapeamento que é muito próximo (ou idêntico) ao mapeamento anterior.

[342] A vantagem de transcodificar dados genômicos estruturados com o uso de Unidades de Acesso descritas no presente documento é que:

[343] 1. O mapeamento versus um novo genoma de referência exige apenas recodificação (descompressão e compressão) dos dados de AUs que mapeiam nas regiões de genoma que têm alterações. Adicionalmente, o usuário pode selecionar aquelas leituras comprimidas que, por qualquer motivo, possam precisar ser remapeadas, mesmo se originalmente não mapeiam na região alterada (isso pode acontecer se o usuário acreditar que o mapeamento anterior é de qualidade insatisfatória). Esse caso de uso é representado na Figura 44.

[344] 2. No caso de o genoma de referência recém-publicado diferir do anterior apenas em termos de regiões inteiras deslocadas para localizações genômicas (“loci”) diferentes, a operação de transcod if i cação tem um resultado particularmente simples e eficaz. Na realidade, para mover todas as leituras mapeadas para a região “deslocada”, é suficiente alterar apenas o valor da posição absoluta contida no cabeçalho de (conjunto de) AU (ou AUs) relacionado. Cada cabeçalho de AU contém a posição absoluta para a qual a primeira leitura contida na AU é mapeada na sequência de referência, enquanto todas as outras posições de leituras são codificadas de modo diferente em relação à primeira. Portanto, atualizando-se simplesmente o valor da posição absoluta da primeira leitura, todas as leituras na AU são movidas em conformidade. Esse mecanismo não pode ser implementado por abordagens do estado da técnica como CRAM e BAM, visto que as posições

Petição 870190034493, de 10/04/2019, pág. 117/165

45/58 de dados de genoma são codificadas na carga de trabalho comprimida, exigindo, assim, a descompressão e recompressão completas de todos os conjuntos de dados de genoma.

[345] 3. Quando um algoritmo de mapeamento diferente é usado, é possível aplicar o mesmo apenas em uma porção de leituras comprimidas que foi considerada mapeada com qualidade insatisfatória. Por exemplo, pode ser adequado aplicar o novo algoritmo de mapeamento apenas em leituras que não corresponderam perfeitamente ao genoma de referência. Com formatos existentes atualmente, não é possível (ou é apenas parcialmente possível, com algumas limitações) extrair leituras de acordo com sua qualidade de mapeamento (isto é, a presença e o número de incompatibilidades). Se novos resultados de mapeamento forem retornados pelas novas ferramentas de mapeamento, as leituras relacionadas podem ser transcodificadas a partir de uma AU de outra do mesmo tipo (Figura 46) ou a partir de uma AU de um tipo para uma AU de outro tipo (Figura 45).

[346] Ademais, as soluções de compressão da técnica anterior podem precisar acessar e processar uma grande quantidade de dados comprimidos antes que os dados genômicos desejados possam ser acessados. Isso irá causar uma utilização de largura de banda de RAM ineficaz e mais consumo de potência e implementações de hardware. Os problemas de consumo de potência e acesso à memória podem ser aliviados com o uso da abordagem baseada em Unidades de Acesso descritas no presente documento.

[347] Uma vantagem adicional da adoção das unidades de acesso genômicas descritas no presente documento é a facilitação de processamento paralelo e adequabilidade para implementações de hardware. As soluções atuais como SAM/BAM e CRAM são concebidas para implementação de software de linha única.

CRIPTOGRAFIA SELETIVA [348] A abordagem baseada em Unidades de Acesso organizada em vários tipos e camadas como descrito no presente documento possibilita a implementação de mecanismos de proteção de conteúdo, de outro modo, não possíveis com as soluções monolíticas do estado da técnica.

[349] Uma pessoa versada na técnica sabe que a maioria das

Petição 870190034493, de 10/04/2019, pág. 118/165

46/58 informações genômicas relacionadas ao perfil genético de um organismo dependem das diferenças (variantes) em relação a uma sequência conhecida (por exemplo, um genoma de referência ou uma população de genomas). Um perfil genético individual a ser protegido de acesso não autorizado, portanto, será codificado nas Unidades de Acesso de tipo 3 e 4 como descrito no presente documento. A implementação de acesso controlado às informações genômicas mais sensíveis produzidas por um processo de sequenciamento e análise, portanto, pode ser realizada criptografando-se apenas a carga de trabalho de AUs de tipo 3 e 4 (consultar a Figura 47 para um exemplo). Isso irá gerar economias significativas em termos tanto de potência de processamento quanto de largura de banda, visto que o processo de criptografia de consumo de recursos deve ser aplicado em um subconjunto de dados apenas.

TRANSPORTE DE UNIDADES DE ACESSO GENÔMICAS MULTIPLEXAÇÃO DE DADOS GENÔMICOS [350] As Unidades de Acesso Genômicas podem ser transportadas através de uma rede de comunicação dentro de uma Multiplexação de Dados Genômicos. Uma Multiplexação de Dados Genômicos é definida como uma sequência de dados genômicos empacotados e metadados representados de acordo com a classificação de dados revelada como parte da presente invenção, transmitidos em ambientes de rede em que os erros, como perdas de pacote, podem ocorrer.

[351] A Multiplexação de Dados Genômicos é concebida para facilitar e tornar mais eficaz o transporte de dados codificados genômicos através de diferentes ambientes (tipicamente ambientes de rede) e tem as seguintes vantagens não presentes em soluções do estado da técnica:

[352] 1. possibilita o encapsulamento de uma corrente ou uma sequência de dados genômicos (descrito abaixo) ou Formato de Arquivo Genômico gerado por uma ferramenta de codificação em uma ou mais Multiplexações de Dados Genômicos, para portar a mesma através de um ambiente de rede e, então, recuperar uma corrente ou formato de arquivo válido e idêntico para tornar a transmissão e o acesso às informações mais eficaz [353] 2. Possibilita a recuperação seletiva de dados genômicos codificados a partir de Correntes de Dados Genômicos encapsulados, para

Petição 870190034493, de 10/04/2019, pág. 119/165

47/58 decodificação e apresentação.

[354] 3. Possibilita a multiplexação de vários Conjuntos de Dados Genômicos em um único recipiente de informações para transportar e possibilita a desmultiplexação de um subconjunto das informações portadas para uma nova Multiplexação de Dados Genômicos.

[355] 4. Possibilita a multiplexação de dados e metadados produzidos por diferentes fontes (com o acesso separado consequente) e/ou processos de sequenciamento/análise e a transmissão da Multiplexação de Dados Genômicos resultante através de um ambiente de rede.

[356] 5. Suporta a identificação de erros como perdas de pacote.

[357] 6. Suporta os dados de reordenação adequada que podem chegar fora de ordem devido a atrasos de rede, portanto, tornando mais eficaz a transmissão de dados genômicos em comparação com as soluções do estado da técnica [358] Um exemplo de multiplexação de dados genômicos é mostrado na Figura 49.

CONJUNTO DE DADOS GENÔMICOS [359] No contexto da presente invenção, um Conjunto de Dados Genômicos é definido como um conjunto estruturado de Dados Genômicos incluindo, por exemplo, dados genômicos de um organismo vivo, uma ou mais sequências e metadados gerados por várias etapas de processamento de dados genômicos, ou o resultado do sequenciamento genômico de um organismo vivo. Uma Multiplexação de Dados Genômicos pode incluir múltiplos Conjuntos de Dados Genômicos (como em uma situação de múltiplos canais), em que cada conjunto de dados se refere a um organismo diferente. O mecanismo de multiplexação dos vários conjuntos de dados em uma única Multiplexação de Dados Genômicos é governado por informações contidas em estruturas de dados chamadas de Lista de Conjunto de Dados Genômicos (GDL) e Tabela de Mapeamento de Conjunto de Dados Genômicos (GDMT).

LISTA DE CONJUNTO DE DADOS GENÔMICO [360] Uma Lista de Conjunto de Dados Genômicos (GDL) é definida como uma estrutura de dados que lista todos os Conjuntos de Dados Genômicos disponíveis em uma Multiplexação de Dados Genômicos. Cada um dentre os Conjuntos de Dados Genômicos listados é identificado por um valor

Petição 870190034493, de 10/04/2019, pág. 120/165

48/58 exclusivo chamado de ID de Conjunto de Dados Genômicos (GID).

[361] Cada Conjunto de Dados Genômicos listado na GDL é associado a:

[362] · uma Corrente de Dados Genômicos que porta uma Tabela de Mapeamento de Conjunto de Dados Genômicos (GDMT) e identificada por um valor específico de ID de Corrente (genomic_dataset_map_SID);

[363] · uma Corrente de Dados Genômicos que porta uma Tabela de Mapeamento de ID de Referência (RIDMT) e identificada por um valor específico de ID de Corrente (reference_id_map_SID).

[364] A GDL é enviada como carga de trabalho de um único Pacote de Transporte no início de uma transmissão de Corrente de Dados Genômicos; a mesma, então, pode ser periodicamente retransmitida para possibilitar o acesso aleatório à Corrente.

[365] A sintaxe da estrutura de dados de GDL é fornecida na tabela abaixo, com uma indicação do tipo de dados associados a cada elemento de sintaxe.

Sintaxe	Tipo de dados
genomic_dataset_list() {
listjength	bitstring
multi plexjd	bitstring
version_number	bitstring
applicable_section_flag	bit
list—ID	bitstring
for (i = 0; I < N; i++) {	N = número de Conjuntos de Dados Genômicos nessa Multiplexação Genômica
genomic_dataset_ID	bitstring
ge n o m i c_dataset_m ap_S 1D	bitstring
reference_id_map_SID	bitstring
}
CRC_32	bitstring
}

[366] Os elementos de sintaxe que compõem a GDL descrita

Petição 870190034493, de 10/04/2019, pág. 121/165

49/58 acima têm o seguinte significado e função.

sectionjength	campo de linha de bits, especificar o número de bytes que compõem a seção, a começar imediatamente após o campo de sectionjength, e incluindo o CRC.
multi plexjd	campo de linha de bits, que serve como um rótulo para identificar essa corrente multiplexada a partir de qualquer outra multiplexação dentro de uma rede.
version_number	campo de linha de bits, indicando o número da versão da Seção de Lista de Conjunto de Dados Genômicos inteira. 0 número de versão deve ser incrementado por 1 sempre que a definição da Tabela de Mapeamento de Conjunto de Dados Genômicos for alterada. Ao atingir o valor 127, retorna ao 0. Quando applicable_sectionjlag é definido como 1, então, o version_number deve ser aquele da Lista de Conjunto de Dados Genômicos atualmente aplicável. Quando applicable_sectionjlag é definido como 0, então, o version_number deve ser aquele da Lista de Conjunto de Dados Genômicos aplicável em seguida.
applicable_section _fiag	Um indicador de 1 bit, que, quando definido em 1 indica que a Tabela de Mapeamento de Conjunto de Dados Genômicos enviada é atualmente aplicável. Quando o bit é definido em 0, o mesmo indica que a tabela enviada ainda não aplicável e deve ser a próxima tabela a se tornar válida.
list—ID	Esse é um campo de linha de bits que identifica a lista de conjunto de dados genômicos atual.
genomic_dataset_ ID	genomic_datasetJD é um campo de linha de bits que especifica o conjunto de dados genômicos ao qual o genomic_dataset_map_SID é aplicável. Esse campo não deve tomar nenhum valor único mais de uma vez dentro de uma versão da Tabela de Mapeamento de Conjunto de Dados Genômicos.
genomic_dataset_ map_SID	genomic_dataset_map_SID é um campo de linha de bits que identifica a Corrente de Dados Genômicos que porta a Tabela de Mapeamento de Conjunto de Dados Genômicos (GDMT) associada a esse Conjunto de Dados Genômicos. Nenhum genomic_datasetJD deve ter mais de um genomic_dataset_map_SID associado. O valor do genomic_dataset_map_SID é definido pelo usuário.
reference_id_map _SI D	referenceJd_map_SID é um campo de linha de bits que identifica a Corrente de Dados Genômicos que porta a Tabela de Mapeamento de ID de Referência (RIDMT) associada a esse Conjunto de Dados Genômicos. Nenhum genomic_datasetJD deve ter mais de um referenceJd_map_SID associado. O valor do referenceJd_map_SID é definido pelo usuário.

Petição 870190034493, de 10/04/2019, pág. 122/165

50/58

CRC_32

Esse é um campo de linha de bits que contém um valor de verificação de integridade para a GDL inteira. Um algoritmo típico usado para esse propósito e função é o algoritmo CRC32 que produz um valor de 32 bits.

TABELA DE MAPEAMENTO DE CONJUNTO DE DADOS GENÔMICOS [367] A Tabela de Mapeamento de Conjunto de Dados Genômicos (GDMT) é produzida e transmitida no início de um processo de transmissão contínua (e possivelmente retransmitida periodicamente, atualizada ou idêntica para possibilitar a atualização de pontos de correspondência e as dependências relevantes nos dados continuamente transmitidos). A GDMT é portada por um único Pacote após a Lista de Conjunto de Dados Genômicos e lista os SIDs que identificam as Correntes de Dados Genômicos que compõem um Conjunto de Dados Genômicos. A GDMT é a coleção completa de todos os identificadores de Correntes de Dados Genômicos (por exemplo, a sequência genômica, o genoma de referência, metadados, etc) que compõem um Conjunto de Dados Genômicos portado por uma Multiplexação Genômica. Uma tabela de mapeamento de conjunto de dados genômicos é instrumental para possibilitar o acesso aleatório às sequências genômicas fornecendo-se o identificador da corrente de dados genômicos associados a cada conjunto de dados genômicos.

[368] A sintaxe da estrutura de dados de GDMT é fornecida na tabela abaixo, com uma indicação do tipo de dados associados a cada elemento de sintaxe.


genomic_dataset_mapping_table() {
tablejength	bitstring
genomic_dataset_ID	bitstring
version_number	bitstring
applicable_section_flag	bit
mapping_table_ID	bitstring
genomic_dataset_ef_length	bitstring
for (i=0; i<N; i++) {	N = número de campos de extensão

Petição 870190034493, de 10/04/2019, pág. 123/165

51/58

	associados a esse Conjunto de Dados Genômicos
extension_field()	estrutura de dados
}
for (i = 0;i < Μ ; i++) {	M = número de Correntes de Dados Genômicos associadas a esse Conjunto de dados específico
data_type	bitstring
genomic_data_SID	bitstring
gd_component_ef_length	bitstring
for (1 = 0; 1 < K; i++) {	K = número de campos de extensão associados a cada Corrente de Dados Genômicos
extension_field ()	estrutra de dados
}
}
CRC-32	bitstring
}

[369] Os elementos de sintaxe que compõem a GDMT descrita acima têm o seguinte significado e função.

version_number, applicable_section_flag	Esses elementos têm o significado igual àquele para a GDL
tablejength,	campo de linha de bits que especifica o número de bytes que compõem a tabela, a começar após o campo tablejength, e incluindo o campo CRCJ32.
genomic_dataset_ID	campo de linha de bits que identifica um Conjunto de Dados Genômicos
mapping_table_ID	campo de bit de linha de bits que identifica a Tabela de Mapeamento de Conjunto de Dados Genômicos atual
genomic_dataset_ef_length	campo de linha de bits que especifica o número de bytes do extensionjield opcional associado a esse Conjunto de Dados Genômicos
data_type	campo de linha de bits que especifica o tipo de dados genômicos portado pelos pacotes identificados pelo genomic_data_SID.
genomic_data_SID	campo de bit de linha de bits que especifica o ID de Corrente dos pacotes que portam os dados genômicos codificados associados a um

Petição 870190034493, de 10/04/2019, pág. 124/165

52/58

	componente desse Conjunto de Dados Genômicos (por exemplo, posições de leitura p, informações de emparelhamento de leitura p etc. como definido na presente invenção)
gd_component_ef_length	campo de linha de bits que especifica o número de bytes do extension_field opcional associado à Corrente genômica identificada por genomic_data_SID.
CRC_32	Esse é um campo de linha de bits que contém um valor de verificação de integridade para a GDMT inteira. Um algoritmo típico usado para esse propósito e função é o algoritmo CRC32 que produz um valor de 32 bits.

[370] extension_fields são descritores opcionais que podem ser usados para descrever adicionalmente um Conjunto de Dados Genômicos ou um componente de Conjunto de Dados Genômicos.

TABELA DE MAPEAMENTO DE ID DE REFERÊNCIA [371] A Tabela de Mapeamento de ID de Referência (RIDMT) é produzida e transmitida no início de um processo de transmissão contínua. A RIDMT é portada por um único Pacote após a Lista de Conjunto de Dados Genômicos. A RIDMT especifica um mapeamento entre os identificadores numéricos de sequências de referência (REFID) contidas no cabeçalho de Bloco de uma unidade de acesso e os identificadores de referência (tipicamente literais) contidos no cabeçalho principal especificado na Tabela 1.

[372] A RIDMT pode ser periodicamente retransmitida para:

[373] · possibilitar a atualização de pontos de correspondência e as dependências relevantes nos dados continuamente transmitidos, [374] · suportar a integração de novas sequências de referência adicionadas às pré-existentes (por exemplo, referências sintéticas criadas por processos de montagem tipo de-novo) [375] A sintaxe da estrutura de dados de RIDMT é fornecida na tabela abaixo, com uma indicação do tipo de dados associados a cada elemento de sintaxe.

Sintaxe	Tipo de dados
reference_id_mapping_table() {
tablejength	bitstring

Petição 870190034493, de 10/04/2019, pág. 125/165

53/58

genomic_dataset_ID	bitstring
version_number	bitstring
applicable_section_flag	bit
reference_id_mapping_table_l D	bitstring
for (i = 0; i < N; i++) {	N = número de sequências de referência associadas ao Conjunto de Dados Genômicos identificados por genomic_dataset_ID
ref_string_length	bitstring
for (i=O;i<ref_string_length;i++){
ref_string[i]	byte
}
REFID	bitstring
}
CRC-32	bitstring
}

[376] Os elementos de sintaxe que compõem a RIDMT descrita acima têm o seguinte significado e função.

tablejength, genomic_dataset_ID, version_number, applicable_section_flag	Esses elementos têm o significado igual àquele para a GDMT
reference_id_mapping_table_ID	campo de linha de bits que identifica a Tabela de Mapeamento de ID de Referência atual
ref_string_length	campo de linha de bits que especifica o número de caracteres (bytes) que compõem ref_string, excluindo o caractere da extremidade da linha (‘\0’).
ref_string[i]	campo de byte que codifica cada caractere da representação de linha de uma sequência de referência (por exemplo, “chr1” para o cromossomo 1). 0 caractere de extremidade de linha (‘\0’) não é necessário, visto que é implicitamente inferido a partir do campo ref_string_length
REFID	Esse é um campo de linha de bits que identifica exclusivamente uma sequência de referência. Isso é codificado no cabeçalho de Bloco de dados como

Petição 870190034493, de 10/04/2019, pág. 126/165

54/58

	campo de REFID.
CRC_32	Esse é um campo de linha de bits que contém um valor de verificação de integridade para a RIDMT inteira. Um algoritmo típico usado para esse propósito e função é o algoritmo CRC32 que produz um valor de 32 bits.

CORRENTE DE DADOS GENÔMICOS [377] Uma Multiplexação de Dados Genômicos contém uma ou várias Correntes de Dados Genômicos, em que cada corrente pode transportar [378] · estruturas de dados contendo informações de transporte (por exemplo, Lista de Conjunto de Dados Genômicos, Tabela de Mapeamento de Conjunto de Dados Genômicos etc.) [379] · dados pertencentes a uma das Camadas de Dados Genômicos descritas na presente invenção.

[380] · Metadados relacionados aos dados genômicos [381] · Quaisquer outros dados [382] Uma Corrente de Dados Genômicos contendo dados genômicos é essencialmente uma versão empacotada de uma Camada de Dados Genômicos, em que cada pacote é prefixado com um cabeçalho que descreve o conteúdo do pacote e como o mesmo é relacionado a outros elementos da Multiplexação.

[383] O formato de Corrente de Dados Genômicos descrito no presente documento e o Formato de Arquivo definidos na presente invenção são mutuamente conversíveis. Enquanto o formato de arquivo total pode ser reconstruído totalmente apenas após todos os dados terem sido recebidos, no caso de transmissão contínua, uma ferramenta de decodificação pode reconstruir e acessar, e iniciar o processamento dos dados parciais a qualquer momento.

[384] Uma Corrente de Dados Genômicos é composta por vários Blocos de Dados Genômicos, cada um contendo um ou mais Pacotes de Dados Genômicos. Os Blocos de Dados Genômicos (GDBs) são recipientes de informações genômicas que compõem uma AU genômica. Os GDB podem ser divididos em vários Pacotes de Dados Genômicos, de acordo com as

Petição 870190034493, de 10/04/2019, pág. 127/165

55/58 exigências do canal de comunicação.

[385] As unidades de acesso genômicas são compostas por um ou mais Blocos de Dados Genômicos pertencentes a diferentes Correntes de Dados Genômicos.

[386] Os Pacotes de Dados Genômicos (GDPs) são unidades de transmissão que compõem um GDB. O tamanho de pacote é tipicamente definido de acordo com as exigências do canal de comunicação.

[387] A Figura 27 mostra a relação entre a Multiplexação Genômica, Correntes, Unidades de Acesso, Blocos e Pacotes ao codificar dados pertencentes à classe P, como definido na presente invenção. Nesse exemplo, três Correntes Genômicas encapsulam informações sobre a posição, o emparelhamento e complemento reverso de leituras de sequência.

[388] Os Blocos de Dados Genômicos são compostos por um cabeçalho, uma carga de trabalho de dados comprimidos e informações de preenchimento.

[389] A tabela abaixo fornece um exemplo de implementação de um cabeçalho de GDB com uma descrição de cada campo e um tipo de dados típico.

Tipo de dados	Descrição	Tipo de dados
Prefixo de Código Inicial de Bloco (BSCP)	0 valor reservado usado para identificar de modo não ambíguo o início de um Bloco de Dados Genômicos.	bitstring
Identificador de Formato (Fl)	Identifica de modo não ambíguo a Camada de Dados Genômicos à qual o bloco pertence.	bitstring
Sinalizador de POS (PSF)	Se o Sinalizador de POS for definido, o bloco contém o campo de POS de 40 bits na extremidade do cabeçalho de bloco e antes dos campos opcionais.	bit
Sinalizador de Preenchime nto (PDF)	Se o Sinalizador de Preenchimento for definido, o bloco contém bytes de preenchimento adicionais após a carga de trabalho, os quais não são parte da carga de trabalho.	bit
Tamanho de Bloco (BS)	0 número de bytes que compõem o bloco, incluindo esse cabeçalho e a carga de trabalho, e excluindo o	bitstring

Petição 870190034493, de 10/04/2019, pág. 128/165

56/58

	preenchimento (o tamanho de bloco total será BS + tamanho de preenchimento).
ID de Unidade de Acesso (AUID)	O ID não ambíguo, crescente linearmente (não necessariamente por 1, embora seja recomendado). É necessário implementar acesso aleatório adequado, como descrito na Tabela de índice Principal definida na presente invenção.	bitstring
(Opcional) ID de Referência (REFID)	ID não ambíguo, que identifica a sequência de referência à qual a AU que contém esse bloco se refere. Isso é necessário, juntamente com o campo de POS, para ter acesso aleatório adequado, como descrito na Tabela de índice Principal.	bitstring
(Opcional) POS (POS)	Presente se PSF for 1. Posição na sequência de referência da primeira leitura no bloco.	bitstring
(Campos opcionais extras)	Campos opcionais adicionais, presença sinalizada por BS.	linha de bytes
Carga de trabalho	Bloco de informações genômicas codificadas (elementos de sintaxe como descrito na presente invenção	linha de bytes
(Opcional) Preenchime nto	(Opcional, presença sinalizada por PDF) Valor de linha de bits fixo que pode ser inserido para satisfazer as exigências de canal. Se estiver presente, o primeiro byte indica quantos bytes compõem o preenchimento. É descartado pelo decodificador.	bitstring

[390] O uso de AUID, POS e BS possibilita que o decodificador reconstrua os dados indexando mecanismos mencionadas como a Tabela de índice Principal (MIT) e a Tabela de índice Local (LIT) na presente invenção. Em uma situação de transmissão contínua de dados o uso de AUID e BS possibilita que a extremidade de recebimento recrie dinamicamente uma LIT localmente, sem a necessidade de enviar dados extras. O uso de AUID, BS e POS irá possibilitar a recriação de uma MIT localmente sem a necessidade de enviar dados adicionais.

[391 ] Isso tem a vantagem técnica de [392] · reduzir a sobrecarga de codificação que pode ser grande se a LIT inteira for transmitida;

[393] · evitar a necessidade de um mapeamento completo entre as posições genômicas e as Unidades de Acesso que não são normalmente

Petição 870190034493, de 10/04/2019, pág. 129/165

57/58 disponíveis em uma situação de transmissão contínua [394] Um Bloco de Dados Genômicos pode ser dividido em um ou mais Pacotes de Dados Genômicos, dependendo das restrições de camada de rede como tamanho máximo de pacote, taxa de perda de pacote, etc. Um Pacote de Dados Genômicos é composto por um cabeçalho e uma carga de trabalho de dados genômicos codificados ou criptografados como descrito na tabela abaixo.

Tipo de dados	Descrição	Tamanho de dados
ID de Corrente (SID)	Identifica de modo não ambíguo o tipo de dados portados por esse pacote. Uma Tabela de Mapeamento de Conjunto de Dados Genômicos é necessária no inicio da corrente para mapear os IDs de Corrente para tipos de dados. Também usada para atualizar os pontos de correspondência e dependências relevantes.	bitstring
Bit Marcador de Unidade de Acesso (MB)	Definido para o último pacote da unidade de acesso. Permite identificar o último pacote de uma AU.	bit
Número de Contador de Pacote (SN)	Contador associado a cada ID de Corrente crescente linearmente por 1. Necessário para identificar vãos/perdas de pacote. Retorna a 255.	bitstring
Tamanho de Pacote (PS)	Número de bytes que compõem o pacote, incluindo o cabeçalho, campos opcionais e carga de trabalho.	bitstring
Sinalizador de Extensão (EF)	Definido se os campos de extensão estiverem presentes.	bit
Campos de Extensão	Campos de opcionais, presença sinalizada por PS.	linha de bytes
Carga de trabalho	Dados de bloco (bloco inteiro ou fragmento)	linha de bytes

[395] A Multiplexação Genômica pode ser adequadamente decodificada apenas quando pelo menos uma Lista de Conjunto de Dados

Petição 870190034493, de 10/04/2019, pág. 130/165

58/58

Genômicos, uma Tabela de Mapeamento de Conjunto de Dados Genômicos e uma Tabela de Mapeamento de ID de Referência foram recebidas, permitindo mapear todo pacote a um componente específico de Conjunto de Dados Genômicos.

PROCESSO DE CODIFICAÇÃO DE MULTIPLEXAÇÃO [396] A Figura 49 mostra como antes de ser transformado nas estruturas de dados apresentadas na presente invenção, os dados brutos de sequência genômica precisam ser mapeados em uma ou mais sequências de referência conhecidas anteriormente (493). No caso de uma sequência de referência não estar disponível, uma referência sintética pode ser construída a partir dos dados de sequência brutos (490). Esse processo é conhecido como montagem tipo de-novo. Os dados já alinhados podem ser realinhados para reduzir a entropia de informações (492). Após o alinhamento, um classificador genômico (494) cria as classes de dados de acordo com uma função correspondente das leituras de sequência em uma ou mais sequências de referência e separa metadados (432) (por exemplo, valores de qualidade) e dados de anotação (431) das sequências genômicas. Um avaliador de dados (495) gera, então, as Unidades de Acesso descritas na presente invenção e envia as mesmas para o Multiplexador Genômico (496), que gera a Multiplexação Genômica.

Claims

REIVINDICAÇÕES

1. Método para a transmissão de dados genômicos como correntes de dados multiplexadas que compreende uma estrutura de dados de lista de conjunto de dados genômicos (481) para fornecer uma lista de todos os conjuntos de dados genômicos (482 a 483), em que os ditos conjuntos de dados genômicos compreendem dados genômicos disponíveis nas correntes genômicas (484);

uma estrutura de dados de tabela de mapeamento de conjunto de dados genômicos (485) para fornecer o identificador de cada corrente dos ditos dados genômicos associados a cada conjunto de dados genômicos (482 a 483);

e conjuntos de dados genômicos particionados em unidades de acesso aleatoriamente acessíveis (486) em que as ditas correntes genômicas (484) compreendem leituras alinhadas codificadas organizadas em múltiplas camadas de descritores de dados homogêneos para representar inequivocamente leituras de sequência de genoma em que, em uma camada (pos) é armazenada a posição de mapeamento da primeira leitura como a posição absoluta em relação ao genoma de referência e todas as outras posições são expressadas como uma diferença em relação à posição anterior e são armazenadas em uma camada específica sendo que o dito método é caracterizado pelo fato de que compreende adicionalmente a compressão das ditas camadas de descritores de dados homogêneos e a transmissão das ditas correntes de dados.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende adicionalmente uma tabela de mapeamento de ID de referência (487) para fornecer o mapeamento entre os identificadores numéricos das sequências de referências contidas em um cabeçalho de bloco (291) das ditas unidades de acesso (486) e os identificadores de referência contidos no cabeçalho principal (488) da corrente.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato

Petição 870190034493, de 10/04/2019, pág. 162/165

2/3 de que o dito conjunto de dados genômicos é particionado em unidades de acesso.
4. Método, de acordo com a reivindicação 3, caracterizado pelo fato de que as ditas unidades de acesso são particionadas em blocos (489).
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que os ditos blocos são particionados em pacotes (4810).
6. Método, de acordo com qualquer uma das reivindicações anteriores, caracterizado pelo fato de que a dita lista de conjunto de dados genômicos compreende informações para identificar a corrente associada a cada conjunto de dados genômicos e a ser multiplexado na corrente multi plexada.
7. Método, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que a dita tabela de mapeamento de conjunto de dados genômicos compreende informações para identificar os pontos de correspondência e dependências relevantes entre as várias correntes multi plexadas.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que as ditas várias correntes multiplexadas compreendem: a sequência genômica, a sequência genômica de referência e metadados.
9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a dita tabela de mapeamento de conjunto de dados genômicos é transmitida em um único pacote após a lista de conjunto de dados genômicos.
10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que a dita tabela de mapeamento de conjunto de dados genômicos é periodicamente retransmitida ou atualizada para atualizar os pontos de correspondência e as dependências relevantes nos dados de corrente.
11. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a dita lista de dados genômicos (481) é enviada como carga de trabalho de um único pacote de transporte.
12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a dita lista de dados genômicos é periodicamente retransmitida para possibilitar o acesso aleatório à corrente.
13. Aparelho para a transmissão de dados genômicos

Petição 870190034493, de 10/04/2019, pág. 163/165

3/3 multiplexados caracterizado pelo fato de que compreende meios adequados para executar o método, de acordo com as reivindicações 1 a 12.
14. Dispositivo de armazenamento caracterizado pelo fato de que armazena dados genômicos comprimidos em conformidade com o método, de acordo com as reivindicações 1 a 12.
15. Mídia de registro legível por computador caracterizado pelo fato de que tem, registrado na mesma, um programa que compreende conjuntos de instruções para executar o método, de acordo com a reivindicações 1 a 12.
16. Método, de acordo com as reivindicações 1 a 12, caracterizado pelo fato de que os dados são organizados de modo a formar um formato de arquivo.
17. Aparelho para receber dados genômicos caracterizado pelo fato de que compreende meios para demultiplexar uma corrente de dados genômicos, em que a dita corrente é transmitida em conformidade com o método, de acordo com as reivindicações 1 a 12.
18. Sistema para a transmissão de dados genômicos multiplexados caracterizado pelo fato de que compreende um aparelho para transmissão e um aparelho de recebimento, de acordo com as reivindicações 13 e 17.