BR112020024028A2 - método e sistema para gerar um genoma de referência baseado em grafo anotado e genoma de referência baseado em grafo anotado - Google Patents

método e sistema para gerar um genoma de referência baseado em grafo anotado e genoma de referência baseado em grafo anotado Download PDF

Info

Publication number
BR112020024028A2
BR112020024028A2 BR112020024028-1A BR112020024028A BR112020024028A2 BR 112020024028 A2 BR112020024028 A2 BR 112020024028A2 BR 112020024028 A BR112020024028 A BR 112020024028A BR 112020024028 A2 BR112020024028 A2 BR 112020024028A2
Authority
BR
Brazil
Prior art keywords
reference genome
allele
information
version
graph
Prior art date
Application number
BR112020024028-1A
Other languages
English (en)
Inventor
Yong Mao
Kostyantyn Volyanskyy
Nevenka Dimitrova
Original Assignee
Koninklijke Philips N.V.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips N.V. filed Critical Koninklijke Philips N.V.
Publication of BR112020024028A2 publication Critical patent/BR112020024028A2/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Data Mining & Analysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Trata-se de um método (100) para gerar um genoma de referência com base em grafo, que compreende: (i) receber (120) uma ou mais versões mais antigas de um genoma de referência atual, cada uma compreendendo uma pluralidade de nós que identificam a versão do genoma de referência e uma localização do respectivo nó dentro dessa versão; (ii) alinhar (130) cada versão mais antiga do genoma de referência ao genoma de referência atual para gerar um genoma de referência com base em grafo, sendo que o alinhamento é baseado nas informações de localização; (iii) extrair (140), de uma coleção de referências, um alelo e informações contextuais associadas ao alelo, sendo que a respectiva referência identifica a versão do genoma de referência e uma localização do alelo dentro da versão; e (iv) mapear (150) as informações do alelo e informações contextuais associadas em um nó do genoma de referência com base em grafo, com base na versão identificada do genoma de referência e a localização do alelo extraído dentro dessa versão.

Description

MÉTODO E SISTEMA PARA GERAR UM GENOMA DE REFERÊNCIA BASEADO EM GRAFO ANOTADO E GENOMA DE REFERÊNCIA BASEADO EM GRAFO ANOTADO CAMPO DA INVENÇÃO
[001] A presente revelação é direcionada genericamente a métodos e sistemas para gerar um genoma de referência baseado em grafo anotado.
ANTECEDENTES DA INVENÇÃO
[002] A genômica pessoal é um aspecto cada vez mais importante da área de saúde. Devido à maturidade emergente da tecnologia de sequenciamento, novas aplicações são continuamente propostas para informações genômicas pessoais. Essas novas aplicações são tipicamente destinadas a identificar opções terapêuticas e/ou adaptar opções terapêuticas para um determinado paciente com base no perfil pessoal do paciente compreendendo tanto informações genéticas (como informações de sequenciamento, metilação, transcriptoma e/ou outras informações genômicas/genéticas) e um perfil clínico (como idade, sexo, diagnóstico, condição, histórico e/ou outras informações clínicas).
[003] Embora a obtenção de um perfil genômico seja cada vez mais acessível, a interpretação dos resultados de um perfil genômico é geralmente muito mais caro devido à falta de conhecimento acumulado ou disponível. Desde que os primeiros sequenciadores começaram a obter informações genéticas, uma coleção de literatura médica muito mais ampla foi gerada para explicar as funções biomédicas e frequências de mutação para diversas populações. Embora haja uma enorme coleção de informação, não existe uma metodologia ou estrutura simples ou eficiente para alinhar a coleção de informações.
[004] Por exemplo, a literatura publicada no início da década de 2000 usava uma versão inicial do genoma de referência humano, enquanto publicações recentes podem usar uma versão recente como GRCH37 ou GRCH38. Uma mutação discutida em 2005 e em 2015 pode corresponder a diferentes coordenadas ao longo de diferentes genomas de referência. Consequentemente, para interpretar a função de uma mutação ou priorizar mutações, é normalmente uma exigência que um pesquisador ou clínico acumule e analise literatura médica manualmente. Isso é especialmente verdadeiro ao identificar causas de casos de doenças raras. Se fosse possível para acumular literatura e referências relevantes de todas as diferentes versões de um genoma de referência em torno de um diagnóstico ou fenótipo específico, a medicina personalizada seria significativamente melhorada.
[005] Um único genoma de referência linear ou monoploidia é uma estrutura de referência universal insuficiente de um genoma de referência porque representa apenas uma pequena fração de variação e apenas durante um período de tempo no qual a versão específica do genoma de referência é usada. Para apoiar as alterações feitas ao longo de um genoma de referência e aguardando futuras versões do genoma, um genoma de referência com base em grafo fornece uma estrutura abrangente para alinhar o conhecimento no nível de alelos. Um genoma de referência com base em grafo tem a capacidade de integrar polimorfismos e mutações através das populações e indivíduos únicos, entre muitos outros benefícios.
SUMÁRIO DA INVENÇÃO
[006] Há uma necessidade contínua por ferramentas e métodos que possibilitem a coleta e a organização de literatura sobre versões anteriores de um genoma de referência em uma versão atual baseada em grafo do genoma de referência.
[007] A presente revelação é direcionada a métodos e sistemas da invenção para gerar um genoma de referência baseado em grafo anotado. Várias modalidades e implementações na presente invenção são direcionadas a um sistema que permite a comunicação de alelo e informações contextuais organizadas a partir de uma pluralidade de versões de um genoma de referência. O sistema se alinha versões mais antigas de um genoma de referência em uma versão atual do genoma de referência para criar um genoma de referência com base em grafo. O genoma de referência com base em grafo inclui nós com informações sobre a localização anterior dos nós nas versões mais antigas do genoma de referência. O sistema então extrai ou recebe informações de literatura científica sobre um alelo e informações contextuais associadas a esse alelo, incluindo informações sobre em qual versão antiga do genoma de referência o alelo foi identificado e a localização do alelo nessa versão antiga do genoma de referência. As informações do alelo extraído e informações contextuais associadas são então mapeadas no genoma de referência com base em grafo pesquisando no genoma de referência com base em grafo por um nó que compreenda a versão extraída do genoma de referência e a localização extraída.
[008] De modo geral, em um aspecto, é fornecido um método para gerar um genoma de referência baseado em grafo anotado. O método inclui: (i) receber uma ou mais versões de um genoma de referência, sendo versões mais antigas de um genoma de referência atual, sendo que cada uma dentre a uma ou mais versões do genoma de referência compreende uma pluralidade de nós, dos quais pelo menos alguns compreendem informações que identificam a versão do genoma de referência e uma localização dentro dessa versão do genoma de referência para o respectivo nó; (ii) alinhar cada uma dentre a uma ou mais versões mais antigas do genoma de referência ao genoma de referência atual para gerar um genoma de referência com base em grafo, sendo que o alinhamento é baseado, pelo menos em parte, nas informações de localização dos nós da versão mais antiga recebida do genoma de referência; (iii) extrair, a partir de uma coleção de referências, das quais pelo menos algumas compreendem informações sobre um alelo e informações contextuais associadas a esse alelo, um alelo e informações contextuais associadas ao alelo, sendo que a respectiva referência identifica uma ou mais dentre versões mais antigas recebidas do genoma de referência, e uma localização do alelo dentro da versão mais antiga identificada do genoma de referência; e (iv) mapear as informações do alelo extraído e informações contextuais associadas em um nó do genoma de referência com base em grafo, com base na versão mais antiga identificada do genoma de referência e a localização do alelo extraído dentro dessa versão mais antiga identificada do genoma de referência.
[009] De acordo com uma modalidade, o método compreende adicionalmente gerar um relatório resumindo todas as informações contextuais associadas a um nó do genoma de referência com base em grafo; e fornecer, através de uma interface de usuário, o relatório gerado a um usuário.
[0010] De acordo com uma modalidade, o relatório compreende uma ou mais dentre uma frequência alélica, informações de aparência, informações de mutação circundante e/ou taxa de comutação.
[0011] De acordo com uma modalidade, mapear compreende anotar o nó com as informações do alelo extraído e informações contextuais associadas. De acordo com uma modalidade, mapear compreende anotar o nó com uma identificação da referência a partir da qual o alelo foi extraído.
[0012] De acordo com uma modalidade, as informações contextuais compreendem informações sobre uma característica ou condição médica associada ao alelo. De acordo com uma modalidade, as informações contextuais compreendem uma identificação de uma referência a partir da qual o alelo foi identificado ou extraído. De acordo com uma modalidade, as informações contextuais compreendem informações sobre uma ou mais pessoas nas quais o alelo foi identificado.
[0013] De acordo com uma modalidade, o método compreende adicionalmente normalizar uma pluralidade de alelos associados a um nó do genoma de referência com base em grafo.
[0014] De acordo com um outro aspecto, é fornecido um sistema para gerar um genoma de referência baseado em grafo anotado. O sistema inclui: (i) um módulo de alinhamento configurado para alinhar cada uma dentre uma pluralidade de versões mais antigas recebidas de um genoma de referência a um genoma de referência atual para gerar um genoma de referência com base em grafo, sendo que o alinhamento é baseado, pelo menos em parte, em informações de nós da versão mais antiga recebida do genoma de referência, sendo que pelo menos alguns dos nós compreendem informações que identificam a versão do genoma de referência e uma localização dentro dessa versão do genoma de referência para o respectivo nó; (ii) um módulo de mapeamento configurado para mapear uma pluralidade de alelos identificados sobre um ou mais nós do genoma de referência com base em grafo com base na versão mais antiga identificada do genoma de referência e na localização do alelo extraído dentro dessa versão mais antiga identificada do genoma de referência, sendo que cada um dentre a pluralidade de alelos identificados compreende também informações contextuais que são mapeadas sobre o respectivo nó com o respectivo alelo; (iii) um módulo de relatório configurado para gerar um relatório resumindo todas as informações contextuais associadas a um nó do genoma de referência com base em grafo; e (iv) uma interface de usuário configurada para fornecer o relatório gerado para um usuário.
[0015] De acordo com uma modalidade, o sistema inclui adicionalmente um módulo de extração configurado para extrair, de uma coleção de referências, das quais pelo menos algumas compreendem informações sobre um alelo e informações contextuais associadas a esse alelo, um alelo e informações contextuais associadas ao alelo, sendo que a respectiva referência identifica: (i) uma dentre a uma ou mais versões mais antigas recebidas do genoma de referência, e (ii) uma localização do alelo dentro da versão mais antiga identificada do genoma de referência.
[0016] De acordo com um outro aspecto, é fornecido um genoma de referência com base em grafo. O genoma de referência com base em grafo inclui: (i) uma pluralidade de nós anotados de uma versão atual de um genoma de referência, sendo que cada um da pluralidade de nós anotados compreende informações sobre um alelo e informações contextuais associadas a esse alelo de uma ou mais versões anteriores do genoma de referência, sendo que as informações contextuais compreendem ao menos uma identificação da versão anterior do genoma de referência a partir da qual o alelo foi extraído e informações sobre as coordenadas genômicas do alelo na versão anterior do genoma de referência a partir do qual o alelo foi extraído; e (ii) uma pluralidade de arestas, sendo que cada uma conecta dois nós por uma primeira ou segunda extremidade de cada um dos ditos dois nós.
[0017] Em várias implantações, um processador ou controlador pode ser associado a uma ou mais mídias de armazenamento (genericamente chamadas no presente documento de “memória,” por exemplo, memória de computador volátil e não volátil como RAM, PROM, EPROM, e EEPROM, disquetes, discos compactos, discos ópticos, fitas magnéticas etc.). Em algumas implantações, as mídias de armazenamento podem ser codificadas com um ou mais programas que, quando executados em um ou mais processadores e/ou controladores, realizam pelo menos parte das operações descritas no presente documento. Várias mídias de armazenamento podem ser fixadas dentro de um processador ou controlador ou podem ser transportáveis, de modo que um ou mais programas armazenados nas mesmas possam ser carregados para o interior de um processador ou controlador de modo a implementar vários aspectos das diversas modalidades descritas no presente documento. Os termos “programa” ou “programa de computador” são usados no presente documento em um sentido genérico para se referirem a qualquer tipo de código de computador (por exemplo, software ou microcódigo) que possa ser empregado para programar um ou mais processadores ou controladores.
[0018] Deve-se notar que todas as combinações dos conceitos mencionados anteriormente e conceitos adicionais descritos em maiores detalhes abaixo (contanto que tais conceitos não sejam mutuamente inconsistentes) são contemplados como parte de uma matéria inventiva revelada no presente documento. Em particular, todas as combinações do assunto reivindicado que aparecem no final desta revelação são contempladas como parte do assunto inventivo revelado no presente documento. Deve-se, também, entender que a terminologia explicitamente empregada na presente invenção, que também pode aparecer em qualquer revelação incorporada por referência, deve ser de acordo com um significado de maior consistência com os conceitos particulares revelados no presente documento.
[0019] Esses e outros aspectos das diversas modalidades ficarão evidentes e serão elucidados com referência às uma ou mais modalidades descritas deste ponto em diante.
BREVE DESCRIÇÃO DOS DESENHOS
[0020] Nas figuras, os caracteres de referência iguais se referem em geral às mesmas partes ao longo das diferentes vistas. Além disso, os desenhos não estão necessariamente em escala, em vez disso a ênfase é geralmente colocada sobre a ilustração dos princípios das diversas modalidades.
[0021] A Figura 1 é um fluxograma de um método para gerar um genoma de referência baseado em grafo anotado, de acordo com uma modalidade.
[0022] A Figura 2 é uma representação esquemática de um sistema para gerar um genoma de referência baseado em grafo anotado, de acordo com uma modalidade.
[0023] A Figura 3 é uma representação esquemática de um genoma de referência baseado em grafo anotado, de acordo com uma modalidade.
DESCRIÇÃO DETALHADA DAS MODALIDADES
[0024] A presente revelação descreve diversas modalidades de um sistema e método para gerar um genoma de referência baseado em grafo anotado. De modo mais genérico, o requerente reconheceu e entendeu que seria benéfico fornecer um sistema para reportar informações do alelo e informações contextuais organizadas a partir de uma pluralidade de versões de um genoma de referência. O sistema se alinha versões mais antigas de um genoma de referência em uma versão atual do genoma de referência para criar um genoma de referência com base em grafo. O sistema extrai ou recebe informações de literatura científica sobre um alelo e informações contextuais associadas a esse alelo, incluindo informações sobre em qual versão antiga do genoma de referência o alelo foi identificado e a localização do alelo nessa versão antiga do genoma de referência. As informações do alelo extraído e informações contextuais associadas são então mapeadas no genoma de referência com base em grafo pesquisando no genoma de referência com base em grafo por um nó que compreenda a versão extraída do genoma de referência e a localização extraída. O sistema gera um relatório resumindo todas as informações contextuais associadas a um nó do genoma de referência com base em grafo, e fornece o relatório gerado para um usuário.
[0025] Com referência à Figura 1, em uma modalidade, é fornecido um fluxograma de um método 100 para gerar um genoma de referência baseado em grafo anotado. Na etapa 110, é fornecido um sistema para gerar um genoma de referência baseado em grafo anotado. O sistema pode ser qualquer um dos sistemas descritos ou de outro modo previstos na presente invenção, e pode compreender qualquer um dos componentes ou módulos descritos ou de outro modo previstos na presente invenção.
[0026] Na etapa 120 do método, uma ou mais versões anteriores de um genoma de referência são recebidas pelo sistema ou fornecidas ao sistema. Cada uma dessas versões anteriores inclui uma pluralidade de nós, sendo que pelo menos alguns desses nós compreendem informações que identificam a versão do genoma de referência do qual o nó é proveniente, bem como uma localização dentro dessa versão do genoma de referência onde o nó está localizado. De acordo com uma modalidade, um nó representa um SNP, mutação, alelo e/ou k-mer de comprimento k.
[0027] O genoma de referência pode ser um genoma de referência humano, ou um genoma de referência de qualquer outro organismo. As versões anteriores do genoma de referência podem ser obtidas ou recebidas de qualquer fonte, incluindo, mas não se limitando a, uma base de dados de versões anteriores. Por exemplo, uma ou mais versões de um genoma de referência podem estar disponíveis para uso de forma privada ou pública, e podem ser armazenadas em um repositório ou base de dados privados ou públicos para recuperação. Tipicamente um genoma de referência é digital e pode ser armazenado em uma base de dados, e pode ser comunicado eletronicamente através de sistema de comunicação com fio e/ou sem fio a partir da base de dados para o sistema de geração do genoma de referência baseado em grafo anotado.
[0028] Tipicamente, as diferenças entre versões de um genoma de referência incluem dados mais confiáveis para localizações específicas, alterações nas coordenadas ou localização de certas sequências, novas informações sobre lacunas anteriores na sequência, e muitas outras diferenças. Uma das maiores diferenças relevantes para a presente revelação é a modificação de coordenadas de uma sequência. Por exemplo, a sequência k (que pode ser um único nucleotídeo ou SNP ou pode ser uma sequência de nucleotídeos) no cromossomo 5 pode estar situada em uma primeira posição em uma primeira versão de um genoma de referência, mas sequenciamento e análise adicionais podem revelar que a sequência k está mais adequadamente posicionada em uma segunda localização no cromossomo 5. Consequentemente, uma versão posterior do genoma de referência moverá a sequência k para a segunda localização. A versão anterior do genoma de referência, e a literatura publicada que discute a sequência k, ainda terão a sequência k localizada na primeira localização no cromossomo 5.
[0029] Na etapa 130 do método, cada uma das versões mais antigas recebidas do genoma de referência é alinhada com um genoma de referência atual para gerar um genoma de referência com base em grafo. Esse alinhamento é baseado, pelo menos em parte, nas informações de localização dos nós da versão mais antiga recebida do genoma de referência. Como os nós das versões mais antigas recebidas do genoma de referência compreendem informações de localização, essas informações de localização podem ser usadas para identificar onde, na versão atual do genoma de referência, essa localização pode ser encontrada. Em alguns casos, as coordenadas da localização não terão sido alteradas, enquanto que, em muitos casos, as coordenadas da localização terão sido alteradas significativamente.
[0030] De acordo com uma modalidade, o sistema compreende ou está em comunicação com um sistema ou módulo comparativo que compreende ou fornece informações sobre onde as localizações em versões anteriores do genoma de referência podem ser encontradas na versão atual do genoma de referência. Por exemplo, dentro do sistema, a versão atual do genoma de referência pode conter, em uma pluralidade de nós, informações sobre onde esse nó estava localizado em versões anteriores do genoma de referência. Adicional ou alternativamente, as versões anteriores do genoma de referência podem ser anotadas com, ou então compreender, informações sobre onde os nós dessa versão do genoma de referência podem ser encontrados na versão atual do genoma de referência.
[0031] Por exemplo, a versão atual do genoma de referência humano divulgado no Genome Reference Consortium em 2013 é GRCh38, às vezes chamada de build 38, embora modificações da GRCh38 tenham sido divulgadas posteriormente. Consequentemente, qualquer das versões ou builds anteriores podem ser mapeados no GRCh38 usando os métodos descritos, ou então previstos, na presente invenção. No futuro, uma nova versão, como GRCh39, pode ser divulgada e as versões ou builds anteriores podem ser mapeados na GRCh39. Os métodos e sistemas aqui descritos funcionam independentemente de qual versão ou build é usado como a versão atual do genoma de referência humano. Adicionalmente, os métodos e sistemas aqui descritos funcionam para qualquer organismo com um genoma de referência com múltiplas versões ou builds.
[0032] No passado, a literatura científica que analisava um aspecto da genética humana usava uma ou mais versões do genoma humano divulgados antes da versão GRCh38 atual. Consequentemente, a literatura científica tipicamente fará referência à versão específica do genoma de referência humano usada para a análise ou estudo. No entanto, nos casos em que a literatura científica não faz referência à versão específica do genoma de referência humano usada para a análise ou estudo, a data da publicação e/ou da pesquisa (que pode ser colhida ou deduzida da citação da publicação ou metadados da publicação) pode ser usada para inferir qual versão do genoma de referência humano foi provavelmente usada para a análise ou estudo.
[0033] De acordo com uma modalidade, para expressar informações para uma cadeia e, dessa forma, distinguir entre a leitura do DNA em um sentido ou no sentido inverso, o genoma de referência com base em grafo pode ser construído em um método ou formato bidirecional. Várias metodologias estão disponíveis para construir o genoma de referência com base em grafo, incluindo múltiplos alinhamentos de genoma com base em árvore filogenética, construção de grafo de De Bruijn e muitos outros métodos. Por exemplo, quando usados para montagem de genomas, os grafos de De Bruijn tipicamente compreendem um nó representando um k-mer com arestas direcionadas representando uma sobreposição de k - 1 bases entre dois nós, embora muitas outras variações sejam possíveis, assim como muitos outros métodos de construção de grafos.
[0034] De acordo com uma modalidade, o método pode usar todas as versões anteriores de um genoma de referência, incluindo eventuais correções ou outras modificações, e quaisquer polimorfismos acumulados, como entrada durante a construção do genoma de referência com base em grafo. De acordo com uma outra modalidade, o método pode usar apenas algumas versões anteriores de um genoma de referência, como entrada durante a construção do genoma de referência com base em grafo.
[0035] De acordo com uma modalidade, para cada alelo de uma versão anterior de um genoma de referência alinhado à versão atual do genoma de referência, uma estrutura de dados pode ser construída ou usada para assinalar qual versão do genoma de referência incluía o alelo, e as coordenadas do alelo nessa versão do genoma de referência, incluindo o número e a localização do cromossomo. Consequentemente, uma pluralidade de nós ou alelos da versão atual do genoma de referência compreenderá informações sobre esse nó ou alelo em algumas ou todas as versões anteriores do genoma de referência usadas para gerar o genoma de referência com base em grafo.
[0036] Na etapa 140 do método, o sistema extrai, identifica e/ou recebe informações sobre um ou mais alelos de literatura científica. Por exemplo, o sistema pode compreender ou ter acesso a uma coleção de literatura e referências, que podem ser bases de dados públicas e/ou privadas. Existem atualmente muitas bases de dados diferentes de literatura científica, e qualquer uma dessas bases de dados pode ser usada. A partir dessa coleção de literatura e referências, informações sobre um alelo podem ser identificadas e/ou extraídas. Juntamente com uma identificação do alelo, outras informações podem ser identificadas e/ou extraídas, incluindo, mas não se limitando a: (1) um número de ID de grupo de SNP de referência ou outro número de acesso identificando o alelo; (2) coordenadas do alelo, incluindo o número e a localização do cromossomo; (3) o genoma de referência usado para as coordenadas; e/ou (4) informações contextuais sobre o alelo.
[0037] De acordo com uma modalidade, as informações contextuais podem incluir, por exemplo, informações médicas ou de características identificadas como sendo associadas ou afetadas pelo alelo, polimorfismos identificados para o alelo, populações associadas ao alelo, informações de pesquisas sobre o alelo, informações de citação para o alelo e/ou quaisquer outras informações sobre o alelo, a referência e/ou a pesquisa.
[0038] De acordo com uma modalidade, as informações do alelo podem ser reportadas na literatura em um formato estruturado e/ou não estruturado. Os formatos estruturados são mais facilmente alinhados no genoma de referência com base em grafo. No entanto, para informações não estruturadas, um processo explícito de ETL (extrair, transformar e carregar) pode ser usado. O sistema pode compreender uma tabela de sinônimos para levar em conta os vários nomes usados para versões anteriores de um genoma de referência. Por exemplo, hg19 e GRCH37 se referem à mesma versão anterior do genoma de referência humano. O sistema pode compreender também um módulo ou algoritmo configurado ou projetado para extrair informações relevantes de mutação/alelo como tuplas, tais como a identificação de referência, número do cromossomo, coordenadas, alelos de referência e alternativos, informações de cadeia, linhagem germinativa/somática, modalidade de sequenciamento (como micromatriz, WGS ou WES), fenótipo(s), diagnóstico, localizações anatômicas, idade, sexo, raça, histórico médico e/ou identificação do paciente, entre outras informações possíveis. De acordo com uma modalidade, as informações são analisadas por meio de canais de processamento de linguagem natural de ontologia médica. Relacionamentos entre um alelo, um fenótipo, metadados e quaisquer outras informações podem ser salvos em uma estrutura de dados como um SGDB (sistema de gerenciamento de base de dados relacional), entre outras possíveis estruturas de dados.
[0039] De acordo com uma modalidade, essa e outras etapas do método compreenderão necessariamente intenso trabalho computacional. Por exemplo, essa etapa pode compreender uma análise de milhares ou milhões de partes de literatura, incluindo resumir todas as informações relevantes. Métodos e sistemas podem ser implementados para facilitar o trabalho computacional. Por exemplo, uma configuração de infraestrutura via Hadoop/MapReduce pode atender às necessidades no todo ou em parte. Muitos outros métodos e sistemas podem ser usados para facilitar essa análise computacionalmente intensiva.
[0040] Na etapa 150 do método, o sistema mapeia as informações do alelo extraído, recebido ou identificado e as informações contextuais associadas em um nó do genoma de referência com base em grafo. O mapeamento é baseado, pelo menos em parte, na localização do alelo extraído na versão mais antiga do genoma de referência. Por exemplo, um alelo de uma versão anterior do genoma de referência pode ser mapeado para um nó do genoma de referência com base em grafo. Juntamente com o alelo, as informações contextuais associadas ao alelo podem ser mapeadas para o nó, incluindo qualquer ou todas as informações contextuais reveladas, ou então previstas, na presente invenção. O mapeamento é baseado, pelo menos em parte, em informações de localização associadas ao alelo extraído, recebido ou identificado, e pode ser associado por referência cruzada a informações de localização para o genoma de referência com base em grafo. De acordo com uma modalidade, um alelo pode ter múltiplas coordenadas correspondentes de um ou mais versões anteriores do genoma de referência. O sistema pode analisar cada uma delas e consultar o SGDB durante o mapeamento.
[0041] Na etapa opcional 160 do método, o sistema normaliza uma pluralidade de alelos ou resultados associados a um nó do genoma de referência com base em grafo. De acordo com uma modalidade, muitos dos alelos reportados não são mutações, mas polimorfismos normais, e a normalização identificará esses polimorfismos normais. Qualquer método de normalização pode ser usado.
[0042] Na etapa 170 do método, o sistema gera um relatório resumindo todas as informações contextuais associadas a um nó do genoma de referência com base em grafo. O sistema pode fazer isso para um nó ou múltiplos nós. De acordo com uma modalidade, o sistema pode consultar o SGDB ou outra estrutura de dados para obter informações sobre um nó, um alelo, uma localização no genoma de referência com base em grafo e/ou uma localização em uma versão anterior do genoma de referência. Os resultados podem ser resumidos em diferentes versões do genoma em uma ou mais categorias incluindo: frequência alélica, número de aparecimentos, taxa de mutação circundante, taxa de comutação, grupos fenótipos e/ou qualquer outra informação.
[0043] Na etapa 180 do método, o sistema fornece o relatório gerado para um usuário, através de uma interface de usuário do sistema. O relatório pode compreender qualquer formato, e é de preferência um formato que é fácil de analisar e interpretar. O relatório pode ser fornecido por meio de qualquer mecanismo, incluindo, mas não se limitando a, uma tela, leitura, download, upload, impressão, e-mail e muitos outros processos.
[0044] De acordo com uma modalidade, a geração e o uso de um genoma de referência com base em grafo é uma melhoria significativa dos formatos de genoma de referência anteriores, e resolve muitos problemas há muito tempo enfrentados na técnica. Por exemplo, poucas regiões genômicas são anotadas com conhecimento clínico e/ou biológico acumulado para a maioria das pesquisas e aplicações biomédicas. Para explicar uma área genômica desconhecida, uma estrutura de aprendizado aberta precisa ser estabelecida para acumulação de conhecimento orientado a mutação. Por exemplo, se mutações somáticas desconhecidas são detectadas em um paciente com câncer, priorizar essas mutações pode influenciar a tomada de decisões clínicas mais adiante. Um método de priorização é examinar a frequência alélica de cada mutação e quantas vezes a mutação foi reportada, embora esse seja um método de análise ineficiente e não guiado. O resumo de um alelo da literatura, no contexto de um genoma de referência com base em grafo, fornece informações muito mais valiosas e úteis. Consequentemente, os métodos e sistemas aqui revelados podem melhorar significativamente o tratamento e resultados de pacientes em comparação com métodos e sistemas de genoma de referência anteriores. De acordo com uma outra modalidade, os dados montados a partir da coleção de literatura e mapeados no genoma de referência com base em grafo também poderia facilitar o processo de descoberta de biomarcador.
[0045] De acordo com outra modalidade, uma infraestrutura de genoma de referência com base em grafo pode permitir que entidades de terceiros como empresas biofarmacêuticas ou empresas de diagnóstico mantenham bases de dados de mutação-fenótipo proprietárias independentemente de como o genoma de referência evolui. Por exemplo, um cliente pode ter mutações que são detectadas, mas se referir a diferentes versões do genoma de referência, como hg18 ou hg19. Estas mutações podem ser acomodadas no genoma de referência com base em grafo. Por exemplo, se um usuário consulta coordenadas de genoma específicas em referência a uma versão anterior específica do genoma de referência, as informações associadas a essas coordenadas podem ser extraídas do genoma de referência com base em grafo independentemente de qual versão do genoma de referência está sendo usada ou consultada.
[0046] Com referência à Figura 2, é fornecida uma representação esquemática 200 de um sistema e método para gerar um genoma de referência baseado em grafo anotado conforme descrito, ou então previsto, na presente invenção. O sistema 200 inclui um ou mais dentre um processador 220, memória 226, interface de usuário 240, interface de comunicação 250 e armazenamento 260, interconectados por meio de um ou mais barramentos de sistema 210. Em algumas modalidades, como aquelas nas quais o sistema compreende ou implementa um sequenciador ou plataforma de sequenciamento, o hardware pode incluir hardware de sequenciamento adicional 215, que pode ser qualquer sequenciador ou plataforma de sequenciamento. Deve- se compreender que a Figura 2 constitui, em alguns aspectos, uma abstração, e que a organização real dos componentes do sistema 400 pode variar e ser mais complexa que a ilustrada.
[0047] De acordo com uma modalidade, o sistema 200 compreende um processador 220 capaz de executar instruções armazenadas na memória 226 ou no armazenamento 260 ou, então, processar dados. O processador 220 executa uma ou mais etapas do método, e pode compreender um ou mais dentre os módulos descritos, ou então previstos, na presente invenção. O processador 220 pode ser formado por um ou múltiplos módulos, e pode compreender, por exemplo, uma memória 226. O processador 220 pode assumir qualquer forma adequada, incluindo, mas não se limitando a, um microprocessador, microcontrolador, múltiplos microcontroladores, circuitos, um FPGA (Field Programmable Gate Array), um circuito integrado de aplicação específica (CIAE), um processador único ou vários processadores.
[0048] A memória 226 pode assumir qualquer forma adequada, inclusive uma memória não volátil e/ou RAM. A memória 226 pode incluir várias memórias como, por exemplo, um cache ou memória de sistema. Dessa forma, a memória 226 pode incluir uma memória de acesso aleatório estática (SRAM), uma RAM dinâmica (DRAM), uma memória flash, uma memória somente de leitura (ROM), ou outros dispositivos de memória similares. A memória pode armazenar, entre outras coisas, um sistema operacional. A memória RAM é usada pelo processador para o armazenamento temporário de dados. De acordo com uma modalidade, um sistema operacional pode conter código que, quando executado pelo processador, controla a operação de um ou mais componentes de sistema 200. Ficará evidente que, em modalidades nas quais o processador implementa uma ou mais das funções descritas na presente invenção em hardware, o software descrito como correspondente a tal funcionalidade em outras modalidades pode ser omitido.
[0049] A interface de usuário 240 pode incluir um ou mais dispositivos para permitir a comunicação com um usuário, como um administrador. A interface de usuário pode ser qualquer dispositivo ou sistema que permite que as informações sejam transmitidas e/ou recebidas, e pode incluir uma tela, um mouse e/ou um teclado para receber comandos do usuário. Em algumas modalidades, a interface de usuário 240 pode incluir uma interface de linha de comando ou uma interface gráfica de usuário que pode ser apresentada a um terminal remoto através de interface de comunicação 250. A interface de usuário pode estar localizada com um ou mais outros componentes do sistema, ou pode estar localizada remotamente em relação ao sistema e em comunicação por uma rede de comunicação com fio e/ou sem fio.
[0050] A interface de comunicação 250 pode incluir um ou mais dispositivos para permitir a comunicação com outros dispositivos de hardware. Por exemplo, a interface de comunicação 250 pode incluir um cartão de interface de rede (NIC) configurado para se comunicar de acordo com o protocolo Ethernet. Adicionalmente, a interface de comunicação 250 pode implementar uma pilha TCP/IP para comunicação de acordo com protocolos TCP/IP. Vários componentes de hardware ou configurações alternativos ou adicionais para a interface de comunicação 250 serão evidentes.
[0051] O armazenamento 260 pode incluir uma ou mais mídias de armazenamento legíveis por máquina como uma memória somente de leitura (ROM), uma memória de acesso aleatório (RAM), uma mídia de armazenamento em disco magnético, mídia de armazenamento óptica, dispositivos de memória flash ou mídias de armazenamento similares. Em várias modalidades, o armazenamento 260 pode armazenar instruções para execução por um processador 220, ou dados sobre os quais o processador 220 pode operar. Por exemplo, o armazenamento 260 pode armazenar um sistema operacional 261 para controlar várias operações do sistema 200. Onde o sistema 200 implementa um sequenciador e inclui hardware de sequenciamento 215, o armazenamento 260 pode incluir instruções de sequenciamento 262 para operar o hardware de sequenciamento 215. De acordo com uma modalidade, o armazenamento 260 pode incluir uma base de dados de alelo extraído 464 gerada ou preenchida em conformidade com os métodos descritos, ou então previstos, na presente invenção. De acordo com uma modalidade, o armazenamento 260 pode incluir um genoma de referência com base em grafo 265 gerado em conformidade com os métodos descritos, ou então previstos, na presente invenção.
[0052] Será evidente que várias informações descritas como armazenadas no armazenamento 260 podem ser adicional ou alternativamente armazenadas na memória 226. Nesse aspecto, a memória 226 pode também ser considerada como constituindo um dispositivo de armazenamento e o armazenamento 460 pode ser considerado uma memória. Várias outras disposições serão evidentes. Adicionalmente, a memória 226 e o armazenamento 260 podem ser considerados como mídia não transitória legível por máquina. Como usado aqui, o termo “não transitório” será compreendido para excluir sinais transitórios, mas para incluir todas as formas de armazenamento, incluindo tanto memórias voláteis quanto não voláteis.
[0053] O sistema 200 pode compreender também uma coleção de literatura 270. Essa coleção pode ser uma única base de dados ou múltiplas bases de dados. A base de dados pode ser um componente do sistema 200, ou o sistema 200 pode estar em comunicação ou de outro modo acessar a coleção de literatura 270. A base de dados pode compreender uma pluralidade de artigos, documentos, cartazes, resumos ou outras informações, que podem ser obtidas ou encontradas em fontes privadas e/ou públicas.
[0054] Embora o sistema 200 seja mostrado como incluindo um de cada componente descrito, os vários componentes podem ser duplicados em várias modalidades. Por exemplo, o processador 220 pode incluir múltiplos microprocessadores que são configurados para executar de modo independente os métodos descritos na presente invenção, ou que são configurados para executar etapas ou sub-rotinas dos métodos descritos na presente invenção, de modo que os múltiplos processadores cooperem para alcançar a funcionalidade descrita na presente invenção. Adicionalmente, nos casos em que o sistema 200 é implementado em um sistema de computação em nuvem, os vários componentes de hardware podem pertencer a sistemas físicos separados. Por exemplo, o processador 220 pode incluir um primeiro processador em um primeiro servidor e um segundo processador em um segundo servidor. Muitas outras variações e configurações são possíveis.
[0055] De acordo com uma modalidade, o processador 220 compreende um ou mais módulos para executar uma ou mais funções ou etapas dos métodos descritos, ou então previstos, na presente invenção. Por exemplo, o processador 220 pode compreender um módulo de alinhamento 222, um módulo de extração 223, um módulo de mapeamento 224 e/ou um módulo de relatório 225.
[0056] De acordo com uma modalidade, o módulo de alinhamento 222 alinha ou facilita o alinhamento de uma versão mais antiga recebida ou identificada de um genoma de referência com um genoma de referência atual para gerar um genoma de referência com base em grafo. Esse alinhamento pode ser baseado, pelo menos em parte, nas informações de localização dos nós da versão mais antiga recebida do genoma de referência. Como os nós das versões mais antigas recebidas do genoma de referência compreendem informações de localização, essas informações de localização podem ser usadas para identificar onde, na versão atual do genoma de referência, essa localização pode ser encontrada. Em alguns casos, as coordenadas da localização não terão sido alteradas, enquanto que, em muitos casos, as coordenadas da localização terão sido alteradas significativamente. De acordo com uma modalidade, o módulo de alinhamento 222 compreende ou fornece informações sobre onde as localizações em versões anteriores do genoma de referência podem ser encontradas na versão atual do genoma de referência.
[0057] De acordo com uma modalidade, o módulo de extração 223 extrai, identifica e/ou recebe informações sobre um ou mais alelos de literatura científica encontrada na coleção de literatura 270. A informação de alelo extraída 264 pode ser armazenada, por exemplo, no armazenamento 260 ou em uma variedade de outras localizações ou bases de dados. Juntamente com uma identificação do alelo, outras informações podem ser identificadas e/ou extraídas, incluindo, mas não se limitando a: (1) um número de ID de grupo de SNP de referência ou outro número de acesso identificando o alelo; (2) coordenadas do alelo, incluindo o número e a localização do cromossomo; (3) o genoma de referência usado para as coordenadas; e/ou (4) informações contextuais sobre o alelo. De acordo com uma modalidade, as informações contextuais podem incluir, por exemplo, informações médicas ou de características identificadas como sendo associadas ou afetadas pelo alelo, polimorfismos identificados para o alelo, populações associadas ao alelo, informações de pesquisas sobre o alelo, informações de citação para o alelo e/ou quaisquer outras informações sobre o alelo, a referência e/ou a pesquisa.
[0058] De acordo com uma modalidade, o módulo de mapeamento 224 mapeia as informações do alelo extraído, recebido ou identificado e as informações contextuais associadas em um nó do genoma de referência com base em grafo
265. O mapeamento é baseado, pelo menos em parte, na localização do alelo extraído na versão mais antiga do genoma de referência. Por exemplo, um alelo de uma versão anterior do genoma de referência pode ser mapeado para um nó do genoma de referência com base em grafo. Juntamente com o alelo, as informações contextuais associadas ao alelo podem ser mapeadas para o nó, incluindo qualquer ou todas as informações contextuais reveladas, ou então previstas, na presente invenção. O mapeamento é baseado, pelo menos em parte, em informações de localização associadas ao alelo extraído, recebido ou identificado, e pode ser associado por referência cruzada a informações de localização para o genoma de referência com base em grafo. De acordo com uma modalidade, um alelo pode ter múltiplas coordenadas correspondentes de um ou mais versões anteriores do genoma de referência. O sistema pode analisar cada uma delas e consultar o SGDB durante o mapeamento.
[0059] De acordo com uma modalidade, o sistema do método de relatório 225 gera um relatório resumindo todas as informações contextuais associadas a um nó do genoma de referência com base em grafo. O módulo pode fazer isso para um nó ou múltiplos nós. De acordo com uma modalidade, o módulo pode consultar o SGDB ou outra estrutura de dados para obter informações sobre um nó, um alelo, uma localização no genoma de referência com base em grafo e/ou uma localização em uma versão anterior do genoma de referência. Os resultados podem ser resumidos em diferentes versões do genoma em uma ou mais categorias incluindo: frequência alélica, número de aparecimentos, taxa de mutação circundante, taxa de comutação, grupos fenótipos e/ou qualquer outra informação. De acordo com uma modalidade, o módulo de relatório 225 também fornece ou direciona o sistema para fornecer o relatório gerado para um usuário, através de uma interface de usuário do sistema.
[0060] De acordo com uma modalidade, é fornecido um genoma de referência com base em grafo, conforme descrito, ou então previsto, na presente invenção. Com referência à Figura 3, em uma modalidade, são fornecidos um genoma de referência com base em grafo 300 com base em uma versão atual de um genoma de referência, e informações de codificação de uma pluralidade de diferentes versões do genoma de referência. O genoma de referência com base em grafo 300 compreende, por exemplo, uma pluralidade de nós 310 que podem ser rotulados, identificados ou, de outro modo, anotados com sequências, informações de alelo e/ou informações contextuais conforme descrito, ou então previsto, na presente invenção. O genoma de referência com base em grafo 300 também compreende, por exemplo, uma pluralidade de arestas 320 que conectam dois nós através de qualquer de suas respectivas extremidades. O genoma de referência com base em grafo 300 também pode incluir trajetórias 330, as quais conectam dois nós através de qualquer de suas respectivas extremidades, mas fornecem alternativas de sequenciamento, coordenadas ou outras modificações. Por exemplo, as trajetórias podem fornecer sistemas de coordenadas em relação a genomas codificados no grafo, permitindo assim que mapeamentos estáveis sejam produzidos mesmo se a estrutura do grafo for alterada.
[0061] De acordo com uma modalidade, uma pluralidade de nós 310 do genoma de referência com base em grafo compreende informações de uma ou mais versões anteriores do genoma de referência. As informações podem incluir, por exemplo, um alelo, uma identificação do genoma de referência do qual o alelo foi extraído ou identificado, informações sobre as coordenadas do alelo nesse genoma de referência e/ou informações contextuais, entre outras informações possíveis. Com referência à Figura 3, por exemplo, é fornecida uma estrutura de tabelas ou dados 340 associada ao nó 310. O nó pode ser diretamente anotado com as informações na estrutura de tabelas ou dados 340, ou o nó 310 pode ser associado na memória com a estrutura de tabelas ou dados 340 e/ou o nó 310 pode compreender um ponteiro ou outro link para a estrutura de tabelas ou dados 340. Embora a tabela mostre três versões anteriores do genoma de referência, ela pode compreender informações sobre uma, várias ou todas as versões anteriores do genoma de referência.
[0062] Todas as definições, conforme definidas e usadas no presente documento, deverão ser consideradas como tendo precedência sobre as definições de dicionário, as definições nos documentos incorporados a título de referência e/ou sobre os significados comuns dos termos definidos.
[0063] Os artigos indefinidos “um” e “uma” conforme usados no presente documento no relatório descritivo e nas reivindicações, salvo indicação clara do contrário, devem ser compreendidos por significarem “pelo menos um”.
[0064] A frase “e/ou”, conforme usada no presente documento no relatório descritivo e nas reivindicações, deve ser compreendida por significar “um ou outro ou ambos” dos elementos coligados, isto é, os elementos que estão presentes conjuntivamente em alguns casos e disjuntivamente presentes em outros casos. Os múltiplos elementos listados com “e/ou” devem ser interpretados na mesma maneira, isto é, “um ou mais” dos elementos coligados. Outros elementos podem opcionalmente estar presentes além dos elementos identificados especificamente pela cláusula “e/ou”, relacionados ou não relacionados àqueles elementos identificados especificamente.
[0065] Conforme usado no presente documento no relatório descritivo e nas reivindicações, a palavra “ou” deve ser compreendida com o mesmo significado que “e/ou” conforme definido acima. Por exemplo, quando se separa itens em uma lista, “ou” ou “e/ou” devem ser interpretados como inclusivos, isto é, a inclusão de ao menos um, mas que também inclui mais de um, de uma diversidade ou lista de elementos, e, opcionalmente, itens não listados adicionais. Apenas os termos que indicam claramente o contrário, como “apenas um dentre” ou “exatamente um dentre” ou, quando usado nas reivindicações, “que consiste de” se referem à inclusão de exatamente um elemento dentre uma diversidade ou lista de elementos. Em geral, o termo “ou” conforme usado no presente documento deve ser apenas interpretado como indicador de alternativas exclusivas (isto é, “um ou outro, porém não ambos”) quando precedido pelos termos de exclusividade, como “um ou outro”, “um de”, “apenas um” ou “exatamente um”.
[0066] Como usado aqui no relatório descritivo e nas reivindicações, o termo “pelo menos um”, em referência a uma lista de um ou mais elementos, deve ser compreendido por significar pelo menos um elemento selecionado dentre quaisquer um ou mais dos elementos na lista de elementos, mas não inclui necessariamente pelo menos um de todo e cada elemento especificamente mencionado na lista de elementos e não exclui quaisquer combinações de elementos na lista de elementos. Essa definição também possibilita que outros elementos possam opcionalmente estar presentes além dos elementos especificamente identificados dentro da lista de elementos aos quais o termo “pelo menos um” se refere, estando ou não relacionados a esses elementos especificamente identificados.
[0067] Deve-se compreender também que, a menos que indicado o contrário, em quaisquer métodos reivindicados no presente documento que incluem mais de uma etapa ou ação, a ordem das etapas ou das ações do método não são limitadas necessariamente à ordem na qual as etapas ou ações do método são mencionadas.
[0068] Nas reivindicações, bem como no relatório descritivo acima, todas as frases transicionais tais como “que compreende”, “que inclui”, “que realiza”, “que tem,” “que contém”, “que envolve”, “que prende”, “composto de” e similares devem ser compreendidos por não-limitados, isto é, significativos de que incluem, mas não se limitam. Apenas as frases de transição “que consiste em” e “que consiste essencialmente em” deverão ser frases de transição fechadas ou semifechadas, respectivamente.
[0069] Embora várias modalidades inventivas tenham sido descritas e ilustradas no presente documento, os versados na técnica verão imediatamente uma variedade de outros meios e/ou estruturas para realizar a função e/ou obter os resultados e/ou uma ou mais dentre as vantagens descritas no presente documento, e cada uma de tais variações e/ou modificações é considerada como inserida no escopo das modalidades inventivas descritas no presente documento. De modo mais genérico, os versados na técnica compreenderão prontamente que todos os parâmetros, dimensões, materiais e configurações descritos no presente documento são exemplificativos e que os parâmetros, dimensões, materiais e/ou configurações reais dependerão da aplicação ou aplicações específicas para as quais os ensinamentos inventivos são/serão usados.
Os versados na técnica reconhecerão ou terão a capacidade de apurar, com o uso apenas de experimentação comum, muitos equivalentes às modalidades inventivas específicas aqui descritas.
Deve-se, portanto, compreender que as modalidades anteriormente mencionadas são apresentadas somente a título de exemplo e que, no escopo das reivindicações anexas e equivalentes às mesmas, as modalidades inventivas podem ser praticadas de modo diferente do descrito e reivindicado especificamente.
As modalidades inventivas da presente revelação se referem a cada característica, sistema, artigo, material, kit e/ou método individual descrito no presente documento.
Além disso, qualquer combinação de dois ou mais de tais características, recursos, sistemas, artigos, materiais, kits e/ou métodos, se tais características, sistemas, artigos, materiais, kits e/ou métodos não forem mutualmente inconsistentes, é incluída dentro do escopo inventivo da presente revelação.

Claims (12)

REIVINDICAÇÕES
1. MÉTODO (100) PARA GERAR UM GENOMA DE REFERÊNCIA BASEADO EM GRAFO ANOTADO, caracterizado por compreender: receber (120) uma ou mais versões de um genoma de referência, sendo versões mais antigas de um genoma de referência atual, sendo que cada uma dentre a uma ou mais versões do genoma de referência compreende uma pluralidade de nós, dos quais pelo menos alguns compreendem informações que identificam a versão do genoma de referência e uma localização dentro dessa versão do genoma de referência para o respectivo nó; alinhar (130) cada uma dentre a uma ou mais versões mais antigas do genoma de referência ao genoma de referência atual para gerar um genoma de referência com base em grafo, sendo que o alinhamento é baseado, pelo menos em parte, nas informações de localização dos nós da versão mais antiga recebida do genoma de referência; extrair (140), de uma coleção de referências, das quais pelo menos algumas compreendem informações sobre um alelo e informações contextuais associadas a esse alelo, um alelo e informações contextuais associadas ao alelo, sendo que a respectiva referência identifica: (i) uma dentre a uma ou mais versões mais antigas recebidas do genoma de referência, e (ii) uma localização do alelo dentro da versão mais antiga identificada do genoma de referência; e mapear (150) as informações do alelo extraído e informações contextuais associadas em um nó do genoma de referência com base em grafo, com base na versão mais antiga identificada do genoma de referência e a localização do alelo extraído dentro dessa versão mais antiga identificada do genoma de referência; gerar (170) um relatório resumindo todas as informações contextuais associadas a um nó do genoma de referência com base em grafo; e fornecer (180), através de uma interface de usuário, o relatório gerado para um usuário.
2. MÉTODO, de acordo com a reivindicação 1, caracterizado pelo relatório compreender uma ou mais dentre uma frequência alélica, informações de aparência, informações de mutação circundante e/ou taxa de comutação.
3. MÉTODO, de acordo com a reivindicação 1, caracterizado por mapear compreender anotar o nó com as informações do alelo extraído e informações contextuais associadas.
4. MÉTODO, de acordo com a reivindicação 1, caracterizado por mapear compreender anotar o nó com uma identificação da referência a partir da qual o alelo foi extraído.
5. MÉTODO, de acordo com a reivindicação 1, caracterizado pelas informações contextuais compreenderem informações sobre uma característica ou condição médica associada ao alelo.
6. MÉTODO, de acordo com a reivindicação 1, caracterizado pelas informações contextuais compreenderem uma identificação de uma referência a partir da qual o alelo foi identificado ou extraído.
7. MÉTODO, de acordo com a reivindicação 1, caracterizado pelas informações contextuais compreenderem informações sobre uma ou mais pessoas nas quais o alelo foi identificado.
8. MÉTODO, de acordo com a reivindicação 1, caracterizado por compreender adicionalmente normalizar (160) uma pluralidade de alelos associados a um nó do genoma de referência com base em grafo.
9. SISTEMA (200) PARA GERAR UM GENOMA DE REFERÊNCIA BASEADO EM GRAFO ANOTADO, caracterizado por compreender: um módulo de alinhamento (222) configurado para alinhar cada uma dentre uma pluralidade de versões mais antigas recebidas de um genoma de referência a um genoma de referência atual para gerar um genoma de referência com base em grafo, sendo que o alinhamento é baseado, pelo menos em parte, em informações de nós da versão mais antiga recebida do genoma de referência, sendo que pelo menos alguns dos nós compreendem informações que identificam a versão do genoma de referência e uma localização dentro dessa versão do genoma de referência para o respectivo nó; um módulo de extração (223) configurado para extrair, de uma coleção de referências, das quais pelo menos algumas compreendem informações sobre um alelo e informações contextuais associadas a esse alelo, um alelo e informações contextuais associadas ao alelo, sendo que a respectiva referência identifica: (i) uma dentre a uma ou mais versões mais antigas recebidas do genoma de referência, e (ii) uma localização do alelo dentro da versão mais antiga identificada do genoma de referência; um módulo de mapeamento (224) configurado para mapear uma pluralidade de alelos identificados sobre um ou mais nós do genoma de referência com base em grafo com base na versão mais antiga identificada do genoma de referência e na localização do alelo extraído dentro dessa versão mais antiga identificada do genoma de referência, sendo que cada um dentre a pluralidade de alelos identificados compreende também informações contextuais que são mapeadas sobre o respectivo nó com o respectivo alelo; um módulo de relatório (225) configurado para gerar um relatório resumindo todas as informações contextuais associadas a um nó do genoma de referência com base em grafo; e uma interface de usuário (240) configurada para fornecer o relatório gerado para um usuário.
10. SISTEMA, de acordo com a reivindicação 8, caracterizado pelas informações contextuais compreenderem informações sobre uma característica ou condição médica associada ao alelo.
11. SISTEMA, de acordo com a reivindicação 8, caracterizado pelas informações contextuais compreenderem uma identificação de uma referência a partir da qual o alelo foi identificado ou extraído.
12. GENOMA DE REFERÊNCIA BASEADO EM GRAFO ANOTADO (300), caracterizado por ser gerado de acordo com o método conforme definido em qualquer uma das reivindicações 1 a 8.
BR112020024028-1A 2018-05-31 2019-05-20 método e sistema para gerar um genoma de referência baseado em grafo anotado e genoma de referência baseado em grafo anotado BR112020024028A2 (pt)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862678324P 2018-05-31 2018-05-31
US62/678,324 2018-05-31
PCT/EP2019/062905 WO2019228833A1 (en) 2018-05-31 2019-05-20 System and method for allele interpretation using a graph-based reference genome

Publications (1)

Publication Number Publication Date
BR112020024028A2 true BR112020024028A2 (pt) 2021-02-23

Family

ID=66647388

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020024028-1A BR112020024028A2 (pt) 2018-05-31 2019-05-20 método e sistema para gerar um genoma de referência baseado em grafo anotado e genoma de referência baseado em grafo anotado

Country Status (7)

Country Link
US (1) US20210158902A1 (pt)
EP (1) EP3803881A1 (pt)
JP (1) JP7428660B2 (pt)
CN (1) CN112236824A (pt)
BR (1) BR112020024028A2 (pt)
MX (1) MX2020012672A (pt)
WO (1) WO2019228833A1 (pt)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110603594A (zh) * 2017-04-27 2019-12-20 皇家飞利浦有限公司 用于基因组删减和处置选择的交互式精确医学探查器
CN111028897B (zh) * 2019-12-13 2023-06-20 内蒙古农业大学 一种基于Hadoop的基因组索引构建的分布式并行计算方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898575B2 (en) * 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
CA2935941C (en) 2014-01-10 2022-05-17 Seven Bridges Genomics Inc. Systems and methods for use of known alleles in read mapping
EP4156194A1 (en) * 2014-01-14 2023-03-29 Fabric Genomics, Inc. Methods and systems for genome analysis
EP3125143A4 (en) * 2014-03-24 2018-03-14 Kabushiki Kaisha Toshiba Method, device and program for generating reference genome data, method, device and program for generating differential genome data, and method, device and program for restoring data
JP6805140B2 (ja) 2014-11-21 2020-12-23 リサーチ インスティチュート アット ネイションワイド チルドレンズ ホスピタル 平行プロセシングシステムおよび生物配列データの高度にスケーラブルな解析の方法
JP6946292B2 (ja) 2015-08-06 2021-10-06 エイアールシー バイオ リミテッド ライアビリティ カンパニー ゲノム分析のためのシステムおよび方法
US10584380B2 (en) 2015-09-01 2020-03-10 Seven Bridges Genomics Inc. Systems and methods for mitochondrial analysis
US20170199960A1 (en) * 2016-01-07 2017-07-13 Seven Bridges Genomics Inc. Systems and methods for adaptive local alignment for graph genomes
US10262102B2 (en) * 2016-02-24 2019-04-16 Seven Bridges Genomics Inc. Systems and methods for genotyping with graph reference
EP3439547A4 (en) 2016-04-07 2019-08-28 White Anvil Innovations, LLC METHOD FOR ANALYZING DIGITAL DATA
US11289177B2 (en) * 2016-08-08 2022-03-29 Seven Bridges Genomics, Inc. Computer method and system of identifying genomic mutations using graph-based local assembly
WO2018071054A1 (en) * 2016-10-11 2018-04-19 Genomsys Sa Method and system for selective access of stored or transmitted bioinformatics data
US10319465B2 (en) * 2016-11-16 2019-06-11 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to graph references

Also Published As

Publication number Publication date
US20210158902A1 (en) 2021-05-27
JP2021525407A (ja) 2021-09-24
JP7428660B2 (ja) 2024-02-06
MX2020012672A (es) 2021-02-09
WO2019228833A1 (en) 2019-12-05
CN112236824A (zh) 2021-01-15
EP3803881A1 (en) 2021-04-14

Similar Documents

Publication Publication Date Title
US10346551B2 (en) Systems, methods and computer-accessible mediums for utilizing pattern matching in stringomes
US20190304571A1 (en) Systems and methods for biological data management
JP7041614B6 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
Johnston et al. PEMapper and PECaller provide a simplified approach to whole-genome sequencing
BR112020024028A2 (pt) método e sistema para gerar um genoma de referência baseado em grafo anotado e genoma de referência baseado em grafo anotado
Maiella et al. Harmonising phenomics information for a better interoperability in the rare disease field
Lassalle et al. Automated reconstruction of all gene histories in large bacterial pangenome datasets and search for co-evolved gene modules with Pantagruel
Hassani-Pak KnetMiner-an integrated data platform for gene mining and biological knowledge discovery
Tong et al. GenOrigin: a comprehensive protein-coding gene origination database on the evolutionary timescale of life
US20210074379A1 (en) Methods for detecting variants in next-generation sequencing genomic data
Maier et al. African mitochondrial haplogroup L7: a 100,000-year-old maternal human lineage discovered through reassessment and new sequencing
Ma et al. Omics informatics: from scattered individual software tools to integrated workflow management systems
ES2898435T3 (es) Dispositivo de ayuda para la determinación de patología, método, programa y medio de almacenamiento
Acharya et al. Multi-factored gene-gene proximity measures exploiting biological knowledge extracted from gene ontology: application in gene clustering
Khemmarat et al. Supporting drug prescription via predictive and personalized query system
RU2809124C2 (ru) Система и способ интерпретации аллелей с применением референсного генома на основе графа
RU2809124C9 (ru) Система и способ интерпретации аллелей с применением референсного генома на основе графа
Behdani et al. RNA-Seq Bayesian Network Exploration of immune system in bovine
Navarrete-Hidalgo et al. Design and Implementation of a Geis for the Genomic Diagnosis using the SILE Methodology. Case Study: Congenital Cataract.
Gymrek et al. Profiling short tandem repeats from short reads
Genovese et al. A fast and accurate heuristic for the single individual SNP haplotyping problem with many gaps, high reading error rate and low coverage
US20230386612A1 (en) Determining comparable patients on the basis of ontologies
Park et al. PIGS: improved estimates of identity-by-descent probabilities by probabilistic IBD graph sampling
Thallinger Comparison of ddRAD Analysis Pipelines
US20210366578A1 (en) Embryonic dna registry

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]