BR112020020430A2 - Atribuições de comunidade em identidade por redes de linhagem e origem de variante genética - Google Patents

Atribuições de comunidade em identidade por redes de linhagem e origem de variante genética Download PDF

Info

Publication number
BR112020020430A2
BR112020020430A2 BR112020020430-7A BR112020020430A BR112020020430A2 BR 112020020430 A2 BR112020020430 A2 BR 112020020430A2 BR 112020020430 A BR112020020430 A BR 112020020430A BR 112020020430 A2 BR112020020430 A2 BR 112020020430A2
Authority
BR
Brazil
Prior art keywords
variant
fact
individuals
individual
haplotypes
Prior art date
Application number
BR112020020430-7A
Other languages
English (en)
Inventor
Jake Kelly Byrnes
Julie M. Granka
Shannon HATELEY
Ladan DOROUD
Original Assignee
Ancestry. Com Dna, Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ancestry. Com Dna, Llc filed Critical Ancestry. Com Dna, Llc
Publication of BR112020020430A2 publication Critical patent/BR112020020430A2/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Ecology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

atribuições de comunidade em identidade por redes de linhagem e origem de variante genética. são divulgadas técnicas para caracterizar variantes de interesse e prever atribuições de indivíduos a comunidades com base nas informações genéticas obtidas. para caracterizar uma variante, conjuntos de dados de dna de indivíduos de referência são acessados e usados para gerar um agrupamento com indivíduos adicionais. indivíduos de referência portando uma variante em um lócus genético e os indivíduos adicionais compartilham ibd com indivíduos de referência. são geradas estatísticas de dados genealógicos do agrupamento. um resultado resumindo a caracterização da variante é gerado com base nas estatísticas. para determinar se um indivíduo pertence a uma comunidade, um subconjunto dos haplótipos do indivíduo é inserido em um modelo específico de comunidade. o modelo é treinado usando as amostras de treinamento que cada uma inclui haplótipos de indivíduos de referência e um rótulo identificando se o indivíduo de referência pertence à comunidade. com base na saída do modelo, é determinado se o indivíduo é membro da comunidade.

Description

ATRIBUIÇÕES DE COMUNIDADE EM IDENTIDADE POR REDES DE LINHAGEM E ORIGEM DE VARIANTE GENÉTICA REFERÊNCIA CRUZADA PARA PEDIDOS RELACIONADOS
[001] O presente pedido reivindica o benefício do Pedido de Patente Provisório dos EUA 62/653.416 depositado em 5 de abril de 2018, e do Pedido de Patente Provisório dos EUA 62/653.420 depositado em 5 de abril de 2018, que são aqui incorporados por referência em sua totalidade.
FUNDAMENTOS
[002] As modalidades divulgadas se referem à avaliação de populações nas quais uma variante de interesse pode ter surgido e propagado e à descoberta de populações históricas a partir do padrão de relações genéticas entre as pessoas.
[003] Embora os humanos sejam, geneticamente falando, quase inteiramente idênticos, pequenas diferenças no DNA humano são responsáveis por alguma variação observada entre os indivíduos. Na verdade, ao comparar essas pequenas diferenças no DNA de indivíduos, é possível detectar longos segmentos cromossômicos sugestivos de herança de um ancestral comum recente e, em seguida, usar esses segmentos detectados para estimar a proximidade de duas pessoas. O processo de identificação de segmentos sugestivos de herança comum recente é conhecido na literatura de genética populacional como uma análise de identidade-por-linhagem (IBD). A análise de IBD pode ser usada para prever a relação familiar entre quaisquer duas pessoas (por exemplo, primos de segundo grau) em uma população. Aprender sobre a estrutura populacional a partir de dados de polimorfismo genético é um tópico importante na genética. Os métodos mais amplamente usados nesta área são baseados na modelagem da variação nas frequências dos alelos. Esses métodos lançaram luz, por exemplo, sobre padrões históricos de migração em populações humanas. Para citar um exemplo disso, estudos genéticos anteriores nos Estados Unidos (EUA) ajudaram a elucidar a diversidade dos imigrantes recentes em relação a outras partes do mundo (por exemplo, Europa, África).
SUMÁRIO
[004] São divulgadas neste documento técnicas para caracterizar variantes de interesse. As caracterizações podem fornecer informações sobre as origens, padrões de migração, e localizações geográficas históricas e contemporâneas de populações portando qualquer variante de interesse. Uma vez que muitas variantes estão associadas a um fenótipo (por exemplo, um traço, uma doença ou outra característica observável), aprender sobre a origem e distribuição de uma variante pode fornecer informações sobre a etiologia do fenótipo associado e pode ser estendido para a segmentação de populações em risco.
[005] Em uma modalidade, um método para caracterizar uma variante de interesse inclui obter um conjunto de dados de DNA a partir de um indivíduo. Os genótipos do indivíduo são determinados com base no conjunto de dados de DNA. Um conjunto de conjuntos de dados de DNA de referência é acessado. Cada conjunto de dados de DNA de referência está associado a um indivíduo de referência e cada indivíduo de referência é um portador de uma variante em um locus genético. Em algumas modalidades, um fenótipo ou haplótipo também pode ser escolhido. Um agrupamento inclui indivíduos de referência e indivíduos adicionais que compartilham Identidade por Linhagem (IBD) com os indivíduos de referência é gerado. O agrupamento pode ser gerado com base em uma afinidade de IBD entre os indivíduos de referência e os indivíduos adicionais. Em algumas modalidades, o agrupamento inclui nós, que representam indivíduos, e bordas ponderadas, que representam a afinidade de IBD entre indivíduos. Para caracterizar a variante, o agrupamento identificado é anotado com dados genealógicos (por exemplo, localizações de nascimento, sobrenomes, localizações de nascimento ancestrais, residências) com base nas informações sobre os indivíduos no agrupamento. Estatísticas dos dados genealógicos são geradas para caracterizar a variante. São gerados resultados que resumem a caracterização da variante. Se for determinado que o indivíduo compartilha IBD com o agrupamento no locus genético, um relatório resumindo a caracterização da variante é fornecido para exibição.
[006] Em várias modalidades, as técnicas divulgadas neste documento podem ser utilizadas adicionalmente para prever atribuições de indivíduos a comunidades com base na informação genética obtida. Um conjunto de dados de DNA é obtido para um indivíduo. Os genótipos do indivíduo são determinados com base no conjunto de dados de DNA. Os genótipos são escalonados para gerar haplótipos do indivíduo, e um subconjunto de haplótipos do indivíduo é selecionado. Um subconjunto é escolhido com base nos recursos de uma comunidade de interesse. O subconjunto dos haplótipos é inserido em um modelo específico da comunidade para determinar se o indivíduo é membro da comunidade. O modelo é treinado usando amostras de treinamento, onde cada amostra de treinamento inclui um grupo de haplótipos de um indivíduo de referência e um rótulo identificando se o indivíduo de referência pertence à comunidade. Os indivíduos de referência que pertencem à comunidade possuem um ou mais grupos de haplótipos que são representativos da comunidade. Os haplótipos que são representativos da comunidade podem ser identificados realizando uma análise de enriquecimento em haplótipos que são comuns entre indivíduos que são membros conhecidos da comunidade. Com base na saída do modelo, é determinado se o indivíduo é membro da comunidade.
BREVE DESCRIÇÃO DOS DESENHOS
[007] A Figura 1 ilustra um diagrama de um ambiente de sistema de um sistema de computação, de acordo com uma modalidade.
[008] A Figura 2 é um diagrama de blocos de uma arquitetura do sistema de computação, de acordo com uma modalidade.
[009] A Figura 3A ilustra uma rede de identidade por linhagem (IBD) que representa o compartilhamento de IBD em loci genéticos, de acordo com uma modalidade.
[0010] A Figura 3B ilustra o compartilhamento de IBD em loci genéticos em um cromossomo, de acordo com uma modalidade.
[0011] A Figura 4 ilustra uma representação gráfica de exemplo de localizações de nascimento enriquecidas, de acordo com uma modalidade.
[0012] A Figura 5 ilustra representações gráficas de exemplo de localizações de nascimento enriquecidas com IBD- em-locus plotados em várias localizações geográficas, de acordo com uma modalidade.
[0013] A Figura 6 ilustra uma distinção visual em dados de DNA entre indivíduos dentro e fora de uma comunidade usando seus haplótipos, de acordo com uma modalidade.
[0014] A Figura 7 é um fluxograma que ilustra um método de caracterização de uma variante, de acordo com uma modalidade.
[0015] A Figura 8 é um fluxograma ilustrando um método de uso de um modelo para prever se um indivíduo é membro de uma comunidade, de acordo com uma modalidade.
[0016] A Figura 9 é um fluxograma ilustrando um método adicional de caracterizar uma variante, de acordo com uma modalidade.
[0017] As figuras representam várias modalidades apenas para fins de ilustração. Um especialista na técnica reconhecerá prontamente a partir da discussão a seguir que modalidades alternativas das estruturas e métodos ilustrados neste documento podem ser empregadas sem se afastar dos princípios descritos neste documento.
DESCRIÇÃO DETALHADA
[0018] A Figura 1 ilustra um diagrama de um ambiente de sistema 100 de um sistema de computação 130, de acordo com uma modalidade. O ambiente de sistema 100 mostrado na Figura 1 inclui um dispositivo de usuário 110, uma rede 120, um serviço de extração de ácido desoxirribonucleico (DNA) 125 e um sistema de computação 130. Em configurações alternativas, diferentes, menos e/ou componentes adicionais podem ser incluídos no ambiente de sistema 100.
[0019] Os dispositivos clientes 110 são um ou mais dispositivos de computação capazes de receber entrada do usuário, bem como transmitir e/ou receber dados através de uma rede 120. Em uma modalidade, um dispositivo cliente 110 é um sistema de computador, como um desktop ou um laptop.
Alternativamente, um dispositivo cliente 110 pode ser um dispositivo com funcionalidade de computador, como um assistente digital pessoal (PDA), um telefone móvel, um telefone inteligente ou outro dispositivo adequado. Um dispositivo cliente 110 é configurado para se comunicar através da rede 120. Em uma modalidade, um dispositivo cliente 110 executa uma aplicação que permite a um usuário do dispositivo cliente 110 interagir com o sistema de computação 130 por meio de uma interface de usuário 115 do dispositivo cliente. Por exemplo, um dispositivo cliente 110 executa uma aplicação de navegador web para permitir a interação entre o dispositivo cliente 110 e o sistema de computação 130 por meio da rede 120. Em outra modalidade, a interface de usuário 115 assume a forma de uma interface gráfica de usuário como parte de uma aplicação de software publicada pelo sistema de computador 130 e instalada no dispositivo de usuário 110. Em ainda outra modalidade, um dispositivo cliente 110 interage com o sistema de computação 130 por meio de uma interface de programação de aplicação (API) em execução em um sistema operacional nativo do dispositivo cliente 110, como IOS® ou ANDROID ™.
[0020] Os dispositivos clientes 110 são configurados para se comunicar através de uma rede 120, que pode incluir qualquer combinação de redes de área local e/ou redes de área ampla, usando ambos os sistemas de comunicação com e/ou sem fio. Em uma modalidade, uma rede 120 usa tecnologias e/ou protocolos de comunicação padrão. Por exemplo, uma rede 120 inclui enlaces de comunicação usando tecnologias como Ethernet, 802.11, interoperabilidade mundial para acesso de micro-ondas (WiMAX), 3G, 4G, acesso múltiplo por divisão de código (CDMA), linha de assinante digital (DSL), etc. Exemplos de rede protocolos usados para comunicação através da rede 120 incluem comutação de etiqueta multiprotocolo (MPLS), protocolo de controle de transmissão / protocolo de Internet (TCP/IP), protocolo de transporte de hipertexto (HTTP), protocolo de transferência de correio simples (SMTP) e protocolo de transferência de arquivo (FTP). Os dados trocados através de uma rede 120 podem ser representados usando qualquer formato adequado, como linguagem de marcação de hipertexto (HTML) ou linguagem de marcação extensível (XML). Em algumas modalidades, todos ou alguns dos enlaces de comunicação de uma rede 120 podem ser criptografados usando qualquer técnica ou técnicas adequadas.
[0021] Os indivíduos fornecem amostras de DNA (ou conjuntos de dados de DNA) para análise de seus dados genéticos. Em uma modalidade, um indivíduo usa um kit de coleta de amostra para fornecer uma amostra de DNA, por exemplo, saliva, a partir da qual os dados genéticos podem ser extraídos com segurança de acordo com técnicas de processamento de DNA, como sequenciamento de DNA. O serviço de extração de DNA 125 recebe a amostra e estima genótipos a partir dos dados genéticos, por exemplo, por extrair o DNA a partir da amostra e identificar valores de genótipo de polimorfismos de nucleotídeo único (SNPs) presentes no DNA. O resultado neste exemplo é um genótipo diplóide para cada local de SNP. O sistema de computação 130 recebe os dados genéticos a partir do serviço de extração de DNA 125 e armazena os dados genéticos em um armazenamento de amostra de DNA contendo genótipos diplóides de DNA. Em algumas modalidades, os dados genéticos armazenados no armazenamento de amostra de DNA podem ser associados a um usuário no armazenamento de dados de usuário por meio de um ou mais ponteiros.
[0022] O sistema de computação 130 processa o DNA para identificar IBD compartilhado entre pares de indivíduos, e usa essa informação para identificar agrupamentos em uma amostra de indivíduos. Em uma modalidade, um agrupamento inclui indivíduos em uma amostra que apresentam uma densidade mais alta de conexões de IBD entre si em relação a outros indivíduos na amostra. Os agrupamentos podem ser anotados com informações sobre fenótipos característicos e dados genealógicos de indivíduos dentro do grupo, e usados para desenvolver modelos que permitem a atribuição de, muitas vezes novos, indivíduos a esses agrupamentos.
[0023] A Figura 2 é um diagrama de blocos de uma arquitetura do sistema de computação 130, de acordo com uma modalidade. Na modalidade mostrada na Figura 2, o sistema de computação 130 inclui um armazenamento de dados de usuário 205, um armazenamento de amostra de DNA 210, um armazenamento de rede de IBD 215, um mecanismo de processamento de amostra 220, um mecanismo de faseamento 225, um mecanismo de estimativa de IBD 230, um mecanismo de originação de variante 235 e um mecanismo de previsão de comunidade 240. Além disso, as funções podem ser distribuídas entre os elementos de uma maneira diferente da descrita. Em várias modalidades, o sistema de computação 130 pode incluir componentes diferentes, menos e/ou adicionais.
[0024] O sistema de computação 130 mantém os dados de usuário no armazenamento de dados de usuário 205. O armazenamento de dados 205 mantém os dados de usuário para cada usuário do sistema de computação 130. A quantidade e o tipo de dados armazenados para cada usuário no armazenamento de usuário 205 podem variam com base nas informações fornecidas pelo usuário correspondente.
Os usuários podem fornecer dados por meio da interface de usuário 115 de um dispositivo de usuário 110. Por exemplo, o usuário pode ser solicitado em um elemento de uma interface de usuário a responder perguntas relacionadas ao usuário que podem ser processadas para obter dados genealógicos e de levantamento.
Exemplos de dados genealógicos incluem nomes (primeiro, último, meio, sufixos), localizações de nascimento, data de nascimento, data de morte, informações sobre casamento, parentesco, histórico familiar e semelhantes.
Em alguns casos, o histórico da família pode assumir a forma de um pedigree daquele indivíduo (por exemplo, os relacionamentos registrados na família). As informações de pedigree associadas a um usuário compreendem um ou mais nós especificados.
Cada nó especificado no pedigree representa os próprios indivíduos ou um ancestral do indivíduo correspondente a uma amostra de DNA armazenada.
Portanto, os nós representam membros de pedigree que são os próprios indivíduos ou indivíduos que poderiam ter passado o material genético para o indivíduo associado.
Os dados genealógicos também podem incluir conexões genéticas entre os usuários do sistema de computação 130. Exemplos de dados de pesquisa incluem informações sobre os fenótipos de um indivíduo, como características físicas (por exemplo, altura, cabelo, pigmentação da pele, sardas, sabor amargo, tipo de lóbulo da orelha, padrões de íris, calvície de padrão masculino, cabelo ondulado), fenótipos de bem-estar (por exemplo, tolerância à lactose, consumo de cafeína, resistência à malária, resistência a norovírus, desempenho muscular, rubor de álcool) e preferências pessoais (por exemplo, gostos e desgostos). O armazenamento de dados de usuário 205 também pode incluir informações inferidas das amostras de DNA armazenadas no armazenamento de DNA 210 e informações recebidas dos indivíduos. Por exemplo, informações relacionadas a quais indivíduos são geneticamente relacionados, como eles são relacionados, quantas gerações atrás eles compartilham ancestrais comuns, porcentagem compartilhada de IBD, de quais comunidades o indivíduo faz parte, variantes que o indivíduo carrega e assim por diante.
[0025] O armazenamento de dados de usuário 205 também inclui genótipos do indivíduo gerados a partir das amostras de DNA. Os genótipos podem ser gerados pelo mecanismo de processamento de amostra 220 ou um serviço de terceiros. O armazenamento de dados de usuário 205 também pode incluir haplótipos do indivíduo. Os haplótipos são gerados por fases dos genótipos. Em uma modalidade, o armazenamento de dados de usuário 205 contém informações sobre variantes conhecidas que o indivíduo correspondente é um portador (por exemplo, o tipo de variante, localização da variante, fenótipos associados à variante). Essas informações podem ser obtidas a partir do sistema de computação 130, um banco de dados de terceiros ou obtidas usando um software de terceiros.
[0026] O sistema de computação 130 mantém amostras de DNA de indivíduos no armazenamento de amostras de DNA
210. As amostras de DNA podem conter todo ou porções de DNA individual e metadados correspondentes. Os dados armazenados no armazenamento de amostras de DNA 210 podem armazenar uma ou mais amostras de DNA ligadas a um usuário. Em várias modalidades, o armazenamento de amostra de DNA 210 armazena um ponteiro para um local associado ao armazenamento de dados de usuário 205 associado ao indivíduo.
[0027] O mecanismo de processamento de amostra 220 recebe, processa e armazena dados recebidos a partir de um indivíduo através da interface de usuário 115 do dispositivo de usuário 110 ou o serviço de extração de DNA 125. Para coletar os dados de usuário (por exemplo, dados genealógicos e de pesquisa), o mecanismo de processamento de amostra pode ser configurado para fornecer uma interface de usuário interativa no dispositivo de usuário 110 que fornece elementos de interface em que os usuários podem fornecer dados genealógicos e dados de pesquisa. Esses dados podem ser fornecidos manualmente ou extraídos automaticamente por meio de, por exemplo, reconhecimento ótico de caracteres (OCR) realizado em registros de censo, registros municipais ou governamentais ou qualquer outro item de material impresso ou on-line.
[0028] Para coletar amostras de DNA, o mecanismo de processamento de amostra 220 é configurado para receber amostras de DNA por meio do serviço de extração de DNA 125 ou dados de amostra a partir de fontes de terceiros. O mecanismo de processamento de amostra 220 pode enviar as amostras de DNA para o armazenamento de amostra de DNA 210 e para o mecanismo de faseamento 225. O mecanismo de processamento de amostra 220 identifica SNPs autossômicos de modo que o genótipo diplóide do indivíduo em cromossomos autossômicos possa ser computacionalmente faseado. Por exemplo, para um indivíduo 700.000 SNPs autossômicos podem ser identificados para estimar a fase de genótipo. O mecanismo de processamento de amostra 220 fornece os SNPs identificados para o mecanismo de faseamento 225 que faseia o genótipo diplóide do indivíduo com base no conjunto de SNPs identificados para gerar um conjunto de haplótipos para cada usuário.
[0029] O mecanismo de faseamento 225 faseia amostras de DNA de modo que os haplótipos de um indivíduo possam ser usados pelo mecanismo de estimativa de IBD 230, mecanismo de originação de variante 235 e mecanismo de previsão de comunidade 240. Os conjuntos de haplótipos são usados pelo mecanismo de originação de variante 235 para caracterizar variantes de interesse. Os conjuntos de haplótipos também são usados pelo mecanismo de previsão de comunidade 240 para determinar a associação de um indivíduo em uma comunidade. O mecanismo de faseamento 225 gera um par de haplótipos estimados para cada genótipo diplóide. Os haplótipos estimados são armazenados no armazenamento de dados de usuário 205 e no armazenamento de rede de IBD 215. O mecanismo de faseamento 225 armazena genótipos faseados no armazenamento de dados de usuário 205. Para fasear um conjunto de genótipos para gerar dois conjuntos de dados de haplótipos, o Pedido de Patente dos EUA No. 15/591.099, intitulado "Modelos de faseamento de haplótipo", depositado em 19 de outubro de 2015 é incorporado por referência para todos os fins.
[0030] O mecanismo de estimativa de IBD 230 estima segmentos de IBD a partir de dados de genótipos faseados (haplótipos) entre pares de indivíduos armazenados no armazenamento de dados de usuário 205. Os segmentos de IBD são segmentos cromossômicos identificados em um par de indivíduos que são supostamente herdados de um ancestral comum recente. Normalmente, os indivíduos que estão intimamente relacionados compartilham um número relativamente grande de segmentos de IBD, e os segmentos de IBD tendem a ter maior comprimento (individualmente ou em agregado em um ou mais cromossomos), enquanto os indivíduos que estão mais distantemente relacionados compartilham relativamente poucos segmentos de IBD, e esses segmentos tendem a ser mais curtos (individualmente ou em agregado em um ou mais cromossomos). Por exemplo, embora parentes próximos muitas vezes compartilhem mais de 71 cM de IBD (por exemplo, primos de terceiro grau), indivíduos mais remotamente relacionados podem compartilhar menos de 12 cM de IBD. A extensão da relação em termos de segmentos de IBD entre dois indivíduos pode ser referida como afinidade de IBD.
[0031] As estimativas de IBD são usadas para construir redes de IBD que identificam indivíduos que compartilham todo o genoma de IBD e/ou IBD em loci genéticos. O mecanismo de originação de variante 235 e o mecanismo de previsão de comunidade 240 usam essas redes para identificar indivíduos que são portadores de variantes particulares e indivíduos que fazem parte de uma comunidade genética.
[0032] Em algumas modalidades, a rede de IBD pode ser usada para construir conjuntos de dados, referidos como painéis de referência, que podem ser usados para treinar modelos. Esses modelos, por sua vez, podem ser usados para gerar uma previsão sobre quais agrupamentos são relevantes para um usuário hipotético, como um novo usuário, com base em uma amostra de seu DNA. Por exemplo, um agrupamento pode incluir indivíduos que são portadores de uma determinada variante, indivíduos que fazem parte de uma comunidade, indivíduos que compartilham IBD em um locus genético, etc. Para obter mais detalhes sobre agrupamento e geração de painéis de referência, Pedido de Patente dos EUA No. 15/168.011, intitulado “Descobrindo a Estrutura da População a Partir de Padrões de Identidade-Por-Linhagem”, é aqui incorporado por referência para todos os fins.
[0033] O mecanismo de originação de variante 235 caracteriza a origem de uma variante. A caracterização de uma variante pode fornecer informações sobre as origens, padrões de migração e distribuições geográficas históricas e contemporâneas de populações com uma variante de interesse. Como as variantes são frequentemente associadas a uma característica, doença ou outro fenótipo, aprender sobre a origem e distribuição de uma variante também pode contribuir para a compreensão da etiologia associada à característica, doença ou outro fenótipo. Para fazer isso, o mecanismo de originação de variante 235 realiza uma análise de enriquecimento nos dados genealógicos de usuários associados a uma variante para identificar localizações de nascimento enriquecidas durante períodos de tempo distintos. Em algumas modalidades, os usuários selecionam um conjunto de uma ou mais variantes alvo para caracterizar. Os usuários podem selecionar variantes alvo usando elementos de interface interativa de uma interface de usuário 115 em um dispositivo de usuário 110. A seleção de variante pode estar sujeita a critérios. Exemplos de critérios incluem frequência de alelo entre populações, literatura associada ou função conhecida, pressão de seleção, e herança autossômica ou ligada ao sexo.
[0034] O mecanismo de originação de variante 235 pode plotar os resultados da caracterização de variante em mapas de várias localizações geográficas. Os mapas e plotagens gráficos descritos são úteis porque em várias implementações eles podem ser apresentados a um usuário por meio da interface de usuário 115. No entanto, a geração real dos mapas e plotagens gráficos não é estritamente necessária para determinar as localizações geográficas para anotar para uma determinada variante. A descrição acima pode ser realizada inteiramente por meio de métodos não gráficos, isto é, por agrupar dados com base na afinidade de IBD nos loci genéticos de uma ou mais variantes de interesse, acessar dados genealógicos do agrupamento e realizar análise estatística nos dados genealógicos do agrupamento para determinar a caracterização da variante sem apresentar resultados para usuários em uma interface de usuário. Em algumas modalidades, o mecanismo de originação de variante 235 gera um relatório da caracterização de variante para usuários que enviaram genótipos e registros familiares históricos e foram identificados como prováveis portadores da variante. Por exemplo, o relatório pode incluir as distribuições atuais e históricas, fenótipos associados à variante, de quais membros da família / ancestrais a característica foi herdada, anos e localizações de origem da variante e semelhantes. O relatório pode ser apresentado em uma interface de usuário para os indivíduos no agrupamento.
[0035] O mecanismo de previsão de comunidade 240 identifica a quais comunidades um indivíduo pertence usando modelos específicos de comunidade treinados. Portanto, o processo de treinamento resulta em uma coleção de modelos que são configurados para prever se um determinado indivíduo pertence ou não a cada comunidade. Por exemplo, o mecanismo de previsão de comunidade 240 identifica que cada usuário pode ser classificado em zero, uma ou mais comunidades. O treinamento e o teste do modelo são discutidos em detalhes abaixo.
[0036] Uma vez que os modelos foram treinados, o mecanismo de previsão de comunidade 240 pode usar os modelos para prever quais, se houver, comunidades de um novo usuário é membro com base na amostra genética do novo usuário. O sistema pode usar essas previsões da comunidade para fornecer um relatório detalhando a associação prevista da comunidade do indivíduo, sem a necessidade de reconstruir redes IBD ou treinar novamente os modelos. Em algumas modalidades, o relatório inclui as classificações binárias para as comunidades às quais o usuário pertence. Em outras modalidades, o relatório inclui a parte da amostra de DNA de um usuário que pertence a cada comunidade. Por exemplo, um relatório pode concluir que um usuário recebeu 30% de seu DNA de uma comunidade irlandesa e 70% de seu DNA de uma comunidade finlandesa. Para fazer isso, a quantidade de sobreposição entre os haplótipos de um usuário e um grupo de haplótipos representativos de uma comunidade é usada para determinar a porção de DNA que um usuário herdou de uma determinada comunidade.
[0037] A Figura 3A ilustra uma rede de identidade- por-linhagem (IBD) 300 mostrando o compartilhamento de IBD em loci genéticos, de acordo com uma modalidade. Uma rede de
IBD inclui nós, cada um correspondendo a um dos indivíduos a partir do armazenamento de dados de usuário 205. Cada borda entre um nó e outro nó tem um peso, um valor numérico, com base na estimativa de IBD entre os dois nós. Por exemplo, uma borda pode representar uma afinidade de IBD entre dois nós em uma rede de IBD. Mais especificamente, o mecanismo de estimativa de IBD 230 define um mapeamento (também chamado de "medida de afinidade") a partir do comprimento total dos segmentos de IBD compartilhados entre dois indivíduos (por exemplo, i e j) para o peso dos nós de ligação de borda i e j na rede. Em uma ou mais modalidades, a medida de afinidade é um número real entre 0 e 1. Por exemplo, se o comprimento total do segmento de IBD compartilhado entre os nós i e j for maior que 65 cM (por exemplo, primos de terceiro grau), então os nós de ligação de borda i e j recebem um valor de 0,97 ou maior. Alternativamente, se o comprimento total do segmento de IBD compartilhado for 4-10 cM ou menos (por exemplo, parentes distantes ou primos distantes), a borda pode receber um peso de 0.
[0038] O mecanismo de estimativa de IBD 230 pode particionar a rede de IBD em dois ou mais agrupamentos usando vários algoritmos. Os agrupamentos podem ser gerados para identificar indivíduos que compartilham IBD em um locus genético. Por exemplo, compartilhamento de IBD no locus genético de uma variante de interesse. Da mesma forma, agrupamentos podem ser gerados para identificar indivíduos que compartilham haplótipos que são representativos de uma comunidade. Por exemplo, compartilhamento de IBD nos loci genéticos de um conjunto de haplótipos que são enriquecidos apenas em uma determinada comunidade.
[0039] Um agrupamento e comunidade podem ser usados alternadamente em algumas circunstâncias. Dependendo da granularidade, vários agrupamentos podem representar diferentes comunidades genéticas, como grupos de raça e etnia, grupos de migração, ancestrais locais. Para uma rede de IBD, o sistema de computação 130 pode aplicar uma ou mais técnicas de agrupamento, como K-meios, agrupamento de Louvain, etc. para gerar um ou mais agrupamentos de nós. Por exemplo, em uma modalidade, os agrupamentos na rede de IBD são identificados pela seleção de agrupamentos que maximizam o objetivo de modularidade definido em relação à rede de IBD. Os agrupamentos identificados a partir de uma rede desta forma são frequentemente chamados de "comunidades". Embora algoritmos de maximização de modularidade possam ser empregados para identificar agrupamentos em uma ou mais modalidades, o termo "comunidade" não é usado no sentido técnico estrito de um agrupamento de maximização de modularidade, mas em vez disso é usado de forma mais geral para se referir a agrupamentos identificados em um rede, tomando qualquer uma das várias abordagens de agrupamento de rede existentes desenvolvidas nas áreas de análise de rede ou de aprendizado de máquina.
[0040] Os indivíduos na rede podem compartilhar todo o genoma de IBD ou podem compartilhar IBD em um locus genético. Como mostrado na Figura 3A, a rede de IBD 300 enfatiza indivíduos que compartilham IBD com portadores de uma variante de interesse no locus genético da variante de interesse. Os portadores, indivíduos que afirmam ser portadores da variante, são representados como nós maiores. Por exemplo, os nós (círculos) A 305, B 310, C 315, D 320 e
E 325 representam portadores da variante. Os pesos das bordas na rede podem ser calculados para identificar indivíduos que compartilham IBD no locus genético da variante de interesse. Indivíduos que compartilham IBD com portadores, mas não são portadores afirmativamente da variante, são representados como nós menores na rede, por exemplo, indivíduo 330. Os nós são conectados a outros nós na rede por meio de bordas. Por exemplo, o indivíduo 330 é conectado à portadora E 325 por meio da borda 335.
[0041] A Figura 3B ilustra o compartilhamento de IBD em loci genéticos em um cromossomo, de acordo com uma modalidade. Variantes de interesse podem ser detectadas utilizando o grau de IBD entre amostras conhecidas (amostras de DNA de indivíduos que afirmativamente carregam a variante) e amostras desconhecidas (amostras de DNA de indivíduos que afirmativamente não carregam a variante). Por exemplo, o sistema de computação 130 pode prever usuários adicionais que provavelmente são portadores da variante de interesse com base em uma quantidade de compartilhamento de IBD entre as amostras conhecidas e amostras desconhecidas. Em algumas modalidades, as amostras desconhecidas são comparadas com as amostras conhecidas no locus genético da variante de interesse. Na Figura 3B, as localizações genômicas em um cromossomo 340 são representadas ao longo do eixo x. O eixo y indica grupos de compartilhamento de IBD 345, onde cada linha é uma relação de IBD de amostra com amostras de portadores conhecidos. A cor ou grau de sombreamento indica o número de amostras que compartilham IBD em várias localizações ao longo do cromossomo. Quanto mais clara a cor ou o sombreamento, mais amostras compartilham o IBD naquele local. Por exemplo, a região branca ilustra correspondências que são confirmadas como tendo a variante, enquanto a amostra de compartilhamento de IBD de cor mais escura foi confirmada como não tendo a variante. Isso ilustra a eficácia da detecção de variantes desconhecidas em amostras que têm IBD para todo um subconjunto de amostras conhecidas por terem a variante. Espera-se que as amostras com IBD para apenas uma ou algumas das amostras não tenham a variante de interesse.
[0042] A Figura 4 ilustra um exemplo de local de nascimento enriquecido, de acordo com uma modalidade. Para caracterizar uma variante, o mecanismo de originação de variante 235 realiza uma análise de enriquecimento para identificar localizações de nascimento enriquecidas dentro de um agrupamento associado a uma variante. As localizações de nascimento enriquecidas são localizações de nascimento super-representadas em um agrupamento durante períodos distintos de tempo. Para gerar o agrupamento, o mecanismo de originação de variante 235 identifica indivíduos que são portadores da variante (“indivíduos de referência” ou “portadores”) e indivíduos que compartilham IBD com os portadores. Os portadores podem ser identificados usando informações armazenadas no armazenamento de dados de usuário 205, armazenamento de rede de IBD 215 ou informações de um serviço ou software de terceiros. Em algumas modalidades, os indivíduos são identificados se compartilharem todo o genoma IBD com um ou mais portadores. Por exemplo, os indivíduos são identificados se compartilham uma quantidade de limiar de IBD em todo o genoma com um ou mais portadores. Em outras modalidades, os indivíduos são identificados apenas se compartilham IBD com um ou mais portadores no locus genético do haplótipo da variante. Os indivíduos com DII no locus genético do haplótipo da variante também são portadores da variante. Isso ocorre porque se os indivíduos têm um segmento compartilhado de haplótipos há muito tempo, é provável que tenham todas as mesmas informações genéticas naquele haplótipo. Portanto, o mecanismo de originação de variante 235 pode usar uma rede de IBD de uma região abrangendo uma variante para identificar e caracterizar os indivíduos que podem ser portadores de uma variante alvo.
[0043] Os indivíduos são adicionados ao agrupamento com base na afinidade de IBD entre os portadores e os indivíduos que foi calculada pelo mecanismo de estimativa de IBD 230 usando os genótipos dos indivíduos. Por exemplo, os genótipos dos, por exemplo, genótipos 405A-D, foram usados para identificar os indivíduos 401 A, 401B, 401C e 401D como nós de um agrupamento associado a uma variante, por exemplo, Variante X. Em algumas modalidades, os indivíduos são adicionados para o agrupamento se a afinidade de IBD entre o indivíduo correspondente e um ou mais portadores estiver acima de uma afinidade de IBD de limiar. Ao identificar usuários adicionais que compartilham IBD com as transportadoras, o mecanismo de originação de variante 235 pode caracterizar a origem da variante com mais confiança estatística do que quando apenas portadores conhecidos são usados para caracterizar uma variante. No entanto, em algumas modalidades, as variantes podem ser caracterizadas usando apenas os dados de usuários que são portadores conhecidos da variante de interesse.
[0044] O mecanismo de originação de variante 230 extrai dados de usuário, como dados genealógicos associados a cada nó no agrupamento correspondente (por exemplo, dados genealógicos 410A-D), bem como os parentes do nó, como ancestrais. Exemplos de dados genealógicos podem incluir histórico familiar, datas de nascimento, localizações de nascimento, residências, datas de morte, ocupação, crenças políticas e/ou religiosas, casamentos e outros. Usando esses dados, o mecanismo de originação de variante 235 gera estatísticas para identificar localizações de nascimento enriquecidas. As estatísticas para identificar localizações de nascimento enriquecidas podem incluir uma razão de probabilidade e frequência. A razão de probabilidade é definida como a chance de que, em um determinado local, um indivíduo seja portador de uma variante sobre a chance de o indivíduo não ser portador da variante.
[0045] A frequência é definida como a fração de indivíduos nascidos em uma localização geográfica que carregam uma variante, característica, haplótipo, genótipo, etc. de interesse (e/ou compartilham IBD com indivíduos que carregam a variante de interesse) e o número total de indivíduos nascidos na localização geográfica. Um local de nascimento enriquecido pode ser definido como um conjunto de todos os pontos de grade de latitude-longitude arredondados com uma razão de probabilidade de pelo menos um limiar (por exemplo, 5) ou com uma frequência de registro de pelo menos um limiar (por exemplo, 0,9), indicando uma localização geográfica com um enriquecimento relativo das localizações de nascimento. Em outras modalidades, estatísticas diferentes podem ser usadas para identificar localizações de nascimento enriquecidas. A análise de enriquecimento pode ser repetida por períodos de tempo diferentes e distintos para caracterizar o histórico da variante. Por exemplo, a análise de enriquecimento para o agrupamento associado à Variante X identificou Detroit, Michigan como um local de nascimento enriquecido para o agrupamento durante um período distinto de tempo (por exemplo, entre 1930 DC e 1960 DC). Análises de enriquecimento adicionais podem ser realizadas durante períodos de tempo diferentes e adicionais para identificar a distribuição histórica da variante e/ou padrões de migração da Variante X. Os resultados da análise de enriquecimento e outros dados genealógicos do agrupamento são usados para caracterizar a variante associada ao agrupamento. Por exemplo, padrões de migração, distribuições atuais e históricas, expectativa de vida média, origem de variantes, etc. associados a uma variante podem ser identificados. A caracterização pode ser apresentada como um mapa, conforme discutido na Figura 5, em um relatório ou em qualquer outro formato apropriado. Para obter mais informações sobre qualquer análise de enriquecimento discutida nesta divulgação, a Publicação do Pedido de Patente dos EUA US 2017/0011042, intitulada “Análise Genética e Genealógica para Identificação de Local de Nascimento e Informações de Sobrenome” é incorporada por referência para todos os fins.
[0046] Em algumas modalidades, o mecanismo de originação de variante 235 pode avaliar a validade analítica de uma variante de uma população fundadora usando IBD como evidência. Se uma variante é conhecida por ter surgido de um fundador, o mecanismo de originação de variante 235 pode fornecer validação analítica dessa variante avaliando se os portadores conhecidos da variante compartilham IBD uns com os outros nos loci genéticos ao redor e incluindo a variante. Além disso, o mecanismo de originação de variante 235 confirma que nem todos os portadores conhecidos da variante compartilham IBD coletivamente com amostras de DNA que não são 'positivas' para a variante (por exemplo, amostras de DNA de indivíduos sabidamente não portadores da variante).
[0047] Como o mecanismo de estimativa de IBD 230 identifica usuários adicionais que compartilham IBD no locus genético de uma variante de interesse, o mecanismo de originação de variante 235 fornece a caracterização da variante para o usuário adicional. Em algumas modalidades, o mecanismo de originação de variante 235 adiciona o usuário adicional ao agrupamento e realiza novamente a análise de enriquecimento usando a amostra de DNA do usuário adicional e dados genealógicos usando vários testes estatísticos (por exemplo, teste exato de Fisher, teste qui-quadrado e semelhantes). Em algumas modalidades, análises semelhantes podem ser realizadas em fenótipos ou haplótipos para caracterizar um fenótipo ou haplótipo de interesse.
[0048] A Figura 5 ilustra representações gráficas de exemplo de localizações de nascimento enriquecidas com IBD- em-locus plotadas em várias localizações geográficas, de acordo com uma modalidade. Os mapas podem ser usados para visualizar distribuições geográficas conhecidas de uma variante comum. Além disso, os mapas podem ser usados para indicar possíveis origens e populações de fundo para qualquer variante rara escolhida. Em algumas modalidades, os usuários selecionam quais localizações geográficas devem ser incluídas no mapa. Em outras modalidades, as localizações geográficas são incluídas automaticamente no mapa com base nas localizações enriquecidas determinadas. Da mesma forma, em algumas modalidades, os usuários podem selecionar quais períodos de tempo devem ser incluídos no mapa, e em outras modalidades, períodos de tempo são incluídos automaticamente com base na caracterização da variante.
[0049] A ilustração 500 mostrada descreve as localizações de nascimento de indivíduos que nasceram entre os anos 1700 DC e 1800 DC, eram portadores de uma variante, característica, fenótipo, haplótipo, etc. de interesse e nasceram nos Estados Unidos ou Europa. É mostrado na Figura 5 que a variante está disseminada em todo o norte da Europa e na costa leste dos Estados Unidos. Além disso, a Costa Leste pode ter atuado como um ponto de entrada dos Estados Unidos para a variante. Os usuários também podem selecionar variantes diferentes ou adicionais para caracterizar usando uma interface de usuário. Para caracterizar variantes diferentes ou adicionais, os filtros estatísticos podem ser ajustados na quantidade de compartilhamento de IBD necessária para pertencer a uma população ou agrupamento. Filtros estatísticos ajustados são aplicados a indivíduos no agrupamento para produzir um agrupamento atualizado. Alternativamente, um novo agrupamento pode ser gerado com base nos loci genéticos das variantes de interesse diferentes e/ou adicionais.
[0050] Exemplos de estatísticas que são calculadas durante a análise de enriquecimento incluem razão de probabilidade e frequência. A razão de probabilidade é definida como a chance de que, em um determinado local, um indivíduo seja portador de uma variante sobre a chance de o indivíduo não ser portador da variante. O registro da razão de probabilidade 510 é usado para gerar um gráfico que representa visualmente pontos de grade em que as maiores razões de probabilidade de registro são indicadas visualmente por rótulos ou formas distinguíveis. Por exemplo, um círculo indica que o registro da razão de probabilidade está entre 1 e 3; uma estrela indica que o registro da razão de probabilidade está entre 3 e 5; um quadrado indica que o registro da razão de probabilidade está entre 5 e 7, etc. Dessa forma, as localizações do mapa gráfico destacadas correspondem às localizações de nascimento que são desproporcionalmente representadas por portadores da variante de interesse. Por exemplo, indivíduos nascidos na Dinamarca 525 entre 1700 DC e 1800 DC são provavelmente portadores de uma variante, por exemplo, Variante X.
[0051] A frequência é definida como a fração de indivíduos nascidos em uma localização geográfica que carregam uma variante, característica, haplótipo, genótipo, etc. de interesse (e/ou compartilham IBD com indivíduos que carregam a variante de interesse) e o número total de indivíduos nascidos na localização geográfica. A frequência pode ser calculada para períodos de tempo distintos para identificar a origem, padrões de migração e distribuições históricas e contemporâneas de uma variante, característica, haplótipo ou genótipo de interesse. A frequência de registro 515 é usada para gerar um gráfico que representa visualmente pontos de grade nos quais as maiores razões de frequência são indicadas visualmente por rótulos ou pelo tamanho do marcador. O tamanho do marcador indica uma frequência de registro 515 da variante em uma localização específica. Como mostrado, quanto maior o círculo, mais frequentemente os indivíduos nascidos em um determinado local são portadores da variante. Por exemplo, conforme mostrado na ilustração 500, na costa leste dos Estados Unidos 520, os indivíduos nascidos na Costa Leste eram frequentemente portadores da Variante X ou compartilhavam IBD com portadores da Variante X.
[0052] A Figura 6 ilustra a distinção visual de conjuntos de dados de DNA entre indivíduos dentro e fora de uma comunidade usando seus haplótipos 600, de acordo com uma modalidade. Essas distinções são usadas para prever se um indivíduo pertence ou não a uma comunidade. Para fazer isso, os haplótipos do usuário são inseridos em um ou mais dos modelos específicos de comunidade como um vetor de recurso. Cada modelo receberá um vetor de recurso diferente dependendo de quais recursos (isto é, haplótipos enriquecidos) foram selecionados e usados para treinar o modelo específico de comunidade, discutido abaixo. Os haplótipos enriquecidos são haplótipos que são comuns entre os membros de uma comunidade. Assim, o IBD estimado que é relevante para a classificação de comunidade será diferente para cada modelo (e, portanto, para cada comunidade). Em uma modalidade, cada modelo calcula uma pontuação, como uma pontuação binária, uma probabilidade ou uma possibilidade, como um valor p, para determinar se o vetor de recurso de entrada pertence à comunidade. Em uma implementação, um indivíduo é classificado como pertencente a uma determinada comunidade se a probabilidade calculada pelo modelo treinado exceder um valor numérico de limiar. Em algumas modalidades, o mecanismo de previsão de comunidade 240 define o valor numérico de limiar. Em outras modalidades,
os usuários podem selecionar o valor numérico de limiar. O limiar para classificar indivíduos em comunidades pode ser o mesmo ou diferente para cada modelo. A saída do módulo de previsão de comunidade inclui tanto uma classificação binária de que um indivíduo pertence a uma comunidade e a probabilidade de cada comunidade. Em algumas modalidades, a saída inclui a porção da amostra de DNA de um indivíduo que pertence a cada comunidade. Por exemplo, a quantidade de sobreposição entre os haplótipos de um usuário e um grupo de haplótipos representativos de uma comunidade pode ser usada para determinar a porção do DNA que um indivíduo herdou de uma determinada comunidade.
[0053] Na Figura 6, cada linha representa um indivíduo e cada coluna representa um haplótipo exclusivamente comum dentro de uma comunidade de interesse (por exemplo, haplótipos enriquecidos). Os haplótipos enriquecidos 601 são identificados usando a análise de enriquecimento descrita abaixo. Para visualizar mais facilmente a distinção entre os haplótipos de indivíduos que pertencem ou não a uma comunidade, os indivíduos 605 cujos haplótipos são mostrados acima da linha pontilhada pertencem à Comunidade A, e os indivíduos 610 cujos haplótipos são mostrados abaixo da linha pontilhada não pertencem à Comunidade A. Os haplótipos enriquecidos 601 não representam os haplótipos de um único indivíduo. Em vez disso, eles representam um conjunto de haplótipos que são mais representativos da comunidade e podem ser usados como recursos em um modelo e/ou classificador. Portanto, os indivíduos não precisam ter todos os haplótipos no conjunto de haplótipos, nem os indivíduos precisam ter todos os mesmos haplótipos de outros indivíduos para fazer parte da mesma comunidade.
[0054] Os indivíduos são identificados como pertencentes a uma comunidade com base no número de haplótipos enriquecidos de uma comunidade que eles possuem. Quanto mais haplótipos enriquecidos de uma comunidade eles carregam, maior a probabilidade de pertencerem a essa comunidade. Como mostrado, os indivíduos que possuem pelo menos um número de limiar de haplótipos enriquecidos da Comunidade A são membros da Comunidade A. Da mesma forma, os indivíduos que portam menos do que um número de limiar de haplótipos enriquecidos da Comunidade A não são membros da Comunidade A. Por exemplo, Indivíduo A 615 é um portador de 12 dos 15 haplótipos enriquecidos da Comunidade A, por exemplo, haplótipo 620 e haplótipo 630, e o Indivíduo H 625 é apenas um portador de 4 dos 15 haplótipos enriquecidos da Comunidade A.
[0055] Os modelos são treinados usando conjuntos de conjuntos de dados de treinamento e teste criados para cada comunidade. Os conjuntos de dados de treinamento e teste são gerados pelo faseamento dos genótipos de indivíduos que pertencem a uma comunidade de interesse e indivíduos que não pertencem à comunidade de interesse. O treinamento dos modelos pode ser supervisionado. Por exemplo, cada indivíduo nos conjuntos de dados de treinamento e teste pode ter um rótulo binário indicando se eles pertencem ou não à comunidade. Se um indivíduo é conhecido por pertencer a uma comunidade, ele é rotulado com um “1”. Da mesma forma, se um indivíduo é conhecido por não pertencer à comunidade, o indivíduo é rotulado com um “0”. Conjuntos de treinamento positivos compreendem grupos de haplótipos de indivíduos conhecidos por pertencerem a uma comunidade. Os conjuntos de treinamento negativos compreendem grupos de haplótipos de indivíduos que não pertencem a uma comunidade.
[0056] Os genótipos dos membros de comunidade são analisados para encontrar os haplótipos comuns em cada janela. Por exemplo, haplótipos comuns têm comprimentos de janela de 64, 128 e 512 SNPs). Uma análise de enriquecimento é realizada nos haplótipos comuns para descobrir quais haplótipos comuns são mais prováveis de serem observados na comunidade de interesse em comparação com outras comunidades ("haplótipos enriquecidos") 601. Em uma modalidade, os testes exatos de Fisher são usados durante a análise de enriquecimento para identificar haplótipos enriquecidos. Em outra modalidade, os testes de qui-quadrado são usados para identificar haplótipos enriquecidos. As correções de Bonferroni podem ser usadas para evitar falsos positivos. Os haplótipos enriquecidos, também chamados de haplótipos de referência, são usados como recursos em um modelo específico da comunidade. Os modelos podem ser lineares ou não lineares e podem incluir classificadores de floresta aleatórios, SVMs, redes neurais, árvores de decisão. Um vetor de recursos é gerado para cada indivíduo nos conjuntos de dados de treinamento e teste. Cada elemento no vetor de recurso corresponde a um haplótipo de referência, e o valor de cada elemento indica a presença ou ausência do haplótipo de referência no indivíduo. Por exemplo, se um indivíduo tem um recurso, o elemento correspondente no vetor de recurso tem um valor de “1”, e se o indivíduo não tem um recurso, o elemento correspondente no vetor de recurso tem um valor de
“0”.
[0057] O mecanismo de previsão de comunidade 240 gera um quadro de dados que inclui os indivíduos com seu vetor de recurso e o rótulo indicando se eles pertencem ou não à comunidade. O modelo é aplicado ao quadro de dados, e o desempenho do modelo é medido. A análise do modelo pode ser realizada várias vezes com base em um comprimento escolhido de haplótipos (por exemplo, 64, 128, 512 SNPs). Em algumas modalidades, haplótipos de comprimentos diferentes são misturados durante a análise. Em outras modalidades, haplótipos de um único comprimento são usados durante a análise. Os parâmetros e pesos do modelo final são escolhidos com base no desempenho do modelo.
[0058] A Figura 7 é um fluxograma ilustrando um método 700 de caracterização de uma variante, de acordo com uma modalidade. Uma amostra de DNA de um indivíduo é obtida
705. Os genótipos do indivíduo são determinados 710 com base na amostra de DNA. Um conjunto de amostras de DNA de referência é acessado 715. Cada amostra de DNA de referência está associada a um indivíduo de referência que é portador de um alelo (ou variante) em um locus genético. Um agrupamento que inclui os indivíduos de referência e indivíduos adicionais é gerado 720. O agrupamento pode ser gerado 720 com base na afinidade de IBD entre os indivíduos de referência e os indivíduos adicionais. Os indivíduos adicionais podem compartilhar IBD em todo o genoma com os indivíduos de referência ou IBD no locus genético da variante. São obtidos dados genealógicos dos indivíduos do agrupamento. Por exemplo, o local de nascimento e o ano de nascimento de cada indivíduo no agrupamento e os ancestrais de cada indivíduo. Estatísticas dos dados genealógicos do agrupamento são geradas 725. Por exemplo, a razão de probabilidade e a frequência da variante são geradas 725 para identificar localizações de nascimento enriquecidas do agrupamento. Uma vez que é determinado 730 que o indivíduo compartilha IBD com o agrupamento no locus genético, um relatório resumindo uma caracterização da variante com base nas estatísticas dos dados genealógicos é fornecido 735 para exibição. Em outras modalidades, os usuários podem acessar caracterizações de variantes, traços, fenótipos, haplótipos, etc., sem compartilhar IBD com indivíduos que são portadores.
[0059] A Figura 8 é um fluxograma ilustrando um método 800 de uso de um modelo para prever se um indivíduo é membro de uma comunidade, de acordo com uma modalidade. Um conjunto de dados de DNA é obtido 805 de um indivíduo. Os genótipos do indivíduo são determinados 810 com base no conjunto de dados de DNA. Os genótipos do indivíduo são faseados 815 para gerar haplótipos do indivíduo. Um subconjunto de haplótipos do indivíduo é selecionado 820. Por exemplo, um subconjunto de haplótipos é selecionado com base em uma comunidade de interesse. Um subconjunto diferente de haplótipos pode ser selecionado para cada comunidade de interesse. O subconjunto de haplótipos é inserido 825 em um modelo que foi treinado usando amostras de treinamento. Cada amostra de treinamento inclui um grupo de haplótipos de um indivíduo de referência e um rótulo identificando se o indivíduo de referência pertence a uma comunidade. Com base na saída do modelo, é determinado 830 se o indivíduo é membro da comunidade. Para determinar se um indivíduo é membro de comunidades adicionais, diferentes subconjuntos de haplótipos são inseridos em diferentes modelos específicos de comunidade. Por exemplo, existem modelos para determinar se um indivíduo pertence a uma comunidade irlandesa, judaica ou finlandesa.
[0060] A Figura 9 é um fluxograma ilustrando um método adicional 900 de caracterização de uma variante, de acordo com uma modalidade. Um pedido para gerar um relatório de um conjunto alvo de uma ou mais variantes de um usuário de um sistema de computação é recebido 905. Um grupo de uma ou mais portadoras que são conhecidas por transportar a uma ou mais variantes especificadas no conjunto alvo é identificado 910. Conjuntos de dados de DNA dos portadores são acessados 915. Conjuntos de dados de DNA de indivíduos adicionais que compartilham Identidade-por-Linhagem (IBD) com pelo menos um dos portadores em um locus genético que inclui a uma ou mais variantes especificadas no conjunto alvo são acessados 920. Os dados genealógicos dos portadores e dos indivíduos adicionais são acessados 925. Um resultado resumindo uma caracterização da uma ou mais variantes com base em uma associação entre uma ou mais variantes e os dados genealógicos dos portadores e os indivíduos adicionais é gerado 930. IV. Considerações adicionais
[0061] A descrição anterior das modalidades foi apresentada com o propósito de ilustração; não pretende ser exaustiva ou limitar os direitos de patente às formas precisas divulgadas. Pessoas versadas na técnica relevante podem apreciar que muitas modificações e variações são possíveis à luz da divulgação acima.
[0062] Algumas partes desta descrição descrevem as modalidades em termos de algoritmos e representações simbólicas de operações na informação. Estas descrições e representações algorítmicas são comumente usadas por aqueles versados nas artes de processamento de dados para transmitir a substância de seu trabalho de forma eficaz para outros versados na técnica. Estas operações, embora descritas funcionalmente, computacionalmente ou logicamente, são entendidas como implementadas por programas de computador ou circuitos elétricos equivalentes, microcódigo ou semelhantes. Além disso, também tem se mostrado conveniente, às vezes, referir-se a esses arranjos de operações como motores, sem perda de generalidade. As operações descritas e seus motores associados podem ser incorporados em software, firmware, hardware ou qualquer combinação dos mesmos.
[0063] Qualquer um dos passos, operações ou processos descritos neste documento podem ser realizados ou implementados com um ou mais mecanismos de hardware ou software, sozinho ou em combinação com outros dispositivos. Em uma modalidade, um mecanismo de software é implementado com um produto de programa de computador que compreende um meio legível por computador contendo código de programa de computador, que pode ser executado por um processador de computador para realizar qualquer um ou todos os passos, operações ou processos descritos.
[0064] As modalidades também podem se referir a um aparelho para realizar as operações neste documento. Este aparelho pode ser especialmente construído para os fins requeridos e/ou pode compreender um dispositivo de computação de propósito geral seletivamente ativado ou reconfigurado por um programa de computador armazenado no computador. Tal programa de computador pode ser armazenado em um meio de armazenamento legível por computador não transitório tangível, ou qualquer tipo de meio adequado para armazenar instruções eletrônicas, que pode ser acoplado a um barramento de sistema de computador. Além disso, quaisquer sistemas de computação referidos no relatório descritivo podem incluir um único processador ou podem ser arquiteturas que empregam projetos de múltiplos processadores para aumentar a capacidade de computação.
[0065] As modalidades também podem se referir a um produto que é produzido por um processo de computação aqui descrito. Tal produto pode compreender informações resultantes de um processo de computação, onde as informações são armazenadas em um meio de armazenamento legível por computador não transitório tangível e pode incluir qualquer modalidade de um produto de programa de computador ou outra combinação de dados aqui descrita.
[0066] Finalmente, a linguagem usada no relatório descritivo foi selecionada principalmente para fins de leitura e instrução, e pode não ter sido selecionada para delinear ou circunscrever os direitos de patente. Pretende- se, portanto, que o escopo dos direitos de patente seja limitado não por esta descrição detalhada, mas sim por quaisquer reivindicações que sejam emitidas em uma solicitação baseada neste documento. Consequentemente, a divulgação das modalidades se destina a ser ilustrativa, mas não limitativa, do escopo dos direitos de patente.

Claims (73)

REIVINDICAÇÕES
1. Método implementado por computador, caracterizado pelo fato de que compreende: receber uma solicitação para gerar um relatório de um conjunto alvo de uma ou mais variantes de um usuário de um sistema de computação; identificar um grupo de um ou mais portadores que são conhecidos por transportar a uma ou mais variantes especificadas no conjunto alvo; acessar conjuntos de dados de DNA dos portadores; acessar conjuntos de dados de DNA de indivíduos adicionais que compartilham Identidade por Linhagem (IBD) com pelo menos um dos portadores em um lócus genético que inclui a uma ou mais variantes especificadas no conjunto alvo; acessar dados genealógicos dos portadores e dos indivíduos adicionais; e gerar um resultado resumindo uma caracterização da uma ou mais variantes com base em uma associação entre uma ou mais variantes e os dados genealógicos dos portadores e os indivíduos adicionais.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que gerar o resultado compreende: realizar uma análise de enriquecimento nos dados genealógicos dos portadores e dos indivíduos adicionais para determinar um conjunto de localizações de nascimento enriquecidas; identificar uma ou mais localizações no conjunto de localizações de nascimento enriquecidas que são associadas a uma origem da uma ou mais variantes; e identificar uma distribuição da uma ou mais variantes com base nos resultados da análise de enriquecimento.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que gerar o resultado compreende: construir um mapa mostrando a caracterização da uma ou mais variantes em várias localizações geográficas, a caracterização da uma ou mais variantes incluindo um ou mais de um histórico da variante, uma origem da variante, um padrão de migração da variante ou uma distribuição atual da variante.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a caracterização da uma ou mais variantes é exibida em um mapa de várias localizações geográficas indicando a caracterização da uma ou mais variantes dentro das várias localizações geográficas.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o mapa das várias localizações geográficas está associado a um período de tempo distinto indicando um ou mais de: um período de tempo associado a um histórico da variante, um período de tempo associado a uma origem da variante, um período de tempo associado a um padrão de migração da variante ou um período de tempo associado a uma distribuição atual da variante.
6. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a caracterização da uma ou mais variantes compreende ainda: realizar uma análise de enriquecimento nos dados genealógicos do agrupamento para identificar uma ou mais localizações enriquecidas associadas a uma ou mais variantes.
7. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os dados genealógicos incluem localizações de nascimento, datas de nascimento, histórico familiar, ocupações, residências, casamentos, datas de morte.
8. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que gerar um resultado resumindo uma caracterização de uma ou mais variantes compreende ainda: realizar uma análise de enriquecimento dos dados genealógicos dentro de um período distinto de tempo para determinar um conjunto de localizações enriquecidas dentro do período distinto de tempo.
9. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda: receber uma solicitação para representar uma variante diferente; em resposta à recepção da solicitação: identificar um segundo grupo de um ou mais portadores que são conhecidos por transportar a variante diferente; acessar conjuntos de dados de DNA do segundo grupo de um ou mais portadores; acessar conjuntos de dados de DNA de indivíduos que compartilham Identidade por Linhagem (IBD) com pelo menos um dos portadores do segundo grupo de portadores em um lócus genético que inclui a variante diferente; acessar dados genealógicos do segundo grupo de um ou mais portadores e dos indivíduos; e fornecer para exibição um relatório resumindo uma caracterização das diferentes variantes, a caracterização baseada nos dados genealógicos do segundo grupo de um ou mais portadores e dos indivíduos.
10. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda: determinar uma validade analítica de um ensaio para uma variante no conjunto alvo de uma ou mais variantes por: determinar que os conjuntos de dados de DNA dos portadores e dos indivíduos adicionais compartilham IBD uns com os outros em um lócus genético da variante; e determinar que os conjuntos de dados de DNA dos portadores e dos indivíduos adicionais não compartilham IBD com indivíduos que são conhecidos por não serem portadores da variante no lócus genético da variante.
11. Método implementado por computador, caracterizado pelo fato de que compreende: obter um conjunto de dados de DNA de um indivíduo; determinar genótipos do indivíduo com base no conjunto de dados de DNA; acessar um conjunto de conjuntos de dados de DNA de referência, cada conjunto de dados de DNA de referência no conjunto de conjuntos de dados de DNA de referência está associado a um indivíduo de referência, cada indivíduo de referência é um portador de uma variante em um lócus genético; gerar um agrupamento compreendendo os indivíduos de referência e indivíduos adicionais que compartilham a Identidade por Linhagem (IBD) com os indivíduos de referência, o agrupamento gerado com base na afinidade de IBD entre os indivíduos de referência e os indivíduos adicionais; gerar estatísticas de dados genealógicos do agrupamento;
determinar que o indivíduo compartilha IBD com o agrupamento no lócus genético; e fornecer para exibição um relatório resumindo uma caracterização da variante, a caracterização com base nas estatísticas dos dados genealógicos do agrupamento.
12. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que compreende ainda: adicionar o indivíduo ao agrupamento com base na afinidade de IBD entre os indivíduos de referência e o indivíduo para produzir um agrupamento atualizado; gerar estatísticas dos dados genealógicos do agrupamento atualizado; e fornecer para exibição um relatório resumindo uma caracterização da variante, a caracterização com base nas estatísticas dos dados genealógicos do agrupamento atualizado.
13. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a caracterização da variante inclui um ou mais de: um histórico da variante, uma origem da variante, um padrão de migração da variante e uma distribuição atual da variante.
14. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que a caracterização da variante é exibida em um mapa de várias localizações geográficas indicando a caracterização da variante dentro das várias localizações geográficas.
15. Método, de acordo com a reivindicação 14, caracterizado pelo fato de que o mapa das várias localizações geográficas está associado a um período de tempo distinto indicando um ou mais de: um período de tempo associado a um histórico da variante, um período de tempo associado a uma origem do variante, um período de tempo associado a um padrão de migração da variante ou um período de tempo associado a uma distribuição atual da variante.
16. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que gerar estatísticas dos dados genealógicos compreende ainda: realizar uma análise de enriquecimento nos dados genealógicos do agrupamento para identificar uma ou mais localizações enriquecidas associadas à variante.
17. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que os dados genealógicos incluem localizações de nascimento, datas de nascimento, histórico familiar, ocupações, residências, casamentos, datas de morte.
18. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que o agrupamento compreende uma pluralidade de nós, em que cada nó corresponde a um indivíduo de referência ou um indivíduo adicional que compartilha IBD com os indivíduos de referência, e em que as bordas entre os nós indicam afinidade de IBD entre os indivíduos de referência e os indivíduos adicionais.
19. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que gerar estatísticas de dados genealógicos compreende ainda: realizar uma análise de enriquecimento dos dados genealógicos dentro de um período de tempo distinto para determinar um conjunto de localizações enriquecidas dentro de um período de tempo distinto; e gerar estatísticas dos dados genealógicos no conjunto de localizações enriquecidas para o período distinto de tempo.
20. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que compreende ainda: receber uma solicitação para representar uma variante diferente; em resposta à recepção da solicitação, aplicar filtros estatísticos em uma quantidade de compartilhamento de IBD necessária para pertencer ao agrupamento para produzir um agrupamento atualizado; gerar estatísticas dos dados genealógicos do agrupamento atualizado; e fornecer para exibição um relatório resumindo uma caracterização das diferentes variantes, a caracterização baseada nas estatísticas dos dados genealógicos do agrupamento atualizado.
21. Método, de acordo com a reivindicação 11, caracterizado pelo fato de que compreende ainda: determinar uma validade analítica de um ensaio para a variante por: determinar que os conjuntos de dados de DNA compartilham IBD uns com os outros no lócus genético da variante; e determinar que os conjuntos de dados de DNA do agrupamento não compartilham IBD com indivíduos que são conhecidos por não serem portadores da variante no lócus genético da variante.
22. Método implementado por computador, caracterizado pelo fato de que compreende: receber uma solicitação para representar uma variante alvo de um usuário de um sistema de computação;
acessar conjuntos de dados de DNA de um grupo de um ou mais portadores que são conhecidos por transportar a variante alvo; gerar um agrupamento compreendendo o grupo de um ou mais portadores e indivíduos adicionais que compartilham Identidade por Linhagem (IBD) pelo menos um portador no grupo de um ou mais portadores, o agrupamento gerado com base na afinidade de IBD entre os portadores e os indivíduos adicionais; acessar dados genealógicos do agrupamento; e realizar uma análise de enriquecimento dos dados genealógicos; fornecer exibição de uma caracterização da variante alvo, a caracterização baseada em um resultado da análise de enriquecimento.
23. Método, de acordo com a reivindicação 22, caracterizado pelo fato de que a variante alvo está sujeita a critérios de seleção, os critérios de seleção incluindo pelo menos um de: uma frequência de alelo entre populações, uma literatura associada; uma função conhecida, uma pressão de seleção ou uma herança autossômica ou ligada ao sexo.
24. Método, de acordo com a reivindicação 22, caracterizado pelo fato de que os indivíduos adicionais compartilham IBD com pelo menos um portador no grupo de um ou mais portadores em um lócus genético da variante alvo.
25. Método, de acordo com a reivindicação 23, caracterizado pelo fato de que os indivíduos adicionais compartilham todo o genoma IBD com pelo menos um portador no grupo de um ou mais portadores.
26. Método, de acordo com a reivindicação 22,
caracterizado pelo fato de que os dados genealógicos do agrupamento incluem anos de nascimento e localizações de nascimento.
27. Método, de acordo com a reivindicação 22, caracterizado pelo fato de que fornecer exibição de uma caracterização da variante alvo compreende ainda: gerar um mapa de várias localizações geográficas resumindo a caracterização da variante alvo dentro das várias localizações geográficas.
28. Método, de acordo com a reivindicação 27, caracterizado pelo fato de que o mapa das várias localizações geográficas está associado a um período de tempo distinto indicando um ou mais de: um período de tempo associado a um histórico da variante alvo, um período de tempo associado a uma origem da variante alvo, um período de tempo associado a um padrão de migração da variante alvo ou um período de tempo associado a uma distribuição atual da variante alvo.
29. Método, de acordo com a reivindicação 22, caracterizado pelo fato de que realizar a análise de enriquecimento inclui identificar uma ou mais localizações de nascimento que estão super-representados no agrupamento durante um período de tempo distinto.
30. Meio de armazenamento legível por computador não transitório caracterizado pelo fato de que contém código de programa de computador que, quando executado por um ou mais processadores, faz com que um ou mais processadores executem passos compreendendo: receber uma solicitação para gerar um relatório de um conjunto alvo de uma ou mais variantes de um usuário de um sistema de computação;
identificar um grupo de um ou mais portadores que são conhecidos por transportar a uma ou mais variantes especificadas no conjunto alvo; acessar conjuntos de dados de DNA dos portadores; acessar conjuntos de dados de DNA de indivíduos adicionais que compartilham Identidade por Linhagem (IBD) com pelo menos um dos portadores em um lócus genético que inclui a uma ou mais variantes especificadas no conjunto alvo; acessar dados genealógicos dos portadores e dos indivíduos adicionais; e gerar um resultado resumindo uma caracterização da uma ou mais variantes com base em uma associação entre uma ou mais variantes e os dados genealógicos dos portadores e os indivíduos adicionais.
31. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 30, caracterizado pelo fato de que gerar o resultado compreende: realizar uma análise de enriquecimento nos dados genealógicos dos portadores e dos indivíduos adicionais para determinar um conjunto de localizações de nascimento enriquecidas; identificar uma ou mais localizações no conjunto de localizações de nascimento enriquecidas que são associadas a uma origem da uma ou mais variantes; e identificar uma distribuição da uma ou mais variantes com base nos resultados da análise de enriquecimento.
32. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 30, caracterizado pelo fato de que gerar o resultado compreende:
construir um mapa mostrando a caracterização da variante em várias localizações geográficas, a caracterização da variante incluindo um ou mais de um histórico da variante, uma origem da variante, um padrão de migração da variante ou uma distribuição atual da variante.
33. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 30, caracterizado pelo fato de que a caracterização da uma ou mais variantes é exibida em um mapa de várias localizações geográficas indicando a caracterização da uma ou mais variantes dentro das várias localizações geográficas.
34. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 30, caracterizado pelo fato de que o mapa das várias localizações geográficas está associado a um período de tempo distinto indicando um ou mais de: um período de tempo associado a um histórico da variante, um período de tempo associado a uma origem da variante, um período de tempo associado a um padrão de migração da variante ou um período de tempo associado a uma distribuição atual da variante.
35. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 30, caracterizado pelo fato de que a caracterização da uma ou mais variantes compreende ainda: realizar uma análise de enriquecimento nos dados genealógicos do agrupamento para identificar uma ou mais localizações enriquecidas associadas a uma ou mais variantes.
36. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 30, caracterizado pelo fato de que os dados genealógicos incluem localizações de nascimento, datas de nascimento, histórico familiar, ocupações, residências, casamentos, datas de morte.
37. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 30, caracterizado pelo fato de que gerar um resultado resumindo uma caracterização de uma ou mais variantes compreende ainda: realizar uma análise de enriquecimento dos dados genealógicos dentro de um período distinto de tempo para determinar um conjunto de localizações enriquecidas dentro do período distinto de tempo.
38. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 30, caracterizado pelo fato de que contém ainda código de programa de computador que, quando executado pelo processador de hardware, faz com que o processador de hardware realize passos compreendendo: determinar uma validade analítica de um ensaio para uma variante no conjunto alvo de uma ou mais variantes por: determinar que os conjuntos de dados de DNA dos portadores e dos indivíduos adicionais compartilham IBD uns com os outros em um lócus genético da variante; e determinar que os conjuntos de dados de DNA dos portadores e dos indivíduos adicionais não compartilham IBD com indivíduos que são conhecidos por não serem portadores da variante no lócus genético da variante.
39. Meio de armazenamento legível por computador não transitório caracterizado pelo fato de que armazena código de programa de computador que, quando executado por um ou mais processadores, faz com que um ou mais processadores realizem passos compreendendo: obter um conjunto de dados de DNA de um indivíduo; determinar genótipos do indivíduo com base no conjunto de dados de DNA; acessar um conjunto de conjuntos de dados de DNA de referência, cada conjunto de dados de DNA de referência no conjunto de conjuntos de dados de DNA de referência está associado a um indivíduo de referência, cada indivíduo de referência é um portador de uma variante em um lócus genético; gerar um agrupamento compreendendo os indivíduos de referência e indivíduos adicionais que compartilham a Identidade por Linhagem (IBD) com os indivíduos de referência, o agrupamento gerado com base na afinidade de IBD entre os indivíduos de referência e os indivíduos adicionais; gerar estatísticas de dados genealógicos do agrupamento; determinar que o indivíduo compartilha IBD com o agrupamento no lócus genético; e fornecer para exibição um relatório resumindo uma caracterização da variante, a caracterização com base nas estatísticas dos dados genealógicos do agrupamento.
40. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 39, caracterizado pelo fato de que compreende ainda código que, quando executado pelo processador de hardware, faz com que o processador de hardware realize passos compreendendo: adicionar o indivíduo ao agrupamento com base na afinidade de IBD entre os indivíduos de referência e o indivíduo para produzir um agrupamento atualizado;
gerar estatísticas dos dados genealógicos do agrupamento atualizado; e fornecer para exibição um relatório resumindo uma caracterização da variante, a caracterização com base nas estatísticas dos dados genealógicos do agrupamento atualizado.
41. Meio de armazenamento legível por computador não transitório 39, caracterizado pelo fato de que a caracterização da variante inclui um ou mais de: um histórico da variante, uma origem da variante, um padrão de migração da variante e uma distribuição atual da variante.
42. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 39, caracterizado pelo fato de que a caracterização da variante é exibida em um mapa de várias localizações geográficas indicando a caracterização da variante dentro das várias localizações geográficas.
43. Meio de armazenamento legível por computador não transitório 42, caracterizado pelo fato de que o mapa das várias localizações geográficas está associado a um período de tempo distinto indicando um ou mais de: um período de tempo associado a um histórico da variante, um período de tempo associado com uma origem da variante, um período de tempo associado a um padrão de migração da variante ou um período de tempo associado a uma distribuição atual da variante.
44. Meio de armazenamento legível por computador não transitório 39, caracterizado pelo fato de que gerar estatísticas dos dados genealógicos compreende ainda: realizar uma análise de enriquecimento nos dados genealógicos do agrupamento para identificar uma ou mais localizações enriquecidas associadas à variante.
45. Meio de armazenamento legível por computador não transitório 39, caracterizado pelo fato de que os dados genealógicos incluem localizações de nascimento, datas de nascimento, histórico familiar, ocupações, residências, casamentos, datas de morte.
46. Meio de armazenamento legível por computador não transitório 39, caracterizado pelo fato de que o agrupamento compreende uma pluralidade de nós, em que cada nó corresponde a um indivíduo de referência ou um indivíduo adicional que compartilha IBD com os indivíduos de referência, e em que as bordas entre os nós indicam afinidade de IBD entre os indivíduos de referência e os indivíduos adicionais.
47. Meio de armazenamento legível por computador não transitório 39, caracterizado pelo fato de que compreende ainda código de programa de computador que, quando executado pelo processador de hardware, faz com que o processador de hardware realize passos compreendendo: determinar uma validade analítica de um ensaio para a variante por: determinar que os conjuntos de dados de DNA compartilham IBD uns com os outros no lócus genético da variante; e determinar que os conjuntos de dados de DNA do agrupamento não compartilham IBD com indivíduos que são conhecidos por não transportar a variante no lócus genético da variante.
48. Meio de armazenamento legível por computador não transitório que armazena código de programa de computador,
quando executado por um ou mais processadores, faz com que um ou mais processadores realizem passos caracterizado pelo fato de que compreende: receber uma solicitação para representar uma variante alvo de um usuário de um sistema de computação; acessar conjuntos de dados de DNA de um grupo de um ou mais portadores que são conhecidos por transportar a variante alvo; gerar um agrupamento compreendendo o grupo de um ou mais portadores e indivíduos adicionais que compartilham Identidade por Linhagem (IBD) pelo menos um portador no grupo de um ou mais portadores, o agrupamento gerado com base na afinidade de IBD entre os portadores e os indivíduos adicionais; acessar dados genealógicos do agrupamento; e realizar uma análise de enriquecimento dos dados genealógicos; fornecer exibição de uma caracterização da variante alvo, a caracterização baseada em um resultado da análise de enriquecimento.
49. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 48, caracterizado pelo fato de que a variante alvo é selecionada com base em critérios que incluem pelo menos um de: uma frequência de alelo entre populações, uma literatura associada; uma função conhecida, uma pressão de seleção ou uma herança autossômica ou ligada ao sexo.
50. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 48, caracterizado pelo fato de que os indivíduos adicionais compartilham IBD com pelo menos um portador no grupo de um ou mais portadores em um lócus genético da variante alvo.
51. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 48, caracterizado pelo fato de que os indivíduos adicionais compartilham todo o genoma de IBD com pelo menos um portador no grupo de um ou mais portadores.
52. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 48, caracterizado pelo fato de que os dados genealógicos dos agrupamentos incluem anos de nascimento e localizações de nascimento.
53. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 48, caracterizado pelo fato de que fornecer exibição de uma caracterização da variante alvo compreende ainda: gerar um mapa de várias localizações geográficas indicando a caracterização da variante alvo dentro das várias localizações geográficas.
54. Método, caracterizado pelo fato de que compreende: obter um conjunto de dados de DNA de um indivíduo; determinar genótipos do indivíduo com base no conjunto de dados de DNA; fasear os genótipos para gerar haplótipos do indivíduo; selecionar um subconjunto de haplótipos do indivíduo; inserir o subconjunto de haplótipos do indivíduo em um modelo, o modelo treinado com base em amostras de treinamento, cada amostra de treinamento compreendendo um grupo de haplótipos de um indivíduo de referência e um rótulo identificando se o indivíduo de referência pertence a uma comunidade, os indivíduos de referência que pertencem à comunidade tendo o grupo de haplótipos que é representativo da comunidade; e determinar se o indivíduo é um membro da comunidade com base em uma saída do modelo.
55. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que o modelo é treinado por: fasear genótipos dos indivíduos de referência; identificar haplótipos comuns em cada janela dos genótipos; realizar uma análise de enriquecimento nos haplótipos comuns para identificar um conjunto de haplótipos enriquecidos; gerar um vetor de características para cada indivíduo de referência, o vetor de características tem um conjunto de elementos binários, cada um associado a um haplótipo enriquecido, o valor de cada elemento binário indicando se o indivíduo de referência tem o haplótipo enriquecido; gerar um quadro de dados que inclui os indivíduos de referência com seu vetor de característica e o rótulo identificando se o indivíduo de referência pertence à comunidade; aplicar o modelo ao quadro de dados, os haplótipos enriquecidos são características do modelo; e ajustar os parâmetros do modelo com base em um desempenho do modelo.
56. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que pelo menos uma amostra de treinamento positiva das amostras de treinamento é gerada por: fasear um conjunto de dados de DNA de um dos indivíduos de referência que pertence à comunidade para gerar haplótipos dos indivíduos de referência; realizar uma análise de enriquecimento dos haplótipos em relação à comunidade; e identificar um ou mais grupos de haplótipos do indivíduo de referência que são representativos da comunidade; extrair um ou mais grupos de haplótipos como a amostra de treinamento positiva; associar a amostra de treinamento positiva com um rótulo positivo que o indivíduo de referência pertence à comunidade.
57. Método, de acordo com a reivindicação 56, caracterizado pelo fato de que pelo menos uma amostra de treinamento negativa das amostras de treinamento é gerada por: recuperar um conjunto de dados de DNA de um indivíduo de referência que não pertence à comunidade; extrair um ou mais grupos de haplótipos como amostra de treinamento negativa, o um ou mais grupos de haplótipos extraídos estando no mesmo loci genéticos do um ou mais grupos de haplótipos do um dos indivíduos de referência que pertence à comunidade; e associar a amostra de treinamento negativa com um rótulo negativo que o indivíduo de referência não pertence à comunidade.
58. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que o modelo é um classificador binário treinado para emitir um resultado que rotula se o indivíduo é um membro da comunidade.
59. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que o modelo é um classificador de floresta aleatório, máquina de vetor de suporte ou uma rede neural.
60. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que o modelo determina uma parte do subconjunto de haplótipos do indivíduo que são representativos da comunidade.
61. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que determinar se o indivíduo é um membro da comunidade compreende ainda determinar uma quantidade total de haplótipos comuns entre o indivíduo e os indivíduos de referência que pertencem à comunidade.
62. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que um haplótipo comum é uma quantidade total de haplótipos comuns a partir de um ou mais cromossomos que são herdados de um ancestral que é comum ao indivíduo e um dos indivíduos de referência.
63. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que os haplótipos de referência são identificados usando uma análise de enriquecimento para determinar quais haplótipos são mais prováveis de serem observados em uma comunidade.
64. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que o modelo é um classificador não linear selecionado de um grupo que consiste em uma máquina de vetor de suporte, uma ou mais árvores de decisão ou uma rede neural.
65. Método, de acordo com a reivindicação 54, caracterizado pelo fato de que loci genéticos do subconjunto de haplótipos do indivíduo correspondem aos mesmos loci genéticos do grupo de haplótipos de pelo menos uma das amostras de treinamento.
66. Meio de armazenamento legível por computador não transitório contendo código de programa de computador que, quando executado por um ou mais processadores, faz com que um ou mais processadores executem passos caracterizado pelo fato de que compreende: obter um conjunto de dados de DNA de um indivíduo; determinar genótipos do indivíduo com base no conjunto de dados de DNA; fasear os genótipos para gerar haplótipos do indivíduo; selecionar um subconjunto de haplótipos do indivíduo; inserir o subconjunto de haplótipos do indivíduo em um modelo, o modelo treinado com base em amostras de treinamento, cada amostra de treinamento compreendendo um grupo de haplótipos de um indivíduo de referência e um rótulo identificando se o indivíduo de referência pertence a uma comunidade, os indivíduos de referência que pertencem à comunidade tendo o grupo de haplótipos que é representativo da comunidade; e determinar se o indivíduo é um membro da comunidade com base em uma saída do modelo.
67. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 66, caracterizado pelo fato de que o modelo é treinado por: fasear genótipos dos indivíduos de referência; identificar haplótipos comuns em cada janela dos genótipos; realizar uma análise de enriquecimento nos haplótipos comuns para identificar um conjunto de haplótipos enriquecidos;
gerar um vetor de características para cada indivíduo de referência, o vetor de características tem um conjunto de elementos binários, cada um associado a um haplótipo enriquecido, o valor de cada elemento binário indicando se o indivíduo de referência tem o haplótipo enriquecido; gerar um quadro de dados que inclui os indivíduos de referência com seu vetor de característica e o rótulo identificando se o indivíduo de referência pertence à comunidade; aplicar o modelo ao quadro de dados, os haplótipos enriquecidos são características do modelo; e ajustar os parâmetros do modelo com base em um desempenho do modelo.
68. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 66, caracterizado pelo fato de que pelo menos uma amostra de treinamento positiva das amostras de treinamento é gerada por: fasear um conjunto de dados de DNA de um dos indivíduos de referência que pertence à comunidade para gerar haplótipos dos indivíduos de referência; realizar uma análise de enriquecimento dos haplótipos em relação à comunidade; e identificar um ou mais grupos de haplótipos do indivíduo de referência que são representativos da comunidade; extrair um ou mais grupos de haplótipos como a amostra de treinamento positiva; associar a amostra de treinamento positiva com um rótulo positivo que o indivíduo de referência pertence à comunidade.
69. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 66, caracterizado pelo fato de que pelo menos uma amostra de treinamento negativa das amostras de treinamento é gerada por: recuperar um conjunto de dados de DNA de um indivíduo de referência que não pertence à comunidade; extrair um ou mais grupos de haplótipos como amostra de treinamento negativa, o um ou mais grupos de haplótipos extraídos estando no mesmo loci genéticos do um ou mais grupos de haplótipos do um dos indivíduos de referência que pertence à comunidade; e associar a amostra de treinamento negativa com um rótulo negativo que o indivíduo de referência não pertence à comunidade.
70. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 66, caracterizado pelo fato de que determinar se o indivíduo é um membro da comunidade compreende ainda determinar uma quantidade total de haplótipos comuns entre o indivíduo e os indivíduos de referência que pertencem à comunidade.
71. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 66, caracterizado pelo fato de que um haplótipo comum é uma quantidade total de haplótipos comuns a partir de um ou mais cromossomos que são herdados de um ancestral comum ao indivíduo e um dos indivíduos de referência.
72. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 66, caracterizado pelo fato de que os haplótipos de referência são identificados usando uma análise de enriquecimento para determinar quais haplótipos são mais prováveis de serem observados em uma comunidade.
73. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 66, caracterizado pelo fato de que os loci genéticos do subconjunto de haplótipos do indivíduo correspondem aos mesmos loci genéticos do grupo de haplótipos de pelo menos uma das amostras de treinamento.
BR112020020430-7A 2018-04-05 2019-04-04 Atribuições de comunidade em identidade por redes de linhagem e origem de variante genética BR112020020430A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862653420P 2018-04-05 2018-04-05
US201862653416P 2018-04-05 2018-04-05
US62/653,416 2018-04-05
US62/653,420 2018-04-05
PCT/IB2019/052788 WO2019193551A1 (en) 2018-04-05 2019-04-04 Community assignments in identity by descent networks and genetic variant origination

Publications (1)

Publication Number Publication Date
BR112020020430A2 true BR112020020430A2 (pt) 2021-03-30

Family

ID=68101335

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020020430-7A BR112020020430A2 (pt) 2018-04-05 2019-04-04 Atribuições de comunidade em identidade por redes de linhagem e origem de variante genética

Country Status (12)

Country Link
US (3) US11238957B2 (pt)
EP (1) EP3776556A4 (pt)
JP (1) JP2021521511A (pt)
CN (1) CN112154508A (pt)
AU (1) AU2019248875A1 (pt)
BR (1) BR112020020430A2 (pt)
CA (1) CA3095996A1 (pt)
IL (1) IL277776A (pt)
MX (1) MX2020010414A (pt)
NZ (1) NZ769586A (pt)
RU (1) RU2020135985A (pt)
WO (1) WO2019193551A1 (pt)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12086914B2 (en) * 2021-11-24 2024-09-10 Ancestry.Com Dna, Llc Graphical user interface for presenting geographic boundary estimation

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4201386A (en) 1978-02-13 1980-05-06 Triad Associates Genealogy apparatus
IS1355B6 (is) 1984-11-12 1989-04-19 Lister Institute Of Preventive Medicine Fjölkjarna kannar
US5115504A (en) 1988-11-01 1992-05-19 Lotus Development Corporation Information management system
US5246374A (en) 1992-05-19 1993-09-21 Alma Boodram Expandable family tree and modular kit for building the same
US5978811A (en) 1992-07-29 1999-11-02 Texas Instruments Incorporated Information repository system and method for modeling data
US5467471A (en) 1993-03-10 1995-11-14 Bader; David A. Maintaining databases by means of hierarchical genealogical table
US6277567B1 (en) 1997-02-18 2001-08-21 Fitolink Corporation Methods for the construction of genealogical trees using Y chromosome polymorphisms
US6105147A (en) 1997-04-16 2000-08-15 Compaq Computer Corporation Using process pairs as transaction-coordinated resource managers
US6049803A (en) 1997-08-29 2000-04-11 Advanced Micro Devices, Inc. Documenting system for entities, attributes and schema of a relational database
US6528260B1 (en) 1999-03-25 2003-03-04 Genset, S.A. Biallelic markers related to genes involved in drug metabolism
US6633819B2 (en) 1999-04-15 2003-10-14 The Trustees Of Columbia University In The City Of New York Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins
US20030195707A1 (en) 2000-05-25 2003-10-16 Schork Nicholas J Methods of dna marker-based genetic analysis using estimated haplotype frequencies and uses thereof
US6570567B1 (en) 2000-05-31 2003-05-27 Alan Eaton System and method for using a graphical interface for the presentation of genealogical information
US6961731B2 (en) 2000-11-15 2005-11-01 Kooltorch, L.L.C. Apparatus and method for organizing and/or presenting data
US20030113727A1 (en) 2000-12-06 2003-06-19 Girn Kanwaljit Singh Family history based genetic screening method and apparatus
US7957907B2 (en) 2001-03-30 2011-06-07 Sorenson Molecular Genealogy Foundation Method for molecular genealogical research
US20020143578A1 (en) 2001-04-02 2002-10-03 Cole Louis Scott Interactives system and method for recording and assessing a person's inherited risk for a range of diseases
US6909971B2 (en) 2001-06-08 2005-06-21 Licentia Oy Method for gene mapping from chromosome and phenotype data
US6886015B2 (en) 2001-07-03 2005-04-26 Eastman Kodak Company Method and system for building a family tree
US20030113756A1 (en) 2001-07-18 2003-06-19 Lawrence Mertz Methods of providing customized gene annotation reports
US8438042B2 (en) 2002-04-25 2013-05-07 National Biomedical Research Foundation Instruments and methods for obtaining informed consent to genetic tests
US20080154566A1 (en) 2006-10-02 2008-06-26 Sorenson Molecular Genealogy Foundation Method and system for displaying genetic and genealogical data
US8855935B2 (en) 2006-10-02 2014-10-07 Ancestry.Com Dna, Llc Method and system for displaying genetic and genealogical data
US20040229231A1 (en) 2002-05-28 2004-11-18 Frudakis Tony N. Compositions and methods for inferring ancestry
US20070037182A1 (en) 2002-05-28 2007-02-15 Gaskin James Z Multiplex assays for inferring ancestry
AU2003293132A1 (en) 2002-11-27 2004-06-23 Sra International, Inc. Integration of gene expression data and non-gene data
US20040122705A1 (en) 2002-12-18 2004-06-24 Sabol John M. Multilevel integrated medical knowledge base system and method
US20040243531A1 (en) 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US7249129B2 (en) 2003-12-29 2007-07-24 The Generations Network, Inc. Correlating genealogy records systems and methods
US20050147947A1 (en) 2003-12-29 2005-07-07 Myfamily.Com, Inc. Genealogical investigation and documentation systems and methods
US20060136143A1 (en) 2004-12-17 2006-06-22 General Electric Company Personalized genetic-based analysis of medical conditions
US8285486B2 (en) 2006-01-18 2012-10-09 Dna Tribes Llc Methods of determining relative genetic likelihoods of an individual matching a population
US8700334B2 (en) 2006-07-31 2014-04-15 International Business Machines Corporation Methods and systems for reconstructing genomic common ancestors
US8661048B2 (en) 2007-03-05 2014-02-25 DNA: SI Labs, Inc. Crime investigation tool and method utilizing DNA evidence
US7844609B2 (en) 2007-03-16 2010-11-30 Expanse Networks, Inc. Attribute combination discovery
US8510057B1 (en) 2007-10-15 2013-08-13 23Andme, Inc. Summarizing an aggregate contribution to a characteristic for an individual
EP2227780A4 (en) 2008-03-19 2011-08-03 Existence Genetics Llc GENETIC ANALYSIS
CN102067140B (zh) 2008-06-20 2014-12-24 皇家飞利浦电子股份有限公司 用于系谱分析的系统、方法和计算机程序产品
EP2370929A4 (en) * 2008-12-31 2016-11-23 23Andme Inc LOOKING FOR PARENTS IN A DATABASE
US8413188B2 (en) 2009-02-20 2013-04-02 At&T Intellectual Property I, Lp System and method for processing image objects in video data
US8224821B2 (en) 2009-07-28 2012-07-17 Ancestry.Com Operations Inc. Systems and methods for the organized distribution of related data
WO2011025400A1 (en) 2009-08-30 2011-03-03 Cezary Dubnicki Structured analysis and organization of documents online and related methods
US8185557B2 (en) 2010-01-27 2012-05-22 Ancestry.Com Operations Inc. Positioning of non-constrained amount of data in semblance of a tree
US8786603B2 (en) 2011-02-25 2014-07-22 Ancestry.Com Operations Inc. Ancestor-to-ancestor relationship linking methods and systems
US20130297221A1 (en) 2011-06-01 2013-11-07 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Accurate Construction Of Long Range Haplotype
US10025877B2 (en) 2012-06-06 2018-07-17 23Andme, Inc. Determining family connections of individuals in a database
US9116882B1 (en) 2012-08-02 2015-08-25 23Andme, Inc. Identification of matrilineal or patrilineal relatives
US20140067355A1 (en) 2012-09-06 2014-03-06 Ancestry.Com Dna, Llc Using Haplotypes to Infer Ancestral Origins for Recently Admixed Individuals
US20140108527A1 (en) 2012-10-17 2014-04-17 Fabric Media, Inc. Social genetics network for providing personal and business services
US9836576B1 (en) 2012-11-08 2017-12-05 23Andme, Inc. Phasing of unphased genotype data
US9213947B1 (en) 2012-11-08 2015-12-15 23Andme, Inc. Scalable pipeline for local ancestry inference
NZ629509A (en) 2013-03-15 2017-04-28 Ancestry Com Dna Llc Family networks
CN104862380B (zh) * 2014-02-25 2018-04-13 绍兴市柯桥区基石生物科技有限公司 家族特异性遗传病关联等位基因单体型变异标签确认方法
MX2017004978A (es) * 2014-10-17 2017-09-13 Ancestry Com Dna Llc Modelos de formacion de fases de haplotipo.
US10867705B2 (en) 2014-11-06 2020-12-15 Ancestryhealth.Com, Llc Predicting health outcomes
US11232854B2 (en) 2015-05-30 2022-01-25 Ancestry.Com Dna, Llc Characterizing heterogeneity with fine-scale population structure
NZ737553A (pt) * 2015-05-30 2017-11-24
US10957422B2 (en) * 2015-07-07 2021-03-23 Ancestry.Com Dna, Llc Genetic and genealogical analysis for identification of birth location and surname information

Also Published As

Publication number Publication date
US20240274229A1 (en) 2024-08-15
WO2019193551A1 (en) 2019-10-10
RU2020135985A (ru) 2022-05-05
US20210057041A1 (en) 2021-02-25
NZ769586A (en) 2020-11-27
CN112154508A (zh) 2020-12-29
EP3776556A4 (en) 2021-12-15
MX2020010414A (es) 2020-10-28
US20220076782A1 (en) 2022-03-10
AU2019248875A1 (en) 2020-11-26
IL277776A (en) 2020-11-30
US11984196B2 (en) 2024-05-14
US11238957B2 (en) 2022-02-01
JP2021521511A (ja) 2021-08-26
EP3776556A1 (en) 2021-02-17
CA3095996A1 (en) 2019-10-10

Similar Documents

Publication Publication Date Title
US20230102326A1 (en) Discovering population structure from patterns of identity-by-descent
BR112020026029A2 (pt) filtragem de redes genéticas para descobrir populações de interesse
US20230352115A1 (en) Estimation of phenotypes using dna, pedigree, and historical data
US20240274229A1 (en) Community Assignments in Identity by Descent Networks and Genetic Variant Origination
US11232854B2 (en) Characterizing heterogeneity with fine-scale population structure
US20230021868A1 (en) Data-sharding for efficient record search
Lai et al. A multivariate finite mixture latent trajectory model with application to dementia studies
Gaubert et al. Tracing historical introductions in the Mediterranean Basin: the success story of the common genet (Genetta genetta) in Europe
US10896741B2 (en) Prediction of phenotypes using recommender systems
Duchesne et al. FLOCK: a method for quick mapping of admixture without source samples
US20220164935A1 (en) Photo composites
EP4367649A1 (en) Handwriting recognition pipelines for genealogical records
Waples Relative precision of the sibship and LD methods for estimating effective population size with genomics-scale datasets
CN111009290A (zh) 高原适应性检测模型的训练方法、适应性识别方法和装置
US20230296398A1 (en) Transforming and navigating historical map images
US20230196116A1 (en) Machine learning for classification of users
Do et al. Genetic and morphological variation of Vespa velutina nigrithorax which is an invasive species in a mountainous area
Bernasco The usefulness of measuring spatial opportunity structures for tracking down offenders: A theoretical analysis of geographic offender profiling using simulation studies
Miller et al. Genomics‐informed conservation units reveal spatial variation in climate vulnerability in a migratory bird
Boyle et al. Estimating cumulative spatial risk over time with low‐rank kriging multiple membership models
US20230162417A1 (en) Graphical user interface for presenting geographic boundary estimation
US20240054121A1 (en) Data characteristics associated with typical metadata
US20230317300A1 (en) Detecting ibd efficiently using a distributed system
US20230023202A1 (en) Efficient record facet search based on image faceting
US20230342364A1 (en) Filtering individual datasets in a database

Legal Events

Date Code Title Description
B11A Dismissal acc. art.33 of ipl - examination not requested within 36 months of filing
B11Y Definitive dismissal - extension of time limit for request of examination expired [chapter 11.1.1 patent gazette]