BR112021004545A2 - sistema de determinação ancestral global - Google Patents

sistema de determinação ancestral global Download PDF

Info

Publication number
BR112021004545A2
BR112021004545A2 BR112021004545-7A BR112021004545A BR112021004545A2 BR 112021004545 A2 BR112021004545 A2 BR 112021004545A2 BR 112021004545 A BR112021004545 A BR 112021004545A BR 112021004545 A2 BR112021004545 A2 BR 112021004545A2
Authority
BR
Brazil
Prior art keywords
label
window
node
probability
computer
Prior art date
Application number
BR112021004545-7A
Other languages
English (en)
Inventor
Shiya Song
David Andrew Turissini
Yong Wang
Jake Kelly Byrnes
Keith Noto
Alisa Sedghifar
Original Assignee
Ancestry.Com Dna, Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ancestry.Com Dna, Llc filed Critical Ancestry.Com Dna, Llc
Publication of BR112021004545A2 publication Critical patent/BR112021004545A2/pt

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Analytical Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)

Abstract

SISTEMA DE DETERMINAÇÃO ANCESTRAL GLOBAL. Um genótipo de entrada é dividido em uma pluralidade de janelas, cada uma incluindo uma sequência de SNPs. Para cada janela, um HMM diploide é calculado com base em genótipos e/ou haplótipos faseados para determinar uma probabilidade de uma sequência de haplótipos sendo associada a um rótulo específico. Por exemplo, o HMM diploide de uma janela é usado para determinar a probabilidade de emissão de que a janela corresponda a um conjunto de rótulos. Um HMM entre janelas, com um conjunto de estados para cada janela, é calculado. Os rótulos são atribuídos ao genótipo de entrada com base no HMM entre janelas. Os limites superior e inferior são estimados para produzir uma faixa de valores percentuais prováveis que uma entrada pode ser atribuída a um determinado rótulo. Os valores de confiança são determinados indicando a probabilidade de um indivíduo herdar DNA de uma determinada população. Os mapas são gerados com polígonos que representam regiões onde uma medida de etnia da população se enquadra em faixas específicas.

Description

SISTEMA DE DETERMINAÇÃO ANCESTRAL GLOBAL REFERÊNCIA CRUZADA COM PEDIDOS RELACIONADOS
[0001] O presente pedido reivindica o benefício dos pedidos de patente provisória US nº 62/729.840 depositado em 11 de setembro de 2018, 62/743.448 depositado em 9 de outubro de 2018, 62/752.523 depositado em 30 de outubro de 2018 e 62/858.820 depositado em 7 de junho de 2019, que são todos incorporados nesse documento por referência em sua totalidade.
CAMPO
[0002] As modalidades reveladas referem-se à atribuição de rótulos a um genótipo de amostra de entrada. Em particular, as modalidades reveladas referem-se ao uso de modelos de Markov ocultos que determinam rótulos de forma eficiente e precisa para o genótipo de amostra de entrada.
ANTECEDENTES
[0003] Embora os humanos sejam, geneticamente falando, quase inteiramente idênticos, pequenas diferenças no DNA humano são responsáveis por grande parte da variação entre os indivíduos. Por exemplo, uma variação de sequência em uma posição no DNA entre indivíduos é conhecida como um polimorfismo de nucleotídeo único (SNP). Trechos de DNA herdados juntos de um único pai são referidos como haplótipos (por exemplo, um haplótipo herdado da mãe e outro haplótipo herdado do pai).
[0004] Um subconjunto dos SNPs no genoma de um indivíduo pode ser detectado com genotipagem de SNP. Por meio da genotipagem de SNP, o par de alelos para um SNP em um determinado local em cada haplótipo pode ser identificado. Por exemplo, um genótipo em um locus de SNP pode ser identificado como heterozigoto (isto é, um alelo de cada tipo), homozigoto (isto é, ambos os alelos do mesmo tipo) ou desconhecido. A genotipagem de SNP identifica o par de alelos para um determinado genótipo, mas não identifica qual alelo corresponde a qual haplótipo, isto é, a genotipagem de SNP não identifica o cromossomo homomórfico (do par homomórfico) ao qual cada alelo corresponde. Assim, a genotipagem de SNP bem-sucedida produz um par não ordenado de alelos, onde cada alelo corresponde a um de dois haplótipos.
[0005] Em geral, a maioria dos SNPs de um haplótipo que corresponde a um cromossomo específico é proveniente de um único cromossomo de um dos pais. No entanto, alguns dos SNPs do haplótipo podem corresponder a outro cromossomo homomórfico de um dos pais devido ao cruzamento cromossômico. Como a informação genética em um cromossomo específico de um indivíduo corresponde principalmente a um único cromossomo de um dos pais, as sequências de SNPs tendem a permanecer relativamente intactas ao longo das gerações.
SUMÁRIO
[0006] O sistema e o método implementados por computador descritos nesse documento atribuem a um conjunto de dados de genótipos de amostra de entrada um ou mais DE rótulos de um conjunto de rótulos. Os rótulos podem ser, por exemplo, rótulos de etnia indicando um grupo de origem de ascendência. Os rótulos são atribuídos aos conjuntos de dados de genótipos de amostra de entrada computando dois tipos de modelos de Markov ocultos (HMMs): HMMs diploides dentro de janela e um HMM entre janelas. Cada HMM diploide é baseado nos SNPs em uma janela de um dos cromossomos do conjunto de dados do genótipo da amostra de entrada. A saída de HMMs diploides pode ser usada para construir um HMM entre janelas que inclui um conjunto de estados correspondentes a cada janela através dos cromossomos do conjunto de dados de genótipos de amostra de entrada. Cada estado pode ser graficamente por um nó no HMM.
[0007] O HMM diploide é calculado acessando o conjunto de dados do genótipo da amostra de entrada de uma memória e dividindo-o em uma série de janelas, onde cada janela inclui uma sequência de SNPs do genótipo da amostra de entrada. Um HMM diploide é calculado para cada janela com base na sequência de SNPs nessa janela. Cada estado diploide em um HMM diploide para uma janela pode corresponder a um par de estados haploides para a janela, onde cada estado haploide corresponde a um cluster de haplótipo diferente de um modelo haploide de Markov (MM) para a janela. O MM haploide é um modelo probabilístico de haplótipos para cada janela. Para cada estado diploide em um HMM diploide de uma janela, é calculada uma probabilidade de estado diploide indicando a probabilidade de que o genótipo da amostra de entrada corresponda ao estado diploide.
[0008] Para cada janela, uma distribuição de probabilidade de par de rótulos pode ser calculada com base nas anotações para a janela e as probabilidades de estado diploide do genoma de amostra de entrada para o HMM diploide da janela. Em algumas modalidades, um rótulo pode ser usado para indicar uma origem étnica. A distribuição de probabilidade do par de rótulos para uma janela pode mapear cada par de rótulos ordenados (um rótulo para cada um dos dois haplótipos constituintes de uma janela) para a probabilidade de que os SNPs na janela correspondam ao par de rótulos. Um conjunto de anotações pode ser acessado, cada anotação correspondendo a um estado haploide de uma janela e um rótulo do conjunto de rótulos, onde os rótulos incluem os grupos de origem em consideração. Uma anotação para um estado haploide indica a probabilidade de que um haplótipo do rótulo (por exemplo, um haplótipo para um indivíduo no grupo de origem corresponda ao rótulo) corresponde a esse estado haploide. Cada anotação para um rótulo pode ser calculada a partir de um conjunto de amostras de referência que correspondem aos rótulos.
[0009] Um HMM entre janelas pode ser calculado ou construído com base nas distribuições de probabilidade do par de rótulos. O HMM entre janelas inclui uma pluralidade de grupos de nós. Cada grupo de nós representa uma janela que corresponde a um segmento de dados genéticos. Em cada grupo de nós, há uma pluralidade de nós. Cada nó em um determinado grupo de nós representa um dos vários estados possíveis da janela. A pluralidade de nós representa diferentes estados possíveis da janela. Cada estado inclui um primeiro rótulo de um dos pais, um segundo rótulo de um dos pais e um rótulo de alternância que representa uma troca de ordem do primeiro rótulo de um dos pais e o segundo rótulo de um dos pais para contabilizar erros de troca em potencial nos haplótipos faseados. Cada nó está associado a uma probabilidade de emissão que representa a probabilidade de um determinado par de haplótipos correspondendo à janela dado o primeiro rótulo de um dos pais, o segundo rótulo de um dos pais e o rótulo de troca para cada estado. O HMM entre janelas também inclui uma pluralidade de bordas. Cada borda conecta um primeiro nó de um primeiro grupo de nós a um segundo nó de um segundo grupo de nós. Cada borda está associada a uma probabilidade de transição que representa uma probabilidade de transição do primeiro nó para o segundo nó.
[0010] O HMM entre janelas pode ser calculado, construído, treinado e atualizado. Por exemplo, as probabilidades de transição do HMM entre janelas podem ser aprendidas com base na maximização da expectativa. Usando um par de conjuntos de dados de haplótipos faseados que são derivados do faseamento do conjunto de dados de genótipos de entrada do indivíduo, um caminho de Viterbi do HMM entre janelas pode ser determinado usando um algoritmo de Viterbi. Em outras implementações, outros tipos de caminhos e algoritmos podem ser usados em vez de Viterbi. Cada um dos nós percorridos pelo caminho de Viterbi está associado a um primeiro rótulo de um dos pais e a um segundo rótulo de um dos pais. A composição da pluralidade de rótulos dos nós pode ser determinada. Por exemplo, a distribuição de cada rótulo em termos de porcentagem pode ser determinada. Os resultados podem ser apresentados como uma forma de informação das origens étnicas do indivíduo.
[0011] Em uma modalidade, um método pode incluir a identificação de uma pluralidade de indivíduos misturados. Cada indivíduo misturado identificado pode ter pelo menos um ancestral de uma região geográfica alvo. O método também pode incluir a recuperação de conjuntos de dados genéticos da pluralidade de indivíduos misturados identificados. O método pode incluir adicionalmente identificar, a partir dos conjuntos de dados genéticos recuperados, uma pluralidade de segmentos genéticos que são herdados de uma origem étnica alvo. Pelo menos um primeiro segmento genético pode ser identificado a partir de um primeiro indivíduo misturado da pluralidade de indivíduos misturados identificados e um segundo segmento genético pode ser identificado a partir de um segundo indivíduo misturado da pluralidade de indivíduos misturados identificados. O primeiro e o segundo segmentos genéticos podem ser segmentos diferentes. O método pode incluir adicionalmente a criação de um conjunto de dados genéticos sintéticos a partir de uma combinação da pluralidade de segmentos genéticos identificados que são herdados da origem étnica alvo. O conjunto de dados genéticos sintéticos pode incluir pelo menos o primeiro e o segundo segmentos genéticos. O conjunto de dados genéticos sintéticos pode ser um representante da origem étnica alvo na região geográfica alvo.
[0012] De acordo com uma modalidade, os dados que representam um gráfico acíclico direcionado que compreende uma pluralidade de grupos de nós são gerados com base em um conjunto de dados de genótipos de uma amostra correspondente a um indivíduo. Um grupo de nós representa uma janela que corresponde a um dos segmentos genéticos do indivíduo identificado. Cada grupo de nós compreende uma pluralidade de nós, cada nó tendo um par de rótulos. Cada rótulo representa uma origem étnica. Um caminho de referência que atravessa o gráfico acíclico direcionado e uma pluralidade de caminhos amostrados que atravessa o gráfico acíclico direcionado são determinados. Um intervalo de confiança em torno de uma proporção estimada de uma etnia do conjunto de dados de genótipos da amostra é determinado como a seguir. Uma média e um desvio padrão da proporção estimada da etnia são determinados a partir da pluralidade de caminhos amostrados. Uma pontuação é inicializada com base na média, no desvio padrão, no caminho de referência e em um ou mais parâmetro(s) com base nos conjuntos de dados de genótipos do painel de referência. A pontuação é otimizada determinando valores de um ou mais parâmetro(s). O intervalo de confiança é determinado usando a média, o desvio padrão e os valores de um ou mais parâmetro(s) que otimizam a pontuação. Uma confiança de que uma probabilidade de a proporção estimada da etnia ser maior do que zero é classificada em um de uma pluralidade de níveis de confiança como a seguir. Um vetor de quantis da porção estimada da etnia a partir da pluralidade de caminhos amostrados é determinado. A probabilidade de que a proporção da etnia seja maior que zero é prevista usando o vetor de quantis e o caminho de referência. O intervalo de confiança e o nível de confiança classificado junto com a proporção de etnia são enviados para exibição.
[0013] As modalidades de acordo com a invenção são, em particular, reveladas nas reivindicações anexas direcionadas a um método e um produto de programa de computador, em que qualquer característica mencionada em uma categoria de reivindicação, por exemplo, método, pode ser reivindicada em outra categoria de reivindicação, por exemplo, produto de programa de computador, sistema e meio de armazenamento também. As dependências ou referências nas reivindicações anexadas são escolhidas apenas por motivos formais. No entanto, qualquer assunto resultante de uma referência deliberada voltada a quaisquer reivindicações anteriores (em particular dependências múltiplas) pode ser reivindicado também, de modo que qualquer combinação de reivindicações e características das mesmas sejam reveladas e possam ser reivindicadas independentemente das dependências escolhidas nas reivindicações anexas. O assunto que pode ser reivindicado compreende não apenas as combinações de recursos como estabelecido nas reivindicações anexas, mas também qualquer outra combinação de recursos nas reivindicações, em que cada recurso mencionado nas reivindicações pode ser combinado com qualquer outro recurso ou combinação de outros recursos nas reivindicações. Além disso, qualquer uma das modalidades e recursos descritos ou representados nesse documento podem ser reivindicados em uma reivindicação separada e/ou em qualquer combinação com qualquer modalidade ou recurso descrito ou representado nesse documento ou com qualquer um dos recursos das reivindicações anexas.
BREVE DESCRIÇÃO DOS DESENHOS
[0014] Essas e outras características, aspectos e vantagens da presente invenção serão mais bem compreendidos no que se refere à seguinte descrição e aos desenhos anexos, onde:
[0015] a FIG. 1A é um diagrama de blocos de um sistema de determinação de rótulo para treinar e utilizar um modelo para atribuir rótulos a um genótipo, de acordo com uma modalidade.
[0016] A FIG. 1B ilustra diferenças em painéis de referência para população não misturada e população misturada.
[0017] A FIG. 2 é um exemplo de um haplótipo de MM, de acordo com uma modalidade.
[0018] A FIG. 3 é um exemplo de um HMM diploide, de acordo com uma modalidade.
[0019] A FIG. 4 é um exemplo de um HMM entre janelas, de acordo com uma modalidade.
[0020] A FIG. 5 é um fluxograma que ilustra um processo para calcular a probabilidade de emissão, de acordo com algumas modalidades.
[0021] A FIG. 6 é um fluxograma que ilustra um processo para calcular um modelo de Markov oculto, de acordo com algumas modalidades.
[0022] A FIG. 7 é um fluxograma que ilustra um processo para atribuir rótulos a um conjunto de dados de genótipos, de acordo com uma modalidade.
[0023] A FIG. 8 é um fluxograma que ilustra um processo para fornecer informações de origem étnica de um indivíduo com base no conjunto de dados de genótipos do indivíduo, de acordo com uma modalidade.
[0024] A FIG. 9 é um gráfico de exemplos de resultados experimentais de indivíduos misturados comparando a precisão de uma modalidade descrita nesse documento com um método de determinação de ascendência convencional RFMix.
[0025] A FIG. 10 um gráfico de exemplos de resultados experimentais de indivíduos não misturados comparando a precisão de uma modalidade descrita nesse documento com RFMix.
[0026] A FIG. 11A é um gráfico de resultados de exemplo de um experimento que estima etnias de indivíduos de origem única usando uma modalidade descrita nesse documento.
[0027] A FIG. 11B é um gráfico de um experimento similar à da FIG. 11A usando RFMix.
[0028] A FIG. 12 são gráficos que comparam as distribuições de comprimento de dados reais e simulados para tratos de origem africana usando uma modalidade descrita nesse documento.
[0029] A FIG. 13 é um fluxograma que representa um exemplo de processo de geração de um conjunto de dados genéticos sintéticos, de acordo com uma modalidade.
[0030] A FIG. 14 é um fluxograma que representa um exemplo de processo de determinação da composição de origem étnica de um indivíduo misturado, de acordo com uma modalidade.
[0031] A FIG. 15A é o processo geral de geração de faixas de etnia e confidências de etnia, de acordo com uma modalidade.
[0032] A FIG. 15B é o processo geral de geração de polígonos de etnia, de acordo com uma modalidade.
[0033] A FIG. 16 mostra o processo detalhado de geração de polígonos de etnia, de acordo com uma modalidade.
[0034] A FIG. 17 mostra uma captura de tela de uma interface de usuário mostrando um mapa de estimativas para um país de exemplo (Irlanda e Escócia), de acordo com uma modalidade.
[0035] As FIGs. 18A-C mostram capturas de tela de uma interface de usuário mostrando polígonos regionais usando localizações geográficas de amostra, de acordo com uma modalidade.
[0036] A FIG. 19 é um diagrama de blocos que ilustra um exemplo de arquitetura de computador, de acordo com uma modalidade.
[0037] Observe que, para fins de clareza, apenas um de cada item correspondente a um número de referência é incluído na maioria das figuras, mas quando implementado, múltiplos casos de qualquer ou todos os módulos representados podem ser empregados, como será apreciado por aqueles de habilidade na técnica.
DESCRIÇÃO DETALHADA Visão geral de dados genéticos
[0038] Os indivíduos podem fornecer amostras de ácido desoxirribonucleico (DNA) (por exemplo, saliva, células da pele, sangue ou outro material biológico) para análise de seus dados genéticos. Em uma modalidade, um indivíduo usa um kit de coleta de amostra para fornecer uma amostra da qual os dados genéticos podem ser extraídos com segurança de acordo com métodos convencionais. Um serviço de extração de DNA pode receber a amostra e genotipar os dados genéticos, por exemplo, extraindo o DNA da amostra e identificando valores de SNPs presentes no DNA. O resultado pode ser referido como um conjunto de dados do genótipo do indivíduo. Nessa revelação, o resultado pode ser um conjunto de dados de genótipos de entrada para processamento adicional com base em vários processos descritos em detalhes adicionais abaixo. O conjunto de dados do genótipo é frequentemente um genótipo diploide. Um controle de qualidade de DNA e serviço de preparação de correspondência pode avaliar a qualidade dos dados do genótipo diploide, verificando vários atributos, tais como, taxa de chamada de genotipagem, taxa de heterozigosidade de genotipagem e concordância entre gênero genético e auto-relatado. O conjunto de dados de genótipos (às vezes também referido como genótipo, ou conjunto de dados de genótipos de amostra de entrada X) é enviado (por exemplo, transmitido através de uma rede) para um sistema de determinação de rótulo 100. A determinação de rótulo pode receber o genótipo do serviço de extração de DNA ou do Serviço de controle de qualidade e preparação de correspondência de DNA e pode armazenar o genótipo (por exemplo, em um banco de dados).
[0039] Um conjunto de dados de genótipos de um indivíduo pode incluir uma pluralidade de SNPs (por exemplo, digamos SNPs L). O conjunto de dados do genótipo pode ser analisado com foco em um conjunto de sítios direcionados de SNPs (por exemplo, localizações variáveis conhecidas de DNA no genoma humano). Uma vez que a maioria dos SNPs se manifesta como uma de duas variações alélicas possíveis dentro de uma população (por exemplo, um SNP pode ser adenina (A) em alguns indivíduos, mas citosina (C) em outros), um alelo para um SNP particular de um genótipo pode ser referenciado por 0 ou 1 (por exemplo, 0 para A e 1 para C) sem perda de generalidade. Além disso, embora descritos nesse documento sejam como usar SNPs bialélicos (isto é, SNPs que podem assumir dois alelos possíveis), os métodos e sistemas descritos nesse documento podem ser generalizados para incluir SNPs multialélicos (por exemplo, SNPs trialélicos). Adicionalmente, em vez de usar alelos individuais como a unidade básica de um conjunto de dados de genótipos, os métodos e sistemas nesse documento podem usar “mini- haplótipos” consistindo em vários alelos como as unidades básicas de dados.
[0040] Um par de alelos para um SNP em um conjunto de dados de genótipos de um indivíduo pode ser recebido sem informações que indiquem o cromossomo homomórfico ao qual cada alelo corresponde. Assim, os dados de genotipagem podem incluir em uma sequência de SNPs L, cada um dos quais contém um par não ordenado de valores: (0,0) (isto é, homozigoto 0), (0,1) (isto é, heterozigoto), ou (1,1) (isto é, homozigoto 1). O primeiro valor binário em um par pode ser associado a um primeiro valor de um dos pais e o segundo valor binário pode ser associado a um segundo valor de um dos pais ou vice-versa. Em alguns casos, a genotipagem de um SNP específico falha, caso em que os alelos para esse SNP podem estar ausentes. Nesse documento, um conjunto de dados de genótipos pode ser representado como G = (G1, G2, ..., GL), em que cada Gi (para i∈{1,...,L}) é um SNP que tem um valor de (0,0), (0,1), (1,1) ou dados ausentes.
[0041] Um conjunto de dados de genótipos G pode ser dividido em janelas W, em que cada janela w (para w∈{1,...,W}) é uma sequência de SNPs (isto é, uma subsequência de G). Cada janela pode incluir um conjunto de sítios de SNPs. Os sítios podem corresponder a localizações de sequência de DNA consecutivos no cromossomo humano (isto é, cada localização consecutivo de uma sequência de DNA é um sítio direcionado), mas também podem ser sítios selecionados em que sítios vizinhos que não correspondem necessariamente a localizações vizinhas na sequência de DNA (por exemplo, um primeiro sítio de SNP pode estar em uma posição A em uma sequência de DNA, enquanto um segundo sítio de SNP pode estar em B na sequência de DNA que está a centenas de pares de bases além da posição A). Em um exemplo específico, cada janela w inclui cerca de 2.000 sítios de SNP, de modo que a porção da sequência G correspondente a uma janela tem cerca de 2.000 valores binários. As janelas podem se sobrepor (isto é, compartilhar um ou mais de sítios de SNPs). Por exemplo, uma primeira janela pode incluir os primeiros 2.000 locais de SNPs em um cromossomo, enquanto uma segunda janela pode incluir 1.500º a 3.000º sítios de SNPs no cromossomo. Em uma modalidade, uma limitação pode ser imposta de modo que nenhuma janela w inclua SNPs de mais de um cromossomo (isto é, de mais de um par de cromossomos homomórficos). Para essa revelação, um ponto inicial de cada janela w pode ser indicado como um índice de SNP Sw e o comprimento da janela pode ser indicado como Dw. Assim, a sequência de SNPs do genótipo G na janela w é ( ,…, ). Usando um algoritmo de faseamento, o genótipo G pode ser faseado em um par de conjuntos de dados de haplótipos faseados H1 e H2 e toda a sequência pode ser representada como (H11, H12), (H21, H22), (H31, H32), etc., em que Hi1 e Hi2 representam o i- ésimo SNP.
[0042] Em algumas modalidades, a composição genética (por exemplo, composição de etnia) de um indivíduo pode ser determinada com base na atribuição das janelas de um conjunto de dados de genótipos de entrada com rótulos diferentes, tais como rótulos de etnia. Os rótulos podem ser quaisquer rótulos de classificação, tais como rótulos de classificação genética. Em uma modalidade, um rótulo corresponde à ascendência de uma população histórica (por exemplo, grupo étnico). Por exemplo, cada grupo étnico e rótulo correspondente podem corresponder a uma área geográfica habitada historicamente por determinada população. Áreas de exemplo podem ser Norte da África, Escandinávia, Sul da Ásia, etc. Por exemplo, um sistema de computação pode atribuir um par de rótulos (sendo um primeiro rótulo de um dos pais, tal como um rótulo patrilinear, e outro correspondendo a um segundo rótulo de um dos pais, tal como um rótulo matrilinear) para cada janela. Os rótulos podem ser selecionados de um conjunto de rótulos K. Por exemplo, no caso em que os rótulos estão relacionados à origem étnica, o conjunto de rótulos K pode ser africano, asiático, europeu, etc. ou alemão, coreano, mexicano, etc., dependendo da granularidade da classificação. Um rótulo é uma identificação de algumas sequências de haplótipos que são geneticamente similares. Com base nos rótulos atribuídos, as informações sobre a origem étnica do indivíduo podem ser determinadas. Por exemplo, se 80% das janelas forem atribuídas com um rótulo europeu, o sistema de computação pode fornecer uma declaração de que o indivíduo é de origem europeia como um exemplo de informação de origem étnica. As informações de origem étnica também podem incluir estatísticas dos rótulos. Por exemplo, o sistema de computação pode fornecer uma análise detalhada das origens de ascendência (por exemplo, 75% europeia, 20% asiática e 5% africana) do indivíduo com base no conjunto de dados do genótipo do indivíduo.
[0043] O comprimento Dw de cada janela w pode ser selecionado de modo que cada janela provavelmente corresponda a apenas um único par de rótulos. Por exemplo, o comprimento Dw de cada janela w pode ser selecionado de modo a ter um comprimento de 1-10 centimorgans (cM) ou menos. Os detalhes de rotulagem de cada janela w serão discutidos em mais detalhes abaixo em associação com a FIG. 4. Visão geral do Processo de Atribuição de Rótulo
[0044] De acordo com uma modalidade, um processo para caracterizar um conjunto de dados de genótipos de um indivíduo como uma composição de diferentes classificações é conduzido por meio de um processo de atribuição de rótulo que faz uso de diferentes modelos de Markov. Um exemplo específico de atribuição de rótulo é a determinação de uma composição de origens étnicas do indivíduo atribuindo rótulos de etnia de primeiro de um dos pais e segundo de um dos pais ao indivíduo. O conjunto de dados do genótipo é dividido em uma pluralidade de segmentos (que podem ser chamados de janelas). Cada janela corresponde a um locus de DNA que inclui um conjunto de sítios de SNP. Com base no par de rótulos de etnia do primeiro de um dos pais e do segundo de um dos pais associados a cada janela, as composições totais de rótulos do conjunto de dados de genótipos podem ser contadas. Por exemplo, se houver 580 rótulos de etnia do primeiro de um dos pais atribuídos a um total de 1000 janelas de dados de um genótipo, os dados de genótipos são determinados como tendo cerca de 58% de origem europeia no primeiro lado de um dos pais (por exemplo, no lado paterno).
[0045] A atribuição precisa de rótulos a um conjunto de dados de genótipos é conduzida pela determinação de um caminho estatisticamente mais provável (comumente referido como um caminho de Viterbi) de um modelo de aprendizado de máquina que pode ser referido como um Modelo de Markov Oculto entre janelas (HMM). Em algumas modalidades, o caminho de Viterbi e uma seleção (por exemplo, 1000) de outros caminhos múltiplos estatisticamente prováveis (mas não tão prováveis quanto o caminho de Viterbi) que atravessam o HMM entre janelas são amostrados e usados para determinar a confiança estatística do Caminho de Viterbi e as atribuições finais do rótulo.
[0046] Um HMM entre janelas inclui certos componentes. Primeiro, o HMM entre janelas inclui estados ocultos e observações. Um estado oculto em um HMM pode ser representado graficamente por um nó.
[0047] Em um HMM entre janelas de acordo com uma modalidade, um estado oculto pode ser uma condição possível da janela. Em outras palavras, uma janela pode assumir um dos vários estados ocultos possíveis, enquanto janelas diferentes podem assumir diferentes estados ocultos. No HMM entre janelas de acordo com uma modalidade, um estado é definido por três rótulos. Os primeiros dois rótulos são um primeiro rótulo de um dos pais e um segundo rótulo de um dos pais e esses dois rótulos são ordenados. Em outras palavras, para um determinado HMM entre janelas, o primeiro rótulo de um dos pais é consistentemente o primeiro ou o segundo rótulo de um dos pais é consistentemente o primeiro entre os estados. Portanto, um primeiro par de rótulos “Europeu, Asiático” representa um dos possíveis estados em uma janela, enquanto um segundo par de rótulos “Asiático, Europeu” representa outro estado possível que é diferente do primeiro par de rótulos. Cada janela associada a um determinado conjunto de dados de genótipos pode assumir um estado diferente (isto é, diferentes segmentos de DNA de um indivíduo são atribuídos a diferentes estados que têm diferentes pares de rótulos de etnia).
[0048] O terceiro rótulo que define um estado oculto é um rótulo de troca, que representa que, para um estado particular, a ordem do primeiro rótulo de um dos pais e do segundo rótulo de um dos pais no HMM é trocada em comparação com os rótulos reais na amostra. Em outras palavras, uma troca ocorre quando o HMM assume uma janela tendo um par de rótulos em uma ordem particular, mas a amostra do genótipo real nessa janela tem o mesmo par de rótulos, mas em uma ordem inversa. Por exemplo, um rótulo tal como “primeiro de um dos pais europeu, segundo de um dos pais asiático, trocado” significa que o rótulo correto na amostra de genótipo é “primeiro de um dos pais asiático, segundo de um dos pais europeu”. Um rótulo de troca é usado porque, para que o primeiro rótulo de um dos pais e o segundo rótulo de um dos pais sejam considerados separadamente, o conjunto de dados de genótipos precisa ser faseado para gerar um par de conjuntos de dados de haplótipos. No entanto, os métodos de faseamento existentes muitas vezes não são perfeitos. O rótulo da troca é usado para contabilizar a probabilidade de que o faseamento esteja incorreto para uma janela específica.
[0049] Uma observação associada a um estado oculto é um(a) possível característica, condição ou valor observável em um conjunto de dados de amostra. Em um HMM entre janelas de acordo com uma modalidade, uma observação pode ser a sequência de genótipo ou par de sequência de haplótipo faseado associado a uma janela. Um estado oculto é “oculto” porque o estado não é imediatamente aparente dado o conjunto de dados de amostra. Por exemplo, o rótulo “Asiático, Europeu, Não Trocado” para uma janela específica não é imediatamente aparente, dado apenas o conjunto de dados do genótipo da amostra ou o par faseado dos conjuntos de dados do haplótipo na janela específica. Simplificando, quando uma sequência de SNPs de uma amostra é ATGCTATAGC ..., se tal sequência é herdada de um ancestral asiático, europeu ou outro ancestral não é imediatamente aparente.
[0050] Em segundo lugar, o HMM entre janelas inclui probabilidades de emissão e probabilidades de transição. Um estado oculto particular está relacionado a uma observação particular por uma probabilidade de emissão. As relações entre diferentes estados ocultos e diferentes observações podem ter diferentes valores de probabilidades de emissão. Um determinado estado oculto de uma janela está relacionado a outro estado oculto da próxima janela por uma probabilidade de transição. Graficamente, os estados ocultos no HMM são representados por nós que são arranjados em grupos de nós (cada grupo de nós corresponde a uma janela e os nós dentro de um grupo de nós representam diferentes estados possíveis). Uma borda que conecta dois nós representa uma transição com uma probabilidade de transição.
[0051] Uma probabilidade de emissão é uma probabilidade de uma observação se manifestar dado um determinado estado oculto. No HMM entre janelas de acordo com uma modalidade, uma probabilidade de emissão pode representar uma probabilidade de que um determinado par de haplótipos faseados seja observado nos conjuntos de dados de amostra, dado que um determinado par de rótulos é atribuído à janela. Simplificando, uma probabilidade de emissão determina qual é a probabilidade quando a amostra tem os pares de sequência de haplótipos, por exemplo, “ATGCTATAGC...” e “ATGGTATAGC ...” dado que a janela é atribuída com, por exemplo, os rótulos “Asiático, europeu, Não Trocado”. A probabilidade de emissão representa a probabilidade de o DNA em uma janela vir de uma origem étnica.
[0052] Uma probabilidade de emissão está associada a cada estado oculto e é determinada com base em conjuntos de dados de genótipos de painéis de referência. Um painel de referência é uma coleção de conjuntos de dados de genótipos de indivíduos que são membros conhecidos de uma população étnica. Por exemplo, um painel de referência germânico inclui conjuntos de dados de genótipos de alemães conhecidos. A determinação de uma probabilidade de emissão é específica para um determinado estado oculto com dois rótulos de etnia e envolve uma série de etapas que incluem a criação de um modelo de Markov (MM) haploide e a criação de um modelo de Markov Oculto (HMM) diploide usando os painéis de referência associados aos rótulos do estado oculto específico. Os detalhes de calcular um MM haploide e um HMM diploide para cada estado oculto são discutidos em detalhes em associação com as FIGs. 2 e 3. Uma série de cálculos para determinar uma probabilidade de emissão pode incluir determinações de um ou mais de valores intermediários, tais como, anotações, produtos de anotação e probabilidades de pares de rótulos. O processo de como esses valores são gerados usando o MM haploide e o HMM diploide a fim de determinar a probabilidade de emissão é discutido em detalhes em associação com a FIG.
5. Em um nível alto, a determinação de uma probabilidade de emissão inclui comparar um conjunto de dados de genótipos de amostra de interesse a um ou mais painéis de referência para determinar a probabilidade de que o par de haplótipos apresentados em cada janela do conjunto de dados de genótipos de amostra venha das populações dos painéis de referência.
[0053] Uma probabilidade de transição é uma probabilidade de que um estado oculto de um primeiro grupo de nós transite para um estado oculto do próximo grupo de nós. No HMM entre janelas de acordo com uma modalidade, uma probabilidade de transição pode representar, quando um conjunto de rótulos (por exemplo, "Asiático, Europeu, Não Trocado”) é atribuído a uma janela, a probabilidade de que outro conjunto de rótulos (por exemplo, os mesmos rótulos “Asiático, Europeu, Não Trocado” ou rótulos diferentes “Asiático, Asiático, Não Comutado”) devem ser atribuídos à próxima janela. Os humanos costumam herdar um grande pedaço de DNA de um ancestral. Consequentemente, mudanças nos rótulos de etnias são menos prováveis quando duas janelas estão próximas uma da outra. Os rótulos de etnia de uma janela dependem dos rótulos de etnia da janela anterior. A probabilidade de transição representa essa dependência.
[0054] Deve ser notado que “transição” e “troca” representam conceitos diferentes nessa revelação. A transição pode se referir a uma mudança de um ou mais dos três rótulos em um estado oculto de uma janela para a janela seguinte. Graficamente, em um HMM, uma transição é representada por uma borda, que é um caminho que vai de um nó de um grupo de nós para outro nó do próximo grupo de nós. Em contraste, a troca está relacionada a um faseamento incorreto potencial para o par de haplótipos em uma janela particular. A troca ocorre quando o HMM assume que uma janela está em um estado com um par de rótulos em uma ordem particular, mas a amostra de genótipo real nessa janela tem o mesmo par de rótulos, mas em uma ordem inversa. No HMM, um rótulo de troca é um dos valores de rótulo em um nó, enquanto uma transição é representada por uma borda no HMM.
[0055] Probabilidades de transição associadas a bordas diferentes são determinadas com base no treinamento do HMM entre janelas até que o HMM convirja ou após um número predeterminado de iterações. O conjunto de treinamento do HMM pode ser amostrado a partir de diferentes painéis de referência, de modo que o conjunto de treinamento inclua uma mistura de diferentes etnias. Em alguns casos, quando um conjunto de dados de genótipos precisa ser analisado, o conjunto de dados de genótipos pode primeiro ser usado para treinar ainda mais o HMM (por exemplo, como uma amostra adicional do conjunto de treinamento). A determinação das probabilidades de transição é descrita em mais detalhes na FIG. 6.
[0056] Após as probabilidades de emissão e probabilidades de transição serem determinadas, a atribuição de rótulo de um conjunto de dados de genótipos é determinada pela execução de um algoritmo de Viterbi conhecido na técnica usando o conjunto de dados de genótipos para determinar o caminho estatisticamente mais provável do HMM entre janelas (o Caminho de Viterbi). O caminho seleciona um nó para cada janela (o que significa que um par de rótulos de etnia é atribuído a cada janela).
[0057] Sem perda de generalidade, diferentes modelos de Markov são descritos pela primeira vez nas FIGS. 2-4 e o processo de determinação das probabilidades de emissão, probabilidades de transição e atribuições de rótulos são descritos posteriormente nas FIGS. 5-8. Visão Geral do Sistema
[0058] A FIG. 1A é um diagrama de blocos de um sistema online, que pode ser um sistema de determinação de rótulo 100 para treinar e utilizar um modelo para atribuir rótulos a um conjunto de dados de genótipos, de acordo com uma modalidade. O sistema de determinação de rótulo 100 treina e usa modelos para determinar probabilisticamente os rótulos aos quais uma amostra de genótipo de entrada corresponde. O sistema de determinação de rótulo 100 pode ser um sistema de computação incluindo um ou mais processador(es), uma ou mais de memórias de computador e uma interface para comunicação através de uma rede. Em um exemplo de modalidade, o sistema de determinação de rótulo 100 inclui um armazenamento de dados de genealogia 105, um armazenamento de MM haploide 110, um armazenamento de amostra de painel de referência 115, um armazenamento de HMM diploide 120, um armazenamento de anotação 125, um armazenamento de dados genéticos 130 e um armazenamento de HMM entre janelas 135, um módulo de intervalo 145, um módulo de confiança 155 e um módulo de polígono 175. O sistema de determinação de rótulo 100 pode construir e treinar um modelo de rotulagem 190. O modelo de rotulagem 190 inclui vários componentes (que também podem ser referidos como submodelos ou módulos), tal como um módulo de MM haploide 140, um módulo de HMM diploide 150, um módulo de HMM entre janelas 160, um módulo de atribuição de rótulo 170 e um módulo de faseamento 180. Em várias modalidades, o modelo de rotulagem 190 pode incluir módulos adicionais ou em menores quantidades.
[0059] Um sistema online, tal como o sistema de determinação de etiqueta 100, pode manter dados do usuário e dados genealógicos no armazenamento de dados genealógicos
105. O armazenamento de dados genealógicos 105 armazena dados do usuário para cada usuário do sistema online. A quantidade e o tipo de dados armazenados para cada usuário no armazenamento de dados genealógicos 105 podem variar com base nas informações fornecidas pelo usuário correspondente. Os usuários podem fornecer dados por meio da interface do usuário de um dispositivo do usuário. A interface do usuário pode ser um site ou aplicativo móvel do sistema online. Por exemplo, o usuário pode ser solicitado em um elemento de uma interface de usuário a responder perguntas relacionadas ao usuário que podem ser processadas para obter dados genealógicos e de pesquisa. Exemplos de dados genealógicos incluem nomes (nome, sobrenome, nome do meio, sufixos), locais de nascimento, data de nascimento, data de morte, informações sobre casamento, parentesco, histórico familiar e semelhantes. Em alguns casos, o histórico da família pode assumir a forma de uma linhagem desse indivíduo (por exemplo, os relacionamentos registrados na família). As informações de linhagem associadas a um usuário abrangem um ou mais de nós especificados. Cada nó especificado no gráfico de linhagem representa o indivíduo ou um ancestral do indivíduo correspondente a uma amostra de DNA armazenada. Portanto, o pedigree inclui o indivíduo e os ancestrais que transmitiram o material genético ao indivíduo associado. Os nós em uma linhagem podem incluir informações pessoais da pessoa (por exemplo, ancestral) representado pelo nó. Por exemplo, as informações pessoais podem incluir a região geográfica em que a pessoa nasceu. Outras informações pessoais também podem assumir a forma de vários tipos de informações genealógicas.
[0060] Os dados genealógicos podem descrever conexões genéticas entre os usuários do sistema online. Os dados genealógicos obtidos de uma fonte de registro público, tais como registros do censo, podem ser armazenados no armazenamento de dados genealógicos 105. Esses registros podem incluir registros de nascimento, registros de óbito, registros de casamento e registros do censo. Os dados genealógicos na forma de dados de pesquisa incluem informações sobre os fenótipos de um indivíduo, tais como características físicas (por exemplo, altura, cabelo, pigmentação da pele, sardas, gosto amargo, tipo de lóbulo da orelha, padrões de íris, calvície de padrão masculino, ondulação do cabelo), fenótipos de bem-estar (por exemplo, tolerância à lactose, consumo de cafeína, resistência à malária, resistência ao norovírus, desempenho muscular, enrubescimento por álcool) e preferências pessoais (por exemplo, gostos e desgostos). O armazenamento de dados de genealogia 105 também pode incluir informações inferidas dos dados genéticos armazenados no armazenamento de dados genéticos 130 e informações recebidas dos indivíduos. Por exemplo, informações relacionadas às quais os indivíduos são geneticamente relacionados, como eles estão relacionados, quantas gerações atrás eles compartilham ancestrais comuns, porcentagem compartilhada de IBD, de quais comunidades o indivíduo faz parte, variantes que o indivíduo carrega e assim por diante.
[0061] Os dados genealógicos podem incluir dados de um ou mais de um pedigree de um indivíduo, o sistema de Árvore Mundial Genealógica, um banco de dados de Índice de Morte de Segurança Social, sistema de Árvore Genealógica Familiar, um banco de dados de Certificado de nascimento, um banco de dados de Certificado de Óbito, um banco de dados de Certificado de casamento, um banco de dados de adoção, um banco de dados de registro de Alistamento, um banco de dados de veteranos, um banco de dados militar, um banco de dados de registros de propriedade, um banco de dados de censo, um banco de dados de registro de eleitores, um banco de dados de telefone, um banco de dados de endereços, um banco de dados de jornais, um banco de dados de imigração, um banco de dados de registros de histórico familiar, um banco de dados de registros de histórico local, um banco de dados de registro de empresas, um banco de dados de veículos motorizados e assim por diante.
[0062] O armazenamento de dados genéticos 130 mantém conjuntos de dados genéticos de indivíduos. Os dados genéticos podem conter a totalidade ou porções do genoma do indivíduo e metadados correspondentes. Os dados armazenados no armazenamento de dados genéticos 130 podem armazenar um ou mais de conjuntos de dados genéticos ligados a um usuário. Em várias modalidades, o armazenamento de dados genéticos 130 armazena um ponteiro para um local associado ao armazenamento de dados genealógicos 105 associado ao indivíduo. Um conjunto de dados genéticos pode assumir diferentes formas. Em uma modalidade, um conjunto de dados genéticos pode assumir a forma de sequência de par de bases da sequência de DNA de um indivíduo. Um conjunto de dados genéticos pode incluir um genoma completo do indivíduo (por exemplo, obtido a partir de um sequenciamento do genoma completo) ou algumas partes de loci genéticos. Em outra modalidade, um conjunto de dados genéticos pode assumir a forma de sequências de sítios de SNP alvo e sítios de alelo. O conjunto de dados genéticos pode estar na forma de dados diploides e pode ser dividido em dois conjuntos de dados haploides. Os dados diploides também podem ser referidos como dados de genótipos, enquanto os dados haploides em fases podem ser referidos como dados de haplótipos.
[0063] Em algumas modalidades, o sistema de determinação de rótulo 100 pode operar em um estágio de treinamento e um estágio de atribuição de rótulo. O estágio de treinamento pode ser realizado uma vez para treinar o modelo de rotulagem 190 que inclui submodelos. Por exemplo, um MM haploide para cada janela w armazenado no armazenamento MM haploide 110 pode ser treinado para calcular as anotações armazenadas no armazenamento de anotação 125 para cada rótulo K e janela w. O estágio de treinamento é frequentemente baseado em mais de um único conjunto de dados de genótipos de amostra de entrada particular. Por exemplo, uma coleção de amostras de treinamento pode ser usada. Após o estágio de treinamento, o sistema de determinação de rótulo 100 pode atribuir rótulos a um conjunto de dados de genótipos de amostra de entrada X durante o estágio de atribuição de rótulo. A atribuição de rótulos ao conjunto de dados de genótipos de amostra X usa os MMs haploides e as anotações inicializadas durante a fase de treinamento. Em algumas modalidades, após o estágio de treinamento para o modelo de rotulagem 190 ter sido realizado uma vez, os rótulos podem ser atribuídos continuamente a diferentes conjuntos de dados de genótipos de entrada. Em outras modalidades, após o modelo de rotulagem 190 ser inicialmente treinado, o sistema de determinação de rótulo 100 pode melhorar e atualizar continuamente vários componentes do modelo de rotulagem 190 tratando conjuntos de dados de genótipos de entrada previamente rotulados que foram eles próprios rotulados pelo modelo de rotulagem 190 como amostras de treinamento adicionais.
[0064] O armazenamento de amostra de painel de referência
115 pode incluir uma coleção de amostras de painel de referência. Cada amostra do painel de referência pode ser um conjunto de dados genéticos representativo de uma comunidade genética específica. Por exemplo, uma amostra de painel de referência japonesa pode ser representativa dos dados genéticos de pessoas de origem japonesa. Cada origem étnica pode incluir mais de um conjunto de dados do painel de referência. Ao comparar uma janela de dados genéticos de um indivíduo alvo com diferentes amostras do painel de referência, as amostras do painel de referência podem ser usadas para fornecer possíveis rótulos de origem étnica para a janela de dados genéticos e também podem atribuir uma probabilidade de que a janela de dados genéticos seja herdada de uma determinada comunidade genética. Esse processo de atribuição de rótulos e determinação de probabilidades pode ser referido como anotação.
[0065] O módulo de faseamento 180 faseia conjunto de dados genéticos diploides em um par de conjuntos de dados genéticos haploides. O haplótipo de um indivíduo pode se referir a uma coleção de alelos (por exemplo, uma sequência de alelos) que são herdados de um dos pais. Em um contexto, um haplótipo também pode se referir a uma coleção de alelos que corresponde a um segmento genético. Em outros contextos, um haplótipo pode se referir a um alelo específico em um site SNP. Por exemplo, uma sequência de haplótipos pode se referir a uma sequência de alelos de um indivíduo que são herdados de um dos pais.
[0066] Faseamento pode incluir um processo de determinação da atribuição de alelos (particularmente alelos heterozigotos) aos cromossomos. Devido às condições de sequenciamento e outras restrições, um resultado de sequenciamento geralmente inclui dados sobre um par de alelos em um determinado sítio de SNP de um par de cromossomos, mas pode não ser capaz de distinguir qual alelo pertence a qual cromossomo específico. O módulo de faseamento 180 usa um algoritmo de fase de genótipo para atribuir um alelo a um primeiro cromossomo e outro alelo a outro cromossomo. O algoritmo de faseamento do genótipo pode ser desenvolvido com base na suposição de desequilíbrio de ligação (LD), que afirma que o haplótipo na forma de uma sequência de alelos tende a se agrupar. O módulo de faseamento 180 é configurado para gerar sequências faseadas que também são comumente observadas em muitas outras amostras. Em outras palavras, as sequências de haplótipos de diferentes indivíduos tendem a se agrupar. Um modelo de grupo de haplótipo pode ser gerado para determinar a distribuição de probabilidade de um haplótipo que inclui uma sequência de alelos. O modelo de grupo de haplótipos pode ser treinado com base em dados rotulados que incluem haplótipos faseados conhecidos de um trio (pais e uma criança). Um trio é usado como amostra de treinamento porque o faseamento correto da criança é quase certa ao comparar os genótipos da criança com os conjuntos de dados genéticos dos pais. O modelo de agrupamento de haplótipo pode ser gerado iterativamente junto com o processo de faseamento com um grande número de conjuntos de dados de genótipos não faseados.
[0067] A título de exemplo, o módulo de faseamento 180 pode usar um modelo de gráfico acíclico direcionado, tal como um modelo de Markov oculto (HMM) para realizar o faseamento de um conjunto de dados de genótipos alvo. O gráfico acíclico direcionado pode incluir vários níveis, cada nível tendo vários nós que representam diferentes possibilidades de aglomerados de haplótipos. Uma probabilidade de emissão de um nó, que pode representar a probabilidade de ter um grupo de haplótipos particular, dada uma observação dos genótipos, pode ser determinada com base na distribuição de probabilidade do modelo de grupo de haplótipos. Uma probabilidade de transição de um nó para outro pode ser inicialmente atribuída a um valor diferente de zero e ser ajustada como o modelo de gráfico acíclico direcionado e o modelo de agrupamento de haplótipo são treinados. Vários caminhos são possíveis ao percorrer diferentes níveis do modelo de gráfico acíclico direcionado. O módulo de faseamento 180 determina um caminho estatisticamente provável, tal como o caminho mais provável ou um caminho provável que é pelo menos mais provável do que 95% de outros caminhos possíveis, com base nas probabilidades de transição e as probabilidades de emissão. Um algoritmo de programação dinâmica adequado, tal como o algoritmo de Viterbi, pode ser usado para determinar o caminho. O caminho determinado pode representar o resultado do faseamento. O pedido de patente US Nº 15/591.099, intitulado “Haplotype Phasing Models,” depositado em 19 de outubro de 2015, descreve uma possível modalidade de faseamento de haplótipo.
[0068] O módulo de faseamento 180 pode separar probabilisticamente o genótipo da amostra de entrada X em seus haplótipos constituintes com base nos rótulos atribuídos. Em uma modalidade, um par de rótulos para cada janela w é atribuído com base no caminho de Viterbi através do HMM entre janelas. O faseamento (isto é, separar o genótipo X da amostra de entrada em haplótipos) pode ser realizado com base em HMMs diploides 300 para cada janela w modificada pelas anotações Aw para os rótulos atribuídos. Por exemplo, o HMM diploide para o genótipo de amostra de entrada X pode ser modificado de modo que a probabilidade do estado diploide (u1, u2) na janela w seja dada por Aw(u1,p) × Aw(u2,q). Os SNPs na janela w podem ser faseados nos haplótipos constituintes, determinando o caminho de Viterbi através do HMM diploide modificado. Dessa forma, o genoma X pode ser faseado de forma a maximizar a concordância com a atribuição do rótulo. Os haplótipos também podem ser combinados através de janelas. Por exemplo, se os rótulos (p,q) foram atribuídos à janela w e os rótulos (p,q’) foram atribuídos à janela w+1, então a sequência de alelos no haplótipo faseado correspondente ao rótulo p na janela w pode ser combinado com a sequência de alelos no haplótipo faseado correspondente ao rótulo p na janela w+1. De modo similar, a sequência de alelos no haplótipo faseado correspondente ao rótulo q na janela w pode ser combinada com aqueles do rótulo q’ na janela w+1.
[0069] A FIG. 1B ilustra as diferenças entre uma amostra de painel de referência não misturado e uma amostra de painel de referência misturado. As amostras do painel de referência podem incluir dois tipos diferentes, dependendo se a população não é misturada ou é misturada. Para uma população não misturada, todo um conjunto de dados genéticos de um indivíduo pode constituir uma amostra de painel de referência. Por exemplo, para a população A, que é assumida como uma população não misturada, os conjuntos de dados genéticos do indivíduo 1, do indivíduo 2 e do indivíduo 3 podem ser três amostras de painel de referência diferentes que representam os dados genéticos da população A. Para a população B, que se presume ser uma população misturada, um conjunto de dados genéticos de um indivíduo inclui segmentos genéticos que são herdados de diferentes origens étnicas possíveis. Por exemplo, para uma população hispânica, o conjunto de dados genéticos pode incluir segmentos genéticos de origem americana nativa, origem europeia, origem africana, etc. Para uma determinada etnia, vários indivíduos misturados podem ter diferentes segmentos genéticos que são herdados de uma origem étnica específica. O sistema online pode combinar segmentos genéticos de múltiplos indivíduos misturados para formar um conjunto de dados genéticos sintéticos. Por exemplo, uma amostra do painel de referência para uma população misturada pode incluir um primeiro segmento genético de um primeiro indivíduo misturado, um segundo segmento genético de um segundo indivíduo misturado, etc. O primeiro segmento genético e o segundo segmento genético são segmentos diferentes.
[0070] O armazenamento de amostra de painel de referência 115 pode incluir diferentes amostras de painel de referência para várias origens étnicas de indivíduos misturados originados da mesma região geográfica. Um painel de referência sintético formado pela combinação de segmentos genéticos de vários indivíduos pode estar associado a uma região geográfica e a uma origem étnica. Por exemplo, um conjunto de dados genéticos sintéticos representando a origem do nativo americano para uma população hispânica do México pode estar associado ao México (uma região geográfica) e ao nativo americano (uma origem étnica). O armazenamento de amostra do painel de referência 115 pode incluir outro conjunto de dados genéticos sintéticos representando a origem europeia para a mesma população hispânica do México. Esse painel de referência pode ser associado ao México e à Europa. Da mesma forma, um conjunto de dados genéticos sintéticos associado ao Brasil (uma região geográfica) e europeu (origem étnica) também pode ser um painel de referência diferente. Em outras palavras, para uma população misturada de uma determinada região geográfica, vários painéis de referência representando diferentes origens étnicas podem ser armazenados. Modelo de Markov Haploide
[0071] O armazenamento de MM haploide 110 armazena uma pluralidade de MMs haploides (modelos de Markov), cada MM haploide correspondendo a uma janela w. O módulo de MM haploide 140 constrói a pluralidade de MMs haploides com base em dados de treinamento (por exemplo, haplótipos sequenciados e/ou haplótipos faseados). Em algumas modalidades, os MMs haploides podem ser recebidos de outro sistema (por exemplo, através de uma rede). Cada MM haploide é um modelo probabilístico de alelos em uma janela respectiva w. O MM haploide para uma janela w é um gráfico acíclico direcionado com um número finito de estados haploides. Cada borda direcionada entre dois estados haploides no MM haploide é referida aqui como uma “transição” e corresponde ao valor de um alelo em um haplótipo. Portanto, cada haplótipo possível (por exemplo, uma sequência de alelos) na janela w corresponde a um caminho (isto é, sequência de estados haploides) através do MM haploide correspondente à janela w. Os estados em um MM haploide, as transições entre eles e as probabilidades dessas transições são determinadas pelo módulo de MM haploide 140 com base nos dados de treinamento.
[0072] A FIG. 2 ilustra um exemplo de um MM haploide 200 para uma janela w, de acordo com uma modalidade. A FIG. 2 ilustra o MM haploide para a janela w como um gráfico direcionado, onde os círculos representam nós com cada nó correspondendo a um estado, e as setas representam bordas com cada borda correspondendo a uma transição entre um primeiro estado em um d-1-ésimo nível para um segundo estado em um d-ésimo nível. O MM haploide é dividido em níveis Dw + 1 (isto é, o MM haploide inclui um nível a mais do que o número Dw de SNPs na janela w). Cada estado no modelo corresponde a algum nível d∈{0,…, Dw + 1}. Cada nível d na janela inclui h estados. Cada estado u no MM haploide pode ser referenciado pela combinação de seu nível d e um índice n (para n∈ {0, ..., h-1}), embora os estados possam ser referências com um esquema de referência alternativo. Na FIG. 2, o índice n de cada estado u é o número inteiro com o qual o estado é rotulado. Nesse documento, u(w,d,n) faz referência ao enésimo estado no nível d na janela w. Assim, o estado inicial é w= u(w,0,0), o estado 202 é u(w,2,2) e o estado final é w =u(w,Dw,0).
[0073] Um haploide MM 200 inclui um estado inicial w no nível 0 e um estado final w no nível Dw. Além do estado final w no nível Dw, que é um nó terminal, cada estado no nível d pode incluir transições de saída para um ou dois estados no nível d+1. A transição entre um estado no nível d-1 para um segundo estado no nível d corresponde ao d-ésimo alelo na janela w de um haplótipo. Na FIG. 2, o valor do alelo de um haplótipo correspondente à transição entre dois estados é ilustrado pelo número (0 ou 1) na seta entre os estados. Por exemplo, a transição do estado inicial w para u(w,1,0) (isto é, o estado no nível 1 com número de índice n = 0) corresponde a um alelo de 0 na primeira posição de SNP na janela w e a transição do estado inicial w para u(w,1,1) (isto é, o estado no nível 1 com número de índice n=1) pode corresponder a um alelo de 1 naquela posição de SNP. Como indicado pela FIG. 2, nesse exemplo, a probabilidade de transição entre o estado inicial w e u(w,1,0) é 0,56 e a probabilidade de transição entre w e u(w,1,1) é 1 - 0,56 = 0,44.
[0074] No MM haploide 200, a função de transição t(u,a) descreve a transição de um estado haploide u em um d-1-ésimo nível para um valor de alelo a no nível d-ésimo, onde o valor de alelo a pode tome um valor binário (por exemplo, a∈{0,1}). Por exemplo, na FIG. 2, t(u(w,2,0),0) descreve a transição de u(w,2,0) para u(w,3,0) porque u(w,3,0) é o próximo estado que tem o valor de alelo 0. Da mesma forma, t(u(w,2,0),1) descreve a transição para o estado haploide u(w,3,1) porque u(w,3,1) é o próximo estado que tem o valor do alelo 1. Quando um estado haploide u no nível d-1 faz a transição para dois estados distintos (isto é, quando t(u,0) ≠ t(u,1)), cada uma das transições é mapeada para o d-ésimo alelo na janela w. Nesse documento, ρ(u,a) refere-se à probabilidade de transição de que o estado u no nível d-1 transite para o próximo estado no d-ésimo SNP que possui um alelo que assume o valor de a. Por exemplo, uma borda 204, que representa u(w,2,1) em transição para o próximo estado que tem um valor de alelo de 0, corresponde à probabilidade de transição ρ(u(w,2,1),0)=0,9. Da mesma forma, uma borda 206 corresponde à probabilidade de transição ρ(u(w,2,1),1)=0,1. Se o estado u faz a transição para apenas um estado v no nível d, então o MM haploide pode ainda incluir uma distribuição de probabilidade para o d-ésimo alelo, mesmo que a transição de estado seja determinística. Por exemplo, como ilustrado na FIG. 2, a transição do estado u(w,2,2) para o estado u(w,3,4) pode associar uma probabilidade de 0,75 com o alelo 0 no terceiro SNP na janela w e uma probabilidade de 0,25 para o alelo 1 no terceiro SNP na janela w.
[0075] Cada caminho através do MM haploide 200 corresponde a uma ou mais sequências possíveis de alelos (por exemplo, que podem ocorrer no conjunto de dados de genótipos de amostra de entrada X). A probabilidade de uma sequência de alelos é dada pelo produto das probabilidades de alelos correspondentes no caminho correspondente. Por exemplo, um caminho que inclui a sequência de estado ( w, u(w,1,1), u(w,2,1), u(w,3,3)) corresponde à sequência de alelos (1,1,1) que tem uma probabilidade de ρ( w,1)x ρ(u(w,1,1),1) x ρ(u(w,2,1),1) = 0,022. Os possíveis haplótipos (ou, equivalentemente, todas as sequências possíveis de alelos) correspondem a caminhos diferentes no MM haploide. Cada caminho correspondente a um possível haplótipo começa no estado inicial w, inclui exatamente um estado para cada nível d, e termina no estado final w.
Modelo de Markov Oculto Diploide
[0076] Voltando à FIG. 1A, a armazenamento 120 de HMM diploide armazena uma pluralidade de HMMs diploides (Modelos de Markov ocultos). Cada HMM diploide corresponde a cada janela w. O módulo de HMM diploide 150 pode construir esses HMMs diploides com base nos MMs haploides armazenados no depósito de MM haploide 110. Cada estado diploide no HMM diploide para a janela w corresponde a um par ordenado de estados haploides (isto é, um estado haploide para cada um os dois haplótipos que constituem um genoma) no MM haploide 200 para a janela w. Assim, cada estado diploide (u1,u2) no HMM diploide no nível d corresponde aos estados haploides u1 e u2, onde u1 e u2 são do nível d. Por exemplo, o estado inicial do HMM diploide para a janela w é (u(w,0,0), u(w,0,0)) = ( w, w). Em algumas modalidades, os estados haploides u1 e u2 são faseados, o que significa que u1 é usado para representar um primeiro haplótipo do de um dos pais, tal como um haplótipo paterno, enquanto u2 é usado para representar um segundo haplótipo de um dos pais, tal como um haplótipo materno, ou vice-versa.
[0077] Em algumas modalidades, a armazenamento de HMM diploide 120 armazena um HMM completo para cada janela w. Um HMM diploide completo para a janela w inclui, para um nível d, um estado diploide para cada par ordenado de estados haploides no MM haploide 200 no nível d. HMMs diploides completos podem ser calculados durante um estágio de treinamento. O armazenamento de HMM diploide também pode incluir HMMs diploides que correspondem a conjuntos de dados de genótipos específicos. O HMM diploide para um conjunto de dados de genótipos específico G (por exemplo, um conjunto de dados de genótipos de amostra de entrada X ou um genoma de amostra de painel de referência para um rótulo K) na janela w pode incluir todos os estados diploides possíveis que são compatíveis com o conjunto de dados de genótipos G e as possíveis transições para o conjunto de dados de genótipos G. HMMs diploides podem ser calculados para o conjunto de dados de genótipos de amostra de entrada X pelo módulo de HMM diploide 150 durante um estágio de atribuição de rótulo. HMMs diploides também podem ser calculados para os genomas de amostra do painel de referência armazenados no armazenamento de amostra do painel de referência 115 durante o estágio de treinamento ao calcular as anotações no armazenamento de anotação 125. Em geral, o HMM diploide para a janela w para um conjunto de dados de genótipos G às vezes inclui menos estados do que o HMM diploide completo para a janela w, porque muitos estados diploides no HMM diploide completo podem não ser compatíveis com o genótipo G.
[0078] Em algumas modalidades, um HMM diploide para um conjunto de dados de genótipos G para uma janela w é calculado com base no HMM diploide completo para a janela w. Em modalidades alternativas, o módulo de HMM diploide 150 não constrói HMMs diploides completos e nenhum HMM diploide completo é armazenado no armazenamento de HMM diploide 120. Em vez disso, o módulo de HMM diploide pode construir HMMs diploides para conjuntos de dados de genótipos para cada janela w com base no MM haploide correspondente para a janela w.
[0079] A FIG. 3 é um exemplo de um HMM diploide 300 para uma janela w, de acordo com uma modalidade. O HMM diploide ilustrado na FIG. 3 é um HMM diploide totalmente instanciado. Por essa razão, o número de estados diploides em cada nível d para a janela w é igual ao quadrado do número de estados no MM haploide 200 correspondente no nível d (isto é, h2). Para uma sequência de genótipo composta de haplótipos que correspondem a um estado diploide (u1,u2) no nível d-1, a probabilidade de que os d-ésimos alelos na janela w sejam o par ordenado (a1,a2) é igual a ρ(u1,a1) × ρ(u2,a2). O número de transições possíveis de um estado diploide (u1,u2) para outro estado é igual ao número de transições possíveis de u1 no MM haploide para um próximo estado multiplicado pelo número de transições possíveis de u2 para um próximo estado.
[0080] A FIG. 3 representa um exemplo de HMM diploide 300 que corresponde ao exemplo MM haploide 200 representado na FIG. 2. Na FIG. 3, cada nó representa um estado diploide no HMM diploide que é rotulado com um par de números de índice (n,m) correspondendo aos índices do par correspondente de estados haploides no MM haploide 200. Por exemplo, o estado diploide rotulado (1,2) no nível 2 na FIG. 3 representa o estado diploide (u(w,2,1), u(w,2,2)) onde os estados haploides u(w,2,1) e u(w,2,2) são do MM haploide 200 da FIG.
2. Em algumas modalidades, os estados diploides são faseados de forma que a ordem dos dois estados haploides em um par de estados diploides represente a fase dos estados haploides. Por exemplo, o estado diploide rotulado (1,2) representa que o primeiro estado de um dos pais está no estado haploide 1, enquanto o segundo estado de um dos pais está no estado haploide 2, enquanto o estado diploide rotulado (2,1) representa que o primeiro estado de um dos pais está no estado haploide 2, enquanto o segundo estado de um dos pais está no estado haploide 1, ou vice-versa se o primeiro estado for indicado como o estado materno.
[0081] Como cada conjunto de dados de genótipos corresponde a dois haplótipos, cada conjunto de dados de genótipos em fases corresponde a um único caminho através do HMM diploide 300 para a janela w. No entanto, como os SNPs em conjuntos de dados de genótipos não faseados não associam alelos a haplótipos específicos, o caminho exato através do HMM diploide que um conjunto de dados de genótipos atravessa pode ser ambíguo, pois o conjunto de dados de genótipos provavelmente incluirá um número de SNPs heterozigotos e dados possivelmente ausentes para SNPs também. Por exemplo, a sequência de pares de alelos não ordenados ((0,1),(0,1)) corresponde a quatro caminhos distintos através dos três primeiros níveis do exemplo de HMM diploide para a janela w, tal como a sequência de estados diploides (( w, w), (u(w,1,0), u(w,1,1)), (u(w,2,1), u(w,2,2))). Além disso, o cruzamento cromossômico pode ocorrer durante a meiose. Por várias razões, o faseamento de um conjunto de dados de genótipos não é um processo determinístico e, portanto, pode haver erros no faseamento e na determinação de um par de conjuntos de dados de sequência de haplótipos de um conjunto de dados de genótipo.
[0082] O HMM diploide 300 pode ser usado para gerar um par de conjuntos de dados de haplótipos faseados de um conjunto de dados de genótipos de entrada para cada janela w. O conjunto de dados de genótipos de entrada pode ser usado com outros conjuntos de dados de treinamento para construir iterativamente o HMM diploide 300 para um número predeterminado de iterações ou até que o HMM diploide 300 convirja. Por exemplo, o HMM diploide 300 é inicialmente treinado com as amostras do painel de referência obtidas no armazenamento do painel de referência 115. As amostras do painel de referência podem ser conjuntos de dados não misturados ou conjuntos de dados sintéticos para populações misturadas. Um HMM diploide 300 diferente pode ser calculado e treinado para cada par de rótulos usando os painéis de referência associados ao par de rótulos. O conjunto de dados de genótipos de entrada pode então ser usado como uma entrada do HMM diploide 300 treinado para determinar o caminho de Viterbi do HMM diploide 300. O caminho de Viterbi pode representar um resultado provável de um par de conjuntos de dados de haplótipos faseados. O conjunto de dados de haplótipos faseados pode então ser usado como uma das amostras de treinamento para melhorar o HMM diploide 300. Essa iteração pode ser repetida várias vezes para melhorar o cálculo do caminho de Viterbi e o faseamento do conjunto de dados de genótipos de entrada. Para obter mais informações sobre o faseamento de um conjunto de dados de genótipos de entrada para gerar um par de conjuntos de dados de haplótipos faseados, a publicação do pedido de patente US nº 2017/0262577 publicada em 14 de setembro de 2017, intitulada “Haplotype Phasing Models”, é incorporada nesse documento por referência para todas as finalidades.
[0083] O HMM diploide 300 também pode ser usado para determinar as distribuições de probabilidade de pares de rótulos e probabilidades de emissão. Tal processo de determinação será discutido com mais detalhes abaixo em associação com a FIG. 5. Modelo de Markov Oculto Entre Janelas
[0084] Depois que um par de conjuntos de dados de haplótipos faseados é gerado a partir de um conjunto de dados de genótipos de amostra de entrada X, o sistema de determinação de rótulo 100 atribui rótulos ao conjunto de dados de genótipos de entrada X usando e construindo um modelo de Markov oculto entre janelas (HMM entre janelas). O armazenamento de dados genéticos 130 armazena um ou mais de pares de conjuntos de dados de haplótipos faseados. O sistema de determinação de rótulo 100 pode atribuir rótulos ao conjunto de dados de genótipos de amostra de entrada X com base no par de conjuntos de dados de haplótipos faseados. O armazenamento de HMM entre janelas 135 armazena um HMM entre janelas correspondente ao conjunto de dados de genótipos de amostra de entrada X que é usado para determinar os rótulos. O HMM entre janelas é calculado ou construído pelo módulo de HMM 160 entre janelas. O HMM entre janelas inclui estados para cada janela w.
[0085] A FIG. 4 ilustra um exemplo simplificado de um HMM entre janelas 400, de acordo com uma modalidade. O HMM entre janelas 400 pode ser um gráfico acíclico direcionado (por exemplo, na direção da esquerda para a direita como mostrado na FIG. 4) que inclui uma pluralidade de grupos de nós. O gráfico que representa o HMM entre janelas 400 também pode ser referido como uma treliça. Graficamente, cada grupo de nós na treliça também pode ser referido como um nível, uma fenda, uma janela de gráfico ou uma camada. Cada grupo de nós representa uma janela w que corresponde a um segmento genético, tal como um conjunto de SNPs. Uma pluralidade de nós (representados pelos círculos na FIG. 4) são arranjados em cada grupo de nós. Cada nó representa um possível estado da janela w. Cada nó está associado a uma probabilidade de emissão que representa uma probabilidade de a janela ser observada como tendo um par específico de conjuntos de dados de haplótipos faseados, dado que a janela está em estado oculto (isto é, a janela é atribuída com um par particular de rótulos). Em outras palavras, o par particular de conjuntos de dados de haplótipos faseados pode ser uma observação em um modelo de Markov oculto, enquanto o estado que é rotulado pode ser o estado “oculto” do modelo de Markov oculto, porque os rótulos não são aparentes dados apenas o conjunto de dados de genótipos ou o conjunto de dados de haplótipos faseados. O HMM entre janelas 400 também inclui uma pluralidade de bordas. Cada borda conecta um primeiro nó de um primeiro grupo de nós a um segundo nó de um segundo grupo de nós. Cada borda representa uma transição do primeiro nó do primeiro grupo de nós para o segundo nó do segundo grupo de nós. Cada borda está associada a uma probabilidade de transição que representa uma probabilidade de transição do primeiro nó para o segundo nó. A determinação das probabilidades de emissão e probabilidades de transição será discutida em mais detalhes abaixo em associação com as FIGS. 5 e 6.
[0086] Um estado (representado por um nó) no HMM entre janelas 400 inclui três rótulos diferentes. Na modalidade particular mostrada na FIG. 4, os três rótulos são apresentados em ordem como um primeiro rótulo de um dos pais, um segundo rótulo de um dos pais e um rótulo de troca que representa uma troca da ordem entre o primeiro rótulo de um dos pais e o segundo rótulo de um dos pais na janela particular, onde a troca pode ser associado a erros de faseamento. Embora a ordem de apresentação na modalidade mostrada na FIG. 4 é o primeiro rótulo de um dos pais, o segundo rótulo de um dos pais e o rótulo de troca, outras ordens de apresentação também são possíveis.
[0087] Cada um dos três rótulos em um estado é representado por um valor inteiro. Por exemplo, o primeiro rótulo de um dos pais e o segundo rótulo de um dos pais são selecionados de um conjunto de K rótulos possíveis. Um rótulo é uma classificação de dados genéticos. Por exemplo, uma forma possível de classificar dados genéticos é pela origem étnica do indivíduo, embora outras maneiras de classificar dados genéticos sejam possíveis e não sejam necessariamente baseadas ou relacionadas a origens étnicas. Se origens étnicas forem usadas como classificação, o conjunto de K rótulos possíveis pode ser africano, asiático, europeu, etc. ou alemão, coreano, mexicano, etc., dependendo da granularidade da classificação. Um determinado valor integral representa um dos rótulos. Por exemplo, 1 pode representar europeu enquanto 2 pode representar asiático.
[0088] O terceiro rótulo de um nó, que é o rótulo do comutador, pode assumir um valor binário (por exemplo, 1 ou 0). O primeiro valor binário (por exemplo, 1) pode representar que há uma troca de ordem do primeiro rótulo de um dos pais e do segundo rótulo de um dos pais, enquanto o segundo valor binário (por exemplo, 0) pode representar que não há troca de ordem. Um rótulo de troca representa uma troca de ordem do primeiro rótulo de um dos pais e do segundo rótulo de um dos pais. Em outras palavras, um rótulo de troca representa que, para um estado particular, a ordem do primeiro rótulo de um dos pais e segundo rótulo de um dos pais no HMM é trocada em comparação com os rótulos reais na amostra. Usando os exemplos discutidos neste parágrafo como uma ilustração, o primeiro nó 402 da Janela 1 na FIG. 4, que assume os valores (1, 1, 0), pode representar o estado em que a Janela 1 é rotulada como Europeia para o primeiro rótulo de um dos pais e o segundo rótulo de um dos pais e não há troca de ordem entre os dois rótulos.
[0089] Da mesma forma, o quarto nó 404 da Janela 1 na FIG. 4, que assume os valores de (1, 2, 1), pode representar o estado em que a Janela 1 é rotulada como europeia para o primeiro rótulo de um dos pais e asiática para o segundo rótulo de um dos pais, mas há uma troca de ordem entre os dois rótulos. Em outras palavras, devido a uma ou mais razões possíveis, mas não observadas, tal como um erro de fase, o quarto nó 404 na verdade representa que a Janela 1 tem asiático como primeiro rótulo de um dos pais e europeu como segundo rótulo de um dos pais.
[0090] Usando o nó 402 como um exemplo para explicar o conceito de probabilidade de emissão no HMM entre janelas 400, as probabilidades de emissão representam nesse documento as probabilidades de que a Janela 1 é observada no conjunto de dados de genótipos de amostra para ter um par particular de conjuntos de dados de haplótipos faseados dada a Janela 1, deve ser rotulada como tendo origem europeia para a ascendência de um dos pais e da segunda linhagem. Da mesma forma, a probabilidade de transição do nó 402 para o nó 406 representa a probabilidade de que um primeiro segmento de SNPs (correspondendo à Janela 1), que deve ser rotulado como tendo origem europeia para a primeira e a segunda ascendências dos pais, faça a transição para um segundo segmento de SNPs (correspondendo à janela 2) que devem ser rotulados como tendo origem europeia para o primeiro ancestral de um dos pais e origem europeia para o segundo ancestral de um dos pais, mas há uma troca do primeiro rótulo de um dos pais e segundo rótulo de um dos pais.
[0091] A pluralidade de nós em cada grupo de nós representa permutações de possíveis primeiros rótulos de um dos pais, segundos rótulos de um dos pais e rótulos de troca que podem ser atribuídos a uma janela. Para cada janela, o HMM entre janelas 400 pode incluir um conjunto de estados correspondentes a cada conjunto ordenado de rótulos. Consequentemente, o número total de estados (T) pode ser K*K*2 (rótulos de troca binários de primeiros rótulos de um dos pais K* segundos rótulos de um dos pais K*) para cada janela. Para a modalidade particular mostrada na FIG. 4, há três valores possíveis de rótulos de classificação (ou seja, K = 3) e o rótulo de troca assume o valor de 1 ou 0. Portanto, há 3*3*2 = 18 estados possíveis (isto é, T = 18). Para simplificar, apenas alguns dos estados são mostrados na FIG. 4 para cada janela. Os estados para uma janela w são indicados como Uw(p,q,z) em que p é o valor do primeiro rótulo de um dos pais (por exemplo, p∈ (1,2,..., K)), q é o valor do segundo rótulo de um dos pais (por exemplo, q∈(1,2,…, K)), e z é o valor do rótulo de troca (por exemplo, z∈(0,1)). Dessa forma, o conjunto de rótulos (p,q,z) refere- se exclusivamente a cada um dos estados possíveis T. Embora a FIG. 4 representa K = 3 rótulos, o número de rótulos K pode ser qualquer número inteiro natural.
[0092] O HMM entre janelas 400 é um gráfico direcional que representa uma transição de um estado inicial para um estado final (não mostrado na FIG. 4) através de uma pluralidade de grupos de nós que representam uma pluralidade de janelas. O estado inicial 410 faz a transição para um dos T possíveis estados da janela 1, como ilustrado pelas setas entre o estado inicial 310 e os respectivos estados t da Janela 1. Cada estado na janela 1 pode fazer a transição para um dos possíveis estados na janela 2. Um estado Uw(p,q,z) na janela w pode fazer a transição para um estado Uw+ 1(p',q',z') na janela w+1. O cromossomo que corresponde à janela w é indicado como C(w) enquanto o cromossomo que corresponde à janela w+1 é indicado como C(w+1). Se a janela w e a janela w+1 correspondem ao mesmo cromossomo (isto é, C(w) = C(w+1)), então um estado Uw(p,q,z) pode ser mais provável de fazer a transição para um estado Uw+1(p’,q’,z’) na janela w+1 que corresponde ao mesmo par de rótulos (isto é, (p’,q’) = (p,q)) sem trocar para um estado na janela w+1 que corresponde a um par diferente de rótulos ou a um estado na janela w+1 que corresponde a uma troca de rótulos. Isso ocorre porque é biologicamente improvável que as sequências de SNPs em janelas adjacentes correspondam a rótulos diferentes (por exemplo, correspondem a grupos de origem de ascendência diferentes).
[0093] Em algumas modalidades, a probabilidade de transição P(Uw(p,q,z), Uw+1(p’,q’,z’)) de um estado Uw(p,q,z) para um estado Uw+1(p’,q’,z’)é dado pela equação (1) abaixo: , ,z → ’, ’, z’ = × ! " ⎧ se & ' ≠ & ' + 1 ⎪ 2 ⎪ 1−, × 1 − , " × 1 − , - se & ' = & ' + 1 , = , = ,. = . ⎪ 1−, × 1 − , " × , - se & ' = & ' + 1 , = , = ,. ≠ . ⎪ ⎪ ⎪, × 1 − , × 1 − , × / se & ' = & ' + 1 , ≠ , = ,. = . / " - ⎪ ∑ 1 + ∑ / 2 1 ⎪ , × 1 − ," × , - × / se & ' = & ' + 1 , ≠ , = ,. ≠ . / ⎨ ∑ 1 + ∑ / 2 1 ⎪ ⎪ 1 − , × ," × 1 − , - × !/ se & ' = & ' + 1 , = , ≠ ,. = . ⎪ ∑ !/ 1 + " ∑2 " ⎪ !/ 1 ⎪ 1 − , × , × , × se & ' = & ' + 1 , = , ≠ ,. ≠ . " - !/ ⎪ ∑! / " + ∑ 2 " ⎪ 1 ! / 1 ⎪ ⎩ 0 se & ' = & ' + 1 , ≠ , ≠ .
[0094] O símbolo 1 representa a distribuição de probabilidade do rótulo do primeiro rótulo pai k sobre K
" rótulos diferentes, enquanto 1 representa a distribuição de probabilidade do segundo rótulo de um dos pais k sobre K rótulos diferentes. Em algumas modalidades, as distribuições de probabilidade de rótulo podem corresponder a uma distribuição ampla do genoma, mas em outras modalidades as distribuições podem corresponder a uma porção do genoma. Em alguns casos, as probabilidades de rótulo sobre todos os rótulos diferentes somam-se à unidade (isto é, ∑1∈2 1 = ∑1∈2 " 1 = 1 . As distribuições de probabilidade de rótulo 1 " e 1 indicam a preferência de um dos pais 1 e de um dos pais 2, respectivamente, por K rótulos diferentes. Por exemplo, é a probabilidade do primeiro rótulo de um dos pais da janela w+1 assumir o valor k = p’ sobre outros valores possíveis dos rótulos K. C(w) = C(w+1) representa que as duas janelas correspondem ao mesmo cromossomo. A probabilidade de mudança de rótulo , representa a probabilidade de que o primeiro rótulo de um dos pais fará a transição para um rótulo diferente da janela w para a janela w+1 (por exemplo, a janela w tem um rótulo europeu, enquanto a janela w+1 tem um rótulo asiático). Na modalidade que usa a equação acima, a mudança de rótulo depende da probabilidade de rótulo 1 e " . A probabilidade de mudança de rótulo , " representa a probabilidade de que o segundo rótulo de um dos pais fará a transição para um rótulo diferente da janela w para a janela w+1. A probabilidade de troca de rótulo , - representa a probabilidade de que a ordem do primeiro rótulo de um dos pais e do segundo rótulo de um dos pais seja trocada (isto é, o estado fará a transição para a atribuição z oposta entre duas janelas).
[0095] Portanto, na equação acima, o primeiro cenário representa que duas janelas estão localizadas em cromossomos diferentes e a probabilidade de transição P(Uw(p,q,z), Uw+1(p’,q’,z’)) é igual à probabilidade do primeiro rótulo de um dos pais de k = p’ vezes a probabilidade do segundo rótulo de um dos pais de k=q’ dividido por 2. O segundo cenário representa que as duas janelas estão localizadas no mesmo cromossomo e não há mudança no rótulo ou troca de ordem de rótulo. A probabilidade de transição nesse cenário é igual a um menos a probabilidade de mudança do primeiro rótulo de um dos pais , (porque o rótulo muda ou não muda) vezes um menos a probabilidade de mudança do segundo rótulo de um dos pais , " vezes um menos probabilidade de mudança do rótulo , - . Outros cenários são modelados de forma similar na equação acima. "
[0096] Os valores das probabilidades de rótulo ( 1 e 1 ), probabilidades de mudança de rótulo ((, e , " ), e a probabilidade de troca de rótulo (, - ) são determinados pelo treinamento do HMM entre janelas 400 com base em um conjunto de dados de treinamento e, em algumas modalidades, adicionalmente com o par de conjuntos de dados de haplótipos derivados de um conjunto de dados de genótipos de amostra de " entrada X. Os valores das probabilidades de rótulo ( 1 e 1) de k diferentes podem ser representados em uma forma de vetor (também conhecido como vetor de probabilidade de rótulo). Em algumas modalidades, os valores do vetor de probabilidade de rótulo e as probabilidades de mudança de rótulo são calculados com um algoritmo Baum-Welch. Em algumas modalidades, pode ser assumido que uma transição de um estado Uw(p,q,z) para outro estado Uw+1(p’,q’,z’) sem qualquer um dos mesmos rótulos p, q (isto é, ambos os valores do primeiro rótulo de um dos pais e o segundo rótulo de um dos pais da alteram em uma transição) é impossível. Portanto, a probabilidade de transição para o último cenário na equação acima é zero em algumas modalidades. Ao omitir uma transição para essas transições de baixa probabilidade, a complexidade do HMM entre janelas 400 pode ser reduzida, produzindo assim uma economia significativa no tempo e nos requisitos de processamento do computador necessários para determinar os rótulos.
[0097] Se a janela w+1 corresponde a um cromossomo diferente da janela w, então o estado Uw(p,q,z) pode fazer a transição para um estado intercromossômico 420, que, por sua vez, faz a transição para um estado Uw+1(p’,q’,z’) na próxima janela w+1. Assim, se a janela w+1 corresponde a um cromossomo diferente da janela w, o estado Uw(p,q,z) pode fazer a transição para um estado Uw+1(p’,q’,z’) com uma probabilidade que é independente do estado Uw(p,q,z) na janela w (isto é, independente de (p,q)) por causa do estado intercromossômico interveniente 420.
[0098] Se a janela w for a janela final (isto é, w = w), então o estado Uw(p,q,z) na janela w faz a transição para um estado final (não mostrado na FIG. 4). Cada estado Uw(p,q,z) na janela w faz a transição para um estado Uw+1(p’,q’,z’) na janela w+1, um estado intercromossômico 420 ou um estado final. A FIG. 4 ilustra as possíveis transições de saída para cada estado Uw(p,q,z) com setas. Por exemplo, na janela 2 (e em todas as janelas w em que a janela w+1 está no mesmo cromossomo), o estado 406 U2(1,2,1) pode fazer a transição para os estados U3(1,1,0), U3(1,1,1), U3(1,2,0), U3(1,2,1), etc. No entanto, o estado 406 U2(1,2,1) pode não fazer a transição para o estado U3(3,3,0) por causa da mudança do primeiro rótulo de um dos pais e do segundo rótulo de um dos pais na transição. Como tal, nenhuma seta conecta o estado 406 U2(1,2,1) ao estado U3 (3,3,0) na FIG. 4. Anotações e Probabilidade de Emissão
[0099] Na FIG. 4, cada nó (que representa um estado de uma janela) está associado a uma probabilidade de emissão que representa uma probabilidade de a janela ser observada como tendo um par específico de conjuntos de dados de haplótipos faseados, dado que a janela está no estado oculto representado pelo nó. A determinação da probabilidade de emissão é baseada em dados de genótipos de diferentes painéis de referência e no conjunto de dados de genótipos de entrada X por meio de uma ou mais de etapas intermediárias que podem incluir determinações de anotações, produtos de anotação e probabilidades de pares de rótulos. Os detalhes da determinação da probabilidade de emissão são discutidos a seguir.
[00100] Voltando primeiro à FIG. 1A, o armazenamento de amostra de painel de referência 115 armazena um conjunto de amostras de painel de referência de conjuntos de dados de genótipos para cada um dos rótulos K. Um painel de referência para o k-ésimo rótulo é uma coleção de conjuntos de dados genéticos representativos que pertencem a uma comunidade correspondente ao k-ésimo rótulo. Por exemplo, se o k-ésimo rótulo representa uma comunidade de indivíduos de um painel de referência asiático, as amostras do painel de referência no k-ésimo painel de referência são conjuntos de dados de genótipos asiáticos representativos. Para obter mais detalhes sobre como as amostras do painel de referência podem ser identificadas e/ou geradas, a Publicação do Pedido de Patente US 2016/0350479 publicada em 1 de dezembro de 2016, intitulada “Discovering Population Structure from Patterns of Identity-by-Descent,” é incorporada nesse documento por referência para todos as finalidades. O conjunto de amostras do painel de referência correspondente ao k-ésimo rótulo (para k∈{1, ...,K}) é referido nesse documento como Rk. Cada amostra de painel de referência R∈Rk no armazenamento 115 pode ser um conjunto de dados de genótipos diploides faseados de L SNPs, R=(R1,…,RL), em que cada Ri (para i∈{1,…,L}) é um SNP que é um par ordenado de alelos binários (isto é, (0,0), (0,1), (1,0) ou (1,1)). Em alguns sítios de SNPs, pode haver dados ausentes. Cada um dos rótulos pode corresponder a uma população de origem diferente (por exemplo, um grupo étnico), caso em que cada amostra de painel de referência R pode ser um dado de genótipo com uma única origem da k-ésima população de origem.
[00101] Os rótulos possíveis podem incluir rótulos não misturados e rótulos misturados. Uma coleção de amostras do painel de referência pode ser recuperada. A coleção pode incluir uma pluralidade de conjuntos de dados genéticos não misturados e uma pluralidade de conjuntos de dados genéticos sintéticos misturados. Um conjunto de dados genéticos sintéticos misturados pode estar associado a uma origem étnica e a uma origem geográfica. Para uma população misturada, a mesma origem étnica, mas com origens geográficas diferentes, pode ser considerada um rótulo diferente. Para rotular um indivíduo misturado, pelo menos alguns dos nós no HMM entre janelas 400 podem ser rotulados com uma origem étnica particular associada a uma população misturada de uma origem geográfica. Outros nós no HMM entre janelas 400 podem ser rotulados com outra origem étnica associada à população misturada da origem geográfica. Por exemplo, na FIG. 4 mostrado, o rótulo 1 pode estar associado ao México-nativo americano, enquanto o rótulo 2 pode estar associado ao México-europeu.
[00102] Agora com referência à FIG. 5, um fluxograma que descreve um processo para calcular as probabilidades de emissão é ilustrado, de acordo com algumas modalidades. O sistema de determinação de rótulo 100 recebe dados de haplótipos 510 de um conjunto de treinamento. Os dados do haplótipo podem ser uma sequência de alelos correspondentes a indivíduos. Cada sequência de dados de haplótipos pode incluir alelos correspondentes aos L SNPs dos genótipos armazenados no armazenamento de dados genéticos 130 ou algum subconjunto dos mesmos. O armazenamento de exemplo do painel de referência 115 armazena um conjunto de amostras de referência para cada um dos rótulos K. O conjunto de amostras do painel de referência correspondente ao k-ésimo rótulo (para k∈{1, ...,K}) é referido nesse documento como Rk. Cada amostra de painel de referência R∈Rk no armazenamento 115 pode ser um genótipo diploide não faseado de L SNPs, R=(R1,...,RL), em que cada Ri (para i∈{1,...,L}) é um SNP que é um par não ordenado de alelos binários (isto é, (0,0), (0,1) ou (1,1)) ou dados ausentes. Cada um dos rótulos pode corresponder a uma origem diferente (por exemplo, um grupo étnico), caso em que cada amostra de painel de referência R pode ser um genótipo da k-ésima população de origem.
[00103] Alguns ou todos os dados de haplótipos podem ser dados de haplótipos faseados produzidos pelo método descrito no pedido PCT intitulado “Haplotype Phasing Modules” (Publicação Internacional Número WO 2016/061568 A1) que foi depositado em 19 de outubro de 2015 e que é incorporado nesse documento por referência em sua totalidade. Em modalidades alternativas, alguns ou todos os dados de haplótipos podem ser haplótipos faseados produzidos por PHASE, BEAGLE, HAPI- UR, SHAPEIT2, IMPUTE2 ou algum outro método de estimativa de fase. Com base nos dados de haplótipos recebidos, o sistema de determinação de rótulo 100 constrói 520 MMs haploides 200 para cada janela w. Os MMs haploides podem ser armazenados no armazenamento de MM haploide 110.
[00104] O sistema de determinação de rótulo 100 também recebe 530 um conjunto de amostras do painel de referência Rk para cada rótulo k (para 1≤k≤K). O conjunto de amostras do painel de referência Rk pode ser acessado a partir do armazenamento de amostra do painel de referência 115. Com base no conjunto de amostras do painel de referência Rk para o rótulo k e os MMs haploides para a janela w, o sistema de determinação de rótulo 100 calcula 540 um conjunto de anotações Aw(k,u) de cada rótulo k e cada estado u na janela w. As anotações Aw podem ser armazenadas no armazenamento de anotações 125. O sistema de determinação de rótulo 100 calcula produtos de anotação Lw(d,p) com base nas anotações. Com base nos 550 produtos de anotação Lw(d,p), o sistema de determinação de rótulo 100 calcula 560 distribuições de probabilidade de rótulo. Com base nas distribuições de probabilidade do par de rótulos Ex,w(p,q), o sistema de determinação de rótulos 100 calcula 570 a probabilidade de emissão para cada nó. Para um indivíduo misturado, pelo menos alguns dos nós no HMM entre janelas 400 podem ser atribuídos com probabilidades que são calculadas com base em um ou mais conjuntos de dados genéticos sintéticos. Determinação de Anotação
[00105] A discussão nessa subseção corresponde ao elemento 540 na FIG. 5 referente ao cálculo da anotação em associação com o cálculo das probabilidades de emissão. A anotação Aw(k,u) é baseada em um cálculo da probabilidade condicional do estado haploide u dada a sequência de SNP na janela w para a amostra do painel de referência R que pertence ao conjunto de amostras do painel de referência Rk do k-ésimo rótulo. O cálculo da probabilidade do estado u dada amostra do painel de referência R é baseado no MM haploide 200 para a janela w. Para uma determinada janela w, rótulo K e estado u, a anotação Aw(k,u) é igual ou positivamente correlacionada com a probabilidade de que um haplótipo correspondente ao rótulo k inclua o estado haploide u em seu caminho através da janela w. De forma equivalente, a anotação Aw(k,u) pode ser ou pode representar a proporção esperada de haplótipos que incluem o estado haploide u em seus caminhos correspondentes para conjuntos de dados de genótipos selecionados do conjunto de amostras de painel de referência Rk.
[00106] Em uma modalidade, as anotações são determinadas usando um algoritmo de avanço-retrocesso. Para uma amostra de painel de referência R∈Rk, o algoritmo de avanço- retrocesso pode ser usado para calcular uma função direta fR,w e uma função de retrocesso bR,w. A função direta fR,w(u,v) pode mapear o estado diploide (u, v) no nível d para a probabilidade conjunta dos primeiros d SNPs na janela w da amostra do painel de referência R e o estado diploide (u,v).
Isto é, a saída da função de avanço fR,w(u,v) é a probabilidade, com base no MM haploide para a janela w, que um conjunto de dados de genótipos tenha os primeiros d SNPs de R e que R corresponda ao estado (u,v) no nível d. De modo similar, a função de retrocesso bR,w(u,v) pode mapear o estado diploide (u,v) no nível d para a probabilidade conjunta dos últimos (D-d) SNPs na janela w da amostra do painel de referência R e o estado (u,v). O produto de avanço- retrocesso, fR,w(u,v) x bR,w(u,v), pode ser a probabilidade conjunta de todos os SNPs da amostra do painel de referência R na janela w e o estado correspondente (u,v). Em algumas modalidades, as saídas da função direta fR,w e da função de retrocesso bR,w são proporcionais, mas não necessariamente iguais às probabilidades de seus respectivos estados diploides.
[00107] A anotação Aw(k,u) para o rótulo K e o estado u 1 1 pode ser dada por: 5 6, 7 = : : =<, 7, > × ;<, 7, > |91 | ;<, , <∈9K ?∈@ABACDEFGCHCI J em que |Rk| indica a cardinalidade do conjunto Rk (isto é, o número de amostras do painel de referência em Rk) e em que StatesInLevelw (u) se refere ao conjunto de estados haploides no mesmo nível que u (isto é, se u está no nível d, então StatesInLevelw (u) é o conjunto de todos os estados no nível d). Como ( w, w) é o estado inicial do HMM diploide 300 para a janela w, bR,w( w, w) é igual à probabilidade da amostra do painel de referência R.
[00108] Pela definição da probabilidade condicional, fR,w(u,v) x bR,w(u,v)/bR,w( w, w) é a probabilidade do estado diploide, isto é, a probabilidade condicional de que o caminho de um conjunto de dados do genótipo inclui o estado (u,v) no HMM diploide 300 para a janela w, dado que o conjunto de dados do genótipo é uma amostra do painel de referência R. Em algumas modalidades, o produto de avanço-retrocesso fR,w(u,v) x bR,w(u,v) e bR,w( w, w) são calculados para serem proporcionais, mas não necessariamente equivalentes, à probabilidade de seus respectivos estados diploides. Em tal modalidade, a probabilidade de estado diploide fR,w(u,v) x bR,w(u,v)/bR,w( w, w) para a amostra do painel de referência R ainda é equivalente à probabilidade condicional de que o caminho do genótipo inclui o estado (u,v) no HMM diploide 300 dado o genótipo R.
[00109] A soma do estado diploide fR,w(u,v) x bR,w(u,v)/bR,w( w, w) sobre todos os estados haploides v no nível d produz a probabilidade marginal de que o primeiro haplótipo (por exemplo, paterno ou materno) está no estado haploide u no nível d dada a amostra do painel de referência R. As probabilidades do estado diploide para uma amostra do painel de referência R podem ser somadas ao conjunto de estados diploides que incluem o estado haploide u (isto é, estados diploides (u,v) e (v, u) para todos os estados haploides v no mesmo nível que o estado haploide u) para produzir uma probabilidade de que a amostra do painel de referência R corresponda ao estado haploide u. Finalmente, as probabilidades de u para cada amostra de painel de referência R podem ser combinadas para produzir a anotação Aw(k,u). Por exemplo, Aw(k,u) pode ser a média aritmética das probabilidades do estado haploide u para cada amostra do painel de referência R, portanto, representando a proporção esperada de amostras do painel de referência no conjunto de amostras do painel de referência Rk que incluem o estado u em seus respectivos caminhos. Dito de outra forma, a anotação Aw(k,u) é a probabilidade de que o estado haploide de um haplótipo no nível d seja o estado haploide u, dado que o haplótipo corresponde ao rótulo K. Em outras alternativas, uma formulação matemática diferente da média aritmética pode ser usada.
[00110] As anotações no armazenamento de anotação 125 podem ser calculadas antes de determinar os rótulos para conjuntos de dados de genótipos potencialmente misturados. Em algumas modalidades, as anotações são atualizadas com base em rótulos determinados para conjuntos de dados de genótipos potencialmente misturados faseados que são introduzidos no sistema por meio do processo descrito nesse documento. Em algumas modalidades, as anotações Aw(k,u) para um rótulo k e janela w podem ser melhoradas iterativamente determinando uma probabilidade de que um conjunto de dados de genótipos misturado corresponda a um rótulo k na janela w e modificando as anotações Aw(k,u) adequadamente. Determinação do Produto de Anotação
[00111] A discussão nessa subseção pode corresponder ao elemento 550 na FIG. 5 referente ao cálculo de produtos de anotação em associação com o cálculo de probabilidades de emissão. A FIG. 6 é um fluxograma que ilustra um método para atribuir rótulos a um genótipo, de acordo com algumas modalidades. O método de determinação de rótulo 600 pode ser realizado pelo sistema de determinação de rótulo 100.
[00112] Com base nas anotações Aw(k,u) e no conjunto de dados de genótipos de amostra de entrada X, que é dividido em dois haplótipos faseados, x1,w e x2,w, cada um uma sequência de alelos ∈{0,1} correspondendo à subsequência de SNPs na janela w, o módulo de MM haploide 140 pode calcular uma probabilidade de rótulo Ex,w(p) para cada haplótipo x ∈ {x1,w,x2,w}, e cada rótulo p ∈ {1,2, ...,K}, em que K é o número de rótulos possíveis. Se a janela w é uma subsequência de SNPs Dw, o módulo de MM haploide 140 determina um único conjunto de estados {ux,w,0,ux,w,1,u2,…,ux,w,Dw} para uma subsequência de haplótipo X em janela w e a probabilidade do rótulo para o rótulo p para um haplótipo x é dada por 1 5 , 7M, ,O LM, = : 2 N ∑1P 5 6, 7M, ,O
OPQ
[00113] O produto de anotação corresponde ao haplótipo x1 (um dos haplótipos faseados) na janela w. Ex1,w(p) representa a probabilidade de que a janela w corresponda ao rótulo p dado que o haplótipo é x1. Outro produto de anotação Ex2,w(p) é calculado de forma similar para o outro haplótipo faseado x2.
[00114] Com base nas distribuições de probabilidade do par de rótulos para cada janela w, o módulo de HMM entre janelas 160 pode construir um HMM entre janelas 400. As probabilidades de transição entre estados no HMM entre janelas podem ser baseadas na distribuição de probabilidade do par de rótulos. Além disso, o módulo de HMM entre janelas pode usar a distribuição de probabilidade do par de rótulos como a distribuição de probabilidade dos estados na janela w dados os SNPs na janela w. Isto é, a distribuição de probabilidade do par de rótulos pode ser usada no HMM entre janelas como a probabilidade do estado Uw(p,q,z) na janela w dada a observação (isto é, a sequência de SNPs dos conjuntos de dados faseados no janela w). A computação do HMM entre janelas 400 para os conjuntos de dados faseados pode incluir determinar um vetor de probabilidade de rótulo e probabilidades de mudança de rótulo para o HMM entre janelas.
[00115] Em algumas modalidades, o módulo de HMM entre janelas 160 usa a distribuição de probabilidade do par de rótulos para calcular as probabilidades de emissão para estados na janela w. Isto é, a probabilidade do par de rótulos pode ser uma estimativa da probabilidade da sequência de SNPs na janela w, dado que o estado da janela w é Uw(p,q,z). Nesse documento, x1 e x2 são dois haplótipos faseados. A probabilidade de emissão é determinada com base LM × LMT, se R = 0 na seguinte equação: LM, , ,R = S , LM , × LMT, se R = 1
[00116] Alternativamente, com base nas anotações Aw(k,u) e no conjunto de dados de genótipos de amostra de entrada X, o módulo de HMM diploide 150 pode calcular uma probabilidade de par de rótulos Ex,w(p,q,z) como uma estimativa da probabilidade da sequência de SNPs na janela w, dado que o estado da janela w é Uw(p,q,z) como: LM, , , R = ∑OPQ ∑ UV, ,! W/,X/ UV, / ,! / ; em que Lx,w(p,q) é o produto de anotação esperado dado por: =M, 7, > × ;M, 7, > 5 ,7 × 5 ,> + 5 ,7 ×5 ,> YM, , = : × ;M, , 2 J,?∈Z[ e fx,w(u,v)×bx,w(u,v)/bx,w( w, w) é a probabilidade de estado diploide, por exemplo, a probabilidade condicional de que o caminho de um conjunto de dados de genótipos x inclui o estado (u,v) no HMM diploide 300 para janela w. é o distinto estado inicial no HMM diploide 300, e \O é o conjunto de estados no HMM diploide 300 no nível d. Observe que ao usar o HMM diploide dessa forma para determinar a probabilidade do par de rótulos, LM, , ,R não depende de z. Computação do HMM Entre Janelas
[00117] A FIG. 6 representa um processo para construir e computar um HMM entre janelas, de acordo com algumas modalidades. O sistema de determinação de rótulo 100 recebe 610 um conjunto de dados de genótipos de amostra de entrada X. O sistema de determinação de rótulo 100 fases 620 o conjunto de dados de genótipos de amostra de entrada X para gerar um par de conjuntos de dados de haplótipos faseados. O par de conjuntos de dados de haplótipos faseados pode ser gerado usando o HMM diploide 300. O sistema de determinação de rótulo 100 constrói 630 um HMM entre janelas com (p,q,z) como rótulos dos estados ocultos. O sistema de determinação de rótulo 100 inicializa 640 as probabilidades de mudança de rótulo , e , " e a probabilidade de mudança de rótulo , - ao calcular o HMM entre janelas. As probabilidades de mudança de rótulo e a probabilidade de mudança de rótulo podem ser inicializadas com um valor baixo (por exemplo, entre 0,5 a 10-4) e atualizadas iterativamente. Após um número predeterminado de rodadas de iteração e/ou após os valores das probabilidades de mudança de rótulo e probabilidade de troca de rótulo terem convergido, o sistema de determinação de rótulo 100 calcula 650 as probabilidades de transição para diferentes transições possíveis.
[00118] O cálculo do vetor de probabilidade de rótulo, probabilidades de mudança de rótulo e probabilidade de troca de rótulo pode ser realizado através de um ou mais de algoritmos de avanço-retrocesso. A computação do HMM entre janelas pode incluir o cálculo de um vetor de probabilidade de rótulo e as probabilidades de mudança de rótulo. O vetor de probabilidade de rótulo pode ser inicializado para uma distribuição uniforme. O vetor de probabilidade de rótulo pode ser atualizado iterativamente com a maximização da expectativa (por exemplo, com o algoritmo Baum-Welch). Em algumas modalidades, o módulo de HMM entre janelas pode realizar N iterações do algoritmo Baum-Welch para calcular o vetor de probabilidade de rótulo. A probabilidade de mudança de rótulo e a probabilidade de troca de rótulo podem ser inicializadas com um valor baixo (por exemplo, entre 0,5 a 10-4) e atualizadas iterativamente.
[00119] Em um exemplo, a expectativa de um par de rótulos E[πX,(p,q)] é calculada para cada um dos pares de rótulos (p,q). A expectativa do par de rótulos E[πX,(p,q)] é a soma das probabilidades de cada estado Uw,(p,q) para cada janela w e é, portanto, igual ao número esperado de janelas w que têm um estado oculto Uw,(p,q) correspondendo ao par de rótulos (p,q). Cada probabilidade de rótulo π(p,q) é atualizada para um novo valor: a expectativa do par de rótulo E[πX,(p,q)] do par de rótulo (p,q) dividido pela soma das expectativas do par de rótulo para todos os rótulos probabilidades de pares, de modo que as probabilidades de rótulo π(p,q) somam a unidade (isto é, Σπ = 1).
[00120] Em um exemplo, a probabilidade de mudança de rótulo τm e τf são inicializados em 10-3 e, em seguida, atualizados iterativamente para o número esperado de transições que alteram as atribuições de rótulo. Em outras palavras, a probabilidade de mudança do rótulo é atualizada para o complemento do número esperado de transições entre os estados que correspondem aos mesmos rótulos (por exemplo, um menos a probabilidade de nenhuma mudança no rótulo) dividido pelo número esperado de todas as transições entre os estados. Da mesma forma, a probabilidade de troca de rótulo τz também pode ser inicializada com um valor baixo e então atualizada iterativamente. Atribuição de Rótulo
[00121] A FIG. 7 ilustra um processo de fornecer uma atribuição de rótulo de um conjunto de dados de genótipos de entrada, de acordo com uma modalidade. Usando um conjunto de amostras de treinamento, como aquelas obtidas de diferentes painéis de referência, o sistema de determinação de rótulo 100 calcula 710 probabilidades de transição para diferentes transições possíveis para um HMM entre janelas no treinamento do HMM entre janelas. O cálculo das probabilidades de transição pode corresponder ao processo mostrado na FIG. 6. Com base nas amostras do painel de referência e no conjunto de dados de genótipos de amostra de entrada X, o sistema de determinação de rótulo 100 calcula 720 as probabilidades de emissão para diferentes estados ocultos no HMM entre janelas. O cálculo das probabilidades de emissão pode corresponder ao processo mostrado na FIG. 5. O sistema de determinação de rótulo 100 atualiza e constrói (por exemplo, computa) 730 um HMM entre janelas usando o par de conjuntos de dados de haplótipos faseados derivados do conjunto de dados de genótipos de amostra de entrada X. A computação pode incluir a geração de dados que representam um gráfico acíclico direcionado que pode incluir a estrutura do HMM entre janelas
400. O sistema de determinação de rótulo 100 usa o algoritmo d Viterbi 740 para estimar as probabilidades de mudança de rótulo e a probabilidade de troca de rótulo no HMM entre janelas atualizado. Com base no caminho de Viterbi, os rótulos correspondentes ao conjunto de dados de genótipos de amostra de entrada X são determinados. O caminho de Viterbi determinado pode ser usado como uma das amostras de um novo conjunto de amostras de treinamento (que incluem as amostras de treinamento selecionadas de painéis de referência e o caminho de Viterbi determinado como uma amostra adicional) para atualizar e reconstruir 730 o HMM entre janelas. O processo de 730 e 740 pode ser repetido por um número predeterminado de iterações (por exemplo, 10 vezes) e/ou repetido até que o rótulo mude as probabilidades e a probabilidade de troca do rótulo converta. O sistema de determinação de rótulo 100 usa 750 o algoritmo de Viterbi mais uma vez para determinar o caminho de Viterbi correspondente ao conjunto de dados de genótipos de amostra de entrada X para atribuir o valor dos rótulos p, q e z em cada janela. Um caminho final pode ser determinado após repetir o algoritmo de Viterbi várias vezes. O caminho final pode atravessar o caminho acíclico direcionado e pode representar um caminho estatisticamente provável entre outros caminhos possíveis ao atravessar o gráfico acíclico direcionado.
[00122] Em algumas modalidades, a atribuição de rótulo pode envolver a determinação de uma proporção do conjunto de dados de genótipos de amostra de entrada X que corresponde a cada rótulo. Por exemplo, o módulo de atribuição de rótulo 170 do sistema de determinação de rótulo 100 pode determinar que 25% do conjunto de dados de genótipos de amostra de entrada X corresponde ao rótulo 1, 0% corresponde ao rótulo 2, 50% corresponde ao rótulo 3 e 25% corresponde ao rótulo
4. A proporção de cada rótulo pode ser baseada nos estados no caminho de Viterbi, com base na probabilidade de estar em cada estado (por exemplo, como calculado com o algoritmo de avanço-retrocesso), ou de outra forma com base no HMM entre janelas. A determinação dessas proporções também pode ser baseada em um peso atribuído a cada janela w. O peso de cada janela w pode ser baseado no tamanho da janela (por exemplo, no número de bases). A ponderação de cada janela w pode ser ajustada com base em partes das janelas w que se sobrepõem a outras janelas.
[00123] Em algumas modalidades, o módulo de atribuição de rótulo 170 atribui um par de rótulos de classificação ordenados a cada janela w do conjunto de dados de genótipos de amostra de entrada X. Em algumas modalidades, o módulo de atribuição de rótulo 170 determina o caminho de Viterbi através do HMM entre janelas 400. Em modalidades alternativas, o módulo de atribuição de rótulo 170 computa um número (por exemplo, 1000) de caminhos estocásticos através do HMM entre janelas e determina uma faixa de proporção de cada rótulo com base nos estados tomados pelo processo estocástico. Por exemplo, o módulo de atribuição de rótulo 170 pode determinar que 18-30% do conjunto de dados de genótipos de amostra de entrada X correspondem a um rótulo particular. O intervalo pode ser baseado na proporção máxima e mínima do conjunto de dados de genótipos X que corresponde a um rótulo nos caminhos estocásticos. Alternativamente, o intervalo pode ser baseado em percentis das proporções do conjunto de dados de genótipos de amostra de entrada X que corresponde a um rótulo nos caminhos estocásticos. Por exemplo, o limite superior de um intervalo para o rótulo k pode ser baseado em um 95º percentil das proporções dos estados que correspondem ao rótulo k nos caminhos estocásticos e o limite inferior pode ser baseado no 5º percentil. O caminho mais provável ou um do 95º percentil (ou outro percentil adequado) de caminhos estocásticos prováveis entre outros caminhos possíveis ao percorrer o gráfico acíclico direcionado pode ser referido como um caminho estatisticamente provável. Mais detalhes sobre a determinação de diferentes caminhos e intervalo são discutidos com referência à Seção abaixo intitulada “Determinação de Intervalo”.
[00124] Em algumas modalidades, o módulo de atribuição de rótulo 170 atribui rótulos a porções específicas do conjunto de dados de genótipos de amostra de entrada X. O módulo de atribuição de rótulo 170 pode atribuir especificamente rótulos a uma porção do conjunto de dados de genótipos de amostra de entrada X que corresponde a um ou mais de regiões sobrepostas com um segundo genótipo. Por exemplo, se o genótipo de amostra de entrada e o segundo conjunto de dados de genótipos são os genótipos de indivíduos relacionados (por exemplo, primos de primeiro grau), então uma ou mais regiões sobrepostas são as regiões de informação genética que correspondem a um ou mais de ancestrais compartilhados (por exemplo, uma avó e um avô compartilhada(o) pelos primos). Se, em uma região de sobreposição, houver apenas um haplótipo (em cada genótipo) que se sobrepõe entre o conjunto de dados de genótipos de amostra de entrada X e o segundo conjunto de dados de genótipos, o módulo de atribuição de rótulo 170 pode atribuir rótulos especificamente ao haplótipo de sobreposição.
[00125] Para um indivíduo misturado, a determinação e atribuição do rótulo podem ser similares, mas cada rótulo pode incluir uma origem étnica e uma região geográfica. Por exemplo, um rótulo para uma janela específica pode ser rotulado com a origem étnica da América nativa e com a região geográfica do México. Um segmento genético que inclui uma ou mais de janelas consecutivas pode ser atribuído com o mesmo rótulo tendo o mesmo par de origem étnica-região geográfica. O segmento genético pode ser adicionado a um dos conjuntos de dados genéticos sintéticos como parte de uma amostra do painel de referência para uma população misturada. Fornecimento de informações sobre origem étnica
[00126] A FIG. 8 representa um processo de fornecimento de informações sobre origem étnica para um indivíduo, tal como um usuário final, de acordo com uma modalidade. O sistema de determinação de rótulo 100 acessa 810 um conjunto de dados de genótipos associado a um indivíduo. O conjunto de dados do genótipo pode ser armazenado em um armazenamento de dados após a amostra biológica (como amostra de sangue ou saliva) do indivíduo ser analisada para gerar a amostra do conjunto de dados do genótipo. O sistema de determinação de rótulo 100 divide 820 o conjunto de dados de genótipos em uma pluralidade de janelas. Cada janela compreende uma pluralidade de SNPs. O sistema de determinação de rótulo 100 determina 830 um par de conjuntos de dados de haplótipos faseados da pluralidade de janelas do conjunto de dados de genótipo. O sistema de determinação de rótulo 100 constrói 840 um modelo de Markov oculto usando o par de conjuntos de dados de haplótipos faseados. O HMM pode ser um HMM entre janelas. Usando o HMM computado e treinado, o sistema de determinação de rótulo 100 atribui rótulos a cada janela que corresponde ao conjunto de dados de genótipos com base no caminho de Viterbi do HMM. Cada um dos nós percorridos pelo caminho de Viterbi está associado a um primeiro rótulo de um dos pais e a um segundo rótulo de um dos pais. A estatística da pluralidade de rótulos dos nós pode ser determinada. Por exemplo, a distribuição de cada rótulo em termos de porcentagem pode ser determinada. O sistema de determinação de rótulo 100 fornece então 850 informações da origem étnica do indivíduo usando os resultados da atribuição de rótulo do HMM. O sistema de determinação de rótulo 100 pode fornecer uma interface gráfica de usuário front-end para a apresentação e exibição das informações da origem étnica do indivíduo, que pode ser um usuário final do sistema de determinação de rótulo 100.
[00127] A informação sobre a origem étnica do indivíduo pode assumir diferentes formas. Em um primeiro exemplo, a informação pode ser simplesmente a origem étnica mais provável do indivíduo. O sistema de determinação de rótulo 100 pode simplesmente informar o indivíduo que ele/ela é de uma determinada origem. Em um segundo exemplo, as informações podem incluir origem paterna e origem materna. Em um terceiro exemplo, as informações podem incluir proporções estatísticas e/ou detalhadas das origens genéticas. Por exemplo, o sistema de determinação de rótulo 100 pode informar ao indivíduo que, por um lado de um dos pais, 80% dos genes do indivíduo são herdados de ancestrais europeus (por exemplo, com base em 80% dos rótulos dos primeiros pais serem europeus), enquanto 15% dos genes são herdados de ancestrais asiáticos etc. Em um quarto exemplo, as informações podem assumir a forma de uma visualização da composição de ancestrais do indivíduo por meio de pinturas cromossômicas. Por exemplo, um usuário final pode querer saber quais partes de seu DNA vêm de seus ancestrais africanos. O sistema de determinação de rótulo 100 pode destacar porções de destaque dos cromossomos que correspondem a janelas que são rotuladas como africanas. Em um quinto exemplo, as informações podem assumir a forma que está especificamente relacionada a uma característica ou fenótipo. Por exemplo, um usuário final pode selecionar uma pergunta sobre de que ancestral ela recebeu seus olhos azuis. O sistema de determinação de rótulo 100 pode fornecer uma resposta a esse tipo de perguntas, tal como na forma de “Você herdou o traço X do ancestral Y”. Em um sexto exemplo, as informações podem assumir a forma que está relacionada a um ancestral. Por exemplo, o sistema de determinação de rótulo 100 pode fornecer que o usuário final compartilhe 60% do DNA em comparação com um ancestral particular. Em um sétimo exemplo, as informações podem assumir a forma que compare a similaridade e as diferenças dos genótipos entre o pai e a mãe do indivíduo (ou ancestrais paternos e ancestrais maternos). Em um oitavo exemplo, as informações podem assumir a forma que se concentra em outras pessoas que são geneticamente relacionadas ao indivíduo. Por exemplo, o sistema de determinação de rótulo 100 pode fornecer a porcentagem de pessoas de uma determinada etnia em locais de traço com olhos azuis. Outras formas de informação de origem étnica do indivíduo também são possíveis.
[00128] Para um indivíduo misturado alvo, as informações de origens étnicas do indivíduo podem incluir informações sobre a composição genética do indivíduo com uma origem étnica particular. Por exemplo, depois que um caminho estatisticamente provável é determinado com base no resultado do HMM, o número de nós que são rotulados com uma origem étnica específica e uma região geográfica específica e que estão incluídos no caminho pode ser calculado e comparado com o número total de janelas para determinar a porcentagem da origem étnica específica do indivíduo misturado alvo. Em uma modalidade, ao fornecer a composição genética de uma origem étnica particular de um indivíduo misturado, o sistema de determinação de marcador 100 pode distinguir a origem étnica particular de duas regiões geográficas diferentes. Por exemplo, o sistema de determinação de rótulo 100 pode relatar que o indivíduo misturado alvo tem 20% de segmentos genéticos de nativos americanos de ancestrais mexicanos e 15% de segmentos genéticos de nativos americanos de ancestrais brasileiros. Em outra modalidade, o sistema de determinação de rótulo 100 pode distinguir as regiões geográficas ao atribuir rótulos, mas combinar a mesma origem étnica de diferentes origens geográficas ao relatar o resultado. Por exemplo, o sistema de determinação de rótulo 100 pode relatar que o indivíduo misturado alvo tem no total 35% de origem nativa americana, independentemente de os segmentos genéticos serem rotulados com México ou Brasil.
[00129] A FIG. 9 é um gráfico de exemplos de resultados experimentais de indivíduos misturados comparando a precisão de uma modalidade descrita nesse documento com um método de determinação de ascendência convencional RFMix. Um experimento é conduzido usando um HMM 400 entre janelas de exemplo descrito nesse documento em indivíduos misturados simulados. Dezesseis (16) pareamentos de etnias diferentes são considerados e a precisão das atribuições de ancestrais é medida. Os resultados de precisão haploide são comparados com atribuições de ancestrais usando um método convencional RFMix descrito no artigo “RFMix: A Discriminative Modeling Approach for Rapid and Robust Local Ancestry Inference” por Brian K Maples et al. Na FIG. 9, os gráficos para o HMM entre janelas 400 de exemplo estão circulados. Como mostrado, o HMM entre janelas 400 supera consistentemente o método RFMix entre diferentes populações misturadas.
[00130] A FIG. 10 um gráfico de resultados experimentais de exemplo de indivíduos não misturados comparando a precisão de uma modalidade descrita nesse documento com RFMix. Nesse experimento de exemplo, o desempenho de um HMM entre janelas 400 de exemplo em indivíduos não misturados (origem única) de 1000 genomas e HGDP (Projeto de Diversidade do Genoma Humano) é estudado. Quinze (15) regiões usando um painel de referência que é construído a partir de indivíduos com consentimento de pesquisa que representam trinta e uma (31) etnias são testadas. Os resultados são novamente comparados àqueles usando o método RFMix. Como mostrado na FIG. 10, cada população tem dois resultados. O esquerdo é o resultado usando o HMM entre janelas 400 de exemplo enquanto o direito é o resultado usando o método RFMix. A FIG. 10 mostra que o exemplo entre janelas HMM 400 também supera consistentemente o método RFMix entre diferentes indivíduos não misturados.
[00131] A FIG. 11A é um gráfico de resultados de exemplo de um experimento que estima etnias de indivíduos de origem única usando uma modalidade descrita nesse documento. A FIG.
11B é um gráfico do resultado de uma experiência similar à da FIG. 11A usando RFMix. Nesses experimentos, as etnias para origem única de diferentes populações são estimadas usando um exemplo de HMM entre janelas 400 ou RFMix. Em ambas as figuras, as linhas representam indivíduos de origem única de quinze (15) regiões. As colunas representam trinta e uma (31) etnias às quais os indivíduos de origem única podem ser atribuídos. Ao comparar a FIG. 11A à FIG. 11B, os resultados mostram novamente que o HMM entre janelas 400 de exemplo supera o RFMix. O exemplo de HMM entre janelas 400 mostra melhor precisão para diferentes etnias. O gráfico na FIG. 11A também forma uma linha diagonal melhor, indicando que as atribuições são melhoradas em relação ao RFMix.
[00132] A FIG. 12 são gráficos que comparam as distribuições de comprimento de dados reais e simulados para tratos de origem africana usando uma modalidade descrita nesse documento. Nesse experimento, um exemplo entre janelas HMM 400 é usado para indivíduos pertencentes a comunidades afro-americanas. A FIG. 12 é uma comparação das distribuições de comprimento de dados reais e simulados para características de origem africana. O resultado mostrado na FIG. 12 sugere que, sob um modelo de pulso único, essas comunidades provavelmente começaram a se misturar por volta de 6-8 gerações atrás. Geração de Painel de Referência Misturado
[00133] A FIG. 13 é um fluxograma que descreve um exemplo de processo de geração de uma amostra de painel de referência misturado, que pode ser um conjunto de dados genéticos sintéticos, de acordo com uma modalidade. Um sistema online, tal como o sistema de determinação de rótulo 100, pode identificar 1310 uma pluralidade de indivíduos misturados.
A identificação de indivíduos misturados pode ser baseada em dados genealógicos armazenados no sistema online.
Como indicado pelos dados genealógicos, cada indivíduo misturado identificado pode comumente ter pelo menos um ancestral originado de uma região geográfica alvo.
Por exemplo, a região geográfica alvo pode ser o México.
O indivíduo misturado identificado pode ter, cada um, pelo menos um ancestral do México.
Os dados genealógicos podem ser quaisquer informações de identificação adequadas que indiquem o local de nascimento ou a nacionalidade dos ancestrais.
Por exemplo, os dados genealógicos podem incluir uma linhagem de um dos indivíduos misturados identificados com entrada de localização geográfica pelo indivíduo.
Os dados genealógicos também podem ser dados do censo ou dados de nascimento dos ancestrais.
Os dados genealógicos podem incluir dados de um ou mais de uma linhagem de um indivíduo, o sistema de Árvore Mundial Ancestral, um banco de dados de Índice de Óbito da Previdência Social, o sistema de Árvore Genealógica Mundial, um banco de dados de certidões de nascimento, um banco de dados de certidões de óbito, um banco de dados de certidões de casamento, um banco de dados de adoção, um banco de dados de registro de reservistas, um banco de dados de veteranos, um banco de dados militar, um banco de dados de registros de propriedades, um banco de dados de censo, um banco de dados de registro de eleitores, um banco de dados de telefone, um banco de dados de endereços, um banco de dados de jornais, um banco de dados de imigração, um banco de dados de registros de histórico familiar, um banco de dados de registros de histórico local,
um banco de dados de registro de empresas, um banco de dados de veículos motorizados e semelhantes.
[00134] O sistema online pode recuperar 1320 conjuntos de dados genéticos da pluralidade de indivíduos misturados identificados. Os conjuntos de dados genéticos podem ser um conjunto de dados de genótipos ou um conjunto de dados de haplótipo. O sistema online também pode fasear um conjunto de dados de genótipos em um par de conjuntos de dados de haplótipo. Para um indivíduo misturado que é identificado, o conjunto de dados genéticos pode incluir uma pluralidade de sítios de SNP do indivíduo misturado. O sistema online pode dividir o conjunto de dados genéticos em uma pluralidade de janelas. Cada janela pode corresponder a um locus genético ou pode incluir um ou mais sítios de SNP.
[00135] O sistema online pode identificar 1330 uma pluralidade de segmentos genéticos que são herdados de uma origem étnica dos conjuntos de dados genéticos recuperados. A identificação da pluralidade de segmentos genéticos pode incluir uma ou mais de subetapas. Por exemplo, para cada conjunto de dados genéticos recuperados, o sistema online pode inserir o conjunto de dados genéticos em um HMM, tal como o HMM entre janelas 400, para gerar rótulos para cada janela no conjunto de dados genéticos. Embora nem todos os indivíduos misturados identificados possam ter qualquer segmento genético que é herdado de uma origem étnica, um subconjunto dos indivíduos misturados identificados pode incluir algumas das janelas que são rotuladas com a origem étnica. O sistema online pode identificar um ou mais de segmentos genéticos que são herdados da origem étnica com base nos rótulos. Por exemplo, pode haver um conjunto de janelas consecutivas que são rotuladas com uma origem étnica alvo e a região geográfica alvo. O sistema online pode combinar essas janelas e tratá-las como um segmento genético. Um segmento genético pode incluir uma única janela ou uma pluralidade de janelas.
[00136] Em uma modalidade, a identificação de segmentos genéticos que pertencem a uma origem étnica alvo pode incluir o uso do processo que é descrito em mais detalhes na FIG. 4 a FIG. 8, incluindo o uso de um ou mais de HMMs. Por exemplo, para cada conjunto de dados genéticos, o sistema online pode gerar dados que representam um gráfico acíclico direcionado que inclui uma pluralidade de grupos de nós. O gráfico acíclico direcionado pode representar uma treliça de um HMM. Cada grupo de nós do gráfico pode representar uma janela que corresponde a um segmento genético do indivíduo misturado identificado. Cada uma das muitas das janelas (por exemplo, exceto janelas que representam estados intercromossômicos) pode ser representada por uma pluralidade de nós. Cada nó pode incluir um par de rótulos que corresponde ao par de haplótipos. Cada rótulo pode representar uma das origens étnicas possíveis. As possíveis origens étnicas, incluindo a origem étnica alvo e outras origens étnicas. O sistema online pode determinar um caminho que atravessa o gráfico acíclico direcionado. O caminho pode representar um caminho estatisticamente provável entre outros caminhos possíveis ao percorrer o gráfico acíclico direcionado. Por exemplo, um caminho estatisticamente provável pode ser o caminho mais provável ou um caminho que é mais provável do que 95% (ou outro limite adequado) do que outros caminhos possíveis. Um caminho estatisticamente provável também pode ser uma média de uma seleção de vários caminhos prováveis. O sistema online pode identificar um ou mais nós incluídos no caminho que tem pelo menos um rótulo da origem étnica alvo. Os segmentos genéticos que correspondem aos nós identificados podem ser identificados como os segmentos genéticos que são herdados da origem étnica alvo.
[00137] O sistema online pode identificar segmentos genéticos herdados da origem étnica alvo de diferentes indivíduos misturados. O conjunto de dados genéticos de cada indivíduo misturado pode contribuir para um segmento genético diferente. Por exemplo, pelo menos um primeiro segmento genético identificado a partir de um primeiro indivíduo misturado e um segundo segmento genético identificado a partir de um segundo indivíduo misturado podem estar entre os segmentos genéticos identificados que são herdados da origem étnica alvo. O primeiro e o segundo segmentos genéticos são segmentos diferentes e podem estar localizados em diferentes loci genéticos.
[00138] O sistema online pode criar 1340 um conjunto de dados genéticos sintéticos a partir de uma combinação da pluralidade de segmentos genéticos identificados que são herdados da origem étnica alvo. O conjunto de dados genéticos sintéticos pode ser dividido em uma pluralidade de janelas. Cada janela pode ser associada a uma sequência genética que é determinada a partir dos dados genéticos de um indivíduo diferente misturado. O conjunto de dados genéticos sintéticos pode servir como um representante da origem étnica alvo na região geográfica alvo. Por exemplo, os dados genéticos sintéticos podem servir como uma amostra de painel de referência para a origem étnica dos nativos americanos para a população misturada no México. O sistema online pode criar um segundo conjunto de dados genéticos sintéticos que inclui uma segunda combinação de segmentos genéticos que são herdados da mesma origem étnica alvo (por exemplo, nativo americano), mas para uma segunda região geográfica (por exemplo, Brasil) diferente da região geográfica alvo.
[00139] Depois que o conjunto de dados genéticos sintéticos é criado, o sistema online pode adicionar 1350 o conjunto de dados genéticos sintéticos a uma coleção de conjuntos de dados do painel de referência como uma das amostras do painel de referência. A coleção de conjuntos de dados do painel de referência pode ser usada para fornecer possíveis rótulos de origem étnica para outros conjuntos de dados genéticos de outros indivíduos. A coleção de conjuntos de dados do painel de referência pode incluir o conjunto de dados genéticos sintéticos e conjuntos de dados genéticos de indivíduos não misturados. A coleção de conjuntos de dados do painel de referência pode ser usada para o processo de anotação em conexão com o HMM entre janelas 400. Determinação de Ancestrais de Indivíduos Misturados
[00140] A FIG. 14 é um fluxograma que representa um exemplo de processo de determinação da composição de origem étnica de um indivíduo misturado, de acordo com uma modalidade. O processo pode ser similar ao processo de uso de um HMM entre janelas 400, como discutido nas FIG. 4 a FIG. 8. Um sistema online pode acessar 1410 um conjunto de dados de genótipos associado a um indivíduo misturado alvo. O sistema online pode dividir 1420 o conjunto de dados do genótipo em uma pluralidade de janelas. Cada janela pode incluir um conjunto de sítios de SNP. O sistema online pode determinar 1430 um par de conjuntos de dados de haplótipos faseados do conjunto de dados de genótipos. Cada conjunto de dados de haplótipos faseados também pode ser dividido na pluralidade de janelas. O sistema online pode recuperar uma coleção de conjuntos de dados do painel de referência. A coleção de conjuntos de dados do painel de referência pode incluir um ou mais de conjuntos de dados genéticos sintéticos, cada um dos quais corresponde a uma associação de origem étnica alvo com uma população misturada de uma região geográfica.
[00141] O sistema online pode gerar 1440 dados que representam um gráfico acíclico direcionado. Por exemplo, o gráfico acíclico direcionado pode representar uma treliça de um HMM entre janelas 400. O gráfico pode incluir uma pluralidade de grupos de nós e uma pluralidade de nós. Cada nó pode incluir um par de rótulos que representam um par de origens étnicas possíveis para um primeiro ancestral e um segundo ancestral. Cada nó pode incluir adicionalmente um rótulo de troca que representa uma troca da ordem do primeiro rótulo de um dos pais e do segundo rótulo de um dos pais. Vários rótulos podem incluir diferentes origens étnicas da mesma população misturada da mesma região geográfica. Por exemplo, para um indivíduo hispânico misturado do México, vários rótulos podem incluir nativo americano, europeu, africano, etc.
[00142] O sistema online pode determinar 1450, para cada rótulo, uma probabilidade de ter o rótulo dada a janela de sítios de SNP em um do par de conjuntos de dados de haplótipos faseados. A determinação pode ser baseada na comparação das janelas de sítios de SNP com a coleção de conjuntos de dados do painel de referência. A probabilidade de rótulos associados à origem étnica misturada pode ser atribuída com base em um ou mais de conjuntos de dados genéticos sintéticos. O sistema online pode determinar 1460 um caminho que atravessa o gráfico acíclico direcionado. O caminho pode representar um caminho estatisticamente provável entre outros caminhos possíveis ao percorrer o gráfico acíclico direcionado. O sistema online pode gerar 1470 informações de composição genética do indivíduo misturado alvo tendo a origem étnica alvo, determinando o número de nós sendo rotulados com a origem étnica alvo e incluídos no caminho. Os segmentos genéticos que são identificados como sendo herdados da origem étnica alvo podem ser alimentados de volta aos conjuntos de dados genéticos sintéticos para reforçar ou melhorar os conjuntos de dados genéticos sintéticos. Determinação de Intervalo
[00143] Em uma modalidade, o modelo de rotulagem 190 produz para cada amostra, uma estimativa de máxima probabilidade com base em um caminho de referência, tal como o caminho de Viterbi, de um gráfico acíclico direcionado, tal como o Modelo de Markov Oculto entre janelas (HMM) 400, junto com um conjunto de estimativas amostradas (por exemplo, 1.000 estimativas amostradas), cada uma derivada de um caminho amostrado do HMM aleatoriamente ou pelo menos parcialmente aleatoriamente com base em certos critérios, tais como probabilidades de transição. O módulo de intervalo 145 analisa essas estimativas amostradas subsequentemente para estimar um intervalo em torno de uma estimativa de referência derivada do caminho de referência. Em alguns casos, a estimativa de referência também pode ser chamada de estimativa de Viterbi. Em uma modalidade, o módulo de intervalo 145 usa as estimativas amostradas mais baixas e mais altas para definir o limite inferior e superior da estimativa de referência. Experimentos sugerem que tal abordagem tende a subestimar a incerteza associada à estimativa de referência. Em outra modalidade, o módulo de intervalo 145 estima um intervalo em torno da estimativa de referência. O módulo de intervalo 145 maximiza a probabilidade de que o intervalo relatado contenha a proporção de ascendência verdadeira (revocação), enquanto também mantém um tamanho de intervalo razoavelmente estreito.
[00144] Um caminho de referência pode ser qualquer caminho estatisticamente provável que atravessa o gráfico acíclico direcionado (por exemplo, um caminho que é estaticamente mais provável do que 95% de todos os caminhos possíveis que atravessam o gráfico acíclico direcionado). Em uma modalidade, o caminho de referência é o único caminho mais provável entre todos os caminhos possíveis, que também pode ser referido como o caminho de Viterbi. Para um gráfico acíclico direcionado, tal como a treliça que representa o HMM entre janelas 400, a probabilidade de qualquer caminho é determinada com base na probabilidade de transição e na probabilidade de emissão associada aos nós que são percorridos pelo caminho. Por exemplo, referindo-se à FIG. 4, um caminho que atravessa o estado inicial 410, o nó 404, o nó 406, terá um valor de probabilidade geral igual à probabilidade de emissão do nó 404 multiplicado pela probabilidade de transição de uma transição do nó 404 para o nó 406 multiplicado pela probabilidade de emissão do nó
406. À medida que o caminho se estende ainda mais para a janela 3, os termos adicionais de probabilidade de transição e probabilidade de emissão serão multiplicados pelo valor de probabilidade geral do caminho. O caminho mais provável tem o valor de probabilidade geral mais alto entre todos os caminhos possíveis. Um caminho estatisticamente provável tem uma probabilidade geral maior do que uma porcentagem predeterminada (por exemplo, 95%) de todos os caminhos possíveis. Na determinação do caminho mais provável, um algoritmo de Viterbi pode ser usado para suprimir caminhos improváveis para reduzir a quantidade de cálculo.
[00145] Em uma modalidade, um caminho também pode ser amostrado a partir do gráfico acíclico direcionado. Um caminho amostrado também pode ser referido como um caminho estocástico. A amostragem de caminhos pode ser realizada com base em diferentes abordagens em várias modalidades. Por exemplo, um limiar de porcentagem predeterminado pode ser definido. Caminhos que têm um valor de probabilidade que é maior do que o limiar de porcentagem predeterminado de todos os caminhos possíveis podem ser selecionados aleatoriamente como caminhos de amostra. Em uma modalidade, deixar CHOOSE ser um operador que escolhe um argumento com uma &]^^_L probabilidade relativa a uma expressão de modo que = ` `∈N retorna x com probabilidade " M ∑V/∈a " M / .
&]^^_L O domínio para p,q em , é de todos os pares ordenados de populações (isto é, todos os p,q tais que 1 <= p <= K e 1 <= q <= K para K populações). Então, um caminho estocástico Q para uma sequência genética x é definido sobre um conjunto de janelas 1≤w≤W como a seguir. Para janelas que são as últimas em um
&]^^_L cromossomo, c, bc,d e = fc _d , e , ,! , &]^^_L Para outras janelas w, bc, = fc g_ , ,! h × c g_ , ,! → _ ,ij, kl h × Lc,m bc, , .
[00146] Nessas equações, Fx(S) indica a probabilidade direta, isto é, a soma da probabilidade de todos os caminhos através do HMM que começam no estado inicial e terminam no estado S (incluindo a emissão do estado S); _ , ,! indica o estado da janela w, onde p,q são as duas etnias atribuídas na janela w; _d e , ,! indica o último estado em um cromossomo c; c _ indica a probabilidade de transição, e Lc,m _ é a probabilidade de emissão na janela w+1.
[00147] O módulo de intervalo 145 usa a média e o desvio padrão do conjunto de estimativas amostradas (por exemplo,
1.000 estimativas amostradas) para calcular um intervalo em torno da estimativa de referência. A abordagem também leva em consideração a estimativa de referência e a população para a qual o intervalo é calculado. Consequentemente, o módulo de intervalo 145 obtém os limites inferior e superior do intervalo escalando linearmente o desvio padrão das estimativas amostradas (por exemplo, 1.000 estimativas amostradas) com fatores que são específicos para a população e o valor de Viterbi (fatores de limite inferior e superior podem ser diferente para refletir o viés para cima ou para baixo da estimativa).
[00148] O módulo de intervalo 145 leva o conjunto de estimativas amostradas, referido como P, e computa o desvio padrão, S, e média, M, de P usando a equação (1).
S = dp(P); M = média(P) (1)
[00149] O módulo de faixa 145 também identifica os fatores de escala λ1 e λ2 para os limites superior e inferior da faixa, respectivamente. O módulo de intervalo 145 determina o intervalo de confiança relatado como [M – S * λ1, M + S * λ2], em que, λ1 e λ2 são específicos para a população e para a categoria em que a estimativa de referência cai. No caso de a estimativa de Viterbi ficar fora desse intervalo de confiança, o intervalo pode ser ajustado para incluir a estimativa de Viterbi como o limite superior ou inferior.
[00150] Os valores para λ1 e λ2 são determinados usando um conjunto de indivíduos simulados com proporções étnicas conhecidas. O treinamento para os valores de λ1 e λ2 é feito realizando uma pesquisa conjunta exaustiva sobre uma grade bidimensional em incrementos de 0,5 de λ1 e λ2 e encontrando a combinação de valores que maximiza a seguinte estatística F como determinado pela equação (2).
F = revocação – K * (S * λ1 +S * λ2) (2)
[00151] Na equação (2), K é um valor que ajusta a importância colocada em relatar uma faixa estreita (K mais alto aumenta a ênfase na faixa mais estreita). Diferentes valores de K podem ser usados para ajustar o intercâmbio entre revocação mais alta e tamanho de intervalo menor. O desempenho dessa abordagem pode ser avaliado medindo a revocação com os valores lambda otimizados em um conjunto independente de indivíduos misturados simulados.
[00152] Em uma modalidade, o sistema de determinação de rótulo 100 pode transmitir os resultados da determinação ao usuário final para exibição em uma interface gráfica de usuário. A porcentagem relatada a um usuário pode ser a porcentagem mais provável dentro de uma faixa de porcentagens. Por exemplo, o sistema de determinação de rótulo 100 pode relatar um usuário final como 40% na Inglaterra e País de Gales com um intervalo de confiança de 30-60%. Isso pode ser interpretado pelo usuário final que ele provavelmente é 40% da Inglaterra e do País de Gales, mas que pode estar em qualquer lugar entre 30 e 60% da Inglaterra e do País de Gales.
[00153] O sistema de determinação de rótulo 100 executa uma estimativa de referência na amostra de DNA de um usuário (por exemplo, uma estimativa de todo o genoma) e relata isso de volta como a estimativa de etnia mais provável do usuário. O intervalo é baseado em um conjunto de caminhos amostrados aleatoriamente (por exemplo, 1000 caminhos amostrados). Por exemplo, se uma janela tem 80% de chance de ser da Inglaterra e do País de Gales, ela tem 20% de chance de ser de outra região. O intervalo de confiança captura esses tipos de chances mais baixas no DNA de um usuário.
[00154] O sistema de determinação de rótulo 100 usa um conjunto de estimativas amostradas, para estimar o intervalo de confiança em torno da estimativa de referência que é relatada ao usuário. O sistema maximiza a probabilidade de que o intervalo relatado contenha a proporção de ascendência verdadeira (recall), ao mesmo tempo que maximiza a precisão mantendo um intervalo bastante estreito.
[00155] O sistema de determinação de rótulo 100 leva a média e o desvio padrão das estimativas amostradas de 1000 e usa isso para calcular um intervalo de confiança em torno da estimativa de referência. Ao calcular esse intervalo, o sistema de determinação de rótulo 100 leva em consideração o valor da estimativa de Viterbi e a população para a qual o intervalo é calculado.
[00156] Em uma modalidade, o processo é testado usando os mesmos indivíduos misturados sintéticos usados para os estudos de validação cruzada para determinar a frequência com que obtém corretamente a porcentagem de etnia conhecida dentro do intervalo. Em outras palavras, com que frequência o intervalo se sobrepõe à etnia conhecida. O processo funciona muito bem para algumas populações e pior para outras. Uma vez que a verdadeira etnia é conhecida, o sistema incorpora fatores de correção específicos para cada população para maximizar a probabilidade de que a verdadeira etnia esteja dentro do nível de confiança. Módulo de confiança
[00157] A confiança, nesse contexto, pode ser referida à probabilidade de um indivíduo realmente herdar DNA de ancestral(es) de uma determinada população. Em uma modalidade, o módulo de confiança 155 implementa uma abordagem de aprendizado de máquina, tal como uma abordagem de floresta aleatória, para atribuir um nível de confiança, categorizado como um conjunto de níveis predeterminados (por exemplo, baixo, médio ou alto) para cada população estimada.
[00158] Em uma modalidade, o modelo de aprendizado de máquina pode ser um modelo de floresta aleatória. O modelo de floresta aleatória compreende uma lista de classificadores binários, com cada classificador pegando um subconjunto de recursos de entrada e votando entre valores binários, por exemplo, 1 indicando “sim, esse indivíduo herda DNA dessa população” e 0 indicando “não, esse indivíduo não herda DNA dessa população”. Os recursos usados por esses classificadores incluem quantis calculados a partir do conjunto de estimativas amostradas e a estimativa de referência que passa do modelo de rotulagem 190.
[00159] O vetor de característica F é definido pela equação (3): F = [estimativa de Viterbi, 5%, 10%, 15%, ..., quantil de 95% do conjunto de estimativas de amostras] (3).
[00160] Os classificadores binários são treinados usando um conjunto de indivíduos simulados com proporções de ascendência conhecidas. O treinamento para classificadores é feito usando um algoritmo de floresta aleatória. Em uma modalidade, um modelo de floresta aleatória é treinado separadamente para cada população.
[00161] Para cada população estimada, a porcentagem de classificações binárias que suportam a ascendência dessa população é convertida em uma pontuação entre 0 e 1. Um conjunto de dados simulados com proporções de ascendência conhecidas é usado como conjunto de validação para calibrar entre a pontuação de floresta aleatória e a confiança. Como exemplo, limiares de pontuação de floresta aleatória para atribuição de confiança baixa, média e alta são selecionados usando as seguintes regras na tabela I abaixo. Nível de Confiança Limiar de Pontuação de Floresta Aleatória Alta 95% de confiança no conjunto de validação Média 60-95% de confiança no conjunto de validação Baixa Abaixo de 60% de confiança no conjunto de validação Tabela I. Categorias de classificação de confiança e a confiança do conjunto de validação correspondente
[00162] A FIG. 15A mostra o processo geral de geração de faixas de etnia e confidências de etnia, de acordo com uma modalidade. Como mostrado na FIG. 15A, o modelo de rotulagem
190 recebe dados de genótipos 1510 como entrada e gera estimativas de etnia 1520. O módulo de intervalo 145 recebe as estimativas de etnia 1520 geradas pelo modelo de rotulagem 190 e gera intervalos de etnia 1530 com base nas estimativas de etnia 1520. O módulo de confiança 155 recebe as estimativas de etnia 1520 geradas pelo modelo de rotulagem 190 e geram confidências de etnia 1540 com base nas estimativas de etnia 1520. Módulo de polígono
[00163] O módulo de polígono 175 cria polígonos de etnia para exibição por meio de uma interface de usuário. A FIG. 15B mostra o processo geral de geração de polígonos de etnia, de acordo com uma modalidade. Similar ao processo mostrado na FIG. 15A, o modelo de rotulagem 190 recebe dados de genótipos 1510 como entrada e gera estimativas de etnia 1520. O módulo de polígono 175 recebe as estimativas de etnia 1520 geradas pelo modelo de rotulagem 190 e gera polígonos de etnia 1550 com base nas estimativas de etnia 1520.
[00164] A FIG. 16 mostra o processo detalhado de geração de polígonos de etnia, de acordo com uma modalidade.
[00165] O módulo de polígono 175 define 1610 uma grade global, dividindo uma representação de uma área geográfica, tal como o mundo, em grades. Em uma modalidade, o módulo de polígono 175 divide a representação da área geográfica em duas grades: uma com cada elevação ao quadrado de graus ordinários (latitude e longitude) por lado e uma com lados de meio grau ordinário. O módulo de polígono 175 repete as seguintes etapas de forma independente para ambas as grades de um e meio grau ordinário. A escolha entre grade de um e meio grau ordinário depende da disponibilidade de dados com resolução geográfica em escala mais precisa. O módulo de polígono 175 identifica grades que se sobrepõem à terra, verificando o centro do quadrado da grade, bem como os 4 vértices e 4 pontos médios das bordas. Se qualquer um dos 9 pontos se sobrepuserem ao terreno, o quadrado da grade será marcado como contendo terra. O módulo de polígono 175 atribui um país ao quadrado da grade se esse país for coberto pela maioria dos 9 pontos.
[00166] O módulo de polígono 175 preenche 1620 a grade global usando as seguintes etapas. Para cada quadrado de grade, o módulo de polígono 175 calcula uma soma de atribuições fracionárias para cada população somando as contribuições de todos os indivíduos em um conjunto de treinamento que tem ancestrais de uma localização dentro do quadrado de grade. Em uma modalidade, o conjunto de treinamento inclui uma mistura do painel de referência e clientes com árvores de um único país.
[00167] O módulo de polígono 175 identifica quadrados de grade que não foram previamente marcados como terras que têm atribuições e, subsequentemente, os marca como sendo terras para contabilizar quadrados sobrepostos em pequenas ilhas e linhas costeiras complicadas.
[00168] O módulo de polígono 175 determina contribuições de estimativas de etnia de um indivíduo para um quadrado de grade de várias maneiras.
[00169] (i) Para usuários, o módulo de polígono 175 usa pessoas onde os nós terminais em suas árvores genealógicas nasceram no mesmo país. O módulo de polígono 175 então se concentra nos quadrados da grade contendo as localizações de nascimento para cada um dos nós terminais em sua árvore. O módulo de polígono 175 calcula a fração de sua estimativa de etnia associada a cada quadrado de grade com a seguinte fórmula: (proporção de ascendência da árvore para o quadrado) X (proporção da estimativa de etnia para a região de etnia).
[00170] (ii) Para países para os quais o sistema de determinação de rótulo 100 não tem amostras suficientes para cobrir adequadamente a maior parte do país, o módulo de polígono 175 distribui uniformemente, as atribuições de estimativa de etnia de uma pessoa em todos os quadrados da grade sobrepostos naquele país em um processo conhecido como preenchimento de país.
[00171] (iii) Para países para os quais o sistema de determinação de rótulo 100 não tem muitos usuários com dados de árvore, o módulo de polígono 175 realiza o preenchimento de país usando usuários que nasceram naquele país.
[00172] (iv) Para clientes no painel de referência, o módulo de polígono 175 realiza as etapas i, ii ou iii, mas usando suas estimativas de etnia a partir do processo de validação cruzada.
[00173] (v) Para conjuntos de dados de terceiros, o módulo de polígono 175 atribui estimativas de etnia de uma pessoa a um quadrado de grade quando as informações de latitude e longitude estão presentes.
[00174] (vi) Para conjuntos de dados de terceiros onde as informações de latitude e longitude não estão presentes, o módulo de polígono 175 realiza o preenchimento do país ou, para algumas populações, preenche um polígono regional predefinido que representa a localização da população dada em vez de todo o país.
[00175] Para cada quadrado de grade, o módulo de polígono
175 calcula uma porcentagem para cada região de etnia, dividindo a soma das atribuições de etnia fracionada para essa região de etnia pelo total de todas as somas para esse quadrado de grade. Essa porcentagem representa a quantidade média de atribuição para aquela região étnica para o dado quadriculado.
[00176] O módulo de polígono 175 imputa 1630 valores ausentes como a seguir. O módulo de polígono 175 imputa a falta de quadrados de grade para cada região de etnia que está presente em praças próximas. O módulo de polígono 175 realiza imputação apenas para quadrados que não são de países que são preenchidos por país, sobreposição de terras, dos 8 quadrados adjacentes a um passo de 3 ou mais têm um valor diferente de zero, ou dos 24 quadrados a dois passos de 5 ou mais têm um valor diferente de zero. Adicionalmente, pelo menos um dos 4 quadrados que compartilham uma borda com o quadrado imputado deve ter um valor diferente de zero.
[00177] O módulo de polígono 175 calcula o valor imputado usando ponderação de distância inversa com p=4. Ponderação de distância inversa (IDW) é um tipo de método determinístico para interpolação multivariada com um conjunto conhecido de pontos espalhados. Os valores atribuídos a pontos desconhecidos são calculados com uma média ponderada dos valores disponíveis nos pontos conhecidos. Uma forma geral de encontrar um valor interpolado u em um determinado ponto x com base nas amostras ui = u(xi), para i = 1 , 2 , . . . , N usando IDW é uma função de interpolação, por exemplo,
em que .
[00178] Nessa equação, x indica um ponto interpolado (arbitrário), xi é um ponto de interpolação (conhecido), d é uma dada distância (operador métrico) do ponto conhecido xi ao ponto desconhecido x, N é o número total de pontos conhecidos usados na interpolação e p é um número real positivo, chamado de parâmetro de potência. Nesse documento o peso diminui conforme a distância aumenta dos pontos interpolados. Valores maiores de p atribuem maior influência aos valores mais próximos do ponto interpolado, com o resultado se transformando em um mosaico quadriculado (um diagrama de Voronoi) com valor interpolado quase constante para grandes valores de p.
[00179] O método de imputação também é aplicado a quadrados com porcentagens diferentes de zero para ajudar a espalhar ou mesmo eliminar as atribuições. Após a imputação, o módulo de polígono 175 renormaliza as porcentagens para cada quadrado da grade para garantir que a soma das porcentagens seja igual a 100% para cada quadrado da grade.
[00180] Em uma modalidade, o módulo de polígono 175 realiza espalhamento de valores de grade similares à etapa de imputação, exceto para as seguintes diferenças: (1) Apenas os 8 quadrados adjacentes são usados, e apenas 2 quadrados adjacentes precisam de valores diferentes de zero; (2) p = 2 para ponderação de distância inversa.
[00181] O módulo de polígono 175 gera 1640 polígonos separadamente para cada região étnica. Em uma modalidade, o módulo de polígono 175 cria polígonos usando polígonos de densidade de kernel ponderada usando estimativa de densidade de kernel bidimensional, por exemplo, usando a função kde2d.weighted() da biblioteca ggtern em R. Eles representam as regiões geográficas onde as atribuições a uma região EV são as mais fortes, mas não contêm informações sobre quais são as atribuições.
[00182] Em outra modalidade, o módulo de polígono 175 gera polígonos estriados baseados em grade. Os polígonos baseados em grade são diretamente baseados nos valores de grade e representam regiões onde a atribuição média para uma região étnica cai dentro de um intervalo específico: 0,5-5%, 5-25%, 25-50%, 50-75%, 75- 95%, 95-100%. Polígonos separados são criados para cada um desses intervalos. O módulo de polígono 175 define polígonos iniciais simplesmente traçando as bordas dos quadrados de grade contíguos que caem dentro do intervalo determinado. O módulo de polígono 175 aplica uma etapa de spline, de modo que as bordas do polígono sejam mais suaves e não sejam em blocos. O módulo de polígono 175 realiza spline independentemente para cada borda de polígono que não é uma linha costeira e é, portanto, composto de linhas retas que se encontram em ângulos retos usando uma função de suavização, por exemplo, usando a função smooth.spline () em R com o parâmetro de suavização igual a lambda.
[00183] O módulo de polígono 175 envia 1650 informações que descrevem os polígonos resultantes para uma determinada região étnica para exibição em um mapa usando uma interface de usuário com uma cor separada usada para representar cada intervalo.
[00184] A FIG. 17 mostra uma captura de tela de uma interface de usuário mostrando um mapa de estimativas para um país de exemplo (Irlanda e Escócia), de acordo com uma modalidade. Altas estimativas fora da Irlanda na Escócia, País de Gales e Bretanha provavelmente refletem migrações históricas de pessoas celtas. O sistema de determinação de rótulo 100 usa mapas similares aos mostrados na Figura 17 para mostrar estimativas de etnicidade geograficamente. A distribuição geográfica das estimativas de etnia dentro de um país ajuda a dar sentido aos resultados. Por exemplo, como mostrado na FIG. 17, há um alto nível de ascendência irlandesa e escocesa na região francesa da Bretanha. Isso faz sentido, pois a atribuição da Irlanda e da Escócia é o resultado dos povos celtas que viveram lá e os povos celtas migraram para a região da França de língua bretão. A língua celta bretão é tradicionalmente falada lá. As estimativas mais altas da Irlanda e da Escócia no País de Gales também provavelmente refletem o histórico da migração celta na região.
[00185] Como o sistema de determinação de rótulo 100 usa 43 populações no painel de referência, o sistema de determinação de rótulo 100 divide o globo em 43 regiões/grupos geográficos sobrepostos. Cada região representa uma população com um perfil genético único. Sempre que possível, o sistema de determinação de rótulo 100 usa as localizações geográficas conhecidas das amostras para orientar onde as fronteiras regionais devem ser.
[00186] As FIGs. 18A-C mostram capturas de tela de uma interface de usuário mostrando polígonos regionais usando localizações geográficas de amostra, de acordo com uma modalidade. A FIG. 18A mostra a distribuição da etnia da
Inglaterra e do País de Gales prevista para um conjunto de amostras com informações geográficas. As amostras são atribuídas a grades de 0,5 grau de longitude por 0,5 grau de latitude com base na localização média de nascimento dos avós de seus ancestrais. A cor de cada ponto do quadrado de grade no mapa representa a etnia média da Inglaterra e do País de Gales das amostras de cada grade. A FIG. 18B mostra os mapas depois de preencher as regiões ausentes e suavizar os resultados. Consequentemente, a Figura 18B mostra os resultados após imputar valores para preencher as lacunas e aplicar métodos de suavização para tornar a representação gráfica menos ‘irregular’. A informação é processada com suavização de kernel para criar os contornos que representam as regiões de ascendência mostradas aos usuários, como mostrado na FIG. 18C.
[00187] Como ilustrado pela representação gráfica mostrada na FIG. 18C, há um gradiente de etnia nessa região que está centrado na Inglaterra que rapidamente diminui nas regiões vizinhas. Por exemplo, o próximo nível de concentração está em áreas ao redor da Inglaterra, tais como, País de Gales, França e Bélgica. O gradiente de etnia continua a diminuir, como representado em roxo, com as fronteiras alcançando até Itália, Suíça, Suécia e Irlanda. Sempre que possível, essa informação é aplicada diretamente ao desenho de fronteiras regionais (FIG. 18C) que aparecem nos mapas apresentados pelo sistema de determinação de rótulo
100.
[00188] Esses polígonos aparecem como regiões aninhadas com profundidade crescente de sombreamento. As regiões com as atribuições médias mais altas são as localizações físicas mais prováveis dos ancestrais de um determinado usuário. As regiões com níveis médios mais baixos representam outras localizações de origem possíveis que são menos prováveis. Cada polígono é acompanhado por um relato detalhado do histórico da região.
ARQUITETURA DE MÁQUINA DE COMPUTAÇÃO
[00189] A FIG. 19 é um diagrama de blocos que ilustra os componentes de uma máquina de computação de exemplo que é capaz de ler instruções de um meio legível por computador e executá-las em um processador (ou controlador). Um computador descrito nesse documento pode incluir uma única máquina de computação mostrada na FIG. 19, uma máquina virtual, um sistema de computação distribuído que inclui múltiplos nós de máquinas de computação mostradas na FIG. 19, ou qualquer outro arranjo adequado de dispositivos de computação.
[00190] A título de exemplo, a FIG. 19 mostra uma representação esquemática de uma máquina de computação na forma de exemplo de um sistema de computador 1900 dentro do qual as instruções 1924 (por exemplo, software, código de programa ou código de máquina), que podem ser armazenados em um meio legível por computador para fazer com que a máquina realize qualquer um ou mais dos processos discutidos nesse documento podem ser executados. Em algumas modalidades, a máquina de computação opera como um dispositivo autônomo ou pode ser conectada (por exemplo, em rede) a outras máquinas. Em uma implantação em rede, a máquina pode operar na capacidade de uma máquina servidora ou uma máquina cliente em um ambiente de rede cliente-servidor, ou como uma máquina de pares em um ambiente de rede de pares (ou distribuída).
[00191] A estrutura de uma máquina de computação descrita na FIG. 19 pode corresponder a qualquer software, hardware ou componentes combinados mostrados na FIG. 1A, incluindo, mas não se limitando a, o sistema de determinação de rótulo 100, vários maquinários, interfaces, terminais e máquinas de dispositivos de computação. Embora a FIG. 19 mostra vários elementos de hardware e software, cada um dos componentes descritos nesse documento pode incluir elementos adicionais ou menos.
[00192] A título de exemplo, uma máquina de computação pode ser um computador pessoal (PC), um tablet PC, um decodificador (STB), um assistente digital pessoal (PDA), um telefone celular, um smartphone, um aparelho de internet, um roteador de rede, um dispositivo de Internet das coisas (IoT), um comutador ou ponte ou qualquer máquina capaz de executar instruções 1924 que especificam ações a serem executadas por essa máquina. Além disso, embora apenas uma única máquina seja ilustrada, o termo “máquina” e “computador” também pode ser considerado como incluindo qualquer coleção de máquinas que executam individualmente ou em conjunto as instruções 1924 para executar qualquer uma ou mais das metodologias discutidas nesse documento.
[00193] O exemplo de sistema de computador 1900 inclui um ou mais processador(es) 1902, tal como uma CPU (unidade de processamento central), uma GPU (unidade de processamento gráfico), uma TPU (unidade de processamento tensor), um DSP (processador de sinal digital), um sistema em um chip (SOC), um controlador, um equipamento de estado, um circuito integrado específico de aplicativo (ASIC), um Arranjo de Portas Programáveis em Campo (FPGA) ou qualquer combinação desses. Partes do sistema de computação 1900 também podem incluir uma memória 1904 que armazena código de computador incluindo instruções 1924 que podem fazer com que os processadores 1902 executem certas ações quando as instruções são executadas, direta ou indiretamente pelos processadores 1902. As instruções podem ser quaisquer direções, comandos, ou ordens que podem ser armazenada(o)s em diferentes formas, tais como instruções legíveis por equipamento, instruções de programação incluindo código- fonte e outros sinais de comunicação e ordens. As instruções podem ser usadas em um sentido geral e não se limitam a códigos legíveis por máquina.
[00194] Um e mais métodos descritos nesse documento melhoram a velocidade de operação dos processadores 1902 e reduzem o espaço necessário para a memória 1904. Por exemplo, os métodos de aprendizado de máquina descritos nesse documento reduzem a complexidade do cálculo dos processadores 1902 aplicando um ou mais de técnicas novas que simplificam as etapas de treinamento, atingindo a convergência e gerando resultados dos processadores 1902. Os algoritmos descritos nesse documento também reduzem o tamanho dos modelos e conjuntos de dados para reduzir o requisito de espaço de armazenamento para a memória 1904.
[00195] O desempenho de algumas das operações pode ser distribuído entre os mais de processadores, não apenas residindo em uma única máquina, mas implantado em uma série de máquinas. Em algumas modalidades de exemplo, um ou mais processador(es) ou módulos implementados por processador pode(m) estar localizado(s) em uma única localização geográfica (por exemplo, dentro de um ambiente doméstico, um ambiente de escritório ou uma torre de servidores). Em outras modalidades de exemplo, um ou mais processador(es) ou módulos implementados por processador pode(m) ser distribuído(s) em uma série de localizações geográficas. Mesmo que no relatório descritivo ou nas reivindicações possam se referir a alguns processos a serem realizados por um processador, isso deve ser interpretado como incluindo uma operação conjunta de múltiplos processadores distribuídos.
[00196] O sistema de computador 1900 pode incluir uma memória principal 1904 e uma memória estática 1906, que são configuradas para se comunicarem entre si através de um barramento 1908. O sistema de computador 1900 pode adicionalmente incluir uma unidade de exibição gráfica 1910 (por exemplo, um painel de exibição de plasma (PDP), um visor de cristal líquido (LCD), um projetor ou um tubo de raios catódicos (CRT)). A unidade de exibição gráfica 1910, controlada pelos processadores 1902, exibe uma interface gráfica de usuário (GUI) para exibir um ou mais de resultados e dados gerados pelos processos descritos nesse documento. O sistema de computador 1900 também pode incluir dispositivo de entrada alfanumérico 1912 (por exemplo, um teclado), um dispositivo de controle de cursor 1914 (por exemplo, um mouse, uma bola de comando, um periférico de computador, um sensor de movimento ou outro instrumento apontador), uma unidade de armazenamento 1916 (um disco rígido, uma unidade de estado sólido, uma unidade híbrida, um disco de memória, etc.), um dispositivo de geração de sinal 1918 (por exemplo, um alto-falante) e um dispositivo de interface de rede 1920, que também são configurados para se comunicar através do barramento 1908.
[00197] A unidade de armazenamento 1916 inclui um meio legível por computador 1922 no qual são armazenadas instruções 1924 que incorporam qualquer uma ou mais das metodologias ou funções descritas nesse documento. As instruções 1924 também podem residir, completamente ou pelo menos parcialmente, dentro da memória principal 1904 ou dentro do processador 1902 (por exemplo, dentro de uma memória cache do processador) durante a execução das mesmas pelo sistema de computador 1900, a memória principal 1904 e o processador 1902 também constituindo mídia legível por computador. As instruções 1924 podem ser transmitidas ou recebidas através de uma rede 1926 através do dispositivo de interface de rede 1920.
[00198] Embora o meio legível por computador 1922 seja mostrado em uma modalidade de exemplo como um único meio, o termo “meio legível por computador” deve ser considerado para incluir um único meio ou vários meios (por exemplo, um banco de dados centralizado ou distribuído, ou caches e servidores associados) capazes de armazenar instruções (por exemplo, instruções 1924). O meio legível por computador pode incluir qualquer meio que seja capaz de armazenar instruções (por exemplo, instruções 1924) para execução pelos processadores (por exemplo, processadores 1902) e que faz com que os processadores executem qualquer uma ou mais das metodologias reveladas nesse documento. O meio legível por computador pode incluir, mas não está limitado a, repositórios de dados na forma de memórias de estado sólido, meio óptico e meio magnético. O meio legível por computador não inclui um meio transitório, tal como um sinal de propagação ou uma onda portadora.
Considerações Adicionais
[00199] As modalidades descritas nesse documento criam amostras de referência de segmentos extraídos de etnia de amostras misturadas. Isso pode ser usado para potencializar o painel de referência misturado. As modalidades descritas nesse documento também podem ser usadas para dividir ainda mais as regiões de etnia para identificar novas subregiões em potencial ou estimativa de ascendência refinada. Por exemplo, novas regiões podem ser feitas para determinado painel de referência misturado. As modalidades descritas nesse documento também podem realizar mapeamento de mistura para descobrir etnias que se correlacionam com características em indivíduos misturados e para estudar o tempo de eventos de mistura. Por exemplo, a extensão dos segmentos étnicos pode fornecer informações sobre quando a mistura aconteceu.
[00200] O sistema de determinação de rótulo 100 compreende um ou mais processador(es) e um ou mais meios de armazenamento legíveis por computador não transitórios. Um ou mais processador(es) pode(m) implementar as funções atribuídas acima aos módulos. Os módulos podem ser módulos de hardware (isto é, hardware de computador especialmente configurado para executar funções específicas), módulos de software ou alguma combinação dos mesmos. Os meios legíveis por computador não transitórios podem armazenar instruções de computador que, quando executadas, executam os métodos descritos nesse documento. Em algumas modalidades, o sistema de determinação de rótulo 100 é um único sistema de computação. Em modalidades alternativas, o sistema de determinação de rótulo 100 pode ser um sistema distribuído incluindo bancos de dados separados espacialmente e sistemas de computação (por exemplo, servidores) que se comunicam através de uma rede.
[00201] O sistema de determinação de rótulo 100 é implementado usando um ou mais de computadores tendo um ou mais processador(es) executando o código do aplicativo para realizar as etapas descritas nesse documento, e os dados podem ser armazenados em qualquer meio de armazenamento não transitório convencional e, quando apropriado, incluir umm implementação de servidor de banco de dados convencional. Para fins de clareza e porque são bem conhecidos dos habilitados na técnica, vários componentes de um sistema de computador, por exemplo, processadores, memória, dispositivos de entrada, dispositivos de rede e semelhantes não são mostrados na FIG. 1A. Em algumas modalidades, uma arquitetura de computação distribuída é usada para implementar os recursos descritos. Um exemplo dessa plataforma de computação distribuída é o projeto Apache Hadoop disponível na Apache Software Foundation.
[00202] Além das modalidades especificamente descritas acima, aqueles habilitados na técnica apreciarão que a invenção pode, adicionalmente, ser praticada em outras modalidades. Dentro dessa descrição escrita, a nomenclatura particular dos componentes, a capitalização dos termos, os atributos, as estruturas de dados ou qualquer outra programação ou aspecto estrutural não é obrigatório ou significativo, a menos que indicado de outra forma, e os mecanismos que implementam a invenção descrita ou seus recursos podem têm nomes, formatos ou protocolos diferentes. Além disso, o sistema pode ser implementado por meio de uma combinação de hardware e software, como descrito, ou inteiramente em elementos de hardware. Além disso, a divisão específica de funcionalidade entre os vários componentes do sistema descritos nesse documento não é obrigatória; as funções executadas por um único módulo ou componente do sistema podem, em vez disso, ser executadas por vários componentes e as funções executadas por vários componentes podem, em vez disso, ser executadas por um único componente. Da mesma forma, a ordem em que as etapas do método são executadas não é obrigatória, a menos que seja indicado de outra forma ou exigido logicamente. Deve ser notado que as etapas e instruções do processo da presente invenção podem ser incorporadas em software, firmware ou hardware e, quando incorporadas em software, podem ser baixadas para residir e serem operadas a partir de diferentes plataformas usadas por sistemas operacionais de rede em tempo real.
[00203] As descrições e representações algorítmicas incluídas nessa descrição são entendidas como implementadas por programas de computador. Além disso, também se provou conveniente, às vezes, referir-se a esses arranjos de operações como módulos ou dispositivos de código, sem perda de generalidade.
[00204] Salvo indicação em contrário, as discussões utilizando termos, tais como, “selecionar” ou “computar” ou “determinar” ou semelhantes referem-se à ação e aos processos de um sistema de computador, ou dispositivo de computação eletrônico semelhante, que manipula e transforma os dados representados como grandezas físicas (eletrônicas) nas memórias ou nos registros do sistema de computador ou outros dispositivos de armazenamento, transmissão ou exibição de informações.
[00205] Os algoritmos e as exibições apresentados não são inerentemente relacionados a qualquer computador ou outro aparelho específico. Vários sistemas de uso geral também podem ser usados com programas de acordo com os ensinamentos acima, ou pode ser conveniente construir aparelhos mais especializados para realizar as etapas do método requeridas. A estrutura necessária para uma variedade desses sistemas aparecerá na descrição acima. Além disso, uma variedade de linguagens de programação pode ser usada para implementar os ensinamentos acima.
[00206] Finalmente, deve ser notado que a linguagem usada no relatório descritivo foi selecionada principalmente para fins de legibilidade e instrução, e pode não ter sido selecionada para delinear ou circunscrever a matéria da invenção. Consequentemente, a revelação da presente invenção pretende ser ilustrativa, mas não limitativa, do escopo da invenção.

Claims (57)

REIVINDICAÇÕES
1. Método implementado por computador, caracterizado pelo fato de que compreende: acessar um conjunto de dados de genótipo associado a um indivíduo; dividir o conjunto de dados do genótipo em uma pluralidade de janelas, cada janela compreendendo um conjunto de polimorfismos de nucleotídeo único (SNPs); determinar um par de conjuntos de dados de haplótipos faseados a partir da pluralidade de janelas do conjunto de dados de genótipo; gerar, usando o par de conjuntos de dados de haplótipos faseados, um gráfico acíclico direcionado que compreende: (i) uma pluralidade de grupos de nós, cada grupo de nós representando uma das janelas, cada grupo de nós compreendendo uma pluralidade de nós, cada nó representando um estado da janela representado pelo grupo de nós, o estado compreendendo: (1) um primeiro rótulo pai, (2) um segundo rótulo pai, e (3) um rótulo de troca que representa uma troca de ordem do primeiro rótulo pai e do segundo rótulo pai, (ii) uma pluralidade de bordas, cada borda conectando um primeiro nó a um segundo nó, cada borda representando uma transição do primeiro nó para o segundo nó, em que cada nó está associado a uma probabilidade de emissão determinada com base no par de conjuntos de dados de haplótipos faseados; e gerar informações sobre a origem étnica do indivíduo por meio do gráfico acíclico direcionado.
2. Método implementado por computador, de acordo com a reivindicação 1, caracterizado pelo fato de que a probabilidade de emissão associada a um nó particular correspondente a uma janela particular representa uma probabilidade de a janela particular corresponder a um par de sequências de haplótipos dado o estado tendo o primeiro rótulo pai, o segundo rótulo pai e o rótulo de troca.
3. Método implementado por computador, de acordo com a reivindicação 2, caracterizado pelo fato de que a pluralidade de nós em cada grupo de nós representa permutações de diferentes primeiros rótulos pai, segundos rótulos pai e rótulos de troca.
4. Método implementado por computador, de acordo com a reivindicação 1, caracterizado pelo fato de que a troca de ordem do primeiro rótulo pai e do segundo rótulo pai corresponde a uma troca do primeiro e do segundo rótulos pai de um grupo de nós para um próximo grupo de nós.
5. Método implementado por computador, de acordo com a reivindicação 1, caracterizado pelo fato de que gerar o gráfico acíclico direcionado compreende adicionalmente: iniciar probabilidades de rótulo, cada probabilidade de rótulo para um rótulo particular representando uma distribuição de probabilidade do rótulo particular entre outros rótulos possíveis; iniciar probabilidades de mudança de rótulo, cada probabilidade de mudança de rótulo representando uma probabilidade de uma mudança de rótulo de uma janela para outra janela;
iniciar uma probabilidade de troca de rótulo que representa uma probabilidade de uma troca de ordem do primeiro rótulo pai e do segundo rótulo pai de uma janela para outra janela; ajustar as probabilidades de rótulo, probabilidades de mudança de rótulo e a probabilidade de troca de rótulo por meio de iterações; determinar probabilidades de transição com base nas probabilidades de rótulo, as probabilidades de troca de rótulo e a probabilidade de troca de rótulo, cada probabilidade de transição associada a uma borda particular e representando uma probabilidade do primeiro nó conectado pela borda particular de um grupo de nós em transição para o segundo nó conectado pela borda particular de outro grupo de nós; e conectar os nós com bordas, cada borda correspondendo a uma determinada probabilidade de transição.
6. Método implementado por computador, de acordo com a reivindicação 1, caracterizado pelo fato de que a informação de origem étnica compreende um conjunto de possíveis origens étnicas do indivíduo e composições percentuais do conjunto das possíveis origens étnicas.
7. Método implementado por computador, de acordo com a reivindicação 1, caracterizado pelo fato de que a geração de informações sobre a origem étnica do indivíduo usando o gráfico acíclico direcionado compreende: determinar um trajeto de Viterbi para o gráfico acíclico direcionado com base em uma probabilidade do par de conjuntos de dados de haplótipos faseados dos nós transversais individuais no gráfico acíclico direcionado ao longo do trajeto de Viterbi; determinar a probabilidade de o indivíduo ter uma origem étnica específica com base no trajeto de Viterbi; e exibir a probabilidade de o indivíduo ter a origem étnica específica como a informação de origem étnica.
8. Método implementado por computador, caracterizado pelo fato de que compreende: acessar um conjunto de amostras de painel de referência; dividir cada amostra do painel de referência em uma pluralidade de janelas, cada janela compreendendo um conjunto de polimorfismos de nucleotídeo único (SNPs); computar, para cada janela, um modelo oculto de Markov diploide (HMM) com base no conjunto de amostras de painel de referência que correspondem a cada janela; calcular, para cada estado diploide em cada HMM diploide, probabilidades de estado diploide usando o HMM diploide; calcular, para cada janela, um conjunto de anotações com base nas probabilidades do estado diploide, cada anotação correspondendo a um rótulo; e determinar probabilidades de emissão de um par de haplótipos faseados para um HMM entre janelas com base no conjunto de anotações e o par de haplótipos faseados.
9. Método implementado por computador, de acordo com a reivindicação 8, caracterizado pelo fato de que o HMM entre janelas compreende: (i) uma pluralidade de grupos de nós, cada grupo de nós representando uma das janelas, cada grupo de nós compreendendo uma pluralidade de nós, cada nó representando um estado da janela representado pelo grupo de nós, o estado compreendendo: (1) um primeiro rótulo pai, (2) um segundo rótulo pai, e (3) um rótulo de troca que representa uma troca de ordem do primeiro rótulo pai e do segundo rótulo pai, (ii) uma pluralidade de bordas, cada borda conectando um primeiro nó a um segundo nó, cada borda representando uma transição do primeiro nó para o segundo nó, em que cada nó está associado a uma das probabilidades de emissão.
10. Método implementado por computador, de acordo com a reivindicação 9, caracterizado pelo fato de que compreende adicionalmente: computar o HMM entre janelas com base nas probabilidades de emissão; e usar um algoritmo de Viterbi para determinar as probabilidades de transição entre os nós.
11. Método implementado por computador, de acordo com a reivindicação 9, caracterizado pelo fato de que a probabilidade de emissão associada a um nó particular correspondente a uma janela particular representa uma probabilidade de a janela particular corresponder a um par de sequências de haplótipos dado o estado tendo o primeiro rótulo pai, o segundo rótulo pai e o rótulo de troca.
12. Método implementado por computador, de acordo com a reivindicação 9, caracterizado pelo fato de que compreende adicionalmente: computar, para cada janela, um modelo haploide de Markov, em que cada estado diploide no modelo oculto de Markov diploide corresponde a um par de estados haploides do modelo de Markov haploide.
13. Método implementado por computador, de acordo com a reivindicação 10, caracterizado pelo fato de que usar o algoritmo de Viterbi para determinar as probabilidades de transição entre os nós são repetidas iterativamente por um número predeterminado de vezes.
14. Método implementado por computador, de acordo com a reivindicação 10, caracterizado pelo fato de que usar o algoritmo de Viterbi para determinar as probabilidades de transição entre os nós compreende: determinar um trajeto de Viterbi que atravessa o HMM entre janelas com base em uma probabilidade de atravessar uma sequência particular de nós que representa o trajeto.
15. Meio de armazenamento legível por computador não transitório que armazena um gráfico acíclico direcionado e instruções, quando executado por um ou mais de processadores, faz com que o processador use o gráfico acíclico direcionado para atribuir um ou mais rótulo(s) a uma amostra de dados de genótipo, o gráfico acíclico direcionado compreendendo: uma pluralidade de grupos de nós, cada grupo de nós representando uma janela de segmento genético, cada janela compreendendo um conjunto de polimorfismos de nucleotídeo único (SNPs), cada grupo de nós compreendendo uma pluralidade de nós, cada nó representando um estado da janela representada pelo nó grupo, o estado compreendendo: (1) um primeiro rótulo pai, (2) um segundo rótulo pai, e (3) rótulo de troca que representa uma troca de ordem do primeiro rótulo principal e do segundo rótulo principal, em que cada nó está associado a uma probabilidade de emissão que representa uma probabilidade de um par de haplótipos correspondendo à janela dada o primeiro rótulo principal, o segundo rótulo principal e o rótulo de comutação para cada nó; e uma pluralidade de bordas, cada borda conectando um primeiro nó de um primeiro grupo de nós a um segundo nó de um segundo grupo de nós, cada borda sendo associada a uma probabilidade de transição que representa uma probabilidade de transição do primeiro nó para o segundo nó.
16. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 15, caracterizado pelo fato de que a pluralidade de nós em cada grupo de nós representa permutações de diferentes primeiros rótulos pais, segundos rótulos pais e rótulos de troca.
17. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 15, caracterizado pelo fato de que cada um dos primeiros rótulos pai e os segundos rótulos pai corresponde a um grupo de origem étnica.
18. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 15, caracterizado pelo fato de que a probabilidade de transição é determinada ( ( , , z) → ( ’, ’, z’)) = com base em:
× se C(w) ≠ (() + 1) ( ⎧ ⎪ 2 ⎪ (1 − ) × (1 − ) × (1 − ) se C(w) = (() + 1), , = ,* = * ⎪ se C(w) = (() + 1), , = ,* ≠ * = (1 − ) × (1 − ) × ⎪ = ⎪ se C(w) = (() + 1), ≠ , = ,* = * ⎪ × (1 − ) × (1 − )× ⎪ ∑ % " + ∑ $ " ⎪ × (1 − )× × se C(w) = (() + 1), ≠ , = ,* ≠ * ⎨ ∑ % " + ∑$ " ⎪ ⎪(1 − ) × × (1 − ) × se C(w) = (() + 1), , ≠ ,* = * ⎪ ∑ % + ∑ = $ ⎪ " " ⎪ se C(w) = (() + 1), , ≠ ,* ≠ * ⎪ (1 − ) × × × ∑ % + ∑$ = ⎪ " " ⎪ ⎩ se C(w) = (() + 1), ≠ , ≠ 0 .
19. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 18, caracterizado pelo fato de que , ,e são determinados com base em um processo iterativo.
20. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 15, caracterizado pelo fato de que a probabilidade de emissão é determinada +, ( ) × +,/, ( ) se - = 0 com base em: +,, ( , , -) = . , +, , ( ) × +,/, ( ) se - = 1
21. Método implementado por computador, caracterizado pelo fato de que compreende: identificar uma pluralidade de indivíduos misturados, cada indivíduo misturado identificado tendo pelo menos um ancestral de uma região geográfica alvo; recuperar conjuntos de dados genéticos da pluralidade de indivíduos misturados identificados; identificar, a partir dos conjuntos de dados genéticos recuperados, uma pluralidade de segmentos genéticos que são herdados de uma origem étnica alvo, pelo menos um primeiro segmento genético de um primeiro indivíduo misturado da pluralidade de indivíduos misturados identificados e um segundo segmento genético de um segundo indivíduo misturado da pluralidade de indivíduos misturados identificados, o primeiro e o segundo segmentos genéticos sendo segmentos diferentes; e criar um conjunto de dados genéticos sintéticos a partir de uma combinação da pluralidade de segmentos genéticos identificados que são herdados da origem étnica alvo, o conjunto de dados genéticos sintéticos compreendendo pelo menos o primeiro e o segundo segmentos genéticos, o conjunto de dados genéticos sintéticos sendo um representante da origem étnica alvo na região geográfica de destino.
22. Método implementado por computador, de acordo com a reivindicação 21, caracterizado pelo fato de que a identificação da pluralidade de indivíduos misturados identificados é baseada em dados genealógicos compreendendo dados selecionados de um ou mais dos seguintes: uma linhagem de um dos indivíduos misturados identificados, o sistema da Árvore Ancestral Mundial, um banco de dados do Índice de Mortalidade da Previdência Social, o sistema da Árvore Genealógica Mundial, um banco de dados de certidões de nascimento, um banco de dados de certidões de óbito, um banco de dados de certidões de casamento, um banco de dados de adoção, um banco de dados de registro de alistamento, um banco de dados de veteranos, um banco de dados militar, um banco de dados de registros de propriedade um banco de dados de censo, um banco de dados de registro de eleitores, um banco de dados de telefones, um banco de dados de endereços, um banco de dados de jornais, um banco de dados de imigração,
um banco de dados de registros de histórico familiar, um banco de dados de registros de histórico local, um banco de dados de registro de empresas ou um banco de dados de veículos motorizados.
23. Método implementado por computador, de acordo com a reivindicação 21, caracterizado pelo fato de que pelo menos um dos conjuntos de dados genéticos recuperados é um conjunto de dados de genótipo.
24. Método implementado por computador, de acordo com a reivindicação 21, caracterizado pelo fato de que pelo menos um dos conjuntos de dados genéticos recuperados é um conjunto de dados de haplótipos faseados.
25. Método implementado por computador, de acordo com a reivindicação 21, caracterizado pelo fato de que a identificação de um ou mais de segmentos genéticos que são herdados da origem étnica alvo de um dos indivíduos misturados identificados compreende: inserir cada um dos conjuntos de dados genéticos do indivíduo misturado identificado em um modelo de Markov oculto; identificar, pelo modelo oculto de Markov, um ou mais de segmentos genéticos que são herdados da origem étnica alvo.
26. Método implementado por computador, de acordo com a reivindicação 21, caracterizado pelo fato de que a identificação de um ou mais de segmentos genéticos que são herdados da origem étnica alvo de um dos indivíduos misturados identificados compreende: gerar um gráfico acíclico direcionado compreendendo uma pluralidade de grupos de nós, um grupo de nós representando uma janela correspondente a um dos segmentos genéticos do indivíduo misturado identificado, cada grupo de nós compreendendo uma pluralidade de nós, cada nó tendo um conjunto de rótulos, pelo menos um dos rótulos representando uma das possíveis origens étnicas, as possíveis origens étnicas compreendendo a origem étnica alvo e outras origens étnicas, o gráfico acíclico direcionado compreendendo adicionalmente uma pluralidade de bordas, cada borda conectando um primeiro nó e um segundo nó e representando uma transição do primeiro nó para o segundo nó; determinar um trajeto que atravessa o gráfico acíclico direcionado, o trajeto que representa um trajeto estatisticamente provável entre outros trajetos possíveis ao atravessar o gráfico acíclico direcionado; identificar um ou mais de nós incluídos no trajeto que têm pelo menos um rótulo que representa a origem étnica alvo; e classificar os segmentos genéticos representados por um ou mais de nós identificados como os segmentos genéticos identificados que são herdados da origem étnica alvo.
27. Método implementado por computador, de acordo com a reivindicação 21, caracterizado pelo fato de que o conjunto de dados genéticos sintéticos é um primeiro conjunto de dados genéticos sintéticos, o método implementado por computador compreende adicionalmente: criar um segundo conjunto de dados genéticos sintéticos compreendendo uma segunda combinação de segmentos genéticos que são herdados da origem étnica alvo, o segundo conjunto de dados genéticos sintéticos sendo um representante da origem étnica alvo em uma segunda região geográfica diferente da região geográfica alvo.
28. Método implementado por computador, de acordo com a reivindicação 21, caracterizado pelo fato de que compreende adicionalmente: adicionar o conjunto de dados genéticos sintéticos a uma coleção de conjuntos de dados do painel de referência, em que a coleção de conjuntos de dados do painel de referência é usada para fornecer possíveis rótulos de origem étnica para outros conjuntos de dados genéticos de outros indivíduos.
29. Método implementado por computador, de acordo com a reivindicação 28, caracterizado pelo fato de que a coleção de conjuntos de dados do painel de referência inclui o conjunto de dados genéticos sintéticos e um conjunto de dados genéticos de um indivíduo não misturado.
30. Método implementado por computador, de acordo com a reivindicação 28, caracterizado pelo fato de que os conjuntos de dados do painel de referência de coleção são usados em um modelo de Markov oculto para atribuir possíveis rótulos de origem étnica aos outros conjuntos de dados genéticos de outros indivíduos.
31. Método implementado por computador, caracterizado pelo fato de que compreende: acessar um conjunto de dados de genótipo associado a um indivíduo misturado alvo; dividir o conjunto de dados do genótipo em uma pluralidade de janelas, cada janela correspondendo a um conjunto de locais de polimorfismo de nucleotídeo único
(SNP); determinar um par de conjuntos de dados de haplótipos faseados do conjunto de dados de genótipo, cada conjunto de dados de haplótipos faseados dividido pela pluralidade de janelas; recuperar uma coleção de conjuntos de dados do painel de referência, a coleção incluindo um conjunto de dados genéticos sintéticos, o conjunto de dados genéticos sintéticos compreendendo um primeiro segmento genético extraído de um primeiro indivíduo misturado de amostra e um segundo segmento genético extraído de uma segundo indivíduo misturado de amostra, o conjunto de dados genéticos sintéticos representando uma origem étnica alvo de uma pluralidade de origens étnicas possíveis, a origem étnica alvo associada a uma população mista de uma região geográfica; gerar um gráfico acíclico direcionado compreendendo uma pluralidade de grupos de nós, cada grupo de nós compreendendo uma pluralidade de nós, cada nó tendo um conjunto de rótulos, pelo menos um dos rótulos representando uma das origens étnicas possíveis, pelo menos um subconjunto de nós sendo rotulado com a origem étnica alvo associada à população mista da região geográfica, o gráfico acíclico direcionado compreendendo adicionalmente uma pluralidade de bordas, cada borda conectando um nó a outro nó e representando uma transição de um nó para outro nó; determinar, para cada rótulo, um valor de probabilidade de ter o rótulo dada a janela de locais de SNP em um do par de conjuntos de dados de haplótipos faseados, a determinação com base na comparação da janela de locais de SNP com a coleção de conjuntos de dados do painel de referência, cada um dos os valores de probabilidade do subconjunto de nós determinados com base na comparação da janela dos locais de SNP correspondentes a um nó no subconjunto com o conjunto de dados genéticos sintéticos; determinar um trajeto que atravessa o gráfico acíclico direcionado, o trajeto que representa um trajeto estatisticamente provável entre outros trajetos possíveis ao atravessar o gráfico acíclico direcionado, o trajeto estatisticamente provável determinado com base nos valores de probabilidades associados a vários rótulos em janelas diferentes; e gerar informações sobre a composição genética do indivíduo misturado alvo tendo a origem étnica alvo, determinando um número de nós que são rotulados com a origem étnica alvo e que são incluídos no trajeto.
32. Método implementado por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que o par de rótulos em cada nó inclui um primeiro rótulo pai e um segundo rótulo pai, e cada nó é adicionalmente associado a um rótulo de troca que representa uma troca de ordem do primeiro rótulo pai e do segundo rótulo pai.
33. Método implementado por computador, de acordo com a reivindicação 32, caracterizado pelo fato de que a troca de ordem do primeiro rótulo pai e do segundo rótulo pai corresponde a uma troca do primeiro e do segundo rótulos pai de uma janela para a próxima janela.
34. Método implementado por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que pelo menos um grupo de nós no gráfico acíclico direcionado compreende um primeiro nó tendo pelo menos um rótulo associado à origem étnica alvo associada à população mista da região geográfica e um segundo nó tendo pelo menos um rótulo associado a uma segunda origem étnica associada à população mista diferente da origem étnica alvo.
35. Método implementado por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que cada borda está associada a uma probabilidade de transição, a probabilidade de transição representando uma probabilidade de transição.
36. Método implementado por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que compreende adicionalmente: determinar um ou mais de segmentos genéticos do indivíduo misturado alvo que são rotulados com a origem étnica alvo com base no trajeto; e adicionar os segmentos genéticos determinados ao conjunto de dados genéticos sintéticos.
37. Método implementado por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que o gráfico acíclico direcionado representa uma treliça de um modelo de Markov oculto.
38. Método implementado por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que determinar o trajeto que representa o trajeto mais provável entre outros trajetos possíveis ao atravessar o gráfico acíclico direcionado é baseado em um algoritmo de Viterbi.
39. Método implementado por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que o indivíduo misturado alvo é identificado com base em uma linhagem do indivíduo misturado alvo, a linhagem indicando que o indivíduo misturado alvo tem pelo menos um ancestral originário da região geográfica.
40. Método implementado por computador, de acordo com a reivindicação 31, caracterizado pelo fato de que a probabilidade é uma probabilidade de emissão.
41. Método implementado por computador, caracterizado pelo fato de que compreende: gerar, com base em um conjunto de dados de genótipo de uma amostra correspondente a um indivíduo, um gráfico acíclico direcionado que compreende uma pluralidade de grupos de nós, cada grupo de nós representando uma janela correspondente a um dos segmentos genéticos do indivíduo, cada grupo de nós compreendendo uma pluralidade de nós, cada nó tendo um conjunto de rótulos, pelo menos um dos rótulos representando uma das origens étnicas possíveis, o gráfico acíclico direcionado compreendendo adicionalmente uma pluralidade de bordas, cada borda conectando um primeiro nó e um segundo nó e representando uma transição do primeiro nó para o segundo nó; determinar um trajeto de referência que atravessa o gráfico acíclico direcionado e uma pluralidade de trajetos amostrados que atravessa o gráfico acíclico direcionado; determinar um intervalo de confiança em torno de uma proporção estimada de uma etnia do conjunto de dados de genótipo da amostra, a determinação compreendendo:
determinar uma média e um desvio padrão da proporção estimada da etnia a partir da pluralidade de trajetos amostrados, e determinar o intervalo de confiança do trajeto de referência usando a média e o desvio padrão; classificar uma confiança de que uma probabilidade da proporção estimada da etnia é maior do que zero em um de uma pluralidade de níveis de confiança, a classificação compreendendo: determinar um vetor de quantis da porção estimada da etnia a partir da pluralidade de trajetos amostrados, e prever a probabilidade de que a proporção da etnia seja maior que zero usando o vetor de quantis e o trajeto de referência; e enviar para exibição, o intervalo de confiança e o nível de confiança classificado junto com a proporção estimada.
42. Método implementado por computador, de acordo com a reivindicação 41, caracterizado pelo fato de que o gráfico acíclico direcionado representa um modelo de Markov oculto entre janelas que estima rótulos de etnicidade de janelas de um conjunto de dados de genótipo de uma amostra, cada janela correspondendo a uma pluralidade de locais de polimorfismo de nucleotídeo único (SNP).
43. Método implementado por computador, de acordo com a reivindicação 42, caracterizado pelo fato de que o trajeto de referência representa um trajeto de Viterbi através do gráfico acíclico direcionado.
44. Método implementado por computador, de acordo com a reivindicação 41, caracterizado pelo fato de que prever a probabilidade de que a proporção da etnia seja maior do que zero é realizada por meio da otimização de um modelo de floresta aleatório.
45. Método implementado por computador, de acordo com a reivindicação 41, caracterizado pelo fato de que compreende adicionalmente: determinar uma distribuição geográfica da etnia usando estimativas de etnia do conjunto de amostras e locais de nascimento dos ancestrais de linhagem das amostras; e exibir a distribuição geográfica da etnia como um conjunto de polígonos.
46. Método implementado por computador, de acordo com a reivindicação 45, caracterizado pelo fato de que exibir a distribuição geográfica da etnia como o conjunto de polígonos compreende: determinar uma representação do mundo em uma ou mais grade(s), cada grade compreendendo uma pluralidade de quadrados de grade, cada quadrado de grade correspondendo a uma região geográfica; e para cada quadrado da grade, determinar uma pontuação agregando usuários tendo ancestrais de um local dentro do quadrado da grade; e gerar um conjunto de polígonos com base em uma ou mais grade(s).
47. Método implementado por computador, de acordo com a reivindicação 46, caracterizado pelo fato de que cada polígono do conjunto de polígonos representa uma região onde a pontuação associada a cada quadrado da grade está dentro de uma determinada faixa.
48. Meio legível por computador não transitório que armazena instruções, caracterizado pelo fato de que, quando executadas por um processador, fazem com que o processador execute etapas que compreendem: gerar, com base em um conjunto de dados de genótipo de uma amostra correspondente a um indivíduo, um gráfico acíclico direcionado que compreende uma pluralidade de grupos de nós, cada grupo de nós representando uma janela correspondente a um dos segmentos genéticos do indivíduo, cada grupo de nós compreendendo uma pluralidade de nós, cada nó tendo um conjunto de rótulos, pelo menos um dos rótulos representando uma das origens étnicas possíveis, o gráfico acíclico direcionado compreendendo adicionalmente uma pluralidade de bordas, cada borda conectando um primeiro nó e um segundo nó e representando uma transição do primeiro nó para o segundo nó; determinar um trajeto de referência que atravessa o gráfico acíclico direcionado e uma pluralidade de trajetos amostrados que atravessa o gráfico acíclico direcionado; determinar um intervalo de confiança em torno de uma proporção estimada de uma etnia do conjunto de dados de genótipo da amostra, a determinação compreendendo: determinar uma média e um desvio padrão da proporção estimada da etnia a partir da pluralidade de trajetos amostrados, e determinar o intervalo de confiança do trajeto de referência usando a média e o desvio padrão; classificar uma confiança de que uma probabilidade da proporção estimada da etnia é maior do que zero em um de uma pluralidade de níveis de confiança, a classificação compreendendo: determinar um vetor de quantis da porção estimada da etnia a partir da pluralidade de trajetos amostrados, e prever a probabilidade de que a proporção da etnia seja maior que zero usando o vetor de quantis e o trajeto de referência; e enviar para exibição, o intervalo de confiança e o nível de confiança classificados junto com a proporção estimada.
49. Meio legível por computador não transitório, de acordo com a reivindicação 48, caracterizado pelo fato de que o gráfico acíclico direcionado representa um modelo de Markov oculto entre janelas que estima rótulos de etnia de janelas de um conjunto de dados de genótipo de uma amostra, cada janela correspondendo a uma pluralidade de locais de polimorfismo de nucleotídeo único (SNP).
50. Meio legível por computador não transitório, de acordo com a reivindicação 49, caracterizado pelo fato de que o trajeto de referência representa um trajeto de Viterbi através do gráfico acíclico direcionado.
51. Meio legível por computador não transitório, de acordo com a reivindicação 49, caracterizado pelo fato de que prever a probabilidade de que a proporção da etnia seja maior do que zero é realizada por meio da otimização de um modelo de floresta aleatório.
52. Meio legível por computador não transitório, de acordo com a reivindicação 49, caracterizado pelo fato de que as instruções ainda fazem com que o processador execute etapas que compreendem adicionalmente:
determinar uma distribuição geográfica da etnia usando estimativas de etnia do conjunto de amostras e locais de nascimento dos ancestrais de linhagem das amostras; e exibir a distribuição geográfica da etnia como um conjunto de polígonos.
53. Meio legível por computador não transitório, de acordo com a reivindicação 52, caracterizado pelo fato de que as instruções para exibir a distribuição geográfica da etnia como o conjunto de polígonos fazem com que o processador execute etapas, compreendendo adicionalmente: determinar uma representação do mundo em uma ou mais grade(s), cada grade compreendendo uma pluralidade de quadrados de grade, cada quadrado de grade correspondendo a uma região geográfica; e para cada quadrado da grade, determinar uma pontuação agregando usuários tendo ancestrais de um local dentro do quadrado da grade; e gerar um conjunto de polígonos com base em uma ou mais grade(s).
54. Meio legível por computador não transitório, de acordo com a reivindicação 53, caracterizado pelo fato de que cada polígono do conjunto de polígonos representa uma região onde a pontuação associada a cada quadrado da grade está dentro de uma determinada faixa.
55. Sistema de computador, caracterizado pelo fato de que compreende: um processador; e um meio legível por computador não transitório que armazena instruções que, quando executadas pelo processador,
fazem com que o processador execute etapas que compreendem: gerar, com base em um conjunto de dados de genótipo de uma amostra correspondente a um indivíduo, um gráfico acíclico direcionado que compreende uma pluralidade de grupos de nós, cada grupo de nós representando uma janela correspondente a um dos segmentos genéticos do indivíduo, cada grupo de nós compreendendo uma pluralidade de nós, cada nó tendo um conjunto de rótulos, pelo menos um dos rótulos representando uma das origens étnicas possíveis, o gráfico acíclico direcionado compreendendo adicionalmente uma pluralidade de bordas, cada borda conectando um primeiro nó e um segundo nó e representando uma transição do primeiro nó para o segundo nó; determinar um trajeto de referência que atravessa o gráfico acíclico direcionado e uma pluralidade de trajetos amostrados que atravessa o gráfico acíclico direcionado; determinar um intervalo de confiança em torno de uma proporção estimada de uma etnia do conjunto de dados de genótipo da amostra, a determinação compreendendo: determinar uma média e um desvio padrão da proporção estimada da etnia a partir da pluralidade de trajetos amostrados, e determinar o intervalo de confiança do trajeto de referência usando a média e o desvio padrão; classificar uma confiança de que uma probabilidade da proporção estimada da etnia ser maior do que zero em um de uma pluralidade de níveis de confiança, a classificação compreendendo: determinar um vetor de quantis da porção estimada da etnia a partir da pluralidade de trajetos amostrados, e prever a probabilidade de que a proporção da etnia seja maior que zero usando o vetor de quantis e o trajeto de referência; e enviar para exibição, o intervalo de confiança e o nível de confiança classificado junto com a proporção estimada.
56. Meio legível por computador não transitório configurado para armazenar instruções, caracterizado pelo fato de que as instruções, quando executadas por um ou mais processadores, fazem com que um ou mais processadores executem um processo que compreende as etapas conforme definidas em qualquer uma das reivindicações 1-14 e 21-40.
57. Sistema, caracterizado pelo fato de que compreende: um ou mais processador(es); um meio de armazenamento configurado para armazenar instruções, as instruções, quando executadas por um ou mais processadores, fazem com que um ou mais de processadores executem um processo que compreende as etapas conforme definidas em qualquer uma das reivindicações 1-14 e 21-40.
BR112021004545-7A 2018-09-11 2019-09-11 sistema de determinação ancestral global BR112021004545A2 (pt)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201862729840P 2018-09-11 2018-09-11
US62/729,840 2018-09-11
US201862743448P 2018-10-09 2018-10-09
US62/743,448 2018-10-09
US201862752523P 2018-10-30 2018-10-30
US62/752,523 2018-10-30
US201962858820P 2019-06-07 2019-06-07
US62/858,820 2019-06-07
PCT/IB2019/057667 WO2020053789A1 (en) 2018-09-11 2019-09-11 Global ancestry determination system

Publications (1)

Publication Number Publication Date
BR112021004545A2 true BR112021004545A2 (pt) 2021-07-20

Family

ID=69719965

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112021004545-7A BR112021004545A2 (pt) 2018-09-11 2019-09-11 sistema de determinação ancestral global

Country Status (9)

Country Link
US (4) US20200082905A1 (pt)
EP (1) EP3850629A4 (pt)
AU (1) AU2019339200A1 (pt)
BR (1) BR112021004545A2 (pt)
CA (1) CA3112296A1 (pt)
IL (1) IL281239A (pt)
MX (1) MX2021002789A (pt)
NZ (1) NZ774718A (pt)
WO (1) WO2020053789A1 (pt)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3323067B1 (en) * 2015-07-13 2022-07-06 Ancestry.com DNA, LLC Local genetic ethnicity determination system
US20200082905A1 (en) * 2018-09-11 2020-03-12 Ancestry.Com Dna, Llc Admixed synthetic reference panel
AU2021207383B2 (en) 2020-01-17 2024-02-01 Ancestry.Com Dna, Llc Ancestry inference based on convolutional neural network
CN112433986B (zh) * 2020-11-02 2023-07-07 中国科学院深圳先进技术研究院 数据的存储方法、电子设备以及计算机可读存储介质
RU2758077C1 (ru) * 2020-11-16 2021-10-26 Федеральное государственное бюджетное учреждение науки Институт общей генетики им. Н.И. Вавилова Российской академии наук (ИОГЕН РАН) Способ определения этно-географической группы происхождения и территории происхождения индивидуума и панель однонуклеотидных полиморфизмов
US20230019141A1 (en) * 2021-07-07 2023-01-19 Mars, Incorporated System, method, and apparatus for predicting genetic ancestry
WO2023152692A1 (en) 2022-02-10 2023-08-17 Ancestry.Com Operations Inc. Determining relationships of historical data records
WO2023175516A1 (en) 2022-03-15 2023-09-21 Ancestry.Com Operations Inc. Machine-learning based automated document integration into genealogical trees
WO2023200976A1 (en) 2022-04-13 2023-10-19 Ancestry.Com Dna, Llc Accelerated hidden markov models for genotype analysis

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267458A1 (en) * 2001-12-21 2004-12-30 Judson Richard S. Methods for obtaining and using haplotype data
US20080228699A1 (en) 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
WO2008152404A2 (en) 2007-06-15 2008-12-18 Isis Innovation Limited Allelic determination
US20130297221A1 (en) 2011-06-01 2013-11-07 The Board Of Trustees Of The Leland Stanford Junior University Method and System for Accurate Construction Of Long Range Haplotype
CN102952855B (zh) 2011-08-26 2015-05-20 深圳华大基因科技服务有限公司 遗传图谱构建方法和装置、单体型分析方法和装置
EP2893478A1 (en) 2012-09-06 2015-07-15 Ancestry.com DNA, LLC Using haplotypes to infer ancestral origins for recently admixed individuals
US9213944B1 (en) * 2012-11-08 2015-12-15 23Andme, Inc. Trio-based phasing using a dynamic Bayesian network
US9213947B1 (en) * 2012-11-08 2015-12-15 23Andme, Inc. Scalable pipeline for local ancestry inference
US9910962B1 (en) 2013-01-22 2018-03-06 Basehealth, Inc. Genetic and environmental risk engine and methods thereof
EP3207482B1 (en) 2014-10-17 2023-04-05 Ancestry.com DNA, LLC Haplotype phasing models
WO2016193891A1 (en) 2015-05-30 2016-12-08 Ancestry.Com Dna, Llc Discovering population structure from patterns of identity-by-descent
EP3323067B1 (en) * 2015-07-13 2022-07-06 Ancestry.com DNA, LLC Local genetic ethnicity determination system
CN106846029B (zh) 2016-07-08 2020-12-29 华南师范大学 基于遗传算法和新型相似度计算策略的协同过滤推荐算法
WO2018129413A1 (en) * 2017-01-08 2018-07-12 The Henry M. Jackson Foundation For The Advancement Of Military Medicine, Inc. Systems and methods for using supervised learning to predict subject-specific bacteremia outcomes
US20210134387A1 (en) * 2018-09-11 2021-05-06 Ancestry.Com Dna, Llc Ancestry inference based on convolutional neural network
US20200082905A1 (en) * 2018-09-11 2020-03-12 Ancestry.Com Dna, Llc Admixed synthetic reference panel

Also Published As

Publication number Publication date
US10692587B2 (en) 2020-06-23
CA3112296A1 (en) 2020-03-19
MX2021002789A (es) 2021-05-12
WO2020053789A1 (en) 2020-03-19
IL281239A (en) 2021-04-29
US20200286579A1 (en) 2020-09-10
AU2019339200A1 (en) 2021-05-13
EP3850629A4 (en) 2022-07-13
US20200082909A1 (en) 2020-03-12
NZ774718A (en) 2021-04-30
US20200082905A1 (en) 2020-03-12
EP3850629A1 (en) 2021-07-21
US20200082903A1 (en) 2020-03-12

Similar Documents

Publication Publication Date Title
BR112021004545A2 (pt) sistema de determinação ancestral global
US20230102326A1 (en) Discovering population structure from patterns of identity-by-descent
Deist et al. Simulation-assisted machine learning
Ralph et al. Efficiently summarizing relationships in large samples: a general duality between statistics of genealogies and genomes
Shah et al. Variable selection with error control: another look at stability selection
Robinson et al. Sampling strategies for frequency spectrum-based population genomic inference
US11211149B2 (en) Filtering genetic networks to discover populations of interest
Muñoz et al. Generating new space-filling test instances for continuous black-box optimization
Slater et al. Fitting models of continuous trait evolution to incompletely sampled comparative data using approximate Bayesian computation
US20210134387A1 (en) Ancestry inference based on convolutional neural network
Estoup et al. Model choice using Approximate Bayesian Computation and Random Forests: analyses based on model grouping to make inferences about the genetic history of Pygmy human populations
Zaccaria et al. Phylogenetic copy-number factorization of multiple tumor samples
US11232854B2 (en) Characterizing heterogeneity with fine-scale population structure
Kretowska Tree-based models for survival data with competing risks
Onodera et al. Phylogenetic tree reconstruction via graph cut presented using a quantum-inspired computer
Pan et al. LinRace: cell division history reconstruction of single cells using paired lineage barcode and gene expression data
Muzio et al. networkGWAS: A network-based approach to discover genetic associations
Shringarpure et al. StructHDP: automatic inference of number of clusters and population structure from admixed genotype data
AU2021207383B2 (en) Ancestry inference based on convolutional neural network
Pan et al. LinRace: single cell lineage reconstruction using paired lineage barcode and gene expression data
Amado Simulation based approach to Bacterial Evolution
WO2023200976A1 (en) Accelerated hidden markov models for genotype analysis
Maspero et al. Exploring the Solution Space of Cancer Evolution Inference Frameworks for Single-Cell Sequencing Data
Doroh Bayesian Hierarchical Modeling of Penalized Cox Model for Survival Prediction
Verbeke Network-guided data integration and gene prioritization

Legal Events

Date Code Title Description
B11A Dismissal acc. art.33 of ipl - examination not requested within 36 months of filing
B11Y Definitive dismissal - extension of time limit for request of examination expired [chapter 11.1.1 patent gazette]