BR112019027480B1

BR112019027480B1 - Métodos para a construção de um classificador de patogenicidade variante, meio de armazenamento legível por computador não transitório impresso, e sistema

Info

Publication number: BR112019027480B1
Application number: BR112019027480-4A
Authority: BR
Inventors: Hong Gao; Kai-How FARH; Laksshman SUNDARAM; Jeremy Francis Mcrae
Original assignee: Illumina, Inc
Priority date: 2017-10-16
Filing date: 2018-10-15
Publication date: 2022-04-19
Also published as: EP4296899A3; SG10202108020VA; KR102433458B1; AU2021290303A1; KR20210127798A; NZ759818A; JP7089078B2; IL299565A; US10558915B2; JP7275228B2; JP2020525892A; US20200279157A1; CN110832596A; WO2019079166A1; AU2018350891B2; EP3622520A1; US10423861B2; KR20230084319A; JP6834029B2; CN113627458A

Abstract

A tecnologia divulgada se refere à construção de um classificador baseado em rede neural convolucional para classificação de variantes. Em particular, se refere a treinar um classificador baseado em rede neural convolucional em dados de treinamento usando uma técnica de atualização de gradiente baseada em retropropagação que combina as saídas resultados do classificador baseado em rede neural convolucional com marcações de ground truth correspondentes. O classificador baseado em rede neural convolucional compreende grupos de blocos residuais, cada grupo de blocos residuais é parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho de janela de convolução dos blocos residuais, e uma taxa de convolução atrous dos blocos residuais, o tamanho da janela da janela de convolução varia entre grupos de blocos residuais, uma taxa de convolução atrous varia entre grupos de blocos residuais. Os dados de treinamento incluem exemplos de treinamento benignos e exemplos de treinamento patogênicos dos pares de sequências traduzidos gerados a partir de variantes benignas e variantes patogênicas.

Description

APÊNDICE

[01] O Apêndice inclui uma bibliografia de referências potencialmente relevantes listadas em um artigo de autoria dos inventores. O assunto do documento é abordado nas Provisões US às quais este pedido reivindica prioridade a/benefício de. Essas referências podem ser disponibilizadas pelo Conselho mediante solicitação ou podem ser acessadas via Global Dossier. O artigo é a primeira referência listada.

PEDIDOS DE PRIORIDADE

[02] Este pedido reivindica prioridade ou benefício do Pedido de Patente Provisório US N° 62/573,144, intitulado “Training a Deep Pathogenicity Classifier Using Large-Scale Benign Training Data”, de Hong Gao, Kai-How Farh, Laksshman Sundaram e Jeremy Francis McRae, depositado em 16 de outubro de 2017 (N° de Registro Legal ILLM 1000- 1/IP-1611-PRV); O Pedido Provisório de Patente US N° 62/573,149, intitulado "Pathogenicity Classifier Based On Deep Convolutional Neural Networks (CNNS)", de Kai-How Farh, Laksshman Sundaram, Samskruthi Reddy Padigepati e Jeremy Francis McRae, depositado em 16 de outubro de 2017 (N° de Registro Legal ILLM 1000-2/IP-1612-PRV); O Pedido Provisório de Patente US N° 62/573,153, intitulado “Deep Semi-Supervised Learning that Generates Large-Scale Pathogenic Training Data”, de Hong Gao, Kai-How Farh, Laksshman Sundaram e Jeremy Francis McRae, depositado em 16 de outubro de 2017 (N° de Registro Legal ILLM 1000- 3/IP-1613-PRV); e Pedido de Patente Provisória US N° 62/582,898, intitulado "Pathogenicity Classification of Genomic Data Using Deep Convolutional Neural Networks (CNNs)", por Hong Gao, Kai-How Farh e Laksshman Sundaram, depositado em 7 de novembro de 2017 (N° de Registro Legal ILLM 1000-4/IP-1618-PRV). Esses pedidos provisórios são incorporados neste documento por referência para todos os fins.

INCORPORAÇÕES

[03] Os seguintes são incorporados por referência para todos os propósitos, como se totalmente estabelecido neste documento:

[04] Pedido de Patente PCT N° PCT/US2018/, intitulado “DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION”, de Laksshman Sundaram, Kai-How Farh, Hong Gao, Hong Gao, Samskruthi Reddy Padigepati e Jeremy Francis McRae, depositados de forma contemporânea em 15 de outubro de 2018 (N° de Registro Legal ILLM 1000-9/IP-1612-PCT), posteriormente publicado como Publicação PCT N° WO.

[05] Pedido de Patente PCT N° PCT/US2018/, intitulado “DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION”, por Laksshman Sundaram, Kai-How Farh, Hong Gao e Jeremy Francis McRae, depositado em 15 de outubro de 2018 (N° de Registro Legal ILLM 1000-10/IP-1613-PCT), posteriormente publicada como Publicação PCT N° WO.

[06] Pedido de Patente Não Provisória US, intitulado “DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS”, de Hong Gao, Kai-How Farh, Laksshman Sundaram e Jeremy Francis McRae (N° de Registro Legal ILLM 1000-5/IP-1611-US) depositado de forma contemporânea.

[07] Pedido de Patente Não Provisória US, intitulado "DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION", de Laksshman Sundaram, Kai-How Farh, Hong Gao e Jeremy Francis McRae, (N° de Registro Legal ILLM 1000-6/IP-1612-US) depositado de forma contemporânea.

[08] Pedido de Patente Não Provisória US intitulado “SEMISUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS”, de Laksshman Sundaram, Kai- How Farh, Hong Gao e Jeremy Francis McRae (N° de Registro Legal ILLM 1000-7/IP-1613-US) depositado de forma contemporânea.

[09] Documento 1 - A.V.D Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior e K. Kavukcuoglu, “WAVENET: A GENERATIVE MODEL FOR RAW AUDIO”, arXiv: 1609.03499, 2016;

[010] Documento 2 - S. O. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J. Raiman, S. Sengupta e M. Shoeybi, “DEEP VOICE: REAL-TIME NEURAL TEXT-TO- SPEECH ”, arXiv: 1702.07825, 2017;

[011] Documento 3 - F. Yu e V. Koltun, “MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS”, arXiv: 1511.07122, 2016;

[012] Documento 4 - K. He, X. Zhang, S. Ren e J. Sun, “DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION”, arXiv: 1512.03385, 2015;

[013] Documento 5 - R.K. Srivastava, K. Greff e J. Schmidhuber, “HIGHWAY NETWORKS”, arXiv: 1505.00387, 2015;

[014] Documento 6 - G. Huang, Z. Liu, L. van der Maaten e K.Q. Weinberger, “REDES CONVOLUCIONAIS DENSAMENTE CONECTADAS”, arXiv: 1608.06993, 2017;

[015] Documento 7 - C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke e A. Rabinovich, “GOING DEEPER WITH CONVOLUTIONS”, arXiv: 1409,4842, 2014;

[016] Documento 8 - S. Ioffe e C. Szegedy, “BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT”, arXiv: 1502.03167, 2015;

[017] Documento 9 - J.M. Wolterink, T. Leiner, M.A. Viergever e I. Isgum, “DILATED CONVOLUTIONAL NEURAL NETWORKS FOR CARDIOVASCULAR MR SEGMENTATION IN CONGENITAL HEART DISEASE”, arXiv: 1704.03669, 2017;

[018] Documento 10 - L.C. Piqueras, “AUTOREGRESSIVE MODEL BASED ON A DEEP CONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION,” Tampere University of Technology, 2016;

[019] Documento 11 - J. Wu, “Introduction to Convolutional Neural Networks”, Nanjing University, 2017;

[020] Documento 12 - I.J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville e Y. Bengio, “CONVOLUTIONAL NETWORKS”, Deep Learning, MIT Press, 2016; e

[021] Documento 13 - J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang e G. Wang, “RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS”, arXiv: 1512.07108, 2017.

[022] O Documento 1 descreve arquiteturas de redes neurais convolucionais profundas que usam grupos de blocos residuais com filtros de convolução com o mesmo tamanho de janela de convolução, camadas de normalização em lote, camadas de unidade linear retificada (abreviada ReLU), camadas de alteração de dimensionalidade, camadas de convolução atrous com taxas de convolução atrous em crescimento exponencial, conexões skip e uma camada de classificação softmax para aceitar uma sequência de entrada e produzir uma sequência de saída que pontue as entradas na sequência de entrada. A tecnologia divulgada utiliza componentes e parâmetros da rede neural descritos no Documento 1. Em uma implementação, a tecnologia divulgada modifica os parâmetros dos componentes da rede neural descritos no Documento 1. Por exemplo, ao contrário do Documento 1, a taxa de convolução atrous na tecnologia divulgada progride não exponencialmente de um grupo de blocos residuais mais baixos para um grupo de blocos residuais mais altos. Em outro exemplo, ao contrário do Documento 1, o tamanho da janela de convolução na tecnologia divulgada varia entre grupos de blocos residuais.

[023] O Documento 2 descreve detalhes das arquiteturas de redes neurais convolucionais profundas descritas no Documento 1.

[024] O documento 3 descreve as convulsões atrous usadas pela tecnologia divulgada. Conforme usado neste documento, convoluções atrous também são referidas como "convoluções dilatadas". As convoluções atrous/dilatadas permitem grandes campos receptivos com poucos parâmetros treináveis. Uma convolução atrous/dilatada é uma convolução em que o núcleo é aplicado sobre uma área maior que seu comprimento pulando os valores de entrada com uma determinada etapa, também chamada taxa de convolução atrous ou fator de dilatação. Convoluções atrous/dilatadas adicionam espaçamento entre os elementos de um filtro/núcleo de convolução, de modo que entradas de entrada vizinhas (por exemplo, nucleotídeos, aminoácidos) em intervalos maiores são consideradas quando uma operação de convolução é realizada. Isso permite a incorporação de dependências contextuais de longo alcance na entrada. As convoluções atrous conservam cálculos parciais de convolução para reutilização à medida que os nucleotídeos adjacentes são processados.

[025] O documento 4 descreve blocos residuais e conexões residuais usadas pela tecnologia divulgada.

[026] O documento 5 descreve as conexões skip usadas pela tecnologia divulgada. Conforme usado neste documento, as conexões skip também são chamadas de "redes de rodovias".

[027] O documento 6 descreve arquiteturas de rede convolucionais densamente conectadas usadas pela tecnologia divulgada.

[028] O documento 7 descreve as camadas de convolução que alteram a dimensionalidade e os pipelines de processamento baseados em módulos utilizados pela tecnologia divulgada. Um exemplo de convolução que altera a dimensionalidade é uma convolução 1 x 1.

[029] O documento 8 descreve as camadas de normalização de lote usadas pela tecnologia divulgada.

[030] O documento 9 também descreve convoluções atrous/dilatadas usadas pela tecnologia divulgada.

[031] O Documento 10 descreve várias arquiteturas de redes neurais profundas que podem ser usadas pela tecnologia divulgada, incluindo redes neurais convolucionais, redes neurais convolucionais profundas e redes neurais convolucionais profundas com convulsões atrous/dilatadas.

[032] O documento 11 descreve detalhes de uma rede neural convolucional que pode ser usada pela tecnologia divulgada, incluindo algoritmos para treinar uma rede neural convolucional com camadas de subamostragem (por exemplo, pooling) e camadas totalmente conectadas.

[033] O documento 12 descreve detalhes de várias operações de convolução que podem ser usadas pela tecnologia divulgada.

[034] O documento 13 descreve várias arquiteturas de redes neurais convolucionais que podem ser usadas pela tecnologia divulgada.

INCORPORAÇÃO POR REFERÊNCIA DE TABELAS ENVIADAS ELETRONICAMENTE COM O PEDIDO

[035] Os seguintes arquivos de tabela no formato de texto ASCII são submetidos com este pedido e incorporados datas de criação e tamanhos dos arquivos são: por referência. Os nomes,

[036] SupplementaryTable1.txt 2 de outubro de 2018 13 KB

[037] SupplementaryTable2.txt 2 de outubro de 2018 13 KB

[038] SupplementaryTable3.txt 2 de outubro de 2018 11 KB

[039] SupplementaryTable4.txt 2 de outubro de 2018 13 KB

[040] SupplementaryTable6.txt 2 de outubro de 2018 12 KB

[041] SupplementaryTable7.txt 2 de outubro de 2018 44 KB

[042] SupplementaryTable13.txt 2 de outubro de 2018 119 KB

[043] SupplementaryTable18.txt 2 de outubro de 2018 35 KB

[044] SupplementaryTable20.txt 2 de outubro de 2018 1027 KB

[045] SupplementaryTable20Summary.txt 2 de outubro de 2018 9 KB

[046] SupplementaryTable21.txt 2 de outubro de 2018 24 KB

[047] SupplementaryTable21.txt 2 de outubro de 2018 24 KB

[048] SupplementaryTable18.txt 4 de outubro de 2018 35 KB

[049] DataFileS1.txt 4 de outubro de 2018 138 MB

[050] DataFileS2.txt 4 de outubro de 2018 980 MB

[051] DataFileS3.txt 4 de outubro de 2018 1,01 MB

[052] DataFileS4.txt 4 de outubro de 2018 834 KB

[053] Pathogenicity_prediction_model.txt 4 de outubro de 2018 8,24 KB

[054] Tabela Suplementar 1: Detalhes das variantes de cada espécie utilizadas na análise. A tabela inclui os resultados intermediários no pipeline para cada uma dessas fontes de dados. Observe que esta tabela é fornecida em SupplementaryTable1.txt.

[055] Tabela Suplementar 2: Depleção de variantes missense presentes em outras espécies em frequências de alelo humanas comuns. O depleção foi calculada com base na proporção missense:sinônima em variantes comuns (> 0,1%) em comparação com variantes raras (<0,1%), usando variantes idênticas por estado entre o ser humano e as outras espécies. Observe que esta tabela é fornecida em SupplementaryTable2.txt.

[056] Tabela Suplementar 3: Depleção de variantes missense presentes em outras espécies em frequências de alelo humanas comuns, restritas apenas a genes com > 50% de conservação média de nucleotídeos entre humanos e outros mamíferos. A depleção foi calculada com base na proporção missense:sinônima em variantes comuns (> 0,1%) em comparação com variantes raras (<0,1%), usando variantes idênticas por estado entre o ser humano e as outras espécies. Observe que esta tabela é fornecida em SupplementaryTable3.txt.

[057] Tabela Suplementar 4: Depleção de variantes missense presentes como substituições fixas em pares de espécies relacionadas em frequências de alelo humanas comuns. A depleção foi calculada com base na proporção missense:sinônima em variantes comuns (> 0,1%) em comparação com variantes raras (<0,1%), usando variantes idênticas por estado entre o ser humano e os pares de espécies relacionados. Observe que esta tabela é fornecida em SupplementaryTable4.txt.

[058] Tabela Suplementar 6: Anotação específica do domínio do gene SCN2A. Os valores de p da soma da classificação de Wilcoxon indicam a divergência das pontuações do PrimateAI no domínio específico em comparação com a proteína inteira. Os domínios, destacados em negrito, cobrem aproximadamente 7% da proteína, mas possuem a maioria das anotações patogênicas do ClinVar. Isso se correlaciona bem com as pontuações médias do PrimateAI para os domínios e são os três principais domínios patogênicos de acordo com o modelo PrimateAI. Observe que esta tabela é fornecida em SupplementaryTable6.txt.

[059] Tabela Suplementar 7: Contagens brutas usadas no cálculo do efeito da frequência de alelo na proporção esperada de missense:sinônima. As contagens esperadas de variantes missense e sinônima e foram calculadas com base em variantes em regiões intrônicas, usando o contexto trinucleotídico para controlar a taxa mutacional e a conversão de genes. Observe que esta tabela é fornecida em SupplementaryTables.xlsx.

[060] Tabela Suplementar 13: Lista de nomes de proteínas do Protein DataBank (PDB) usado para treinar os modelos de aprendizagem profunda para a estrutura secundária de 3 estados e a previsão de acessibilidade do solvente em 3 estados. A coluna do indicador indica se as proteínas são usadas nas fases de treinamento/validação/teste da formação do modelo. Observe que esta tabela é fornecida em SupplementaryTable13.txt.

[061] Tabela Suplementar 18: Lista de 605 genes que foram nominalmente significativos para a associação de doenças no estudo DDD, calculados apenas a partir da variação de truncamento de proteínas (p <0,05). Observe que esta tabela é fornecida em SupplementaryTable18.txt.

[062] Tabela Suplementar 20: Resultados dos testes para enriquecimento de mutações de novo (DNMs) por gene, para todos os genes com pelo menos um DNM observado. São fornecidos valores P, quando todos os DNMs são incluídos e após a remoção de DNMs missense com pontuação PrimateAI <0,803. Os valores P corrigidos por FDR são fornecidos de forma semelhante. Contagens de truncamento de proteínas observadas (PTV) e DNMs missense estão incluídas, apenas da coorte de DDD e da coorte de metanálise completa. Contagens semelhantes de DNMs missense observados e esperados também são incluídas, primeiramente ao incluir todos os DNMs missense e depois após remover todos os DNMs missense com pontuação PrimateAI <0,803. Observe que esta tabela é fornecida em SupplementaryTable20.txt e SupplementaryTable20Summary.txt.

[063] Tabela Suplementar 21: Resultados do teste de enriquecimento de mutações de novo em genes com FDR <0,1. São incluídas contagens de mutações de novo de truncamento de proteínas observadas (PTV), e contagens de outras mutações de alteração de proteínas, uma vez com todas as mutações missense de novo e uma vez com apenas mutações missense prejudiciais. São fornecidos valores de P ao incluir todos os sítios missense, versus valores de P após excluir sítios missense com baixa pontuação. Observe que esta tabela é fornecida em SupplementaryTable21.txt.

[064] DataFileS1: Lista de todas as variantes presentes em outras espécies. A coluna de Significância ClinVar contém as anotações disponíveis da ClinVar não conflitantes. Observe que esta tabela é fornecida no DataFileS1.txt.

[065] DataFileS2: Lista de todas as substituições fixas de pares de espécies relacionadas. Observe que esta tabela é fornecida no DataFileS2.txt.

[066] DataFileS3: Lista de variantes IBS de teste benignas retidas com primatas. As variantes de teste benignas são variantes de humano não comuns que são IBS com > = 1 espécie de primata. Observe que esta tabela é fornecida no DataFileS3.txt.

[067] DataFileS4: Lista de variantes IBS não marcadas com primatas correspondentes às variantes de teste benignas retidas. As variantes não identificadas são combinadas com variantes de teste benignas, para taxa de mutação, vieses de cobertura e alinhabilidade com espécies de primata. Observe que esta tabela é fornecida no DataFileS4.txt.

[068] Pathogenicity_prediction_model: código na linguagem de programação Python que permite a tecnologia divulgada de acordo com uma implementação. Observe que esse arquivo de código é fornecido em Pathogenicity_prediction_model.txt.

CAMPO DA TECNOLOGIA DIVULGADA

[069] A tecnologia divulgada refere-se a computadores do tipo inteligência artificial e sistemas de processamento de dados digitais e métodos e produtos de processamento de dados correspondentes para e produtos para emulação de inteligência (isto é, sistemas baseados em conhecimento, sistemas de raciocínio e sistemas de aquisição de conhecimento); e incluindo sistemas de raciocínio com incerteza (por exemplo, sistemas lógicos nebulosos), sistemas adaptativos, sistemas de aprendizagem de máquina e redes neurais artificiais. Em particular, a tecnologia divulgada refere-se ao uso de técnicas baseadas em aprendizagem profunda para o treinamento de redes neurais convolucionais profundas.

FUNDAMENTOS

[070] O assunto discutido nesta seção não deve ser considerado como estado da técnica apenas como resultado de sua menção nesta seção. Da mesma forma, não se deve presumir que um problema mencionado nesta seção ou associado ao assunto fornecido como fundamento tenha sido reconhecido anteriormente no estado da técnica. O assunto desta seção representa apenas abordagens diferentes, que por si só também podem corresponder a implementações da tecnologia reivindicada.

Aprendizagem de Máquina

[071] Na aprendizagem de máquina, as variáveis de entrada são usadas para prever uma variável de saída. As variáveis de entrada são frequentemente chamadas de recursos e são indicadas por X= (X1, X2, ..., Xk), onde cada X, ie 1, ..., k é um recurso. A variável de saída é frequentemente chamada de variável resposta ou dependente e é indicada pela variável Yi. O relacionamento entre Y e o X correspondente pode ser escrito de uma forma geral:

[072] Na equação acima, f é uma função dos recursos (X1, X2, ..., Xk) e e é o termo de erro aleatório. O termo do erro é independente de X e tem um valor médio de zero.

[073] Na prática, os recursos X estão disponíveis sem Y ou sem saber a relação exata entre X e Y. Como o termo do erro tem um valor médio de zero, o objetivo é estimar f.

[074] Na equação acima, f é a estimativa de e , que é frequentemente considerada uma caixa preta, o que significa que apenas a relação entre a entrada e a saída de f é conhecida, mas a pergunta por que ela funciona permanece sem resposta.

[075] A função f é encontrada usando a aprendizagem. A aprendizagem supervisionada e aprendizagem não supervisionada são duas maneiras usadas na aprendizagem de máquina para esta tarefa. Na aprendizagem supervisionada, os dados marcados são usados para treinamento. Ao mostrar as entradas e as saídas correspondentes (= indicadores), a função f é otimizada para que se aproxime da saída. Na aprendizagem não supervisionada, o objetivo é encontrar uma estrutura oculta a partir de dados não marcados. O algoritmo não tem nenhuma medida de precisão nos dados de entrada, o que o distingue da aprendizagem supervisionada. Redes Neurais

[076] A FIGURA 1A representa uma implementação de uma rede neural totalmente conectada com várias camadas. Uma rede neural é um sistema de neurônios artificiais interconectados (por exemplo, a1, a2, a3) que trocam mensagens entre si. A rede neural ilustrada possui três entradas, dois neurônios na camada oculta e dois neurônios na camada de saída. A camada oculta possui uma função de ativação f (•) e a camada de saída possui uma função de ativação g(•) .As conexões possuem pesos numéricos (por exemplo, w11, w21, w12, w31, w22, w32, v11, v22) que são ajustados durante o processo de treinamento , para que uma rede treinada adequadamente responda corretamente ao alimentar uma imagem para reconhecer. A camada de entrada processa a entrada bruta, a camada oculta processa a saída da camada de entrada com base nos pesos das conexões entre a camada de entrada e a camada oculta. A camada de saída pega a saída da camada oculta e a processa com base nos pesos das conexões entre a camada oculta e a camada de saída. A rede inclui várias camadas de neurônios detectores de recursos. Cada camada possui muitos neurônios que respondem a diferentes combinações de entradas das camadas anteriores. Essas camadas são construídas para que a primeira camada detecte um conjunto de padrões primitivos nos dados da imagem de entrada, a segunda camada detecte padrões de padrões e a terceira camada detecte padrões desses padrões.

[077] Um levantamento da aplicação da aprendizagem profunda em genômica pode ser encontrado nas seguintes publicações: • T. Ching et al., Opportunities And Obstacles For Deep Learning In Biology And Medicine, www.biorxiv.org:142760, 2017; • Angermueller C, Parnamaa T, Parts L, Stegle O. Deep Learning For Computational Biology. Mol Syst Biol. 2016;12:878; • Park Y, Kellis M. 2015 Deep Learning For Regulatory Genomics. Nat. Biotechnol. 33, 825-826. (doi:10.1038/nbt.3313); • Min, S., Lee, B. & Yoon, S. Deep Learning In Bioinformatics. Brief. Bioinform. bbw068 (2016); • Leung MK, Delong A, Alipanahi B et al. Machine Learning In Genomic Medicine: A Review of Computational Problems and Data Sets 2016; e • Libbrecht MW, Noble WS. Machine Learning Applications In Genetics and Genomics. Nature Reviews Genetics 2015;16(6):321-32.

BREVE DESCRIÇÃO DOS DESENHOS

[078] Nos desenhos, caracteres de referência semelhantes geralmente se referem a partes semelhantes ao longo das diferentes vistas. Além disso, os desenhos não estão necessariamente em escala, com ênfase sendo geralmente colocada na ilustração dos princípios da tecnologia divulgada. Na descrição a seguir, várias implementações da tecnologia divulgada são descritas com referência aos seguintes desenhos, nos quais:

[079] A FIGURA 1A representa uma implementação de uma rede neural de feed-forward com várias camadas.

[080] A FIGURA 1B representa uma implementação de funcionamento de uma rede neural convolucional.

[081] A FIGURA 1C representa um diagrama de blocos de treinamento de uma rede neural convolucional de acordo com uma implementação da tecnologia divulgada.

[082] A FIGURA 1D é uma implementação de camadas de subamostragem (pool médio/máximo) de acordo com uma implementação da tecnologia divulgada.

[083] A FIGURA 1E representa uma implementação de uma camada não linear ReLU de acordo com uma implementação da tecnologia divulgada.

[084] A FIGURA 1F representa uma implementação de uma convolução de duas camadas das camadas de convolução.

[085] A FIGURA 1G representa uma conexão residual que reinjeta informações anteriores a jusante através da adição do mapa de características.

[086] A FIGURA 1H representa uma implementação de blocos residuais e conexões skip.

[087] A FIGURA 1I representa o passo 1 de normalização do lote.

[088] A FIGURA 1J ilustra a transformação de normalização de lote no tempo de teste.

[089] A FIGURA 1K representa o passo 2 da normalização do lote.

[090] A FIGURA 1L representa o uso de uma camada de normalização em lote antes e depois de uma camada convolucional ou densamente conectada.

[091] A FIGURA 1M representa uma implementação da convolução1D.

[092] A FIGURA 1N ilustra como o pool médio global (GAP) funciona.

[093] A FIGURA 1O ilustra convoluções dilatadas.

[094] A FIGURA 1P representa uma implementação de convoluções dilatadas empilhadas.

[095] A FIGURA 1Q representa um exemplo de ambiente de computação no qual a tecnologia divulgada pode ser operada.

[096] A FIGURA 2 representa um exemplo de arquitetura de uma rede residual profunda para previsão de patogenicidade, referida neste documento como "PrimateAI".

[097] A FIGURA 3 representa uma ilustração esquemática do PrimateAI, a arquitetura de rede de aprendizagem profunda para classificação de patogenicidade.

[098] As FIGURAS 4A, 4Be 4C são a Tabela Suplementar 16, que representa detalhes da arquitetura do modelo de exemplo do modelo de aprendizagem profunda de previsão de patogenicidade PrimateAI.

[099] As FIGURAS 5 e 6 ilustram a arquitetura de rede de aprendizagem profunda usada para prever a estrutura secundária e a acessibilidade de solventes de proteínas.

[0100] As FIGURAS 7A e 7B são a Tabela Suplementar 11, que representam detalhes da arquitetura do modelo de exemplo para o modelo de aprendizagem profunda (DL) de previsão de estrutura secundária em três estados.

[0101] As FIGURAS 8A e 8B são a Tabela Suplementar 12, que representa detalhes de arquitetura de modelo de exemplo para o modelo de aprendizagem profunda de previsão de acessibilidade de solvente em três estados.

[0102] A FIGURA 9 representa uma implementação da geração de sequências proteicas de referência e alternativas a partir de variantes benignas e patogênicas.

[0103] A FIGURA 10 representa uma implementação de alinhamento de sequências de proteínas de referência e alternativas.

[0104] A FIGURA 11 é uma implementação de geração de matrizes de frequência de posição (PFMs abreviados), também chamadas matrizes de peso de posição (PWMs abreviados) ou matriz de pontuação específica de posição (PSSM abreviado).

[0105] As FIGURAS 12,13, 14e 15 representam o processamento das sub-redes de acessibilidade ao solvente e estrutura secundária.

[0106] A FIGURA 16 operação de um classificador de patogenicidade variante. Conforme utilizado neste documento, o termo variante também se refere a polimorfismos de nucleotídeo único (SNPs abreviados) e geralmente a variantes de nucleotídeo único (SNVs abreviados).

[0107] A FIGURA 17 ilustra um bloco residual.

[0108] A FIGURA 18 representa uma arquitetura de rede neural das sub-redes de acessibilidade de solvente e estrutura secundária.

[0109] A FIGURA 19 representa uma arquitetura de rede neural do classificador de patogenicidade variante.

[0110] A FIGURA 20 representa a pontuação de patogenicidade prevista em cada posição de aminoácido no gene SCN2A, anotada para os principais domínios funcionais.

[0111] A FIGURA 21D representa uma comparação de classificadores na previsão de consequências benignas para um conjunto de testes de 10.000 variantes comuns de primata que foram retidas do treinamento.

[0112] A FIGURA 21E ilustra distribuições das pontuações de previsão do PrimateAI para variantes missense de novo que ocorrem em pacientes do Deciphering Developmental Disorders (DDD) em comparação com semelhantes não afetados, com o valor P de soma da classificação Wilcoxon correspondente.

[0113] A FIGURA 21F descreve a comparação de classificadores na separação de variantes missense de novo em casos do DDD versus controles. Os valores P do teste de soma e classificação de Wilcoxon são mostrados para cada classificador.

[0114] A FIGURA 22A representa o enriquecimento das mutações missense de novo sobre a expectativa em indivíduos afetados da coorte de DDD dentro de 605 genes associados que foram significativos para a variação truncada da proteína de novo (P <0,05).

[0115] A FIGURA 22B representa distribuições de pontuações de previsão de PrimateAI para variantes missense de novo que ocorrem em pacientes do DDD versus semelhantes não afetados nos 605 genes associados, com o valor P de soma e classificação de Wilcoxon correspondente.

[0116] A FIGURA 22C representa a comparação de vários classificadores na separação de variantes missense de novo em casos versus controles dentro dos 605 genes.

[0117] A FIGURA 22D representa a comparação de vários classificadores, mostrados em uma curva característica do operador receptor, com área sob curva (AUC) indicada para cada classificador.

[0118] A FIGURA 22E ilustra a precisão da classificação e a área sob a curva (AUC) para cada classificador.

[0119] As FIGURAS 23A, 23B, 23Ce 23D representam o impacto dos dados utilizados para o treinamento na precisão da classificação.

[0120] A FIGURA 24 ilustra a correção do efeito da cobertura de sequenciamento na verificação de variantes comuns de primata.

[0121] As FIGURAS 25A, 25B, 25Ce 26 representam o reconhecimento de motivos proteicos pelas redes neurais divulgadas. A FIGURA 26 inclui um gráfico de linhas que representa o efeito de perturbar cada posição dentro e ao redor da variante na pontuação de aprendizagem profunda prevista para a variante.

[0122] A FIGURA 27 ilustra padrões de correlação de pesos que imitam as matrizes de pontuação BLOSUM62 e Grantham.

[0123] As FIGURAS 28A, 28Be 28C representam a avaliação de desempenho da rede de aprendizagem profunda PrimateAI e outros classificadores.

[0124] As FIGURAS 29A e 29B ilustram a distribuição das pontuações de previsão de quatro classificadores.

[0125] As FIGURAS 30A, 30B e 30C comparam a precisão da rede PrimateAI e de outros classificadores na separação de variantes patogênicas e benignas em 605 genes associados à doença.

[0126] As FIGURAS 31A e 31B ilustram a correlação entre o desempenho do classificador em variantes ClinVar com curadoria de especialistas em humanos e o desempenho em conjuntos de dados empíricos.

[0127] A FIGURA 32 é a Tabela Suplementar 14 que representa o desempenho da estrutura secundária de 3 estados e dos modelos de previsão de acessibilidade ao solvente de 3 estados em amostras anotadas do Protein DataBank.

[0128] A FIGURA 33 é a Tabela Suplementar 15 que representa a comparação de desempenho da rede de aprendizagem profunda usando indicadores de estrutura secundária anotados de proteínas humanas do banco de dados DSSP.

[0129] A FIGURA 34 é a Tabela Suplementar 17 que representa os valores de precisão nas 10.000 variantes de primata retidas e os valores p para variantes de novo em casos do DDD versus controles para cada um dos 20 classificadores que avaliamos.

[0130] A FIGURA 35 é a Tabela Suplementar 19 que representa a comparação do desempenho de diferentes classificadores em variantes de novo no conjunto de dados de caso do DDD versus controle, restrito a 605 genes associados à doença.

[0131] A FIGURA 36 representa um ambiente de computação do aprendiz semissupervisionado divulgado.

[0132] As FIGURAS 37, 38, 39, 40 e 41 representam vários ciclos de aprendizagem semissupervisionada divulgado.

[0133] A FIGURA 42 é uma ilustração do processo de amostragem balanceada iterativa.

[0134] A FIGURA 43 ilustra uma implementação de um ambiente de computação usado para gerar o conjunto de dados benigno.

[0135] A FIGURA 44 representa uma implementação da geração de SNPs missense de humano benignos.

[0136] A FIGURA 45 representa uma implementação de SNPs missense ortólogos humanos. Um SNP missense em uma espécie não humana que possui referência e códons alternativos correspondentes aos humanos.

[0137] A FIGURA 46 representa uma implementação de classificar, como benignos, SNPs de uma espécie de primata não humana (por exemplo, Chimpanzé) com códons de referência correspondentes aos humanos.

[0138] A FIGURA 47 representa uma implementação do cálculo das pontuações de enriquecimento e a comparação do mesmo.

[0139] A FIGURA 48 representa uma implementação do conjunto de dados SNP benigno.

[0140] As FIGURAS 49A, 49B, 49C, 49De 49E representam proporções missense/sinônimos em todo o espectro de frequências alélica humanas.

[0141] As FIGURAS 50A, 50B, 50Ce 50D representam a seleção purificadora em variantes missense idênticas por estado com outras espécies.

[0142] AFIGURA 51 representa proporções missense: sinônimas esperadas em todo o espectro de frequências alélicas humanas na ausência de seleção purificadora.

[0143] As FIGURAS 52A, 52B, 52Ce 52D representam proporções missense: sinônimas para variantes CpG e não CpG.

[0144] As FIGURAS 53, 54, e 55 ilustram proporções missense:sinônimas de variantes de humano idênticas por estado com seis primatas.

[0145] A FIGURA 56 é uma simulação que mostra a saturação de novas variantes missense comuns descobertas pelo aumento do tamanho das coortes humanas pesquisadas.

[0146] A FIGURA 57 representa a precisão do PrimateAI em diferentes perfis de conservação no genoma.

[0147] A FIGURA 58 é a Tabela Suplementar 5, que representa contribuições para o conjunto de dados de treinamento benigno marcado de variantes de humano comuns e variantes presentes em primatas não humanos.

[0148] A FIGURA 59 é a Tabela Suplementar 8, que representa o efeito da frequência de alelo na proporção esperada missense:sinônimo.

[0149] A FIGURA 60 é a Tabela Suplementar 9 que representa a análise ClinVar.

[0150] A FIGURA 61 é a Tabela Suplementar 10, que representa o número de variantes missense de outras espécies encontradas no ClinVar, de acordo com uma implementação.

[0151] A FIGURA 62 é a Tabela 1 que representa uma implementação da descoberta de 14 genes candidatos adicionais na deficiência intelectual.

[0152] A FIGURA 63 é a Tabela 2 que representa uma implementação da diferença média na pontuação de Grantham entre variantes patogênicas e benignas no ClinVar.

[0153] A FIGURA 64 representa uma implementação da análise de enriquecimento por gene.

[0154] A FIGURA 65 representa uma implementação da análise de enriquecimento em todo o genoma.

[0155] A FIGURA 66 é um diagrama de blocos simplificado de um sistema de computador que pode ser usado para implementar a tecnologia divulgada.

DESCRIÇÃO DETALHADA

[0156] A discussão a seguir é apresentada para permitir que qualquer pessoa versada na técnica faça e utilize a tecnologia divulgada, e é fornecida no contexto de um pedido particular e seus requisitos. Várias modificações às implementações divulgadas serão prontamente evidentes para os versados na técnica, e os princípios gerais definidos neste documento podem ser aplicados a outras implementações e pedidos sem se afastar do espírito e âmbito da tecnologia divulgada. Assim, a tecnologia divulgada não se destina a ser limitada às implementações apresentadas, mas deve receber o escopo mais amplo consistente com os princípios e características divulgados neste documento. Introdução Redes Neurais Convolucionais

[0157] Uma rede neural convolucional é um tipo especial de rede neural. A diferença fundamental entre uma camada densamente conectada e uma camada de convolução é a seguinte: as camadas densas aprendem padrões globais em seu espaço de característica de entrada, enquanto as camadas de convolução aprendem padrões locais: no caso de imagens, padrões encontrados em pequenas janelas 2D das entradas. Essa característica-chave fornece às redes neurais convolucionais duas propriedades interessantes: (1) os padrões que aprendem são invariantes à tradução e (2) podem aprender hierarquias espaciais de padrões.

[0158] Em relação ao primeiro, depois de aprender um determinado padrão no canto inferior direito da imagem, uma camada de convolução pode reconhecê-lo em qualquer lugar: por exemplo, no canto superior esquerdo. Uma rede densamente conectada teria que aprender o padrão novamente se aparecesse em um novo local. Isso torna os dados das redes neurais convolucionais eficientes porque eles precisam de menos amostras de treinamento para aprender representações já que têm poder de generalização.

[0159] Em relação ao segundo, uma primeira camada de convolução pode aprender pequenos padrões locais, como arestas, uma segunda camada de convolução aprenderá padrões maiores feitos com as características das primeiras camadas, e assim por diante. Isso permite que as redes neurais convolucionais aprendam com eficiência conceitos visuais cada vez mais complexos e abstratos.

[0160] Uma rede neural convolucional aprende mapeamentos altamente não lineares interconectando camadas de neurônios artificiais dispostas em muitas camadas diferentes com funções de ativação que tornam as camadas dependentes. Isso inclui uma ou mais camadas convolucionais, intercaladas com uma ou mais camadas de subamostragem e camadas não lineares, que normalmente são seguidas por uma ou mais camadas totalmente conectadas. Cada elemento da rede neural convolucional recebe entradas de um conjunto de recursos na camada anterior. A rede neural convolucional aprende simultaneamente, porque os neurônios no mesmo mapa de recurso têm pesos idênticos. Esses pesos compartilhados locais reduzem a complexidade da rede, de modo que, quando dados de entrada multidimensionais entram na rede, a rede neural convolucional evita a complexidade da reconstrução de dados no processo de extração e regressão de recursos ou processo de classificação.

[0161] As convoluções operam sobre tensores 3D, chamados mapas de recursos, com dois eixos espaciais (altura e largura), além de um eixo de profundidade (também chamado de eixo de canais). Para uma imagem RGB, a dimensão do eixo de profundidade é 3, porque a imagem possui três canais de cores; vermelho, verde e azul. Para uma imagem em preto e branco, a profundidade é 1 (níveis de cinza). A operação de convolução extrai patches de seu mapa de recursos de entrada e aplica a mesma transformação a todos esses patches, produzindo um mapa de recursos de saída. Esse mapa de recursos de saída ainda é um tensor 3D: possui largura e altura. Sua profundidade pode ser arbitrária, porque a profundidade de saída é um parâmetro da camada e os diferentes canais nesse eixo de profundidade não representam mais cores específicas como na entrada RGB; em vez disso, eles representam filtros. Os filtros codificam aspectos específicos dos dados de entrada: em um nível de altura, um único filtro pode codificar o conceito "presença de uma face na entrada", por exemplo.

[0162] Por exemplo, a primeira camada de convolução pega um mapa de recursos de tamanho (28, 28, 1) e gera um mapa de recursos de tamanho (26, 26, 32): ela calcula 32 filtros sobre sua entrada. Cada um desses 32 canais de saída contém uma grade de valores de 26 x 26, que é um mapa de resposta do filtro sobre a entrada, indicando a resposta desse padrão de filtro em diferentes locais da entrada. É isso que o termo mapa de recurso significa: toda dimensão no eixo de profundidade é um recurso (ou filtro) e a saída do tensor 2D [:,:, n] é o mapa espacial 2D da resposta desse filtro sobre a entrada.

[0163] As convoluções são definidas por dois parâmetros principais: (1) tamanho dos patches extraídas das entradas - normalmente são 1 x 1, 3 x 3 ou 5 x 5 e (2) profundidade do mapa de recursos de saída - o número de filtros calculados pela convolução. Geralmente, eles começam com uma profundidade de 32, continuam com uma profundidade de 64 e terminam com uma profundidade de 128 ou 256.

[0164] Uma convolução funciona deslizando essas janelas de tamanho 3 x 3 ou 5 x 5 sobre o mapa de recursos de entrada 3D, parando em todos os locais e extraindo o patch 3D dos recursos adjacentes (shape(window_height, window_width, input_depth)). Cada patch 3D é então transformado (por meio de um produto tensorial com a mesma matriz de pesos aprendida, chamada de núcleo de convolução) em um vetor 1D de forma (output_depth,). Todos esses vetores são remontados espacialmente em um mapa de saída 3D da forma (height, width, output_depth). Cada localização espacial no mapa de recursos de saída corresponde ao mesmo local no mapa de recursos de entrada (por exemplo, o canto inferior direito da saída contém informações sobre o canto inferior direito da entrada). Por exemplo, com janelas 3 x 3, a saída do vetor [i, j,:] vem da entrada do patch 3D [i-1: i+1, j-1:J+1,:]. O processo completo é detalhado na FIGURA 1B.

[0165] A rede neural convolucional compreende camadas de convolução que realizam a operação de convolução entre os valores de entrada e os filtros de convolução (matriz de pesos) que são aprendidos ao longo de muitas iterações de atualização de gradiente durante o treinamento. Seja (m, n) o tamanho do filtro e W seja a matriz de pesos, então uma camada de convolução realiza uma convolução do W com a entrada X calculando o produto escalar W • x + b, onde x é uma instância de X e b é o viés. O tamanho da etapa pela qual os filtros de convolução deslizam pela entrada é chamado de passada e a área do filtro (m x n) é chamada de campo receptivo. Um mesmo filtro de convolução é aplicado em diferentes posições da entrada, o que reduz o número de pesos aprendidos. Ele também permite a aprendizagem invariável da localização, ou seja, se existe um padrão importante na entrada, os filtros de convolução o aprendem, não importa onde esteja na sequência. Treinando uma Rede Neural Convolucional

[0166] A FIGURA 1C representa um diagrama de blocos de treinamento de uma rede neural convolucional de acordo com uma implementação da tecnologia divulgada. A rede neural convolucional é ajustada ou treinada para que os dados de entrada levem a uma estimativa de saída específica. A rede neural convolucional é ajustada usando a propagação reversa com base em uma comparação da estimativa de saída e da área real até que a estimativa de saída corresponda progressivamente ou se aproxime da área real.

[0167] A rede neural convolucional é treinada ajustando os pesos entre os neurônios com base na diferença entre a área real e a saída real. Isso é matematicamente descrito como:

onde δ = (área real) - (saída real)

[0168] Em uma implementação, a regra de treinamento é definida como:

[0169] Na equação acima: a seta indica uma atualização do valor; tm é o valor alvo do neurônio m; ^m é a saída de corrente calculada do neurônio m; an é entrada n; e a é a taxa de aprendizagem.

[0170] A etapa intermediária no treinamento inclui gerar um vetor de recurso a partir dos dados de entrada usando as camadas de convolução. O gradiente em relação aos pesos em cada camada, começando na saída, é calculado. Isso é chamado de passo para trás, ou ir para trás. Os pesos na rede são atualizados usando uma combinação do gradiente negativo e dos pesos anteriores.

[0171] Em uma implementação, a rede neural convolucional usa um algoritmo estocástico de atualização de gradiente (como o ADAM) que executa propagação inversa de erros por meio da descida do gradiente. Um exemplo de algoritmo de propagação reversa baseado em função sigmoide é descrito abaixo:

[0172] Na função sigmoide acima, h é a soma ponderada calculada por um neurônio. A função sigmoide tem a seguinte derivada:

[0173] O algoritmo inclui o cálculo da ativação de todos os neurônios na rede, produzindo uma saída para a passagem direta. A ativação do neurônio m nas camadas ocultas é descrita como:

[0174] Isso é feito para todas as camadas ocultas para obter a ativação descrita como:

[0175] Em seguida, o erro e os pesos corretos são calculados por camada. O erro na saída é calculado como:

[0176] O erro nas camadas ocultas é calculado como:

[0177] Os pesos da camada de saída são atualizados como:

[0178] Os pesos das camadas ocultas são atualizados usando a taxa de aprendizagem a como:

[0179] Em uma implementação, a rede neural convolucional usa uma otimização de descida de gradiente para calcular o erro em todas as camadas. Em tal otimização, para um vetor de recurso de entrada x e a saída prevista y , a função de perda é definida como l para o custo de prever y quando o alvo é y, ou seja, l (y, y). A saída prevista y é transformada a partir do vetor de recurso de entrada x usando a função f. A função f é parametrizada pelos pesos da rede neural convolucional, ou seja, y=fw (x). A função de perda é descrita como l (y, y) = l (fw (x), y), ou Q (z, w) = l (fw (x), y) onde z é um par de dados de entrada e saída (x, y). A otimização da descida do gradiente é realizada atualizando os pesos de acordo com:

[0180] Nas equações acima, aé a taxa de aprendizagem. Além disso, a perda é calculada como a média em um conjunto de n pares de dados. O cálculo é finalizado quando a taxa de aprendizagem aé pequena o suficiente após convergência linear. Em outras implementações, o gradiente é calculado usando apenas pares de dados selecionados alimentados a um gradiente acelerado de Nesterov e um gradiente adaptável para injetar eficiência computacional.

[0181] Em uma implementação, a rede neural convolucional usa uma descida de gradiente estocástico (SGD) para calcular a função de custo. Um SGD aproxima o gradiente com relação aos pesos na função de perda, calculando-o a partir de apenas um par de dados randomizado zt , descrito como:

[0182] Nas equações acima: rzé a taxa de aprendizagem; μ é o momento; e t é o estado atual do peso antes da atualização. A velocidade de convergência do SGD é aproximadamente O(1/ t) quando a taxa de aprendizagem rzé reduzida rapidamente e devagar o suficiente. Em outras implementações, a rede neural convolucional utiliza diferentes funções de perda, como perda euclidiana e perda de softmax. Em uma implementação adicional, um otimizador estocástico de Adam é usado pela rede neural convolucional. Camadas de Convolução

[0183] As camadas de convolução da rede neural convolucional servem como extratores de recursos. As camadas de convolução atuam como extratores de recursos adaptáveis capazes de aprender e decompor os dados de entrada em recursos hierárquicos. Em uma implementação, as camadas de convolução recebem duas imagens como entrada e produzem uma terceira imagem como saída. Em tal implementação, a convolução opera em duas imagens em duas dimensões (2D), sendo uma imagem a imagem de entrada e a outra imagem, denominada “núcleo”, aplicada como um filtro na imagem de entrada, produzindo uma imagem de saída. Assim, para um vetor de entrada f de comprimento n e um núcleo g de comprimento m, a convolução f * g de f e g é definido como:

[0184] A operação de convolução inclui deslizar o núcleo sobre a imagem de entrada. Para cada posição do núcleo, os valores sobrepostos do núcleo e a imagem de entrada são multiplicados e os resultados são adicionados. A soma dos produtos é o valor da imagem de saída no ponto da imagem de entrada em que o núcleo está centralizado. As diferentes saídas resultantes de muitos núcleos são chamadas de mapas de recursos.

[0185] Depois que as camadas convolucionais são treinadas, elas são aplicadas para executar tarefas de reconhecimento em novos dados de inferência. Como as camadas convolucionais aprendem com os dados de treinamento, elas evitam a extração explícita de recursos e aprendem implicitamente com os dados de treinamento. As camadas de convolução usam pesos do núcleo de filtro de convolução, que são determinados e atualizados como parte do processo de treinamento. As camadas de convolução extraem diferentes recursos da entrada, que são combinados nas camadas superiores. A rede neural convolucional usa um número variado de camadas de convolução, cada uma com diferentes parâmetros de convolução, como tamanho do núcleo, distâncias, preenchimento, número de mapas de recursos e pesos.

Camadas de Subamostragem

[0186] A FIGURA 1D é uma implementação de camadas de subamostragem de acordo com uma implementação da tecnologia divulgada. As camadas de subamostragem reduzem a resolução dos recursos extraídos pelas camadas de convolução para tornar os recursos extraídos ou os mapas de recursos robustos contra ruído e distorção. Em uma implementação, as camadas de subamostragem empregam dois tipos de operações de pool, pool médio e máximo pool. As operações de pool dividem a entrada em espaços bidimensionais não sobrepostos. Para o pool médio, a média dos quatro valores na região é calculada. Para o pool máximo, o valor máximo dos quatro valores é selecionado.

[0187] Em uma implementação, as camadas de subamostragem incluem operações de pool em um conjunto de neurônios na camada anterior, mapeando sua saída para apenas uma das entradas no pool máximo e mapeando sua saída para a média da entrada no pool médio. No pool máximo, a saída do neurônio de pool é o valor máximo que reside dentro da entrada, conforme descrito por:

[0188] Na equação acima, N é o número total de elementos dentro de um conjunto de neurônios.

[0189] No pool médio, a saída do neurônio pool é o valor médio dos valores de entrada que residem no conjunto de neurônios de entrada, conforme descrito por:

[0190] Na equação acima, N é o número total de elementos dentro do conjunto de neurônios de entrada.

[0191] Na FIGURA 1D, a entrada é do tamanho 4x4. Para subamostragem 2 x 2, uma imagem 4 x 4 é dividida em quatro matrizes não sobrepostas de tamanho 2 x 2. Para o pool médio, a média dos quatro valores é a saída inteira integral. Para o pool máximo, o valor máximo dos quatro valores na matriz 2 x 2 é a saída inteira integral.

Camadas Não Lineares

[0192] A FIGURA 1E representa uma implementação de camadas não lineares de acordo com uma implementação da tecnologia divulgada. As camadas não lineares usam funções de disparo não lineares diferentes para sinalizar identificação distinta de recursos prováveis em cada camada oculta. As camadas não lineares usam uma variedade de funções específicas para implementar o acionamento não linear, incluindo as unidades lineares retificadas (ReLUs), tangente hiperbólica, funções absolutas de tangente hiperbólica, sigmoide e de acionamento contínuo (não linear). Em uma implementação, uma ativação ReLU implementa a função y = max (x, 0) e mantém os tamanhos de entrada e saída de uma camada iguais. A vantagem de usar o ReLU é que a rede neural convolucional é treinada muitas vezes mais rapidamente. A ReLU é uma função de ativação não contínua e não saturadora que é linear em relação à entrada se os valores de entrada forem maiores que zero e diferentes de zero. Matematicamente, uma função de ativação ReLU é descrita como:

[0193] Em outras implementações, a rede neural convolucional usa uma função de ativação da unidade de energia, que é uma função contínua e não saturante descrita por:

[0194] Na equação acima, a, b e c são parâmetros que controlam o deslocamento , a escala e a potência, respectivamente. A função de ativação de potência é capaz de produzir x ativação antissimétrica- y, se c for ímpar, e a ativação simétrica- y , se c for par. Em algumas implementações, a unidade produz uma ativação linear não retificada.

[0195] Em outras implementações, a rede neural convolucional usa uma função de ativação da unidade sigmoide, que é uma função contínua e saturante descrita pela seguinte função logística:

[0196] Na equação acima, β = 1. A função de ativação da unidade sigmoide não produz ativação negativa e é apenas antissimétrica em relação ao eixoy.

Exemplos de Convolução

[0197] A FIGURA 1F representa uma implementação de uma convolução de duas camadas das camadas de convolução. Na FIGURA 1F, uma entrada de dimensões de tamanho 2048 é convoluída. Na convolução 1, a entrada é convoluída por uma camada convolucional composta por dois canais de dezesseis núcleos de tamanho 3 x 3. Os dezesseis mapas de recursos resultantes são então retificados por meio da função de ativação ReLU em ReLU1 e, em seguida, agrupados no Pool 1 por meio de pool médio, usando uma camada de pool de dezesseis canais com núcleos de tamanho 3 x 3. Na convolução 2, a saída do Pool 1 é então convoluída por outra camada convolucional compreendendo dezesseis canais de trinta núcleos com um tamanho de 3 x 3. Isso é seguido por mais um ReLU2 e pool médio no Pool 2 com um tamanho de núcleo de 2 x 2. As camadas de convolução usam um número variável de distâncias e preenchimentos, por exemplo, zero, um, dois e três. O vetor de recurso resultante é de quinhentas e doze (512) dimensões, de acordo com uma implementação.

[0198] Em outras implementações, a rede neural convolucional usa diferentes números de camadas de convolução, camadas de subamostragem, camadas não lineares e camadas totalmente conectadas. Em uma implementação, a rede neural convolucional é uma rede rasa com menos camadas e mais neurônios por camada, por exemplo, uma, duas ou três camadas totalmente conectadas com cem (100) a duzentos (200) neurônios por camada. Em outra implementação, a rede neural convolucional é uma rede profunda com mais camadas e menos neurônios por camada, por exemplo, cinco (5), seis (6) ou oito (8) camadas totalmente conectadas com trinta (30) a cinquenta (50) neurônios por camada. Passo para a frente

[0199] A saída de um neurônio da linha x, coluna y na l-ésima camada de convolução e k-ésimo mapa de recurso para o número f de núcleos de convolução em um mapa de recursos é determinada pela seguinte equação:

[0200] A saída de um neurônio da linha x, coluna y na l-ésima camada de subamostra e o k-ésimo mapa de recursos é determinada pela seguinte equação:

[0201] A saída de um i-ésimo neurônio da l-ésima camada de saída é determinada pela seguinte equação:

Retropropagação

[0202] O desvio de saída de um k-ésimo neurônio na camada de saída é determinado pela seguinte equação:

[0203] O desvio de entrada de um k-ésimo neurônio na camada de saída é determinado pela seguinte equação:

[0204] A variação de peso e viés de um k-ésimo neurônio na camada de saída é determinada pela seguinte equação:

[0205] O viés de saída de um k-ésimo neurônio na camada oculta é determinado pela seguinte equação:

[0206] O viés de entrada de um k-ésimo neurônio na camada oculta é determinado pela seguinte equação:

[0207] A variação de peso e viés na linha x, coluna y em um m-ésimo mapa de recursos de uma camada anterior que recebe entrada de neurônios k na camada oculta é determinada pela seguinte equação:

[0208] O viés de saída da linha x, coluna y em um m-ésimo mapa de recursos da camada de subamostra S é determinado pela seguinte equação:

[0209] O viés de entrada da linha x, coluna y em um m-ésimo mapa de recursos da camada de subamostra S é determinado pela seguinte equação:

[0210] A variação de peso e viés na linha x, coluna y em um m-ésimo mapa de recursos da camada de subamostra S e da camada de convolução C é determinada pela seguinte equação:

[0211] O viés de saída da linha x, coluna y em um k-ésimo mapa de recursos da camada de convolução C é determinado pela seguinte equação:

[0212] O viés de entrada da linha x, coluna y em um k-ésimo mapa de recursos da camada de convolução C é determinado pela seguinte equação:

[0213] A variação de peso e viés na linha r, coluna c em um m-ésimo núcleo de convolução de um k-ésimo mapa de recursos da l-ésima camada de convolução C:

Conexões Residuais

[0214] A FIGURA 1G representa uma conexão residual que reinjeta informações anteriores a jusante através da adição do mapa de recursos. Uma conexão residual compreende a reinjeção de representações anteriores no fluxo a jusante de dados, adicionando um tensor de saída passado a um tensor de saída posterior, o que ajuda a evitar a perda de informações ao longo do fluxo de processamento de dados. As conexões residuais enfrentam dois problemas comuns que afetam qualquer modelo de aprendizagem profunda em larga escala: dissipação de gradientes e gargalos representacionais. Em geral, adicionar conexões residuais a qualquer modelo que tenha mais de 10 camadas provavelmente será benéfico. Conforme discutido acima, uma conexão residual compreende disponibilizar a saída de uma camada anterior como entrada para uma camada posterior, criando efetivamente um atalho em uma rede sequencial. Em vez de ser concatenada para a ativação posterior, a saída anterior é somada à ativação posterior, que assume que ambas as ativações são do mesmo tamanho. Se eles tiverem tamanhos diferentes, uma transformação linear para remodelar a ativação anterior na forma alvo pode ser usada. Informações adicionais sobre conexões residuais podem ser encontradas em K. He, X. Zhang, S. Ren e J. Sun, “DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION”, arXiv: 1512.03385, 2015, que é incorporado por referência para todos os fins como se totalmente estabelecido neste documento. Aprendizagem Residual e Conexões Skip

[0215] A FIGURA 1H representa uma implementação de blocos residuais e conexões skip. A ideia principal da aprendizagem residual é que o mapeamento residual é muito mais fácil de ser aprendido do que o mapeamento original. A rede residual empilha várias unidades residuais para aliviar a degradação da precisão do treinamento. Blocos residuais fazem uso de conexões skip especiais aditivas para combater a dissipação de gradientes em redes neurais profundas. No início de um bloco residual, o fluxo de dados é separado em duas correntes: a primeira carrega a entrada inalterada do bloco, enquanto a segunda aplica pesos e não linearidades. No final do bloco, as duas correntes são mescladas usando uma soma elemento a elemento. A principal vantagem de tais construtos é permitir que o gradiente flua através da rede mais facilmente. Informações adicionais sobre blocos residuais e conexões skip podem ser encontradas em A.V.D Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior e K. Kavukcuoglu, “ WAVENET: A GENERATIVE MODEL FOR RAW AUDIO”, arXiv: 1609.03499, 2016.

[0216] Beneficiadas pela rede residual, as redes neurais convolucionais profundas (CNNs) podem ser facilmente treinadas e uma precisão aprimorada foi alcançada para classificação de imagens e detecção de objetos. As redes convolucionais de feed-forward conectam a saída da camada l-ésima como entrada à camada (l+1)ésima, o que dá origem à seguinte transição de camada: x =H (x ). Blocos residuais adicionam uma conexão skip que ignora as transformações não lineares com uma função de identificação: x =H (x )+x . Uma vantagem dos blocos residuais é que o gradiente pode fluir diretamente através da função de identidade das camadas posteriores para as camadas anteriores. No entanto, a função de identidade e a saída de Hl são combinadas pelo somatório, o que pode impedir o fluxo de informações na rede. Convoluções Dilatadas

[0217] A FIGURA 10 ilustra convoluções dilatadas. Convoluções dilatadas, às vezes chamadas convoluções atrous, que literalmente significam orifícios. O nome francês tem suas origens no algoritmo atrous, que calcula a rápida transformação de onda diádica. Nesse tipo de camadas convolucionais, as entradas correspondentes ao campo receptivo dos filtros não são pontos vizinhos. Isso está ilustrado na FIGURA 10. A distância entre as entradas depende do fator de dilatação. WaveNet

[0218] O WaveNet é uma rede neural profunda para gerar formas de onda de áudio brutas. O WaveNet se distingue de outras redes convolucionais, pois é capaz de capturar 'campos visuais' relativamente grandes a baixo custo. Além disso, é capaz de adicionar condicionamento dos sinais local e globalmente, o que permite que o WaveNet seja usado como um mecanismo de conversão de texto em fala (TTS) com várias vozes, se o TTS fornece condicionamento local, e a voz específica, o condicionamento global.

[0219] Os principais blocos de construção do WaveNet são as convoluções causais dilatadas. Como uma extensão das convoluções causais dilatadas, a WaveNet também permite pilhas dessas convoluções, conforme mostrado na FIGURA 1P. Para obter o mesmo campo receptivo com convoluções dilatadas nesta figura, é necessária outra camada de dilatação. As pilhas são uma repetição das convoluções dilatadas, conectando as saídas da camada de convolução dilatada a uma única saída. Isso permite que o WaveNet obtenha um grande campo 'visual' de um nó de saída a um custo computacional relativamente baixo. Para comparação, para obter um campo visual de 512 entradas, uma rede totalmente convolucional (FCN) exigiria 511 camadas. No caso de uma rede convolucional dilatada, precisaríamos de oito camadas. As convoluções dilatadas empilhadas precisam apenas de sete camadas com duas pilhas ou seis camadas com quatro pilhas. Para ter uma ideia das diferenças de potência computacional necessárias para cobrir o mesmo campo visual, a tabela a seguir mostra o número de pesos necessários na rede com a suposição de um filtro por camada e uma largura de filtro de dois. Além disso, supõe-se que a rede esteja usando codificação binária dos 8 bits.

[0220] O WaveNet adiciona uma conexão skip antes que a conexão residual seja feita, que ignora todos os seguintes blocos residuais. Cada uma dessas conexões skip é somada antes de passar por uma série de funções de ativação e convoluções. Intuitivamente, essa é a soma das informações extraídas em cada camada. Normalização de lote

[0221] A normalização de lote é um método para acelerar o treinamento da rede profunda, tornando a padronização de dados parte integrante da arquitetura da rede. A normalização de lotes pode normalizar adaptativamente os dados, mesmo que a média e a variação variem ao longo do tempo durante o treinamento. Ele funciona mantendo internamente uma média móvel exponencial da média em lotes e variância dos dados vistos durante o treinamento. O principal efeito da normalização de lote é que ela ajuda na propagação do gradiente - bem como as conexões residuais - e, portanto, permite redes profundas. Algumas redes muito profundas só podem ser treinadas se incluírem várias camadas de Normalização de Lote. Informações adicionais sobre a normalização de lotes podem ser encontradas em S. Ioffe e C. Szegedy, “BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT”, arXiv: 1502.03167, 2015, que é incorporado por referência para todos os fins, como se fosse totalmente estabelecido neste documento.

[0222] A normalização de lotes pode ser vista como mais uma camada que pode ser inserida na arquitetura do modelo, assim como a camada totalmente conectada ou convolucional. A camada BatchNormalization é normalmente usada após uma camada convolucional ou densamente conectada. Também pode ser usada antes de uma camada convolucional ou densamente conectada. Ambas as implementações podem ser usadas pela tecnologia divulgada e são mostradas na FIGURA 1L. A camada BatchNormalization usa um argumento de eixo, que especifica o eixo do recurso que deve ser normalizado. Tal argumento é definido por padrão -1, o último eixo no tensor de entrada. Esse é o valor correto ao usar as camadas Densas, camadas Conv1D, camadas RNN e camadas Conv2D com o data_format definido como "channels_last". Porém, no caso de uso de nicho das camadas Conv2D com data_format definido como "channels_first", o eixo de recursos é o eixo 1; o argumento do eixo em BatchNormalization pode ser definido como 1.

[0223] A normalização de lote fornece uma definição para alimentar à frente a entrada e calcular os gradientes em relação aos parâmetros e sua própria entrada por meio de um passo para trás. Na prática, as camadas de normalização em lote são inseridas após uma camada convolucional ou totalmente conectada, mas antes que as saídas sejam alimentadas em uma função de ativação. Para camadas convolucionais, os diferentes elementos do mesmo mapa de recursos- ou seja, as ativações - em locais diferentes são normalizados da mesma maneira, a fim de obedecer à propriedade convolucional. Portanto, todas as ativações em um mini lote são normalizadas em todos os locais, e não por ativação.

[0224] O deslocamento covariável interno é a principal razão pela qual arquiteturas profundas foram notoriamente lentas em treinar. Isso decorre do fato de que redes profundas não precisam apenas aprender uma nova representação em cada camada, mas também devem levar em conta as alterações em sua distribuição.

[0225] O deslocamento covariável em geral é um problema conhecido no domínio da aprendizagem profunda e ocorre frequentemente em problemas do mundo real. Um problema comum do deslocamento covariável é a diferença na distribuição do conjunto de treinamento e teste que pode levar a um desempenho de generalização abaixo do ideal. Esse problema geralmente é tratado com uma etapa de processamento de branqueamento ou padronização. No entanto, especialmente a operação de branqueamento é computacionalmente cara e, portanto, impraticável em um ambiente online, especialmente se o deslocamento covariável ocorrer ao longo de diferentes camadas.

[0226] O deslocamento covariável interna é o fenômeno em que a distribuição das ativações da rede muda através das camadas devido à alteração nos parâmetros da rede durante o treinamento. Idealmente, cada camada deve ser transformada em um espaço onde tenham a mesma distribuição, mas a relação funcional permaneça a mesma. Para evitar cálculos dispendiosos de matrizes de covariância para reduzir a correlação e embranquecer os dados em todas as camadas e etapas, normalizamos a distribuição de cada recurso de entrada em cada camada ao longo de cada mini-lote para ter média zero e um desvio padrão de um. Passo para a frente

[0227] Durante o passo para frente, a variância e média do mini lote são calculadas. Com essas estatísticas de mini-lote, os dados são normalizados subtraindo a média e dividindo pelo desvio padrão. Finalmente, os dados são dimensionados e alterados com os parâmetros de escala e deslocamento aprendidos. A passo para frente da normalização de lote f é representada na FIGURA1I.

[0228] Na FIGURA 1I, μβ é a média do lote e GJa variância do lote, respectivamente. Os parâmetros aprendidos de escala e deslocamento são indicados por Y e β, respectivamente. Para maior clareza, o procedimento de normalização de lote é descrito neste documento por ativação e omite os índices correspondentes.

[0229] Como a normalização é uma transformação diferenciável, os erros são propagados para esses parâmetros aprendidos e, portanto, são capazes de restaurar o poder representacional da rede, aprendendo a transformação de identidade. Por outro lado, aprendendo os parâmetros de escala e deslocamento idênticos às estatísticas de lote correspondentes, a transformação de normalização de lote não teria efeito na rede, se essa fosse a operação ideal a ser executada. No momento do teste, a média e a variância do lote são substituídas pelas respectivas estatísticas populacionais, pois a entrada não depende de outras amostras de um mini- lote. Outro método é manter em execução as médias das estatísticas do lote durante o treinamento e usá-las para calcular a saída da rede no momento do teste. No momento do teste, a transformação de normalização de lote pode ser expressa conforme ilustrado na FIGURA 1J. Na FIGURA 1J μD e al denotam a média e a variância da população, em vez das estatísticas do lote, respectivamente. Passo Para trás

[0230] Como a normalização é uma operação diferenciável, o passo para trás pode ser calculado como representado na FIGURA 1K. Convolução 1D

[0231] As convoluções 1D extraem subsequências ou patches 1D locais das sequências, conforme mostrado na FIGURA 1M. A convolução 1D obtém cada intervalo de saída de um patch temporal na sequência de entrada. As camadas de convolução 1D reconhecem os padrões locais em uma sequência. Como a mesma transformação de entrada é realizada em cada patch, um padrão aprendido em uma determinada posição nas sequências de entrada pode ser posteriormente reconhecido em uma posição diferente, tornando a tradução das camadas de convolução 1D invariável para traduções temporais. Por exemplo, uma camada de convolução 1D que processa sequências de bases usando janelas de convolução de tamanho 5 deve ser capaz de aprender bases ou sequências de bases de comprimento 5 ou menos e deve ser capaz de reconhecer os motivos de base em qualquer contexto em uma sequência de entrada. Uma convolução 1D no nível base é, portanto, capaz de aprender sobre a morfologia da base. Pool Médio Global

[0232] A FIGURA 1N ilustra como o pool médio global (GAP) funciona. O pool médio global pode ser usado para substituir camadas totalmente conectadas (FC) para classificação, considerando a média espacial dos recursos na última camada para pontuação. Isso reduz a carga de treinamento e ignora os problemas de ajuste excessivo. O pool médio global aplica uma estrutura anterior ao modelo e é equivalente à transformação linear com pesos predefinidos. O pool médio global reduz o número de parâmetros e elimina a camada totalmente conectada. Camadas totalmente conectadas são tipicamente as camadas mais intensivas em parâmetros e conexões, e o pool médio global fornece uma abordagem de custo muito mais baixo para obter resultados semelhantes. A ideia principal do pool médio global é gerar o valor médio de cada mapa de recursos da última camada como o fator de confiança para a pontuação, alimentando diretamente a camada softmax.

[0233] O pool médio global tem três benefícios: (1) não há parâmetros extras nas camadas de pool médio global, portanto, o superajuste é evitado nas camadas de pool médio global; (2) como o resultado do pool médio global é a média de todo o mapa de recursos, o pool médio global será mais robusto às traduções espaciais; e (3) devido ao grande número de parâmetros em camadas totalmente conectadas, que geralmente ocupam mais de 50% em todos os parâmetros de toda a rede, substituí-los por camadas de pool médio global pode reduzir significativamente o tamanho do modelo, e isso torna o pool médio global muito útil na compressão de modelo.

[0234] O pool médio global faz sentido, pois espera-se que recursos mais fortes na última camada tenham um valor médio mais alto. Em algumas implementações, o pool médio global pode ser usado como um proxy para a pontuação de classificação. Os mapas de recursos sob o pool médio global podem ser interpretados como mapas de confiança e forçar a correspondência entre os mapas de recursos e as categorias. O pool médio global pode ser particularmente eficaz se os recursos da última camada estiverem em uma abstração suficiente para classificação direta; entretanto, o pool médio global por si só não é suficiente se os recursos multiníveis forem combinados em grupos como modelos de peças, o que é melhor executado adicionando uma camada totalmente conectada simples ou outro classificador após o pool médio global. Aprendizagem Profunda em Genômica

[0235] Variações genéticas podem ajudar a explicar muitas doenças. Todo ser humano tem um código genético único e há muitas variantes genéticas dentro de um grupo de indivíduos. A maioria das variantes genéticas deletérias foi depletada dos genomas por seleção natural. É importante identificar quais variações genéticas podem ser patogênicas ou deletérias. Isso ajudará os pesquisadores a se concentrarem nas prováveis variantes genéticas patogênicas e a acelerar o ritmo de diagnóstico e cura de muitas doenças.

[0236] Modelar as propriedades e os efeitos funcionais (por exemplo, patogenicidade) das variantes é uma tarefa importante, mas desafiadora, no campo da genômica. Apesar do rápido avanço das tecnologias funcionais de sequenciamento genômico, a interpretação das consequências funcionais das variantes continua sendo um grande desafio devido à complexidade dos sistemas de regulação de transcrição específicos do tipo de célula.

[0237] Os avanços nas tecnologias bioquímicas nas últimas décadas deram origem a plataformas de sequenciamento de próxima geração (NGS) que produzem rapidamente dados genômicos a custos muito mais baixos do que nunca. Esses volumes esmagadoramente grandes de DNA sequenciado continuam sendo difíceis de anotar. Os algoritmos de aprendizagem de máquina supervisionados geralmente têm bom desempenho quando grandes quantidades de dados marcados estão disponíveis. Em bioinformática e em muitas outras disciplinas ricas em dados, o processo de marcar instâncias é caro; no entanto, instâncias não marcados são baratas e prontamente disponíveis. Para um cenário em que a quantidade de dados marcados é relativamente pequena e a quantidade de dados não marcados é substancialmente maior, a aprendizagem semissupervisionada representa uma alternativa econômica à marcação manual.

[0238] Surge uma oportunidade de usar algoritmos semissupervisionados para construir classificadores de patogenicidade baseados em aprendizagem profunda que predizem com precisão a patogenicidade de variantes. Podem resultar bancos de dados de variantes patogênicas que estão livres de viés de verificação humana.

[0239] Em relação aos classificadores de patogenicidade, as redes neurais profundas são um tipo de redes neurais artificiais que usam várias camadas transformadoras não-lineares e complexas para modelar sucessivamente recursos de alto nível. As redes neurais profundas fornecem feedback via retropropagação, que carrega a diferença entre a saída observada e a prevista para ajustar os parâmetros. As redes neurais profundas evoluíram com a disponibilidade de grandes conjuntos de dados de treinamento, o poder da computação distribuída e paralela e algoritmos sofisticados de treinamento. As redes neurais profundas facilitaram grandes avanços em vários domínios, como visão computacional, reconhecimento de fala e processamento de linguagem natural.

[0240] Redes neurais convolucionais (CNNs) e redes neurais recorrentes (RNNs) são componentes de redes neurais profundas. As redes neurais convolucionais tiveram sucesso, particularmente, no reconhecimento de imagens com uma arquitetura que compreende camadas de convolução, camadas não lineares e camadas de pool. As redes neurais recorrentes são projetadas para utilizar informações sequenciais de dados de entrada com conexões cíclicas entre blocos de construção como perceptrons, unidades de memória de longo prazo e unidades recorrentes fechadas. Além disso, muitas outras redes neurais profundas emergentes foram propostas para contextos limitados, como redes neurais espaço-temporais profundas, redes neurais recorrentes multidimensionais e autocodificadores convolucionais.

[0241] O objetivo de treinar redes neurais profundas é a otimização dos parâmetros de peso em cada camada, que combina gradualmente recursos mais simples em recursos complexos, para que as representações hierárquicas mais adequadas possam ser aprendidas com os dados. Um único ciclo do processo de otimização é organizado da seguinte maneira. Primeiro, dado um conjunto de dados de treinamento, o passo para frente calcula sequencialmente a saída em cada camada e propaga os sinais da função para frente através da rede. Na camada de saída final, uma função de perda objetiva mede o erro entre as saídas inferidas e os indicadores fornecidos. Para minimizar o erro de treinamento, o passo para trás usa a regra da cadeia para retropropagar sinais de erro e calcular gradientes em relação a todos os pesos ao longo de toda a rede neural. Finalmente, os parâmetros de peso são atualizados usando algoritmos de otimização baseados na descida do gradiente estocástico. Enquanto a descida do gradiente em lote executa atualizações de parâmetros para cada conjunto de dados completo, a descida do gradiente estocástico fornece aproximações estocásticas executando as atualizações para cada pequeno conjunto de exemplos de dados. Vários algoritmos de otimização decorrem da descida do gradiente estocástico. Por exemplo, os algoritmos de treinamento Adagrad e Adam executam descida do gradiente estocástico enquanto modificam adaptativamente as taxas de aprendizagem com base na frequência de atualização e nos momentos dos gradientes para cada parâmetro, respectivamente.

[0242] Outro elemento central no treinamento de redes neurais profundas é a regularização, que se refere a estratégias destinadas a evitar o superajuste e, assim, alcançar um bom desempenho de generalização. Por exemplo, a redução de peso adiciona um termo de penalidade à função de perda objetiva, para que os parâmetros de peso convirjam para valores absolutos menores. O dropout remove aleatoriamente unidades ocultas das redes neurais durante o treinamento e pode ser considerado um conjunto de possíveis sub-redes. Para aprimorar os recursos de dropout, foram propostas uma nova função de ativação, maxout e uma variante de dropout para redes neurais recorrentes denominadas rnnDrop. Além disso, a normalização de lote fornece um novo método de regularização através da normalização de recursos escalares para cada ativação dentro de um mini lote e aprendendo cada média e variação como parâmetros.

[0243] Dado que os dados sequenciados são multidimensionais e de alta dimensão, as redes neurais profundas têm grandes promessas para a pesquisa em bioinformática devido à sua ampla aplicabilidade e poder de previsão aprimorado. As redes neurais convolucionais foram adaptadas para resolver problemas genômicos baseados em sequências, como descoberta de motivos, identificação de variantes patogênicas e inferência de expressão gênica. As redes neurais convolucionais usam uma estratégia de compartilhamento de peso que é especialmente útil para o estudo de DNA, pois pode capturar motivos de sequência, que são padrões locais recorrentes e curtos no DNA, que se presume ter funções biológicas significativas. Uma característica das redes neurais convolucionais é o uso de filtros de convolução. Diferentemente das abordagens de classificação tradicionais baseadas em recursos elaborados e criados manualmente, os filtros de convolução realizam uma aprendizagem adaptável dos recursos, análogo a um processo de mapeamento de dados brutos de entrada para a representação informativa do conhecimento. Nesse sentido, os filtros de convolução servem como uma série de scanners de motivos, pois um conjunto desses filtros é capaz de reconhecer padrões relevantes na entrada e se atualizar durante o procedimento de treinamento. Redes neurais recorrentes podem capturar dependências de longo alcance em dados sequenciais de comprimentos variados, como sequências de proteínas ou DNA.

[0244] Portanto, um modelo computacional poderoso para prever a patogenicidade de variantes pode trazer enormes benefícios tanto para a ciência básica quanto para a pesquisa translacional.

[0245] Polimorfismos comuns representam experimentos naturais cuja aptidão foi testada por gerações de seleção natural. Comparando as distribuições de frequência de alelo para missense humano e substituições sinônimas, descobrimos que a presença de uma variante missense em altas frequências de alelo em uma espécie de primata não humano prediz com segurança que a variante também está sob seleção neutra na população humana. Por outro lado, variantes comuns em espécies mais distantes sofrem seleção negativa à medida que a distância evolutiva aumenta.

[0246] Empregamos variação comum de seis espécies de primatas não humanos para treinar uma rede de aprendizagem profunda semissupervisionada que classifica com precisão as mutações clínicas missense de novo usando apenas a sequência. Com mais de 500 espécies conhecidas, a linhagem de primata contém variação comum suficiente para modelar sistematicamente os efeitos da maioria das variantes de humano de significância desconhecida.

[0247] O genoma humano de referência abriga mais de 70 milhões de substituições missense potenciais que alteram proteínas, a grande maioria das quais são mutações raras cujos efeitos na saúde humana não foram caracterizados. Essas variantes de significância desconhecida apresentam um desafio para a interpretação genômica em aplicações clínicas e são um obstáculo para a adoção a longo prazo do sequenciamento para triagem em toda a população e medicina individualizada.

[0248] Catalogar variações comuns em diversas populações humanas é uma estratégia eficaz para identificar variações clinicamente benignas, mas a variação comum disponível nos humanos modernos é limitada por eventos de gargalo no passado distante de nossa espécie. Humanos e chimpanzés compartilham 99% de identidade de sequência, sugerindo que a seleção natural que opera em variantes de chimpanzé tem o potencial de modelar os efeitos de variantes que são idênticas por estado no ser humano. O tempo médio de coalescência para polimorfismos neutros na população humana é uma fração do tempo de divergência da espécie, portanto, a variação de ocorrência natural do chimpanzé explora amplamente o espaço mutacional que não se sobrepõe à variação humana, além de raras ocorrências de haplótipos mantidos pela seleção equilibrada.

[0249] A recente disponibilidade de dados agregados do exoma de 60.706 humanos nos permite testar esta hipótese comparando os espectros de frequência de alelo para mutações missense e sinônimas. As variantes singleton no ExAC correspondem de forma próxima à proporção missense:sinônima de 2,2:1 prevista pela mutação de novo após o ajuste da taxa de mutação usando o contexto trinucleotídico, mas em frequências de alelo mais altas o número de variantes missense observadas diminui devido à filtragem de variantes deletérias por seleção natural. O padrão de proporção missense:sinônimas em todo o espectro de frequências de alelo indica que uma grande fração de variantes missense com frequência populacional <0,1% são levemente deletérios, ou seja, nem patogênicas o suficiente para garantir a remoção imediata da população, nem neutras o suficiente para permitir a existência em altas frequências alélica, consistente com observações anteriores sobre dados populacionais mais limitados. Essas descobertas apoiam a prática empírica disseminada por laboratórios de diagnóstico de filtrar variantes com frequência de alelo superior a 0,1% ~ 1% como provavelmente benigna para doenças genéticas penetrantes, além de algumas exceções bem documentadas causadas pelo equilíbrio entre efeitos de fundador e seleção.

[0250] Repetindo esta análise com o subconjunto de variantes de humano que são idênticas por estado com variantes comuns de chimpanzés (observadas mais de uma vez no sequenciamento populacional de chimpanzés), descobrimos que a proporção missense:sinônima é amplamente constante em todo o espectro de frequências de alelo. A alta frequência de alelo dessas variantes na população de chimpanzés indica que eles já passaram pela peneira da seleção natural no chimpanzé, e seu impacto neutro na aptidão em populações humanas fornece evidências convincentes de que as pressões seletivas nas variantes missense são altamente concordantes nas duas espécies. A menor proporção missense:sinônima observada em chimpanzés é consistente com o maior tamanho efetivo da população nas populações ancestrais de chimpanzés, permitindo uma filtragem mais eficiente de variantes levemente deletérias.

[0251] Em contraste, variantes raras de chimpanzé (observadas apenas uma vez no sequenciamento populacional de chimpanzés) mostram uma diminuição modesta na proporção missense:sinônima em frequências alélicas mais altas. Simulando uma coorte de tamanho idêntico a partir de dados de variação humana, estimamos que apenas 64% das variantes observadas uma vez em uma coorte desse tamanho teriam uma frequência alélica maior que 0,1% na população geral, em comparação com 99,8% para as variantes vistas múltiplas vezes na coorte, indicando que nem todas as variantes raras de chimpanzés passaram pela peneira da seleção. No geral, estimamos que 16% das variantes missense de chimpanzé verificadas têm uma frequência de alelo inferior a 0,1% na população geral e estariam sujeitas a seleção negativa em frequências de alelo mais altas.

[0252] Em seguida, caracterizamos variantes de humano que são idênticas por estado com a variação observada em outras espécies de primatas não humanos (Bonobo, Gorila, Orangotango, macaco Rhesus e Sagui). Semelhante ao chimpanzé, observamos que as proporções missense:sinônima são aproximadamente equivalentes em todo o espectro de frequências de alelo, exceto uma ligeira depleção da variação missense em altas frequências de alelo, que seria antecipado devido à inclusão de um pequeno número de variantes raras (~5-15%). Esses resultados sugerem que as forças seletivas nas variantes missense são amplamente concordantes dentro da linhagem de primatas, pelo menos para os macacos do novo mundo, que se estima ter divergido da linhagem ancestral humana ~35 milhões de anos atrás.

[0253] As variantes missense de humanos que são idênticas por estado com variantes em outros primatas são fortemente enriquecidas por consequências benignas no ClinVar. Após excluir variantes com anotações desconhecidas ou conflitantes, observamos que as variantes de humano com ortólogos de primatas têm aproximadamente 95% de probabilidade de serem anotadas como Benignas ou Prováveis Benignas no ClinVar, em comparação com 45% para variações missense em geral. A pequena fração de variantes do ClinVar que são classificadas como patogênicas de primatas não humanos é comparável à fração de variantes patogênicas do ClinVar que seriam observadas ao determinar variantes raras de uma coorte de tamanho semelhante de humanos saudáveis. Uma fração substancial dessas variantes anotadas como Patogênica ou Provável Patogênica indica que recebeu suas classificações antes do surgimento de grandes bancos de dados de frequência de alelo e pode ser curada hoje de maneira diferente.

[0254] O campo da genética humana há muito depende de organismos modelo para inferir o impacto clínico das mutações humanas, mas a longa distância evolutiva para a maioria dos modelos animais geneticamente tratáveis suscita preocupações sobre a extensão em que essas descobertas são generalizáveis ao ser humano. Para examinar a concordância da seleção natural em variantes missense em espécies humanas e mais distantes, estendemos nossa análise além da linhagem de primatas para incluir variações amplamente comuns de quatro espécies adicionais de mamíferos (camundongo, porco, cabra, vaca) e duas espécies mais distantes vertebrados (frango, peixe-zebra). Em contraste com as análises de primatas anteriores, observamos que a variação missense é acentuadamente depletada nas frequências de alelo comuns em comparação com as frequências alélicas raras, especialmente em distâncias evolutivas maiores, indicando que uma fração substancial da variação missense comum em espécies mais distantes experimentaria uma seleção negativa em populações humanas. No entanto, a observação de uma variante missense em vertebrados mais distantes ainda aumenta a probabilidade de consequências benignas, já que a fração de variantes missense comuns depletadas pela seleção natural é muito menor que a depleção de ~ 50% para variantes missense humanas na linha de base. Consistente com esses resultados, descobrimos que as variantes missense humanas observadas em camundongos, cães, porcos e vacas têm aproximadamente 85% de probabilidade de serem anotadas como Benignas ou Prováveis Benignas no ClinVar, em comparação com 95% para variação de primatas e 45% para o banco de dados ClinVar como um todo.

[0255] A presença de pares de espécies intimamente relacionadas a distâncias evolutivas variadas também fornece uma oportunidade para avaliar as consequências funcionais de substituições missense fixas em populações humanas. Dentro de pares de espécies intimamente relacionados (comprimento do ramo < 0.1) na árvore genealógica dos mamíferos, observamos que a variação missense fixa é depletada nas frequências de alelo comuns em comparação com as frequências raras, indicando que uma fração substancial de substituições fixas entre espécies não seria neutro em humanos, mesmo dentro da linhagem de primatas. Uma comparação da magnitude da depleção missense indica que as substituições fixas entre espécies são significativamente menos neutras que os polimorfismos dentro das espécies. Curiosamente, a variação interespécies entre mamíferos intimamente relacionados não é substancialmente mais patogênica no ClinVar (83% provavelmente anotada como Benigna ou Provável Benigna) em comparação com polimorfismos comuns dentro da espécie, sugerindo que essas alterações não anulam a função da proteína, mas sim refletem o ajuste da função da proteína que confere vantagens adaptativas específicas da espécie.

[0256] O grande número de variantes possíveis de significado desconhecido e a importância crucial da classificação precisa das variantes para aplicações clínicas inspiraram várias tentativas de resolver o problema com a aprendizagem de máquina, mas esses esforços foram amplamente limitados pela quantidade insuficiente de variantes humanas comuns e pela qualidade dúbia de anotações em bancos de dados com curadoria. A variação dos seis primatas não humanos contribui com mais de 300.000 variantes missense únicas que não se sobrepõem à variação humana comum e, em grande parte, de consequências benignas, aumentando muito o tamanho do conjunto de dados de treinamento que pode ser usado para abordagens de aprendizagem de máquina.

[0257] Ao contrário dos modelos anteriores, que empregam um grande número de recursos e meta-classificadores criados por humanos, aplicamos uma rede residual simples de aprendizagem profunda que recebe como entrada apenas a sequência de aminoácidos que flanqueia a variante de interesse e os alinhamentos de sequência ortólogas em outras espécies. Para fornecer à rede informações sobre a estrutura da proteína, treinamos duas redes separadas para aprender a estrutura secundária e a acessibilidade do solvente apenas a partir da sequência e as incorporamos como sub-redes na rede maior de aprendizagem profunda para prever efeitos na estrutura da proteína. O uso da sequência como ponto de partida evita possíveis vieses na estrutura da proteína e na anotação do domínio funcional, que podem ser incompletamente determinados ou aplicados inconsistentemente.

[0258] Usamos a aprendizagem semissupervisionada para superar o problema do conjunto de treinamento que contém apenas variantes com indicadores benignos, treinando inicialmente um conjunto de redes para separar prováveis variantes benignas de primatas versus variantes desconhecidas aleatórias que correspondem à taxa de mutação e cobertura de sequenciamento. Esse conjunto de redes é usado para pontuar o conjunto completo de variantes desconhecidas e influenciar a seleção de variantes desconhecidas para propagar a próxima iteração do classificador, enviesando em direção a variantes desconhecidas com consequência prevista mais patogênica, executando etapas graduais em cada iteração para prevenir o modelo de convergir prematuramente para um resultado abaixo do ideal.

[0259] A variação comum de primatas também fornece um conjunto de dados de validação limpa para avaliar os métodos existentes que são completamente independentes dos dados de treinamento usados anteriormente, o que tem sido difícil de avaliar objetivamente devido à proliferação de meta-classificadores. Avaliamos o desempenho do nosso modelo, juntamente com outros quatro algoritmos de classificação populares (Sift, Polyphen2, CADD, M-CAP), usando 10.000 variantes comuns de primatas retidas. Como cerca de 50% de todas as variantes missense humanas seriam removidas por seleção natural em frequências alélicas comuns, calculamos a pontuação do 50° percentil para cada classificador em um conjunto de variantes missense escolhidas aleatoriamente que correspondiam às 10.000 variantes comuns de primatas retidas por taxa de mutação e usamos esse limiar para avaliar as variantes comuns de primatas retidas. A precisão do nosso modelo de aprendizagem profunda foi significativamente melhor do que os outros classificadores neste conjunto de dados de validação independente, usando redes de aprendizagem profunda que foram treinadas apenas em variantes comuns humanas ou usando variantes comuns humanas e variantes de primatas.

[0260] Estudos recentes de sequenciamento de trio catalogaram milhares de mutações de novo em pacientes com distúrbios do desenvolvimento neurológico e seus irmãos saudáveis, permitindo avaliar a força de vários algoritmos de classificação na separação de mutações missense de novo em casos versus controles. Para cada um dos quatro algoritmos de classificação, pontuamos cada variante missense de novo em casos versus controles e relatamos o valor p do teste de soma e classificação de Wilcoxon da diferença entre as duas distribuições, mostrando que o método de aprendizagem profunda treinado em variantes de primatas (p ~10- 33) tiveram um desempenho muito melhor do que os outros classificadores (p ~10-13 a 10-19) nesse cenário clínico. Do enriquecimento de ~1,3 vezes das variantes missense de novo acima das expectativas relatadas anteriormente para esta coorte e estimativas anteriores de que ~20% das variantes missense produzem efeitos de perda de função, esperamos que um classificador perfeito separe as duas classes com um valor p de p ~10-40, indicando que nosso classificador ainda tem espaço para melhorias.

[0261] A precisão do classificador de aprendizagem profunda é dimensionada com o tamanho do conjunto de dados de treinamento e os dados de variação de cada uma das seis espécies de primatas contribuem independentemente para aumentar a precisão do classificador. O grande número e diversidade de espécies de primatas não humanos existentes, juntamente com evidências que mostram que as pressões seletivas sobre variantes que alteram proteínas são amplamente concordantes na linhagem de primatas, sugere o sequenciamento sistemático de populações de primatas como uma estratégia eficaz para classificar as milhões de variantes humanas de significado desconhecido que atualmente limita a interpretação do genoma clínico. Das 504 espécies conhecidas de primatas não humanos, cerca de 60% enfrentam extinção devido à caça e perda de habitat, motivando a urgência de um esforço mundial de conservação que beneficiaria essas espécies únicas e insubstituíveis e a nossa própria espécie.

[0262] Embora não existam tantos dados agregados do genoma inteiro quanto os dados do exoma, limitando o poder de detectar o impacto da seleção natural em regiões intrônicas profundas, também fomos capazes de calcular as contagens observadas vs. esperadas de mutações de splice crípticas longe das regiões exônicas. No geral, observamos uma depleção de 60% nas mutações de splice crípticas a uma distância de > 50nt de um limite éxon-íntron. O sinal atenuado é provavelmente uma combinação do tamanho menor da amostra com dados completos do genoma em comparação com o exoma e a maior dificuldade de prever o impacto de variantes intrônicas profundas. Terminologia

[0263] Toda a literatura e material semelhante citado neste pedido, incluindo, mas não limitada a patentes, pedidos de patente, artigos, livros, tratados e páginas da web, independentemente do formato dessa literatura e materiais similares, são expressamente incorporados por referência em seus totalidade. No caso de uma ou mais da literatura incorporada, patentes e materiais semelhantes diferirem ou contradizerem este pedido, incluindo, mas não limitado a termos definidos, uso de termos, técnicas descritas ou semelhantes, esse pedido prevalece.

[0264] Conforme usado neste documento, os seguintes termos têm os significados indicados.

[0265] Uma base refere-se a uma base nucleotídica ou nucleotídico, A (adenina), C (citosina), T (timina) ou G (guanina).

[0266] Este pedido usa os termos "proteína" e "sequência traduzida"; de forma intercambiável.

[0267] Este pedido usa os termos "códon"; e "base tripla" de forma intercambiável.

[0268] Este aplicativo usa os termos "aminoácido" e "unidade traduzida" de forma intercambiável.

[0269] Este aplicativo usa as frases "classificador de patogenicidade de variantes", "classificador baseado em rede neural convolucional para classificação de variantes" e "classificador baseado em rede neural convolucional profunda para classificação de variantes" de forma intercambiável.

[0270] O termo "cromossomo" refere-se ao carreador de genes portadores de hereditariedade de uma célula viva, que é derivada de cadeias de cromatina que compreendem componentes de DNA e proteínas (especialmente histonas). O sistema convencional de numeração de cromossomos do genoma humano internacionalmente reconhecido é empregado neste documento.

[0271] O termo "sítio" refere-se a uma posição única (por exemplo, ID do cromossomo, posição e orientação do cromossomo) em um genoma de referência. Em algumas implementações, um sítio pode ser um resíduo, uma tag de sequência ou a posição de um segmento em uma sequência. O termo "locus" pode ser usado para se referir à localização específica de uma sequência de ácido nucleico ou polimorfismo em um cromossomo de referência.

[0272] O termo "amostra" neste documento refere-se a uma amostra, tipicamente derivada de um fluido biológico, célula, tecido, órgão ou organismo contendo um ácido nucleico ou uma mistura de ácidos nucleicos contendo pelo menos uma sequência de ácido nucleico que deve ser sequenciada e/ou faseado. Essas amostras incluem, mas não são limitadas a expectoração/fluido oral, líquido amniótico, sangue, uma fração sanguínea, amostras de biópsia por agulha fina (por exemplo, biópsia cirúrgica, biópsia por agulha fina, etc.), urina, líquido peritoneal, líquido pleural, tecido de explante, cultura de órgãos e qualquer outra preparação de tecido ou célula, ou fração ou derivado ou isolados a partir deles. Embora a amostra seja frequentemente retirada de um sujeito humano (por exemplo, paciente), amostras podem ser coletadas de qualquer organismo com cromossomos, incluindo, mas não limitados a cães, gatos, cavalos, cabras, ovelhas, gado, porcos, etc. A amostra pode ser usada diretamente conforme obtida da fonte biológica ou após um pré-tratamento para modificar o caráter da amostra. Por exemplo, esse pré-tratamento pode incluir a preparação de plasma a partir do sangue, diluição de fluidos viscosos e assim por diante. Os métodos de pré-tratamento também podem envolver, mas não estão limitados a filtração, precipitação, diluição, destilação, mistura, centrifugação, congelamento, liofilização, concentração, amplificação, fragmentação de ácidos nucleicos, inativação de componentes interferentes, adição de reagentes, lise, etc.

[0273] O termo "sequência" inclui ou representa uma cadeia de nucleotídeos acoplados um ao outro. Os nucleotídeos podem ser baseados em DNA ou RNA. Deve ser entendido que uma sequência pode incluir múltiplas subsequências. Por exemplo, uma única sequência (por exemplo, de um amplicon de PCR) pode ter 350 nucleotídeos. A leitura da amostra pode incluir múltiplas subsequências dentro destes 350 nucleotídeos. Por exemplo, a leitura da amostra pode incluir primeira e segunda subsequências de flanqueamento com, por exemplo, 20-50 nucleotídeos. A primeira e a segunda sequências de flanqueamento podem estar localizadas em ambos os lados de um segmento repetitivo que possui uma subsequência correspondente (por exemplo, 40-100 nucleotídeos). Cada uma das subsequências de flanqueamento pode incluir (ou incluir porções de) uma subsequência de primer (por exemplo, 10-30 nucleotídeos). Para facilitar a leitura, o termo "subsequência" será referido como "sequência", mas entende-se que duas sequências não são necessariamente separadas uma da outra em uma cadeia comum. Para diferenciar as várias sequências descritas neste documento, as sequências podem receber indicadores diferentes (por exemplo, sequência alvo, sequência primer, sequência flanqueadora, sequência de referência e similares). Outros termos, como "alelo", podem receber indicadores diferentes para diferenciar objetos semelhantes.

[0274] O termo "sequenciamento de extremidade pareada" refere-se a métodos de sequenciamento que sequenciam as duas extremidades de um fragmento alvo. O sequenciamento de extremidade pareada pode facilitar a detecção de rearranjos genômicos e segmentos repetitivos, bem como fusões de genes e novos transcritos. A metodologia para o sequenciamento de extremidade pareada é descrita na publicação PCT WO07010252, pedido PCT N° de série PCTGB2007/003798 e publicação do pedido de patente US 2009/0088327, cada uma das quais é incorporada por referência neste documento. Em um exemplo, uma série de operações pode ser executada da seguinte maneira; (a) gerar grupos de ácidos nucleicos; (b) linearizar os ácidos nucleicos; (c) hibridar um primeiro primer de sequenciamento e realizar ciclos repetidos de extensão, varredura e desbloqueio, conforme estabelecido acima; (d) "inverter" os ácidos nucleicos alvo na superfície da célula de fluxo sintetizando uma cópia complementar; (e) linearizar a cadeia ressintetizada; e (f) hibridizar um segundo primer de sequenciamento e realizar ciclos repetidos de extensão, varredura e desbloqueio, conforme estabelecido acima. A operação de inversão pode ser realizada entregando reagentes conforme estabelecido acima para um único ciclo de amplificação em ponte.

[0275] O termo "genoma de referência" ou "sequência de referência" refere-se a qualquer sequência específica do genoma conhecido, parcial ou completa, de qualquer organismo que possa ser usado para referenciar sequências identificadas de um sujeito. Por exemplo, um genoma de referência usado para seres humanos, assim como muitos outros organismos, é encontrado no National Center for Biotechnology Information, em ncbi.nlm.nih.gov. Um "genoma" refere-se à informação genética completa de um organismo ou vírus, expressa em sequências de ácidos nucleicos. Um genoma inclui os genes e as sequências não codificadoras do DNA. A sequência de referência pode ser maior que as leituras alinhadas a ela. Por exemplo, pode ser pelo menos cerca de 100 vezes maior, ou pelo menos cerca de 1000 vezes maior, ou pelo menos cerca de 10.000 vezes maior, ou pelo menos cerca de 105 vezes maior, ou pelo menos cerca de 106 vezes maior, ou pelo menos cerca de 107 vezes maior. Em um exemplo, a sequência do genoma de referência é a de um genoma humano completo. Em outro exemplo, a sequência do genoma de referência é limitada a um cromossomo humano específico, como o cromossomo 13. Em algumas implementações, um cromossomo de referência é uma sequência cromossômica da versão hg19 do genoma humano. Tais sequências podem ser referidas como sequências de referência cromossômica, embora o termo genoma de referência se destine a cobrir tais sequências. Outros exemplos de sequências de referência incluem genomas de outras espécies, bem como cromossomos, regiões subcromossômicas (como cadeias), etc., de qualquer espécie. Em várias implementações, o genoma de referência é uma sequência de consenso ou outra combinação derivada de vários indivíduos. No entanto, em certas aplicações, a sequência de referência pode ser obtida de um indivíduo em particular.

[0276] O termo "leitura" refere-se a uma coleção de dados de sequência que descreve um fragmento de uma amostra ou referência de nucleotídeo. O termo "leitura" pode se referir a uma leitura de amostra e/ou uma leitura de referência. Normalmente, embora não necessariamente, uma leitura representa uma sequência curta de pares de bases contíguas na amostra ou referência. A leitura pode ser representada simbolicamente pela sequência de pares de bases (em ATCG) da amostra ou fragmento de referência. Ele pode ser armazenado em um dispositivo de memória e processado conforme apropriado para determinar se a leitura corresponde a uma sequência de referência ou se atende a outros critérios. Uma leitura pode ser obtida diretamente de um aparelho de sequenciamento ou indiretamente a partir de informações de sequência armazenadas relativas à amostra. Em alguns casos, uma leitura é uma sequência de DNA de comprimento suficiente (por exemplo, pelo menos cerca de 25 bp) que pode ser usada para identificar uma sequência ou região maior, por exemplo, que pode ser alinhada e atribuída especificamente a um cromossomo ou região genômica ou gene.

[0277] Os métodos de sequenciamento de última geração incluem, por exemplo, sequenciamento por tecnologia de síntese (Illumina), pirosequenciamento (454), tecnologia de semicondutores de íons (sequenciamento Ion Torrent), sequenciamento em tempo real de molécula única (Pacific Biosciences) e sequenciamento por ligação (sequenciamento SOLiD). Dependendo dos métodos de sequenciamento, o comprimento de cada leitura pode variar de cerca de 30 bp a mais de 10.000 bp. Por exemplo, o método de sequenciamento Illumina usando o sequenciador SOLiD gera leituras de ácido nucleico de cerca de 50 bp. Por outro exemplo, o Sequenciamento Ion Torrent gera leituras de ácido nucleico de até 400 bp e o pirosequenciamento 454 gera leituras de ácido nucleico de cerca de 700 bp. Por outro exemplo, os métodos de sequenciamento em tempo real de molécula única podem gerar leituras de 10.000 a 15.000 bp. Portanto, em certas implementações, as leituras da sequência de ácido nucleico têm um comprimento de 30-100 bp, 50-200 bp ou 50-400 bp.

[0278] Os termos “leitura da amostra”, “sequência da amostra” ou “fragmento da amostra” se referem aos dados da sequência para uma sequência genômica de interesse de uma amostra. Por exemplo, a leitura da amostra compreende dados de sequência de um amplicon de PCR tendo uma sequência de primers foward e reverse. Os dados da sequência podem ser obtidos a partir de qualquer metodologia de sequência selecionada. A leitura da amostra pode ser, por exemplo, de uma reação de sequenciamento por síntese (SBS), uma reação de sequenciamento por ligação ou qualquer outra metodologia de sequenciamento adequada para a qual se deseja determinar o comprimento e/ou a identidade de um elemento repetitivo. A leitura da amostra pode ser uma sequência de consenso (por exemplo, média ou ponderada) derivada de várias leituras da amostra. Em certas implementações, o fornecimento de uma sequência de referência compreende a identificação de um locus de interesse com base na sequência primer do amplicon de PCR.

[0279] O termo "fragmento bruto" refere-se a dados de sequência para uma porção de uma sequência genômica de interesse que se sobrepõe pelo menos parcialmente a uma posição designada ou a uma posição secundária de interesse dentro de uma amostra de leitura ou fragmento de amostra. Exemplos não limitativos de fragmentos brutos incluem um fragmento concatenado duplex, um fragmento concatenado simplex, um fragmento não concatenado duplex e um fragmento não concatenado simplex. O termo "bruto" é usado para indicar que o fragmento bruto inclui dados de sequência que têm alguma relação com os dados de sequência em uma leitura de amostra, independentemente de o fragmento bruto exibir uma variante de suporte que corresponda e autentique ou confirme uma variante em potencial em uma leitura de amostra. O termo "fragmento bruto" não indica que o fragmento inclui necessariamente uma variante de suporte que valida uma chamada de variante em uma leitura de amostra. Por exemplo, quando uma leitura de amostra é determinada por um aplicativo de chamada de variante para exibir uma primeira variante, o aplicativo de chamada de variante pode determinar que um ou mais fragmentos brutos não possuem um tipo correspondente de variante "de suporte" que, de outra forma, pode ser esperado que ocorra, dada a variante na leitura de amostra.

[0280] Os termos "mapeamento", "alinhado", "alinhamento" ou "ordenamento" referem-se ao processo de comparar uma leitura ou tag a uma sequência de referência e, assim, determinar se a sequência de referência contém a sequência de leitura. Se a sequência de referência contiver a leitura, a leitura poderá ser mapeada para a sequência de referência ou, em certas implementações, para um local específico na sequência de referência. Em alguns casos, o alinhamento simplesmente informa se uma leitura é ou não um membro de uma sequência de referência específica (ou seja, se a leitura está presente ou ausente na sequência de referência). Por exemplo, o alinhamento de uma leitura com a sequência de referência para o cromossomo humano 13 indicará se a leitura está presente na sequência de referência para o cromossomo 13. Uma ferramenta que fornece essas informações pode ser chamada de testador de associação estabelecida. Em alguns casos, um alinhamento indica adicionalmente um local na sequência de referência onde a leitura ou o tag é mapeado. Por exemplo, se a sequência de referência é sequência do genoma humano completo, um alinhamento pode indicar que uma leitura está presente no cromossomo 13 e pode ainda indicar que a leitura está em uma cadeia e/ou sítio específico do cromossomo 13.

[0281] O termo "indel" refere-se à inserção e/ou deleção de bases no DNA de um organismo. Um micro-indel representa um indel que resulta em uma alteração líquida de 1 a 50 nucleotídeos. Nas regiões codificadoras do genoma, a menos que o comprimento de um indel seja um múltiplo de 3, ele produzirá uma mutação de deslocamento de quadro. Indels podem ser contrastados com mutações pontuais. Um indel insere e deleta nucleotídeos de uma sequência, enquanto uma mutação pontual é uma forma de substituição que substitui um dos nucleotídeos sem alterar o número geral no DNA. Os indels também podem ser contrastados com uma Mutação de Base Tandem (TBM), que pode ser definida como substituição em nucleotídeos adjacentes (principalmente substituições em dois nucleotídeos adjacentes, mas foram observadas substituições em três nucleotídeos adjacentes).

[0282] O termo "variante" refere-se a uma sequência de ácido nucleico que é diferente de uma referência de ácido nucleico. A variante da sequência de ácidos nucleicos típica inclui, sem limitação, o polimorfismo de nucleotídeo único (SNP), polimorfismos de deleção e inserção curtos (Indel), variação do número de cópias (CNV), marcadores de microssatélites ou repetições em tandem curtas e variação estrutural. A chamada de variante somática é o esforço para identificar variantes presentes em baixa frequência na amostra de DNA. A chamada de variantes somática é de interesse no contexto do tratamento do câncer. O câncer é causado por um acúmulo de mutações no DNA. Uma amostra de DNA de um tumor é geralmente heterogênea, incluindo algumas células normais, algumas células em um estágio inicial da progressão do câncer (com menos mutações) e algumas células em estágio avançado (com mais mutações). Devido a essa heterogeneidade, ao sequenciar um tumor (por exemplo, a partir de uma amostra de FFPE), mutações somáticas geralmente aparecem em baixa frequência. Por exemplo, um SNV pode ser visto em apenas 10% das leituras que abrangem uma determinada base. Uma variante que deve ser classificada como somática ou de linhagem germinativa pelo classificador de variantes também é referida neste documento como a "variante em teste".

[0283] O termo "ruído" refere-se a uma chamada de variante incorreta resultante de um ou mais erros no processo de sequenciamento e/ou no pedido de chamada de variante.

[0284] O termo "frequência variante" representa a frequência relativa de um alelo (variante de um gene) em um locus específico de uma população, expresso como uma fração ou porcentagem. Por exemplo, a fração ou porcentagem pode ser a fração de todos os cromossomos da população que carrega esse alelo. A título de exemplo, a frequência da variante da amostra representa a frequência relativa de um alelo/variante em um determinado locus/posição ao longo de uma sequência genômica de interesse sobre uma "população" correspondente ao número de leituras e/ou amostras obtidas para a sequência genômica de interesse de um indivíduo. Como outro exemplo, uma frequência de variante de linha de base representa a frequência relativa de um alelo/variante em um locus/posição específica ao longo de uma ou mais sequências genômicas de linha de base em que a "população" corresponde ao número de leituras e/ou amostras obtidas para o um ou mais sequências genômicas de linha de base de uma população de indivíduos normais.

[0285] O termo "frequência alélica da variante (VAF)" refere-se à porcentagem de leituras sequenciadas observadas correspondentes à variante dividida pela cobertura geral na posição alvo. VAF é uma medida da proporção de leituras sequenciadas que carregam a variante.

[0286] Os termos "posição", "posição designada" e "locus" se referem a um local ou coordenada de um ou mais nucleotídeos dentro de uma sequência de nucleotídeos. Os termos "posição", "posição designada" e "locus" também se referem a um local ou coordenada de um ou mais pares de bases em uma sequência de nucleotídeos.

[0287] O termo "haplótipo" refere-se a uma combinação de alelos em locais adjacentes em um cromossomo que são herdados juntos. Um haplótipo pode ser um locus, vários loci ou um cromossomo inteiro, dependendo do número de eventos de recombinação que ocorreram entre um determinado conjunto de loci, se houver algum.

[0288] O termo "limiar" neste documento refere-se a um valor numérico ou não numérico que é usado como ponto de corte para caracterizar uma amostra, um ácido nucleico ou uma porção da mesma (por exemplo, uma leitura). Um limiar pode variar com base na análise empírica. O limite pode ser comparado a um valor medido ou calculado para determinar se a fonte que gera esse valor sugere que deve ser classificada de uma maneira específica. Os valores de limiar podem ser identificados empiricamente ou analiticamente. A escolha de um limiar depende do nível de confiança que o usuário deseja ter para fazer a classificação. O limiar pode ser escolhido para uma finalidade específica (por exemplo, equilibrar a sensibilidade e seletividade). Conforme usado neste documento, o termo "limiar" indica um ponto no qual um curso de análise pode ser alterado e/ou um ponto no qual uma ação pode ser acionada. Não é necessário que um limiar seja um número predeterminado. Em vez disso, o limiar pode ser, por exemplo, uma função baseada em uma pluralidade de fatores. O limiar pode ser adaptável às circunstâncias. Além disso, um limiar pode indicar um limite superior, um limite inferior ou um intervalo entre os limites.

[0289] Em algumas implementações, uma métrica ou pontuação baseada em dados de sequenciamento pode ser comparada ao limiar. Conforme usado neste documento, os termos "métrica" ou "pontuação" podem incluir valores ou resultados que foram determinados a partir dos dados de sequenciamento ou podem incluir funções baseadas nos valores ou resultados que foram determinados a partir dos dados de sequenciamento. Como um limiar, a métrica ou a pontuação pode ser adaptável às circunstâncias. Por exemplo, a métrica ou a pontuação pode ser um valor normalizado. Como exemplo de uma pontuação ou métrica, uma ou mais implementações podem usar pontuações de contagem ao analisar os dados. Uma pontuação de contagem pode ser baseada no número de leituras de amostra. As leituras de amostra podem ter passado por um ou mais estágios de filtragem, de modo que as leituras de amostra tenham pelo menos uma característica ou qualidade comum. Por exemplo, cada uma das leituras de amostra usadas para determinar uma pontuação de contagem pode ter sido alinhada com uma sequência de referência ou pode ser atribuída como um alelo em potencial. O número de leituras de amostra com uma característica comum pode ser contado para determinar uma contagem de leituras. As pontuações de contagem podem ser baseadas na contagem de leitura. Em algumas implementações, a pontuação da contagem pode ser um valor igual à contagem de leitura. Em outras implementações, a pontuação da contagem pode ser baseada na contagem de leitura e em outras informações. Por exemplo, uma pontuação de contagem pode ser baseada na contagem de leitura de um alelo específico de um locus genético e um número total de leituras para o locus genético. Em algumas implementações, a pontuação da contagem pode ser baseada na contagem de leitura e nos dados obtidos anteriormente para o locus genético. Em algumas implementações, as pontuações de contagem podem ser pontuações normalizadas entre valores predeterminados. A pontuação da contagem também pode ser uma função das contagens de leitura de outros loci de uma amostra ou uma função das contagens de leitura de outras amostras que foram executadas simultaneamente com a amostra de interesse. Por exemplo, a pontuação da contagem pode ser uma função da contagem de leitura de um alelo específico e das contagens de leitura de outros loci na amostra e/ou das contagens de outras amostras. Como um exemplo, as contagens de leitura de outros loci e/ou as contagens de leitura de outras amostras podem ser usadas para normalizar a pontuação de contagem para o alelo específico.

[0290] Os termos "cobertura" ou "cobertura de fragmento" se referem a uma contagem ou outra medida de um número de leituras de amostra para o mesmo fragmento de uma sequência. Uma contagem de leitura pode representar uma contagem do número de leituras que cobrem um fragmento correspondente. Como alternativa, a cobertura pode ser determinada pela multiplicação da contagem de leituras por um fator designado que se baseia no conhecimento histórico, no conhecimento da amostra, conhecimento do lócus etc.

[0291] O termo “profundidade de leitura” (convencionalmente um número seguido de “x”) refere-se ao número de leituras sequenciadas com alinhamento sobreposto na posição alvo. Isso geralmente é expresso como uma média ou porcentagem que excede um ponto de corte em um conjunto de intervalos (como éxons, genes ou painéis). Por exemplo, um relatório clínico pode dizer que a cobertura média do painel é 1.105 x com 98% das bases direcionadas cobertas> 100 x.

[0292] Os termos “pontuação de qualidade da chamada de base” ou “pontuação Q” se referem a uma probabilidade em escala PHRED variando de 0 a 20 inversamente proporcional à probabilidade de que uma única base sequenciada esteja correta. Por exemplo, uma chamada de base T com Q de 20 é considerada provavelmente correta com um valor P de confiança de 0,01. Qualquer geração de base com Q <20 deve ser considerada de baixa qualidade, e qualquer variante identificada onde uma proporção substancial de leituras sequenciadas que suportam a variante são de baixa qualidade deve ser considerada potencialmente falsa positiva.

[0293] Os termos "leituras de variantes" ou "número de leitura de variantes" se referem ao número de leituras sequenciadas que suportam a presença da variante. Processo de Sequenciamento

[0294] As implementações estabelecidas neste documento podem ser aplicáveis à análise de sequências de ácidos nucleicos para identificar variações de sequência. As implementações podem ser usadas para analisar possíveis variantes/alelos de uma posição/locus genéticos e determinar um genótipo do locus genético ou, em outras palavras, fornecer uma geração de genótipo para o locus. A título de exemplo, as sequências de ácidos nucleicos podem ser analisadas de acordo com os métodos e sistemas descritos na Publicação de Pedido de Patente US N° 2016/0085910 e na Publicação de Pedido de Patente US N° 2013/0296175, cujo objeto completo é expressamente incorporado por referência neste documento em sua totalidade.

[0295] Em uma implementação, um processo de sequenciamento inclui o recebimento de uma amostra que inclui ou é suspeita de incluir ácidos nucleicos, como o DNA. A amostra pode ser de uma fonte conhecida ou desconhecida, como um animal (por exemplo, humano), planta, bactéria ou fungo. A amostra pode ser coletada diretamente da fonte. Por exemplo, sangue ou saliva podem ser coletados diretamente de um indivíduo. Alternativamente, a amostra pode não ser obtida diretamente da fonte. Em seguida, um ou mais processadores direcionam o sistema para preparar a amostra para o sequenciamento. A preparação pode incluir remover material estranho e/ou isolar certo material (por exemplo, DNA). A amostra biológica pode ser preparada para incluir características para um ensaio particular. Por exemplo, a amostra biológica pode ser preparada para sequenciamento por síntese (SBS). Em certas implementações, a preparação pode incluir amplificação de certas regiões de um genoma. Por exemplo, a preparação pode incluir amplificar loci genéticos predeterminados que são conhecidos por incluir STRs e/ou SNPs. Os loci genéticos podem ser amplificados utilizando sequências iniciadoras predeterminadas.

[0296] Em seguida, os um ou mais processadores direcionam o sistema para sequenciar a amostra. O sequenciamento pode ser realizado através de uma variedade de protocolos conhecidos de sequenciamento. Em implementações específicas, o sequenciamento inclui SBS. No SBS, uma pluralidade de nucleotídeos marcados com fluorescência é usada para sequenciar uma pluralidade de aglomerados de DNA amplificado (possivelmente milhões de aglomerados) presentes na superfície de um substrato óptico (por exemplo, uma superfície que pelo menos parcialmente define um canal em uma célula de fluxo). As células de fluxo podem conter amostras de ácido nucleico para sequenciamento, onde as células de fluxo são colocadas dentro dos suportes de células de fluxo apropriados.

[0297] Os ácidos nucleicos podem ser preparados de modo a compreender uma sequência primer conhecida que é adjacente a uma sequência alvo desconhecida. Para iniciar o primeiro ciclo de sequenciamento de SBS, um ou mais nucleotídeos marcados de maneira diferente e DNA polimerase, etc., podem ser escoados para/através da célula de fluxo por um sub-sistema de fluxo fluido. Um único tipo de nucleotídeo pode ser adicionado de cada vez, ou os nucleotídeos usados no procedimento de sequenciamento podem ser especialmente projetados para possuir uma propriedade de terminação reversível, permitindo assim que cada ciclo da reação de sequenciamento ocorra simultaneamente na presença de vários tipos de nucleotídeos marcados (por exemplo, A, C, T, G). Os nucleotídeos podem incluir porções marcadoras detectáveis, como fluoróforos. Onde os quatro nucleotídeos são misturados, a polimerase é capaz de selecionar a base correta a incorporar e cada sequência é estendida por uma única base. Os nucleotídeos não incorporados podem ser removidos por lavagem, fluindo uma solução de lavagem através da célula de fluxo. Um ou mais lasers podem excitar os ácidos nucleicos e induzir fluorescência. A fluorescência emitida a partir dos ácidos nucleicos é baseada nos fluoróforos da base incorporada e diferentes fluoróforos podem emitir diferentes comprimentos de onda da luz de emissão. Um reagente de desbloqueio pode ser adicionado à célula de fluxo para remover grupos terminadores reversíveis das cadeias de DNA que foram estendidas e detectadas. O reagente de desbloqueio pode então ser lavado fluindo uma solução de lavagem através da célula de fluxo. A célula de fluxo está então pronta para um ciclo adicional de sequenciamento começando com a introdução de um nucleotídeo marcado conforme estabelecido acima. As operações fluídicas e de detecção podem ser repetidas várias vezes para concluir uma execução de sequenciamento. Exemplos de métodos de sequenciamento são descritos, por exemplo, em Bentley et al., Nature 456: 53-59 (2008), Publicação Internacional No. WO 04/018497; Pat. U.S. N° 7,057,026; Publicação Internacional N° WO 91/06678; Publicação Internacional N° WO 07/123744; Pat. U.S. N° 7,329,492; Patente US N° 7,211,414; Patente US N° 7,315,019; Patente US N° 7,405,281 e Publicação de Pedido de Patente US N° 2008/0108082, cada uma das quais é incorporada neste documento por referência.

[0298] Em algumas implementações, os ácidos nucleicos podem ser ligados a uma superfície e amplificados antes ou durante o sequenciamento. Por exemplo, a amplificação pode ser realizada usando a amplificação em ponte para formar grupos de ácidos nucleicos em uma superfície. Métodos úteis de amplificação em ponte são descritos, por exemplo, na Patente US N° 5,641,658; Publicação do Pedido de Patente US N° 2002/0055100; Patente US N° 7,115,400; Publicação do Pedido de Patente US N° 2004/0096853; Publicação do Pedido de Patente US N° 2004/0002090; Publicação do Pedido de Patente US N° 2007/0128624; e Publicação do Pedido de Patente US N° 2008/0009420, cada uma das quais é incorporada neste documento por referência em sua totalidade. Outro método útil para amplificar ácidos nucleicos em uma superfície é a amplificação por círculo rolante (RCA), por exemplo, conforme descrito em Lizardi et al., Nat. Genet. 19:225-232 (1998) e Publicação do Pedido de Patente US N° 2007/0099208 A1, cada um dos quais é incorporado neste documento por referência.

[0299] Um exemplo de protocolo SBS explora nucleotídeos modificados com blocos 3' removíveis, por exemplo, conforme descrito na Publicação Internacional N° WO 04/018497, Publicação do Pedido de Patente US N° 2007/0166705A1 e Patente US N° 7,057,026, cada uma das quais é incorporada neste documento por referência. Por exemplo, ciclos repetidos de reagentes SBS podem ser entregues a uma célula de fluxo com ácidos nucleicos alvo ligados a eles, por exemplo, como resultado do protocolo de amplificação em ponte. Os aglomerados de ácidos nucleicos podem ser convertidos na forma de cadeia simples usando uma solução de linearização. A solução de linearização pode conter, por exemplo, uma endonuclease de restrição capaz de clivar uma cadeia de cada agrupamento. Outros métodos de clivagem podem ser usados como uma alternativa às enzimas de restrição ou enzimas de corte, incluindo, entre outros, a clivagem química (por exemplo, clivagem de uma ligação diol com periodato), clivagem de sítios abásicos por clivagem com endonuclease (por exemplo, "USER", conforme fornecido por NEB, Ipswich, Mass., EUA, número de peça M5505S), por exposição ao calor ou álcalis, clivagem de ribonucleotídeos incorporados em produtos de amplificação compreendidos de outro modo por desoxirribonucleotídeos, clivagem fotoquímica ou clivagem de um ligante peptídico. Após a operação de linearização, um primer de sequenciamento pode ser entregue à célula de fluxo sob condições para hibridação do primer de sequenciamento com os ácidos nucleicos alvo que devem ser sequenciados.

[0300] Uma célula de fluxo pode então ser contatada com um reagente de extensão SBS possuindo nucleotídeos modificados com blocos removíveis 3' e marcadores fluorescentes sob condições para estender um primer hibridizado com cada ácido nucleico alvo por uma única adição de nucleotídeo. Apenas um único nucleotídeo é adicionado a cada primer, porque uma vez que o nucleotídeo modificado foi incorporado à cadeia polinucleotídica crescente complementar à região do molde que está sendo sequenciado, não há grupo 3'-OH livre disponível para direcionar a extensão da sequência adicional e, portanto, a polimerase não pode adicionar mais nucleotídeos. O reagente de extensão SBS pode ser removido e substituído por reagente de varredura contendo componentes que protegem a amostra sob excitação com radiação. Exemplos de componentes para reagentes de varredura são descritos na Publicação do Pedido de Patente US N° 2008/0280773 A1 e no Pedido de Patente US N° 13/018,255, cada um dos quais é incorporado neste documento por referência. Os ácidos nucleicos estendidos podem então ser detectados por fluorescência na presença do reagente de varredura. Uma vez detectada a fluorescência, o bloco 3' pode ser removido usando um reagente de desbloqueio adequado ao grupo de blocos utilizado. Exemplos de reagentes de desbloqueio que são úteis para os respectivos grupos de blocos são descritos em WO004018497, US 2007/0166705A1 e Patente US N° 7,057,026, cada uma das quais é incorporada neste documento por referência. O reagente de desbloqueio pode ser lavado, deixando os ácidos nucleicos alvo hibridizados com primers estendidos com grupos 3'-OH que são agora competentes para a adição de um nucleotídeo adicional. Consequentemente, os ciclos de adição de reagente de extensão, reagente de varredura e reagente de desbloqueio, com lavagens opcionais entre uma ou mais das operações, podem ser repetidos até que uma sequência desejada seja obtida. Os ciclos acima podem ser realizados usando uma operação de entrega de reagente de extensão única por ciclo quando cada um dos nucleotídeos modificados tem um marcador diferente ligado a ele, conhecido por corresponder à base particular. Os diferentes marcadores facilitam a discriminação entre os nucleotídeos adicionados durante cada operação de incorporação. Alternativamente, cada ciclo pode incluir operações separadas de entrega de reagentes de extensão seguidas por operações separadas de entrega e detecção de reagentes de varredura, caso em que dois ou mais dos nucleotídeos podem ter o mesmo marcador e podem ser distinguidos com base na ordem de entrega conhecida.

[0301] Embora a operação de sequenciamento tenha sido discutida acima com relação a um protocolo SBS específico, será entendido que outros protocolos para sequenciar qualquer uma de uma variedade de outras análises moleculares podem ser realizados conforme desejado.

[0302] Em seguida, um ou mais processadores do sistema recebem os dados de sequenciamento para análise subsequente. Os dados de sequenciamento podem ser formatados de várias maneiras, como em um arquivo .BAM. Os dados de sequenciamento podem incluir, por exemplo, um número de leituras de amostra. Os dados de sequenciamento podem incluir uma pluralidade de leituras de amostra que possuem sequências de amostra correspondentes dos nucleotídeos. Embora apenas uma leitura de amostra seja discutida, deve-se entender que os dados de sequenciamento podem incluir, por exemplo, centenas, milhares, centenas de milhares ou milhões de leituras de amostra. Diferentes leituras de amostras podem ter diferentes números de nucleotídeos. Por exemplo, uma amostra de leitura pode variar entre 10 nucleotídeos e cerca de 500 nucleotídeos ou mais. As leituras de amostra podem abranger todo o genoma da(s) fonte(s). Como um exemplo, as leituras da amostra são direcionadas para loci genéticos predeterminados, como aqueles loci genéticos com suspeita de STRs ou suspeita de SNPs.

[0303] Cada leitura de amostra pode incluir uma sequência de nucleotídeos, que pode ser referida como uma sequência de amostra, fragmento de amostra ou uma sequência alvo. A sequência de amostra pode incluir, por exemplo, sequências primer, sequências de flanqueamento e uma sequência alvo. O número de nucleotídeos dentro da sequência de amostra pode incluir 30, 40, 50, 60, 70, 80, 90, 100 ou mais. Em algumas implementações, uma ou mais das leituras de amostra (ou sequências de amostras) incluem pelo menos 150 nucleotídeos, 200 nucleotídeos, 300 nucleotídeos, 400 nucleotídeos, 500 nucleotídeos ou mais. Em algumas implementações, as leituras de amostra podem incluir mais de 1000 nucleotídeos, 2000 nucleotídeos ou mais. As leituras da amostra (ou as sequências da amostra) podem incluir sequências primer em uma ou nas duas extremidades.

[0304] Em seguida, os um ou mais processadores analisam os dados de sequenciamento para obter chamadas de variante em potencial e uma frequência de variante de amostra das chamadas de variante de amostra. A operação também pode ser referida como um aplicativo de chamada de variante ou chamador de variante. Assim, o chamador de variantes identifica ou detecta variantes e o classificador de variantes classifica as variantes detectadas como somáticas ou de linhagens germinativas. Os chamadores de variantes alternativos podem ser utilizados de acordo com as implementações deste documento, em que os diferentes chamadores de variantes podem ser utilizados com base no tipo de operação de sequenciamento que está sendo executada, com base em características da amostra que são de interesse e similares. Um exemplo não limitativo de um aplicativo de chamada de variante, como o aplicativo Pisces™ da Illumina Inc. (San Diego, CA) hospedado em https://github.com/Illumina/Pisces e descrito no artigo Dunn, Tamsen & Berry, Gwenn & Emig-Agius, Dorothea & Jiang, Yu & Iyer, Anita & Udar, Nitin & Stromberg, Michael. (2017). Pisces: An Accurate and Versatile Single Sample Somatic and Germline Variant Caller. 595-595. 10.1145/3107411.3108203, cujo objeto completo é expressamente incorporado no presente documento por referência na sua totalidade.

[0305] Esse aplicativo de chamada de variante pode compreender quatro módulos executados sequencialmente:

[0306] (1) Concatenador de Leitura Pisces: reduz o ruído ao concatenar leituras pareadas em um BAM (leitura uma e leitura dois da mesma molécula) em leituras de consenso. A saída é um BAM concatenado.

[0307] (2) Chamador de Variante Pisces: gera SNVs pequenos, inserções e deleções. Pisces inclui um algoritmo de colapso de variante para unir variantes divididas por limites de leitura, algoritmos básicos de filtragem e um algoritmo simples de pontuação de confiança baseado em Poisson. A saída é um VCF.

[0308] (3) Recalibrador de Qualidade de Variante Pisces (VQR): no caso dos chamadores de variantes seguirem predominantemente um padrão associado a danos térmicos ou desaminação de FFPE, a etapa VQR rebaixará a pontuação de variante Q dos chamadores de variantes suspeitas. A saída é um VCF ajustado.

[0309] (4) Faseador de Variante Pisces (Scylla): usa um método de agrupamento ganancioso com suporte de leitura para montar pequenas variantes em alelos complexos a partir de subpopulações clonais. Isso permite a determinação mais precisa das consequências funcionais pelas ferramentas a jusante. A saída é um VCF ajustado.

[0310] Adicionalmente ou alternativamente, a operação pode utilizar o aplicativo Strelka™ do aplicativo de geração variante da Illumina Inc. hospedado em https://github.com/Illumina/strelka e descrito no artigo T Saunders, Christopher & Wong, Wendy & Swamy, Sajani & Becq, Jennifer e J. Murray, Lisa e Cheetham, Keira. (2012). Strelka: Accurate somatic smallvariant calling from sequenced tumor-normal sample pairs. Bioinformatics (Oxford, Inglaterra). 28. 1811-7. 10.1093/bioinformatics/bts271, cujo objeto completo é expressamente incorporado no presente documento por referência na sua totalidade. Além disso, adicionalmente ou alternativamente, a operação pode utilizar o aplicativo Strelka2™ do aplicativo de chamada de variante da Illumina Inc. hospedado em https://github.com/Illumina/strelka e descrito no artigo Kim, S., Scheffler, K., Halpern, A.L., Bekritsky, M.A., Noh, E., Kallberg, M., Chen, X., Beyter, D., Krusche, P. e Saunders, C.T. (2017). Strelka2: Fast and accurate variant calling for clinical sequencing applications, the complete subject matter of which is expressly incorporated herein by reference in its entirety. Além disso, adicionalmente ou alternativamente, a operação pode utilizar uma ferramenta de anotação/chamada de variante, como o aplicativo Nirvana™ da Illumina Inc. hospedado em https://github.com/Illumina/Nirvana/wiki e descrito no artigo Stromberg, Michael & Roy, Rajat & Lajugie, Julien & Jiang, Yu & Li, Haochen & Margulies, Elliott. (2017). Nirvana: Clinical Grade Variant Annotator. 596-596. 10.1145/3107411.3108204, cujo objeto completo é expressamente incorporado no presente documento por referência na sua totalidade.

[0311] Essa ferramenta de anotação/chamada de variante pode aplicar diferentes técnicas algorítmicas, como as divulgadas no Nirvana:

[0312] a. Identificação de todas as transcrições sobrepostas com Matriz de Intervalo: Para anotação funcional, podemos identificar todas as transcrições sobrepostas a uma variante e uma árvore de intervalo pode ser usada. No entanto, como um conjunto de intervalos pode ser estático, conseguimos otimizá-lo ainda mais para uma Matriz de Intervalo. Uma árvore de intervalo retorna todas as transcrições sobrepostas em O (min (n, k lg n)) tempo, em que n é o número de intervalos na árvore e k é o número de intervalos sobrepostos. Na prática, como k é realmente pequeno comparado a n para a maioria das variantes, o tempo de execução efetivo na árvore de intervalos seria O (k lg n). Aprimoramos para O (lg n + k) criando uma matriz de intervalos em que todos os intervalos são armazenados em uma matriz classificada, de forma que apenas precisamos encontrar o primeiro intervalo sobreposto e depois enumerar até o restante (k-1).

[0313] b. CNVs/SVs (Yu): podem ser fornecidas anotações para variação do número de cópias e variantes estruturais. Semelhante à anotação de pequenas variantes, transcrições sobrepostas ao SV e também variantes estruturais relatadas anteriormente podem ser anotadas em bancos de dados online. Diferentemente das pequenas variantes, nem todas as transcrições sobrepostas precisam ser anotadas, pois muitas transcrições serão sobrepostas com SVs grandes. Em vez disso, podem ser anotados todos os transcritos sobrepostos que pertencem a um gene sobreposto parcial. Especificamente, para essas transcrições, os íntrons, éxons e as consequências danificadas causadas pelas variantes estruturais podem ser relatados. Está disponível uma opção para permitir a saída de todas as transcrições sobrepostas, mas a informação básica para essas transcrições pode ser relatada, como símbolo do gene, sinalizando se é sobreposição canônica ou parcialmente sobreposta às transcrições. Para cada SV/CNV, também é interessante saber se essas variantes foram estudadas e suas frequências em diferentes populações. Portanto, relatamos SVs sobrepostos em bancos de dados externos, como 1000 genomas, DGV e ClinGen. Para evitar o uso de um ponto de corte arbitrário para determinar qual SV é sobreposto, em vez disso, todas as transcrições sobrepostas podem ser usadas e a sobreposição recíproca pode ser calculada, ou seja, o comprimento da sobreposição dividido pelo comprimento mínimo dessas duas SVs.

[0314] c. Relatar anotações suplementares: as anotações suplementares são de dois tipos: variantes pequenas e estruturais (SVs). As SVs podem ser modeladas como intervalos e usar a matriz de intervalos discutida acima para identificar SVs sobrepostas. Pequenas variantes são modeladas como pontos e correspondidas por posição e (opcionalmente) alelo. Como tal, elas são pesquisadas usando um algoritmo de pesquisa tipo binário. Como o banco de dados de anotação suplementar pode ser bastante grande, um índice muito menor é criado para mapear as posições dos cromossomos para localização de arquivos onde a anotação suplementar reside. O índice é uma matriz classificada de objetos (composta de posição do cromossomo e localização do arquivo) que podem ser pesquisados binariamente usando a posição. Para manter o tamanho do índice pequeno, várias posições (até uma certa contagem máxima) são compactadas em um objeto que armazena os valores para a primeira posição e apenas deltas para posições subsequentes. Como usamos a pesquisa binária, o tempo de execução é O(lg n), onde n é o número de itens no banco de dados.

[0315] d. Arquivos em cache VEP

[0316] e. Banco de dados de transcrição: os arquivos de banco de dados suplementar (SAdb) e cache de transcrição (cache) e são despejos serializados de objetos de dados, como transcrições e anotações suplementares. Usamos o cache Ensembl VEP como nossa fonte de dados para o cache. Para criar o cache, todas as transcrições são inseridas em uma matriz de intervalo e o estado final da matriz é armazenado nos arquivos de cache. Assim, durante a anotação, precisamos apenas carregar uma matriz de intervalos pré-calculada e realizar pesquisas nela. Como o cache é carregado na memória e a pesquisa é muito rápida (descrita acima), encontrar transcrições sobrepostas é extremamente rápido no Nirvana (com perfil de menos de 1% do tempo de execução total?).

[0317] f. Banco de dados suplementar: as fontes de dados SAdb estão listadas sob material suplementar. O SAdb para pequenas variantes é produzido por uma mesclagem k -way de todas as fontes de dados, de modo que cada objeto no banco de dados (identificado pelo nome e posição de referência) mantenha todas as anotações adicionais relevantes. Os problemas encontrados durante a análise dos arquivos da fonte de dados foram documentados em detalhes na home page do Nirvana. Para limitar o uso da memória, apenas o índice SA é carregado na memória. Esse índice permite uma pesquisa rápida do local do arquivo para uma anotação suplementar. No entanto, como os dados precisam ser buscados no disco, a adição de anotação suplementar foi identificada como o maior gargalo do Nirvana (com perfil de ~ 30% do tempo de execução total).

[0318] g. Ontologia de Sequência e Consequência: A anotação funcional do Nirvana (quando fornecida) segue as diretrizes da Ontologia de Sequência (SO) (http://www.sequenceontology.org/). Em algumas ocasiões, tivemos a oportunidade de identificar problemas na SO atual e colaborar com a equipe da SO para melhorar o estado da anotação.

[0319] Essa ferramenta de anotação de variantes pode incluir pré- processamento. Por exemplo, o Nirvana incluiu um grande número de anotações de fontes de dados externas, como ExAC, EVS, projeto 1000 Genomes, dbSNP, ClinVar, Cosmic, DGV e ClinGen. Para fazer pleno uso desses bancos de dados, precisamos sanear as informações deles. Implementamos diferentes estratégias para lidar com diferentes conflitos que existem em diferentes fontes de dados. Por exemplo, no caso de várias entradas do dbSNP para a mesma posição e alelo alternativo, juntamos todos os IDs em uma lista de IDs separados por vírgula; se houver várias entradas com diferentes valores de CAF para o mesmo alelo, usamos o primeiro valor de CAF. Para entradas ExAC e EVS conflitantes, consideramos o número de contagens de amostras e a entrada com maior contagem de amostras é usada. No projeto 1000 Genome, removemos a frequência alélica do alelo conflitante. Outro problema são informações imprecisas. Extraímos principalmente as informações de frequências alélicas do 1000 Genome Projects, no entanto, observamos que, para GRCh38, a frequência alélica relatada no campo info não excluiu amostras com o genótipo não disponível, levando a frequências deflacionadas para variantes que não estão disponíveis para todas as amostras. Para garantir a precisão de nossa anotação, usamos todo o genótipo a nível individual para calcular as verdadeiras frequências alélicas. Como sabemos, as mesmas variantes podem ter representações diferentes com base em alinhamentos diferentes. Para garantir que possamos relatar com precisão as informações das variantes já identificadas, precisamos pré-processar as variantes de diferentes recursos para que elas tenham uma representação consistente. Para todas as fontes de dados externas, aparamos alelos para remover nucleotídeos duplicados no alelo de referência e no alelo alternativo. Para o ClinVar, analisamos diretamente o arquivo xml, realizamos um alinhamento de cinco números primos para todas as variantes, que geralmente é usado no arquivo vcf. Bancos de dados diferentes podem conter o mesmo conjunto de informações. Para evitar duplicatas desnecessárias, removemos algumas informações duplicadas. Por exemplo, removemos variantes no DGV que possui fonte de dados como os projetos 1000 genoma, pois já relatamos essas variantes em 1000 genomas com informações mais detalhadas.

[0320] De acordo com pelo menos algumas implementações, o aplicativo de chamada de variante fornece chamadores para variantes de baixa frequência, chamada de linhagem germinativa e similares. Como exemplo não limitativo, o aplicativo de chamada de variante pode ser executado em amostras apenas de tumor e/ou amostras pareadas normais de tumor. O aplicativo de chamada de variante pode procurar variações de nucleotídeo único (SNV), múltiplas variações de nucleotídeo (MNV), indels e similares. O aplicativo de chamada de variante identifica variantes, enquanto filtra as incompatibilidades devido a erros de sequenciamento ou erro de preparação de amostras. Para cada variante, o chamadores de variante identifica a sequência de referência, uma posição da variante e a(s) sequência(s) de variante em potencial (por exemplo, SNV de A a C, ou deleção AG a A). O aplicativo de chamada de variante identifica a sequência de amostra (ou fragmento de amostra), uma sequência/fragmento de referência e uma chamada de variante como uma indicação de que uma variante está presente. O aplicativo de chamada de variante pode identificar fragmentos não processados e gerar uma designação dos fragmentos não processados, uma contagem do número de fragmentos não processados que verificam a chamada de variante potencial, a posição dentro do fragmento não processado em que ocorreu uma variante de suporte e outras informações relevantes. Exemplos não limitativos de fragmentos brutos incluem um fragmento concatenado duplex, um fragmento concatenado simplex, um fragmento não concatenado duplex e um fragmento não concatenado simplex.

[0321] O aplicativo de chamada de variante pode gerar as chamadas em vários formatos, como em um arquivo .VCF ou .GVCF. Apenas a título de exemplo, o aplicativo de chamada de variante pode ser incluído em um pipeline MiSeqReporter (por exemplo, quando implementado no instrumento sequenciador MiSeq®). Opcionalmente, o aplicativo pode ser implementado com vários fluxos de trabalho. A análise pode incluir um único protocolo ou uma combinação de protocolos que analisam as leituras da amostra de uma maneira designada para obter as informações desejadas.

[0322] Em seguida, os um ou mais processadores executam uma operação de validação em conexão com a chamada de variante potencial. A operação de validação pode ser baseada em uma pontuação de qualidade e/ou em uma hierarquia de testes em camadas, conforme explicado a seguir. Quando a operação de validação autentica ou verifica a chamada de variante potencial, a operação de validação passa as informações da chamada de variante (do aplicativo de chamada de variante) para o gerador de relatório de amostra. Como alternativa, quando a operação de validação invalida ou desqualifica a chamada de variante potencial, a operação de validação passa uma indicação correspondente (por exemplo, um indicador negativo, um indicador de não chamada, um indicador de chamada inválido) para o gerador de relatório de amostra. A operação de validação também pode passar uma pontuação de confiança relacionada a um grau de confiança que a chamada de variante está correta ou a designação de chamada inválida está correta.

[0323] Em seguida, os um ou mais processadores geram e armazenam um relatório de amostra. O relatório de amostra pode incluir, por exemplo, informações sobre uma pluralidade de loci genéticos em relação à amostra. Por exemplo, para cada locus genético de um conjunto predeterminado de loci genéticos, o relatório de amostra pode pelo menos um dentre fornecer uma chamada de genótipo; indicar que uma chamada de genótipo não pode ser feita; fornecer uma pontuação de confiança em uma certeza da chamada do genótipo; ou indicar possíveis problemas com um ensaio em relação a um ou mais loci genéticos. O relatório de amostra também pode indicar o gênero de um indivíduo que forneceu uma amostra e/ou indicar que a amostra inclui várias fontes. Conforme usado neste documento, um "relatório de amostra" pode incluir dados digitais (por exemplo, um arquivo de dados) de um locus genético ou conjunto predeterminado de locus genético e/ou um relatório impresso do locus genético ou dos conjuntos de loci genéticos. Assim, gerar ou fornecer pode incluir a criação de um arquivo de dados e/ou impressão do relatório de amostra ou exibição do relatório de amostra.

[0324] O relatório de amostra pode indicar que uma chamada de variante foi determinada, mas não foi validada. Quando uma chamada de variante é considerada inválida, o relatório de amostra pode indicar informações adicionais sobre a base para a determinação de não validar a chamada de variante. Por exemplo, as informações adicionais no relatório podem incluir uma descrição dos fragmentos brutos e uma extensão (por exemplo, uma contagem) na qual os fragmentos brutos suportam ou contradizem a chamada de variante. Adicional ou alternativamente, as informações adicionais no relatório podem incluir a pontuação de qualidade obtida de acordo com as implementações descritas neste documento. Aplicativo de Chamada de Variante

[0325] As implementações divulgadas neste documento incluem a análise de dados de sequenciamento para identificar chamadas de variantes potenciais. A chamada de variante pode ser realizada com dados armazenados para uma operação de sequenciamento realizada anteriormente. Adicionalmente ou alternativamente, pode ser realizado em tempo real enquanto uma operação de sequenciamento está sendo executada. Cada uma das leituras da amostra é atribuída aos loci genéticos correspondentes. As leituras da amostra podem ser atribuídas aos loci genéticos correspondentes com base na sequência dos nucleotídeos da amostra lida ou, em outras palavras, na ordem dos nucleotídeos na leitura da amostra (por exemplo, A, C, G, T). Com base nessa análise, a amostra lida pode ser designada como incluindo uma possível variante/alelo de um locus genético específico. A leitura da amostra pode ser coletada (ou agregada ou agrupada) com outras leituras da amostra que foram designadas como incluindo possíveis variantes/alelos do locus genético. A operação de atribuição também pode ser referida como uma operação de chamada na qual a leitura da amostra é identificada como possivelmente associada a uma posição/locus genético específico. As leituras de amostra podem ser analisadas para localizar uma ou mais sequências de identificação (por exemplo, sequências primer) de nucleotídeos que diferenciam a leitura de amostra de outras leituras de amostra. Mais especificamente, a(s) sequência(s) de identificação pode(m) identificar a leitura de amostra de outras amostras como estando associada a um locus genético específico.

[0326] A operação de atribuição pode incluir a análise da série de n nucleotídeos da sequência de identificação para determinar se a série de n nucleotídeos da sequência de identificação combina efetivamente com uma ou mais das sequências selecionadas. Em implementações particulares, a operação de atribuição pode incluir a análise dos primeiros n nucleotídeos da sequência de amostra para determinar se os primeiros n nucleotídeos da sequência de amostra correspondem efetivamente a uma ou mais das sequências selecionadas. O número n pode ter uma variedade de valores, que podem ser programados no protocolo ou inseridos por um usuário. Por exemplo, o número n pode ser definido como o número de nucleotídeos da menor sequência de seleção dentro do banco de dados. O número n pode ser um número predeterminado. O número predeterminado pode ser, por exemplo, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 ou 30 nucleotídeos. No entanto, menos ou mais nucleotídeos podem ser usados em outras implementações. O número n também pode ser selecionado por um indivíduo, como um usuário do sistema. O número n pode ser baseado em uma ou mais condições. Por exemplo, o número n pode ser definido como o número de nucleotídeos da sequência primer mais curta dentro do banco de dados ou de um número designado, o que for menor em número. Em algumas implementações, um valor mínimo para n pode ser usado, como 15, de modo que qualquer sequência primer que seja menor que 15 nucleotídeos possa ser designada como uma exceção.

[0327] Em alguns casos, a série de n nucleotídeos de uma sequência de identificação pode não corresponder exatamente aos nucleotídeos da sequência de seleção. No entanto, a sequência de identificação pode efetivamente corresponder à sequência de seleção se a sequência de identificação for quase idêntica à sequência de seleção. Por exemplo, a leitura da amostra pode ser chamada para o locus genético se a série de n nucleotídeos (por exemplo, os primeiros n nucleotídeos) da sequência de identificação corresponderem a uma sequência selecionada com não mais que um número designado de incompatibilidades (por exemplo, 3) e/ou um número designado de deslocamentos (por exemplo, 2). Regras podem ser estabelecidas de modo que cada incompatibilidade ou deslocamento possa contar como uma diferença entre a leitura da amostra e a sequência primer. Se o número de diferenças for menor que um número designado, a leitura da amostra poderá ser chamada para o locus genético correspondente (ou seja, atribuído ao locus genético correspondente). Em algumas implementações, uma pontuação correspondente pode ser determinada com base no número de diferenças entre a sequência de identificação da leitura da amostra e a sequência selecionada associada a um locus genético. Se a pontuação correspondente ultrapassar um limiar de correspondência designado, o locus genético que corresponde à sequência selecionada pode ser designado como um locus potencial para a leitura da amostra. Em algumas implementações, análises subsequentes podem ser realizadas para determinar se a leitura da amostra é chamada para o locus genético.

[0328] Se a leitura da amostra corresponder efetivamente a uma das sequências selecionadas no banco de dados (ou seja, corresponde exatamente ou quase corresponde conforme descrito acima), a leitura da amostra é atribuída ou designada ao locus genético que se correlaciona com a sequência selecionada. Isso pode ser chamado de chamada de locus ou chamada de locus provisória, em que a leitura da amostra é chamada para o locus genético que se correlaciona com a sequência selecionada. No entanto, como discutido acima, uma leitura de amostra de pode ser solicitada para mais de um locus genético. Em tais implementações, análises adicionais podem ser realizadas para chamar ou atribuir a leitura de amostra para apenas um dos potenciais loci genéticos. Em algumas implementações, a leitura de amostra comparada ao banco de dados de sequências de referência é a primeira leitura do sequenciamento de extremidade pareada. Ao executar o sequenciamento de extremidade pareada, é obtida uma segunda leitura (representando um fragmento bruto) que se correlaciona com a leitura de amostra. Após a atribuição, a análise subsequente que é realizada com as leituras atribuídas pode ser baseada no tipo de locus genético que foi chamado para a leitura atribuída.

[0329] Em seguida, as leituras de amostra são analisadas para identificar possíveis variantes chamadas. Entre outras coisas, os resultados da análise identificam a variante chamada potencial, uma frequência de variante de amostra, uma sequência de referência e uma posição na sequência genômica de interesse em que a variante ocorreu. Por exemplo, se um locus genético for conhecido por incluir SNPs, as leituras atribuídas que foram chamadas para o locus genético poderão ser analisadas para identificar os SNPs das leituras atribuídas. Se o locus genético for conhecido por incluir elementos de DNA repetitivo polimórfico, as leituras atribuídas poderão ser analisadas para identificar ou caracterizar os elementos de DNA repetitivo polimórfico nas leituras da amostra. Em algumas implementações, se uma leitura atribuída corresponder efetivamente a um locus STR e um locus SNP, um aviso ou sinalizador poderá ser atribuído à leitura de amostra. A leitura da amostra pode ser designada como um locus STR e um locus SNP. A análise pode incluir o alinhamento das leituras atribuídas de acordo com um protocolo de alinhamento para determinar sequências e/ou comprimentos das leituras atribuídas. O protocolo de alinhamento pode incluir o método descrito no Pedido de Patente Internacional N° PCT/US2013/030867 (Publicação N° WO 2014/142831), depositado em 15 de março de 2013, que é incorporado neste documento por referência na sua totalidade.

[0330] Em seguida, um ou mais processadores analisam fragmentos brutos para determinar se existem variantes de suporte nas posições correspondentes nos fragmentos brutos. Vários tipos de fragmentos brutos podem ser identificados. Por exemplo, o chamador de variante pode identificar um tipo de fragmento bruto que exibe uma variante que valida a variante chamada original. Por exemplo, o tipo de fragmento bruto pode representar um fragmento concatenado duplex, um fragmento concatenado simplex, um fragmento não concatenado duplex ou um fragmento não concatenado simplex. Opcionalmente, outros fragmentos brutos podem ser identificados em vez de ou além dos exemplos anteriores. Em conexão com a identificação de cada tipo de fragmento bruto, o chamador da variante também identifica a posição, dentro do fragmento bruto, na qual a variante de suporte ocorreu, bem como uma contagem do número de fragmentos brutos que exibiram a variante de suporte. Por exemplo, o chamador variante pode gerar uma indicação de que 10 leituras de fragmentos brutos foram identificadas para representar fragmentos concatenados duplex com uma variante de suporte em uma posição específica X. O chamador variante também pode gerar indicação de que cinco leituras de fragmentos brutos foram identificadas para representar fragmentos não concatenados simplex com uma variante de suporte em uma posição específica Y. O chamador da variante também pode gerar um número de fragmentos brutos que corresponderam às sequências de referência e, portanto, não incluiu uma variante de suporte que, de outra forma, forneceria evidências para validar a variante chamada potencial na sequência genômica de interesse.

[0331] Em seguida, é mantida uma contagem dos fragmentos brutos que incluem variantes de suporte, bem como a posição na qual a variante de suporte ocorreu. Adicionalmente ou alternativamente, pode ser mantida uma contagem dos fragmentos brutos que não incluíram variantes de suporte na posição de interesse (em relação à posição da chamada de variante potencial na leitura da amostra ou fragmento da amostra). Adicional ou alternativamente, uma contagem pode ser mantida de fragmentos brutos que correspondem a uma sequência de referência e não autenticam ou confirmam a chamada de variante potencial. As informações determinadas são geradas para o aplicativo de validação de chamada de variante, incluindo uma contagem e o tipo de fragmentos brutos que suportam a chamada de variante potencial, posições da variância de suporte nos fragmentos brutos, uma contagem dos fragmentos brutos que não suportam a chamada de variante potencial e afins.

[0332] Quando uma chamada de variante potencial é identificada, o processo gera uma indicação da chamada de variante potencial, a sequência da variante, a posição da variante e uma sequência de referência associada a ela. A chamada de variante é designada para representar uma variante "potencial", pois erros podem fazer com que o processo de chamada identifique uma variante falsa. De acordo com as implementações deste documento, a chamada de variante em potencial é analisada para reduzir e eliminar variantes falsas ou falsos positivos. Adicional ou alternativamente, o processo analisa um ou mais fragmentos brutos associados a uma amostra lida e gera uma chamada de variante correspondente associada aos fragmentos brutos. Geração de Conjunto de Treinamento Benigno

[0333] Milhões de genomas e exomas humanos foram sequenciados, mas suas aplicações clínicas permanecem limitadas devido à dificuldade de distinguir mutações causadoras de doenças e variações genéticas benignas. Aqui demonstramos que variantes missense comuns em outras espécies de primatas são amplamente clinicamente benignas em humanos, permitindo que mutações patogênicas sejam sistematicamente identificadas pelo processo de eliminação. Usando centenas de milhares de variantes comuns do sequenciamento populacional de seis espécies de primatas não humanos, treinamos uma rede neural profunda que identifica mutações patogênicas em pacientes com doenças raras com 88% de precisão e permite a descoberta de 14 novos genes candidatos na deficiência intelectual na significância de abrangência genômica. A catalogação de variações comuns de espécies adicionais de primatas melhoraria a interpretação de milhões de variantes de significado incerto, avançando ainda mais a utilidade clínica do sequenciamento do genoma humano.

[0334] A ação clínica do sequenciamento diagnóstico é limitada pela dificuldade de interpretar variantes genéticas raras em populações humanas e inferir seu impacto no risco da doença. Devido aos seus efeitos deletérios na aptidão física, variantes genéticas clinicamente significativas tendem a ser extremamente raras na população e, para a grande maioria, seus efeitos na saúde humana não foram determinados. O grande número e raridade dessas variantes de significado clínico incerto apresentam um obstáculo formidável à adoção do sequenciamento para medicamentos individualizados e exames de saúde em toda a população.

[0335] A maioria das doenças mendelianas penetrantes tem uma prevalência muito baixa na população, portanto a observação de uma variante em altas frequências na população é uma forte evidência em favor de consequências benignas. Testar variação comum entre diversas populações humanas é uma estratégia eficaz para catalogar variantes benignas, mas a quantidade total de variação comum em humanos atuais é limitada devido a eventos de gargalo na história recente de nossa espécie, durante os quais uma grande fração da diversidade ancestral foi perdida. Estudos populacionais de humanos atuais mostram uma inflação notável de um tamanho efetivo da população (Ne) de menos de 10.000 indivíduos nos últimos 15.000 a 65.000 anos, e o pequeno pool de polimorfismos comuns remonta à capacidade limitada de variação em uma população deste tamanho. Entre mais de 70 milhões de potenciais substituições missense que alteram proteínas no genoma de referência, apenas aproximadamente 1 em 1.000 está presente em mais de 0,1% da frequência alélica total da população.

[0336] Fora das populações humanas modernas, os chimpanzés compreendem a próxima espécie existente mais próxima e compartilham 99,4% de identidade de sequência de aminoácidos. A quase identidade da sequência de codificação de proteínas em humanos e chimpanzés sugere que a seleção purificadora que opera nas variantes de codificação de proteínas do chimpanzé também pode modelar as consequências na aptidão de mutações humanas que são idênticas por estado.

[0337] Como o tempo médio para os polimorfismos neutros persistirem na linhagem humana ancestral (~4Ne gerações) é uma fração do tempo de divergência da espécie (~ 6 milhões de anos atrás), a variação do chimpanzé que ocorre naturalmente explora o espaço mutacional que é amplamente não sobreposto, exceto por acaso, além de casos raros de haplótipos mantidos pelo equilíbrio da seleção. Se polimorfismos idênticos por estado afetam de forma semelhante a aptidão nas duas espécies, a presença de uma variante em altas frequências alélicas nas populações de chimpanzés deve indicar consequência benigna em humanos, expandindo o catálogo de variantes conhecidas cuja consequência benigna foi estabelecida pela seleção de purificação. Resultados - Variantes Comuns em Outros Primatas são Amplamente Benignas em Humanos

[0338] A recente disponibilidade de dados agregados do exoma, compreendendo 123.136 seres humanos coletados no Exome Aggregation Consortium (ExAC) e no Genome Aggregation Database (gnomAD), permite medir o impacto da seleção natural nas mutações missense e sinônima em todo o espectro de frequências alélicas. As variantes raras de singleton que são observadas apenas uma vez na coorte coincidem estreitamente com a proporção esperada de missense/sinônimo de 2,2/1 prevista pela mutação de novo após o ajuste para os efeitos do contexto trinucleotídico na taxa mutacional (FIG. 49A , FIG. 51 e FIGs. 52A, 52B, 52Ce 52D), mas em frequências alélicas mais altas o número de variantes missense observadas diminui devido à eliminação de mutações deletérias por seleção natural. A diminuição gradual da proporção missense/sinônimo com o aumento da frequência alélica é consistente com uma fração substancial de variantes missense de frequência populacional <0,1%, com uma consequência levemente deletéria, apesar de ser observada em indivíduos saudáveis. Essas descobertas apoiam a prática empírica disseminada por laboratórios de diagnóstico de filtrar variantes com frequência alélica superior a 0,1% ~ 1% como provavelmente benigna para doenças genéticas penetrantes, além de algumas exceções bem documentadas causadas pelo equilíbrio entre efeitos de fundador e seleção.

[0339] Identificamos variantes comuns de chimpanzés que foram amostradas duas ou mais vezes em uma coorte de 24 indivíduos não relacionados; estimamos que 99,8% dessas variantes são comuns na população geral de chimpanzés (frequência alélica (FA)> 0,1%), indicando que essas variantes já passaram pela peneira da seleção purificadora. Examinamos o espectro de frequência alélica humana para as variantes humanas idênticas por estado correspondentes (FIG. 49B), excluindo a região maior do complexo de histocompatibilidade estendida como uma região conhecida da seleção de balanceamento, juntamente com variantes sem um mapeamento individual no o alinhamento de sequências múltiplas. Para variantes humanas que são idênticas por estado com variantes comuns de chimpanzés, a proporção missense/sinônimo é amplamente constante em todo o espectro de frequências alélicas humanas (P> 0,5 pelo teste Qui-quadrado (x2)), o que é consistente com a ausência de seleção negativa contra variantes comuns de chimpanzé na população humana e coeficientes de seleção concordantes em variantes missense nas duas espécies. A baixa proporção missense/sinônimo observada em variantes humanas que são idênticas por estado com variantes comuns de chimpanzé é consistente com o maior tamanho efetivo da população no chimpanzé (Ne~73.000), o que permite uma filtragem mais eficiente de variação levemente deletérias.

[0340] Por outro lado, para variantes de chimpanzé singleton (amostradas apenas uma vez na coorte), observamos uma diminuição significativa na proporção missense/sinônimo nas frequências alélicas comuns (P <5,8 x 10—6; FIGURA 49C), indicando que 24% das variantes missense de chimpanzé singleton seriam filtradas por seleção de purificação em populações humanas em frequências alélicas maiores que 0,1%. Essa depleção indica que uma fração significativa das variantes singleton de chimpanzé são mutações deletérias raras cujos efeitos prejudiciais na aptidão física os impediram de atingir frequências alélicas comuns em ambas as espécies. Estimamos que apenas 69% das variantes singleton são comuns (AF> 0,1%) na população geral de chimpanzés.

[0341] Em seguida, identificamos variantes humanas que são idênticas por estado com a variação observada em pelo menos uma das seis espécies de primatas não humanos. A variação em cada uma das seis espécies foi verificada a partir do projeto do genoma do hominídeo (chimpanzé, bonobo, gorila e orangotango) ou foi submetida ao Single Nucleotide Polymorphism Database (dbSNP) a partir dos projetos de genoma dos primatas (macaco rhesus, sagui) e representam amplamente variantes comuns com base no número limitado de indivíduos sequenciados e na baixa proporção missense:sinônima observada para cada espécie (Tabela Suplementar 1). Semelhante ao chimpanzé, descobrimos que as proporções missense/sinônimo para variantes das seis espécies de primatas não humanos são aproximadamente iguais em todo o espectro de frequências alélicas humanas, exceto uma leve depleção da variação missense em frequências de alélicas comuns (FIGURA 49D, FIGURAS 53, 54 e 55, Arquivo de Dados Complementares 1), que é esperado devido à inclusão de uma minoria de variantes raras (~16% com menos de 0,1% de frequência alélica no chimpanzé e menos em outras espécies devido ao menor número de indivíduos sequenciados). Esses resultados sugerem que os coeficientes de seleção em variantes missense idênticas por estado são concordantes dentro da linhagem de primatas, pelo menos até os macacos do Novo Mundo, que estima-se que tenham divergido da linhagem ancestral humana ~35 milhões de anos atrás.

[0342] Descobrimos que variantes missense humanas idênticas por estado com variantes observadas de primatas são fortemente enriquecidas por consequências benignas no banco de dados ClinVar. Após excluir variantes de significância incerta e aquelas com anotações conflitantes, as variantes do ClinVar que estão presentes em pelo menos uma espécie de primata não humano são anotadas como benignas ou provavelmente benignas 90% do tempo, em média, em comparação com 35% para as variantes missense do ClinVar em geral (P <10-40; FIGURA 49E). A patogenicidade das anotações do ClinVar para variantes de primatas é um pouco maior do que a observada na amostragem de uma coorte de tamanho semelhante de humanos saudáveis (~ 95% de consequência benignas ou provavelmente benignas, P = 0,07) excluindo variantes humanas com frequência alélica maior que 1% para reduzir o viés de curadoria.

[0343] O campo da genética humana há muito depende de organismos modelo para inferir o impacto clínico das mutações humanas, mas a longa distância evolutiva para a maioria dos modelos animais geneticamente tratáveis suscita preocupações sobre a extensão em que essas descobertas em organismos modelos são generalizáveis ao ser humano. Estendemos nossa análise além da linhagem de primatas para incluir variações amplamente comuns de quatro espécies adicionais de mamíferos (camundongo, porco, cabra e vaca) e duas espécies de vertebrados mais distantes (frango e peixe-zebra). Selecionamos espécies com avaliação de abrangência genômica suficiente de variação no dbSNP, e confirmamos que essas são variantes amplamente comuns, com base em proporções missense/sinônima sendo muito inferiores a 2,2/1. Em contraste com nossas análises de primatas, mutações missense humanas que são idênticas por estado com variação em espécies mais distantes são marcadamente depletadas em frequências alélicas comuns (FIGURA 50A), e a magnitude dessa depleção aumenta a distâncias evolutivas mais longas (FIGURA 50B e Tabelas Suplementares 2 e 3).

[0344] As mutações missense deletérias em humanos, mas toleradas em altas frequências alélicas em espécies mais distantes, indicam que os coeficientes de seleção para mutações missense idênticas por estado divergiram substancialmente entre humanos e espécies mais distantes. No entanto, a presença de uma variante missense em mamíferos mais distantes ainda aumenta a probabilidade de consequências benignas, pois a fração de variantes missense depletadas pela seleção natural em frequências alélicas comuns é menor que a depleção de ~50% observada para variantes missense humanas em geral (FIGURA 49A). Consistente com esses resultados, descobrimos que as variantes missense ClinVar observadas em camundongos, porcos, cabras e vacas têm 73% de probabilidade de serem anotadas com consequências benignas ou provavelmente benignas, em comparação com 90% para variação de primatas (P <2 xio-8; FIGURA 50C) e 35% para o banco de dados ClinVar em geral.

[0345] Para confirmar que a distância evolutiva, e não o artefato de domesticação, a principal força motriz da divergência dos coeficientes de seleção, repetimos a análise usando substituições fixas entre pares de espécies intimamente relacionadas, em vez de polimorfismos intraespécies em uma ampla gama de distâncias evolutivas (FIGURA 50D, Tabela Suplementar 4 e Arquivo de Dados Suplementares 2). Descobrimos que a depleção de variantes missense humanas idênticas por estado com substituições fixas entre espécies aumenta com o comprimento dos ramos evolutivos, sem diferença discernível para espécies selvagens em comparação com as expostas à domesticação. Isso concorda com o trabalho anterior em moscas e leveduras, que constatou que o número de substituições missense fixas idênticas por estado foi menor que o esperado por acaso em linhagens divergentes. Rede de Aprendizagem Profunda para Classificação de Patogenicidade Variante

[0346] A tecnologia divulgada fornece uma rede de aprendizagem profunda para a classificação de patogenicidade de variantes. A importância da classificação de variantes para aplicações clínicas inspirou inúmeras tentativas de usar a aprendizagem de máquina supervisionada para resolver o problema, mas esses esforços foram prejudicados pela falta de um conjunto de dados verdadeiro de tamanho adequado contendo variantes benignas e patogênicas marcadas com segurança para o treinamento.

[0347] Os bancos de dados existentes de variantes humanas com curadoria de especialistas não representam todo o genoma, com ~ 50% das variantes no banco de dados ClinVar provenientes de apenas 200 genes (~ 1% dos genes de codificação da proteína humana). Além disso, estudos sistemáticos identificam que muitas anotações de especialistas humanos têm evidências de apoio questionáveis, ressaltando a dificuldade de interpretar variantes raras que podem ser observadas em apenas um único paciente. Embora a interpretação de especialistas humanos tenha se tornado cada vez mais rigorosa, as diretrizes de classificação são amplamente formuladas em torno de práticas de consenso e correm o risco de reforçar as tendências existentes. Para reduzir os vieses de interpretação humana, classificadores recentes foram treinados em polimorfismos humanos comuns ou substituições fixas de humanos- chimpanzés, mas esses classificadores também usam como entrada as pontuações de previsão de classificadores anteriores que foram treinados em bancos de dados com curadoria humana. A análise comparativa objetiva do desempenho desses vários métodos tem sido elusiva na ausência de um conjunto de dados verdadeiro independente e sem viés.

[0348] A variação dos seis primatas não humanos (chimpanzé, bonobo, gorila, orangotango, macaco rhesus e sagui) contribui com mais de 300.000 variantes missense únicas que não se sobrepõem à variação humana comum e representam amplamente variantes comuns de consequências benignas que foram passadas na peneira de seleção de purificação, ampliando bastante o conjunto de dados de treinamento disponível para abordagens de aprendizagem de máquina. Em média, cada espécie de primata contribui com mais variantes do que o banco de dados ClinVar (~42.000 variantes missense em novembro de 2017, depois de excluir variantes de significado incerto e com anotações conflitantes). Além disso, este conteúdo é livre de vieses na interpretação humana.

[0349] Usando um conjunto de dados que inclui variantes humanas comuns (FA> 0,1%) e variação de primatas (Tabela Suplementar 5 (FIGURA 58), treinamos uma nova rede residual profunda, PrimateAI, que aceita como entrada a sequência de aminoácidos que flanqueia a variante de interesse e o alinhamento da sequência ortóloga em outras espécies (FIGURA 2e FIGURA 3). Ao contrário dos classificadores existentes que empregam recursos projetados por humanos, nossa rede de aprendizagem profunda aprende a extrair recursos diretamente da sequência principal. Para incorporar informações sobre a estrutura da proteína, treinamos redes separadas para prever a estrutura secundária e a acessibilidade do solvente somente a partir da sequência e as incluímos como sub-redes no modelo completo (FIGURA 5 e FIGURA 6). Dado o pequeno número de proteínas humanas que foram cristalizadas com sucesso, a estrutura inferida da sequência primária tem a vantagem de evitar vieses devido à estrutura proteica incompleta e anotação do domínio funcional. A profundidade total da rede, com a estrutura da proteína incluída, foi de 36 camadas de convoluções, compreendendo aproximadamente 400.000 parâmetros treináveis.

[0350] Para treinar um classificador usando apenas variantes com indicadores benignos, estruturamos o problema de previsão como se uma determinada mutação provavelmente será observada como uma variante comum na população. Vários fatores influenciam a probabilidade de observar uma variante em altas frequências alélicas, das quais estamos interessados apenas em deletérios; outros fatores incluem taxa de mutação, artefatos técnicos, como cobertura de sequenciamento e fatores que afetam a deriva genética neutra, como a conversão de genes.

[0351] Combinamos cada variante no conjunto de treinamento benigno com uma mutação missense ausente em 123.136 exomas do banco de dados ExAC, controlando cada um desses fatores de confusão, e treinamos a rede de aprendizagem profunda para distinguir entre variantes benignas e controles correspondentes (FIGURA 24). Como o número de variantes não marcadas excede em muito o tamanho do conjunto de dados de treinamento benigno marcado, treinamos oito redes em paralelo, cada uma usando um conjunto diferente de variantes não marcadas correspondentes ao conjunto de dados de treinamento benigno, para obter uma previsão de consenso.

[0352] Usando apenas a sequência primária de aminoácidos como entrada, a rede de aprendizagem profunda atribui com precisão altas pontuações de patogenicidade a resíduos em domínios funcionais úteis da proteína, conforme mostrado para o canal de sódio dependente de voltagem SCN2A (FIGURA 20), um importante gene da doença em epilepsia, autismo e deficiência intelectual. A estrutura do SCN2A compreende quatro repetições homólogas, cada uma contendo seis hélices transmembranares (S1-S6). Na despolarização da membrana, a hélice transmembranar S4 carregada positivamente se move em direção ao lado extracelular da membrana, fazendo com que os domínios formadores de poros S5/S6 se abram através do ligante S4-S5. As mutações nos domínios S4, ligante S4-S5 e S5, clinicamente associadas à encefalopatia epiléptica de início precoce, são preditas pela rede como tendo as mais altas pontuações de patogenicidade no gene e são depletadas para variantes na população saudável (Tabela Suplementar 6). Também descobrimos que a rede reconhece posições importantes de aminoácidos nos domínios e atribui as mais altas pontuações de patogenicidade a mutações nessas posições, como os resíduos em contato com o DNA de fatores de transcrição e os resíduos catalíticos de enzimas (FIGURAS 25A, 25B, 25C e 26).

[0353] Para entender melhor como a rede de aprendizagem profunda obtém insights sobre a estrutura e a função das proteínas a partir da sequência principal, visualizamos os parâmetros treináveis das três primeiras camadas da rede. Dentro dessas camadas, observamos que a rede aprende correlações entre os pesos de diferentes aminoácidos que aproximam as medidas existentes da distância de aminoácidos, como a pontuação de Grantham (FIGURA 27). As saídas dessas camadas iniciais se tornam entradas para as camadas posteriores, permitindo que a rede de aprendizagem profunda construa representações hierárquicas cada vez mais complexas dos dados.

[0354] Comparamos o desempenho de nossa rede com os algoritmos de classificação existentes, usando 10.000 variantes comuns de primatas que não foram treinadas. Como ~50% de todas as variantes missense humanas recém-surgidas são filtradas por seleção de purificação em frequências alélicas comuns (FIGURA 49A), determinamos a pontuação do 50° percentil para cada classificador em um conjunto de 10.000 variantes selecionadas aleatoriamente que correspondiam às 10.000 variantes comuns de primatas por taxa mutacional e cobertura de sequenciamento e avaliaram a precisão de cada classificador nesse limiar (FIGURA 21D, FIGURA 28A, e o Arquivo de Dados Suplementar 4). Nossa rede de aprendizagem profunda (precisão de 91%) superou o desempenho de outros classificadores (precisão de 80% para o próximo melhor modelo) ao atribuir consequências benignas às 10.000 variantes de primatas comuns retidas.

[0355] Aproximadamente metade da melhoria em relação aos métodos existentes vem do uso da rede de aprendizagem profunda e metade vem do aumento do treinamento do conjunto de dados em treinamento com variação de primatas, em comparação com a precisão da rede treinada apenas com dados de variação humana (FIGURA 21D). Para testar a classificação de variantes de significância incerta em um cenário clínico, avaliamos a capacidade da rede de aprendizagem profunda em distinguir entre mutações de novo que ocorrem em pacientes com distúrbios do neurodesenvolvimento versus controles saudáveis. Por prevalência, os distúrbios do neurodesenvolvimento constituem uma das maiores categorias de doenças genéticas raras, e estudos recentes de sequenciamento de trio implicaram o papel central das mutações missense de novo e de truncamento de proteínas.

[0356] Classificamos cada variante missense de novo chamada de maneira confiante em 4.293 indivíduos afetados da coorte do Deciphering Developmental Disorders (DDD) versus variantes missense de novo de 2.517 semelhantes não afetados na coorte Simon's Simplex Collection (SSC) e avaliamos a diferença nas pontuações de predição entre as duas distribuições com o teste de soma e classificação de Wilcoxon (FIGURA 21E e FIGURAS 29A e 29B). A rede de aprendizagem profunda supera claramente outros classificadores nessa tarefa (P <10-28; FIGURA 21F e FIGURA 28B). Além disso, o desempenho dos vários classificadores no conjunto de dados de variantes de primatas retidos e nos casos do DDD versus casos de controles foi correlacionado (Spearman p = 0,57, P <0,01), indicando boa concordância entre os dois conjuntos de dados para avaliar a patogenicidade, apesar de usar fontes e metodologias (totalmente diferentes FIGURA 30A).

[0357] Em seguida, procuramos estimar a precisão da rede de aprendizagem profunda na classificação de mutações benignas versus patogênicas dentro do mesmo gene. Dado que a população do DDD compreende amplamente casos indexados de crianças afetadas sem parentes em primeiro grau afetados, é importante mostrar que o classificador não aumentou sua precisão favorecendo a patogenicidade em genes com modos de herança dominantes de novo. Restringimos a análise a 605 genes que foram nominalmente significativos para a associação de doenças no estudo DDD, calculados apenas a partir da variação truncada de proteínas (P <0,05). Dentro desses genes, as mutações missense de novo são enriquecidas em 3/1 em comparação com a expectativa (FIGURA 22A), indicando que ~67% são patogênicos.

[0358] A rede de aprendizagem profunda foi capaz de discriminar variantes patogênicas e benignas de novo dentro do mesmo conjunto de genes (P <10-15; FIGURA 22B), superando outros métodos por uma grande margem (FIGURAS 22C e 28C). Em um ponto de corte binário de > 0,803 (FIGURAS 22D e 30B), 65% das mutações missense de novo nos casos são classificados pela rede de aprendizagem profunda como patogênicos, em comparação com 14% das mutações missense de novo nos controles, correspondendo a uma classificação precisão de 88% (FIGURA 22E e 30C). Dada a penetrância incompleta frequente e a expressividade variável nos distúrbios do neurodesenvolvimento, essa figura provavelmente subestima a precisão do nosso classificador devido à inclusão de variantes patogênicas parcialmente penetrantes nos controles.

Descoberta de Novos Genes Candidatos

[0359] A aplicação de um limiar de > 0,803 para estratificar mutações missense patogênicas aumenta o enriquecimento de mutações missense de novo em pacientes do DDD de 1,5 a 2,2 vezes, próximo a mutações de truncamento de proteínas (2,5 vezes), enquanto renuncia a menos de um terço do número total de variantes enriquecidas acima das expectativas. Isso melhora substancialmente o poder estatístico, permitindo a descoberta de 14 genes candidatos adicionais em deficiência intelectual, que anteriormente não haviam atingido o limiar de significância em todo o genoma no estudo DDD original (Tabela 1). Comparação com Curadoria de Especialistas Humanos

[0360] Examinamos o desempenho de vários classificadores em variantes recentes curadas por especialistas no banco de dados da ClinVar, mas descobrimos que o desempenho dos classificadores no conjunto de dados do ClinVar não estava significativamente correlacionado com o conjunto de dados das variantes de primatas retidos ou o conjunto de dados de caso do DDD versus controle (P = 0,12 e P = 0,34, respectivamente) (FIGURAS 31A e 31B). Nossa hipótese é de que os classificadores existentes têm vieses da curadoria de especialistas humanos e, embora essas heurísticas humanas tendam a estar na direção certa, elas podem não ser ótimas. Um exemplo é a diferença média na pontuação de Grantham entre as variantes patogênicas e benignas no ClinVar, que é duas vezes maior que a diferença entre as variantes de novo nos casos do DDD versus os controles nos 605 genes associados à doença (Tabela 2). Em comparação, a curadoria de especialistas humanos parece subutilizar a estrutura da proteína, especialmente a importância do resíduo ser exposto na superfície, onde ele pode estar disponível para interagir com outras moléculas. Observamos que tanto as mutações de novo patogênicas do ClinVar quanto as do DDD estão associadas aos resíduos previstos expostos ao solvente, mas que a diferença na acessibilidade do solvente entre as variantes do ClinVar benignas e patogênicas é apenas metade da observada nos casos do DDD versus controles. Esses achados sugerem um viés de apuração em favor de fatores mais diretos para um especialista humano interpretar, como conservação e pontuação de Grantham. Os classificadores de aprendizagem de máquina treinados em bancos de dados com curadoria humana devem reforçar essas tendências.

[0361] Nossos resultados sugerem que o sequenciamento sistemático de populações de primatas é uma estratégia eficaz para classificar as milhões de variantes humanas de significância incerta que atualmente limitam a interpretação do genoma clínico. A precisão de nossa rede de aprendizagem profunda nas variantes retidas de primatas comuns e nas variantes clínicas aumenta com o número de variantes benignas usadas para treinar a rede (FIGURA 23A). Além disso, o treinamento em variantes de cada uma das seis espécies de primatas não humanos contribui independentemente para um aumento no desempenho da rede, enquanto o treinamento em variantes de mamíferos mais distantes afeta negativamente o desempenho da rede (FIGURAS 23B e 23C). Esses resultados sustentam a afirmação de que variantes comuns de primatas são amplamente benignas no ser humano em relação à doença mendeliana penetrante, enquanto o mesmo não pode ser dito sobre a variação em espécies mais distantes.

[0362] Embora o número de genomas de primatas não humanos examinados neste estudo seja pequeno em comparação com o número de genomas e exomas humanos que foram sequenciados, é importante observar que esses primatas adicionais contribuem com uma quantidade desproporcional de informações sobre variações benignas comuns. Simulações com ExAC mostram que a descoberta de variantes humanas comuns (> 0,1% de frequência alélica) atinge um platô rapidamente após apenas algumas centenas de indivíduos (FIGURA 56), e o sequenciamento adicional da população saudável aos milhões contribuem principalmente com variantes raras adicionais. Ao contrário das variantes comuns, conhecidas por serem amplamente benignas clinicamente com base na frequência dos alelos, variantes raras em populações saudáveis podem causar doenças genéticas recessivas ou doenças genéticas dominantes com penetrância incompleta. Como cada espécie de primata carrega um pool diferente de variantes comuns, o sequenciamento de várias dezenas de membros de cada espécie é uma estratégia eficaz para catalogar sistematicamente variações missense benignas na linhagem de primatas. De fato, os 134 indivíduos de seis espécies de primatas não humanos examinados neste estudo contribuem com quase quatro vezes mais variantes missense comum do que os 123.136 humanos do estudo ExAC (Tabela Suplementar 5 (FIGURA 58)). Os estudos de sequenciamento populacional de primatas envolvendo centenas de indivíduos podem ser práticos, mesmo com um número relativamente pequeno de indivíduos não relacionados que residem em santuários para vida selvagem e zoológicos, minimizando assim a perturbação das populações selvagens, o que é importante do ponto de vista da conservação e do tratamento ético de primatas não humanos.

[0363] As populações humanas atuais possuem diversidade genética muito menor do que a maioria das espécies de primatas não humanos, com aproximadamente metade do número de variantes de nucleotídeo único por indivíduo como chimpanzé, gorila e gibão e um terço das variantes por indivíduo como orangotango. Embora os níveis de diversidade genética para a maioria das espécies de primatas não humanas não sejam conhecidos, o grande número de espécies de primatas não humanas existentes nos permite extrapolar que a maioria das possíveis posições missense benignas humanas provavelmente será coberta por uma variante comum em pelo menos uma espécie de primata, permitindo que variantes patogênicas sejam sistematicamente identificadas pelo processo de eliminação (FIGURA 23D). Mesmo com apenas um subconjunto dessas espécies sequenciadas, o aumento do tamanho dos dados de treinamento permitirá uma previsão mais precisa das consequências missense com a aprendizagem de máquina. Finalmente, enquanto nossas descobertas se concentram na variação missense, essa estratégia também pode ser aplicável para inferir as consequências da variação não codificante, particularmente em regiões reguladoras conservadas, onde há alinhamento suficiente entre genomas humanos e primatas para determinar inequivocamente se uma variante é idêntica por estado.

[0364] Das 504 espécies conhecidas de primatas não humanos, aproximadamente 60% enfrentam extinção devido à caça ilegal e à perda generalizada de habitat. A redução no tamanho da população e a potencial extinção dessas espécies representam uma perda insubstituível na diversidade genética, motivando a urgência de um esforço mundial de conservação que beneficiaria essas espécies únicas e insubstituíveis e a nossa. Geração e Alinhamento de Dados

[0365] As coordenadas no pedido se referem à construção do genoma humano UCSC hg19/GRCh37, incluindo as coordenadas para variantes de outras espécies mapeadas para hg19 usando vários alinhamentos de sequência. Os transcritos canônicos para a sequência de DNA que codifica a proteína e o alinhamento de múltiplas sequências de 99 genomas de vertebrados e o comprimento dos ramos foram baixados do navegador do genoma da UCSC.

[0366] Obtivemos dados do polimorfismo do exoma humano no Exome Aggregation Consortium (ExAC)/Genoma Aggregation Database (gnomAD exomes) v2.0. Obtivemos dados de variação de primatas do projeto de sequenciamento do genoma dos grandes símios, que inclui dados e genótipos de sequenciamento genômico total de 24 chimpanzés, 13 bonobos, 27 gorilas e 10 orangotangos. Também incluímos variação de 35 chimpanzés de um estudo separado de chimpanzé e bonobos, mas devido a diferenças na metodologia de chamada de variantes, excluímo-nas da análise da população e as usamos apenas para o treinamento do modelo de aprendizagem profunda. Além disso, 16 indivíduos de macaco rhesus e 9 saguis foram usados para testar a variação nos projetos de genoma original para essas espécies, mas as informações em nível individual não estavam disponíveis. Obtivemos dados de variação para macaco rhesus, sagui, porco, vaca, cabra, camundongo, frango e peixe- zebra do dbSNP. O dbSNP também incluiu variantes adicionais de orangotango, que usamos apenas para treinar o modelo de aprendizagem profunda, uma vez que as informações individuais sobre o genótipo não estavam disponíveis para a análise da população. Para evitar efeitos devido à seleção de balanceamento, também excluímos variantes da região maior do complexo principal de histocompatibilidade (chr6: 28,477,797 33,448,354) para a análise da população.

[0367] Utilizamos o alinhamento de múltiplas espécies de 99 vertebrados para garantir o mapeamento ortólogo de um para um para as regiões de codificação de proteínas humanas e impedir o mapeamento para pseudogenes. Aceitamos variantes como idênticas por estado se elas ocorrerem na orientação de referência/alternativa. Para garantir que a variante tivesse a mesma consequência prevista na codificação de proteínas tanto na espécie humana quanto nas outras espécies, exigimos que os outros dois nucleotídeos no códon fossem idênticos entre as espécies, tanto para as variantes missense quanto as sinônimas. Os polimorfismos de cada espécie incluída na análise estão listados no Arquivo de Dados Suplementares 1 e as métricas detalhadas são mostradas na Tabela Suplementar 1.

[0368] Para cada uma das quatro categorias de frequências alélicas (FIGURA 49A), usamos variação nas regiões intrônicas para estimar o número esperado de variantes sinônimas e missense em cada um dos 96 contextos possíveis de trinucleotídeos e para corrigir a taxa mutacional (FIGURA 51 e Tabelas Suplementares) 7, 8 (FIGURA 59). Também analisamos separadamente variantes dinucleotídicas CpG idênticas por estado e dinucleotídicas não CpG e verificamos que a proporção missense/sinônima era plana em todo o espectro de frequências alélicas para ambas as classes, indicando que nossa análise é válida para variantes CpG e não CpG, apesar da grande diferença em sua taxa mutacional (FIGURAS 52A, 52B, 52Ce 52D). Depleção de Variantes Missense Humanas que são Idênticas por Estado com Polimorfismos em Outras Espécies

[0369] Para avaliar se variantes de outras espécies seriam toleradas em frequências alélicas comuns (> 0,1%) em humanos, identificamos variantes humanas que eram idênticas por estado com variação em outras espécies. Para cada uma das variantes, atribuímo-las a uma das quatro categorias com base em suas frequências alélicas nas populações humanas (singleton, mais do que singleton ~0,01%, 0,01%~0,1%, > 0,1%) e estimamos a diminuição das proporções missense/sinônima (MSR) entre as variantes raras (<0,1%) e comuns (> 0,1%). A depleção de variantes idênticas por estado em frequências alélicas humanas comuns (> 0,1%) indica a fração de variantes das outras espécies que são suficientemente deletérias que seriam filtradas pela seleção natural em frequências alélicas comuns em humanos:

[0370] As proporções missense/sinônima e as porcentagens de depleção foram calculadas por espécie e são mostradas na FIGURA 50B e na Tabela Suplementar 2. Além disso, para variantes comuns de chimpanzé (FIGURA 49A), variantes singleton de chimpanzé (FIGURA 49C) e variantes de mamífero (FIGURA 50A), realizamos o teste de homogeneidade do teste qui-quadrado (x2) na tabela de contingência 2x2 para testar se as diferenças nas proporções missense/sinônima entre variantes raras e comuns foram significativas.

[0371] Como o sequenciamento foi realizado apenas em números limitados de indivíduos do projeto de genoma de grandes símios, usamos o espectro de frequência alélica humana de ExAC/gnomAD para estimar a fração de variantes amostradas que eram raras (<0,1%) ou comuns (>0,1%) na população geral de chimpanzés. Amostramos uma coorte de 24 indivíduos com base nas frequências de alelos ExAC/gnomAD e identificamos variantes missense que foram observadas uma vez ou mais de uma vez nessa coorte. As variantes observadas mais de uma vez tiveram uma chance de 99,8% de serem comuns (> 0,1%) na população em geral, enquanto as variantes que foram observadas apenas uma vez na coorte tiveram uma chance de 69% de serem comuns na população em geral. Para confirmar que a depleção observada para variantes missense em mamíferos mais distantes não se foi devido a um efeito de confusão de genes que são mais bem conservados e, portanto, alinhados com mais precisão, repetimos a análise acima, restringindo apenas genes com identidade nucleotídica média >50% no alinhamento de múltiplas sequências de 11 primatas e 50 mamíferos em comparação com humanos (consulte a Tabela Suplementar 3).

[0372] Isso removeu ~7% dos genes codificadores de proteína humana da análise, sem afetar substancialmente os resultados. Além disso, para garantir que nossos resultados não sejam afetados por problemas com chamada de variantes ou artefatos de domesticação (uma vez que a maioria das espécies selecionadas do dbSNP foram domesticadas), repetimos as análises usando substituições fixas de pares de espécies intimamente relacionadas, em vez de polimorfismos intraespécies (FIGURA 50D, Tabela Suplementar 4 e Arquivo de Dados Suplementares 2).

Análise ClinVar de Dados de Polimorfismo em Humanos, Primatas, Mamíferos e Outros Vertebrados

[0373] Para examinar o impacto clínico de variantes que são idênticas por estado com outras espécies, baixamos o banco de dados ClinVar, excluindo as variantes que tinham anotações conflitantes de patogenicidade ou que foram marcadas apenas como variantes de significado incerto. Seguindo as etapas de filtragem mostradas na Tabela Suplementar 9, há um total de 24.853 variantes missense na categoria patogênica e 17.775 variantes missense na categoria benigna.

[0374] Contamos o número de variantes patogênicas e benignas do ClinVar que eram idênticas por estado com variação em humanos, primatas não humanos, mamíferos e outros vertebrados. Para humanos, simulamos uma coorte de 30 humanos, amostrados a partir das frequências alélicas de ExAC. Os números de variantes benignas e patogênicas para cada espécie são mostrados na Tabela Suplementar 10. Chamada de Variantes Benignas e Não Marcadas para Treinamento de Modelo

[0375] Construímos um conjunto de dados de treinamento benigno de variantes missense benignas amplamente comuns de primatas humanos e não humanos para aprendizagem de máquina. O conjunto de dados compreende variantes humanas comuns (> 0,1% de frequência de alelo; 83.546 variantes) e variantes de chimpanzé, bonobo, gorila e orangotango, macaco rhesus e sagui (301.690 variantes únicas de primatas). O número de variantes de treinamento benignas contribuídas por cada fonte é mostrado na Tabela Suplementar 5. Treinamos a rede de aprendizagem profunda para discriminar entre um conjunto de variantes benignas marcadas e um conjunto de variantes não marcadas que correspondiam ao controle do contexto trinucleotídico, cobertura do sequenciamento e alinhabilidade entre as espécies e o ser humano. Para obter um conjunto de dados de treinamento não marcado, começamos com todas as variantes missense possíveis nas regiões de codificação canônica. Excluímos as variantes observadas nos 123.136 exomas do ExAC/gnomAD e as variantes nos códons de início ou parada. No total, 68.258.623 variantes missense não marcadas foram geradas. Isso foi filtrado para corrigir para regiões com pouca cobertura de sequenciamento e regiões onde não havia um alinhamento individual entre os genomas de humano e de primata ao selecionar variantes não marcadas correspondentes para as variantes de primata.

[0376] Obtivemos uma previsão de consenso treinando oito modelos que usam o mesmo conjunto de variantes benignas marcadas e oito conjuntos de variantes não marcadas com amostragem aleatória e calculando a média de suas previsões. Também reservamos dois conjuntos amostrados aleatoriamente de 10.000 variantes de primata para validação e teste, as quais retiramos do treinamento (Arquivo de Dados Complementares 3). Para cada um desses conjuntos, foram amostradas 10.000 variantes não marcadas que correspondiam ao contexto trinucleotídico, que usamos para normalizar o limiar de cada classificador ao comparar entre diferentes algoritmos de classificação (Arquivo de Dados Complementares 4). Em outras implementações, menos modelos ou modelos adicionais podem ser usados no conjunto, variando de 2 a 500.

[0377] Avaliamos a precisão da classificação de duas versões da rede de aprendizagem profunda, uma treinada apenas com variantes de humano comuns e outra treinada com o conjunto de dados marcado benigno completo, incluindo variantes de humano comuns e variantes de primata. Arquitetura da Rede de Aprendizagem Profunda

[0378] Para cada variante, a rede de previsão de patogenicidade usa como entrada a sequência de aminoácidos de 51 de comprimento centralizada na variante de interesse e as saídas da estrutura secundária e das redes de acessibilidade de solvente (FIGURA 2 e FIGURA 3) com a variante missense substituída na posição central. Três matrizes de frequência de posição com 51 de comprimento são geradas a partir de alinhamentos múltiplos de sequência de 99 vertebrados, incluindo um para 11 primatas, um para 50 mamíferos excluindo primatas e um para 38 vertebrados excluindo primatas e mamíferos.

[0379] A rede de aprendizagem profunda da estrutura secundária prevê uma estrutura secundária de três estados em cada posição de aminoácido: hélice alfa (H), folha-beta (B) e bobinas (C) (Tabela Suplementar 11). A rede de acessibilidade de solvente prevê uma acessibilidade de solvente de três estados em cada posição de aminoácido: enterrada (B), intermediária (I) e exposta (E) (Tabela Suplementar 12). Ambas as redes tomam apenas a sequência de aminoácidos flanqueadora como entrada e foram treinadas usando marcações de estruturas cristalinas não redundantes conhecidas no Protein DataBank (Tabela Suplementar 13). Para a entrada na estrutura secundária de três estados pré-treinados e nas redes de acessibilidade de solvente de três estados, usamos uma matriz de frequência de posição de comprimento único gerada a partir de alinhamentos múltiplos de sequências para todos os 99 vertebrados, também com comprimento 51 e profundidade 20. Após o pré-treinamento das redes nas estruturas de cristal conhecidas do Protein DataBank, as duas camadas finais para a estrutura secundária e modelos de solvente foram removidas e a saída da rede foi conectada diretamente à entrada do modelo de patogenicidade. A melhor precisão de teste alcançada para o modelo de previsão da estrutura secundária de três estados foi de 79,86% (Tabela Suplementar 14). Não houve diferença substancial ao comparar as previsões da rede neural ao usar marcações de estrutura anotadas por DSSP (Definir Estrutura Secundária de Proteínas) para as aproximadamente ~4.000 proteínas humanas que tinham estruturas cristalinas versus usar apenas marcações de estrutura previstas (Tabela Suplementar 15).

[0380] Ambas a nossa rede de aprendizagem profunda para previsão de patogenicidade (PrimateAI) e as redes de aprendizagem profunda para prever estrutura secundária e acessibilidade de solvente adotaram a arquitetura de blocos residuais. A arquitetura detalhada para PrimateAI é descrita na (FIGURA 3) e na Tabela Suplementar 16 (FIGURAS 4A, 4B e 4C). A arquitetura detalhada das redes para prever a estrutura secundária e a acessibilidade de solvente é descrita na FIGURA 6 e nas Tabelas Suplementares 11 (FIGURAS 7A e 7B) e 12 (FIGURAS. 8A e 8B). Análise Comparativa de Performance do Classificador em um Conjunto de Testes Retido de 10.000 Variantes de Primata

[0381] Usamos as 10.000 variantes de primata retidas no conjunto de dados de teste para analisar comparativamente a rede de aprendizagem profunda e os outros 20 classificadores publicados anteriormente, para os quais obtivemos pontuações de previsão no banco de dados dbNSFP. O desempenho de cada um dos classificadores no conjunto de testes de 10.000 variantes de primata retido também é fornecido na FIGURA 28A. Como os diferentes classificadores tinham distribuições de pontuação muito variadas, utilizamos 10.000 variantes não marcadas selecionadas aleatoriamente, correspondentes ao teste definido por contexto trinucleotídico para identificar o limiar do 50° percentil para cada classificador. Analisamos comparativamente cada classificador na fração de variantes no conjunto de testes de 10.000 variantes de primata retidas que foram classificadas como benignas no limiar do 50° percentil para esse classificador, para garantir uma comparação justa entre os métodos.

[0382] Para cada um dos classificadores, a fração de variantes de teste de primata retidas previstas como benignas usando o limiar do 50° percentil também é mostrada na FIGURA 28A e na Tabela Suplementar 17 (FIGURA 34). Também mostramos que o desempenho do PrimateAI é robusto em relação ao número de espécies alinhadas na posição da variante e geralmente tem um bom desempenho desde que haja informações sobre conservação suficientes vindas de mamíferos, o que é verdadeiro para a maioria das sequências de codificação de proteínas (FIGURA 57) Análise de Variantes de novo do Estudo DDD

[0383] Obtivemos variantes de novo publicadas no estudo DDD e variantes de novo nos controles irmãos saudáveis no estudo de autismo do SSC. O estudo DDD fornece um nível de confiança para variantes de novo e excluímos variantes do conjunto de dados do DDD com um limiar de <0,1 como possíveis falsos positivos devido a erros de chamada de variantes. Em uma implementação, no total, tivemos 3.512 variantes de novo missense de indivíduos afetados do DDD e 1.208 variantes de novo missense de controles saudáveis. As anotações canônicas de transcrição usadas pela UCSC para o alinhamento de múltiplas sequências de 99 vertebrados diferiram ligeiramente das anotações de transcrição usadas pelo DDD, resultando em uma pequena diferença na contagem total de variantes missense. Avaliamos os métodos de classificação em sua capacidade de discriminar entre variantes missense de novo nos indivíduos afetados do DDD versus variantes missense de novo em controles irmãos não afetados dos estudos de autismo. Para cada classificador, relatamos o valor P do teste de soma dos postos de Wilcoxon da diferença entre os pontos de previsão para as duas distribuições (Tabela Suplementar 17 (FIGURA 34)).

[0384] Para medir a precisão de vários classificadores na distinção entre variação benigna e patogênica dentro do mesmo gene de doença, repetimos a análise em um subconjunto de 605 genes que foram enriquecidos para variação truncada de proteínas de novo na coorte do DDD (P <0,05, teste exato de Poisson) (Tabela Suplementar 18). Dentro desses 605 genes, estimamos que dois terços das variantes de novo no conjunto de dados do DDD eram patogênicos e um terço era benigno, com base no enriquecimento de 3/1 das mutações missense de novo sobre as expectativas. Assumimos penetrância mínima incompleta e que as mutações missense de novo nos controles saudáveis eram benignas. Para cada classificador, identificamos o limiar que produziu o mesmo número de previsões benignas ou patogênicas que as proporções empíricas observadas nesses conjuntos de dados e usamos esse limiar como ponto de corte binário para estimar a precisão de cada classificador na distinção de mutações de novo em casos versus controles. Para construir uma curva de características de operador receptor, tratamos a classificação patogênica das variantes do DDD de novo como chamadas verdadeiras positivas e tratamos a classificação das variantes de novo em controles saudáveis como patogênicas como sendo chamadas falsas positivas. Como o conjunto de dados do DDD contém um terço das variantes benignas de novo, a área sob a curva (AUC) para um classificador teoricamente perfeito é menor que um. Portanto, um classificador com separação perfeita de variantes benignas e patogênicas classificaria 67% das variantes de novo nos pacientes do DDD como verdadeiras positivas, 33% das variantes de novo nos pacientes do DDD como falsas negativas e 100% das variantes de novo em controles como verdadeiras negativas, produzindo uma AUC máxima possível de 0,837 (FIGURAS 29A e 29B e Tabela Suplementar 19 (FIGURA 35)). Nova Descoberta de Genes Candidatos

[0385] Testamos o enriquecimento de mutações de novo em genes comparando o número observado de mutações de novo com o número esperado em um modelo de mutação nula. Repetimos a análise de enriquecimento realizada no estudo DDD e relatamos genes que são recentemente significativos em todo o genoma ao contar apenas mutações missense de novo com uma pontuação no PrimateAI >0,803. Ajustamos a expectativa em todo o genoma de variação missense prejudicial de novo pela fração de variantes missense que atendem ao limiar PrimateAI de >0,803 (aproximadamente um quinto de todas as possíveis mutações missense em todo o genoma). De acordo com o estudo DDD, cada gene exigiu quatro testes, um testando o enriquecimento truncado de proteínas e um testando o enriquecimento de mutações de novo que alteram proteínas, e ambos testados apenas para a coorte do DDD e para uma meta-análise maior de coortes de sequenciamento de trio com desenvolvimento neurológico. O enriquecimento das mutações de novo que alteram proteínas foi combinado pelo método de Fisher com um teste do agrupamento de mutações missense de novo na sequência de codificação (Tabelas Suplementares 20, 21). O valor de P para cada gene foi obtido do mínimo dos quatro testes e a significância em todo o genoma foi determinada como P<6,757 x 10-7 (α = 0,05, 18.500 genes com quatro testes). Precisão de Classificação ClinVar

[0386] Como a maioria dos classificadores existentes é treinada direta ou indiretamente no conteúdo ClinVar, como o uso de pontuações de previsão de classificadores treinados no ClinVar, limitamos a análise do conjunto de dados ClinVar para que usássemos apenas as variantes ClinVar que haviam sido adicionadas desde 2017. Houve sobreposição substancial entre as variantes recentes ClinVar e outros bancos de dados e, portanto, filtramos ainda mais para remover as variantes encontradas em frequências de alelo comuns (>0,1%) no ExAC, ou presentes no HGMD (Human Gene Mutation Database), LOVD (Leiden Open Variation Database) ou Uniprot (Universal Protein Resource). Após excluir variantes anotadas apenas como significância incerta e aquelas com anotações conflitantes, ficamos com 177 variantes missense com anotação benigna e 969 variantes missense com anotação patogênica. Classificamos essas variantes ClinVar usando a rede de aprendizagem profunda e os outros métodos de classificação. Para cada classificador, identificamos o limiar que produziu o mesmo número de previsões benignas ou patogênicas que as proporções empíricas observadas nesses conjuntos de dados e usamos esse limiar como ponto de corte binário para estimar a precisão de cada classificador (FIGURAS. 31A e 31B). Impacto do Aumento do Tamanho dos Dados de Treinamento e do Uso de Diferentes Fontes de Dados de Treinamento

[0387] Para avaliar o impacto do tamanho dos dados de treinamento no desempenho da rede de aprendizagem profunda, amostramos aleatoriamente um subconjunto de variantes do conjunto de treinamento benigno marcado de 385.236 primatas e variantes de humano comuns e mantivemos a arquitetura de rede de aprendizagem profunda subjacente da mesma forma. Para mostrar que as variantes de cada espécie individual de primata contribuem para a precisão da classificação, enquanto as variantes de cada espécie individual de mamífero diminuem a precisão da classificação, treinamos redes de aprendizagem profunda usando um conjunto de dados de treinamento que compreende 83.546 variantes de humano e um número constante de variantes selecionadas aleatoriamente para cada espécie, mais uma vez mantendo a arquitetura de rede subjacente a mesma, de acordo com uma implementação. O número constante de variantes que adicionamos ao conjunto de treinamento (23.380) foi o número total de variantes disponíveis nas espécies com o menor número de variantes missense, ou seja, bonobo. Repetimos os procedimentos de treinamento cinco vezes para obter o desempenho mediano de cada classificador. Saturação de Todas as Possíveis Mutações Missense Humanas com Número Crescente de Populações de Primatas Sequenciadas

[0388] Investigamos a saturação esperada de todas as ~70 milhões de possíveis mutações missense de humano por variantes comuns presentes nas 504 espécies de primatas existentes, simulando variantes com base no contexto trinucleotídico das variantes de humano missense comuns (>0,1% de frequência de alelo) observadas no ExAC. Para cada espécie primata, simulamos quatro vezes o número de variantes missense comuns observadas em humanos (~83.500 variantes missense com frequência de alelo >0,1%), porque humanos têm aproximadamente metade do número de variantes por indivíduo que outras espécies primatas, e cerca de ~50% das variantes missense de humano foram filtradas por seleção purificadora a >0,1% de frequência de alelo (FIGURA 49A).

[0389] Para modelar a fração de variantes missense comuns de humano (frequência de alelo de >0,1%) descoberta com o aumento do tamanho das coortes humanas pesquisadas (FIGURA 56), amostramos genótipos de acordo com as frequências de alelos ExAC e relatamos a fração de variantes comuns observadas pelo menos uma vez nessas coortes simuladas.

[0390] Em uma implementação, para aplicação prática das pontuações do PrimateAI, um limiar de >0,8 é preferido para classificação patogênica provável, <0,6 para provável benigno e 0,6-0,8 como intermediário em genes com modos de herança dominantes, com base no enriquecimento de variantes de novo nos casos em comparação com os controles (FIGURA 21D), e um limiar de >0,7 para provável patogênico e <0,5 para provável benigno em genes com modos de herança recessivos.

[0391] A FIGURA2 representa um exemplo de arquitetura de uma rede residual profunda para previsão de patogenicidade, referida neste documento como "PrimateAI". Na FIGURA 2, 1D refere-se à camada convolucional unidimensional. A patogenicidade prevista está em uma escala de 0 (benigna) a 1 (patogênica). A rede toma como entrada a referência de aminoácidos (AA) humanos e a sequência alternativa (51 AAs) centralizada na variante, os perfis de conservação da matriz posição peso (PWM) calculados a partir de 99 espécies de vertebrados e as saídas de redes de aprendizagem profunda de estrutura secundária e previsão de acessibilidade de solvente, que preveem a estrutura secundária da proteína de três estados (hélice—H, folha-beta—B e bobina—C) e a acessibilidade de solvente de três estados (enterrado—B, intermediário—I e exposto—E).

[0392] A FIGURA 3 representa uma ilustração esquemática do PrimateAI, a arquitetura de rede de aprendizagem profunda para classificação de patogenicidade. As entradas para o modelo incluem 51 aminoácidos (AA) da sequência flanqueadora para a sequência de referência e a sequência com a variante substituída em conservação representada por três matrizes posição-pesadas de comprimento 51-AA de alinhamentos de primatas, mamíferos e vertebrados e as saídas da rede de estrutura secundária pré-treinada e da rede de acessibilidade de solvente (também com comprimento 51 AA).

[0393] As FIGURAS. 4A, 4B e 4C são a Tabela Suplementar 16, que representa detalhes da arquitetura do modelo de exemplo do modelo de aprendizagem profunda de previsão de patogenicidade PrimateAI. A forma especifica a forma do tensor de saída em cada camada do modelo e a ativação é a ativação dada aos neurônios da camada. As entradas para o modelo são as matrizes de frequência específicas da posição (comprimento 51 AA, profundidade 20) para a sequência de aminoácidos flanqueadora em torno da variante, a referência humana codificada one-hot e sequências alternativas (comprimento 51 AA, profundidade 20) e a saída da estrutura secundária e dos modelos de acessibilidade de solvente (comprimento 51 AA, profundidade 40).

[0394] O exemplo ilustrado usa convoluções unidimensionais. Em outras implementações, o modelo pode usar diferentes tipos de convoluções, como convoluções bidimensionais, convoluções tridimensionais, convoluções dilatadas ou atrous, convoluções transpostas, convoluções separáveis e convoluções separáveis em profundidade. Algumas camadas também usam a função de ativação ReLU, que acelera bastante a convergência da descida do gradiente estocástico em comparação com as não linearidades saturantes, como a tangente sigmoide ou hiperbólica. Outros exemplos de funções de ativação que podem ser usadas pela tecnologia divulgada incluem ReLU paramétrica, ReLU com vazamento e unidade linear exponencial (ELU).

[0395] Algumas camadas também usam a normalização em lote (Ioffe e Szegedy 2015). Com relação à normalização em lote, a distribuição de cada camada em uma rede neural de convolução (CNN) muda durante o treinamento e varia de uma camada para outra. Isso reduz a velocidade de convergência do algoritmo de otimização. A normalização em lote é uma técnica para superar esse problema. Denotando a entrada de uma camada de normalização em lote com x e sua saída usando z, a normalização em lote aplica a seguinte transformação em x:

[0396] A normalização em lote aplica a normalização de variação média na entrada x usando μ e α e a escala linearmente e a desloca usando Y e β. Os parâmetros de normalização μ e α são calculados para a camada atual no conjunto de treinamento usando um método chamado média móvel exponencial. Em outras palavras, eles não são parâmetros treináveis. Por outro lado, y e β são parâmetros treináveis. Os valores de μ e α calculados durante o treinamento são usados no forward pass durante a inferência.

[0397] As FIGURAS 5 e 6 ilustram a arquitetura de rede de aprendizagem profunda usada para prever a estrutura secundária e a acessibilidade de solvente de proteínas. A entrada para o modelo é uma matriz posição-pesada usando a conservação gerada pelo software RaptorX (para treinamento em sequências do Protein Data Bank) ou os alinhamentos de 99 vertebrados (para treinamento e inferência em sequências de proteínas humanas). A saída da segunda para a última camada, com 51 AAs de comprimento, torna-se a entrada da rede de aprendizagem profunda para a classificação de patogenicidade.

[0398] As FIGURAS 7A e 7B são a Tabela Suplementar 11, que mostram detalhes da arquitetura do modelo de exemplo para o modelo de aprendizagem profunda (DL) de previsão de estrutura secundária de três estados. A forma especifica a forma do tensor de saída em cada camada do modelo e a ativação é a ativação dada aos neurônios da camada. As entradas para o modelo foram as matrizes de frequência específicas da posição (comprimento 51 AA, profundidade 20) para a sequência de aminoácidos flanqueadora em torno da variante.

[0399] As FIGURAS. 8A e 8B são a Tabela Suplementar 12, que representa detalhes de arquitetura de modelo de exemplo para o modelo de aprendizagem profunda de previsão de acessibilidade de solvente de três estados. A forma especifica a forma do tensor de saída em cada camada do modelo e a ativação é a ativação dada aos neurônios da camada. As entradas para o modelo foram as matrizes de frequência específicas da posição (comprimento 51 AA, profundidade 20) para a sequência de aminoácidos flanqueadora em torno da variante.

[0400] A FIGURA 20 representa a pontuação de patogenicidade prevista em cada posição de aminoácido no gene SCN2A, anotada para os principais domínios funcionais. Traçada ao longo do gene está a pontuação média do PrimateAI para substituições missense em cada posição de aminoácido.

[0401] A FIGURA 21D representa uma comparação de classificadores na previsão de consequências benignas para um conjunto de testes de 10.000 variantes comuns de primata que foram retidas do treinamento. O eixo y representa a porcentagem de variantes de primata corretamente classificadas como benignas, após normalizar o limiar de cada classificador para sua pontuação do 50° percentil em um conjunto de 10.000 variantes aleatórias correspondentes à taxa de mutação.

[0402] A FIGURA 21E ilustra distribuições das pontuações de previsão do PrimateAI para variantes missense de novo que ocorrem em pacientes do Deciphering Developmental Disorders (DDD) em comparação com irmãos não afetados, com o valor P de soma dos postos de Wilcoxon correspondente.

[0403] A FIGURA 21F descreve a comparação de classificadores na separação de variantes missense de novo em casos do DDD versus controles. Os valores P do teste de soma dos postos de Wilcoxon são mostrados para cada classificador.

[0404] As FIGURAS 22A, 22B, 22C, 22D e 22E ilustram a precisão da classificação em 605 genes do DDD com P<0,05. A FIGURA 22A representa o enriquecimento das mutações missense de novo sobre a expectativa em indivíduos afetados da coorte do DDD dentro de 605 genes associados que foram significativos para a variação truncada da proteína de novo (P<0,05). A FIGURA 22B representa distribuições de pontuações de previsão de PrimateAI para variantes missense de novo que ocorrem em pacientes do DDD versus irmãos não afetados nos 605 genes associados, com o valor P de soma dos postos de Wilcoxon correspondente.

[0405] A FIGURA 22C representa a comparação de vários classificadores na separação de variantes missense de novo em casos versus controles dentro dos 605 genes. O eixo y mostra os valores P do teste de soma dos postos de Wilcoxon para cada classificador.

[0406] A FIGURA 22D representa a comparação de vários classificadores, mostrados em uma curva característica de operador receptor, com área sob curva (AUC) indicada para cada classificador.

[0407] A FIGURA 22E ilustra a precisão da classificação e a AUC para cada classificador. A precisão da classificação mostrada é a média das taxas de erro verdadeiro positivo e verdadeiro negativo, usando o limite em que o classificador preveria o mesmo número de variantes patogênicas e benignas que o esperado, com base no enriquecimento mostrado na FIGURA 22A. Para levar em conta o fato de que 33% das variantes missense de novo do DDD representam a base, a AUC máxima alcançável para um classificador perfeito é indicada com uma linha pontilhada.

[0408] As FIGURAS 23A, 23B, 23C e 23D representam o impacto dos dados utilizados para o treinamento na precisão da classificação. Redes de aprendizagem profunda treinadas com um número crescente de variantes comuns de primata e humano até o conjunto de dados completo (385.236 variantes). Na FIGURA 23A, o desempenho de classificação para cada uma das redes é analisado comparativamente em precisão para as 10.000 variantes de primata retidas e variantes de novo em casos do DDD versus controles.

[0409] As FIGURAS 23B e 23C mostram o desempenho de redes treinadas usando conjuntos de dados compreendendo 83.546 variantes comuns de humano mais 23.380 variantes de uma única espécie de primata ou mamífero, de acordo com uma implementação. Os resultados são mostrados para cada rede treinada com diferentes fontes de variação comum, comparada em 10.000 variantes de primata retidas (FIGURA 23B) e em variantes missense de novo (FIGURA 23C) em casos do DDD versus controles.

[0410] A FIGURA 23D representa a saturação esperada de todas as posições possíveis de missense benignas humanas por variantes comuns idênticas por estado (>0,1%) nas 504 espécies de primata existentes. O eixo y mostra a fração de variantes missense de humano observadas em pelo menos uma espécie de primata, com variantes missense CpG indicadas em verde e todas as variantes missense indicadas em azul. Para simular as variantes comuns em cada espécie de primata, foram coletadas amostras do conjunto de todas as possíveis substituições de nucleotídeo único com reposição, correspondendo à distribuição de contexto trinucleotídico observada para variantes de humano comuns (>0,1% de frequência de alelo) no ExAC.

[0411] A FIGURA 24 ilustra a correção do efeito da cobertura de sequenciamento na verificação de variantes comuns de primata. A probabilidade de observar uma dada variante em uma espécie de primata não humano é inversamente correlacionada com a profundidade de sequenciamento nessa posição no conjunto de dados de exoma ExAC/gnomAD. Por outro lado, a menor profundidade de leitura do gnomAD não afetou a probabilidade de observar uma variante de humano comum nessa posição (>0,1% de frequência de alelo) porque o grande número de exomas humanos sequenciados torna quase garantida a verificação da variação comum. Ao escolher variantes correspondentes para cada uma das variantes de primata para treinar a rede, a probabilidade de escolher uma variante foi ajustada para os efeitos de profundidade de sequenciamento, além de corresponder ao contexto trinucleotídico para controlar a taxa mutacional e a conversão de genes.

[0412] As FIGURAS 25A, 25B, 25C e 26 representam o reconhecimento de motivos proteicos pelas redes neurais divulgadas. Em relação às FIGURAS 25A, 25B e 25C, para ilustrar o reconhecimento das redes neurais dos domínios proteicos, mostramos as pontuações médias do PrimateAI para variantes em cada posição de aminoácido de três domínios proteicos diferentes. Na FIGURA 25A, a cadeia de colágeno de COL1A2, com glicina em um motivo GXX repetido é destacada. As mutações clinicamente identificadas nos genes de colágeno devem-se, em grande parte, a mutações missense na glicina nas repetições de GXX, pois interferem na montagem normal do colágeno e exercem fortes efeitos negativos dominantes. Na FIGURA 25B, o local ativo da enzima IDS sulfatase é destacado, que contém uma cisteína no local ativo que é pós- traducionalmente modificada para formilglicina. Na FIGURA 25C, o domínio bHLHzip do fator de transcrição MYC é mostrado. O domínio básico entra em contato com o DNA por meio de resíduos de arginina e lisina carregados positivamente (destacados) que interagem com o esqueleto de açúcar-fosfato com carga negativa. O domínio leucina-zíper compreende resíduos de leucina espaçados por sete aminoácidos (destacados), que são cruciais para a dimerização.

[0413] A FIGURA 26 inclui um gráfico de linhas que representa o efeito de perturbar cada posição dentro e ao redor da variante na pontuação de aprendizagem profunda prevista para a variante. Zeramos sistematicamente as entradas nos aminoácidos próximos (posições -25 a +25) em torno da variante e medimos a mudança na patogenicidade prevista da rede neural da variante. O gráfico mostra a alteração média na pontuação de patogenicidade prevista para perturbações em cada posição de aminoácido próxima para 5.000 variantes selecionadas aleatoriamente.

[0414] A FIGURA 27 ilustra padrões de correlação de pesos que imitam as matrizes de pontuação BLOSUM62 e Grantham. Os padrões de correlação dos pesos das três primeiras camadas da rede de aprendizagem profunda da estrutura secundária mostram correlações entre os aminoácidos que são semelhantes às matrizes de pontuação BLOSUM62 e Grantham. O mapa de calor esquerdo mostra a correlação dos pesos dos parâmetros da primeira camada convolucional após duas camadas iniciais de aumento de amostra da rede de aprendizagem profunda da estrutura secundária entre os aminoácidos codificados usando uma representação one-hot. O mapa de calor do meio mostra as pontuações do BLOSUM62 entre pares de aminoácidos. O mapa de calor direito mostra a distância de Grantham entre os aminoácidos. A correlação de Pearson entre os pesos de aprendizagem profunda e as pontuações BLOSUM62 é de 0,63 (P = 3,55 x 10-9). A correlação entre os pesos de aprendizagem profunda e as pontuações Grantham é de -0,59 (P = 4,36 x 10-8). A correlação entre as pontuações BLOSUM62 e Grantham é de -0,72 (P = 8,09 x 10-13).

[0415] As FIGURAS 28A, 28B e 28C representam a avaliação de desempenho da rede de aprendizagem profunda PrimateAI e outros classificadores. A FIGURA 28A mostra a precisão da rede de aprendizagem profunda PrimateAI na previsão de uma consequência benigna para um conjunto de testes de 10.000 variantes de primata que foram retidas no treinamento e na comparação com outros classificadores, incluindo SIFT, PolyPhen-2, CADD, REVEL, M-CAP, LRT, MutationTaster, MutationAssessor, FATHMM, PROVEAN, VEST3, MetaSVM, MetaLR, MutPred, DANN, FATHMM-MKL_coding, Eigen, GenoCanyon, Integrated_fitCons e GERP. O eixo y representa a porcentagem de variantes de primata classificadas como benignas, com base na normalização do limiar de cada classificador para sua pontuação do 50° percentil, usando um conjunto de 10.000 variantes selecionadas aleatoriamente que correspondem às variantes de primata no contexto trinucleotídeo para controlar a taxa de mutação e conversão de genes.

[0416] A FIGURA 28B mostra a comparação do desempenho da rede PrimateAI na separação de variantes missense de novo em casos do DDD versus controles, juntamente com os 20 métodos existentes listados acima. O eixo y mostra os valores P do teste de soma dos postos de Wilcoxon para cada classificador.

[0417] A FIGURA 28C mostra a comparação do desempenho da rede PrimateAI na separação de variantes missense de novo em casos do DDD versus controles não afetados em 605 genes associados à doença, com os 20 métodos listados acima. O eixo y mostra os valores P do teste de soma dos postos de Wilcoxon para cada classificador.

[0418] As FIGURAS 29A e 29B ilustram a distribuição das pontuações de previsão de quatro classificadores. Histogramas das pontuações de previsão de quatro classificadores, incluindo SIFT, PolyPhen-2, CADD e REVEL, para variantes missense de novo que ocorrem em casos do DDD versus controles não afetados, com os valores P de soma dos postos de Wilcoxon correspondentes.

[0419] As FIGURAS 30A, 30B e 30C comparam a precisão da rede PrimateAI e de outros classificadores na separação de variantes patogênicas e benignas em 605 genes associados à doença. O gráfico de dispersão na FIGURA 30A mostra o desempenho de cada um dos classificadores em casos do DDD versus controles (eixo y) e precisão de previsão benigna no conjunto de dados de primata retidos (eixo x). A FIGURA 30B compara diferentes classificadores na separação de variantes missense de novo em casos versus controles nos 605 genes, mostrados em uma curva característica do operador receptor (ROC), com a área sob a curva (AUC) indicada para cada classificador. A FIGURA 30C mostra a precisão da classificação e AUC para a rede PrimateAI e os 20 classificadores listados nas FIGURAS. 28A, 28B e 28C. A precisão de classificação mostrada é a média das taxas verdadeiras positivas e verdadeiras negativas, usando o limite em que o classificador preveria o mesmo número de variantes patogênicas e benignas que o esperado, com base no enriquecimento mostrado na FIGURA 22A. A AUC máxima possível para um classificador perfeito é indicada com uma linha pontilhada, assumindo que as variantes missense de novo nos casos do DDD são 67% variantes patogênicas e 33% benignas, e as variantes missense de novo nos controles são 100% benignas.

[0420] As FIGURAS 31A e 31B ilustram a correlação entre o desempenho do classificador em variantes ClinVar com curadoria de especialistas em humanos e o desempenho em conjuntos de dados empíricos. O gráfico de dispersão na FIGURA 31A mostra a precisão da classificação (eixo y) nas variantes ClinVar nas 10.000 variantes de primata retidas (eixo x) para cada um dos outros 20 classificadores e a rede PrimateAI treinada com dados apenas humanos ou humanos + primatas. São mostrados o coeficiente de correlação de Spearman rho e o valor P associado. Para limitar a avaliação aos dados que não foram usados para o treinamento dos classificadores, usamos apenas as variantes ClinVar que foram adicionadas entre janeiro de 2017 e novembro de 2017 e excluímos variantes de humano comuns do ExAC/gnomAD (>0,1% de frequência de alelo). A precisão da classificação ClinVar mostrada é a média das taxas de positivos e de negativos verdadeiros, usando o limiar em que o classificador preveria o mesmo número de variantes patogênicas e benignas, conforme observado no conjunto de dados ClinVar.

[0421] O gráfico de dispersão na FIGURA 31B mostra a precisão da classificação (eixo y) nas variantes ClinVar, os casos do DDD versus controles conjunto de dados completo (eixo x) para cada um dos outros 20 classificadores e a rede PrimateAI treinada com dados somente humanos ou humanos + primatas.

[0422] A FIGURA 32 é a Tabela Suplementar 14 que mostra o desempenho da estrutura secundária de 3 estados e dos modelos de previsão de acessibilidade de solvente de 3 estados em amostras anotadas do Protein DataBank, usando 6.367 sequências de proteínas não relacionadas para treinamento, 400 para validação e 500 para teste. Somente proteínas com <25% de similaridade de sequência foram selecionadas no Protein DataBank. Relatamos a precisão das redes de aprendizagem profunda como uma métrica de desempenho, pois as três classes não são totalmente desequilibradas para a estrutura secundária ou a acessibilidade de solvente.

[0423] A FIGURA 33 é a Tabela Suplementar 15 que mostra a comparação de desempenho da rede de aprendizagem profunda usando marcações de estrutura secundária anotadas de proteínas humanas do banco de dados DSSP quando disponível com rede de aprendizagem profunda usando marcações de estrutura secundária previstas.

[0424] A FIGURA 34 é a Tabela Suplementar 17 que representa os valores de precisão nas 10.000 variantes de primata retidas e os valores p para variantes de novo em casos do DDD versus controles para cada um dos 20 classificadores que avaliamos. O modelo PrimateAI apenas com dados Humanos é nossa rede de aprendizagem profunda, treinada usando um conjunto de dados de treinamento benigno marcado que compreende apenas variantes de humano comuns (83,5 mil variantes com >0,1% na população), enquanto o modelo PrimateAI com dados Humanos + Primatas é nossa rede de aprendizagem profunda treinada no conjunto completo de 385 mil variantes benignas marcadas, incluindo variantes de humano comuns e variantes de primata.

[0425] A FIGURA 35 é a Tabela Suplementar 19 que representa a comparação do desempenho de diferentes classificadores em variantes de novo no conjunto de dados de caso do DDD versus controle, restrito a 605 genes associados a doença. Para normalizar entre os diferentes métodos, para cada classificador, identificamos o limite em que o classificador previa o mesmo número de variantes patogênicas e benignas que o esperado, com base no enriquecimento em DDD e no conjunto de controle. A precisão da classificação mostrada é a média das taxas de erro verdadeiro positivo e verdadeiro negativo nesse limiar.

[0426] As FIGURAS 49A, 49B, 49C, 49D e 49E representam proporções missense/sinônimos em todo o espectro de frequências de alelos humanos. A FIGURA 49A mostra variantes missense e sinônimas observadas em 123.136 humanos do banco de dados ExAC/gnomAD, foram divididas em quatro categorias por frequência de alelo. Barras cinza sombreadas representam contagens de variantes sinônimas em cada categoria; barras verde-escuras representam variantes missense. A altura de cada barra é dimensionada para o número de variantes sinônimas em cada categoria de frequência de alelo e as contagens e proporções missense/sinônimo são exibidas após o ajuste da taxa de mutação. As FIGURAS. 49B e 49C ilustram espectro de frequência de alelos variantes missense e sinônimas humanas que são idênticas por estado (IBS) com variantes comuns de chimpanzés (FIGURA49B) e variantes singleton de chimpanzés (FIGURA 49C). A depleção de variantes missense de chimpanzé em frequências de alelo humanas comuns (>0,1%) em comparação com frequências de alelo humanas raras (<0,1%) é indicada pela caixa vermelha, juntamente com os valores P de teste qui-quadrado (X2).

[0427] A FIGURA 49D mostra variantes de humano que são observadas em pelo menos uma das espécies de primatas não humanos. A FIGURA 49E ilustra a contagem de variantes missense benignas e patogênicas no banco de dados geral ClinVar (linha superior), em comparação com as variantes ClinVar em uma coorte de 30 humanos amostrados das frequências de alelos ExAC/gnomAD (linha do meio), em comparação com as variantes observadas nos primatas (linha de baixo). Declarações benignas e patogênicas conflitantes e variantes anotadas apenas com significância incerta foram excluídas.

[0428] As FIGURAS 50A, 50B, 50C e 50D representam a seleção purificadora em variantes missense idênticas por estado a outras espécies. A FIGURA 50A representa espectro de frequência de alelo para missense de humano e variantes sinônimas que são idênticas por estado com variantes presentes em quatro espécies de mamíferos não primatas (camundongo, porco, cabra e vaca). A depleção de variantes missense em frequências de alelo humanas comuns (>0,1%) é indicada pela caixa vermelha, juntamente com o valor P do teste qui-quadrado (x2).

[0429] A FIGURA 50B é um gráfico de dispersão que mostra a depleção de variantes missense observadas em outras espécies em frequências de alelo humanas comuns (>0,1%) versus a distância evolutiva da espécie em relação ao ser humano, expressa em unidades de comprimento de ramificação (número médio de substituições por posição de nucleotídeo). O comprimento total da ramificação entre cada espécie e o ser humano é indicado ao lado do nome da espécie. Os valores de depleção para singleton e variantes comuns são mostrados para espécies onde frequências variantes estavam disponíveis, com exceção dos gorilas, que continham indivíduos relacionados.

[0430] A FIGURA 50C ilustra a contagem de variantes missense benignas e patogênicas em uma coorte de 30 humanos amostrados a partir das frequências de alelos ExAC/gnomAD (linha superior), em comparação com as variantes observadas em primatas (linha do meio) e comparadas às variantes observadas em camundongo, porco, cabra e vaca (linha inferior). Declarações benignas e patogênicas conflitantes e variantes anotadas apenas com significância incerta foram excluídas.

[0431] A FIGURA 50D é um gráfico de dispersão que mostra a depleção de substituições missense fixas observadas em pares de espécies intimamente relacionadas em frequências de alelo humanas comuns (>0,1%) versus a distância evolutiva da espécie em relação ao ser humano (expresso em unidades de comprimento médio das ramificações).

[0432] A FIGURA 51 representa proporções missense:sinônimos esperadas em todo o espectro de frequências de alelos humanos na ausência de seleção purificadora. Barras cinza sombreadas representam o número de variantes sinônimas, e barras verdes escuras representam o número de variantes missense. A linha pontilhada mostra a linha de base formada por variantes sinônimas. Proporções Mmssense:sinônimas são indicadas para cada categoria de frequência de alelo. De acordo com uma implementação, as contagens missense e sinônimas esperadas em cada categoria de frequência de alelo foram calculadas pegando variantes intrônicas do conjunto de dados ExAC/gnomAD, incluindo 123.136 exomas e usando-as para estimar a fração de variantes que se espera que caiam em cada uma das quatro categorias de frequências de alelo, com base no contexto trinucleotídico da variante, que controla a taxa de mutação e o viés de GC na conversão de genes.

[0433] As FIGURAS 52A, 52B, 52C e 52D representam proporções missense:sinônimos para variantes CpG e não CpG. As FIGURAS 52A e 52B mostram proporções missense:sinônimos para variantes de CpG (FIGURA 52A) e variantes não-CpG (FIGURA 52A) no espectro de frequências de alelos humanos, usando todas as variantes dos exomas ExAC/gnomAD. As FIGURAS 52C e 52D mostram proporções missense:sinônimos para variantes de CpG (FIGURA 52C) e variantes não- CpG (FIGURA 52D) em todo o espectro de frequências de alelos humanos, restritas apenas a variantes de humano que são idênticas por estado aos polimorfismos comuns de chimpanzé.

[0434] As FIGURAS 53, 54, e 55 ilustram proporções missense:sinônimos de variantes de humano idênticas por estado com seis primatas. Padrões de missense:proporções sinônimas no espectro de frequências de alelos humanos para variantes de ExAC/gnomAD que são idênticas por estado com variação presente em chimpanzé, bonobo, gorila, orangotango, macaco-rhesus e sagui.

[0435] A FIGURA 56 é uma simulação que mostra a saturação de novas variantes missense comuns descobertas pelo aumento do tamanho das coortes humanas pesquisadas. Nas simulações, os genótipos de cada amostra foram amostrados de acordo com as frequências de alelos gnomAD. A fração de variantes comuns de gnomAD descobertas é calculada em 100 simulações para cada tamanho de amostra de 10 a 100.000.

[0436] A FIGURA 57 representa a precisão do PrimateAI em diferentes perfis de conservação no genoma. O eixo x representa a porcentagem de alinhabilidade dos 51 AA em torno de uma sequência com os alinhamentos de 99 vertebrados. O eixo y representa o desempenho de classificação da precisão do PrimateAI para variantes em cada um dos compartimentos de conservação, analisado comparativamente no conjunto de dados de teste de 10.000 variantes de primata retidas.

[0437] A FIGURA 58 é a Tabela Suplementar 5, que representa contribuições para o conjunto de dados de treinamento benigno marcado de variantes de humano comuns e variantes presentes em primatas não humanos.

[0438] A FIGURA 59 é a Tabela Suplementar 8, que representa o efeito da frequência de alelo na proporção esperada missense:sinônimo. As contagens esperadas de variantes sinônimas e missense foram calculadas com base no espectro de frequências de alelo de variantes em regiões intrônicas a pelo menos 20-30nt de distância dos limites de éxon, usando o contexto trinucleotídico para controlar os vieses de taxa de mutação e conversão de genes.

[0439] A FIGURA 60 é a Tabela Suplementar 9 que representa a análise ClinVar. De acordo com uma implementação, variantes baixadas do Nov. A versão 2017 do banco de dados ClinVar foi filtrada para remover variantes missense com anotações conflitantes e excluir variantes de significado incerto, deixando 17.775 variantes benignas e 24.853 variantes patogênicas.

[0440] A FIGURA 61 é a Tabela Suplementar 10, que representa o número de variantes missense de outras espécies encontradas no ClinVar, de acordo com uma implementação. Era necessário que as variantes fossem idênticas por estado com a variante de humano correspondente e tivessem nucleotídeos idênticos nas outras duas posições na estrutura de leitura para garantir a mesma consequência de codificação.

[0441] A FIGURA 62 é a Tabela 1 que mostra uma implementação da descoberta de 14 genes candidatos adicionais em deficiência intelectual, que anteriormente não haviam atingido o limiar de significância em todo o genoma no estudo DDD original.

[0442] A FIGURA 63 é a Tabela 2 que mostra uma implementação da diferença média na pontuação Grantham entre as variantes patogênicas e benignas ClinVar, que é duas vezes maior que a diferença entre as variantes de novo nos casos do DDD versus controles nos 605 genes associados a doença. Geração de Dados

[0443] Todas as coordenadas usadas no artigo se referem ao genoma humano UCSC hg19/GRCh37, incluindo as coordenadas para variantes de outras espécies, que foram mapeadas para hg19 usando alinhamentos de várias sequências usando o procedimento descrito nesta seção. A sequência de DNA que codifica proteína e o alinhamento de múltiplas sequências de 99 genomas de vertebrados humanos foram baixados do navegador do genoma da UCSC para o genoma hg19. (http://hgdownload.soe.ucsc.edu/goldenPath/hg19/multiz100way/alignments /knownCanonical.éxonNuc.fa.gz). Para genes com múltiplas anotações canônicas, foi selecionada a transcrição codificadora mais longa.

[0444] Fizemos o download dos dados do polimorfismo do exoma humano no Exoma Aggregation Consortium (ExAC)/Aggregation Database de genoma (gnomAD) v2.0, que coletou os dados do sequenciamento de exoma completo (WES) de 123.136 indivíduos de oito subpopulações em todo o mundo (http://gnomad.broadinstitute.org/). Excluímos variantes que falharam nos filtros de controle de qualidade padrões, como anotadas no arquivo ExAC VCF ou que ficaram fora das regiões de codificação canônica. Para evitar efeitos devido à seleção de balanceamento, também excluímos variantes da região estendida do MHC (chr6: 28.477.79733.448.354) para as análises de primata. O projeto de sequenciamento do genoma dos grandes símios fornece dados de sequenciamento de genoma e genótipos completos para 24 chimpanzés, 13 bonobos, 27 gorilas e 10 orangotangos (incluindo 5 da subespécie Sumatra e 5 da subespécie Borniana, que foram recolhidos para as análises posteriores). O estudo sobre chimpanzé e bonobos fornece sequências genômicas de 35 chimpanzés adicionais. No entanto, como as variantes desses chimpanzés adicionais não foram chamadas usando os mesmos métodos do projeto de sequenciamento do genoma dos grandes símios, as excluímos da análise do espectro de frequências de alelos e as usamos apenas para o treinamento do modelo de aprendizagem profunda. A variação desses estudos de diversidade de primata já estava mapeada para a referência humana (hg19). Além disso, para Sagui e o macaco-rhesus, 16 indivíduos macaco-rhesus e 9 indivíduos sagui foram usados para testar a variação no sequenciamento original dos genomas dessas espécies, mas as informações em nível individual não estão disponíveis.

[0445] O projeto4 de sequenciamento do genoma dos grandes símios fornece dados de sequenciamento de genoma e genótipos completos para 24 chimpanzés, 13 bonobos, 27 gorilas e 10 orangotangos (incluindo 5 da subespécie Sumatra e 5 da subespécie Borniana, que foram recolhidos para as análises posteriores). O estudo sobre chimpanzé e bonobos fornece sequências genômicas de 35 chimpanzés adicionais. No entanto, como as variantes desses chimpanzés adicionais não foram chamadas usando os mesmos métodos do projeto de sequenciamento do genoma dos grandes símios, as excluímos da análise do espectro de frequências de alelos e as usamos apenas para o treinamento do modelo de aprendizagem profunda. A variação desses estudos de diversidade de primata já estava mapeada para a referência humana (hg19). Além disso, para Sagui e o macaco-rhesus, 16 indivíduos macaco-rhesus e 9 indivíduos sagui foram usados para testar a variação no sequenciamento original dos genomas dessas espécies, mas as informações em nível individual não estão disponíveis.

[0446] Para comparar com outros primatas e mamíferos, também baixamos SNPs de outras espécies do dbSNP, incluindo macaco-rhesus, sagui, porco, vaca, cabra, rato, frango e peixe-zebra. O dbSNP também incluiu variantes adicionais de orangotango, que foram usadas apenas para o treinamento do modelo de aprendizagem profunda, uma vez que as informações individuais do genótipo não estavam disponíveis para a análise do espectro de frequências de alelos. Descartamos outras espécies, como cães, gatos ou ovelhas, pois o dbSNP fornece um número limitado de variantes para essas espécies.

[0447] Para mapear as variantes para humanos, usamos o alinhamento de múltiplas espécies de 99 vertebrados para garantir o mapeamento ortólogo 1:1 para as regiões codificadoras de proteínas humanas. O mapeamento de variantes usando o alinhamento ortólogo de várias espécies foi essencial para remover artefatos causados por sequências pseudogênicas ou retrotranspostas, que ocorrem ao mapear diretamente SNPs entre espécies usando ferramentas como liftOver que permitem mapeamentos muitos para 1. Nos casos em que a construção do genoma das espécies no dbSNP não coincidiu com a construção do genoma das espécies no alinhamento de múltiplas sequências de 99 vertebrados, usamos o liftOver para atualizar as variantes da construção do genoma usada no alinhamento de múltiplas sequências. Aceitamos variantes como idênticas por estado se elas ocorrerem em qualquer orientação de referência/alternativa, por exemplo, se a referência humana for G e o alelo alternativo for A, isso foi considerado idêntico por estado com uma variante em outra espécie em que a referência era A e o alelo alternativo era G. Para garantir que a variante tivesse a mesma consequência prevista para a codificação de proteínas tanto na espécie humana quanto nas outras espécies, solicitamos que os outros dois nucleotídeos no códon sejam idênticos entre as espécies, para as variantes missense e sinônimas. Os polimorfismos de cada espécie incluída na análise estão listados no Arquivo de Dados Suplementares 1 e as métricas detalhadas são mostradas na Tabela Suplementar 1.

[0448] Para garantir que as variantes de cada lote de envio do dbSNP fossem de alta qualidade e alinhadas corretamente a humano, calculamos a proporção missense:sinônimo para cada lote, confirmando que essa era menor que a proporção esperada de 2,2:1; a maioria das espécies apresentou proporções inferiores a 1:1, especialmente peixe- zebra e camundongo, que se esperava que tivessem tamanhos efetivos populacionais muito grandes. Excluímos dois lotes de SNPs de vaca que apresentavam proporções incomumente altas de missense:sinônimos de análises posteriores (snpBatch_1000_BULL_GENOMES_1059190.gz com proporção de 1.391 e snpBatch_COFACTOR_GENOMICS_1059634.gz com proporção de 2.568). A proporção média missense:sinônimo para os demais lotes de vacas foi de 0,8:1. Correção para o Efeito de Frequência Slélica na Proporção Missense:Sinônimo, Taxa Mutacional, Desvio Genético e Conversão de Genes enviesados por GC

[0449] Além da ação de purificar a seleção, a depleção observada de variantes missense de humano em altas frequências de alelo também pode ser afetada por fatores não relacionados à seleção natural. A probabilidade de uma mutação neutra aparecer em uma frequência de alelo específica na população é uma função da taxa mutacional, conversão gênica e desvio genético, e esses fatores podem potencialmente introduzir um viés na proporção missense:sinônimo no espectro de frequências de alelo, mesmo na ausência de forças seletivas.

[0450] Para calcular as proporções missense:sinônimo esperadas em cada categoria de frequência de alelo na ausência de seleção codificadora de proteínas, selecionamos variantes nas regiões intrônicas 31-50pb a montante e 21-50pb a jusante de cada éxon. Essas regiões foram escolhidas para serem distantes o suficiente para evitar efeitos dos motivos de splice estendidos. Como essas regiões estão próximas às bordas da sequência de captura de exoma para exomas ExAC/gnomAD, para garantir uma verificação justa das variantes, removemos quaisquer regiões chrX e excluímos regiões com profundidade de leitura média <30. Cada variante e seus nucleotídeos imediatamente a montante e a jusante se enquadram em um dos 64 contextos trinucleotídicos. Se mutarmos o nucleotídeo médio em três outras bases, no total, são possíveis 64 x 3 = 192 configurações de trinucleotídeos. Como as configurações de trinucleotídeos e seus complementos reversos são equivalentes, existem efetivamente 96 contextos de trinucleotídeos. Observamos que o contexto trinucleotídico tem um efeito muito forte na taxa de mutação e um efeito menor na conversão gênica enviesada por GC, tornando o contexto trinucleotídico eficaz para modelar essas variáveis.

[0451] Dentro dessas regiões intrônicas, pegamos cada variante dos 126.136 exomas de ExAC/gnomAD e as separamos em categorias 4 x 192, com base em quatro categorias de frequência de alelo (singleton, mais do que singleton~0,01%, 0,01%~0,1%, >0,1%) e 192 contextos de trinucleotídeo. Normalizamos o número de variantes observadas em cada uma das categorias 4 x 192 (frequência de alelo x contexto trinucleotídico) dividindo pelo número total de variantes possíveis com esse de contexto trinucleotídeo (obtido substituindo cada nucleotídeo na sequência intrônica de três jeitos diferentes). Para cada um dos 192 contextos de trinucleotídeos, obtivemos assim a fração de variantes que se esperava em cada uma das quatro categorias de frequência de alelos na ausência de seleção codificadora de proteínas. Isso modela implicitamente os efeitos da taxa mutacional, conversão de genes enviesados por GC e desvio genético que são devidos a diferenças no contexto trinucleotídicos (Tabela Suplementar 7).

[0452] Para obter a proporção missense:sinônimo esperada em cada categoria de frequência de alelo, contamos o número total de possíveis mutações sinônimas e missense no genoma humano acessíveis por substituições de nucleotídeo único e atribuímos cada uma delas a um dos 192 contextos trinucleotídicos. Para cada contexto, usamos a tabela 4 x 192 para calcular o número de variantes que se esperava em cada uma das 4 categorias de frequência do alelo. Finalmente, resumimos o número de variantes sinônimas e missense nos 192 contextos trinucleotídicos, para obter o número total esperado de variantes sinônimas e missense em cada uma das quatro categorias de frequências de alelo (FIGURA 51 e Tabela Suplementar 8 (FIGURA 59)).

[0453] As proporções esperadas de missense:sinônimo eram quase constantes em todo o espectro de frequências de alelo e próximas a proporções de 2,23:1 que seria esperada para variantes de novo na ausência de seleção natural, com exceção das variantes singleton, cuja proporção missense:sinônimo esperada foi de 2,46:1. Isso indica que, devido à ação de fatores independentes das pressões seletivas codificadoras de proteínas (taxa de mutação, conversão de genes, desvio genético), espera-se que as variantes da categoria de frequência de alelos singleton no ExAC/gnomAD tenham uma proporção missense:sinônimo cerca de 10% superior à das mutações de novo por padrão. Para corrigir isso, ajustamos a proporção missense:sinônimo para singletons em 10% nas análises de frequência de alelo (FIGURAS. 49A, 49B, 49C, 49De 49E e FIGURAS. 50A, 50B, 50Ce 50D). Esse pequeno ajuste reduziu a depleção estimada de missense para variantes humanas comuns presentes em primatas e outros mamíferos (mostrado nas figuras 49A, 49B, 49C, 49D, e 49E e FIGs. 50A, 50B, 50C e 50D) em aproximadamente ~3,8%. A proporção missense:sinônimo mais alta para variantes singleton é devida a mutações de transição (que são mais propensas a criar alterações sinônimas) tendo frequências de alelo mais altas devido a uma taxa de mutação mais alta do que as mutações transversais (que são mais propensas a criar alterações missense).

[0454] Além disso, isso explica a proporção missense:sinônimo observada de 2,33:1 para variantes singleton em ExAC/gnomAD, que excede a proporção esperada para mutações de novo de 2,23:1. Após considerar os efeitos do espectro de frequências de alelo na proporção missense:sinônimo, isso na verdade reflete uma depleção de 5,3% das variantes singleton em comparação com a expectativa, o que presumivelmente seria devido à seleção contra mutações missense patogênicas com modos de herança dominantes de novo. De fato, quando consideramos apenas genes haploinsuficientes com alta probabilidade de perda de função (pLI > 0,9), a proporção missense:sinônimo para variantes ExAC/gnomAD singleton é de 2,04:1, indicando uma depleção de cerca de ~17% nos genes haploinsuficientes. Esse resultado é concordante com as estimativas anteriores de que 20% das mutações missense são equivalentes à perda de mutações funcionais, assumindo algum grau de penetração incompleta.

[0455] Também examinamos especificamente as proporções missense:sinônimo para variantes CpG e não-CpG no espectro de frequências de alelos humanos, devido às grandes diferenças em suas taxas de mutação (FIGURAS 52A, 52B, 52Ce 52D). Confirmamos que, tanto para as mutações CpG quanto para as não-CpG, as variantes de humano que são idênticas por estado aos polimorfismos comuns de chimpanzé têm proporções quase constantes de missense:sinônimos em todo o espectro de frequências de alelo. Depleção de Variantes missense de humano que são Idênticas por Estado com Polimorfismos em Outras Espécies

[0456] Para avaliar se variantes de outras espécies seriam toleradas em frequências de alelo comuns (> 0,1%) em humanos, identificamos variantes de humano que eram idênticas por estado com variação em outras espécies. Para cada uma das variantes, atribuímo-las a uma das quatro categorias com base em suas frequências de alelo nas populações humanas (singleton, mais do que singleton ~0,01%, 0,01%~0,1%, > 0,1%) e estimamos a diminuição das proporções missense:sinônimo (MSR) entre as variantes raras (< 0.1%) e comuns (> 0,1%). A depleção de variantes idênticas por estado em frequências de alelo humanas comuns (> 0,1%) indica a fração de variantes das outras espécies que são suficientemente deletérias que seriam filtradas por seleção natural em frequências de alelo comuns em humanos.

[0457] As proporções missense:sinônimo e as porcentagens de depleção foram calculadas por espécie e são mostradas na FIGURA 50B e na Tabela Suplementar 2. Além disso, para variantes comuns de chimpanzé (FIGURA 49A), variantes singleton de chimpanzé (FIGURA 49C) e variantes de mamífero (FIGURA 50A), realizamos o teste de homogeneidade qui-quadrado (x2) na tabela de contingência 2*2 para testar se as diferenças nas proporções missense:sinônimo entre variantes raras e comuns foram significativas.

[0458] Como o sequenciamento foi realizado apenas em números limitados de indivíduos do projeto de diversidade de grandes símios, usamos o espectro de frequência de alelos humanos de ExAC/gnomAD para estimar a fração de variantes amostradas que eram raras (<0,1%) ou comuns (>0,1%) na população geral de chimpanzés. Amostramos uma coorte de 24 indivíduos com base nas frequências de alelos ExAC/gnomAD e identificamos variantes missense que foram observadas uma vez ou mais de uma vez nessa coorte. As variantes observadas mais de uma vez tiveram uma chance de 99,8% de serem comuns (>0,1%) na população em geral, enquanto as variantes que foram observadas apenas uma vez na coorte tiveram uma chance de 69% de serem comuns na população em geral. Nas FIGURAS. 49B e 49C, mostramos que, como consequência de algumas das variantes singleton de chimpanzé serem mutações deletérias raras, observamos a deleção de variantes de chimpanzé singleton em altas frequências de alelo em humanos, mas não para as variantes comuns de chimpanzé. Aproximadamente metade das variantes de chimpanzés observadas na coorte de 24 indivíduos foi observada apenas uma vez e aproximadamente metade foi observada mais de uma vez.

[0459] Para confirmar que a depleção observada para variantes missense em mamíferos mais distantes não se foi devido a um efeito de confusão de genes que são mais bem conservados e, portanto, alinhados com mais precisão, repetimos a análise acima, restringindo apenas genes com identidade nucleotídica média >50% no alinhamento de múltiplas sequências de 11 primatas e 50 mamíferos em comparação com humanos (consulte a Tabela Suplementar 3). Isso removeu ~7% dos genes codificadores de proteína humana da análise, sem afetar substancialmente os resultados. Substituições Fixas Entre Primatas, Mamíferos e Vertebrados Distantes

[0460] Para garantir que nossos resultados usando a variação de dbSNP não fossem afetados por problemas com os dados variantes ou artefatos de domesticação (uma vez que a maioria das espécies selecionadas do dbSNP foram domesticadas), também repetimos as análises usando substituições fixas de pares de espécies intimamente relacionadas em lugar de polimorfismos intraespécies. Fizemos o download da árvore filogenética de 100 espécies de vertebrados (http://hgdownload.soe.ucsc.edu/goldenPath/hg19/multiz100way/hg19.100w ay.commonNames.nh) no navegador de genoma da UCSC, com distância filogenética medida em comprimento de ramificação (número médio de substituições de nucleotídeos por posição). Selecionamos pares de espécies intimamente relacionadas (comprimento ramificação <0,25) para análise posterior. Para identificar substituições fixas entre pares de espécies intimamente relacionadas, baixamos regiões de codificação para os alinhamentos múltiplos de sequências de 99 genomas de vertebrados com humanos, bem como os alinhamentos de 19 genomas de mamíferos (16 primatas) com humanos no navegador de genoma da UCSC. O alinhamento adicional de 19 espécies múltiplas de mamíferos foi necessário porque algumas das espécies de primata, como bonobo, estavam ausentes no alinhamento de 99 vertebrados (http://hgdownload.soe.ucsc.edu/goldenPath/hg38/multiz20way/alignments/ knownCanonical.exonNuc.fa.gz). No total, obtivemos 15 pares de espécies intimamente relacionadas, incluindo cinco pares de primata, conforme listado na FIGURA 50D e na tabela suplementar 4.

[0461] Tomamos os alinhamentos múltiplos de sequências de 19 mamíferos ou 99 genomas de vertebrados com humanos nas regiões codificadoras canônicas e obtivemos substituições de nucleotídeos entre cada par selecionado de vertebrados, listados no Arquivo de Dados Suplementares 2. Essas substituições foram mapeadas para o genoma humano, exigindo que os outros dois nucleotídeos no códon permanecessem inalterados entre a espécie humana e as outras espécies e aceitando a variante em referência ou orientação alternativa. Usando variantes de humano que eram idênticas por estado com as substituições fixas de pares de espécies relacionadas, calculamos proporções missense:sinônimos para variantes nas categorias de frequência de alelo raro (<0.1%) e comum (>0,1%) para obter a fração de substituições fixas sob seleção negativa, conforme mostrado na Tabela Suplementar 4. Análise ClinVar de Dados de Polimorfismo em Humanos, Primatas, Mamíferos e Outros Vertebrados

[0462] Para examinar o impacto clínico de variantes que são idênticas por estado com outras espécies, baixamos o resumo da versão de lançamento do banco de dados ClinVar (ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/clinvar_20171029.vcf.gz lançado em 02/11/2017)12. O banco de dados continha 324.698 variantes na construção do genoma hg19, das quais 122.884 eram variantes de nucleotídeo único missense mapeadas para nossa lista de genes codificadores de proteínas (Tabela Suplementar 9). A maioria das variantes no banco de dados ClinVar não foram de consequência sem missense e foram excluídas. Em seguida, filtramos variantes com interpretações conflitantes de patogenicidade e mantivemos apenas aquelas com anotações benignas, provavelmente benignas, patogênicas e provavelmente patogênicas. Mesclamos variantes com anotações Benignas ou Provavelmente Benignas em uma única categoria, assim como mesclamos variantes com anotações Patogênicas ou Provavelmente Patogênicas. Seguindo as etapas de filtragem mostradas na Tabela Suplementar 9, há um total de 24.853 variantes na categoria patogênica e 17.775 variantes na categoria benigna; os demais foram excluídos por serem falantes de significado desconhecido ou anotações conflitantes.

[0463] Para obter uma linha de base para as variantes missense ClinVar na população humana, examinamos as variantes missense ClinVar em uma coorte de 30 indivíduos amostrados nas frequências de alelos ExAC/gnomAD. Esse tamanho da coorte foi escolhido para refletir aproximadamente o número de indivíduos sequenciados no estudo do projeto de diversidade de primata. Relatamos o número médio de variantes patogênicas e benignas em uma coorte de 30 seres humanos (FIGURA 49E) de 100 dessas simulações. Como os curadores anotaram sistematicamente variantes de humano comuns com consequências benignas no ClinVar, foram excluídas variantes com frequência de alelo maior que 1% para evitar esse viés de curadoria.

[0464] Analisamos variantes ClinVar que eram idênticas por estado com variação em primatas, mamíferos e outros vertebrados. Os números de variantes benignas e patogênicas para cada espécie são mostrados na Tabela Suplementar 10. Um resumo do número de variantes ClinVar que estavam presentes em humanos, primatas e mamíferos mais distantes é mostrado nas FIGURAS. 49E e 50B, juntamente com os resultados do teste qui-quadrado (x2) de homogeneidade para diferenças na proporção de variantes benignas para patogênicas. Geração de Variantes Benignas para Treinamento de Modelo

[0465] As variantes comuns na população humana são amplamente neutras, exceto por exemplos raros de efeitos fundadores ou seleção de balanceamento, tornando-as adequadas como um conjunto de dados de treinamento benigno para aprendizado de máquina que não é afetado por vieses na interpretação humana. Utilizamos dados de frequência de alelos de 123.136 exomas do banco de dados ExAC/gnomAD (versão v2.0), excluindo variantes que não passaram nos filtros, o que nos deixou com 83.546 variantes missense com frequência total de alelos na população >= 0,1% dentro de transcrições codificadoras de proteína canônicas.

[0466] Com base em nossos resultados anteriores, mostrando que as variantes presentes nos primatas são amplamente benignas em humanos, criamos um conjunto de dados de treinamento benigno para aprendizado de máquina que compreende variantes de humano comuns (> 0,1% de frequência de alelo), variantes de chimpanzé, bonobo, gorila e orangotango do projeto de diversidade de grandes macacos e sequenciamento adicional de primata e variantes de macaco-rhesus, orangotango e sagui do dbSNP. No total, 301.690 variantes únicas de primata foram adicionadas ao conjunto de treinamento benigno, de acordo com uma implementação. O número de variantes de treinamento benignas contribuídas por cada fonte é mostrado na Tabela Suplementar 5.

[0467] Uma ressalva é que, embora a maioria das variantes de primata seja comum em suas respectivas populações, uma minoria delas são variantes raras. Como as espécies de primatas não humanos tiveram um número limitado de indivíduos sequenciados, esperaríamos que o conjunto de variantes determinadas geralmente represente variações comuns. De fato, descobrimos que a proporção missense:sinônimo para variantes de cada uma das espécies de primata é menos da metade da proporção esperada de 2,23:1 para a mutação de novo, indicando que essas são principalmente variantes comuns que já passaram pela peneira de seleção. Além disso, para a coorte de chimpanzés, estimamos que ~84% das variantes verificadas estão presentes em frequências de alelo comuns (>0,1%) em suas respectivas populações. Como ~50% das mutações missense recém-surgidas são filtradas por seleção purificadora em frequências de alelo humanas comuns (>0,1%) (FIGURA 49A), esse número é consistente com ~16% de variantes raras, responsáveis pela depleção observada de 8,8% das variantes missense de humano que são idênticas por estado com variação de primata observada (FIGURA 49D).

[0468] Aplicando a estimativa de que ~20% das mutações missense de humano são equivalentes à perda de função, espera-se que as variantes de primata compreendam 3,2% de mutações totalmente patogênicas, 91,2% de mutações benignas (toleradas em >0,1% de frequência de alelo) e 5,6% de mutações intermediárias que não revogam completamente a função do gene, mas são deletérios o suficiente para serem filtrados em frequências de alelo comuns (>0,1%). Apesar das imperfeições conhecidas neste conjunto de dados de treinamento, a precisão da classificação da rede de aprendizagem profunda foi muito melhor quando treinada em um conjunto de dados de treinamento benigno que compreende tanto variantes de humano comuns quanto variantes de primata, em comparação apenas com variantes de humano comuns. Portanto, parece que, com a precisão atual da classificação, a quantidade de dados de treinamento disponível é a limitação mais forte. À medida que um número maior de indivíduos é sequenciado em cada espécie de primata, será possível preparar conjuntos de dados de treinamento que contenham uma fração maior de variantes comuns de primata, reduzindo a contaminação por variantes patogênicas no conjunto de dados de treinamento e melhorando ainda mais o desempenho da classificação. Geração de Variantes Não Marcadas para Complementar o Conjunto de Dados de Treinamento Benigno

[0469] Todas as variantes missense foram geradas a partir de cada posição base das regiões codificadoras canônicas, substituindo o nucleotídeo na posição pelos outros três nucleotídeos. Excluímos as variantes observadas nos 123.136 exomas do ExAC/gnomAD e as variantes nos códons de início ou parada. No total, 68.258.623 variantes não marcadas foram geradas. Atribuímos cada uma das variantes não marcadas a uma das 96 categorias de contexto trinucleotídico diferentes. Treinamos a rede de aprendizagem profunda usando uma abordagem semissupervisionada, amostrando variantes desse conjunto de dados não marcado que correspondem às variantes no conjunto de dados benigno pelo contexto trinucleotídicos e treinando o classificador para discriminar entre exemplos de treinamento benignos e não marcados. Filtragem Adicional de Variantes Não Marcadas

[0470] Ao apresentar exemplos de variantes benignas e não marcadas, juntamente com a sequência de aminoácidos flanqueadoras, a rede de aprendizagem profunda aprende regiões de proteínas que são altamente intolerantes a mutações. No entanto, a ausência de variantes comuns dentro de uma região da sequência de proteínas pode ser devida a uma forte seleção purificadora ou a artefatos técnicos que impedem que variantes sejam chamadas na região. Para corrigir este último, removemos variantes dos conjuntos de dados benignos e não marcados das regiões onde o conjunto de dados ExAC/gnomAD tinha cobertura média < 1. Da mesma forma, ao combinar variantes não marcadas com variantes de primata no conjunto de dados benigno durante o treinamento, excluímos variantes não marcadas de regiões nas quais esse primata não possuía sequência alinhada ortóloga com humana no alinhamento de múltiplas sequências. Variantes de Primata Retidas Para Validação e Teste, e Variantes de novo de Indivíduos Afetados e Não Afetados

[0471] Para validar e testar a rede de aprendizagem profunda, foram amostrados aleatoriamente dois conjuntos de 10.000 variantes de primata para validação e teste, que retiramos do treinamento. O restante das variantes de primata, juntamente com as variantes de humano comuns (> 0,1% de frequência de alelo) foram usadas como o conjunto de dados benigno para o treinamento da rede de aprendizagem profunda. Além disso, também amostramos dois conjuntos de 10.000 variantes não marcadas que correspondiam às variantes de primata retidas para o conjunto de validação e o conjunto de teste.

[0472] Usamos as 10.000 variantes de primata retidas no conjunto de validação e as 10.000 variantes não marcadas correspondentes para monitorar o desempenho da rede de aprendizagem profunda durante o curso do treinamento, medindo a capacidade da rede de discriminar as variantes nos dois conjuntos. Isso nos permitiu determinar um ponto de parada para o treinamento e evitar o excesso de ajustes, uma vez que o desempenho da rede estava saturado.

[0473] Usamos as 10.000 variantes de primata retidas no conjunto de dados de teste para comparar a rede de aprendizagem profunda, bem como os outros 20 classificadores. Como os diferentes classificadores tinham distribuições de pontuação bastante variadas, usamos essas variantes não marcadas para identificar o limite do 50° percentil para cada classificador. Analisamos comparativamente cada classificador na fração de variantes no conjunto de testes de 10.000 variantes de primata retidas que foram classificadas como benignas no limiar do 50° percentil para esse classificador, para garantir uma comparação justa entre os métodos.

[0474] Para avaliar o desempenho da rede de aprendizagem profunda em contextos clínicos usando variantes de novo em indivíduos afetados com distúrbios de desenvolvimento neurológico e variantes de novo em controles saudáveis, baixamos as variantes de novo do estudo Deciphering Developmental Disorders (DDD) e variantes de novo dos controles irmãos saudáveis no estudo de autismo da Simons Simplex Collection (SSC). O estudo DDD fornece um nível de confiança para variantes de novo e excluímos variantes do conjunto de dados do DDD com um limiar de <0,1 como possíveis falsos positivos devido a erros de chamada de variantes. No total, tivemos 3.512 variantes de novo missense de indivíduos afetados do DDD e 1.208 variantes de novo missense de controles saudáveis.

[0475] Para modelar melhor o cenário clínico do mundo real de distinguir entre variantes benignas e patogênicas de significância incerta dentro de um painel de genes candidatos a doenças, limitamos a análise a apenas variantes de novo dentro de 605 genes associados à doença no estudo DDD (p <0,05), calculado apenas a partir da variação truncada de proteínas (Tabela Suplementar 18). Avaliamos o enriquecimento específico de genes de mutações de novo que truncam proteínas, calculando a significância estatística sob uma hipótese nula do número esperado de mutações de novo, dada a taxa de mutação específica de genes e o número de cromossomos considerados. Selecionamos os 605 genes com um valor-P nominal < 0,05. Calculamos o excesso de mutações sinônimas e missense de novo dentro dos 605 genes (FIGURA 22A) como a proporção de contagens de mutações de novo observadas versus mutações de novo esperadas, bem como a diferença de mutações de novo observadas menos as mutações de novo esperadas. Dentro desses 605 genes, observamos 380 mutações missense de novo dos indivíduos afetados do DDD (FIGURA 22A). Para cada um dos classificadores, incluindo o nosso, uma pequena fração de variantes não tinha previsões, geralmente porque não mapearam para os mesmos modelos de transcrição usados pelo classificador. Portanto, para nossa rede de aprendizagem profunda, realizamos as análises a jusante nas FIGURAS 22A, 22B, 22C, 22D e 22E usando 362 mutações missense de novo do DDD afetaram indivíduos e 65 mutações missense de novo de controles saudáveis. Saturação de Todas as Possíveis Mutações Missense Humanas com Número Crescente de Populações de Primata Sequenciadas

[0476] Investigamos a saturação esperada de todas as possíveis mutações missense de humano de ~70M por variantes comuns presentes nas 504 espécies de primata existentes. Para cada espécie primata, simulamos 4 vezes o número de variantes missense comuns observadas em humanos (~83.500 variantes missense com frequência de alelo >0,1%), porque humanos parecem ter aproximadamente metade do número de variantes por indivíduo que outras espécies primatas, e cerca de ~50% das variantes missense de humano foram filtradas por seleção purificadora a >0,1% de frequência de alelo (FIGURA 49A). Atribuímos variantes simuladas com base na distribuição observada de variantes missense de humano nos 96 contextos trinucleotídicos. Por exemplo, se 2% das variantes missense de humano fossem do contexto trinucleotídico CCG>CTG, exigiríamos que 2% das variantes simuladas fossem mutações CCG>CTG amostradas aleatoriamente. Isso tem o efeito de controlar os efeitos da taxa de mutação, desvio genético e viés de conversão de genes, usando o contexto trinucleotídico.

[0477] As curvas na FIGURA 23D mostram a saturação cumulativa das ~70M mutações missense de humano possíveis por variantes comuns presentes em qualquer uma das 504 espécies de primata, assumindo que determinamos todas as variantes comuns em cada espécie de primata (frequência de alelo >0,1%). Da FIGURA 49A, aproximadamente ~50% das mutações missense de humano são suficientemente deletérias em humanos e outros primatas para impedir que subam para frequências de alelo comuns (> 0,1%) e, portanto, as curvas na FIGURA 23D representam a fração de mutações missense de humano não deletérias saturadas pela variação comum de primata, à medida que o número de espécies de primata cresce. Mostramos que com 504 espécies de primata, a maioria das mutações missense de humano não deletérias será saturada, com mutações CpG não deletérias saturadas com um número muito menor de espécies devido à sua taxa de mutação mais alta.

[0478] Para modelar a fração de variantes missense de humano (frequência de alelo >0,1%) descobertas com o aumento do tamanho das coortes humanas pesquisadas (FIGURA 36), foram amostrados genótipos de acordo com as frequências de alelo gnomAD. A fração de variantes missense comuns gnomAD descobertas foi calculada em 100 simulações para cada tamanho de amostra de 10 a 100 mil. Previsão de Estrutura Secundária e acessibilidade de solvente

[0479] A rede de aprendizagem profunda para previsão de patogenicidade contém 36 camadas convolucionais totais, incluindo 19 camadas convolucionais para as redes de previsão de estrutura secundária e de acessibilidade de solvente e 17 para a rede principal de previsão de patogenicidade que usa como entrada os resultados da estrutura secundária e das redes de acessibilidade de solvente. Como as estruturas cristalinas da maioria das proteínas humanas são desconhecidas, treinamos dois modelos para permitir que a rede aprenda a estrutura das proteínas a partir da sequência primária. Ambos os modelos usaram a mesma arquitetura de rede e entradas mostradas na FIGURA 6. As entradas para a estrutura secundária e redes de acessibilidade de solvente são uma matriz de frequência de posição de aminoácido de 51 de comprimento x 20 que codifica informações de conservação do alinhamento de múltiplas sequências de humano com 99 outros vertebrados.

[0480] A rede da estrutura secundária é treinada para prever a estrutura secundária de três estados: hélice alfa (H), folha-beta (B) e bobinas (C). A rede de acessibilidade de solvente é treinada para prever a acessibilidade de solvente de três estados: enterrada (B), intermediária (I) e exposta (E). Ambas as redes usam apenas a sequência primária como suas entradas e foram treinadas usando marcações de estruturas cristalinas conhecidas no Protein DataBank. Os modelos preveem um estado para cada resíduo de aminoácido. Preparação de Dados para Previsão de Estrutura Secundária e acessibilidade de solvente

[0481] Usamos estruturas cristalinas não relacionadas do Protein Databank para o treinamento dos modelos. Sequências de aminoácidos com mais de 25% de similaridade de sequência foram removidas. No total, 6.367 sequências de proteínas foram usadas para treinamento, 400 para validação e 500 para teste (Tabela Suplementar 13). Os dados usados para treinamento, incluindo a sequência de aminoácidos e as marcações de estrutura secundária e de acessibilidade de solvente estão disponíveis no site do RaptorX: http://raptorx.uchicago.edu/download/.

[0482] A maioria das estruturas cristalinas dissolvidas são de proteínas não humanas; portanto, para pré-treinar a estrutura secundária e os modelos de solvente, usamos o conjunto RaptorX (baseado em PSI- BLAST) para obter sequências relacionadas, uma vez que geralmente o alinhamento de múltiplas sequências com base humana não era acessível. Geramos alinhamentos múltiplos de sequência para as proteínas usando a ferramenta CNFsearch1.66_release do RaptorX e contamos os aminoácidos em cada posição dos 99 alinhamentos mais próximos para formar a matriz de frequência de posição. Por exemplo, os comandos específicos que usam o RaptorX para recuperar os alinhamentos múltiplos de sequência para a proteína 1u7lA.fasta foram os seguintes: % ./buildFeature -i 1u7lA.fasta -c 10 -o./TGT/1u7lA.tgt % ./CNFsearch -a 30 -q 1u7lA

[0483] Para cada posição de aminoácido no conjunto de dados, pegamos uma janela da matriz de frequência de posição correspondente aos 51 aminoácidos flanqueadores e usamos isso para prever a marcação da estrutura secundária ou a acessibilidade de solvente para o aminoácido no centro da sequência de aminoácidos de 51 de comprimento. As marcações para estrutura secundária e a acessibilidade de solvente relativa foram obtidas diretamente da estrutura cristalina tridimensional conhecida da proteína usando o software DSSP e não exigiram previsão da sequência primária. Para incorporar a estrutura secundária e as redes de acessibilidade de solvente como parte da rede de previsão de patogenicidade, calculamos matrizes de frequência de posição dos alinhamentos múltiplos de sequências de 99 vertebrados com base em humanos. Embora as matrizes de conservação geradas a partir desses dois métodos sejam geralmente semelhantes, habilitamos a retropropagação por meio da estrutura secundária e dos modelos de acessibilidade de solvente durante o treinamento para previsão de patogenicidade para permitir o ajuste minucioso dos pesos dos parâmetros. Arquitetura de Modelo e Treinamento

[0484] Treinamos dois modelos separados de rede neural convolucional profunda para prever a estrutura secundária e a acessibilidade de solvente relativa de proteínas. Os dois modelos têm arquitetura e dados de entrada idênticos, mas diferem nos estados de previsão. Realizamos uma pesquisa detalhada de hiperparâmetros para otimizar os modelos para obter melhor desempenho. Tanto a nossa rede de aprendizagem profunda para previsão de patogenicidade quanto as redes de aprendizagem profunda para previsão de estrutura secundária e acessibilidade de solvente adotaram a arquitetura de blocos residuais, que se tornou amplamente adotada devido ao seu sucesso na classificação de imagens. Os blocos residuais compreendem unidades repetidas de convolução, intercaladas com conexões skip que permitem que informações de camadas anteriores pulem blocos residuais. Em cada bloco residual, a camada de entrada é primeiramente normalizada em lote, seguida por uma camada de ativação que usa unidades lineares retificadas (ReLU). A ativação é então passada através de uma camada de convolução 1D. Essa saída intermediária da camada de convolução 1D é novamente normalizada em lote e ativada por ReLU, seguida por outra camada de convolução 1D. Ao final da segunda convolução 1D, somamos sua saída com a entrada original no bloco residual, que atua como uma conexão skip, permitindo que as informações da entrada original ignorem o bloco residual. Em tal arquitetura, denominada rede de aprendizagem residual profunda por seus autores, a entrada é preservada em seu estado original e as conexões residuais são mantidas livres de ativações não lineares do modelo, permitindo o treinamento eficaz de redes mais profundas. A arquitetura detalhada é fornecida na FIGURA 6 e Tabelas Complementares 11 (FIGURAS 7A e 7B) e 12 (FIGURAS 8A e 8B).

[0485] Após os blocos residuais, a camada softmax calcula probabilidades dos três estados para cada aminoácido, entre as quais a maior probabilidade softmax determina o estado do aminoácido. O modelo é treinado com função de perda de entropia cruzada categórica acumulada para toda a sequência de proteínas usando o otimizador ADAM. Uma vez que as redes foram pré-treinadas na estrutura secundária e na acessibilidade de solvente, em vez de tomar diretamente a saída das redes como entradas para a rede de previsão de patogenicidade, pegamos a camada antes da camada softmax, para que mais informações passassem para a rede de previsão de patogenicidade.

[0486] A melhor precisão de teste alcançada para o modelo de previsão de estrutura secundária de três estados é de 79,86% (Tabela Suplementar 14), semelhante à precisão do estado da técnica prevista pelo DeepCNF model30. A melhor precisão de teste para o modelo de previsão de acessibilidade de solvente de três estados é de 60,31% (Tabela Suplementar 14), semelhante à melhor precisão atual prevista pelo RaptorX no conjunto de dados de treinamento semelhante. Também comparamos as previsões da rede neural ao usar marcações de estrutura anotadas por DSSP para aproximadamente ~4000 proteínas humanas que tinham estruturas cristalinas versus usar o modelo padrão PrimateAI que usa apenas marcações de estrutura previstas. Não obtivemos melhorias adicionais na precisão da previsão de patogenicidade ao usar as marcações anotadas por DSSP (Tabela Suplementar 15). Recursos de Entrada Para Modelos de Aprendizagem Profunda Para Previsão de Patogenicidade

[0487] O conjunto de dados de treinamento para a rede de previsão de patogenicidade contém 385.236 variantes benignas marcadas e 68.258.623 variantes não marcadas após a filtragem. Para cada variante, geramos os seguintes recursos de entrada. O primeiro recurso de entrada de cada variante é sua sequência de aminoácidos flanqueadora de 51 de comprimento, ou seja, 25 aminoácidos para cada lado da variante obtidos a partir da sequência de referência de hg19, para fornecer aos modelos de aprendizagem profunda o contexto de sequência da variante. No total, esta sequência de referência flanqueadora tem 51 aminoácidos de comprimento. Através de observação empírica, descobrimos que a representação de aminoácidos da sequência de proteínas era mais eficaz do que representar a sequência codificadora de proteína usando nucleotídeos.

[0488] O segundo recurso é a sequência de aminoácidos humanos flanqueadora de 51 de comprimento com o aminoácido alternativo substituído na posição central pela variante. A sequência flanqueadora alternativa é a mesma que a sequência flanqueadora de referência no primeiro recurso, exceto que a posição do meio da sequência contém o aminoácido alternativo, ao invés do aminoácido de referência. As sequências de aminoácidos humanos de referência e alternativas foram convertidas em vetores codificados one-hot de comprimento 51 x 20, onde cada aminoácido é representado por um vetor de 19 aminoácidos com valor 0 e um único aminoácido com valor 1.

[0489] Três matrizes de frequência de posição (PFMs) são geradas a partir de alinhamentos múltiplos de sequência de 99 vertebrados, incluindo um para 11 primatas, um para 50 mamíferos excluindo primatas e um para 38 vertebrados excluindo primatas e mamíferos. Cada PFM possui dimensões L x 20, onde L é o comprimento das sequências flanqueadoras em torno da variante (no nosso caso, L representa 51 aminoácidos).

[0490] Para a entrada na estrutura secundária de três estados pré- treinados e nas redes de acessibilidade de solvente de três estados, usamos uma única matriz PFM gerada a partir de alinhamentos múltiplos de sequências para todos os 99 vertebrados, também com comprimento 51 e profundidade 20. Após o pré-treinamento das redes nas estruturas cristalinas conhecidas do Protein DataBank, as duas camadas finais para a estrutura secundária e os modelos de solvente foram removidas (a camada maxpool global e a camada de saída) e a forma 51 x 40 da saída da camada anterior foi usada como entrada para a rede de previsão de patogenicidade. Permitimos a retropropagação pelas camadas estruturais da rede para ajustar minuciosamente os parâmetros. Aprendizagem Semisupervisionada

[0491] Como os algoritmos de aprendizagem semissupervisionada usam instâncias marcadas e não marcadas no processo de treinamento, eles podem produzir classificadores que alcançam melhor desempenho do que algoritmos de aprendizagem completamente supervisionados que possuem apenas uma pequena quantidade de dados marcados disponíveis para treinamento. O princípio por trás da aprendizagem semissupervisionada é que o conhecimento intrínseco dos dados não marcados pode ser aproveitado para fortalecer a capacidade de previsão de um modelo supervisionado que usa apenas instâncias marcadas, proporcionando assim uma vantagem potencial para a aprendizagem semissupervisionada. Os parâmetros do modelo aprendidos por um classificador supervisionado a partir de uma pequena quantidade de dados marcados podem ser direcionados para uma distribuição mais realista (que se assemelha mais à distribuição dos dados de teste) pelos dados não marcados.

[0492] Outro desafio que prevalece na bioinformática é o problema de desequilíbrio de dados. O fenômeno do desequilíbrio de dados surge quando uma das classes a serem previstas é sub-representada nos dados porque as instâncias pertencentes a essa classe são raras (casos dignos de nota) ou difíceis de obter. Ironicamente, as classes minoritárias são geralmente as mais importantes a serem aprendidas, porque podem estar associadas a casos especiais.

[0493] Uma abordagem algorítmica para lidar com distribuições de dados desequilibradas é baseada em conjuntos de classificadores. Quantidades limitadas de dados marcados naturalmente levam a classificadores mais fracos, mas conjuntos de classificadores fracos tendem a superar o desempenho de qualquer classificador constituinte único. Além disso, os conjuntos geralmente melhoram a precisão da previsão obtida de um único classificador por um fator que valida o esforço e o custo associados à aprendizagem de múltiplos modelos. Intuitivamente, a agregação de vários classificadores leva a um melhor controle de ajuste excessivo, uma vez que o cálculo da média da alta variabilidade de classificadores individuais também calcula a média do ajuste excessivo dos classificadores.

[0494] Buscamos uma estratégia de aprendizado semissupervisionada devido à falta de conjuntos de dados de tamanho adequado de variantes patogênicas marcadas com confiança. Embora o banco de dados ClinVar tenha mais de 300.000 entradas, após a remoção de variantes de significância incerta, restaram apenas 42.000 variantes missense com interpretações não conflitantes de patogenicidade.

[0495] Revisões sistemáticas também descobriram que essas entradas geralmente têm evidências clínicas insuficientes para apoiar sua patogenicidade anotada. Além disso, a maioria das variantes em bancos de dados com curadoria humana tende a estar em um conjunto muito pequeno de genes, tornando-os incompatíveis com variantes em conjuntos de dados de treinamento benignos, que são determinados em todo o genoma usando variantes comuns de humano ou substituições fixas de chimpanzé-humano. Dado o quão diferente os conjuntos de dados foram determinados, o treinamento de um modelo de aprendizagem supervisionado com variantes com curadoria humana como o conjunto patogênico e variantes comuns em todo o genoma como o conjunto benigno provavelmente introduzirão vieses significativos.

[0496] Treinamos a rede de aprendizagem profunda para discriminar entre um conjunto de variantes benignas marcadas e um conjunto de variantes não marcadas que foram cuidadosamente correspondidas para remover vieses. De acordo com uma implementação, o conjunto de 385.236 variantes benignas marcadas compreendia variantes comuns de humano (frequência de alelo de >0,1%) do banco de dados ExAC/gnomAD e variantes de seis espécies de primatas não humanos.

[0497] Amostramos um conjunto de variantes não marcadas, exigindo correspondência com as variantes benignas no contexto trinucleotídico (para controlar a taxa de mutação, o desvio genético e a conversão de genes) e ajustando o impacto da alinhabilidade e da cobertura de sequência na verificação de variantes. Como o número de variantes não marcadas excede em muito as variantes benignas marcadas, obtivemos uma previsão de consenso treinando oito modelos que usam o mesmo conjunto de variantes benignas marcadas e oito conjuntos de variantes não marcadas com amostragem aleatória e calculando a média de suas previsões.

[0498] A motivação da escolha da aprendizagem semissupervisionada é que os bancos de dados de variantes com curadoria humana são pouco confiáveis e desordenados e, em particular, a falta de variantes patogênicas confiáveis. Obtivemos um conjunto de variantes benignas confiáveis a partir de variantes comuns de humano do gnomAD e variantes de primata. Para variantes patogênicas, adotamos uma abordagem de amostragem balanceada iterativa para inicialmente amostrar variantes patogênicas de um conjunto de variantes desconhecidas (variantes VUS sem significância clínica anotada).

[0499] Para reduzir o viés de amostragem, treinamos um conjunto de oito modelos que usam o mesmo conjunto de variantes de treinamento benignas e oito conjuntos diferentes de variantes patogênicas. Inicialmente, amostramos aleatoriamente variantes desconhecidas para representar variantes patogênicas. Em seguida, iterativamente, o conjunto de modelos é usado para pontuar um conjunto de variantes desconhecidas que não estavam envolvidas no ciclo de treinamento anterior. As variantes patogênicas com melhor pontuação são então obtidas para substituir 5% das variantes desconhecidas aleatórias no ciclo anterior. Observe que mantivemos 25% mais variantes patogênicas com melhor pontuação do que o necessário, para que possamos amostrar oito conjuntos diferentes de variantes patogênicas com pontuação para substituir variantes desconhecidas, o que aumenta a aleatoriedade para os oito modelos. Em seguida, o novo conjunto de treinamento patogênico é formado e um novo ciclo de treinamento é executado. Esse processo é repetido até que as variantes desconhecidas amostradas aleatoriamente iniciais sejam substituídas por variantes patogênicas altamente confiáveis, previstas pelos modelos de conjunto. A FIGURA 42 é uma ilustração do processo de amostragem balanceada iterativa. Equilibrando os Conjuntos de Treinamento Benignos e Desconhecidos

[0500] O esquema de amostragem de variantes desconhecidas que correspondem a variantes benignas é útil para reduzir o viés de nosso treinamento de modelo. Quando as variantes desconhecidas são amostradas aleatoriamente, os modelos de aprendizagem profunda muitas vezes extraem informações enviesadas e apresentam soluções triviais. Por exemplo, se uma substituição de aminoácido K->M ocorre com mais frequência em variantes desconhecidas do que em variantes benignas, os modelos de aprendizagem profunda tendem a sempre classificar as substituições de K->M como patogênicas. Assim, é importante equilibrar a distribuição das substituições de aminoácidos entre os dois conjuntos de treinamento.

[0501] Classes mutáveis mais altas, como transições de CpG, têm um enorme viés de representação nas variantes comuns benignas. As variantes ortólogas de outros primatas também seguem as taxas de mutação humana, implicando o enriquecimento das classes altamente mutáveis no conjunto de treinamento benigno geral. Se o procedimento de amostragem de variantes desconhecidas não for bem controlado e equilibrado, os modelos de aprendizagem profunda tendem a classificar as transições CpG como benignas, em comparação com uma classe menos representada, como transições de transversão ou não CpG.

[0502] Para impedir modelos de aprendizagem profunda de convergirem para uma solução trivial e não biológica, consideramos equilibrar os contextos trinucleotídicos de variantes benignas e desconhecidas. O trinucleotídeo é formado pela base antes da variante, a base de referência da variante e a base após a variante. E a base de referência da variante pode ser alterada para os outros três nucleotídeos. No total, existem 64x3 contextos de trinucleotídeos. Amostragem Equilibrada Iterativa Ciclo 1

[0503] Amostramos as variantes desconhecidas para corresponder ao número exato de variantes benignas para cada contexto trinucleotídico. Em outras palavras, no primeiro ciclo, espelhamos os conjuntos de treinamento benignos e patogênicos em termos de contextos trinucleotídicos de variantes. A intuição por trás dessa metodologia de amostragem é que há uma representação igual de variantes com taxas de mutação idênticas entre os conjuntos benignos e desconhecidos. Isso impede o modelo de convergir para uma solução trivial com base nas taxas de mutação. Ciclo 2 a Ciclo 20

[0504] Para o ciclo 2, aplicamos o modelo treinado do ciclo 1 para pontuar um conjunto de variantes desconhecidas que não estão envolvidas no ciclo 1 e substituímos 5% das variantes desconhecidas pelas principais variantes patogênicas previstas. Esse conjunto é puramente gerado pelo modelo e não aplicamos nenhum balanceamento para contextos trinucleotídicos nesse conjunto. Os 95% restantes das variantes desconhecidas necessárias para o treinamento são amostrados como sendo 95% das contagens de cada contexto trinucleotídico em variantes benignas.

[0505] A intuição é que, como o ciclo 1 usa conjuntos de treinamento completamente compatíveis, as principais variantes patogênicas previstas são geradas sem qualquer viés na taxa de mutação. Portanto, não há necessidade de considerar qualquer viés neste conjunto. O restante de 95% dos dados ainda é controlado pela taxa de mutação do contexto trinucleotídico para impedir o modelo de convergir para uma solução trivial.

[0506] Para cada ciclo, a porcentagem das variantes desconhecidas substituídas aumenta em 5%. Para o ciclo 3, substituímos 5% das variantes desconhecidas pelas principais variantes patogênicas previstas do modelo do ciclo 3. Cumulativamente, a fração de variantes patogênicas aumenta para 10% e a aquela das variantes desconhecidas espelhadas no contexto trinucleotídico é reduzida para 90%. O processo de amostragem é semelhante nos demais ciclos. Ciclo 21

[0507] Para o ciclo 21, o último ciclo, todo o conjunto de treinamento patogênico compreende apenas as principais variantes patogênicas previstas nos modelos de aprendizagem profunda. Como controlamos explicitamente o viés da taxa de mutação a cada ciclo, as variantes patogênicas são confiáveis para uso como dados de treinamento e não são afetadas pelo viés da taxa de mutação. Assim, o último ciclo de treinamento produz o modelo final de aprendizagem profunda para a previsão de patogenicidade. Correspondendo os Conjuntos de Treinamento Benignos Marcados e os Não Marcados

[0508] A amostragem equilibrada de variantes não marcadas é crucial para remover vieses não relacionados à deleteriedade da variante. Na ausência de controle adequado dos efeitos de confusão, a aprendizagem profunda pode facilmente captar vieses inadvertidamente introduzidos para discriminar entre as classes. As variantes comuns de humano tendem a ser enriquecidas com variantes de classes altamente mutáveis, como as das ilhas CpG. Da mesma forma, os polimorfismos de primata também seguem as taxas de mutação humana, implicando o enriquecimento de variantes altamente mutáveis no conjunto de treinamento benigno geral. Se o procedimento de amostragem de variantes não marcadas não for bem controlado e equilibrado, as redes de aprendizagem profunda tendem a depender do viés de taxa mutacional para classificar as variantes; portanto, elas têm maior probabilidade de classificar as transições CpG como benignas, em comparação com as classes menos representadas, tais como transversão ou transição não CpG. Amostramos exatamente o mesmo número de variantes não marcadas que as variantes benignas marcadas em cada um dos 96 contextos trinucleotídicos (discutido anteriormente).

[0509] Ao corresponder variantes não marcadas para as variantes de primata no conjunto de dados benigno marcado não permitimos que variantes não marcadas fossem selecionadas de regiões do genoma humano em que essas espécies de primata não estavam alinhadas no alinhamento múltiplo de sequências, uma vez que não era possível chamar uma variante nessa espécie de primata nessa posição.

[0510] Dentro de cada um dos 96 contextos trinucleotídicos, corrigimos a cobertura de sequenciamento para variantes de primata. Devido ao grande número de humanos sequenciados, variantes comuns na população humana são observadas com frequência suficiente para serem bem verificadas, mesmo em áreas com baixa cobertura de sequenciamento. O mesmo não se aplica às variantes de primata, uma vez que apenas um pequeno número de indivíduos foi sequenciado. Dividimos o genoma em 10 compartimentos com base na cobertura de sequenciamento nos exomas ExAC/gnomAD. Para cada compartimento, medimos a fração de variantes de primata no conjunto de dados benigno marcado versus o conjunto de dados não marcado. Calculamos a probabilidade de que uma variante de primata seja um membro do conjunto de dados benigno marcado, com base apenas na cobertura do sequenciamento, usando regressão linear (FIGURA 24). Ao selecionar variantes não marcadas para corresponder às variantes de primata no conjunto de dados benigno marcado, ponderamos a probabilidade de amostrar uma variante com base na cobertura de sequenciamento nessa posição usando os coeficientes de regressão. Geração de Variantes Benignas e Desconhecidas Variantes Comuns na População Humana

[0511] Estudos recentes demonstraram que variantes comuns em populações humanas são geralmente benignas. O gnomAD fornece 90.958 SNPs não-sinônimos com menor frequência de alelo (MAF) >= 0,1% nas regiões de codificação canônica, de acordo com uma implementação. As variantes que passaram nos filtros são mantidas. Indels são excluídos. As variantes que ocorrem nos códons de partida ou parada são removidas, bem como as variantes de truncamento de proteínas. Examinando subpopulações, o número total de variantes missense com MAF >= 0,1% dentro de cada subpopulação aumenta para 245.360, de acordo com uma implementação. Essas variantes fazem parte do conjunto de treinamento de variantes benignas. Polimorfismo Comum em Grandes Símios

[0512] Como se sabe que as regiões codificadoras são altamente conservadoras, é fácil supor que, se um polimorfismo estiver segregando em uma população de macacos com alta frequência, também pode ter um impacto leve na aptidão humana. Dados de polimorfismo de bonobo, chimpanzé e gorila e orangotango de projetos de genoma de grandes símios e outros estudos foram mesclados com SNPs de macaco-rhesus e sagui do dbSNP. Geração de Variantes Desconhecidas

[0513] Todas as variantes possíveis são geradas a partir de cada posição base das regiões codificadoras canônicas, substituindo o nucleotídeo na posição por outros três nucleotídeos. Novos códons são formados levando a possíveis alterações de aminoácidos nas posições. Alterações sinônimas são filtradas.

[0514] As variantes observadas no conjunto de dados gnomAD são removidas. As variantes que ocorrem nos códons de partida ou de parada são removidas, bem como as variantes que formam os códons de parada. Para SNPs com múltiplas anotações de gene, a anotação de gene canônica é selecionada para representar a anotação do SNP. No total, 68.258.623 variantes desconhecidas são geradas, de acordo com uma implementação. Filtragem Adicional de Variantes

[0515] Em algumas regiões do genoma humano, sabe-se que é difícil alinhar leituras. A inclusão dessas regiões causa efeitos de confusão nos conjuntos de dados de treinamento e de teste. Por exemplo, regiões sob alta pressão seletiva tendem a ter um número limitado de polimorfismos. Enquanto regiões difíceis de sequenciar também possuem menos polimorfismos. Para evitar essas entradas confusas em nossos modelos, removemos variantes de genes que não foram sequenciados pelo gnomAD.

[0516] Geralmente, variantes benignas são descobertas nas regiões bem sequenciadas que tendem a ser conservadoras em múltiplas espécies. Enquanto variantes desconhecidas são amostradas aleatoriamente nos genomas, que incluem algumas regiões mal cobertas. Isso causa um viés de confirmação entre os conjuntos benigno e desconhecido. Para reduzir o viés, filtramos variantes com profundidade de leitura <10 no gnomAD. Também filtramos todas as variantes que possuem mais de 10% de dados ausentes nos alinhamentos da sequência flanqueadora em todas as espécies de mamíferos. Dados para Validação e Teste

[0517] Para validar e testar os modelos de patogenicidade, amostramos aleatoriamente do grande agrupamento de variantes benignas dois conjuntos de 10.000 variantes benignas para validação e teste, respectivamente, de acordo com uma implementação. O restante das variantes benignas é usado para treinar os modelos de aprendizagem profunda. Essas variantes são amostradas especificamente a partir de variantes de primata ortólogos para garantir uma comparação justa entre os métodos, já que alguns métodos são treinados em variantes comuns de humano. Também amostramos aleatoriamente dois conjuntos de 10.000 variantes desconhecidas para validação e teste, separadamente, de acordo com uma implementação. Garantimos que o número de variantes desconhecidas em cada um dos 192 contextos trinucleotídicos corresponde ao das variantes benignas para conjuntos de validação e teste, respectivamente.

[0518] Avaliamos o desempenho de vários métodos em contextos clínicos, usando variantes de novo de crianças afetadas com autismo ou transtorno do distúrbio do desenvolvimento (DDD) e seus irmãos não afetados. No total, de acordo com uma implementação, existem 3821 variantes missense de novo dos casos do DDD e 2736 variantes missense de novo dos casos com autismo. Existem 1231 variantes missense de novo para irmãos não afetados, de acordo com uma implementação. Arquitetura de Rede de Aprendizagem Profunda

[0519] A rede de previsão de patogenicidade recebe cinco entradas diretas e duas entradas indiretas através da estrutura secundária e das redes de acessibilidade de solvente. As cinco entradas diretas são as sequências de aminoácidos de 51 de comprimentos x 20 de profundidade (codificando os 20 aminoácidos diferentes) e compreendem a sequência de aminoácidos humanos de referência sem a variante (1a), a sequência de aminoácidos humanos alternativa com a variante substituída em (1b), o PFM do alinhamento de múltiplas sequências de espécies de primata (1c), o PFM do alinhamento de múltiplas sequências de espécies de mamíferos (1d) e o PFM do alinhamento de múltiplas sequências de espécies de vertebrados mais distantes (1e). A estrutura secundária e as redes de acessibilidade de solvente recebem como entrada um PFM do alinhamento de múltiplas sequências (1f) e (1g) e fornecem suas saídas como entradas na rede principal de previsão de patogenicidade. A estrutura secundária e as redes de acessibilidade de solvente foram pré-treinadas em estruturas cristalinas de proteínas conhecidas para o Protein DataBank e permitem retropropagação durante o treinamento do modelo de patogenicidade.

[0520] Os cinco canais de entrada direta são passados através de uma camada de convolução de aumento de amostra de 40 núcleos com ativações lineares. A sequência de aminoácidos de referência humana (1a) é fundida com os PFMs de alinhamentos múltiplos de sequências de primata, mamíferos e vertebrados (Merge 1a). Da mesma forma, a sequência de aminoácidos alternativa humana (1b) é mesclada com os PFMs de alinhamentos múltiplos de sequências de primata, mamíferos e vertebrados (Merge 1b). Isso cria duas faixas paralelas, uma para a sequência de referência e outra com a sequência alternativa com a variante substituída.

[0521] O mapa de recurso mesclado do canal de referência e do canal alternativo (Mesclagem 1a e Mesclagem 1b) são passados por uma série de seis blocos residuais (Camadas 2a a 7a, Mesclagem 2a e Camadas 2b a 7b, Mesclagem 2b). A saída dos blocos residuais (Mesclagem 2a e Mesclagem 2b) é concatenada para formar um mapa de tamanho (51,80) (Mesclagem 3a, Mesclagem 3b) que mistura completamente os dados dos canais de referência e alternativos. Em seguida, os dados têm dois caminhos para passar pela rede em paralelo, seja através de uma série de seis blocos residuais contendo duas camadas convolucionais cada, conforme definido na seção 2.1 (Mesclagem 3 a 9, Camadas 9 a 46, excluindo a camada 21,34) ou por conexões skip, que conectam a saída de cada dois blocos residuais após passar por uma convolução 1D (Camada 21, Camada 37, Camada 47). Finalmente, as ativações mescladas (Mesclagem 10) são alimentadas para outro bloco residual (camadas 48 a 53, Mesclagem 11). As ativações da Mesclagem 11 são dadas a uma convolução 1D com tamanho de filtro 1 e ativação sigmoide (Camada 54), depois passadas por uma camada de agrupamento máximo global que escolhe um valor único que representa a previsão da rede para a patogenicidade da variante. Uma ilustração esquemática do modelo é mostrada na FIGURA 3 e na Tabela Suplementar 16 (FIGURAS 4A, 4B e 4C). Visão Geral do Modelo

[0522] Desenvolvemos modelos de redes neurais convolucionais profundas semissupervisionadas (CNN) para prever a patogenicidade de variantes. Os recursos de entrada para os modelos incluem sequências de proteínas e variantes flanqueadoras de perfis de conservação e depleção de variantes missense em regiões genéticas específicas. Também previmos as mudanças causadas pelas variantes na estrutura secundária e na acessibilidade de solvente por modelos de aprendizagem profunda e as integramos ao nosso modelo de previsão de patogenicidade. Para treinar o modelo, geramos variantes benignas de variantes comuns de subpopulações humanas e variantes ortólogas de primata. No entanto, ainda nos faltam fontes confiáveis para variantes patogênicas. Inicialmente, treinamos o modelo com variantes benignas e desconhecidas e, em seguida, usamos um algoritmo de amostragem equilibrada iterativa semissupervisionada (IBS) para substituir gradualmente variantes desconhecidas por um conjunto de variantes patogênicas previstas com alta confiança. Finalmente, demonstramos que nosso modelo superou os métodos existentes para distinguir variantes de novo que causam distúrbios de incapacidade no desenvolvimento em humanos de benignas. Adoção de Bloco Residual

[0523] A FIGURA 17 ilustra um bloco residual. Nosso modelo de aprendizagem profunda de previsão de patogenicidade e nossos modelos de aprendizagem profunda para prever a estrutura secundária e a acessibilidade de solvente adotam a definição de blocos residuais que foi ilustrada pela primeira vez no. A estrutura de um bloco residual é mostrada na figura abaixo. A camada de entrada é o primeiro lote normalizado, seguido pela ativação não linear "ReLU". A ativação é então passada através de uma camada de convolução 1D. Essa saída intermediária da camada de convolução 1D é novamente normalizada em lote e ativada por ReLU, seguida por outra camada de convolução 1D. No final da segunda convolução 1D, mesclamos sua saída com a entrada original. Em tal arquitetura, a entrada é preservada em seu estado original e as conexões residuais são mantidas livres de ativações não lineares do modelo.

[0524] As convoluções atrous/dilatadas permitem grandes campos receptivos com poucos parâmetros treináveis. Uma convolução atrous/dilatada é uma convolução em que o núcleo é aplicado sobre uma área maior que seu comprimento pulando os valores de entrada com uma determinada etapa, também chamada taxa de convolução atrous ou fator de dilatação. Convoluções atrous/dilatadas adicionam espaçamento entre os elementos de um filtro/núcleo de convolução, de modo que entradas de entrada vizinhas (por exemplo, nucleotídeos, aminoácidos) em intervalos maiores são consideradas quando uma operação de convolução é realizada. Isso permite a incorporação de dependências contextuais de longo alcance na entrada. As convoluções atrous conservam cálculos parciais de convolução para reutilização à medida que os nucleotídeos adjacentes são processados. Novidade do Nosso Modelo

[0525] Nosso método difere dos métodos existentes para prever a patogenicidade de variantes de três maneiras. Primeiro, nosso método adota uma nova arquitetura de redes neurais convolucionais profundas semissupervisionadas. Segundo, variantes benignas confiáveis são obtidas a partir de variantes comuns de humano gnomAD e variantes de primata, enquanto o conjunto de treinamento patogênico altamente confiante é gerado por meio de amostragem e treinamento equilibrados iterativos para evitar o treinamento circular e o teste de modelos usando os bancos de dados de variantes com curadoria humana idênticas. Terceiro, modelos de aprendizagem profunda para estrutura secundária e acessibilidade de solvente são integrados à arquitetura do nosso modelo de patogenicidade. As informações obtidas dos modelos de estrutura e solvente não se limitam à previsão de marcação para resíduos de aminoácidos específicos. Em vez disso, a camada de leitura é removida dos modelos de estrutura e solvente e os modelos pré-treinados são mesclados com o modelo de patogenicidade. Durante o treinamento do modelo de patogenicidade, a estrutura e as camadas pré-treinadas de solvente também retropropagam para minimizar o erro. Isso ajuda a estrutura pré-treinada e o modelo de solvente a se concentrar no problema de previsão de patogenicidade. Treinamento de Estrutura Secundária e Modelos de Acessibilidade de Solvente Preparação de Dados

[0526] Treinamos redes neurais convolucionais profundas para prever a estrutura secundária de 3 estados e a acessibilidade de solvente de 3 estados das proteínas. As anotações de proteínas do PDB são usadas para treinar os modelos. As sequências com mais de 25% de semelhança com seu perfil de sequência são removidas, de acordo com uma implementação. No total, 6.293 sequências de proteínas são usadas para treinamento, 392 para validação e 499 para teste, de acordo com uma implementação.

[0527] Os perfis de conservação da matriz de pontuação específica de posição (PSSM) para as proteínas são gerados executando PSI-BLAST com limiar de valor E de 0,001 e 3 iterações para pesquisar UniRef90. Qualquer aminoácido desconhecido é definido em branco, assim como sua estrutura secundária. Também executamos o PSI-BLAST com configurações de parâmetros semelhantes para todos os genes humanos coletarem seus perfis de conservação PSSM. Essas matrizes são usadas para integrar o modelo de estrutura à previsão de patogenicidade. Os aminoácidos das sequências de proteínas são então convertidos em vetores de codificação one-hot. E as sequências de proteínas e matrizes PSSM são remodeladas para uma matriz de Lx20, onde L é o comprimento de uma proteína. As três marcações previstas para estrutura secundária incluem hélice (H), folha-beta (B) e bobinas (C). As três marcações para acessibilidade de solvente incluem enterrado (B), intermediário (I) e exposto (E). Uma marcação corresponde a um resíduo de aminoácido. As marcações são codificadas como vetores de codificação one-hot de dimensão=3. Arquitetura de Modelo e Treinamento

[0528] Treinamos dois modelos de redes neurais convolucionais profundas de ponta a ponta para prever a estrutura secundária de três estados e a acessibilidade de solvente de proteínas de três estados, respectivamente. Os dois modelos têm configurações semelhantes, incluindo dois canais de entrada, um para sequências de proteínas e outro para perfis de conservação de proteínas. Cada canal de entrada tem a dimensão L x 20, onde L denota o comprimento de uma proteína.

[0529] Cada canal de entrada é passado através de uma camada de convolução 1D (camadas 1a e 1b) com 40 núcleos e ativações lineares. Essa camada é usada para aumentar a amostra das dimensões de entrada de 20 para 40. Observe que todas as outras camadas ao longo do modelo usam 40 núcleos. As ativações de duas camadas (1a e 1b) são mescladas pela soma dos valores ao longo de cada uma das 40 dimensões (isto é, modo de mesclagem = 'soma'). A saída do nó de mesclagem é passada através de uma única camada de convolução 1D (camada 2) seguida por ativação linear.

[0530] As ativações da camada 2 são passadas através de uma série de 9 blocos residuais (camadas 3 a 11), conforme definido acima. As ativações da camada 3 são alimentadas à camada 4 e a ativação da camada 4 é alimentada à camada 5 e assim por diante. Também existem conexões skip que somam diretamente a saída de cada 3° bloco residual (camadas 5, 8 e 11). As ativações mescladas são então alimentadas a duas convoluções unidimensionais (camadas 12 e 13) com ativações ReLU. As ativações da camada 13 são dadas à camada de leitura softmax. O softmax calcula as probabilidades das saídas de três classes para a entrada dada.

[0531] Para o melhor modelo de estrutura secundária, as convoluções unidimensionais têm uma taxa atrous de 1. Para o modelo de acessibilidade de solvente, os últimos 3 blocos residuais (camadas 9, 10 e 11) têm uma taxa atrous de 2 para aumentar a cobertura dos núcleos. A estrutura secundária de uma proteína é fortemente dependente das interações de aminoácidos nas proximidades. Assim, os modelos com maior cobertura de núcleo melhoram ligeiramente o desempenho. Por outro lado, a acessibilidade de solvente é afetada pelas interações de longo alcance entre os aminoácidos. Portanto, para o modelo com alta cobertura de núcleos usando convulsões atrous, sua precisão é mais de 2% maior que a dos modelos de cobertura curta.

[0532] A t abela abaixo fornece det alhes sobre ativações e parâmetros para cada camada do modelo de previsão de estrutura secundária de 3 estados, de acordo com uma implementação.

[0533] Os detalhes do modelo de acessibilidade de solvente são mostrados na tabela abaixo, de acordo com uma implementação. Camada Tipo Número de Forma Taxa Ativação

[0534] A classe de estrutura secundária de um resíduo de aminoácido específico é determinada pelas maiores probabilidades softmax previstas. O modelo é treinado com função de perda de entropia cruzada categórica para toda a sequência de proteínas usando o otimizador ADAM para otimizar a retropropagação.

[0535] A melhor precisão de teste para o modelo de previsão de estrutura secundária de três estados é de 80,32%, semelhante à precisão do estado da técnica prevista pelo modelo DeepCNF em um conjunto de dados de treinamento semelhante.

[0536] A melhor precisão de teste para o modelo de previsão de acessibilidade de solvente de três estados é de 64,83%, semelhante à melhor precisão atual prevista pelo RaptorX em um conjunto de dados de treinamento semelhante.

[0537] Integramos a estrutura secundária de três estados pré- treinada e os modelos de previsão de acessibilidade de solvente em nosso modelo de previsão de patogenicidade, conforme explicado abaixo. Modelos de Treinamento para Prever Patogenicidade de Variantes Recursos de Entrada para Modelo de Previsão de Patogenicidade

[0538] Como discutido acima, para o problema da previsão de patogenicidade, há um conjunto de treinamento de variante benigna e um conjunto de treinamento de variante desconhecida para o treinamento do modelo de patogenicidade. Para cada variante, preparamos os seguintes recursos de entrada para alimentar nosso modelo.

[0539] O primeiro recurso de entrada de cada variante é sua sequência de aminoácidos flanqueadora, ou seja, 25 aminoácidos para cada lado da variante obtidos a partir da sequência de referência de hg19 para fornecer aos modelos de aprendizagem profunda o contexto de sequência da variante. No total, esta sequência de referência flanqueadora tem 51 aminoácidos de comprimento.

[0540] A segunda característica é o aminoácido alternativo que causou a variante. Em vez de fornecer diretamente o par de aminoácidos de referência alternativa, fornecemos a sequência flanqueadora alternativa ao modelo. A sequência flanqueadora alternativa é a mesma que a sequência flanqueadora de referência no primeiro recurso, exceto que a posição do meio da sequência contém o aminoácido alternativo, ao invés do aminoácido de referência.

[0541] Ambas as sequências são então convertidas em vetores codificados one-hot de comprimento 51 x 20, onde cada aminoácido é representado por um vetor de 20 zeros ou uns.

[0542] Depois, três matrizes de posição peso (PWMs) são geradas a partir de alinhamentos múltiplos de sequência (MSA) de 99 vertebrados para a variante, incluindo um para 12 primatas, um para 47 mamíferos excluindo primatas e um para 40 vertebrados excluindo primatas e mamíferos. Cada PWM possui a dimensão de L x 20, onde L é o comprimento das sequências flanqueadoras em torno da variante (no nosso caso, L representa 51 aminoácidos). Isso compreende a contagem de aminoácidos observados em cada categoria de espécie.

[0543] Também geramos as matrizes PSSM para as sequências de 51 aminoácidos do flanqueadoras de variante de psi blast. Isso é usado para a integração da estrutura secundária de três estados e modelos de previsão de acessibilidade de solvente para previsão de patogenicidade.

[0544] Treinamos o modelo de patogenicidade com a sequência de referência (entrada1), sequência alternativa (entrada2), matrizes PWM para primatas (entrada3), mamíferos (entrada4), vertebrados (entrada5) e informações de estrutura secundária de três estados e modelos de acessibilidade de solvente. Treinamento do Modelo de Aprendizagem Profunda

[0545] A FIGURA 19 é um diagrama de bloco que fornece uma visão geral do fluxo de trabalho dos modelos de aprendizagem profunda. Os modelos de treinamento de patogenicidade compreendem cinco entradas diretas e quatro entradas indiretas. Os cinco recursos de entrada direta incluem sequência de referência (1a), sequência alternativa (1b), conservação de primata (1c), conservação de mamíferos (1d) e conservação de vertebrados (1e). As entradas indiretas incluem estrutura secundária baseada em sequência de referência (1f), estrutura secundária baseada em sequência alternativa (1g), acessibilidade de solvente baseada em sequência de referência (1h) e acessibilidade de solvente baseada em sequência alternativa (1i).

[0546] Para entradas indiretas 1f e 1g, carregamos as camadas pré- treinadas do modelo de previsão de estrutura secundária, excluindo a camada softmax. Para a entrada 1f, as camadas pré-treinadas são baseadas na sequência de referência humana para as variantes, juntamente com o PSSM gerado pelo PSI-BLAST para a variante. Da mesma forma, para a entrada 1g, as camadas pré-treinadas dos modelos de previsão da estrutura secundária são baseadas na sequência alternativa humana como a entrada, juntamente com a matriz PSSM. As entradas 1h e 1i correspondem aos canais pré-treinados semelhantes que contêm as informações de acessibilidade de solvente para referência e sequências alternativas da variante, respectivamente.

[0547] Os cinco canais de entrada direta são passados através de uma camada de convolução de aumento de amostra de 40 núcleos com ativações lineares. As camadas 1a, 1c, 1d e 1e são mescladas com os valores somados ao longo das 40 dimensões de recursos para produzir a camada 2a. Em outras palavras, o mapa de recursos da sequência de referência é mesclado com os três tipos de mapas de recursos de conservação. Da mesma forma, 1b, 1c, 1d e 1e são mesclados com valores somados nas 40 dimensões de recurso para gerar a camada 2b, ou seja, os recursos da sequência alternativa são mesclados com os três tipos de recursos de conservação.

[0548] As camadas 2a e 2b são normalizadas em lote com a ativação de ReLU e cada uma delas passa por uma camada de convolução 1D de tamanho de filtro 40 (3a e 3b). As saídas das camadas 3a e 3b são mescladas com 1f, 1g, 1h e 1i com os mapas de recursos concatenados entre si. Em outras palavras, os mapas de recurso da sequência de referência com perfil de conservação e a sequência alternativa com o perfil de conservação são mesclados com os mapas de recurso de estrutura secundária da referência e da sequência alternativa e os mapas de recurso de acessibilidade de solvente da referência e da sequência alternativa (camada 4).

[0549] As saídas da camada 4 são passadas através de seis blocos residuais (camadas 5,6,7,8,9,10). Os últimos três blocos residuais têm uma taxa atrous de 2 para as convoluções unidimensionais, para dar maior cobertura aos núcleos. A saída da camada 10 é passada através de uma convolução 1D do tamanho de filtro 1 e de um sigmoide de ativação (camada 11). A saída da camada 11 é passada através de um global que escolhe um valor único para a variante. Este valor representa a patogenicidade da variante. Os detalhes de uma implementação do modelo de previsão de patogenicidade são mostrados na tabela abaixo.

Conjuntos

[0550] Em uma implementação, para cada ciclo de nosso método, executamos oito modelos diferentes que treinam no mesmo conjunto de dados benignos e oito conjuntos de dados desconhecidos diferentes e calculamos a média da previsão de conjuntos de dados de avaliação ao longo dos oito modelos. O viés de amostragem pode ser reduzido e bem controlado quando múltiplos conjuntos amostrados aleatoriamente de variantes desconhecidas são apresentados ao modelo.

[0551] Além disso, a adoção da abordagem de conjunto de conjuntos pode melhorar o desempenho do nosso modelo em nosso conjunto de dados de avaliação. O CADD usa um conjunto de 10 modelos e obtém a pontuação média em todos os 10 modelos para pontuar uma variante. Aqui tentamos usar uma abordagem de conjunto semelhante. Comparamos os resultados usando um conjunto e aumentamos o número de conjuntos para avaliar o ganho de desempenho. Observe que cada conjunto possui oito modelos que treinam no mesmo conjunto de dados benigno e oito conjuntos de dados desconhecidos diferentes. Para conjuntos diferentes, os valores de sementes do gerador de números aleatórios são distintos, de modo que os conjuntos de variantes aleatórias são desenhados de forma diferente um do outro.

[0552] Os resultados detalhados de acordo com uma implementação são mostrados na tabela abaixo.

[0553] Comparado com um conjunto, 5 conjuntos e 10 conjuntos produziram valores p mais significativos quando avaliados usando conjuntos de dados do DDD. Mas aumentar o número de conjuntos não melhora ainda mais o desempenho, indicando uma saturação para os conjuntos. Os conjuntos reduzem o viés de amostragem com uma grande variedade de variantes desconhecidas. No entanto, também exigimos a correspondência dos 192 contextos trinucleotídicos entre as classes benignas e patogênicas, o que limita substancialmente o nosso espaço de amostragem, levando à rápida saturação. Concluímos que a abordagem de conjunto de conjuntos melhora significativamente o desempenho do modelo e enriquece ainda mais nossa compreensão dos modelos. Parada Precoce Para o Treinamento do Modelo de Patogenicidade

[0554] Como faltam amostras de variantes patogênicas anotadas confiáveis, é um desafio definir critérios de parada para o treinamento de modelo. Para evitar o uso de variantes patogênicas na avaliação de modelo, em uma implementação, foram utilizadas as 10.000 variantes de validação benignas de primata ortólogos e 10.000 variantes desconhecidas correspondentes ao contexto trinucleotídico. Após o treinamento em cada época do modelo, avaliamos as variantes de validação benignas e as variantes de validação desconhecidas. Utilizamos o teste de soma de postos de Wilcoxon para avaliar a diferença das distribuições de probabilidade de ambos os conjuntos de variantes de validação.

[0555] O valor p do teste se torna mais significativo com melhorias na capacidade do modelo de distinguir variantes benignas de um conjunto de variantes desconhecidas. Paramos o treinamento se nenhuma melhoria for observada na capacidade do modelo de distinguir entre as duas distribuições durante qualquer das cinco épocas consecutivas de treinamento de modelo.

[0556] Antes, tínhamos retirado dois conjuntos separados de 10.000 variantes de primata retidas do treinamento, que denominamos conjunto de validação e conjunto de teste. Utilizamos o conjunto de validação de 10.000 variantes de primata retidas e 10.000 variantes não marcadas que correspondiam ao contexto trinucleotídico para avaliar a parada precoce durante o treinamento de modelo. Após cada época de treinamento, avaliamos a capacidade da rede neural profunda de discriminar entre variantes no conjunto de validação benigna marcado e os controles pareados não marcados, medindo a diferença nas distribuições das pontuações previstas usando o teste de soma de postos de Wilcoxon. Paramos o treinamento uma vez que nenhuma melhoria adicional foi observada após cinco épocas consecutivas de treinamento para evitar o excesso de ajustes. Análise Comparativa de Desempenho do Classificador

[0557] Avaliamos a precisão da classificação de duas versões da rede de aprendizagem profunda, uma treinada apenas com variantes de humano comuns e outra treinada com o conjunto de dados marcado benigno completo, incluindo variantes de humano comuns e variantes de primata, além dos seguintes classificadores: SIFT, PolyPhen -2, CADD, REVEL, M-CAP, LRT, MutationTaster, MutationAssessor, FATHMM, PROVEAN, VEST3, MetaSVM, MetaLR, MutPred, DANN, FATHMM- MKL_coding, Eigen, GenoCanyon e GERP ++ 13,32-48. Para obter as pontuações para cada um dos outros classificadores, baixamos as pontuações para todas as variantes missense de dbNSFP 49 (https://sites.google.com/site/jpopgen/dbNSFP) e comparamos os métodos nas 10.000 variantes de primata retidas em conjunto de teste e variantes de novo em casos de DDD versus controles. Selecionamos SIFT, PolyPhen-2 e CADD para inclusão no artigo principal, porque estão entre os métodos mais utilizados, e REVEL, porque, nos diferentes modos de avaliação, destacou-se como um dos melhores dos 20 classificadores existentes que avaliamos. O desempenho para todos os classificadores avaliados é fornecido na FIGURA 28A.

[0558] Para avaliar o impacto do tamanho dos dados de treinamento disponíveis no desempenho da rede de aprendizagem profunda, treinamos as redes de aprendizagem profunda em cada ponto de dados na FIGURA 6, por amostragem aleatória do conjunto de treinamento benigno rotulado de 385.236 variantes de primata e humanas comuns. Para reduzir o ruído aleatório no desempenho dos classificadores, realizamos este procedimento de treinamento cinco vezes, usando uma instanciação aleatória dos pesos dos parâmetros iniciais e mostramos o desempenho mediano nas 10.000 variantes de primata retidas e no caso de DDD vs. controles do conjunto de dados na FIGURA 6. Por acaso, o desempenho do classificador mediano com o conjunto de dados completo de 385.236 variantes benignas rotuladas foi um pouco melhor do que o usado no restante do artigo no conjunto de dados DDD (P < 10-29 ao invés de P -28 pelo teste da Soma dos Ranks de Wilcoxon). Para mostrar que as variantes de cada espécie individual de primata contribuem para a precisão da classificação, enquanto as variantes de cada espécie individual de mamífero diminuem a precisão da classificação, treinamos redes de aprendizagem profunda usando um conjunto de dados de treinamento que compreende 83.546 variantes de humano e um número constante de variantes selecionadas aleatoriamente para cada espécie, de acordo com uma implementação. De acordo com uma implementação, o número constante de variantes que foram adicionadas no conjunto de treinamento (23.380) é o número total de variantes disponíveis na espécie com o menor número de variantes missense, ou seja, de bonobo. Para reduzir o ruído, repetimos o procedimento de treinamento cinco vezes e relatamos o desempenho mediano do classificador. Avaliação do Modelo

[0559] Em uma implementação, treinamos 21 ciclos de modelos de aprendizagem profunda, seguindo o procedimento de amostragem balanceada iterativa. Realizamos dois tipos de avaliação para avaliar o desempenho de nossos classificadores. Também comparamos nossos modelos com Polyphen2, SIFT e CADD nas duas métricas e avaliamos o potencial de aplicação de nossos modelos para anotação clínica. Método 1: Precisão do Conjunto de Testes Benignos

[0560] Em uma implementação, foram avaliadas 10.000 variantes benignas e desconhecidas calculando suas probabilidades previstas usando uma combinação de oito modelos treinados diferentes. Também obtivemos suas probabilidades previstas pontuadas pelos outros métodos existentes mencionados acima.

[0561] Em seguida, obtivemos a média das probabilidades previstas nas variantes de teste desconhecidas para cada um dos métodos usados na avaliação. Usando a pontuação média, encontramos o número de variantes benignas que pontuaram acima ou abaixo da média, dependendo da anotação das variantes benignas e patogênicas usadas por cada um dos métodos. SIFT, CADD e nosso método rotulam variantes patogênicas como 1 e variantes benignas como 0. Portanto, foi contado o número de variantes benignas que pontuaram abaixo da média. Polyphen usa a anotação oposta e contamos o número de variantes benignas acima da média. A razão do número de variantes benignas pontuadas acima/abaixo da média dividida pelo número total de variantes benignas representa a precisão da previsão de variantes benignas. Precisão benigna = Número total de variantes benignas acima (abaixo*) da média + Número total de variantes benignas

[0562] O raciocínio por trás deste método de avaliação se baseia na análise da pressão seletiva de variantes em gnomAD. Para os singletons no gnomAD, a razão de variantes missense para variantes sinônimas é de ~ 2,26:1. Enquanto para as variantes comuns (MAF> 0,1%) no gnomAD, a razão de missense/sinônimo é de ~ 1,06:1. Isto indica que, de um conjunto de variantes desconhecidas aleatórias, espera-se que aproximadamente 50% sejam eliminados pela seleção natural e os 50% restantes tendem a ser leves e provavelmente se tornar comuns na população.

[0563] Conforme mostrado na tabela acima, nosso método supera o segundo melhor método CADD em mais de 8%. Isto mostra uma melhoria significativa na capacidade do nosso modelo de classificar as variantes benignas. Embora essa demonstração prove a capacidade do nosso modelo, o método 2 a seguir mostra a utilidade do nosso modelo em conjuntos de dados clínicos para interpretação clínica. Método 2: Avaliação Clínica de Conjuntos de Dados

[0564] Em uma implementação, avaliamos esses métodos de previsão de patogenicidade em conjuntos de dados clínicos, incluindo o conjunto de dados de controle de caso de transtorno de incapacidade no desenvolvimento (DDD). O conjunto de dados DDD compreende 3.821 variantes missense de novo de crianças afetadas e 1.231 variantes missense de novo de seus irmãos não afetados. Nossa hipótese é que as variantes de novo das crianças afetadas tendem a ser mais deletérias do que as variantes de novo de seus irmãos não afetados.

[0565] Como os conjuntos de dados de testes clínicos não rotulam claramente as variantes patogênicas, usamos a separação entre os dois conjuntos de variantes de novo (de afetadas e não afetadas) para avaliar o desempenho destes métodos. Foi aplicado o teste da Soma dos Ranks de Wilcoxon para avaliar quão bem é a separação desses dois conjuntos de variantes de novo.

[0566] De acordo com a tabela acima, nossos modelos de aprendizagem profunda semissupervisionados apresentam desempenho significativamente melhor ao distinguir o conjunto afetado de variantes de novo do conjunto não afetado. Isso mostra que nosso modelo é mais apropriado para interpretação clínica do que os métodos existentes. Isso também valida que a abordagem geral para extrair recursos de sequências de genoma e perfis de conservação é superior aos recursos criados manualmente, com base em conjuntos de dados com curadoria humana. Precisão de Previsão Benigna em um Conjunto de Testes Retido de 10.000 Variantes de Primata

[0567] Usamos as 10.000 variantes de primata retidas no conjunto de dados de teste para comparar a rede de aprendizagem profunda, bem como os outros 20 classificadores. Uma vez que os diferentes classificadores tinham distribuições de pontuação muito variadas, foram usadas 10.000 variantes não rotuladas selecionadas aleatoriamente, correspondentes ao teste definido por contexto trinucleotídico para identificar o limite do 50° percentil para cada classificador. Para garantir uma comparação justa entre os métodos, comparamos cada classificador na fração de variantes no conjunto de testes de 10.000 variantes de primata retidos que foram classificados como benignos no limite do 50° percentil para este classificador.

[0568] Nosso raciocínio por trás do uso do percentil 50 para identificar variantes benignas é baseado na pressão seletiva observada para variantes missense no conjunto de dados ExAC/gnomAD. Para variantes que ocorrem com frequência de alelo único, a razão missense:sinônimo é de ~ 2,2:1, enquanto para variantes comuns (> 0,1% de frequência de alelo), a razão missense:sinônimo é de ~ 1,06: 1. Isto indica que aproximadamente 50% das variantes missense devem ser eliminadas pela seleção natural em frequências de alelo comuns, e os 50% restantes são leves o suficiente para ter o potencial de se tornar comum na população por meio de desvio genético.

[0569] Para cada um dos classificadores, a fração de variantes de teste de primata retidas previstas como benignas usando o limite do 50° percentil também é mostrada na (FIGURA 28A e na Tabela Suplementar 17 (FIGURA 34)). Análise de Variantes de novo de Estudo DDD

[0570] Comparamos os métodos de classificação em sua capacidade de discriminar entre variantes missense de novo nos indivíduos afetados por DDD versus variantes missense de novo em controles de irmãos não afetados. Para cada classificador, relatamos o valor de P do teste da Soma dos Ranks de Wilcoxon da diferença entre as pontuações de previsão para as duas distribuições (FIGURAS 28B e 28C e Tabela Suplementar 17 (FIGURA 34)).

[0571] Dado que nossas duas métricas para analisar o desempenho do modelo são derivadas de diferentes fontes e metodologias, testamos se o desempenho dos classificadores nas duas métricas diferentes estava correlacionado. De fato, descobrimos que estas duas métricas estavam correlacionadas, com um spearman p = 0,57 (P <0,01) entre a precisão da classificação benigna no conjunto de testes de primata retidos e o valor de P da Soma dos Ranks de Wilcoxon para variantes missense de novo em casos de DDD vs. controles. Isto mostra que há uma boa concordância entre a precisão do conjunto de testes de primata retidos e o caso DDD versus o valor de P de controle para comparar os classificadores (FIGURA 30A).

[0572] Além disso, testamos se a rede de aprendizagem profunda poderia ajudar na descoberta de genes associados à doença. Testamos o enriquecimento de mutações de novo em genes comparando o número observado de mutações de novo com o número esperado em um modelo de mutação nula.

[0573] Examinamos o desempenho da rede de aprendizagem profunda comparando resultados de todas as mutações missense de novo versus resultados de mutações missense com pontuação > 0,803. O teste de todas as missenses de novo usou a taxa de missense padrão, enquanto o teste de missenses de novo usou taxas de mutação de missense de sítios com pontuação > 0,803. Cada gene exigiu quatro testes, um testando o enriquecimento de truncamento de proteínas e um testando o enriquecimento de mutações de novo que alteram proteínas, ambos testados apenas para a coorte DDD e para uma meta-análise maior de coortes de sequenciamento de trio com desenvolvimento neurológico. O enriquecimento das mutações de novo que alteram proteínas foi combinado pelo método de Fisher com um teste do agrupamento de mutações missense de novo na sequência de codificação (Tabelas Suplementares 20 e 21). O valor de p para cada gene foi obtido do mínimo dos quatro testes e a significância em todo o genoma foi determinada como P <6,757 x10-7 (α = 0,05, 18.500 genes com quatro testes). Características da Curva Operadora do Receptor de Cálculo e Precisão da Classificação dentro de 605 genes Associados à Doença DDD

[0574] Para testar se a rede de aprendizagem profunda estava de fato realizando a diferenciação entre variantes patogênicas e benignas dentro do mesmo gene, ao invés de favorecer a patogenicidade em genes com um modo de herança dominante de novo, nós identificamos um conjunto de 605 genes que estavam associados a doenças de neurodesenvolvimento com valor de p < 0,05 na coorte DDD (calculado usando variação de truncamento de proteína sozinha de novo) (Tabela Suplementar 18). Relatamos o valor de p de Teste da Soma dos Ranks de Wilcoxon para todos os classificadores em sua capacidade de separar as distribuições de probabilidade de variantes nos 605 genes em DDD e conjunto de dados de controle (FIGURA 28C e Tabela Suplementar 19 (FIGURA 35)).

[0575] Dentro deste conjunto de 605 genes, observamos uma taxa de enriquecimento para variantes missense de novo que é três vezes o que é esperado pela taxa de mutação sozinha. Isso indica que as variantes missense de novo em pacientes afetados por DDD compreendem aproximadamente 67% de variantes patogênicas e 33% de variantes de fundo, enquanto as variantes missense de novo em controles saudáveis são amplamente compostas por variantes de fundo, exceto em casos de penetração incompleta.

[0576] Para calcular a AUC máxima possível para um classificador que discrimina perfeitamente entre variantes patogênicas e benignas, levamos em conta que apenas 67% das variantes missense de novo em indivíduos afetados dentro dos 605 genes eram patogênicos e o restante era histórico. Para construir uma curva de características do operador receptor, tratamos a classificação das variantes DDD de novo como chamadas verdadeiras positivas patogênicas e tratamos a classificação das variantes de novo em controles saudáveis como patogênicas como sendo chamadas falsas positivas. Portanto, um classificador perfeito classificaria 67% das variantes de novo nos pacientes com DDD como verdadeiros positivos, 33% das variantes de novo nos pacientes com DDD como falsos negativos e 100% das variantes de novo nos controles como verdadeiros negativos. A visualização da curva do operador do receptor mostraria apenas um único ponto com taxa de 67% de positivo e taxa de 0% de falso positivo, conectado aos cantos (0%, 0%) e (100%, 100%) do gráfico por linhas retas, produzindo uma AUC máxima de 0,837 para um classificador com discriminação perfeita de mutações benignas e patogênicas (FIGURA 30B e Tabela Suplementar 19 (FIGURA 35)).

[0577] Calculamos a precisão da classificação da rede de aprendizagem profunda para separar variantes patogênicas e benignas em um limite binário, estimando a fração esperada de variantes patogênicas dentro de 605 genes nos DDD combinados e nos conjuntos de dados de controle saudáveis. Como o conjunto de dados DDD continha 379 variantes de novo com um excesso de 249 variantes missense de novo acima da expectativa e o conjunto de dados de controle continha 65 variantes de novo, nós esperamos 249 variantes patogênicas de 444 variantes totais (FIGURA 22A). Selecionamos o limite para cada classificador que separou as variantes missense de novo 444 em categorias benignas ou patogênicas de acordo com essa proporção esperada, e o usamos como ponto de corte binário para avaliar a precisão de cada classificador. Para nosso modelo de aprendizagem profunda, esse limite foi alcançado com um ponto de corte > 0,803, com uma taxa positiva verdadeira de 65% e uma taxa de falso positivo de 14%. Para calcular a precisão da classificação ajustada para a presença de ~ 33% de variantes de fundo nos indivíduos com DDD, assumimos que 33% das variantes de novo DDD de fundo seriam classificadas na mesma taxa de falso positivo que observamos nos controles saudáveis. Isso corresponde a 14% x 0,33 = 4,6% dos verdadeiros eventos de classificação positiva no conjunto de dados DDD, na verdade, sendo falsos positivos de variantes de segundo plano. Estimamos que a Taxa Positiva Verdadeira ajustada para a rede de aprendizagem profunda seja (65% - 4,6%)/67% = 90%. Relatamos a média da Taxa Positiva Verdadeira e da Taxa Negativa Verdadeira, que é de 88% para a rede de aprendizagem profunda (FIGURA 30C e Tabela Suplementar 19 (FIGURA 35)). É provável que essa estimativa subestime a verdadeira precisão do classificador, devido à alta prevalência de penetração incompleta nos distúrbios do neurodesenvolvimento. Precisão de Classificação do ClinVar

[0578] A maioria dos classificadores existentes é treinada no ClinVar; mesmo os classificadores que não treinam diretamente no ClinVar podem ser afetados pelo uso de pontuações de previsão de classificadores treinados no ClinVar. Além disso, variantes de humano comuns são altamente enriquecidas por consequências benignas do ClinVar, porque a frequência do alelo faz parte dos critérios para atribuir consequências benignas a uma variante.

[0579] Tentamos minimizar a circularidade no conjunto de dados do ClinVar para torná-lo adequado para análise usando apenas variantes do ClinVar que foram adicionadas em 2017, pois os outros métodos de classificação foram publicados em anos anteriores. Mesmo entre as variantes do ClinVar de 2017, excluímos qualquer variante presente nas frequências de alelo comuns (> 0,1%) no ExAC ou presente no HGMD, LSDB ou Uniprot. Depois de filtrar todas essas variantes e excluir variantes de significado incerto e aquelas com anotações conflitantes, ficamos com 177 variantes com anotação benigna e 969 variantes com anotação patogênica no ClinVar.

[0580] Classificamos todas as variantes do ClinVar usando a rede de aprendizagem profunda e os métodos existentes. Selecionamos o limite para cada classificador que separou as variantes do ClinVar em categorias benignas ou patogênicas de acordo com a proporção observada de variantes benignas e patogênicas nesse conjunto de dados e o usamos como ponto de corte binário para avaliar a precisão de cada classificador. Nós relatamos a média da Taxa Positiva Verdadeira e da Taxa Negativa Verdadeira para cada classificador (FIGURAS 31A e 31B). O desempenho dos classificadores no conjunto de dados ClinVar não foi significativamente correlacionado com o desempenho dos classificadores na precisão da classificação nas 10.000 variantes de primata retidos ou no valor de p da Soma dos Ranks de Wilcoxon para os casos DDD versus o conjunto de dados de controles (FIGURAS 31A e 31B)

[0581] Nossa hipótese é de que os classificadores existentes modelam com precisão o comportamento de especialistas humanos, mas que as heurísticas humanas podem não ser totalmente ideais para discriminar entre mutações patogênicas e benignas em dados empíricos. Um exemplo é o pontuação de Grantham, que fornece uma métrica de distância para caracterizar a similaridade ou dissimilaridade das substituições de aminoácidos. Calculamos a pontuação média de Grantham para as variantes patogênicas e benignas no conjunto completo de dados ClinVar (~ 42.000 variantes) e comparamos com a pontuação média de Grantham para variantes de novo em indivíduos afetados e não afetados por DDD nos 605 genes. Para corrigir a presença de ~ 33% de variantes de fundo nos indivíduos afetados por DDD, aumentamos em 50% a diferença no pontuação de Grantham entre os casos de DDD versus os controles, ainda menor do que a diferença entre variantes patogênicas e benignas no ClinVar. Uma possibilidade é que especialistas em seres humanos atribuam muito peso a medidas fáceis de medir, como a distância de substituição de aminoácidos, enquanto fatores de subponderação, como a estrutura de proteínas, são mais difíceis de quantificar para um especialista em seres humanos. Interpretando os Modelos de aprendizagem profunda

[0582] Compreender os meios pelos quais os algoritmos de aprendizado de máquina resolvem problemas geralmente é difícil. Visualizamos as camadas iniciais da rede de aprendizagem profunda para entender os recursos que ela aprendeu a extrair para prever a patogenicidade da variante. Calculamos os coeficientes de correlação para diferentes aminoácidos nas três primeiras camadas (a primeira camada convolucional após duas camadas superiores) dos modelos de previsão da estrutura secundária pré-treinados em 3 estados e mostramos que os pesos das camadas convolucionais aprendem características muito semelhantes à matriz de BLOSUM62 ou distância de Grantham.

[0583] Para calcular os coeficientes de correlação entre os diferentes aminoácidos, começamos com pesos da primeira camada convolucional precedida por três camadas de upsampling (camadas 1a, 1b e 1c) no modelo de estrutura secundária. Realizamos a multiplicação da matriz entre as três camadas, resultando em uma matriz com dimensões (20,5,40), onde 20 é o número de aminoácidos, 5 é o tamanho da janela da camada convolucional e 40 é o número de núcleos. Nós remodelamos a matriz para ter a dimensão (20,200), achatando as duas últimas dimensões, obtendo uma matriz na qual os pesos que operam em cada um dos 20 aminoácidos foram representados como um vetor de 200 comprimentos. Calculamos a matriz de correlação entre os 20 aminoácidos. Como cada dimensão representa cada aminoácido, calculando a matriz do coeficiente de correlação, calculamos a correlação entre os aminoácidos e a aparência semelhante à rede de aprendizagem profunda, com base no que aprendemos com os dados de treinamento. A visualização da matriz do coeficiente de correlação é mostrada na FIGURA 27 (aminoácidos classificados pela ordem da matriz BLOSUM62) e mostra dois grupos proeminentes, compreendendo os aminoácidos hidrofóbicos (metionina, isoleucina, leucina, valina, fenilalanina, tirosina, triptofano) e os aminoácidos hidrofílicos (asparagina, ácido aspártico, ácido glutâmico, glutamina, arginina e lisina). As saídas dessas camadas iniciais se tornam entradas para as camadas posteriores, permitindo que a rede de aprendizagem profunda construa representações hierárquicas cada vez mais complexas dos dados.

[0584] Para ilustrar a janela da sequência de aminoácidos usada pela rede neural em suas previsões, perturbamos cada posição em cerca de 5000 variantes selecionadas aleatoriamente para observar seus efeitos na pontuação prevista do PrimateAI para a variante (FIGURA 25B). Zeramos sistematicamente as entradas em cada posição de aminoácido próxima (-25 a +25) em torno da variante, medimos a mudança na patogenicidade prevista da rede neural da variante e plotamos o valor absoluto médio da alteração nas 5000 variantes. Os aminoácidos próximos à variante têm o maior efeito, em uma distribuição aproximadamente simétrica, gradualmente diminuindo à medida que a distância da variante aumenta. É importante ressaltar que o modelo faz suas previsões com base não apenas no aminoácido na posição da variante, mas usando informações de uma janela mais ampla, conforme necessário para reconhecer os motivos das proteínas. Consistente com o tamanho relativamente compacto dos subdomínios de proteínas, observamos empiricamente que estender o tamanho da janela para mais de 51 aminoácidos não melhorou adicionalmente a precisão.

[0585] Para avaliar a sensibilidade do classificador de aprendizagem profunda ao alinhamento, examinamos os efeitos da profundidade do alinhamento na precisão da classificação de variantes da seguinte forma. Dividimos os dados em cinco caixas com base no número de espécies no alinhamento e avaliamos a precisão da rede em cada caixa (FIGURA 57). Descobrimos que a precisão da rede em separar um conjunto de mutações benignas retidas das mutações selecionadas aleatoriamente que correspondiam ao contexto trinucleotídico (como na FIGURA 21D, mas realizadas separadamente para cada compartimento) é mais forte nos três primeiros compartimentos e notavelmente mais fraca nas duas caixas de fundo. O alinhamento de 99 multiespécies de vertebrado compreende 11 primatas não humanos, 50 mamíferos e 38 vertebrados, com os dois compartimentos inferiores representando proteínas que possuem informações esparsas de alinhamento de outros mamíferos não primatas. A rede de aprendizagem profunda é robusta e precisa quando as informações de alinhamento se estendem por primatas e mamíferos, com informações de conservação de vertebrados mais distantes sendo menos importantes. Definição de Regiões de Codificação Canônicas

[0586] Para definir regiões de codificação canônicas, foram baixados múltiplos alinhamentos de 99 genomas de vertebrados com regiões humanas para codificação da sequência de DNA (CDS) (knownCanonical.exonNuc.fa.gz) no navegador do genoma da UCSC. Para humanos, as coordenadas dos éxons estão em Build hg19. Os éxons são fundidos para formar o gene. Os genes nos autossomos e chrX são retidos. Os genes não homólogos foram removidos, onde a lista de genes homólogos é baixada de NCBI ftp://ftp.ncbi.nih.gov/pub/HomoloGene/current/homologene.data. Para SNPs com várias anotações genéticas, a transcrição mais longa é selecionada para representar a anotação de SNP. Dados de Polimorfismo Humano, de Primata e de Mamífero

[0587] Fizemos o download dos dados do polimorfismo do exoma humano em um estudo recente em larga escala, o genoma de conjunto de dados de agregação (Aggregation Database) (gnomAD), que coletou os dados de sequenciamento do exoma completo de 123.136 indivíduos de 8 subpopulações em todo o mundo. Em seguida, extraímos variantes que passam pelos filtros e se enquadram nas regiões de codificação canônicas.

[0588] O projeto de sequenciamento do genoma dos grandes primatas fornece dados completos de 24 chimpanzés, 13 bonobos, 27 gorilas e 10 orangotangos (incluindo 5 orangotango de Sumatra e 5 orangotango de Bornéu). O estudo sobre chimpanzé e bonobos fornece WGS de 25 primatas adicionais. Como todos os dados de sequenciamento foram mapeados para hg19, baixamos os arquivos VCF desses estudos e extraímos diretamente as variantes nas regiões de codificação canônicas.

[0589] Para comparar com outros primatas e mamíferos, também baixamos SNPs de algumas outras espécies do dbSNP, incluindo macacorhesus, sagui, porco, vaca, cabra, camundongo e galinha. Descartamos outras espécies, como cães, gatos ou ovelhas, pois o dbSNP fornece um número limitado de variantes para essas espécies. Inicialmente, elevamos os SNPs de cada espécie para hg19. Acontece que cerca de 20% das variantes são mapeadas para regiões de pseudogene. Em seguida, obtivemos as coordenadas do éxon de cada espécie de um arquivo de alinhamento múltiplo de 100 vertebrados de regiões de codificação canônicas e extraímos variantes dentro desses éxons. Então, os SNPs extraídos foram elevados para hg19. Se as variantes estão em uma construção genômica diferente das espécies do alinhamento, primeiro elevamos as variantes para a construção genômica do alinhamento.

[0590] Como os dados do SNP da vaca vêm de vários estudos, baixamos do dbSNP todos os grandes lotes de variantes de vaca (16 lotes com arquivos VCF> 100MB) e avaliamos a qualidade de diferentes lotes de SNPs de vaca, calculando as razões entre missense e sinônimo para cada lote. A média das razões entre missense e sinônimo é 0,781 e o desvio absoluto médio (MAD) é 0,160 (a média é 0,879 e o DP é 0,496). Dois lotes com razões externas (snpBatch_1000_BULL_GENOMES_1059190.gz com razão de 1,391 e snpBatch_COFACTOR_GENOMICS_1059634.gz com razão de 2,568) foram excluídos de análises posteriores. Avaliação de Propriedades de Polimorfismos em Primatas e Mamíferos

[0591] Para demonstrar a usabilidade de SNPs de grandes primatas, desenvolvemos a pontuação de enriquecimento que mede a razão do número de singletons e SNPs comuns (frequência de alelo (FA) > 0,1%). As variantes sinônimas são conhecidas por serem benignas e geralmente evoluem de maneira neutra sem nenhuma pressão de seleção. As variantes missense deletérias são gradualmente eliminadas pela seleção natural, portanto, sua distribuição de frequências de alelo tende a exceder as variantes raras em comparação com as variantes sinônimos.

[0592] Nosso foco foi nos SNPs do gnomAD que se sobrepõem aos SNPs observados em primatas, mamíferos e aves. Contamos o número de variantes sinônimas e missense por espécie. Para variantes missense, classificamos ainda mais em dois tipos, aqueles que compartilham alterações idênticas de aminoácidos em outra espécie, denominados "missense idênticos" e aqueles que têm diferentes mudanças de aminoácidos em outras espécies, denominados "missense diferente". Os pontuações de enriquecimento foram então calculados por espécie como a razão do número de singletons versus variantes comuns.

[0593] Além disso, realizamos o teste de homogeneidade qui- quadrado (x2) na tabela de contingência 2x2 para comparar as pontuações de enriquecimento entre variantes idênticas sinônimas e missense idênticas para cada espécie. Todos os primatas não demonstram diferença significativa nas pontuações de enriquecimento entre variantes idênticas sinônimas e missense, enquanto vacas, camundongos e galinhas mostram diferença significativa.

[0594] O resultado revelou que aqueles SNPs que compartilham alterações idênticas de aminoácidos em grandes primatas tendem a ter pontuações de enriquecimento muito semelhantes aos SNPs sinônimos, o que implica que eles tendem a ter um efeito leve na saúde humana. Enquanto aqueles que apresentam diferentes mudanças de aminoácidos ou ausentes em grandes primatas têm pontuações de enriquecimento que divergem significativamente dos SNPs sinônimos. Polimorfismos missense de espécies não primatas também têm distribuição de frequências de alelo diferentes de variantes sinônimas. A conclusão é que SNPs que compartilham mudanças idênticas de aminoácidos em grandes primatas podem ser adicionados ao conjunto de treinamento de variantes benignas.

[0595] Nossa suposição é que a maioria das variantes é derivada independentemente, não gerada pela identidade por descendência (IBD). Portanto, realizamos análises de enriquecimento de variantes raras nos SNPs de IBD para avaliar o comportamento diferente de suas pontuações de enriquecimento. Os SNPs do IBD são definidos como SNPs humanos que aparecem tanto em humanos quanto em duas ou mais grandes espécies de primata, incluindo chimpanzé, bonobo, gorila, S. orangutan e B. orangutan. Em seguida, os pontuações de enriquecimento, definidas como o número de singletons dividido pelo número de variantes comuns (FA> 0,1%), são calculadas separadamente para variantes missense e variantes sinônimas, que são consideradas neutras e servem como referência para comparação. Substituições Fixas Entre Espécies de Mamíferos Análise de Enriquecimento de Substituições Fixas

[0596] Também estudamos a análise de enriquecimento de variante rara de substituições interespécies. Baixamos a árvore filogenética de 100 espécies de vertebrado do navegador do genoma da UCSC (http://hgdownload.soe.ucsc.edu/goldenPath/hg19/multiz100way/hg19.100w ay.commonNames.nh). Em seguida, calculamos a distância filogenética aos pares e selecionamos pares de espécies intimamente relacionadas (distância < 0,3). Para obter pares de espécies de primata, baixamos alinhamentos (hg38) de 19 genomas de mamíferos (16 primatas) com humanos para regiões CDS no navegador do genoma da UCSC. Quatro pares de primata foram adicionados a 13 pares de vertebrados. A tabela a seguir mostra a distância genética de vários pares de espécies intimamente relacionadas, de acordo com uma implementação.

[0597] Tomamos os alinhamentos múltiplos de 19 genomas de mamíferos ou 99 vertebrados com humanos nas regiões de codificação canônicas e obtivemos substituições de nucleotídeos entre cada par de vertebrados selecionado. Estas substituições foram mapeadas para SNPs do exoma humano do gnomAD, exigindo mudanças idênticas de códons entre o par de espécies e variantes de humano. Classificamos variantes em três tipos: variantes sinônimas, variantes missense que compartilham alterações idênticas de aminoácidos em outra espécie e variantes missense que apresentam mudanças diferentes de aminoácidos em outra espécie. Os pontuações de enriquecimento foram calculados para cada classe por par de espécies. Comparação de Polimorfismos Intraespécies e Interespécies

[0598] Seis espécies foram selecionadas para realizar a comparação de polimorfismos intraespécies e interespécies, incluindo chimpanzé, macaco-rhesus, sagui, cabra, camundongo e frango, pois as variantes intraespécies e interespécies estão disponíveis para essas espécies. A comparação dos pontuações de enriquecimento das variantes intraespécies e interespécies é semelhante à comparação das razões de chances de duas tabelas de contingência 2x2. O teste de Woolf é geralmente aplicado para avaliar a homogeneidade das razões de chances entre as tabelas de contingência. Portanto, utilizamos o teste de Woolf para avaliar a diferença das pontuações de enriquecimento entre os polimorfismos intraespécies e interespécies. Análise de Enriquecimento por Gene

[0599] A FIGURA 64 representa uma implementação da análise de enriquecimento por gene. Em uma implementação, o classificador de patogenicidade variante baseado em rede neural convolucional profunda é adicionalmente configurado para implementar uma análise de enriquecimento por gene que confirma a patogenicidade de variantes que foram determinadas como patogênicas. Para um gene específico amostrado de uma coorte de indivíduos com um distúrbio genético, a análise de enriquecimento por gene inclui a aplicação do classificador de patogenicidade variante baseado em rede neural convolucional profunda para identificar variantes candidatas no gene específico que são patogênicos, determinando um número basal de mutações para o gene específico com base na soma das taxas de mutação trinucleotídica observadas das variantes candidatas e na multiplicação da soma com uma contagem de transmissão e um tamanho da coorte, aplicando o classificador de patogenicidade variante baseada em rede neural convolucional profunda para identificar variantes missense de novo no gene específico que é patogênico e que compara o número inicial de mutações com uma contagem das variantes missense de novo. Com base no resultado da comparação, a análise de enriquecimento por gene confirma que o gene específico está associado a distúrbio genético e que as variantes missense de novo são patogênicas. Em algumas implementações, o distúrbio genético é o distúrbio do espectro do autismo (ASD, abreviado). Em outras implementações, o distúrbio genético é o atraso no desenvolvimento (DDD, abreviado).

[0600] No exemplo mostrado na FIGURA 64, cinco variantes candidatas em um determinado gene foram classificadas como patogênicas pelo classificador de patogenicidade variante baseada em rede neural convolucional profunda. Essas cinco variantes candidatas têm respectivas taxas de mutação trinucleotídica observadas de 10-8, 10-2, 10-1, 105 e 101. O número de referência das mutações para o gene em particular é determinado como 10-5, com base na soma das respectivas taxas de mutação trinucleotídica observadas das cinco variantes candidatas e na multiplicação da soma por uma transmissão/contagem de cromossomos (2) e um tamanho da coorte (1000). Isso é então comparado com a contagem de variantes de novo (3).

[0601] Em algumas implementações, o classificador de patogenicidade variante baseado em rede neural convolucional profunda é ainda configurado para realizar a comparação usando um teste estatístico que produz um valor de p como saída.

[0602] Em outras implementações, o classificador de patogenicidade de variante baseada em rede neural convolucional profunda é ainda configurado para comparar o número de referência de mutações com a contagem das variantes missense de novo e, com base no resultado da comparação, confirmar que o gene específico não é associados ao distúrbio genético e que as variantes missense de novo são benignas. Análise de Enriquecimento em Todo o Genoma

[0603] A FIGURA 65 representa uma implementação da análise de enriquecimento em todo o genoma. Em uma outra implementação, o classificador de patogenicidade variante baseado em rede neural convolucional profunda é ainda configurado para implementar uma análise de enriquecimento em todo o genoma, o que confirma a patogenicidade de variantes que foram determinadas como patogênicas. A análise de enriquecimento em todo o genoma inclui a aplicação do classificador de patogenicidade variante baseada em rede neural convolucional profunda para identificar um primeiro conjunto de variantes missense de novo que são patogênicas em uma pluralidade de genes amostrados de uma coorte de indivíduos saudáveis, aplicando a rede neural convolucional profunda classificador de patogenicidade de variantes com base em dados para identificar um segundo conjunto de variantes missense de novo que são patogênicas na pluralidade de genes amostrados de uma coorte de indivíduos com um distúrbio genético e comparar as contagens respectivas do primeiro e do segundo conjuntos e com base em uma saída da comparação que confirma que o segundo conjunto de variantes missense de novo é enriquecido na coorte de indivíduos com o distúrbio genético e, portanto, patogênico. Em algumas implementações, o distúrbio genético é o distúrbio do espectro do autismo (ASD abreviado). Em outras implementações, o distúrbio genético é o atraso no desenvolvimento (DDD abreviado).

[0604] Em algumas implementações, o classificador de patogenicidade variante baseado em rede neural convolucional profunda é ainda configurado para realizar a comparação usando um teste estatístico que produz um valor de p como saída. Em uma implementação, a comparação é ainda parametrizada pelos respectivos tamanhos da coorte.

[0605] Em algumas implementações, o classificador de patogenicidade de variante baseado em rede neural convolucional profunda é adicionalmente configurado para comparar as respectivas contagens do primeiro e segundo conjuntos e com base no resultado da comparação, confirmando que o segundo conjunto de variantes missense de novo não é enriquecido na coorte de indivíduos com distúrbio genético e, portanto, benigna.

[0606] No exemplo mostrado na FIGURA 65, é ilustrada a taxa de mutação na coorte saudável (0,001) e a taxa de mutação na coorte afetada (0,004), juntamente com a razão de mutação por indivíduo (4). Implementações Específicas

[0607] Descrevemos sistemas, métodos e artigos de fabricação para construir um classificador de patogenicidade variante. Um ou mais recursos de uma implementação podem ser combinados com a implementação base. As implementações que não são mutuamente exclusivas são ensinadas a serem combináveis. Um ou mais recursos de uma implementação podem ser combinados com outras implementações. Esta divulgação lembra periodicamente o usuário destas opções. A omissão de algumas implementações de recitações que repetem essas opções não deve ser tomada como limitativa das combinações ensinadas nas seções anteriores - essas recitações são incorporadas neste documento adiante por referência em cada uma das implementações a seguir.

[0608] Uma implementação de sistema da tecnologia divulgada inclui um ou mais processadores acoplados à memória. A memória é carregada com instruções do computador para treinar um detector de sítios de splice que identifica sítios de splice em sequências genômicas (por exemplo, sequências de nucleotídeos).

[0609] Conforme mostrado nas FIGURAS 48 e 19, o sistema treina um classificador de patogenicidade de variante baseado em rede neural convolucional, que é executado em vários processadores acoplados à memória. O sistema usa exemplos de treinamento benigno e exemplos de treinamento patogênico de pares de sequências de proteínas gerados de variantes benignas e variantes patogênicas. As variantes benignas incluem variantes missense de humano comuns e variantes missense de primata não humano que ocorrem em sequências de códons de primata não humano alternativas que compartilham sequências de códons de referência correspondentes com humanos. A expressão "pares de sequências de proteínas" refere-se a uma sequência de proteínas de referência e uma sequência de proteínas alternativa, em que a sequência de proteínas de referência compreende aminoácidos de referência formados por bases de nucleotídeo triplas de referência (códons de referência) e a sequência de proteínas alternativa compreende aminoácidos alternativos formados por alternativas bases de nucleotídeo triplas (códons alternativos) de modo que a sequência de proteínas alternativa seja produzida como resultado de uma variante nas bases de nucleotídeo triplas de referência (códons de referência) formando os aminoácidos de referência da sequência de proteínas de referência. A variante pode ser um SNP, uma inserção ou uma exclusão.

[0610] Esta implementação do sistema e outros sistemas divulgados incluem opcionalmente um ou mais dos seguintes recursos. O sistema também pode incluir recursos descritos em conexão com os métodos divulgados. A interesse de concisão, as combinações alternativas de recursos do sistema não são enumeradas individualmente. Os recursos aplicáveis aos sistemas, métodos e artigos de fabricação não são repetidos para cada conjunto de classes estatutárias de recursos básicos. O leitor entenderá como os recursos identificados nesta seção podem ser facilmente combinados com os recursos básicos de outras classes estatutárias.

[0611] Conforme mostrado na FIGURA 44, as variantes missense de humano comuns têm uma frequência de alelo menor (MAF, abreviado) maior do que 0,1% ao longo de um conjunto de dados de variantes de população humana amostrado de pelo menos 100000 humanos.

[0612] Conforme mostrado na FIGURA 44, os humanos amostrados pertencem a subpopulações humanas diferentes e as variantes missense de humano comuns têm uma MAF maior do que 0,1% dentro dos respectivos conjuntos de dados de variantes de subpopulação humana.

[0613] As subpopulações humanas incluem Africano/Afro americano (AFR, abreviado), Americano (AMR, abreviado), Judeus Asquenazes (ASJ, abreviado), Asiáticos Orientais (EAS, abreviado), Finlandeses (FIN, abreviado), Europeus não Finlandeses (NFE, abreviado), Sul-asiáticos (SAS, abreviado) e Outros (OTH, abreviado).

[0614] Conforme mostrado nas FIGURAS 43 e 44, as variantes missense de primata não humano incluem variantes missense de uma pluralidade de espécies de primata não humano, incluindo Chimpanzé, Bonobo, Gorila, B. Orangotango, s. Orangotango, Macaco-rhesus e Sagui.

[0615] Conforme mostrado nas FIGURAS 45 e 46, com base em uma análise de enriquecimento, o sistema aceita uma espécie específica de primata não humano para inclusão de variantes missense da espécie específica de primata não humano entre as variantes benignas. A análise de enriquecimento inclui, para as espécies específicas de primata não humano, a comparação de uma primeira pontuação de enriquecimento de variantes sinônimas das espécies específicas de primata não humano com uma segunda pontuação de enriquecimento de variantes idênticas missense das espécies específicas de primata não humano.

[0616] A FIGURA 45 representa uma implementação de SNPs missense ortólogos humanos. Um SNP missense em uma espécie não humana que tem referência e códons alternativos correspondentes aos humanos. Conforme mostrado na FIGURA 45, as variantes idênticas missense são variantes missense que compartilham sequências de códons de referência e alternativas correspondentes com seres humanos.

[0617] Conforme mostrado nas FIGURAS 46 e 47, o primeiro pontuação de enriquecimento é produzido pela determinação de uma razão de variantes sinônimas raras com uma MAF menor que 0,1% sobre variantes sinônimas comuns com uma MAF maior que 0,1%. A segunda pontuação de enriquecimento é produzida pela determinação de uma razão de variantes idênticas missense raras com uma MAF menor do que 0,1% sobre variantes idênticas missense comuns com uma MAF maior do que 0,1%. As variantes raras incluem variantes singleton.

[0618] Conforme mostrado nas FIGURAS 46 e 47, uma diferença entre a primeira pontuação de enriquecimento e a segunda pontuação de enriquecimento está dentro de um intervalo predeterminado, incluindo adicionalmente a aceitação de espécies de primata não humano particulares para inclusão de variantes missense de primata não humano particular entre as variantes benignas. A diferença estando no intervalo predeterminado indica que as variantes idênticas missense estão sob um mesmo grau de seleção natural que as variantes sinônimas e, portanto, benignas como as variantes sinônimas.

[0619] Conforme mostrado na FIGURA 48, o sistema aplica repetidamente a análise de enriquecimento para aceitar uma pluralidade de espécies de primata não humano para inclusão de variantes missense de espécies de primata não humano entre as variantes benignas. O sistema inclui adicionalmente o uso de um teste qui-quadrado de homogeneidade para comparar uma primeira pontuação de enriquecimento de variantes sinônimas e uma segunda pontuação de enriquecimento de variantes idênticas missense para cada uma das espécies de primata não humano.

[0620] Conforme mostrado na FIGURA 48, uma contagem das variantes missense de primata não humano é de pelo menos 100000. A contagem das variantes missense de primata não humano é de 385236. Uma contagem das variantes missense de humano comuns é de pelo menos 50000. A contagem das variantes missense de humano comuns é de 83546.

[0621] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[0622] Outra implementação de sistema da tecnologia divulgada inclui construir um classificador de patogenicidade de polimorfismo de nucleotídeo único (SNP, abreviado). O sistema treina um classificador de patogenicidade SNP baseado em rede neural convolucional, que é executado em vários processadores acoplados à memória, usando exemplos de treinamento benigno e exemplos de treinamento patogênico de sequências de aminoácidos expressados por SNPs benignos e SNPs patogênicos. Os exemplos de treinamento benigno incluem o primeiro e o segundo conjuntos de sequências de nucleotídeos, expressos como pares de sequências de aminoácidos, cada sequência de aminoácidos incluindo um aminoácido central flanqueado por aminoácidos a montante e a jusante. Cada par de sequências de aminoácidos inclui uma sequência de aminoácidos de referência expressa por uma sequência de nucleotídeos de referência e uma sequência de aminoácidos alternativa expressa por uma sequência de nucleotídeos alternativa contendo um SNP.

[0623] Conforme mostrado na FIGURA 9, o primeiro conjunto compreende pares de sequência de nucleotídeos humana, com cada par incluindo uma sequência de nucleotídeos humana alternativa contendo um SNP e tendo uma frequência de alelo menor (MAF, abreviada) considerada comum dentro de uma população humana. O segundo conjunto compreende uma sequência de nucleotídeos de primata não humano de referência pareada com uma sequência de nucleotídeos de primata não humano alternativa. A sequência de nucleotídeos de primata não humano de referência tem uma sequência de nucleotídeos humana ortóloga de referência. A sequência de nucleotídeos de primata não humano alternativa contém um SNP.

[0624] Cada um dos recursos discutidos nesta seção de implementação específica para a primeira implementação do sistema se aplica igualmente a essa implementação do sistema. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[0625] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[0626] Conforme mostrado nas FIGURAS 48 e 19, uma primeira implementação de método da tecnologia divulgada inclui a construção de um classificador de patogenicidade variante, incluindo o método. O método inclui adicionalmente treinar um classificador de patogenicidade variante baseado em rede neural convolucional, que é executado em vários processadores acoplados à memória, usando exemplos de treinamento benigno e exemplos de treinamento patogênico de pares de sequência de proteínas gerados de variantes benignas e variantes patogênicas. As variantes benignas incluem variantes missense de humano comuns e variantes missense de primata não humano que ocorrem em sequências de códons de primata não humano alternativas que compartilham sequências de códons de referência correspondentes com humanos.

[0627] Cada um dos recursos discutidos nesta seção de implementação específica para a primeira implementação do sistema se aplica igualmente a esta implementação do método. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[0628] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do método descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções armazenadas na memória para executar o método descrito acima.

[0629] Conforme mostrado nas FIGURAS 48 e 19, um segundo método de implementação da tecnologia divulgada inclui construir um classificador de patogenicidade de polimorfismo de nucleotídeo único (SNP, abreviado). O método inclui treinar um classificador de patogenicidade SNP baseado em rede neural convolucional, que é executado em vários processadores acoplados à memória, usando exemplos de treinamento benigno e exemplos de treinamento patogênico de sequências de aminoácidos expressados por SNPs benignos e SNPs patogênicos. Os exemplos de treinamento benigno incluem um primeiro e um segundo conjuntos de sequências de nucleotídeos, expressos como pares de sequência de aminoácidos, cada sequência de aminoácidos incluindo um aminoácido central flanqueado por aminoácidos a montante e a jusante e cada par de sequências de aminoácidos incluindo uma sequência de aminoácidos de referência expressa por uma sequência de nucleotídeos de referência e uma sequência de aminoácidos de referência expressa por uma sequência de nucleotídeos alternativa contendo um SNP. O primeiro conjunto compreende pares de sequência de nucleotídeos humana, com cada par incluindo uma sequência de nucleotídeos humana alternativa contendo um SNP e tendo uma frequência de alelo menor (MAF, abreviado) considerada comum dentro de uma população humana. O segundo conjunto compreende uma sequência de nucleotídeos de primata não humano de referência pareada com uma sequência de nucleotídeos de primata não humano alternativa. A sequência de nucleotídeos de primata não humano de referência tem uma sequência de nucleotídeos humana ortóloga de referência e a sequência de nucleotídeos de primata não humano alternativa contém um SNP.

[0630] Cada um dos recursos discutidos nesta seção de implementação específica para a segunda implementação do sistema se aplica igualmente a esta implementação do método. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[0631] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do método descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções armazenadas na memória para executar o método descrito acima.

[0632] Descrevemos sistemas, métodos e artigos de fabricação para usar um classificador de patogenicidade variante baseado em uma rede neural profunda convolucional com classificadores de estrutura secundária e acessibilidade de solventes. Um ou mais recursos de uma implementação podem ser combinados com a implementação base. Implementações que não são mutuamente exclusivas são ensinadas a serem combináveis. Um ou mais recursos de uma implementação podem ser combinados com outras implementações. Esta divulgação lembra periodicamente o usuário destas opções. A omissão de algumas implementações de recitações que repetem essas opções não deve ser tomada como limitativa das combinações ensinadas nas seções anteriores - essas recitações são incorporadas neste documento adiante por referência em cada uma das implementações a seguir.

[0633] Uma implementação de sistema da tecnologia divulgada inclui um ou mais processadores acoplados à memória. A memória é carregada com instruções do computador para executar um classificador de patogenicidade variante baseado em rede neural convolucional profunda com classificadores de estrutura secundária e de acessibilidade de solvente.

[0634] O sistema compreende uma primeira sub-rede de estrutura secundária, que é executada em vários processadores acoplados à memória, treinados para prever uma estrutura secundária de três estados em locais de aminoácidos dentro de uma sequência de proteínas. O sistema inclui adicionalmente uma segunda sub-rede de acessibilidade de solvente, que é executada em vários processadores acoplados à memória, treinados para prever uma acessibilidade de solvente de três estados em locais de aminoácidos dentro de uma sequência de proteínas.

[0635] A estrutura secundária de três estados refere-se a uma dentre uma pluralidade de estados de estrutura secundária de DNA alfa-hélice (H), beta-folha (B) e espirais (C).

[0636] A acessibilidade de solvente em três estados refere-se a um dentre uma pluralidade de estados de acessibilidade de solvente de proteínas enterrados (B), intermediários (I) e expostos (E).

[0637] Um gerador de matriz de frequência posicional (PFM, abreviado), que é executado em pelo menos um dos vários processadores, aplicado a três grupos de sequências de primata, mamíferos e vertebrados, excluindo primatas e mamíferos, para gerar um PFM de primata, um PFM de mamífero e um PFM de vertebrado.

[0638] Em outras palavras, isso inclui aplicar o gerador de PFM aos dados da sequência de primata para gerar um PFM de primata, aplicar o gerador de PFM aos dados de sequência de mamíferos para gerar um PFM de mamífero e aplicar o gerador de PFM aos dados de sequência de vertebrados que não incluem os primatas e dados de sequência de mamíferos para gerar um PFM de vertebrado.

[0639] Um processador de entrada que aceita uma sequência de aminoácidos variantes com um aminoácido variante alvo flanqueado a montante e a jusante por pelo menos 25 aminoácidos em cada direção, em que uma única variante de nucleotídeo produz o aminoácido variante alvo. Um alocador de dados suplementar, que é executado em pelo menos um dos vários processadores, que aloca uma sequência de aminoácidos de referência com um aminoácido de referência alvo flanqueado a montante e a jusante por pelo menos 25 aminoácidos em cada direção, alinhado com a sequência de aminoácidos variante. Depois disso, ele aloca classificações de estado de referência produzidas pela primeira e pela segunda sub-redes para a sequência de aminoácidos de referência. Depois disso, o alocador de dados suplementar aloca classificações de estados variantes produzidas pela primeira e pela segunda sub-redes para a sequência de aminoácidos variantes. Finalmente, aloca PFMs de primata, mamíferos e vertebrados alinhados com a sequência de aminoácidos de referência.

[0640] No contexto deste pedido, a expressão "alinhado com" refere- se a PFMs determinantes em posição, primatas, mamíferos e vertebrados para cada posição amino na sequência de aminoácidos de referência ou na sequência de aminoácidos alternativa e codificando e armazenando os resultados da determinação com base na posição ou na ordinal na mesma ordem que as posições de aminoácidos ocorrem na sequência de aminoácidos de referência ou na sequência de aminoácidos alternativa.

[0641] O sistema também inclui uma rede neural convolucional profunda, que é executada em vários processadores, treinados para classificar a sequência de aminoácidos variantes como benigna ou patogênica, com base no processamento da sequência de aminoácidos variante, na sequência de aminoácidos de referência alocada, nas classificações de estado de referência ou variantes alocadas e nos PFMs alocados. O sistema inclui um processador de saída que relata pelo menos uma pontuação de patogenicidade para a sequência de aminoácidos variante.

[0642] Esta implementação do sistema e outros sistemas divulgados incluem opcionalmente um ou mais dos seguintes recursos. O sistema também pode incluir recursos descritos em conexão com os métodos divulgados. A interesse de concisão, as combinações alternativas de recursos do sistema não são enumeradas individualmente. Os recursos aplicáveis aos sistemas, métodos e artigos de fabricação não são repetidos para cada conjunto de classes estatutárias de recursos básicos. O leitor entenderá como os recursos identificados nesta seção podem ser facilmente combinados com os recursos básicos de outras classes estatutárias.

[0643] O sistema compreendendo o classificador de patogenicidade variante baseado em rede neural convolucional profunda, configurado adicionalmente para classificar a única variante de nucleotídeo como benigna ou patogênica com base na pontuação de patogenicidade.

[0644] O sistema compreende o classificador de patogenicidade variante baseado em rede neural convolucional profunda, no qual a rede neural convolucional profunda aceita, em paralelo, como entrada pelo menos a sequência de aminoácidos variante, a sequência de aminoácidos de referência alocada, a classificação do estado de estrutura secundária variante alocada, a classificação do estado de estrutura secundária de referência alocada, a classificação do estado de acessibilidade de solvente variante alocada, a classificação do estado de acessibilidade de solvente alocado, o PFM de primata alocado, o PFM de mamífero alocado e o PFM de vertebrado alocado.

[0645] O sistema está configurado para usar as camadas de normalização em lote, as camadas de não linearidade da ReLU e as camadas de alteração da dimensionalidade para pré-processar a sequência de aminoácidos variantes, a sequência de aminoácidos de referência alocada, o PFM de primata alocado, o PFM de mamífero alocado, e o PFM de vertebrado alocado. O sistema é adicionalmente configurado para somar as caracterizações pré-processadas e concatenar as somas com a classificação do estado de estrutura secundária variante alocada, a classificação do estado de estrutura secundária de referência alocada, a classificação do estado de acessibilidade de solvente variante alocada e a classificação do estado de acessibilidade de solvente de referência alocada para produzir uma entrada concatenada. O sistema processa a entrada concatenada através de uma camada de alteração de dimensionalidade e aceita a entrada concatenada processada para iniciar blocos residuais da rede neural convolucional profunda.

[0646] A rede neural convolucional profunda compreende grupos de blocos residuais dispostos em uma sequência do menor para o maior. A rede neural convolucional profunda é parametrizada por um número de blocos residuais, um número de conexões de salto e um número de conexões residuais sem ativações não lineares. A rede neural profunda convolucional compreende camadas de alteração de dimensionalidade que remodelam as dimensões espaciais e apresentam uma entrada anterior.

[0647] O sistema é adicionalmente configurado para treinar para classificar como patogênica uma única variante de nucleotídeos que produz um aminoácido variante alvo de um aminoácido alvo de referência que é conservado em sequências de aminoácidos alinhadas de referência entre primatas, mamíferos e vertebrados.

[0648] A conservação representa um significado funcional do aminoácido alvo de referência e é determinada dos PFWs. O sistema é adicionalmente configurado para treinar para classificar como patogênica uma única variante de nucleotídeo que causa estruturas secundárias diferentes entre uma sequência de aminoácidos variante e uma sequência de aminoácidos variante de referência.

[0649] O sistema é adicionalmente configurado para treinar para classificar como patogênica uma única variante de nucleotídeo que causa acessibilidades de solvente diferentes entre uma sequência de aminoácidos variante e uma sequência de aminoácido variante de referência.

[0650] Um PFM representa a conservação de aminoácidos em uma sequência de proteínas humana através de sequências de proteínas alinhadas de outras espécies, determinando, em uma base de local para local, a frequência de ocorrência de um aminoácido na sequência de proteínas humana através das sequências de proteínas alinhadas das outras espécies.

[0651] Os três estados de estrutura secundária são hélice, folha e espiral. A primeira sub-rede de estrutura secundária é treinada para aceitar uma sequência de proteínas de entrada e PFMs de primata, mamífero e vertebrado alinhados com os locais de aminoácidos dentro da sequência de proteínas de entrada e prever a estrutura secundária de três estados em cada um dos locais de aminoácidos. Os três estados de acessibilidade de solvente são exposto, enterrado e intermediário.

[0652] A segunda sub-rede de acessibilidade de solvente é treinada para aceitar uma sequência de proteínas de entrada e PFMs de primata, mamíferos e vertebrados alinhados com os locais de aminoácidos dentro da sequência de proteínas de entrada e prever a acessibilidade de solvente de três estados em cada um dos locais de aminoácidos. A sequência de proteínas de entrada é uma sequência de proteínas de referência. A sequência de proteínas de entrada é uma sequência de proteínas alternativa. A primeira sub-rede de estrutura secundária compreende grupos de blocos residuais dispostos em uma sequência do menor para o maior. A primeira sub-rede de estrutura secundária é parametrizada por um número de blocos residuais, um número de conexões de salto e um número de conexões residuais sem ativações não lineares.

[0653] A primeira sub-rede de estrutura secundária compreende camadas que alteram a dimensionalidade que remodelam as dimensões espaciais e apresentam uma entrada anterior. A segunda sub-rede de acessibilidade de solvente compreende grupos de blocos residuais dispostos em uma sequência do menor para o maior. A segunda sub-rede de acessibilidade de solvente é parametrizada por um número de blocos residuais, um número de conexões de salto e um número de conexões residuais sem ativações não lineares. A segunda sub-rede de acessibilidade de solvente compreende camadas de alteração de dimensionalidade que remodelam as dimensões espaciais e apresentam uma entrada anterior.

[0654] Cada bloco residual compreende pelo menos uma camada de normalização em lote, pelo menos uma camada de unidade linear retificada (ReLU abreviada), pelo menos uma camada de alteração de dimensionalidade e pelo menos uma conexão residual. Cada bloco residual compreende duas camadas de normalização em lote, duas camadas de não linearidade ReLU, duas camadas de alteração de dimensionalidade e uma conexão residual.

[0655] A rede neural convolucional profunda, a primeira sub-rede de estrutura secundária e a segunda sub-rede de acessibilidade de solvente compreendem uma camada de classificação final. A camada de classificação final é uma camada baseada em sigmoides. A camada final de classificação é uma camada baseada em softmax.

[0656] O sistema é adicionalmente configurado para eliminar as últimas camadas de classificação da primeira sub-rede de estrutura secundária e da segunda sub-rede de acessibilidade de solvente para colaboração com a rede neural convolucional profunda.

[0657] O sistema é adicionalmente configurado para, durante o treinamento da rede neural convolucional profunda, treinar ainda mais a primeira sub-rede de estrutura secundária e a segunda sub-rede de acessibilidade de solvente na classificação de patogenicidade, incluindo erros de propagação de retorno às sub-redes e atualização dos pesos da sub-rede.

[0658] A segunda sub-rede de acessibilidade de solvente compreende pelo menos na camada de convolução atrous. O sistema é adicionalmente configurado para classificar as variantes causadoras de transtorno de retardo do desenvolvimento (DDD, abreviado) como patogênicas. A sequência de aminoácidos variante e a sequência de aminoácidos de referência compartilham aminoácidos flanqueadores. O sistema é adicionalmente configurado para usar a codificação one-hot para codificar entradas para a rede neural convolucional profunda.

[0659] A FIGURA 1Q representa um exemplo de ambiente de computação no qual a tecnologia divulgada pode ser operada. A rede neural convolucional profunda, a primeira sub-rede de estrutura secundária e a segunda sub-rede de acessibilidade de solvente são treinadas em um ou mais servidores de treinamento. A rede neural convolucional profunda treinada, a primeira sub-rede de estrutura secundária treinada e a segunda sub-rede treinada de acessibilidade de solvente são implantadas em um ou mais servidores de produção que recebem sequências de entrada dos clientes solicitantes. Os servidores de produção processam as sequências de entrada através de pelo menos uma das redes neurais convolucionais profundas, a primeira sub-rede de estrutura secundária e a segunda sub- rede de acessibilidade de solvente para produzir saídas que são transmitidas aos clientes.

[0660] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[0661] Outra implementação de sistema da tecnologia divulgada inclui um classificador de patogenicidade de variante baseado em rede neural convolucional profunda, que é executado em vários processadores acoplados à memória. O sistema inclui um gerador de matriz de frequência posicional (PFM abreviado), que é executado em pelo menos um dos vários processadores, aplicado a dois grupos de sequências de primata e mamíferos para gerar um PFM de primata e um PFM de mamífero. O sistema também inclui um processador de entrada que aceita uma sequência de aminoácidos variantes com um aminoácido variante alvo flanqueado a montante e a jusante por pelo menos 25 aminoácidos em cada direção, em que uma única variante de nucleotídeo produz o aminoácido variante alvo. O sistema também inclui um alocador de dados suplementar, que é executado em pelo menos um dos vários processadores, que aloca uma sequência de aminoácidos de referência com um aminoácido de referência alvo flanqueado a montante e a jusante por pelo menos 25 aminoácidos em cada direção, alinhado com a sequência de aminoácidos variante. Também aloca PFMs de primata e mamíferos alinhados com a sequência de aminoácidos de referência. O sistema inclui adicionalmente uma rede neural convolucional profunda, que é executado em vários processadores, treinados para classificar a sequência de aminoácidos variantes como benigna ou patogênica, com base no processamento da sequência de aminoácidos variante, na sequência de aminoácidos de referência alocada e os PFMs alocados. Em conclusão, o sistema inclui um processador de saída que relata pelo menos uma pontuação de patogenicidade para a sequência de aminoácidos variante.

[0662] Esta implementação do sistema e outros sistemas divulgados incluem opcionalmente um ou mais dos seguintes recursos. O sistema também pode incluir recursos descritos em conexão com os métodos divulgados. A interesse de concisão, as combinações alternativas de recursos do sistema não são enumeradas individualmente. Os recursos aplicáveis aos sistemas, métodos e artigos de fabricação não são repetidos para cada conjunto de classes estatutárias de recursos básicos. O leitor entenderá como os recursos identificados nesta seção podem ser facilmente combinados com os recursos básicos de outras classes estatutárias.

[0663] O sistema é adicionalmente configurado para classificar a única variante de nucleotídeo como benigna ou patogênica com base na pontuação de patogenicidade. A rede neural convolucional profunda, em paralelo, aceita e processa a sequência de aminoácidos variante, a sequência de aminoácidos de referência alocada, o PFM de primata alocado e o PFM de mamífero alocado. O sistema é adicionalmente configurado para treinar para classificar como patogênica uma única variante de nucleotídeos que produz um aminoácido variante alvo de um aminoácido alvo de referência que é conservado em sequências de aminoácidos de referência entre primatas e mamíferos. A conservação representa um significado funcional do aminoácido alvo de referência e é determinada dos PFWs.

[0664] Cada um dos recursos discutidos nesta seção de implementação específica para a primeira implementação do sistema se aplica igualmente a essa implementação do sistema. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[0665] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[0666] Uma primeira implementação de método da tecnologia divulgada inclui a execução de uma primeira sub-rede de estrutura secundária em vários processadores acoplados à memória, treinados para prever uma estrutura secundária de três estados em locais de aminoácidos dentro de uma sequência de proteínas. Execução de uma segunda sub- rede de acessibilidade de solvente em vários processadores acoplados à memória, treinados para prever uma acessibilidade de solvente de três estados em locais de aminoácidos dentro de uma sequência de proteínas. Execução em pelo menos um dos vários processadores de um gerador de matriz de frequência posicional (PFM, abreviado), aplicado a três grupos de sequência de primata, mamíferos e vertebrados, excluindo primatas e mamíferos para gerar um PFM de primata, um PFM de mamífero e um PFM de vertebrado. Recepção de uma sequência de aminoácidos variante, um processador de entrada com um aminoácido variante alvo flanqueado a montante e a jusante por pelo menos 25 aminoácidos em cada direção. Uma única variante de nucleotídeo produz o aminoácido variante alvo. Execução em pelo menos um dos vários processadores de um alocador de dados suplementar que aloca uma sequência de aminoácidos de referência com um aminoácido de referência alvo flanqueado a montante e a jusante por pelo menos 25 aminoácidos em cada direção, alinhado com a sequência de aminoácidos variante. Também aloca classificações de estado de referência produzidas pela primeira e pela segunda sub-redes para a sequência de aminoácidos de referência. Aloca adicionalmente classificações de estados variantes produzidas pela primeira e pela segunda sub-redes para a sequência de aminoácidos variante. Aloca PFMs de primata, mamífero e vertebrado alinhados com a sequência de aminoácidos de referência. Execução em vários processadores de uma rede neural convolucional profunda treinada para classificar a sequência de aminoácidos variantes como benigna ou patogênica, com base no processamento da sequência de aminoácidos variante, na sequência de aminoácidos de referência alocada, nas classificações de estado de referência ou variantes alocadas e nos PFMs alocados. Relato de pelo menos uma pontuação de patogenicidade para a sequência de aminoácidos variantes através de um processador de saída.

[0667] Cada um dos recursos discutidos nesta seção de implementação específica para a primeira implementação do sistema se aplica igualmente a esta implementação do método. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[0668] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do método descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções armazenadas na memória para executar o método descrito acima.

[0669] Uma segunda implementação de método da tecnologia divulgada inclui a execução em vários processadores acoplados à memória de um classificador de patogenicidade variante baseado em rede neural convolucional profunda. Execução de um gerador de matriz de frequência posicional (PFM, abreviado) em pelo menos um dos vários processados, aplicado a dois grupos de sequência de primata e mamíferos para gerar um PFM de primata e um PFM de mamífero. Recepção de um processador de entrada, uma sequência de aminoácidos variante com um aminoácido variante alvo flanqueado a montante e a jusante por pelo menos 25 aminoácidos em cada direção. Uma única variante de nucleotídeo produz o aminoácido variante alvo. Execução de um alocador de dados suplementar em pelo menos um dos vários processadores, que aloca uma sequência de aminoácidos de referência com um aminoácido de referência flanqueado a montante e a jusante por pelo menos 25 aminoácidos em cada direção, alinhado com a sequência de aminoácidos variante e aloca PFMs de primata e de mamífero alinhados com a sequência de aminoácidos de referência. Execução de uma rede neural convolucional profunda em vários processadores, treinados para classificar a sequência de aminoácidos variantes como benigna ou patogênica, com base no processamento da sequência de aminoácidos variante, na sequência de aminoácidos de referência alocada e os PFMs alocados. Relato de pelo menos uma pontuação de patogenicidade para a sequência de aminoácidos variantes em um processador de saída.

[0670] Cada um dos recursos discutidos nesta seção de implementação específica para a segunda implementação do sistema se aplica igualmente a esta implementação do método. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[0671] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do método descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções armazenadas na memória para executar o método descrito acima.

[0672] Ainda outra implementação de sistema da tecnologia divulgada inclui um sistema que gera dados de treinamento patogênico em larga escala para o treinamento de um classificador de patogenicidade de polimorfismo de nucleotídeo único (SNP, abreviado).

[0673] Conforme mostrado na FIGURA 19, o sistema treina o classificador de patogenicidade SNP, que é executado em vários processadores acoplados à memória, usando um conjunto de treinamento de SNPs benignos e um conjunto de treinamento de SNPs patogênicos previstos de elite que são selecionados dentre um conjunto sintético de SNPs gerados de forma combinatória. No contexto deste pedido, SNPs patogênicos previstos de elite são SNPs que são produzidos/selecionados no fim de cada ciclo com base em sua pontuação de patogenicidade média ou máxima, conforme emitidos pelo conjunto. O termo "elite" é emprestado do vocabulário do algoritmo genético e pretende ter um significado tipicamente dado nas publicações de algoritmos genéticos.

[0674] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o sistema constrói o conjunto de elite de forma iterativa em ciclos, começando sem SNPs e acumulando um conjunto completo de SNPs previstos por SNPs isolados selecionados. O conjunto sintético compreende SNPs pseudopatogênicos que são SNPs gerados de forma combinatória não presentes no conjunto benigno e diminuem a associação ao conjunto, pois os SNPs fora de série são descartados de forma iterativa dentre o conjunto sintético para inclusão no conjunto de elite. No contexto deste pedido, o termo "descartar" (culling) significa filtrar, substituir, atualizar ou selecionar uma população anterior por uma nova população. O termo "descartar" é emprestado do vocabulário do algoritmo genético e pretende ter um significado tipicamente dado nas publicações de algoritmos genéticos.

[0675] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41e 42, o sistema treina e aplica um conjunto de classificadores de patogenicidade de SNP para descartar de forma iterativa SNPs isolados do conjunto sintético em ciclos. Isto inclui treinar o conjunto usando um conjunto de treinamento de SNPs benignos comum, um conjunto de treinamento de SNPs patogênicos previstos de elite comum e conjuntos de treinamento de SNPs pseudopatogênicos separado amostrado do conjunto sintético sem substituição. Isso também inclui a aplicação do conjunto treinado para desmontar os SNPs isolados do conjunto sintético e acumular SNPs isolados descartados no conjunto de elite comum ao aplicar o conjunto treinado para pontuação de pelo menos alguns SNPs do conjunto sintético que não foram usados para treinar o conjunto em um ciclo corrente e usar as pontuações para selecionar, dos SNPs pontuados, SNPs isolados de ciclo corrente para acumular no conjunto de elite comum.

[0676] No contexto deste pedido, “SNPs pseudopatogênicos” são aqueles SNPs rotulados como patogênicos para fins de treinamento e amostrados das variantes geradas sinteticamente sem substituição durante o treinamento.

[0677] Além disso, o conjunto de treinamento de SNPs patogênicos previstos de elite é construído de forma iterativa em vários ciclos.

[0678] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o sistema armazena na memória parâmetros do classificador derivados do treinamento, um conjunto de elite comum concluído ao longo dos ciclos e dentro de uma dispersão predeterminada do conjunto benigno comum e o conjunto benigno comum para treinamento do classificador de patogenicidade SNP.

[0679] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, os SNPs patogênicos previstos de elite são os 5% principais dos SNPs previstos pelo conjunto. Em algumas implementações, eles são um número fixo de SNPs com melhor pontuação, tal como 20000.

[0680] O classificador de patogenicidade SNP e o conjunto de classificadores de patogenicidade de SNP são, cada um, redes neurais convolucionais profundas (DCNN, abreviado). O conjunto inclui 4 a 16 DCNNs. Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o conjunto inclui 8 DCNNs.

[0681] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o sistema treina o conjunto de DCCNs em épocas durante os ciclos, concluindo o treinamento para um ciclo específico quando as previsões na amostra de validação formam grupos de distribuição de probabilidade discretos de previsões benignas e patogênicas.

[0682] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o sistema usa as pontuações para selecionar os SNPs isolados do ciclo corrente ao somar as pontuações do conjunto de DCCNs.

[0683] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o sistema usa as pontuações para selecionar os SNPs isolados de ciclo corrente ao assumir um valor médio para cada um dos SNPs pontuados pelo conjunto de DCNNs.

[0684] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, a amostragem sem substituição durante um ciclo corrente resulta em conjuntos de treinamento separados de SNPs pseudopatogênicos durante o ciclo corrente.

[0685] O sistema continua os ciclos até que uma condição de término seja alcançada. A condição de término pode ser um número predeterminado de ciclos. Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o número predeterminado de ciclos é 21.

[0686] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, a condição de término é quando um tamanho de conjunto patogênico previsto de elite está dentro de uma disseminação predeterminada de um tamanho de conjunto benigno.

[0687] Os parâmetros do classificador podem ter pelo menos pesos de filtro de convolução e taxa de aprendizado.

[0688] O sistema pode selecionar um dos classificadores de patogenicidade de SNP no conjunto como o classificador de patogenicidade SNP. O classificador de patogenicidade SNP selecionado pode ser aquele que superou outros classificadores de patogenicidade de SNP no conjunto em uma amostra de validação avaliada em um ciclo final.

[0689] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o conjunto de elite comum completo ao longo dos ciclos pode ter pelo menos 400000 SNPs patogênicos previstos de elite.

[0690] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o sistema, em cada ciclo, pode corresponder ao contexto de trinucleotídeo entre os SNPs benignos e os SNPs pseudopatogênicos amostrados para prevenir o viés da taxa de mutação nos SNPs patogênicos previstos.

[0691] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, a amostragem dos SNPs pseudopatogênicos do conjunto sintético pode diminuir 5% em cada ciclo sucessivo.

[0692] Conforme mostrado nas FIGURAS 37, 38, 39, 40, 41 e 42, o sistema pode filtrar os SNPs sintéticos pontuados no ciclo corrente por SNPs pseudopatogênicos amostrados no ciclo corrente para treinamento, os SNPs patogênicos previstos de elite e os SNPs benignos usados no ciclo corrente para treinamento.

[0693] Cada um dos recursos discutidos nesta seção de implementação específica para a primeira implementação do sistema se aplica igualmente a essa implementação do sistema. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[0694] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções armazenadas na memória para realizar ações do sistema descrito acima.

[0695] Ainda outra implementação da tecnologia divulgada inclui um aprendiz semissupervisionado baseado na rede neural convolucional (CNN, abreviado), conforme mostrado na FIGURA 36.

[0696] Conforme mostrado na FIGURA 36, o aprendiz semissupervisionado pode incluir um conjunto de CNNs, que é executado em vários processadores acoplados à memória, que são treinados de forma iterativa em um conjunto de treinamento benigno e em um conjunto de treinamento patogênico.

[0697] Conforme mostrado na FIGURA 36, o aprendiz semissupervisionado pode incluir um aumentador de conjunto, que é executado em pelo menos um dos processadores, que aumenta progressivamente um tamanho de conjunto do conjunto de treinamento patogênico com base na avaliação do conjunto treinado de um conjunto sintético;

[0698] Em cada iteração, a avaliação produz um conjunto patogênico previsto de elite que é adicionado ao treinamento patogênico definido pelo aumentador do conjunto.

[0699] O aprendiz semissupervisionado pode incluir um construtor que usa pelo menos uma das CNNs, um conjunto de treinamento patogênico aumentado e um conjunto de treinamento benigno para construir e treinar um classificador de patogenicidade de polimorfismo de nucleotídeo único (SNP, abreviado).

[0700] Cada um dos recursos discutidos nesta seção de implementação específica para a primeira implementação do sistema se aplica igualmente a essa implementação do sistema. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[0701] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções armazenadas na memória para realizar ações do sistema descrito acima.

[0702] A descrição anterior é apresentada para permitir a criação e o uso da tecnologia divulgada. Várias modificações às implementações divulgadas serão evidentes e os princípios gerais definidos neste documento podem ser aplicados a outras implementações e pedidos sem se afastar do espírito e âmbito da tecnologia divulgada. Assim, a tecnologia divulgada não se destina a ser limitada às implementações apresentadas, mas deve receber o escopo mais amplo consistente com os princípios e características divulgados neste documento. O escopo da tecnologia divulgada é definido pelas reivindicações anexas. Sistema Computadorizado

[0703] A FIGURA 66 é um diagrama de blocos simplificado de um sistema de computador que pode ser usado para implementar a tecnologia divulgada. O sistema computadorizado normalmente inclui pelo menos um processador que se comunica com vários dispositivos periféricos através de subsistema de barramento. Estes dispositivos periféricos podem incluir um subsistema de armazenamento, incluindo, por exemplo, dispositivos de memória e um subsistema de armazenamento de arquivos, dispositivos de entrada da interface de usuário, dispositivos de saída da interface de usuário e um subsistema da interface de rede. Os dispositivos de entrada e saída permitem a interação do usuário com o sistema computadorizado. O subsistema da interface de rede fornece uma interface para redes externas, incluindo uma interface para os dispositivos de interface correspondentes em outros sistemas computadorizados.

[0704] Em uma implementação, as redes neurais, tais como gerador de conjuntos de dados benignos, classificador de patogenicidade de variantes, classificador de estrutura secundária, classificador de acessibilidade a solventes e aprendiz semissupervisionado, são comunicadas de forma comunicável ao subsistema de armazenamento e aos dispositivos de entrada da interface de usuário.

[0705] Os dispositivos de entrada da interface de usuário podem incluir um teclado; dispositivos apontadores, como mouse, trackball, touchpad ou mesa digitalizadora; um scanner; uma tela táctil incorporada no visor; dispositivos de entrada de áudio, como sistemas de reconhecimento de voz e microfones; e outros tipos de dispositivos de entrada. Em geral, o uso do termo "dispositivo de entrada" deve incluir todos os tipos possíveis de dispositivos e maneiras de inserir informações no sistema computadorizado.

[0706] Os dispositivos de saída da interface de usuário podem incluir um subsistema de exibição, uma impressora, uma máquina de fax ou visores sem exibição de imagens, tais como os de dispositivos de saída de áudio. O subsistema de exibição pode incluir um tubo de raios catódicos (CRT), um dispositivo de tela plana como um monitor de cristal líquido (LCD), um dispositivo de projeção ou algum outro mecanismo para criar uma imagem visível. O subsistema de exibição também pode fornecer um visor sem exibição de imagens, como dispositivos de saída de áudio. Em geral, o uso do termo "dispositivo de saída" visa incluir todos os tipos possíveis de dispositivos e maneiras de enviar informações do sistema computadorizado para o usuário ou para outra máquina ou sistema computadorizado.

[0707] O subsistema de armazenamento armazena construtos de dados que fornecem a funcionalidade de alguns ou todos os módulos e métodos descritos neste documento. Estes módulos de software geralmente são executados pelo processador sozinho ou em combinação com outros processadores.

[0708] A memória usada no subsistema de armazenamento pode incluir várias memórias, incluindo uma memória de acesso aleatório (RAM) principal para armazenamento de instruções e dados durante a execução do programa e uma memória somente leitura (ROM) na qual as instruções fixas são armazenadas. Um subsistema de armazenamento de arquivos pode fornecer armazenamento persistente para arquivos de programa e dados e pode incluir uma unidade de disco rígido, uma unidade de disquete junto com a mídia removível associada, uma unidade de CD-ROM, uma unidade óptica ou cartuchos de mídia removíveis. Os módulos que implementam a funcionalidade de determinadas implementações podem ser armazenados pelo subsistema de armazenamento de arquivo no subsistema de armazenamento ou em outras máquinas acessíveis pelo processador.

[0709] O subsistema de barramento fornece um mecanismo para permitir que os vários componentes e subsistemas do sistema computadorizado se comuniquem entre si, conforme o pretendido. Embora o subsistema de barramento seja mostrado esquematicamente como um barramento único, implementações alternativas do subsistema de barramento podem usar vários barramentos.

[0710] O sistema computadorizado em si pode ser de vários tipos, incluindo um computador pessoal, um computador portátil, uma estação de trabalho, um terminal de computador, um computador em rede, uma televisão, um mainframe, um farm de servidores, um conjunto amplamente distribuído de computadores de rede vagamente distribuídos ou qualquer outro sistema de processamento de dados ou dispositivo do usuário. Devido à natureza em constante mudança de computadores e redes, a descrição do sistema de computador representada na FIGURA 66 destina- se apenas a um exemplo específico para fins de ilustração da tecnologia divulgada. Muitas outras configurações do sistema computadorizado são possíveis com mais ou menos componentes do que o sistema computadorizado representado na FIGURA 66.

[0711] Os processadores de aprendizado profundo podem ser GPUs ou FPGAs e podem ser hospedados por plataformas em nuvem de aprendizado profundo, como Google Cloud Platform, Xilinx e Cirrascale. Os exemplos de processadores de aprendizado profundo incluem a unidade de processamento de tensor (TPU) do Google, soluções de montagem em bastidor como GX4 Rackmount Series, GX8 Rackmount Series, NVIDIA DGX-1, Stratix V FPGA da Microsoft, FPGA Stratix V da Microsoft, unidade de processador inteligente (IPU) da Graphcore, plataforma Zeroth da Qualcomm com processadores Snapdragon, NVIDIA Volta, DRIVE PX da NVIDIA, MÓDULO JETSON TX1/TX2 da NVIDIA, Nirvana da Intel, VPU da Movidius, Fujitsu DPI, DynamicIQ da ARM, IBM TrueNorth e outros.

APÊNDICE

[0712] A seguir, é apresentada uma bibliografia de referências potencialmente relevantes listadas em um artigo de autoria dos inventores. O assunto do documento é abordado nas Provisões US às quais este pedido reivindica prioridade a/benefício de. Essas referências podem ser disponibilizadas pelo Conselho mediante solicitação ou podem ser acessadas via Global Dossier. O artigo é a primeira referência listada. 1. Laksshman Sundaram, Hong Gao, Samskruthi Reddy Padigepati, Jeremy F. McRae, Yanjun Li, Jack A. Kosmicki, Nondas Fritzilas, Jorg Hakenberg, Anindita Dutta, John Shon, Jinbo Xu, Serafim Batzloglou, Xiaolin Li & Kyle Kai-How Farh. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics volume 50, páginas 1161-1170 (2018). Podendo ser acessado em https://www.nature.com/articles/s41588-018-0167-z. 2. MacArthur, D. G. et al. Guidelines for investigating causality of sequence variants in human disease. Nature 508, 469-476, doi:10.1038/nature13127 (2014). 3. Rehm, H. L., J. S. Berg, L. D. Brooks, C. D. Bustamante, J. P. Evans, M. J. Landrum, D. H. Ledbetter, D. R. Maglott, C. L. Martin, R. L. Nussbaum, S. E. Plon, E. M. Ramos, S. T. Sherry, M. S. Watson. ClinGen-- the Clinical Genome Resource. N. Engl. J. Med. 372, 2235-2242 (2015). 4. Bamshad, M. J., S. B. Ng, A. W. Bigham, H. K. Tabor, M. J. Emond, D. A. Nickerson, J. Shendure. Exome sequencing as a tool for Mendelian disease gene discovery. Nat. Rev. Genet. 12, 745-755 (2011). 5. Rehm, H. L. Evolving health care through personal genomics. Nature Reviews Genetics 18, 259-267 (2017). 6. Richards, S. et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med 17, 405-424, doi:10.1038/gim.2015.30 (2015). 7. Lek, M. et al. Analysis of protein-coding genetic variation in 60,706 humans. Nature 536, 285-291, doi:10.1038/nature19057 (2016). 8. Mallick, S. et al. The Simons Genome Diversity Project: 300 genomes from 142 diverse populations. Nature 538, 201-206, doi:10.1038/nature18964 (2016). 9. Genomes Project Consortium et al. A global reference for human genetic variation. Nature 526, 68-74, doi:10.1038/nature15393 (2015). 10. Liu, X., X. Jian, E. Boerwinkle. dbNSFP: A lightweight database of human nonsynonymous SNPs and their functional predictions. Human Mutation 32, 894-899 (2011). 11. Chimpanzee Sequencing Analysis Consortium. Initial sequence of the chimpanzee genome and comparison with the human genome. Nature 437, 69-87, doi:10.1038/nature04072 (2005). 12. Takahata, N. Allelic genealogy and human evolution. Mol Biol Evol 10, 2-22 (1993). 13. Asthana, S., Schmidt, S. & Sunyaev, S. A limited role for balancing selection. Trends Genet 21, 30-32, doi:10.1016/j.tig.2004.11.001 (2005). 14. Leffler, E. M., Z. Gao, S. Pfeifer, L. Ségurel, A. Auton, O. Venn, R. Bowden, R. Bontrop, J.D. Wall, G. Sella, P. Donnelly. Multiple instances of ancient balancing selection shared between humans and chimpanzees. Science 339, 1578-1582 (2013). 15. Samocha, K. E. et al. A framework for the interpretation of de novo mutation in human disease. Nat Genet 46, 944-950, doi:10.1038/ng.3050 (2014). 16. Ohta, T. Slightly deleterious mutant substitutions in evolution. Nature 246, 96-98 (1973). 17. Reich, D. E. & Lander, E. S. On the allelic spectrum of human disease. Trends Genet 17, 502-510 (2001). 18. Whiffin, N., E. Minikel, R. Walsh, A. H. O’Donnell-Luria, K. Karczewski, A. Y. Ing, P. J. Barton, B. Funke, S. A. Cook, D. MacArthur, J. S. Ware. Using high-resolution variant frequencies to empower clinical genome interpretation. Genetics in Medicine 19, 1151-1158 (2017). 19. Prado-Martinez, J. et al. Great ape genome diversity and population history. Nature 499, 471-475 (2013). 20. Klein, J., Satta, Y., O'HUigin, C. & Takahata, N. The molecular descent of the major histocompatibility complex. Annu Rev Immunol 11, 269-295, doi:10.1146/annurev.iy.11.040193.001413 (1993). 21. Kimura, M. The neutral theory of molecular evolution. (Cambridge University Press, 1983). 22. de Manuel, M. et al. Chimpanzee genomic diversity reveals ancient admixture with bonobos. Science 354, 477-481, doi:10.1126/science.aag2602 (2016). 23. Locke, D. P. et al. Comparative and demographic analysis of orang-utan genomes. Nature 469, 529-533 (2011). 24. Rhesus Macaque Genome Sequencing Analysis Consortium et al. Evolutionary and biomedical insights from the rhesus macaque genome. Science 316, 222-234, doi:10.1126/science.1139247 (2007). 25. Worley, K. C., W. C. Warren, J. Rogers, D. Locke, D. M. Muzny, E. R. Mardis, G. M. Weinstock, S. D. Tardif, K. M. Aagaard, N. Archidiacono, N. A. Rayan. The common marmoset genome provides insight into primate biology and evolution. Nature Genetics 46, 850-857 (2014). 26. Sherry, S. T. et al. dbSNP: the NCBI database of genetic variation. Nucleic Acids Res 29, 308-311 (2001). 27. Schrago, C. G. & Russo, C. A. Timing the origin of New World monkeys. Mol Biol Evol 20, 1620-1625, doi:10.1093/molbev/msg172 (2003). 28. Landrum, M. J. et al. ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res 44, D862-868, doi:10.1093/nar/gkv1222 (2016). 29. Brandon, E. P., Idzerda, R. L. & McKnight, G. S. Targeting the mouse genome: a compendium of knockouts (Part II). Curr Biol 5, 758-765 (1995). 30. Lieschke, J. G., P. D. Currie. Animal models of human disease: zebrafish swim into view. Nature Reviews Genetics 8, 353-367 (2007). 31. Sittig, L. J., P. Carbonetto, K. A. Engel, K. S. Krauss, C. M. Barrios-Camacho, A. A. Palmer. Genetic background limits generalizability of genotype-phenotype relationships. Neuron 91, 1253-1259 (2016). 32. Bazykin, G. A. et al. Extensive parallelism in protein evolution. Biol Direct 2, 20, doi:10.1186/1745-6150-2-20 (2007). 33. Ng, P. C. & Henikoff, S. Predicting deleterious amino acid substitutions. Genome Res 11, 863-874, doi:10.1101/gr.176601 (2001). 34. Adzhubei, I. A. et al. A method and server for predicting damaging missense mutations. Nat Methods 7, 248-249, doi:10.1038/nmeth0410-248 (2010). 35. Chun, S., J. C. Fay. Identification of deleterious mutations within three human genomes. Genome research 19, 1553-1561 (2009). 36. Schwarz, J. M., C. Rodelsperger, M. Schuelke, D. Seelow. MutationTaster evaluates disease-causing potential of sequence alterations. Nat. Methods 7, 575-576 (2010). 37. Reva, B., Antipin, Y. & Sander, C. Predicting the functional impact of protein mutations: application to cancer genomics. Nucleic Acids Res 39, e118, doi:10.1093/nar/gkr407 (2011). 38. Dong, C. et al. Comparison and integration of deleteriousness prediction methods for nonsynonymous SNVs in whole exome sequencing studies. Hum Mol Genet 24, 2125-2137, doi:10.1093/hmg/ddu733 (2015). 39. Carter, H., Douville, C., Stenson, P. D., Cooper, D. N. & Karchin, R. Identifying Mendelian disease genes with the variant effect scoring tool. BMC Genomics 14 Suppl 3, S3, doi:10.1186/1471-2164-14-S3- S3 (2013). 40. Choi, Y., Sims, G. E., Murphy, S., Miller, J. R. & Chan, A. P. Predicting the functional effect of amino acid substitutions and indels. PLoS One 7, e46688, doi:10.1371/journal.pone.0046688 (2012). 41. Gulko, B., Hubisz, M. J., Gronau, I. & Siepel, A. A method for calculating probabilities of fitness consequences for point mutations across the human genome. Nat Genet 47, 276-283, doi:10.1038/ng.3196 (2015). 42. Shihab, H. A. et al. An integrative approach to predicting the functional effects of non-coding and coding sequence variation. Bioinformatics 31, 1536-1543, doi:10.1093/bioinformatics/btv009 (2015). 43. Quang, D., Chen, Y. & Xie, X. DANN: a deep learning approach for annotating the pathogenicity of genetic variants. Bioinformatics 31, 761763, doi:10.1093/bioinformatics/btu703 (2015). 44. Bell, C. J., D. L. Dinwiddie, N. A. Miller, S. L. Hateley, E. E. Ganusova, J. Midge, R. J. Langley, L. Zhang, C. L. Lee, R. D. Schilkey, J. E. Woodward, H. E. Peckham, G. P. Schroth, R. W. Kim, S. F. Kingsmore. Comprehensive carrier testing for severe childhood recessive diseases by next generation sequencing. Sci. Transl. Med. 3, 65ra64 (2011). 45. Kircher, M., D. M. Witten, P. Jain, B. J. O’Roak, G. M. Cooper, J. Shendure. A general framework for estimating the relative pathogenicity of human genetic variants. Nat. Genet. 46, 310-315 (2014). 46. Smedley, D. et al. A Whole-Genome Analysis Framework for Effective Identification of Pathogenic Regulatory Variants in Mendelian Disease. Am J Hum Genet 99, 595-606, doi:10.1016/j.ajhg.2016.07.005 (2016). 47. Ioannidis, N. M. et al. REVEL: an ensemble method for predicting the pathogenicity of rare missense variants. Am J Hum Genet 99, 877-885, doi:10.1016/j.ajhg.2016.08.016 (2016). 48. Jagadeesh, K. A., A. M. Wenger, M. J. Berger, H. Guturu, P. D. Stenson, D. N. Cooper, J. A. Bernstein, G. Bejerano. M-CAP eliminates a majority of variants of uncertain significance in clinical exomes at high sensitivity. Nature genetics 48, 1581-1586 (2016). 49. Grimm, D. G. The evaluation of tools used to predict the impact of missense variants is hindered by two types of circularity. Human mutation 36, 513-523 (2015). 50. He, K., X. Zhang, S. Ren, J. Sun. in Proceedings of the IEEE conference on computer vision and pattern recognition. 770-778. 51. Heffernan, R. et al. Improving prediction of secondary structure, local backbone angles, and solvent accessible surface area of proteins by iterative deep learning. Sci Rep 5, 11476, doi:10.1038/srep11476 (2015). 52. Wang, S., J. Peng, J. Ma, J. Xu. Protein secondary structure prediction using deep convolutional neural fields. Scientific reports 6, 1896218962 (2016). 53. Harpak, A., A. Bhaskar, J. K. Pritchard. Mutation Rate Variation is a Primary Determinant of the Distribution of Allele Frequencies in Humans. PLoS Genetics 12 (2016). 54. Payandeh, J., Scheuer, T., Zheng, N. & Catterall, W. A. The crystal structure of a voltage-gated sodium channel. Nature 475, 353-358 (2011). 55. Shen, H. et al. Structure of a eukaryotic voltage-gated sodium channel at near-atomic resolution. Science 355, eaal4326, doi:10.1126/science.aal4326 (2017). 56. Nakamura, K. et al. Clinical spectrum of SCN2A mutations expanding to Ohtahara syndrome. Neurology 81, 992-998, doi:10.1212/WNL.0b013e3182a43e57 (2013). 57. Henikoff, S. & Henikoff, J. G. Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 89, 10915-10919 (1992). 58. Li, W. H., C. I. Wu, C. C. Luo. Nonrandomness of point mutation as reflected in nucleotide substitutions in pseudogenes and its evolutionary implications. Journal of Molecular Evolution 21, 58-71 (1984). 59. Grantham, R. Amino acid difference formula to help explain protein evolution. Science 185, 862-864 (1974). 60. LeCun, Y., L. Bottou, Y. Bengio, P. Haffner. in Proceedings of the IEEE 2278-2324. 61. Vissers, L. E., Gilissen, C. & Veltman, J. A. Genetic studies in intellectual disability and related disorders. Nat Rev Genet 17, 9-18, doi:10.1038/nrg3999 (2016). 62. Neale, B. M. et al. Patterns and rates of exonic de novo mutations in autism spectrum disorders. Nature 485, 242-245, doi:10.1038/nature11011 (2012). 63. Sanders, S. J. et al. De novo mutations revealed by whole- exome sequencing are strongly associated with autism. Nature 485, 237241, doi:10.1038/nature10945 (2012). 64. De Rubeis, S. et al. Synaptic, transcriptional and chromatin genes disrupted in autism. Nature 515, 209-215, doi:10.1038/nature13772 (2014). 65. Deciphering Developmental Disorders Study. Large-scale discovery of novel genetic causes of developmental disorders. Nature 519, 223-228, doi:10.1038/nature14135 (2015). 66. Deciphering Developmental Disorders Study. Prevalence and architecture of de novo mutations in developmental disorders. Nature 542, 433-438, doi:10.1038/nature21062 (2017). 67. Iossifov, I. et al. The contribution of de novo coding mutations to autism spectrum disorder. Nature 515, 216-221, doi:10.1038/nature13908 (2014). 68. Zhu, X., Need, A. C., Petrovski, S. & Goldstein, D. B. One gene, many neuropsychiatric disorders: lessons from Mendelian diseases. Nat Neurosci 17, 773-781, doi:10.1038/nn.3713 (2014). 69. Leffler, E. M., K. Bullaughey, D. R. Matute, W. K. Meyer, L. Ségurel, A. Venkat, P. Andolfatto, M. Przeworski. Revisiting an old riddle: what determines genetic diversity levels within species? PLoS biology 10, e1001388 (2012). 70. Estrada, A. et al. Impending extinction crisis of the world’s primates: Why primates matter. Science advances 3, e1600946 (2017). 71. Kent, W. J., C. W. Sugnet, T. S. Furey, K. M. Roskin, T. H. Pringle, A.M. Zahler, D. Haussler. The human genome browser at UCSC. Genome Res. 12, 996-1006 (2002). 72. Tyner, C. et al. The UCSC Genome Browser database: 2017 update. Nucleic Acids Res 45, D626-D634, doi:10.1093/nar/gkw1134 (2017). 73. Kabsch, W. & Sander, C. Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features. Biopolymers 22, 2577-2637, doi:10.1002/bip.360221211 (1983). 74. Joosten, R. P. et al. A series of PDB related databases for everyday needs. Nucleic Acids Res 39, D411-419, doi:10.1093/nar/gkq1105 (2011). 75. He, K., Zhang, X., Ren, S. & Sun, J. in European Conference on Computer Vision. 630-645 (Springer). 76. Ionita-Laza, I., McCallum, K., Xu, B. & Buxbaum, J. D. A spectral approach integrating functional genomic annotations for coding and noncoding variants. Nat Genet 48, 214-220, doi:10.1038/ng.3477 (2016). 77. Li, B. et al. Automated inference of molecular mechanisms of disease from amino acid substitutions. Bioinformatics 25, 2744-2750, doi:10.1093/bioinformatics/btp528 (2009). 78. Lu, Q. et al. A statistical framework to predict functional noncoding regions in the human genome through integrated analysis of annotation data. Sci Rep 5, 10576, doi:10.1038/srep10576 (2015). 79. Shihab, H. A. et al. Predicting the functional, molecular, and phenotypic consequences of amino acid substitutions using hidden Markov models. Hum Mutat 34, 57-65, doi:10.1002/humu.22225 (2013). 80. Davydov, E. V. et al. Identifying a high fraction of the human genome to be under selective constraint using GERP++. PLoS Comput Biol 6, e1001025, doi:10.1371/journal.pcbi.1001025 (2010). 81. Liu, X., Wu, C., Li, C. & Boerwinkle, E. dbNSFP v3.0: A One- Stop Database of Functional Predictions and Annotations for Human Nonsynonymous and Splice-Site SNVs. Hum Mutat 37, 235-241, doi:10.1002/humu.22932 (2016). 82. Jain, S., White, M. & Radivojac, P. in Proceedings of the Thirty- First AAAI Conference on Artificial Intelligence. 2066-2072. 83. de Ligt, J. et al. Diagnostic exome sequencing in persons with severe intellectual disability. N Engl J Med 367, 1921-1929, doi:10.1056/NEJMoa1206524 (2012). 84. Iossifov, I. et al. De novo gene disruptions in children on the autistic spectrum. Neuron 74, 285-299, doi:10.1016/j.neuron.2012.04.009 (2012). 85. O'Roak, B. J. et al. Sporadic autism exomes reveal a highly interconnected protein network of de novo mutations. Nature 485, 246-250, doi:10.1038/nature10989 (2012). 86. Rauch, A. et al. Range of genetic mutations associated with severe non-syndromic sporadic intellectual disability: an exome sequencing study. Lancet 380, 1674-1682, doi:10.1016/S0140-6736(12)61480-9 (2012). 87. Epi, K. C. et al. De novo mutations in epileptic encephalopathies. Nature 501, 217-221, doi:10.1038/nature12439 (2013). 88. Euro, E.-R. E. S. C., Epilepsy Phenome/Genome, P. & Epi, K. C. De novo mutations in synaptic transmission genes including DNM1 cause epileptic encephalopathies. Am J Hum Genet 95, 360-370, doi:10.1016/j.ajhg.2014.08.013 (2014). 89. Gilissen, C. et al. Genome sequencing identifies major causes of severe intellectual disability. Nature 511, 344-347, doi:10.1038/nature13394 (2014). 90. Lelieveld, S. H. et al. Meta-analysis of 2,104 trios provides support for 10 new genes for intellectual disability. Nat Neurosci 19, 11941196, doi:10.1038/nn.4352 (2016). 91. Famiglietti, M. L. et al. Genetic variations and diseases in UniProtKB/Swiss-Prot: the ins and outs of expert manual curation. Hum Mutat 35, 927-935, doi:10.1002/humu.22594 (2014). 92. Horaitis, O., Talbot, C. C., Jr., Phommarinh, M., Phillips, K. M. & Cotton, R. G. A database of locus-specific databases. Nat Genet 39, 425, doi:10.1038/ng0407-425 (2007). 93. Stenson, P. D. et al. The Human Gene Mutation Database: building a comprehensive mutation repository for clinical and molecular genetics, diagnostic testing and personalized genomic medicine. Hum Genet 133, 1-9, doi:10.1007/s00439-013-1358-4 (2014).

Claims

1. Método (1, 2) para a construção de um classificador de patogenicidade variante, o método (1, 2) caracterizado pelo fato de que inclui: treinar um classificador de patogenicidade variante baseado em rede neural convolucional (19), que roda em vários processadores acoplados à memória, em dados de treinamento usando uma técnica de atualização de gradiente baseada em retropropagação, usando, como entrada (1f, 1g), pares de exemplos de treinamento benigno e pares de exemplos de treinamento patogênico de sequências de proteína de referência e sequências de proteína alternativas, em que as sequências de proteína alternativas são geradas a partir de variantes benignas e variantes patogênicas; e em que as variantes benignas incluem variantes missense de humano comum e variantes missense de primata não-humano que ocorrem em sequências de códons de primata não-humano alternativas e compartilham sequências de códons de referência correspondentes com humanos.

2. Método (1, 2), de acordo com a reivindicação 1, caracterizado pelo fato de que as variantes missense de humano comum têm uma frequência de alelo menor (MAF, abreviado) maior que 0,1% sobre um conjunto de dados de variantes da população humana amostrada (10) de pelo menos 100000 humanos.

3. Método (1, 2), de acordo com a reivindicação 2, caracterizado pelo fato de que os humanos amostrados (10) pertencem a diferentes subpopulações humanas e as variantes missense de humano comum têm uma MAF maior que 0,1% nos respectivos conjuntos de dados de variantes da subpopulação humana.

4. Método (1, 2), de acordo com a reivindicação 3, caracterizado pelo fato de que as subpopulações humanas incluem Africano/Afro americano (AFR, abreviado), Americano (AMR, abreviado), Judeus Asquenazes (ASJ, abreviado), Asiáticos Orientais (EAS, abreviado), Finlandeses (FIN, abreviado, Europeus não Finlandeses (NFE, abreviado), Sul-asiáticos (SAS, abreviado), e Outros (OTH, abreviado).

5. Método (1, 2), de acordo com a reivindicação 1, caracterizado pelo fato de que as variantes missense de primata não-humano incluem variantes missense de uma pluralidade de espécies de primata não-humano (1c), incluindo Chimpanzé, Bonobo, Gorila, B. Orangotango, S. Orangotango, Macaco-rhesus e Sagui.

6. Método (1, 2), de acordo com a reivindicação 1, caracterizado pelo fato de que, adicionalmente, inclui, com base em uma análise de enriquecimento, a aceitação de uma espécie de primata não-humano (1c) particular para inclusão de variantes missense das espécies de primata não- humano (1c) particulares entre as variantes benignas, em que a análise de enriquecimento inclui, para as espécies de primata não-humano (1c) particulares, a comparação de uma primeira pontuação de enriquecimento de variantes sinônimas das espécies de primata não-humano (1c) particulares com uma segunda pontuação de enriquecimento de variantes idênticas missense das espécies de primata não-humano (1c) particulares; em que as variantes idênticas missense são variantes missense que compartilham sequências de códons de referência e alternativas correspondentes com humanos; em que a primeira pontuação de enriquecimento é produzida por determinação de uma razão de variantes sinônimas raras com uma MAF menor que 0,1% sobre variantes sinônimas comuns com uma MAF maior que 0,1%; e em que a segunda pontuação de enriquecimento é produzida por determinação de uma razão de variantes idênticas missense raras com uma MAF menor que 0,1% sobre variantes idênticas missense comuns com uma MAF maior que 0,1%.

7. Método (1, 2), de acordo com a reivindicação 6, caracterizado pelo fato de que as variantes sinônimas raras incluem variantes singleton.

8. Método (1, 2), de acordo com a reivindicação 6, caracterizado pelo fato de que uma diferença entre a primeira pontuação de enriquecimento e a segunda pontuação de enriquecimento está dentro de um intervalo predeterminado, incluindo, adicionalmente, a aceitação das espécies de primata não-humano (1c) particulares para a inclusão de variantes missense do primata não humano particular entre as variantes benignas.

9. Método (1, 2), de acordo com a reivindicação 6, caracterizado pelo fato de que a diferença estando no intervalo predeterminado indica que as variantes idênticas missense estão sob um mesmo grau de seleção natural que as variantes sinônimas e, portanto, benignas como as variantes sinônimas.

10. Método (1, 2), de acordo com a reivindicação 6, caracterizado pelo fato de que inclui, adicionalmente, a aplicação repetida da análise de enriquecimento para aceitar uma pluralidade de espécies de primata não- humano (1c) para a inclusão de variantes missense das espécies de primata não-humano (1c) entre as variantes benignas.

11. Método (1, 2), de acordo com a reivindicação 5, caracterizado pelo fato de que inclui, adicionalmente, o uso de um teste qui-quadrado de homogeneidade para comparar uma primeira pontuação de enriquecimento de variantes sinônimas e uma segunda pontuação de enriquecimento de variantes idênticas missense para cada uma das espécies de primata não- humano (1c).

12. Método (1, 2), de acordo com a reivindicação 1, caracterizado pelo fato de que uma contagem das variantes missense de primata não-humano é no mínimo 100000.

13. Método (1, 2), de acordo com a reivindicação 12, caracterizado pelo fato de que a contagem das variantes missense de primata não-humano é 385236.

14. Método (1, 2), de acordo com a reivindicação 1, caracterizado pelo fato de que uma contagem das variantes missense de humano comum é de pelo menos 50000.

15. Método (1, 2), de acordo com a reivindicação 14, caracterizado pelo fato de que a contagem das variantes missense de humano comum é 83546.

16. Meio de armazenamento legível por computador não transitório impresso, com instruções de programa de computador para construir um classificador de patogenicidade variante, caracterizado pelo fato de que, quando executado em um processador, implementa um método (1, 2) que compreende: treinar um classificador de patogenicidade variante baseado em rede neural convolucional (19), que roda em vários processadores acoplados à memória, no treinamento de dados usando uma técnica de atualização de gradiente baseada em retropropagação, usando, como entrada (1f, 1g), pares de exemplos de treinamento benigno e pares de exemplo de treinamento patogênico de sequências de proteínas de referência e sequências de proteínas alternativas, em que as sequências de proteínas alternativas são geradas a partir de variantes benignas e variantes patogênicas,; e em que as variantes benignas incluem variantes missense de humano comum e variantes missense de primata não-humano que ocorrem em sequências de códons de primata não-humano alternativas e compartilham sequências de códons de referência correspondentes com humanos.

17. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 16, caracterizado pelo fato de que implementa o método (1, 2) e, adicionalmente, compreende, com base em uma análise de enriquecimento, a aceitação de uma espécie de primata não-humano (1c) particular para a inclusão de variantes missense das espécies de primata não-humano (1c) particulares entre as variantes benignas, em que a análise de enriquecimento inclui, para as espécies de primata não-humano (1c) particulares, a comparação de uma primeira pontuação de enriquecimento de variantes sinônimas das espécies de primata não-humano (1c) particulares com uma segunda pontuação de enriquecimento de variantes idênticas missense das espécies de primata não-humano (1c) particulares; em que as variantes idênticas missense são variantes missense que compartilham sequências de códons de referência e alternativas correspondentes com humanos; em que a primeira pontuação de enriquecimento é produzida por determinação de uma razão de variantes sinônimas raras com uma MAF menor que 0,1% sobre variantes sinônimas comuns com uma MAF maior que 0,1%; e em que a segunda pontuação de enriquecimento é produzida por determinação de uma razão de variantes idênticas missense raras com uma MAF menor que 0,1% sobre variantes idênticas missense comuns com uma MAF maior que 0,1%.

18. Meio de armazenamento legível por computador não transitório, de acordo com a reivindicação 16, caracterizado pelo fato de que implementa o método (1, 2) e, adicionalmente, compreende o uso de um teste qui- quadrado de homogeneidade para comparar uma primeira pontuação de enriquecimento de variantes sinônimas e uma segunda pontuação de enriquecimento de variantes idênticas missense para cada uma das pluralidades de espécies de primata não-humano (1c).

19. Sistema, caracterizado pelo fato de incluir um ou mais processadores acoplados à memória, a memória sendo carregada com instruções de computador para construir um classificador de patogenicidade variante, em que as instruções, quando executadas nos processadores, implementam ações (1, 2) compreendendo: treinar um classificador de patogenicidade variante baseado em rede neural convolucional (19), que roda em vários processadores acoplados à memória, no treinamento de dados usando uma técnica de atualização de gradiente baseada em retropropagação, usando, como entrada (1f, 1g), pares de exemplos de treinamento benigno e pares de exemplos de treinamento patogênico de sequências de proteínas de referência e sequências de proteínas alternativas, em que as sequências de proteínas alternativas são geradas a partir de variantes benignas e variantes patogênicas; e em que as variantes benignas incluem variantes missense de humano comum e variantes missense de primata não-humano que ocorrem em sequências de códons de primata não-humano alternativas e compartilham sequências de códons de referência correspondentes com humanos.

20. Sistema, de acordo com a reivindicação 19, caracterizado pelo fato de que implementa, adicionalmente, ações (1, 2) com base em uma análise de enriquecimento, aceitando uma espécie de primata não-humano (1c) particular para a inclusão de variantes missense das espécies de primata não-humano (1c) particulares entre as variantes benignas, em que a análise de enriquecimento inclui, para as espécies de primata não-humano (1c) particulares, a comparação de uma primeira pontuação de enriquecimento de variantes sinônimas das espécies de primata não-humano (1c) particulares com uma segunda pontuação de enriquecimento de variantes idênticas missense das espécies de primata não-humano particulares (1c); em que variantes idênticas missense são variantes missense que compartilham sequências de códons de referência e alternativas correspondentes com humanos; em que a primeira pontuação de enriquecimento é produzida por determinação de uma razão de variantes sinônimas raras com uma MAF menor que 0,1% sobre variantes sinônimas comuns com uma MAF maior que 0,1%; e em que a segunda pontuação de enriquecimento é produzida por determinação de uma razão de variantes idênticas missense raras com uma MAF menor que 0,1% sobre variantes idênticas missense comuns com uma MAF maior que 0,1%.

21. Método para a construção de um classificador baseado em rede neural convolucional, de acordo com a reivindicação 1, caracterizado pelo fato de que a técnica de atualização de gradiente baseada em retropropagação combina, progressivamente, saídas do classificador baseado em rede neural convolucional (19) com marcações de ground truths correspondentes; o classificador baseado em rede neural convolucional (19) compreendendo grupos de blocos residuais; cada grupo de blocos residuais sendo parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho de janela de convolução dos blocos residuais, e uma taxa de convolução atrous dos blocos residuais; o tamanho da janela de convolução variando entre os grupos de blocos residuais; e a taxa de convolução atrous variando entre os grupos de blocos residuais.

22. Meio de armazenamento legível por computador não transitório impresso com instruções de programa de computador, de acordo com a reivindicação 16, caracterizado pelo fato de que a técnica de atualização de gradiente baseada em retropropagação combina, progressivamente, saídas do classificador baseado em rede neural convolucional (19) com marcadores de ground truths correspondentes; o classificador baseado em rede neural convolucional (19) compreendendo grupos de blocos residuais; cada grupo de blocos residuais sendo parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho de janela de convolução dos blocos residuais, e uma taxa de convolução atrous dos blocos residuais; o tamanho da janela de convolução variando entre os grupos de blocos residuais; e a taxa de convolução atrous variando entre os grupos de blocos residuais.

23. Sistema, de acordo com a reivindicação 19, caracterizado pelo fato de que a técnica de atualização de gradiente baseada em retropropagação combina, progressivamente, saídas do classificador baseado em rede neural convolucional (19) com marcadores de ground truths correspondentes; o classificador baseado em rede neural convolucional (19) compreendendo grupos de blocos residuais; cada grupo de blocos residuais sendo parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho de janela de convolução dos blocos residuais, e uma taxa de convolução atrous dos blocos residuais; o tamanho da janela de convolução variando entre os grupos de blocos residuais; e a taxa de convolução atrous variando entre os grupos de blocos residuais.