BR112019027609A2

BR112019027609A2 - método implementado em rede neural de treinamento de um detector de sítio de splice que identifica sítios de splice em sequências genômicas, previsor de sítio de splice treinado e sistema

Info

Publication number: BR112019027609A2
Application number: BR112019027609-2A
Authority: BR
Inventors: Kishore JAGANATHAN; Kai-How FARH; Sofia Kyriazopoulou Panagiotopoulou; Jeremy Francis McRAE
Original assignee: Illumina, Inc.
Priority date: 2017-10-16
Filing date: 2018-10-15
Publication date: 2020-07-21
Also published as: JP7297000B2; SG11201912746QA; CN110914910A; JP2020525888A; JP2023164433A; KR102526103B1; EP3622525B1; KR102662206B1; JP6980882B2; EP3628099B1; JP6896111B2; WO2019079202A1; WO2019079198A1; IL271150A; KR102223129B1; KR20210130842A; US20190114547A1; AU2021282482B2; JP2021007035A; US20190197401A1

Abstract

A tecnologia divulgada se refere à construção de um classificador baseado em rede neural convolucional para classificação de variantes. Em particular, se refere a treinar um classificador baseado em rede neural convolucional em dados de treinamento usando uma técnica de atualização de gradiente baseada em retropropagação que combina progressivamente as saídas do classificador baseado em rede neural convolucional com marcadores de ground truth correspondentes. O classificador baseado em rede neural convolucional compreende grupos de blocos residuais, cada grupo de blocos residuais é parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho da janela de convolução dos blocos residuais e uma taxa de convolução atrous dos blocos residuais, o tamanho da janela de convolução varia entre grupos de blocos residuais, a taxa de convolução atrous varia entre grupos de blocos residuais. Os dados de treinamento incluem exemplos de treinamento benignos e exemplos de treinamento patogênicos de pares de sequências traduzidos gerados a partir de variantes benignas e variantes patogênicas.

Description

MÉTODO IMPLEMENTADO EM REDE NEURAL DE TREINAMENTO DE UM DETECTOR DE SÍTIO DE SPLICE QUE IDENTIFICA SÍTIOS DE SPLICE EM SEQUÊNCIAS GENÔMICAS, PREVISOR DE SÍTIO DE SPLICE TREINADO E SISTEMA APÊNDICE

[0001] O Apêndice inclui uma bibliografia de referências potencialmente relevantes listadas em um artigo de autoria dos inventores. O assunto do documento é abordado nas Provisões US às quais este pedido reivindica prioridade a/benefício de. Essas referências podem ser disponibilizadas pelo Conselho mediante solicitçção ou podem ser acessadas através do Global Dossier.

PEDIDOS PRIORITÁRIOS

[0002] Este pedido reivindica prioridade a ou benefício do Pedido Provisório de Patente US Nº 62/573,125, intitulado “Deep Learning-Based Splice Site Classification”, de Kishore Jaganathan, Kai-How Farh, Sofia Kyriazopoulou Panagiotopoulou e Jeremy Francis McRae, depositado em 16 de outubro de 2017 (Nº de Registro do Procurador ILLM 1001-1/IP-1610- PRV); O Pedido de Patente Provisória US Nº 62/573,131, intitulado "Deep Learning-Based Aberrant Splicing Detection", de Kishore Jaganathan, Kai- How Farh, Sofia Kyriazopoulou Panagiotopoulou e Jeremy Francis McRae, depositado em 16 de outubro de 2017 (Nº de Registro do Procurador ILLM 1001-2/IP-1614-PRV); O Pedido de Patente Provisória US Nº 62/573,135, intitulado “Aberrant Splicing Detection Using Convolutional Neural Networks (CNNs)”, por Kishore Jaganathan, Kai-How Farh, Sofia Kyriazopoulou Panagiotopoulou e Jeremy Francis McRae, depositado em 16 de outubro de 2017 (Nº de Registro do Procurador ILLM 1001-3/IP-1615-PRV); e Pedido de Patente Provisório US Nº 62/726,158, intitulado “Predicting Splicing from Primary Sequence with Deep Learning”, de Kishore Jaganathan, Kai-How Farh, Sofia Kyriazopoulou Panagiotopoulou e Jeremy Francis McRae, depositado em 31 de agosto de 2018 (Nº de Registro do Procurador ILLM

1001-10/IP-1749-PRV). Esses pedidos provisórios são incorporados neste documento por referência para todos os fins.

INCORPORAÇÕES

[0003] Os seguintes são incorporados por referência para todos os fins, como se totalmente estabelecido neste documento:

[0004] Pedido de Patente PCT Nº PCT/US18/ , intitulado “Deep Learning-Based Aberrant Splicing Detection”, de Kishore Jaganathan, Kai-How Farh, Sofia Kyriazopoulou Panagiotopoulou e Jeremy Francis McRae, depositado de forma contemporânea em 15 de outubro de 2018 (Nº de Registro do Procurador ILLM 1001-8/IP-1614-PCT), posteriormente publicada como Publicação PCT Nº WO .

[0005] Pedido de Patente PCT Nº PCT/US18/ ; intitulado “Aberrant Splicing Detection Using Convolutional Neural Networks (CNNs)”, de Kishore Jaganathan, Kai-How Farh, Sofia Kyriazopoulou Panagiotopoulou e Jeremy Francis McRae, depositados de forma contemporânea em 15 de outubro de 2018 (Nº de Registro do Procurador ILLM 1001-9/IP-1615-PCT), posteriormente publicada como Publicação PCT Nº WO .

[0006] Pedido de Patente Não Provisória US, intitulado "Deep Learning-Based Splice Site Classification", de Kishore Jaganathan, Kai-How Farh, Sofia Kyriazopoulou Panagiotopoulou e Jeremy Francis McRae, depositado (Nº de Registro do Procurador ILLM 1001-4/IP-1610-US) depositado de forma contemporânea.

[0007] Pedido de Patente Não Provisória US intitulado “Deep Learning-Based Aberrant Splicing Detection”, de Kishore Jaganathan, Kai- How Farh, Sofia Kyriazopoulou Panagiotopoulou e Jeremy Francis McRae, (Nº de Registro do Procurador ILLM 1001-5/IP-1614-US) arquivado de forma contemporânea.

[0008] Pedido de Patente Não Provisória US intitulado “Aberrant Splicing Detection Using Convolutional Neural Networks (CNNs)”, de Kishore

Jaganathan, Kai-How Farh, Sofia Kyriazopoulou Panagiotopoulou e Jeremy Francis McRae, (Nº de Registro do Procurador ILLM 1001-6/IP-1615-US) depositado de forma contemporânea.

[0009] “Documento 1 — S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “WAVENET: A GENERATIVE MODEL FOR RAW AUDIO/ arXiv: 1609.03499, 2016;

[0010] Documento 2-S.06Ô. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J. Raiman, S. Sengupta and M. Shoeybi, “DEEP VOICE: REAL-TIME NEURAL TEXT-TO-SPEECH," arXiv:1702.07825, 2017;

[0011] Documento3-F.YueV.Koltun, “MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS”, arXiv: 1511.07122, 2016;

[0012] Documento 4 - K. He, X. Zhang, S. Ren e J. Sun, “DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION”, arXiv: 1512.03385, 2015;

[0013] “Documento 5 -R.K. Srivastava, K. Greff e J. Schmidhuber, “HIGHWAY NETWORKS”, arXiv: 1505.00387, 2015;

[0014] Documento 6 -G.Huang, Z. Liu, L. van der Maaten e K.Q. Weinberger, “DENSELY CONNECTED CONVOLUTIONAL NETWORKS”, arXiv: 1608.06993, 2017;

[0015] “Documento 7 -C.Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke e A. Rabinovich, “GOING DEEPER WITH CONVOLUTIONS”, arXiv: 1409.4842, 2014;

[0016] Documento 8 - S. loffe e C. Szegedy, “BATCH NORMALIZATION: ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT”, arXiv: 1502.03167, 2015;

[0017] Documento 9 -J.M. Wolterink, T. Leiner, M.A. Viergever e |. légum, “DILATED CONVOLUTIONAL NEURAL NETWORKS FOR

CARDIOVASCULAR MR SEGMENTATION IN CONGENITAL HEART

DISEASE”, arXiv: 1704.03669, 2017;

[0018] “Documento 10 - L.C. Piqueras, “AUTOREGRESSIVE

MODEL BASED ON A DEEP CONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION,” Tampere University of Technology, 2016;

[0019] Documento 11-J. Wu, “Introduction to Convolutional Neural Networks”, Nanjing University, 2017;

[0020] Documento 12 -1.J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville e Y. Bengio, CONVOLUTIONAL NETWORKS”, Deep Learning, MIT Press, 2016; e

[0021] Documento 13 - J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang e G. Wang, “RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS”, arXiv: 1512.07108, 2017.

[0022] O Documento 1 descreve arquiteturas de redes neurais convolucionais profundas que usam grupos de blocos residuais com filtros de convolução com o mesmo tamanho de janela de convolução, camadas de normalização em lote, camadas de unidade linear retificada (abreviada ReLU), camadas de alteração de dimensionalidade, camadas de convolução atrous com taxas de convolução atrous em crescimento exponencial, conexões skip e uma camada de classificação softmax para aceitar uma sequência de entrada e produzir uma sequência de saída que pontue as entradas na sequência de entrada. A tecnologia divulgada utiliza componentes e parâmetros da rede neural descritos no Documento 1. Em uma implementação, a tecnologia divulgada modifica os parâmetros dos componentes da rede neural descritos no Documento 1. Por exemplo, ao contrário do Documento 1, a taxa de convolução atrous na tecnologia divulgada progride não exponencialmente de um grupo de blocos residuais mais baixos para um grupo de blocos residuais mais altos. Em outro exemplo, ao contrário do Documento 1, o tamanho da janela de convolução na tecnologia divulgada varia entre grupos de blocos residuais.

[0023] O Documento 2 descreve detalhes das arquiteturas de redes neurais convolucionais profundas descritas no Documento 1.

[0024] O documento 3 descreve as convoluções atrous usadas pela tecnologia divulgada. Conforme usado neste documento, convoluções atrous também são referidas como "convoluções dilatadas". As convoluções atrous/dilatadas permitem grandes campos receptivos com poucos parâmetros treináveis. Uma convolução atrous/dilatada é uma convolução em que o núcleo é aplicado sobre uma área maior que seu comprimento pulando os valores de entrada com uma determinada etapa, também chamada taxa de convolução atrous ou fator de dilatação. Convoluções atrous/dilatadas adicionam espaçamento entre os elementos de um filtro/núcleo de convolução, de modo que entradas de entrada vizinhas (por exemplo, nucleotídeos, aminoácidos) em intervalos maiores são consideradas quando uma operação de convolução é realizada. Isso permite a incorporação de dependências contextuais de longo alcance na entrada. As convoluções atrous conservam cálculos parciais de convolução para reutilização à medida que os nucleotídeos adjacentes são processados.

[0025] O documento 4 descreve blocos residuais e conexões residuais usadas pela tecnologia divulgada.

[0026] O documento 5 descreve as conexões skip usadas pela tecnologia divulgada. Conforme usado neste documento, as conexões skip também são chamadas de "redes de rodovias".

[0027] O documento 6 descreve arquiteturas de rede convolucionais densamente conectadas usadas pela tecnologia divulgada.

[0028] O documento 7 descreve as camadas de convolução que alteram a dimensionalidade e os pipelines de processamento baseados em módulos utilizados pela tecnologia divulgada. Um exemplo de convolução que altera a dimensionalidade é uma convolução 1 x 1.

[0029] O documento 8 descreve as camadas de normalização de lote usadas pela tecnologia divulgada.

[0030] O documento 9 também descreve convoluções atrous/dilatadas usadas pela tecnologia divulgada.

[0031] O Documento 10 descreve várias arquiteturas de redes neurais profundas que podem ser usadas pela tecnologia divulgada, incluindo redes neurais convolucionais, redes neurais convolucionais profundas e redes neurais convolucionais profundas com convulsões atrous/dilatadas.

[0032] O documento 11 descreve detalhes de uma rede neural convolucional que pode ser usada pela tecnologia divulgada, incluindo algoritmos para treinar uma rede neural convolucional com camadas de subamostragem (por exemplo, pooling) e camadas totalmente conectadas.

[0033] O documento 12 descreve detalhes de várias operações de convolução que podem ser usadas pela tecnologia divulgada.

[0034] O documento 13 descreve várias arquiteturas de redes neurais convolucionais que podem ser usadas pela tecnologia divulgada.

INCORPORAÇÃO POR REFERÊNCIA DE TABELAS SUBMETIDAS ELETRÔNICAMENTE COM O PEDIDO

[0035] Os seguintes arquivos de tabela no formato de texto ASCII são submetidos com este pedido e incorporados por referência. Os nomes, datas de criação e tamanhos dos arquivos são:

[0036] table S4 mutation rates.txt 31 de agosto de 2018 2,452 KB

[0037] table S5 gene enrichment.txt 31 de agosto de 2018 362

KB

[0038] table S6 validation.txt 31 de agosto de 2018 362 KB

CAMPO DA TECNOLOGIA DIVULGADA

[0039] A tecnologia divulgada refere-se a computadores do tipo inteligência artificial e sistemas de processamento de dados digitais e métodos e produtos de processamento de dados correspondentes para e produtos para emulação de inteligência (isto é, sistemas baseados em conhecimento, sistemas de raciocínio e sistemas de aquisição de conhecimento); e incluindo sistemas de raciocínio com incerteza (por exemplo, sistemas de lógica difusa), sistemas adaptativos, sistemas de aprendizagem de máquina e redes neurais artificiais. Em particular, a tecnologia divulgada refere-se ao uso de técnicas baseadas em aprendizagem profunda para o treinamento de redes neurais convolucionais profundas.

FUNDAMENTOS

[0040] O assunto discutido nesta seção não deve ser considerado como estado da técnica apenas como resultado de sua menção nesta seção. Da mesma forma, não se deve presumir que um problema mencionado nesta seção ou associado ao assunto fornecido como fundamento tenha sido reconhecido anteriormente no estado da técnica. O assunto desta seção representa apenas abordagens diferentes, que por si só também podem corresponder a implementações da tecnologia reivindicada.

Aprendizagem de Máquina

[0041] Na aprendizagem de máquina, as variáveis de entrada são usadas para prever uma variável de saída. As variáveis de entrada são frequentemente chamadas de recursos e são indicadas por X= (X1, DG, ..., Xx, onde cada X, iE1, .., k é um recurso. A variável de saída é frequentemente chamada de variável resposta ou dependente e é indicada pela variável Y;. O relacionamento entre Y e o X correspondente pode ser escrito de uma forma geral: v=fogre

[0042] Naequação acima, f é uma função dos recursos (X1, X2, ..., XX.) e E é o termo de erro aleatório. O termo do erro é independente de X e tem um valor médio de zero.

[0043] Na prática, os recursos X estão disponíveis sem Y ou sem saber a relação exata entre X e Y. Como o termo do erro tem um valor médio de zero, o objetivo é estimar f.

P=/=0)

[0044] Na equação acima, ; é a estimativa de E, que é frequentemente considerada uma caixa preta, o que significa que apenas a relação entre a entrada e a saída de ; é conhecida, mas a pergunta por que ela funciona permanece sem resposta.

[0045] A função ; é encontrada usando a aprendizagem. A aprendizagem supervisionada e aprendizagem não supervisionada são duas maneiras usadas na aprendizagem de máquina para esta tarefa. Na aprendizagem supervisionada, os dados rotulados são usados para treinamento. Ao mostrar as entradas e as saídas correspondentes (= marcadores), a função 7; é otimizada para que se aproxime da saída. Na aprendizagem não supervisionada, o objetivo é encontrar uma estrutura oculta a partir de dados não marcados. O algoritmo não tem nenhuma medida de precisão nos dados de entrada, o que o distingue da aprendizagem supervisionada.

Redes Neurais

[0046] O perceptron de camada única (SLP) é o modelo mais simples de uma rede neural. Compreende uma camada de entrada e uma função de ativação, como mostrado na FIGURA 1. As entradas são passadas pelo gráfico ponderado. A função fusa a soma das entradas como argumento e a compara com um limite O.

[0047] A FIGURA 2? representa uma implementação de uma rede neural totalmente conectada com várias camadas. Uma rede neural é um sistema de neurônios artificiais interconectados (por exemplo, a1, a2, a3) que trocam mensagens entre si. A rede neural ilustrada possui três entradas, dois neurônios na camada oculta e dois neurônios na camada de saída. A camada oculta possui uma função de ativação f(º) e a camada de saída possui uma função de ativação £$(º). As conexões possuem pesos numéricos (por exemplo, Ww11, W21, W12, W31, W22, W32, V11, V22) que são ajustados durante o processo de treinamento , para que uma rede treinada adequadamente responda corretamente ao ser alimentada uma imagem para reconhecer. À camada de entrada processa a entrada bruta, a camada oculta processa a saída da camada de entrada com base nos pesos das conexões entre a camada de entrada e a camada oculta. A camada de saída pega a saída da camada oculta e a processa com base nos pesos das conexões entre a camada oculta e a camada de saída. A rede inclui várias camadas de neurônios detectores de recursos. Cada camada possui muitos neurônios que respondem a diferentes combinações de entradas das camadas anteriores. Essas camadas são construídas para que a primeira camada detecte um conjunto de padrões primitivos nos dados da imagem de entrada, a segunda camada detecte padrões de padrões e a terceira camada detecte padrões desses padrões.

[0048] Um levantamento da aplicação da aprendizagem profunda em genômica pode ser encontrado nas seguintes publicações: *T. Ching et al., Opportunities And Obstacles For Deep Learning In Biology And Medicine, www.biorxiv.org: 142760, 2017; + Angermueller C, Páârnamaa T, Parts L, Stegle O. Deep Learning For Computational Biology. Mol Syst Biol. 2016;12:878; + Park Y, Kellis M. 2015 Deep Learning For Regulatory Genomics. Nat. Biotechnol. 33, 825—826. (doi:10.1038/nbt.3313); * Min, S., Lee, B. & Yoon, S. Deep Learning In Bioinformatics. Brief. Bioinform. bbw068 (2016); + Leung MK, Delong A, Alipanahi B et al. Machine Learning In Genomic Medicine: A Review of Computational Problems and Data Sets 2016; e + Libbrecht MW, Noble WS. Machine Learning Applications In Genetics and Genomics. Nature Reviews Genetics 2015;16(6):321-32.

BREVE DESCRIÇÃO DAS FIGURAS

[0049] Nas figuras, caracteres de referência semelhantes geralmente se referem a partes semelhantes ao longo das diferentes vistas. Além disso, as figuras não estão necessariamente em escala, com ênfase sendo geralmente colocada na ilustração dos princípios da tecnologia divulgada. Na descrição a seguir, várias implementações da tecnologia divulgada são descritas com referência às seguintes figuras, nas quais:

[0050] A FIGURA 1 representa um perceptron de camada única (SLP).

[0051] A FIGURA 2? representa uma implementação de uma rede neural de feed-forward com várias camadas.

[0052] A FIGURA 3 representa uma implementação de funcionamento de uma rede neural convolucional.

[0053] A FIGURA 4 representa um diagrama de blocos de treinamento de uma rede neural convolucional de acordo com uma implementação da tecnologia divulgada.

[0054] A FIGURA 5 representa uma implementação de uma camada não linear ReLU de acordo com uma implementação da tecnologia divulgada.

[0055] A FIGURA 6 ilustra convoluções dilatadas.

[0056] A FIGURA 7 é uma implementação de camadas de subamostragem (pool médio/máximo) de acordo com uma implementação da tecnologia divulgada.

[0057] AFIGURA 3 retrata uma implementação de uma convolução de duas camadas das camadas de convolução.

[0058] A FIGURA 9 retrata uma conexão residual que reinjeta informações anteriores a jusante através da adição do mapa de recursos.

[0059] A FIGURA 10 representa uma implementação de blocos residuais e conexões skip.

[0060] A FIGURA 11 representa uma implementação de convoluções dilatadas empilhadas.

[0061] A FIGURA 12 representa o forward pass de normalização do lote.

[0062] A FIGURA 13 ilustra a transformação de normalização de lote no tempo de teste.

[0063] A FIGURA 14 representa o backward pass da normalização do lote.

[0064] AFIGURA 15 retrata o uso de uma camada de normalização em lote com uma camada convolucional ou densamente conectada.

[0065] A FIGURA 16 representa uma implementação da convolução1D.

[0066] A FIGURA 17 ilustra como o pool médio global (GAP) funciona.

[0067] A FIGURA 18 ilustra uma implementação de um ambiente de computação com servidores de treinamento e servidores de produção que podem ser usados para implementar a tecnologia divulgada.

[0068] —AFIGURA 19 representa uma implementação da arquitetura de uma rede neural convolucional atrous (abreviada ACNN), referida neste documento como "SpliceNet".

[0069] A FIGURA 20 representa uma implementação de um bloco residual que pode ser usado pela ACNN e uma rede neural convolucional (abreviada CNN).

[0070] A FIGURA 21 representa outra implementação da arquitetura da ACNN, referida neste documento como "SpliceNet80".

[0071] A FIGURA 22 representa ainda outra implementação da arquitetura da ACNN, referida neste documento como "SpliceNet400".

[0072] A FIGURA 23 representa ainda outra implementação da arquitetura da ACNN, referida neste documento como "SpliceNet2000".

[0073] A FIGURA 24 representa outra implementação da arquitetura da ACNN, referida neste documento como "SpliceNet10000".

[0074] As FIGURAS 25, 26e 27 representam vários tipos de entradas processadas pela ACNN e pela CNN.

[0075] A FIGURA 28 mostra que a ACNN pode ser treinada em pelo menos 800 milhões de sítios sem splicing e a CNN pode ser treinada em pelo menos 1 milhão de sítios sem splicing.

[0076] A FIGURA 29 ilustra um codificador one-hot.

[0077] AFIGURA 30 retrata o treinamento da ACNN.

[0078] A FIGURA 31 representa uma CNN.

[0079] A FIGURA 32 representa o treinamento, validação e teste da ACNN e da CNN.

[0080] A FIGURA 33 retrata uma sequência de referência e uma sequência alternativa.

[0081] A FIGURA 34 ilustra a detecção de splicing aberrante.

[0082] A FIGURA 35 ilustra a pirâmide de processamento do SpliceNet10000 para classificação do sítio de splice.

[0083] A FIGURA 36 retrata a pirâmide de processamento do SpliceNet10000 para detecção de splicing aberrante.

[0084] As FIGURAS 37A, 37B, 37C, 37D, 37E, 37F, 37Ge 37H ilustram uma implementação de previsão de splicing da sequência primária com aprendizagem profunda.

[0085] AsFIGURAS 38A, 38B, 38C, 38D, 38E, 38Fe 38G retratam uma implementação da validação de mutações de splice críptica raras nos dados do RNA-seg.

[0086] As FIGURAS 39A, 39Be 39C representam uma implementação de variantes de splice críptica que frequentemente cria splicing alternativo específico de tecido.

[0087] As FIGURAS 40A, 40B, 40C, 40De 40E retratam uma implementação de variantes de splice críptica previstas que são fortemente deletérias em populações humanas.

[0088] As FIGURAS 41A,41B,41C,41D,41E e 41F representam uma implementação de mutações de splice críptica de novo em pacientes com doença genética rara.

[0089] As FIGURAS 42A e 42B retratam uma avaliação de vários algoritmos de predição de splicing em lincRNAs.

[0090] As FIGURAS 43A e 43B ilustram efeitos dependentes da posição do ponto de ramificação TACTAAC e motivos potenciadores de splice exônico GAAGAA.

[0091] As FIGURAS 44A e 44B representam efeitos do posicionamento do nucleossomo no splicing.

[0092] A FIGURA 45 ilustra um exemplo de cálculo do tamanho do efeito para uma variante de interrupção de splice com efeitos complexos.

[0093] AsFIGURAS 46A, 46B e 46C mostram avaliação do modelo SpliceNet-10k em singleton e variantes comuns.

[0094] As FIGURAS 47A e 47B retratam a taxa de validação e os tamanhos de efeito das variantes de criação de sítio de splice, divididas pela localização da variante.

[0095] As FIGURAS 48A, 48B, 49Ce 49D retratam a avaliação do modelo SpliceNet-10k em cromossomos de treinamento e teste.

[0096] As FIGURAS 49A, 49Be 49C ilustram mutações de splice críptica de novo em pacientes com doença genética rara, apenas de sítios de regiões sinônimas, intrônicas ou não traduzidas.

[0097] AsFIGURAS 50A e 50B representam mutações crípticas de splice de novo em ASD e como uma proporção de DNMs patogênicos.

[0098] As FIGURAS 51A,51B,51C,51D,51E, 51F, 51G, 51H, 511 e 51J retratam a validação do RNA-seq de mutações crípticas de splice de novo previstas em pacientes com ASD.

[0099] As FIGURAS 52A e 52B ilustram a taxa de validação e a sensibilidade no RNA-seq de um modelo treinado apenas em transcritos canônicos.

[00100] As FIGURAS 53A, 53B e 53C ilustram que a modelagem de conjunto melhora o desempenho do SpliceNet-10k.

[00101] As FIGURAS 54A e 54B representam a avaliação do SpliceNet-10k em regiões com densidade variável de éxon.

[00102] A FIGURA 55 é a Tabela S1, que retrata uma implementação de amostras de GTEx usadas para demonstrar cálculos de tamanho de efeito e splicing específico de tecido.

[00103] A FIGURA 56 é a Tabela S2, que retrata uma implementação de pontos de corte usados para avaliar a taxa de validação e a sensibilidade de diferentes algoritmos.

[00104] A FIGURA 57 representa uma implementação da análise de enriquecimento por gene.

[00105] A FIGURA 58 representa uma implementação da análise de enriquecimento em todo o genoma.

[00106] AFIGURA 59 é um diagrama de blocos simplificado de um sistema de computador que pode ser usado para implementar a tecnologia divulgada.

DESCRIÇÃO DETALHADA

[00107] A discussão a seguir é apresentada para permitir que qualquer pessoa versada na técnica faça e utilize a tecnologia divulgada, e é fornecida no contexto de um pedido particular e seus requisitos. Várias modificações às implementações divulgadas serão prontamente evidentes para os versados na técnica, e os princípios gerais definidos neste documento podem ser aplicados a outras implementações e pedidos sem se afastar do espírito e âmbito da tecnologia divulgada. Assim, a tecnologia divulgada não se destina a ser limitada às implementações apresentadas, mas deve receber o escopo mais amplo consistente com os princípios e características divulgados neste documento.

Introdução Redes Neurais Convolucionais

[00108] Uma rede neural convolucional é um tipo especial de rede neural. A diferença fundamental entre uma camada densamente conectada e uma camada de convolução é a seguinte: as camadas densas aprendem padrões globais em seu espaço de recurso de entrada, enquanto as camadas de convolução aprendem padrões locais: no caso de imagens, os padrões encontrados em pequenas janelas 2D das entradas. Essa característica-chave fornece às redes neurais convolucionais duas propriedades interessantes: (1) os padrões que aprendem são invariantes à tradução e (2) podem aprender hierarquias espaciais de padrões.

[00109] Emrelação à primeira, depois de aprender um determinado padrão no canto inferior direito da imagem, uma camada de convolução pode reconhecê-lo em qualquer lugar: por exemplo, no canto superior esquerdo. Uma rede densamente conectada teria que aprender o padrão novamente se aparecesse em um novo local. Isso torna os dados das redes neurais convolucionais eficientes porque eles precisam de menos amostras de treinamento para aprender representações já que têm poder de generalização.

[00110] Em relação à segunda, uma primeira camada de convolução pode aprender pequenos padrões locais, como arestas, uma segunda camada de convolução aprenderá padrões maiores feitos com os recursos das primeiras camadas, e assim por diante. Isso permite que as redes neurais convolucionais aprendam com eficiência conceitos visuais cada vez mais complexos e abstratos.

[00111] Uma rede neural convolucional aprende mapeamentos altamente não lineares interconectando camadas de neurônios artificiais dispostas em muitas camadas diferentes com funções de ativação que tornam as camadas dependentes. Isso inclui uma ou mais camadas convolucionais, intercaladas com uma ou mais camadas de subamostragem e camadas não lineares, que normalmente são seguidas por uma ou mais camadas totalmente conectadas. Cada elemento da rede neural convolucional recebe entradas de um conjunto de recursos na camada anterior. A rede neural convolucional aprende simultaneamente, porque os neurônios no mesmo mapa de recurso têm pesos idênticos. Esses pesos compartilhados locais reduzem a complexidade da rede, de modo que, quando dados de entrada multidimensionais entram na rede, a rede neural convolucional evita a complexidade da reconstrução de dados no processo classificação ou extração e regressão de recursos.

[00112] As convoluções operam sobre tensores 3D, chamados mapas de recursos, com dois eixos espaciais (altura e largura), além de um eixo de profundidade (também chamado de eixo de canais). Para uma imagem RGB, a dimensão do eixo de profundidade é 3, porque a imagem possui três canais de cores; vermelho, verde e azul. Para uma imagem em preto e branco, a profundidade é 1 (níveis de cinza). A operação de convolução extrai patches de seu mapa de recursos de entrada e aplica a mesma transformação a todos esses patches, produzindo um mapa de recursos de saída. Esse mapa de recursos de saída ainda é um tensor 3D: possui largura e altura. Sua profundidade pode ser arbitrária, porque a profundidade de saída é um parâmetro da camada e os diferentes canais nesse eixo de profundidade não representam mais cores específicas como na entrada RGB; em vez disso, eles representam filtros. Os filtros codificam aspectos específicos dos dados de entrada: em um nível de altura, um único filtro pode codificar o conceito "presença de uma face na entrada", por exemplo.

[00113] Por exemplo, a primeira camada de convolução pega um mapa de recursos de tamanho (28, 28, 1) e gera um mapa de recursos de tamanho (26, 26, 32): ela calcula 32 filtros sobre sua entrada. Cada um desses 32 canais de saída contém uma grade de valores de 26 x 26, que é um mapa de resposta do filtro sobre a entrada, indicando a resposta desse padrão de filtro em diferentes locais da entrada. É isso que o termo mapa de recurso significa: toda dimensão no eixo de profundidade é um recurso (ou filtro) e a saída do tensor 2D [:,:, n) é o mapa espacial 2D da resposta desse filtro sobre a entrada.

[00114] As convoluções são definidas por dois parâmetros principais: (1) tamanho dos patches extraídos das entradas - normalmente são 1x1,3x3ou5x5e (2) profundidade do mapa de recursos de saída - o número de filtros calculados pela convolução. Geralmente, eles começam com uma profundidade de 32, continuam com uma profundidade de 64 e terminam com uma profundidade de 128 ou 256.

[00115] Uma convolução funciona deslizando essas janelas de tamanho 3 x 3 ou 5 x 5 sobre o mapa de recursos de entrada 3D, parando em todos os locais e extraindo o patch 3D dos recursos adjacentes (shape(window height, window width, input depth)). Cada patch 3D é então transformado (por meio de um produto tensorial com a mesma matriz de pesos aprendida, chamada de núcleo de convolução) em um vetor 1D de forma (output depth,). Todos esses vetores são remontados espacialmente em um mapa de saída 3D da forma (height, width, output depth). Cada localização espacial no mapa de recursos de saída corresponde ao mesmo local no mapa de recursos de entrada (por exemplo, o canto inferior direito da saída contém informações sobre o canto inferior direito da entrada). Por exemplo, com janelas 3 x 3, a saída do vetor [i, | :| vem da entrada do patch 3D [1-1: i+1, j-1:J+1,:]. O processo completo é detalhado na FIGURA 3.

[00116] A rede neural convolucional compreende camadas de convolução que realizam a operação de convolução entre os valores de entrada e os filtros de convolução (matriz de pesos) que são aprendidos ao longo de muitas iterações de atualização de gradiente durante o treinamento. Seja (m, n) o tamanho do filtro e Wseja a matriz de pesos, então uma camada de convolução realiza uma convolução do W com a entrada X calculando o produto escalar W + x + b, onde x é uma instância de Xe b é o viés. O tamanho da etapa pela qual os filtros de convolução deslizam pela entrada é chamado de passada e a área do filtro (m x n) é chamado de campo receptivo. Um mesmo filtro de convolução é aplicado em diferentes posições da entrada, o que reduz o número de pesos aprendidos. Ele também permite a aprendizagem invariável da localização, ou seja, se existe um padrão importante na entrada, os filtros de convolução o aprendem, não importa onde esteja na sequência.

Treinando uma Rede Neural Convolucional

[00117] AFIGURA 4 retrata um diagrama de blocos de treinamento de uma rede neural convolucional de acordo com uma implementação da tecnologia divulgada. A rede neural convolucional é ajustada ou treinada para que os dados de entrada levem a uma estimativa de saída específica. A rede neural convolucional é ajustada usando a propagação reversa com base em uma comparação da estimativa de saída e da ground truth até que a estimativa de saída corresponda progressivamente ou se aproxime da ground truth.

[00118] A rede neural convolucional é treinada ajustando os pesos entre os neurônios com base na diferença entre a ground truth e a saída real. Isso é matematicamente descrito como: Aw =x6Ô Onde õ= (ground truth) — (saída real)

[00119] Emuma implementação, a regra de treinamento é definida como: Wim — Wim + a(lm = m)An

[00120] Naequação acima: a seta indica uma atualização do valor; tm é o valor alvo do neurônio 711 ; à&m é a saída de corrente calculada do neurônio M ; A é entrada 1; é - é a taxa de aprendizagem.

[00121] A etapa intermediária no treinamento inclui gerar um vetor de recurso a partir dos dados de entrada usando as camadas de convolução. O gradiente em relação aos pesos em cada camada, começando na saída, é calculado. Isso é chamado de backward pass, ou ir para trás. Os pesos na rede são atualizados usando uma combinação do gradiente negativo e dos pesos anteriores.

[00122] Em uma implementação, a rede neural convolucional usa um algoritmo estocástico de atualização de gradiente (como o ADAM) que executa propagação inversa de erros por meio da descida do gradiente. Um exemplo de algoritmo de propagação reversa baseado em função sigmoide é descrito abaixo:

= f(h) 2 1 P=. 1+e"

[00123] Na função sigmoide acima, h é a soma ponderada calculada por um neurônio. A função sigmoide tem a seguinte derivada: 99 na Ph =p(1-9)

[00124] O algoritmo inclui o cálculo da ativação de todos os neurônios na rede, produzindo uma saída para a passagem direta. A ativação do neurônio 711 nas camadas ocultas é descrita como:

A Mm Trem

N hm 2 4m

[00125] Isso é feito para todas as camadas ocultas para obter a ativação descrita como: 9 el. k pet

M he 2 Pm mk

[00126] Em seguida, o erro e os pesos corretos são calculados por camada. O erro na saída é calculado como: ox PU PIA P)

[00127] Oerronas camadas ocultas é calculado como:

K nm Pm AP) mkóok

[00128] Os pesos da camada de saída são atualizados como: Vmk <—Vmk + AÓdokPm

[00129] Os pesos das camadas ocultas são atualizados usando a taxa de aprendizagem & como: Vim << Wnn +AÔhmAn

[00130] Em uma implementação, a rede neural convolucional usa uma otimização de descida de gradiente para calcular o erro em todas as camadas. Em tal otimização, para um vetor de recurso de entrada x e a saída prevista Y, a função de perda é definida como / para o custo de prever 4 quando o alvo é y, ou seja, I (7, y). A saída prevista y é transformada a partir do vetor de recurso de entrada x usando a função f. A função f é parametrizada pelos pesos da rede neural convolucional, ou seja, y=f., (x). À função de perda é descrita como 1 (9, y) = I (f.v (x), y), ou Q (z, w)] =! (f., (x), y) em que z é um par de dados de entrada e saída (x, y). A otimização da descida do gradiente é realizada atualizando os pesos de acordo com: 12 V=V-A- 2VmO(2,m) Win1i=Wi+Venl

[00131] Nas equações acima, X é a taxa de aprendizagem. Além disso, a perda é calculada como a média em um conjunto de 71 pares de dados. O cálculo é finalizado quando a taxa de aprendizagem X é pequena o suficiente após convergência linear. Em outras implementações, o gradiente é calculado usando apenas pares de dados selecionados alimentados a um gradiente acelerado de Nesterov e um gradiente adaptável para injetar eficiência computacional.

[00132] Em uma implementação, a rede neural convolucional usa uma descida de gradiente estocástico (SGD) para calcular a função de custo. Um SGD aproxima o gradiente com relação aos pesos na função de perda, calculando-o a partir de apenas um, par de dados, randomizados, Z, descritos como: Vi+1= UV OAVwO(z1, w") Win1=Wi+Venl

[00133] Nas equações acima: «XY é a taxa de aprendizagem; Me o momento; e Í é o estado atual do peso antes da atualização. A velocidade de convergência do SGD é aproximadamente o(1/n quando a taxa de aprendizagem X é reduzida rapidamente e devagar o suficiente. Em outras implementações, a rede neural convolucional utiliza diferentes funções de perda, como perda euclidiana e perda de softmax. Em uma implementação adicional, um otimizador estocástico de Adam é usado pela rede neural convolucional.

Camadas de Convolução

[00134] As camadas de convolução da rede neural convolucional servem como extratores de recursos. As camadas de convolução atuam como extratores de recursos adaptáveis capazes de aprender e decompor os dados de entrada em recursos hierárquicos. Em uma implementação, as camadas de convolução recebem duas imagens como entrada e produzem uma terceira imagem como saída. Em tal implementação, a convolução opera em duas imagens em duas dimensões (2D), sendo uma imagem a imagem de entrada e a outra imagem, denominada “núcleo”, aplicada como um filtro na imagem de entrada, produzindo uma imagem de saída. Assim, para um vetor de entrada f de comprimento n e um núcleo g de comprimento m, a convolução f * g de fe g é definido como: m St aIN=280) SG j+m/2) =

[00135] A operação de convolução inclui deslizar o núcleo sobre a imagem de entrada. Para cada posição do núcleo, os valores sobrepostos do núcleo e a imagem de entrada são multiplicados e os resultados são adicionados. A soma dos produtos é o valor da imagem de saída no ponto da imagem de entrada em que o núcleo está centralizado. As diferentes saídas resultantes de muitos núcleos são chamadas de mapas de recursos.

[00136] Depoisque as camadas convolucionais são treinadas, elas são aplicadas para executar tarefas de reconhecimento em novos dados de inferência. Como as camadas convolucionais aprendem com os dados de treinamento, elas evitam a extração explícita de recursos e aprendem implicitamente com os dados de treinamento. As camadas de convolução usam pesos do núcleo de filtro de convolução, que são determinados e atualizados como parte do processo de treinamento. As camadas de convolução extraem diferentes recursos da entrada, que são combinados nas camadas superiores. A rede neural convolucional usa um número variado de camadas de convolução, cada uma com diferentes parâmetros de convolução, como tamanho do núcleo, distâncias, preenchimento, número de mapas de recursos e pesos. Camadas Não Lineares

[00137] A FIGURA 5 representa uma implementação de camadas não lineares de acordo com uma implementação da tecnologia divulgada. As camadas não lineares usam funções de disparo não lineares diferentes para sinalizar identificação distinta de recursos prováveis em cada camada oculta. As camadas não lineares usam uma variedade de funções específicas para implementar o acionamento não linear, incluindo as unidades lineares retificadas (ReLUs), tangente hiperbólica, absoluto de tangente hiperbólica, funções sigmóide e de acionamento contínuo (não linear) Em uma implementação, uma ativação ReLU implementa a função y = max (x, O) e mantém os tamanhos de entrada e saída de uma camada iguais. A vantagem de usar o ReLU é que a rede neural convolucional é treinada muitas vezes mais rapidamente. A RelU é uma função de ativação não contínuae não saturante que é linear em relação à entrada se os valores de entrada forem maiores que zero e diferentes de zero. Matematicamente, uma função de ativação ReLU é descrita como: p(h)=max(h,0) h if h>0 oh) = í O if h<o

[00138] Em outras implementações, a rede neural convolucional usa uma função de ativação da unidade de energia, que é uma função contínua e não saturante descrita por: Q(h)=(a+bh)º

[00139] Na equação acima, 4, b e - são parâmetros que controlam o deslocamento, a escala e a potência, respectivamente. A função de ativação de potência é capaz de produzir ativação antissimétrica- x ou y , Se - for ímpar, e a ativação simétrica-y, se - for par. Em algumas implementações, a unidade produz uma ativação linear não retificada.

[00140] Em outras implementações, a rede neural convolucional usa uma função de ativação da unidade sigmóide, que é uma função contínua e saturante descrita pela seguinte função logística: EM) =

[00141] Naequação acima, P=1.A função de ativação da unidade sigmóide não produz ativação negativa e é apenas antissimétrica em relação ao eixo y.

Convoluções Dilatadas

[00142] A FIGURA 6 ilustra convoluções dilatadas. Convoluções dilatadas, às vezes chamadas convoluções atrous, que literalmente significam orifícios. O nome francês tem suas origens no algoritmo a trous, que calcula a rápida transformação de onda diádica. Nesse tipo de camadas convolucionais, as entradas correspondentes ao campo receptivo dos filtros não são pontos vizinhos. Isso é ilustrado na FIGURA 6. A distância entre as entradas depende do fator de dilatação.

Camadas de Subamostragem

[00143] A FIGURA 7 é uma implementação de camadas de subamostragem de acordo com uma implementação da tecnologia divulgada. As camadas de subamostragem reduzem a resolução dos recursos extraídos pelas camadas de convolução para tornar os recursos extraídos ou os mapas de recursos robustos contra ruído e distorção. Em uma implementação, as camadas de subamostragem empregam dois tipos de operações de pool, pool médio e pool máximo. As operações de pool dividem a entrada em espaços bidimensionais não sobrepostos. Para o pool médio, a média dos quatro valores na região é calculada. Para o pool máximo, o valor máximo dos quatro valores é selecionado.

[00144] Em uma implementação, as camadas de subamostragem incluem operações de pool em um conjunto de neurônios na camada anterior, mapeando sua saída para apenas uma das entradas no pool máximo e mapeando sua saída para a média da entrada no pool médio. No pool máximo, a saída do neurônio de pool é o valor máximo que reside dentro da entrada, conforme descrito por: P.=Max(Q. g.....Qv)

[00145] Na equação acima, N é o número total de elementos dentro de um conjunto de neurônios.

[00146] No pool médio, a saída do neurônio pool é o valor médio dos valores de entrada que residem no conjunto de neurônios de entrada, conforme descrito por: 1 N PrvÃO

[00147] Na equação acima, NV é o número total de elementos dentro do conjunto de neurônios de entrada.

[00148] Na FIGURA 7, a entrada é do tamanho 4 x 4. Para subamostragem 2 x 2, uma imagem 4 x 4 é dividida em quatro matrizes não sobrepostas de tamanho 2 x 2. Para o pool médio, a média dos quatro valores é a saída inteira integral. Para o pool máximo, o valor máximo dos quatro valores na matriz 2 x 2 é a saída inteira integral.

Exemplos de Convolução

[00149] A FIGURA 8 retrata uma implementação de uma convolução de duas camadas das camadas de convolução. Na FIGURA 8, uma entrada de dimensões de tamanho 2048 é convoluída. Na convolução 1, a entrada é convoluída por uma camada convolucional composta por dois canais de dezesseis núcleos de tamanho 3 x 3. Os dezesseis mapas de recursos resultantes são então retificados por meio da função de ativação RelU em ReLU1 e, em seguida, agrupados no Pool 1 por meio de pool médio, usando uma camada de pool de dezesseis canais com núcleos de tamanho 3 x 3. Na convolução 2, a saída do Pool 1 é então convoluida por outra camada convolucional compreendendo dezesseis canais de trinta núcleos com um tamanho de 3 x 3. Isso é seguido por mais um ReLU?2 e pool médio no Pool 2 com um tamanho de núcleo de 2 x 2. As camadas de convolução usam um número variável de distâncias e preenchimentos, por exemplo, zero, um, dois e três. O vetor de recurso resultante é de quinhentas e doze (512) dimensões, de acordo com uma implementação.

[00150] Em outras implementações, a rede neural convolucional usa diferentes números de camadas de convolução, camadas de subamostragem, camadas não lineares e camadas totalmente conectadas. Em uma implementação, a rede neural convolucional é uma rede rasa com menos camadas e mais neurônios por camada, por exemplo, uma, duas ou três camadas totalmente conectadas com cem (100) a duzentos (200) neurônios por camada. Em outra implementação, a rede neural convolucional é uma rede profunda com mais camadas e menos neurônios por camada, por exemplo, cinco (5), seis (6) ou oito (8) camadas totalmente conectadas com trinta (30) a cinquenta (50) neurônios por camada.

Forward Pass

[00151] A saída de um neurônio da linha x, coluna y na tésima camada de convolução ek-ésimo mapa de recurso para o número f de núcleos de convolução em um mapa de recursos é determinada pela seguinte equação: A kh kh OLD =tanh(3º 3º 3º Wkk9ot + Bias) 120 r=0 c=0

[00152] A saída de um neurônio da linha x, coluna y na tésima camada de subamostra e o k-ésimo mapa de recursos é determinada pela seguinte equação:

SS OL =tanh (WS 3" OS, pas,10 + Bias") ro =

[00153] A saída de um iésimo neurônio da lésima camada de saída é determinada pela seguinte equação:

H Oy, =tanh > Ora 9a, in + Bias") Retropropagação

[00154] O desvio de saída de um k-ésimo neurônio na camada de saída é determinado pela seguinte equação: d(08)=y,-t,

[00155] O desvio de entrada de um k-ésimo neurônio na camada de saída é determinado pela seguinte equação: dU7)=O0,-t)P'V,) = )d(0)

[00156] A variação de peso e viés de um k-ésimo neurônio na camada de saída é determinada pela seguinte equação: AW/)=dU),, ABias?) =d(1º)

[00157] Oviésde saída de um k-ésimo neurônio na camada oculta é determinado pela seguinte equação: n i<84 o d(0f)=2,408W,,

[00158] O viés de entrada de um késimo neurônio na camada oculta é determinado pela seguinte equação: aU) = DA(ol)

[00159] A variação de peso e viés na linha x, coluna y em um m- ésimo mapa de recursos de uma camada anterior que recebe entrada de neurônios k na camada oculta é determinada pela seguinte equação: AWJ)= aa” WT, ABias[) = ada”)

[00160] O viés de saída da linha x, coluna y em um m-ésimo mapa de recursos da camada de subamostra S é determinado pela seguinte equação: a(Osm SP a(H, II" 7» - x VT my

[00161] O viés de entrada da linha x, coluna y em um m-ésimo mapa de recursos da camada de subamostra S é determinado pela seguinte equação: di) = pv )A(07)

[00162] A variação de peso e viés na linha x, coluna y em um m- ésimo mapa de recursos da camada de subamostra S e da camada de convolução C é determinada pela seguinte equação: AWS" => S d(ISm gem =s Ss [x/2)[7/2]] xy ABias") =S" S d(O5T) 0 po ”

[00163] O viés de saída da linha x, coluna y em um k-ésimo mapa de recursos da camada de convolução C é determinado pela seguinte equação: (OE) =dUSh(9)W"

[00164] Oviésde entrada da linha x, coluna y em um k-ésimo mapa de recursos da camada de convolução C é determinado pela seguinte equação: da) = pv a(o)

[00165] A variação de peso e viés na linha r, coluna c em um m- ésimo núcleo de convolução de um k-ésimo mapa de recursos da /l-ésima camada de convolução C: aWEN a OS S a(1Shotm "e & XY) 2 x4r,y4o Ok & E Ck ABias” > & a(IS5)

Conexões Residuais

[00166] A FIGURA 9 retrata uma conexão residual que reinjeta informações anteriores a jusante através da adição do mapa de recursos. Uma conexão residual compreende a reinjeção de representações anteriores no fluxo a jusante de dados, adicionando um tensor de saída passado a um tensor de saída posterior, o que ajuda a evitar a perda de informações ao longo do fluxo de processamento de dados. As conexões residuais enfrentam dois problemas comuns que afetam qualquer modelo de aprendizagem profunda em larga escala: dissipação de gradientes e gargalos representacionais. Em geral, adicionar conexões residuais a qualquer modelo que tenha mais de 10 camadas provavelmente será benéfico. Conforme discutido acima, uma conexão residual compreende disponibilizar a saída de uma camada anterior como entrada para uma camada posterior, criando efetivamente um atalho em uma rede sequencial. Em vez de ser concatenada para a ativação posterior, a saída anterior é somada à ativação posterior, que assume que ambas as ativações são do mesmo tamanho. Se eles tiverem tamanhos diferentes, uma transformação linear para remodelar a ativação anterior na forma alvo pode ser usada.

Aprendizagem Residual e Conexões Skip

[00167] A FIGURA 10 retrata uma implementação de blocos residuais e conexões skip. A ideia principal da aprendizagem residual é que o mapeamento residual é muito mais fácil de ser aprendido do que o mapeamento original. A rede residual empilha várias unidades residuais para aliviar a degradação da precisão do treinamento. Blocos residuais fazem uso de conexões skip especiais aditivas para combater a dissipação de gradientes em redes neurais profundas. No início de um bloco residual, o fluxo de dados é separado em duas correntes: a primeira carrega a entrada inalterada do bloco, enquanto a segunda aplica pesos e não linearidades. No final do bloco, as duas correntes são mescladas usando uma soma elemento a elemento. A principal vantagem de tais construtos é permitir que o gradiente flua através da rede mais facilmente.

[00168] Beneficiadas pela rede residual, as redes neurais convolucionais profundas (CNNs) podem ser facilmente treinadas e uma precisão aprimorada foi alcançada para classificação de imagens e detecção de objetos. As redes convolucionais de feed-forward conectam a saída da camada lésima como entrada à camada (/ + 1)-ésima, o que dá origem à seguinte transição de camada: x -r,(& ,)- Blocos residuais adicionam uma conexão skip que ignora as transformações não lineares com uma função de identificação: x =m,(x )+x ,- Uma vantagem dos blocos residuais é que o gradiente pode fluir diretamente através da função de identidade das camadas posteriores para as camadas anteriores. No entanto, a função de identidade e a saída de H, são combinadas pelo somatório, o que pode impedir o fluxo de informações na rede.

WaveNet

[00169] O WaveNet é uma rede neural profunda para gerar formas de onda de áudio brutas. O WaveNet se distingue de outras redes convolucionais, pois é capaz de capturar 'campos visuais' relativamente grandes a baixo custo. Além disso, é capaz de adicionar condicionamento dos sinais local e globalmente, o que permite que o WaveNet seja usado como um mecanismo de conversão de texto em fala (TTS) com várias vozes, se o TTS fornece condicionamento local, e a voz específica, o condicionamento global.

[00170] Os principais blocos de construção do WaveNet são as convoluções causais dilatadas. Como uma extensão das convoluções causais dilatadas, a WaveNet também permite o empilhamento dessas convoluções, conforme mostrado na FIGURA 11. Para obter o mesmo campo receptivo com convoluções dilatadas nesta figura, é necessária outra camada de dilatação. As pilhas são uma repetição das convoluções dilatadas, conectando as saídas da camada de convolução dilatada a uma única saída. Isso permite que o WaveNet obtenha um grande campo 'visual'

de um nó de saída a um custo computacional relativamente baixo. Para comparação, para obter um campo visual de 512 entradas, uma rede totalmente convolucional (FCN) exigiria 511 camadas. No caso de uma rede convolucional dilatada, precisaríamos de oito camadas. As convoluções dilatadas empilhadas precisam apenas de sete camadas com duas pilhas ou seis camadas com quatro pilhas. Para ter uma ideia das diferenças de potência computacional necessárias para cobrir o mesmo campo visual, a tabela a seguir mostra o número de pesos necessários na rede com a suposição de um filtro por camada e uma largura de filtro de dois. Além disso, supõe-se que a rede esteja usando codificação binária dos 8 bits. Tipo da Nº de Nº de pesos por Nº total de Rede pilhas canal pesos FCN 1 2,6 .10º 2,6 . 106º WN 1 1022 8176 WN 2 1022 8176 WN 4 508 4064

[00171] O WavehNet adiciona uma conexão skip antes que a conexão residual seja feita, que ignora todos os seguintes blocos residuais. Cada uma dessas conexões skip é somada antes de passar por uma série de funções de ativação e convoluções. Intuitivamente, essa é a soma das informações extraídas em cada camada.

[00172] Normalização de lote

[00173] A normalização de lote é um método para acelerar o treinamento profundo da rede, tornando a padronização de dados parte integrante da arquitetura da rede. A normalização de lotes pode normalizar adaptativamente os dados, mesmo que a média e a variação variem ao longo do tempo durante o treinamento. Ele funciona mantendo internamente uma média móvel exponencial da média em lotes e variância dos dados vistos durante o treinamento. O principal efeito da normalização de lote é que ela ajuda na propagação do gradiente - bem como as conexões residuais - e, portanto, permite redes profundas. Algumas redes muito profundas só podem ser treinadas se incluírem várias camadas de Normalização de Lote.

[00174] A normalização de lotes pode ser vista como mais uma camada que pode ser inserida na arquitetura do modelo, assim como a camada totalmente conectada ou convolucional. A camada BatchNormalization é normalmente usada após uma camada convolucional ou densamente conectada. Também pode ser usada antes de uma camada convolucional ou densamente conectada. Ambas as implementações podem ser usadas pela tecnologia divulgada e são mostradas na FIGURA 15. À camada BatchNormalization usa um argumento de eixo, que específica o eixo do recurso que deve ser normalizado. Tal argumento é definido por padrão a -1, o último eixo no tensor de entrada. Esse é o valor correto ao usar as camadas Densas, camadas Conv1D, camadas RNN e camadas Conv2D com o data format definido como "channels last". Porém, no caso de uso de nicho das camadas Conv2D com data format definido como "channels first", o eixo de recursos é o eixo 1; o argumento do eixo em BatchNormalization pode ser definido como 1.

[00175] A normalização de lote fornece uma definição para alimentar à frente a entrada e calcular os gradientes em relação aos parâmetros e sua própria entrada por meio de um backward pass. Na prática, as camadas de normalização em lote são inseridas após uma camada convolucional ou totalmente conectada, mas antes que as saídas sejam alimentadas em uma função de ativação. Para camadas convolucionais, os diferentes elementos do mesmo mapa de recursos- ou seja, as ativações - em locais diferentes são normalizados da mesma maneira, a fim de obedecer à propriedade convolucional. Portanto, todas as ativações em um minilote são normalizadas em todos os locais, e não por ativação.

[00176] O deslocamento covariável interno é a principal razão pela qual arquiteturas profundas foram notoriamente lentas em treinar. Isso decorre do fato de que redes profundas não precisam apenas aprender uma nova representação em cada camada, mas também devem levar em conta as alterações em sua distribuição.

[00177] O deslocamento covariável em geral é um problema conhecido no domínio da aprendizagem profunda e ocorre frequentemente em problemas do mundo real. Um problema comum do deslocamento covariável é a diferença na distribuição do conjunto de treinamento e teste que pode levar a um desempenho de generalização abaixo do ideal. Esse problema geralmente é tratado com uma etapa de processamento de branqueamento ou padronização. No entanto, especialmente a operação de branqueamento é computacionalmente cara e, portanto, impraticável em um ambiente online, especialmente se o deslocamento covariável ocorrer ao longo de diferentes camadas.

[00178] O deslocamento covariável interno é o fenômeno em que a distribuição das ativações da rede muda através das camadas devido à alteração nos parâmetros da rede durante o treinamento. Idealmente, cada camada deve ser transformada em um espaço onde tenham a mesma distribuição, mas a relação funcional permaneça a mesma. Para evitar cálculos dispendiosos de matrizes de covariância para reduzir a correlação e embranquecer os dados em todas as camadas e etapas, normalizamos a distribuição de cada recurso de entrada em cada camada ao longo de cada minilote para ter média zero e um desvio padrão de um.

Forward Pass

[00179] Durante o forward pass, a variância e média do minilote são calculadas. Com essas estatísticas de minilote, os dados são normalizados subtraindo a média e dividindo pelo desvio padrão. Finalmente, os dados são dimensionados e alterados com os parâmetros de escala e deslocamento aprendidos. O forward pass da normalização de lote /,, é representado na FIGURA 12.

[00180] Na FIGURA 12, 27 é a média do lote e o é a variância do lote, respectivamente. Os parâmetros aprendidos de escala e deslocamento são indicados por y e B, respectivamente. Para maior clareza, o procedimento de normalização de lote é descrito neste documento por ativação e omite os índices correspondentes.

[00181] Como a normalização é uma transformação diferenciável, Os erros são propagados para esses parâmetros aprendidos e, portanto, são capazes de restaurar o poder representacional da rede, aprendendo a transformação de identidade. Por outro lado, aprendendo os parâmetros de escala e deslocamento idênticos às estatísticas de lote correspondentes, a transformação de normalização de lote não teria efeito na rede, se essa fosse a operação ideal a ser executada. No momento do teste, a média e a variância do lote são substituídas pelas respectivas estatísticas populacionais, pois a entrada não depende de outras amostras de um minilote. Outro método é manter em execução as médias das estatísticas do lote durante o treinamento e usá-las para calcular a saída da rede no momento do teste. No momento do teste, a transformação de normalização de lote pode ser expressa conforme ilustrado na FIGURA 13. Na FIGURA 13, Hp e 523 denotam a média e a variância da população, em vez das estatísticas do lote, respectivamente.

Backward Pass

[00182] Como a normalização é uma operação diferenciável, o backward pass pode ser calculado conforme representado na FIGURA 14. Convolução 1D

[00183] Asconvoluções 1D extraem subsequências ou patches 1D locais das sequências, conforme mostrado na FIGURA 16. A convolução 1D obtém cada intervalo de saída de um patch temporal na sequência de entrada. As camadas de convolução 1D reconhecem os padrões locais em uma sequência. Como a mesma transformação de entrada é realizada em cada patch, um padrão aprendido em uma determinada posição nas sequências de entrada pode ser posteriormente reconhecido em uma posição diferente, tornando a tradução das camadas de convolução 1D invariável para traduções temporais. Por exemplo, uma camada de convolução 1D que processa sequências de bases usando janelas de convolução de tamanho 5 deve ser capaz de aprender bases ou sequências de bases de comprimento 5 ou menos e deve ser capaz de reconhecer os motivos de base em qualquer contexto em uma sequência de entrada. Uma convolução 1D no nível base é, portanto, capaz de aprender sobre a morfologia da base.

Pool Médio Global

[00184] A FIGURA 17 ilustra como o pool médio global (GAP) funciona. O pool médio global pode ser usado para substituir camadas totalmente conectadas (FC) para classificação, considerando a média espacial dos recursos na última camada para pontuação. Isso reduz a carga de treinamento e ignora os problemas de sobreajuste. O pool médio global aplica uma estrutura anterior ao modelo e é equivalente à transformação linear com pesos predefinidos. O pool médio global reduz o número de parâmetros e elimina a camada totalmente conectada. Camadas totalmente conectadas são tipicamente as camadas mais intensivas em parâmetros e conexões, e o pool médio global fornece uma abordagem de custo muito mais baixo para obter resultados semelhantes. A ideia principal do pool médio global é gerar o valor médio de cada mapa de recursos da última camada como o fator de confiança para a pontuação, alimentando diretamente a camada softmax.

[00185] O pool médio global tem três benefícios: (1) não há parâmetros extras nas camadas de pool médio global, portanto, o sobreajuste é evitado nas camadas de pool médio global; (2) como o resultado do pool médio global é a média de todo o mapa de recursos, o pool médio global será mais robusto às traduções espaciais; e (3) devido ao grande número de parâmetros em camadas totalmente conectadas, que geralmente ocupam mais de 50% em todos os parâmetros de toda a rede,

substituí-los por camadas de pool médio global pode reduzir significativamente o tamanho do modelo, e isso torna o pool médio global muito útil na compressão de modelo.

[00186] O pool médio global faz sentido, pois espera-se que recursos mais fortes na última camada tenham um valor médio mais alto. Em algumas implementações, o pool médio global pode ser usado como um proxy para a pontuação de classificação. Os mapas de recursos sob o pool médio global podem ser interpretados como mapas de confiança e forçar a correspondência entre os mapas de recursos e as categorias. O pool médio global pode ser particularmente eficaz se os recursos da última camada estiverem em uma abstração suficiente para classificação direta; entretanto, o pool médio global por si só não é suficiente se os recursos multiníveis forem combinados em grupos como modelos de peças, o que é melhor executado adicionando uma camada totalmente conectada simples ou outro classificador após o pool médio global.

Terminologia

[00187] Toda a literatura e material semelhante citado neste pedido, incluindo, mas não limitada a, patentes, pedidos de patente, artigos, livros, tratados e páginas da web, independentemente do formato dessa literatura e materiais similares, são expressamente incorporados por referência em seus totalidade. No caso de uma ou mais da literatura incorporada, patentes e materiais semelhantes diferirem ou contradizerem este pedido, incluindo, mas não limitado a termos definidos, uso de termos, técnicas descritas ou semelhantes, esse pedido prevalece.

[00188] Conforme usado neste documento, os seguintes termos têm os significados indicados.

[00189] Uma base refere-se a uma base nucleotídica ou nucleotídico, A (adenina), C (citosina), T (timina) ou G (guanina).

[00190] Este pedido usa os termos "proteína" e "sequência traduzida"; de forma intercambiável.

[00191] Estepedido usa os termos "códon"; e "base tripla" de forma intercambiável.

[00192] Este aplicativo usa os termos "aminoácido" e "unidade traduzida" de forma intercambiável.

[00193] Este aplicatiro usa as frases "classifitador de patogenicidade de variantes", "classificador baseado em rede neural convolucional para classificação de variantes" e "classificador baseado em rede neural convolucional profunda para classificação de variantes" de forma intercambiável.

[00194] O termo "cromossomo" refere-se ao carreador de genes portadores de hereditariedade de uma célula viva, que é derivada de cadeias de cromatina que compreendem componentes de DNA e proteínas (especialmente histonas). O sistema convencional de numeração de cromossomos do genoma humano internacionalmente reconhecido é empregado neste documento.

[00195] Otermo "sítio" refere-se a uma posição única (por exemplo, ID do cromossomo, posição e orientação do cromossomo) em um genoma de referência. Em algumas implementações, um sítio pode ser um resíduo, uma tag de sequência ou a posição de um segmento em uma sequência. O termo "locus" pode ser usado para se referir à localização específica de uma sequência de ácido nucleico ou polimorfismo em um cromossomo de referência.

[00196] O termo "amostra" neste documento refere-se a uma amostra, tipicamente derivada de um fluido biológico, célula, tecido, órgão ou organismo contendo um ácido nucleico ou uma mistura de ácidos nucleicos contendo pelo menos uma sequência de ácido nucleico que deve ser sequenciada e/ou faseado. Essas amostras incluem, mas não são limitadas a, expectoração/fluido oral, líquido amniótico, sangue, uma fração sanguínea, amostras de biópsia por agulha fina (por exemplo, biópsia cirúrgica, biópsia por agulha fina, etc.), urina, líquido peritoneal, líquido pleural, tecido de explante, cultura de órgãos e qualquer outra preparação de tecido ou célula, ou fração ou derivado ou isolados a partir deles. Embora a amostra seja frequentemente retirada de um sujeito humano (por exemplo, paciente), amostras podem ser coletadas de qualquer organismo com cromossomos, incluindo, mas não limitados a, cães, gatos, cavalos, cabras, ovelhas, gado, porcos, etc. A amostra pode ser usada diretamente conforme obtida da fonte biológica ou após um pré-tratamento para modificar o caráter da amostra. Por exemplo, esse pré-tratamento pode incluir a preparação de plasma a partir do sangue, diluição de fluidos viscosos e assim por diante. Os métodos de pré-tratamento também podem envolver, mas não estão limitados a, filtração, precipitação, diluição, destilação, mistura, centrifugação, congelamento, liofiização, concentração, amplificação, fragmentação de ácidos nucleicos, inativação de componentes interferentes, adição de reagentes, lisação, etc.

[00197] O termo "sequência" inclui ou representa uma cadeia de nucleotídeos acoplados um ao outro. Os nucleotídeos podem ser baseados em DNA ou RNA. Deve ser entendido que uma sequência pode incluir múltiplas sub-sequências. Por exemplo, uma única sequência (por exemplo, de um amplificon de PCR) pode ter 350 nucleotídeos. A leitura da amostra pode incluir múltiplas sub-sequências dentro destes 350 nucleotídeos. Por exemplo, a leitura da amostra pode incluir primeira e segunda subsequências de flanqueamento com, por exemplo, 20-50 nucleotídeos. A primeira e a segunda sequências de flanqueamento podem estar localizadas em ambos os lados de um segmento repetitivo que possui uma sub-sequência correspondente (por exemplo, 40-100 nucleotídeos). Cada uma das sub- sequências de flanqueamento pode incluir (ou incluir porções de) uma sub- sequência de primer (por exemplo, 10-30 nucleotídeos). Para facilitar a leitura, o termo "sub-sequência" será referido como "sequência", mas entende-se que duas sequências não são necessariamente separadas uma da outra em uma cadeia comum. Para diferenciar as várias sequências descritas neste documento, as sequências podem receber rótulos diferentes (por exemplo, sequência alvo, sequência primer, sequência flanqueadora, sequência de referência e similares). Outros termos, como "alelo", podem receber rótulos diferentes para diferenciar objetos semelhantes.

[00198] Otermo"sequenciamento de extremidade pareada" refere- se a métodos de sequenciamento que sequenciam as duas extremidades de um fragmento alvo. O sequenciamento de extremidade pareada pode facilitar a detecção de rearranjos genômicos e segmentos repetitivos, bem como fusões de genes e novos transcritos. A metodologia para o sequenciamento de extremidade pareada é descrita na publicação PCT WO07010252, pedido PCT Nº de série PCTGB2007/003798 e publicação do pedido de patente US US 2009/0088327, cada uma das quais é incorporada por referência neste documento. Em um exemplo, uma série de operações pode ser executada da seguinte maneira; (a) gerar grupos de ácidos nucleicos; (b) linearizar os ácidos nucleicos; (c) hibridizar um primeiro primer de sequenciamento e realizar ciclos repetidos de extensão, varredura e desbloqueio, conforme estabelecido acima; (d) "inverter" os ácidos nucleicos alvo na superfície da célula de fluxo sintetizando uma cópia complementar; (e) linearizar a cadeia ressintetizada; e (f) hibridizar um segundo primer de sequenciamento e realizar ciclos repetidos de extensão, varredura e desbloqueio, conforme estabelecido acima. A operação de inversão pode ser realizada administrando reagentes conforme estabelecido acima para um único ciclo de amplificação em ponte.

[00199] O termo "genoma de referência" ou "sequência de referência" refere-se a qualquer sequência específica do genoma conhecido, parcial ou completa, de qualquer organismo que possa ser usado para referenciar sequências identificadas de um sujeito. Por exemplo, um genoma de referência usado para seres humanos, assim como muitos outros organismos, é encontrado no National Center for Biotechnology Information, em ncbi.nIm.nih.gov. Um "genoma" refere-se à informação genética completa de um organismo ou vírus, expressa em sequências de ácidos nucleicos. Um genoma inclui os genes e as sequências não codificadoras do DNA. À sequência de referência pode ser maior que as leituras alinhadas a ela. Por exemplo, pode ser pelo menos cerca de 100 vezes maior, ou pelo menos cerca de 1000 vezes maior, ou pelo menos cerca de 10,000 vezes maior, ou pelo menos cerca de 105 vezes maior, ou pelo menos cerca de 106 vezes maior, ou pelo menos cerca de 107 vezes maior. Em um exemplo, a sequência do genoma de referência é a de um genoma humano completo. Em outro exemplo, a sequência do genoma de referência é limitada a um cromossomo humano específico, como o cromossomo 13. Em algumas implementações, um cromossomo de referência é uma sequência cromossômica da versão hg19 do genoma humano. Tais sequências podem ser referidas como sequências de referência cromossômica, embora o termo genoma de referência se destine a cobrir tais sequências. Outros exemplos de sequências de referência incluem genomas de outras espécies, bem como cromossomos, regiões sub-cromossômicas (como cadeias), etc., de qualquer espécie. Em várias implementações, o genoma de referência é uma sequência de consenso ou outra combinação derivada de vários indivíduos. No entanto, em certas aplicações, a sequência de referência pode ser obtida de um indivíduo em particular.

[00200] O termo "leitura" refere-se a uma coleção de dados de sequência que descreve um fragmento de uma amostra ou referência de nucleotídeo. O termo "leitura" pode se referir a uma leitura de amostra e/ou uma leitura de referência. Normalmente, embora não necessariamente, uma leitura representa uma sequência curta de pares de bases contíguas na amostra ou referência. A leitura pode ser representada simbolicamente pela sequência de pares de bases (em ATCG) da amostra ou fragmento de referência. Ela pode ser armazenada em um dispositivo de memória e processada conforme apropriado para determinar se a leitura corresponde a uma sequência de referência ou se atende a outros critérios. Uma leitura pode ser obtida diretamente de um aparelho de sequenciamento ou indiretamente a partir de informações de sequência armazenadas relativas à amostra. Em alguns casos, uma leitura é uma sequência de DNA de comprimento suficiente (por exemplo, pelo menos cerca de 25 bp) que pode ser usada para identificar uma sequência ou região maior, por exemplo, que pode ser alinhada e atribuída especificamente a um cromossomo ou região genômica ou gene.

[00201] Os métodos de sequenciamento de última geração incluem, por exemplo, sequenciamento por tecnologia de síntese (Illumina), pirosequenciamento (454), tecnologia de semicondutores de íons (sequenciamento lon Torrent), sequenciamento em tempo real de molécula única (Pacific Biosciences) e sequenciamento por ligação (sequenciamento SOLID). Dependendo dos métodos de sequenciamento, o comprimento de cada leitura pode variar de cerca de 30 bp a mais de 10,000 bp. Por exemplo, o método de sequenciamento lllumina usando o sequenciador SOLID gera leituras de ácido nucleico de cerca de 50 bp. Por outro exemplo, o Sequenciamento lon Torrent gera leituras de ácido nucleico de até 400 bp e o pirosequenciamento 454 gera leituras de ácido nucleico de cerca de 700 bp. Por outro exemplo, os métodos de sequenciamento em tempo real de molécula única podem gerar leituras de 10,000 a 15,000 bp. Portanto, em certas implementações, as leituras da sequência de ácido nucleico têm um comprimento de 30-100 bp, 50-200 bp ou 50-400 bp.

[00202] Os termos “leitura da amostra”, “sequência da amostra” ou “fragmento da amostra” se referem aos dados da sequência para uma sequência genômica de interesse de uma amostra. Por exemplo, a leitura da amostra compreende dados de sequência de um amplicon de PCR tendo uma sequência de primers foward e reverse. Os dados da sequência podem ser obtidos a partir de qualquer metodologia de sequência selecionada. À leitura da amostra pode ser, por exemplo, de uma reação de sequenciamento por síntese (SBS), uma reação de sequenciamento por ligação ou qualquer outra metodologia de sequenciamento adequada para a qual se deseja determinar o comprimento e/ou a identidade de um elemento repetitivo. À leitura da amostra pode ser uma sequência de consenso (por exemplo, média ou ponderada) derivada de várias leituras da amostra. Em certas implementações, o fornecimento de uma sequência de referência compreende a identificação de um locus de interesse com base na sequência pimer do amplicon de PCR.

[00203] Otermo "fragmento bruto" refere-se a dados de sequência para uma porção de uma sequência genômica de interesse que se sobrepõe pelo menos parcialmente a uma posição designada ou a uma posição secundária de interesse dentro de uma amostra de leitura ou fragmento de amostra. Exemplos não limitativos de fragmentos brutos incluem um fragmento concatenado duplex, um fragmento concatenado simplex, um fragmento não concatenado duplex e um fragmento não concatenado simplex. O termo "bruto" é usado para indicar que o fragmento bruto inclui dados de sequência que têm alguma relação com os dados de sequência em uma leitura de amostra, independentemente de o fragmento bruto exibir uma variante de suporte que corresponda e autentique ou confirme uma variante em potencial em uma leitura de amostra. O termo "fragmento bruto" não indica que o fragmento inclui necessariamente uma variante de suporte que valida uma chamada de variante em uma leitura de amostra. Por exemplo, quando uma leitura de amostra é determinada por um aplicativo de chamada de variante para exibir uma primeira variante, o aplicativo de chamada de variante pode determinar que um ou mais fragmentos brutos não possuem um tipo correspondente de variante "de suporte" que, de outra forma, pode ser esperado que ocorra, dada a variante na leitura de amostra.

[00204] Os termos "mapeamento", "alinhado", "alinhamento" ou "ordenamento" referem-se ao processo de comparar uma leitura ou tag a uma sequência de referência e, assim, determinar se a sequência de referência contém a sequência de leitura. Se a sequência de referência contiver a leitura, a leitura poderá ser mapeada para a sequência de referência ou, em certas implementações, para um local específico na sequência de referência. Em alguns casos, o alinhamento simplesmente informa se uma leitura é ou não um membro de uma sequência de referência específica (ou seja, se a leitura está presente ou ausente na sequência de referência). Por exemplo, o alinhamento de uma leitura com a sequência de referência para o cromossomo humano 13 indicará se a leitura está presente na sequência de referência para o cromossomo 13. Uma ferramenta que fornece essas informações pode ser chamada de testador de associação estabelecida. Em alguns casos, um alinhamento indica adicionalmente um local na sequência de referência onde a leitura ou o tag é mapeado. Por exemplo, se a sequência de referência é sequência do genoma humano completo, um alinhamento pode indicar que uma leitura está presente no cromossomo 13 e pode ainda indicar que a leitura está em uma cadeia e/ou sítio específico do cromossomo 13.

[00205] Otermo"indel" refere-se à inserção e/ou deleção de bases no DNA de um organismo. Um micro-indel representa um indel que resulta em uma alteração líquida de 1 a 50 nucleotídeos. Nas regiões codificadoras do genoma, a menos que o comprimento de um indel seja um múltiplo de 3, ele produzirá uma mutação de deslocamento de quadro. Indels podem ser contrastados com mutações pontuais. Um indel insere e deleta nucleotídeos de uma sequência, enquanto uma mutação pontual é uma forma de substituição que substitui um dos nucleotídeos sem alterar o número geral no DNA. Os indels também podem ser contrastados com uma Mutação de Base Tandem (TBM), que pode ser definida como substituição em nucleotídeos adjacentes (principalmente substituições em dois nucleotídeos adjacentes, mas foram observadas substituições em três nucleotídeos adjacentes).

[00206] O termo "variante" refere-se a uma sequência de ácido nucleico que é diferente de uma referência de ácido nucleico. A variante da sequência de ácidos nucleicos típica inclui, sem limitação, o polimorfismo de nucleotídeo único (SNP), polimorfismos de deleção e inserção curtos (Indel), variação do número de cópias (CNV), marcadores microssatélites ou repetições em tandem curtas e variação estrutural. A chamada de variante somática é o esforço para identificar variantes presentes em baixa frequência na amostra de DNA. A chamada de variantes somática é de interesse no contexto do tratamento do câncer. O câncer é causado por um acúmulo de mutações no DNA. Uma amostra de DNA de um tumor é geralmente heterogênea, incluindo algumas células normais, algumas células em um estágio inicial da progressão do câncer (com menos mutações) e algumas células em estágio avançado (com mais mutações). Devido a essa heterogeneidade, ao sequenciar um tumor (por exemplo, a partir de uma amostra de FFPE), mutações somáticas geralmente aparecem em baixa frequência. Por exemplo, um SNV pode ser visto em apenas 10% das leituras que abrangem uma determinada base. Uma variante que deve ser classificada como somática ou de linhagem germinativa pelo classificador de variantes também é referida neste documento como a "variante em teste".

[00207] O termo "ruído" refere-se a uma chamada de variante incorreta resultante de um ou mais erros no processo de sequenciamento e/ou no pedido de chamada de variante.

[00208] O termo "frequência variante" representa a frequência relativa de um alelo (variante de um gene) em um locus específico de uma população, expresso como uma fração ou porcentagem. Por exemplo, a fração ou porcentagem pode ser a fração de todos os cromossomos da população que carrega esse alelo. A título de exemplo, a frequência da variante da amostra representa a frequência relativa de um alelo/variante em um determinado locus/posição ao longo de uma sequência genômica de interesse sobre uma "população" correspondente ao número de leituras e/ou amostras obtidas para a sequência genômica de interesse de um indivíduo. Como outro exemplo, uma frequência de variante de referência representa a frequência relativa de um alelo/variante em um locus/posição específica ao longo de uma ou mais sequências genômicas de referência em que a "população" corresponde ao número de leituras e/ou amostras obtidas para o um ou mais sequências genômicas de referência de uma população de indivíduos normais.

[00209] O termo "frequência alélica da variante (VAF)" refere-se à porcentagem de leituras sequenciadas observadas correspondentes à variante dividida pela cobertura geral na posição alvo. VAF é uma medida da proporção de leituras sequenciadas que carregam a variante.

[00210] Os termos "posição", "posição designada" e "locus" se referem a um local ou coordenada de um ou mais nucleotídeos dentro de uma sequência de nucleotídeos. Os termos "posição", "posição designada" e "locus" também se referem a um local ou coordenada de um ou mais pares de bases em uma sequência de nucleotídeos.

[00211] Otermo "haplótipo" refere-se a uma combinação de alelos em locais adjacentes em um cromossomo que são herdados juntos. Um haplótipo pode ser um locus, vários loci ou um cromossomo inteiro, dependendo do número de eventos de recombinação que ocorreram entre um determinado conjunto de loci, se houver algum.

[00212] O termo "limite" neste documento refere-se a um valor numérico ou não numérico que é usado como ponto de corte para caracterizar uma amostra, um ácido nucleico ou uma porção desta (por exemplo, uma leitura). Um limite pode variar com base na análise empírica. O limite pode ser comparado a um valor medido ou calculado para determinar se a fonte que gera esse valor sugere que deve ser classificada de uma maneira específica. Os valores de limite podem ser identificados empiricamente ou analiticamente. A escolha de um limite depende do nível de confiança que o usuário deseja ter para fazer a classificação. O limite pode ser escolhido para uma finalidade específica (por exemplo, equilibrar a sensibilidade e seletividade). Conforme usado neste documento, o termo

"limite" indica um ponto no qual um curso de análise pode ser alterado e/ou um ponto no qual uma ação pode ser acionada. Não é necessário que um limite seja um número predeterminado. Em vez disso, o limite pode ser, por exemplo, uma função baseada em uma pluralidade de fatores. O limite pode ser adaptável às circunstâncias. Além disso, um limite pode indicar um limite superior, um limite inferior ou um intervalo entre os limites.

[00213] Em algumas implementações, uma métrica ou pontuação baseada em dados de sequenciamento pode ser comparada ao limite. Conforme usado neste documento, os termos "métrica" ou "pontuação" podem incluir valores ou resultados que foram determinados a partir dos dados de sequenciamento ou podem incluir funções baseadas nos valores ou resultados que foram determinados a partir dos dados de sequenciamento. Como um limite, a métrica ou a pontuação pode ser adaptável às circunstâncias. Por exemplo, a métrica ou a pontuação pode ser um valor normalizado. Como exemplo de uma pontuação ou métrica, uma ou mais implementações podem usar pontuações de contagem ao analisar os dados. Uma pontuação de contagem pode ser baseada no número de leituras de amostra. As leituras de amostra podem ter passado por um ou mais estágios de filtragem, de modo que as leituras de amostra tenham pelo menos uma característica ou qualidade comum. Por exemplo, cada uma das leituras de amostra usadas para determinar uma pontuação de contagem pode ter sido alinhada com uma sequência de referência ou pode ser atribuída como um alelo em potencial. O número de leituras de amostra com uma característica comum pode ser contado para determinar uma contagem de leituras. As pontuações de contagem podem ser baseadas na contagem de leitura. Em algumas implementações, a pontuação da contagem pode ser um valor igual à contagem de leitura. Em outras implementações, a pontuação da contagem pode ser baseada na contagem de leitura e em outras informações. Por exemplo, uma pontuação de contagem pode ser baseada na contagem de leitura de um alelo específico de um locus genético e um número total de leituras para o locus genético. Em algumas implementações, a pontuação da contagem pode ser baseada na contagem de leitura e nos dados obtidos anteriormente para o locus genético. Em algumas implementações, as pontuações de contagem podem ser pontuações normalizadas entre valores predeterminados. A pontuação da contagem também pode ser uma função das contagens de leitura de outros loci de uma amostra ou uma função das contagens de leitura de outras amostras que foram executadas simultaneamente com a amostra de interesse. Por exemplo, a pontuação da contagem pode ser uma função da contagem de leitura de um alelo específico e das contagens de leitura de outros loci na amostra e/ou das contagens de outras amostras. Como um exemplo, as contagens de leitura de outros loci e/ou as contagens de leitura de outras amostras podem ser usadas para normalizar a pontuação de contagem para o alelo específico.

[00214] Os termos "cobertura" ou "cobertura de fragmento" se referem a uma contagem ou outra medida de um número de leituras de amostra para o mesmo fragmento de uma sequência. Uma contagem de leitura pode representar uma contagem do número de leituras que cobrem um fragmento correspondente. Como alternativa, a cobertura pode ser determinada pela multiplicação da contagem de leituras por um fator designado que se baseia no conhecimento histórico, no conhecimento da amostra, conhecimento do locus etc.

[00215] O termo “profundidade de leitura” (convencionalmente um número seguido de “x”) refere-se ao número de leituras sequenciadas com alinhamento sobreposto na posição alvo. Isso geralmente é expresso como uma média ou porcentagem que excede um ponto de corte em um conjunto de intervalos (como éxons, genes ou painéis). Por exemplo, um relatório clínico pode dizer que a cobertura média do painel é 1,105 x com 98% das bases direcionadas cobertas> 100 x.

[00216] Os termos “pontuação de qualidade da chamada de base”

ou “pontuação Q” se referem a uma probabilidade em escala PHRED variando de O a 20 inversamente proporcional à probabilidade de que uma única base sequenciada esteja correta. Por exemplo, uma chamada de base T com Q de 20 é considerada provavelmente correta com um valor P de confiança de 0,01. Qualquer geração de base com Q <20 deve ser considerada de baixa qualidade, e qualquer variante identificada onde uma proporção substancial de leituras sequenciadas que suportam a variante são de baixa qualidade deve ser considerada potencialmente falsa positiva.

[00217] Os termos "leituras de variantes" ou "número de leitura de variantes" se referem ao número de leituras sequenciadas que suportam a presença da variante.

Processo de Sequenciamento

[00218] As implementações estabelecidas neste documento podem ser aplicáveis à análise de sequências de ácidos nucleicos para identificar variações de sequência. As implementações podem ser usadas para analisar possíveis variantes/alelos de uma posição/locus genéticos e determinar um genótipo do locus genético ou, em outras palavras, fornecer uma geração de genótipo para o locus. A título de exemplo, as sequências de ácidos nucleicos podem ser analisadas de acordo com os métodos e sistemas descritos na Publicação de Pedido de Patente US Nº 2016/0085910 e na Publicação de Pedido de Patente US Nº 2013/0296175, cujo objeto completo é expressamente incorporado por referência neste documento em sua totalidade.

[00219] Em uma implementação, um processo de sequenciamento inclui o recebimento de uma amostra que inclui ou é suspeita de incluir ácidos nucleicos, como o DNA. A amostra pode ser de uma fonte conhecida ou desconhecida, como um animal (por exemplo, humano), planta, bactéria ou fungo. A amostra pode ser coletada diretamente da fonte. Por exemplo, sangue ou saliva podem ser coletados diretamente de um indivíduo. Alternativamente, a amostra pode não ser obtida diretamente da fonte. Em seguida, um ou mais processadores direcionam o sistema para preparar a amostra para o sequenciamento. A preparação pode incluir remover material estranho e/ou isolar certo material (por exemplo, DNA). A amostra biológica pode ser preparada para incluir características para um ensaio particular. Por exemplo, a amostra biológica pode ser preparada para sequenciamento por síntese (SBS). Em certas implementações, a preparação pode incluir amplificação de certas regiões de um genoma. Por exemplo, a preparação pode incluir amplificar loci genéticos predeterminados que são conhecidos por incluir STRs e/ou SNPs. Os loci genéticos podem ser amplificados utilizando sequências iniciadoras predeterminadas.

[00220] Em seguida, os um ou mais processadores direcionam o sistema para sequenciar a amostra. O sequenciamento pode ser realizado através de uma variedade de protocolos conhecidos de sequenciamento. Em implementações específicas, o sequenciamento inclui SBS. No SBS, uma pluralidade de nucleotídeos marcados com fluorescência é usada para sequenciar uma pluralidade de aglomerados de DNA amplificado (possivelmente milhões de aglomerados) presentes na superfície de um substrato óptico (por exemplo, uma superfície que pelo menos parcialmente define um canal em uma célula de fluxo). As células de fluxo podem conter amostras de ácido nucleico para sequenciamento, onde as células de fluxo são colocadas dentro dos suportes de células de fluxo apropriados.

[00221] Os ácidos nucleicos podem ser preparados de modo a compreender uma sequência primer conhecida que é adjacente a uma sequência alvo desconhecida. Para iniciar o primeiro ciclo de sequenciamento de SBS, um ou mais nucleotídeos marcados de maneira diferente e DNA polimerase, etc., podem ser escoados para/através da célula de fluxo por um sub-sistema de fluxo fluido. Um único tipo de nucleotídeo pode ser adicionado de cada vez, ou os nucleotídeos usados no procedimento de sequenciamento podem ser especialmente projetados para possuir uma propriedade de terminação reversível, permitindo assim que cada ciclo da reação de sequenciamento ocorra simultaneamente na presença de vários tipos de nucleotídeos marcados (por exemplo, A, C, T, G). Os nucleotídeos podem incluir porções marcadoras detectáveis, como fluoróforos. Onde os quatro nucleotídeos são misturados, a polimerase é capaz de selecionar a base correta a incorporar e cada sequência é estendida por uma única base. Os nucleotídeos não incorporados podem ser removidos por lavagem, fluindo uma solução de lavagem através da célula de fluxo. Um ou mais lasers podem excitar os ácidos nucleicos e induzir fluorescência. A fluorescência emitida a partir dos ácidos nucleicos é baseada nos fluoróforos da base incorporada e diferentes fluoróforos podem emitir diferentes comprimentos de onda da luz de emissão. Um reagente de desbloqueio pode ser adicionado à célula de fluxo para remover grupos terminadores reversíveis das cadeias de DNA que foram estendidas e detectadas. O reagente de desbloqueio pode então ser lavado fluindo uma solução de lavagem através da célula de fluxo. A célula de fluxo está então pronta para um ciclo adicional de sequenciamento começando com a introdução de um nucleotídeo marcado conforme estabelecido acima. As operações fluídicas e de detecção podem ser repetidas várias vezes para concluir uma execução de sequenciamento. Exemplos de métodos de sequenciamento são descritos, por exemplo, em Bentley et al., Nature 456: 53-59 (2008), Publicação Internacional Nº WO 04/018497; Pat. U.S. Nº 7,057,026; Publicação Internacional Nº WO 91/06678; Publicação Internacional Nº WO 07/123744; Pat. U.S. Nº 7,329,492; Patente US Nº 7,211,414; Patente US Nº 7,315,019; Patente US Nº 7,405,281 e Publicação de Pedido de Patente US Nº 2008/0108082, cada uma das quais é incorporada neste documento por referência.

[00222] Em algumas implementações, os ácidos nucleicos podem ser ligados a uma superfície e amplificados antes ou durante o sequenciamento. Por exemplo, a amplificação pode ser realizada usando a amplificação em ponte para formar grupos de ácidos nucleicos em uma superfície. Métodos úteis de amplificação em ponte são descritos, por exemplo, na Patente US Nº 5,641,658; Publicação do Pedido de Patente US Nº 2002/0055100; Patente US Nº 7,115,400; Publicação do Pedido de Patente US Nº 2004/0096853; Publicação do Pedido de Patente US Nº 2004/0002090; Publicação do Pedido de Patente US Nº 2007/0128624; e Publicação do Pedido de Patente US Nº 2008/0009420, cada uma das quais é incorporada neste documento por referência em sua totalidade. Outro método útil para amplificar ácidos nucleicos em uma superfície é a amplificação por círculo rolante (RCA), por exemplo, conforme descrito em Lizardi et al., Nat. Genet. 19:225-232 (1998) e Publicação do Pedido de Patente US Nº 2007/0099208 A1, cada um dos quais é incorporado neste documento por referência.

[00223] Um exemplo de protocolo SBS explora nucleotídeos modificados com blocos 3' removíveis, por exemplo, conforme descrito na Publicação Internacional Nº WO 04/018497, Publicação do Pedido de Patente US Nº 2007/0166705A1 e Patente US Nº 7,057,026, cada uma das quais é incorporada neste documento por referência. Por exemplo, ciclos repetidos de reagentes SBS podem ser entregues a uma célula de fluxo com ácidos nucleicos alvo ligados a eles, por exemplo, como resultado do protocolo de amplificação em ponte. Os aglomerados de ácidos nucleicos podem ser convertidos na forma de cadeia simples usando uma solução de linearização. A solução de linearização pode conter, por exemplo, uma endonuclease de restrição capaz de clivar uma cadeia de cada agrupamento. Outros métodos de clivagem podem ser usados como uma alternativa às enzimas de restrição ou enzimas de corte, incluindo, entre outros, a clivagem química (por exemplo, clivagem de uma ligação diol com periodato), clivagem de sítios abásicos por clivagem com endonuclease (por exemplo, "USER", conforme fornecido por NEB, lpswich, Mass., EUA, número de peça MB5505S), por exposição ao calor ou álcalis, clivagem de ribonucleotídeos incorporados em produtos de amplificação compreendidos de outro modo por desoxirribonucleotídeos, clivagem fotoquímica ou clivagem de um ligante peptídico. Após a operação de linearização, um primer de sequenciamento pode ser entregue à célula de fluxo sob condições para hibridação do primer de sequenciamento com os ácidos nucleicos alvo que devem ser sequenciados.

[00224] Uma célula de fluxo pode então ser contatada com um reagente de extensão SBS possuindo nucleotídeos modificados com blocos removíveis 3' e marcadores fluorescentes sob condições para estender um primer hibridizado com cada ácido nucleico alvo por uma única adição de nucleotídeo. Apenas um único nucleotídeo é adicionado a cada primer, porque uma vez que o nucleotídeo modificado foi incorporado à cadeia polinucleotídica crescente complementar à região do molde que está sendo sequenciado, não há grupo 3'-OH livre disponível para direcionar a extensão da sequência adicional e, portanto, a polimerase não pode adicionar mais nucleotídeos. O reagente de extensão SBS pode ser removido e substituído por reagente de varredura contendo componentes que protegem a amostra sob excitação com radiação. Exemplos de componentes para reagentes de varredura são descritos na Publicação do Pedido de Patente US Nº 2008/0280773 A1 e no Pedido de Patente US Nº 13/018,255, cada um dos quais é incorporado neste documento por referência. Os ácidos nucleicos estendidos podem então ser detectados por fluorescência na presença do reagente de varredura. Uma vez detectada a fluorescência, o bloco 3' pode ser removido usando um reagente de desbloqueio adequado ao grupo de blocos utilizado. Exemplos de reagentes de desbloqueio que são úteis para os respectivos grupos de blocos são descritos em WO0O04018497, US 2007/0166705A1 e Patente US Nº 7,057,026, cada uma das quais é incorporada neste documento por referência. O reagente de desbloqueio pode ser lavado, deixando os ácidos nucleicos alvo hibridizados com primers estendidos com grupos 3'-OH que são agora competentes para a adição de um nucleotídeo adicional. Consequentemente, os ciclos de adição de reagente de extensão, reagente de varredura e reagente de desbloqueio, com lavagens opcionais entre uma ou mais das operações, podem ser repetidos até que uma sequência desejada seja obtida. Os ciclos acima podem ser realizados usando uma operação de entrega de reagente de extensão única por ciclo quando cada um dos nucleotídeos modificados tem um marcador diferente ligado a ele, conhecido por corresponder à base particular. Os diferentes marcadores facilitam a discriminação entre os nucleotídeos adicionados durante cada operação de incorporação. Alternativamente, cada ciclo pode incluir operações separadas de entrega de reagentes de extensão seguidas por operações separadas de entrega e detecção de reagentes de varredura, caso em que dois ou mais dos nucleotídeos podem ter o mesmo marcador e podem ser distinguidos com base na ordem de entrega conhecida.

[00225] Embora a operação de sequenciamento tenha sido discutida acima com relação a um protocolo SBS específico, será entendido que outros protocolos para sequenciar qualquer uma de uma variedade de outras análises moleculares podem ser realizados conforme desejado.

[00226] Em seguida, um ou mais processadores do sistema recebem os dados de sequenciamento para análise subsequente. Os dados de sequenciamento podem ser formatados de várias maneiras, como em um arquivo .BAM. Os dados de sequenciamento podem incluir, por exemplo, um número de leituras de amostra. Os dados de sequenciamento podem incluir uma pluralidade de leituras de amostra que possuem sequências de amostra correspondentes dos nucleotídeos. Embora apenas uma leitura de amostra seja discutida, deve-se entender que os dados de sequenciamento podem incluir, por exemplo, centenas, milhares, centenas de milhares ou milhões de leituras de amostra. Diferentes leituras de amostras podem ter diferentes números de nucleotídeos. Por exemplo, uma amostra de leitura pode variar entre 10 nucleotídeos e cerca de 500 nucleotídeos ou mais. As leituras de amostra podem abranger todo o genoma da(s) fonte(s). Como um exemplo,

as leituras da amostra são direcionadas para loci genéticos predeterminados, como aqueles loci genéticos com suspeita de STRs ou suspeita de SNPs.

[00227] Cada leitura de amostra pode incluir uma sequência de nucleotídeos, que pode ser referida como uma sequência de amostra, fragmento de amostra ou uma sequência alvo. A sequência de amostra pode incluir, por exemplo, sequências primer, sequências de flanqueamento e uma sequência alvo. O número de nucleotídeos dentro da sequência de amostra pode incluir 30, 40, 50, 60, 70, 80, 90, 100 ou mais. Em algumas implementações, uma ou mais das leituras de amostra (ou sequências de amostras) incluem pelo menos 150 nucleotídeos, 200 nucleotídeos, 300 nucleotídeos, 400 nucleotídeos, 500 nucleotídeos ou mais. Em algumas implementações, as leituras de amostra podem incluir mais de 1000 nucleotídeos, 2000 nucleotídeos ou mais. As leituras da amostra (ou as sequências da amostra) podem incluir sequências primer em uma ou nas duas extremidades.

[00228] Em seguida, os um ou mais processadores analisam os dados de sequenciamento para obter chamadas de variante em potencial e uma frequência de variante de amostra das chamadas de variante de amostra. A operação também pode ser referida como um aplicativo de chamada de variante ou chamador de variante. Assim, o chamador de variantes identifica ou detecta variantes e o classificador de variantes classifica as variantes detectadas como somáticas ou de linhagens germinativas. Os chamadores de variantes alternativos podem ser utilizados de acordo com as implementações deste documento, em que os diferentes chamadores de variantes podem ser utilizados com base no tipo de operação de sequenciamento que está sendo executada, com base em características da amostra que são de interesse e similares. Um exemplo não limitativo de um aplicativo de chamada de variante, como o aplicativo Pisces 'Y da Illumina Inc. (San Diego, CA) hospedado em https://github.com/Illumina/Pisces e descrito no artigo Dunn, Tamsen & Berry, Gwenn & Emig-Agius, Dorothea &

Jiang, Yu & lIyer, Anita & Udar, Nitin & Strômberg, Michael. (2017). Pisces: An Accurate and Versatile Single Sample Somatic and Germline Variant Caller. 595-595. 10.1145/3107411.3108203, cujo objeto completo é expressamente incorporado no presente documento por referência na sua totalidade.

[00229] Esse aplicativo de chamada de variante pode compreender quatro módulos executados sequencialmente:

[00230] (1) Concatenador de Leitura Pisces: reduz o ruído ao concatenar leituras pareadas em um BAM (leitura uma e leitura dois da mesma molécula) em leituras de consenso. A saída é um BAM concatenado.

[00231] (2) Chamador de Variante Pisces: gera SNVs pequenos, inserções e deleções. Pisces inclui um algoritmo de colapso de variante para unir variantes divididas por limites de leitura, algoritmos básicos de filtragem e um algoritmo simples de pontuação de confiança baseado em Poisson. À saída é um VCF.

[00232] (3) Recalibrador de Qualidade de Variante Pisces (VQR): no caso dos chamadores de variantes seguirem predominantemente um padrão associado a danos térmicos ou desaminação de FFPE, a etapa VOR rebaixará a pontuação de variante Q dos chamadores de variantes suspeitas. A saída é um VCF ajustado.

[00233] (4) Faseador de Variante Pisces (Scylla): usa um método de agrupamento ganancioso com suporte de leitura para montar pequenas variantes em alelos complexos a partir de subpopulações clonais. Isso permite a determinação mais precisa das consequências funcionais pelas ferramentas a jusante. A saída é um VCF ajustado.

[00234] Adicionalmente ou alternativamente, a operação pode utilizar o aplicativo Strelka'Y do aplicativo de geração variante da Illumina Inc. hospedado em https://github.com/lllumina/strelka e descrito no artigo T Saunders, Christopher & Wong, Wendy & Swamy, Sajani & Becq, Jennifer e J. Murray, Lisa e Cheetham, Keira. (2012). Strelka: Accurate somatic small-

variant calling from sequenced tumor-normal sample pairs. Bioinformatics (Oxford, England). 28. 1811-7. 10.1093/bioinformatics/bts271, cujo objeto completo é expressamente incorporado no presente documento por referência na sua totalidade. Além disso, adicionalmente ou alternativamente, a operação pode utilizar o aplicativo Strelka2"Y do aplicativo de geração de variante da lllumina Inc. hospedado em https://github.com/Illumina/strelka e descrito no artigo Kim, S., Scheffler, K,, Halpern, A.L., Bekritsky, M.A., Noh, E., Kállberg, M., Chen, X., Beyter, D., Krusche, P., e Saunders, C.T. (2017). Strelka2: Fast and accurate variant calling for clinical sequencing applications, cujo objeto completo é expressamente incorporado neste documento por referência em sua totalidade. Além disso, adicionalmente ou alternativamente, a operação pode utilizar uma ferramenta de anotação/geração de variante, como o aplicativo Nirvana TM da Ilumina Inc. hospedado em https://github.com/Illumina/Nirvana/wiki e descrito no artigo Stromberg, Michael & Roy, Rajat & Lajugie, Julien & Jiang, Yu & Li, Haochen & Margulies, Elliott. (2017). Nirvana: Clinical Grade Variant Annotator. 596-596.

10.1145/3107411.3108204, cujo objeto completo é expressamente incorporado no presente documento por referência na sua totalidade.

[00235] Essa ferramenta de anotação/geração de variante pode aplicar diferentes técnicas algorítmicas, como as divulgadas no Nirvana:

[00236] a ldentificação de todas as transcrições sobrepostas com Matriz de Intervalo: Para anotação funcional, podemos identificar todas as transcrições sobrepostas a uma variante e uma árvore de intervalo pode ser usada. No entanto, como um conjunto de intervalos pode ser estático, conseguimos otimizá-lo ainda mais para uma Matriz de Intervalo. Uma árvore de intervalo retorna todas as transcrições sobrepostas em O (min (n, Klg n)) tempo, em que n é o número de intervalos na árvore e k é o número de intervalos sobrepostos. Na prática, como k é realmente pequeno comparado a n para a maioria das variantes, o tempo de execução efetivo na árvore de intervalos seria O (K lg n). Aprimoramos para O (lg n + k) criando uma matriz de intervalos em que todos os intervalos são armazenados em uma matriz classificada, de forma que apenas precisamos encontrar o primeiro intervalo sobreposto e depois enumerar até o restante (k-1).

[00237] b. CNVs/SVs (Yu): podem ser fornecidas anotações para variação do número de cópias e variantes estruturais. Semelhante à anotação de pequenas variantes, transcrições sobrepostas ao SV e também variantes estruturais relatadas anteriormente podem ser anotadas em bancos de dados online. Diferentemente das pequenas variantes, nem todas as transcrições sobrepostas precisam ser anotadas, pois muitas transcrições serão sobrepostas com SVs grandes. Em vez disso, podem ser anotados todos os transcritos sobrepostos que pertencem a um gene sobreposto parcial. Especificamente, para essas transcrições, os íntrons, éxons e as consequências danificadas causadas pelas variantes estruturais podem ser relatados. Está disponível uma opção para permitir a saída de todas as transcrições sobrepostas, mas a informação básica para essas transcrições pode ser relatada, como símbolo do gene, sinalizando se é sobreposição canônica ou parcialmente sobreposta às transcrições. Para cada SV/CNV, também é interessante saber se essas variantes foram estudadas e suas frequências em diferentes populações. Portanto, relatamos SVs sobrepostos em bancos de dados externos, como 1000 genomas, DGV e ClinGen. Para evitar o uso de um ponto de corte arbitrário para determinar qual SV é sobreposto, em vez disso, todas as transcrições sobrepostas podem ser usadas e a sobreposição recíproca pode ser calculada, ou seja, o comprimento da sobreposição dividido pelo comprimento mínimo dessas duas SVs.

[00238] c. Relatar anotações suplementares: as anotações suplementares são de dois tipos: variantes pequenas e estruturais (SVs). As SVs podem ser modeladas como intervalos e usar a matriz de intervalos discutida acima para identificar SVs sobrepostas. Pequenas variantes são modeladas como pontos e correspondidas por posição e (opcionalmente) alelo. Como tal, elas são pesquisadas usando um algoritmo de pesquisa tipo binário. Como o banco de dados de anotação suplementar pode ser bastante grande, um índice muito menor é criado para mapear as posições dos cromossomos para localização de arquivos onde a anotação suplementar reside. O índice é uma matriz classificada de objetos (composta de posição do cromossomo e localização do arquivo) que podem ser pesquisados binariamente usando a posição. Para manter o tamanho do índice pequeno, várias posições (até uma certa contagem máxima) são compactadas em um objeto que armazena os valores para a primeira posição e apenas deltas para posições subsequentes. Como usamos a pesquisa binária, o tempo de execução é O(lg n), onde n é o número de itens no banco de dados.

[00239] d.Arquivosem cache VEP

[00240] eBanco de dados de transcrição: os arquivos de banco de dados suplementar (SAdb) e cache de transcrição (cache) e são despejos serializados de objetos de dados, como transcrições e anotações suplementares. Usamos o cache Ensembl VEP como nossa fonte de dados para o cache. Para criar o cache, todas as transcrições são inseridas em uma matriz de intervalo e o estado final da matriz é armazenado nos arquivos de cache. Assim, durante a anotação, precisamos apenas carregar uma matriz de intervalos pré-calculada e realizar pesquisas nela. Como o cache é carregado na memória e a pesquisa é muito rápida (descrita acima), encontrar transcrições sobrepostas é extremamente rápido no Nirvana (com perfil de menos de 1% do tempo de execução total?).

[00241] f. Banco de dados suplementar: as fontes de dados SAdb estão listadas sob material suplementar. O SAdb para pequenas variantes é produzido por uma mesclagem k -way de todas as fontes de dados, de modo que cada objeto no banco de dados (identificado pelo nome e posição de referência) mantenha todas as anotações adicionais relevantes. Os problemas encontrados durante a análise dos arquivos da fonte de dados foram documentados em detalhes na home page do Nirvana. Para limitar o uso da memória, apenas o índice SA é carregado na memória. Esse índice permite uma pesquisa rápida do local do arquivo para uma anotação suplementar. No entanto, como os dados precisam ser buscados no disco, a adição de anotação suplementar foi identificada como o maior gargalo do Nirvana (com perfil de — 30% do tempo de execução total).

[00242] g. Ontologia de Sequência e Consequência: A anotação funcional do Nirvana (quando fornecida) segue as diretrizes da Ontologia de Sequência (SO) (http://www.sequenceontology.org/). Em algumas ocasiões, tivemos a oportunidade de identificar problemas na SO atual e colaborar com a equipe da SO para melhorar o estado da anotação.

[00243] Essaferramenta de anotação de variantes pode incluir pré- processamento. Por exemplo, o Nirvana incluiu um grande número de anotações de fontes de dados externas, como ExAC, EVS, projeto 1000 Genomes, dbSNP, ClinVar, Cosmic, DGV e ClinGen. Para fazer pleno uso desses bancos de dados, precisamos sanear as informações deles. Implementamos diferentes estratégias para lidar com diferentes conflitos que existem em diferentes fontes de dados. Por exemplo, no caso de várias entradas do dbSNP para a mesma posição e alelo alternativo, juntamos todos os IDs em uma lista de IDs separados por vírgula; se houver várias entradas com diferentes valores de CAF para o mesmo alelo, usamos o primeiro valor de CAF. Para entradas ExAC e EVS conflitantes, consideramos o número de contagens de amostras e a entrada com maior contagem de amostras é usada. No projeto 1000 Genome, removemos a frequência alélica do alelo conflitante. Outro problema são informações imprecisas. Extraímos principalmente as informações de frequências alélicas do 1000 Genome Projects, no entanto, observamos que, para GRCh38, a frequência alélica relatada no campo info não excluiu amostras com o genótipo não disponível, levando a frequências deflacionadas para variantes que não estão disponíveis para todas as amostras. Para garantir a precisão de nossa anotação, usamos todo o genótipo a nível individual para calcular as verdadeiras frequências alélicas. Como sabemos, as mesmas variantes podem ter representações diferentes com base em alinhamentos diferentes. Para garantir que possamos relatar com precisão as informações das variantes já identificadas, precisamos pré-processar as variantes de diferentes recursos para que elas tenham uma representação consistente. Para todas as fontes de dados externas, aparamos alelos para remover nucleotídeos duplicados no alelo de referência e no alelo alternativo. Para o ClinVar, analisamos diretamente o arquivo xml, realizamos um alinhamento de cinco números primos para todas as variantes, que geralmente é usado no arquivo vcf. Bancos de dados diferentes podem conter o mesmo conjunto de informações. Para evitar duplicatas desnecessárias, removemos algumas informações duplicadas. Por exemplo, removemos variantes no DGV que possui fonte de dados como os projetos 1000 Genome, pois já relatamos essas variantes em 1000 genomes com informações mais detalhadas.

[00244] De acordo com pelo menos algumas implementações, o aplicativo de chamada de variante fornece chamadores para variantes de baixa frequência, chamada de linhagem germinativa e similares. Como exemplo não limitativo, o aplicativo de chamada de variante pode ser executado em amostras apenas de tumor e/ou amostras pareadas normais de tumor. O aplicativo de chamada de variante pode procurar variações de nucleotídeo único (SNV), múltiplas variações de nucleotídeo (MNV), indels e similares. O aplicativo de chamada de variante identifica variantes, enquanto filtra as incompatibilidades devido a erros de sequenciamento ou erro de preparação de amostras. Para cada variante, os chamadores de variante identificam a sequência de referência, uma posição da variante e a(s) sequência(s) de variante em potencial (por exemplo, SNV de A a C, ou deleção AG a A). O aplicativo de chamada de variante identifica a sequência de amostra (ou fragmento de amostra), uma sequência/fragmento de referência e uma chamada de variante como uma indicação de que uma variante está presente. O aplicativo de chamada de variante pode identificar fragmentos não processados e gerar uma designação dos fragmentos não processados, uma contagem do número de fragmentos não processados que verificam a chamada de variante potencial, a posição dentro do fragmento não processado em que ocorreu uma variante de suporte e outras informações relevantes. Exemplos não limitativos de fragmentos brutos incluem um fragmento concatenado duplex, um fragmento concatenado simplex, um fragmento não concatenado duplex e um fragmento não concatenado simplex.

[00245] O aplicativro de chamada de variante pode gerar as chamadas em vários formatos, como em um arquivo .VCF ou .GVCF. Apenas a título de exemplo, o aplicativo de chamada de variante pode ser incluído em um pipeline MiSegReporter (por exemplo, quando implementado no instrumento sequenciador MiSegO). Opcionalmente, o aplicativo pode ser implementado com vários fluxos de trabalho. A análise pode incluir um único protocolo ou uma combinação de protocolos que analisam as leituras da amostra de uma maneira designada para obter as informações desejadas.

[00246] Em seguida, os um ou mais processadores executam uma operação de validação em conexão com a chamada de variante potencial. À operação de validação pode ser baseada em uma pontuação de qualidade e/ou em uma hierarquia de testes em camadas, conforme explicado a seguir. Quando a operação de validação autêntica ou verifica a chamada de variante potencial, a operação de validação passa as informações da chamada de variante (do aplicativo de chamada de variante) para o gerador de relatório de amostra. Como alternativa, quando a operação de validação invalida ou desqualifica a chamada de variante potencial, a operação de validação passa uma indicação correspondente (por exemplo, um indicador negativo, um indicador de não chamada, um indicador de chamada inválido) para o gerador de relatório de amostra. A operação de validação também pode passar uma pontuação de confiança relacionada a um grau de confiança que a chamada de variante está correta ou a designação de chamada inválida está correta.

[00247] Em seguida, os um ou mais processadores geram e armazenam um relatório de amostra. O relatório de amostra pode incluir, por exemplo, informações sobre uma pluralidade de loci genéticos em relação à amostra. Por exemplo, para cada locus genético de um conjunto predeterminado de loci genéticos, o relatório de amostra pode pelo menos um dentre fornecer uma chamada de genótipo; indicar que uma chamada de genótipo não pode ser feita; fornecer uma pontuação de confiança em uma certeza da chamada do genótipo; ou indicar possíveis problemas com um ensaio em relação a um ou mais loci genéticos. O relatório de amostra também pode indicar o gênero de um indivíduo que forneceu uma amostra e/ou indicar que a amostra inclui várias fontes. Conforme usado neste documento, um "relatório de amostra" pode incluir dados digitais (por exemplo, um arquivo de dados) de um locus genético ou conjunto predeterminado de locus genético e/ou um relatório impresso do locus genético ou dos conjuntos de loci genéticos. Assim, gerar ou fornecer pode incluir a criação de um arquivo de dados e/ou impressão do relatório de amostra ou exibição do relatório de amostra.

[00248] O relatório de amostra pode indicar que uma chamada de variante foi determinada, mas não foi validada. Quando uma chamada de variante é considerada inválida, o relatório de amostra pode indicar informações adicionais sobre a base para a determinação de não validar a chamada de variante. Por exemplo, as informações adicionais no relatório podem incluir uma descrição dos fragmentos brutos e uma extensão (por exemplo, uma contagem) na qual os fragmentos brutos suportam ou contradizem a chamada de variante. Adicional ou alternativamente, as informações adicionais no relatório podem incluir a pontuação de qualidade obtida de acordo com as implementações descritas neste documento.

Aplicativo de Chamada de Variante

[00249] As implementações divulgadas neste documento incluem a análise de dados de sequenciamento para identificar chamadas de variantes potenciais. A chamada de variante pode ser realizada com dados armazenados para uma operação de sequenciamento realizada anteriormente. Adicionalmente ou alternativamente, pode ser realizado em tempo real enquanto uma operação de sequenciamento está sendo executada. Cada uma das leituras da amostra é atribuída aos loci genéticos correspondentes. As leituras da amostra podem ser atribuídas aos loci genéticos correspondentes com base na sequência dos nucleotídeos da amostra lida ou, em outras palavras, na ordem dos nucleotídeos na leitura da amostra (por exemplo, A, C, G, T). Com base nessa análise, a amostra lida pode ser designada como incluindo uma possível variante/alelo de um locus genético específico. A leitura da amostra pode ser coletada (ou agregada ou agrupada) com outras leituras da amostra que foram designadas como incluindo possíveis variantes/alelos do locus genético. À operação de atribuição também pode ser referida como uma operação de chamada na qual a leitura da amostra é identificada como possivelmente associada a uma posição/locus genético específico. As leituras de amostra podem ser analisadas para localizar uma ou mais sequências de identificação (por exemplo, sequências primer) de nucleotídeos que diferenciam a leitura de amostra de outras leituras de amostra. Mais especificamente, a(s) sequência(s) de identificação pode(m) identificar a leitura de amostra de outras amostras como estando associada a um locus genético específico.

[00250] A operação de atribuição pode incluir a análise da série de n nucleotídeos da sequência de identificação para determinar se a série de n nucleotídeos da sequência de identificação combina efetivamente com uma ou mais das sequências selecionadas. Em implementações particulares, a operação de atribuição pode incluir a análise dos primeiros n nucleotídeos da sequência de amostra para determinar se os primeiros n nucleotídeos da sequência de amostra correspondem efetivamente a uma ou mais das sequências selecionadas. O número n pode ter uma variedade de valores, que podem ser programados no protocolo ou inseridos por um usuário. Por exemplo, o número n pode ser definido como o número de nucleotídeos da menor sequência de seleção dentro do banco de dados. O número n pode ser um número predeterminado. O número predeterminado pode ser, por exemplo, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29 ou 30 nucleotídeos. No entanto, menos ou mais nucleotídeos podem ser usados em outras implementações. O número n também pode ser selecionado por um indivíduo, como um usuário do sistema. O número n pode ser baseado em uma ou mais condições. Por exemplo, o número n pode ser definido como o número de nucleotídeos da sequência primer mais curta dentro do banco de dados ou de um número designado, o que for menor em número. Em algumas implementações, um valor mínimo para n pode ser usado, como 15, de modo que qualquer sequência primer que seja menor que 15 nucleotídeos possa ser designada como uma exceção.

[00251] Em alguns casos, a série de n nucleotídeos de uma sequência de identificação pode não corresponder exatamente aos nucleotídeos da sequência de seleção. No entanto, a sequência de identificação pode efetivamente corresponder à sequência de seleção se a sequência de identificação for quase idêntica à sequência de seleção. Por exemplo, a leitura da amostra pode ser chamada para o locus genético se a série de n nucleotídeos (por exemplo, os primeiros n nucleotídeos) da sequência de identificação corresponderem a uma sequência selecionada com não mais que um número designado de incompatibilidades (por exemplo, 3) e/ou um número designado de deslocamentos (por exemplo, 2). Regras podem ser estabelecidas de modo que cada incompatibilidade ou deslocamento possa contar como uma diferença entre a leitura da amostra e a sequência primer. Se o número de diferenças for menor que um número designado, a leitura da amostra poderá ser chamada para o locus genético correspondente (ou seja, atribuído ao locus genético correspondente). Em algumas implementações, uma pontuação correspondente pode ser determinada com base no número de diferenças entre a sequência de identificação da leitura da amostra e a sequência selecionada associada a um locus genético. Se a pontuação correspondente ultrapassar um limite de correspondência designado, o locus genético que corresponde à sequência selecionada pode ser designado como um locus potencial para a leitura da amostra. Em algumas implementações, análises subsequentes podem ser realizadas para determinar se a leitura da amostra é chamada para o locus genético.

[00252] Sealeiturada amostra corresponder efetivamente a uma das sequências selecionadas no banco de dados (ou seja, corresponde exatamente ou quase corresponde conforme descrito acima), a leitura da amostra é atribuída ou designada ao locus genético que se correlaciona com a sequência selecionada. Isso pode ser chamado de chamada de locus ou chamada de locus provisória, em que a leitura da amostra é chamada para o locus genético que se correlaciona com a sequência selecionada. No entanto, como discutido acima, uma leitura de amostra de pode ser solicitada para mais de um locus genético. Em tais implementações, análises adicionais podem ser realizadas para chamar ou atribuir a leitura de amostra para apenas um dos potenciais loci genéticos. Em algumas implementações, a leitura de amostra comparada ao banco de dados de sequências de referência é a primeira leitura do sequenciamento de extremidade pareada. Ao executar o sequenciamento de extremidade pareada, é obtida uma segunda leitura (representando um fragmento bruto) que se correlaciona com a leitura de amostra. Após a atribuição, a análise subsequente que é realizada com as leituras atribuídas pode ser baseada no tipo de locus genético que foi chamado para a leitura atribuída.

[00253] Em seguida, as leituras de amostra são analisadas para identificar possíveis variantes chamadas. Entre outras coisas, os resultados da análise identificam a variante chamada potencial, uma frequência de variante de amostra, uma sequência de referência e uma posição na sequência genômica de interesse em que a variante ocorreu. Por exemplo, se um locus genético for conhecido por incluir SNP's, as leituras atribuídas que foram chamadas para o locus genético poderão ser analisadas para identificar os SNP's das leituras atribuídas. Se o locus genético for conhecido por incluir elementos de DNA repetitivo polimórfico, as leituras atribuídas poderão ser analisadas para identificar ou caracterizar os elementos de DNA repetitivo polimórfico nas leituras da amostra. Em algumas implementações, se uma leitura atribuída corresponder efetivamente a um locus STR e um locus SNP, um aviso ou sinalizador poderá ser atribuído à leitura de amostra. A leitura da amostra pode ser designada como um locus STR e um locus SNP. A análise pode incluir o alinhamento das leituras atribuídas de acordo com um protocolo de alinhamento para determinar sequências e/ou comprimentos das leituras atribuídas. O protocolo de alinhamento pode incluir o método descrito no Pedido de Patente Internacional Nº PCT/US2013/030867 (Publicação Nº WO 2014/142831), depositado em 15 de março de 2013, que é incorporado neste documento por referência na sua totalidade.

[00254] Em seguida, um ou mais processadores analisam fragmentos brutos para determinar se existem variantes de suporte nas posições correspondentes nos fragmentos brutos. Vários tipos de fragmentos brutos podem ser identificados. Por exemplo, o chamador de variante pode identificar um tipo de fragmento bruto que exibe uma variante que valida a variante chamada original. Por exemplo, o tipo de fragmento bruto pode representar um fragmento concatenado duplex, um fragmento concatenado simplex, um fragmento não concatenado duplex ou um fragmento não concatenado simplex. Opcionalmente, outros fragmentos brutos podem ser identificados em vez de ou além dos exemplos anteriores. Em conexão com a identificação de cada tipo de fragmento bruto, o chamador da variante também identifica a posição, dentro do fragmento bruto, na qual a variante de suporte ocorreu, bem como uma contagem do número de fragmentos brutos que exibiram a variante de suporte. Por exemplo, o chamador variante pode gerar uma indicação de que 10 leituras de fragmentos brutos foram identificadas para representar fragmentos concatenados duplex com uma variante de suporte em uma posição específica X. O chamador variante também pode gerar indicação de que cinco leituras de fragmentos brutos foram identificadas para representar fragmentos não concatenados simplex com uma variante de suporte em uma posição específica Y. O chamador da variante também pode gerar um número de fragmentos brutos que corresponderam às sequências de referência e, portanto, não incluiu uma variante de suporte que, de outra forma, forneceria evidências para validar a variante chamada potencial na sequência genômica de interesse.

[00255] Em seguida, é mantida uma contagem dos fragmentos brutos que incluem variantes de suporte, bem como a posição na qual a variante de suporte ocorreu. Adicionalmente ou alternativamente, pode ser mantida uma contagem dos fragmentos brutos que não incluíram variantes de suporte na posição de interesse (em relação à posição da chamada de variante potencial na leitura da amostra ou fragmento da amostra). Adicional ou alternativamente, uma contagem pode ser mantida de fragmentos brutos que correspondem a uma sequência de referência e não autenticam ou confirmam a chamada de variante potencial. As informações determinadas são geradas para o aplicativo de validação de chamada de variante, incluindo uma contagem e o tipo de fragmentos brutos que suportam a chamada de variante potencial, posições da variância de suporte nos fragmentos brutos, uma contagem dos fragmentos brutos que não suportam a chamada de variante potencial e afins.

[00256] Quando uma chamada de variante potencial é identificada, Oo processo gera uma indicação da chamada de variante potencial, a sequência da variante, a posição da variante e uma sequência de referência associada a ela. A chamada de variante é designada para representar uma variante "potencial", pois erros podem fazer com que o processo de chamada identifique uma variante falsa. De acordo com as implementações deste documento, a chamada de variante em potencial é analisada para reduzir e eliminar variantes falsas ou falsos positivos. Adicional ou alternativamente, o processo analisa um ou mais fragmentos brutos associados a uma leitura de amostra e gera uma chamada de variante correspondente associada aos fragmentos brutos.

Aprendizagem Profunda em Genômica

[00257] Variações genéticas podem ajudar a explicar muitas doenças. Todo ser humano tem um código genético único e há muitas variantes genéticas dentro de um grupo de indivíduos. A maioria das variantes genéticas deletérias foi depletada dos genomas por seleção natural. É importante identificar quais variações genéticas podem ser patogênicas ou deletérias. Isso ajudará os pesquisadores a se concentrarem nas prováveis variantes genéticas patogênicas e a acelerar o ritmo de diagnóstico e cura de muitas doenças.

[00258] Modelar as propriedades e os efeitos funcionais (por exemplo, patogenicidade) das variantes é uma tarefa importante, mas desafiadora, no campo da genômica. Apesar do rápido avanço das tecnologias funcionais de sequenciamento genômico, a interpretação das consequências funcionais das variantes continua sendo um grande desafio devido à complexidade dos sistemas de regulação de transcrição específicos do tipo de célula.

[00259] Em relação aos classificadores de patogenicidade, as redes neurais profundas são um tipo de redes neurais artificiais que usam várias camadas transformadoras não-lineares e complexas para modelar sucessivamente recursos de alto nível. As redes neurais profundas fornecem feedback via retropropagação, que carrega a diferença entre a saída observada e a prevista para ajustar os parâmetros. As redes neurais profundas evoluíram com a disponibilidade de grandes conjuntos de dados de treinamento, o poder da computação distribuída e paralela e algoritmos sofisticados de treinamento. As redes neurais profundas facilitaram grandes avanços em vários domínios, como visão computacional, reconhecimento de fala e processamento de linguagem natural.

[00260] Redes neurais convolucionais (CNNs) e redes neurais recorrentes (RNNs) são componentes de redes neurais profundas. As redes neurais convolucionais tiveram sucesso, particularmente, no reconhecimento de imagens com uma arquitetura que compreende camadas de convolução, camadas não lineares e camadas de pool. As redes neurais recorrentes são projetadas para utilizar informações sequenciais de dados de entrada com conexões cíclicas entre blocos de construção como perceptrons, unidades de memória de longo prazo e unidades recorrentes fechadas. Além disso, muitas outras redes neurais profundas emergentes foram propostas para contextos limitados, como redes neurais espaço-temporais profundas, redes neurais recorrentes multidimensionais e auto-codificadores convolucionais.

[00261] O objetivo de treinar redes neurais profundas é a otimização dos parâmetros de peso em cada camada, que combina gradualmente recursos mais simples em recursos complexos, para que as representações hierárquicas mais adequadas possam ser aprendidas com os dados. Um único ciclo do processo de otimização é organizado da seguinte maneira. Primeiro, dado um conjunto de dados de treinamento, o forward pass calcula sequencialmente a saída em cada camada e propaga os sinais da função para frente através da rede. Na camada de saída final, uma função de perda objetiva mede o erro entre as saídas inferidas e os rótulos fornecidos. Para minimizar o erro de treinamento, o backward pass usa a regra da cadeia para retropropagar sinais de erro e calcular gradientes em relação a todos os pesos ao longo de toda a rede neural. Finalmente, os parâmetros de peso são atualizados usando algoritmos de otimização baseados na descida do gradiente estocástico. Enquanto a descida do gradiente em lote executa atualizações de parâmetros para cada conjunto de dados completo, a descida do gradiente estocástico fornece aproximações estocásticas executando as atualizações para cada pequeno conjunto de exemplos de dados. Vários algoritmos de otimização decorrem da descida do gradiente estocástico. Por exemplo, os algoritmos de treinamento Adagrad e Adam executam descida do gradiente estocástico enquanto modificam adaptativamente as taxas de aprendizagem com base na frequência de atualização e nos momentos dos gradientes para cada parâmetro, respectivamente.

[00262] Outro elemento central no treinamento de redes neurais profundas é a regularização, que se refere a estratégias destinadas a evitar o sobreajuste e, assim, alcançar um bom desempenho de generalização. Por exemplo, a redução de peso adiciona um termo de penalidade à função de perda objetiva, para que os parâmetros de peso convirjam para valores absolutos menores. O dropout remove aleatoriamente unidades ocultas das redes neurais durante o treinamento e pode ser considerado um conjunto de possíveis sub-redes. Para aprimorar os recursos de dropout, foram propostas uma nova função de ativação, maxout e uma variante de dropout para redes neurais recorrentes denominadas rnnDrop. Além disso, a normalização de lote fornece um novo método de regularização através da normalização de recursos escalares para cada ativação dentro de um minilote e aprendendo cada média e variação como parâmetros.

[00263] Dado que os dados sequenciados são multidimensionais e de alta dimensão, as redes neurais profundas têm grandes promessas para a pesquisa em bioinformática devido à sua ampla aplicabilidade e poder de previsão aprimorado. As redes neurais convolucionais foram adaptadas para resolver problemas genômicos baseados em sequências, como descoberta de motivos, identificação de variantes patogênicas e inferência de expressão gênica. As redes neurais convolucionais usam uma estratégia de compartilhamento de peso que é especialmente útil para o estudo de DNA,

pois pode capturar motivos de sequência, que são padrões locais recorrentes e curtos no DNA, que se presume ter funções biológicas significativas. Uma característica das redes neurais convolucionais é o uso de filtros de convolução. Diferentemente das abordagens de classificação tradicionais baseadas em recursos elaborados e criados manualmente, os filtros de convolução realizam um aprendizado adaptável dos recursos, análogo a um processo de mapeamento de dados brutos de entrada para a representação informativa do conhecimento. Nesse sentido, os filtros de convolução servem como uma série de scanners de motivos, pois um conjunto desses filtros é capaz de reconhecer padrões relevantes na entrada e se atualizar durante o procedimento de treinamento. Redes neurais recorrentes podem capturar dependências de longo alcance em dados sequenciais de comprimentos variados, como sequências de proteínas ou DNA.

[00264] Portanto, um modelo computacional poderoso para prever a patogenicidade de variantes pode trazer enormes benefícios tanto para a ciência básica quanto para a pesquisa translacional.

[00265] Atualmente, apenas 25 a 30% dos pacientes com doenças raras recebem um diagnóstico molecular a partir do exame da sequência de codificação da proteína, sugerindo que o rendimento diagnóstico restante pode residir nos 99% do genoma que não é codificante. Aqui, descrevemos uma nova rede de aprendizagem profunda que prevê com precisão junções de splice a partir da sequência de transcrição arbitrária de pré-mRNA, permitindo a previsão precisa dos efeitos de alteração de splice de variantes não codificadas. Mutações sinônimas e intrônicas com consequência prevista de alteração de splice são válidas em alta taxa no RNA-seq e são fortemente deletérias na população humana. Mutações de novo com consequência prevista de alteração de splice são significativamente enriquecidas em pacientes com autismo e deficiência intelectual em comparação com controles saudáveis e validadas contra dados do RNA-seq em 21 de 28 desses pacientes. Estimamos que 9-11% das mutações patogênicas em pacientes com doenças genéticas raras são causadas por essa classe de variação da doença anteriormente subestimada.

[00266] O sequenciamento do exoma transformou o diagnóstico clínico de pacientes e famílias com doenças genéticas raras e, quando empregado como teste de primeira linha, reduz significativamente o tempo e os custos da odisséia diagnóstica (Monroe et al., 2016; Stark et al., 2016; Tan et al., 2017). No entanto, o rendimento diagnóstico do sequenciamento de exoma é de —-25 a 30% em coortes de doenças genéticas raras, deixando a maioria dos pacientes sem diagnóstico mesmo após testes combinados de exoma e microarranjo (Lee et al., 2014; Trujillano et al., 2017; Yang et al., 2014). As regiões não codificantes desempenham um papel significativo na regulação gênica e respondem por 90% dos locis de doenças causais descobertos em estudos imparciais de associação de doenças do complexo humano em todo o genoma (Ernst et al., 2011; Farh et al., 2015; Maurano et al., 2012), sugerindo que variantes não codificantes penetrantes também podem ser responsáveis por uma carga significativa de mutações causais em doenças genéticas raras. De fato, variantes penetrantes não codificantes que interrompem o padrão normal de splicing de MRNA, apesar de estarem fora dos dinucleotídeos essenciais de splice de GT e AG, muitas vezes conhecidas como variantes de splice crípticas, há muito tempo são reconhecidas por desempenhar um papel significativo em doenças genéticas raras (Cooper et al., 2009; Padgett, 2012; Scotti e Swanson, 2016; Wang e Cooper, 2007). No entanto, as mutações de splice crípticas são frequentemente negligenciadas na prática clínica, devido ao nosso entendimento incompleto do código de splice e à dificuldade resultante em identificar com precisão as variantes que alteram o splice fora dos dinucleotídeos GT e AG essenciais (Wang e Burge, 2008).

[00267] Recentemente, o RNA-segq emergiu como um ensaio promissor para detectar anormalidades de splicing nos distúrbios mendelianos (Cummings et al., 2017; Kremer et al., 2017), mas até agora sua utilidade em um ambiente clínico permanece limitada a uma minoria de casos em que o tipo de célula relevante é conhecido e acessível à biópsia. Os ensaios de triagem de alto rendimento de possíveis variantes (Soemedi et al., 2017) de alteração de splice expandiram a caracterização da variação de splice, mas são menos práticos para avaliar mutações aleatórias de novo em doenças genéticas, uma vez que o espaço genômico em que podem ocorrer mutações que alteram o splice é extremamente grande. A predição geral de splicing a partir da sequência arbitrária de pré-mRNA potencialmente permitiria a previsão precisa das consequências da alteração de splice de variantes não codificantes, melhorando substancialmente o diagnóstico em pacientes com doenças genéticas. Até o momento, um modelo preditivo geral de splicing a partir da sequência bruta que aborda a especificidade do spliceossoma permanece incerto, apesar do progresso em aplicações específicas, como modelar as características de sequência dos motivos de splicing principais (Yeo e Burge, 2004), caracterizar aprimoradores e silenciadores de splice exônicos (Fairbrother et al., 2002; Wang et al., 2004) e prever a inclusão de um éxon cassete (Barash et al., 2010; Jha et al., 2017; Xiong et al., 2015).

[00268] A junção de pré-mRNAs longos em transcritos maduros é notável por sua precisão e pela gravidade clínica das mutações que alteram o Splice, mas os mecanismos pelos quais a maquinaria celular determina sua especificidade permanecem não compreendidos por completo. Aqui, treinamos uma rede de aprendizagem profunda que aborda a precisão do spliceossoma in silico, identificando os limites do éxon-íntron da sequência pré-mRNA com 95% de precisão e prevendo mutações de splice funcionais crípticas com uma taxa de validação superior a 80% no RNA-seq. As variantes não codificadas previstas para alterar o splicing são fortemente deletérias na população humana, com 80% das mutações de splice crípticas recém-criadas experimentando seleção negativa, semelhante ao impacto de outras classes de variação truncante de proteínas. Mutações de splice crípticas de novo em pacientes com autismo e deficiência intelectual atingem os mesmos genes que são mutados recorrentemente por mutações truncantes de proteínas, permitindo a descoberta de genes de doenças candidato adicional. Estimamos que até 24% das mutações causais penetrantes em pacientes com doenças genéticas raras são devidas a essa classe de variação da doença anteriormente subestimada, destacando a necessidade de melhorar a interpretação dos 99% do genoma que não codifica para aplicações de sequenciamento clínico.

[00269] O sequenciamento clínico do exoma revolucionou o diagnóstico para pacientes e famílias com doenças genéticas raras e, quando empregado como teste de primeira linha, reduz significativamente o tempo e os custos da odisséia diagnóstica. No entanto, o rendimento diagnóstico para sequenciamento de exoma foi relatado em 25 a 30% em várias coortes grandes de pacientes com doenças raras e seus pais, deixando a maioria dos pacientes sem diagnóstico, mesmo após testes combinados de exoma e microarranjo. O genoma não codificante é altamente ativo na regulação gênica, e as variantes não codificadoras representam cerca de 90% das ocorrências do GWAS para doenças comuns, sugerindo que variantes raras no genoma não codificante também podem ser responsáveis por uma fração significativa de mutações causais em doenças penetrantes, como distúrbios genéticos raros e oncologia. No entanto, a dificuldade de interpretar variantes no genoma não codificante significa que, fora das grandes variantes estruturais, o genoma não codificante atualmente oferece pouco benefício diagnóstico adicional em relação às variantes penetrantes raras que têm maior impacto no manejo clínico.

[00270] O papel das mutações que alteram o splice fora dos dinucleotídeos de splice GT e AG canônicos tem sido muito apreciado em doenças raras. De fato, essas variantes de splice crípticas são as mutações mais comuns para alguns distúrbios genéticos raros, como a doença do armazenamento de glicogênio XI (doença de Pompe) e a protoporfiria eritropoética. Os motivos de splice estendidos nas extremidades 5 'e 3' dos íntrons são altamente degenerados e motivos igualmente bons ocorrem frequentemente no genoma, fazendo uma previsão precisa de quais variantes não codificantes podem tornar o splice críptico impraticável com os métodos existentes.

[00271] Para entender melhor como o spliceossoma atinge sua especificidade, treinamos uma rede neural de aprendizagem profunda para prever cada nucleotídeo em uma transcrição pré-mRNA, se era um aceptor de splice, um doador de splice ou nenhum, usando apenas a sequência de transcrição como entrada (FIGURA 37A). Usando transcrições canônicas nos cromossomos pares como um conjunto de treinamento e transcrições nos cromossomos ímpares para testes (com parálogos excluídos), a rede de aprendizagem profunda chama limites de éxon-íntrons com 95% de precisão e até transcrições superiores a 100 KB, como CFTR, são frequentemente reconstruídos perfeitamente com precisão de nucleotídeos (FIGURA 37B).

[00272] Em seguida, procuramos entender os determinantes da especificidade usados pela rede para reconhecer os limites de éxon-íntron com uma precisão notável. Em contraste com os classificadores anteriores que operam em recursos estatísticos ou de engenharia humana, a aprendizagem profunda aprende diretamente os recursos da sequência de maneira hierárquica, permitindo que uma especificidade adicional seja transmitida no contexto da sequência de longo alcance. De fato, descobrimos que a precisão da rede é altamente dependente do tamanho do contexto de sequência que flanqueia o nucleotídeo sob previsão fornecida como entrada na rede (Tabela 1) e quando treinamos um modelo de aprendizagem profunda que usa apenas 40-nt de sequência, o desempenho excede apenas moderadamente os métodos estatísticos existentes. Isso indica que a aprendizagem profunda acrescenta pouco sobre os métodos estatísticos existentes para reconhecer motivos individuais de splicing de 9 a 23nt, mas um contexto de sequência mais amplo é a chave para distinguir sítios de splice funcional de sítios não funcionais com motivos igualmente fortes. Pedir à rede que preveja os éxons onde a sequência é interrompida mostra que a interrupção do motivo do doador normalmente também faz com que o sinal aceptor desapareça (FIGURA 37C), como é frequentemente observado com eventos de salto do éxon in vivo, indicando que um grau significativo de especificidade é concedida simplesmente exigindo o emparelhamento entre motivos fortes de aceptores e doadores a uma distância aceitável.

[00273] Embora um grande conjunto de evidências tenha mostrado que a interrupção experimental do comprimento dos éxons tem fortes efeitos sobre a inclusão de éxons versus o salto de éxons, isso não explica por que a precisão da rede de aprendizagem profunda continua a aumentar além de 1000 nt de contexto. Para diferenciar melhor entre a especificidade orientada por motivos de splice local e os determinantes de especificidade de longa distância, treinamos uma rede local que leva apenas como entrada 100-nt de contexto. Usando a rede local para pontuar junções conhecidas, descobrimos que éxons e íntrons têm comprimentos ótimos (-115nt para éxons, — 1000nt para íntrons) nos quais a força do motivo é mínima (FIGURA 37D). Essa relação não está presente na rede de aprendizagem profunda de 10000 nt (FIGURA 37E), indicando que a variabilidade no comprimento do íntron e do éxon já está totalmente fatorada na rede de aprendizagem profunda de amplo contexto. Notavelmente, os limites de íntrons e éxons nunca foram dados ao modelo de aprendizado profundo em contexto amplo, indicando que ele era capaz de derivar essas distâncias inferindo posições de éxons e íntrons somente a partir da sequência.

[00274] Uma pesquisa sistemática do espaço hexâmero também indicou que a rede de aprendizagem profunda utiliza motivos na definição de éxon-íntron, particularmente o motivo de ponto de ramificação TACTAAC das posições -34 a -14, o potencializador de splice exônico GAAGAA bem caracterizado próximo ao final dos éxons, e motivos poli-U que normalmente fazem parte do trato de polipirimidina, mas também parecem atuar como silenciadores de splice exônicos (FIGURAS 21, 22, 23, e 24).

[00275] Estendemos a rede de aprendizagem profunda à avaliação de variantes genéticas para a função de alteração de splice, prevendo limites de éxon-íntron tanto na sequência de transcrição de referência quanto na sequência alternativa de transcrição que contém a variante, e procurando alterações nos limites de éxon-íntron. A recente disponibilidade de dados agregados do exoma de 60,706 humanos nos permite avaliar os efeitos da seleção negativa em variantes previstas para alterar a função de splice examinando sua distribuição no espectro de frequências alélicas. Descobrimos que as variantes de splice crípticas previstas estão fortemente sob seleção negativa (FIGURA 38A), como evidenciado por sua depleção relativa em altas frequências alélicas em comparação com as contagens esperadas, e sua magnitude de depleção é comparável às variantes de interrupção de splice AG ou GT e variantes stop gain. O impacto da seleção negativa é maior quando se considera variantes de splice crípticas que causariam frameshift em relação àquelas que causam alterações no quadro (FIGURA 38B). Com base na depleção das variantes de splice crípticas de frameshift em comparação com outras classes de variação de truncamento de proteínas, estimamos que 88% das mutações de splice crípticas previstas com confiança são funcionais.

[00276] Embora não existam tantos dados agregados do genoma inteiro quanto os dados do exoma, limitando o poder de detectar o impacto da seleção natural em regiões intrônicas profundas, também fomos capazes de calcular as contagens observadas vs esperadas de mutações de splice crípticas longe das regiões exônicas. No geral, observamos uma depleção de 60% nas mutações de splice crípticas a uma distância de > 50nt de um limite de éxon-íntron (FIGURA 38C). O sinal atenuado é provavelmente uma combinação do tamanho menor da amostra com dados completos do genoma em comparação com o exoma e a maior dificuldade de prever o impacto de variantes intrônicas profundas.

[00277] Também podemos usar o número observado versus o esperado de variantes de splice crípticas para estimar o número de variantes de splice crípticas sob seleção e como isso se compara a outras classes de variação de truncamento de proteínas. Como as variantes de splice crípticas podem revogar apenas parcialmente a função de splice, também avaliamos o número de variantes de splice crípticas observadas versus esperadas em limites mais relaxados e estimamos que haja aproximadamente três vezes mais variantes de splice crípticas raras deletérias em comparação com variantes de interrupção de splice AG ou GT raras no conjunto de dados EXAC (FIGURA 38D). Cada indivíduo carrega aproximadamente — 20 mutações de splice crípticas raras, aproximadamente iguais ao número de variantes de truncamento de proteínas (FIGURA 38E), embora nem todas essas variantes revoguem completamente a função de splice.

[00278] A recente liberação de dados GTEx, compreendendo 148 indivíduos com sequenciamento genômico inteiro e RNA-seq de vários sítios de tecidos, permite-nos procurar os efeitos de variantes de splice crípticas raras diretamente nos dados do RNA-segq. Para aproximar o cenário encontrado no sequenciamento de doenças raras, consideramos apenas variantes raras (singleton na coorte GTEx e frequência alélica <1% em 1000 genomas) e as emparelhamos a eventos de splicing exclusivos do indivíduo com a variante. Embora as diferenças na expressão gênica e na expressão tecidual e a complexidade das anormalidades tornem difícil avaliar a sensibilidade e a especificidade das previsões de aprendizagem profunda, descobrimos que, em limites rigorosos de especificidade, mais de 90% das mutações de splice crípticas raras são validadas no RNA-seq (FIGURA 39A). Um grande número de eventos de splice aberrantes presentes no RNA-seq parece estar associado a variantes que se prevê terem efeitos modestos de acordo com o classificador de aprendizagem profunda, sugerindo que eles afetam apenas parcialmente a função de splice. Nestes limites mais sensíveis, prevê-se que aproximadamente 75% das novas junções causem aberrações na função de splicing (FIGURA 38B).

[00279] O sucesso da rede de aprendizagem profunda na previsão de variantes de splice crípticas que são fortemente deletérias nos dados de sequenciamento populacional e validadas em alta taxa no RNA-seq sugere que o método poderia ser usado para identificar diagnósticos adicionais em estudos de sequenciamento de doenças raras. Para testar esta hipótese, examinamos variantes de novo em estudos de sequenciamento de exoma para autismo e distúrbios do desenvolvimento neurológico e demonstramos que as mutações de splice crípticas são significativamente enriquecidas nos indivíduos afetados em relação aos semelhantes saudáveis (FIGURA 40A). Além disso, o enriquecimento das mutações de splice crípticas é um pouco menor do que o das variantes de truncamento de proteínas, indicando que aproximadamente 90% de nossas variantes de splice crípticas previstas são funcionais. Com base nesses valores, aproximadamente —- 20% das variantes de truncamento de proteínas causadoras de doenças podem ser atribuídas a mutações de splice crípticas nos éxons e nos nucleotídeos imediatamente adjacentes aos éxons (FIGURA 40B). Extrapolando esse número para estudos genômicos completos, que são capazes de interrogar toda a sequência intrônica, estimamos que 24% das mutações causais em doenças genéticas raras são devidas a mutações de splice crípticas.

[00280] Nós estimamos a probabilidade de chamar uma mutação de splice crípticas de novo para cada gene individual, permitindo-nos estimar o enriquecimento de mutações de splice crípticas nos genes candidatos à doença em comparação com o acaso. As mutações de splice crípticas de novo foram fortemente enriquecidas dentro de genes que foram previamente atingidos por variação de truncamento de proteína, mas não por variação missense (FIGURA 40C), indicando que eles causam a doença principalmente por haploinsuficiência em vez de outros modos de ação. À adição de mutações de splice crípticas previstas à lista de variantes de truncamento de proteínas nos permite identificar 3 genes de doenças adicionais no autismo e 11 genes de doenças adicionais na deficiência intelectual, em comparação ao uso apenas de variação de truncamento de proteínas (FIGURA 40D).

[00281] Para avaliar a viabilidade de validar mutações de splice crípticas em pacientes para os quais o provável tecido da doença não estava disponível (cérebro, neste caso), realizamos RNA-seq profundo em 37 indivíduos com mutações de splice crípticas de novo previstas da Simon's Simplex Collection, e procurou eventos de splice aberrantes que estavam presentes no indivíduo e ausentes em todos os outros indivíduos no experimento e nos 149 indivíduos da coorte GTEx. Descobrimos que o NN de 37 pacientes mostrou splice único e aberrante no RNA-seq (FIGURA 40E), explicado pela variante de splice críptica prevista.

[00282] Em resumo, demonstramos um modelo de aprendizagem profunda que prevê com precisão variantes de splice crípticas com precisão suficiente para ser útil na identificação de mutações causais em doenças genéticas raras. Estimamos que uma fração substancial de diagnósticos de doenças raras causadas por splicing criptico atualmente seja perdida, considerando apenas as regiões de codificação de proteínas, e enfatizamos a necessidade de desenvolver métodos para interpretar os efeitos da variação rara penetrante no genoma não codificante.

Resultados Previsão precisa de splicing da sequência primária usando aprendizagem profunda

[00283] —Construímos uma rede neural profunda residual (He et al., 2016a) que prediz se cada posição em um transcrito de pré-mRNA é um doador de splice, um aceptor de splice ou nenhum (FIGURA 37A e FIGURAS 21, 22, 23, e 24), usando como entrada apenas a sequência genômica do transcrito do pré-mRNA. Como os doadores e aceptores de splice podem ser separados por dezenas de milhares de nucleotídeos, empregamos uma nova arquitetura de rede que consiste em 32 camadas convolucionais dilatadas

(Yu and Koltun, 2016) que podem reconhecer determinantes de sequência que abrangem grandes distâncias genômicas. Em contraste com os métodos anteriores, que consideraram apenas janelas curtas de nucleotídeos adjacentes aos limites de éxon-íntron (Yeo e Burge, 2004), ou se basearam em recursos de engenharia humana (Xing et al, 2015) ou dados experimentais, como fator de expressão ou de splice na ligação (Jha et al., 2017), nossa rede neural aprende determinantes de splice diretamente da sequência primária, avaliando 10,000 nucleotídeos da sequência de contexto de flanqueamento para prever a função de splice de cada posição na transcrição do pré-mRNA.

[00284] Utilizamos sequências de transcrição de pré-mRNA anotadas por GENCODE (Harrow et al, 2012) em um subconjunto de cromossomos humanos para treinar os parâmetros da rede neural e transcrições nos cromossomos restantes, com parálogos excluídos, para testar as previsões da rede. Para transcrições de pré-mRNA no conjunto de dados de teste, a rede prevê junções de splice com 95% de precisão top-k, que é a fração de sítios de splice previstos corretamente no limite em que o número de sítios previstos é igual ao número real de sítios de splice presente no conjunto de dados de teste (Boyd et al., 2012; Yeo and Burge, 2004). Mesmo genes acima de 100 kb, como o CFTR, são frequentemente reconstruídos perfeitamente com precisão de nucleotídeos (FIGURA 37B). Para confirmar que a rede não depende apenas de vieses de sequência exônica, também testamos a rede em RNAs longos e não codificantes. Apesar da incompletude das anotações de transcrição mão codificante, o que espera-se que reduza nossa precisão, a rede prevê junções de splice conhecidas em lincRNAs com 84% de precisão top-Kk (FIGURAS 42A e 42B), indicando que pode aproximar o comportamento do spliceossoma em sequências arbitrárias livres de pressões seletivas de codificação de proteínas.

[00285] Para cada éxon anotado com GENCODE no conjunto de dados de teste (excluindo o primeiro e o último éxons de cada gene), também examinamos se as pontuações de previsão da rede se correlacionam com a fração de leituras que suportam a inclusão do éxon versus o salto do éxon, com base nos dados do RNA-seq do atlas Gene and Tissue Expression (GTEx) (The GTEx Consortium et al., 2015) (FIGURA 37C). Éxons que sofreram splice constitutivamente ou splice através de tecidos GTEx tiveram pontuações de previsão próximos de 1 ou O, respectivamente, enquanto os éxons submetidos a um grau substancial de splicing alternativo (entre 10- 90% de inclusão de éxons em média nas amostras) tenderam a (correlação de Pearson = 0,78, P = O).

[00286] Em seguida, procuramos entender os determinantes de sequência utilizados pela rede para alcançar sua precisão notável. Realizamos substituições sistemáticas in silico de cada nucleotídeo perto de éxons anotados, medindo os efeitos nas pontuações de previsão da rede nos sítios de splice adjacentes (FIGURA 37E). Descobrimos que interromper a sequência de um motivo de doador de splice frequentemente fazia com que a rede predissesse que o local aceptor de splice a montante também seria perdido, como é observado com eventos de salto de éxon in vivo, indicando que um grau significativo de especificidade é conferido pela definição de éxon entre um motivo aceptor a montante emparelhado e um motivo doador a jusante definido a uma distância ideal (Berget, 1995). Motivos adicionais que contribuem para o sinal de splicing incluem os motivos de ligação bem caracterizados da família de proteinas SR e o ponto de ramificação (FIGURAS 43A e 43B) (Fairbrother et al., 2002; Reed e Maniatis, 1988). Os efeitos desses motivos são altamente dependentes de sua posição no éxon, sugerindo que seus papéis incluem a especificação do posicionamento preciso dos limites do íntron-éxon, diferenciando-se entre os sítios concorrentes aceptores e doadores.

[00287] O treinamento da rede com diferentes contextos de sequência de entrada afeta significativamente a precisão das previsões de splice (FIGURA 37E), indicando que determinantes de sequência de longo alcance de até 10,000 nt do sítio de splice são essenciais para discernir junções funcionais de splice do grande número de sítios não funcionais com motivos quase ideais. Para examinar os determinantes de especificidade de longo e curto alcance, comparamos as pontuações atribuídas às junções anotadas por um modelo treinado em 80 nt de contexto de sequência (SpliceNet-80nt) versus o modelo completo treinado em 10,000 nt de contexto (SpliceNet- 10k). A rede treinada em 80 nt de contexto de sequência atribui pontuações mais baixas à junções que unem éxons ou íntrons de comprimento normal (150 nt para éxons, — 1000 nt para íntrons) (FIGURA 37F), de acordo com observações anteriores de que esses sítios tendem a ter motivos de splice mais fracos em comparação com os sítios de splice de éxons e íntrons que são extraordinariamente longos ou curtos (Amit et al., 2012; Gelfman et al., 2012; Li et al., 2015). Por outro lado, a rede treinada em 10,000 nt de contexto de sequência mostra preferência por íntrons e éxons de comprimento médio, apesar de seus motivos de splice mais fracos, porque pode explicar a especificidade de longo alcance conferida pelo éxon ou pelo íntron. O salto de motivos mais fracos em íntrons longos e ininterruptos é consistente com o alongamento mais rápido da RNA polimerase ||, experimentalmente observado na ausência de pausa do éxon, o que pode permitir ao spliceossoma menos tempo para reconhecer motivos sub-ótimos (Close et al., 2012; Jonkers et al., 2014; Veloso et al., 2014). Nossas descobertas sugerem que a junção média de splice possui determinantes favoráveis da sequência de longo alcance que conferem especificidade substancial, explicando o alto grau de degeneração tolerado da sequência na maioria dos motivos de splice.

[00288] Como o splicing ocorre co-transcricionalmente (Cramer et al., 1997; Tilgner et al., 2012), as interações entre o estado da cromatina e o splicing co-transcricional também podem orientar a definição do éxon (Luco et al., 2011)e ter o potencial de serem utilizadas pela rede na medida em que o estado da cromatina seja previsível a partir da sequência primária. Em particular, estudos em todo o genoma do posicionamento dos nucleossomos mostraram que a ocupação de nucleossomos é mais alta nos éxons (Andersson et al., 2009; Schwartz et al., 2009; Spies et al., 2009; Tilgner et al., 2009). Para testar se a rede usa determinantes de sequência do posicionamento dos nucleossomos para a previsão do sítio de splice, percorremos um par de motivos aceptores e doadores ótimos separados por 150 nt (aproximadamente o tamanho do éxon médio) pelo genoma e pedimos à rede para prever se o um par de motivos resultaria na inclusão do éxon naquele locus (FIGURA 37G). Descobrimos que as posições previstas como favoráveis à inclusão do éxon se correlacionavam com as posições de alta ocupação de nucleossomos, mesmo em regiões intergênicas (correlação de Spearman = 0,36, P = O), e esse efeito persiste após o controle do conteúdo de GC (FIGURA 44A). Esses resultados sugerem que a rede aprendeu implicitamente a prever o posicionamento dos nucleossomos a partir da sequência primária e o utiliza como um determinante da especificidade na definição do éxon. Semelhante aos éxons e íntrons de comprimento médio, os éxons posicionados sobre nucleossomos têm motivos de splice local mais fracos (FIGURA 44B), consistentes com maior tolerância a motivos degenerados na presença de fatores compensatórios (Spies et al., 2009).

[00289] Embora vários estudos tenham relatado uma correlação entre éxons e ocupação de nucleossomos, um papel causal para o posicionamento de nucleossomos na definição de éxons ainda não foi firmemente estabelecido. Utilizando dados de 149 indivíduos com sequenciamento do RNA-seq e de genoma inteiro da coorte Genotype- Tissue Expression (GTEx) (The GTEx Consortium et al., 2015), identificamos novos éxons que eram particulares a um único indivíduo e correspondiam a uma mutação genética que cria um sítio de splice privado. Estes eventos privados de criação de éxons foram significativamente associados ao posicionamento de nucleossomos existentes nas células K562 e GM12878

(P = 0,006 por teste de permutação, FIGURA 37H), embora essas linhagens celulares provavelmente não possuam as mutações genéticas privadas correspondentes. Nossos resultados indicam que as variantes genéticas têm maior probabilidade de desencadear a criação de um novo éxon se o novo éxon resultante sobrepor uma região de ocupação de nucleossomos existente, apoiando um papel causal para o posicionamento de nucleossomos na promoção da definição de éxon.

Verificação de mutações de splice crípticas previstas em dados do RNA-seq

[00290] Estendemos a rede de aprendizagem profunda à avaliação de variantes genéticas para a função de alteração de splice, prevendo limites de éxon-íntron para a sequência de transcrição de pré-mRNA de referência e a sequência de transcrição alternativa que contém a variante, e considerando a diferença entre as pontuações (Pontuação A) (FIGGURA 38A). É importante ressaltar que a rede foi treinada apenas em sequências de transcrições de referência e anotações de junções de splice, e nunca viu dados de variantes durante o treinamento, tornando a previsão de efeitos de variantes um teste desafiador da capacidade da rede de modelar com precisão os determinantes da sequência de splicing.

[00291] Procuramos os efeitos de variantes de splice crípticas nos dados do RNA-seq na coorte GTEx (The GTEx Consortium et al., 2015), compreendendo 149 indivíduos com sequenciamento de genoma inteiro e RNA-seq de vários tecidos. Para aproximar o cenário encontrado no sequenciamento de doenças raras, primeiro nos concentramos em mutações raras e privadas (presentes em apenas um indivíduo na coorte GTEx). Descobrimos que as mutações privadas que foram previstas como tendo consequências funcionais pela rede neural são fortemente enriquecidas em novas junções de splice de privadas e nos limites de éxons pulados em eventos privados de salto de éxons (FIGURA 38B), sugerindo que uma grande fração destas previsões são funcionais.

[00292] Para quantificar os efeitos de variantes de criação de sítios de splice na produção relativa de isoformas de splice normais e aberrantes, medimos o número de leituras que suportam o novo evento de splice como uma fração do número total de leituras que cobrem o sítio (FIGURA 38C) (Cummings et al., 2017). Para variantes de interrupção do sítio de splice, observamos que muitos éxons tiveram uma baixa taxa de referência de salto de éxon, e o efeito da variante foi aumentar a fração das leituras de salto de éxon. Portanto, calculamos tanto a diminuição na fração de leituras que sofreu splice na junção interrompida quanto o aumento na fração de leituras que pularam o éxon, tendo o maior dos dois efeitos (FIGURA 45 e Métodos STAR).

[00293] As variantes de splice crípticas previstas com confiança (Pontuação A > 0,5) são validadas no RNA-seq em três quartos a taxa de interrupções essenciais de splice de GT ou AG (FIGURA 38D). Tanto a taxa de validação quanto o tamanho do efeito das variantes de splice crípticas acompanham de perto suas pontuações A (FIGURAS 38D e 38E), demonstrando que a pontuação de previsão do modelo é uma boa proxy para o potencial de alteração de splice de uma variante. Variantes validadas, especialmente aquelas com pontuações mais baixos (Pontuação A < 0,5), são muitas vezes incompletamente penetrantes e resultam em splicing alternativo com a produção de uma mistura de transcritos aberrantes e normais nos dados do RNA-seq (FIGURA 38E). Nossas estimativas de taxas de validação e tamanhos de efeito são conservadoras e provavelmente subestimam os valores verdadeiros, devido a alterações de isoformas de splice não contabilizadas e decaimento mediado sem sentido, que degrada preferencialmente os transcritos de splicing aberrante porque preferencialmente introduzem códons de parada prematuros (FIGURA 38C e FIGURA 45). Isto é evidenciado pelos tamanhos médios de efeito de variantes que interrompem os dinucleotídeos essenciais de splice de GT e AG, sendo inferiores aos 50% esperados para variantes heterozigóticas totalmente penetrantes.

[00294] Para variantes de splice crípticas que produzem isoformas de splice aberrante em pelo menos três décimos das cópias observadas do transcrito de MRNA, a rede tem uma sensibilidade de 71% quando a variante está próxima a éxons e 41% quando a variante está em sequência intrônica profunda (Pontuação A > 0,5, FIGURA 38F). Esses achados indicam que variantes intrônicas profundas são mais difíceis de prever, possivelmente porque regiões intrônicas profundas contêm menos determinantes de especificidade que foram selecionados para estarem próximos a éxons.

[00295] Para comparar o desempenho de nossa rede com os métodos existentes, selecionamos três classificadores populares que foram referenciados na literatura para diagnóstico de doença genética rara, GenesSplicer(Pertea et al., 2001), MaxEntScan (Yeo e Burge, 2004) e NNSplice (Reese et al., 1997), e plotamos a taxa de validação do RNA-seq e a sensibilidade em limites variáveis (FIGURA 38G). Como tem sido a experiência de outras pessoas no campo (Cummings et al., 2017), descobrimos que os classificadores existentes têm especificidade insuficiente, dado o número muito grande de variantes não codificantes em todo o genoma que podem afetar o splicing, presumivelmente porque se concentram em motivos locais e, em grande parte, não são responsáveis por determinantes de especificidade de longo alcance.

[00296] Dada a grande lacuna no desempenho em comparação com os métodos existentes, realizamos controles adicionais para excluir a possibilidade de que nossos resultados nos dados do RNA-seq pudessem ser confundidos por sobreajuste. Primeiro, repetimos as análises de validação e sensibilidade separadamente para variantes privadas e variantes presentes em mais de um indivíduo na coorte GTEx (FIGURA 46A, 46Be 46C). Como nem a maquinaria de splicing nem o modelo de aprendizagem profunda têm acesso às informações de frequência alélica, verificar se a rede tem desempenho semelhante em todo o espectro de frequência alélica é um controle importante. Descobrimos que, nos mesmos limites de Pontuação A, as variantes de splice crípticas privadas e comuns não mostram diferenças significativas em sua taxa de validação no RNA-seq (P> 0,05, teste exato de Fisher), indicando que as previsões da rede são robustas à frequência alélica.

[00297] Segundo, para validar as previsões do modelo entre os diferentes tipos de variantes de splice crípticas que podem criar novas junções de splice, avaliamos separadamente variantes que geram novos dinucleotídeos GT ou AG, aqueles que afetam o motivo estendido do aceptor ou doador e variantes que ocorrem em regiões mais distais. Descobrimos que as variantes de splice crípticas são distribuídas aproximadamente igualmente entre os três grupos e que nos mesmos limites de pontuação A, não há diferenças significativas na taxa de validação ou nos tamanhos de efeito entre os grupos (P> 0,3 7? teste de uniformidade e P> 0,3 Teste U de Mann Whitney, respectivamente, FIGURAS 47A e 47B).

[00298] Terceiro, realizamos a validação do RNA-segq e análises de sensibilidade separadamente para variantes nos cromossomos usados para treinamento e variantes para o restante dos cromossomos (FIGURAS 48A e 48B). Embora a rede tenha sido treinada apenas em sequências genômicas de referência e anotações de splice, e não tenha sido exposta a dados variantes durante o treinamento, queríamos descartar a possibilidade de vieses nas previsões de variantes decorrentes do fato de a rede ter visto a sequência de referência nos cromossomos de treinamento. Descobrimos que a rede tem um desempenho igualmente bom em variantes dos cromossomos de treinamento e teste, sem diferença significativa na taxa de validação ou sensibilidade (P> 0,05, teste exato de Fisher), indicando que é improvável que as previsões de variantes da rede sejam explicadas pelo sobreajuste das sequências de treinamento.

[00299] Prever variantes de splice crípticas é um problema mais difícil do que prever junções de splice anotadas, como refletido pelos resultados de nosso modelo e por outros algoritmos de previsão de splice (compare FIGURA 37E e FIGURA 38G). Uma razão importante é a diferença na distribuição subjacente das taxas de inclusão de éxons entre os dois tipos de análise. A grande maioria dos éxons anotados com GENCODE possui fortes determinantes de especificidade, resultando em pontuações constitutivas de splicing e previsão próximas a 1 (FIGURA 37C). Em contraste, a maioria das variantes de splice crípticas é apenas parcialmente penetrante (FIGURAS 38D e 38E), tem pontuações de previsão baixas a intermediárias e frequentemente levam a splicing alternativo com a produção de uma mistura de transcritos normais e aberrantes. Isso torna o último problema de prever os efeitos de variantes de splice crípticas intrinsecamente mais difíceis do que identificar sítios de splice anotados. Fatores adicionais, como decaimento mediado sem sentido, não contabilizado para alterações de isoformas e limitações do ensaio do RNA- seq, contribuem ainda mais para diminuir a taxa de validação do RNA-seq (FIGURAS 38C e FIGURA 45).

O splicing alternativo específico ao tecido surge frequentemente de variantes de splice crípticas fracas

[00300] O splicing alternativo é um dos principais modos de regulação de genes que serve para aumentar a diversidade de transcritos em diferentes tecidos e estágios de desenvolvimento, e sua desregulação está associada a processos de doenças (Blencowe, 2006; Irimia et al., 2014; Keren et al., 2010; Licatalosi e Darnell, 2006; Wang et al., 2008). Inesperadamente, descobrimos que o uso relativo de novas junções de splice criadas por mutações de splice crípticas pode variar substancialmente entre os tecidos (FIGURA 39A). Além disso, variantes que causam diferenças específicas de tecido no splicing são reproduzíveis em vários indivíduos (FIGURA 39B), indicando que a biologia específica de tecido provavelmente está subjacente a essas diferenças, em vez de efeitos estocásticos. Descobrimos que 35% das variantes de splice enigmática com pontuações previstas fracas e intermediárias (Pontuação A 0,35 - 0,8) exibem diferenças significativas na fração de transcritos normais e aberrantes produzidos nos tecidos (P <0,01 corrigido por Bonferroni para um 4? teste, FIGURA 39C). Isso contrasta com as variantes com altas pontuações previstas (Pontuação A > 0,8), que eram significativamente menos propensos a produzir efeitos específicos do tecido (P = 0,015). Nossas descobertas estão alinhadas com a observação anterior de que éxons que sofreram splicing de forma alternativa tendem a ter pontuações de predição intermediárias (FIGURA 37C), em comparação com éxons que foram inseridos ou removidos por splice constitutivamente, cujas pontuações são próximas de 1 ou O, respectivamente.

[00301] Esses resultados apoiam um modelo em que fatores específicos do tecido, como o contexto da cromatina e a ligação de proteínas de ligação ao RNA, podem fazer a disputa entre duas junções de splice que são próximas no favoritismo (Gelfman et al., 2013; Luco et al., 2010; Shukla et al., 2011; Ule et al., 2003). As variantes de splice crípticas fortes provavelmente deslocam totalmente o splicing da isoforma normal para a aberrante, independentemente do contexto epigenético, enquanto as variantes mais fracas aproximam a seleção da junção de splice do limite de decisão, resultando em uso alternativo da junção em diferentes tipos de tecidos e contextos celulares. |sso destaca o papel inesperado desempenhado pelas mutações de splice crípticas na geração de uma nova diversidade de splicing alternativo, pois a seleção natural teria a oportunidade de preservar mutações que criam um splicing alternativo específico de tecido útil.

As variantes de splice crípticas previstas são fortemente deletérias em populações humanas

[00302] Embora as variantes de splice crípticas previstas sejam validadas em uma taxa alta no RNA-seq, em muitos casos os efeitos não são totalmente penetrantes e uma mistura de isoformas de splice normais e aberrantes é produzida, aumentando a possibilidade de que uma fração dessas variantes de alteração de splice crípticas pode não ser funcionalmente significativa. Para explorar a assinatura da seleção natural nas variantes previstas de splice crípticas, pontuamos cada variante presente em 60,706 exomas humanos do banco de dados Exome Aggregation Consortium (ExAC) (Lek et al., 2016)e identificamos variantes que foram preditas para alterar os limites de éxon-íntron.

[00303] Para medira extensão da seleção negativa que atua nas variantes de alteração de splice previstas, contamos o número de variantes de alteração de splice previstas encontradas em frequências alélicas comuns (20,1% na população humana) e comparamos com o número de variantes de alteração de splice previstas nas frequências dos alelos singleton no ExXAC (ou seja, em 1 de 60,706 indivíduos). Devido à recente expansão exponencial no tamanho da população humana, as variantes singleton representam mutações criadas recentemente que foram minimamente filtradas pela seleção purificadora (Tennessen et al., 2012). Por outro lado, variantes comuns representam um subconjunto de mutações neutras que passaram pela peneira da seleção purificadora. Portanto, a depleção de variantes de alteração de splice previstas no espectro de frequência alélica comum em relação às variantes singleton fornece uma estimativa da fração de variantes de alteração de splice previstas que são deletérias e, portanto, funcionais. Para evitar efeitos de confusão na sequência de codificação de proteínas, restringimos nossa análise a variantes sinônimas e variantes intrônicas que estão fora dos dinucleotídeos essenciais GT ou AG, excluindo mutações missense que também são previstas como tendo efeitos de alteração de splice.

[00304] Nas frequências alélicas comuns, as variantes de splice crípticas previstas com confiança (Pontuação A > 0,8) estão sob forte seleção negativa, como evidenciado pela sua depleção relativa em comparação à expectativa (FIGURA 40A). Nesse limite, onde se espera que a maioria das variantes seja quase totalmente penetrante nos dados do RNA-seqg (FIGURA 38D), as mutações previstas de splice crípticas sinônimas e intrônicas são depletadas em 78% nas frequências alélicas comuns, comparáveis aos 82% de depleção de frameshift, stop-gain e variantes essenciais de interrupção de splice de GT ou AG (FIGURA 40B). O impacto da seleção negativa é maior quando se considera variantes de splice crípticas que causariam frameshifts em relação àquelas que causam alterações no quadro (FIGURA 40B). A depleção de variantes de splice crípicas com consequência de frameshift é quase idêntica à de outras classes de variação de truncamento de proteínas, indicando que a grande maioria das mutações de splice críptica preditas com confiança na região quase intrônica (<50 nt de limites de éxon- íntron conhecidos) são funcionais e têm efeitos fortemente deletérios na população humana.

[00305] Para estender essa análise para regiões intrônicas profundas >50 nt a partir dos limites conhecidos do éxon-íntron, usamos dados agregados de sequenciamento genômico total de 15,496 humanos da coorte do Genome Aggregation Database (gnomAD) (Lek et al., 2016) para calcular as contagens observadas e esperadas de mutações de splice cripticas em frequências alélicas comuns. No geral, observamos uma depleção de 56% das mutações de splice crípticas comuns (Pontuação A > 0,8) a uma distância >50 nt de um limite de éxon-íntron (FIGURA 40D), consistente com maior dificuldade em prever o impacto de variantes intrônicas profundas, como observamos nos dados do RNA-seq.

[00306] Em seguida, procuramos estimar o potencial de mutações no splice crípticas para contribuir para a doença genética penetrante, em relação a outros tipos de variação de codificação de proteínas, medindo o número de mutações no splice crípticas raro por indivíduo na coorte do gnomAD. Com base na fração de mutações no splice crípticas previstas que estão sob seleção negativa (FIGURA 40A), o ser humano médio carrega -5 mutações de splice crípticas funcionais raras (frequência do alelo <0,1%), em comparação com —11 variantes raras de truncamento de proteínas (FIGURA 40E). As variantes de splice crípticas superam as variantes essenciais de interrupção de splice de GT ou AG em aproximadamente 2:1. Advertimos que uma fração significativa dessas variantes de splice críptica pode não anular completamente a função do gene, seja porque produzem alterações in-frtame ou porque não mudam completamente o splicing para a isoforma aberrante.

Mutações de splice crípticas de novo são uma das principais causas de doenças genéticas raras

[00307] Estudos de sequenciamento em larga escala de pacientes com transtornos do espectro do autismo e deficiência intelectual grave demonstraram o papel central das mutações codificadoras de proteínas de novo (missense, sem sentido, frameshift e dinucleotídeo de splice essencial) que interrompem os genes nas vias do neurodesenvolvimento (Fitzgerald et al., 2015; lossifov et al., 2014; McRae et al., 2017; Neale et al., 2012; De Rubeis et al., 2014; Sanders et al., 2012). Para avaliar o impacto clínico de mutações não codificadoras que atuam através do splicing alterado, aplicamos a rede neural para prever os efeitos de mutações de novo em 4,293 indivíduos com deficiência intelectual da coorte de Distúrbios do Desenvolvimento da Deciftagem (DDD - Deciphering Developmental Disorders) (McRae et al., 2017), 3,953 indivíduos com transtornos do espectro do autismo (ASD) da Simons Simplex Collection (De Rubeis et al., 2014; Sanders et al., 2012; Turner et al., 2016) e do Autism Sequencing Consortium e 2,073 controles de semelhantes não afetados da Simons Simplex Collection. Para controlar as diferenças na verificação da variante de novo entre os estudos, normalizamos o número esperado de variantes de novo, de modo que o número de mutações sinônimas por indivíduo fosse o mesmo entre as coortes.

[00308] As mutações de novo que são previstas para interromper o splicing são enriquecidas em 1,51 vezes na deficiência intelectual (P =

0,000416) e em 1,30 vezes no transtorno do espectro do autismo (P = 0,0203) em comparação com controles saudáveis (Pontuação A > 0,1, FIGURA 41A, FIGURA 43A e FIGURA 43B). Mutações que interrompem o splice também são significativamente enriquecidas em casos versus controles quando considerando apenas mutações sinônimas e intrônicas (FIGURA 49A, FIGURA 49Be FIGURA 49C), excluindo a possibilidade de que o enriquecimento possa ser explicado apenas por mutações com efeitos de splicing e codificação de proteínas duplas. Com base no excesso de mutações de novo em indivíduos afetados versus não afetados, estima-se que as mutações de splice crípticas compreendam cerca de 11% das mutações patogênicas no transtorno do espectro do autismo e 9% na deficiência intelectual (FIGURA 41B), após o ajuste para a fração esperada de mutações em regiões que não apresentavam cobertura sequencial ou apuração de variantes em cada estudo. A maioria das mutações de splice crípticas previstas de novo em indivíduos afetados tinha Pontuação A <0,5 (FIGURA 41C, FIGURA 50Ae FIGURA 50B), e seria esperado que produzisse uma mistura de transcritos normais e aberrantes com base em variantes com pontuações semelhantes no conjunto de dados GTEx RNA- seq.

[00309] Para estimar o enriquecimento das mutações de splice crípticas nos genes candidatos à doença em comparação com o acaso, calculamos a probabilidade de chamar uma mutação de splice críptica de novo para cada gene individual usando o contexto trinucleotídico para ajustar a taxa de mutação (Samocha et al., 2014) (Tabela S4). A combinação de mutações de splice crípticas e codificadora de proteínas em novas descobertas gênicas produz 5 genes candidatos adicionais associados à deficiência intelectual e 2 genes adicionais associados ao transtorno do espectro do autismo (FIGURA 41D e FIGURA 45) que estariam abaixo do limite da descoberta (FDR <0,01) quando se considera apenas mutações codificadoras de proteínas (Kosmicki et al., 2017; Sanders et al., 2015).

Validação experimental de mutações de splice crípticas de novo em pacientes com autismo

[00310] Obtivemos linhagens celulares linfoblastoides periféricas (LCLs) derivadas de sangue periférico de 36 indivíduos da Simons Simplex Collection, que abrigavam mutações previstas de splice crípticas de novo em genes com pelo menos um nível mínimo de expressão de LCL (De Rubeis et al., 2014; Sanders et al., 2012); cada indivíduo representava o único caso de autismo dentro de sua família imediata. Como é o caso da maioria das doenças genéticas raras, o tipo de tecido e célula de relevância (presumivelmente do cérebro em desenvolvimento) não era acessível. Portanto, realizamos o sequenciamento de mRNA de alta profundidade (- 350 milhões x 150 pb de leituras únicas por amostra, aproximadamente 10 vezes a cobertura de GTEx) para compensar a fraca expressão de muitos desses transcritos em LCLs. Para garantir a validação de um conjunto representativo de variantes de splice crípticas previstas, em vez de simplesmente as previsões principais, aplicamos limites relativamente permissivos (Pontuação A > 0,1 para variantes de perda de splice e Pontuação A > 0,5 para variantes de ganho de splice; métodos STAR) e realizou-se validação experimental em todas as variantes de novo que atendiam a esses critérios.

[00311] Após excluir 8 indivíduos que tiveram cobertura insuficiente do RNA-seq no gene de interesse, identificamos eventos de splicing aberrantes exclusivos associados à mutação prevista de splice críptica de novo em 21 dos 28 pacientes (FIGURA 41E e FIGURAS 51A, 51B, 51C, 51D, 51E, 51F, 51G, 51H, 51l e 51J). Esses eventos de splicing aberrante estavam ausentes nos outros 35 indivíduos para os quais foi obtido o RNA- seq LCL profundo, bem como nos 149 indivíduos da coorte GTEx. Entre as 21 mutações confirmadas de splice crípticas de novo, observamos 9 casos de criação de novas junções, 8 casos de saltos de éxon e 4 casos de retenção de íntrons, bem como aberrações de splicing mais complexas

(FIGURA 41F, FIGURA 46A, FIGURA 46B e FIGURA 46C). Sete casos não mostraram splicing aberrante em LCLs, apesar da expressão adequada da transcrição. Embora um subconjunto deles possa representar previsões falsas positivas, algumas mutações de splice crípticas podem resultar em splicing alternativo específico de tecido que não é observável em LCLs nessas condições experimentais.

[00312] A alta taxa de validação de mutações de splice críptica previstas em pacientes com transtorno do espectro do autismo (75%), apesar das limitações do ensaio RNA-seg, indica que a maioria das previsões é funcional. No entanto, o enriquecimento das variantes de splice crípticas de novo em casos comparados aos controles (1,5 vezes em DDD e 1,3 vezes em ASD, FIGURA 41A) representa apenas 38% do tamanho do efeito observado para variantes de truncamento de proteínas de novo (2,5 vezes em DDD e 1,7 vezes em ASD) (lossifov et al., 2014; McRae et al., 2017; De Rubeis et al., 2014). Isso nos permite quantificar que as mutações funcionais de splice crípticas têm cerca de 50% da penetração clínica das formas clássicas de mutação truncadora de proteínas (stop-gain, frameshift e dinucleotídeo de splice essencial), devido a muitas delas interromperem apenas parcialmente a produção de a transcrição normal. De fato, algumas das mutações de splice crípticas mais bem caracterizadas nas doenças mendelianas, como c.315-48T> C em FECH (Gouya et al., 2002)e c.-32- 13T> G em GAA (Boerkoel et al., 1995), são alelos hipomórficos associados a fenótipo mais leve ou idade mais avançada do início. A estimativa da penetrância clínica é calculada para todas as variantes de novo que atendem a um limite relativamente permissivo (Pontuação A > 0,1), e seria esperado que variantes com pontuações de previsão mais fortes tenham penetrância correspondentemente mais alta.

[00313] Com base no excesso de mutações de novo em casos versus controles nas coortes de ASD e DDD, 250 casos podem ser explicados por mutações de splice crípticas de novo em comparação com

909 casos que podem ser explicados por variantes de truncamento de proteínas de novo (FIGURA 41B). Isso é consistente com nossa estimativa anterior do número médio de mutações raras da splice crípticas (-5) em comparação com variantes raras de truncamento de proteínas (-11) por pessoa na população em geral (FIGURA 38A), uma vez que a penetração reduzida de mutações de splice críptica é fatorado. A distribuição generalizada de mutações de splice enigmática no genoma sugere que a fração de casos explicada por mutações de splice crípticas em distúrbios do neurodesenvolvimento (9-11%, FIGURA 41B) provavelmente generalizará para outros distúrbios genéticos raros nos quais o mecanismo primário da doença é a perda da proteína funcional. Para facilitar a interpretação de mutações que alteram as junções, pré-calculamos as previsões da Pontuação A para todas as possíveis substituições de nucleotídeos únicos em todo o genoma e as fornecemos como um recurso para a comunidade científica. Acreditamos que esse recurso promoverá o entendimento dessa fonte de variação genética anteriormente subestimada.

Implementações Específicas

[00314] Descrevemos sistemas, métodos e artigos de fabricação para usar uma rede neural convolucional atrous treinada para detectar sítios de splice em uma sequência genômica (por exemplo, uma sequência de nucleotídeos ou uma sequência de aminoácidos). Um ou mais recursos de uma implementação podem ser combinados com a implementação base. Implementações que não são mutuamente exclusivas são ensinadas a serem combináveis. Um ou mais recursos de uma implementação podem ser combinados com outras implementações. Esta divulgação lembra periodicamente o usuário dessas opções. A omissão de algumas implementações de recitações que repetem essas opções não deve ser tomada como limitativa das combinações ensinadas nas seções anteriores - essas recitações são incorporadas neste documento adiante por referência em cada uma das implementações a seguir.

[00315] Estaseção usa os termos módulo(s) e estágio(s) de forma intercambiável.

[00316] Uma implementação de sistema da tecnologia divulgada inclui um ou mais processadores acoplados à memória. A memória é carregada com instruções do computador para treinar um detector de sítios de splice que identifica sítios de splice em sequências genômicas (por exemplo, sequências de nucleotídeos).

[00317] Conforme mostrado na FIGURA 30, o sistema treina uma rede neural convolucional atrous (ACNN abreviada) em pelo menos 50000 exemplos de treinamento de sítios de splice doadores, pelo menos 50000 exemplos de treinamento de sítios de splice aceptores e pelo menos 100000 exemplos de treinamento de sítios sem splicing. Cada exemplo de treinamento é uma sequência nucleotídica alvo que possui pelo menos um nucleotídeo alvo flanqueado por pelo menos 20 nucleotídeos de cada lado.

[00318] Uma ACNN é uma rede neural convolucional que utiliza convoluções atrous/dilatadas que permitem grandes campos receptivos com poucos parâmetros treináveis. Uma convolução atrous/dilatada é uma convolução em que o núcleo é aplicado sobre uma área maior que seu comprimento pulando os valores de entrada com uma determinada etapa, também chamada taxa de convolução atrous ou fator de dilatação. Convoluções atrous/dilatadas adicionam espaçamento entre os elementos de um filtro/núcleo de convolução, de modo que entradas de entrada vizinhas (por exemplo, nucleotídeos, aminoácidos) em intervalos maiores são consideradas quando uma operação de convolução é realizada. Isso permite a incorporação de dependências contextuais de longo alcance na entrada. As convoluções atrous conservam cálculos parciais de convolução para reutilização à medida que os nucleotídeos adjacentes são processados.

[00319] Conforme mostrado na FIGURA 30, para avaliar um exemplo de treinamento usando a ACNN, o sistema fornece, como entrada para a ACNN, uma sequência nucleotídica alvo flanqueada ainda por pelo menos 40 nucleotídeos de contexto a montante e pelo menos 40 nucleotídeos de contexto a jusante.

[00320] Conforme mostrado na FIGURA 30, com base na avaliação, a ACNN então produz, como saída, pontuações triplas para a probabilidade de que cada nucleotídeo na sequência nucleotídica alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00321] Esta implementação do sistema e outros sistemas divulgados incluem opcionalmente um ou mais dos seguintes recursos. O sistema também pode incluir recursos descritos em conexão com os métodos divulgados. A interesse de concisão, as combinações alternativas de recursos do sistema não são enumeradas individualmente. Os recursos aplicáveis aos sistemas, métodos e artigos de fabricação não são repetidos para cada conjunto de classes estatutárias de recursos básicos. O leitor entenderá como os recursos identificados nesta seção podem ser facilmente combinados com os recursos básicos de outras classes estatutárias.

[00322] Conforme mostrado nas FIGURAS 25, 26 e 27, a entrada pode compreender uma sequência de nucleotídeos alvo que possui um nucleotídeo alvo ladeado por 2500 nucleotídeos de cada lado. Em tal implementação, a sequência nucleotídica alvo é ainda flanqueada por 5000 nucleotídeos de contexto a montante e 5000 nucleotídeos de contexto a jusante.

[00323] A entrada pode compreender uma sequência nucleotídica alvo que tem um nucleotídeo alvo flanquado por 100 nucleotídeos de cada lado. Em tal implementação, a sequência nucleotídica alvo é ainda flanqueada por 200 nucleotídeos de contexto a montante e 200 nucleotídeos de contexto a jusante.

[00324] A entrada pode compreender uma sequência nucleotídica alvo que possui um nucleotídeo alvo flanqueado por 500 nucleotídeos de cada lado. Em tal implementação, a sequência nucleotídica alvo é ainda flanqueada por 1000 nucleotídeos de contexto a montante e 1000 nucleotídeos de contexto a jusante.

[00325] Conforme mostrado na FIGURA 28, o sistema pode treinar a ACNN em 150000 exemplos de treinamento de sítios de splice doadores, 150000 exemplos de treinamento em sítios de splice aceptores e 800000000 exemplos de treinamento em sítios não splicing.

[00326] Conforme mostrado na FIGURA 19, a ACNN pode compreender grupos de blocos residuais dispostos em uma sequência do menor para o maior. Cada grupo de blocos residuais é parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho da janela de convolução dos blocos residuais e uma taxa de convolução atrous dos blocos residuais.

[00327] Conforme mostrado nas FIGURAS 21, 22, 23 e 24, na ACNN, a taxa de convolução atrous progride não exponencialmente de um grupo de blocos residuais mais baixos para um grupo de blocos residuais mais altos.

[00328] Conforme mostrado nas FIGURAS 21, 22, 23e 24, na ACNN, o tamanho da janela de convolução varia entre os grupos de blocos residuais.

[00329] A ACNN pode ser configurado para avaliar uma entrada que compreende uma sequência nucleotídica alvo flanqueada ainda por 40 nucleotídeos de contexto a montante e 40 nucleotídeos de contexto a jusante. Nessa implementação, a ACNN inclui um grupo de quatro blocos residuais e pelo menos uma conexão skip. Cada bloco residual possui 32 filtros de convolução, 11 tamanhos de janela de convolução e 1 taxa de convolução atrous. Esta implementação da ACNN é referida neste documento como "SpliceNet80" e é mostrada na FIGURA 21.

[00330] A ACNN pode ser configurada para avaliar uma entrada que compreende uma sequência nucleotídica alvo flanqueada ainda por 200 nucleotídeos de contexto a montante e 200 nucleotídeos de contexto a jusante. Em tal implementação, a ACNN inclui pelo menos dois grupos de quatro blocos residuais e pelo menos duas conexões skip. Cada bloco residual em um primeiro grupo possui 32 filtros de convolução, 11 tamanhos de janela de convolução e 1 taxa de convolução atrous. Cada bloco residual em um segundo grupo possui 32 filtros de convolução, 11 tamanhos de janela de convolução e 4 taxas de convolução atrous. Esta implementação da ACNN é referida neste documento como "SpliceNet400" e é mostrada na FIGURA 22.

[00331] A ACNN pode ser configurada para avaliar uma entrada que compreende uma sequência nucleotídica alvo flanqueada ainda por 1000 nucleotídeos de contexto a montante e 1000 nucleotídeos de contexto a jusante. Em tal implementação, a ACNN inclui pelo menos três grupos de quatro blocos residuais e pelo menos três conexões skip. Cada bloco residual em um primeiro grupo possui 32 filtros de convolução, 11 tamanhos de janela de convolução e 1 taxa de convolução atrous. Cada bloco residual possui 32 filtros de convolução, 11 tamanhos de janela de convolução e 4 taxas de convolução atrous. Cada bloco residual em um terceiro grupo possui 32 filtros de convolução, 21 tamanhos de janela de convolução e 19 taxas de convolução atrous. Esta implementação da ACNN é referida neste documento como "SpliceNet2000" e é mostrada na FIGURA 23.

[00332] A ACNN pode ser configurada para avaliar uma entrada que compreende uma sequência nucleotídica alvo flanqueada ainda por 5000 nucleotídeos de contexto a montante e 5000 nucleotídeos de contexto a jusante. Em tal implementação, a ACNN inclui pelo menos quatro grupos de quatro blocos residuais e pelo menos quatro conexões skip. Cada bloco residual em um primeiro grupo possui 32 filtros de convolução, 11 tamanhos de janela de convolução e 1 taxa de convolução atrous. Cada bloco residual em um segundo grupo possui 32 filtros de convolução, 11 tamanhos de janela de convolução e 4 taxas de convolução atrous. Cada bloco residual em um terceiro grupo possui 32 filtros de convolução, 21 tamanhos de janela de convolução e 19 taxas de convolução atrous. Cada bloco residual em um quarto grupo possui 32 filtros de convolução, 41 tamanhos de janela de convolução e 25 taxas de convolução atrous. Esta implementação da ACNN é referida neste documento como "SpliceNet10000" e é mostrada na FIGURA 24.

[00333] As pontuações triplas para cada nucleotídeo na sequência nucleotídica alvo podem ser exponencialmente normalizadas para somar à unidade. Em tal implementação, o sistema classifica cada nucleotídeo no nucleotídeo alvo como o sítio de splice doador, o sítio de splice aceptor ou o sítio não splicing com base em uma pontuação mais alta nas respectivas pontuações triplas.

[00334] Conforme mostrado na FIGURA 35, a dimensionalidade da entrada da ACNN pode ser definida como (C" + L + Cº) x 4, em que C" é um número de nucleotídeos de contexto a montante, Cº é um número de nucleotídeos de contexto a jusante e L é um número de nucleotídeos na sequência nucleotídica alvo. Em uma implementação, a dimensionalidade da entrada é (5000 + 5000 + 5000) x 4.

[00335] Conforme mostrado na FIGURA 35, a dimensionalidade da saída da ACNN pode ser definida como L x 3. Em uma implementação, a dimensionalidade da saída é 5000 x 3.

[00336] Conforme mostrado na FIGURA 35, cada grupo de blocos residuais pode produzir uma saída intermediária processando uma entrada anterior. A dimensionalidade da saída intermediária pode ser definida como (1 - KOW-1) * DY * AI) x N, onde | é a dimensionalidade da entrada anterior, W é o tamanho da janela de convolução dos blocos residuais, D é taxa de convolução atrous dos blocos residuais, A é um número de camadas de convolução atrous no grupo e N é um número de filtros de convolução nos blocos residuais.

[00337] Conforme mostrado na FIGURA 32, a ACNN em lotes avalia os exemplos de treinamento durante uma época. Os exemplos de treinamento são amostrados aleatoriamente em lotes. Cada lote tem um tamanho predeterminado. A ACNN repete a avaliação dos exemplos de treinamento em várias épocas (por exemplo, 1-10).

[00338] A entrada pode compreender uma sequência nucleotídica alvo que possui dois nucleotídeos alvo adjacentes. Os dois nucleotídeos alvo adjacentes podem ser adenina (A abreviada) e guanina (G abreviado). Os dois nucleotídeos adjacentes alvo podem ser guanina (G abreviado) e uracila (U abreviado).

[00339] O sistema inclui um codificador one-hot (mostrado na FIGURA 29) que codifica esparsamente os exemplos de treinamento e fornece codificações one-hot como entrada.

[00340] A ACNN pode ser parametrizada por um número de blocos residuais, um número de conexões skip e um número de conexões residuais.

[00341] A ACNN pode compreender camadas de convolução que alteram a dimensionalidade que remodelam as dimensões espaciais e de recurso de uma entrada anterior.

[00342] Conforme mostrado na FIGURA 20, cada bloco residual pode compreender pelo menos uma camada de normalização em lote, pelo menos uma camada de unidade linear retificada (ReLU abreviada), pelo menos uma camada de convolução atrous e pelo menos uma conexão residual. Em tal implementação, cada bloco residual compreende duas camadas de normalização em lote, duas camadas de não linearidade de ReLU, duas camadas de convolução atrous e uma conexão residual.

[00343] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[00344] Outra implementação de sistema da tecnologia divulgada inclui um preditor de sítio de splice treinado que é executado em vários processadores operando em paralelo e acoplado à memória. O sistema treina uma rede neural convolucional atrous (abreviada ACNN), que é executada em vários processadores, em pelo menos 50000 exemplos de treinamento em sítios doadores de splice, pelo menos 50000 exemplos de treinamento em sítios aceptores de splice e pelo menos 100000 exemplos de treinamento em sítios não splicing. Cada um dos exemplos de treinamento usados no treinamento é uma sequência nucleotídica que inclui um nucleotídeo alvo flanqueado por pelo menos 400 nucleotídeos de cada lado.

[00345] O sistema inclui um estágio de entrada da ACNN que é executada em pelo menos um dos vários processadores e alimenta uma sequência de entrada de pelo menos 801 nucleotídeos para avaliação dos nucleotídeos alvo. Cada nucleotídeo alvo é flanqueado por pelo menos 400 nucleotídeos de cada lado. Em outras implementações, o sistema inclui um módulo de entrada da ACNN que é executada em pelo menos um dos vários processadores e alimenta uma sequência de entrada de pelo menos 801 nucleotídeos para avaliação dos nucleotídeos alvo.

[00346] O sistema inclui um estágio de saída da ACNN que é executada em pelo menos um dos vários processadores e traduz a análise pela ACNN em pontuações de classificação para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing. Em outras implementações, o sistema inclui um estágio de saída da ACNN que é executada em pelo menos um dos vários processadores e traduz a análise pela ACNN em pontuações de classificação para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00347] Cada um dos recursos discutidos nesta seção de implementação específica para a primeira implementação do sistema se aplica igualmente a essa implementação do sistema. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[00348] A ACNN pode ser treinada em 150000 exemplos de treinamento de sítios doadores de splice, 150000 exemplos de treinamento de sítios aceptores de splice de e 800000000 exemplos de treinamento de sítios não splicing. Em outra implementação do sistema, a ACNN compreende grupos de blocos residuais dispostos em uma sequência do menor para o maior. Em ainda outra implementação, cada grupo de blocos residuais é parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho da janela de convolução dos blocos residuais e uma taxa de convolução atrous dos blocos residuais.

[00349] A ACNN pode compreender grupos de blocos residuais dispostos em uma sequência do menor para o maior. Cada grupo de blocos residuais é parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho da janela de convolução dos blocos residuais e uma taxa de convolução atrous dos blocos residuais.

[00350] Na ACNN, a taxa de convolução atrous progride não exponencialmente de um grupo de blocos residuais mais baixos para um grupo de blocos residuais mais altos. Também na ACNN, o tamanho da janela de convolução varia entre os grupos de blocos residuais.

[00351] A ACNN pode ser treinada em um ou mais servidores de treinamento, conforme mostrado na FIGURA 18.

[00352] A ACNN treinada pode ser implantada em um ou mais servidores de produção que recebem sequências de entrada dos clientes solicitantes, conforme mostrado na FIGURA 18. Em tal implementação, os servidores de produção processam as sequências de entrada através dos estágios de entrada e saída da ACNN para produzir saídas que são transmitidas aos clientes, conforme mostrado na FIGURA 18. Em outras implementações, os servidores de produção processam as segências de entrada através dos módulos de entrada e saída da ACNN para produzir saídas que são transmitidas aos clientes, conforme mostrado na FIGURA 18.

[00353] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[00354] Uma implementação de método da tecnologia divulgada inclui o treinamento de um detector de sítios de splice que identifica sítios de splice em sequências genômicas (por exemplo, sequências nucleotídicas).

[00355] O método inclui a alimentação, a uma rede neural convolucional atrous (ACNN abreviada), de uma sequência de entrada de pelo menos 801 nucleotídeos para avaliação dos nucleotídeos alvo, que são, cada um, flanqueados por pelo menos 400 nucleotídeos de cada lado.

[00356] A ACNN é treinada em pelo menos 50000 exemplos de treinamento de sítios doadores de splice, em pelo menos 50000 exemplos de treinamento de sítios aceptores de splice e em pelo menos 100000 exemplos de treinamento de sítios não splicing. Cada um dos exemplos de treinamento usados no treinamento é uma sequência nucleotídica que inclui um nucleotídeo alvo flanqueado por pelo menos 400 nucleotídeos de cada lado.

[00357] O método inclui ainda traduzir a análise pela ACNN em pontuações de classificação para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00358] Cada um dos recursos discutidos nesta seção de implementação específica para a primeira implementação do sistema se aplica igualmente a esta implementação do método. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[00359] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do método descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar o método descrito acima.

[00360] Descrevemos sistemas, métodos e artigos de fabricação para usar uma rede neural convolucional atrous treinada para detectar splicing aberrante em sequências genômicas (por exemplo, sequências nucleotídicas). Um ou mais recursos de uma implementação podem ser combinados com a implementação base. Implementações que não são mutuamente exclusivas são ensinadas a serem combináveis. Um ou mais recursos de uma implementação podem ser combinados com outras implementações. Esta divulgação lembra periodicamente o usuário dessas opções. A omissão de algumas implementações de recitações que repetem essas opções não deve ser tomada como limitativa das combinações ensinadas nas seções anteriores - essas recitações são incorporadas neste documento adiante por referência em cada uma das implementações a seguir.

[00361] Uma implementação de sistema da tecnologia divulgada inclui um ou mais processadores acoplados à memória. A memória é carregada com instruções do computador para implementar um detector de splicing aberrante em execução em vários processadores operando em paralelo e acoplado à memória.

[00362] Conforme mostrado na FIGURA 34, o sistema inclui uma rede neural convolucional atrous treinada (ACNN abreviada) que é executada nos vários processadores. Uma ACNN é uma rede neural convolucional que utiliza convoluções atrous/dilatadas que permitem grandes campos receptivos com poucos parâmetros treináveis. Uma convolução atrous/dilatada é uma convolução em que o núcleo é aplicado sobre uma área maior que seu comprimento pulando os valores de entrada com uma determinada etapa, também chamada taxa de convolução atrous ou fator de dilatação. Convoluções atrous/dilatadas adicionam espaçamento entre os elementos de um filtro/núcleo de convolução, de modo que entradas de entrada vizinhas (por exemplo, nucleotídeos, aminoácidos) em intervalos maiores são consideradas quando uma operação de convolução é realizada. Isso permite a incorporação de dependências contextuais de longo alcance na entrada. As convoluções atrous conservam cálculos parciais de convolução para reutilização à medida que os nucleotídeos adjacentes são processados.

[00363] Conforme mostrado na FIGURA 34, a ACNN classifica os nucleotídeos alvo em uma sequência de entrada e atribui pontuações no sítio de splice para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing. A sequência de entrada compreende pelo menos 801 nucleotídeos e cada nucleotídeo alvo é flanqueado por pelo menos 400 nucleotídeos de cada lado.

[00364] Conforme mostrado na FIGURA 34, o sistema também inclui um classificador, que é executado em pelo menos um dos vários processadores, que processa uma sequência de referência e uma sequência variante através da ACNN para produzir pontuações no sítio de splice para uma probabilidade de que cada nucleotídeo alvo na sequência de referência e na sequência variante seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing. A sequência de referência e a sequência variante têm cada uma pelo menos 101 nucleotídeos alvo e cada nucleotídeo alvo é flanqueado por pelo menos 400 nucleotídeos em cada lado. A FIGURA 33 retrata uma sequência de referência e uma sequência alternativa/variante.

[00365] Conforme mostrado na FIGURA 34, o sistema determina, a partir das diferenças nas pontuações do sítio de splice dos nucleotídeos alvo na sequência de referência e na sequência variante, se uma variante que gerou a sequência variante causa splicing aberrante e é, portanto, patogênica.

[00366] Esta implementação do sistema e outros sistemas divulgados incluem opcionalmente um ou mais dos seguintes recursos. O sistema também pode incluir recursos descritos em conexão com os métodos divulgados. A interesse de concisão, as combinações alternativas de recursos do sistema não são enumeradas individualmente. Os recursos aplicáveis aos sistemas, métodos e artigos de fabricação não são repetidos para cada conjunto de classes estatutárias de recursos básicos. O leitor entenderá como os recursos identificados nesta seção podem ser facilmente combinados com os recursos básicos de outras classes estatutárias.

[00367] Comforme mostrado na FIGURA 34, as diferenças nas pontuações no sítio de splice podem ser determinadas em termos de posição entre os nucleotídeos alvo na sequência de referência e na sequência variante.

[00368] Conforme mostrado na FIGURA 34, para pelo menos uma posição de nucleotídeo alvo, quando uma diferença máxima global nas pontuações do sítio de splice está acima de um limite predeterminado, a ACNN classifica a variante como causando splicing aberrante e, portanto, patogênica.

[00369] Conforme mostrado na FIGURA 17, para pelo menos uma posição de nucleotídeo alvo, quando uma diferença máxima global nas pontuações do sítio de splice está acima de um limite predeterminado, a ACNN classifica a variante como causando splicing aberrante e, portanto, patogênica.

[00370] O limite pode ser determinado a partir de uma pluralidade de limites candidatos. Isso inclui o processamento de um primeiro conjunto de pares de sequência de referência e de variante gerados por variantes comuns benignas para produzir um primeiro conjunto de detecções de splicing aberrante, o processamento de um segundo conjunto de pares de sequência de referência e variante gerados por variantes raras patogênicas para produzir um segundo conjunto de detecções de splicing aberrante e seleção de pelo menos um limite para uso pelo classificador, que maximiza a contagem de detecções de splicing aberrante no segundo conjunto e minimiza a contagem de detecções de splicing aberrante no primeiro conjunto.

[00371] Em uma implementação, a ACNN identifica variantes que causam transtorno do espectro do autismo (ASD abreviado). Em outra implementação, a ACNN identifica variantes que causam transtorno do atraso no desenvolvimento (DDD abreviado).

[00372] Conforme mostrado na FIGURA 36, a sequência de referência e a sequência variante podem cada uma ter pelo menos 101 nucleotídeos alvo e cada nucleotídeo alvo pode ser flanqueado por pelo menos 5000 nucleotídeos em cada lado.

[00373] Conforme mostrado na FIGURA 36, as pontuações no sítio de splice dos nucleotídeos alvo na sequência de referência podem ser codificadas em uma primeira saída da ACNN e as pontuações no sítio de splice dos nucleotídeos alvo na sequência variante podem ser codificadas em uma segunda saída da ACNN. Em uma implementação, a primeira saída é codificada como uma primeira matriz 101 x 3 e a segunda saída é codificada como uma segunda matriz 101 x 3.

[00374] Conforme mostrado na FIGURA 36, em tal implementação, cada linha na primeira matriz 101 x 3 representa unicamente pontuações do sítio de splice para uma probabilidade que um nucleotídeo alvo na sequência de referência seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00375] Conforme mostrado na FIGURA 36, também nessa implementação, cada linha na segunda matriz 101 x 3 representa unicamente pontuações no sítio de splice para uma probabilidade de que um nucleotídeo alvo na sequência variante seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00376] Conforme mostrado na FIGURA 36, em algumas implementações, as pontuações do sítio de splice em cada linha da primeira matriz 101 x 3 e a segunda matriz 101 x 3 podem ser exponencialmente normalizadas para somar à unidade.

[00377] Conforme mostrado na FIGURA 36, o classificador pode executar uma comparação linha a linha da primeira matriz 101 x 3 e da segunda matriz 101 x 3 e determinar, em uma base em termos de linha, as alterações na distribuição das pontuações no sítio de splice. Para pelo menos uma instância da comparação linha a linha, quando a alteração na distribuição está acima de um limite predeterminado, a ACNN classifica a variante como causando splicing aberrante e, portanto, patogênica.

[00378] O sistema inclui um codificador one-hot (mostrado na FIGURA 29) que codifica esparsamente a sequência de referência e a sequência variante.

[00379] Cada um dos recursos discutidos nesta seção de implementação específica para outras implementações de sistema e método se aplica igualmente a essa implementação de sistema. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[00380] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[00381] Um método de implementação da tecnologia divulgada inclui a detecção de variantes genômicas que causam splicing aberrante.

[00382] O método inclui o processamento de uma sequência de referência através de uma rede neural convolucional atrous (ACNN abreviada) treinada para detectar padrões de splicing diferenciais em uma sub-sequência alvo de uma sequência de entrada, classificando cada nucleotídeo na sub-sequência alvo como um sítio doador de splice de, um sítio aceptor de splice do ou um sítio não splicing.

[00383] O método inclui, com base no processamento, a detecção de um primeiro padrão de splicing diferencial em uma sub-sequência alvo de referência, classificando cada nucleotídeo na sub-sequência alvo de referência como um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00384] O método inclui o processamento de uma sequência variante através da ACNN. A sequência variante e a sequência de referência diferem em pelo menos um nucleotídeo variante localizado em uma sub- sequência alvo variante.

[00385] O método inclui, com base no processamento, a detecção de um primeiro padrão de splicing diferencial em uma sub-sequência alvo variante, classificando cada nucleotídeo na sub-sequência alvo variante como um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00386] O método inclui determinar uma diferença entre o primeiro padrão de splicing diferencial e o segundo padrão de splicing diferencial comparando, em uma base nucleotídeo por nucleotídeo, classificações do sítio de splice da sub-sequência alvo de referência e a sub-sequência alvo variante.

[00387] Quando a diferença está acima de um limite predeterminado, o método inclui a classificação da variante como causadora de splicing aberrante e, portanto, patogênica e o armazenamento da classificação na memória.

[00388] Cada um dos recursos discutidos nesta seção de implementação específica para outras implementações de sistema e método se aplica igualmente a essa implementação de método. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[00389] Um padrão de splicing diferencial pode identificar a distribuição posicional da ocorrência de eventos de splicing em uma sub-

sequência alvo. Exemplos de eventos de splicing incluem pelo menos um de splicing críptico, salto de éxon, éxons mutuamente exclusivos, sítio doador alternativo, sítio aceitador alternativo e retenção de íntrons.

[00390] A sub-sequência alvo de referência e a sub-sequência alvo variante podem ser alinhadas em relação às posições nucleotídicas e podem diferir em pelo menos um nucleotídeo variante.

[00391] A sub-sequência alvo de referência e a sub-sequência alvo variante podem cada uma ter pelo menos 40 nucleotídeos e cada uma pode ser flanqueada por pelo menos 40 nucleotídeos em cada lado.

[00392] A sub-sequência alvo de referência e a sub-sequência alvo variante podem cada uma ter pelo menos 101 nucleotídeos e cada uma pode ser flanqueada por pelo menos 5000 nucleotídeos em cada lado.

[00393] A sub-sequência alvo variante pode incluir duas variantes.

[00394] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do método descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar o método descrito acima.

[00395] Descrevemos sistemas, métodos e artigos de fabricação para usar uma rede neural convolucional atrous treinada para detectar sítios de splice e splicing aberrante em sequências genômicas (por exemplo, sequências nucleotídicas). Um ou mais recursos de uma implementação podem ser combinados com a implementação base. Implementações que não são mutuamente exclusivas são ensinadas a serem combináveis. Um ou mais recursos de uma implementação podem ser combinados com outras implementações. Esta divulgação lembra periodicamente o usuário dessas opções. A omissão de algumas implementações de recitações que repetem essas opções não deve ser tomada como limitativa das combinações ensinadas nas seções anteriores - essas recitações são incorporadas neste documento adiante por referência em cada uma das implementações a seguir.

[00396] Uma implementação de sistema da tecnologia divulgada inclui um ou mais processadores acoplados à memória. A memória é carregada com instruções do computador para treinar um detector de sítios de splice que identifica sítios de splice em sequências genômicas (por exemplo, sequências nucleotídicas).

[00397] O sistema treina uma rede neural convolucional atrous (ACNN abreviada), em pelo menos 50000 exemplos de treinamento em sítios doadores de splice, pelo menos 50000 exemplos de treinamento em sítios aceptores de splice e pelo menos 100000 exemplos de treinamento em sítios não splicing. Cada exemplo de treinamento é uma sequência nucleotídica alvo que possui pelo menos um nucleotídeo alvo flanqueado por pelo menos nucleotídeos de cada lado.

[00398] Para avaliar um exemplo de treinamento usando a CNN, o sistema fornece, como entrada para a CNN, uma sequência nucleotídica alvo flanqueada ainda por pelo menos 40 nucleotídeos de contexto a montante e pelo menos 40 nucleotídeos de contexto a jusante.

[00399] Com base na avaliação, a CNN então produz, como saída, pontuações triplas para a probabilidade de que cada nucleotídeo na sequência nucleotídica alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00400] Esta implementação do sistema e outros sistemas divulgados incluem opcionalmente um ou mais dos seguintes recursos. O sistema também pode incluir recursos descritos em conexão com os métodos divulgados. A interesse de concisão, as combinações alternativas de recursos do sistema não são enumeradas individualmente. Os recursos aplicáveis aos sistemas, métodos e artigos de fabricação não são repetidos para cada conjunto de classes estatutárias de recursos básicos. O leitor entenderá como os recursos identificados nesta seção podem ser facilmente combinados com os recursos básicos de outras classes estatutárias.

[00401] A entrada pode compreender uma sequência nucleotídica alvo que tem um nucleotídeo alvo flanquado por 100 nucleotídeos de cada lado. Em tal implementação, a sequência nucleotídica alvo é ainda flanqueada por 200 nucleotídeos de contexto a montante e 200 nucleotídeos de contexto a jusante.

[00402] Conforme mostrado na FIGURA 28, o sistema pode treinar a CNN em 150000 exemplos de treinamento de sítios doadores de splice, 150000 exemplos de treinamento em sítios aceptores de splice e 1000000 exemplos de treinamento em sítios não splicing.

[00403] Conforme mostrado na FIGURA 31, a CNN pode ser parametrizada por um número de camadas de convolução, um número de filtros de convolução e um número de camadas de subamostragem (por exemplo, pool máximo e pool médio).

[00404] Conforme mostrado na FIGURA 31, a CNN pode incluir uma ou mais camadas totalmente conectadas e uma camada de classificação terminal.

[00405] A CNN pode compreender camadas de convolução que alteram a dimensionalidade que remodelam as dimensões espaciais e de recurso de uma entrada anterior.

[00406] As pontuações triplas para cada nucleotídeo na sequência nucleotídica alvo podem ser exponencialmente normalizadas para somar à unidade. Em tal implementação, o sistema classifica cada nucleotídeo no nucleotídeo alvo como o sítio doador de splice, o sítio aceptor de splice ou o sítio não splicing com base em uma pontuação mais alta nas respectivas pontuações triplas.

[00407] Conforme mostrado na FIGURA 32, a CNN em termos de lotes avalia os exemplos de treinamento durante uma época. Os exemplos de treinamento são amostrados aleatoriamente em lotes. Cada lote tem um tamanho predeterminado. A CNN repete a avaliação dos exemplos de treinamento em várias épocas (por exemplo, 1-10).

[00408] A entradapode compreender uma sequência nucleotídica alvo que possui dois nucleotídeos alvo adjacentes. Os dois nucleotídeos alvo adjacentes podem ser adenina (A abreviada) e guanina (G abreviada). Os dois nucleotídeos adjacentes alvo podem ser guanina (G abreviado) e uracila (U abreviado).

[00409] O sistema inclui um codificador one-hot (mostrado na FIGURA 32) que codifica esparsamente os exemplos de treinamento e fornece codificações one-hot como entrada.

[00410] A CNN pode ser parametrizada por um número de blocos residuais, um número de conexões skip e um número de conexões residuais.

[00411] Cada bloco residual compreende pelo menos uma camada de normalização em lote, pelo menos uma camada de unidade linear retificada (ReLU abreviada), pelo menos uma camada de alteração de dimensionalidade e pelo menos uma conexão residual. Cada bloco residual compreende duas camadas de normalização em lote, duas camadas de não linearidade ReLU, duas camadas de alteração de dimensionalidade e uma conexão residual.

[00412] Cada um dos recursos discutidos nesta seção de implementação específica para outras implementações de sistema e método se aplica igualmente a essa implementação de sistema. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[00413] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[00414] Outra implementação de sistema da tecnologia divulgada inclui um preditor de sítio de splice treinado que é executado em vários processadores operando em paralelo e acoplado à memória. O sistema treina uma rede neural convolucional (CNN abreviada), que é executada em vários processadores, em pelo menos 50000 exemplos de treinamento em sítios doadores de splice, pelo menos 50000 exemplos de treinamento em sítios aceptores de splice e pelo menos 100000 exemplos de treinamento em sítios não splicing. Cada um dos exemplos de treinamento usados no treinamento é uma sequência nucleotídica que inclui um nucleotídeo alvo flanqueado por pelo menos 400 nucleotídeos de cada lado.

[00415] O sistema inclui um estágio de entrada da CNN que é executada em pelo menos um dos vários processadores e alimenta uma sequência de entrada de pelo menos 801 nucleotídeos para avaliação dos nucleotídeos alvo. Cada nucleotídeo alvo é flanqueado por pelo menos 400 nucleotídeos de cada lado. Em outras implementações, o sistema inclui um módulo de entrada da CNN que é executada em pelo menos um dos vários processadores e alimenta uma sequência de entrada de pelo menos 801 nucleotídeos para avaliação dos nucleotídeos alvo.

[00416] O sistema inclui um estágio de saída da CNN que é executada em pelo menos um dos vários processadores e traduz a análise pela CNN em pontuações de classificação para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing. Em outras implementações, o sistema inclui um estágio de saída da CNN que é executada em pelo menos um dos vários processadores e traduz a análise pela CNN em pontuações de classificação para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00417] Cada um dos recursos discutidos nesta seção de implementação específica para outras implementações de sistema e método se aplica igualmente a essa implementação de sistema. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[00418] A CNN pode ser treinada em 150000 exemplos de treinamento de sítios doadores de splice, 150000 exemplos de treinamento de sítios aceptores de splice de e 800000000 exemplos de treinamento de sítios não splicing.

[00419] A CNN pode ser treinada em um ou mais servidores de treinamento.

[00420] A CNN treinada pode ser implantada em um ou mais servidores de produção que recebem sequências de entrada dos clientes solicitantes. Em tal implementação, os servidores de produção processam as sequências de entrada através dos estágios de entrada e saída da CNN para produzir saídas que são transmitidas aos clientes. Em outras implementações, os servidores de produção processam as sequências de entrada através das saídas de entrada e saída da CNN para produzir saídas que são transmitidas aos clientes.

[00421] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[00422] Uma implementação de método da tecnologia divulgada inclui o treinamento de um detector de sítios de splice que identifica sítios de splice em sequências genômicas (por exemplo, sequências nucleotídicas). O método inclui a alimentação, a uma rede neural convolucional (CNN abreviada), de uma sequência de entrada de pelo menos 801 nucleotídeos para avaliação dos nucleotídeos alvo, que são, cada um, flanqueados por pelo menos 400 nucleotídeos de cada lado.

[00423] A CNN é treinada em pelo menos 50000 exemplos de treinamento de sítios doadores de splice, em pelo menos 50000 exemplos de treinamento de sítios aceptores de splice e em pelo menos 100000 exemplos de treinamento de sítios não splicing. Cada um dos exemplos de treinamento usados no treinamento é uma sequência nucleotídica que inclui um nucleotídeo alvo flanqueado por pelo menos 400 nucleotídeos de cada lado.

[00424] O método inclui ainda traduzir a análise pela CNN em pontuações de classificação para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00425] Cada um dos recursos discutidos nesta seção de implementação específica para outras implementações de sistema e método se aplica igualmente a essa implementação de método. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[00426] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do método descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar o método descrito acima.

[00427] Uma implementação de sistema da tecnologia divulgada inclui um ou mais processadores acoplados à memória. A memória é carregada com instruções do computador para implementar um detector de splicing aberrante em execução em vários processadores operando em paralelo e acoplado à memória.

[00428] O sistema inclui uma rede neural convolucional treinada (CNN abreviada) em execução em vários processadores.

[00429] Conforme mostrado na FIGURA 34, a CNN classifica os nucleotídeos alvo em uma sequência de entrada e atribui pontuações no sítio de splice para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing. A sequência de entrada compreende pelo menos 801 nucleotídeos e cada nucleotídeo alvo é flanqueado por pelo menos 400 nucleotídeos de cada lado.

[00430] Conforme mostrado na FIGURA 34, o sistema também inclui um classificador, que é executado em pelo menos um dos vários processadores, que processa uma sequência de referência e uma sequência variante através da CNN para produzir pontuações no sítio de splice para uma probabilidade de que cada nucleotídeo alvo na sequência de referência e na sequência variante seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing. A sequência de referência e a sequência variante têm cada uma pelo menos 101 nucleotídeos alvo e cada nucleotídeo alvo é flanqueado por pelo menos 400 nucleotídeos em cada lado.

[00431] Conforme mostrado na FIGURA 34, o sistema determina, a partir das diferenças nas pontuações do sítio de splice dos nucleotídeos alvo na sequência de referência e na sequência variante, se uma variante que gerou a sequência variante causa splicing aberrante e é, portanto, patogênica.

[00432] Cada um dos recursos discutidos nesta seção de implementação específica para outras implementações de sistema e método se aplica igualmente a essa implementação de sistema. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[00433] Asdiferenças nas pontuações no sítio de splice podem ser determinadas em termos de posição entre os nucleotídeos alvo na sequência de referência e na sequência variante.

[00434] —Parapelomenos uma posição de nucleotídeo alvo, quando uma diferença máxima global nas pontuações do sítio de splice está acima de um limite predeterminado, a CNN classifica a variante como causando splicing aberrante e, portanto, patogênica.

[00435] Parapelomenos uma posição de nucleotídeo alvo, quando uma diferença máxima global nas pontuações do sítio de splice está acima de um limite predeterminado, a CNN classifica a variante como causando splicing aberrante e, portanto, patogênica.

[00436] O limite pode ser determinado a partir de uma pluralidade de limites candidatos. Isso inclui o processamento de um primeiro conjunto de pares de sequência de referência e de variante gerados por variantes comuns benignas para produzir um primeiro conjunto de detecções de splicing aberrante, o processamento de um segundo conjunto de pares de sequência de referência e variante gerados por variantes raras patogênicas para produzir um segundo conjunto de detecções de splicing aberrante e seleção de pelo menos um limite para uso pelo classificador, que maximiza a contagem de detecções de splicing aberrante no segundo conjunto e minimiza a contagem de detecções de splicing aberrante no primeiro conjunto.

[00437] Em uma implementação, a CNN identifica variantes que causam transtorno do espectro do autismo (ASD abreviado). Em outra implementação, a CNN identifica variantes que causam transtorno do atraso no desenvolvimento (DDD abreviado).

[00438] A sequência de referência e a sequência variante têm cada uma pelo menos 101 nucleotídeos alvo e cada nucleotídeo alvo é flanqueado por pelo menos 1000 nucleotídeos em cada lado.

[00439] As pontuações no sítio de splice dos nucleotídeos alvo na sequência de referência podem ser codificadas em uma primeira saída da CNN e as pontuações no sítio de splice dos nucleotídeos alvo na sequência variante podem ser codificadas em uma segunda saída da CNN. Em uma implementação, a primeira saída é codificada como uma primeira matriz 101 x 3 ea segunda saída é codificada como uma segunda matriz 101 x 3.

[00440] Em tal implementação, cada linha na primeira matriz 101 x 3 representa unicamente pontuações do sítio de splice para uma probabilidade que um nucleotídeo alvo na sequência de referência seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00441] Também nessa implementação, cada linha na segunda matriz 101 x 3 representa unicamente pontuações no sítio de splice para uma probabilidade de que um nucleotídeo alvo na sequência variante seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00442] Em algumas implementações, as pontuações do sítio de splice em cada linha da primeira matriz 101 x 3 e a segunda matriz 101 x 3 podem ser exponencialmente normalizadas para somar à unidade.

[00443] O classificador pode executar uma comparação linha a linha da primeira matriz 101 x 3 e da segunda matriz 101 x 3 e determinar, em uma base em termos de linha, as alterações na distribuição das pontuações no sítio de splice. Para pelo menos uma instância da comparação linha a linha, quando a alteração na distribuição está acima de um limite predeterminado, a CNN classifica a variante como causando splicing aberrante e, portanto, patogênica.

[00444] O sistema inclui um codificador one-hot (mostrado na FIGURA 29) que codifica esparsamente a sequência de referência e a sequência variante.

[00445] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório armazenando instruções executáveis por um processador para realizar ações do sistema descrito acima. Ainda outra implementação pode incluir um método que realiza ações do sistema descrito acima.

[00446] Um método de implementação da tecnologia divulgada inclui a detecção de variantes genômicas que causam splicing aberrante.

[00447] O método inclui o processamento de uma sequência de referência através de uma rede neural convolucional (CNN abreviada) treinada para detectar padrões de splicing diferenciais em uma sub- sequência alvo de uma sequência de entrada, classificando cada nucleotídeo na sub-sequência alvo como um sítio doador de splice de, um sítio aceptor de splice do ou um sítio não splicing.

[00448] O método inclui, com base no processamento, a detecção de um primeiro padrão de splicing diferencial em uma sub-sequência alvo de referência, classificando cada nucleotídeo na sub-sequência alvo de referência como um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00449] O método inclui o processamento de uma sequência variante através da CNN. A sequência variante e a sequência de referência diferem em pelo menos um nucleotídeo variante localizado em uma sub- sequência alvo variante.

[00450] O método inclui, com base no processamento, a detecção de um primeiro padrão de splicing diferencial em uma sub-sequência alvo variante, classificando cada nucleotídeo na sub-sequência alvo variante como um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

[00451] O método inclui determinar uma diferença entre o primeiro padrão de splicing diferencial e o segundo padrão de splicing diferencial comparando, em uma base nucleotídeo por nucleotídeo, classificações do sítio de splice da sub-sequência alvo de referência e a sub-sequência alvo variante.

[00452] Quando a diferença está acima de um limite predeterminado, o método inclui a classificação da variante como causadora de splicing aberrante e, portanto, patogênica e o armazenamento da classificação na memória.

[00453] Cada um dos recursos discutidos nesta seção de implementação específica para outras implementações de sistema e método se aplica igualmente a essa implementação de método. Conforme indicado acima, todos os recursos do sistema não são repetidos neste documento e devem ser considerados repetidos por referência.

[00454] Um padrão de splicing diferencial pode identificar a distribuição posicional da ocorrência de eventos de splicing em uma sub-

[00455] A sub-sequência alvo de referência e a sub-sequência alvo variante podem ser alinhadas em relação às posições nucleotídicas e podem diferir em pelo menos um nucleotídeo variante.

[00456] A sub-sequência alvo de referência e a sub-sequência alvo variante podem cada uma ter pelo menos 40 nucleotídeos e cada uma pode ser flanqueada por pelo menos 40 nucleotídeos em cada lado.

[00457] A sub-sequência alvo de referência e a sub-sequência alvo variante podem cada uma ter pelo menos 101 nucleotídeos e cada uma pode ser flanqueada por pelo menos 1000 nucleotídeos em cada lado.

[00458] A sub-sequência alvo variante pode incluir duas variantes.

[00459] Outras implementações podem incluir um meio de armazenamento legível por computador não transitório, armazenando instruções executáveis por um processador para realizar ações do método descrito acima. Ainda outra implementação pode incluir um sistema incluindo memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar o método descrito acima.

[00460] A descrição anterior é apresentada para permitir a criação e o uso da tecnologia divulgada. Várias modificações às implementações divulgadas serão evidentes e os princípios gerais definidos neste documento podem ser aplicados a outras implementações e pedidos sem se afastar do espírito e âmbito da tecnologia divulgada. Assim, a tecnologia divulgada não se destina a ser limitada às implementações apresentadas, mas deve receber o escopo mais amplo consistente com os princípios e características divulgados neste documento. O escopo da tecnologia divulgada é definido pelas reivindicações anexas.

Análise de Enriquecimento por Gene

[00461] A FIGURA 57 representa uma implementação da análise de enriquecimento por gene. Em uma implementação, o detector de splicing aberrante é ainda configurado para implementar uma análise de enriquecimento por gene que determina a patogenicidade de variantes que foram determinadas como causadoras de splicing aberrante. Para um gene específico amostrado de uma coorte de indivíduos com um distúrbio genético, a análise de enriquecimento por gene inclui a aplicação da ACNN treinada para identificar variantes candidatas no gene em particular que causam splicing aberrante, determinando um número de referência de mutações para o gene em particular somando as taxas de mutação trinucleotídica observadas das variantes candidatas e multiplicando a soma por uma contagem de transmissão e um tamanho da coorte, aplicando a ACNN treinada para identificar variantes de novo no gene específico que causa splicing aberrante e comparando o número de referência de mutações com uma contagem das variantes de novo. Com base no resultado da comparação, a análise de enriquecimento por gene determina que o gene específico está associado ao distúrbio genético e que as variantes missense de novo são patogênicas. Em algumas implementações, o distúrbio genético é o transtorno do espectro do autismo (ASD abreviado). Em outras implementações, o distúrbio genético é o transtorno do atraso no desenvolvimento (DDD abreviado).

[00462] No exemplo mostrado na FIGURA 57, cinco variantes candidatas em um gene em particular foram classificadas como causadoras de splicing aberrante pelo detector de splicing aberrante. Essas cinco variantes candidatas têm respectivas taxas de mutação trinucleotídica observadas de 108, 102, 10, 10º e 10º. O número de referência das mutações para o gene em particular é determinado como 10º, com base na soma das respectivas taxas de mutação trinucleotídica observadas das cinco variantes “candidatas e na multiplicação da soma por uma transmissão/contagem de cromossomos (2) e um tamanho da coorte (1000). Isso é então comparado com a contagem de variantes de novo (3).

[00463] Em algumas implementações, o detector de splcing aberrante é ainda configurado para realizar a comparação usando um teste estatístico que produz um valor p como saída.

[00464] Em outras implementações, o detector de splicing aberrante é ainda configurado para comparar o número de referência de mutações com a contagem das variantes de novo e, com base no resultado da comparação, determina que o gene específico não está associado ao distúrbio genético e que as variantes de novo são benignas.

[00465] Em uma implementação, pelo menos algumas das variantes candidatas são variantes de truncamento de proteínas.

[00466] Em outra implementação, pelo menos algumas das variantes candidatas são variantes missense.

Análise de Enriquecimento em Todo o Genoma

[00467] A FIGURA 58 representa uma implementação da análise de enriquecimento em todo o genoma. Em uma implementação, o detector de splicing aberrante é ainda configurado para implementar uma análise de enriquecimento em todo o genoma que determina a patogenicidade de variantes que foram determinadas como causadoras de splicing aberrante. À análise de enriquecimento em todo o genoma inclui a aplicação da ACNN treinada para identificar um primeiro conjunto de variantes de novo que causam splicing aberrante em uma pluralidade de genes amostrados de uma coorte de indivíduos saudáveis, aplicando a ACNN treinada para identificar um segundo conjunto de variantes de novo que causam splicing aberrante na pluralidade de genes amostrados de uma coorte de indivíduos com um distúrbio genético e que comparam as contagens respectivas do primeiro e do segundo conjuntos e com base em uma saída da comparação que determina que o segundo conjunto de variantes de novo é enriquecido na coorte de indivíduos com distúrbio genético e, portanto, patogênico. Em algumas implementações, o distúrbio genético é o transtorno do espectro do autismo (ASD abreviado). Em outras implementações, o distúrbio genético é o transtorno do atraso no desenvolvimento (DDD abreviado).

[00468] Em algumas implementações, o detector de splcing aberrante é ainda configurado para realizar a comparação usando um teste estatístico que produz um valor p como saída. Em uma implementação, a comparação é ainda parametrizada pelos respectivos tamanhos de coorte.

[00469] Em algumas implementações, o detector de splicing aberrante é ainda configurado para comparar as respectivas contagens do primeiro e do segundo conjuntos e com base na saída da comparação, determinando que o segundo conjunto de variantes de novo não é enriquecido na coorte de indivíduos com distúrbios genéticos e, portanto, benigno.

[00470] Noexemplo mostrado na FIGURA 58, é ilustrada a taxa de mutação na coorte saudável (0,001) e a taxa de mutação na coorte afetada (0,004), juntamente com a razão de mutação por indivíduo (4).

Discussão

[00471] Apesar do rendimento diagnóstico limitado do sequenciamento de exoma em pacientes com distúrbios genéticos graves, o sequenciamento clínico se concentrou em mutações de codificação raras, desconsiderando amplamente a variação no genoma não codificante devido à dificuldade de interpretação. Aqui, introduzimos uma rede de aprendizagem profunda que prevê com precisão o splicing a partir da sequência nucleotídica primária, identificando assim mutações não codificadoras que interrompem o padrão normal de éxons e íntrons com graves consequências na proteína resultante. Mostramos que as mutações previstas de splice crípticas que são validadas em alta taxa pelo RNA-seg, são fortemente deletérias na população humana e são uma das principais causas de doenças genéticas raras.

[00472] Usando a rede de aprendizagem profunda como modelo in silico do spliceossoma, conseguimos reconstruir os determinantes de especificidade que permitem ao spliceossoma alcançar sua notável precisão in vivo. Reafirmamos muitas das descobertas feitas nas últimas quatro décadas de pesquisa sobre mecanismos de splicing e mostramos que o spliceossoma integra um grande número de determinantes de especificidade de curto e longo alcance em suas decisões. Em particular, descobrimos que a degeneração percebida da maioria dos motivos de splice é explicada pela presença de determinantes de longo alcance, como comprimentos de éxons/íntrons e posicionamento de nucleossomos, que mais do que compensam e tornam desnecessária a especificidade adicional a nível do motivo. Nossas descobertas demonstram a promessa de modelos de aprendizagem profunda para fornecer informações biológicas, em vez de apenas servir como classificadores de caixa preta.

[00473] A aprendizagem profunda é uma técnica relativamente nova em biologia, e não deixa de ter possíveis perdas. Ao aprender a extrair automaticamente recursos da sequência, os modelos de aprendizagem profunda podem utilizar novos determinantes de sequência não bem descritos por especialistas humanos, mas também há o risco do modelo incorporar recursos que não refletem o verdadeiro comportamento do Spliceossoma. Esses recursos irrelevantes podem aumentar a precisão aparente da previsão dos limites de éxon-íntron anotados, mas reduziriam a precisão da previsão dos efeitos de alteração de splice das mudanças arbitrárias da sequência induzidas pela variação genética. Como a previsão precisa de variantes fornece a evidência mais forte de que o modelo pode generalizar para a verdadeira biologia, fornecemos validação de variantes de alteração de splice previstas usando três métodos totalmente ortogonais: RNA-seg, seleção natural em populações humanas e enriquecimento de variantes de novo em caso versus coortes de controle. Embora isso não impeça totalmente a incorporação de características irrelevantes ao modelo, o modelo resultante parece fiel o suficiente à verdadeira biologia do splicing para ter um valor significativo para aplicações práticas, como a identificação de mutações de splice crípticas em pacientes com doenças genéticas.

[00474] Em comparação com outras classes de mutações truncadoras de proteínas, um aspecto particularmente interessante das mutações de splice crípticas é o fenômeno generalizado de splicing alternativo devido a variantes que alteram o splice incompletamente penetrante, que tendem a enfraquecer os sítios de splice canônicos em relação aos sítios de splice alternativos, resultando na produção de uma mistura de transcritos aberrantes e normais nos dados de RNA-seq. À observação de que essas variantes frequentemente conduzem splicing alternativo específico de tecido destaca o papel inesperado desempenhado por mutações de splice crípticas na geração de uma nova diversidade de splicing alternativa. Uma possível direção futura seria treinar modelos de aprendizagem profunda em anotações de junções de splice do RNA-seq do tecido relevante, obtendo assim modelos específicos de tecido de splicing alternativo. O treinamento da rede em anotações derivadas diretamente de dados de RNA-seg também ajuda a preencher lacunas nas anotações GENCODE, o que melhora o desempenho do modelo na previsão de variantes (FIGURAS 52A e 52B).

[00475] —Nossacompreensão de como as mutações no genoma não codificante levam à doença humana permanece longe de ser completa. À descoberta de mutações de novo de splice crípticas penetrantes em distúrbios do neurodesenvolvimento infantil demonstra que uma interpretação melhorada do genoma não codificador pode beneficiar diretamente pacientes com distúrbios genéticos graves. Mutações de splice crípticas também desempenham papéis importantes no câncer (Jung et al., 2015; Sanz et al., 2010; Supek et al., 2014), e mutações somáticas recorrentes em fatores de splice demonstraram produzir alterações generalizadas na especificidade de splicing(Graubert et al., 2012; Shirai et al., 2015; Yoshida et al., 2011). Ainda há muito trabalho a ser feito para entender a regulação do splicing em diferentes tecidos e contextos celulares, particularmente no caso de mutações que impactam diretamente as proteínas no spliceossoma. À luz dos recentes avanços na terapia com oligonucleotídeos que poderiam potencialmente ter como alvo defeitos de splicing de uma maneira específica (Finkel et al., 2017) de sequência, uma maior compreensão dos mecanismos reguladores que governam esse processo notável poderia pavimentar o caminho para novos candidatos à intervenção terapêutica.

[00476] As FIGURAS 37A, 37B, 37C, 37D, 37E, 37F, 37G e 37H ilustram uma implementação de previsão de splicing a partir da sequência primária com aprendizagem profunda.

[00477] Em relação à FIGURA 37A, para cada posição na transcrição do pré-mRNA, o SpliceNet-10k usa 10,000 nucleotídeos de sequência de flanqueamento como entrada e prediz se essa posição é um aceitador, doador ou nenhum dos splice.

[00478] Emrelaçãoà FIGURA 37B, a transcrição completa do pré- mMRNA para o gene CFTR pontuada usando MaxEntScan (em cima) e SpliceNet-10k (em baixo) é mostrada, juntamente com os sítios previstos aceptor (setas vermelhas) e doador (setas verdes) e as posições reais dos éxons (caixas pretas). Para cada método, aplicamos o limite que tornava o número de sítios previstos igual ao número total de sítios reais.

[00479] Em relaçãoà FIGURA 37C, para cada éxon, medimos a taxa de inclusão do éxon no RNA-seq e mostramos a distribuição da pontuação SpliceNet-10k para éxons com diferentes taxas de inclusão. São mostradas as notas máximas de aceptores e doadores do éxon.

[00480] Em relação à FIGURA 37D, o impacto da mutação in silico de cada nucleotídeo em torno do éxon 9 no gene U2SURP. O tamanho vertical de cada nucleotídeo mostra a diminuição da força prevista do sítio aceptor (seta preta) quando esse nucleotídeo é mutado (Pontuação A).

[00481] Em relação à FIGURA 37E, o efeito do tamanho do contexto da sequência de entrada na precisão da rede. A precisão top-k é a fração dos sítios de splice previstos corretamente no limite em que o número de sítios previstos é igual ao número real de sítos presentes. PR-AUC é a área sob a curva de precisão-recuperação. Também mostramos a precisão top-k e PR-AUC de outros três algoritmos para detecção de sítios de splice.

[00482] Em relaçãoà FIGURA 37F, relação entre o comprimento do éxon/íntron e a força dos sítios de splice adjacentes, conforme previsto pelo SpliceNet-80nt (pontuação do motivo local) e SpliceNet-10k. As distribuições em todo o genoma do comprimento do éxon (amarelo) e comprimento do íntron (rosa) são mostradas em segundo plano. O eixo x está em escala de log.

[00483] Em relaçãoà FIGURA 37G, um par de motivos aceptores e doadores de splice, colocados a 150 nt de distância, são percorridos ao longo do gene HMGCR. São mostrados, em cada posição, o sinal do nucleossomo K562 e a probabilidade do par de formar um éxon nessa posição, conforme previsto pelo SpliceNet-10k.

[00484] Emrelaçãoà FIGURA 37H, o nucleossomo médio K562 e GM12878 sinalizam perto de mutações privadas que são previstas pelo modelo SpliceNet-10k para criar novos éxons na coorte GTEx. O valor p por teste de permutação é mostrado.

[00485] As FIGURAS 38A, 38B, 38C, 38D, 38E, 38F, and 38G retratam uma implementação da validação de mutações de splice crípticas raras nos dados do RNA-seq.

[00486] Em relaçãoà FIGURA 38A, para avaliar o impacto que altera o splice de uma mutação, o SpliceNet-10k prevê pontuações de aceptores e doadores em cada posição na sequência pré-mRNA do gene com e sem a mutação, conforme mostrado neste documento para rs397515893, uma variante de splice críptica patogênica no intronMYBPC3associado à cardiomiopatia. O valor de Pontuação A para a mutação é a maior mudança nas pontuações de previsão de splice dentro de 50 nt da variante.

[00487] Em relação à FIGURA 38B, pontuamos variantes genéticas privadas (observadas em apenas um dos 149 indivíduos da coorte GTEx) com o modelo SpliceNet-10k. É mostrado o enriquecimento de variantes privadas previstas para alterar o splicing (Pontuação A > 0,2, azul) ou que não tenham efeito no splicing (Pontuação A <0,01, vermelha) nas proximidades de junções de saltos de éxon privadas (em cima) ou sítios privados aceptor e doador (em baixo). O eixo y mostra o número de vezes que um evento de splice privado e uma variante genética privada próxima co-ocorrem no mesmo indivíduo, em comparação com os números esperados obtidos através de permutações.

[00488] Em relação à FIGURA 38C, exemplo de uma variante sinônima heterozigótica em PYGB que cria um novo sítio doador com penetrância incompleta. A cobertura de RNA-seq, a contagem de leitura de junções e as posições de junções (setas azuis e cinzas) são mostradas para o indivíduo com a variante e um indivíduo de controle. O tamanho do efeito é calculado como a diferença no uso da nova junção (AC) entre indivíduos com a variante e indivíduos sem a variante. No gráfico de barras empilhadas abaixo, mostramos o número de leituras com o alelo de referência ou alternativo que usou a junção anotada ou a nova junção (“sem splicing” e “nova junção” respectivamente). O número total de leituras de referência diferiu significativamente do número total de leituras alternativas (P = 0,018, teste binomial), sugerindo que 60% dos splicing transcritos na nova junção estão ausentes nos dados de RNA-seg, provavelmente devido ao decaimento mediado sem sentido (NMD).

[00489] Emrelaçãoà FIGURA 38A, a fração de mutações de splice crípticas previstas pelo modelo SpliceNet-10k que foram validadas contra os dados de GTEx RNA-segq. A taxa de validação de interrupções de dinucleotídeos aceptores ou doadores essenciais (linha tracejada) é inferior a 100% devido à cobertura e à deterioração mediada por mutação sem sentido.

[00490] Emrelação à -FlG.38E, distribuição de tamanhos de efeito para previsões de splice críptico validadas. A linha tracejada (50%) corresponde ao tamanho de efeito esperado de variantes heterozigotas totalmente penetrantes. O tamanho do efeito medido das interrupções essenciais dos dinucleotídeos aceptores ou doadores é inferior a 50% devido a decaimento mediado por mutação sem sentido ou alterações isoformas não contabilizadas.

[00491] Emrelação à FIG.38F, sensibilidade do SpliceNet-10k na detecção de variantes privadas de alteradoras de splice na coorte GTEx em diferentes pontos corte de Pontuação A. As variantes são divididas em variantes intrônicas profundas (>50 nt de éxons) e variantes próximas a éxons (éxons sobrepostos ou <50 nt de limites de éxon-íntron).

[00492] Emrelação à FlIG.38G, taxa de validação e sensibilidade do SpliceNet-10k e três outros métodos para previsão de sítio de splice em diferentes pontos de corte de confiança. Os três pontos na curva do SpliceNet-10k mostram o desempenho do SpliceNet-10k em pontos de corte de Pontuação A de 0,2, 0,5 e 0,8. Para os outros três algoritmos, os três pontos na curva indicam seu desempenho nos limites onde eles preveem o mesmo número de variantes de splice críptico que o SpliceNet- 10k em pontos de corte de Pontuação A de 0,2, 0,5 e 0,8.

[00493] As FIGURAS 39A,39B e 39C representam uma implementação de variantes de splice críptico que frequentemente cria splicing alternativo específico de tecido.

[00494] Em relação à FIG. 39A, exemplo de uma variante exônica heterozigótica em CDC25B que cria um novo sítio de doador. A variante é particular para um único indivíduo na coorte GTEx e exibe splicing alternativo específico de tecido que favorece uma fração maior da nova isoforma de splice em músculo em comparação a fibroblastos (P = 0,006 pelo teste exato de Fisher). A cobertura do RNA-segq, a contagem de leitura de junções e as posições de junções (setas azuis e cinzas) são mostradas para o indivíduo com a variante e um indivíduo de controle, tanto nos músculos quanto nos fibroblastos.

[00495] Emrelaçãoà-FlG.39B, exemplo de uma variante criadora de receptores exônicos heterozigotos em FAM229B que exibe efeitos específicos de tecido consistentes em todos os três indivíduos da coorte GTEx que abrigam a variante. A RNA-seq para artéria e pulmão são mostrados para os três indivíduos com a variante e um indivíduo de controle.

[00496] Emrelação à -FlG.39C, fração de variantes criadoras de sítio de splice na coorte GTEx que estão associadas ao uso significativamente não uniforme da nova junção através dos tecidos expressadores, avaliada pelo teste qui-quadrado para homogeneidade. Variantes de splice críptico validadas com valores de Pontuação A baixos a intermediários foram mais prováveis de resultar em splicing alternativo específico de tecido (P = 0,015, teste Exato de Fisher).

[00497] AsFIGURAS 40A, 40B, 40C, 40De 40E retratam uma implementação de variantes de splice críptico previstas que são fortemente deletérias em populações humanas.

[00498] Emrelaçãoà-FlG.40A, variantes sinônimas e intrônicas (50 nt de limites de éxon-íntron conhecidos e excluindo os dinucleotídeos GT ou AG essenciais) com efeitos de alteração de splice previstos com confiança (Pontuação A > 0,8) são fortemente esgotados nas frequências alélicas comuns (>0,1%) na população humana em relação a variantes raras observadas apenas uma vez em 60.706 indivíduos. A razão de possibilidades de 4,58 (P < 102?” pelo teste qui-quadrado) indica que 78% das variantes de splice críptico previstas que surgiram recentemente são suficientemente deletérias para serem removidas pela seleção natural.

[00499] Emrelação à -FlG.40B, fração de variantes de truncamento de proteína e variantes de splice críptico sinônimas e intrônicas previstas no conjunto de dados ExAC que são deletérias, calculadas como em (A).

[00500] Em relação à FIG. 40C, fração de variantes de ganho de splice críptico sinônimas e intrônicas no conjunto de dados ExAC que são deletérias (Pontuação A > 0,8), dividida com base em se é esperado que a variante cause um deslocamento de quadro ou não.

[00501] Emrelação à FIG. A40D, fração de variantes de truncamento de proteína e variantes de splice críptico intrônicas profunda previstas (> 50 nt de limites de éxon-íntron conhecidos) no conjunto de dados gnomAD que são deletérias.

[00502] EmrelaçãoàFlG.40E, número médio de variantes raras (frequência do alelo < 0,1%) truncantes de proteína e variantes raras de splice críptico funcional por genoma humano individual. O número de mutações de splice críptico que se espera que sejam funcionais é estimado com base na fração de previsões que são deletérias. O número total de previsões é maior.

[00503] As FIGURAS 41A,41B,41C,41D,41E e 41F representam uma implementação de mutações de splice críptico de novo em pacientes com doença genética rara.

[00504] Emrelação à FlG.41A, mutações de novo de splice críptico por pessoa para pacientes da coorte de Transtornos do Desenvolvimento de Decifragem (Deciphering Developmental Disorders - DDD), indivíduos com distúrbios do espectro autista (DEA) da Simons Simplex Collection e do Autism Sequencing Consortium, bem como controles saudáveis. É mostrado o enriquecimento nas coortes de DDD e ASD acima dos controles saudáveis, ajustando-se à verificação de variantes entre as coortes. As barras de erro mostram intervalos de confiança de 95%.

[00505] Emrelaçãoà-FlG.41B, proporção estimada de mutações de novo patogênicas por categoria funcional para as coortes DDD e ASD,

com base no enriquecimento de cada categoria em comparação com controles saudáveis.

[00506] Emrelaçãoà-FlG.41C, enriquecimento e excesso de mutações de novo de splice críptico nas coortes DDD e ASD em comparação com controles saudáveis em diferentes limites de Pontuação A.

[00507] Emrelação à FIG. 41D, lista de novos genes candidatos a doenças enriquecidos para mutações de novo nas coortes de DDD e ASD (FDR < 0,01), quando mutações splice críptico previstas foram incluídas juntamente com mutações de codificadoras de proteína na análise de enriquecimento. Os fenótipos presentes em múltiplos indivíduos são mostrados.

[00508] Emrelaçãoà-FlG.41E, três exemplos de mutações de splice críptico de novo previstas em pacientes com autismo que validam no RNA-segq, resultando em retenção de íntrons, salto de éxons e extensão de éxons, respectivamente. Para cada exemplo, a cobertura do RNA-seq e as contagens de junções para o indivíduo afetado são mostradas na parte superior e um indivíduo de controle sem a mutação é mostrado na parte inferior. As sequências são mostradas na cadeia senso em relação à transcrição do gene. As setas azuis e cinzas demarcam as posições das junções no indivíduo com a variante e o indivíduo controle respectivamente.

[00509] Em relação à-FlG.41F, status de validação para 36 sítios de splice críptico prevista selecionados para validação experimental por RNA-segq.

MODELO EXPERIMENTAL E DETALHES DOS SUJEITOS

[00510] Os detalhes dos sujeitos para os 36 pacientes com autismo foram divulgados anteriormente por lossifov et al, Nature 2014 (Tabela S1) e podem ser cruzados usando os identificadores anonimizados na Coluna 1 da Tabela S4 em nosso artigo.

DETALHES DO MÉTODO

1. Aprendizagem profunda para previsão de splice Arquitetura SpliceNet

[00511] Nós treinamos vários modelos baseados em redes neurais convolucionais ultra profundas para prever computacionalmente o splicing da sequência de nucleotídeos pré-mRNA. Projetamos quatro arquiteturas, a saber, SpliceNet-80nt, SpliceNet-400nt, SpliceNet-2k e SpliceNet-10k, que usam 40, 200, 1.000 e 5.000 nucleotídeos em cada lado de uma posição de interesse como entrada, respectivamente, e geram a probabilidade de a posição ser uma aceptora e doadora de splice. Mais precisamente, a entrada para os modelos é uma sequência de nucleotídeos codificados one-hot, onde A, C, G e T (ou equivalentemente U) são codificados como [1, O, O, 0], [0, 1, O, O], [0, 0, 1, 0] e [0, 0, 0, 1] respectivamente e a saída dos modelos consiste em três pontuações que somam um, correspondendo à probabilidade de a posição de interesse ser uma aceptora de splice, doadora de splice e nenhum dos dois.

[00512] A unidade básica das arquiteturas do SpliceNet é um bloco residual (He et al., 2016b), que consiste em camadas de normalização de lote (loffe e Szegedy, 2015), unidades lineares retificadas (ReLU) e unidades convolucionais organizadas de maneira específica (FIGs. 21, 22, 23 e 24). Blocos residuais são comumente usados ao projetar redes neurais profundas. Antes do desenvolvimento de blocos residuais, as redes neurais profundas, consistindo de muitas unidades convolucionais empilhadas uma após a outra, eram muito difíceis de treinar devido ao problema de explosão/desaparecimento de gradientes (Glorot e Bengio, 2010) e o aumento da profundidade dessas redes neurais frequentemente resultava em um erro de treinamento maior (He et al., 2016a). Através de um conjunto abrangente de experimentos computacionais, arquiteturas que consistem em muitos blocos residuais empilhados um após o outro foram mostraram-se capazes de superar esses problemas (He et al., 2016a).

[00513] As arquiteturas SpliceNet completas são fornecidas nas FIGs. 21, 22, 23 e 24. As arquiteturas consistem em K blocos residuais empilhados conectando a camada de entrada à penúltima camada e uma unidade convolucional com ativação softmax conectando a penúltima camada à camada de saída. Os blocos residuais são empilhados de forma que a saída do i* bloco residual seja conectada à entrada do í + 1º bloco residual. Além disso, a saída de cada quarto bloco residual é adicionada à entrada da penúltima camada. Essas "conexões skip" são comumente usadas em redes neurais profundas para aumentar a velocidade de convergência durante o treinamento (Oord et al., 2016).

[00514] Cada bloco residual possui três hiperparâmetros N, W e D, onde N indica o número de núcleos convolucionais, W indica o tamanho da janela e D indica a taxa de dilatação (Yu and Koltun, 2016) de cada núcleo convolucional. Como um núcleo convolucional de tamanho de janela W e taxa de dilatação D extrai recursos que abrangem (W — 1)D posições vizinhas, um bloco residual com hiperparâmetros N W e D extrai recursos que abrangem 2(W — 1)D posições vizinhas. Portanto, o intervalo total de vizinhos das arquiteturas SpliceNet é dado por S = YK , 2(W; — 1)D;, onde N; W; e D; são os hiperparâmetros do i*" bloco residual. Para as arquiteturas SpliceNet-80nt, SpliceNet-400nt, SpliceNet-2k e SpliceNet-10k, o número de blocos residuais e os hiperparâmetros para cada bloco residual foram escolhidos de modo que S seja igual a 80, 400, 2.000 e

10.000, respectivamente.

[00515] As arquiteturas SpliceNet possuem apenas unidades de normalização e de ativação não linear, além de unidades convolucionais. Consequentemente, os modelos podem ser usados em um modo de sequência a sequência com comprimento de sequência variável (Oord et al., 2016). Por exemplo, a entrada para o modelo SpliceNet-10k (S =

10.000) é uma sequência de comprimento de nucleotídeo codificada one- hot S/2 +1+S/2e a saída é uma | x 3 matriz, correspondendo às três pontuações das ! posições centrais na entrada, ou seja, as posições restantes após a exclusão do primeiro e do último S/2 nucleotídeos. Esse recurso pode ser aproveitado para se obter uma enorme quantidade de economia computacional durante o treinamento e os testes. Isso se deve ao fato de que a maioria dos cálculos para posições próximas umas das outras são comuns e os cálculos compartilhados precisam ser feitos apenas uma vez pelos modelos quando usados em um modo sequência a sequência.

[00516] Nossos modelos adotaram a arquitetura de blocos residuais, que se tornou amplamente adotada devido ao seu sucesso na classificação de imagens. Os blocos residuais compreendem unidades repetidas de convolução, intercaladas com conexões skip que permitem que informações de camadas anteriores pulem blocos residuais. Em cada bloco residual, a camada de entrada é primeiramente normalizada em lote, seguida por uma camada de ativação que usa unidades lineares retificadas (ReLU). A ativação é então passada através de uma camada de convolução unidimensional. Essa saída intermediária da camada de convolução unidimensional é novamente normalizada em lote e ativada por ReLU, seguida por outra camada de convolução unidimensional. Ao final da segunda convolução unidimensional, somamos sua saída com a entrada original no bloco residual, que atua como uma conexão skip, permitindo que as informações da entrada original ignorem o bloco residual. Em tal arquitetura, denominada rede de aprendizagem residual profunda por seus autores, a entrada é preservada em seu estado original e as conexões residuais são mantidas livres de ativações não lineares do modelo, permitindo o treinamento eficaz de redes mais profundas.

[00517] Após os blocos residuais, a camada softmax calcula probabilidades dos três estados para cada aminoácido, entre as quais a maior probabilidade softmax determina o estado do aminoácido. O modelo é treinado com função de perda de entropia cruzada categórica acumulada para toda a sequência de proteínas usando o otimizador ADAM.

[00518] As convoluções atrous/dilatadas permitem grandes campos receptivos com poucos parâmetros treináveis. Uma convolução atrous/dilatada é uma convolução em que o núcleo é aplicado sobre uma área maior que seu comprimento pulando os valores de entrada com uma determinada etapa, também chamada taxa de convolução atrous ou fator de dilatação. Convoluções atrous/dilatadas adicionam espaçamento entre os elementos de um filtro/núcleo de convolução, de modo que entradas de entrada vizinhas (por exemplo, nucleotídeos, aminoácidos) em intervalos maiores são consideradas quando uma operação de convolução é realizada. Isso permite a incorporação de dependências contextuais de longo alcance na entrada. As convoluções atrous conservam cálculos parciais de convolução para reutilização à medida que os nucleotídeos adjacentes são processados.

[00519] O exemplo ilustrado usa convoluções unidimensionais. Em outras implementações, o modelo pode usar diferentes tipos de convoluções, como convoluções bidimensionais, convoluções tridimensionais, convoluções dilatadas ou atrous, convoluções transpostas, convoluções separáveis e convoluções separáveis em profundidade. Algumas camadas também usam a função de ativação ReLU, que acelera bastante a convergência da descida do gradiente estocástico em comparação com as não linearidades saturantes, como a tangente sigmoide ou hiperbólica. Outros exemplos de funções de ativação que podem ser usadas pela tecnologia divulgada incluem ReLU paramétrica, ReLU com vazamento e unidade linear exponencial (ELU).

[00520] Algumas camadas também usam a normalização em lote (loffe e Szegedy 2015). Com relação à normalização em lote, a distribuição de cada camada em uma rede neural de convolução (CNN) muda durante o treinamento e varia de uma camada para outra. Isso reduz a velocidade de convergência do algoritmo de otimização. A normalização em lote é uma técnica para superar esse problema. Denotando a entrada de uma camada de normalização em lote com x e sua saída usando z, a normalização em lote aplica a seguinte transformação em x:

[00521] A normalização em lote aplica a normalização de variação média na entrada x usando yu e o e a escala linearmente e a desloca usando y e B. Os parâmetros de normalização yu e o são calculados para a camada atual no conjunto de treinamento usando um método chamado média móvel exponencial. Em outras palavras, eles não são parâmetros treináveis. Por outro lado, y e B são parâmetros treináveis. Os valores de yu e o calculados durante o treinamento são usados no forward pass durante a inferência.

Treinamento e teste de modelos

[00522] —Baixamos a tabela de anotação de gene GENCODE (Harrow et al., 2012) V24/ift37 no navegador de tabelas UCSC e extraímos

20.287 anotações de genes codificadores de proteínas, selecionando a transcrição principal quando várias isoformas estavam disponíveis. Removemos genes que não tinham junções de splice e dividimos o restante em genes do conjunto de treinamento e teste da seguinte forma: Os genes que pertenciam aos cromossomos 2, 4, 6, 8, 10-22, X e Y foram usados para treinar os modelos (13.384 genes, 130.796 pares de doador-aceptor). Escolhemos aleatoriamente 10% dos genes de treinamento e os usamos para determinar o ponto de parada precoce durante o treinamento, e o restante foi usado para treinar os modelos. Para testar os modelos, utilizamos genes dos cromossomos 1, 3, 5, 7 e 9 que não apresentavam nenhum parálogo (1.652 genes, 14.289 pares de doador-aceptor). Para esse fim, nos referimos à lista de parálogos de genes humanos de http://grch37 .ensembl.org/biomart/martview.

[00523] Utilizamos o procedimento a seguir para treinar e testar os modelos em um modo de sequência a sequência com pedaços de tamanho 1 = 5,000. Para cada gene, a sequência de transcrição de MRNA entre os sítios inicial e final de transcrição canônica foi extraída do conjunto hg19/GRCh37. A sequência de transcrição do MRNA de entrada foi codificada por one-hot da seguinte maneira: A, C, G, T/U mapeado para [1, O, O, O], [0, 1, O, O], [0, O, 1, O], [0, O, O, 1], respectivamente. A sequência de nucleotídeos codificada por one-hot foi preenchida com zero até o comprimento se tornar um múltiplo de 5.000 e depois preenchida com zero no início e no final com uma sequência de comprimento flanqueadora S/2, onde S é igual a 80, 400, 2.000 e 10.000 para os modelos SpliceNet-80nt, SpliceNet-400nt, SpliceNet-2k e SpliceNet-10k, respectivamente. À sequência nucleotídica preenchida foi então dividida em blocos de comprimento S/2 + 5,000 + S/2 de tal maneira que o bloco i* consistia nas posições nucleotídicas de 5,000(i — 1) — S/2 + 1 a 5,000i + S/2. Da mesma forma, a sequência do rótulo de saída de splice foi codificada por one-hot da seguinte maneira: não um sítio de splice, um aceptor de splice (primeiro nucleotídeo do éxon correspondente) e um doador de splice (último nucleotídeo do éxon correspondente) foram mapeados para [1, O, 0], [0, 1, O] e [0, O, 1], respectivamente. A sequência de rótulo de saída do splice codificado por one-hot foi preenchida com zero até o comprimento se tornar um múltiplo de 5.000 e depois dividida em blocos de comprimento 5.000, de modo que o i* bloco consistisse nas posições de 5,000(i — 1) + 1 a 5,000i. A sequência nucleotídica codificada por one-hot e a sequência de rótulo codificada por one-hot correspondente foram usadas como entradas para as saídas modelo e alvo do modelo, respectivamente.

[00524] Os modelos foram treinados por 10 épocas com um tamanho de lote de 12 em duas GPUs NVIDIA GeForce GTX 1080 Ti. À perda de entropia cruzada categórica entre as saídas alvo e as saídas previstas foi minimizada usando o otimizador Adam (Kingma and Ba, 2015) durante o treinamento. A taxa de aprendizagem do otimizador foi definida como 0,001 para as 6 primeiras épocas e depois reduzida por um fator de 2 em todas as épocas subsequentes. Para cada arquitetura, repetimos o procedimento de treinamento 5 vezes e obtivemos 5 modelos treinados (FIGs. 53A e 53B). Durante o teste, cada entrada foi avaliada usando todos os 5 modelos treinados e a média de suas saídas foi usada como a saída prevista. Utilizamos esses modelos para as análises nas FIGs. 37A e outras figuras relacionadas.

[00525] Paraas análises nas FIGs. 38A-G, 39A-C, 40A-E e 41A- F envolvendo a identificação de variantes alteradoras de splice, aprimoramos o conjunto de treinamentos de anotações GENCODE para incluir também novas junções de splice comumente observadas na coorte GTEx nos cromossomos 2, 4, 6, 8, 10-22, X, Y (67.012 doadores de splice e 62.911 aceptores de splice). Isso aumentou o número de anotações de junção de splice no treinamento definido em -50%. O treinamento da rede no conjunto de dados combinado melhorou a sensibilidade da detecção de variantes de alteradoras de splice nos dados do RNA-seq em comparação com a rede treinada apenas nas anotações GENCODE (FIGs. 52A e 52B), particularmente para prever variantes de alteradores de splice intrônicas profundas e usamos essa rede para as análises envolvendo avaliação de variantes (FIGs. 38A-G, 39A-C, 40A-E e 41A-F e figuras relacionadas). Para garantir que o conjunto de dados GTEx RNA-seq não contenha sobreposição entre treinamento e avaliação, incluímos apenas junções presentes em 5 ou mais indivíduos no conjunto de dados de treinamento e avaliamos apenas o desempenho da rede nas variantes presentes em 4 ou menos. Detalhes da nova identificação de junção de splice estão descritos em “Detecção de junções de splice" na seção de análise GTEx dos métodos.

Precisão Top-k

[00526] Uma métrica de precisão, como a porcentagem de posições classificadas corretamente, é amplamente ineficaz devido ao fato de a maioria das posições não serem sítios de splice. Em vez disso, avaliamos os modelos usando duas métricas que são eficazes em tais configurações, a saber, precisão top-k e área sob a curva de precisão- recall. A precisão top-k de uma classe específica é definida da seguinte forma: Suponha que o conjunto de testes tenha k posições que pertencem à classe. Escolhemos o limite para que exatamente k posições do conjunto de testes sejam previstas como pertencentes à classe. A fração dessas k posições previstas que realmente pertencem à classe é relatada como a precisão top-k. De fato, isso é igual à precisão quando o limite é escolhido para que precisão e recall tenham o mesmo valor.

Avaliação de modelo em lincRNAs

[00527] —Obtivemos uma lista de todos os transcritos do lincºRNA com base nas anotações GENCODE V24lift37. Ao contrário dos genes codificadores de proteína, os lincRNAs não recebem uma transcrição principal nas anotações GENCODE. Para minimizar a redundância no conjunto de validação, identificamos a transcrição com a maior sequência exônica total por gene lincRNA e denominamos isso de transcrição canônica para o gene. Como é esperado que as anotações de lincºRNA sejam menos confiáveis do que as anotações para genes codificadores de proteína, e tais anotações afetariam nossas estimativas de precisão top-k, usamos os dados GTEx para eliminar lihncRNAs com possíveis problemas de anotação (consulte a seção “Análises no conjunto de dados GTEx" abaixo para obter detalhes sobre esses dados). Para cada lincRNA, contamos todas as leituras divididas mapeadas em todo o comprimento do lincRNA em todas as amostras GTEx (consulte "Detecção de junções de " abaixo para obter detalhes). Essa foi uma estimativa das leituras totais de extensão de junção do lincRNA que usavam junções anotadas ou novas. Também contamos o número de leituras que abrangem junções da transcrição canônica. Consideramos apenas lincRNAs para os quais pelo menos 95% das leituras de extensão de junção em todas as amostras GTEx correspondiam à transcrição canônica. Também exigimos que todas as junções da transcrição canônica fossem observadas pelo menos uma vez na coorte GTEx (excluindo junções que abrangiam íntrons de comprimento < 10 nt). Para calcular a precisão top-k, consideramos apenas as junções dos transcritos canônicos dos lincRNAs que passaram nos filtros acima (781 transcritos, 1047 junções).

Identificando junções de splice da sequência pré-nmRNA

[00528] NaFliG. 37B,comparamos o desempenho de MaxEntScan e SpliceNet-10k com relação à identificação dos limites do éxon canônico de um gene a partir de sua sequência. Utilizamos o gene CFTR, que está em nosso conjunto de testes e possui 26 aceptores e doadores de splice canônicos, como um estudo de caso e obtivemos uma pontuação de aceptor e doador para cada uma das 188.703 posições do sítio inicial da transcrição canônica (chr7: 117,120,017) para o sítio final da transcrição canônica (chr7: 117,308,719) usando MaxEntScan e SpliceNet- 10k. Uma posição foi classificada como aceptora ou doadora de splice se sua pontuação correspondente fosse maior que o limite escolhido ao avaliar a precisão do top-k. O MaxEntScan previu 49 aceptores de splice e 22 doadores de splice, dos quais 9 e 5 são aceptores e doadores verdadeiros, respectivamente. Para melhor visualização, mostramos as pontuações pré- log do MaxEntScan (cortadas para um máximo de 2.500). O SpliceNet-10k previu 26 aceptores de splice e 26 doadores de splice, todos corretos. Para a FIG. 42B, repetimos a análise usando o gene LINCO00467.

Estimativa de inclusão de éxons em junções de splice anotadas com GENCODE

[00529] Calculamos a taxa de inclusão de todos os éxons anotados com GENCODE a partir dos dados da RNA-seq da GTEx (FIG. 37C). Para cada éxon, excluindo o primeiro e o último éxons de cada gene, calculamos a taxa de inclusão como: (L + R)/2 S+(L+R)/2

[00530] ondeLé a contagem total de leitura da junção do éxon canônico anterior para o éxon em consideração em todas as amostras de

GTEx, R é a contagem total de leitura da junção do éxon em consideração para o próximo éxon canônico e S é a contagem total de leitura da junção de salto do éxon canônico anterior para o próximo.

Significância de vários nucleotídeos para o reconhecimento do sítio de splice

[00531] NaFiG.37D, identificamos os nucleotídeos que são considerados importantes pelo SpliceNet-10k para a classificação de uma posição como um aceptor de splice. Para esse fim, consideramos o aceptor de splice em chr3: 142,740,192 no gene U2SURP, que está em nosso conjunto de teste. A "pontuação de importância" de um nucleotídeo em relação a um aceptor de splice é definida da seguinte maneira: Deixe ses identificar a pontuação do aceptor de splice em consideração. A pontuação do aceptor é recalculada substituindo o nucleotídeo em consideração por A, C, G e T. Deixe essas pontuações serem identificadas por s,, Sc Sg E ST respectivamente. A pontuação de importância do nucleotídeo é estimada como: Sa +FSc+Se+S7T Srefr = A

[00532] Esse procedimento é geralmente chamado de mutagênese in-silico (Zhou e Troyanskaya, 2015). Plotamos 127 nucleotídeos de chr3: 142,740,137 a chr3: 142,740,263 de tal maneira que a altura de cada nucleotídeo seja sua pontuação de importância em relação ao aceptor de splice em chr3: 142.740.192. A função de plotagem foi adaptada do software (Shrikumar et al., 2017) DeepLIFT.

Efeito dos motivos TACTAAC e GAAGAA no splicing

[00533] Para estudaro impacto da posição da sequência do ponto de ramificação na força do aceptor, obtivemos primeiro as pontuações do aceptor dos 14.289 aceptores de splice do conjunto de testes usando o SpliceNet-10k. Deixe y,,.; identificar o vetor que contém essas pontuações. Para cada valor de í O a 100, fizemos o seguinte: Para cada conjunto de testes aceptor de splice, substituímos os nucleotídeos de posições i para i — 6 antes do aceptor de splice por TACTAAC e recalculamos a pontuação do aceptor usando SpliceNet-10k. O vetor que contém essas pontuações é indicado por yar.i- Plotamos a seguinte quantidade em função da ií na FIG. 43A: média(yat;: = Yrer)

[00534] Para a FIG. 43B, repetimos o mesmo procedimento usando o motivo de proteína SR GAAGAA. Nesse caso, também estudamos o impacto do motivo quando presente após o aceptor de splice, bem como o impacto na força do doador. GAAGAA e TACTAAC foram os motivos de maior impacto na força de aceptores e doadores, com base em uma pesquisa abrangente no espaço k-mer.

Papel dos comprimentos de éxon e íntron no splicing

[00535] Para estudar o efeito do comprimento do éxon no splicing, filtramos os éxons do conjunto de testes que eram o primeiro ou o último éxon. Essa etapa de filtragem removeu 1.652 dos 14.289 éxons. Classificamos os 12.637 éxons restantes na ordem em que aumentamos o comprimento. Para cada um deles, calculamos uma pontuação de splice calculando a média de pontuação de aceptor no sítio de aceptor de splice e a pontuação de doador no sítio de doador de splice usando SpliceNet-80nt. Plotamos as pontuações de splicing em função do comprimento do éxon na FIG. 37F. Antes da plotagem, aplicamos o seguinte procedimento de suavização: Deixe x denotar o vetor que contém os comprimentos dos éxons e denotamos y o vetor que contém suas pontuações de splicing correspondentes. Alisamos os dois x e usamos y uma janela média de tamanho 2.500.

[00536] Repetimos essa análise calculando as pontuações de splicing usando o SpliceNet-10k. Nos fundamentos, mostramos o histograma dos comprimentos dos 12.637 éxons considerados para esta análise. Aplicamos uma análise semelhante para estudar o efeito do comprimento do íntron no splicing, com a principal diferença sendo que não foi necessário excluir o primeiro e o último éxons.

Papel dos nucleossomos no splicing

[00537] Baixamos os dados do nucleossomo para a linha celular K562 a partir do navegador de genoma UCSC. Usamos o gene HMGR, que está em nosso conjunto de testes, como um exemplo anedótico para demonstrar o impacto do posicionamento do nucleossomo na pontuação do SpliceNet-10k. Para cada posição p no gene, calculamos sua "pontuação de splicing plantado" da seguinte maneira: + Os 8 nucleotídeos das posições p+74 a p+81 foram substituídos por um motivo doador AGGTAAGG.

e Os 4 nucleotídeos das posições p-78 a p-75 foram substituídos por um motivo aceptor TAGG.

e Os 20 nucleotídeos das posições p-98 a p-79 foram substituídos por um trato de polipirimidina COTOCTTTTTCCTCGCCCTC.

+ Os 7 nucleotídeos das posições p-105 a p-99 foram substituídos por uma sequência de pontos de ramificação CACTAAC.

e A média da pontuação do aceptor em p-75 e da pontuação do doador em p+75 previsto pelo SpliceNet-10k é usada como a pontuação do splicing plantado.

[00538] O sinaldo nucleossomo K562, bem como a pontuação do splicing plantado para as 5.000 posições de chr5: 74,652,154 a chr5: 74,657,153 é mostrado na FIG. 37G.

[00539] Para calcular a correlação de Spearman em todo o genoma entre essas duas faixas, escolhemos aleatoriamente um milhão de posições intergênicas que estavam a pelo menos 100.000 nt de todos os genes canônicos. Para cada uma dessas posições, calculamos sua pontuação de splicing plantado, bem como seu sinal médio de nucleossomo K562 (tamanho de janela de 50 foi usado para a média). A correlação entre esses dois valores nas 1 milhão de posições é mostrada na FIG. 37G.

Subclassificamos ainda essas posições com base em seu conteúdo de GC (estimado usando os nucleotídeos entre os motivos aceptores e doadores plantados) com um tamanho de caixa de 0,02. Mostramos a correlação de Spearman em todo o genoma para cada caixa na FIG. 44A.

[00540] —Paracada um dos 14.289 receptores de splice do conjunto de testes, extraímos dados de nucleossomos em 50 nucleotídeos de cada lado e calculamos seu enriquecimento de nucleossomos como o sinal médio no lado do éxon dividido pelo sinal médio no lado do íntron. Classificamos os aceptores de splice na ordem crescente de enriquecimento de nucleossomos e calculamos suas pontuações usando o SpliceNet-80nt. As pontuações de aceptor são plotadas em função do enriquecimento de nucleossomos na FIG. 44B. Antes da plotagem, o procedimento de suavização usado na FIG. 37F foi aplicado. Repetimos essa análise usando o SpliceNet-10k e também para os 14.289 doadores de splice do conjunto de testes.

Enriquecimento do sinal de nucleossomo em novos éxons

[00541] Paraa FIG. 37H, queríamos observar o sinal do nucleossomo em torno de novos éxons previstos. Para garantir que estávamos analisando novos éxons altamente confiáveis, selecionamos apenas variantes singleton (variantes presentes em um único indivíduo GTEx) em que a junção ganha prevista era totalmente privada para o indivíduo com a variante. Além disso, para remover efeitos de confusão de éxons próximos, analisamos apenas variantes intrônicas a pelo menos 750 nt dos éxons anotados. Nós baixamos sinais de nucleossomo para as linhagens celulares GM12878 e K562 do navegador UCSC e extraímos o sinal de nucleossomo a 750 nt de cada um dos novos sítios aceptores ou doadores previstos. Nós calculamos a média do sinal do nucleossomo entre as duas linhagens celulares e invertemos os vetores de sinal para variantes que sobrepusessem genes na cadeia negativa. Mudamos o sinal dos sítios de aceptor 70 nt para a direita e o sinal dos sítios de doador 70 nt para a esquerda. Após a mudança, o sinal do nucleossomo para os sítios aceptor e doador foi centralizado no meio de um éxon idealizado de comprimento 140 nt, que é o comprimento médio dos éxons nas anotações GENCODE v19. Finalmente calculamos a média de todos os sinais deslocados e suavizamos o sinal resultante calculando a média em uma janela de 11 nt centralizada em cada posição.

[00542] Paratestar uma associação, selecionamos SNVs singulares aleatórios, que estavam a pelo menos 750 nt de éxons anotados e foram previstos pelo modelo como não tendo efeito no splicing (Pontuação A < 0,01). Criamos 1000 amostras aleatórias desses SNVs, cada amostra tendo tantos SNVs quanto o conjunto sítios de ganho de sítios de splice que foram usados para a FIG. 37H (128 sítios). Para cada amostra aleatória, calculamos um sinal médio suavizado como descrito acima. Como não foi previsto que os SNVs aleatórios criariam novos éxons, centralizamos o sinal do nucleossomo de cada SNV no próprio SNV e deslocamos aleatoriamente 70 nt para a esquerda ou 70 nt para a direita. Em seguida, comparamos o sinal do nucleossomo na base do meio da FIG. 37H para os sinais obtidos a partir das 1000 simulações nessa base. Um valor p empírico foi calculado como a fração de conjuntos simulados que tinham um valor médio maior ou igual ao observado para as variantes de ganho de sítio de splice.

Robustez da rede a diferenças na densidade de éxons

[00543] Parainvestigar a generalização das previsões da rede, avaliamos o SpliceNet-10k em regiões com densidade de éxons variável. Primeiro, separamos as posições do conjunto de testes em 5 categorias, dependendo do número de éxons canônicos presentes em uma janela de

10.000 nucleotídeos (5.000 nucleotídeos de cada lado) (FIG. 54). Para garantir que a contagem de éxons seja um valor integral para cada posição, usamos o número de partidas de éxons presentes na janela como substituto. Para cada categoria, calculamos a precisão top-k e a área sob a curva de precisão-recall. O número de posições e o valor de k são diferentes para diferentes categorias (detalhadas na tabela abaixo).

Contagem t Posições É H de éxon Aceptores Doadores de splice de splice 1 éxon 15.870.045 1.712 1.878 2 éxons 10.030.710 2.294 2.209 3 éxons 6.927.885 2.351 2.273 4 éxons 4.621.341 2.095 2.042 > 5 éxons 7.247.582 5.679 5.582 Robustez da rede para cada um dos cinco modelos no conjunto

[00544] Treinar vários modelos e usar a média de suas previsões como resultado é uma estratégia comum na aprendizagem de máquina para obter melhor desempenho preditivo, conhecido como aprendizagem por conjunto. Na FIG. 53A, mostramos as precisões top-k e a área sob as curvas de precisão-recall dos 5 modelos SpliceNet-10k que treinamos para construir o conjunto. Os resultados demonstram claramente a estabilidade do processo de treinamento.

[00545] Também calculamos a correlação de Pearson entre suas previsões. Como a maioria das posições no genoma não são sítios de Splice, a correlação entre as previsões da maioria dos modelos seria próxima de 1, tornando a análise inútil. Para superar esse problema, consideramos apenas as posições no conjunto de testes às quais foi atribuída uma pontuação de aceptor ou doador maior ou igual a 0,01 por pelo menos um modelo. Esse critério foi atendido por 53.272 posições (número aproximadamente igual de sítios splice e não-splice). Os resultados estão resumidos na FIG. 53B. A correlação de Pearson muito alta entre as previsões dos modelos ilustra ainda mais sua robustez.

[00546] Mostramos o efeito do número de modelos usados para construir o conjunto no desempenho na FIG. 53C. Os resultados mostram que o desempenho melhora à medida que o número de modelos aumenta, com retornos decrescentes. Il. Análises no conjunto de dados GTEx RNA-seq A Pontuação de uma única variante nucleotídica

[00547] —Quantificamos a alteração de splicing devido a uma única variante de nucleotídeo da seguinte forma: Primeiro usamos o nucleotídeo de referência e calculamos a pontuação do aceptor e do doador para 101 posições em torno da variante (50 posições de cada lado). Suponha que essas pontuações sejam indicadas pelos vetores ares € dref respectivamente. Em seguida, usamos o nucleotídeo alternativo e recalculamos as pontuações do aceptor e do doador. Deixe essas pontuações serem indicadas pelos vetores a, E dar respectivamente. Avaliamos as quatro quantidades seguintes: Pontuação A (ganho de aceptor) = max(ag — ref) Pontuação A (perda de aceptor) = max(ares — dat) Pontuação A(ganho de doador) = max(da — drer) Pontuação A (perda de doador) = max(drer — dat)

[00548] O máximo dessas quatro pontuações é chamado de À Pontuação da variante. Critérios para controle de qualidade e filtragem de variantes Baixamos os dados de GTEx VCF e RNA-seg do dbGaP (acesso ao estudo —phs000424.v6.p1; https://www.ncbi.nlm.nih.gov/projects/gap/cgi- bin/study.cgi?study id=phs000424.v6.p1).

[00549] — Avaliamos o desempenho do SpliceNet em SNVs autossômicos que apareceram em no máximo 4 indivíduos da coorte GTEx.

Em particular, uma variante foi considerada se satisfez os seguintes critérios em pelo menos um indivíduo A:

1. A variante não foi filtrada (o campo FILTER do VCF era PASS).

2. A variante não foi marcada como MULTI ALLELIC no campo INFO do VCF do indivíduo A e o VCF continha um único alelo no campo ALT.

3. O indivíduo A foi heterozigoto para a variante.

4. A razão alt depth /(alt depth + ref depth) estava entre 0,25 e 0,75, onde alt depth e ref depth são o número de leituras que suportam o alelo alternativo e de referência no indivíduo A, respectivamente.

5. A profundidade total, alt depth + ref depth, estava entre 20 e 300 no VCF do indivíduo A.

6. A variante se sobrepôs a uma região do corpo gênico. Os corpos gênicos foram definidos como as regiões entre o início e o fim da transcrição dos transcritos canônicos do GENCODE (V24lift37).

[00550] Para variantes que satisfazem esses critérios em pelo menos um indivíduo, consideramos todos os indivíduos em que a variante apareceu (mesmo que ela não atendesse aos critérios acima) como tendo a variante. Nos referimos às variantes que aparecem em um único indivíduo como singleton e as variantes que aparecem em 2-4 indivíduos como comuns. Não avaliamos variantes que aparecem em 5 ou mais indivíduos, a fim de evitar sobreposição com o conjunto de dados de treinamento.

Alinhamento de leitura RNA-seq

[00551] Utilizamos o OLego (Wu et al., 2013) para mapear as leituras das amostras GTEx em relação à referência hg 19, permitindo uma distância de edição de no máximo 4 entre a leitura de query e a referência (parâmetro -M 4). Observe que o OLego pode operar completamente de novo e não requer nenhuma anotação de gene. Como o OLego procura a presença de motivos de splicing nas extremidades de leituras divididas, seus alinhamentos podem ser enviesados para ou contra a referência em torno de SNVs que interrompem ou criam sítios de splice, respectivamente.

Para eliminar esses vieses, criamos ainda uma sequência de referência alternativa para cada indivíduo GTEXx, inserindo na referência hg19 todos os SNVs do indivíduo com um filtro PASS. Usamos o OLego com os mesmos parâmetros para mapear todas as amostras de cada indivíduo em relação à sequência de referência alternativa desse indivíduo. Para cada amostra, combinamos os dois conjuntos de alinhamentos (contra a referência hg 19 e contra a referência alternativa do indivíduo), escolhendo o melhor alinhamento para cada par de leitura. Para escolher o melhor alinhamento para um par de leitura P, usamos o seguinte procedimento:

1. Se as duas leituras de P não foram mapeadas nos dois conjuntos de alinhamentos, escolhemos o hg19 ou os alinhamentos alternativos de P aleatoriamente.

2. Se P tivesse mais extremidades não mapeadas em um conjunto de alinhamentos do que no outro (por exemplo, ambas as extremidades de P foram mapeadas contra a referência alternativa, mas apenas uma extremidade foi mapeada contra hg19), escolhemos o alinhamento com ambas as extremidades de P mapeadas.

3. Se ambas as extremidades de P foram mapeadas nos dois conjuntos de alinhamentos, escolhemos o alinhamento com o menor número de incompatibilidades totais, ou um aleatório, se o número de incompatibilidades for o mesmo.

Detecção de junções de splice em dados do RNA-segq alinhados

[00552] Usamos o leafcutter cluster, um utilitário no pacote leafcutter (Li et al., 2018), para detectar e contar junções de splice em cada amostra. Exigimos uma leitura de divisão única para suportar uma junção e assumimos um comprimento máximo de íntron de 500 KB (parâmetros -m 1 -| 500000). Para obter um conjunto de junções de alta confiança para o treinamento do modelo de aprendizagem profunda, compilamos a união de todas as junções do leafcutter em todas as amostras e, em seguida,

removemos as junções de consideração que atendiam a um dos seguintes critérios:

1. Ou a extremidade da junção se sobrepunha a uma região da lista negra ENCODE (tabela wgEncodeDacMapabilityConsensusExcludable em hg19 no navegador de genoma UCSC) ou uma repetição simples (faixa Simple Repeats em hg19 no navegador de genoma UCSC).

2. Ambas as extremidades da junção estavam em éxons não canônicos (com base nos transcritos canônicos da versão V24lift37 do GENCODE).

3. As duas extremidades da junção estavam em genes diferentes ou uma das extremidades estava em uma região não-gênica.

4. Ambas as extremidades não possuíam os dinucleotídeos GT/AG essenciais.

[00553] —Asjunções presentes em 5 ou mais indivíduos foram usadas para aumentar a lista de junções de splice anotado do GENCODE para as análises na previsão de variantes (FIGs. 38A-G, 39A-C, 40A-E e 41A-F). Os links para os arquivos que contêm a lista de junções de splice usadas para treinar o modelo são fornecidos na tabela Recursos Principais.

[00554] Embora tenhamos usado junções detectadas pelo leafcutter para aumentar o conjunto de dados de treinamento, notamos que, apesar do uso de parâmetros relaxados, o leafcutter estava filtrando muitas junções com bom suporte nos dados do RNA-seq. Isso reduziu artificialmente nossas taxas de validação. Assim, para as análises de validação GTEx RNA-seq (FIGs. 38A-G e 39A-C), recalculamos o conjunto de junções e contagens de junções diretamente dos dados de leitura do RNA-seq. Contamos todas as leituras de mapeamento dividido não duplicadas com MAPQ pelo menos 10 e com pelo menos 5 nt alinhados em cada lado da junção. Uma leitura foi autorizada a abranger mais de dois ÉXONS; Nesse caso, a leitura foi contada em cada junção com pelo menos 5 nt de sequência mapeada em ambos os lados.

Definição de junções privadas

[00555] Uma junção foi considerada privada no indivíduo A se satisfez pelo menos um dos seguintes critérios:

1. A junção teve pelo menos 3 leituras em pelo menos uma amostra de A e nunca foi observada em nenhum outro indivíduo.

2. Havia pelo menos dois tecidos que atendiam aos dois critérios a seguir: a. A contagem média de leitura da junção nas amostras do indivíduo À no tecido foi de pelo menos 10.

b. O indivíduo A teve pelo menos o dobro de leituras normalizadas em média do que qualquer outro indivíduo nesse tecido. Aqui, a contagem de leitura normalizada de uma junção em uma amostra foi definida como o número de leituras da junção normalizada pelo número total de leituras em todas as junções para o gene correspondente.

[00556] Tecidoscom menos de 5 amostras de outros indivíduos (não A) foram ignorados para este teste.

Enriquecimento de SNVs singleton em torno de junções privadas

[00557] Seuma junção privada tiver exatamente uma extremidade anotada, com base nas anotações GENCODE, consideramos candidata a ganho de aceptor ou doador e pesquisamos SNVs singleton (SNVs que aparecem em um único indivíduo GTEx) que eram privados no mesmo indivíduo em 150 nt da extremidade não anotada. Se uma junção privada tiver os dois extremos anotados, consideramo-la candidata a um evento de salto de éxon privado se ela saltou pelo menos um, mas não mais que 3 éxons do mesmo gene, com base nas anotações do GENCODE. Em seguida, procuramos SNVs singleton dentro de 150 nt a partir das extremidades de cada um dos éxons saltados. Junções privadas com ambas as extremidades ausentes das anotações de éxon do GENCODE foram ignoradas, pois uma fração substancial delas eram erros de alinhamento.

[00558] Para calcularo enriquecimento de SNVs singleton em torno de novos aceptores ou doadores privados (FIG. 38B, inferior), agregamos as contagens de SNVs singleton em cada posição em relação à junção privada. Se o gene sobreposto estava na cadeia negativa, as posições relativas foram invertidas. Dividimos os SNVs em dois grupos: SNVs que eram privados no indivíduo com a junção privada e SNVs que eram privados em um indivíduo diferente. Para suavizar os sinais resultantes, calculamos a média das contagens em uma janela de 7 nt, centralizada em cada posição. Em seguida, calculamos a razão de contagens suavizadas do primeiro grupo (privadas no mesmo indivíduo) para as contagens suavizadas do segundo grupo (privadas em um indivíduo diferente). Para novos saltos de éxon privado (FIG. 38B, superior), seguimos um procedimento semelhante, agregando as contagens de SNVs singleton em torno das extremidades dos éxons saltados.

Validação de previsões de modelo em dados do RNA-seq do GTEx

[00559] Para variantes privadas (aparecendo em um indivíduo na coorte GTEx) ou variantes comuns (aparecendo em dois a quatro indivíduos na coorte GTEx), obtivemos as previsões do modelo de aprendizagem profunda para os alelos de referência e alternativos e calculamos a A Pontuação. Também obtivemos o local onde o modelo previu estar a junção aberrante (nova ou interrompida). Em seguida, procuramos determinar se havia evidência nos dados do RNA-seq suportando uma aberração de splicing nos indivíduos com a variante no local previsto. Em muitos casos, o modelo pode prever vários efeitos para a mesma variante, por exemplo, uma variante que interrompe um doador de splice anotado também pode aumentar o uso de um doador subótimo, como na FIG. 45, sendo que, nesse caso, o modelo pode prever uma perda de doador no sítio de splice anotado e um ganho de doador no sítio subótimo. No entanto, para fins de validação, consideramos apenas o efeito com a maior Pontuação prevista A para cada variante. Portanto, para cada variante, consideramos os efeitos previstos de criação de sítios de splice e de interrupção de sítios de splice separadamente. Observe que as junções que aparecem em menos de cinco indivíduos foram excluídas durante o treinamento de modelo, para evitar avaliar o modelo em novas junções nas quais ele foi treinado.

Validação de mutações de splice crípticas previstas com base em junções de splice privado

[00560] Paracada variante privada que prevê-se que cause nova formação de junção, usamos a rede para prever a posição de uma junção de splice aberrante recém-criada e examinamos os dados do RNA-seq para validar se essa junção nova apareceu apenas no indivíduo com o SNV e em nenhum outro indivíduo GTEx. Da mesma forma, para uma variante que prevê-se que cause uma perda no sítio de splice afetando um sítio de splice do éxon X, procuramos novos eventos de salto de éxon, desde o éxon canônico anterior (aquele a montante do X com base nas anotações do GENCODE) até o próximo éxon canônico (aquele a jusante de X) que apareceu apenas nos indivíduos com a variante e em nenhum outro indivíduo no GTEx. Excluímos as perdas previstas se o sítio de splice que prevê-se que será perdido pelo modelo não foi anotado no GENCODE ou nunca foi observado em indivíduos GTEx sem a variante. Também excluímos os ganhos previstos se o sítio de splice que prevê-se que será ganho já tiver sido anotado no GENCODE. Para estender essa análise a variantes comuns (presentes em dois a quatro indivíduos), também validamos novas junções que estavam presentes em pelo menos metade dos indivíduos com a variante e ausentes em todos os indivíduos sem a variante.

[00561] Usando o requisito de que o evento de splice aberrante previsto seja privado para os indivíduos com a variante, poderíamos validar 40% dos ganhos aceptores e doadores de alta pontuação (A Pontuação > 0,5) previstos, mas apenas 3,4% das perdas de alta pontuação previstas e

5,6% das interrupções essenciais de GT ou AG (a uma taxa de validação falsa de < 0,2% com base em permutações - consulte a seção “Estimando taxas de validação falsa”). O motivo para a discrepância nas taxas de validação de ganhos e perdas é dupla. Primeiro, diferentemente dos ganhos, os eventos de salto de éxon raramente são inteiramente privados para os indivíduos com a variante, porque os éxons são frequentemente saltados em uma referência baixa, o que pode ser observado com RNA-seq suficientemente profundo. Segundo, as perdas no sítio de splice podem ter outros efeitos além de aumentar o salto de éxons, como aumentar a retenção de íntrons ou aumentar o uso de sítios de splice subótimos alternativos. Por esses motivos, não confiamos inteiramente em junções novas particulares para validar as previsões do modelo, também validamos variantes com base em evidências quantitativas para o aumento ou diminuição do uso da junção que prevê-se que será afetada nos indivíduos com a variante.

Validação de mutações de splice crípticas previstas através de critérios quantitativos

[00562] Para uma junção j da amostra s, obtivemos uma contagem de junções normalizada cs: Cj; = asinh =) (1)

[00563] —Aquir, está a contagem de junção bruta para junção j em amostra se a soma no denominador é tomada sobre todas as outras junções entre aceptores anotados e doadores do mesmo gene como j (usando anotações do GENCODE v19). A transformação asinh é definida como asinh(x) = In(x + Vx? + D). É semelhante à transformação logarítmica frequentemente usada para transformar dados do RNA-seq (Lonsdale et al., 2013), no entanto, é definida como 0, eliminando assim a necessidade de pseudocontagens, que teriam valores distorcidos substancialmente, uma vez que muitas junções, especialmente as novas,

possuem contagem baixa ou zero. A transformação asinh se comporta como uma transformação logarítmica para valores grandes, mas é quase linear para valores pequenos. Por esse motivo, é frequentemente usado em conjuntos de dados (como conjuntos de dados RNA-seq ou ChIP-seq) com um grande número de valores próximos de zero para impedir que um pequeno número de grandes valores domine o sinal (Azad et al., 2016; Herring et al., 2018; Hoffman et al., 2012; Kasowski et al., 2013; SEQC/MAQC-III Consortium, 2014). Conforme descrito abaixo, na seção “Critérios de consideração para validação”, foram excluídas amostras em que o denominador na equação (1) estava abaixo de 200 para todas as análises de validação, evitando assim problemas numéricos.

[00564] Paracada junção adquirida ou perdida j prevista como causada por uma SNV que aparece em um conjunto de indivíduos /, calculamos a seguinte pontuação z em cada tecido t separadamente: 7: = médiasea, (Cjs) — médias'eu, (Cjs!) - stdsev, (eis!)

[00565] onde A, éo conjunto de amostras de indivíduos em ! em tecido t e U, é o conjunto de amostras de outros indivíduos em tecido t. Observe que pode haver várias amostras no conjunto de dados GTEx para o mesmo indivíduo e tecido. Como antes c;,, é a contagem de junção j em amostra s. Para as perdas previstas, também calculamos uma pontuação z semelhante para a junção k que salta o éxon supostamente afetado: médias'eu,(cxs) — médiaçea, (Cks) Feu Stds'ev, (Cxso) S

[00566] Observe que uma perda que resultou em saltos levaria a uma diminuição relativa da junção perdida e a um aumento relativo nos saltos. Isso justifica a reversão da diferença nos numeradores de 2z;; € Zx+, portanto, ambas as pontuações tenderiam a ser negativas para uma perda real do sítio de splice.

[00567] Finalmente, calculamos a pontuação z mediano em todos os tecidos considerados. Para perdas, calculamos a mediana de cada uma das pontuações z das equações (2) e (3) separadamente. Uma previsão de perda de aceptor ou doador foi considerada validada se alguma das seguintes situações fosse verdadeira:

1. A mediana das pontuações z da equação (2), quantificando a perda relativa da junção, foi menor que o 5º percentil do valor correspondente nos dados permutados (-1,46) e a mediana das pontuações z da equação (3), quantificando a mudança relativa no salto, foi não positiva (zero, negativa ou ausente, o que seria o caso se a junção do salto não fosse observada em nenhum indivíduo). Em outras palavras, havia fortes evidências de uma redução no uso da junção afetada e nenhuma evidência sugerindo uma diminuição no salto no indivíduo afetado.

2. A mediana das pontuações z da equação (3) foi menor que o 5º percentil do valor correspondente nos dados permutados (-0,74) e a mediana das pontuações z da equação (3) foi não positiva.

3. A mediana das pontuações z da equação (2) foi menor que o 1º percentil dos valores correspondentes nos dados permutados (-2,54).

4. A mediana das pontuações z da equação (3) foi menor que o 1º percentil dos valores correspondentes nos dados permutados (-4,08).

5. A junção que saltou o éxon afetado foi observada em pelo menos metade dos indivíduos com a variante e em nenhum outro indivíduo (como descrito na seção “Validação de mutações de splice crípticas previstas com base em junções de splice privado” acima).

[00568] Uma descrição das permutações usadas para obter os pontos de corte acima é fornecida na seção “Estimando taxas de validação falsa”.

[00569] Empiricamente, observamos que precisávamos aplicar critérios de validação mais rigorosos para perdas em comparação aos ganhos, uma vez que, conforme explicado na seção “Validação de mutações de splice crípticas previstas com base em junções de splice privado”, as perdas tendem a resultar em efeitos mais mistos do que em ganhos. Observar uma junção nova perto de uma SNV privado é muito improvável de ocorrer por acaso, portanto, mesmo pequenas evidências da junção devem ser suficientes para validação. Por outro lado, a maioria das perdas previstas resultou no enfraquecimento de uma junção existente, e esse enfraquecimento é mais difícil de detectar do que a mudança on-off causada por ganhos e mais provável de ser atribuída ao ruído nos dados do RNA-segq.

Critérios de inclusão para análise de validação

[00570] Para evitar o cálculo de pontuações z na presença de contagens baixas ou baixa cobertura, usamos os seguintes critérios para filtrar variantes para a análise de validação:

1. As amostras foram consideradas para o cálculo da pontuação z acima apenas se expressassem o gene (X7, 1,7, > 200 na equação (1)).

2. Um tecido não foi considerado para um cálculo de perda ou ganho da pontuação z se a contagem média da junção perdida ou "de referência", respectivamente, em indivíduos sem a variante fosse menor que 10. A junção “de referência” é a junção canônica usada antes do ganho da nova junção, com base nas anotações do GENCODE (consulte a seção sobre cálculo de tamanho de efeito para obter detalhes). A intuição é que não devemos tentar validar uma variante de perda de splice que afeta uma junção não expressa em indivíduos de controle. Da mesma forma, não devemos tentar validar uma variante de ganho de splice se os indivíduos de controle não expressaram suficientemente as transcrições que abrangem o sítio afetado.

3. No caso de uma perda prevista do sítio de splice, amostras de indivíduos sem a variante foram consideradas apenas se tivessem pelo menos 10 contagens da junção perdida. No caso de um ganho previsto de aceptor ou doador, as amostras de indivíduos controle foram consideradas apenas se tivessem pelo menos 10 contagens da junção "de referência". À intuição é que, mesmo em um tecido com grande expressão média da junção afetada (isto é, critério de aprovação 2.), amostras diferentes podem ter profundidades de sequenciamento muito diferentes, portanto, apenas as amostras de controle com expressão suficiente devem ser incluídas.

4. Um tecido foi considerado apenas se houvesse pelo menos uma amostra passando nos critérios acima de indivíduos com a variante, bem como pelo menos 5 amostras passando nos critérios acima de pelo menos 2 indivíduos controle distintos.

[00571] As variantes para as quais não havia tecidos que satisfizessem os critérios de consideração acima foram consideradas não determináveis e foram excluídas no cálculo da taxa de validação. Para variantes de ganho de splice, filtramos aquelas que ocorrem em sítios de Splice existentes com anotações no GENCODE. Da mesma forma, para variantes de perda de splice, consideramos apenas aquelas que diminuem a pontuação dos sítios de splice existentes com anotações no GENCODE. No geral, 55% e 44% dos ganhos e perdas previstos de alta pontuação (Apontuação> 0,5), respectivamente, foram considerados determináveis e utilizados para a análise de validação.

Estimando taxas de validação falsa

[00572] Para garantir que o procedimento acima tenha taxas razoáveis de validação verdadeira, examinamos primeiro as SNVs que aparecem em 1-4 indivíduos GTEx e interrompem os dinucleotídeos GT/AG essenciais. Argumentamos que essas mutações quase certamente afetam o splicing, portanto sua taxa de validação deve ser próxima de 100%. Entre essas rupturas, 39% foram verificáveis com base nos critérios descritos acima e, entre as verificáveis, a taxa de validação foi de 81%. Para estimar a taxa de validação falsa, permutamos os rótulos individuais dos dados da SNV. Para cada SNV que apareceu em k indivíduos GTEx, escolhemos um subconjunto aleatório de k indivíduos GTEx e atribuímos a SNV a eles. Criamos 10 desses conjuntos de dados aleatórios e repetimos o processo de validação neles. A taxa de validação nos conjuntos de dados permutados foi de 1,7-2,1% para ganhos e 4,3-6,9% para perdas, com mediana de 1,8% e 5,7%, respectivamente. A maior taxa de falsa validação para perdas e a relativamente baixa taxa de validação de interrupções essenciais são devidas à dificuldade em validar as perdas de sítio de splice, conforme destacado na seção “Validação de mutações de splice crípticas previstas com base em junções de splice privado”.

Calculando o tamanho de efeito de variantes de splice crípticas a em dados do RNA-seq

[00573] Definimos o "tamanho de efeito" de uma variante como a fração de transcrições do gene afetado que alterou os padrões de splicing devido à variante (por exemplo, a fração que mudou para um novo aceptor ou doador). Como um exemplo de referência para uma variante de ganho de splice prevista, considere a variante na FIG. 38C. Para um doador À previsto, primeiro identificamos a junção (AC) para o aceptor anotado C mais próximo. Identificamos uma junção "de referência" (BC), onde BA é o doador anotado mais próximo de A. Em cada amostra s, calculamos o uso relativo da nova junção (AC) em comparação com a junção de referência (BC): r U(aB)s = Tostão: (4)

[00574] — Aqui, ro, é a contagem de leitura bruta da junção (CA) na amostra s. Para cada tecido, calculamos a alteração no uso da junção (CA) entre os indivíduos com a variante e todos os outros indivíduos: médiaseaiçao)s — médiasgrey, Uçao)s: (5)

[00575] onde A, é o conjunto de amostras de indivíduos com a variante no tecido t e U, é o conjunto de amostras de outros indivíduos no tecido t. O tamanho do efeito final foi calculado como a mediana da diferença acima em todos os tecidos considerados. O cálculo foi semelhante no caso de um aceptor obtido ou no caso em que a variante de criação do sítio de splice era intrônica. Uma versão simplificada do cálculo do tamanho do efeito (assumindo uma amostra única de indivíduos com e sem a variante) é mostrada na FIG. 38C.

[00576] Parauma perda prevista, calculamos primeiro a fração de transcrições que saltaram o éxon afetado. O cálculo é demonstrado na FIG.

45. Para uma perda prevista de um doador C, identificamos a junção (CE) para o próximo éxon anotado a jusante, assim como a junção (AB) do éxon a montante até o putativamente afetado. Quantificamos a fração de transcrições que pularam o éxon afetado da seguinte forma: TGE)s Kans = T(4e)s + médiaç oo, +T(c)s) 6

[00577] Quanto aos ganhos, calculamos a alteração na fração saltada entre amostras de indivíduos com a variante e amostras de indivíduos sem a variante: média;es,k(ars — média; ey, k(ap)s' (7)

[00578] A fração de transcrições saltadas, conforme calculado acima, não captura completamente os efeitos de uma perda de aceptor ou doador, pois essa interrupção também pode levar a níveis aumentados de retenção de íntrons ou uso de sítios de splice subótimos. Para explicar alguns desses efeitos, também calculamos o uso da junção perdida (CE) em relação ao uso de outras junções com o mesmo aceptor E: em: = — O)

[00579] Aqui, Xre, é a soma de todas as junções de qualquer aceptor (anotado ou novo) do doador E. Isso inclui a junção afetada (CE), a junção de salto (AE), bem como junções em potencial de outros doadores subótimos que compensaram a perda de C, conforme ilustrado no exemplo na FIG. 45. Em seguida, calculamos a alteração no uso relativo da junção afetada: média, cy, ler)ss — médiasea,lecr)s (9)

[00580] Observe que, ao contrário de (5) e (7), que medem o aumento no uso da junção obtida ou de salto em indivíduos com a variante, em (9) queremos medir a diminuição no uso da junção perdida, daí a reversão das duas partes da diferença. Para cada tecido, o tamanho do efeito foi calculado como o máximo de (7) e (9). Quanto aos ganhos, o tamanho de efeito final para a variante foi o tamanho médio do efeito nos tecidos.

Critérios de inclusão para análise de tamanho de efeito

[00581] Uma variante foi considerada para o cálculo do tamanho do efeito apenas se fosse considerada validada com base nos critérios descritos na seção anterior. Para evitar o cálculo da fração de transcrições aberrantes em números muito pequenos, consideramos apenas amostras em que as contagens das junções aberrante e de referência eram pelo menos 10. Como a maioria das variantes de splice crípticas estava no íntron, o tamanho do efeito não pôde ser calculado diretamente contando o número de referência e leituras alternativas sobrepostas à variante. Portanto, o tamanho do efeito das perdas é calculado indiretamente a partir da diminuição no uso relativo da junção de splice normal. Para o tamanho do efeito de novos ganhos de junção, as transcrições aberrantes podem ser impactados por decaimento mediado sem sentido, atenuando os tamanhos de efeito observados. Apesar das limitações dessas medidas, observamos uma tendência consistente em relação a tamanhos de efeito menores para variantes de splice críptica com pontuação mais baixa nos eventos de ganho e perda.

Tamanho do efeito esperado de SNVs heterozigotos totalmente penetrantes

[00582] Para uma variante de criação de sítio de splice totalmente penetrante que faz com que todas as transcrições do haplótipo de variante dos indivíduos com a variante mudem para a nova junção, e assumindo que a nova junção não ocorra nos indivíduos de controle, o tamanho do efeito esperado seria 0,5 pela equação (5).

[00583] Da mesma forma, se um SNV heterozigótico causa um novo evento de salto do éxon e todas as transcrições do haplótipo afetado mudam para a junção de salto, o tamanho esperado do efeito na equação (7) é 0,5. Se todas as transcrições de indivíduos com a variante mudassem para uma junção diferente (a junção de salto ou outra de compensação), a razão na equação (8) seria 0,5 em amostras de indivíduos com a variante e 1 em amostras de outros indivíduos, então a diferença na equação (9) seria 0,5. Isso pressupõe que não houve saltos ou outras junções no aceptor E em indivíduos sem a variante. Ele também pressupõe que a interrupção do sítio de splice não dispara a retenção de íntrons. Na prática, pelo menos baixos níveis de retenção de íntron são frequentemente associados a interrupções no sítio de splice. Além disso, o salto do éxon é generalizado, mesmo na ausência de variantes que alteram o splice. Isso explica por que os tamanhos de efeito medidos estão abaixo de 0,5, mesmo para variantes que interrompem os dinucleotídeos GT/AG essenciais.

[00584] A expectativa de tamanhos de efeito de 0,5 para variantes heterozigotas totalmente penetrantes também pressupõe que a variante não disparou decaimento mediado por sem sentido (NMD). Na presença de NMD, o numerador e o denominador das equações (4), (6) e (8) cairiam, diminuindo assim o tamanho do efeito observado.

Fração de transcrições degradados por decaimento mediado por sem sentido (NMD)

[00585] Paraa FlG.38C uma vez que a variante era exônica, poderíamos contar o número de leituras que abrangiam a variante e possuíam a referência ou o alelo alternativo (“Ref (sem splicing)” e “Alt (sem splicing), respectivamente). Também contamos o número de leituras que sofreram splice no novo sítio de splice e que presumivelmente carregavam o alelo alternativo ("Alt (nova junção)"). No exemplo da FIG. 38C e em muitos outros casos que observamos, observamos que o número total de leituras provenientes do haplótipo com alelo alternativo (a soma de “Alt (sem splicing)' e “Alt (nova junção)”) era menor que o número de leituras com o alelo de referência (“Ref (sem splicing)”). Como acreditamos que eliminamos os vieses de referência durante o mapeamento de leitura, mapeando para os haplótipos de referência e alternativos e assumindo que o número de leituras é proporcional ao número de transcrições com cada alelo, esperávamos que o alelo de referência levasse em consideração metade das leituras no local da variante. Assumimos que as leituras alternativas “ausentes” de alelos correspondem a transcrições do haplótipo de alelo alternativo que emendou na nova junção e foram degradadas por decaimento mediado por sem sentido (NMD). Chamamos esse grupo de "Alt (NMD)".

[00586] Para determinar se a diferença entre o número observado de referência e leituras alternativas foi significativa, calculamos a probabilidade de observar leituras Alt (sem splicing) + Alt (junção nova) (ou menos) sob uma distribuição binomial com probabilidade de sucesso 0,5 e um número total das tentativas de Alt (sem splicing) + Alt (nova junção) + Ref (sem splicing). Esse é um valor p conservador, pois estamos subestimando o número total de "tentativas" por não contar as transcrições potencialmente degradadas. A fração de transcrições NMD na FIG. 38C foi calculada como o número de leituras "Alt (NMD)" sobre o número total de leituras de splicing na nova junção (Alt (NMD) + Alt (nova junção)).

Sensibilidade da rede na detecção de junções de splice crípticas

[00587] Para avaliar a sensibilidade do modelo SpliceNet (FIG. 38F), usamos SNVs que estavam a até 20 nt do sítio de splice afetado (isto é, o aceptor ou doador novo ou interrompido) e não sobrepondo o dinucleotídeo GT/AG essencial de um éxon anotado, e tinha um tamanho do efeito estimado de pelo menos 0,3 (consulte a seção "Cálculo do tamanho do efeito"). Em todas os gráficos de sensibilidade, os SNVs foram definidos como sendo "próximos a éxons" se sobrepusessem um éxon anotado ou estivessem dentro de 50 nt dos limites de um éxon anotado. Todos os outros SNVs foram considerados "intrônicos profundos". Usando esse conjunto de dados verdade de sítios de splice críptica com suporte forte, avaliamos nosso modelo em A limites de pontuação variados e relatamos a fração dos sítios de splice críptica no conjunto de dados verdade previstos pelo modelo naquele ponto de corte.

Comparação com modelos de previsão de splicing existentes

[00588] Realizamos uma comparação frente a frente do SpliceNet- 10k, MaxEntScan (Yeo e Burge, 2004), GeneSplicer (Pertea et al., 2001) e NNSplice (Reese et al., 1997) em relação a várias métricas. Fizemos o download do software MaxEntScan e GeneSplicer em http://genes.mit.edu/burgelab/maxent/download/ e http://www.ces.jhu.edu/-=genomics/GeneSplicer/, respectivamente. Oo NNSplice não está disponível como um software para download; portanto, baixamos os conjuntos de treinamento e teste em http://www.fruitfly .org/data/seq tools/datasets/Human/GENIE 96/splicesets/ e modelos treinados com as arquiteturas de melhor desempenho descritas em (Reese et al., 1997). Como verificação de integridade, reproduzimos as métricas do conjunto de testes relatadas em (Reese et al., 1997). Para avaliar a precisão top-k e a área sob as curvas de precisão de recuperação desses algoritmos, pontuamos todas as posições nos genes do conjunto de testes e nos lincRNAs com cada algoritmo (FIG. 37D).

[00589] As saídas MaxEntScan e GeneSplicer correspondem a razões de chances de log, enquanto as saídas NNSplice e SpliceNet-10k correspondem a probabilidades. Para garantir que demos ao MaxEntScan e ao GeneSplicer a melhor chance de sucesso, calculamos A as pontuações usando-os com a saída padrão e com uma saída transformada, onde primeiro transformamos as saídas para que correspondam às probabilidades. Mais precisamente, a saída padrão do MaxEntScan corresponde a x= log, Pio de splico) : p(não é um sítio de splice)

[00590] que, após a transformação == corresponde à quantidade desejada. Compilamos o software GeneSplicer duas vezes, uma vez configurando o sinalizador RETURN TRUE PROB para O e uma vez configurando-o para 1. Escolhemos a estratégia de saída que levou à melhor taxa de validação em relação aos dados RNA-seq (MaxEntScan: saída transformada, GeneSplicer: saída padrão).

[00591] Para comparar a taxa de validação e a sensibilidade dos vários algoritmos (FIG. 38G), encontramos pontos de corte nos quais todos os algoritmos previram o mesmo número de ganhos e perdas em todo o genoma. Ou seja, para cada ponto de corte nos valores de pontuação SpliceNet-10k A, encontramos os pontos de corte nos quais cada algoritmo concorrente faria o mesmo número de previsões de ganho e o mesmo número de previsões de perda do SpiceNet-10k. Os pontos de corte escolhidos são dados na Tabela S2.

Comparação de previsão de variantes para singleton versus variantes comuns

[00592] Realizamos a análise de validação e sensibilidade (conforme descrito nas seções "Análise de sensibilidade" e "Validação de previsões de modelo") separadamente para SNVs e SNVs singleton que aparecem em 2-4 indivíduos GTEx (FIG. 46A, 46B e 46C). Para testar se a taxa de validação diferia significativamente entre variantes singleton e comuns, realizamos um teste exato de Fisher, comparando as taxas de validação em cada A grupo de pontuação (0,2 - 0,35, 0,35 - 0,5, 0,5 - 0,8, 0,8 - 1) e para cada efeito previsto (ganho ou perda do aceptor ou doador). Após a correção de Bonferroni para contabilizar 16 testes, todos os valores de P foram maiores que 0,05. Da mesma forma, comparamos a sensibilidade para detectar variantes singleton ou comuns. Utilizamos um teste exato de Fisher para testar se a taxa de validação diferia significativamente entre os dois grupos de variantes. Consideramos variantes intrônicas profundas e variantes próximas a éxons separadamente e realizamos a correção de Bonferroni para dois testes. Nenhum dos valores de P foi significativo usando um ponto de corte de 0,05. Portanto, combinamos variantes GTEx singleton e comuns e as consideramos juntas para as análises apresentadas nas FIGs. 48A, 48B, 48C, 48D, 48E, 48F, e 48G e FIGs. 39A, 39B e 39C.

Comparação da previsão de variantes nos cromossomos de treinamento versus teste

[00593] Comparamos a taxa de validação no RNA-seg e a sensibilidade do SpliceNet-10k entre variantes nos cromossomos usados durante o treinamento e variantes no restante dos cromossomos (FIG. 48A e 48B). Todos os valores de P foram superiores a 0,05 após a correção de Bonferroni.. Também calculamos a fração de variantes deletérias separadamente para variantes nos cromossomos de treinamento e teste, conforme descrito na seção “Fração de variantes deletérias” abaixo (FIG. 48C). Para cada A grupo de pontuação e cada tipo de variante, usamos um teste exato de Fisher para comparar o número de variantes comuns e raras entre os cromossomos de treinamento e de teste. Após a correção de Bonferroni para 12 testes, todos os valores de P foram maiores que 0,05. Finalmente, calculamos o número de variantes de splice críptica de novo nos cromossomos de treinamento e teste (FIG. 48D), conforme descrito na seção “Enriquecimento de mutações de novo por coorte”.

Comparação da previsão de variantes entre diferentes tipos de variantes de splice críptica

[00594] —Dividimos as variantes previstas para criação de sítios em três grupos: variantes que criam um novo dinucleotídeo de splice GT ou AG, variantes sobrepostas ao restante do motivo de splicing (posições em torno do limite éxon-íntron até 3 nt no éxon e 8 nt no íntron) e variantes fora do motivo de splice (FIG. 47A e 47B). Para cada A grupo de pontuação (0,2 - 0,35, 0,35 - 0,5, 0,5 - 0,8, 0,8 - 1), realizamos um 7? teste para testar a hipótese de que a taxa de validação é uniforme nos três tipos de variantes de criação de sítios de splice. Todos os testes produziram valores de P> 0,3 mesmo antes da correção de múltiplas hipóteses. Para comparar a distribuição do tamanho do efeito entre os três tipos de variantes, usamos o teste U de Mann-Whitney e comparamos os três pares de tipos de variantes para cada A grupo de pontuação (para um total de 4 x 3 = 12 testes). Após a correção de Bonferroni por 12 testes, todos os valores de P foram > 0,3.

Detecção de variantes de ganho de splice específicas de tecido

[00595] Para a FIG. 39C, queríamos testar se a taxa de uso de novas junções era uniforme entre os tecidos que expressam o gene afetado. Nós nos concentramos em SNVs que criaram novos sítios de splice privados, ou seja, SNVs resultando em uma junção de splice adquirida que apareceu apenas em pelo menos metade dos indivíduos com a variante e em nenhum outro indivíduo. Para cada nova junção j, calculamos, em cada tecido t, as contagens totais da junção em todas as amostras de indivíduos com a variante no tecido: X;ca,t.. Aqui A, está o conjunto de amostras de indivíduos com a variante no tecido t. Da mesma forma, calculamos as contagens totais de todas as junções anotadas do gene para as mesmas amostras X';c1, 29 gs, Onde g indexa as junções anotadas do gene. O uso relativo da nova junção no tecido t, normalizada contra as contagens de base do gene, pode então ser medido como: m = EseaTis Xsesis + Doro)

[00596] Também calculamos o uso médio da junção entre os tecidos: m= Et Eseaçjs Et Esear(1is + Eg tas)

[00597] Queríamos testar a hipótese de que o uso relativo da junção é uniforme entre os tecidos e igual a m. Assim, realizamos um 7? teste comparando as contagens observadas de tecido X';ea, 7, com as contagens esperadas sob a hipótese de uma taxa uniforme m 3';ea,(1is + Zg19.). Uma variante de criação do sítio de splice foi considerada específica do tecido se o x? valor de p corrigido por Bonferroni fosse menor que 10 ?. Os graus de liberdade para o teste são T - 1, onde T é o número de tecidos considerados.

Somente tecidos que atendiam aos critérios de consideração descritos na seção de validação foram utilizados no teste. Além disso, para evitar casos com contagens baixas, em que o teste de uniformidade foi insuficiente, testamos apenas variantes de uniformidade com pelo menos três tecidos considerados, pelo menos uma leitura aberrante por tecido em média (ou seja, m > 1) e pelo menos 15 leituras aberrantes no total em todos os tecidos considerados (ou seja, >; Ysea,7is > 15). Ignoramos todas as variantes com A pontuação menor que 0,35, pois essa classe de variantes geralmente possui tamanhos de efeito baixos e contagem de junções baixa. Observamos que a fração de variantes específicas de tecido era muito baixa para essa classe, mas acreditamos que isso ocorreu devido a problemas de energia.

Ill. Análises nos conjuntos de dados ExAC e gnomAD Filtragem de variantes

[00598] Fizemos o download do arquivo Sites VCF versão 0.3 (60.706 exomas) do navegador ExAC (Lek et al., 2016) e o arquivo Sites VCF versão 2.0.1 (15.496 genomas inteiros) do navegador gnomAD. Criamos uma lista filtrada de variantes para avaliar o SpliceNet-10k. Em particular, foram consideradas variantes que satisfaziam os seguintes critérios: + O campo FILTER foi PASS.

e A variante era uma variante de nucleotídeo único e havia apenas um nucleotídeo alternativo.

+ O campo AN (número total de alelos nos genótipos chamados) tinha um valor de pelo menos 10.000.

+ A variante estava entre o sítio inicial e final da transcrição de uma transcrição canônica do GENCODE.

[00599] Um total de 7.615.051 e 73.099.995 variantes passaram nesses filtros nos conjuntos de dados ExXAC e gnomAD, respectivamente.

Fração de variantes deletérias

[00600] Para esta análise, foram consideradas apenas as variantes nas listas filttadas ExXxAC e gnomAD que eram singleton ou comuns

(frequência alélica (AF) > 0,1%) na coorte. Subclassificamos essas variantes com base em sua posição genômica, de acordo com as anotações canônicas do GENCODE: e Exônico: esse grupo consiste em variantes de ExAC sinônimas (676.594 singleton e 66.524 comuns). As variantes missense não foram consideradas aqui para garantir que a maior parte da deleteriedade das variantes nesse grupo se devesse a alterações de splicing.

e Quase intrônico: Este grupo consiste em variantes ExAC intrônicas que estão entre 3 e 50 nt de um limite de éxon canônico. Mais precisamente, para a análise das variantes de ganho/perda de aceptor e ganho/perda de doador, foram consideradas apenas as variantes de 3-50 nt de um aceptor de splice e um doador, respectivamente (575.636 singleton e 48.362 comuns para ganho/perda de aceptor, 567.774 singleton e 50.614 comuns para ganho/perda de doadores).

e Intrônico profundo: Este grupo consiste em variantes intrônicas do gnomAD que estão a mais de 50 nt de um limite de éxon canônico (34.150.431 singleton e 8.215.361 comuns).

[00601] Para cada variante, calculamos sua A pontuação para os quatro tipos de splices usando SpliceNet-10k. Em seguida, para cada tipo de splice, construímos uma 2 x 2 tabela de contingência de qui-quadrado em que as duas linhas correspondiam às variantes de alteração de splice previstas (A pontuação na faixa apropriada para o tipo de splice) vs variantes não alteradas de splice previstas (A pontuação < 0,1 para todos tipos de splice) e as duas colunas corresponderam a variantes singleton versus comuns. Para variantes de ganho de splice, filtramos aquelas que ocorrem em sítios de splice existentes com anotações no GENCODE. Da mesma forma, para variantes de perda de splice, consideramos apenas aquelas que diminuem a pontuação dos sítios de splice existentes com anotações no GENCODE. A razão de probabilidades foi calculada e a fração de variantes deletérias foi estimada como

(1 - Ea) x 100% As variantes truncadoras de proteínas nas listas filtrtadas ExAC e gnomAD foram identificadas da seguinte forma: e Nonsense: A consequência (McLaren et al., 2016) do VEP foi 'stop gained' (44.046 singleton e 722 comuns no ExAC, 20.660 singleton e 970 comuns no gnomAD).

eMudança de estrutura: a consequência do VEP foi 'frameshift variant”. O critério de variante de nucleotídeo único durante a filtragem de variantes foi relaxado para criar esse grupo (48.265 singleton e 896 comuns no ExAC, 30.342 singleton e 1.472 comuns no gnomAD).

e Perda essencial de aceptor/doador: a variante estava na primeira ou nas duas últimas posições de um íntron canônico (29.240 singleton e 481 comuns no ExAC, 12.387 singleton e 746 comuns no gnomAD).

[00602] Atabela2x2 de contingência qui-quadrado para variantes de truncamento de proteínas foi construída para as listas filtradas ExAC e gnomAD e usada para estimar a fração de variantes deletérias. Aqui, as duas linhas correspondiam a truncamento de proteínas vs variantes sinônimas e as duas colunas correspondiam a variantes singleton vs comuns como antes.

[00603] Os resultados para as variantes ExAC (exônica e quase intrônica) e gnomAD (intrônica profunda) são mostrados nas FIGs. 40B e 40D respectivamente.

Mudança de quadro versus ganho de splice no quadro

[00604] Para esta análise, concentramos nossa atenção nas variantes do ExAC que eram exônicas (somente sinônimo) ou quase intrônicas, e eram singleton ou comuns (AF > 0,1%) na coorte. Para classificar uma variante de ganho do aceptor como no quadro ou de mudança de quadro, medimos a distância entre o aceptor de splice canônico e o recém-criado aceptor de splice e verificamos se era múltiplo de 3 ou não. Classificamos as variantes de ganho de doadores da mesma forma medindo a distância entre o doador de splice canônico e o doador de splice recém- criado.

[00605] A fração de variantes de ganho de splice no quadro deletérias foi estimada a partir de uma 2 x 2 tabela de contingência qui- quadrado em que as duas linhas correspondiam a variantes de ganho de splice em estrutura previstas (A pontuação > 0,8 para ganho de aceptor ou doador) versus variantes não alteradoras de splice previstas (A pontuação <0,1 para todos os tipos de splice) e as duas colunas corresponderam a variantes singleton versus comuns. Este procedimento foi repetido para variantes de ganho de splice de mudança de quadros, substituindo a primeira linha na tabela de contingência por variantes de ganho de splice com mudança de quadros prevista.

[00606] Para calcularo valor p mostrado na FIG. 40C, construímos uma 2 x 2 tabela de contingência qui-quadrado usando apenas as variantes de ganho de splice previstas. Aqui, as duas linhas corresponderam a variantes de ganho de splice no quadro versus mudança de quadro e as duas colunas corresponderam a variantes singleton versus comuns como antes.

Número de variantes de splice críptica por indivíduo

[00607] Para estimar o número de variantes raras de splice críptica funcional por indivíduo (FIG. 40E), primeiro simulamos 100 indivíduos gnomAD incluindo cada variante gnomAD em cada alelo com uma probabilidade igual à sua frequência alélica. Em outras palavras, cada variante foi amostrada duas vezes independentemente para cada indivíduo imitar a diploidia. Contamos o número de variantes exônicas raras (AF <0,1%) exônicas (somente sinônimo), quase intrônicas e intrônicas profundas por pessoa que tiveram uma A pontuação maior ou igual a 0,2, 0,2 e 0,5, respectivamente. Esses são A limites de pontuação relativamente permissivos que otimizam a sensibilidade, garantindo ao mesmo tempo que pelo menos 40% das variantes previstas são deletérias. Nesses pontos de corte, obtivemos uma média de 7,92 variantes de splice críptica rara intrônica sinônima/quase e 3,03 intrônica profunda por pessoa. Como nem todas essas variantes são funcionais, multiplicamos as contagens pela fração de variantes que são deletérias a esses pontos de corte.

IV. Análises nos conjuntos de dados DDD e ASD Mutações crípticas de splicing de novo

[00608] —Obtivemos mutações publicadas de novo (DNMs). Estes incluíram 3953 probandos com distúrbio do espectro do autismo (Dong et al., 2014; lossifov et al., 2014; De Rubeis et al., 2014), 4293 probandos da coorte de Distúrbios do Desenvolvimento de Decifragem (DDD- Deciphering Developmental Disorders) (McRae et al., 2017) e 2073 controles saudáveis (lossifov et al., 2014). DNMs de baixa qualidade foram excluídas das análises (ASD e controles saudáveis: Confiança == lowConf, DDD: PP(DNM) < 0,00781, (McRae et al., 2017)). As DNMs foram avaliadas com a rede e usamos pontuações A (ver métodos acima) para classificar mutações de splice crípticas, dependendo do contexto. Consideramos apenas mutações anotadas com consequências de VEP de synonymous variant, splice region variant, intron variant, 5 prime UTR variant, 3 prime UTR variant ou missense variant. Usamos sítios com pontuações A >0,1 para as FIGs. 41A, 41B, 41C, 41D, 41E, e 41F and FIGs. 50A e 50B, e sítios com pontuações A > 0,2 para FIGs. 49A, 49B e 49C.

[00609] As FIGS. 20, 21, 22,23, e 24 mostram uma descrição detalhada das arquiteturas SpliceNet-80nt, SpliceNet-400nt, SpliceNet-2k e SpliceNet-10k. As quatro arquiteturas usam sequências de nucleotídeos flanqueantes de comprimentos 40, 200, 1.000 e 5.000, respectivamente, em cada lado da posição de interesse como entrada e geram a probabilidade da posição de ser um aceptor de splice, um doador de splice e nenhum deles. As arquiteturas consistem principalmente em camadas convolucionais Conv(N, W, D), onde N, W e D são o número de núcleos convolucionais, o tamanho da janela e a taxa de dilatação de cada núcleo convolucional na camada, respectivamente.

[00610] As FIGs. 42A e 42B retratam a avaliação de vários algoritmos de previsão de splicing em lincRNAs. FIG. 42A mostra as precisões top-k e a área sob as curvas de recuperação de precisão de vários algoritmos de previsão de splicing quando avaliadas em lincRNAs. FIG. 42B mostra a transcrição completa do pré-mRNA para o gene LINCO00467 pontuado usando MaxEntScan e SpliceNet-10k, juntamente com os sítios aceptores previstos (setas vermelhas) e doadores (setas verdes) e as posições reais dos éxons.

[00611] FIGS43A e 43B ilustram efeitos dependentes da posição do ponto de ramificação TACTAAC e motivos potenciadores de splice exônico GAAGAA. Em relação à FIG. 43A, a sequência ótima de pontos de ramificação TACTAAC foi introduzida a várias distâncias de cada um dos

14.289 aceptores de splice do conjunto de testes e as pontuações do aceptor foram calculadas usando SpliceNet-10Kk. A alteração média na pontuação prevista do aceptor é plotada como uma função da distância do aceptor de splice. As pontuações previstas aumentam quando a distância do aceptor de splice está entre 20 e 45 nt; a menos de 20 nt de distância, o TACTAAC interrompe o trato de polipirimidina, devido ao qual as pontuações previstas de aceptores são muito baixas.

[00612] Emrelação à FIG. 43B, o motivo de hexâmero da proteína SR GAAGAA foi introduzido de maneira semelhante a várias distâncias de cada um dos 14.289 aceptores e doadores de splice do conjunto de teste. À mudança média nas pontuações previstas do aceptor e doador do SpliceNet- 10k é plotada em função da distância do aceptor e doador de splice respectivamente. As pontuações previstas aumentam quando o motivo está no lado exônico e a menos de —50 nt do sítio de splice. Em distâncias maiores no éxon, o motivo GAAGAA tende a desfavorecer o uso do aceptor ou doador de splice em questão, presumivelmente porque agora preferencialmente suporta um motivo aceptor ou doador mais proximal. A pontuação muito baixa do aceptor e doador quando o GAAGAA é colocado em posições muito próximas ao íntron é devido à interrupção dos motivos de splice estendida do aceptor ou doador.

[00613] FIGS.44A e 44B representam efeitos do posicionamento do nucleossomo no splicing. Em relação à FIG. 44A, em 1 milhão de posições intergênicas escolhidas aleatoriamente, foram introduzidos motivos fortes de aceptores e doadores espaçados a 150 nt e a probabilidade de inclusão do éxon foi calculada usando SpliceNet-10k. Para mostrar que a correlação entre as previsões do SpliceNet-10k e o posicionamento dos nucleossomos ocorre independentemente da composição de GC, as posições foram agrupadas com base no conteúdo de GC (calculado usando os 150 nucleotídeos entre os sítios de splice introduzidos) e a correlação de Spearman entre as previsões do SpliceNet-10k e o sinal de nucleossomo é plotado para cada compartimento.

[00614] EmrelaçãoàFlG.44B, os sítios aceptores e doadores de splice do conjunto de teste foram pontuados usando SpliceNet-80nt (referido como pontuação de motivo local) e SpliceNet-10k, e as pontuações são plotadas em função do enriquecimento de nucleossomos. O enriquecimento de nucleossomos é calculado como o sinal de nucleossomo em média de 50 nt no lado exônico do sítio de splice dividido pelo sinal de nucleossomo em média de 50 nt no lado intrônico do sítio de splice. A pontuação SpliceNet- 80nt, que é uma substituta para a força do motivo, está negativamente correlacionada com o enriquecimento de nucleossomos, enquanto a pontuação SpliceNet-10k está positivamente correlacionada com o enriquecimento de nucleossomos. Isso sugere que o posicionamento dos nucleossomos é um determinante de especificidade de longo alcance que pode compensar os motivos de splice local fracos.

[00615] FIG. 45 ilustra um exemplo de cálculo do tamanho do efeito para uma variante de interrupção de splice com efeitos complexos. A variante intrônica chr9: 386429 A>G interrompe o sítio doador normal (C) e ativa um doador intrônico a jusante (D) anteriormente suprimido. São mostradas as contagens de cobertura do RNA-segq e de leitura de junção no sangue total do indivíduo com a variante e um indivíduo de controle. Os sítios doadores no indivíduo com a variante e o indivíduo controle são marcados com setas azuis e cinzas, respectivamente. Letras vermelhas em negrito correspondem aos pontos finais da junção. Para visibilidade, os comprimentos dos éxons foram exagerados em quatro vezes em comparação com os comprimentos dos íntrons. Para estimar o tamanho do efeito, calculamos o aumento no uso da junção de salto de éxon (AE) e a diminuição no uso da junção interrompida (CE) em relação a todas as outras junções com o mesmo doador E. O tamanho do efeito final é o máximo dos dois valores (0,39). Uma quantidade aumentada de retenção de íntron também está presente na amostra mutada. Esses efeitos variáveis são comuns nos eventos de salto do éxon e aumentam a complexidade da validação de variantes raras que causam perdas no sítio do aceptor ou doador.

[00616] FIGs. 46A, 46B, e 46C mostram avaliação do modelo SpliceNet-10k em variantes singleton e comuns. Em relação à FIG. 46A, fração de mutações de splice crípticas previstas pelo SpliceNet-10k que foram validadas contra os dados de GTEx RNA-seq. O modelo foi avaliado em todas as variantes que aparecem em no máximo quatro indivíduos da coorte GTEx. As variantes com efeitos previstos de alteração de splice foram validadas contra dados do RNA-seq. A taxa de validação é mostrada separadamente para variantes que aparecem em um único indivíduo GTEx (esquerda) e variantes que aparecem em dois a quatro indivíduos GTEx (direita). As previsões são agrupadas por sua pontuação A. Comparamos a taxa de validação entre variantes singleton e comuns para cada uma das quatro classes de variantes (ganho ou perda de aceptor ou doador) em cada grupo de pontuação A. As diferenças não são significativas (P> 0,05, teste exato de Fisher com correção de Bonferroni para 16 testes).

[00617] EmrelaçãoàFliG.46B, sensibilidade do SpliceNet-10k na detecção de variantes alteradoras de splice na coorte GTEx em diferentes pontos de corte da pontuação A. A sensibilidade do modelo é mostrada separadamente para variantes singleton (esquerda) e comuns (direita). As diferenças na sensibilidade entre variantes singleton e comuns com um ponto de corte de pontuação A de 0,2 não são significativas para variantes próximas a éxons ou variantes intrônicas profundas (P> 0,05, teste exato de Fisher com correção de Bonferroni para dois testes).

[00618] Em relação à FIG. 46C, distribuição dos valores de pontuação A para variantes singleton e comuns validadas. Os valores de p são para os testes U de Mann-Whitney comparando as pontuações de variantes singleton e comuns. As variantes comuns têm valores de pontuação A significativamente mais fracos, devido à seleção natural que filtra as mutações que causam interrupções nas splices com grandes efeitos.

[00619] FIGs. 47A e 47B retratam a taxa de validação e os tamanhos do efeito das variantes de criação de sítio de splice, divididas pela localização da variante. As variantes previstas para criação de sítios de splice foram agrupadas com base em se a variante criou um novo dinucleotídeo essencial de splice GT ou AG, se sobrepôs o restante do motivo de splice (todas as posições ao redor do limite éxon-íntron até 3 nt no éxon e 8 no íntron, excluindo o dinucleotídeo essencial) ou se estava fora do motivo de splice.

[00620] Em relação à FlG.47A, taxa de validação para cada uma das três categorias de variantes de criação de sítios de splice. O número total de variantes em cada categoria é mostrado acima das barras. Dentro de cada grupo de pontuação A, as diferenças nas taxas de validação entre os três grupos de variantes não são significativas (P> 0,3, teste de uniformidade x2).

[00621] Emrelação à FIG. 47B, distribuição de tamanhos do efeito para cada uma das três categorias de variantes de criação de sítios de splice. Dentro de cada grupo de pontuação A, as diferenças nos tamanhos dos efeitos entre os três grupos de variantes não são significativas (P> 0,3, teste U de Mann-Whitney com correção de Bonferroni).

[00622] FIGs. 48A, 48B, 49C, e 49D retratam a avaliação do modelo SpliceNet-10k em cromossomos de treinamento e teste. Em relação à FIG. 48A, fração de mutações de splice crípticas previstas pelo modelo SpliceNet-10k que foram validadas contra os dados de GTEx RNA-seq. A taxa de validação é mostrada separadamente para variantes nos cromossomos usados durante o treinamento (todos os cromossomos, exceto chr1, chr3, chr5, chr7 e chr9; esquerda) e o restante dos cromossomos (direita). As previsões são agrupadas por sua pontuação À. Comparamos a taxa de validação entre cromossomos de treinamento e teste para cada uma das quatro classes de variantes (ganho ou perda de aceptor ou doador) em cada grupo de pontuação A. I|sso explica as possíveis diferenças na distribuição dos valores de pontuação A previstos entre os cromossomos de treinamento e de teste. As diferenças nas taxas de validação não são significativas (P> 0,05, teste exato de Fisher com correção de Bonferroni para 16 testes).

[00623] Emrelaçãoà-FlG.48B, sensibilidade da SpliceNet-10k na detecção de variantes alteradoras de splice na coorte GTEx em diferentes pontos de corte da pontuação A. A sensibilidade do modelo é mostrada separadamente para variantes nos cromossomos usados para treinamento (à esquerda) e no restante dos cromossomos (à direita). Utilizamos um teste exato de Fisher para comparar a sensibilidade do modelo com um ponto de corte de pontuação A de 0,2 entre os cromossomos de treinamento e de teste. As diferenças não são significativas para variantes próximas de éxons ou variantes intrônicas profundas (P> 0,05 após correção de Bonferroni para dois testes).

[00624] Em relação à FIG. 48C, fração de variantes de splice críptica sinônima e intrônica prevista no conjunto de dados ExXAC que são deletérias, calculadas separadamente para variantes em cromossomos usados para treinamento (à esquerda) e no restante dos cromossomos (à direita). As frações e os valores P são calculados como mostrado na Figura

4A. Comparamos o número de variantes comuns e raras entre os cromossomos de treinamento e teste para cada uma das quatro classes de variantes (ganho ou perda de aceptor ou doador) em cada grupo de pontuação A. As diferenças não são significativas (P> 0,05, teste exato de Fisher com correção de Bonferroni para 12 testes).

[00625] Em relação à FlG.A48D, mutações crípticas de splice de novo (DNM;s) por pessoa para coortes de DDD, ASD e controle, mostradas separadamente para variantes nos cromossomos usados

[00626] para treinamento (esquerda) e o restante dos cromossomos (direita). As barras de erro mostram intervalos de confiança (CI) de 95%. O número de variantes de splice crípticas de novo por pessoa é menor para o conjunto de testes, pois tem aproximadamente a metade do tamanho do conjunto de treinamento. Os números são turbulentos devido ao pequeno tamanho da amostra.

[00627] FIGs. 49A, 49B, e 49C ilusttam mutações de splice crípticas de novo em pacientes com doença genética rara, apenas de sítios de regiões sinônimas, intrônicas ou não traduzidas. Em relação à FIG. 49A, mutações previstas de splice críptica de novo (DNMs) com splice críptica de pontuação A > 0,2 por pessoa para pacientes da coorte de Distúrbios do Desenvolvimento de Decifragem (DDD- Deciphering Developmental Disorders), indivíduos com transtornos do espectro do autismo (ASD) da Simons Simplex Collection e do Autism Sequencing Consortium, bem como controles saudáveis. É mostrado o enriquecimento nas coortes de DDD e ASD acima dos controles saudáveis, ajustando-se à verificação de variantes entre as coortes. As barras de erro mostram intervalos de confiança de 95%.

[00628] Em relação à FIG. 49B, proporção estimada de DNMs patogênicas por categoria funcional para as coortes DDD e ASD, com base no enriquecimento de cada categoria em comparação com controles saudáveis. A proporção de splice críptica é ajustada pela falta de missense e de sítios intrônicos mais profundos.

[00629] Em relação à FIG. 49C, enriquecimento e excesso de DNMs de splice crípticas nas coortes DDD e ASD em comparação com controles saudáveis em diferentes limites de pontuação A. O excesso de Ssplice críptica é ajustado pela falta de missense e de sítios intrônicos mais profundos.

[00630] FIGs.50A e 50B representam mutações de splice crípticas de novo em ASD e como uma proporção de DNMs patogênicas. Em relação à FIG. 50A, enriquecimento e excesso de DNMs de splice críptica dentro de probandos de ASD em diferentes limites de pontuação A para prever sítios de splice críptica.

[00631] Em relação à FlG.50B, proporção de DNMs patogênicas atribuíveis aos sítios de splice críptica como uma fração de todas as classes de DNMs patogênicas (incluindo mutações na codificação de proteínas), usando diferentes limites de pontuação A para prever sítios de splice críptica. Limiares de pontuação A mais permissivos aumentam o número de sítios de splice críptica identificados acima da expectativa de fundo, no equilíbrio de ter uma menor razão de chances.

[00632] FIG. 51 retrata a validação do RNA-seq de mutações de splice crípticas de novo previstas em pacientes com ASD. Contagens de junção de cobertura e de splice da expressão de RNA de 36 sítios de splice crípticas previstos selecionados para validação experimental por RNA-seq. Para cada amostra, a cobertura do RNA-segq e as contagens de junções para o indivíduo afetado são mostradas na parte superior e um indivíduo de controle sem a mutação é mostrado na parte inferior. Os gráficos são agrupados por status de validação e tipo de aberração de splice.

[00633] FIGs. 52A e 52B ilustram a taxa de validação e a sensibilidade no RNA-seq de um modelo treinado apenas em transcrições canônicas. Em relação à FIG. 52A, treinamos o modelo SpliceNet-10k usando apenas junções das transcrições canônicas do GENCODE e comparamos o desempenho desse modelo com um modelo treinado nas junções canônicas e nas junções de splice que aparecem em pelo menos cinco indivíduos na coorte GTEx. Comparamos as taxas de validação dos dois modelos para cada uma das quatro classes de variantes (ganho ou perda de aceptor ou doador) em cada grupo de pontuação A. As diferenças nas taxas de validação entre os dois modelos não são significativas (P> 0,05, teste exato de Fisher com correção de Bonferroni para 16 testes).

[00634] Em relação à FlG.52B, sensibilidade do modelo que foi treinado em junções canônicas na detecção de variantes de alteração de splice na coorte GTEx em diferentes pontos de corte de pontuação À. À sensibilidade deste modelo em regiões intrônicas profundas é menor que a do modelo da Figura 2 (P < 0,001, teste exato de Fisher com correção de Bonferroni). A sensibilidade próxima dos éxons não é significativamente diferente.

[00635] FIGs. 53A, 53B, e 53C ilustram que a modelagem de conjunto melhora o desempenho do SpliceNet-10k. Em relação à FIG. 53A, são mostradas as precisões top-k e a área sob as curvas de recuperação de precisão dos 5 modelos SpliceNet-10k individuais. Os modelos têm a mesma arquitetura e foram treinados usando o mesmo conjunto de dados. No entanto, eles diferem entre si devido aos vários aspectos aleatórios envolvidos no processo de treinamento, como inicialização de parâmetros, embaralhamento de dados, etc.

[00636] Em relação à FIG. 53B, as previsões dos 5 modelos individuais do SpliceNet-10k estão altamente correlacionadas. Para esse estudo, consideramos apenas as posições no conjunto de testes às quais foi atribuído um escore de aceptor ou doador maior ou igual a 0,01 por pelo menos um modelo. O subgráfico (i, j) é construído plotando as previsões do Modelo *i contra as previsões do Modelo tj (a correlação de Pearson correspondente é exibida acima do subgráfico).

[00637] Emrelaçãoà-FlG.53C,o desempenho melhora à medida que o número de modelos usados para construir o conjunto SpliceNet-10k é aumentado de 1 para 5.

[00638] FIGs.54A e 54B representam a avaliação do SpliceNet- 10k em regiões com densidade variável de éxon. Em relação à FIG. 54A, as posições do conjunto de teste foram categorizadas em 5 compartimentos, dependendo do número de éxons canônicos presentes em uma janela de

10.000 nucleotídeos. Para cada compartimento, calculamos a precisão top-k e a área sob a curva de precisão de recuperação do SpliceNet-10k.

[00639] Em relação à FIG. 54B, repetimos a análise com MaxEntScan como uma comparação. Observe que o desempenho de ambos os modelos melhora com uma densidade de éxons mais alta, medida pela precisão top-k e pela AUC do Precisão de Recuperação, porque o número de casos de teste positivos aumenta em relação ao número de casos de teste negativos.

Enriquecimento de mutações de novo por coorte

[00640] As DNM;s de splice críptica candidatas foram contadas em cada uma das três coortes. A coorte DDD não relatou DNMs intrônicas > 8 nt distante de éxons e, portanto, regiões > 8 nt de éxons foram excluídas de todas as coortes para os fins da análise de enriquecimento para permitir comparação equivalente entre as coortes DDD e ASD (FIG. 41A). Também realizamos uma análise separada que excluiu mutações com consequências duplas de processamento de splicing críptica e de função de codificação de proteínas para demonstrar que o enriquecimento não se deve ao enriquecimento de mutações com efeitos de codificação de proteínas nas coortes afetadas (FIGS. 49A, 49B e 49C). As contagens foram escalonadas para determinar diferentes DNMs entre as coortes, normalizando a taxa de DNMs sinônimas por indivíduo entre as coortes, usando a coorte de controle saudável como referência. Comparamos a taxa de DNMs de splice críptica por coorte usando um teste E para comparar duas taxas de Poisson (Krishnamoorthy e Thomson, 2004).

[00641] As taxas plotadas para enriquecimento acima da expectativa (FIG. 41C) foram ajustadas para a falta de DNMs> 8 nt de éxons, aumentando para a proporção de todas as DNMs de splice críptica que se espera que ocorram entre 9-50 nt longe dos éxons usando um modelo de contexto de sequência trinucleotídica (ver abaixo, enriquecimento de mutações de novo por gene). A proporção de diagnóstico apenas em silêncio e o excesso de sítios crípticos (FIGS. 49B e 49C) também foram ajustados para a falta de sítios com missense, escalando a contagem críptica pela proporção de sítios de splice críptica que se espera que ocorram em sítios de missense versus sítios sinônimos. O impacto do limite de pontuação A no enriquecimento foi avaliado calculando o enriquecimento de DNMs de splice críptica dentro da coorte DDD através de uma faixa de pontos de corte. Para cada um deles, foi calculada a razão de chances esperada observada, juntamente com o excesso de DNMs de splice críptica.

Proporção de DNMs patogênicas

[00642] O excessode DNMs comparado às taxas de mutação da referência pode ser considerado o rendimento patogênico em uma coorte. Estimamos o excesso de DNMs por tipo funcional nas coortes ASD e DDD, no contexto da coorte de controle saudável (FIG. 41B). As contagens de DNM foram normalizadas para a taxa de DNMs sinônimas por indivíduo, conforme descrito acima. A contagem de splice críptica DDD foi ajustada para a falta de DNMs a 9-50 nt dos íntrons, conforme descrito acima. Para as coortes ASD e DDD, também ajustamos a verificação faltante de variantes intrônicas profundas > 50 nt longe de éxons, usando a proporção de variantes de splice críptica quase-intrônica (<50 nt) vs intrônicas profundas (> 50 nt) da análise de seleção negativa (FIG. 38G).

Enriquecimento de mutações de novo por gene

[00643] Determinamos taxas de mutação nula para cada variante do genoma usando um modelo de contexto de sequência trinucleotídica (Samocha et al., 2014). Usamos a rede para prever a pontuação A para todas as possíveis substituições de nucleotídeos únicos dentro dos éxons e até 8 nt no íntron. Com base no modelo de taxa de mutação nula, obtivemos o número esperado de mutações de splice críptica de novo por gene (usando pontuação A > 0,2 como um ponto de corte).

[00644] De acordo com o estudo DDD (McRae et al., 2017), os genes foram avaliados quanto ao enriquecimento de DNMs em comparação ao acaso em dois modelos, um considerando apenas DNMs de truncamento de proteínas (PTV) e um considerando todas as DNMs de alteração de proteínas (PTVs, missense e indels no quadro). Para cada gene, selecionamos o modelo mais significativo e ajustamos o valor-P para o teste de múltiplas hipóteses. Esses testes foram executados uma vez em que não consideramos DNMs de splice críptica ou taxas de splice críptica (o teste padrão, usado no estudo DDD original) e uma vez em que também contamos DNMs de splice críptica e suas taxas de mutação. Relatamos genes candidatos adicionais que foram identificados como genes com valor de P ajustado por FDR < 0,01 ao incluir DNMs de splice críptica, mas valor de P ajustado com FDR > 0,01 quando não incluindo DNMs de splice críptica (o teste padrão). Testes de enriquecimento foram realizados de forma semelhante para a coorte ASD.

Validação de sítios de splice críptica previstos

[00645] Selecionamos alta confiança de novos dos probandos afetados na Simons Simplex Collection, com pelo menos expressão de RPKM> 1 RNA-seq em linhagens celulares linfoblastoides. Selecionamos variantes de splice críptica de novo para validação com base em um limite da pontuação A> 0,1 para variantes de perda de splice e limite de pontuação A > 0,5 para variantes de ganho de splice. Como as linhagens celulares precisavam ser adquiridas com bastante antecedência, esses limites refletem uma iteração anterior de nossos métodos, em comparação com os limites que adotamos em outras partes do artigo (FIG. 38G e FIG. 41A, 491B, 41Ce 41D) e a rede não incluiu junções de splice GTEx para treinamento de modelos.

[00646] As linhagens celulares linfoblastoides foram obtidas do SSC para esses probandos. As células foram cultivadas em meio de cultura (RPM! 1640, L-glutamina 2mM, soro fetal bovino a 15%) até uma densidade celular máxima de 1 x10º células/ml. Quando as células atingiram a densidade máxima, foram passadas dissociando as células pipetando para cima e para baixo 4 ou 5 vezes e semeando para uma densidade de 200.000 a 500.000 células viáveis/ml. As células foram cultivadas sob condições de 37ºC, 5% de CO» por 10 dias. Aproximadamente 5 x 105 células foram então destacadas e centrifugadas a 300 x g por 5 minutos a 4ºC. O RNA foi extraído usando o RNeasyO Plus Micro Kit (QIAGEN) seguindo o protocolo do fabricante. A qualidade do RNA foi avaliada usando o Agilent RNA 6000 Nano Kit (Agilent Technologies) e executada no Bioanalyzer 2100 (Agilent Technologies). As bibliotecas do RNA-seq foram geradas pelo TruSegê& Stranded Total RNA Library Prep Kit com Ribo-Zero Gold Set A (Ilumina). As bibliotecas foram sequenciadas nos instrumentos HiSegq 4000 no Center for Advanced Technology (UCSF), usando o sequenciamento de 150 nt de leitura única, com uma cobertura de 270 a 388 milhões de leituras (média de 358 milhões de leituras).

[00647] As leituras de sequência para cada paciente foram alinhadas com o OLego (Wu et al., 2013) em relação a uma referência criada a partir da hg19, substituindo variantes de novo do paciente (lossifov et al., 2014) pelo alelo alternativo correspondente. A cobertura do sequenciamento, o uso da junção de splice e os sítios de transcrição foram plotados com gráfico de sashimi da MISO (Katz et al., 2010). Avaliamos os sítios de splice críptica previstos, conforme descrito acima na seção de validação de previsões de modelos. 13 novos sítios de splice (9 nova junção, 4 saltos de éxon) foram confirmados, pois foram observados apenas na amostra que contém o sítio de splice críptica e não foram observados em nenhuma das 149 amostras GTEx ou nas outras 35 amostras sequenciadas. Para 4 eventos adicionais de salto de éxon, baixos níveis de salto de éxon foram frequentemente observados no GTEx. Nesses casos, calculamos a fração de leituras que usava a junção de salto e verificamos que essa fração era mais alta no sítio de splice críptica que contém amostra em comparação com outras amostras. 4 casos adicionais foram validados com base na retenção de íntrons proeminente que estava ausente ou muito mais baixa em outras amostras. A retenção modesta de íntrons em amostras de controle nos impediu de resolver eventos no DDX11 e WDRA4. Dois eventos (no CSAD, e GSAP) foram classificados como falha na validação porque a variante não estava presente nas leituras de sequenciamento.

DISPONIBILIDADE DE DADOS E SOFTWARE

[00648] Os dados de treinamento e teste, as pontuações de previsão para todas as substituições de nucleotídeo único no genoma de referência, resultados de validação do RNA-seg, junções RNA-segq e código fonte estão hospedados publicamente em: https://pasespace.illumina.com/s/os dados da 5Su6ThOblecrh

[00649] RNA-seq para as 36 linhagens celulares linfoblastoides estão sendo depositados no banco de dados ArrayExpress no EMBL-EBI (www.ebi.ac.uk/arrayexpress) sob o número de acesso E- MTAB-xxxx.

[00650] As pontuações de previsão e o código fonte são divulgados publicamente sob uma Licença Apache modificada de código aberto v2.0 e são gratuitos para uso em aplicativos de software acadêmicos e não comerciais. Para reduzir problemas de circularidade que se tornaram uma preocupação para o campo, os autores solicitam explicitamente que as pontuações de previsão do método não sejam incorporadas como um componente de outros classificadores e, em vez disso, solicitam que as partes interessadas empreguem o código-fonte e os dados fornecidos para treinar e aprimorar diretamente seus próprios modelos de aprendizagem profunda.

TABELA DE PRINCIPAIS RECURSOS REAGENTE ou RECURSO FONTE IDENTIFICADOR

Dados depositados Dados e variantes do RNA-seq exigem a https://www.ncbi.nim.n acesso do dbGAP: coorte GTEX ih.gov/projects/gap Pphs000424.v6.p1 Mutações de novo para pacientes com (lossifov et al., 2014) N/A autismo e controles saudáveis Mutações de novo da coorte de (McRae et al., 2017) N/A Distúrbios do Desenvolvimento de Decifragem (DDD- Deciphering Developmental Disorders) Junções de splice das principais Este estudo https://basespace.illumina.com/s/Su transcrições do GENCODE usadas para 6ThOblecrh treinar o modelo canônico de SpliceNet Junções de splice do GTEx usadas para — Este estudo https://pasespace.illumina.com/s/Su aumentar o conjunto de dados de 6ThOblecrh treinamento Junções de splice das principais Este estudo https://basespace.illumina.com/s/Su transcrições do GENCODE usados para 6ThOblecrh testar o modelo, com parálogos excluídos Junções de splice de lincºRNAs usadas Este estudo https://basespace.illumina.com/s/Su para testar o modelo 6ThOblecrh Previsões do modelo canônico Este estudo https://pasespace.illumina.com/s/Su 6ThOblecrh Previsões do modelo suplementado com — Este estudo https://basespace.illumina.com/s/Su GTEx 6ThOblecrh Todas as junções GTEx em todas as Este estudo https://basespace.illumina.com/s/Su amostras GTEx v6.p1 6ThOblecrh Lista de variantes privadas GTEX Este estudo https://basespace.illumina.com/s/Su validadas com pontuação A > 0,1 6ThOblecrh

Arquivos BAM alinhados para RNA-seq Este estudo Acesso do ArrayExpress: E-MTAB- em 36 pacientes com autismo XXXX Software e Algoritmos Código fonte do SpliceNet Este estudo https://pasespace.illumina.com/s/Su 6ThOblecrh

TÍTULOS DE TABELAS SUPLEMENTARES

[0001] A Tabela Si mostra amostras de GTExX usadas para demonstrar cálculos de tamanho do efeito e efeitos de splicing específicos de tecido. Relacionado às FIGs. 38A, 38B, 38C, 38D, 38E, 38F, and 38G, FIG. 39A, FIG. 39B, e FIG. 45

[0002] A Tabela S2 mostra os pontos de corte de confiança correspondentes para SpliceNet-10k, GeneSplicer, MaxEntScan e NNSplice nos quais todos os algoritmos preveem o mesmo número de ganhos e perdas em todo o genoma. Relacionado com a FIG. 38G.

[0003] A Tabela S3 mostra as contagens de DNMs de splice críptica previstas em cada coorte. Relacionado às FIGs. 41A, 41B,41C,41D, 41E, e 41F e é produzida abaixo: éxons + íntrons até 8 nt Íntrons > 8 nt de éxons sinônimo de Probandos novos por não normalizado não normalizado para coorte (n) probando ajustado para sinônimo — ajustado sinônimo DDD 4293 0,28744 347 298,7 14 121 ASD 3953 0,24462 236 238,7 64 64,7 controles 2073 0,24747 98 98 20 20

[0004] ATabelaS4 mostra as taxas esperadas de mutação de novo por gene para cada categoria mutacional. Relacionado às FIG. 41A, 41B, 41C, 41D, 41E e 41F.

[0005] A Tabela S5 ilustra valores de p para enriquecimento de genes em DDD e ASD. Relacionado às FIGs. 41A, 41B, 41C, 41D, 41E e 41F.

[0006] A Tabela S6 mostra os resultados da validação para 36 DNMs de splice críptica previstas em pacientes com autismo. Relacionado às FIG. 41A, 41B, 41C, 41D, 41E e 41F.

Sistema Computadorizado

[0007] A FIG. 59é um diagrama de blocos simplificado de um sistema de computador que pode ser usado para implementar a tecnologia divulgada. O sistema computadorizado normalmente inclui pelo menos um processador que se comunica com vários dispositivos periféricos através de subsistema de barramento. Estes dispositivos periféricos podem incluir um subsistema de armazenamento, incluindo, por exemplo, dispositivos de memória e um subsistema de armazenamento de arquivos, dispositivos de entrada da interface de usuário, dispositivos de saída da interface de usuário e um subsistema da interface de rede. Os dispositivos de entrada e saída permitem a interação do usuário com o sistema computadorizado. O subsistema da interface de rede fornece uma interface para redes externas, incluindo uma interface para os dispositivos de interface correspondentes em outros sistemas computadorizados.

[0008] Em uma implementação, as redes neurais como ACNN e CNN são comunicativamente ligadas ao subsistema de armazenamento e aos dispositivos de entrada da interface do usuário.

[0009] Os dispositivos de entrada da interface de usuário podem incluir um teclado; dispositivos apontadores, como mouse, trackball, touchpad ou mesa digitalizadora; um scanner; uma tela touch incorporada no visor; dispositivos de entrada de áudio, como sistemas de reconhecimento de voz e microfones; e outros tipos de dispositivos de entrada. Em geral, o uso do termo "dispositivo de entrada" deve incluir todos os tipos possíveis de dispositivos e maneiras de inserir informações no sistema computadorizado.

[0010] Os dispositivos de saída da interface de usuário podem incluir um subsistema de exibição, uma impressora, uma máquina de fax ou visores sem exibição de imagens, tais como os de dispositivos de saída de áudio. O subsistema de exibição pode incluir um tubo de raios catódicos (CRT), um dispositivo de tela plana como um monitor de cristal líquido (LCD),

um dispositivo de projeção ou algum outro mecanismo para criar uma imagem visível. O subsistema de exibição também pode fornecer um visor sem exibição de imagens, como dispositivos de saída de áudio. Em geral, o uso do termo "dispositivo de saída" visa incluir todos os tipos possíveis de dispositivos e maneiras de enviar informações do sistema computadorizado para o usuário ou para outra máquina ou sistema computadorizado.

[0011] O subsistema de armazenamento armazena construtos de dados que fornecem a funcionalidade de alguns ou todos os módulos e métodos descritos neste documento. Estes módulos de software geralmente são executados pelo processador sozinho ou em combinação com outros processadores.

[0012] A memória usada no subsistema de armazenamento pode incluir várias memórias, incluindo uma memória de acesso aleatório (RAM) principal para armazenamento de instruções e dados durante a execução do programa e uma memória somente leitura (ROM) na qual as instruções fixas são armazenadas. Um subsistema de armazenamento de arquivos pode fornecer armazenamento persistente para arquivos de programa e dados e pode incluir uma unidade de disco rígido, uma unidade de disquete junto com a mídia removível associada, uma unidade de CD-ROM, uma unidade óptica ou cartuchos de mídia removíveis. Os módulos que implementam a funcionalidade de determinadas implementações podem ser armazenados pelo subsistema de armazenamento de arquivo no subsistema de armazenamento ou em outras máquinas acessíveis pelo processador.

[0013] O subsistema de barramento fornece um mecanismo para permitir que os vários componentes e subsistemas do sistema computadorizado se comuniquem entre si, conforme o pretendido. Embora o subsistema de barramento seja mostrado esquematicamente como um barramento único, implementações alternativas do subsistema de barramento podem usar vários barramentos.

[0014] O sistema computadorizado em si pode ser de vários tipos,

incluindo um computador pessoal, um computador portátil, uma estação de trabalho, um terminal de computador, um computador em rede, uma televisão, um mainframe, um farm de servidores, um conjunto amplamente distribuído de computadores de rede vagamente distribuídos ou qualquer outro sistema de processamento de dados ou dispositivo do usuário. Devido à natureza em constante mudança de computadores e redes, a descrição do sistema de computador representada na FIG. 59 destina-se apenas a um exemplo específico para fins de ilustração da tecnologia divulgada. Muitas outras configurações do sistema computadorizado são possíveis com mais ou menos componentes do que o sistema computadorizado representado na FIG. 59.

[0015] Os processadores de aprendizagem profunda podem ser GPUs ou FPGAs e podem ser hospedados por plataformas em nuvem de aprendizagem profunda, como Google Cloud Platform, Xilinx e Cirrascale. Os exemplos de processadores de aprendizagem profunda incluem a unidade de processamento de tensor (TPU) do Google, soluções de montagem em bastidor como GX4 Rackmount Series, GX8 Rackmount Series, NVIDIA DGX-1, Stratix V FPGA da Microsoft, FPGA Stratix V da Microsoft, unidade de processador inteligente (IPU) da Graphocore, plataforma Zeroth da Qualcomm com processadores Snapdragon, Volta da NVIDIA, DRIVE PX da NVIDIA, MÓDULO JETSON TX1/TX2 da NVIDIA, Nirvana da Intel, VPU da Movidius, Fujitsu DPI, DynamiclQ da ARM, IBM TrueNorth e outros.

[0016] A descrição anterior é apresentada para permitir a criação e o uso da tecnologia divulgada. Várias modificações às implementações divulgadas serão evidentes e os princípios gerais definidos neste documento podem ser aplicados a outras implementações e pedidos sem se afastar do espírito e âmbito da tecnologia divulgada. Assim, a tecnologia divulgada não se destina a ser limitada às implementações apresentadas, mas deve receber o escopo mais amplo consistente com os princípios e características divulgados neste documento. O escopo da tecnologia divulgada é definido pelas reivindicações anexas.

Claims

REIVINDICAÇÕES

1. Método implementado em rede neural de treinamento de um pontuador de sítio de splice que pontua a probabilidade de sítios de splice em sequências genômicas pré-mRNA, o método caracterizado pelo fato de que inclui: treinar uma rede neural convolucional atrous, abreviada ACNN, em vários exemplos de treinamento, incluindo pelo menos 50000 exemplos de treinamento de sítios doadores de splice, em pelo menos 50000 exemplos de treinamento de sítios de aceptores de splice e em pelo menos 100000 exemplos de treinamento de sítios não splicing; inserir sequências nucleotídicas alvo de exemplo marcadas one-hot na ACNN para treinamento, em que uma sequência nucleotídica alvo inclui contexto de pelo menos 200 nucleotídeos flanqueados em cada lado, para pelo menos 200 nucleotídeos de contexto a montante e pelo menos 200 nucleotídeos de contexto a jusante; e ajustar, por meio de retropropagação, parâmetros de filtros na ACNN para predizer precisamente, como saída, pontuações triplas para a probabilidade de que o nucleotídeo alvo na sequência nucleotídica alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing; em que a ACNN treinada é configurada para aceitar como entrada uma sequência nucleotídica de pelo menos 401 nucleotídeos e pontuar pelo menos um nucleotídeo alvo como um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

2. Método implementado em rede neural, de acordo com a reivindicação 1, caracterizado pelo fato de que a entrada compreende uma sequência nucleotídica alvo tendo um nucleotídeo alvo flanqueado por 2500 nucleotídeos em cada lado.

3. Método implementado em rede neural, de acordo com a reivindicação 1, caracterizado pelo fato de que a sequência nucleotídica alvo é adicionalmente flanqueada por 5000 nucleotídeos de contexto a montante e 5000 nucleotídeos de contexto a jusante.

4. Método implementado em rede neural, de acordo com a reivindicação 1, caracterizado pelo fato de que a entrada compreende uma sequência nucleotídica alvo tendo um nucleotídeo alvo flanqueado por 500 nucleotídeos em cada lado.

5. Método implementado em rede neural, de acordo com a reivindicação 1, caracterizado pelo fato de que a sequência nucleotídica alvo é adicionalmente flanqueada por 1000 nucleotídeos de contexto a montante e 1000 nucleotídeos de contexto a jusante.

6. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 5, caracterizado pelo fato de que inclui adicionalmente treinar a ACNN em pelo menos 150000 exemplos de treinamento de sítios doadores de sp/lice, 150000 exemplos de treinamento de sítios aceptores de splice e 800000000 de exemplos de treinamento de sítios não splicing.

7. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que a ACNN compreende grupos de blocos residuais dispostos em uma sequência do mais baixo e mais próximo à entrada, ao mais alto.

8. Método implementado em rede neural, de acordo com a reivindicação 7, caracterizado pelo fato de que cada grupo de blocos residuais é parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho de janela de convolução dos blocos residuais e uma taxa de convolução atrous dos blocos residuais.

9. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 7 a 8, caracterizado pelo fato de que a taxa de convolução atrous progride não exponencialmente a partir de um grupo de blocos residuais mais baixo para um grupo de blocos residuais mais alto.

10. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 7 a 9, caracterizado pelo fato de que o tamanho da janela de convolução varia entre grupos de blocos residuais.

11. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado pelo fato de que a ACNN inclui adicionalmente pelo menos um grupo de quatro blocos residuais e pelo menos uma conexão entre camadas não adjacentes, em que cada bloco residual tem 32 filttos de convolução, tamanho de janela de convolução 11 e taxa de convolução atrous 1.

12. Método implementado em rede neural, de acordo com a reivindicação 1, caracterizado pelo fato de que a ACNN, quando configurada para avaliar uma entrada compreendendo a sequência nucleotídica alvo adicionalmente flanqueada por 500 nucleotídeos de contexto a montante e 500 nucleotídeos de contexto a jusante, inclui adicionalmente: pelo menos dois grupos de quatro blocos residuais e pelo menos duas conexões entre camadas não adjacentes, em que cada bloco residual em um primeiro grupo tem 32 filtros de convolução, tamanho de janela de convolução 11 e taxa de convolução atrous 1 e cada bloco residual em um segundo grupo tem 32 filtros de convolução, tamanho de janela de convolução 11 e taxa de convolução atrous 4.

13. Método implementado em rede neural, de acordo com a reivindicação 1, caracterizado pelo fato de que a ACNN, quando configurada para avaliar uma entrada compreendendo uma sequência nucleotídica alvo adicionalmente flanqueada mais por 1000 nucleotídeos de contexto a montante e 1000 nucleotídeos de contexto a jusante, inclui adicionalmente: pelo menos três grupos de quatro blocos residuais e pelo menos três conexões entre camadas não adjacentes, em que cada bloco residual em um primeiro grupo tem 32 filtros de convolução, tamanho de janela de convolução 11 e taxa de convolução atrous 1, cada bloco residual em um segundo grupo tem 32 filtros de convolução, tamanho de janela de convolução 11 e taxa de convolução atrous 4 e cada bloco residual em um terceiro grupo tem 32 filtos de convolução, tamanho de janela de convolução 21 e taxa de convolução atrous 19.

14. Método implementado em rede neural, de acordo com a reivindicação 1, caracterizado pelo fato de que a ACNN, quando configurada para avaliar uma entrada compreendendo uma sequência nucleotídica alvo adicionalmente flanqueada por 5000 nucleotídeos de contexto a montante e 5000 nucleotídeos de contexto a jusante, inclui adicionalmente: pelo menos quatro grupos de quatro blocos residuais e pelo menos quatro conexões entre camadas não adjacentes, em que cada bloco residual em um primeiro grupo tem 32 filtros de convolução, tamanho da janela de convolução 11 e taxa de convolução atrous 1, cada bloco residual em um segundo grupo tem 32 filtros de convolução, tamanho da janela de convolução 11 e taxa de convolução atrous 4, cada bloco residual em um terceiro grupo tem 32 filtros de convolução, tamanho da janela de convolução 21 e taxa de convolução atrous 19 e cada bloco residual em um quarto grupo tem 32 filtos de convolução, tamanho da janela de convolução 41 e taxa de convolução atrous 25.

15. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 14, caracterizado pelo fato de que as pontuações triplas para cada nucleotídeo na sequência nucleotídica alvo são exponencialmente normalizadas e somadas à unidade.

16. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 15, caracterizado pelo fato de que inclui adicionalmente classificar cada nucleotídeo no nucleotídeo alvo como o sítio doador de splice, o sítio aceptor de splice ou o sítio não splicing com base em uma pontuação mais alta nas respectivas pontuações triplas.

17. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 16, caracterizado pelo fato de que a dimensionalidade da entrada é (C“ + L + Cº) x 4, em que: C" é um número de nucleotídeos de contexto a montante; C* é um número de nucleotídeos de contexto a jusante; e L é um número de nucleotídeos na sequência nucleotídica alvo.

18. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 17, caracterizado pelo fato de que a dimensionalidade da saída é L x 3.

19. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 18, caracterizado pelo fato de que a dimensionalidade da entrada é (5000 + 5000 + 5000) x 4.

20. “Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 19, caracterizado pelo fato de que a dimensionalidade da saída é 5000 x 3.

21. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 7 a 14, caracterizado pelo fato de que cada grupo de blocos residuais produz uma saída intermediária através do processamento de uma entrada precedente, em que a dimensionalidade da saída intermediária é (I-[((W-1) * D) * AI) x N, em que: | é a dimensionalidade da entrada precedente; W é o tamanho da janela de convolução dos blocos residuais; D é a taxa de convolução atrous dos blocos residuais; A é um número de camadas de convolução atrous no grupo; e N é um número de filtros de convolução nos blocos residuais.

22. “Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 21, caracterizado pelo fato de que a ACNN avalia em lote os exemplos de treinamento durante uma época.

23. “Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 22, caracterizado pelo fato de que os exemplos de treinamento são amostrados aleatoriamente em lotes, em que cada lote tem um tamanho de lote predeterminado.

24. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 23, caracterizado pelo fato de que a ACNN itera avaliação dos exemplos de treinamento ao longo de pelo menos dez épocas.

25. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 24, caracterizado pelo fato de que a entrada compreende uma sequência nucleotídica alvo tendo dois nucleotídeos alvo adjacentes.

26. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 25, caracterizado pelo fato de que os dois nucleotídeos alvo adjacentes são adenina, abreviada A, e guanina, abreviada G.

27. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 26, caracterizado pelo fato de que os dois nucleotídeos alvo adjacentes são guanina, abreviada G, e uracil, abreviado D.

28. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 27, caracterizado pelo fato de que inclui adicionalmente a codificação one-hot dos exemplos de treinamento e o fornecimento de codificações one-hot como entrada.

29. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 6 e 15 a 28, caracterizado pelo fato de que a ACNN é parametrizada por um número de blocos residuais, um número de conexões entre camadas não adjacentes e um número de conexões residuais.

30. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 1 a 29, caracterizado pelo fato de que convoluções atrous conservam cálculos parciais de convolução para reutilização à medida que os nucleotídeos adjacentes são processados.

31. Método implementado em rede neural, de acordo com qualquer uma das reivindicações de 1 a 30, caracterizado pelo fato de que a ACNN compreende camadas de convolução alteradoras de dimensionalidade que remodelam as dimensões espaciais e características de uma entrada precedente.

32. — Método implementado em rede neural, de acordo com qualquer uma das reivindicações 7 a 14 e 21, caracterizado pelo fato de que cada bloco residual compreende pelo menos uma camada de normalização em lote, pelo menos uma camada de unidade linear retificada (abreviada ReLU), pelo menos uma camada de convolução atrous e pelo menos uma conexão residual.

33. Método implementado em rede neural, de acordo com qualquer uma das reivindicações 7 a 14 e 21, caracterizado pelo fato de que cada bloco residual compreende duas camadas de normalização em lote, duas camadas de não linearidade ReLU, duas camadas de convolução atrous e uma conexão residual.

34. Aparato de pontuação de sítio de splice treinado, caracterizado pelo fato de que inclui: vários processadores operando em paralelo, acoplados à memória; uma rede neural convolucional atrous treinada, abreviada ACNN, incluindo uma pluralidade de camadas convolucionais e filtros com coeficientes treinados, sendo executada nos vários processadores, treinada em pelo menos 50000 exemplos de treinamento de sítios doadores de splice, em pelo menos 50000 exemplos de treinamento de sítios aceptores de splice e em pelo menos 100000 exemplos de treinamento de sítios não splicing, em que os exemplos de treinamento usados no treinamento incluem sequências nucleotídicas de um nucleotídeo alvo flanqueado por pelo menos 400 nucleotídeos de cada lado;

um estágio de entrada da ACNN que alimenta uma sequência de entrada de pelo menos 801 nucleotídeos para avaliação de pelo menos um nucleotídeo alvo, que é flanqueado por pelo menos 400 nucleotídeos de cada lado, para as camadas convolucionais; e um estágio de saída da ACNN seguindo as camadas convolucionais que traduz a análise pela ACNN em pontuações de classificação para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

35. Aparato de pontuação de sítio de splice treinado, de acordo com a reivindicação 34, caracterizado pelo fato de que a ACNN é treinada em 150000 exemplos de sítios doadores de splice, 150000 exemplos de sítios aceptores de splice e 800000000 de exemplos de sítios não splicing.

36. Aparato de pontuação de sítio de splice treinado, de acordo com qualquer uma das reivindicações 34 a 35, caracterizado pelo fato de que a ACNN compreende grupos de blocos residuais dispostos em uma sequência do mais baixo e mais próximo à entrada, ao mais alto.

37. Aparato de pontuação de sítio de splice treinado, de acordo com a reivindicação 36, caracterizado pelo fato de que cada grupo de blocos residuais é parametrizado por um número de filtros de convolução nos blocos residuais, um tamanho de janela de convolução dos blocos residuais e uma taxa de convolução atrous dos blocos residuais.

38. Aparato de pontuação de sítio de splice treinado, de acordo com a reivindicação 37, caracterizado pelo fato de que a taxa de convolução atrous progride não exponencialmente a partir de um grupo de blocos residuais mais baixo para um grupo de blocos residuais mais alto.

39. Aparato de pontuação de sítio de splice treinado, de acordo coma reivindicação 37, caracterizado pelo fato de que o tamanho da janela de convolução varia entre grupos de blocos residuais.

40. Aparato de pontuação de sítio de splice treinado, de acordo com qualquer uma das reivindicações 34 a 39, caracterizado pelo fato de que a ACNN é treinada em um ou mais servidores de treinamento.

41. Aparato de pontuação de sítio de splice treinado, de acordo com qualquer uma das reivindicações 34 a 40, caracterizado pelo fato de que a ACNN treinada é instalada em um ou mais servidores de produção que recebem sequências de entrada a partir de clientes solicitantes.

42. Aparato de pontuação de sítio de splice treinado, de acordo com qualquer uma das reivindicações 34 a 41, caracterizado pelo fato de que os servidores de produção processam as sequências de entrada através dos estágios de entrada e saída da ACNN para produzir saídas que são transmitidas aos clientes.

43. “Método, caracterizado pelo fato de que inclui: alimentação, uma rede neural convolucional atrous treinada, abreviada ACNN, uma sequência de entrada de pelo menos 801 nucleotídeos para avaliação que inclui um nucleotídeo alvo flanqueado por um contexto de pelo menos 400 nucleotídeos de cada lado; em que a ACNN treinada foi treinada em pelo menos 50000 exemplos de treinamento de sítios doadores de splice, em pelo menos 50000 exemplos de treinamento de sítios aceptores de splice e em pelo menos 100000 exemplos de treinamento de sítios não splicing; em que cada um dos exemplos de treinamento usados no treinamento foi uma sequência nucleotídica que inclui um nucleotídeo alvo flanqueado por um contexto de pelo menos 400 nucleotídeos de cada lado; e tradução de análise pela ACNN em pontuações de classificação para a probabilidade de que cada um dos nucleotídeos alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

44, Sistema, caracterizado pelo fato de que inclui um ou mais processadores acoplados à memória, a memória carregada com instruções de computador para treinar um detector de sítios de splice que identifica sítios de splice em sequências genômicas, as instruções, quando executadas nos processadores, implementam ações compreendendo:

treinar uma rede neural convolucional atrous, abreviada ACNN, em vários exemplos de treinamento, incluindo pelo menos 50000 exemplos de treinamento de sítios doadores de splice, em pelo menos 50000 exemplos de treinamento de sítios de aceptores de splice e em pelo menos 100000 exemplos de treinamento de sítios não splicing;

inserir sequências nucleotídicas alvo de exemplo marcadas one-hot na ACNN para treinamento, em que uma sequência nucleotídica alvo inclui contexto de pelo menos 200 nucleotídeos flanqueados em cada lado, para pelo menos 200 nucleotídeos de contexto a montante e pelo menos 200 nucleotídeos de contexto a jusante; e ajustar, por meio de retropropagação, parâmetros de filtros na ACNN para predizer precisamente, como saída, pontuações triplas para a probabilidade de que o nucleotídeo alvo na sequência nucleotídica alvo seja um sítio doador de splice, um sítio aceptor de splice ou um sítio não splicing.

Art. 34 12-12-2019

PÁGINAS MODIFICADAS DURANTE A FASE INTERNACIONAL DO PCT