BR112019017705A2

BR112019017705A2 - Sistemas e métodos para uso em identificação de múltiplas edições de genoma e prevenção dos efeitos agregados das edições do genoma identificado

Info

Publication number: BR112019017705A2
Application number: BR112019017705-1A
Authority: BR
Inventors: Vincent Butruille David; Evan FLAGEL Lex
Original assignee: Monsanto Technology Llc
Priority date: 2017-03-30
Filing date: 2018-03-29
Publication date: 2020-03-31
Also published as: MX2022013015A; US20220361428A1; CN110476214A; PH12019502238A1; US11990205B2; AU2018243383A1; WO2018183746A1; MX2019011623A; AU2018243383B2; CA3054995A1; EP3610398A4; CN110476214B; AU2024266761A1; US20180285520A1; EP3610398A1

Abstract

a presente invenção refere-se a exemplos de sistemas e métodos para selecionar a população de edições candidatas e prever um efeito agregado das edições candidatas. um exemplo de método inclui a identificação de uma população de edição de candidatos a uma sequência de genoma do referido organismo e a classificação de cada uma das edições candidatas com base na capacidade prevista de cada edição de candidato de afetar uma característica de interesse no referido organismo. o exemplo de método inclui ainda a seleção de uma ou mais das edições candidatas com base na classificação e previsão pelo dispositivo de computação, um efeito agregado das uma ou mais das edições candidatas para o traço de interesse, quando expressas por uma espécie do organismo com uma sequência genômica e editado de acordo com uma ou mais das edições candidatas, em comparação com um espécime não editado do organismo.

Description

Relatório Descritivo da Patente de Invenção para “SISTEMAS E MÉTODOS PARA USO EM IDENTIFICAÇÃO DE MÚLTIPLAS EDIÇÕES DE GENOMA E PREVENÇÃO DOS EFEITOS AGREGADOS DAS EDIÇÕES DO GENOMA IDENTIFICADO”.

REFERÊNCIA CRUZADA AO PEDIDO RELACIONADO [0001] Este requerimento reivindica o benefício e prioridade do Pedido Provisório US n° 62/479.032, depositado em 30 de março de 2017. Toda a divulgação do pedido acima é incorporada neste documento para referência.

CAMPO DA INVENÇÃO [0002] A presente invenção refere-se geralmente a sistemas e métodos para uso na edição estatística de genoma e, particularmente, a sistemas e métodos para utilização na identificação de potenciais edições de genoma, classificando as potenciais edições baseadas em um ou mais parâmetros e prevendo um efeito agregado de múltiplas edições de genoma avaliadas em um ou mais traços dados.

ANTECEDENTES DA INVENÇÃO [0003] Esta seção fornece informações básicas relacionadas com a presente divulgação que não são necessariamente uma técnica anterior.

[0004] Plantas, animais e outros organismos são gerados e criados para fins comerciais e científicos. Técnicas convencionais de melhoramento para melhorar as linhagens de plantas e animais baseiam-se em acasalamentos controlados ou cruzamentos de genitores, nos quais cada genitor transmite um determinado alelo para produzir pelo menos um organismo da progênie compreendendo todos os alelos relevantes em um único genoma. Entre os organismos com genomas diploides ou poliploides, a produção de uma linhagem reprodutora verdadeira com a combinação necessária de alelos requer não apenas que todos os alelos sejam encontrados no genoma único, mas que o alelo de cada lócus

Petição 870190082888, de 26/08/2019, pág. 23/69

2/37 em questão seja encontrado em ambos ou todos os conjuntos cromossômicos (para organismos diploides e poliploides, respectivamente). Isso pode exigir centenas, milhares ou mais cruzamentos, dependendo do número de características que precisam sofrer introgressão em uma determinada linhagem, o que pode consumir muito tempo e sobrecarregar os recursos de cultivo e criação.

[0005] Tecnologias de edição de genomas deliberadas e direcionáveis - particularmente a tecnologia de Repetições Palindrômicas Curtas Agrupadas e Regularmente Interespaçadas (do inglês clustered regularly interspersed short palindromic repeats, CRISPR) (ver, por exemplo, Pat. 8.697.359) - são conhecidas por acelerar o processo de introdução de características em uma linhagem germinativa para reduzir o número de cruzamentos por acasalamentos que são necessários para gerar uma linhagem estável com as características desejadas. Quando a CRISPR é emparelhada com uma nuclease Cas - particularmente Cas9 - a CRISPR pode efetuar uma edição muito precisa e eficiente de sequências de nucleotídeos. Em vez de confiar na chance aleatória de que um cruzamento por meiose una um conjunto de lócus em um único cromossomo, a CRISPR e tecnologias de edição de genoma relacionadas, como nucleases de dedo de zinco (ZFNs) e nucleases efetoras semelhantes a ativadores de transcrição (TALENs) tornam possível que um versado na técnica manipule cromossomos de uma maneira deliberada e direcionada para montar alelos juntos. Além disso, Jenko et al., (2015) Genetics Selection Evolution 47:55, relata que a promoção de alelos por edição de genoma (PAGE) pode acelerar a taxa na qual múltiplas características podem ser integradas em uma linhagem germinativa de cruzamento verdadeira.

BREVE DESCRIÇÃO DAS FIGURAS [0006] As figuras descritas neste documento são para fins ilustrativos apenas de modalidades selecionadas e não devem ser limitativas

Petição 870190082888, de 26/08/2019, pág. 24/69

3/37 ao escopo da presente divulgação.

[0007] A FIG. 1 é um diagrama de blocos de um exemplo de sistema da presente divulgação, adequado para uso na sujeição de genomas a uma potencial edição do genoma com base em classificações associadas à edição do genoma.

[0008] A FIG. 2 é um diagrama em blocos de um dispositivo de computação que pode ser utilizado no sistema exemplificativo da FIG. 1.

[0009] A FIG. 3 é um exemplo de método adequado para uso com o sistema da FIG. 1 para identificação de potenciais edições de genoma e classificação das possíveis edições de genoma para uso na modificação de um organismo alvo.

[0010] Numerais de referência correspondentes indicam partes correspondentes ao longo das múltiplas vistas das figuras.

DESCRIÇÃO DETALHADA DA INVENÇÃO [0011] Exemplos de modalidades serão agora descritos mais plenamente, tendo como referência as figuras acompanhantes. A descrição e os exemplos específicos incluídos neste documento destinam-se para fins de ilustração apenas e não se destinam a limitar o escopo da presente divulgação.

[0012] Plantas, animais e outros organismos são procriados e/ou modificados para fins comerciais ou científicos. As técnicas de edição de genomas visam acelerar o processo de introdução de características nos genomas. Um universo de potenciais genomas editados para um determinado organismo, no entanto, é substancial, com cada edição potencialmente tendo um efeito diferente em um ou mais traços de interesse, tanto na direção quanto na magnitude. Além disso, uma determinada edição do genoma pode ter efeitos positivos ou negativos sobre as características de interesse. É compreendido neste documento que os desafios relacionados à confirmação de edições do genoma existem,

Petição 870190082888, de 26/08/2019, pág. 25/69

4/37 pois, os efeitos ficar abaixo de um ou mais limites de detecção em experimentos de um determinado tamanho. Excepcionalmente, os sistemas e métodos neste documento fornecem a seleção de múltiplas edições candidatas e previsão do efeito agregado das múltiplas edições, pelas quais os testes separados e/ou individuais de edições únicas podem ser omitidos e/ou evitados. Particularmente, uma população de edições candidatas para uma sequência do genoma relacionada a um ou mais traços de interesse é identificada, a partir da qual várias edições candidatas (por exemplo, edições em múltiplos locais genômicos, etc.) são selecionadas, por um mecanismo de edição de genoma em um ranking das edições candidatas. Um efeito agregado das múltiplas edições candidatas selecionadas é então previsto novamente pelo mecanismo de edição do genoma, para um traço de interesse quando expresso por um organismo com uma sequência genômica editada de acordo com as edições selecionadas (em comparação a um organismo tendo mesma sequência de genoma, mas não editada). Uma vez que o efeito agregado é previsto, as edições do genoma selecionadas podem estar sujeitas a validação, por exemplo, através de um esquema de edição do genoma, onde o genoma de um organismo é modificado para incluir as múltiplas edições candidatas selecionadas e testadas para fins de verificação do efeito agregado sobre uma ou mais características de interesse (e não o impacto das edições individualmente). O tamanho e/ou arranjo de amostras do organismo são selecionados, como descrito neste documento, para limitar o tamanho da amostra, proporcionando confiança suficiente nas múltiplas edições na sequência do genoma e seu efeito sobre uma ou mais características de interesse do organismo. [0013] A FIG. 1 ilustra um exemplo de sistema 100, no qual um ou mais aspectos da presente divulgação podem ser implementados. Embora o sistema 100 seja apresentado em uma disposição, outras modalidades podem incluir as partes do sistema 100 (ou partes adicionais)

Petição 870190082888, de 26/08/2019, pág. 26/69

5/37 dispostas ou que dependem, por exemplo, da maneira como as edições múltiplas do genoma são identificadas, selecionadas e/ou editadas em uma sequência do genoma de um organismo, etc.

[0014] No exemplo de modalidade da FIG. 1, o sistema 100 inclui geralmente um esquema de edição de genoma 102 e um espaço de cultivo 104, no qual uma ou mais plantas, animais, bactérias, fungos, vírus ou outros organismos, produzidos a partir do esquema de edição do genoma 102, são criados, amadurecidos e/ou cultivados, etc. O esquema de edição do genoma 102 é proporcionado como um ambiente no qual potenciais edições de genoma (como determinado neste documento) são executadas em conexão com organismos alvo.

[0015] No esquema de edição do genoma 102, as edições do genoma são geralmente feitas, por exemplo, em células de gametas (no entanto, isto não é necessário em todas as modalidades). Em certas modalidades, por exemplo, as edições do genoma são feitas em um zigoto e são efetuadas em células-alvo em um organismo parental multicelular - por exemplo, um organismo parental sexualmente maduro usando um vetor como, por exemplo, um vetor viral com tropismo específico para determinados tecidos (por exemplo, tecidos gametogênicos, etc.). O biólogo molecular ordinariamente versado na técnica está familiarizado com essas técnicas e sabe quando usar uma em detrimento de outra para efetuar uma determinada manipulação no genoma do organismo-alvo. Adicionalmente, estas manipulações podem ser alcançadas com uma ou mais dentre: tecnologia CRISPR e particularmente com a tecnologia CRISPR/Cas e mais particularmente a tecnologia CRISPR/Cas9; ZFNs; TALENs; recombinação homóloga; etc. Com isto dito, o citado acima é fornecido sem limitação. A técnica apropriada será identificada e executada por aquele versado na técnica, de acordo com o tipo e/ou grau de manipulação do organismo selecionado e/ou requerido.

Petição 870190082888, de 26/08/2019, pág. 27/69

6/37 [0016] Independentemente das técnicas precisas utilizadas para efetuar as edições candidatas na sequência genômica de um organismo alvo no esquema de edição do genoma 102, o técnico pode utilizar um ou mais dos organismos parentais potenciais modificados em um cruzamento emparelhado para introduzir uma característica desejada ou traços em sua progênie. Em conexão com isto na modalidade ilustrada, a procriação de organismos parentais potenciais para submeter à introgressão a característica ou características desejadas na linhagem germinativa do organismo alvo pode ser realizada no espaço de cultivo 104. Técnicas para arranjar e avaliar cruzamentos emparelhados necessários para produzir linhagens germinativas de reprodução verdadeira em um organismo alvo são conhecidas na técnica (ver, por exemplo, Frisch e Melchinger (2005) Genetics 170 (2): 909-17, etc.).

[0017] Em um exemplo, onde os organismos parentais são plantas, o espaço de cultivo 104 pode ser qualquer área adequada para o cultivo de plantas e pode incluir, por exemplo, vasos, tabuleiros, salas de cultivo, estufas, parcelas, jardins, campos, combinações dos mesmos ou semelhantes. Além disso, em certas modalidades, as plantas podem ser cultivadas hidroponicamente em meio aquoso adequado. Em qualquer caso, o tamanho e/ou configuração do espaço de cultivo 104 pode ser determinado por aqueles versados na técnica e variará frequentemente de acordo com o número e/ou tipo de plantas envolvidas. Alternativamente, quando os organismos parentais são mamíferos, tais como vacas, cavalos, porcos, etc., o espaço de cultivo 104 pode ser qualquer área adequada para criação animal e pode incluir, por exemplo, gaiolas, baias, canis, estábulos, celeiros, pátios de alimentação, combinações dos mesmos ou semelhantes. Quando os organismos parentais são aves, tais como galinhas, perus ou patos, o espaço de cultivo 104 pode ser qualquer área adequada para criação de aves e pode incluir, por

Petição 870190082888, de 26/08/2019, pág. 28/69

7/37 exemplo, baias, gaiolas, aviários, galinheiros, abrigos, lagos, combinações destes ou semelhantes. E, quando os organismos parentais são peixes, tais como salmão, truta ou peixe-zebra, o espaço de cultivo 104 pode ser qualquer área adequada para a aquacultura e inclui, por exemplo, tanques, caixas plásticas e lagos e combinações dos mesmos ou semelhantes. O tamanho e/ou configuração do espaço de cultivo 104 variará de acordo com o número e/ou tipo de animais envolvidos e as escolhas sobre o tamanho e/ou configuração do espaço de cultivo 104 serão familiares àqueles de habilidade ordinária na técnica apropriada (por exemplo, criação, aquicultura, etc.).

[0018] Como alternativa, onde os organismos parentais são bactérias, fungos ou vírus, tais como Escherichia coli, Lactococcus, Lactobacillus, Streptococcus, Aspergillus, Saccaromcyes, virus do mosaico do tomateiro, tobamovírus, vírus da imunodeficiência humana, o vírus Influenza A ou fago T4, etc., o espaço de cultivo 104 podendo ser qualquer espaço adequado para cultura microbiana e pode incluir, por exemplo, placas de Petri, frascos, placas de ágar, incubadoras, refrigeradores suas combinações ou coisa parecida. Os instrumentos podem ser esterilizados por autoclave ou equivalente. O tamanho e/ou configuração do espaço de cultivo 104 pode variar de acordo com o número e/ou tipo de bactérias ou fungos envolvidos. De acordo com o acima exposto, o tamanho e/ou configuração do espaço de cultivo 104 pode ser determinado por aqueles versados na técnica apropriada (por exemplo, cultura microbiana, etc.).

[0019] A FIG. 2 ilustra um exemplo de dispositivo de computação 200 que pode ser usado no sistema 100. O dispositivo de computação 200 pode incluir, por exemplo, um ou mais servidores, estações de trabalho, computadores pessoais, laptops, tablets, smartphones, etc. Além disso, o dispositivo de computação 200 pode incluir um único dispositivo

Petição 870190082888, de 26/08/2019, pág. 29/69

8/37 de computação ou pode incluir vários dispositivos de computação localizados próximos ou distribuídos por uma região geográfica, desde que os dispositivos de computação sejam especificamente configurados para operar como descrito neste documento. No exemplo de modalidade da FIG. 1, cada um dos esquemas de edição de genomas 102 e o espaço de cultivo 104 podem incluir um ou mais dispositivos de computação consistentes com o dispositivo de computação 200. Além disso, no exemplo de modalidade, o sistema 100 inclui um motor de edição de genoma 106 (descrito mais detalhadamente abaixo) e uma estrutura de dados 108, cada um desses podendo ser compreendido como sendo consistente com o dispositivo de computação 200 e/ou implementado em um dispositivo de computação consistente com o dispositivo de computação 200 (ou uma parte do mesmo, como, por exemplo, a memória 204, etc.). No entanto, o sistema 100 não deve ser considerado como estando limitado ao dispositivo de computação 200, como descrito abaixo, pois diferentes dispositivos de computação e/ou arranjos de dispositivos de computação podem ser usados. Além disso, diferentes componentes e/ou arranjos de componentes podem ser usados em outros dispositivos de computação.

[0020] Como mostrado na FIG. 2, o exemplo de dispositivo de computação 200 inclui um processador 202 e uma memória 204 acoplada (e em comunicação com) ao processador 202. O processador 202 pode incluir uma ou mais unidades de processamento (por exemplo, em uma configuração multicore, etc.), por exemplo, o processador 202 pode incluir, sem limitação, uma unidade de processamento central (CPU), um microcontrolador, um processador de computador com um conjunto reduzido de instruções (do inglês reduced instruction set computer, RISC), uma unidade de processamento gráfico (graphics processing unit, GPU), um circuito integrado de aplicação específica (ASIC), um dispositivo lógico programável (PLD), um conjunto de portas e/ou qualquer

Petição 870190082888, de 26/08/2019, pág. 30/69

9/37 outro circuito ou processador capaz das funções descritas neste documento.

[0021] A memória 204, como descrita neste documento, é um ou mais dispositivos que permitem que dados, instruções, etc., sejam armazenados e recuperados a partir dos mesmos. Em conexão com os mesmos, a memória 204 pode incluir uma ou mais mídias de armazenamento legíveis por computador, tais como, sem limitação, memória de acesso aleatório dinâmica (DRAM), memória de acesso aleatório estático (SRAM), memória somente leitura (ROM), memória programável apagável somente de leitura (EPROM), dispositivos de estado sólido, unidades flash, CD-ROMs, pendrives, fitas, discos rígidos e/ou qualquer outro tipo de mídia física ou tangível, legível por computador, volátil ou não volátil ou mídia tangível legível por computador para armazenamento de tais dados, instruções, etc. Particularmente, a memória 204 está configurada para armazenar dados incluindo, sem limitação, sequências de genoma, dados fenotípicos para características de interesse, caracterização de haplótipos, anotações genômicas, sequências de DNA, sequências exômicas, sequências comparativas, sequências peptídicas e proteicas, edições candidatas, análises de estudo de associação de genômica ampla (genome-wide association study, GWAS), probabilidades de efeitos de edições de genoma, magnitudes de tais efeitos, parâmetros de classificação não paramétricos, dados de expressão gênica, modelos bioquímicos e/ou outros tipos de dados (e/ou estruturas de dados) adequadas para uso como descrito neste documento. Além disso, em várias modalidades, instruções executáveis por computador podem ser armazenadas na memória 204 para execução pelo processador 202 para fazer com que o processador 202 realize uma ou mais das operações descritas neste documento em conexão com as várias partes diferentes do sistema 100, de modo que a memória 204 é uma mídia física, tangível e não transitória de armazenamento

Petição 870190082888, de 26/08/2019, pág. 31/69

10/37 legível por computador. Tais instruções melhoram frequentemente as eficiências e/ou desempenho do processador 202 que está executando uma ou mais das várias operações descritas neste documento. Deve ser apreciado que a memória 204 pode incluir uma variedade de memórias diferentes, cada uma implementada em conexão com uma ou mais das funções ou processos descritos neste documento.

[0022] No exemplo de modalidade, o dispositivo de computação 200 também inclui uma unidade de apresentação 206 acoplada ao (e em comunicação com) processador 202 (no entanto, deve ser apreciado que o dispositivo de computação 200 pode incluir dispositivos de saída além da unidade de apresentação 206, etc.). A unidade de apresentação 206 pode produzir informação (por exemplo, edições candidatas, características de interesse, efeitos agregados previstos de edições genômicas, etc.), visualmente a um usuário do dispositivo de computação 200, tal como um criador ou outra pessoa associada à seleção de uma natureza das edições, etc. Deve ser ainda apreciado que várias interfaces (por exemplo, como definido por aplicações baseadas em rede, websites, etc.) podem ser apresentadas no dispositivo de computação 200 e particularmente, na unidade de apresentação 206, para exibir determinada informação ao usuário. A unidade de apresentação 206 pode incluir, sem limitação, uma tela de cristal líquido (LCD), uma tela de diodo emissor de luz (LED), uma tela de LED orgânico (OLED), uma tela de tinta virtual, alto-falantes, etc. Em algumas modalidades, a unidade de apresentação 206 pode incluir vários dispositivos. Adicional ou alternativamente, a unidade de apresentação 206 pode incluir capacidade de impressão, permitindo que o dispositivo de computação 200 imprima texto, imagens e similares em papel e/ou outros meios similares.

[0023] Além disso, o dispositivo de computação 200 inclui um dispositivo de entrada 208 que recebe entradas do usuário, como por exemplo, seleções de sequências genéticas e/ou uma ou várias edições

Petição 870190082888, de 26/08/2019, pág. 32/69

11/37 candidatas de genomas, aprovação de edições candidatas selecionadas para validação, medição de organismos da amostra durante a validação, etc. O dispositivo de entrada 208 pode incluir um único dispositivo de entrada ou múltiplos dispositivos de entrada. O dispositivo de entrada 208 está acoplado ao (e em comunicação com) processador 202 e pode incluir, por exemplo, um ou mais dentre um teclado, um dispositivo apontador, um mouse, um stylus, um painel sensível ao toque (por exemplo, um touch pad ou touch screen, etc.) ou outros dispositivos de entrada de usuário adequados. Além disso, o dispositivo de entrada 208 pode incluir, sem limitação, sensores dispostos e/ou associados ao esquema de edição do genoma 102 e/ou ao espaço de cultivo 104, tais como, por exemplo, sondas de umidade, balanças, espectrômetros de infravermelho próximo, câmeras, medidores de pH e sensores de temperatura. Deve ser apreciado que em pelo menos uma modalidade, um dispositivo de entrada 208 pode ser integrado e/ou incluído com um dispositivo de saída 206 (por exemplo, uma tela sensível ao toque, etc.). [0024] Além disso, o dispositivo de computação ilustrado 200 também inclui uma interface de rede 210 acoplada a (e em comunicação com) o processador 202 e a memória 204. A interface de rede 210 pode incluir, sem limitação, um adaptador de rede com fios, um adaptador de rede sem fios, uma placa de rede móvel ou outro dispositivo capaz de se comunicar com uma ou mais redes diferentes (por exemplo, uma ou mais de uma rede local), uma rede de longa distância (WAN) (por exemplo, a Internet, etc.), uma rede móvel, uma rede virtual e/ou outra rede pública e/ou privada adequada capaz de suportar comunicação com e/ou sem fio entre duas ou mais das partes ilustradas na FIG. 1, etc.), incluindo com outro dispositivo de computação usado como descrito neste documento.

[0025] Com nova referência à FIG. 1, o sistema 100 inclui o motor

Petição 870190082888, de 26/08/2019, pág. 33/69

12/37 de edição do genoma 106 e a estrutura de dados 108 acoplada em comunicação com este. O motor de edição do genoma 106 é especificamente configurado por instruções executáveis de computador para executar uma ou mais das operações descritas neste documento. Na modalidade ilustrada, o motor de edição do genoma 106 é mostrado como uma parte autônoma do sistema 100. No entanto, em várias outras modalidades, deve ser apreciado que o motor de edição do genoma 106 pode estar associado ou ainda incorporado a outras partes do sistema 100, por exemplo, ao esquema de edição do genoma 104, etc. Em várias modalidades, o motor de edição do genoma 106 pode ser incorporado em pelo menos um dispositivo de computação e acessível como um serviço de rede, através, por exemplo, de uma interface de programação de aplicações (API), etc.

[0026] Além disso, na modalidade ilustrada, a estrutura de dados 108 é mostrada como uma parte autônoma do sistema 100. Contudo, a estrutura de dados 108 pode ser incorporada ao motor de edição do genoma 106, no todo ou em parte, em outras modalidades do sistema ou em outras partes do sistema 100 mostradas na FIG. 1 ou de outra maneira. Semelhante ao citado acima, em várias modalidades, a estrutura de dados 108 pode ser hospedada, no todo ou em parte, na memória baseada em rede e/ou em um dispositivo de computação dedicado (por exemplo, armazenado localmente ou remotamente a partir do motor de edição do genoma 106), pelo qual é acessível ao motor de edição do genoma 106 e/ou aos usuários associados através de uma ou mais redes.

[0027] Em um exemplo de modalidade, a estrutura de dados 108 inclui vários dados, que podem ser utilizados como descrito neste documento. Particularmente, por exemplo, a estrutura de dados 108 pode incluir conjuntos de sequências, alelos ou polimorfismos de nucleotídeo único (SNPs) que se correlacionam, individualmente e/ou no agregado,

Petição 870190082888, de 26/08/2019, pág. 34/69

13/37 com características fenotípicas particulares. Por exemplo, a estrutura de dados 108 pode incluir uma planilha, uma tabela ou uma base de dados, etc., que inclui informação sobre potenciais organismos parentais. Tal informação pode incluir informação genotípica e informação fenotípica do organismo alvo e, em certas modalidades, informação genotípica e fenotípica para cada organismo parental potencial. Quando incluída, a informação genotípica pode incluir sequências de genoma completas ou parciais, dados de SNP, etc.

[0028] Adicionalmente, a estrutura de dados 108 pode incluir tabelas de sequências, tabelas de SNP anotadas para incluir informação sobre correlações fenotípicas conhecidas para determinadas sequências ou um ou mais conjuntos de SNPs. Além disso, o conjunto de SNPs pode incluir pelo menos três, por exemplo pelo menos seis, pelo menos 24, pelo menos 100, pelo menos 150, pelo menos 200, pelo menos 250, pelo menos 300, pelo menos 350, pelo menos 400 ou pelo menos 500, etc., SNPs de um determinado organismo parental potencial. E os conjuntos de sequências podem incluir pelo menos dez Mbp, pelo menos 50 Mbp, pelo menos 100 Mbp, pelo menos 500 Mbp, pelo menos 750 Mbp, pelo menos um Gbp, pelo menos dois Gbp ou pelo menos 2,5 Gbp, etc., de uma sequência de um determinado organismo parental potencial. A estrutura de dados 108 pode ainda incluir relações entre conjuntos de SNPs e/ou sequências nas características agregadas e fenotípicas que são inerentes nos organismos parentais potenciais correspondentes, dos quais os SNPs e/ou sequências são derivados.

[0029] Em várias modalidades, a estrutura de dados 108 pode ser baseada, pelo menos em parte, no tipo de organismo para o qual o sistema 100 será utilizado. Isto é, a estrutura de dados 108 pode geralmente incluir, por exemplo, sem limitação, rendimento de grãos, qualidade e rendimento de fibra, teor de açúcar, tempo até a maturidade, tempo de florescimento, altura da planta, tolerância ao estresse e/ou

Petição 870190082888, de 26/08/2019, pág. 35/69

14/37 susceptibilidade a depósito, etc., quando o sistema 100 é direcionado a organismos vegetais. A estrutura de dados 108 pode alternativamente incluir, por exemplo, sem limitação, conteúdo de carne ou gordura, taxa de crescimento, eficiência de conversão alimentar, produção de leite, produção de ovos e/ou frequência de geminação, etc. quando o sistema 100 é direcionado a organismos animais. E quando o sistema 100 é direcionado a micróbios, por exemplo, a estrutura de dados 108 pode incluir, por exemplo, sem limitação, tempo de duplicação, eficiência de fermentação, produção de proteína ou peptídeo, resistência a drogas, tolerância ao estresse ambiental, infecciosidade, avidez e formação de biofilme, etc.

[0030] Antes da utilização do motor de edição do genoma 106, uma ou mais pessoas associadas ao sistema 100 podem definir uma natureza de edições (por exemplo, definir alterações desejadas em uma sequência de pares de bases, inserções, eliminações, duplicação, etc.), que são um alvo do uso do sistema 100. Por exemplo, uma ou mais pessoas podem definir uma ou mais características de saída (por exemplo, uma série, etc.) para um organismo, como uma amostra de milho. Exemplos de características desejadas específicas para o milho podem incluir, sem limitação, mas mais tipicamente, características de importância econômica (que podem incluir, por exemplo, geralmente características (de planta, mais geralmente) que se modificadas, resultam em um benefício econômico que é de valor maior do que o custo necessário para alcançar a modificação e/ou que resulta em um benefício ligado à economia ou é baseado na economia relacionada ao desenvolvimento e/ou comercialização do resultado, etc. Características de importância econômica incluem, mas não estão limitadas a características que conferem um fenótipo preferido selecionado do grupo que consiste em tolerância a herbicida, resistência a doenças, resistência a insetos ou pra

Petição 870190082888, de 26/08/2019, pág. 36/69

15/37 gas, ácido graxo alterado, metabolismo de proteína ou carboidrato, rendimento de grãos, teor de conteúdo de óleo, taxa de crescimento, tolerância ao estresse, maturidade preferida, propriedades organolépticas, características morfológicas alteradas, outras características agronômicas, características para usos industriais ou características para melhor apelo ao consumidor, etc. Em relação a isto ou independente da natureza das edições potenciais, uma ou mais pessoas podem e/ou o motor de edição do genoma 106 é configurado para, identificar uma sequência do genoma para o genoma (por exemplo, um genoma e/ou um pan-genoma, etc.) como ponto de partida ou referência para os processos descritos neste documento. O mecanismo de edição do genoma 106 pode fazê-lo através da aplicação de modelos comprovados para novos genomas (por exemplo, uma nova linhagem pura específica, etc.) e/ou inferências através de diferentes modelos (que podem ser comprovados por experimentos) e/ou modelos de aprendizado, etc.

[0031 ] Além disso, o motor de edição do genoma 106 pode ser configurado para identificar uma população de candidatos para a sequência do genoma com base em um ou mais dentre, por exemplo, anotação do genoma, análise de estudo de associação genômica (GWAS), loci de características quantitativas (QTL), dados de expressão genica, modelos de vias bioquímicas, etc., cada um recuperado da estrutura de dados 108 (e, potencialmente, entrada de uma ou mais pessoas envolvidas no processo de reprodução). As edições potenciais podem ser selecionadas por aquele vulgarmente versado na técnica ou por um algoritmo que tenha identificado mutações genéticas potencialmente úteis para conseguir o fenótipo desejado. Como utilizado neste documento, as edições candidatas podem incluir uma única alteração no genoma ou um número de alterações simultâneas em um gene, conjunto de genes ou genoma. Várias abordagens, individualmente ou em combinação, serão usadas para selecionar uma população de edições candidatas. Pode-se

Petição 870190082888, de 26/08/2019, pág. 37/69

16/37 usar conhecimento prévio ou recém-adquirido de genes e vias conhecidas para afetar um ou mais traços de interesse. Este conhecimento pode ter sido gerado através de telas de mutações clássicas, testes de complementação e/ou comparações de sequências genômicas em um grande número de indivíduos geneticamente distintos com fenótipos variados para o traço (como em GWAS e outros tipos de estudos de QTL). Estudos de expressão podem ajudar fornecendo informações sobre diferenças nos níveis de transcrição e proteína entre indivíduos com diferentes fenótipos.

[0032] O motor de edição do genoma 106 é configurado para então classificar as edições candidatas do genoma com base na capacidade prevista das edições candidatas do genoma para afetar os traços de interesse (por exemplo, fenótipo ou múltiplos fenótipos do organismo alvo). O motor de edição do genoma 106 pode ser configurado para classificar as edições candidatas com base na probabilidade de causar um efeito, uma magnitude de um efeito previsto, um parâmetro de classificação não paramétrico ou combinações destes. Como exemplo, para um usuário neste documento, o motor de edição do genoma 106 pode fornecer a probabilidade de que uma planta de milho com uma determinada edição tenha um aumento no rendimento de grãos e/ou grau de aumento de rendimento de grãos em comparação a uma planta de milho não editada e posterior avaliação das edições feitas nesta.

[0033] Então, uma vez que as edições do genoma candidato são avaliadas, o mecanismo de edição do genoma 106 é configurado para selecionar várias das edições candidatas, com base nas classificações, de modo que as edições candidatas selecionadas forneçam uma probabilidade específica e/ou desejada de um efeito agregado sobre os traços de interesse (por exemplo, conforme definido pela natureza das edições, etc.) (isto é, para um espécime que carrega o genoma e/ou uma

Petição 870190082888, de 26/08/2019, pág. 38/69

17/37 população de espécime portando o pan-genoma, etc.). O motor de edição do genoma 106 é configurado para prever um efeito agregado das edições candidatas selecionadas quando expressas no espécime em pelo menos um dos traços de interesse (por exemplo, rendimento em milho, etc.) em comparação a um espécime com uma sequência de genoma não editado.

[0034] Posteriormente, quando o efeito agregado previsto está acima de um limite definido, as edições candidatas selecionadas podem ser passadas, pelo motor de edição do genoma 106 ou por uma ou mais pessoas, para o esquema de edição de genoma 102, em que as espécimes definidas (como definido pela sequência de genoma gerada acima) são editadas de acordo com as edições candidatas selecionadas. As espécimes editadas podem então ser fornecidas ao espaço de cultivo 104, para crescimento e teste para confirmar o efeito agregado previsto.

[0035] A FIG. 3 ilustra um exemplo de método 300 para utilização na seleção de múltiplas edições de genoma potenciais com base em um efeito agregado previsto, para utilização na modificação de um organismo alvo. O exemplo de método 300 é descrito neste documento em ligação com o motor de edição do genoma 106 do sistema 100 e é também descrito com referência ao dispositivo de computação 200. No entanto, deve ser apreciado que os métodos deste documento não estão limitados ao sistema 100 ou ao dispositivo de computação 200. E, do mesmo modo, os sistemas e dispositivos de computação descritos neste documento não estão limitados ao exemplo de método 300. Geralmente, e antes do método 300, uma ou mais pessoas e/ou entidades são fornecidas, sendo encarregadas de definir um traço ou fenótipo em um tipo de organismo a ser afetado. Para ilustrar o método 300, assume-se que o organismo alvo é uma planta de milho (por exemplo,

Petição 870190082888, de 26/08/2019, pág. 39/69

18/37 linhagens endogâmicas, variedades híbridas, etc.) e a natureza dos candidatos editados para a planta de milho é de alterar seu rendimento de grãos. Embora o método 300 seja descrito a seguir com referência à planta de milho e a certas edições, deve ser compreendido que o método 300 e a descrição neste documento não estão limitados a este determinado exemplo e podem ser aplicados a outras plantas e características desejadas em plantas e outros organismos, etc.

[0036] Com isto dito, o método 300 inclui inicialmente a identificação de uma sequência do genoma da planta de milho, em 302, para a qual as edições do candidato podem ou não ser feitas. A identificação da sequência do genoma pode incluir, por exemplo, geração ou imputação de novo a partir de organismos relacionados e/ou ancestrais. O sequenciamento do genoma de novo pode ser realizado por tecnologias e algoritmos conhecidos por aqueles versados na técnica. A informação de sequência pode ser identificada e/ou gerada por aqueles versados na técnica através da realização de métodos convencionais, por terceiros ou pode ser identificada a partir de um ou mais recursos disponíveis no domínio público.

[0037] Uma vez gerada ou identificada a sequência do genoma em 302, o motor de edição do genoma 106 (sozinho ou em combinação com uma ou mais pessoas) identifica, em 304, uma população de candidatos editados para a sequência de genoma. A população de edições candidatas ou edições disponíveis é geralmente identificada com base na natureza dos traços definidos no início. Ou seja, no exemplo ilustrativo acima relacionado à planta de milho, a natureza do traço a ser modificada está relacionada a um aumento no rendimento de grãos do milho puro. Seguindo a hipótese de dominância para o vigor híbrido, por exemplo, ao editar a sequência de genoma de uma linhagem pura de milho, as edições potenciais podem ser primeiramente focadas na identificação de genes contendo códons de parada dentro da sequência de

Petição 870190082888, de 26/08/2019, pág. 40/69

19/37 genoma que provavelmente impedirão a expressão adequada de um gene associado ao rendimento de grãos (ou seja, códons de parada “prematuros”). Estudos de expressão que analisam e quantificam a presença de tais transcritos em variedades de milho híbrido podem focar a população de edições. Por exemplo, duas variedades distintas de milho com melhor rendimento de grãos e expressão diferencial de genes ou alelos distintos podem fornecer informações, orientação e/ou instrução nas quais as edições candidatas devem ser identificadas para o aumento do rendimento de grãos para o milho puro.

[0038] Em um exemplo específico do método 300, para uma sequência de genoma para a linhagem pura de milho do grupo heterótico Stiff Stalk, foram identificados 481 códons de parada prematuros, cada um destes sendo previsto para truncar o produto proteico codificado pelo gene. Em relação a isto, um conjunto de dados de treino é construído e consiste em outras estimativas de rendimento de linhagens puras de milho que eram polimórficas para os códons de terminação prematuros (isto é, partilhavam o códon de parada prematuro ou codificavam uma cópia completa do gene). Utilizando um modelo estatístico que é construído com base nos dados de treino, o impacto ou o efeito do rendimento de grãos híbridos de cada um dos 481 códons de parada prematuros pode ser determinado (por exemplo, na etapa 304, etc.).

[0039] Deve ser apreciado que em outras modalidades, o motor de edição do genoma 106 pode ser omitido de identificar a população de edições candidatas, que são usadas como informação por aqueles versados na técnica, tal como a descrita acima, para identificar as edições candidatas para modulação da sequência do genoma no que se refere ao traço de interesse.

[0040] Em seguida, o motor de edição do genoma 106 classifica as edições candidatas da população de edições potenciais, em 306, com base em um efeito previsto para os traços de interesse. Por exemplo, a

Petição 870190082888, de 26/08/2019, pág. 41/69

20/37 classificação pode estar em uma ordem crescente ou decrescente do efeito previsto.

[0041] A classificação das edições pode ser, por exemplo, baseada no produto (por exemplo, por multiplicação, etc.) da probabilidade percebida das edições terem um efeito sobre os traços de interesse e a magnitude dos efeitos de previsão. Por exemplo, suponha que a experiência anterior com a reversão de códons de parada prematuros em uma sequência de genoma restaure a função gênica em 60% do tempo e que o gene candidato a ser editado seja de uma família de genes que apresente, em média, um aumento de rendimento de 0,2 bushel por acre. (Bu/A) pelos alelos funcionais em comparação com os alelos não funcionais. Então, o valor ajustado à frequência da reversão de um alelo não funcional para funcional naquele locus seria de 0,12 Bu/A. O gene candidato para edição é então classificado contra outros candidatos com base nesse valor. As edições podem então ser classificadas em ordem decrescente dos produtos, conforme divulgado acima, resultando em algumas edições candidatas com classificação mais alta que outras edições candidatas. Uma experiência anterior com o mecanismo de edição de genoma 106, literaturas publicadas e anotações de genoma, estudos de QTL, estudos de expressões, testes de associação e/ou uso de machine learning podem contribuir para estimar o valor da probabilidade/magnitude para cada candidato. Deve ser compreendido que, se aqueles versados na técnica estão preocupados com a alteração de múltiplas características do organismo alvo (em comparação com uma única característica de interesse, por exemplo, como definido no início do método 300 (isto é, rendimento de grãos), a classificação geral de edições candidatas pelo mecanismo de edição do genoma 106 pode ser incluída no método 300, na etapa 306, por exemplo, de uma ou mais maneiras. Por exemplo, o mecanismo de edição do genoma 106 pode construir um índice em todas ou algumas das múltiplas características,

Petição 870190082888, de 26/08/2019, pág. 42/69

21/37 por exemplo, por uma combinação linear de várias características e então o índice pode se tornar o quadro de referência para classificar e avaliar as edições do candidato.

[0042] Além disso, em algumas modalidades, a classificação das edições do candidato pode ser realizada por ordem de importância das características potencialmente impactadas pelas edições do candidato com base na determinação de todas as edições candidatas identificadas para essa característica de interesse, fazendo com que a classificação de determinadas edições candidatas tenha precedência sobre as edições candidatas para outros traços de interesse, desde que o produto calculado com base na probabilidade e/ou magnitude esteja acima de um limite definido. No exemplo do rendimento de grãos de milho, uma vez que a lista de genes contendo códons de parada prematuros foi identificada, o resultado de um estudo de QTL pode ser usado pelo motor de edição do genoma 106 ou por uma ou mais pessoas para identificar aquelas localizadas em regiões de QTL encontradas em um estudo de mapeamento de rendimento. Edições redundantes e edições na sequência do genoma em regiões não QTL podem ser removidas da lista de edições candidatas e edições únicas de genes em regiões QTL podem ser classificadas de acordo com um efeito fenotípico estimado. Em tal abordagem, uma suposição do modelo pode incluir que a edição de genes dentro dos alelos menos favoráveis no QTL melhorará o valor genético desses alelos em relação aos alelos mais favoráveis no QTL.

[0043] No exemplo de códons de parada prematura 481 descrito acima, o mecanismo de edição de genoma 106 classifica os 481 códons de parada em ordem com base no rendimento de grãos híbridos.

[0044] Em seguida na FIG. 3, com base na classificação das edições candidatas, o mecanismo de edição do genoma 106 seleciona, em 308, múltiplos das edições candidatas da população com base na classificação. Essa seleção pode incluir a seleção de um número específico

Petição 870190082888, de 26/08/2019, pág. 43/69

22/37 de edições candidatas que podem ser tecnicamente combinadas, como, por exemplo, um número máximo de edições candidatas, etc. O número máximo de edições seria limitado pela capacidade tecnológica de realizar um determinado número de edições na mesma planta (em um sentido mais amplo, organismo) a um custo viável ou dentro de um prazo restrito, como inerente e/ou definido pelo esquema de edição do genoma 102. Se forem encontradas poucas edições candidatas e a população de candidatos selecionados for menor que a capacidade tecnológica, não será necessária nenhuma outra classificação. Se várias características ou edições candidatas estiverem sendo consideradas, um índice que combina todos os traços pode ser usado para classificação e seleção adicionais. Alternativamente, uma abordagem de otimização pode ser usada para alocar um certo número de edições candidatas para cada característica até que o número total máximo permitido seja atingido.

[0045] Referindo-se novamente aos exemplos de códons de parada prematura 481, nas etapas 306 e 308, o mecanismo de edição do genoma 106 seleciona vários genes com base na classificação (e outros fatores adequados) (por exemplo, os 10% superiores em termos da magnitude de seu impacto de rendimento estimado, etc.), que inclui, entre outros: GRMZM2G052586, GRMZM2G408775, GRMZM2G174687 e GRMZM2G367094. É esperado que os alelos de códon de parada prematura selecionados tenham o seguinte impacto no rendimento de grãos, respectivamente: -1,05, -1,17, -1,67 e -1,25 Bu/A.

[0046] Depois, uma vez selecionadas as edições candidatas, o motor de edição do genoma 106 prevê, em 310, um efeito agregado das múltiplas candidaturas selecionadas para a sequência do genoma em pelo menos um traço. Aqui, por exemplo, o motor de edição do genoma 106 prevê o rendimento de grãos da planta endogâmica de milho, com base na identificação de um ou mais genes destruídos nas regiões de

Petição 870190082888, de 26/08/2019, pág. 44/69

23/37

QTL. De um modo mais geral, o efeito agregado das edições candidatas selecionadas no exemplo de rendimento de milho é previsto pelo motor de edição do genoma 106, com base em um modelo aditivo. O modelo aditivo é baseado na soma dos efeitos previstos de cada edição dentro das edições candidatas selecionadas, por tipo, com base em informações existentes ou hipóteses sobre as edições (por exemplo, usando valores reprodutivos genômicos de alta resolução, previsão de genoma baseado em bioinformática, expressão quantitativa de lócus (e-QTL), desempenho histórico de edições semelhantes, etc.).

[0047] Em um exemplo de modalidade, o efeito agregado pode ser previsto pelo motor de edição do genoma 106, adicionando os efeitos de QTL previstos de todas as regiões de QTL, em que uma das edições candidatas foi encontrada. Esse efeito agregado pressupõe que, em cada região de QTL, a edição identificada explica substancialmente os efeitos do QTL. Em várias modalidades, a determinação do efeito agregado acima pode não ser precisa, uma vez que uma determinada edição de candidato pode apenas explicar parcialmente ou não explicar de todo, o efeito de QTL observado e/ou colocalizado. Em tais modalidades, um fator de correção pode ser utilizado pelo motor de edição do genoma 106 para modificar a previsão do efeito agregado, derivando assim uma previsão do efeito agregado ajustado ao risco. Este fator de correção (por exemplo, escalado de 0 a 1, etc.) pode então depender dos traços de interesse e/ou das espécies do organismo alvo, bem como da experiência acumulada na realização desse processo (por exemplo, observações de experiências semelhantes para definir/redefinir o fator de correção, etc.). Por exemplo, pode ter sido aprendido com a experiência anterior que restaurar a funcionalidade pela reparação dos códons de parada prematuros em todos os genes dentro de uma região de QTL de rendimento resulta em um aumento médio no rendimento que é cerca de metade ou cerca de 80% ou alguma outra correção adequada do

Petição 870190082888, de 26/08/2019, pág. 45/69

24/37 estimado efeito entre o alelo menos e mais favorável no QTL. Assim, um fator de correção de cerca de 0,5 ou cerca de 0,8, por exemplo, pode ser aplicado a modelos que predizem o resultado de realizar tais tarefas através de novos QTLs de rendimento e que usam a soma de efeitos de QTL como um preditor do efeito agregado das edições.

[0048] Deve ser apreciado que enquanto um modelo aditivo é usado neste documento, outros modelos e/ou modelos não aditivos também poderíam ser construídos para considerar possível dominância ou interações epistáticas e outros modelos e/ou modelos não paramétricos poderíam ser usados ao selecionar edições candidatas com efeitos de magnitude imprevisível em outras modalidades. Um modelo epistático pode ser aplicado ao editar múltiplos genes em uma via bioquímica. Se dois genes em uma via não forem funcionais, a edição de apenas um deles não restaurará essa via, mas a edição dos dois o fará. Inversamente, se um fenótipo indesejado é alcançado através de múltiplas vias, a interrupção de apenas uma dessas vias pode não alterar o fenótipo, ao mesmo tempo em que a interrupção total o fará. Um modelo não paramétrico podería usar heurísticas para classificar as edições candidatas, por exemplo, priorizar a edição de genes que não são membros de famílias de múltiplos genes ou genes que são expressos em certos tipos de tecidos. Similarmente, a classificação das edições candidatas pode ser baseada na conservação evolucionária do gene ao qual as edições pertencem e priorizar a edição de genes que são modificados e/ou rompidos em um determinado genoma, mas que acumularam uma mínima ou pequena mudança na sequência do genoma dentre as espécies de interesse ou entre outras espécies mais distantes.

[0049] Com nova referência ao exemplo de códons de parada prematura 481, acima, o mecanismo de edição do genoma 106 é capaz de prever que o efeito agregado da edição dos quatro códons de parada prematura listados acima é de -5,14 Bu/A. Consequentemente, se todos

Petição 870190082888, de 26/08/2019, pág. 46/69

25/37 os quatro foram editados para alelos do tipo selvagem de comprimento total, é previsto um aumento de rendimento de 5,14 Bu/A. Quando um fator de correção, como descrito acima, de cerca de 80% é aplicado, por exemplo, o aumento do rendimento agregado previsto neste exemplo torna-se aproximadamente 4 Bu/A (ou seja, 4,1 Bu/A).

[0050] Com referência continuada à FIG. 3, o motor de edição do genoma 106 compara então o efeito agregado previsto a um ou mais limites definidos (por exemplo, prevê-se que o rendimento de milho seja aumentado em alguma quantidade em relação a um organismo não editado, etc.) em 312. O um ou mais de um limite definido é determinado, por exemplo, por um valor econômico mínimo requerido (ou desejado) para o efeito agregado previsto e/ou a melhoria mínima necessária para detecção estatística sob um protocolo experimental de validação predeterminado. Com referência ao exemplo anterior 481 de códons de parada prematura, o motor de edição do genoma 106 compara os 5,14 Bu/A com um limite de 4 Bu/A, por exemplo (conforme definido pelo cálculo da potência (etapa 312 da FIG. 3), pelo qual o efeito agregado previsto está acima do limite.

[0051] Quando o efeito agregado satisfaz o limite definido, as edições selecionadas do candidato correspondentes ao efeito agregado são avançadas em uma fase de validação do método 300. Se o efeito agregado previsto de todas as edições estiver abaixo de um limite de detecção prático e/ou abaixo de um limite econômico que justifique a execução das edições candidatas in vivo, uma ou mais novas abordagens para identificar as edições candidatas podem ser adotadas ou, alternativamente, o método 300 pode ser descontinuado por completo. Contudo, se o efeito agregado previsto atingir um limite viável comercialmente (ou econômico) e/ou um limite testável experimentalmente (ou praticamente detectável), o método 300 deve ser continuado para vali

Petição 870190082888, de 26/08/2019, pág. 47/69

26/37 dar as múltiplas edições candidatas selecionadas. Por exemplo, considere que a confirmação da eficácia das edições destinadas a melhorar o rendimento de grãos de milho é realizada através da medição de seus efeitos agregados em ensaios de rendimento replicados. Suponha uma variância do lote de 270 Bu²/A², que é típica em uma região central dos Estados Unidos (por exemplo, o Cinturão Central do Milho, etc.) com lotes de 15 a 20 pés de comprimento com duas fileiras de 30 polegadas de distância. Se for razoável a replicação do tratamento (por exemplo, uma linhagem com um genoma editado) e o controle (por exemplo, a mesma linhagem sem o genoma editado) 265 vezes e se houver o desejo de uma potência estatística de 80%, isto é uma probabilidade de 80% de rejeição da hipótese nula quando esta for falsa, então um efeito agregado de 4 bushels/acre pode ser estabelecido como o limite definido. Mais detalhes sobre tais cálculos de potência são fornecidos abaixo. É claro que um ou mais limites definidos podem ser reajustados ou definidos, por exemplo, conforme as tecnologias de edição sofrem melhorias (por exemplo, um número máximo de aumentos de edições, etc.), custos associados a reduções de edições in vivo e/ou metodologias de previsão são refinados (por exemplo, fatores de correção se aproximando de um, etc.), onde mais precisão pode ser alcançada na medição da diferença entre organismos editados e não editados através de um ou mais procedimentos de teste, etc.

[0052] Na fase de validação do método 300, o mecanismo de edição do genoma 106 determina, em 314, o tamanho da amostra a ser utilizada na validação das edições candidatas selecionadas.

[0053] Especificamente, por exemplo, neste exemplo de modalidade, o motor de edição do genoma 106 baseia-se em uma consideração de potência na determinação do tamanho da amostra para validação, 314. Suponha que o efeito de edições individuais, ti, seja aditivo, ou seja, o efeito agregado é a soma dos n efeitos individuais. Além

Petição 870190082888, de 26/08/2019, pág. 48/69

27/37 disso, suponha que o erro de medição no nível individual do lote é normalmente distribuído com média 0 e variância de o² _e. Então a diferença entre o desempenho médio através das r replicações da versão editada e de controle, x_± e x₀, respectivamente, é distribuída normalmente de acordo com a Equação (1).

-x₀~/V(d = ZF=iTi,2ff²/r) (1) [0054] Com isto dito, o sucesso do motor de edição do genoma 106 pode ser testado sob a hipótese NULA, H_o : x_±- χ_ο~Ν(Ο,2σ²/υ)· A potência (P) ou probabilidade de rejeição de Ho quando Ho é falso, sob a hipótese alternativa H_± : x_± - x₀~/V(d, 2a²/r), pode ser determinada através da Equação (2). Na Equação (2), β representa um erro do tipo II (ou não aceita a hipótese alternativa quando verdadeiro) e do tamanho do efeito.

Potência = P(1 — β) = P(d — ζ₁_^_Λ/2σ^ /r) (2)

Onde ζ_±_β é o valor tomado por Z, onde Z~N (d, 1), para o qual P (Z <ζ_±_β) = 1 - β sob a hipótese alternativa.

[0055] Portanto, para obter a mesma potência o número de repetições necessárias para validar as edições candidatas selecionadas é proporcional à variação de erro das unidades experimentais ou inversamente proporcional ao quadrado da diferença que se está tentando detectar. Ou seja, se a variação do erro é reduzida pela metade, apenas metade das repetições são necessárias. Mas, para detectar uma diferença em um determinado traço, um décimo da magnitude do organismo não editado, cem vezes mais repetições seriam necessárias para demonstrar que a diferença é real. No exemplo acima, uma unidade experimental ou lote para o milho endogâmico inclui 2 linhas, com 30 polegadas de espaçamento e 20 pés de comprimento, o número de plantas de milho variando dependendo da densidade (por exemplo, onde a densidade é geralmente entre 38 e 36 mil plantas por acre, etc.). Em um exemplo animal, a unidade experimental pode incluir um único animal

Petição 870190082888, de 26/08/2019, pág. 49/69

28/37 (por exemplo, uma vaca, etc.) ou uma gaiola ou uma baia com vários animais (por exemplo, 5 galinhas poedeiras, etc.).

[0056] Por exemplo, no exemplo acima, uma metodologia de validação pode identificar edições candidatas com um efeito médio no rendimento de híbridos de milho de 0,2 bushels (Bu) por acre (A), uma variação de edição para edição de 0,05 Bu²/A² e uma variância de rendimento do lote experimental de 270 Bu²/A² (que é típico no Cinturão do Milho Central, com plantações de 15 a 20 pés de comprimento e com duas linhas espaçadas a 30 centímetros de distância). Se uma edição específica tiver o efeito de 0,2 Bu/A e o erro do tipo I for estabelecido em 5%, o número total de repetições em organismos editados e de controle precisará rejeitar Ho com uma probabilidade de 80%, conforme a Equação (2) acima e métodos convencionais teriam aproximadamente 212.000 repetições (106.000 para cada organismo editado e não editado). Como pode ser apreciado, este tamanho pode ser inadequado e/ou impraticável para implementação. Como tal, se um organismo alvo (ou seja, definindo a sequência de genoma da etapa 302) puder ser modificado com 20 edições com um efeito previsto combinado de 4 Bu/A (isto é, 20 vezes maior que o exemplo acima), apenas 265 replicam o organismo (que é aproximadamente 400 vezes menor do que organismos repetidos - em relação aos 106.000) para um total de 530 lotes, reduzindo assim os recursos necessários para obter uma potência de 80%.

[0057] Por exemplo, nos exemplos de códons de parada prematura acima de 481, se uma potência de 0,8 é assumida e uma variância de nível de lote de 270 Nu/A (e pelo uso da Equação (2)), o mecanismo de edição do genoma 106 é capaz de estimar 265 repetições que são tudo o que é necessário, necessário ou desejado, para validação do efeito agregado previsto das quatro edições de genoma selecionadas.

Petição 870190082888, de 26/08/2019, pág. 50/69

29/37 [0058] Além disso, mesmo que esse candidato selecionado em particular tenha resultado em um efeito combinado que cairá em 10% do tamanho do efeito combinado ao produzir 20 edições para essa metodologia específica, para a qual cada efeito é amostrado de uma distribuição normal de média de 0,2 Bu/A e variância de 0,05 Bu²/A², isto fornecería, de acordo com o citado acima, um efeito combinado de 2,71 Bu/A. Como tal, o número de lotes repetidos a serem usados para rejeitar Ho com uma probabilidade de 80% seria de 578 cada para o organismo editado e não editado, totalizando 1.156 lotes, o que é muito menos do que os 212.000 lotes descritos acima. Deve também ser apreciado que se as edições individuais precisarem ser determinadas com uma metodologia como acima (média de 0,2 Bu/A, variância de 0,05 Bu²/A²), há uma probabilidade maior que 18% de que qualquer edição em particular terá um impacto negativo (por exemplo, um rendimento reduzido, em vez de um rendimento aumentado ou uma maior susceptibilidade à taxa de doença, em vez de reduzir a susceptibilidade à doença). Ou seja, o efeito real está na direção oposta do efeito previsto, com uma edição resultando em uma diminuição no rendimento de grãos. Isso pode ser contrastado com a probabilidade de 0,003% de que 20 dessas edições combinadas tenham um efeito agregado negativo.

[0059] Além disso, o método 300, como descrito neste documento, permite múltiplas edições simultâneas para identificar edições raras de grandes efeitos. Por exemplo, supondo que 125 edições candidatas sejam identificadas e/ou existam e apenas uma tenha um efeito muito grande, em vez de testar cada uma das edições separadamente, as edições podem ser testadas juntas em 15 combinações diferentes de 25 edições. Como tal, um conceito de conjunto 3-D pode surgir da possibilidade de dar a cada candidato a edição de um número de “linha”, “coluna” e “placa”. Particularmente, as 125 edições candidatas podem ser posicionadas em uma estrutura de dados cúbicos de 5 x 5 x 5, onde a

Petição 870190082888, de 26/08/2019, pág. 51/69

30/37

Variante 001 seria (1, 1, 1), enquanto a Variante 125 seria (5, 5, 5). Os 15 conjuntos (de 25 edições cada) seriam:

(1,-,-); (2,-,-); (3,-,-); (4,-,-); (5,-,-); (-,1,-); (-,2,-); (-,3,-); (-,4,-); (-,5,-); (-,-,1):(-,-,2): (-,-,3):(-,-,4): (-,-,5) [0060] Em relação a isso, se for assumido, por exemplo, que a variante ou bloco 52, que estaria na posição (3,1,2) no exemplo de cubo é o alvo, então três conjuntos nos quais ele será encontrado são (3, -, -), (-, 1, -) e (-, -, 2). O efeito agregado das linhagens editadas com esses três conjuntos terá um efeito maior do que as linhagens editadas com os outros 12 conjuntos. Mais uma vez, o número de organismos replicados, como descrito acima, pode ser definido após um cálculo de energia consistente com a variância do erro e o tamanho do efeito desejado a ser detectado. Além disso, uma quantidade de recursos disponíveis para validar e/ou medir o efeito agregado é constante. O motor de edição do genoma 106 utilizando o conjunto descrito acima (como parte da determinação de um tamanho de amostra para validação) permite aumentar o número de repetições por conjunto, em comparação com o teste de cada edição separadamente, aumentando assim a potência do teste e/ou permitindo a detecção de efeitos menores com a mesma potência.

[0061] Uma vez que o tamanho da amostra é determinado, um organismo alvo (por exemplo, uma planta de milho) ou um conjunto deles, é modificado em 316 conforme definido nas edições de múltiplos candidatos selecionadas. Especificamente, o motor de edição do genoma 106 fornece não apenas as edições candidatas selecionadas ao esquema de edição do genoma 102, como mostrado na FIG. 1, mas também o tamanho da amostra desejada para validação, conforme determinado acima. Uma vez o organismo modificado, o organismo é então passado para o espaço de cultivo 104, como mostrado na FIG. 1, após o qual o organismo é cultivado. Em algum momento posterior, o efeito agregado

Petição 870190082888, de 26/08/2019, pág. 52/69

31/37 das edições candidatas selecionadas é medido no organismo, em 318. Posteriormente, com base nas medições, um efeito agronômico, econômico e/ou científico do organismo alvo modificado é confirmado, em 320. Para fazer isso, por exemplo, uma diferença entre um desempenho médio para a característica de interesse das plantas editadas e não editadas fornecerá uma estimativa do efeito agregado realizado. O número de repetições e a variância do erro medido ajudarão a conduzir um teste estatístico para aceitar ou rejeitar a hipótese nula (isto é, um efeito agregado nulo). Os resultados experimentais também podem fornecer um intervalo de confiança em torno do efeito agregado estimado realizado. Aquele versado na técnica reconhecerá que pode ser mais desejável obter várias plantas editadas para teste e, embora isso possa exigir mais recursos para estimar um efeito agregado realizado em cada planta editada, pode ajudar a confirmar que as diferenças medidas são o resultado das edições do candidato sendo feitas ao organismo e não uma mudança descontrolada confundida com a edição em uma única planta editada.

[0062] Em vista do exposto acima, os sistemas e métodos deste documento permitem identificação e seleção de várias edições candidatas para validação, em vez de investigar e validar individualmente edições individuais uma por vez, onde o efeito agregado das edições de múltiplos candidatos pode ser previsto. Dito de outra forma, como descrito neste documento, a medição do efeito agregado das múltiplas edições candidatas é economicamente viável, mesmo quando a medição de cada efeito de edição individual não é. Além disso, através da fenotipagem criteriosa de um efeito agregado em todo o subconjunto de possíveis edições, é fornecida uma maneira econômica de identificar edições raras de grandes efeitos. Além disso, os sistemas e métodos neste documento permitem a identificação da edição do genoma paralelo como

Petição 870190082888, de 26/08/2019, pág. 53/69

32/37 uma forma de melhorar um ou mais traços poligênicos onde as mudanças em um único gene não podem ser medidas devido a um efeito relativamente mínimo, menor ou pequeno que a única alteração tem sobre o traço, mas onde o efeito agregado correspondente de múltiplas edições é observável dentro de um espaço de cultivo e/ou experimento de tamanho aceitável. Além disso, o agrupamento das edições candidatas pode ser empregado, por meio do qual um subconjunto de edição de candidatos pode ser usado para identificar as edições de efeito grande raro dentro do conjunto, que também inclui numerosas edições de efeito pequeno a neutro. Finalmente, os sistemas e métodos apresentados neste documento podem fornecer uma ou mais informações úteis sobre o gene, conjunto de genes e/ou sequências a serem manipuladas para alcançar uma mudança e/ou melhoria de traço desejada, pela avaliação do efeito agregado de várias combinações de determinadas modificações de um gene, conjunto de genes e/ou sequências de um determinado traço. O acima é fornecido através de um conjunto de dados, que é pequeno em comparação a um conjunto de dados suficiente para avaliar o efeito individual de cada uma das dezenas de SNPs ou sequências em um determinado traço fenotípico (pelo qual o tamanho é potencialmente secundário à dificuldade e despesa de compilar tal conjunto de dados).

[0063] As funções descritas neste documento, em algumas modalidades, podem ser descritas em instruções executáveis por computador armazenadas em uma mídia legível por computador e executáveis por um ou mais processadores. A mídia legível por computador é uma mídia legível por computador não transitória. A título de exemplo e não de limitação, tais mídias legíveis por computador podem incluir RAM, ROM, EEPROM, CD-ROM ou outro disco de armazenamento óptico, disco de armazenamento magnético ou outros dispositivos de armazenamento magnético ou qualquer outra mídia que possa ser usada para transporte

Petição 870190082888, de 26/08/2019, pág. 54/69

33/37 ou armazenamento do código de programa desejado sob a forma de instruções ou estruturas de dados que possam ser acessadas por um computador. Combinações de qualquer um dos elementos acima também podem estar incluídas no escopo das mídias legíveis por computador.

[0064] Deve também ser apreciado que um ou mais aspectos da presente divulgação transformam um dispositivo de computação de propósito geral em um dispositivo de computação de propósito especial quando configurado para executar as funções, métodos e/ou processos descritos neste documento.

[0065] Como será apreciado com base na especificação acima mencionada, as modalidades da divulgação descritas acima podem ser implementadas pelo uso de técnicas de programação de computador, incluindo software de computador, firmware, hardware ou qualquer combinação de engenharia ou subconjunto deles, no qual o efeito técnico pode ser alcançado através da realização de pelo menos uma das seguintes operações: (a) identificação de uma população de edições do candidato em uma sequência de genoma do organismo baseada em pelo menos um dentre anotação do genoma, análise de associação global do genoma (GWAS), dados de expressão de gene e um modelo de via metabólica; (b) classificação, por um dispositivo de computação, de cada uma das edições candidatas com base em uma capacidade prevista de editar cada candidato para afetar um traço de interesse no organismo, a capacidade sendo prevista com base em pelo menos um dentre uma probabilidade de causar um efeito, uma magnitude de efeito e um parâmetro de classificação não paramétricos; (c) seleção, pelo dispositivo de computação, de uma ou mais das edições candidatas com base na classificação; e (d) previsão, pelo dispositivo de computação, de um efeito agregado das uma ou mais edições candidatas seleciona

Petição 870190082888, de 26/08/2019, pág. 55/69

34/37 das para o traço de interesse quando expressa por uma espécie do organismo tendo uma sequência de genoma e editada de acordo com as uma ou mais edições candidatas selecionadas, em comparação com uma amostra não editada do organismo.

[0066] Exemplos de modalidades são fornecidos para que esta divulgação seja completa e que transmita totalmente o escopo para aqueles versados na técnica. Numerosos detalhes específicos são apresentados como exemplos de componentes específicos, dispositivos e métodos, para fornecer uma compreensão completa das modalidades da divulgação presente. Ficará evidente para aqueles versados na técnica que os detalhes específicos não precisam ser utilizados, que os exemplos de modalidades podem ser realizados de muitas formas diferentes e que não devem ser interpretados de forma a limitar o escopo da divulgação. Em alguns exemplos de modalidades, processos conhecidos, dispositivos conhecidos e tecnologias conhecidas não são descritas em detalhe. Adicionalmente, as vantagens e melhorias que podem ser conseguidas com uma ou mais modalidades exemplificativas divulgadas neste documento podem fornecer todas ou nenhuma das vantagens e melhorias acima mencionadas e ainda caírem dentro do escopo da presente divulgação.

[0067] A terminologia usada neste documento tem a finalidade de descrever exemplos de modalidades particulares apenas e não se destina a ser limitante. Como utilizado neste documento, as formas singulares “um”, “uma” e o/a estão destinadas a incluir também as formas plurais, a menos que o contexto indique claramente de outra maneira. Os termos compreende, compreendendo, incluindo e com, são inclusivos e, portanto, especificam a presença de recursos, números inteiros, etapas, operações, elementos e/ou componentes indicados, mas não exclui a presença ou a adição de um ou mais outros recursos, nú

Petição 870190082888, de 26/08/2019, pág. 56/69

35/37 meros inteiros, etapas, operações, elementos, componentes e/ou grupos dos mesmos. As etapas, processos e operações do método descritos neste documento não devem ser interpretados como necessariamente precisando que o seu desempenho na ordem particular seja discutido ou ilustrado, a menos que especificamente identificados como uma ordem de desempenho. Também deve ser compreendido que etapas adicionais ou alternativas podem ser empregadas.

[0068] Quando um recurso é referido como “em”, “engatado a”, “ligado a”, “acoplado a”, “associado a”, “em comunicação com” ou “incluído com” outro elemento ou camada, ele pode estar diretamente no, engatado, conectado, acoplado, ou associado a, ou em comunicação ou incluído com o outro recurso, ou recursos intervenientes podem estar presentes. Como utilizado neste documento, o termo e/ou inclui quaisquer e todas as combinações de um ou mais dos itens listados associados.

[0069] Embora os termos primeiro, segundo, terceiro, etc. possam ser usados neste documento para descrever vários recursos, esses recursos não devem ser limitados por esses termos. Esses termos podem ser usados apenas para distinguir um recurso do outro. Termos como primeiro, segundo e outros termos numéricos quando usados neste documento não implicam em uma sequência ou ordem a menos que claramente indicado pelo contexto. Assim, um primeiro recurso discutido neste documento pode ser denominado um segundo recurso sem se afastar dos ensinamentos dos exemplos de modalidades.

[0070] Nenhum dos elementos citados nas reivindicações pretende ser um elemento de meios mais função dentro do significado de 35 U.S.C. §112 (f) a menos que um elemento seja expressamente recitado usando a expressão “meios para” ou no caso de uma reivindicação de método usando as frases operação para ou etapa para.

[0071] Os valores específicos divulgados neste documento são

Petição 870190082888, de 26/08/2019, pág. 57/69

36/37 exemplos em sua natureza e não limitam o escopo da presente divulgação. A presente divulgação de determinados valores e faixas de valores para determinados parâmetros não são exclusivos de outros valores e faixas de valores que podem ser úteis em um ou mais dos exemplos divulgados neste documento. Além disso, é previsto que quaisquer dois determinados valores para um parâmetro específico declarado neste documento podem definir as extremidades de uma faixa de valores que podem ser adequados para o determinado parâmetro (isto é, a divulgação de um primeiro valor e um segundo valor para um determinado parâmetro pode ser interpretada como revelando que qualquer valor entre o primeiro valor e o segundo valor também podería ser empregado para o determinado parâmetro), por exemplo, se o parâmetro X é exemplificado neste documento como tendo valor A e também exemplificado como tendo valor de Z, está previsto que o parâmetro X pode ter uma gama de valores de cerca de A cerca de Z. Do mesmo modo, prevê-se que a divulgação de duas ou mais faixas de valores para um parâmetro (sejam estas faixas agrupadas, sobrepostas ou distintas) inclui todas as combinações possíveis de faixas para o valor que podem ser reivindicadas usando os pontos finais dos intervalos divulgados. Por exemplo, se o parâmetro X é exemplificado neste documento para ter valores nas faixas de 1-10, ou 2-9, ou 3-8, é também previsto que o parâmetro X pode ter valores em outras faixas de valores, incluindo 1-9, 1-8, 1-3, 12, 2-10, 2-8, 2-3, 3-10, e 3-9.

[0072] A descrição acima das modalidades foi fornecida para fins de ilustração e descrição. Não se destina a ser completa ou a limitar a divulgação. Elementos individuais ou características de uma modalidade específica geralmente não estão limitados a essa modalidade particular, mas, quando aplicável, são intercambiáveis e podem ser usados em uma modalidade selecionada, mesmo que não especificamente mostrados ou descritos. Estes também pode variar de muitas maneiras.

Petição 870190082888, de 26/08/2019, pág. 58/69

37/37

Tais variações não devem ser consideradas como um afastamento da divulgação, e tais modificações se destinam a ser incluídas no escopo da divulgação.

Claims

REIVINDICAÇÕES

1. Método para previsão de um impacto fenotípico de múltiplas edições de genoma em um organismo, caracterizado pelo fato de que compreende:

identificar uma população de edições candidatas a uma sequência de genoma do referido organismo, com base em pelo menos uma dentre anotação do genoma, análise de estudo de associação ampla do genoma (GWAS), dados de expressão de genoma e um modelo de via bioquímica;

classificar por um dispositivo de computação, cada uma das edições candidatas com base na capacidade prevista de cada candidato de editar um ou mais traços de interesse no referido organismo, a capacidade prevista com base em pelo menos uma dentre uma probabilidade de causar um efeito, uma magnitude do efeito e um parâmetro de classificação não paramétrico;

selecionar, pelo dispositivo de computação, várias das edições candidatas com base na classificação; e prever, pelo dispositivo de computação, um efeito agregado das edições candidatas selecionadas para um ou mais traços de interesse quando expressos por um espécime do organismo tendo uma sequência de genoma e editado de acordo com as múltiplas edições candidatas selecionadas, em comparação com um espécime não editado do organismo.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a previsão do efeito agregado das múltiplas edições candidatas selecionadas inclui a adição de um efeito previsto de cada uma das múltiplas edições candidatas selecionadas.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda a modificação de um organismo alvo de acordo com as múltiplas edições candidatas selecionadas; e

Petição 870190082888, de 26/08/2019, pág. 60/69

2/9 medir um efeito agregado das múltiplas edições candidatas selecionadas sobre um ou mais traços de interesse, com base no organismo alvo modificado e pelo menos um organismo alvo não modificado, pelo qual uma decisão sobre o efeito agregado das múltiplas edições candidatas selecionadas é permitida sem a medição de um efeito de cada uma das múltiplas edições candidatas selecionadas.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que compreende ainda a determinação, pelo dispositivo de computação, de um tamanho de amostra a ser utilizado na validação das múltiplas edições candidatas selecionadas; e sujeição de um número de organismos consistentes com o tamanho da amostra determinada a um espaço de cultivo, pelo qual o efeito agregado é permitido para ser verificado.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que o organismo inclui uma planta; e em que um ou mais traços de interesse estão associados à importância econômica.
6. Método, de acordo com a reivindicação 5, caracterizado pelo fato de que o organismo inclui uma planta de milho.
7. Método para geração de um organismo com um traço ou fenótipo melhorado, caracterizado pelo fato de que compreende:

identificar uma população de edições candidatas a uma sequência de genoma com base em pelo menos uma dentre anotação do genoma, análise de estudo de associação ampla do genoma (GWAS), dados de expressão de genoma e um modelo de via bioquímica;

classificar, por um dispositivo de computação, cada uma das edições candidatas com base na capacidade de cada candidato de editar um traço de interesse, a capacidade prevista com base em pelo menos uma dentre uma probabilidade de causar um efeito, uma magnitude do efeito e um parâmetro de classificação não paramétrico;

Petição 870190082888, de 26/08/2019, pág. 61/69

3/9 selecionar, pelo dispositivo de computação, várias das edições candidatas com base na classificação;

prever, pelo dispositivo de computação, um efeito agregado de uma ou mais das edições candidatas para o traço de interesse quando expresso por uma amostra tendo uma sequência de genoma e editado de acordo com a uma ou mais das edições candidatas selecionadas, em comparação a uma amostra não editada tendo a sequência de genoma;

modificar um organismo não editado consistente com a sequência de genoma com uma das múltiplas edições candidatas selecionadas; e cultivar o referido organismo modificado com a edição de candidato selecionada em um espaço de cultivo, juntamente com um organismo não editado consistente com a sequência de genoma, permitindo assim a validação do efeito agregado previsto.
8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que o organismo inclui uma planta; e/ou em que o organismo inclui uma planta de milho.
9. Método, de acordo com a reivindicação 7, caracterizado pelo fato de que a identificação da população de edições candidatas inclui identificar, pelo dispositivo de computação, a população de edições candidatas; e em que o método compreende ainda:

antes da modificação de um organismo não editado, determinar um tamanho de amostra a ser utilizado invalidando o efeito agregado; e em que a modificação do organismo não editado inclui a modificação de múltiplos organismos não editados, consistente com o tamanho da amostra determinada, com as edições candidatas selecionadas.

Petição 870190082888, de 26/08/2019, pág. 62/69

4/9
10. Método de edição de genoma, caracterizado pelo fato de que compreende:

editar um genoma com múltiplas edições simultaneamente sem conhecimento preciso de um impacto fenotípico de cada indivíduo de cada uma das edições múltiplas; em que as edições múltiplas são selecionadas com base na previsão de um impacto fenotípico agregado das múltiplas edições em um traço fenotípico; e agregar as múltiplas edições candidatas em conjuntos multidimensionais, em que efeitos fenotípicos de conjuntos contrastantes de edições são comparados para determinar quais das várias edições são mais prováveis de causar grandes efeitos fenotípicos, eliminando a necessidade de avaliar cada edição separadamente, em que o genoma pertence a pelo menos um dentre milho, soja, trigo, sorgo, arroz, algodão, colza, girassol, feijão, tomate, abóbora, pepino, melão, pimenta, melancia, berinjela, quiabo, ervilha, grão de bico, lentilha, amendoim, cebola, cenoura, aipo, beterraba, couve-flor, brócolis, repolho, couve de Bruxelas, rabanete, ervilha, batata, batata-doce, cana-de-açúcar, mandioca e banana.
11. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que é tecnicamente e/ou economicamente inviável justificar a busca da confirmação de um efeito das edições múltiplas, individualmente, isoladamente em um nível de significância com um valor de p <5% e uma potência > 30%; e em que o impacto fenotípico agregado das múltiplas edições pode ser determinado técnica e economicamente com um valor de p <5% e uma potência > 30%.
12. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que o fenótipo é para um traço de importância econômica.

Petição 870190082888, de 26/08/2019, pág. 63/69

5/9
13. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que o fenótipo é para um traço sob controle monogênico ou oligogênico.
14. Método, de acordo com a reivindicação 10, caracterizado pelo fato de que o fenótipo é para um traço sob controle poligênico.
15. Método de criação de uma planta agronomicamente avançada, caracterizado pelo fato de que compreende:

identificar uma sequência genômica para um genoma ou pan-genoma, identificar uma população de edições candidatas a uma sequência de genoma de acordo com informação prévia incluindo anotação do genoma, análises GWAS, dados de expressão de gene e modelos de via bioquímica;

classificar, por um dispositivo de computação, cada uma das edições candidatas ou grupos de edições candidatas em relação a uma habilidade prevista de afetar um ou mais fenótipos de interesse, com base na probabilidade de causar um efeito, uma magnitude da habilidade prevista de causar o efeito e/ou um parâmetro de classificação não paramétrico;

selecionar, pelo dispositivo de computação, com base na classificação, um subconjunto de edições; e prever, pelo dispositivo de computação, os efeitos agregados das edições preferidas sobre um ou mais fenótipos quando expressos por um indivíduo com sua sequência de genoma editada em comparação à sua versão não editada, onde o impacto fenotípico de cada edição individual pode ser muito pequeno para ser comprovado significativamente diferente de zero ou ser estimado com precisão.
16. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que a seleção do subconjunto de edições é ainda baseada em impressões digitais de DNA e/ou relações de pedigree; e

Petição 870190082888, de 26/08/2019, pág. 64/69

6/9 em que o método compreende ainda:

fabricar a combinação selecionada de edições de genoma em uma planta alvo;

medir os efeitos agregados das edições pela comparação da planta editada a uma planta não editada, a planta não editada tendo a mesma origem da planta editada; e confirmar o avanço agronômico da planta editada sem ter que confirmar o impacto agronômico de cada uma das múltiplas edições individualmente.
17. Método, de acordo com a reivindicação 15, caracterizado pelo fato de que a seleção do subconjunto de edições é ainda baseada no subconjunto mais provável, entre outros subconjuntos, para gerar o resultado favorável agregado máximo nos fenótipos de interesse para um indivíduo carregando o genoma ou uma população de indivíduos representados pelo pan-genoma.
18. Método, de acordo com qualquer uma das reivindicações 15 a 17, caracterizado pelo fato de que compreende ainda a geração de uma sequência de genoma de alta qualidade a partir de um genoma ou pan-genoma.
19. Método, de acordo com qualquer uma das reivindicações 15 a 17, caracterizado pelo fato de que compreende ainda a obtenção de um organismo com uma sequência de genoma, antes da identificação de uma população de edição de candidatos à sequência de genoma.
20. Método de identificação de edição de candidatos com um efeito fenotípico desejado em um organismo a partir de uma população de edições candidatas, caracterizado pelo fato de que compreende:

estabelecer um conjunto de organismos individuais específicos de uma origem genética, cada organismo individual incluindo um subconjunto diferente de edições candidatas entre uma população de

Petição 870190082888, de 26/08/2019, pág. 65/69

7/9 edições candidatas;

medir o efeito agregado de cada subconjunto de edições candidatas no conjunto de organismos individuais;

identificar um ou mais dos subconjuntos de edições candidatas com base no efeito agregado medido dos subconjuntos de edições candidatas sendo relativamente alto ou grande comparado aos efeitos agregados medidos de outros do subconjunto de edições candidatas; e reter apenas um ou mais dos subconjuntos de edições candidatas, em que a complexidade da população de edições de candidatas é reduzida.
21. Método, de acordo com a reivindicação 20, caracterizado pelo fato de que a identificação de um ou mais dos subconjuntos de edições candidatas inclui a identificação de um ou mais subconjuntos de edições candidatas com base em uma representação cúbica dos subconjuntos de edições candidatas, em que um ou mais dos subconjuntos de edições candidatas se cruzam dentro da representação cúbica.
22. Método, de acordo com a reivindicação 20, caracterizado pelo fato de que cada organismo é editado com um número similar de edições candidatas.
23. Método, de acordo com qualquer uma das reivindicações 20 a 22, caracterizado pelo fato de que as edições candidatas são distribuídas de acordo com um método de agrupamento n-dimensional, em que n é um inteiro e em que o método compreende ainda:

atribuir cada edição de candidato a uma outra separada das dimensões, como se estivesse posicionada em um sistema de coordenadas n-dimensional;

agrupar todas as edições candidatas que compartilham a mesma coordenada em uma das dimensões; e

Petição 870190082888, de 26/08/2019, pág. 66/69

8/9 editar tantos organismos quantos de conjuntos e utilização de cada conjunto para editar um organismo.
24. Método, de acordo com a reivindicação 20, caracterizado pelo fato de que o organismo inclui uma planta; e/ou em que o organismo inclui uma planta de milho.
25. Método de edição do genoma, caracterizado pelo fato de que compreende a edição de um genoma com edições múltiplas simultaneamente, sem conhecimento preciso de um impacto fenotípico de cada uma das edições múltiplas.
26. Método, de acordo com a reivindicação 25, caracterizado pelo fato de que as edições múltiplas são selecionadas com base em uma predição do impacto fenotípico agregado de tais edições sobre uma característica fenotípica.
27. Método, de acordo com a reivindicação 25, caracterizado pelo fato de que é tecnicamente e/ou economicamente inviável justificar a busca da confirmação de qualquer efeito das edições individuais isoladamente em um nível de significância com um valor de p <5% e uma potência > 30%.
28. Método, de acordo com qualquer uma das reivindicações 25 a 27, caracterizado pelo fato de que os efeitos agregados das múltiplas edições podem ser determinados técnica e economicamente com um valor de p <5% e uma potência > 30%.
29. Método, de acordo com qualquer uma das reivindicações 25 a 27, caracterizado pelo fato de que se espera que um ou um pequeno número entre todas as edições selecionadas tenha um impacto desproporcionalmente grande no fenótipo procurado, mas que é a priori desconhecido qual.
30. Método, de acordo com qualquer uma das reivindicações 25 a 27, caracterizado pelo fato de que compreende ainda a agregação de múltiplas edições candidatas em conjuntos multidimensionais de

Petição 870190082888, de 26/08/2019, pág. 67/69

9/9 modo que os efeitos fenotípicos de conjuntos de edições contrastantes possam ser comparados para determinar quais edições são mais prováveis de causar grandes efeitos fenotípicos, minimizando e/ou eliminando a necessidade de avaliar cada edição separadamente.
31. Método, de acordo com qualquer uma das reivindicações 25 a 27, caracterizado pelo fato de que o genoma alvo pertence a uma planta, fungo ou animal de importância econômica; e/ou em que o genoma alvo pertence ao gado; e/ou em que o genoma alvo pertence a pelo menos um dentre gado bovino, ovelha, porco, peixe ou aves; e/ou em que o genoma alvo pertence a pelo menos um dentre milho, soja, trigo, sorgo, arroz, algodão, colza, girassol, feijão, tomate, abóbora, pepino, melão, pimenta, melancia, berinjela, quiabo, ervilha, grão de bico, lentilha, amendoim, cebola, cenoura, aipo, beterraba, couve-flor, brócolis, repolho, couve de Bruxelas, rabanete, ervilha, batata, batata-doce, cana-de-açúcar, mandioca, banana; e/ou em que o genoma alvo pertence a uma planta cultivada.