BR112012010535B1

BR112012010535B1 - Microrganismo transgênico, seus métodos de criação, bem como método de geração de uma sequência de identificadores de códon

Info

Publication number: BR112012010535B1
Application number: BR112012010535-3A
Authority: BR
Inventors: Clyde A. Hutchison Iii; Michael G. Montague; Hamilton O. Smith
Original assignee: Synthetic Genomics, Inc
Priority date: 2009-10-30
Filing date: 2010-10-29
Publication date: 2024-04-16

Abstract

CODIFICAÇÃO DE TEXTO EM SEQUÊNCIA DE ÁCIDOS NUCLEICOS. Os métodos e dispositivos são descritos neste pedido para codificação de texto legível humano que transmita uma mensagem não genética em sequências de ácidos nucleicos com uma probabilidade substancialmente reduzida de impacto biológico e decifre tal texto de sequências de ácidos nucleicos. Em uma modalidade, cada símbolo de um conjunto de símbolos de símbolos legíveis humanos mapeia unicamente para um respectivo identificador de códon. O mapeamento pode assegurar que cada símbolo não mapeará para um identificador de cólon que gere um resíduo de aminoácido que tenha uma abreviatura de letra única que seja o equivalente ao respectivo símbolo. As sequências de ácido nucleicos sintéticas que compreendam tal texto legível humano, e células recombinantes ou sintéticas que compreendam tais sequências são fornecidas, bem como os métodos de identificação das células, organismos, ou amostras contendo tais sequências.

Description

CAMPO DA INVENÇÃO

[001] O pedido de patente presentemente descrito se refere geralmente ao campo da biologia molecular. Mais especificamente, este pedido de patente se refere a sequências de ácidos nucleicos sintéticas compreendendo informação não genética.

REFERÊNCIA PARA LISTAGEM DE SEQUÊNCIA

[002] Este pedido de patente contém referências para sequências de aminoácidos e/ou sequências de ácidos nucleicos que foram submetidas concorrentemente por meio deste como o arquivo de texto da listagem de sequências "SGI1450-1WO_ST25.txt", tamanho do arquivo 9,02 Kilobytes (KB), criado em 29 de outubro de 2010. A listagem de sequências acima mencionada é por meio deste incorporada por referência em sua totalidade de acordo com 37 C.F.R. §1.52 (e) (5).

ANTECEDENTES DA INVENÇÃO

[003] Os organismos biológicos compreendem sequências de ácidos nucleicos que codificam, entre outras coisas, genes que podem ser usados para catalisar reações químicas dentro do organismo. Os genes englobam diversas regiões diferentes, tais como promotores, terminadores, e possivelmente ainda de forma mais importante, a região de leitura aberta ou região de codificação do gene que contém o "texto" da proteína de interesse. As sequências de ácidos desoxinucleicos são transcritas para o RNA mensageiro (mRNA) que então é traduzido para uma sequência proteica de interesse. Há quatro bases usadas em sequências de ácidos desoxirribonucleicos, cada uma das quais pode ser usada em três posições em um códon e, dessa forma, há em teoria 64 permutações de códon possíveis.

[004] Como muitas células têm a capacidade de absorver e conservar sequências de ácidos nucleicos, alguns consideraram a perspectiva de usar um organismo biológico como uma fonte de memória para armazenar informação legível humana. A fim de alcançar este fim, vários esquemas de codificação foram desenvolvidos que tentam mapear de símbolos legíveis humanos em sequências de ácidos nucleicos que podem ser armazenadas dentro de um organismo vivo.

[005] A Patente U.S. No. 6.312.911 descreve um método esteganográfico para criação de um código secreto produzindo uma molécula de DNA compreendendo uma sequência de DNA de mensagem secreta flanqueada em cada lado de uma sequência iniciadora.

[006] A Patente U.S. No. 7.056.724 descreve um método de armazenamento de dados em Deinococcus radians realizando uma avaliação do genoma de D. radians quanto a um ou mais critérios para uso como um meio de armazenamento, preparando um código baseado na avaliação, codificando uma sequência de DNA no acordo com o código para representar os dados, e incorporando a sequência de DNA codificada em D. radians.

[007] A Patente Publicada U.S. No. 20080124725 descreve um método de marcação de uma bactéria expondo uma porção de um locus CRISPR a pelo menos uma sequência de ácidos nucleicos exógena para produzir pelo menos uma bactéria marcada compreendendo um locus CRISPR modificado.

[008] A Patente U.S. No. 6.175.830 descreve um método para geração de um recurso informativo investigável destinando uma marcação determinada a cada uma de uma pluralidade de elementos finitos e arranjando os resultados de uma etapa investigável em uma estrutura hierárquica de acordo com informação em marcações determinadas destinadas a elementos finitos correspondentes a registros de banco de dados investigáveis identificados por busca.

[009] A Patente U.S. No. 7.323.307 descreve um método para análise do mRNA tendo um ou mais éxons que definem uma ordem por uma ou mais sequências de assinatura, hibridizando fragmentos marcados a um arranjo de ácidos nucleicos e determinando a identidade de assinaturas de sequência e a ordem de um ou mais éxons.

[0010] A Patente U.S. No. 6.607.878 descreve uma composição de uma mistura de espécies diferentes de moléculas, onde pelo menos algumas moléculas são derivadas de um processo de síntese combinatória e algumas espécies são ligadas a uma marcação de elementos de codificação de informação ligados, e onde a propriedade física da combinação de elementos identifica as espécies da molécula sem determinar a propriedade física de cada elemento da marcação e, ainda, onde as marcações não consistem somente de nucleotídeos.

[0011] Clelland et al. (Nature, volume 399, páginas 533-534 (1999)) descrevem mensagens secretas ocultas escondidas em micropontos de DNA onde as mensagens são flanqueadas por sequências iniciadoras de PCR.

[0012] Heider e Barnekow (BMC Molec. Biol., 9: 40 (2008) e Heider e Barnekow (BMC Bioinformatics, 8:176 (2007)) cada um deles descreve a aplicação de linhas d’água baseadas em sequências de DNA usando um código binário de números 0 e 1.

[0013] Leier et al. (Biosystems, 57: 13-22 (2000) descrevem duas técnicas criptográficas diferentes, cada uma das quais requer códigos binários de números 0 e 1.

[0014] Arita e Ohashi (Biotechnol. Prog. 20: 1605-1607 (2004)) descrevem um esquema de codificação em que a sequência real do gene que codifica a mensagem é bastante dependente do código genético do organismo; a decodificação correta de uma sequência introduzida requer conhecimento superficial da sequência selvagem de um gene de veículo; e um mínimo de 18 nucleotídeos deve codificar uma única letra.

[0015] Infelizmente, os esquemas de codificação convencionais sofrem de duas desvantagens sérias, correm o risco de causar um impacto biológico negativo em uma célula que abriga sequências de ácidos nucleicos feitas usando tais esquemas de codificação, ou confiam na redundância do códon em um gene-veículo de função conhecida. Os métodos usando um gene do veículo são caracterizados pela falta de eficiência extrema da informação codificada e são ainda limitados pela sua exigência de codificar uma mensagem dentro de um gene veículo de sequência conhecida e comprimento limitado. Isto impõe um limite ao comprimento da mensagem que pode ser codificada que é ainda exacerbado pela falta de eficiência do esquema de codificação.

SUMÁRIO DA INVENÇÃO

[0016] O presente pedido de patente é dirigido à geração de um esquema de codificação configurado para traduzir símbolos legíveis humanos para identificadores de códon (isto é, as sequências discretas preferencialmente dos três elementos, onde cada elemento contém uma de quatro bases de nucleotídeos selecionadas). Desta maneira, as sequências de símbolos legíveis humanos podem ser usadas para transmitir mensagens não genéticas (por exemplo, mensagens de texto, marcas comerciais, avisos de direitos autorais, informação sobre identificação única, etc.) codificando a mensagem em sequências de identificadores de códon. Estas sequências de identificadores de códon então podem ser usadas para gerar sequências de ácidos nucleicos sintéticas que são introduzidas em uma célula viva ou organismo como DNA livre ou incorporadas em outros vários tipos de materiais de ácidos nucleicos celulares (por exemplo, plasmídeos, cromossomos, DNA mitocondrial, genomas, etc.). O conjunto resultante de códons ou identificadores de códon efetivamente serve como uma fonte de memória das sequências codificadas de símbolos legíveis humanos.

[0017] Diferentemente de métodos convencionais de codificar tais sequências de ácidos nucleicos, as modalidades descritas neste pedido utilizam um esquema de codificação com uma probabilidade notavelmente baixa de impacto biológico. Isto é, uma baixa probabilidade existe que uma sequência sintética de ácidos nucleicos criada usando métodos de invenção e esquemas será transcrita ou traduzida por processos biológicos internos de uma célula. Como resultado, a mensagem não genética criada usando métodos de invenção e esquemas pode ser transportada inocuamente e replicada por células compreendendo a mensagem, mas pode ser decifrada para fornecer os símbolos legíveis humanos, isto é, a mensagem transportada nestas. Conhecimento avançado da estrutura de um gene e/ou função não é necessário a fim de decifrar uma sequência dada de nucleotídeos. Isto muito simplifica o processo de decodificação, permitindo um recipiente de mensagem decifrar uma ou mais mensagens usando um mapa de símbolo legível humano simples.

[0018] Também, uma vez que o esquema de codificação é configurado para traduzir cada símbolo legível humano de uma mensagem de entrada em um identificador de códon de três nucleotídeos, os ganhos de eficiência são realizados sobre muitos sistemas de codificação convencionais. Por isso, significativamente menos espaço de armazenamento deve armazenar uma mensagem codificada, tanto dentro de uma célula ou uma célula dentro de um organismo, como dentro do próprio transcodificador ou a memória do próprio transcodificador.

[0019] Em um primeiro aspecto, é fornecida neste pedido uma sequência sintética de ácidos nucleicos, em que a sequência sintética de ácidos nucleicos compreende um ou mais identificadores de códon correspondente ao grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, tal como uma linha d’água, e ainda em que esta sequência não seja geneticamente viável e não tenha um impacto biológico em uma célula ou vírus recombinantes ou sintéticos compreendendo esta sequência.

[0020] Em modalidades preferenciais, esta sequência não pode ser biologicamente traduzida para uma sequência de aminoácidos funcional pela célula ou vírus recombinantes ou sintéticos e/ou esta sequência, e/ou um ou mais identificadores de códon não correspondem à sequência de um gene que ocorre naturalmente ou outra sequência biologicamente ativa. Preferencialmente, um ou mais identificadores de códon correspondem a uma ou mais letras, um ou mais números, um ou mais espaços, uma ou mais marcas de pontuação, um ou mais símbolos matemáticos, etc., um ou mais caracteres tipográficos, uma ou mais novas linhagens, ou uma combinação de qualquer um dos mesmos e são preferencialmente são compostos de três nucleotídeos. Em uma modalidade, o conjunto de símbolos legíveis humanos compreende uma linha d’água. As linhas d’água podem ser usadas para transmitir uma mensagem não genética e podem incluir, mas não são limitadas a, um aviso de direitos autorais, uma marca comercial, um identificador de companhia, um nome, uma frase, uma sentença, uma cotação, informação genética, informação sobre identificação única, dados, ou uma combinação de qualquer uma das mesmas.

[0021] A sequência sintética de ácidos nucleicos pode compreender ainda um dos 6 códons de parada da região de leitura contendo a sequência 5’ a um primeiro identificador de códon na sequência, um dos 6 códons de parada da região de leitura contendo a sequência 3’ ao identificador do último códon na sequência, ou ambos.

[0022] Em outro aspecto, é fornecido neste pedido um organismo recombinante ou sintético que contém uma sequência sintética de ácidos nucleicos como descrito neste pedido.

[0023] Em várias modalidades, o organismo recombinante ou sintético pode ser uma célula procariótica, uma célula eucariótica, uma célula de arquea ou um vírus. Em certas modalidades preferenciais, a célula recombinante pode ser uma célula bacteriana, uma célula de levedura, uma célula fúngica, uma célula algácea, uma célula animal ou uma célula vegetal. Em certas modalidades, o conjunto de símbolos legíveis humanos pode ser uma linha d’água que permite a autenticação ou a identificação da célula ou vírus recombinantes ou sintéticos compreendendo a sequência sintética de ácidos nucleicos contendo a linha d’água, ou de um organismo compreendendo tal célula ou vírus recombinantes ou sintéticos.

[0024] Em outro aspecto, é fornecido neste pedido um método de criação de um organismo recombinante ou sintético compreendendo uma linha d’água que transmite uma mensagem não genética, compreendendo: geração de uma sequência de ácidos nucleicos compreendendo uma sequência de identificadores de códon selecionados baseados no texto da linha d’água tal que um mapeamento de símbolos de identificadores de códon de mapas correspondentes ao códon(s) de partida para símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e identificadores de códon de mapas correspondente ao códon(s) de parada a símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água; síntese desta sequência de ácidos nucleicos; e introdução desta sequência de ácidos nucleicos em um organismo recombinante ou sintético.

[0025] Alternativamente, é fornecido neste pedido um método de criação de um organismo recombinante ou sintético compreendendo uma linha d’água que transmite uma mensagem não genética, compreendendo: geração de uma sequência de ácidos nucleicos compreendendo um ou mais identificadores de códon do grupo dos símbolos legíveis humanos de uma linguagem de referência compreendendo a dita linha d’água, em que um mapeamento de símbolo é configurado para mapear um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e em que o mapeamento de símbolo é ainda configurado para mapear um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada; síntese desta sequência de ácidos nucleicos; e introdução desta sequência de ácidos nucleicos em um organismo recombinante ou sintético.

[0026] Em modalidades preferenciais, o mapeamento de símbolo não mapeia um identificador de códon de três nucleotídeos a uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele códon de três nucleotídeos no código genético padrão. Em certas modalidades, a etapa de geração é assistida por computador e compreende a identificação do conjunto de símbolos legíveis humanos em um módulo de memória e para cada símbolo legível humano no conjunto, usando um processador para ler um mapeamento de símbolo para determinar um identificador de códon que mapeia para o respectivo símbolo legível humano.

[0027] Uma célula recombinante, uma célula sintética, um vírus recombinante, um vírus sintético, ou um organismo multicelular recombinante ou sintético compreendendo tal mensagem não genética podem ser usados com qualquer objetivo adequado como é conhecido na técnica, por exemplo, com relação a uma planta ou cultura recombinante (por exemplo, milho, uvas, etc.); um animal modificado (por exemplo, um roedor, primata, aves domésticas, grande animal veterinário geneticamente modificados, etc.); um embrião recombinante; um organismo, célula, linhagem celular ou cepa geneticamente modificados; um organismo, célula, linhagem celular ou cepa recombinantes; um organismo, célula, linhagem celular ou cepa sintéticos; um vírus ou cepa recombinantes; um vírus ou cepa sintéticos; e similares.

[0028] Em outro aspecto, é fornecido neste pedido um método de determinação da presença de um organismo recombinante ou sintético, que pode ser uma célula única, um organismo multicelular ou um vírus, compreendendo uma linha d’água de referência que transmite uma mensagem não genética em uma dita amostra, o método compreendendo: sequenciamento de material de ácido nucleico obtido de um ou mais organismos na dita amostra; transformação da sequência de ácidos nucleicos ao grupo de identificadores de códon, em que cada identificador de códon consiste em três nucleotídeos da dita sequência, e a transformação é realizada nas três regiões de leitura; determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre um mapeamento de símbolos aqueles identificadores de códons de mapa correspondentes ao códon(s) de partida a símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e que mapeia identificadores de códon correspondentes ao códon(s) de parada a símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água; e comparação da sequência de símbolo legível humano das três regiões de leitura à linha d’água de referência no dito organismo recombinante ou sintético, pelo qual a presença da linha d’água de referência em qualquer região de leitura do material de ácido nucleico indica a presença do organismo recombinante ou sintético na amostra.

[0029] Alternativamente, é fornecido neste pedido um método de determinação da presença de um organismo recombinante ou sintético, que pode ser uma célula única, um organismo multicelular ou um vírus, compreendendo uma linha d’água de referência que transmite uma mensagem não genética em uma dita amostra, o método compreendendo: sequenciamento de material de ácido nucleico obtido de um ou mais organismos na dita amostra; transformação da sequência de ácidos nucleicos ao grupo de identificadores de códon, em que cada identificador de códon consiste em três nucleotídeos da dita sequência, e a transformação é realizada nas três regiões de leitura; determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre um mapeamento de símbolos que é configurado para mapear um códon de partida a um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos e é ainda configurado para mapear um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos; e comparação da sequência de símbolo legível humano das três regiões de leitura à linha d’água de referência no dito organismo recombinante ou sintético, pelo qual a presença da linha d’água de referência em qualquer região de leitura do material de ácido nucleico indica a presença do organismo recombinante ou sintético na amostra.

[0030] Uma amostra pode ser qualquer amostra que pode conter uma célula, múltiplas células, um vírus, ou material de ácido nucleico de uma célula, células ou vírus, incluindo sem limitação, amostras ambientais, amostras de pacientes, amostras veterinárias, amostras obtidas de humanos, animais, plantas, vírus, bactérias, arquea, levedura, e qualquer fração ou derivados de qualquer tal amostra. As amostras também podem ser amostras de laboratório (por exemplo, laboratórios com ou sem fins lucrativos) e amostras comerciais.

[0031] Em outro aspecto, é fornecido neste pedido um aparelho para transformar uma sequência de identificadores de códon em uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o aparelho compreendendo: um processador adaptado para realizar instruções; e um módulo de armazenamento, em que o módulo de armazenamento compreende uma estrutura de dados para mapear de identificadores de códon em símbolos legíveis humanos, e grupo de instruções que, quando realizadas pelo processador, geram um símbolo legível humano de cada identificador de códon lido em uma sequência de identificadores de códon, em que o símbolo legível humano gerado é baseado pelo menos em parte sobre a estrutura de dados; em que a estrutura de dados é configurada para mapear um códon de partida a um símbolo legível humano com uma frequência de ocorrência dentro de uma linguagem de referência que é menos que um primeiro limiar predeterminado, e em que a estrutura de dados é ainda configurada para mapear uma pluralidade de códons de parada a símbolos legíveis humanos com frequências de ocorrência dentro da linguagem de referência que são maiores do que um segundo limiar predeterminado.

[0032] Em outra modalidade, a estrutura de dados mapeia um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos, e ainda mapeia um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos.

[0033] Em uma modalidade preferencial, a estrutura de dados não mapeia um identificador de códon para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele identificador de códon no código genético padrão. Em outra modalidade, a sequência de identificadores de códon compreende pelo menos um de um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, e/ou um dos 6 códons de parada da região de leitura contendo a sequência 3’ ao identificador do último códon na sequência.

[0034] Em outro aspecto, é fornecido neste pedido um meio legível por computador para uso em uma máquina de decodificação, meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de decodificação, executam um processo compreendendo: identificação de uma sequência de identificadores de códon nas três regiões de leitura; e geração de um símbolo legível humano de cada identificador de códon na sequência; em que o símbolo legível humano gerado é baseado pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida a um símbolo legível humano que tem uma frequência de ocorrência dentro de uma linguagem de referência que é menor do que outro símbolo legível humano de um primeiro conjunto de símbolos legíveis humanos, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um símbolo legível humano que tem uma frequência de ocorrência dentro da linguagem de referência que é maior do que outro símbolo legível humano do primeiro conjunto de símbolos legíveis humanos.

[0035] Também é fornecido neste pedido um meio legível por computador para uso em uma máquina de decodificação, meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de decodificação, executam um processo compreendendo: identificação de uma sequência de identificadores de códon nas três regiões de leitura; e geração de um símbolo legível humano de cada identificador de códon na sequência de identificadores de códon, em que o símbolo legível humano gerado é baseado em uma função de mapeamento que mapeia identificadores de códon correspondentes ao códon(s) de partida para símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e que mapeiam identificadores de códon correspondente ao códon(s) de parada para símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água (que transmite uma mensagem não genética).

[0036] Em outro aspecto, é fornecido neste pedido um método de transformar um primeiro sinal adaptado para indicar uma sequência de identificadores de códon em um segundo sinal adaptado para indicar uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o método compreendendo: recepção do primeiro sinal; determinar um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida para um primeiro símbolo legível humano, em que o primeiro símbolo legível humano tem uma frequência mais baixa de ocorrência em uma sequência de símbolos do que um ou mais símbolos legíveis humanos do grupo de símbolos legíveis humanos que contêm o primeiro símbolo legível humano, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um segundo símbolo legível humano, em que o segundo símbolo legível humano está contido dentro do conjunto de símbolos legíveis humanos, e em que o segundo símbolo legível humano tem uma frequência mais alta de ocorrência na sequência de símbolos do que um ou mais símbolos legíveis humanos do conjunto de símbolos legíveis humanos; e transformação do primeiro sinal no segundo sinal baseado em um ou mais símbolos legíveis humanos determinados.

[0037] Também é fornecido neste pedido um método de transformação de um primeiro sinal compreendendo uma sequência de identificadores de códon em um segundo sinal para indicar uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, o método compreendendo: a identificação do primeiro sinal que indica a sequência de identificadores de códon; determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação de um símbolo legível humano é baseada pelo menos em parte sobre uma função de mapeamento que mapeia um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos, e ainda mapeia um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos; e transformação do primeiro sinal no segundo sinal, em que o segundo sinal indica a sequência de símbolos legíveis humanos.

[0038] Em outro aspecto, é fornecido neste pedido um aparelho para converter uma sequência de símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética em uma sequência de identificadores de códon, o aparelho compreendendo: um processador configurado para realizar instruções; um módulo de memória acoplado ao processador e compreendendo instruções que, quando realizadas pelo processador, determinam um identificador de códon de cada símbolo legível humano contido dentro da sequência de símbolos legíveis humanos, em que cada identificador de códon é determinado para ler um mapa de símbolos; e um módulo de dados conectado ao módulo de memória, em que o módulo de dados compreende o mapa de símbolos, em que o mapa de símbolos é configurado para mapear um ou mais códons de partida para respectivos símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa de ocorrência na linguagem de referência, e em que o mapa de símbolos é ainda configurado para mapear um ou mais códons de parada para respectivos símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem de referência.

[0039] Também é fornecido neste pedido um aparelho para converter uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética em uma sequência de identificadores de códon, o aparelho compreendendo: um processador que executa uma sequência de instruções; um módulo de memória acoplado ao processador e compreensão de instruções para determinar um identificador de códon de cada símbolo legível humano contido dentro da sequência de símbolos legíveis humanos, em que cada identificador de códon é determinado para ler um mapa de símbolos; e um módulo de dados acoplado ao módulo de memória, em que o módulo de dados compreende o mapa de símbolos, mapa de símbolos mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e o mapa de símbolos mapeia ainda um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.

[0040] Em outro aspecto, é fornecido neste pedido um meio legível por computador para uso em uma máquina de codificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de codificação, executam um processo compreendendo: recepção de uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética; e geração de um identificador de códon de cada símbolo legível humano contido dentro da sequência, em que o símbolo legível humano gerado é baseado pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida para um primeiro símbolo legível humano, em que o primeiro símbolo legível humano tem uma frequência mais baixa de ocorrência em uma linguagem de referência do que um ou mais símbolos legíveis humanos do grupo de símbolos legíveis humanos que contêm o primeiro símbolo legível humano, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um segundo símbolo legível humano, em que o segundo símbolo legível humano está contido dentro do conjunto de símbolos legíveis humanos, e em que o segundo símbolo legível humano tem uma frequência mais alta de ocorrência na linguagem de referência do que um ou mais símbolos legíveis humanos do conjunto de símbolos legíveis humanos.

[0041] Também é fornecido neste pedido um meio legível por computador para uso em uma máquina de codificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de codificação, executam um processo compreendendo: geração de um identificador de códon de cada símbolo legível humano no grupo de símbolos legíveis humanos que transmite uma mensagem não genética, em que o símbolo legível humano gerado é baseado em uma função de mapeamento que mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e que ainda mapeia um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.

[0042] Em outro aspecto, é fornecido neste pedido um método de geração de uma sequência de identificadores de códon de uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o método compreendendo: recepção da sequência de símbolos legíveis humanos em um módulo de memória; carregamento de um mapa de símbolos dentro do módulo de memória, em que o mapa de símbolos é configurado para determinar um identificador de códon que mapeia a cada símbolo legível humano dentro da sequência, em que o mapa de símbolos é ainda configurado para mapear um símbolo legível humano com uma frequência de ocorrência que é menos que um primeiro limiar predeterminado dentro de uma linguagem de referência a um códon de partida, e em que o mapa de símbolos é ainda configurado para mapear um símbolo legível humano com uma frequência de ocorrência que é maior do que um segundo limiar predeterminado dentro da linguagem de referência a um códon de parada; e liberação de uma sequência de identificadores de códon correspondente a cada símbolo legível humano dentro da sequência.

[0043] Também é fornecido neste pedido um método de geração de uma sequência de identificadores de códon de uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, o método compreendendo: identificação da sequência de símbolos legíveis humanos em um módulo de memória; e uso de um processador para ler um mapeamento de símbolo de cada símbolo legível humano na sequência e determinar um identificador de códon que mapeia o respectivo símbolo legível humano; em que o mapeamento de símbolo mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e que ainda mapeia um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.

[0044] Vários outros aspectos e as modalidades ficarão mais evidentes com referência às figuras acompanhantes e descrição detalhada fornecida abaixo.

Breve Descrição dos Desenhos

[0045] A Figura 1 é um diagrama de sequência funcional que ilustra um processo exemplar de transcodificação de uma sequência de símbolo legível humano de entrada e uma sequência de ácidos nucleicos codificada.

[0046] A figura 2 é um diagrama de bloco de um transcodificador exemplar configurado para codificar uma sequência de símbolo legível humano de entrada em uma sequência de códon com uma baixa probabilidade de impacto biológico.

[0047] A figura 3 é uma captura de tela de um mapa de símbolo legível humano exemplar que pode ser usado para gerar uma sequência de ácidos nucleicos codificada com uma baixa probabilidade de impacto biológico.

[0048] A figura 4 é um diagrama de fluxo de um método exemplar de criação de um mapa de símbolo legível humano que pode ser usado para gerar uma sequência de ácidos nucleicos com uma baixa probabilidade de impacto biológico.

[0049] A figura 5 é um diagrama de fluxo de um método exemplar de codificação de uma sequência de símbolo legível humano de entrada em uma sequência de códon com uma baixa probabilidade de impacto biológico.

[0050] A figura 6 é um diagrama de fluxo de um método exemplar de deciframento de uma sequência de ácidos nucleicos com uma baixa probabilidade de impacto biológico em uma sequência de símbolo legível humano.

[0051] A figura 7 é um diagrama de fluxo de um método exemplar de codificação de uma linha d’água em uma sequência sintética de ácidos nucleicos com uma baixa probabilidade de impacto biológico.

[0052] As figuras 8A-8E fornecem tabelas de códons exemplares baseadas na língua inglesa. A figura 8A representa um código exemplar no formato "Alt"; a Figura 8B representa um código exemplar no formato "Ctrl"; a Figura 8C representa um código exemplar no formato "Default"; a Figura 8a representa um código exemplar no formato "Shift"; e a Figura 8E representa um código exemplar.

DESCRIÇÃO DETALHADA

[0053] O presente pedido de patente fornece um sistema para codificar o texto básico em uma sequência sintética de ácidos nucleicos de identificadores de códon e, além disso, para decifrar o texto do mesmo.

[0054] As tentativas prévias para criar tal sistema utilizaram tabelas de códon padrão de codificação de aminoácido, que resultam em efeitos biológicos não desejados do texto codificado do ácido nucleico. O presente sistema descrito neste pedido é especificamente projetado para assegurar que o texto codificado não corresponde aos códons usados ou de outra maneira biologicamente ativo em um organismo hospedeiro. Uma modalidade codifica todas as letras no alfabeto inglês americano, bem como todos os 10 numerais, símbolos matemáticos, caracteres tipográficos e marcas de pontuação comuns. Os esquemas de uso de códon descritos neste pedido são projetados para o uso em uma variedade de organismos hospedeiros, e podem ser especificamente personalizados para a otimização em um hospedeiro particular. Na seguinte descrição, a referência é feita às figuras acompanhantes nas quais são mostradas por meio da ilustração as modalidades específicas que podem ser praticadas. Deve ser entendido que outras modalidades podem ser usadas e modificações estruturais podem ser feitas sem se afastar do escopo do presente pedido de patente. Os elementos das modalidades descritas neste pedido podem ser combinados para criar modalidades adicionais não especificamente descritas que estão também dentro do escopo da invenção. Os títulos dentro da aplicação são somente para a conveniência do leitor, e não limitam de nenhum modo o escopo da invenção ou suas modalidades.

[0055] Todas as publicações e pedidos de patentes mencionados neste relatório descritivo são neste pedido incorporados por referência na mesma extensão como se cada publicação individual ou pedido de patente fossem especificamente e individualmente indicados para serem incorporados por referência.

[0056] A menos que definido de outra maneira, todos os termos técnicos e científicos usados neste pedido têm o mesmo significado que comumente entendido por um versado ordinário na técnica à qual esta invenção está relacionada. Os seguintes termos são definidos para os fins da invenção como descrito neste pedido.

[0057] Como usado neste pedido, os termos "pedido de patente", "programa de computador", "programa", e "software" incluem sem limitação qualquer sequência de etapas reconhecíveis por humanos ou máquinas que são adaptadas para ser processadas por um computador. Tal pode ser dado em qualquer linguagem ou ambiente de programação incluindo, sem limitação, C/C ++, Fortran, COBOL, PASCAL, Perl, Prolog, Python, MATLAB, linguagem assembly, linguagens de script, linguagens de marcação (por exemplo, HTML, SGML, XML, VoXML), linguagens funcionais (por exemplo, APL, Erlang, Haskell, Lisp, ML, F# e Scheme), bem como ambientes orientados ao objeto, tais como Common Object Request Broker Architecture (CORBA) e Java™ (incluindo J2ME, Java Beans, etc.).

[0058] Como usado neste pedido, o termo "monitor" inclui qualquer tipo de dispositivo ou meio adaptado para exibir a informação, incluindo sem limitação monitores de tubo de raios catódicos (CRTs), monitores de cristal líquido (LCDs), monitores de transistor de filme delgado (TFTs), monitores de processador de luz digitais (DLPs), monitores de plasma, arranjos de diodos de emissão de luz (LEDs) ou de diodo, dispositivos incandescentes e dispositivos fluorescentes. Os dispositivos monitores também incluem dispositivos menos dinâmicos, tais como impressoras, dispositivos de tinta eletrônica, e outras estruturas similares.

[0059] Como usado neste pedido, os termos "local" e "remoto" referem-se geralmente a dispositivos, entidades, ou usuários que são reparados por conjuntos separados de processos. Estes termos são destinados a serem relativos, e não carregar nenhuma referência absoluta ou conotação à posição física dos processos realizados do dispositivo servido, entidades, ou usuários.

[0060] Como usado neste pedido, o termo "memória" inclui qualquer tipo do circuito integrado ou outro dispositivo de armazenamento adaptado a armazenar dados digitais incluindo, sem limitação, ROM, PROM, EEPROM, DRAM, SDRAM, DDR/2 SDRAM, EDO/FPMS, RLDRAM, SRAM, memória "flash" (por exemplo, NAND/NOR), e PSRAM.

[0061] Como usado neste pedido, o termo "módulo" se refere a qualquer tipo de programa, firmware, maquinário, ou combinação dos mesmos que é projetado para realizar uma função desejada.

[0062] Como usado neste pedido, os termos "processador", "microprocessador", e "processador digital" incluem todos os tipos de dispositivos de processamento digitais incluindo, sem limitação, processadores de sinal digital (DSPs), computadores de conjunto de instruções reduzido (RISC), processadores de uso geral (CISC), microprocessadores, arranjos de portas (por exemplo, FPGAs), dispositivos lógicos programáveis (PLDs), estrutura computacional reconfigurável (RCFs), processadores de arranjos, e circuitos integrados específicos para aplicação (ASICs). Tais processadores podem ser contidos em um molde de IC unitário simples ou distribuído através de múltiplos componentes.

[0063] Como usado neste pedido, no contexto de introdução de ácidos nucleicos em células ou organismos, os termos "introdução", "transfecção", "transformação" ou "transdução", se refere à introdução de uma ou mais sequências exógenas de ácidos nucleicos ou de polinucleotídeos em uma célula ou organismo hospedeiro usando um ou mais métodos físicos ou químicos como são conhecidos na técnica. Muitas técnicas de transfecção são conhecidas por aqueles versados ordinários na técnica incluindo, mas não limitadas a, coprecipitação de DNA em fosfato de cálcio (ver Methods in Molecular Biology, Vol. 7, Gene Transfer and Expression Protocols, Ed. E. J. Murray, Humana Press (1991)); DEAE-dextrana; eletroporação; transfecção mediada por lipossoma catiônico; bombardeio de micropartícula facilitado por partícula de tungstênio (Johnston, S. A., Nature 346: 776-777 (1990)); e coprecipitação de DNA em fosfato de estrôncio (Brash D. E. et al., Molec. Cell. Biol. 7: 2031-2034 (1987)).

[0064] Como usado neste pedido, no contexto geral de transformação de uma sequência, conjunto ou sinal (tal como uma sequência de resíduos de ácidos nucleicos ou identificadores de códon), o termo "transformar" se refere simplesmente a modificação ou conversão de uma primeira sequência, conjunto, ou sinal em uma segunda sequência, conjunto, ou sinal.

[0065] Como usado neste pedido, "isolamento ou extração de DNA" se refere a qualquer procedimento usado para coletar DNA de uma amostra para análise subsequente. Por exemplo, há três etapas básicas e uma etapa opcional em uma extração de DNA: (i) quebra das células abertas, tipicamente referida como disrupção celular ou lise celular, para expor DNA dentro (comumente alcançado por moagem física ou sonicação da amostra, ou tratamento químico da amostra); (ii) remoção dos lipídios da membrana adicionando um detergente; (iii) proteínas de remoção adicionando uma protease (opcional); e (iv) precipitação de DNA com um álcool (etanol ou isopropanol normalmente gelados). Uma vez que DNA é insolúvel nestes álcoois, será agregado, resultando em um precipitado na centrifugação; esta etapa também remove o sal solúvel em álcool. Refinamentos da técnica incluem a adição de um agente quelante para isolar cátions divalentes, tais como Mg2+ e Ca2+; isto para as enzimas DNase de degradar o DNA. Proteínas celulares e de histona ligadas ao DNA podem ser removidas pela adição de uma protease ou por ter precipitado as proteínas com acetato de amônio ou sódio, ou as extraído com uma mistura de fenol-clorofórmio antes da precipitação de DNA. Se desejado, o DNA pode ser redissolvido em um tampão levemente alcalino ou em água ultrapura.

[0066] Como usado neste pedido, "isolamento ou extração de RNA" se refere a qualquer procedimento usado para coletar RNA de uma amostra para análise subsequente. Vários métodos podem ser usados para isolar RNA de amostras; o mais comum destes é a extração tiocianato de guanidínio-fenol-clorofórmio.

[0067] Como usado neste pedido, o termo "sequenciamento de DNA" se refere a qualquer método de sequenciamento para determinar a ordem das bases nucleotídicas (adenina, guanina, citosina, e timina) em uma molécula de DNA. Os métodos incluem, mas não são limitados a, sequenciamento de Maxam-Gilbert, métodos de terminação de cadeia, sequenciamento terminador-corante, sequenciamento de DNA automatizado, amplificação de clonagem in vitro, sequenciamento paralelizado por síntese, sequenciamento por ligação, sequenciamento microfluídico de Sanger e sequenciamento por hibridização.

[0068] Como usado neste pedido, "síntese de oligonucleotídeo" se refere à síntese química de fragmentos relativamente curtos de ácidos nucleicos ou identificadores de códon com estrutura química definida (sequência). A técnica é útil porque fornece um acesso rápido e barato a oligonucleotídeos feitos adaptados de uma sequência desejada. Ao passo que as enzimas sintetizam DNA e RNA em uma direção 5’ a 3’, síntese química de oligonucleotídeo é realizada ao contrário, direção 3’ a 5’. Atualmente, o processo é implementado como síntese em fase sólida usando método de fosforamidita e A, C, G, T (somente 2’- desóxi), e fosforamiditas de nucleosídeo U (somente ribo) ou fosforamiditas de 2’-desoxinucleosídeo como blocos de construção. Para obter o oligonucleotídeo desejado, os blocos de construção são sequencialmente acoplados à cadeia de oligonucleotídeo crescente na ordem necessária pela sequência do produto.

[0069] Como usado neste pedido, "síntese de ácidos nucleicos" se refere ao processo de sintetizar uma sequência artificialmente projetada (por exemplo, um gene ou uma sequência de ácidos nucleicos que pode conter uma linha d’água) em uma sequência de ácidos nucleicos física.

[0070] Os termos "células", "culturas de célula", "linhagem celular", "células hospedeiras recombinantes", "células recipiente" e "células hospedeiras" muitas vezes são usados intercambiavelmente e serão claros a partir do contexto no qual são usados. Estes termos incluem as células objeto primárias e qualquer progênie das mesmas, sem respeito ao número de transferências. Deve ser entendido que nem toda progênie é exatamente idêntica à célula parental (devido a mutações deliberadas ou inadvertidas ou diferenças no ambiente); entretanto, tal progênie alterada está incluída nestes termos, contanto que a progênie conserve a mesma funcionalidade que aquela da célula originalmente transformada. Por exemplo, embora não limitado a, tal característica pudesse ser a capacidade de incluir uma mensagem não genética, tal como uma linha d’água. A linhagem celular pode ser qualquer uma das conhecidos na técnica ou descritas neste pedido. Um "clone" é uma população de células derivadas de uma célula única ou ancestral comum por mitose.

[0071] Como usado neste pedido, o termo "nucleotídeo" se refere a uma unidade monomérica de um polinucleotídeo que consiste em uma base heterocíclica, um açúcar, e um ou mais grupos fosfato. As bases de ocorrência natural, (guanina, (G), adenina, (A), citosina, (C), timina, (T), e uracila (U)) são derivados de purina ou pirimidina, embora deva ser entendido que bases análogas de ocorrência natural e não natural também estão incluídas. O açúcar que ocorre naturalmente é pentose (açúcar de cinco carbonos) desoxirribose (que forma DNA) ou ribose (que forma RNA), embora deva ser entendido que análogos de açúcar de ocorrência natural e não natural também estão incluídos. Os ácidos nucleicos são ligados através de ligações fosfato para formar ácidos nucleicos, ou polinucleotídeos, embora muitas outras ligações sejam conhecidas na técnica (tal como, embora não limitadas a fosforotioatos, boranofosfatos e similares).

[0072] Como usado neste pedido, os termos "ácido nucleico", "nucleotídeo" e "polinucleotídeo" referem-se a uma forma polimérica de nucleotídeos, ribonucleotídeos (RNA) ou desoxirribonucleotídeos (DNA) de qualquer comprimento. Estes termos referem-se à estrutura primária das moléculas e, dessa forma, incluem DNA de fita dupla e simples, e RNA de fita dupla e simples. Estes termos incluem, como equivalentes, ácidos nucleicos naturais ou sintéticos, análogos de RNA ou de DNA feitos de análogos de nucleotídeo e polinucleotídeos modificados tais como, embora não limitados a, polinucleotídeos metilados e/ou terminados. As sequências de ácidos nucleicos podem ser mencionadas como tendo uma extremidade 5’ e uma extremidade 3’ como são conhecidas na técnica, que podem ser usadas como pontos de referência de outras sequências, por exemplo, como sendo a 5’ (também a montante) ou 3’ (também a jusante) a um identificador de códon em uma sequência.

[0073] Como usado neste pedido, uma "molécula de DNA" se refere à forma polimérica de desoxirribonucleotídeos (adenina, guanina, timina, e citosina) na sua forma de fita única ou uma hélice de fita dupla. Este termo se refere somente à estrutura primária e secundária da molécula, e não a limita a nenhuma forma terciária particular. Dessa forma, este termo inclui DNA de fita dupla encontrado, inter alia, em moléculas de DNA lineares (por exemplo, fragmentos de restrição), vírus, plasmídeos, e cromossomos. Na discussão da estrutura de moléculas de DNA particulares de fita dupla, as sequências podem ser descritas neste pedido de acordo com a convenção normal de fornecer somente a sequência na direção 5’ a 3’ ao longo da fita não transcrita de DNA (isto é, a fita que tem uma sequência homóloga ao mRNA). Uma "molécula de RNA" se refere à forma polimérica de ribonucleotídeos (adenina, guanina, uracila, e citosina), que é tipicamente, mas não sempre, de fita simples.

[0074] Embora as modalidades possam ser descritas e ilustradas em termos de sequências de ácido desoxirribonucleico (DNA) e as bases nucleotídicas correspondentes, deve ser entendido que as modalidades não são tão limitadas, mas são adicionalmente aplicáveis a outros tipos de ácidos nucleicos e bases nucleotídicas (incluindo, por exemplo, ácido ribonucleico (RNA), tais como ácido ribonucleico mensageiro (mRNA)). Além disso, embora as modalidades possam ser descritas e ilustradas neste pedido em termos de um transcodificador único configurado tanto para codificar como decifrar uma sequência de símbolo legível humano de entrada, deve ser entendido que a codificação associada e a decodificação lógica podem ser separadas e/ou distribuídas entre múltiplos sistemas, dispositivos, e/ou redes de computadores.

[0075] Como usado neste pedido, uma "sequência de codificação" ou "região de codificação" de ácidos nucleicos são uma região de uma sequência de ácidos nucleicos que pode ser transcrita e/ou traduzida para um polipeptídeo quando colocado no controle de sequências de controle de expressão apropriadas e na presença de maquinário celular ou enzimas apropriados. Em outras palavras, uma sequência de codificação fornece um tipo da mensagem genética à célula que contém a sequência. Os limites da sequência de codificação ("região de leitura aberta" ou "ORF") são determinados por um códon de partida no terminal 5’ (codificando o terminal amino de um peptídeo ou polipeptídeo) e um códon de parada de tradução no terminal 3’ (codificando o terminal carboxila de um peptídeo ou polipeptídeo). Por exemplo, na maioria de exemplos, ATG e AUG denotam sequências de DNA e RNA respectivamente que são o códon de partida ou códon de iniciação que codifica o aminoácido metionina (Met) em eucariotos e um Met modificado (fMet) em procariotos, embora os códons de partida alternativos, principalmente GUG e UUG, possam ser usados em procariotos. No código genético padrão, há três códons de parada: UAG (em RNA) / TAG (em DNA) ("âmbar"), UAA / TAA ("ocre"), e UGA / TGA ("opala" ou "carmim"); embora várias variações a este na maioria dos conjuntos sejam conhecidas. Uma sequência de codificação pode incluir, mas não é limitada a, sequências procarióticas, cDNA de mRNA eucariótico, sequências de DNA genômicas de DNA eucariótico (por exemplo, mamífero), e sequências de DNA sintéticas. Um sinal de poliadenilação e a sequência de terminação de transcrição são, normalmente, localizados 3’ à sequência de codificação. Como usado neste pedido, o termo "sequência não codificante" ou "região não codificante" se refere a regiões de uma sequência de ácidos nucleicos que não são transcritas e/ou traduzidas para aminoácidos (por exemplo, regiões não traduzidas, sequências sinal, etc.).

[0076] Como usado neste pedido o termo "região de leitura" se refere a uma das seis regiões de leitura possíveis, três em cada direção (5’ e 3’), da molécula de ácidos nucleicos. A região de leitura que é usada determina que códons são usados para codificar aminoácidos dentro da sequência de codificação de uma molécula de DNA. Decifrando sequências em métodos e aparelho descrito neste pedido, as três regiões de leitura na direção 5’ são tipicamente usadas para assegurar a detecção de qualquer mensagem não genética codificada em uma sequência de ácidos nucleicos. Como usado neste pedido, um dos seis códon de parada ou uma das 6 regiões de leitura contendo a sequência se refere a uma sequência que provocará obrigatoriamente a terminação da transcrição e tradução prosseguindo na direção 5’ ou 3’, em alguma das três respectivas regiões de leitura (por exemplo, TTAACTAGCTAA; SEQ ID NO: 1).

[0077] Usando a sequência exemplar, as três regiões de leitura 5’ seriam: TTA ACT AGC TAA (SEQ ID NO: 1), com o códon de parada no quarto tripleto; TAA CTA GCT AA- (SEQ ID NO: 2), com o códon de parada no primeiro tripleto; e AAC TAG CTA A- (SEQ ID NO: 3), com o códon de parada no segundo tripleto. Usando a mesma sequência exemplar, as três regiões de leitura 3’ (antissentido ou fita complementar) seriam: TTA GCT AGT TAA (SEQ ID NO: 4), com o códon de parada no quarto tripleto; TAG CTA GTT AA- (SEQ ID NO: 5), com o códon de parada no primeiro tripleto; e ACG TAG TTA A- (SEQ ID NO: 6), com o códon de parada no segundo tripleto.

[0078] Como usado neste pedido, uma molécula "antissentido" de ácidos nucleicos compreende uma sequência de ácidos nucleicos que é complementar a um ácido nucleico "sentido" que codifica uma proteína, por exemplo, complementar à fita de codificação de uma molécula de DNA de fita dupla, complementar a uma sequência de mRNA ou complementar à fita de codificação de um gene. Consequentemente, uma molécula antissentido de ácidos nucleicos pode ser ligada com hidrogênio com uma molécula sentido de ácidos nucleicos.

[0079] Como usado neste pedido, um "códon" se refere aos três nucleotídeos que, quando transcritos e traduzidos, codificam um resíduo de aminoácido único; ou em caso de UUA, UGA ou UAG codificam um sinal de terminação. Como usado neste pedido, "uma posição wobble" se refere à terceira posição de um códon. Os códons do código genético padrão que codificam aminoácidos são bem conhecidos na técnica e são fornecidos para conveniência neste pedido na Tabela 1. TABELA 1: Tabela de Códons

[0080] Abr: abreviatura. Deve ser entendido que os códons especificados acima são para sequências de RNA. Os códons correspondentes de DNA têm um T substituído por U. Cada códon corresponde a um aminoácido que pode ser abreviado em uma letra única do alfabeto. Em modalidades preferenciais, três identificadores de códon de nucleotídeo não correspondem a estas mesmas letras únicas no mapeamento de símbolo, tal que qualquer informação sobre linguagem natural codificada como identificadores de códon muito improvavelmente corresponderá a uma sequência de ácidos nucleicos com a função biológica. Como tal, a sequência codificada será improvavelmente letal a uma célula ou organismo que compreende a sequência, ou sujeita à seleção genética em um contexto celular, ou corresponderá a uma sequência que nasceria naturalmente.

[0081] O uso ótimo de códon é indicado por frequências de uso de códon de genes expressos, por exemplo, como mostrado no diagrama de uso de códon do programa "Humano-High.cod" do Pacote de Análise de Sequência de Wisconsin, Versão 8.1, Genetics Computer Group, Madison, Wis. O uso de códon também é descrito em, por exemplo, R. Nussinov, "Eukaryotic Dinucleotide Preference Rules and Their Implications for Degenerate Codon Usage," J. Mol. Biol. 149: 125-131 (1981). Os códons que são ainda mais frequentemente usados em genes humanos altamente expressos são presumidamente os códons ótimos para expressão em células hospedeiras humanas e, dessa forma, formam as bases para construir uma sequência de codificação sintética. Em espécies alternativas, o uso de códon pode variar (também conhecido como códon bias), e as sequências podem ser otimizadas para códon para refletir tais diferenças para uso de sequências em organismos diferentes. Uma fonte de informação útil pode ser encontrada na Internet na www URL kazusa.or.jp/codon/, em um Banco de dados de Uso de Códon.

[0082] Como usado neste pedido, "um identificador de códon" se refere a nucleotídeos que codificam para um símbolo legível humano único de uma linguagem de referência, preferencialmente um tripleto ou três nucleotídeos. Um conjunto ou a sequência de identificadores de códon preferencialmente não correspondem à sequência de um gene que ocorre naturalmente ou outra sequência biologicamente ativa. Preferencialmente, um ou mais identificadores de códon correspondem a uma ou mais letras, um ou mais números, um ou mais espaços, uma ou mais marcas de pontuação (por exemplo, ".; [ ] {} ():!? e ’), um ou mais símbolos matemáticos (#, (, ), ?, *, +, =, $,%, etc.), um ou mais caracteres tipográficos (por exemplo, ©, ™, ®, §, etc.) Uma ou mais novas linhagens, ou combinação de qualquer uma destas e são compostas de três nucleotídeos. Identificadores de códon exemplares são fornecidos em mais detalhes abaixo e nas figuras acompanhantes. Quando combinados em uma sequência sintética de ácidos nucleicos, uma série de identificadores de códon transmite uma mensagem não genética.

[0083] A seguinte Tabela 2 ilustra símbolos legíveis humanos exemplares reconhecíveis na língua inglesa. Qualquer outro caractere ou símbolos podem ser prontamente incorporados como desejado pelo usuário. TABELA 2: símbolos legíveis humanos exemplares

[0084] Como usado neste pedido, uma "linha d’água" pode incluir, mas não é limitada a, um aviso de direitos autorais, uma marca comercial, um identificador de companhia, um nome, uma frase, uma sentença, uma cotação, informação genética, informação sobre identificação única, dados, ou uma combinação de qualquer um dos mesmos. As linhas d’água podem conter letras, números, símbolos, pontuação, ou qualquer outro símbolo legível humano definível. Como usado neste pedido, "dados" incluem, por exemplo, cômputos baseados em DNA incluindo o uso de DNA como um processador. Mensagens codificadas ou linhas d’água podem ser técnicas ou de outra maneira significativas (tais como vários identificadores), ou podem ser estranhas ou arbitrárias (tais como cotações literárias). A mensagem codificada ou linha d’água transmitem uma mensagem "não genética", por exemplo, não é transcrita ou traduzida, não pode ligar ou estar ligada, transportar ou ser transportada por processos celulares tradicionais, e é de outra maneira biologicamente silenciosa ou inócua na célula dentro da qual está presente. O tamanho de uma linha d’água é baseado no tamanho de uma célula/organismo. As sequências que contêm mensagens ou linhas d’água podem ter comprimentos até aproximadamente 40 Kb, até aproximadamente 35 Kb, até aproximadamente 30 Kb, até aproximadamente 25 Kb, até aproximadamente 20 Kb, até aproximadamente 15 Kb, até aproximadamente 10 Kb, até aproximadamente 5 Kb, até aproximadamente 3 Kb, até aproximadamente 2 Kb, até aproximadamente 1 Kb, até aproximadamente 0,5 Kb, até aproximadamente 0,1 Kb, ou qualquer valor entre eles. O comprimento da sequência geralmente não excede o comprimento de um gene, genoma, plasmídeo, ou cromossomo no qual é inserido. A inserção pode ser colocada dentro de um gene, genoma, plasmídeo, ou cromossomo, ou substituição de todos ou uma porção dos mesmos.

[0085] Como usado neste pedido, "uma linguagem de referência" se refere a qualquer linguagem no planeta incluindo, mas não limitada a, africâner, albanês, árabe, aranês (Occitan), armênio, basco, chinês cantonês, catalão, chipewyan, cree, croata, cirílico, checo, dinamarquês, holandês, inglês, feroês, farsi, finlandês, francês, alemão, galícia, Gwich'in, grego, hebraico, hindi, húngaro, coreano, islandês, Inuinnaqtun, Inuktitut, Inuvialuktun, italiano, japonês, Kalaallisut, mandarim, Mazandarani, norueguês, persa, polonês, português, Punjabi, romeno, russo, Rusyn, Sami, Sânscrito, Slavey do Norte e do Sul, esloveno, espanhol, suaíli, sueco, taitiano, tibetano, Tswana, turco, ucraniano, urdu, Uyghur, uzbeque, Venda, vietnamita, galês, xhosa, Iídiche, Zhuang e zulu.

[0086] Como usado neste pedido, "isolado" (usado intercambiavelmente com "substancialmente puro") no contexto de uma biomolécula isolada, tal como uma proteína ou ácido nucleico isolados, é uma biomolécula removida do contexto no qual a biomolécula existe na natureza. Por exemplo, uma molécula de proteína ou ácido nucleico isolada é removida da célula ou organismo com o qual está associada em seu estado natural. Uma biomolécula isolada pode ser, em alguns exemplos, parcialmente ou substancialmente purificada, por exemplo, uma molécula de ácidos nucleicos isolada pode ser uma sequência de ácidos nucleicos que foi extirpada do cromossomo, genoma, ou epissoma que está integrado em na natureza.

Codificador

[0087] São fornecidos neste pedido meios para codificar uma sequência de símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética em um ou mais identificadores de códon. Tais meios incluem, por exemplo, um aparelho, sistemas, e um meio legível por computador para gerar uma sequência de identificadores de códon de uma linguagem de referência.

[0088] É fornecido neste pedido um aparelho para converter uma sequência de símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética em uma sequência de identificadores de códon, o aparelho compreendendo: um processador configurado para realizar instruções; um módulo de memória acoplado ao processador e compreendendo instruções que, quando realizadas pelo processador, determinam um identificador de códon para cada símbolo legível humano contido dentro da sequência de símbolos legíveis humanos, em que cada identificador de códon é determinado para ler um mapa de símbolos; e um módulo de dados conectado ao módulo de memória, em que o módulo de dados compreende o mapa de símbolos, em que o mapa de símbolos é configurado para mapear um ou mais códons de partida a respectivos símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa de ocorrência na linguagem de referência, e em que o mapa de símbolos é ainda configurado para mapear um ou mais códons de parada para respectivos símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem de referência.

[0089] A meta é gerar uma sequência de ácidos nucleicos que não seja geneticamente viável, e dessa forma não tenha um impacto biológico em uma célula recombinante ou sintética, ou em um vírus recombinante ou sintético, compreendendo a sequência. Para aquele fim, a sequência de ácidos nucleicos deve conter ocorrências frequentes de códons de parada, e pouca ocorrência de códons de partida. Como um exemplo, um códon de partida pode ser mapeado para um caractere na língua inglesa que é raramente usado, tal como *, tal que mapeariam raramente de um códon de partida na sequência sintética de ácidos nucleicos; o complemento reverso do códon de partida pode ser destinado ao "Y" raro; e podem mapear um códon de parada a um caractere na língua inglesa que é ainda mais comumente usado, tal como a letra E, A ou T, tal que um códon de parada seria frequentemente mapeado na sequência sintética de ácidos nucleicos. O complemento reverso de dois dos códons de parada é os caracteres comuns "R" e "H". Estas medidas asseguram que uma linha d’água pode ser transcrita em qualquer direção e qualquer região de leitura aberta potencial será curta nas regiões de leitura +0 e -0. O código pode ser projetado tal que as combinações de dois caracteres comuns, tais como "CH" assegurem que as regiões de leitura -1,-2, +1 e +2 não tendam a evitar códons de parada. Os caracteres comuns e raros podem ser distribuídos igualmente através do diagrama para ajudar a manter contra sequências de baixa complexidade que são adicionadas por modelos em um texto de linha d’água. Uma frequência desproporcionalmente baixa de ocorrência na linguagem de referência tipicamente se refere a um símbolo que tem uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos. Uma frequência desproporcionalmente alta de ocorrência na linguagem de referência tipicamente se refere a um símbolo que tem uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos. Por exemplo, no mapa de símbolos mostrado na Figura 3, o caractere * teria frequência desproporcionalmente baixa de ocorrência em modelos de texto convencionais na língua inglesa, e os caracteres alfabéticos E, A e T teriam uma frequência desproporcionalmente alta de ocorrência em modelos de texto convencionais na língua inglesa.

[0090] É fornecido neste pedido um aparelho para converter uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética em uma sequência de identificadores de códon, o aparelho compreendendo: um processador que executa uma sequência de instruções; um módulo de memória acoplado ao processador e compreendendo instruções para determinar um identificador de códon de cada símbolo legível humano contido dentro da sequência de símbolos legíveis humanos, em que cada identificador de códon é determinado para ler um mapa de símbolos; e um módulo de dados acoplado ao módulo de memória, em que o módulo de dados compreende o mapa de símbolos, o mapa de símbolos mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e o mapa de símbolos mapeia ainda um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.

[0091] É fornecido neste pedido um meio legível por computador para uso em uma máquina de codificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de codificação, executam um processo compreendendo: a recepção de uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética; e gerar um identificador de códon de cada símbolo legível humano contido dentro da sequência, em que o símbolo legível humano gerado é baseado pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida para um primeiro símbolo legível humano, em que o primeiro símbolo legível humano tem uma frequência mais baixa de ocorrência em uma linguagem de referência do que um ou mais símbolos legíveis humanos do grupo de símbolos legíveis humanos que contêm o primeiro símbolo legível humano, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um segundo símbolo legível humano, em que o segundo símbolo legível humano está contido dentro do conjunto de símbolos legíveis humanos, e em que o segundo símbolo legível humano tem uma frequência mais alta de ocorrência na linguagem de referência do que um ou mais símbolos legíveis humanos do conjunto de símbolos legíveis humanos.

[0092] É fornecido neste pedido um meio legível por computador para uso em uma máquina de codificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de codificação, executam um processo compreendendo: a geração de um identificador de códon de cada símbolo legível humano no grupo de símbolos legíveis humanos que transmite uma mensagem não genética, em que o símbolo legível humano gerado é baseado em uma função de mapeamento que mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e que ainda mapeia um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.

[0093] É fornecido neste pedido um método de gerar uma sequência de identificadores de códon de uma sequência de símbolos legíveis humanos, o método compreendendo: a recepção da sequência de símbolos legíveis humanos que transmite uma mensagem não genética em um módulo de memória; carregamento de um mapa de símbolos dentro do módulo de memória, em que o mapa de símbolos é configurado para determinar um identificador de códon que mapeia para cada símbolo legível humano dentro da sequência, em que o mapa de símbolos é ainda configurado para mapear um símbolo legível humano com uma frequência de ocorrência que é menos que um primeiro limiar predeterminado dentro de uma linguagem de referência a um códon de partida, e em que o mapa de símbolos é ainda configurado para mapear um símbolo legível humano com uma frequência de ocorrência que é maior do que um segundo limiar predeterminado dentro da linguagem de referência a um códon de parada; e liberação de uma sequência de identificadores de códon correspondente a cada símbolo legível humano dentro da sequência.

[0094] É fornecido neste pedido um método de geração de uma sequência de identificadores de códon de uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, o método compreendendo: identificação da sequência de símbolos legíveis humanos em um módulo de memória; e usar um processador para ler um mapeamento de símbolo de cada símbolo legível humano na sequência e determinar um identificador de códon que mapeia o respectivo símbolo legível humano; em que o mapeamento de símbolo mapeia um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos a um códon de partida, e que ainda mapeia um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos a um códon de parada.

Decodificador

[0095] É fornecido neste pedido meios para decifrar uma sequência de um ou mais identificadores de códon em um ou mais símbolos legíveis humanos de uma linguagem de referência que transmite uma mensagem não genética. Tais meios incluem, por exemplo, um aparelho, sistemas, e um meio legível por computador. Ao decodificar uma sequência de ácidos nucleicos compreendendo um ou mais identificadores de códon, será inicialmente desconhecido a partir da sequência fonte que a região de leitura 5’ pode conter mensagem não genética ou linha d’água, e por isso, todas as três regiões de leitura 5’ devem ser analisadas.

[0096] É fornecido neste pedido um aparelho para transformar uma sequência de identificadores de códon em uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o aparelho compreendendo: um processador adaptado para realizar instruções; e um módulo de armazenamento, em que o módulo de armazenamento compreende uma estrutura de dados para mapear de identificadores de códon em símbolos legíveis humanos, e grupo de instruções que, quando realizadas pelo processador, geram um símbolo legível humano de cada identificador de códon lido em uma sequência de identificadores de códon, em que o símbolo legível humano gerado é baseado pelo menos em parte sobre a estrutura de dados; em que a estrutura de dados é configurada para mapear um códon de partida a um símbolo legível humano com uma frequência de ocorrência dentro de uma linguagem de referência que é menos que um primeiro limiar predeterminado, e em que a estrutura de dados é ainda configurada para mapear de uma pluralidade de códons de parada para símbolos legíveis humanos com frequências de ocorrência dentro da linguagem de referência que são maiores do que um segundo limiar predeterminado.

[0097] Em outra modalidade, a estrutura de dados mapeia um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos, e ainda mapeia um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos.

[0098] Em uma modalidade, a estrutura de dados não mapeia um identificador de códon para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele identificador de códon no código genético padrão.

[0099] Em outra modalidade, a sequência de identificadores de códon compreende pelo menos um de um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, e um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência.

[00100] É fornecido neste pedido um meio legível por computador para uso em uma máquina de decodificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de decodificação, executam um processo compreendendo: identificação de uma sequência de identificadores de códon; e geração de um símbolo legível humano de cada identificador de códon na sequência; em que o símbolo legível humano gerado é baseado pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida a um símbolo legível humano que tem uma frequência de ocorrência dentro de uma linguagem de referência que é menor do que cada outro símbolo legível humano de um primeiro conjunto de símbolos legíveis humanos, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um símbolo legível humano que tem uma frequência de ocorrência dentro da linguagem de referência que é maior do que cada outro símbolo legível humano do primeiro conjunto de símbolos legíveis humanos.

[00101] É fornecido neste pedido um meio legível por computador para uso em uma máquina de decodificação, o meio legível por computador compreendendo as instruções que, quando realizadas pela máquina de decodificação, executam um processo compreendendo: identificação de uma sequência de identificadores de códon; e geração de um símbolo legível humano de cada identificador de códon na sequência de identificadores de códon, em que o símbolo legível humano gerado é baseado em uma função de mapeamento que mapeia identificadores de códon correspondente ao códon(s) de partida a símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e que mapeia identificadores de códon correspondente ao códon(s) de parada para símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água.

[00102] Em uma modalidade, a função de mapeamento não mapeia um identificador de códon para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele identificador de códon no código genético padrão.

[00103] Em outra modalidade, a sequência de identificadores de códon compreende pelo menos um de um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, e um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência.

[00104] É fornecido neste pedido um método de transformação de um primeiro sinal adaptado para indicar uma sequência de identificadores de códon em um segundo sinal adaptado para indicar uma sequência de símbolos legíveis humanos que transmite uma mensagem não genética, o método compreendendo: recepção do primeiro sinal; determinar um símbolo legível humano de cada identificador de códon na sequência, em que a dita determinação é baseada pelo menos em parte sobre uma função de mapeamento configurada para mapear um códon de partida para um primeiro símbolo legível humano, em que o primeiro símbolo legível humano tem uma frequência mais baixa de ocorrência em uma sequência de símbolo legível humano do que um ou mais símbolos legíveis humanos do grupo de símbolos legíveis humanos que contêm o primeiro símbolo legível humano, e em que a função de mapeamento é ainda configurada para mapear um códon de parada para um segundo símbolo legível humano, em que o segundo símbolo legível humano está contido dentro do conjunto de símbolos legíveis humanos, e em que o segundo símbolo legível humano tem uma frequência mais alta de ocorrência na sequência de símbolo legível humano do que um ou mais símbolos do conjunto de símbolos legíveis humanos; e transformação do primeiro sinal no segundo sinal baseado em um ou mais símbolos legíveis humanos determinados.

[00105] É fornecido neste pedido um método de transformação de um primeiro sinal compreendendo uma sequência de identificadores de códon em um segundo sinal para indicar uma sequência de símbolos legíveis humanos do grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, o método compreendendo: a identificação do primeiro sinal que indica a sequência de identificadores de códon; determinação de um símbolo legível humano de cada identificador de códon na sequência, em que a dita determinação de um símbolo legível humano é baseada pelo menos em parte sobre uma função de mapeamento que mapeia um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos, e ainda mapeia um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos; e transformação do primeiro sinal no segundo sinal, em que o segundo sinal indica a sequência de símbolos legíveis humanos.

[00106] Em uma modalidade, a função de mapeamento não mapeia um identificador de códon para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele identificador de códon no código genético padrão.

[00107] Em outra modalidade, a sequência de identificadores de códon compreende pelo menos um de um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, e um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência.

Modalidades Exemplares de Codificação e Decodificação

[00108] A Figura 1 é um diagrama de sequência funcional que ilustra um processo de alto nível exemplar para traduzir uma sequência de símbolos de entrada para uma sequência de ácidos nucleicos codificada que pode ser armazenada dentro de qualquer material genético de um organismo, tal como aquela contida em um cromossomo ou genoma em uma ou mais células de uma amostra, organismo vivo e similares. O material genético (por exemplo, DNA) da célula/organismo pode ser posteriormente coletado ou extraído usando técnicas padrão que são bem conhecidas na técnica, para que a sequência nucleotídica codificada possa ser depois determinada. A sequência nucleotídica codificada então pode ser analisada e decifrada a fim de gerar a sequência do símbolo original. Embora a seguinte descrição forneça codificação e/ou decodificação de processos assistida por computador, qualquer um dos métodos descritos neste pedido pode ser realizado manualmente.

[00109] No bloco 102, uma sequência de símbolos 104 é fornecida. A sequência de símbolos 104 pode compreender qualquer número de representações discretas ou símbolos, incluindo símbolos alfanuméricos e não padrão, símbolos ASCII ou ANSI, símbolos de controle e/ou outros tipos de metadados.

[00110] Uma ampla variedade de sequências de símbolo possíveis 104 pode ser utilizada. Por exemplo, uma sequência de símbolos 104 pode incluir os nomes de pessoas ou organizações, marcas comerciais e/ou avisos de direitos autorais, números de série, mensagens de texto, tempos e/ou datas, marcadores e outros indicadores, informação sigilosa, dados, instruções de computador digitais, gráficos, vídeo, informação pretendida a ser operada pelo computador baseado em DNA, etc. Inúmeros outros tipos do conteúdo também podem estar contidos dentro de uma sequência de símbolos 104 e são contemplados neste pedido.

[00111] A sequência de símbolos 104 também pode ser fornecida em qualquer número de maneiras. Em algumas modalidades, por exemplo, a sequência de símbolos 104 pode ser fornecida por um teclado ligado, touchpad, mouse, microfone, ou outro periférico de entrada. Em outras modalidades, a sequência de símbolos 104 pode ser lida em um ou mais arquivos ou fluxo de dados. Estes arquivos ou fluxos de dados podem ser acessados em um sistema local (por exemplo, em um disco rígido local ou outra fonte de memória não volátil), um sistema remoto (por exemplo, em um sistema em rede ou servidor acessível pela Internet), ou um dispositivo de mídia removível (por exemplo, um disquete, unidade de disco rígido externo, unidade flash, cartão inteligente, ou outro dispositivo de barramento serial).

[00112] No bloco 106, uma sequência codificada 108 de nucleotídeos é gerada baseada na sequência de símbolos fornecida 104. Um mapa de símbolos 220 (por exemplo, como aquele mostrado na Figura 3) pode ser usado para traduzir cada símbolo para a sequência de símbolos 106 em uma sequência conhecida como um identificador de códon, preferencialmente um trinucleotídeo. Em algumas modalidades, o mapa de símbolos 220 pode ser armazenado localmente (por exemplo, dentro de uma tabela de busca, banco de dados, ou outro residente da estrutura de referência dentro de um módulo de memória local). Em outras modalidades, o mapa de símbolos 220 pode ser armazenado dentro da memória de um ou mais sistemas remotos.

[00113] No bloco 110, uma sequência sintética de ácidos nucleicos 112 então pode ser criada da sequência codificada 108 especificada. Técnicas convencionais em biologia molecular e síntese de DNA podem ser usadas, por exemplo, para criar uma sequência sintética de ácidos nucleicos 112 que contém o mesmo identificador de códon ordenando como a sequência codificada 108.

[00114] No bloco 114, a sequência sintética de ácidos nucleicos 112 então pode ser introduzida em uma célula ou organismo vivo usando técnicas padrão. A sequência sintética de ácidos nucleicos 112 pode ser diretamente ou indiretamente introduzida no organismo. Uma vez que a sequência sintética de ácidos nucleicos 112 é introduzida na célula ou organismo, as células então podem abrigar a sequência sintética de ácidos nucleicos 112, efetivamente servindo como uma fonte de memória da sequência codificada 108.

[00115] A fim de recuperar a sequência de símbolos 104 da célula ou organismo (por exemplo, um vírus ou um organismo multicelular), o ácido nucleico ou células podem ser extraídos (como mostrado no bloco 116). Observar que uma variedade de técnicas de extração convencionais pode ser usada para extrair o material genético de uma célula recombinante, uma célula sintética, ou um organismo recombinante ou sintético. As células extraídas 118 então podem ser analisadas no bloco 120 a fim de recuperar a sequência originalmente codificada 108.

[00116] Uma vez que a sequência codificada 108 foi recuperada, esta sequência 108 então pode ser analisada e decifrada no bloco 122. Um mapa de símbolos 220 (por exemplo, como aquele mostrado na Figura 3) pode ser usado para decifrar/traduzir cada identificador de códon 302 em um símbolo correspondente 304 da sequência de símbolos original 106. Desta maneira, todos os símbolos legíveis humanos da sequência de símbolos original 106 podem ser reproduzidos.

[00117] A sequência de símbolos 106 então pode ser produzida no bloco 124 em qualquer número de maneiras. Em algumas modalidades, por exemplo, a sequência de símbolos 104 pode ser produzida diretamente em um ou mais dispositivos de produção. Qualquer dispositivo capaz de escrita ou exibição de dados pode ser usado para tais fins, incluindo, por exemplo, dispositivos de exibição (por exemplo, monitores), impressoras, projetores, televisões, falantes, dispositivos de transmissão em rede (por exemplo, computadores, câmeras digitais, assistentes de dados pessoais, dispositivos de memória, etc.) e/ou outra periféricos de saída. Em algumas modalidades, a sequência de símbolos 104 é configurada para ser escrita para um ou mais arquivos que podem ser armazenados dentro de uma fonte de memória local. Ainda em outras modalidades, a sequência de símbolos 104 pode ser produzida pela escrita humana em instrumentos, tais como papel.

[00118] A figura 2 é um diagrama de bloco de um transcodificador exemplar 200 configurado para codificar uma sequência de símbolos de entrada em uma sequência de códon tal que a sequência de códon não tenha substancialmente nenhum impacto biológico em um organismo hospedeiro se introduzido no organismo como uma sequência sintética de ácidos nucleicos (por exemplo, como DNA livre). O transcodificador 200 também pode ser configurado para decifrar uma sequência de entrada de códons e por meio disso ceder originalmente a sequência de símbolos de entrada. Dessa forma, o transcodificador exemplar 200 representado na Figura 2 pode ser usado para tanto codificar uma sequência de símbolo legível humano em uma sequência de códon, como decifrar uma sequência de códon em uma sequência de símbolo legível humano.

[00119] O fornecimento de energia 202 fornece uma fonte de energia para módulos dispostos dentro do transcodificador 200. Em algumas modalidades, a energia é fornecida externamente por um ou mais fios condutores, por exemplo, por um cabo de energia ou barramento serial. Em outras modalidades, uma bateria pode ser usada como uma fonte de energia. Em outras modalidades, um cérebro humano é usado como uma fonte de energia.

[00120] Um ou mais processadores 204 são adaptados para executar sequências de instruções carregando dados e armazenando dados em um módulo de memória local (por exemplo, memória volátil 206, que pode ser implementada como qualquer combinação da memória de acesso aleatório estática e/ou dinâmica). As instruções possíveis podem incluir, sem limitação, instruções de conversões de dados, operações de formatação, operações aritméticas, instruções de comunicação, e/ou operações de recuperação e armazenamento.

[00121] Um ou mais módulos de entrada-saída 216 podem ser usados para interrelacionar o grupo de periféricos de entrada-saída com vários programas, processos, ou execução aplicada dentro da memória volátil 206 do transcodificador 200. Em algumas modalidades, os módulos de entrada-saída 216 podem consistir de um ou mais controladores de dispositivo adaptados para interrelacionar o grupo de dispositivos de maquinário com um sistema operacional associado ao transcodificador 200. Observar que os módulos de entrada-saída 216 podem ser implementados como qualquer combinação de programa, firmware, ou maquinário de acordo com as modalidades descritas neste pedido.

[00122] Uma ampla variedade de periféricos de entrada pode ser usada para gerar a entrada 212 ao transcodificador 200 de acordo com as modalidades descritas neste pedido. Estes periféricos de entrada incluem, sem limitação, teclados, mouses, trackballs, painéis de toque, microfones, controladores (por exemplo, alavancas de controle), scanners, câmeras digitais, lápis, canetas, marcadores, lápis de cera, e interfaces de comunicação de dispositivos em rede (por exemplo, interfaces de rede ou de barramento serial).

[00123] Similarmente, uma ampla variedade de periféricos de saída pode ser usada para escrever e/ou exibir a saída 214 de acordo com várias modalidades descritas neste pedido. Estes periféricos de saída incluem, sem limitação, dispositivos de exibição (por exemplo, monitores), impressoras, projetores, televisões, falantes, módulos de memória local, lápis, canetas, marcadores, lápis de cera, e dispositivos em rede (por exemplo, computadores, câmeras digitais, assistentes de dados pessoais, dispositivos de memória remota, dispositivos de barramento serial de alta velocidade, etc.).

[00124] O módulo 208 de memória não volátil pode ser usado para armazenar persistentemente dados, instruções, estados de processo, tabelas de memória, e outra informação dentro do transcodificador 200. O módulo 208 de memória não volátil pode ser implementado como qualquer tipo ou combinação de memória adaptada ao armazenamento persistente, incluindo, sem limitação, discos rígidos convencionais, ROM (por exemplo, PROM, EPROM, EEPROM), memória flash, papel, etc. Observar também que em algumas modalidades, todo ou uma porção do módulo 208 de memória não volátil pode servir como memória virtual do módulo 206 de memória volátil.

[00125] Em algumas modalidades, a memória não volátil 208 pode incluir um analisador de frequência de símbolo 230 para determinar com que frequência certos símbolos aparecem dentro de um ou mais fluxos de símbolo de entrada. Por exemplo, a frequência de símbolo analisador 230 pode ser usada para determinar que o símbolo "v" tem uma frequência de ocorrência de aproximadamente 1% dentro de um fluxo de símbolo especificado, enquanto o símbolo "e" tem uma frequência de ocorrência de aproximadamente 13% dentro da mesma corrente. Observar um processo exemplar de implementar o analisador de frequência de símbolo 230 foi descrito em mais detalhes abaixo (vide Figura 4 e texto acompanhante).

[00126] Em algumas modalidades, a memória não volátil 208 pode incluir um ou mais mapas de símbolos 220 que podem ser usados para construir sequências de ácidos nucleicos sintéticas com baixa probabilidade de impacto biológico. Um mapa de símbolo exemplar 220 foi fornecido com referência à Figura 3. Como mostrado por esta figura, cada símbolo 304 de um domínio de símbolos possíveis (incluindo letras, números, marcadores de pontuação, símbolos, e símbolos de controle) unicamente mapeia um identificador de códon único 302. O mapa de símbolos 220 pode ser dessa forma usado para traduzir uma sequência de símbolos legíveis humanos em uma sequência de códons, ou traduzir uma sequência de códons em uma sequência de símbolos legíveis humanos.

[00127] Observar enquanto o mapa de símbolos 220 representado na Figura 3 ilustra um mapeamento individual de sessenta e quatro símbolos possíveis 304 a sessenta e quatro identificadores de códons possíveis 302, o mapa de símbolos 220 representado na Figura 3 é simplesmente exemplar na natureza, e foi incluído neste pedido para ilustrar os mais amplos princípios da aplicação. Deve ser entendido que as modalidades descritas neste pedido englobam uma larga variedade de mapeamentos possíveis. Além disso, o domínio de símbolos possíveis 304 e a faixa de identificadores de códon possíveis 302 também podem ser menores do que ou maior do que sessenta e quatro.

[00128] Em algumas modalidades, por exemplo, um domínio de símbolo reduzido pode ser utilizado a fim de reduzir mais a probabilidade que uma sequência sintética de ácidos nucleicos construída tenha um impacto detectável biologicamente no organismo. Isto pode ser implementado, por exemplo, pela exclusão do mapa de símbolos 220 daquelas permutações de nucleotídeos que podem ser potencialmente interpretadas como um códon de partida por processos biológicos internos de um organismo (ATG, GTA, *AT, TG *, etc.).

[00129] Em outras modalidades, o domínio de símbolo pode ser estendido a fim de suportar um maior número de símbolos codificáveis (por exemplo, símbolos em letras maiúsculas e minúsculas, símbolos não padrão, etc.). Isto pode ser implementado, por exemplo, pelo mapeamento de cada símbolo 304 no grupo de múltiplos códons em vez de um códon único (por exemplo, "A" =CAGCCG).

[00130] Voltando agora à Figura 2, a memória não volátil 208 também pode incluir o módulo transcodificador 210 para traduzir uma sequência de símbolos 304 em uma sequência de identificadores de códon 302 e/ou para traduzir uma sequência de identificadores de códon 302 em uma sequência de símbolos. Em algumas modalidades, o módulo transcodificador 210 pode utilizar um ou mais mapas de símbolo 220 como um argumento de entrada, valor, ou parâmetro. Em outras modalidades, o módulo transcodificador 210 pode conter a lógica interna que fornece um ou mais esquemas de codificação (por exemplo, comutador e/ou caso lógico). Observar que um processo exemplar de codificação de uma sequência de símbolos 304 em uma sequência de identificadores de códon 302 foi fornecido abaixo com referência à Figura 5, enquanto um processo exemplar de decifração de uma sequência de identificadores de códon 302 em uma sequência de símbolos 304 foi fornecido abaixo com referência à Figura 6.

[00131] A figura 4 é um diagrama de fluxo de um método exemplar de criação de um mapa de símbolos que pode ser usado para gerar uma sequência de ácidos nucleicos com uma probabilidade substancialmente reduzida ou baixa de impacto biológico.

[00132] No bloco 402, uma análise da frequência de símbolo em uma linguagem de referência ou corrente de símbolo é gerada. Isto pode ser realizado, por exemplo, analisando um ou mais fluxos de entrada a fim de determinar o número de ocorrências de certo símbolo em relação ao número total de símbolos analisados. Em algumas modalidades, um contador pode ser destinado a cada símbolo único que é verificado dentro de um ou mais fluxos de entrada. Em outras modalidades, os contadores podem ser destinados somente àqueles símbolos que são os elementos do domínio de símbolo de entrada. Observar que os equivalentes em letras minúsculas e maiúsculas podem ser tratados como os mesmos símbolos ou separados.

[00133] No bloco 404, o símbolo que ocorre ainda menos frequentemente dentro do domínio de símbolo pode ser determinado. Isto pode ser realizado, por exemplo, por rotinas de tipo convencional (por exemplo, tipo bolha, tipo inserção, tipo seleção, tipo rápida, etc.). Em algumas modalidades, o símbolo que ocorre ainda menos frequentemente é o símbolo asterisco "*". Observar, entretanto, que o símbolo que ocorre ainda menos frequentemente pode depender de um ou mais fluxos de entrada analisados e/ou o domínio de símbolo selecionado.

[00134] No bloco 406, o símbolo que ocorre ainda menos frequentemente pode ser mapeado para uma permutação específica de nucleotídeos conhecidos como códon de partida (isto é, ATG). Um códon de partida é comumente usado por processos internos de um organismo para indicar o começo de uma sequência de codificação. Mapeamento do símbolo que ocorre ainda menos frequentemente para o códon de partida nesta maneira reduz substancialmente o número de códons de partida que aparecerão dentro da sequência codificada, por meio disso reduzindo a probabilidade que processos internos de uma célula interpretem uma porção da sequência codificada como uma instrução genética.

[00135] No bloco 408, os três símbolos que ainda mais frequentemente ocorrem dentro do domínio de símbolo podem ser determinados. Isto pode ser implementado, por exemplo, lendo os três símbolos que ainda mais frequentemente ocorrem dentro de uma lista de símbolo que foi classificada pela frequência de ocorrência (por exemplo, pela leitura da lista classificada gerada no bloco 404). Em algumas modalidades, os três símbolos ainda mais frequentemente ocorrem são as letras "E", "A", e "T" (onde as frequências de letras equivalentes maiúsculas e minúsculas foram agregadas). Como no caso anterior, os três símbolos ainda mais frequentemente ocorrem podem depender de um ou mais fluxos de entrada analisadas e/ou o domínio de símbolo selecionado.

[00136] No bloco 410, cada um dos três símbolos que ainda mais frequentemente ocorrem então pode ser mapeado para um respectivo códon de parada (isto é, TAA, TAG, e TGA). Mapeamento dos símbolos que ainda mais frequentemente ocorrem para códons de parada desta maneira aumenta a probabilidade que uma instrução de parada apareça dentro de uma dada sequência de nucleotídeos, por meio disso substancialmente reduzindo a probabilidade que os processos internos de uma célula interpretem uma porção da sequência codificada como uma instrução genética.

[00137] Cada símbolo não mapeado do domínio de símbolo então pode ser mapeado para um identificador de códon que ainda não mapeou para um símbolo legível humano. Opcionalmente, lógica também pode ser também fornecida que é configurada para impedir um símbolo não mapeado de mapear para um códon que gera um aminoácido que tem uma abreviatura de letra única que é equivalente ao símbolo não mapeado. Por exemplo, se o seguinte símbolo não mapeado foi a letra "V", os códons "GTT", "GTC", "GTA", e "GTG" podem ser excluídos da faixa de candidatos possíveis que podem mapear "V", uma vez que cada um destes códons pode produzir finalmente aminoácido valina (comumente abreviado como "V"). A lógica exemplar para realizar esta funcionalidade é discutida abaixo com referência aos blocos 412-418.

[00138] No bloco 412, uma decisão pode ser tomada quanto a se um símbolo legível humano não mapeado presentemente existe. Se não houver nenhum resto de símbolos não mapeado, o processo pode terminar. De outra maneira, o seguinte símbolo não mapeado pode ser recuperado e o processo continuado no bloco 414.

[00139] O seguinte identificador de códon disponível então pode ser determinado no bloco 414. Isto pode ser implementado recuperando o seguinte identificador de códon de uma estrutura de dados de referência (por exemplo, tabela, lista, montão, pilha, fila, etc.).

[00140] Uma decisão então pode ser tomada no bloco 416 quanto a se o seguinte identificador de códon disponível produz um aminoácido com uma abreviatura que é equivalente ao símbolo não mapeado. Em algumas modalidades, tanto os equivalentes de caso superior como inferior são considerados nesta decisão. Se o identificador de códon realmente produzir de fato um aminoácido com uma abreviatura que é equivalente ao símbolo não mapeado, um novo identificador de códon pode ser recebido no bloco 414, e o processo pode ser repetido até que um identificador de códon adequado seja determinado. De outra maneira, se o identificador de códon não produz um aminoácido com uma abreviatura que é equivalente ao símbolo não mapeado, pode mapear o símbolo não mapeado para o identificador de códon selecionado no bloco 418, e o processo repetido pelo bloco 412.

[00141] Observar que em casos onde cada um dos identificadores de códon restantes não mapeados produzem um aminoácido com uma abreviatura que é equivalente ao símbolo não mapeado, processos convencionais de retrocesso podem ser utilizados a fim de não mapear e reordenar símbolos prévios para alternar identificadores de códon. Em outras modalidades, podem mapear símbolos com equivalentes de abreviatura de aminoácido para identificadores de códon antes que mapeiem qualquer outro símbolo, por meio disso evitando a necessidade da lógica de retrocesso.

[00142] A figura 5 é um diagrama de fluxo de um método exemplar de codificação de uma sequência de símbolos de entrada em uma sequência de códon com uma baixa probabilidade de impacto biológico.

[00143] No bloco 502, uma decisão é tomada quanto a se um símbolo não codificado ainda existe dentro da sequência de símbolos de entrada. Se todos os símbolos legíveis humanos da sequência de símbolos de entrada tiverem sido codificados, o processo pode terminar de acordo com algumas modalidades. Alternativamente, o processo pode compreender ainda a inserção de um dos 6 códons de parada da região de leitura no começo e/ou extremidade da sequência codificada. Isto é mostrado nos blocos 508 e 510, respectivamente. Estes todos os 6 códons de parada da região de leitura podem servir dessa forma para designar o começo e/ou extremidade de uma mensagem codificada, por meio disso permitindo uma mensagem ser mais facilmente detectada entre um grande fluxo de nucleotídeos sucessivos.

[00144] Em algumas modalidades, todos os 6 códons de parada da região de leitura podem ser usados para reduzir ainda a probabilidade que os processos internos de uma célula ou um vírus interpretem uma porção da sequência codificada como uma instrução genética. Em algumas modalidades, por exemplo, um ou mais dos 6 códons de parada da região de leitura podem ser intercalados dentro da mensagem codificada em intervalos periódicos, por meio disso assegurando que um códon de parada ocorra em todas as regiões de leitura de "n". Um transcodificador adaptado para decifrar tal mensagem não pode ignorar simplesmente estes códons durante o processo de decodificação.

[00145] Se um símbolo não codificado ainda existir dentro da sequência de entrada, no bloco 504, uma decisão pode ser tomada quanto a se o símbolo de entrada é suportável (isto é, se ele existe dentro do domínio de símbolos codificáveis). Em algumas modalidades, uma mensagem incorreta pode ser gerada quando é determinada que um certo símbolo não pode ser codificado (por exemplo, como mostrado no bloco 512). Em outras modalidades, qualquer símbolo não codificável não pode ser simplesmente ignorado. Ainda em outras modalidades, um símbolo especial pode ser usado para indicar que um símbolo não codificável foi identificado. Este símbolo especial pode servir dessa forma como uma substituição de cada símbolo não codificável encontrado dentro da sequência de símbolos de entrada.

[00146] No bloco 506, o identificador de códon que corresponde ao símbolo de entrada então pode ser gerado. De acordo com algumas modalidades, o identificador de códon que corresponde ao símbolo de entrada pode ser determinado consultando um mapa de símbolos que é armazenado dentro de uma fonte de memória local (por exemplo, o mapa de símbolos 220 representado na Figura 2 e na Figura 3). O processo então pode ser repetido no bloco 502 até que todos os símbolos de entrada tenham sido finalmente codificados.

[00147] A figura 6 é um diagrama de fluxo de um método exemplar de decifração de uma sequência de ácidos nucleicos com uma baixa probabilidade de impacto biológico em uma sequência de símbolos.

[00148] No bloco 602, uma decisão é tomada quanto a se algum identificador de códon adicional existe dentro de uma sequência de entrada de identificadores de códon. Se nenhum identificador de códon existir, o processo então pode terminar. De outra maneira, o processo pode continuar por bloco 604. Este processo seria repetido para todas as três regiões de leitura 5’.

[00149] O símbolo correspondente ao identificador de códon então pode ser determinado no bloco 604. De acordo com algumas modalidades, o símbolo que corresponde ao identificador de códon pode ser determinado consultando um mapa de símbolos que é armazenado dentro de uma fonte de memória local (por exemplo, o mapa de símbolos 220 representado na Figura 2 e na Figura 3).

[00150] O símbolo determinado então pode ser produzido no bloco 606. Em algumas modalidades, o símbolo pode ser escrito, ou exibido, um periférico de saída ligado (por exemplo, um dispositivo de exibição, impressora, tela de televisão, papel, etc.). Em outras modalidades, o símbolo pode ser escrito para uma fonte de memória local e/ou armazenado dentro de um ou mais arquivos. Em algumas modalidades, (por exemplo, como aquelas mostradas na Figura 6) os símbolos podem ser produzidos tão logo sejam determinados. Em outras modalidades, a saída pode ser gerada após todos os símbolos serem determinados.

[00151] A figura 7 é um diagrama de fluxo de um método exemplar de codificação de uma linha d’água em uma sequência sintética de ácidos nucleicos com uma baixa probabilidade de impacto biológico. Cada símbolo de uma linguagem de referência pode ser destinado a um identificador de códon 106. Uma linha d’água que contém uma série de símbolos de uma linguagem de referência 102 pode ser gerada. Cada símbolo na linha d’água pode ser substituído por um identificador de códon e a sequência codificada resultante pode ser incluída no começo com um dos 6 códons de parada da região de leitura contendo a sequência 508 e acrescentada com um dos 6 códons de parada da região de leitura contendo a sequência 510 para criar uma sequência sintética de ácidos nucleicos que contém a mensagem 110 de linha d’água codificada. Dessa forma, dentro do contexto de uma série de identificadores de códon que são usados para codificar uma mensagem que existe entre um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência e um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência, seria possível mapear de símbolos para identificadores de códon que podem representar uma abreviatura de letra única de um aminoácido. Neste contexto, seria entendido que todos os 6 códon de parada da região de leitura contendo a sequências preveniria uma mensagem codificada que contém uma abreviatura de aminoácido de ser lida como material genético. Dessa forma, um código mais estático que não se modificaria tipicamente de implementação a implementação pode ser criado. Tal código então pode tornar-se um padrão, tal como um formato de arquivo.

[00152] As figuras 8A-8E ilustram uma modalidade exemplar contemplada para o uso com o sistema descrito acima.

Sequências De ácidos nucleicos Sintéticas

[00153] As mensagens podem ser introduzidas como fragmentos de ácidos nucleicos sintéticos em uma célula ou vírus e incorporadas em um gene, um genoma, um plasmídeo, ou um cromossomo, ou qualquer outro material genético em uma célula. Os ácidos nucleicos incorporados são compostos de identificadores de códon que representam uma série de símbolos legíveis humanos de uma linguagem de referência humana. A sequência de identificadores de códon cria uma mensagem não genética ou linha d’água que podem ser usadas para identificar ou autenticar qualquer célula ou vírus contendo aquela mensagem.

[00154] Uma sequência sintética de ácidos nucleicos pode compreender ainda um dos 6 códons de parada da região de leitura contendo a sequência 5’ (antes) para um primeiro identificador de códon na sequência, um dos 6 códons de parada da região de leitura contendo a sequência 3’ (subsequente) para o identificador do último códon na sequência, ou ambos.

[00155] É fornecida neste pedido uma sequência sintética de ácidos nucleicos, em que a dita sequência sintética de ácidos nucleicos compreende um ou mais identificadores de códon correspondente ao grupo dos símbolos legíveis humanos da linguagem de referência que transmite uma mensagem não genética, e ainda em que a dita sequência sintética de ácidos nucleicos não seja geneticamente viável e não tenha um impacto biológico em uma célula recombinante ou sintética, ou em um vírus recombinante ou sintético, compreendendo a sequência sintética de ácidos nucleicos.

[00156] Em uma modalidade, uma sequência sintética de ácidos nucleicos não pode ser biologicamente traduzida para uma sequência de aminoácidos funcional pela célula/vírus recombinantes ou sintéticos.

[00157] Um ou mais identificadores de códon não correspondem à sequência de um gene ou outra sequência biologicamente ativa. Preferencialmente um ou mais identificadores de códon correspondem a uma ou mais letras, um ou mais números, um ou mais espaços, um ou mais marcadores de pontuação (por exemplo, " . ; [ ] { } ( ) : ! ? e ’), um ou mais símbolos matemáticos (#, (,), ?, *, +, =, $, %, etc.), um ou mais caracteres tipográficos (por exemplo, ©, ™, ®, §, etc.), uma ou mais novas linhagens, ou combinação de qualquer um dos mesmos e são compostos de três nucleotídeos.

[00158] Em um aspecto, o conjunto de símbolos legíveis humanos compreende uma linha d’água. As linhas d’água incluem, mas não são limitadas a, um aviso de direitos autorais, uma marca comercial, um identificador de companhia, um nome, uma frase, uma sentença, uma cotação, informação genética, informação sobre identificação única, dados, instruções de computador digitais, textos, gráfica, vídeo, informação pretendida a ser operada por um computador baseado em DNA, ou combinação de qualquer um dos mesmos.

[00159] A sequência sintética de ácidos nucleicos pode compreender ainda um dos 6 códons de parada da região de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência, um dos 6 códons de parada da região de leitura contendo a sequência 3’ para o identificador do último códon na sequência, ou ambos.

[00160] Pode-se determinar empiricamente o tamanho de uma linha d’água baseada no tamanho de um ou mais dos seguintes: um gene, um genoma, um plasmídeo, um cromossomo artificial, uma célula ou um organismo. Os comprimentos de mensagem podem ter até aproximadamente 40 Kb, até aproximadamente 35 Kb, até aproximadamente 30 Kb, até aproximadamente 25 Kb, até aproximadamente 20 Kb, até aproximadamente 15 Kb, até aproximadamente 10 Kb, até aproximadamente 5 Kb, até aproximadamente 3 Kb, até aproximadamente 2 Kb, até aproximadamente 1 KB, até aproximadamente 0,5 Kb, até aproximadamente 0,1 Kb, ou qualquer valor entre. Em uma modalidade, um comprimento de mensagem pode ter até aproximadamente 5 Kb. Em outra modalidade, um comprimento de mensagem pode ter até aproximadamente 2 Kb. Um comprimento de mensagem, tipicamente, não excede o comprimento de um gene, genoma, plasmídeo, ou cromossomo no qual deva ser incorporado ou substituído. Células, Vírus, Organismos e Animais recombinantes e Sintéticos

[00161] Seria entendido que as sequências de ácidos nucleicos sintéticas que transmitem mensagens não genéticas podem ser usadas em qualquer tipo de célula. Em alguns exemplos, as células podem estar presentes em uma população de células (por exemplo, uma cultura celular, um embrião, um organismo multicelular, uma planta, um animal, etc.).

[00162] É fornecida neste pedido uma célula recombinante ou sintética que contém uma sequência sintética de ácidos nucleicos descrita neste pedido. Uma célula recombinante ou sintética pode ser uma célula procariótica, uma célula eucariótica, ou uma célula de arquea. Também é fornecido neste pedido um vírus, organismo multicelular, ou animal recombinantes ou sintéticos que contém uma sequência sintética de ácidos nucleicos descrita neste pedido. O grupo de símbolos legíveis humanos pode ser uma linha d’água que permite a autenticação ou identificação de dita célula, vírus, organismo ou animal recombinantes ou sintéticos; ou identificação de um organismo compreendendo células recombinantes ou sintéticas ou vírus.

[00163] As células recombinantes ou sintéticas descritas neste pedido são úteis para rastreamento de células ou organismos de pesquisa e/ou uso comercial. As células também incluem, mas não são limitadas a células e organismos em um laboratório de pesquisa. Tais células e os organismos podem ser distribuídos internamente dentro de uma companhia ou instituto, ou distribuídos externamente como parte de uma colaboração ou acordo de transferência material. Outras células são descritas abaixo com respeito a amostras que podem ser avaliadas para células ou organismos contendo uma linha d’água.

[00164] É fornecido neste pedido um animal recombinante que contém uma sequência sintética de ácidos nucleicos que transmite uma mensagem não genética ou linha d’água. Animais recombinantes incluem, por exemplo, roedores transgênicos (por exemplo, camundongos, ratos, furões, coelhos, etc.), cavalos (por exemplo, raça pura, híbrida ou puro-sangue), vacas, touros, cães, gatos, ovelhas, primatas (por exemplo, gorilas, chimpanzés, macacos, orangotangos, etc.), peixe (por exemplo, peixe-zebra ou peixe exótico), anfíbios (por exemplo, rãs), insetos, etc. Tais linhas d’água podem ser usadas para identificar, por exemplo, a fonte do animal, ou identificação de uma modificação genética específica.

[00165] É fornecido neste pedido um embrião recombinante que contém uma linha d’água; tais linhas d’água podem ser usadas para rastrear e identificar embriões baseados na informação codificada.

[00166] Também é fornecida neste pedido uma planta recombinante que contém uma linha d’água; tais linhas d’água podem ser usadas para rastrear e identificar plantas baseadas na informação codificada.

[00167] Uma célula recombinante ou sintética pode ser uma célula procariótica, uma célula eucariótica, ou uma célula de arquea.

[00168] Uma célula procariótica pode ser, por exemplo, uma célula bacteriana que é Gram-positiva ou Gram-negativa.

[00169] Uma célula eucariótica pode ser, por exemplo, uma célula de levedura, uma célula fúngica, uma célula algácea, uma célula animal, ou uma célula vegetal.

Células Procarióticas

[00170] Uma célula procariótica pode ser, por exemplo, uma célula bacteriana que é Gram-positiva ou Gram-negativa, ou pode não ter uma parede celular. Uma sequência sintética de ácidos nucleicos pode ser incorporada em um genoma, um plasmídeo, ou um cromossomo artificial de qualquer bactéria Gram-positiva ou Gram-negativa.

[00171] A bactéria Gram-negativa inclui, mas não é limitada a Enterobacteriaceae spp. (por exemplo, E. coli, E. cloacae, E. intermedius, etc.), Hemophilus spp. (por exemplo, H. influenzae, etc.), Vibrionaceae spp. (por exemplo, V. cholera, etc.), Pseudomonadaceae spp. (por exemplo, Pseudomonas aeruginosa, Pseudomonas fluorescens, Pseudomonas putida, Pseudomonas stutzeri, etc.), Helicobacter spp. (por exemplo, H. pylori, etc.), Synechosystis spp, Acinetobacter baumannii, Acidovorax delafieldii, Aeromonas veronii, Aquaspirrilium spp., Bordetella bronchiseptica, Flavobacterium odoratum, Cryseobacterium gleum, Citrobacter braaki, Citrobacter freundii, Comamonas (Delftia) acidovorans, Burkholderia cepacia, Yersinia kristensenii, Stenotrophomonas spp., Serratia spp. (por exemplo, Serratia liquefaciens, Serratia marcescens, etc.), Salmonella spp. (por exemplo, Salmonella typhimurium, etc.), Ralstonia spp. (por exemplo, Ralstonia eutropha, Ralstonia pickett, etc.) Proteus vulgaris, Providencia rettgeri, Pseudomonas spp. Pantoea ananas, Paracoccus marcusii, Ochrobactrum anthropi, Morganella morganii, Neisseria spp. (por exemplo, Neisseria meningitides, etc.), Klebsiella spp. (por exemplo, Klebsiella oxytoca, Klebsiella pneumonia, etc.) e Hydrogenophaga palleronii. Seria entendido que outro gênero e as espécies do grama bactérias negativas estão incluídos neste pedido.

[00172] As bactérias Gram-positivas incluem, mas não são limitadas a, Streptococcus spp. (por exemplo, S. pneumoniae, S. sanguis, etc.), Enterococci spp. (por exemplo, E. faecalis, etc.), Bacterioides spp. e Clostridia spp. (por exemplo, C. sporogenes, etc.), Mycobacterium spp. (por exemplo, M. tuberculosis, M. avium, etc.), Corynebacterum spp. (por exemplo, C. renale, etc.), Peptostreptococus spp., Listeria spp. (por exemplo, L. monocytogenes, etc.), Legionella spp., Alicyclobacillus acidocaldarius, Bacillus spp. (por exemplo, Bacillus licheniformis, Bacillus pumilus, Bacillus sphaericus, Bacillus subtilis, Bacillus thuringensis, Bacillus cereus, Bacillus circulans, Bacillus dipsosauri, etc.), Brevibacillus choshinensis, Brevibacterium brevis, Deinococcus radiodurans, Staphylococcus spp. (por exemplo, Staphylococcus aureus, Staphylococcus auricularis, Staphylococcus capitis, Staphylococcus epidermidis, etc.) Rhodococcus equi, Propionibacterium acnes, Paenibacillus spp. (por exemplo, Paenibacillus glucanolyticus, Paenibacillus polymyxa, etc.), Kocuria rosea, Microbacterium saperdae, espécies Micrococcus, Kocuria spp. (por exemplo, Kocuria kristinae, Kocuria rhizophila, etc.), e Geobacillus sterothermophilus. Seria entendido que outros gêneros e espécies de bactérias gram-positivas estão incluídos neste pedido.

[00173] As bactérias sem uma parede celular definida incluem, mas não são limitadas a, Mycoplasma spp. (por exemplo, M. capricolum, M. gallisepticum, M. genitalium, M. hominis, M. hyopneumoniae, M. laboratorium, M. mycoides, M. ovipneumonia, M. pneumoniae, etc.).

[00174] Em algumas modalidades, bactérias fotossintéticas, incluindo, por exemplo, bactérias verdes sulfurosas, bactérias púrpuras sulfurosas, bactérias de verdes não sulfurosas, bactérias púrpuras não sulfurosas, ou cianobactérias podem ser usadas. Espécies de cianobactérias que podem ser usadas incluem, sem limitação, espécies Agmenellum, Anabaena, Anabaenopsis, Anacystis, Aphanizomenon, Arthrospira, Asterocapsa, Borzia, Calothrix, Chamaesiphon, Chlorogloeopsis, Chroococcidiopsis, Chroococcus, Crinalium, Cyanobacterium, Cyanobium, Cyanocystis, Cyanospira, Cyanothece, Cylindrospermopsis, Cylindrospermum, Dactylococcopsis, Dermocarpella, Fischerella, Fremyella, Geitleria, Geitlerinema, Gloeobacter, Gloeocapsa, Gloeothece, Halospirulina, Iyengariella, Leptolyngbya, Limnothrix, Lyngbya, Microcoleus, Microcystis, Myxosarcina, Nodularia, Nostoc, Nostochopsis, Oscillatoria, Phormidium, Planktothrix, Pleurocapsa, Prochlorococcus, Prochloron, Prochlorothrix, Pseudanabaena, Rivularia, Schizothrix, Scytonema, Spirulina, Stanieria, Starria, Stigonema, Symploca, Synechococcus, Synechocystis, Tolypothrix, Trichodesmium, Tychonema ou Xenococcus.

[00175] Cada uma das células procarióticas acima mencionadas e outras conhecidas na técnica são contempladas para o uso neste pedido.

Arquea

[00176] A arquea é um grupo de microrganismos monocelulares. Não têm nenhum núcleo celular ou qualquer outra organela dentro das suas células. A arquea inclui, mas não é limitada a células dos filos: Crenarchaeota, Euryarchaeota, Korachaeota, Nanoacraeota e Thaumarchaeota. Cada uma da arquea acima mencionada e outras conhecidas na técnica são contempladas para uso neste pedido.

Vírus

[00177] Os vírus são tipicamente classificados nos seguintes grupos: I: vírus de dsDNA (por exemplo, Adenovírus, Herpesvírus, Poxvírus); II: vírus de ssDNA (+)DNA sentido (por exemplo, Parvovírus); III: vírus de dsRNA (por exemplo, Reovírus); IV: (+) ssRNA vírus (+) RNA sentido (por exemplo, Picornavírus, Togavírus); V: (-) ssRNA vírus (-) RNA sentido (por exemplo, Ortomixovírus, Rhabdovírus); VI: vírus de ssRNA-RT (+) RNA sentido com DNA servem como intermediário no ciclo da vida (por exemplo, Retrovírus); e VII: vírus de dsDNA-RT (por exemplo, Hepadnavírus).

[00178] Cada um dos vírus acima mencionados e outros conhecidos na técnica são contemplados para o uso neste pedido.

Células Eucarióticas

[00179] Uma célula eucariótica contemplada neste pedido pode ser qualquer célula com um núcleo cercado dentro de uma membrana celular, por exemplo, uma célula de levedura, uma célula fúngica, uma célula algácea, uma célula animal ou uma célula vegetal.

Levedura

[00180] Leveduras são microrganismos unicelulares que pertencem a uma das três classes: Ascomicetos, Basidiomicetos e Fungos Imperfeitos. Cepas de levedura patogênica e cepas de levedura não patogênicas são consideradas neste pedido.

[00181] Gêneros de cepas de levedura incluem, mas não são limitados a, Saccharomyces, Candida, Cryptococcus, Hansenula, Kluyveromyces, Pichia, Rhodotorula, Schizosaccharomyces e Yarrowia.

[00182] Espécies representativas não limitantes das cepas de levedura inclui Saccharomyces cerevisiae, Saccharomyces carlsbergensis, Candida albicans, Candida kefyr, Candida tropicalis, Candida guillermondii, Candida parapilosis, Cryptococcus laurentii, Cryptococcus neoformans, Cryptococcus humicolus, Hansenula anomala, Hansenula polymorpha, Kluyveromyces fragilis, Kluyveromyces lactis, Kluyveromyces marxianus var. lactis, Pichia pastoris, Rhodotorula rubra, Rhodotorula glutinoso, Schizosaccharomyces pombe e Yarrowia lipolytica. Entende-se que um número destas espécies incluem uma variedade de subespécies, tipos, subtipos, etc. que estão destinados a estar incluídos dentro das espécies acima mencionadas.

[00183] Cada um dos gêneros de levedura e espécies acima mencionados e outros conhecidos na técnica são contemplados para o uso neste pedido.

Algas

[00184] Uma sequência sintética de ácidos nucleicos pode ser incorporada em um genoma, um plasmídeo, ou um cromossomo artificial de qualquer espécie de algas.

[00185] Algas que podem ser usadas nos métodos da invenção podem ser qualquer alga, e podem incluir microalgas, tal como mas não limitadas a, espécies Achnanthes, Amphiprora, Amphora, Ankistrodesmus, Asteromonas, Boekelovia, Borodinella, Botryococcus, Bracteococcus, Chaetoceros, Carteria, Chlamydomonas, Chlorococcum, Chlorogonium, Chlorella, Chroomonas, Chrysosphaera, Cricosphaera, Crypthecodinium, Cryptomonas, Cyclotella, Dunaliella, Ellipsoidon, Emiliania, Eremosphaera, Ernodesmius, Euglena, Franceia, Fragilaria, Gloeothamnion, Haematococcus, Halocafeteria, Hymenomonas, Isochrysis, Lepocinclis, Micractinium, Monoraphidium, Nannochloris, Nannochloropsis, Navicula, Neochloris, Nephrochloris, Nephroselmis, Nitzschia, Ochromonas, Oedogonium, Oocystis, Ostreococcus, Pavlova, Parachlorella, Pascheria, Phaeodactylum, Phagus, Platymonas, Pleurochrysis, Pleurococcus, Prototheca, Pseudochlorella, Pyramimonas, Pyrobotrys, Scenedesmus, Schizochytrium, Skeletonema, Spyrogyra, Stichococcus, Tetraselmis, Thraustochytrium, Thalassiosira, Viridiella ou Volvox.

[00186] Cada uma das algas acima mencionadas e outras conhecidas na técnica são contempladas para o uso neste pedido.

Células vegetais

[00187] Células vegetais que podem ser usadas incluem as obtidas de organismos, tais como árvores, ervas, arbustos, gramas, videiras, samambaias, e musgos. A diversidade de divisões vegetais vivas inclui plantas terrestres não vasculares ou briófitas, tais como Marchantiophyta (hepáticas), Anthocerotophyta (antóceros), Bryophyta (musgos) e Horneophytopsida; e plantas vasculares ou traqueófitas, tais como Rhyniophyta, Zosterophyllophyta, Lycopodiophyta (musgos clube), Trimerophytophyta, Pteridophyta (samambaias, samambaias whisk & cavalinha), Progymnospermophyta, e plantas de Semente ou espermatófitos, tais como Pteridospermatophyta (samambaias de semente), Pinophyta (coníferas), Cycadophyta (cicadáceas), Ginkgophyta (ginkgo), Gnetophyta (gnetófitos), e Magnoliophyta (plantas florescentes).

[00188] Cada uma das células vegetais acima mencionadas e outras conhecidas na técnica são contempladas para o uso neste pedido.

Células dos animais

[00189] Células animais que podem ser usadas incluem, mas não são limitadas a de vertebrados, tais como peixes, anfíbios, répteis, pássaros e mamíferos (por exemplo, roedores, primatas, ovelhas, cavalos, vacas, porcos, cães, gatos, etc.); artrópodes, tais como insetos (por exemplo, Drosophila melanogaster); e nematoides (por exemplo, Caenorhabditis elegans).

[00190] Cada uma das células animais acima mencionadas e outras conhecidas na técnica são contempladas para o uso neste pedido.

Fungos

[00191] Fungos que podem ser usados incluem algum dos filos Microsporidia, Quitridiomiceto, Blastocladiomiceto, Neocallimastigomiceto, Glomeromiceto, Ascomiceto e Basidiomiceto. Gêneros exemplares de fungos a serem usados nas composições e métodos descritos neste pedido incluem, por exemplo, Pullularia, Chaetomium, Aspergillus, Coniophora, Pseudocercosporella, Helminthosporium, Pyrenophorae, Septoria, Helminthosporium, Fusarium, Rhizoctonia, Cercospora, Peronospora, Erysiphe, Pythium e Pestalozzia.

[00192] Espécies de fungos contemplados para o uso nas composições e métodos descritos neste pedido incluem, por exemplo, Pseudocercosporella herpotrichoides, Helminthosporium gramineum, Pyrenophorae avenae, Septoria nodorum, Helminthosporium teres, Fusarium roseum, Fusarium nivale, Fusarium culmorum, Rhizoctonia cerealis, Pullularia pullulans, Chaetomium globosum, Coniophora puteana, Cercospora beticola, Peronospora tabacina, Erysiphe cichoracearum, Pyprenophora avenae, Whetzelinia sclerotiorium, Monilia laxa, Mycosphaerella fijiensis, Marssonina panattoniana, Alternaria solani, Aspergillus niger, Cladosporium herbarium, Penicillium expansum, Phialophora cinerescens, Phoma betae, Phoma foveata, Phoma lingam, Verticillium dahliae, Ascochyta pisi, Guignardia bidwellii, Corticium rolfsii, Phomopsis viticola, Sclerotinia sclerotiorum, Sclerotiniia minor, Phytophthora cinnamomi, Phytophthora cactorum, Phytophthora capsici, Phytophthora parasitica, Phytophthora megasperma, Phytophthora syringae, Coryneum cardinal, Septoria tritici, Botrytis cinerea, Fusarium oxysporum, Fusarium melonis, Rhizoctonia solani e Helminthosporium gramineum.

[00193] Cada um dos fungos acima mencionados e outros conhecidos na técnica são contemplados para o uso neste pedido.

Métodos de Criação de uma Célula ou Vírus Recombinantes Ou Sintéticos

[00194] É fornecido neste pedido um método de criação de uma célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água, compreendendo: (i) geração de uma sequência de ácidos nucleicos compreendendo uma sequência de identificadores de códon selecionado baseada no texto da linha d’água tal que o mapeamento de símbolos de identificadores de códon de mapas correspondente ao códon(s) de partida para símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e identificadores de códon de mapas correspondentes ao códon(s) de parada para símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água; (ii) síntese da dita sequência de ácidos nucleicos; e (iii) introdução da dita sequência de ácidos nucleicos em uma célula ou vírus recombinantes ou sintéticos, por meio disso criando a dita célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água.

[00195] É fornecido neste pedido um método de criação de uma célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água, compreendendo: (i) geração de uma sequência de ácidos nucleicos compreendendo um ou mais identificadores de códon do grupo dos símbolos legíveis humanos de uma dita linguagem de referência compreendendo a linha d’água que transmite uma mensagem não genética, em que um mapeamento de símbolo é configurado para mapear um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos para um códon de partida, e em que o mapeamento de símbolo é ainda configurado para mapear um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos para um códon de parada; (ii) síntese da dita sequência de ácidos nucleicos; e (iii) introdução da dita sequência de ácidos nucleicos em uma célula ou vírus recombinantes ou sintéticos, por meio disso criando a dita célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água.

[00196] Alternativamente, é fornecido neste pedido um método de criação de uma célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água, compreendendo: (i) geração de uma sequência de ácidos nucleicos compreendendo um ou mais identificadores de códon do grupo dos símbolos legíveis humanos da dita linguagem de referência compreendendo a linha d’água que transmite uma mensagem não genética, em que um mapeamento de símbolo é configurado para mapear um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos para um códon de partida, e em que o mapeamento de símbolo é ainda configurado para mapear um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos para um códon de parada; (ii) síntese da dita sequência de ácidos nucleicos; e (iii) introdução da dita sequência de ácidos nucleicos em uma célula ou vírus recombinantes ou sintéticos, por meio disso criando a dita célula ou vírus recombinantes ou sintéticos compreendendo uma linha d’água.

[00197] Em uma modalidade, o mapeamento de símbolo não mapeia um identificador de códon de três nucleotídeos para uma representação de letra única de um resíduo de aminoácido normalmente destinado àquele códon de três nucleotídeos no código genético padrão.

[00198] Em outra modalidade, a etapa de geração (i) é assistida por computador e compreende a identificação do conjunto de símbolos legíveis humanos em um módulo de memória e para cada símbolo legível humano no conjunto, usando um processador para ler um mapeamento de símbolo para determinar um identificador de códon que mapeia o respectivo símbolo legível humano.

métodos de Uso

[00199] As tecnologias atuais permitem a geração de moléculas de ácidos nucleicos sintéticas e/ou a capacidade de alterar as sequências de ácidos nucleicos de moléculas de ácidos nucleicos existentes. Com um esquema cuidadoso de codificação e arranjo, é possível codificar informação importante como uma sequência sintética de ácidos nucleicos e armazená-la em um hospedeiro vivo seguramente e permanentemente. Esta tecnologia pode ser usada para identificar origens de um hospedeiro contendo uma linha d’água e proteger investimentos de pesquisa e desenvolvimento. Também pode ser usado na pesquisa ambiental para rastrear de gerações de organismos e observar o impacto ecológico de poluentes. Hoje, há microrganismos que podem sobreviver sob condições extremas. Também, é vantajoso considerar organismos multicelulares como hospedeiros para informação armazenada. Estes organismos vivos podem ser fornecidos como alojamento de memória e proteção de dados ou informação armazenados. A presente invenção fornece bem para armazenamento de dados em um organismo vivo em que pelo menos uma mensagem não genética ou linha d’água são codificadas para representar a informação e incorporadas em uma célula viva ou organismo.

[00200] Um aspecto fornecido neste pedido é o armazenamento de uma mensagem não genética em organismos vivos multicelulares (por exemplo, roedores, primatas, ovelhas, cavalos, vacas, porcos, cães, gatos, etc.). Isto pode ser alcançado incorporando pelo menos uma sequência de ácidos nucleicos codificada para representar uma mensagem não genética em uma célula germinativa; uma célula precursora que dá origem a gametas que então servirão como células haploides especializadas (esperma ou ovo) na reprodução sexuada, ou célula-tronco; uma célula relativamente não diferenciada que continuará dividindo-se indefinidamente, continuando nas células-filha (produção) que sofrerão diferenciação terminal em tipos celulares particulares. A sequência de ácidos nucleicos codificada então propagará em um organismo vivo multicelular. Esta modalidade da invenção é um sistema de armazenamento de memória que tira proveito de organismos multicelulares (por exemplo, inseto, roedor, etc.) e serviços para propagar a sequência de ácidos nucleicos codificada em todas as células-filha que se originam da célula-tronco do hospedeiro original.

[00201] Também é fornecido neste pedido um sistema de armazenamento de memória em que um organismo vivo compreende neste pelo menos uma sequência de ácidos nucleicos codificada para representar uma mensagem não genética. A mensagem não genética armazenada reside em um organismo vivo e permanece lá até que a recuperação seja desejada. A mensagem não genética então é recuperada e decifrada para permitir a comunicação. Como um dispositivo de memória de computador que pode armazenar dados e programas, os mesmos itens ou similares podem ser contidos em um sistema de memória ácido nucleico.

[00202] As mensagens não genéticas ou linhas d’água descritas neste pedido podem ser usadas para traçar ou monitorar a distribuição de uma célula ou organismo particular in situ, exceto situ, in vitro, in vivo ou uma combinação dos mesmos.

[00203] É fornecido neste pedido um método de determinação da presença de um organismo recombinante ou sintético compreendendo uma linha d’água de referência em uma amostra que transmite uma mensagem não genética, o dito método compreendendo: (i) sequenciamento do material de ácido nucleico obtido de um ou mais organismos na dita amostra ambiental; (ii) transformação da sequência de ácidos nucleicos obtida na etapa (i) ao grupo de identificadores de códon, em que cada identificador de códon do dito conjunto de identificadores de códon consiste em três nucleotídeos da dita sequência nas três regiões de leitura; (iii) determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre um mapeamento de símbolos daqueles identificadores de códons de mapa correspondente ao códon(s) de partida para símbolos legíveis humanos que possuem uma frequência desproporcionalmente baixa na linguagem da linha d’água, e que mapeia identificadores de códon correspondentes ao códon(s) de parada para símbolos legíveis humanos que possuem uma frequência desproporcionalmente alta na linguagem da linha d’água; e (iv) comparação da sequência de símbolo legível humano das três regiões de leitura à linha d’água de referência no dito organismo recombinante ou sintético, pelo qual a presença da linha d’água de referência em qualquer região de leitura do material de ácido nucleico obtido na etapa (i) indica a presença do organismo recombinante ou sintético na amostra ambiental.

[00204] É fornecido neste pedido um método de determinação da presença de um organismo recombinante ou sintético compreendendo uma linha d’água de referência em uma amostra que transmite uma mensagem não genética, o dito método compreendendo: (i) sequenciamento do material de ácido nucleico obtido de um ou mais organismos na dita amostra ambiental; (ii) transformação da sequência de ácidos nucleicos obtida na etapa (i) ao grupo de identificadores de códon, em que cada identificador de códon do dito conjunto de identificadores de códon consiste em três nucleotídeos da sequência dita nas três regiões de leitura; (iii) determinação de um símbolo legível humano de cada identificador de códon na sequência nas três regiões de leitura, em que a dita determinação é baseada pelo menos em parte sobre um mapeamento de símbolos que é configurado para mapear um códon de partida para um símbolo legível humano com uma frequência de distribuição de menos de um por cento no conjunto de símbolos legíveis humanos e é ainda configurado para mapear um códon de parada para um símbolo legível humano com uma frequência de distribuição de mais de cinco por cento no conjunto de símbolos legíveis humanos; e (iv) comparação da sequência de símbolo legível humano das três regiões de leitura à linha d’água de referência no dito organismo recombinante ou sintético, pelo qual a presença da linha d’água de referência em qualquer região de leitura do material de ácido nucleico obtido na etapa (i) indica a presença do organismo recombinante ou sintético na amostra ambiental.

[00205] Uma amostra pode ser qualquer amostra que pode conter uma célula recombinante ou sintética tal como, por exemplo, uma amostra ambiental, uma amostra depositada com um depósito celular (por exemplo, American Type Culture Collection (ATCC) ou outro depósito internacional, uma amostra de laboratório, suplementos alimentícios, uma amostra comercial, culturas e sementes recombinantemente engendradas, etc.

[00206] As amostras ambientais incluem, mas não são limitadas a amostras de água, amostras de solo, culturas, depósitos ou derramamentos de óleo, depósitos de carvão, depósitos minerais, células de algas usadas para produção de biocombustível, culturas e sementes recombinantemente engendradas, culturas que entraram em contato com culturas recombinantemente engendradas (por exemplo, milho, uvas, etc.) em virtude da reprodução, amostras contendo células ou organismos úteis para melhorar a qualidade de solo, fungos usados para aumentar o crescimento vegetal, etc.

[00207] As amostras incluem, mas não são limitadas a, células e organismos em um laboratório de pesquisa. Tais amostras podem ser distribuídas internamente dentro de uma companhia, universidade ou instituto, ou distribuídas externamente como parte de uma colaboração ou acordo de transferência de material.

[00208] As amostras também incluem suplementos nutritivos tais como, por exemplo, estoques de algas usados em suplementos nutritivos, algas dessecadas, bactérias para uso em suplementos digestivos e/ou culturas de iogurte, alimento animal e suplementos animais.

[00209] As amostras também incluem vacinas bacterianas e virais tais como, por exemplo, vacinas vivas, vacinas modificadas, vacinas inativadas, etc.

[00210] Também contempladas neste pedido são amostras contendo organismos para produção de enzimas industriais. Tais enzimas são úteis, por exemplo, em detergentes comerciais (por exemplo, sabão para louças, detergente de lavanderia, etc.).

[00211] As amostras também incluem animais recombinantemente engendrados (por exemplo, roedores, primatas, ovelhas, cavalos, vacas, touros, porcos, cães, gatos, etc.). É fornecido neste pedido um método de marcação genética de um organismo não humano introduzindo no organismo uma molécula de ácidos nucleicos contendo uma linha d’água que pode ser decifrada usando os métodos descritos neste pedido.

Métodos de Monitoramento e Rastreamento

[00212] Em um aspecto, é fornecido neste pedido um método de monitoramento da fonte, propriedade, ou modificações em uma amostra ao longo do tempo. A amostra que é monitorada pode ser de amostra contendo um ou mais de: uma célula procariótica, um vírus, uma célula de arquea ou uma célula eucariótica. O monitoramento pode determinar se o estado de uma amostra foi modificado ao longo do tempo. Por exemplo, uma cultura recombinantemente engendrada pode ser monitorada para determinar que as células contendo uma modificação são expandidas pelo ambiente através de meios naturais ou são transportadas ilegalmente. O monitoramento pode ser realizado por qualquer um dos métodos fornecidos neste pedido.

[00213] Em outro aspecto, é fornecido neste pedido um método de rastreamento de uma amostra que é transportada por meios naturais ou artificiais.

[00214] Embora as modalidades deste pedido de patente tenham sido descritas com referência aos desenhos acompanhantes, deve ser observado que várias modificações e alterações ficarão evidentes para os versados na técnica. Tais modificações e alterações devem ser entendidas como incluídas dentro do escopo de modalidades como definido pelas reivindicações acrescentadas.

[00215] Termos e frases usados neste documento, e variações dos mesmos, a menos que de outra maneira expressamente afirmado, devem ser interpretados como em aberto ao contrário de limitação. Como exemplos do precedente, o termo "inclusão" deve ser lido como significando "incluindo, sem limitação" ou similares; o termo "exemplo" é usado para fornecer exemplos exemplares do item em discussão, não uma lista exaustiva ou limitante do mesmo; e adjetivos tais como "convencional", "tradicional", "normal", "padrão", "conhecido" e termos de significado similar não devem ser interpretados como limitação do item descrito a um período do tempo dado ou a um item disponível desde um tempo dado, mas em vez disso devem ser lidos para englobar tecnologias convencionais, tradicionais, normais, ou padrão que podem estar disponíveis ou conhecidas agora ou em qualquer momento no futuro. Do mesmo modo, um grupo de itens ligados com a conjunção "e" não deve ser lido como requerendo que todos e cada um daqueles itens estejam presentes no agrupamento, mas um tanto devam ser lidos como "e/ou" a menos que expressamente afirmado de outra maneira. Similarmente um grupo de itens ligados com a conjunção "ou" não deve ser lido como requerimento de exclusividade mútua entre aquele grupo, mas também deve ser lido como "e/ou" a menos que expressamente afirmado de outra maneira. Além disso, embora itens, elementos ou componentes da revelação possam ser descritos ou reivindicados no singular, o plural é contemplado para estar dentro do escopo do mesmo a menos que a limitação ao singular seja explicitamente afirmada. A presença de palavras e frases de ampliação, tais como "um ou mais," "pelo menos," "mas não limitado a" ou outras como frases em alguns exemplos não devem ser lidas para significar que o caso mais estreito seja destinado ou necessário em exemplos onde tais frases de ampliação podem estar ausentes.

EXEMPLOS

[00216] Elementos do presente pedido de patente são ilustrados pelos seguintes exemplos, que não devem ser interpretados como limitantes de forma alguma.

Exemplo 1: Métodos de Codificação

[00217] As figuras 3 e 8 identificam identificadores de códon e os respectivos símbolos codificados destes. Em virtude do desenho da mensagem não genética ou linha d’água, o texto codificado não corresponde às sequências de um gene ou outra sequência biologicamente ativa quando na forma de um ácido nucleico na célula ou organismo. Exemplos fornecidos nas Figuras codificam todas as letras no alfabeto inglês americano bem como os 10 numerais e marcas de pontuação comuns.

[00218] Enquanto as presentes Figuras e Exemplos são descritos com respeito à língua inglesa, seria compreendido que o esquema de codificação pode ser adaptado a qualquer linguagem de referência como descrito acima.

[00219] Uma mensagem não genética codificada na sequência de ácidos nucleicos é flanqueada da sequência 5’-TTAACTAGCTAA-3’ (SEQ ID NO: 1) tanto nos lados 5’ como no 3’ da linha d’água uma vez que aquela sequência contém um códon de parada em todas as 6 regiões de leitura.

[00220] Para codificar uma mensagem não genética ou linha d’água, pode-se substituir de uma maneira serial, um para um, um dado símbolo do texto legível humano usando um ou mais de: alfabeto romano, numerais arábicos, e certa pontuação comum e símbolos de formatação de séries de três nucleotídeos. Estas substituições são realizadas tal que cada identificador de códon sucessivo (três sequência nucleotídica) seja adicionado à extremidade 3’ da sequência de ácidos nucleicos.

[00221] Por exemplo, a codificação do texto "JCVI-cepa 012.3 Todos os direitos reservados, 2009." em uma sequência de ácidos nucleicos uma linha d’água pode ser realizada à mão ou pelo programa de computador como se segue:

[00222] Primeiro a linha d’água começa com a sequência de DNA 5’-TTAACTAGCTAA-3’ (SEQ ID NO: 1). Depois, o primeiro símbolo legível humano do texto é "J". De acordo com a tabela exemplar acima, a letra "J" (caso superior ou inferior) corresponde à cadeia de 3 nucleotídeos 5’-GTT-3’ no código. Por isso, os três seguintes nucleotídeos da linha d’água são 5’-GTT-3’, que são adicionados à extremidade 3’ da sequência de linha d’água precedente. Neste estágio, a sequência da linha d’água ainda incompleta é 5’- TTAACTAGCTAAGTT-3’ (SEQ ID NO: 7).

[00223] O seguinte símbolo legível humano do texto é "C" que corresponde à cadeia de 3 nucleotídeos 5’-TTT-3’ no código. Por isso, os três seguintes nucleotídeos da linha d’água são 5’-TTT-3’. Neste estágio, a sequência da linha d’água ainda incompleta é 5’- TTAACTAGCTAAGTTTTT-3’ (SEQ ID NO: 8).

[00224] Desta maneira, adiciona-se em série três cadeias nucleotídicas apropriadas que correspondem aos símbolos legíveis humanos do texto à extremidade 3’ da sequência de linha d’água crescente. Os símbolos legíveis humanos que não são cobertos no código são omitidos. Quando todos os símbolos legíveis humanos do texto foram omitidos ou codificados na linha d’água, a sequência 5’- TTAACTAGCTAA-3’ (SEQ ID NO: 1) são adicionados à sua extremidade 3’.

[00225] Dessa forma, a sequência de linha d’água completamente codificada do texto "JCVI-cepa 012.3 Todos os direitos reservados, 2009." é: 5’- TTAACTAGCTAAGTTTTTTTGCTGCCCGCTTGACTATAGCTGTGCATATCTCTTACTC GAAATATATAGAACAACATACTACTGTACTCATGAGCTATACTATAAGCTTAACTATT GTAAATTGTGATAACTTCTTCTGTACGATTAACTAGCTAA-3' (SEQ ID NO: 9).

Exemplo 2: Métodos de Descodificação

[00226] Para decifrar uma linha d’água, realiza-se o mesmo processo como a codificação como descrito no Exemplo 1, mas ao contrário.

[00227] Substitui-se de uma maneira individual um para um, cada um dos três nucleotídeos sucessivos da linha d’água dos seus respectivos símbolos legíveis humanos do texto legível humano. Estas substituições (realizadas à mão ou por um programa de computador) são feitas tais que cada símbolo legível humano é colocado à direita do símbolo precedente como cada um substitui ao longo da linha d’água em uma direção 5’ a 3’. Isto é, o processo da substituição é realizado após a sequência 5’-TTAACTAGCTAA-3’ (SEQ ID NO: 1) ser removida de ambas as extremidades da linha d’água.

[00228] Por exemplo, para decifrar a sequência 5’- TTAACTAGCTAAGTTTTTTTGCTGCCCGCTTGACTATAGCTGTGCATATCTCTTACTC GAAATATATAGAACAACATACTACTGTACTCATGAGCTATACTATAAGCTTAACTATT GTAAATTGTGATAACTTCTTCTGTACGATTAACTAGCTAA-B'iSEQ ID NO; 9), a primeira etapa remove a sequência 5’-TTAACTAGCTAA-3’ (SEQ ID NO: 1) de ambas as extremidades da linha d’água deixando a seguinte linha d’água: 5’- GTTππTGCTGCCCGCTTGACTATAGCTGTGCATATCTCTTACTCGAAATATATAGA ACAACATACTACTGTACTCATGAGCTATACTATAAGCTTAACTATTGTAAATTGTGAT AACTTCTTCTGTACGA-3' (SEQ ID NO: 10).

[00229] Depois, os três primeiros nucleotídeos da sequência de linha d’água restantes são 5’-GTT-3’ que correspondem no código à letra "J". Dessa forma, a primeira letra do texto decifrado é "J". Os três seguintes nucleotídeos da sequência de linha d’água restante são 5’- TTT-3’ que corresponde no código à letra "C". Dessa forma, o texto decifrado agora lê "JC".

[00230] Desta maneira, substituem-se em série os símbolos legíveis humanos apropriados que correspondem às três séries de nucleotídeo da linha d’água ao lado direito do texto decifrado em crescimento. Neste caso exemplar, a linha d’água decifrada do final lê: "JCVI-CEPA 012.3 TODOS OS DIREITOS RESERVADOS, 2009".

[00231] Quando se está inseguro da região de leitura original para decifrar a sequência, isto seria executado em todas as três regiões de leitura 5’; dessa forma, começando a sequência com GTT como o primeiro identificador de códon (1), então com TTT como o primeiro identificador de códon (2), e então com TTT como o primeiro identificador de códon (3) para ver se algum destes produz uma sequência de símbolos legíveis humanos como se segue: GTT ITTTTG CTGCCC GCT (SEQ ID NO; 11) ,...(1) - JCVI-S... TTTTTTTGCTGCCCGCTT(SEQIDNO: 12) ....(2) = CCNN(1... TTT TTT GCT GCC CGC TTG (SEQ ID NO: 13) ... .(3) = CC S68V... em que a região de leitura (1) emergiria como a sequência reconhecível de símbolos legíveis humanos, isto é, a linha d’água.

[00232] A sequência decifrada é apresentada em maiúsculas porque o código, na sua forma básica, não se distingue entre letras de caso superior e inferior, causando a informação da qual as letras foram originalmente capitalizadas a serem perdidas no processo de codificação. Entretanto, as marcas de pontuação, tais como vírgulas, períodos, hífens, e espaços são todos conservados pelos procedimentos de codificação e decodificação.

[00233] O exemplo acima demonstra uma das características úteis das linhas d’água de DNA: se a linha d’água acima foi codificada duas vezes na mesma molécula genômica em posições a uma distância adequada separada uma da outra (por exemplo, 2 kilobases) e nas fitas de oposição, um iniciador único para a reação de PCR pode ser usada como um teste específico para a cepa diagnóstico para identificar a molécula em questão. Neste caso exemplar, o iniciador teria uma sequência que colocaria a extremidade 3’ do iniciador dentro da porção da linha d’água que codificou o número de cepa. Exemplo 3: Células Sintéticas que Contêm Linhas de água

[00234] Um genoma de Mycoplasma mycoides de 1,08 Mbp foi quimicamente sintetizado, e montado na levedura como um plasmídeo centromérico; o genoma foi isolado como DNA nu e transplantado em Mycoplasma capricolum para criar uma nova célula bacteriana controlada somente pelo genoma sintético.

[00235] Descrito no Pedido de Patente Internacional PCT/US10/35490 é o desenho, síntese e montagem do genoma de Mycoplasma mycoides 1.077.947-bp JCVI-syn1 1.078 cassetes de DNA sintético de 1 kb. A montagem foi facilitada por métodos de montagem in vitro e in vivo. Os cassetes em conjuntos de dez foram montados pela recombinação de levedura e propagados em um vetor de lançadeira de levedura/Escherichia coli. As montagens de 10 kb foram recombinadas em conjuntos de dez para produzir montagens de 100 kb. Onze montagens de 100 kb resultantes foram recombinadas em uma etapa final única no genoma completo. Um clone de levedura que nasce do genoma sintético foi selecionado e confirmado por PCR multiplex e análise de restrição.

[00236] O genoma sintético montado foi propagado na levedura como um plasmídeo centromérico e com sucesso transplantado nas células de Mycoplasma capricolum restrição-menor. As novas células têm as propriedades fenotípicas esperadas para M. mycoides e a sequência de DNA sintética projetada, incluindo sequências de linha d’água e outras deleções gênicas projetadas e polimorfismos. Esta cepa é referida como M. mycoides JCVI-syn1; isto foi o segundo cromossomo bacteriano sintetizado e o primeiro mais de um milhão de bp. É um genoma bacteriano sintético com sucesso transplantado na célula recipiente resultando em novas células que são controladas somente por um cromossomo sintético. As novas células de cromossomo sintéticas são capazes de autorreplicação contínua. Este estudo confirmou a capacidade de começar com a informação genética digitalizada, sintetizar novo DNA e transplantar aquele DNA sintético em células que substituem toda a informação genética existente e, como resultado, criou novas células controladas somente por que DNA projetado sintético. A informação genética existente (endógena) foi perdida e como resultado, novas células foram criadas que foram controladas somente pelo cromossomo sintético projetado.

Desenho de Genoma Doador Sintético

[00237] O desenho do genoma de M. mycoides JCVI-syn1 foi baseado nas sequências de genoma terminadas altamente exatas de duas cepas de laboratório anteriormente descritas de M. mycoides subespécie Capri GM12 (Flexores et al., Nucleic Acids Res, (2010); Lartigue et al., Science 325, 1693 (2009)). Uma foi o doador de genoma usado por Lartigue et al. [Acesso GenBank CP001621] (Lartigue et al., Science 317, 632 (2007)). A outra foi uma cepa criada pelo transplante de um genoma que tinha sido clonado e engendrado na levedura, yCpMmycl.l-Δtypelllres, [acesso GenBank CP001668] (Lartigue et al., Science 325, 1693 (2009)). As diferenças em 95 sítios foram identificadas entre sequências genômicas de M. mycoides. A sequência do genoma transplantado com sucesso da levedura (CP001668) foi usada como uma referência para o desenho; todas as diferenças entre cassetes anteriormente sintetizados que pareceram ser de significância biológica foram corrigidas para combinar com CP001668. As diferenças de sequência entre os nossos cassetes sintéticos e CP001668 que ocorreram em 19 sítios pareceram inofensivas, e não corrigidas também. Estas forneceram 19 diferenças polimórficas entre o genoma sintético (JCVI-syn1) e o genoma natural que clonamos em levedura e uso como um padrão do transplante de genoma da levedura, YCpMmyc1.1 (Lartigue et al., Science 325, 1693 (2009)). Linhas de água

[00238] Para diferenciar entre um genoma sintético ou que ocorre não naturalmente e um natural, quatro sequências de linha d’água exemplares foram projetadas; estas sequências foram adicionadas a um genoma em lugares onde a inserção de uma sequência adicional, ou onde a substituição de uma sequência, não interferiria na viabilidade. Linha d’água-1, 321 caracteres não codificados, 1246 pares de base J, CRAIG VENTER INSTITUTE 2009 ABCDEFGHTJKLMNOPQRSTUVWXYZ 0123456789#@O+^/:<^S&} {*]” [%!r„ SYNTHETIC GENOMICS, INC. <!DOCTYPE 11TML><HTML><HEAD><TITLE>GENOME TEAM<ΠTLEXZHEADXBOD Y><A HREF="HTTP://WWW.JCVI.ORGC>THE JCVI</A><P>PROVE YOU’VE DECODED THIS WATERMARK BY EMAILING US <A HREF=’,MAILTO:MROQST1Z@JCVI.ORG,’>HERE!</A></P></BODY></HT ML> TTAACTAGCTAAGTTCGAATATTTCTATAGCTGTACATATTGTAATGCT GATAACTAATACTGTGCGCTTGACTGTGATCCTGATAAATAACTTCTTCTGTAGG GTAGAGTTTTATTTAAGGCTACTACTGGTTGCAAACCAATGCCGTACATTACTAG CTTGATCCTTGGTCGGTCATTGGGGGATATCTCTTACTAATAGAGCGGCCTATCG CGTATTCTCGCCGGACCCCCCTCTCCCACACCAGCGGTGTACATCACCAAGAAAA TGAGGGGAACGGATGAGGAACGAGTGGGGGCTCATTGCTGATCATAATGACTGT TTATATACTAATGCCGTCAACTGTTTGCTGTGATACTGTGCTTTCGAGGGCGGGA GATTCTTTTTGACATACATAAATATCATGACAAAACAGCCGGTCATGACAAAACA GCCGGTCATAATAGATTAGCCGGTGACTGTGAAACTAAAGCTACTAATGCCGTCA ATAAATATGATAATAGCAACGGCCTGACTGTGAAACTAAAGCCGGCACTCATAA TAGATTAGCCGGAGTCGTATTCATAGCCGGTAGATATCACTATAAGGCCCAGGAT CATGATGAACACAGCACCACGTCGTCGTCCGAGTTTTTTTGCGCGACGTCTATAC CACGGAAGCTGATCATAAATAGTTTTTTTGCTGCGGCACTAGAGCCGGACAAGCA CACTACGTTTGTAAATACATCGTTCCGAATTGTAAATAATTTAATTTCGTATTTAA ATTAATGATCACTGGCTATAGTCTAGTGATAACTACAATAGCTAGCAATAAGTCA TATATAACAATAGCTGAACCTGTGCTACATATCCGCTATACGGTAGATATCACTA TAAGGCCCAGGACAATAGCTGACTGACGTCAGCAACTACGTTTAGCTTGACTGTG GTCGGTTTTTTTGCTGCGACGTCTATACGGAAGCTCATAACTATAAGAGCGGCAC TAGAGCCGGCACACAAGCCGGCACAGTCGTATTCATAGCCGCACTCATGACAAA ACAGCGGCGCGGCTTAACTAGCTAA (SEQ ID NO; 14) Linha d’água-2, 326 caracteres não codificados, 1081 pares de base MIKKEL ALGIRE, MICHAEL MONTAGUE, SANJAY VASHEE, CAROLE LARTIGUE, CHUCK MERRYMAN, NINA ALPEROVICH, NACYRA ASSAD-GARCIA, GWYN BENDERS, RAY-YUAN CHUANG, EVGENIA DENISOVA, DANIEL GIBSON, JOHN GLASS, ZHI-QING QI, "TO LIVE, TO ERR, TO FALL, TO TRIUMPH, TO RECREATE LIFE OUT OF LIFE." - JAMES JOYCE TTAACTAGCTAACAACTGGCAGCATAAAACATATAGAACTACCTGCTA TAAGTGATACAACTGTTTTCATAGTAAAACATACAACGTTGCTGATAGTACTCCT AAGTGATAGCTTAGTGCGTTTAGCTATATTGTAGGCTTCATAATAAGTGATATTTT AGCTACGTAACTAAATAAACTAGCTATGACTGTACTCCTAAGTGATATTTTCATC CTTTGCAATACAATAACTACTACATCAATAGTGCGTGATATCCTGTGCTAGATAT AGAACACATAACTACGTTTGCTGTTTTCAGTGATATGCTAGTTTCATCTATAGATA TAGGCTGCTTAGATTCCCTACTAGCTATTTCTGTAGGTGATATACGTCCATTGCAT AATTAATGCATTTAACTAGCTGTGATACTATAGCATCCCCATTCCTAGTGCATATT TTCATCCTAGTGCTACGTGATATAATTGTACTAATGCCTGTAGATAATTTAATGCC TGGCTCGTTTGTAGGTGAAATTTAGTGCCTGTAAAACATATACCTGAGTGCTCGT TGCGTGATAGTTCGTTCATGCATATACAACTAGGCTGCTGTGATATGGTCACTGC CCTTACTGTGCTACATATTACTGCGAGGGGGATGACTATAAACCTGTTGTAAGTG ATATGACGTATATAACTACTAGTGATATGACGTATAGGCTAGAACAACGTGATAT GACGTATATGACTACTGTCCCAAACATCAGTGATATGACGTATACTATAATTTCA TAATAGTGATAAATAAACCTGGGCTAAATACGTTCCTGAATACGTGGCATAAACC TGGGCTAACGAGGAATACCCATAGTTTAGCAATAAGCTATAGTTCGTCATTTTrA AGGCGCGCCTTAACTAGTAA (SEQ ID NO: 15) Linha d’água-3, 335 caracteres não codificados, 1109 pares de base CLYDE HUTCHISON, ADRIANA JIGA, RADHA KRISHNAKUMAR, JAN MOY, MONZIA MOODIE, MARVIN FRAZIER, HOLLY BADEN-TILSON, JASON MITCHELL, DANA BUSAM, JUSTIN JOHNSON, LAKSHMI DEVI VISWANATHAN, JESSICA HOSTETLER, ROBERT FRIEDMAN, VLADIMIR NOSKOV, JAYSHREE Z AVERT "SEE THINGS NOT AS THEY ARE, BUT AS THEY MIGHT BE." TTAACTAGCTAATTTAACCATATTTAAATATCATCCTGATΠTCACTGGC TCGTTGCGTGATATAGATTCTACTGTAGTGCTAGATAGTTCTGTACTAGGTGATA CTATAGATTTCATAGATAGCACACTGGCTTCATGCTAGGCATCCCAATAGCTAGT GATAGTTTAGTGCATACAACGTCATGTGATACAACGTTGCTGGCTGTAGATACAA CGTCGTATTCTGTAAGTGATACAATAGCTATTGCTGTGCAAGGCCTATAGTGGCT GTAACTAGTGATATCACGTAACAACCATATAAGTTAGATTTAATGCCCCTGACTG AACGCTCGTTGCGTGATAGTITAGGCTCGTTGCATACAACTGTGATTTTCATAAA ACACGTGATAATTTAGTGCTAGATAAGTTCCGCTTAGCAAGTGATAGTTTCCGCT TGACTGTGCATAGTTCGTTCATGCGCTCGTTGCGTGATAAACTAGGCAGCTTCAC AACTGATAATTTAATTGCTGAATTGCTGGCTGTCTAGTGCTAGTGATCATAGTGC GTGATAGTTTAAGCTGCTCTGTTTTAGATATCACGTGCTTGATAATGAAACTAAC TAGTGATACTACGTAGTTAACTATGAATAGGCCTACTGTAATTCAATAGTGCGTG ATATTGAACTAGATTCTGCAACTGCTAATATGCCGTGCTGCACGTTTGGTGATAG TTTAGCATGCTTCACTATAATAAATATGGTAGTTGTAACTACTGCGAATAGGGGG AGTTAATAAATATGATCACTGTGCTACGCTATATGCCGTTGAATATAGGCTATAT GATCATAACATATATAGCTATAAGTGATAAGTTCCTGAATATAGGCTATATGATC ATAACATATACAACTGTACTATGAATAAGTTAACGAGGATTAACTAGCTAA (SEQ ID NO' 16) Linha d’água-4, 338 caracteres não codificados, 1222 pares de base CYNTHIA ANDREWS-PFANNKOCH, QUANG PHAN, LI MA, HAMILTON SMITH, ADI RAMON, CHRISTIAN TAGWERKER, J CRAIG VENTER, EULA WILTURNER, LEI YOUNG, SHIBU YOOSEPH, PRABHA IYER, TIM STOCKWELL, DIANA RADUNE, BRIDGET SZCZYPINSKI, SCOTT DURKIN, NADIA FEDOROVA, I JAVIER QUINONES, HANNA TEKLEAB. "WHAT I CANNOT BUILD, I CANNOT UNDERSTAND." - RICHARD FEYNMAN TTAACTAGCTAATTTCATTGCTGATCACTGTAGATATAGTGCATTCTAT AAGTCGCTCCCACAGGCTAGTGCTGCGCACGTTTTTCAGTGATATTATCCTAGTG CTACATAACATCATAGTGCGTGAAAACCTGATACAATAGGTGATATCATAGCAA CTGAACTGACGTTGCATAGCTCAACTGTGATCAGTGATATAGATTCTGATACTAT AGCAACGTTGCGTGATATTTTCACTACTGGCTTGACTGTAGTCATATGATAGTAC GTCTAACTAGCATAACTAGTGATAGTTATATTTCTATAGCTGTACATATTGTAATG CTGATAACTAGTGATATAATCCAACTAGATAGTCCTGAACTGATCCCTATGCTAA CTAGGATAAACTAACTGATACATCGTTCCTGCTACGTGATAGCTTCACTGAGTTC CATACATCGTCGTGCTTAAACATCAGTGATAACACTATAGAGTTCATAGATACTG CATTAACTAGTGATATGACTGCAATAGCTTGACGTTTTGCAGTCTAAAACAACGT GATAATTCTGTAGTGCTAGATACTATAGATTTCCTGCTAAGTGATAAGTCTACTG ATTTACTAATGAATAGCTTGGTTTTGGCATACACTGTGCGTGCACTGGTGATAGC TTTTCGTTGATGAATAATTTCCCTAGCACTGTGCGTGATATGCTAGATTCTGTAGA TAGGCTAAATTCGTCTACGTTTGTAGGTGATAGTTTAGTTGCTGTAACTAATATTA TCCTGTGCCGTTGCTAAGCTGTGATATCATAGTGCTGCTAGATATGATAAGCAAA CTAATAGAGTCGAGGGGGAGTCTCATAGTGAATACTGATATTTTAGTGCTGCCGT TGAATAAGTTCCCTGAACATGTGATACTGATATΠTAGTGCTGCCGTTOAATATC CTGCATTTAACTAGCTTGATAGTGCATTCGAGGAATACCCATACTACTGTTTTCAT AGCTAATTATAGGCTAACATTGCCAATAGTGCGGCGGCC1TAACTAGCTAA (SEQ ID NO: 17)

[00239] Linhas d’água 1-4 substituíram os cassetes 282-287, 447, 106, e 680, respectivamente como anteriormente descrito em PCT/US10/35490. As linhas d’água foram inseridas em regiões experimentalmente demonstradas (linha d’água 1 (1246 bp) e 2 (1081 bp)) ou preditas (linha d’água 3 (1109 bp) e 4 (1222 bp) para não interferir na viabilidade celular. Um dos 6 códons de parada da região de leitura é sublinhado no começo e final de cada linha d’água; sítios de restrição Afc I são mostrados em itálico negrito. Uma vez que os dados indicaram que a sequência de genoma representada por cassetes 936-939 era dispensável, uma versão do cassete 940 que continha uma sobreposição de 80 bp ao cassete 935 foi produzida. Isto produziria uma deleção de 4 kb e ainda distinguiria o genoma sintético de um natural.

[00240] O desenho de genoma sintético, com esta deleção e as quatro sequências de linha d’água tinha 1.077.947 bp de comprimento. Esta sequência foi dividida em cassetes de 1.080 bp de comprimento com sobreposições de 80 bp, e um sítio de restrição NotI (GCGGCCGC) foi adicionado a cada extremidade. Um mapa dos genes, os 1.078 cassetes dos quais foram montados, polimorfismos esperados, polimorfismos inesperados, um transposon de E. coli inserido, e outras características de M. mycoides JCVI-syn1 foram criadas as quais fornecem o mapa de genoma de M. mycoides JCVI- syn1. Genes, RNAs estruturais, linhas d’água, polimorfismos relativos a M. mycoides Capri GM12 natural, e as coordenadas dos cassetes de DNA sintético foram identificados.

Montagem de Genoma de Doador Sintético e Transplante

[00241] Uma estratégia hierárquica foi projetada para montar o genoma em 3 estágios por transformação e recombinação homóloga na levedura. No primeiro estágio, foram tomados 10 cassetes de uma vez para produzir intermediários de montagem de 10 kb. No segundo estágio, estes intermediários de 10 kb foram tomados 10 de uma vez para produzir onze intermediários de montagem de ~100 kb. No estágio final, os 11 fragmentos de DNA foram montados em um genoma sintético completo.

[00242] A fim de enriquecer mais para onze intermediários de montagem circular, amostras de ~200 ng de cada montagem foram agrupadas e misturadas com agarose fundida. Como agarose solidifica, o fio através de fibras e "aprisiona" topologicamente o DNA circular (Dean et al., Biochem Anal 56, 417 (dezembro de 1973)).

[00243] DNA linear não aprisionado então pode passar por eletroforese fora do plugue de agarose, que dessa forma enriquece para moléculas circulares aprisionadas. Onze intermediários de montagem circulares foram digeridos com NotI para que os insertos possam ser liberados. Posteriormente, os fragmentos foram extraídos do plugue de agarose, analisados por FIGE (dados não mostrados), e transformados em esferoplastos de levedura. Neste terceiro e final estágio de montagem, uma sequência de vetor adicional não foi necessária uma que que os elementos de propagação de levedura estiveram presentes já na montagem 811-900. Seguinte à incubação em placas seletivas, aproximadamente 100 colônias apareceram.

[00244] Aprisionamento topológico e análise foram conduzidos. As culturas de levedura (50 ml) foram cultivadas e processadas como anteriormente descritas. Os clones de levedura que contêm um genoma sintético completamente montado foram rastreados por PCR múltiplo com um conjunto de iniciadores que produzem 11 amplicons; um em cada uma das 11 ligações de montagem. Os pares de iniciadores foram projetados para transpor cada uma de onze ligações de montagem de 100 kb. De 48 colônias rastreadas, DNA extraído de um clone (sMmYCp235) produziu todos os 11 amplicons. PCR de controle positivo Selvagem (YCpMmyc1.1) produziu um conjunto indistinguível de 11 amplicons (dados não mostrados).

[00245] Para demonstrar ainda a montagem completa de um genoma sintético de M. mycoides, DNA intacto foi isolado da levedura em plugues de agarose e submetido a duas análises de restrição; AscI e BssHII. Uma vez que estes sítios de restrição estão presentes em três das quatro sequências da linha d’água, esta escolha de digestão produz modelos de restrição que são distintos do genoma M. mycoides natural. Genomas naturais (Selvagem) e sintéticos (235) de M. mycoides foram isolados da levedura em plugues de agarose. Além disso, DNA foi purificado da cepa hospedeira sozinha. Os plugues de Agarose foram digeridos com AscI ou BssHII e os fragmentos foram separados por eletroforese em gel de campo elétrico homogêneo estrito (CHEF).

Transplante de genoma de doador sintético em células recipiente

[00246] Plugues de agarose adicionais usadas na análise de gel acima também foram usados em experimentos de transplante de genoma. Genomas sintéticos intactos de M. mycoides do clone de levedura sMmYCp235 foram transplantados nas células recipiente de M. capricolum restrição-menor, como anteriormente descrito (Lartigue et al., Science 325, 1693 (Sep 25, 2009)). Os resultados foram marcados por seleção para o crescimento de colônias azuis em meio SP4 contendo tetraciclina e X-gal a 37 °C. Os genomas isolados deste clone de levedura produziram 5-15 colônias azuis resistentes à tetraciclina por plugue de agarose. Isto foi comparável com o controle YCpMmyc1.1. A recuperação de colônias em todos os experimentos de transplante foi observada quando tanto células recipiente de M. capricolum como um genoma de M. mycoides estavam presentes.

[00247] Para distinguir rapidamente os transplantes sintéticos de M. capricolum ou M. mycoides natural, duas análises foram realizadas. Em primeiro lugar, quatro pares de iniciadores que foram específicos para cada uma das quatro linhas d’água foram projetados tal que produzam quatro amplicons em uma reação de PCR multiplex única.

[00248] Os transplantes contendo um genoma sintético foram rastreados por PCR multiplex com um conjunto de iniciadores que produz 4 amplicons; um interno para cada uma das quatro linhas d’água. Um transplante (syn1) originando-se do clone da levedura sMmYCp235 foi analisado ao lado de um genoma natural, não sintético (Selvagem) transplantado fora da levedura.

[00249] Os quatro amplicons foram produzidos por transplantes gerados de sMmYCp235, mas não YCpMmyc1.1 (dados não mostrados).

[00250] Em segundo lugar, a análise de gel com AscI e BssHII, descrito acima, foi realizada. Resumidamente, genomas de M. mycoides natural (Selvagem) e sintético (syn1) foram isolados de transplantes de M. mycoides em plugues de agarose. Os plugues de agarose foram digeridos com AscI ou BssHII e os fragmentos foram separados por eletroforese em gel CHEF. O modelo de restrição obtido foi compatível com um transplante produzido de um genoma sintético de M. mycoides (dados não mostrados).

[00251] Um transplante único que se origina do genoma sintético sMmYCp235 foi sequenciado. Com a exceção dos polimorfismos conhecidos que ocorreram durante o processo de síntese, e 8 novos polimorfismos e uma inserção de transposon de E. coli inesperada, a sequência combinou com o desenho desejado. Esta cepa é referida como M. mycoides JCVI-syn1. As colônias (isto é, crescimento, células dividindo-se) foram cultivadas em ágar SP4 contendo Xgal para produzir as células que expressam beta-galactosidase azul. Dessa forma, as células sintéticas que compreendem as quatro linhas d’água que não impactaram biologicamente a viabilidade das células tinham sido produzidas.

[00252] Embora as modalidades preferenciais sejam mostradas e descritas neste pedido, tais modalidades são fornecidas por meio de exemplo somente. Deve ser entendido que várias alternativas e equivalentes às modalidades descritas neste pedido podem ser empregados.

Claims

1. Método de geração de uma sequência de identificadores de códon correspondendo a uma sequência de símbolos legíveis humanos e assinada de acordo com um esquema de codificação para transmitir uma mensagem não genética em uma linguagem de referência humana, o método caracterizado pelo fato de que consiste em: (i) recepção da sequência de símbolos legíveis humanos em um módulo de memória; (ii) carregamento de um mapa de símbolo legível humano dentro do módulo de memória, em que o mapa de símbolo legível humano é configurado para determinar um identificador de códon que mapeia cada símbolo legível humano dentro da sequência, em que o mapa de símbolos legível humano é ainda configurado para mapeamento de um símbolo legível humano com uma frequência de ocorrência que é menor que um por cento dentro de uma linguagem de referência para um códon de partida, e em que o mapa de símbolos é ainda configurado para mapeamento de um símbolo legível humano com uma frequência de ocorrência que é maior do que cinco por cento dentro da linguagem de referência a um códon de parada, e nenhum símbolo é codificado por ATG; e (iii) liberação de uma sequência de identificadores de códon correspondente a cada símbolo legível humano dentro da sequência; (iv) sintetização de um ácido nucleico com a sequência da etapa (iii).

2. Método para criar um microrganismo transgênico, caracterizado pelo fato de que consiste em: (i) geração de uma sequência de ácido nucleico como definida na reivindicação 1; e (ii) introdução da referida sequência de ácido nucleico em um microrganismo transgênico.

3. Microrganismo transgênico, caracterizado pelo fato de que consiste na sequência de ácido nucleico sintético como definido na reivindicação 2, em que a referida sequência de ácido nucleico tem um comprimento de 0,1 kb a 40 kb.

4. Microrganismo transgênico, de acordo com a reivindicação 3, caracterizado pelo fato de que: (a) o referido microrganismo transgênico é uma célula procariótica, uma célula de arquea, uma célula bacteriana, uma célula de levedura, uma célula fúngica ou uma célula de alga.

5. Microrganismo transgênico, de acordo com qualquer uma das reivindicações 1 a 4, caracterizado pelo fato de que o dito conjunto de símbolos legíveis humanos consiste em uma marca d'água que permite a autenticação ou identificação do dito microrganismo transgênico compreendendo a dita marca d'água, em que a dita marca d'água é preferencialmente um aviso de direitos autorais, uma marca comercial, um identificador da empresa, um nome, uma frase, uma sentença, uma cotação, informações genéticas, informações de identificação exclusivas, dados ou uma combinação de qualquer um dos mesmos.

6. Microrganismo transgênico, de acordo com qualquer uma das reivindicações 2 a 5, caracterizado pelo fato de que a sequência de ácido nucleico sintética ainda consiste em um códon de parada em todas as 6 fases de leitura contendo a sequência 5’ para um primeiro identificador de códon na sequência e/ou um códon de parada em todas as 6 fases de leitura de quadro de leitura contendo a sequência 3’ para o último identificador de códon na sequência.

7. Método, de acordo com qualquer uma das reivindicações 1 a 6, caracterizado pelo fato de que o idioma de referência é selecionado dentre o grupo que consiste em: inglês, espanhol, francês, italiano e alemão.

8. Método, de acordo com a reivindicação 7, caracterizado pelo fato de o idioma de referência é o inglês.

9. Método para criação de um microrganismo transgênico compreendendo uma marca d'água que transmite uma mensagem não genética, caracterizado pelo fato de que consiste em: (i) geração de uma sequência de ácido nucleico como definida na reivindicação 1; e (ii) introdução da referida sequência de ácido nucleico em um microrganismo transgênico, criando assim o referido microrganismo transgênico compreendendo uma marca d'água.

10. Método, de acordo com a reivindicação 9, caracterizado pelo fato de que o referido microrganismo transgênico é uma célula procariota, uma célula arquea, uma célula bacteriana, uma célula de levedura, uma célula fúngica ou uma célula de alga.

11. Método, de acordo com qualquer uma das reivindicações 9 a 10, caracterizado pelo fato de que o esquema de codificação não mapeia um identificador de códon de três nucleotídeos para uma representação de uma letra única de um resíduo de aminoácido normalmente atribuído àquele códon de três nucleotídeos no código genético padrão.

12. Método, de acordo com qualquer uma das reivindicações 9 a 10, caracterizado pelo fato de que a referida etapa de geração (i) é assistida por computador e compreende a identificação do conjunto de símbolos legíveis humanos em um módulo de memória e para cada símbolo legível humano no conjunto, e usa um processador para ler um esquema de codificação para determinar um identificador de códon que mapeia para o respectivo símbolo legível humano.

13. Método, de acordo com qualquer uma das reivindicações 9 a 12, caracterizado pelo fato de que o referido microrganismo transgênico é uma célula bacteriana.