ES2870639T3

ES2870639T3 - Ocultación de información presente en los ácidos nucleicos

Info

Publication number: ES2870639T3
Application number: ES17865703T
Authority: ES
Inventors: Sterling Sawaya
Original assignee: Geneinfosec Inc
Current assignee: Geneinfosec Inc
Priority date: 2016-10-24
Filing date: 2017-10-24
Publication date: 2021-10-27
Anticipated expiration: 2037-10-24
Also published as: JP2019533478A; US20190233877A1; US11667951B2; EP3529400B1; CN110312825A; JP6941680B2; CA3041645C; CA3041645A1; EP3529400A4; IL266197B1; EP3529400A1; IL266197A; WO2018081113A1; IL266197B2

Abstract

Método para ocultar información que pueda estar presente en los ácidos nucleicos, comprendiendo el método: (a) la generación de forma segura de códigos de barras; (b) la fijación de los códigos de barras a ácidos nucleicos para crear ácidos nucleicos con código de barras; (c) la agrupación de los ácidos nucleicos con código de barras con otros ácidos nucleicos; donde la generación segura de códigos de barras se realiza en una instalación que genera varios conjuntos de códigos de barras junto con una tabla de los códigos de barras presentes en cada conjunto; donde los códigos de barras y la tabla de códigos de barras se sellan en un recipiente que indica cuándo se ha roto el sello; donde los códigos de barras se fijan a las moléculas de ácidos nucleicos de manera que los códigos de barras no sean completamente idénticos entre los diferentes ácidos nucleicos con la misma muestra individual de ácidos nucleicos; donde la agrupación de los ácidos nucleicos con código de barras con otros ácidos nucleicos con código de barras oculta información presente en los ácidos nucleicos.

Description

DESCRIPCIÓN

Ocultación de información presente en los ácidos nucleicos

Referencia a solicitudes relacionadas

[0001] La presente solicitud reivindica el beneficio de la prioridad de la solicitud de patente provisional estadounidense n.° de serie 62/411,998, presentada el 24 de octubre de 2016.

Antecedentes

[0002] Los ácidos nucleicos pueden proporcionar información genética sobre un organismo del que se originaron los ácidos nucleicos (p. ej., riego de enfermedad). Esta información genética se puede utilizar para identificar a un individuo, lo que representa un desafío para la obtención de información genética manteniendo la privacidad de un individuo. Por ejemplo, se pueden identificar los participantes de un estudio de asociación genética y estimar su riesgo de enfermedad, utilizando los datos del estudio de asociación. Esto también puede representar un desafío para el uso de ácidos nucleicos en evaluaciones clínicas, puesto que los pacientes pueden temer que se les identifique al someterse una prueba genética. La ocultación de ácidos nucleicos también puede resultar de interés para los obtentores de plantas y/o criadores de animales. Estos obtentores/criadores pueden buscar información genética de los ácidos nucleicos de sus variedades/razas, pero también les puede interesar ocultar información sobre esas variedades/razas y/o métodos de cultivo/cría. Del mismo modo, aquellos que desarrollan microbios con fines industriales y/o médicos pueden beneficiarse de la ocultación de ácidos nucleicos frente a posibles adversarios. Asimismo, el uso de los ácidos nucleicos como medio de almacenamiento de datos puede justificar la ocultación de la información que se almacena en forma de ácidos nucleicos.

[0003] Para mitigar los problemas relacionados con la privacidad genómica en los seres humanos, los investigadores han propuesto diversas soluciones, entre las que se incluyen: el consentimiento informado, el cifrado de los datos genómicos, los límites en el intercambio de datos genómicos y la posibilidad de que los sujetos puedan optar por no participar en las bases de datos. Todos estos métodos se aplican únicamente a datos de las secuencias de ácidos nucleicos, no a los ácidos nucleicos en sí.

[0004] Los métodos para mantener la privacidad de los ácidos nucleicos antes de su análisis son muy escasos. Antes del análisis, las muestras individuales pueden tener sus ácidos nucleicos etiquetados con un código de barras, que identifica toda la muestra con un único código de barras. Al agrupar estas muestras, e identificarlas solo con el código de barras (y no con un nombre u otro identificador), se proporciona cierta ocultación limitada. Sin embargo, un adversario con acceso a los datos de la secuencia podría observar directamente el número de muestras que se agruparon, y conocería los genotipos de cada muestra. Por lo tanto, estos genotipos se podrían utilizar para identificar los orígenes de las muestras, y hacer predicciones sobre los caracteres de las muestras.

[0005] De forma adicional, los ácidos nucleicos se pueden utilizar como medio de almacenamiento de datos. En esos casos, los datos requieren un secuenciador para recuperar y/o convertir el medio de los datos (p. ej., a un formato digital). La ocultación de los datos almacenados en los ácidos nucleicos sería útil si un adversario tuviera acceso a los datos de la secuencia. En estas circunstancias o en otras similares, puede resultar útil ofuscar y ocultar el tipo o la forma de los datos presentes en los ácidos nucleicos.

[0006] Quail et al. («SASI-Seq: sample assurance Spike-Ins, and highly differentiating 384 barcoding for Illumina sequencing», BMC Genomics, 2014, 15:110) da a conocer la utilización de fragmentos de ADN con códigos de barras, introducidos en las muestras, para permitir el aseguramiento de las muestras, la deconvolución de las mezclas de muestras y la notificación de los niveles de contaminación cruzada entre las muestras. El código de barras permite la identificación inequívoca de una muestra.

[0007] WO 2015/117145 da a conocer la utilización de ácidos nucleicos con código de barras como estándar interno para cuantificar los ensayos de inmunoprecipitación de cromatina.

[0008] Por lo tanto, existe una necesidad insatisfecha de métodos para ocultar los propios ácidos nucleicos, antes del análisis. Al ocultar los ácidos nucleicos, podrían enviarse a un tercero para su análisis y, al mismo tiempo, minimizar la información proporcionada por los ácidos nucleicos de interés.

Breve sumario de la invención

[0009] La tecnología descrita en el presente documento se refiere a la preparación de ácidos nucleicos. Los métodos descritos en el presente documento se refieren a la ocultación de ácidos nucleicos antes de los análisis (p. ej., secuenciación). En algunos modos de realización, se oculta la identidad de la fuente de los ácidos nucleicos, anonimizando los ácidos nucleicos. En algunos modos de realización, se oculta la presencia de ácidos nucleicos. En algunos modos de realización, se oculta la información contenida en los ácidos nucleicos sobre los caracteres de un organismo. En algunos modos de realización, se oculta el propósito potencial del análisis de los ácidos nucleicos. En algunos modos de realización, se oculta información dentro de los ácidos nucleicos que se utilizan como medio de almacenamiento de información. Los métodos descritos en el presente documento también pueden referirse al enriquecimiento de ácidos nucleicos antes del análisis.

[0010] En un aspecto de la invención, se proporciona un método para ocultar información que pueda estar presente en los ácidos nucleicos, comprendiendo el método:

(a) la generación de forma segura de códigos de barras;

(b) la fijación de los códigos de barras a ácidos nucleicos para crear ácidos nucleicos con código de barras.

(c) la agrupación de los ácidos nucleicos con código de barras con otros ácidos nucleicos;

donde la generación segura de códigos de barras se realiza en una instalación que genera varios conjuntos de códigos de barras junto con una tabla de los códigos de barras presentes en cada conjunto;

donde los códigos de barras y la tabla de códigos de barras se sellan en un recipiente que indica cuándo se ha roto el sello;

donde los códigos de barras se fijan a las moléculas de ácidos nucleicos de manera que los códigos de barras no sean completamente idénticos entre los diferentes ácidos nucleicos con la misma muestra individual de ácidos nucleicos;

donde la agrupación de los ácidos nucleicos con código de barras con otros ácidos nucleicos con código de barras oculta información presente en los ácidos nucleicos.

[0011] En el presente documento también se da a conocer un método para preparar ácidos nucleicos antes del análisis de la secuencia, de manera que los ácidos nucleicos se ocultan y/u ofuscan y/o anonimizan. El método comprende:

(a) Generar un conjunto de códigos de barras compuestos por ácidos nucleicos en una instalación segura, y entregarlos a un consumidor, de modo que las propiedades de los códigos de barras queden ocultas para todos, excepto para el consumidor;

(b) Fijar los códigos de barras en los ácidos nucleicos que se han de analizar; y,

(c) Combinar los ácidos nucleicos con código de barras con otros ácidos nucleicos con código de barras para ocultar su información antes del análisis.

Métodos para generar materiales de forma segura en la etapa (a)

[0012] Los códigos de barras y sus correspondientes adaptadores, índices u otros ácidos nucleicos o sustancias químicas que funcionan para ayudar a ocular los ácidos nucleicos, pueden generarse en una instalación que se garantiza que no tiene ningún dispositivo de monitorización y que no tiene ninguna forma de comunicación fuera de la instalación segura. La instalación segura puede estar rodeada por un blindaje electromagnético, como una jaula de Faraday, para evitar la comunicación electromagnética no deseada. El equipo y la maquinaria dentro de la instalación pueden estar rodeados por un blindaje electromagnético. La instalación segura puede carecer de cables de comunicación fuera de la instalación, como líneas telefónicas de cobre o cables de fibra óptica. Los dispositivos electrónicos de este tipo de instalaciones pueden carecer de cualquier conexión con el exterior de la instalación, y estarían «aislados físicamente» del mundo exterior. Las personas que trabajen en la instalación no podrán llevar dispositivos de grabación de ningún tipo, como cámaras. La instalación de seguridad puede existir como edificio, o la instalación de seguridad puede existir como sala o conjunto de salas dentro de un edificio.

[0013] Un ordenador puede generar aleatoriamente un conjunto de secuencias de códigos de barras, garantizando que cada código de barras del conjunto sea único y que el conocimiento de cualquier código de barras del conjunto no permita predecir de ninguna manera los demás códigos de barras del conjunto. El conocimiento de algunos códigos de barras de un conjunto de códigos de barras puede utilizarse para hacer una cantidad limitada de predicciones sobre las secuencias de otros códigos de barras del conjunto. Los expertos en la materia pueden medir la cantidad de predicciones sobre un conjunto de códigos de barras que es admisible para un entorno de seguridad determinado. Este conjunto de códigos de barras puede dividirse en varios subconjuntos. Cada subconjunto se etiquetaría con un identificador único, y también se generaría en un ordenador una tabla que emparejara estos identificadores con los códigos de barras. La tabla de códigos de barras puede colocarse en un dispositivo de transferencia de datos seguro, como un CD-ROM, un DVD-ROM o una unidad de memoria flash. La tabla de identificadores de los códigos de barras también puede imprimirse en un soporte como el papel.

[0014] El conjunto de códigos de barras se puede examinar antes de la generación de códigos de barras para garantizar que las secuencias de códigos de barras no interfieran con su uso en cualquier etapa adicional de la invención. Esta comparación puede lograrse mediante un programa informático que pueda generarse por métodos conocidos por los expertos en la materia. Las secuencias de códigos de barras que no son idóneas para su uso pueden generarse antes de la generación de cualquier secuencia de códigos de barras, y pueden utilizarse para filtrar el conjunto de secuencias de códigos de barras antes de la generación de los códigos de barras.

[0015] La información sobre los códigos de barras puede transferirse a las máquinas utilizadas para generar los códigos de barras junto con sus correspondientes adaptadores, índices u otros materiales utilizados en esta tecnología. Toda la transferencia de información entre las máquinas y/u ordenadores puede tener lugar utilizando un cable que esté protegido de la radiación electromagnética, evitando que la información se filtre por el cable. De manera alternativa, el ordenador que genera el conjunto aleatorio de códigos de barras puede estar incorporado a la máquina o máquinas que se utilizan para generar los códigos de barras aleatorios. En estos casos, el blindaje de toda la máquina de la radiación electromagnética impediría detectar la información de los códigos de barras.

[0016] Los códigos de barras y sus materiales relacionados se generarían y colocarían en su propio recipiente, por ejemplo, un tubo de ensayo o en un pocillo de una placa de micropocillos. Estos recipientes se etiquetan y/o identifican para que se puedan buscar las identidades del código de barras utilizando la tabla de códigos de barras generada por el ordenador.

[0017] En algunos modos de realización, los subconjuntos de materiales con códigos de barras se colocan en un recipiente, junto con su tabla de códigos de barras. A continuación, este recipiente se sella como indicador de si ha sido abierto o manipulado de otra manera, utilizando, por ejemplo, sellos que no pueden volver a sellarse después de que la caja haya sido abierta. Este recipiente también puede contener otros ácidos nucleicos que se pueden utilizar para agruparse con los ácidos nucleicos en etapas adicionales de la tecnología. Los ácidos nucleicos que se incluyen pueden tener un código de barras, pueden tener un código de barras parcial o pueden no tener códigos de barras añadidos. En este recipiente se puede proporcionar el software y/o los archivos utilizados para dirigir el uso de esta tecnología.

[0018] Los códigos de barras pueden no ser completamente únicos. En algunos casos, los subconjuntos de códigos de barras contienen algunos códigos de barras que están presentes en otros subconjuntos. La generación de estos conjuntos de códigos de barras no completamente únicos puede ser dirigida de nuevo por un ordenador. En algunos modos de realización, los códigos de barras se generan de forma totalmente aleatoria. Por lo tanto, sus secuencias se pueden conocer, en parte o por completo, y la información sobre las secuencias de códigos de barras se pueden registrar de forma segura. La información sobre los códigos de barras generados aleatoriamente se puede colocar de forma segura en un dispositivo de transferencia de datos seguro, como un CD-ROM, un DVD-ROM o una unidad de memoria flash y/o, se puede comprobar la verdadera aleatoriedad de la generación del código de barras para garantizar que el conocimiento de algunos códigos de barras del conjunto no proporcionaría información sobre otros códigos de barras del conjunto, o solo proporcionaría una información mínima sobre otros códigos de barras para cumplir las normas de seguridad requeridas por el consumidor. A cada grupo de códigos de barras se le puede aplicar un proceso de filtrado a través del que se pueden eliminar los códigos de barras no deseables para garantizar que los códigos de barras no interferirán con otras etapas de la invención.

Métodos de codificación con código de barras en la etapa (b)

[0019] En algunos modos de realización, se añaden códigos de barras a los ácidos nucleicos antes del enriquecimiento o durante este. Esto se puede realizar utilizando la tecnología descrita en la publicación de patente estadounidense US 2015/0211050, y la publicación de patente estadounidense 2015/0211061.

[0020] En algunos modos de realización, se añaden códigos de barras por ligación y no se produce el enriquecimiento posteriormente. En algunos modos de realización, la codificación con código de barras por ligación puede producirse cuando los códigos de barras ya están presentes. La molécula de código de barras puede contener un adaptador que facilite la ligación del código de barras con otros ácidos nucleicos. En algunos modos de realización, los códigos de barras con adaptadores se pueden ligar utilizando ligación de extremos cohesivos, por ejemplo, ligación TA.

[0021] En algunos modos de realización, se utilizan enzimas de restricción para digerir los ácidos nucleicos antes de su codificación con código barras. En algunos modos de realización, la digestión con enzimas de restricción genera extremos cohesivos. En estos modos de realización, los adaptadores de los códigos de barras contienen extremos cohesivos que se corresponden con los extremos cohesivos generados por las enzimas de restricción, facilitando la ligación de los códigos de barras.

[0022] En algunos casos, no todos los ácidos nucleicos objetivo y/o señuelo se codifican con código de barras. En algunos modos de realización, se codifica con código de barras una cantidad aleatoria de ácidos nucleicos. En algunos modos de realización, la aleatoriedad intrínseca a las técnicas de biología molecular se utiliza para codificar con código de barras aleatoriamente algunos de los ácidos nucleicos. En algunos modos de realización, se utiliza un ordenador para estimar la cantidad de codificación con código de barras necesaria para obtener la información requerida de los ácidos nucleicos objetivo y comparar los métodos de codificación con código de barras y de agrupación para estimar la privacidad obtenida mediante estos métodos. En algunos modos de realización, un ordenador dirige una proporción aleatoria de ácidos nucleicos para que se codifiquen con código de barras.

Métodos para combinar los ácidos nucleicos con código de barras en la etapa (c)

[0023] En algunos modos de realización, los ácidos nucleicos con código de barras que se han de ocultar se agrupan con ácidos nucleicos con código de barras similares (es decir, una secuencia de ácidos nucleicos control y/o señuelo). Por ejemplo, los ácidos nucleicos control pueden ser ácidos nucleicos que se originaron a partir de los mismos genes en la misma especie, pero de individuos diferentes. En algunos modos de realización, los ácidos nucleicos agrupados son similares a los ácidos nucleicos que se encontrarían en una población relevante y también similares a los ácidos nucleicos que se han de ocultar. Por ejemplo, ácidos nucleicos que se originan del mismo gen y del mismo grupo étnico dentro de una población. En algunos modos de realización, los ácidos nucleicos con código de barras se agrupan con otros ácidos nucleicos con código de barras que contienen una proporción relativamente alta de ácidos nucleicos que pueden significar un carácter potencial. Por ejemplo, los ácidos nucleicos con código de barras se agruparían con ácidos nucleicos con código de barras que tienen una alta proporción de una variante portadora de una enfermedad, mayor que la proporción de variantes portadoras de una enfermedad que se encontraría en una población emparejada étnicamente.

[0024] En algunos modos de realización, los progenitores y/u otros individuos estrechamente relacionados con la fuente de los ácidos nucleicos que se han de ocultar se codifican con código de barras y se agrupan con los ácidos nucleicos con código de barras que se han de ocultar. En algunos modos de realización, se utiliza una cantidad mucho mayor de ácidos nucleicos de los parientes que la cantidad de ácidos nucleicos que se han de ocultar. En algunos modos de realización, las cantidades relativas de los diferentes ácidos nucleicos se modifican de modo que sus proporciones sean diferentes entre los diferentes parientes y los ácidos nucleicos que se han de ocultar.

[0025] En algunos modos de realización, un grupo de ácidos nucleicos que se han de ocultar se codifican con código de barras y se agrupan entre sí. En algunos modos de realización, un grupo de ácidos nucleicos que no se han de ocultar, y que no son de interés para el consumidor, se agrupan con los ácidos nucleicos con código de barras de interés. En estos modos de realización, la agrupación de ácidos nucleicos que se agrupa con los ácidos nucleicos de interés está bien controlada. En estos casos, se pueden elegir ácidos nucleicos específicos para optimizar la ocultación. En estos modos de realización, se lleva a cabo una gran cantidad de análisis poco interesantes para ocultar los análisis de los ácidos nucleicos de interés.

[0026] Los ácidos nucleicos pueden utilizarse para almacenar datos, por ejemplo, el uso de ácidos desoxirribonucleicos como medio de almacenamiento de datos. Estos ácidos nucleicos que almacenan datos pueden codificarse con código de barras y agruparse con otros ácidos nucleicos que almacenan datos. Estos ácidos nucleicos que almacenan datos pueden agruparse con otros ácidos nucleicos que no contienen datos de interés para el consumidor.

[0027] En el presente documento también se da a conocer un método para preparar una secuencia de ácidos nucleicos objetivo para su análisis, que comprende: la generación de un conjunto de códigos de barras que comprende ácidos nucleicos; la fijación de los códigos de barras a la secuencia de ácidos nucleicos objetivo que se ha de analizar; y la combinación o agrupación de la secuencia de ácidos nucleicos objetivo con código de barras que se ha de analizar con una secuencia de ácidos nucleicos control o señuelo que comprende un código de barras.

[0028] En el presente documento también se da a conocer un método para anonimizar una secuencia de ácidos nucleicos objetivo, comprendiendo el método la generación de un conjunto de códigos de barras que comprende ácidos nucleicos; la fijación de los códigos de barras a la secuencia de ácidos nucleicos objetivo; y la combinación o agrupación de la secuencia de ácidos nucleicos objetivo con código de barras con una secuencia de ácidos nucleicos control o señuelo que comprende un código de barras, donde la combinación de la secuencia de ácidos nucleicos objetivo con códigos de barras con la secuencia de ácidos nucleicos control o señuelo anonimiza la secuencia de ácidos nucleicos objetivo.

[0029] Una cantidad aleatoria de códigos de barras y/o ácidos nucleicos objetivo sin código de barras, y/o una cantidad aleatoria de ácidos nucleicos señuelo con código de barras y/o sin código de barras pueden ser agrupados para la secuenciación. En estos casos, la aleatoriedad de las cantidades que se han de agrupar puede determinarse mediante un agente de aleatorización, como una moneda, un juego de dados o un programa informático diseñado por los expertos en la materia. La cantidad de aleatoriedad y/o el método por el cual se determinan cantidades aleatorias pueden ser diseñados por los expertos en la materia para garantizar que la cantidad de privacidad requerida por el consumidor se logre mediante la agrupación.

[0030] Se puede esperar que la aleatoriedad se produzca debido a la naturaleza impredecible de los métodos de biología molecular. Por ejemplo, cuando los ácidos nucleicos se amplifican utilizando la reacción en cadena de la polimerasa, se desconoce el número exacto de copias de los ácidos nucleicos objetivo (pero puede predecirse con un margen de error). En otro ejemplo, cuando se desconoce una cantidad de ácidos nucleicos presentes en una solución, pero también se predice con cierto margen de error, la agrupación de esa solución de ácidos nucleicos con otros ácidos nucleicos da lugar a una agrupación de ácidos nucleicos en la que no se conocen con certeza las cantidades exactas de cada oligonucleótido. De manera alternativa, se puede obtener la aleatoriedad agrupando un grupo de ácidos nucleicos y eliminando un subconjunto de ese grupo, dando lugar a una selección aleatoria de ese grupo. La aleatoriedad que se produce en los métodos de biología molecular puede estimarse para predecir cómo afectará esa aleatoriedad a la privacidad y/o a la Las figuras 1A-1C representan un diagrama de flujo de trabajo para la codificación con código de barras (Fig. 1 A) y la agrupación de ácidos nucleicos (Fig. 1B), de modo que su información se oculta a los individuos que no tienen acceso a la tabla de códigos de barras (Fig. 1C), como se describe en el presente documento.

La figura 2 representa un diagrama de flujo de trabajo para la generación segura de códigos de barras y cualquier material relevante utilizado para fijar estos códigos de barras a los ácidos nucleicos u ocultar los ácidos nucleicos después de que hayan sido codificados con código de barras, como se describe en el presente documento.

La figura 3 representa una descripción del gran número de códigos de barras potenciales que son posibles utilizando ácidos nucleicos, como se describe en el presente documento.

La figura 4 representa un diagrama de flujo de trabajo para la generación de subconjuntos de códigos de barras que después se colocan por separado en recipientes, con una tabla de códigos de barras que se puede utilizar para determinar qué códigos de barras se encuentran en qué recipientes, como se describe en el presente documento.

La figura 5 representa un diagrama de flujo de trabajo para el uso de subconjuntos de códigos de barras para generar ácidos nucleicos con código de barras que se han de ocultar con otros ácidos nucleicos con código de barras agrupándolos, como se describe en el presente documento.

La figura 6A y la figura 6B representan diagramas de flujo de trabajo para fijar los códigos de barras a los ácidos nucleicos utilizando ligación de extremos cohesivos, como se describe en el presente documento.

Descripción detallada de la invención

[0032] Como se utiliza en el presente documento, el término «ocultar» significa no revelar información, en concreto en lo que respecta a la información contenida en los ácidos nucleicos. La ocultación, el acto de ocultar información, puede lograrse mediante varios métodos, cada uno de los cuales oculta información diferente presente en los ácidos nucleicos. Entre estos se incluyen sin carácter limitativo: reducir la capacidad de detectar la presencia de ácidos nucleicos que se sabe que derivan de fuentes específicas, reducir la capacidad de determinar los caracteres presentes en las fuentes de ácidos nucleicos, reducir la capacidad de determinar qué ácidos nucleicos derivan de qué fuentes, reducir la capacidad de obtener cualquier dato almacenado en los ácidos nucleicos, reducir la capacidad de determinar los tipos de fuentes de las que derivan los ácidos nucleicos.

[0033] Como se utiliza en el presente documento, el término «ácido nucleico objetivo» se refiere a oligonucleótidos de ácido nucleico destinados a ser analizados, como un análisis de secuencia.

[0034] Como se utiliza en el presente documento, el término «ácido nucleico señuelo» se refiere a cualquier oligonucleótido de ácido nucleico que se agrupa con ácido nucleico objetivo para ayudar en la ocultación de los ácidos nucleicos objetivo. Estos ácidos nucleicos señuelo pueden contener, o estar compuestos por, ácidos nucleicos objetivo de diversas fuentes. Es decir, los ácidos nucleicos objetivo de una fuente pueden ocultarse dentro de un grupo de ácidos nucleicos objetivo de otras fuentes, dando como resultado ácidos nucleicos objetivo que actúan como ácidos nucleicos señuelo para otros ácidos nucleicos objetivo.

[0035] Como se utiliza en el presente documento, el término «anonimizar» se refiere a la reducción de la capacidad de los ácidos nucleicos objetivo para unirse de cualquier manera a un individuo, una familia, una etnia o cualquier otra entidad o grupo nombrado.

[0036] Como se utiliza en el presente documento, el término «ofuscar» se refiere a la acción de ocultar el fin y/o situación y/o razón por la que se está analizando un ácido nucleico objetivo.

[0037] Como se utiliza en el presente documento, el término «ocultar» abarca los términos «anonimizar» y «ofuscar» y el uso del término ocultar puede significar ocultar y/o anonimizar y/u ofuscar.

[0038] Como se utiliza en el presente documento, el término «código de barras» se refiere a un oligonucleótido que se utiliza como identificador de una molécula de ácido nucleico objetivo.

[0039] La tecnología descrita en el presente documento se refiere a la preparación de ácidos nucleicos. En algunos modos de realización, los métodos descritos en el presente documento ocultan la información presente en los ácidos nucleicos antes de su análisis (por ejemplo, secuenciación). En algunos modos de realización, los métodos descritos en el presente documento también se refieren al enriquecimiento de los ácidos nucleicos.

[0040] Los ácidos nucleicos pueden contener información utilizada para identificar la fuente de los ácidos nucleicos. Cuando su fuente es una persona, cualquier información sobre esa persona que ya sea conocida por un adversario potencial ayuda a identificar a esa persona. Puede tratarse, por ejemplo, de una mutación rara que se sabe que ocurre en individuos con un apellido específico, de una región específica del mundo, de una etnia específica, o cualquier otra característica de una persona que se sabe que está asociada a estas variantes de ácidos nucleicos. Si se pueden utilizar las variantes de ácidos nucleicos para determinar las características de su fuente (por ejemplo, que su fuente es pelirroja), entonces se puede utilizar esa información para ayudar a identificar esa fuente. La anonimización es la reducción de la información que se puede utilizar para identificar una fuente.

[0041] Muchos individuos son combinaciones de diferentes etnias; sus ancestros proceden de diferentes lugares del mundo. En consecuencia, su composición genética refleja estas diferentes etnias. El ADN heredado del linaje paterno puede ser de una etnia o etnias diferentes a las del ADN procedente del linaje materno.

[0042] Al observar la composición étnica de los ácidos nucleicos, se puede identificar al individuo del que proceden esos ácidos nucleicos. Al combinar otra información de identificación, como el color del pelo, el tipo de cuerpo o cualquier otro carácter hereditario, la fuente de los ácidos nucleicos puede ser aún más fácil de determinar. Como se da a conocer en el presente documento, la codificación con código de barras y la agrupación dividen esta información, de manera que las piezas individuales de información sobre la fuente de los ácidos nucleicos no se agrupan como si procedieran de una fuente individual. Los tipos de ácidos nucleicos con código de barras que se agrupan pueden proceder de diversas etnias, con individuos con diversos caracteres hereditarios, de manera que un adversario con acceso a los datos de la secuencia no podría determinar si algún individuo concreto tiene ácidos nucleicos presentes en el grupo. El grupo con código de barras consiste en un conjunto de ácidos nucleicos que contienen variantes de múltiples fuentes, y la determinación de la identidad de cualquiera de estas fuentes se ve dificultada sin la tabla que relaciona los códigos de barras con sus fuentes.

[0043] Para ocultar la información contenida en los ácidos nucleicos, la tecnología descrita en el presente documento utiliza las siguientes etapas: (a) la generación segura de códigos de barras, y otro material necesario para utilizarse en la tecnología; (b) la fijación de códigos de barras a los ácidos nucleicos objetivo (Fig. 1A); y (c) la agrupación de ácidos nucleicos objetivo con código con otros ácidos nucleicos (Fig. 1B).

[0044] En algunos modos de realización, la generación segura de los materiales que se utilizarán en esta tecnología puede tener lugar en una instalación segura (Fig. 2). En algunos modos de realización, esta instalación no requiere ninguna comunicación fuera de la instalación. En algunos modos de realización, los materiales son generados por máquinas, como robots, y pueden no requerir ninguna participación humana directa. En algunos modos de realización, los humanos están involucrados en algunas etapas del proceso de generación de materiales. Para garantizar la seguridad, si hay personas implicadas, deben ser revisadas antes de entrar en la instalación para evitar que utilicen cualquier dispositivo de grabación dentro de la instalación (por ejemplo, una cámara) que pueda comprometer la información que se encuentra dentro.

[0045] Para evitar cualquier comunicación con el exterior de la instalación, puede que no haya ningún medio de comunicación electrónica entre el interior y el exterior de la instalación. Por ejemplo, puede que no haya cables que entren/salgan de la instalación que se puedan utilizar para la comunicación, como, sin carácter limitativo, líneas telefónicas de cobre o líneas de cable de fibra óptica. Para evitar que las señales electromagnéticas entren/salgan de la instalación, se pueden emplear métodos para bloquear las señales electromagnéticas, como el uso de una jaula de Faraday que rodee la instalación, o la interferencia de la comunicación electromagnética por otros medios. En algunos casos, se puede monitorizar la comunicación del área que rodea la instalación, con monitorización visual y auditiva. Esta monitorización puede incluir la monitorización de las señales electromagnéticas para detectar un posible espionaje. En algunos casos, todos los sistemas informáticos dentro de la instalación pueden estar «aislados físicamente» y todos los individuos que entren/salgan de la instalación pueden ser monitorizados para detectar comunicaciones no autorizadas.

[0046] En algunos casos, dentro de la instalación un ordenador genera un conjunto de secuencias aleatorias de ácidos nucleicos para utilizarse como códigos de barras. Estas secuencias de códigos de barras se generarían de forma que se impida cualquier predicción sobre las secuencias de códigos de barras del conjunto utilizando cualquier información de ese conjunto, de manera que el conjunto de códigos de barras sea único y también que cada código de barras se genere para que sea un código de barras único que, por lo demás, sea completamente independiente de otros códigos de barras del conjunto. Estas secuencias pueden enviarse a través de un cable a una máquina que produce los códigos de barras de los ácidos nucleicos, utilizando un cable con blindaje electromagnético para que la información no emane del cable. En algunos casos, el conjunto de secuencias de códigos de barras puede ser generado por un ordenador incorporado a la máquina que se utiliza para generar los códigos de barras. En algunos casos, estos códigos de barras pueden generarse junto con cualquier material vinculado a los códigos de barras que sirva para ayudar a fijar los códigos de barras a otros ácidos nucleicos. Estos materiales incluyen, sin carácter limitativo, adaptadores, índices o cualquier otra sustancia química o molécula utilizada en las siguientes etapas de la tecnología.

[0047] Es posible obtener un gran número de códigos de barras utilizando ácidos nucleicos. Tradicionalmente, en biotecnología se utilizan cuatro tipos diferentes de bases de ácidos nucleicos; adenina, citosina, timina y guanina. En algunos modos de realización, la tecnología en el presente documento puede utilizar cualquier base nucleotídica no tradicional (por ejemplo, 5-metilcitosina). En la tecnología descrita en el presente documento, se analizan (Fig. 3) los numerosos códigos de barras que se pueden generar utilizando solo cuatro bases nucleotídicas, entendiendo que son posibles incluso más tipos de códigos de barras si se utilizan bases nucleotídicas no tradicionales.

[0048] Con cuatro bases nucleotídicas, hay 4n combinaciones posibles de estos nucleótidos, donde «n» es la longitud de los oligonucleótidos en los códigos de barras. Por ejemplo, si el código de barras tiene una longitud de cuatro (n=4), hay 44 = 256 posibles secuencias de códigos de barras diferentes. Si se permite que la longitud de los códigos de barras varíe, de manera que algunos códigos de barras tengan una longitud diferente a otros, entonces hay aún más secuencias de códigos de barras posibles. Por ejemplo, si hay códigos de barras de longitud 1, 2, 3 o 4, entonces hay 44 43 42 41 = 340 secuencias posibles.

[0049] A medida que aumenta la longitud de los códigos de barras, se convierte rápidamente en un gran número de códigos de barras posibles. Por ejemplo, si los códigos de barras tienen una longitud de ocho, y solo ocho ácidos nucleicos de longitud, hay 65536 combinaciones posibles. Si se alargan los códigos de barras a veinte, y solo veinte ácidos nucleicos de longitud, se pueden hacer más de un billón de combinaciones diferentes. No todas las secuencias de códigos de barras pueden ser idóneas para utilizarse en algunos modos de realización de esta tecnología, y algunos códigos de barras pueden excluirse de su uso. Sin embargo, es posible utilizar un gran número de códigos de barras, incluso después de excluir algunos.

[0050] Para determinar qué secuencias de códigos de barras son idóneas para un análisis potencial, se puede utilizar un programa informático para examinar las posibles secuencias de códigos de barras y compararlas con otras secuencias de nucleótidos con las que pueden interactuar antes de los análisis o durante los mismos. El examen de las posibles secuencias de códigos de barras puede incluir, sin carácter limitativo: la predicción de su estructura secundaria (por ejemplo, la estimación de su capacidad para formar la estructura G-quadruplex de ADN o ARN), el examen de los ensayos de homopolímeros, el examen de las regiones de homopurina/homopirimadina, el examen de la capacidad de formación de bucles en horquilla, o cualquier otra propiedad de la secuencia que pueda interferir con los análisis y/o la preparación para los análisis. La comparación entre los posibles códigos de barras y otras secuencias puede incluir, sin carácter limitativo: la comparación de los códigos de barras para determinar la complementariedad con otros códigos de barras, la comparación de los códigos de barras para determinar la capacidad de formar estructuras alternativas con otros códigos de barras (como formaciones de ADN triplex o quadruplex), la comparación de los posibles códigos de barras con los potenciales ácidos nucleicos objetivo para evitar la complementariedad, o la comparación de los posibles códigos de barras con cualquier otra secuencia que pueda encontrar durante la preparación o durante los análisis. Las secuencias que no se consideren idóneas para utilizarse pueden eliminarse del conjunto total de secuencias de códigos de barras posibles, y las restantes pueden dividirse entonces aleatoriamente en subconjuntos y fabricarse.

[0051] Cada subconjunto puede contener un conjunto de códigos de barras único, o puede haber algunos códigos de barras presentes en diferentes subconjuntos que compartan secuencias idénticas. Permitir que algunos códigos de barras no sean únicos dentro de un subconjunto de códigos de barras, y/o permitir que algunos códigos de barras no sean únicos entre los subconjuntos de códigos de barras puede ayudar a la ocultación, dependiendo de los análisis que se puedan realizar a los ácidos nucleicos objetivo. Antes de la generación del código de barras, se puede utilizar un programa informático para determinar si es aconsejable la no unicidad de los códigos de barras para un análisis propuesto. Este programa informático, generado por los expertos en la materia, se puede utilizar también para determinar si todas las moléculas que se han de analizar requieren codificación con código de barras, o si, en cambio, los análisis pueden permitir cierto solapamiento de las secuencias de códigos de barras entre los diferentes subconjuntos y/o dentro de un subconjunto.

[0052] Los códigos de barras pueden generarse en subconjuntos aleatorios, de manera que estos subconjuntos de códigos de barras, y sus sustancias químicas vinculadas relevantes, se empaquetan por separado de otros subconjuntos de códigos de barras (Fig.4). Los códigos de barras pueden empaquetarse en subconjuntos sin ninguna sustancia química relevante vinculada a los mismos (es decir, se empaquetan solo como códigos de barras). Este empaquetamiento incluye cualquier líquido necesario u otras sustancias químicas utilizadas para estabilizar o transportar las sustancias químicas dentro del paquete. Los subconjuntos de códigos de barras pueden empaquetarse juntos en una placa de micropocillos, como una placa de 96 o 384 pocillos. Las tablas de códigos de barras presentes en cada subconjunto pueden generarse e imprimirse en papel. Las tablas de códigos de barras presentes en cada subconjunto pueden transferirse a un dispositivo de almacenamiento de datos externo, como un CD-ROM, un DVD-ROM o una unidad de memoria flash.

[0053] La generación de códigos de barras puede incluir cierta aleatoriedad en la secuencia exacta de los códigos de barras generados. La aleatoriedad encontrada en las secuencias de códigos de barras puede ser una consecuencia de la tecnología utilizada para fabricar los códigos de barras. La aleatoriedad inducida en la construcción de oligonucleótidos de código de barras puede ser añadida por un agente de aleatorización, como un ordenador u otro proceso que dirija aleatoriamente la generación de los oligonucleótidos de código de barras. Por ejemplo, un código de barras podría generarse aleatoriamente como:

TACGCGAGATAC (SEQ ID NO: 1) o

TACGCGAGATAA (SEQ ID NO:2) o

TACGCGAGATAT (SEQ ID NO:3) o

TACGCGAGATAG (SEQ ID NO:4)

(en cada uno de estos ejemplos, el último nucleótido de la secuencia puede tomar una de las cuatro bases nucleotídicas). Esta aleatorización puede hacer que algunos códigos de barras de algunos subconjuntos sean idénticos a los códigos de barras de otros subconjuntos. La secuencia aleatoria de códigos de barras puede registrarse perfectamente antes, después o durante el proceso de fabricación, mientras que, en otros casos, puede haber incertidumbre con respecto a las secuencias exactas de códigos de barras presentes en cada subconjunto. La información imperfecta sobre las secuencias exactas de códigos de barras presentes en cada subconjunto puede proporcionar seguridad adicional y/o reducir el coste de fabricación, pero en consecuencia puede reducir la certeza sobre los resultados de un análisis. Esta incertidumbre puede reducir la capacidad de un consumidor y de un potencial adversario para diferenciar entre los ácidos nucleicos objetivo y los señuelos. En algunos casos, se puede realizar un análisis de coste-beneficio utilizando un programa informático diseñado por los expertos en la materia para determinar si los beneficios de los subconjuntos de códigos de barras aleatorios, potencialmente conocidos de forma imperfecta, son ideales para cualquier uso específico de esta tecnología.

[0054] En algunos modos de realización, los subconjuntos de códigos de barras y la tabla de los códigos de barras se sellan en un recipiente, de manera que el sello no pueda volverse a sellar después de que haya sido abierto. En algunos modos de realización, los recipientes con los códigos de barras y sus tablas relacionadas son enviados por un mensajero de confianza a los clientes. En otros modos de realización, estos recipientes se envían a un centro de distribución.

[0055] Al generar de forma segura los códigos de barras en subconjuntos, el consumidor de esta tecnología puede elegir qué subconjuntos de códigos de barras utilizar en sus ácidos nucleicos objetivo, y qué subconjuntos puede utilizar posiblemente en cualquier ácido nucleico señuelo.

[0056] La instalación segura también puede producir ácidos nucleicos señuelo. Estos ácidos nucleicos señuelo se utilizarán en las etapas futuras de la tecnología. Las secuencias de ácidos nucleicos presentes en los señuelos pueden compartirse con el consumidor de esta tecnología, utilizando un medio como el papel o un formato de datos electrónico. En algunos casos, no se comparte la naturaleza exacta de los señuelos, y el conjunto de ácidos nucleicos señuelo se envía solo con una indicación general de los tipos de ácidos nucleicos presentes. Por ejemplo, un conjunto de ácidos nucleicos señuelo puede ser un grupo de ácidos nucleicos procedentes de una población, subgrupo, etnia, especie, subespecie, o cepa de planta, raza de animal, cepa de microbio, o un conjunto de ácidos nucleicos relacionados de múltiples especies de planta/animal/microbio. Estos ácidos nucleicos señuelo pueden ser proporcionados por un tercero o por el consumidor de la tecnología. Se pueden realizar sugerencias sobre qué ácidos nucleicos señuelo utilizar. Los ácidos nucleicos señuelo pueden ser proporcionados tanto por el consumidor como por la instalación segura, y pueden ser combinados por el consumidor.

[0057] Proporcionar ácidos nucleicos señuelo a partir de una instalación segura ayuda a ocultar de forma segura la información contenida dentro de los ácidos nucleicos al consumidor, pero como al consumidor se le proporcionan los códigos de barras, el consumidor puede generar de forma segura ácidos nucleicos señuelo con código de barras por sí mismo. Los tipos de señuelos óptimos para la ocultación dependen de los ácidos nucleicos objetivo, y la información que el consumidor desea ocultar. Evitar que un adversario tenga conocimiento previo sobre los ácidos nucleicos señuelo proporciona la mayor ocultación, por lo que la generación secreta de ácidos nucleicos señuelo es idónea. El consumidor puede no tener la capacidad de generar ácidos nucleicos señuelo adecuados, y en esos casos sería necesario proporcionar ácidos nucleicos señuelo desde una instalación segura.

[0058] La codificación con código de barras de esta tecnología puede utilizar la tecnología de las publicaciones de patente estadounidenses número 2015/0211050 y 2015/0211061. El uso de esta tecnología puede implicar el enriquecimiento de los ácidos nucleicos objetivo, añadiendo códigos de barras durante el enriquecimiento o antes del mismo. La adición de códigos de barras antes del enriquecimiento o durante el mismo hace que los códigos de barras individuales marquen múltiples oligonucleótidos de ácidos nucleicos que se originan a partir del mismo oligonucleótido. Los ácidos nucleicos señuelo también pueden marcarse con códigos de barras antes del enriquecimiento o durante el mismo, de modo que, al igual que los ácidos nucleicos objetivo, los códigos de barras individuales también marcan múltiples oligonucleótidos de ácidos nucleicos en los ácidos nucleicos señuelo (Fig. 5).

[0059] Pueden utilizarse códigos de barras pequeños, de longitud 1, longitud 2, longitud 3, longitud 4, longitud 5, longitud 6, longitud 7 o longitud 8 de ácidos nucleicos. Pueden utilizarse códigos de barras pequeños y grandes juntos, por ejemplo, códigos de barras de longitud 8, longitud 9, longitud 10, longitud 11, longitud 12, longitud 13, longitud 14, longitud 15, longitud 16, longitud 17, longitud 18, longitud 19, longitud 20, longitud 21, longitud 22, longitud 23, longitud 24, longitud 25, longitud 26, longitud 27, longitud 28, longitud 29 y/o longitud 30, o más. Cuando se utilizan códigos de barras de varias longitudes juntos y hay una etapa de enriquecimiento después de que los ácidos nucleicos hayan sido codificados con códigos barras, deben considerarse las tasas relativas de enriquecimiento de los diferentes oligonucleótidos. Por ejemplo, los códigos de barras más largos pueden requerir más tiempo para ser polimerizados y, por lo tanto, el enriquecimiento de los ácidos nucleicos marcados con estos códigos de barras más largos puede dar lugar a un menor número de moléculas de ácidos nucleicos enriquecidos que los ácidos nucleicos marcados con ácidos nucleicos más cortos.

[0060] Los códigos de barras y sus índices y adaptadores pueden tener diferentes tasas de polimerización y, por lo tanto, las tasas de enriquecimiento diferirán entre los ácidos nucleicos marcados con estas moléculas diferentes. En algunos modos de realización, las tasas de enriquecimiento varían debido a la modificación de las bases de los ácidos nucleicos que alteran las tasas de enriquecimiento, debido a estructuras secundarias alternativas que detienen o ralentizan la tasa de polimerización, o debido a la adición de otras moléculas a los códigos de barras para interferir con la polimerasa y variar las tasas de enriquecimiento. En estos modos de realización, el efecto aleatorio que los códigos de barras, y sus adaptadores e índices, pueden tener en las tasas de polimerización puede utilizarse para variar aleatoriamente las cantidades de ácidos nucleicos que tienen los diferentes códigos de barras alterando las tasas relativas de enriquecimiento que se producen durante cualquier etapa de enriquecimiento en esta tecnología.

[0061] En algunos modos de realización, la variación de las tasas de enriquecimiento puede utilizarse para variar la cantidad de ácidos nucleicos que tienen diferentes códigos de barras, lo que puede utilizarse para ocultar aún más los ácidos nucleicos objetivo. Si algunos ácidos nucleicos objetivo con código de barras se encuentran en cantidades diferentes a los códigos de barras de los ácidos nucleicos objetivo, entonces es más difícil vincular estos dos ácidos nucleicos como originarios de la misma fuente. Por ejemplo, si se va a secuenciar una región genómica de un individuo (por ejemplo, un gen), es probable que ese individuo tenga dos variantes distintas de esta región genómica, una de cada progenitor. Si hay una cantidad similar de cada variante, entonces pueden atribuirse a una sola fuente, pero si las cantidades de variantes con códigos de barras enriquecidas son diferentes para las dos regiones, entonces la atribución de estas dos regiones a la misma fuente se vuelve más difícil.

[0062] En algunos modos de realización, los códigos de barras se añaden con una etapa de ligación y, en estos modos de realización, no se produce el enriquecimiento posteriormente después de que los códigos de barras hayan sido ligados. En algunos modos de realización, hay una etapa de enriquecimiento antes de la ligación de códigos de barras. En algunos modos de realización, la etapa de enriquecimiento previa a la ligación de códigos de barras también añade códigos de barras.

[0063] En algunos modos de realización, los códigos de barras se ligan a los ácidos nucleicos objetivo usando ligación de extremos cohesivos. La ligación de extremos cohesivos utilizada puede ser la ligación TA (Fig. 6A), que implica la adición de un ácido nucleico de adenosina a los ácidos nucleicos objetivo antes de la ligación. En estos casos, los códigos de barras pueden unirse a una molécula adaptadora que contiene un ácido nucleico de timina protuberante para que coincida con la adenosina protuberante en los ácidos nucleicos objetivo.

[0064] En algunos modos de realización, se utiliza una enzima de restricción en los ácidos nucleicos antes de la ligación de los códigos de barras (Fig. 6B). El corte de los ácidos nucleicos con una enzima de restricción puede servir para múltiples propósitos, entre los que se incluyen, sin carácter limitativo: romper los ácidos nucleicos en oligonucleótidos de menor tamaño para facilitar los requisitos de los análisis (por ejemplo, la secuenciación de última generación requiere la introducción de oligonucleótidos de longitud inferior a una longitud determinada); separar regiones de los ácidos nucleicos entre sí, de modo que las posibles variantes presentes en los ácidos nucleicos no se encuentren en la misma molécula, aumentando aún más la ocultación; generar extremos cohesivos en los ácidos nucleicos para facilitar la ligación con códigos de barras diseñados con adaptadores que se correspondan con los extremos cohesivos generados en los ácidos nucleicos por la digestión con enzimas de restricción.

[0065] Los códigos de barras pueden incorporarse a las etapas utilizadas para la tecnología de secuenciación específica. La tecnología de secuenciación puede requerir o beneficiarse de la adición de moléculas a los ácidos nucleicos antes del análisis. En algunos modos de realización de esta tecnología, las moléculas añadidas a los ácidos nucleicos antes del análisis de la secuencia incluyen la adición de códigos de barras diseñados para ocultar los ácidos nucleicos. Por ejemplo, la secuenciación en el secuenciador en tiempo real de Pacific Biosciences se beneficia de la adición de una región monocatenaria a los ácidos nucleicos que se van a secuenciar (véase la publicación de la patente estadounidense número 2012/0196279). Esta región monocatenaria puede contener información de código de barras, y en algunos modos de realización de esta tecnología, los códigos de barras se añaden a esta región para facilitar la ocultación de los ácidos nucleicos antes del análisis. La adición de códigos de barras en esta etapa puede ser adicional a los códigos de barras añadidos en las etapas anteriores.

[0066] En algunos modos de realización, los códigos de barras son añadidos a los ácidos nucleicos señuelo por el consumidor de esta tecnología. En estos modos de realización, se siguen etapas similares con los ácidos nucleicos señuelo a las que se siguen con cualquier ácido nucleico objetivo. En estos modos de realización, debido a la capacidad del consumidor de elegir qué subconjuntos de códigos de barras se añaden a qué ácidos nucleicos, sólo el consumidor tiene conocimiento de los códigos de barras que están presentes en los ácidos nucleicos objetivo y cuáles están en los ácidos nucleicos señuelo (Fig. 5). En algunos modos de realización, los ácidos nucleicos señuelo son codificados con código de barras y proporcionados al consumidor por una instalación segura. En estos modos de realización, la tabla de códigos de barras proporcionada al consumidor informaría al consumidor sobre qué códigos de barras puede añadir a sus ácidos nucleicos objetivo. En algunos modos de realización, la tabla de códigos de barras presente en los ácidos nucleicos señuelo proporcionada por la instalación segura puede no ser divulgada al consumidor. En otros modos de realización, la tabla de códigos de barras añadida a los ácidos nucleicos señuelo se proporciona al consumidor.

[0067] En algunos modos de realización, algunas secuencias de códigos de barras encontradas en los ácidos nucleicos objetivo son idénticas a algunas secuencias de códigos de barras encontradas en los ácidos nucleicos señuelo. En tales modos de realización, es necesario conocer los códigos de barras presentes en los ácidos nucleicos señuelo, y la tabla de códigos de barras se proporcionaría para los ácidos nucleicos señuelo proporcionados por la instalación segura. El solapamiento entre el conjunto de códigos de barras de los ácidos nucleicos objetivo y los ácidos nucleicos señuelo puede proporcionar una mayor ocultación sobre qué ácidos nucleicos son objetivos y cuáles son señuelos, ya que ni siquiera el consumidor tendría información completa. En estos modos de realización, el consumidor puede seguir obteniendo información útil sobre los ácidos nucleicos objetivo siempre que haya un número suficiente de códigos de barras únicos en los ácidos nucleicos objetivo. En algunos casos, el consumidor puede determinar el número de códigos de barras únicos necesarios para obtener suficiente información sobre los ácidos nucleicos objetivo. En algunos casos, se puede informar sobre cuántos códigos de barras pueden solaparse entre los ácidos nucleicos objetivo y los ácidos nucleicos señuelo.

[0068] En algunos modos de realización, no todos los ácidos nucleicos objetivo y/o señuelo (control) reciben un código de barras. En algunos modos de realización, algunos de los adaptadores, cebadores u otro material sin código de barras que de otro modo contendría un código de barras se generan sin códigos de barras. En algunos modos de realización, cuando los códigos de barras se añaden después de una etapa de amplificación o sin ella, los códigos de barras pueden ligarse a los ácidos nucleicos de manera que no todos los ácidos nucleicos reciban un código de barras (por ejemplo, se añade una cantidad limitada de códigos de barras a los ácidos nucleicos de manera que no todos los ácidos nucleicos reciban un código de barras). Puede utilizarse un programa informático generado por los expertos en la materia para determinar si los análisis pueden proporcionar suficiente información si no todos los ácidos nucleicos objetivo tienen código de barras.

[0069] En algunos modos de realización, la aleatoriedad que es intrínseca a los procedimientos y técnicas de biología molecular puede utilizarse para ayudar a la ocultación. En estos modos de realización, se puede ayudar a la ocultación aleatorizando la codificación con código de barras de los nucleótidos preparados para el análisis. La proporción y/o el número de ácidos nucleicos que reciben cualquier código de barras pueden ser aleatorios. El número de ácidos nucleicos que reciben el mismo código de barras puede ser aleatorio. Por ejemplo, si los códigos de barras se añaden durante una etapa de enriquecimiento o antes de esta, entonces las cantidades relativas de códigos de barras idénticos que se encuentran en el conjunto total de ácidos nucleicos se verían afectadas por la aleatoriedad en el proceso molecular por el que se amplificaron los ácidos nucleicos. La aleatoriedad en el número y/o la proporción de códigos de barras que recibe cualquier código de barras se utiliza para ayudar a la ocultación. Si el método utilizado para fijar los códigos de barras a los ácidos nucleicos da como resultado que no todos los ácidos nucleicos reciban un código de barras, entonces los ácidos nucleicos específicos que reciben o no reciben un código de barras pueden, en algunos modos de realización, ser aleatorios. Las estimaciones de la distribución de las cantidades de varios ácidos nucleicos, y el efecto que el procedimiento de aleatoriedad tiene sobre la ocultación, pueden predecirse utilizando un programa informático generado por los expertos en la materia. Los programas informáticos utilizados para estimar la aleatoriedad también pueden dirigir la forma en que se logra la aleatoriedad mediante procedimientos de genética molecular.

[0070] Los métodos de agrupación de ácidos nucleicos en esta tecnología dependen de varios factores, entre los que se incluyen: el tipo de ácidos nucleicos objetivo (por ejemplo, la especie, subespecie o etnia de los ácidos nucleicos objetivo), el conocimiento potencial que un adversario pueda tener sobre los ácidos nucleicos objetivo, el tipo de información que el consumidor desee ocultar, la precisión de la tecnología utilizada para analizar los ácidos nucleicos, la disponibilidad de ácidos nucleicos señuelo para el consumidor, el conocimiento disponible sobre los ácidos nucleicos objetivo, el coste de los análisis de secuencias, la financiación disponible para los análisis, o cualquier otro factor que afecte a la información que el consumidor y/o un adversario potencial pueda tener sobre los ácidos nucleicos objetivo y los ácidos nucleicos señuelo que se utilicen.

[0071] Los métodos proporcionados en el presente documento proporcionan varias técnicas para agrupar ácidos nucleicos para su ocultación. El uso de la agrupación de ácidos nucleicos con código de barras para la ocultación no se limita a los ejemplos proporcionados en el presente documento.

[0072] Se pueden proporcionar simulaciones y/o programas informáticos capaces de realizar simulaciones para ayudar al consumidor a tomar decisiones sobre la agrupación. Se puede utilizar una o varias medidas de privacidad, como la privacidad diferencial (véase la patente estadounidense número 7,698,250) para determinar el tipo de agrupación necesaria para un nivel de privacidad elegido por el consumidor. Se pueden hacer sugerencias al consumidor sobre los métodos de agrupación.

[0073] La agrupación de ácidos nucleicos señuelo puede consistir parcial o totalmente en otros ácidos nucleicos objetivo, es decir, ácidos nucleicos objetivo que no son idénticos entre sí. Al utilizar los ácidos nucleicos objetivo de una fuente como ácidos nucleicos señuelo para los ácidos nucleicos objetivo de otras fuentes, se reduce el coste relativo de los análisis útiles. Si algunos, o todos, los ácidos nucleicos señuelo que se utilizan no son ácidos nucleicos objetivo de interés para el consumidor, entonces la agrupación de los ácidos nucleicos objetivo con estos señuelos requiere el análisis de ácidos nucleicos sin interés. A medida que el coste de los análisis de secuenciación siga disminuyendo, la adición de ácidos nucleicos señuelo no interesantes a la agrupación de ácidos nucleicos para su análisis será relativamente menos costosa. Sin embargo, todos los ácidos nucleicos agrupados pueden ser de interés para el consumidor (es decir, varios ácidos nucleicos objetivo sirven de señuelos entre sí), por lo que esta tecnología no requiere una secuenciación económica para ser rentable para el consumidor. Las decisiones sobre la agrupación pueden verse influidas por el coste de los análisis y el presupuesto que el consumidor tiene para los análisis.

[0074] La agrupación de ácidos nucleicos con código de barras puede ocultar información sobre esos ácidos nucleicos. La información que se desea ocultar determina el método de agrupación. En el presente documento se proporcionan ejemplos de los tipos de información presentes en los ácidos nucleicos que pueden ocultarse con esta tecnología. El uso de esta tecnología para ocultar información no se limita a los ejemplos proporcionados en el presente documento.

[0075] Como ejemplo profético, supongamos que los ácidos nucleicos objetivo proceden de una persona, y que sus ácidos nucleicos objetivo han sido enriquecidos para un gen que puede conferir riesgo de enfermedad (por ejemplo, la variante del gen BRCA1 que predispone al cáncer de mama/ovario). Supongamos que los ácidos nucleicos objetivo se han codificado con código de barras y se han combinado con ácidos nucleicos con barras procedentes del mismo gen de otros individuos (la agrupación de señuelos). Suponiendo que la agrupación de señuelos esté formada por individuos étnicamente similares, la composición de toda la agrupación es casi idéntica a la de la agrupación de señuelos sola antes de añadir el objetivo. Por lo tanto, cualquier adversario tendría el reto de determinar si algún individuo está presente en la agrupación, ya que la agrupación sólo cambia ligeramente cuando los ácidos nucleicos de un individuo se añaden a la agrupación. Por lo tanto, la información de los ácidos nucleicos que puede utilizarse para identificar a un individuo en la agrupación se oculta con el uso de códigos de barras moleculares únicos. Un adversario puede determinar que la agrupación está formada por muchas copias de un gen de múltiples individuos desconocidos, pero tendría el reto de identificar a estos individuos.

[0076] La anonimización de ácidos nucleicos utilizando una gran agrupación de ácidos nucleicos de una población coincidente requiere que se analice toda la agrupación para obtener información sobre un único objetivo. Como se ha comentado, cuando la agrupación de ácidos nucleicos señuelo está formada por otros ácidos nucleicos objetivo, toda la información proporcionada por el análisis de la agrupación es de cierta utilidad para el consumidor. La agrupación puede consistir en su totalidad en ácidos nucleicos objetivo que sirven como señuelos entre sí, o la agrupación puede consistir en ácidos nucleicos señuelo sin interés para el consumidor, que sólo actúan para ocultar los ácidos nucleicos objetivo. La agrupación de señuelos puede ser una combinación de varias fuentes, algunas de las cuales son ácidos nucleicos objetivo de interés para el consumidor y otras son ácidos nucleicos señuelo que no son de interés para el consumidor.

[0077] También se puede obtener información genética sobre caracteres que no necesariamente ayuden a identificar la fuente de los ácidos nucleicos a partir de los análisis de los ácidos nucleicos (por ejemplo, el riesgo de enfermedad). En algunos modos de realización, la tecnología descrita en el presente documento también puede ocultar esa información de caracteres. Para algunos caracteres, se utiliza una combinación de variantes de ácidos nucleicos para predecir los caracteres. Por ejemplo, un individuo homocigótico en un locus de su genoma puede estar predispuesto a una enfermedad. La codificación con código de barras y la agrupación divide la información de las diferentes partes de los ácidos nucleicos objetivo. Por ejemplo, las variantes alélicas heredadas de uno de los progenitores tienen un código de barras diferente al de las variantes alélicas del otro progenitor, por lo que la determinación de los genotipos que ha heredado un individuo requiere el uso de la tabla de códigos de barras. En consecuencia, incluso los métodos de agrupación diseñados enteramente para la anonimización dan lugar a la ocultación de otra información presente en los ácidos nucleicos.

[0078] Sin embargo, algunos métodos de agrupación proporcionan una mayor ocultación sobre la información de los caracteres. Para otro ejemplo profético, supongamos de nuevo que se están analizando objetivos para encontrar la mutación de un gen (por ejemplo, de nuevo BRCA1), y supongamos que sus ácidos nucleicos con código de barras se agrupan para actuar como señuelos entre ellos. Utilizando esta agrupación, un adversario puede obtener información de caracteres sobre la agrupación en general. Por ejemplo, si muchos individuos de la agrupación son portadores de variantes BRCA1 que los predisponen al riesgo de cáncer, entonces un adversario con acceso al análisis de la secuencia podría determinar que la agrupación tiene un riesgo relativamente mayor de cáncer que la población general. Los ácidos nucleicos señuelo pueden elegirse para una agrupación de manera que se oculte la información de los caracteres. Dentro del mismo ejemplo profético, los ácidos nucleicos señuelo podrían elegirse de manera que la agrupación parezca tener cantidades similares de variantes de riesgo de enfermedad que la población general. En este escenario, se predeciría que los individuos de los que se derivó la agrupación de ácidos nucleicos secuenciados tendrían caracteres presentes en tasas comparables a las que ya se sabe que se dan en la población general. Por lo tanto, la agrupación se vuelve poco informativa sobre los caracteres presentes en la agrupación. En algunos modos de realización, los ácidos nucleicos se agrupan para ocultar los caracteres presentes en la agrupación diseñando la agrupación para que parezca contener caracteres en tasas similares a las de una población de referencia.

[0079] Cuando se eligen ácidos nucleicos señuelo que no se originan en los ácidos nucleicos objetivo, los caracteres pueden ocultarse aún más porque los caracteres presentes en la agrupación pueden controlarse con mayor precisión. En algunos modos de realización, se añaden ácidos nucleicos señuelo para hacer que la agrupación parezca tener caracteres específicos, ocultando los caracteres de las fuentes de los ácidos nucleicos objetivo en la agrupación. En algunos modos de realización, se añaden a la agrupación ácidos nucleicos señuelo con caracteres conocidos (por ejemplo, variantes genéticas de alto riesgo de cáncer), haciendo que la agrupación se enriquezca en variantes de ácidos nucleicos con ese carácter. La presencia abrumadora de ácidos nucleicos con un carácter predicho puede ocultar si los ácidos nucleicos objetivo también tienen ese carácter. Para un ejemplo profético, tomamos la misma agrupación de ácidos nucleicos objetivo que se está analizando para un carácter (por ejemplo, el riesgo de cáncer utilizando el gen BRCA de los individuos) y añadimos una gran cantidad de ácidos nucleicos señuelo con ese carácter. La agrupación parece ahora contener muchos individuos con ese carácter, independientemente de los caracteres de las fuentes de los ácidos nucleicos objetivo.

[0080] En algunos modos de realización, se puede creer a priori que los ácidos nucleicos objetivo tienen caracteres específicos debido a otros factores, como caracteres medidos en la fuente de los ácidos nucleicos objetivo, caracteres presentes en la familia de la fuente de los ácidos nucleicos objetivo, un análisis genealógico de la fuente de los ácidos nucleicos objetivo, antecedentes étnicos de los ácidos nucleicos objetivo o cualquier otra información conocida sobre la fuente de los ácidos nucleicos objetivo. En algunos modos de realización, los ácidos nucleicos objetivo se agrupan utilizando esta información.

[0081] En algunos modos de realización, la aleatoriedad se utiliza para variar las cantidades de ácidos nucleicos de varias fuentes que se añaden a la agrupación. En algunos modos de realización, la aleatoriedad se produce en los protocolos de genética molecular utilizados para preparar los ácidos nucleicos para los análisis. Por ejemplo, la amplificación de los ácidos nucleicos da lugar a la producción de una cantidad aleatoria de ácidos nucleicos. Para otro ejemplo de aleatoriedad en las técnicas de biología molecular, el alicuotado de un líquido que contiene ácidos nucleicos en otro líquido, que puede o no contener ya ácidos nucleicos, tiene una precisión limitada. Así, la cantidad exacta de un ácido nucleico que se alicuota es aleatoria. Además, cuando se analiza un ácido nucleico, los resultados exactos de los análisis contienen aleatoriedad de muchas maneras, incluyendo sin carácter limitativo: aleatoriedad en el oligonucleótido de ácido nucleico exacto que recibe el análisis, aleatoriedad en la calidad de los resultados del análisis (por ejemplo, errores aleatorios), y/o aleatoriedad en la cantidad de resultados para un oligonucleótido de ácido nucleico dado.

[0082] La aleatoriedad intrínseca a las técnicas de biología molecular puede ser modificada por el consumidor. El consumidor puede modificar sus técnicas de laboratorio para aumentar la aleatoriedad de las cantidades de ácidos nucleicos en una agrupación. Esta aleatoriedad puede incluir, sin carácter limitativo: el uso de técnicas de laboratorio que se sabe que aumentan la aleatoriedad (por ejemplo, una técnica de pipeteo que tiene una precisión reducida en la cantidad pipeteada), el uso de un método de amplificación de ácidos nucleicos que se sabe que tiene una precisión reducida en las cantidades de ácidos nucleicos que resultan de la amplificación (por ejemplo, el uso de un termociclador que tiene una precisión limitada en el tiempo y/o la temperatura), y/o el uso de reactivos y sustancias químicas que se sabe que introducen aleatoriedad (por ejemplo, en la purificación de ácidos nucleicos, o en la amplificación de ácidos nucleicos). Para la preparación de los ácidos nucleicos se puede utilizar un agente de aleatorización (como, por ejemplo, sin carácter limitativo, una moneda, un dado o un ordenador) para aleatorizar aún más las técnicas. El agente de aleatorización puede aleatorizar cualquier etapa en la preparación del ácido nucleico y/o los análisis para aleatorizar aún más las técnicas de laboratorio para aleatorizar las cantidades de ácidos nucleicos que se purifican, se aíslan, se amplifican y/o se alicuotan para aumentar la aleatoriedad en las cantidades de ácidos nucleicos en la agrupación resultante. Los expertos en la materia pueden determinar los límites de las cantidades aleatorias de materiales que se permiten para cualquier técnica o grupo de técnicas dado para asegurar que todos los protocolos derivados aleatoriamente tengan éxito. Para un ejemplo profético, se puede lanzar una moneda para determinar las cantidades de ácidos nucleicos que se añaden a una agrupación, con el valor mínimo permitido (llevado por el agente de aleatorización, en este caso una moneda) determinado por un experto en la materia para garantizar la presencia de suficientes ácidos nucleicos para un análisis exitoso.

[0083] Se puede utilizar un programa informático diseñado por los expertos en la materia para determinar la cantidad de aleatoriedad que es ideal para una aplicación dada de esta tecnología. Se puede utilizar la teoría de la información para medir la cantidad de aleatoriedad que puede producirse mediante la agrupación. Se puede utilizar la modelización de adversarios para determinar la cantidad de aleatoriedad que se utiliza en la agrupación. Se puede utilizar la estimación de los costes adicionales que conlleva la agrupación aleatoria para determinar la cantidad de aleatoriedad que se utiliza en la agrupación. Dichos costes pueden incluir, sin carácter limitativo, los costes derivados de la variación aleatoria de las cantidades de ácidos nucleicos a través de la amplificación y/o el pipeteo de cantidades aleatorias de diferentes ácidos nucleicos, y los costes derivados de la necesidad de aumentar la secuenciación total necesaria para analizar suficientemente los ácidos nucleicos objetivo. Cuando los ácidos nucleicos se agrupan de forma aleatoria, existe la posibilidad de que algunos ácidos nucleicos objetivo sólo aparezcan en pequeñas cantidades dentro del grupo. Cuando se analiza entonces una agrupación de este tipo, estos ácidos nucleicos menos comunes recibirán posteriormente menos análisis que los ácidos nucleicos más comunes. El aumento de los análisis totales realizados en la agrupación puede garantizar que incluso los ácidos nucleicos menos comunes reciban suficientes análisis. Los expertos en la materia pueden estimar la cantidad total de análisis necesarios para un método de agrupación aleatoria determinado.

[0084] La variación causada por la aleatoriedad en los protocolos de secuenciación puede ayudar aún más a la ocultación. Los análisis de secuenciación utilizan una agrupación de ácidos nucleicos para generar datos de secuencias. Estos datos no se proporcionan de forma equivalente a cada ácido nucleico de la agrupación. La secuenciación hace que algunos oligonucleótidos de ácidos nucleicos generen una o más secuencias de ácidos nucleicos en los datos, mientras que otros oligonucleótidos de ácidos nucleicos de la misma agrupación no generan ninguna secuencia en los datos. Además, los datos de secuencia generados por el secuenciador no proporcionan resultados de datos de secuencia de igual calidad para todos los oligonucleótidos que se secuencian. Se podría utilizar un programa informático diseñado por los expertos en la materia para estimar la aleatoriedad intrínseca de un análisis, proponer una aleatoriedad adicional que introduzca una mayor variación aleatoria entre diferentes cantidades de muestras, y/o estimar la privacidad obtenida por estos métodos. Del mismo modo, se puede utilizar un programa informático para estimar si los códigos de barras no únicos (entre subconjuntos de códigos de barras o dentro de estos) pueden y/o deben utilizarse para proporcionar una mayor seguridad y/o limitar la cantidad de códigos de barras utilizados en el análisis.

[0085] En algunos modos de realización, la anonimización es de interés limitado para el consumidor y se prioriza la ocultación de otra información en los ácidos nucleicos objetivo. Por ejemplo, si un adversario tiene acceso a los resultados del análisis de la secuencia y también conoce las fuentes de los ácidos nucleicos analizados. Se puede emplear un método de «agrupación familiar» para ocultar los ácidos nucleicos de la descendencia de la familia. Los ácidos nucleicos de la descendencia se componen principalmente de ácidos nucleicos procedentes de cada uno de los progenitores. Si una gran agrupación de ácidos nucleicos se compone de ácidos nucleicos de cada progenitor, entonces puede añadirse una pequeña cantidad de ácidos nucleicos de la descendencia a la agrupación con sólo pequeñas alteraciones en la agrupación. Los ácidos nucleicos de la descendencia pueden de esta manera ocultarse convenientemente en una agrupación de ácidos nucleicos de sus progenitores. En algunos modos de realización de esta tecnología, se emplea la agrupación familiar para ocultar los ácidos nucleicos de la descendencia. En algunos modos de realización de la agrupación familiar, se utilizan cantidades variables de ácidos nucleicos procedentes de cada progenitor. En algunos modos de realización, se enriquecen los ácidos nucleicos de los progenitores y de la descendencia, con códigos de barras añadidos durante el enriquecimiento. En algunos modos de realización, algunos ácidos nucleicos se enriquecen más que otros variando la tasa a la que se enriquecen los ácidos nucleicos con diferentes códigos de barras. En algunos modos de realización, la variación de los ácidos nucleicos objetivo o de los ácidos nucleicos señuelo se produce variando las tasas de enriquecimiento utilizando otros medios, como la variación del número de ciclos de polimerización que se producen durante el enriquecimiento, por ejemplo. En algunos modos de realización, varias cantidades de diferentes ácidos nucleicos están presentes en la agrupación variando la cantidad de los diferentes ácidos nucleicos que se añaden.

[0086] Al variar aleatoriamente las cantidades relativas de variantes en una agrupación, se alteran las frecuencias relativas de las diferentes variantes. Los ácidos nucleicos de la descendencia pueden entonces ocultarse aún más en una agrupación de ácidos nucleicos parentales, ya que de otro modo las tasas relativas de variantes presentes en una agrupación pueden ayudar a indicar qué variantes fueron heredadas por la descendencia.

[0087] Se puede utilizar un método similar para ocultar los ácidos nucleicos de la descendencia en un programa de cría/cultivo. Por ejemplo, los organismos diploides se pueden hibridar para optimizar un carácter o caracteres deseados, y los análisis de ácidos nucleicos pueden ayudar a determinar los caracteres de la descendencia antes de que ese carácter se manifieste. Por ejemplo, la producción de leche en el ganado se puede estimar en los terneros mediante el análisis de ácidos nucleicos, el rendimiento de los cultivos se puede estimar en los ácidos nucleicos de las plantas jóvenes, o los análisis de ácidos nucleicos pueden ayudar a predecir cualquier otro carácter que requiera la maduración de la descendencia antes de que el carácter se manifieste por completo. En algunos modos de realización, esta «agrupación de genealogía» se puede utilizar para ocultar la información sobre la descendencia en los programas de cría/cultivo mediante la codificación con códigos de barras y la agrupación de la descendencia en el programa de cría/cultivo. En algunos modos de realización, los ácidos nucleicos con código de barras procedentes de los progenitores u otros parientes de la descendencia se agrupan con los ácidos nucleicos con código de barras de la descendencia para ayudar a la ocultación. En algunos modos de realización, los ácidos nucleicos de la descendencia solos se codifican con código de barras y se agrupan para que sirvan de señuelos entre ellos. En algunos modos de realización, se utiliza la aleatoriedad en la agrupación. De forma similar a la aplicación de la aleatoriedad descrita anteriormente, se puede utilizar un programa informático para estimar la aleatoriedad intrínseca en el proceso, y ofrecer métodos para aleatorizar aún más la codificación con código de barras y/o la agrupación para lograr la seguridad deseada.

[0088] En los modos de realización que emplean la «agrupación de genealogía», el adversario podría determinar la mezcla de la agrupación como originaria de varias razas de animales o variedades de plantas, pero tendría el reto de determinar cómo se han mezclado las razas/variedades en la genealogía, o si eran razas/variedades puras que tenían sus ácidos nucleicos mezclados en una agrupación. En algunos modos de realización, la agrupación está diseñada para ocultar los tipos de razas/variedades y/o híbridos presentes en un programa de cría/cultivo mediante la agrupación de ácidos nucleicos procedentes de un gran número de descendientes diversos y/o sus parientes.

[0089] Los criadores pueden criar linajes de híbridos que han sido seleccionados por rasgos hereditarios específicos, lo que da lugar a la presencia de ácidos nucleicos específicos en esos híbridos. Por lo tanto, esos híbridos contendrían cantidades específicas de diferentes variantes de diferentes linajes, y los análisis de ácidos nucleicos de estos híbridos podrían revelar información sobre el programa de cría/cultivo y los caracteres presentes en las razas/variedades. En algunos modos de realización, los ácidos nucleicos procedentes de las razas/variedades originales se mezclan con los ácidos nucleicos procedentes de los híbridos para alterar las frecuencias relativas de las diferentes variantes, ocultando aún más los caracteres presentes en las razas/variedades de interés y ofuscando el programa de cría/cultivo.

[0090] En algunos modos de realización, los ácidos nucleicos se utilizan como medio de almacenamiento de datos y esta tecnología se emplea para ocultar los datos que se almacenan en los ácidos nucleicos. En algunos modos de realización, la codificación con código de barras de estos ácidos nucleicos de almacenamiento de datos es suficiente para ocultar la información en esos ácidos nucleicos, y no se añaden ácidos nucleicos con código de barras adicionales a la agrupación de ácidos nucleicos que contienen datos (es decir, partes de los ácidos nucleicos objetivo pueden actuar como señuelos para las otras partes). En algunos modos de realización, los ácidos nucleicos con código de barras que contienen datos se agrupan con ácidos nucleicos con código de barras que no contienen datos. En algunos modos de realización, los ácidos nucleicos con código de barras que contienen datos se agrupan con ácidos nucleicos con código de barras que proceden de un organismo, ocultando los ácidos nucleicos que contienen datos dentro de una agrupación de ácidos nucleicos del organismo.

Claims

REIVINDICACIONES

1. Método para ocultar información que pueda estar presente en los ácidos nucleicos, comprendiendo el método:

(a) la generación de forma segura de códigos de barras;

(b) la fijación de los códigos de barras a ácidos nucleicos para crear ácidos nucleicos con código de barras;

2. Método de la reivindicación 1, donde se proporcionan ácidos nucleicos con los que se pueden codificar con códigos de barras y agrupar ácidos nucleicos de interés para el consumidor.

3. Método de la reivindicación 2, donde los ácidos nucleicos que se proporcionan se codifican con código de barras en la instalación segura, opcionalmente donde se proporciona al consumidor una tabla de códigos de barras que se han añadido a los ácidos nucleicos.

4. Método de la reivindicación 1, donde se añaden códigos de barras a los ácidos nucleicos antes de una etapa de enriquecimiento o durante la misma, opcionalmente donde los códigos de barras se seleccionan y se añaden durante una etapa de enriquecimiento o antes de la misma para alterar las cantidades relativas de los ácidos nucleicos con diferentes códigos de barras.

5. Método de la reivindicación 1, donde los códigos de barras se añaden a los ácidos nucleicos utilizando ligación de extremos cohesivos.

6. Método de la reivindicación 5, donde los ácidos nucleicos se digieren con enzimas de restricción antes de la codificación con código de barras, opcionalmente donde los códigos de barras contienen extremos cohesivos que corresponden a los extremos cohesivos generados por las enzimas de restricción, y estos extremos cohesivos se utilizan para ligar los códigos de barras a los ácidos nucleicos.

7. Método de la reivindicación 1, donde algunos códigos de barras añadidos a los ácidos nucleicos comparten secuencias idénticas con otros códigos de barras añadidos a otros ácidos nucleicos.

8. Método de la reivindicación 1, donde los ácidos nucleicos con código de barras se agrupan con otros ácidos nucleicos con código de barras que comparten un origen similar.

9. Método de la reivindicación 1, donde los ácidos nucleicos con código de barras se seleccionan para agruparse con otros ácidos nucleicos con código de barras para controlar las predicciones que se pueden realizar sobre los caracteres presentes en las fuentes de los ácidos nucleicos.

10. Método de la reivindicación 1, donde los ácidos nucleicos con código de barras se agrupan de manera que se oculta la identidad de las fuentes de los ácidos nucleicos, o

donde los ácidos nucleicos con código de barras se agrupan de manera que se oculta la información sobre los caracteres presentes en algunas de las fuentes de los ácidos nucleicos, o

donde los ácidos nucleicos con código de barras que contienen datos se agrupan para ocultar los datos que contienen.

11. Método de la reivindicación 1, donde los códigos de barras se generan de forma aleatoria.

12. Método de la reivindicación 1, donde no todos los ácidos nucleicos reciben un código de barras.

13. Método de la reivindicación 1, donde los ácidos nucleicos con código de barras se agrupan de forma aleatoria.

14. Método de la reivindicación 4, donde las tasas de enriquecimiento para los diferentes ácidos nucleicos se modifican de forma aleatoria.