ES2858306T3

ES2858306T3 - Method for determining HLA status by sequencing the immune repertoire

Info

Publication number: ES2858306T3
Application number: ES16756268T
Authority: ES
Inventors: Ryan O Emerson; Mark Rieder; Harlan S Robins; Iii William Dewitt; Christopher Carlson
Original assignee: Fred Hutchinson Cancer Research Center; Adaptive Biotechnologies Corp
Current assignee: Adaptive Biotechnologies Corp; Fred Hutchinson Cancer Center
Priority date: 2015-02-24
Filing date: 2016-02-24
Publication date: 2021-09-30
Anticipated expiration: 2036-02-24
Also published as: US11047008B2; AU2016222788A1; US20210381050A1; EP3262196A1; EP3262196B1; CA2976580A1; WO2016138122A1; AU2022204608A1; EP3262196A4; US20180037953A1; EP3591074A1; AU2016222788B2

Abstract

Un método para predecir el estado de un alelo del antígeno leucocitario humano (HLA) de un sujeto, que comprende: (a) determinar un perfil de receptor inmunitario de secuencias de ADN reordenadas del receptor de linfocitos T (TCR) único para cada uno de una pluralidad de sujetos, teniendo cada sujeto un estado de alelo HLA conocido; (b) categorizar la pluralidad de sujetos basándose en (i) dicho estado del alelo HLA conocido del sujeto y (ii) una presencia o ausencia en el perfil del receptor inmunitario del sujeto de un rasgo que comprende una secuencia de ADN reordenada de TCR único; (c) determinar una puntuación estadística para la asociación entre un conjunto de rasgos y un estado de alelo HLA positivo basado en (b); (d) entrenar un modelo de aprendizaje automático usando dicho conjunto de rasgos para definir un conjunto de clasificadores para cada estado de alelo HLA; (e) introducir una o más secuencias de ADN reordenadas del TCR único de un sujeto con un estado de alelo HLA desconocido en dicho modelo de aprendizaje automático para identificar uno o más rasgos que coincidan con el conjunto de clasificadores; y (f) predecir el estado de un alelo HLA de dicho sujeto basándose en dichos uno o más rasgos emparejados.A method for predicting the status of a subject's human leukocyte antigen (HLA) allele, comprising: (a) determining an immune receptor profile of T-cell receptor (TCR) rearranged DNA sequences unique to each of a plurality of subjects, each subject having a known HLA allele status; (b) categorizing the plurality of subjects based on (i) said subject's known HLA allele status and (ii) a presence or absence in the subject's immune receptor profile of a trait comprising a single TCR rearranged DNA sequence ; (c) determining a statistical score for the association between a set of traits and an HLA positive allele status based on (b); (d) training a machine learning model using said set of traits to define a set of classifiers for each HLA allele state; (e) introducing one or more rearranged DNA sequences from the unique TCR of a subject with an unknown HLA allele status into said machine learning model to identify one or more traits that match the set of classifiers; and (f) predicting the status of an HLA allele of said subject based on said one or more paired traits.

Description

DESCRIPCIÓNDESCRIPTION

Método para determinar el estado de HLA mediante secuenciación del repertorio inmunitarioMethod for determining HLA status by sequencing the immune repertoire

Antecedentes de la invenciónBackground of the invention

El sistema inmunitario adaptativo celular transmite una amplia protección contra la infección por patógenos a través del desarrollo de un repertorio vasto y muy diverso de genes de receptores de linfocitos T (TCR), que codifican receptores de linfocitos T de superficie celular con especificidad antigénica aleatorizada. La capacidad del sistema inmunitario adaptativo de un sujeto para abordar adecuadamente una infección incipiente se basa en la activación de un receptor de linfocitos T específico de antígeno (TCR) apropiado. La interacción TCR-antígeno está mediada por la presentación de péptidos extraños en la superficie celular por células infectadas con patógenos en el entorno de proteínas del complejo principal de histocompatibilidad (MHC). Específicamente, los linfocitos T CD8+ reconocen el antígeno en el entorno de las proteínas del MHC de clase I. Dado que las proteínas del MHC de clase I están codificadas por los loci A, B y C del antígeno leucocitario humano (HLA), que son muy polimórficos, la especificidad antigénica de un TCR se modula entre individuos por el entorno del HLA.The cellular adaptive immune system conveys broad protection against infection by pathogens through the development of a vast and highly diverse repertoire of T-cell receptor (TCR) genes, which encode cell-surface T-cell receptors with randomized antigenic specificity. The ability of a subject's adaptive immune system to adequately address an early infection is based on the activation of an appropriate antigen-specific T-cell receptor (TCR). The TCR-antigen interaction is mediated by the presentation of foreign peptides on the cell surface by cells infected with pathogens in the environment of major histocompatibility complex (MHC) proteins. Specifically, CD8 + T cells recognize the antigen in the environment of MHC class I proteins. Since MHC class I proteins are encoded by human leukocyte antigen (HLA) loci A, B, and C, which are highly polymorphic, the antigenic specificity of a TCR is modulated between individuals by the HLA environment.

Cuando se ha encontrado un antígeno, los linfocitos T activados proliferan por expansión clonal y residen en el espacio de linfocitos T de memoria durante muchos años como una población clonal de células (clones) con genes TCR reordenados idénticos por descendencia (Arstila TP, et al. A direct estimate of the human alphabeta T cell receptor diversity. Science 286: 958-961, 1999). La protección contra la exposición futura a patógenos causantes de enfermedades se confiere por la capacidad de los linfocitos T activados para formar respuestas de memoria duraderas.When an antigen has been found, activated T lymphocytes proliferate by clonal expansion and reside in the memory T lymphocyte space for many years as a clonal population of cells (clones) with rearranged TCR genes identical by descent (Arstila TP, et al. . A direct estimate of the human alphabeta T cell receptor diversity. Science 286: 958-961, 1999). Protection against future exposure to disease-causing pathogens is conferred by the ability of activated T cells to form durable memory responses.

La mayor parte de la diversidad de los TCR reside en la cadena p del heterodímero alfa/beta de los TCR. Cada clon de linfocito T está codificado por un único alelo TCRp que se ha reordenado aleatoriamente del locus TCRB de la línea germinal para formar un gen TCRp maduro. Se genera una inmensa diversidad combinando los segmentos génicos de TCRp variable (V), de diversidad (D) y de unión (J), que codifican colectivamente la región CDR3, la región primaria del locus TCRB para determinar la especificidad del antígeno. La deleción y la inserción de nucleótidos independiente del molde durante el reordenamiento en las uniones Vp-Dp y Dp-Jp se suman a la diversidad potencial de receptores que se pueden codificar (Cabaniols JP, et al. Most alpha/beta T cell receptor diversity is due to terminal deoxynucleotidyl transferase. J Exp Med 194: 1385-1390, 2001). Típicamente, en un momento dado, un adulto sano expresa aproximadamente 10 millones de cadenas únicas de TCRp en sus 1012 linfocitos T en circulación (Robins HS, et al. (2009) Comprehensive assessment of T-cell receptor beta-chain diversity in alphabeta T cells. Blood 114: 4099-4107). Sin embargo, observar la misma cadena de TCRp de forma independiente en dos individuos es miles de veces más común de lo que se esperaría si todos los reordenamientos fueran igualmente probables (Robins HS, et al. (2010) Overlap and effective size of the human CD8+ T cell receptor repertoire. Science Translational Medicine 2: 47ra64). Se espera que haya muchas secuencias de TCRp (especialmente aquellas con pocas inserciones o ninguna) que estén presentes en los repertorios sin exposición previa de la mayoría de los individuos y que estas secuencias de TCRp proliferen de manera confiable tras la exposición a su antígeno asociado (V. Venturi, et al., The molecular basis for public T-cell responses? Nature reviews. Immunology 8, 231-238 (2008); publicado en línea EpubMar (10.1038/nri2260)). Esta sobrerrepresentación de reordenamientos específicos de la secuencia de TCRp en el repertorio de linfocitos T sin exposición previa forma la base de las respuestas públicas de los linfocitos T.Most of the diversity of TCRs resides in the p chain of the alpha / beta heterodimer of TCRs. Each T-cell clone is encoded by a single TCRp allele that has been randomly rearranged from the germline TCRB locus to form a mature TCRp gene. Immense diversity is generated by combining the variable (V), diversity (D), and binding (J) TCRp gene segments, which collectively encode the CDR3 region, the primary region of the TCRB locus to determine antigen specificity. The template-independent deletion and insertion of nucleotides during rearrangement at the Vp-Dp and Dp-Jp junctions adds to the potential diversity of receptors that can be encoded (Cabaniols JP, et al. Most alpha / beta T cell receptor diversity is due to terminal deoxynucleotidyl transferase. J Exp Med 194: 1385-1390, 2001). Typically, at any given time, a healthy adult expresses approximately 10 million unique TCRp chains in their 1012 circulating T cells (Robins HS, et al. (2009) Comprehensive assessment of T-cell receptor beta-chain diversity in alphabeta T cells. Blood 114: 4099-4107). However, observing the same TCRp chain independently in two individuals is thousands of times more common than would be expected if all rearrangements were equally likely (Robins HS, et al. (2010) Overlap and effective size of the human CD8 + T cell repertoire receptor. Science Translational Medicine 2: 47ra64). It is expected that many TCRp sequences (especially those with few or no insertions) will be present in the unexposed repertoires of most individuals and that these TCRp sequences will reliably proliferate upon exposure to their associated antigen ( V. Venturi, et al., The molecular basis for public T-cell responses? Nature reviews. Immunology 8, 231-238 (2008); published online EpubMar (10.1038 / nri2260)). This overrepresentation of specific TCRp sequence rearrangements in the T-cell repertoire without prior exposure forms the basis for public T-cell responses.

Las respuestas públicas de los linfocitos T se producen cuando se observa que los linfocitos T que portan receptores de linfocitos T (TCR) idénticos dominan la respuesta al mismo epítopo antigénico en múltiples individuos. Se sabe que muchos antígenos patógenos inducen tal respuesta pública de linfocitos T, en la que un antígeno patógeno es la diana por la misma secuencia del receptor de linfocitos T (y se encuentra que es inmunodominante) en múltiples individuos con isotipos de HLA específicos. H. Li et al., Determinants of public T cell responses. Cell research 22, 33 42 (2012); publicado en línea EpubJan (10.1038/cr.2012.1); H. Li, et al., Recombinatorial biases and convergent recombination determine inter-individual TCRbeta sharing in murine thymocytes. Journal of immunology (Baltimore, Md.: 1950) 189, 2404-2413 (2012); publicado en línea EpubSep 1 (102087). En otras palabras, las respuestas públicas de linfocitos T se observan cuando el espacio de cadenas TCRp de alta avidez potencial que se podrían unir a un complejo antígeno-MHC particular incluyen una o más cadenas TCRp que también tienen una alta probabilidad de existir en el repertorio sin exposición previa en un momento dado. Por tanto, las secuencias asociadas con una respuesta pública de linfocitos T solo estarán presentes de forma intermitente en el espacio sin exposición previa de sujetos que no han sido expuestos a un antígeno particular; sin embargo, dichos clones deberían aparecer de forma constante en el repertorio de linfocitos T de sujetos que han estado expuestos al antígeno, habiendo experimentado expansión clonal después de la estimulación del antígeno.Public T cell responses occur when T cells bearing identical T cell receptors (TCRs) are observed to dominate the response to the same antigenic epitope in multiple individuals. Many pathogenic antigens are known to induce such a public T cell response, in which a pathogenic antigen is targeted by the same T cell receptor sequence (and found to be immunodominant) in multiple individuals with specific HLA isotypes. H. Li et al., Determinants of public T cell responses. Cell research 22, 33 42 (2012); published online EpubJan (10.1038 / cr.2012.1); H. Li, et al., Recombinatorial biases and convergent recombination determine inter-individual TCRbeta sharing in murine thymocytes. Journal of immunology (Baltimore, Md .: 1950) 189, 2404-2413 (2012); published online EpubSep 1 (102087). In other words, public T-cell responses are observed when the potential high avidity TCRp chain space that could bind to a particular antigen-MHC complex includes one or more TCRp chains that also have a high probability of existing in the repertoire. no prior exposure at any given time. Therefore, sequences associated with a public T-cell response will only be present intermittently in space without prior exposure of subjects who have not been exposed to a particular antigen; however, such clones should appear constantly in the repertoire of T lymphocytes of subjects who have been exposed to the antigen, having undergone clonal expansion after stimulation of the antigen.

El trabajo anterior sobre las respuestas públicas de los linfocitos T ha identificado ejemplos individuales de respuestas públicas de los linfocitos T a las enfermedades (incluido el CMV, EBV, gripe, esclerosis múltiple y otras enfermedades neoplásicas y afecciones autoinmunes), (Venturi V, et al. (2008) J Immunol 181: 7853-7862). Estos estudios se vieron limitados por la profundidad de secuenciación y el tamaño de las cohortes de investigación. Típicamente, estas respuestas públicas de linfocitos T se estudiaron en el entorno de antígenos individuales en un único entorno de HLA, normalmente, usando tetrámeros de antígeno-MHC para purificar linfocitos T específicos de antígeno. Sin embargo, debido a limitaciones técnicas, hasta la fecha, solo se ha identificado un número relativamente pequeño de respuestas públicas de linfocitos T. No es sorprendente que estos resultados se hayan limitado a las respuestas públicas de linfocitos T de alta frecuencia y fácilmente observables que dominan la respuesta inmunitaria a sus antígenos diana. Por lo tanto, estas respuestas públicas representan solo secuencias de TCRp que son comunes al espacio de linfocitos T sin exposición previa de casi todos los sujetos adultos (es decir, disponibles para respuesta de antígeno), y omiten ambos reordenamientos de linfocitos T raros que están presentes solo en algunos pacientes experimentados con antígenos debido a la rareza entre las secuencias de linfocitos T sin exposición previa y a las respuestas de los linfocitos T que no son inmunodominantes y, por lo tanto, nunca comprenden una fracción suficiente del repertorio total de linfocitos T para ser observados de forma fiable con una profundidad de secuenciación limitada.Previous work on public T-cell responses has identified individual examples of public T-cell responses to disease (including CMV, EBV, influenza, multiple sclerosis, and other neoplastic diseases and autoimmune conditions), (Venturi V, et al. (2008) J Immunol 181: 7853-7862). These studies were limited by the depth of sequencing and the size of the research cohorts. Typically, these public T-cell responses were studied in the environment of individual antigens in a unique HLA environment, typically using MHC-antigen tetramers to purify antigen-specific T lymphocytes. However, due to technical limitations, to date, only a relatively small number of public T cell responses have been identified. Not surprisingly, these results have been limited to high frequency and readily observable public T cell responses that they dominate the immune response to their target antigens. Therefore, these public responses represent only TCRp sequences that are common to the T-cell space without prior exposure of almost all adult subjects (i.e., available for antigen response), and they miss both rare T-cell rearrangements that are present only in some antigen-experienced patients due to the rarity between previously exposed T-cell sequences and the responses of T-cells that are not immunodominant and therefore never comprise a sufficient fraction of the total T-cell repertoire to be reliably observed with limited sequencing depth.

Además, la interacción TCR-antígeno está mediada por la presentación de péptidos extraños en la superficie celular por células infectadas con patógenos en el entorno de proteínas del complejo principal de histocompatibilidad (MHC) de clase I. Dado que las proteínas del MHC de clase I están codificadas por los loci A, B y C del antígeno leucocitario humano (HLA), que son muy polimórficos, la especificidad antigénica de un TCR se modula entre individuos por el entorno del HLA.Furthermore, the TCR-antigen interaction is mediated by the presentation of foreign peptides on the cell surface by cells infected with pathogens in the environment of major histocompatibility complex (MHC) class I proteins. are encoded by the human leukocyte antigen (HLA) loci A, B and C, which are highly polymorphic, the antigenic specificity of a TCR is modulated between individuals by the HLA environment.

La unión de los receptores de los linfocitos T a los antígenos está mediada por proteínas del MHC, que presentan el antígeno en la superficie de las células. El MHC están codificado en humanos por los loci HLA, que son muy polimórficos. Este polimorfismo da lugar a respuestas heterogéneas de linfocitos T al mismo antígeno en todos los individuos y a una selección diferencial positiva y negativa de secuencias de receptores de linfocitos T específicos durante el entrenamiento tímico. La determinación de los alelos HLA de un individuo (tipo HLA) tiene varias aplicaciones clínicas. Un ejemplo de una aplicación clínica para la tipificación de HLA es probar la idoneidad de un individuo como donante de trasplante de médula ósea. La tipificación de HLA se describe en Spellmann et al., Biol Blood Marrow Transplant. 2008;14(Supl 9):37-44; Bidwell, Immunol Today. 1994;15(7):303-307; y el documento WO2011017151.The binding of T cell receptors to antigens is mediated by MHC proteins, which present the antigen on the surface of cells. The MHC are encoded in humans by HLA loci, which are highly polymorphic. This polymorphism results in heterogeneous T cell responses to the same antigen in all individuals and a positive and negative differential selection of specific T cell receptor sequences during thymic training. The determination of an individual's HLA alleles (HLA type) has several clinical applications. An example of a clinical application for HLA typing is testing an individual's suitability as a bone marrow transplant donor. HLA typing is described in Spellmann et al., Biol Blood Marrow Transplant. 2008; 14 (Suppl 9): 37-44; Bidwell, Immunol Today. 1994; 15 (7): 303-307; and WO2011017151.

Existe la necesidad de métodos mejorados para diagnosticar y/o predecir el estado de una persona para una enfermedad infecciosa, tal como CMV, EBV, HPV, viruela, y otros, con mayor sensibilidad y precisión. Se necesitan métodos de diagnóstico que aprovechen la información sobre el perfil de la secuencia del receptor de linfocitos T de un individuo, incluida la presencia de clones de linfocitos T públicos, y evaluar el estado de enfermedad infecciosa del individuo en función del perfil de la secuencia del receptor de linfocitos T. También existe la necesidad de inferir el tipo de HLA de un individuo basándose en el perfil de secuencia del receptor de linfocitos T del individuo. La presente invención satisface estas necesidades y proporciona ventajas adicionales relacionadas.There is a need for improved methods to diagnose and / or predict a person's status for an infectious disease, such as CMV, EBV, HPV, smallpox, and others, with greater sensitivity and precision. Diagnostic methods are needed that take advantage of information about an individual's T-cell receptor sequence profile, including the presence of public T-cell clones, and assess the individual's infectious disease status based on the sequence profile. There is also a need to infer the HLA type of an individual based on the individual's T cell receptor sequence profile. The present invention satisfies these needs and provides additional related advantages.

Sumario de la InvenciónSummary of the Invention

La invención proporciona un método para predecir el estado de un alelo del antígeno leucocitario humano (HLA) de un sujeto, que comprende:The invention provides a method for predicting the status of a human leukocyte antigen (HLA) allele of a subject, comprising:

(a) determinar un perfil de receptor inmunitario de secuencias de ADN reordenadas del receptor de linfocitos T (TCR) único para cada uno de una pluralidad de sujetos, teniendo cada sujeto un estado de alelo HLA conocido; (b) categorizar la pluralidad de sujetos basándose en (i) dicho estado del alelo HLA conocido del sujeto y (ii) una presencia o ausencia en el perfil del receptor inmunitario del sujeto de un rasgo que comprende una secuencia de ADN reordenada de TCR único;(a) determining an immune receptor profile of unique T-cell receptor (TCR) rearranged DNA sequences for each of a plurality of subjects, each subject having a known HLA allele status; (b) categorizing the plurality of subjects based on (i) said subject's known HLA allele status and (ii) a presence or absence in the subject's immune receptor profile of a trait comprising a single TCR rearranged DNA sequence ;

(c) determinar una puntuación estadística para la asociación entre un conjunto de rasgos y un estado de alelo HLA positivo basado en (b);(c) determining a statistical score for the association between a set of traits and an HLA positive allele status based on (b);

(d) entrenar un modelo de aprendizaje automático usando dicho conjunto de rasgos para definir un conjunto de clasificadores para cada estado de alelo HLA;(d) training a machine learning model using said set of traits to define a set of classifiers for each HLA allele state;

(e) introducir una o más secuencias de ADN reordenadas del TCR único de un sujeto con un estado de alelo HLA desconocido en dicho modelo de aprendizaje automático para identificar uno o más rasgos que coincidan con el conjunto de clasificadores; y(e) introducing one or more rearranged DNA sequences from the unique TCR of a subject with unknown HLA allele status into said machine learning model to identify one or more traits that match the set of classifiers; and

(f) predecir el estado de un alelo HLA de dicho sujeto basándose en dichos uno o más rasgos emparejados. La presente divulgación está basada, en parte, en métodos para determinar o predecir la presencia o ausencia de uno o más agentes de enfermedades infecciosas en un sujeto con estado de infección conocido o desconocido mediante técnicas de cuantificación inmunitarias combinadas con modelos matemáticos.(f) predicting the status of an HLA allele of said subject based on said one or more paired traits. The present disclosure is based, in part, on methods for determining or predicting the presence or absence of one or more infectious disease agents in a subject with known or unknown infection status by immune quantification techniques combined with mathematical modeling.

La presente divulgación proporciona un método para predecir la presencia o ausencia de una infección en un sujeto con estado de infección desconocido. En una realización, el ADN genómico de una muestra que comprende linfocitos T obtenidos del sujeto se somete a amplificación y secuenciación de alto rendimiento para determinar un perfil de receptor de linfocitos T (TCR) que comprende secuencias de aminoácidos de la región determinante de complementariedad 3 (CDR3) de TCR únicos. En un caso particular, a continuación, el perfil de TCR se compara con una base de datos de secuencias de receptores de linfocitos T públicos de diagnóstico previamente identificadas que se sabe que están asociadas de forma estadísticamente significativa con la infección. En un caso, a continuación, se genera una primera puntuación para el sujeto determinando la proporción de secuencias de TCR únicos en el perfil del sujeto que coinciden con las secuencias de TCR públicos en la base de datos. En este caso, la primera puntuación se introduce en un algoritmo que compara la primera puntuación del sujeto con los estados de infección conocidos de una pluralidad de sujetos con estado de infección conocido. En otro caso, a continuación, se determina una probabilidad estimada de estado de infección para el sujeto como resultado del algoritmo. En ciertas ocasiones, el método comprende además una etapa inicial de obtener una muestra que comprende linfocitos T del sujeto.The present disclosure provides a method of predicting the presence or absence of an infection in a subject with unknown infection status. In one embodiment, genomic DNA from a sample comprising T lymphocytes obtained from the subject is subjected to high-throughput amplification and sequencing to determine a T lymphocyte receptor (TCR) profile comprising amino acid sequences of the complementarity determining region 3 (CDR3) of unique TCRs. In a particular case, the TCR profile is then compared to a database of previously identified diagnostic public T-cell receptor sequences known to be statistically significantly associated with infection. In one case, Next, a first score is generated for the subject by determining the proportion of unique TCR sequences in the subject's profile that match the public TCR sequences in the database. In this case, the first score is entered into an algorithm that compares the subject's first score with the known infection states of a plurality of subjects with known infection status. In another case, then, an estimated probability of infection status for the subject is determined as a result of the algorithm. On certain occasions, the method further comprises an initial step of obtaining a sample comprising T lymphocytes from the subject.

La presente divulgación proporciona adicionalmente un método para predecir la presencia o ausencia de una o más infecciones víricas en un sujeto con estado de infección desconocido. En otro caso, el método comprende determinar un perfil de secuencias de TCR únicos de una muestra obtenida del sujeto (por ejemplo, una muestra que comprende linfocitos T) e ingresar estas secuencias de TCR únicos en uno o más algoritmos. En un caso, los uno o más algoritmos se generan determinando al menos 100.000 secuencias de TCR únicos de cada uno de una pluralidad de sujetos de estado de infección conocido para cada una de las una o más infecciones. En ciertas ocasiones, el método comprende además una etapa inicial de obtener una muestra del sujeto. En ciertas ocasiones, se identifican estadísticamente secuencias de TCR únicos que se correlacionan con la presencia o ausencia de cada una de las una o más infecciones, generando así una puntuación que predice la presencia o ausencia de cada una de las una o más infecciones. En estos casos, las puntuaciones se introducen luego en un modelo de regresión logística entrenado en cada uno de la pluralidad de sujetos de estado de infección conocido para cada una de las una o más infecciones, cuyo resultado es la predicción de si el sujeto es positivo o negativo para cada una de las una o más infecciones.The present disclosure further provides a method for predicting the presence or absence of one or more viral infections in a subject with unknown infection status. In another case, the method comprises determining a profile of unique TCR sequences from a sample obtained from the subject (eg, a sample comprising T lymphocytes) and inputting these unique TCR sequences into one or more algorithms. In one instance, the one or more algorithms are generated by determining at least 100,000 unique TCR sequences from each of a plurality of subjects of known infection status for each of the one or more infections. On certain occasions, the method further comprises an initial step of obtaining a sample from the subject. On certain occasions, unique TCR sequences are statistically identified that correlate with the presence or absence of each of the one or more infections, thus generating a score that predicts the presence or absence of each of the one or more infections. In these cases, the scores are then entered into a logistic regression model trained in each of the plurality of subjects of known infection status for each of the one or more infections, the result of which is the prediction of whether the subject is positive. or negative for each of the one or more infections.

En algunos casos, una o más infecciones son por citomegalovirus (CMV), un virus de Epstein-Barr (EBV), un virus del herpes simple (HSV) o un virus de la viruela.In some cases, one or more infections are a cytomegalovirus (CMV), an Epstein-Barr virus (EBV), a herpes simplex virus (HSV), or a smallpox virus.

En el presente documento se describe un método para predecir la presencia o ausencia de una infección por CMV en un sujeto con estado de infección desconocido. En un caso, el ADN genómico de una muestra que comprende linfocitos T obtenidos de un sujeto se somete a amplificación y secuenciación de alto rendimiento para determinar un perfil de TCR que comprende secuencias de aminoácidos de CDR3 únicos. En ciertas ocasiones, el método comprende además una etapa inicial de obtener una muestra que comprende linfocitos T del sujeto. En otros casos, el perfil de TCR se compara luego con una base de datos de secuencias de receptores de linfocitos T públicos de diagnóstico previamente identificados que se sabe que están asociados estadísticamente de manera significativa con la infección por CMV. En ciertas ocasiones, a continuación, se genera una puntuación de carga del CMV para el sujeto determinando la proporción de secuencias de TCR únicos en el perfil del sujeto que coinciden con las secuencias de TCR públicos en la base de datos. En otros casos, la puntuación de carga del CMV calculada se introduce en un modelo de regresión logística que compara la carga del CMV y el estado de infección por CMV de una pluralidad de sujetos con estado de infección por CMV conocido. En un caso, a continuación, se determina una probabilidad estimada del estado de infección por CMV para el sujeto como resultado del modelo de regresión logística.Described herein is a method for predicting the presence or absence of a CMV infection in a subject with unknown infection status. In one instance, genomic DNA from a sample comprising T lymphocytes obtained from a subject is subjected to high throughput amplification and sequencing to determine a TCR profile comprising unique CDR3 amino acid sequences. On certain occasions, the method further comprises an initial step of obtaining a sample comprising T lymphocytes from the subject. In other cases, the TCR profile is then compared to a database of previously identified diagnostic public T-cell receptor sequences known to be statistically significantly associated with CMV infection. On certain occasions, a CMV loading score is then generated for the subject by determining the proportion of unique TCR sequences in the subject's profile that match the public TCR sequences in the database. In other cases, the calculated CMV burden score is entered into a logistic regression model that compares CMV burden and CMV infection status of a plurality of subjects with known CMV infection status. In one case, an estimated probability of the CMV infection status for the subject is then determined as a result of the logistic regression model.

En ciertas ocasiones, se determina que la base de datos de secuencias de linfocitos T públicos está asociada estadísticamente mediante la obtención de secuencias de TCR únicos de un grupo de sujetos con infección por CMV y un grupo de sujetos sin infección por CMV. En un caso, cada secuencia de TCR únicos se somete a una prueba exacta de Fisher de una cola basada en la presencia o ausencia de cada secuencia de TCR en sujetos con estado de infección por CMV conocido. En un caso, la hipótesis nula es que cada secuencia de TCR no es más común en sujetos con una infección por CMV que en sujetos sin una infección por CMV. En un caso, se establece un umbral teórico de p-valor, y la tasa de descubrimientos falsos (TDF) se controla mediante la permutación del estado de infección por CMV en cada sujeto para generar una distribución empírica nula de p-valores. En un caso particular, a continuación, se genera una base de datos que comprende secuencias de receptores de linfocitos T que se comparten de forma estadísticamente significativa en sujetos con infección por CMV.On certain occasions, the public T cell sequence database is determined to be statistically associated by obtaining unique TCR sequences from a group of subjects with CMV infection and a group of subjects without CMV infection. In one case, each unique TCR sequence is subjected to a one-tailed Fisher's exact test based on the presence or absence of each TCR sequence in subjects with known CMV infection status. In one case, the null hypothesis is that each TCR sequence is no more common in subjects with a CMV infection than in subjects without a CMV infection. In one case, a theoretical threshold of p-value is established, and the false discovery rate (TDF) is controlled by permutation of the CMV infection status in each subject to generate an empirical null distribution of p-values. In a particular case, a database is then generated comprising T-lymphocyte receptor sequences that are statistically significantly shared in subjects with CMV infection.

En ciertas ocasiones, el umbral teórico de p-valor es menor o igual a 1,0*10-4.On certain occasions, the theoretical threshold of p-value is less than or equal to 1.0 * 10-4.

En ciertas ocasiones, las secuencias de TCR únicos identificadas estadísticamente que se correlacionan con la presencia o ausencia de infección por CMV comprenden una o más de las SEQ ID NO: 1 a 142. En ciertas ocasiones, las secuencias de TCR únicos identificadas estadísticamente que se correlacionan con la presencia o ausencia de infección por CMV comprenden las SEQ ID NO: 1 a 142.On certain occasions, statistically identified unique TCR sequences that correlate with the presence or absence of CMV infection comprise one or more of SEQ ID NO: 1 to 142. On certain occasions, statistically identified unique TCR sequences that are correlate with the presence or absence of CMV infection comprise SEQ ID NO: 1 to 142.

En algunas realizaciones, la etapa de determinar las al menos 100.000 secuencias de TCRp únicos de la muestra incluye amplificar los ácidos nucleicos reordenados que codifican la región CDR3 de TCRp en una reacción de PCR multiplexada con una mezcla de cebadores directos específicos de los segmentos del gen Vp de TCR y cebadores inversos específicos de los segmentos del gen Jp. En algunas realizaciones, las lecturas de los ácidos nucleicos amplificados se secuencian y las lecturas de secuencia se procesan para eliminar errores en la secuencia primaria de cada lectura y comprimir los datos. En realizaciones particulares, se aplica un algoritmo de vecino más cercano para colapsar los datos en secuencias únicas fusionando secuencias estrechamente relacionadas para eliminar tanto la PCR como los errores de secuenciación. In some embodiments, the step of determining the at least 100,000 unique TCRp sequences from the sample includes amplifying the rearranged nucleic acids encoding the CDR3 region of TCRp in a multiplexed PCR reaction with a mixture of gene segment-specific forward primers. TCR Vp and specific reverse primers of the Jp gene segments. In some embodiments, the amplified nucleic acid reads are sequenced and the sequence reads are processed to eliminate errors in the primary sequence of each read and compress the data. In particular embodiments, a nearest neighbor algorithm is applied to collapse the data into unique sequences by fusing closely related sequences to eliminate both PCR and sequencing errors.

El método también incluye determinar una asociación de HLA para cada secuencia de TCR único en el perfil de TCR. En algunas realizaciones, la secuencia de TCR único está asociada con un alelo HLA-A y/o HLA-B.The method also includes determining an HLA association for each unique TCR sequence in the TCR profile. In some embodiments, the unique TCR sequence is associated with an HLA-A and / or HLA-B allele.

El método de la invención comprende etapas para predecir el estado de un alelo del antígeno leucocitario humano (HLA) de un sujeto, que comprende (a) determinar un perfil de receptor inmunitario de secuencias de ADN reordenadas del receptor de linfocitos T (TCR) único para cada uno de una pluralidad de sujetos, teniendo cada sujeto un estado de alelo HLA conocido; (b) categorizar la pluralidad de sujetos basándose en (i) dicho estado del alelo HLA conocido del sujeto y (ii) una presencia o ausencia en el perfil del receptor inmunitario del sujeto de un rasgo que comprende una secuencia de ADN reordenada de TCR único; (c) determinar una puntuación estadística para la asociación entre un conjunto de rasgos y un estado de alelo HLA positivo basado en (b); (d) entrenar un modelo de aprendizaje automático usando dicho conjunto de rasgos para definir un conjunto de clasificadores para cada estado de alelo HLA; (e) introducir una o más secuencias de ADN reordenadas del TCR único de un sujeto con un estado de alelo HLA desconocido en dicho modelo de aprendizaje automático para identificar uno o más rasgos que coincidan con el conjunto de clasificadores; y (f) predecir el estado del alelo HLA de dicho sujeto basándose en dicho uno o más rasgos coincidentes.The method of the invention comprises steps of predicting the status of a subject's human leukocyte antigen (HLA) allele, comprising (a) determining an immune receptor profile of unique T-cell receptor (TCR) rearranged DNA sequences. for each of a plurality of subjects, each subject having a known HLA allele status; (b) categorizing the plurality of subjects based on (i) said subject's known HLA allele status and (ii) a presence or absence in the subject's immune receptor profile of a trait comprising a single TCR rearranged DNA sequence ; (c) determining a statistical score for the association between a set of traits and an HLA positive allele status based on (b); (d) training a machine learning model using said set of traits to define a set of classifiers for each HLA allele state; (e) introducing one or more rearranged DNA sequences from the unique TCR of a subject with unknown HLA allele status into said machine learning model to identify one or more traits that match the set of classifiers; and (f) predicting the HLA allele status of said subject based on said one or more matching traits.

El método comprende determinar un perfil de receptor inmunitario determinando el número total de secuencias de TCR únicos y la frecuencia de cada secuencia de TCR único. El método también comprende determinar una puntuación estadística que comprende determinar un p-valor utilizando una prueba exacta de Fisher de dos colas. The method comprises determining an immune receptor profile by determining the total number of unique TCR sequences and the frequency of each unique TCR sequence. The method also comprises determining a statistical score which comprises determining a p-value using a two-tailed Fisher's exact test.

En algunas realizaciones, el método incluye la determinación de un p-valor de corte para identificar un conjunto de rasgos que están asociados significativamente con un estado de alelo HLA. En otra realización, el método incluye determinar una tasa de descubrimientos falsos (TDF) de la asociación de un rasgo con un estado de alelo HLA. En otras realizaciones, el método incluye determinar una serie de asociaciones de falsos positivos entre dicho rasgo y dicho estado del alelo HLA.In some embodiments, the method includes determining a p-cutoff value to identify a set of traits that are significantly associated with an HLA allele status. In another embodiment, the method includes determining a false discovery rate (TDF) of the association of a trait with an HLA allele status. In other embodiments, the method includes determining a series of false positive associations between said trait and said HLA allele status.

En algunas realizaciones, el método incluye entrenar un modelo de aprendizaje automático entrenando un modelo de regresión logística usando dicho conjunto de características identificadas y dichos estados de alelos HLA conocidos de cada sujeto. En una realización, el método incluye entrenar un modelo de aprendizaje automático que comprende realizar un método de validación cruzada de dejar uno fuera. En otra realización, el método comprende realizar dicho método de validación cruzada de dejar uno fuera durante múltiples rondas. En otra realización, la predicción tiene al menos un 80 % de precisión o al menos un 90 % de precisión.In some embodiments, the method includes training a machine learning model by training a logistic regression model using said set of identified characteristics and said known HLA allele states of each subject. In one embodiment, the method includes training a machine learning model that comprises performing a cross-validation method of leaving one out. In another embodiment, the method comprises performing said cross-validation method of leaving one out for multiple rounds. In another embodiment, the prediction is at least 80% accurate or at least 90% accurate.

En determinadas realizaciones, la secuencia de ADN reordenada de TCR es una secuencia de ADN reordenada TCRA, TCRB, TCRG o TCRD. En otras realizaciones, el alelo HLA es un alelo HLA-A2 o un alelo HLA-24.In certain embodiments, the TCR rearranged DNA sequence is a TCRA, TCRB, TCRG, or TCRD rearranged DNA sequence. In other embodiments, the HLA allele is an HLA-A2 allele or an HLA-24 allele.

Breve descripción de los dibujosBrief description of the drawings

Se obtendrá una mejor comprensión de las características novedosas de la invención y las ventajas de la presente invención haciendo referencia a la siguiente descripción y los dibujos adjuntos de los cuales:A better understanding of the novel features of the invention and the advantages of the present invention will be obtained by referring to the following description and the accompanying drawings of which:

La Figura (FIG.) 1 representa once eventos distintos de recombinación de CDR3p VDJ, sin dejar de producir la misma secuencia de nucleótidos y, en última instancia, la misma secuencia de aminoácidos de CDR3p (SEQ ID NO: 149). Las secuencias de nucleótidos en el lado izquierdo de la FIG. 1 son, en orden de arriba hacia abajo, SEQ ID NO: 143, SEQ ID NO: 144, SEQ ID NO: 144, SEQ ID NO: 144, SEQ ID NO: 144, SEQ ID NO: 144, SEQ ID NO: 145, SEQ ID NO: 146, SEQ ID NO: 146, SEQ ID NO: 147, SEQ ID NO:148.Figure (FIG.) 1 depicts eleven different CDR3p VDJ recombination events, while still producing the same nucleotide sequence and ultimately the same amino acid sequence of CDR3p (SEQ ID NO: 149). The nucleotide sequences on the left side of FIG. 1 are, in order from top to bottom, SEQ ID NO: 143, SEQ ID NO: 144, SEQ ID NO: 144, SEQ ID NO: 144, SEQ ID NO: 144, SEQ ID NO: 144, SEQ ID NO: 145, SEQ ID NO: 146, SEQ ID NO: 146, SEQ ID NO: 147, SEQ ID NO: 148.

Las FIG. 2A, 2B y 2C proporcionan una descripción general del método para predecir el estado de la enfermedad de un individuo. La FIG. 2^amuestra un conjunto de datos de muestras de sangre periférica de 640 sujetos sanos (287 CMV- y 353 CMV+), que fueron analizados mediante perfiles de receptores inmunitarios de TCR de alto rendimiento. En la FIG. 2B, se identificaron secuencias de TCRp únicos que estaban presentes en significativamente más sujetos CMV+ que sujetos CMV-, controlando la tasa de determinaciones falsas (TDF) por permutación del estado del CMV. La presencia de estas secuencias de TCRp asociadas al CMV se utilizó para construir un modelo de clasificación. El panel superior de la FIG. 2B representa CASSLIGVSSYNEQFF (SEQ ID NO: 12). En la FIG. 2C, el modelo de clasificación se probó mediante una validación cruzada exhaustiva de dejar uno fuera, en la que una muestra se mantuvo fuera de los cálculos y el proceso se repitió desde el principio. El modelo de clasificación resultante se utilizó para predecir el estado del c Mv del sujeto excluido.FIGS. 2A, 2B, and 2C provide an overview of the method for predicting an individual's disease state. FIG. 2 shows a set of data samples from peripheral blood of 640 healthy subjects (287 and 353 CMV- CMV +), which were analyzed by immune receptors profiles TCR high performance. In FIG. 2B, unique TCRp sequences were identified that were present in significantly more CMV + subjects than CMV- subjects, controlling for the false determination rate (TDF) by permutation of CMV status. The presence of these CMV-associated TCRp sequences was used to construct a classification model. The top panel of FIG. 2B represents CASSLIGVSSYNEQFF (SEQ ID NO: 12). In FIG. 2C, the classification model was tested using extensive cross-validation of leaving one out, in which a sample was kept out of the calculations and the process was repeated from the beginning. The resulting classification model was used to predict the c Mv status of the excluded subject.

La FIG. 3A muestra una representación gráfica de un conjunto de datos de sujetos, en donde 640 sujetos fueron fenotipados específicamente para el tipo de HLA y el estado del CMB para ser elegibles como donantes de HCT, y se separaron entre 287 donantes CMV+ y 353 donantes CMV-. Hubo aproximadamente el mismo número de muestras seropositivas y seronegativas para la investigación de las respuestas de los linfocitos T públicos.FIG. 3A shows a graphical representation of a subject data set, where 640 subjects were phenotyped specifically for HLA type and CMB status to be eligible as HCT donors, and were separated into 287 CMV + donors and 353 CMV- donors. . There were approximately the same number of seropositive and seronegative samples for the investigation of public T cell responses.

La FIG. 3B muestra las características demográficas de los sujetos incluidos en este estudio, clasificados por estado del CMV.FIG. 3B shows the demographic characteristics of the subjects included in this study, classified by CMV status.

La FIG. 4 muestra una prueba de asociación al CMV de los TCR, en donde se seleccionó e identificó la secuencia de aminoácidos del TCR CASSLIGVSSYNEQFF (SEQ ID NO: 12) en 27 de los sujetos CMV+, y solo 2 de los sujetos CMV-, con un p-valor de 2,8E'08. FIG. 4 shows a test of association to CMV of the TCRs, where the amino acid sequence of the CASSLIGVSSYNEQFF TCR (SEQ ID NO: 12) was selected and identified in 27 of the CMV + subjects, and only 2 of the CMV- subjects, with a p-value of 2.8E'08.

La FIG. 5 representa secuencias de aminoácidos de los TCR ilustrativos identificadas en sujetos CMV+ con un umbral de p-valor elegido en 10"4 En orden de arriba hacia abajo, éstas son las SEQ ID NO: 1-5. Se puede ver que a un p-valor más bajo, se pueden identificar un mayor número de secuencias de TCRp asociadas al CMB. La FIG. 6 representa la carga del CMV, que se representa como la proporción de TCR únicos en cada sujeto que están significativamente asociados al ^cM^vfrente a aquellos TCR que no están significativamente asociados al CMV.FIG. 5 represents amino acid sequences of the illustrative TCRs identified in CMV + subjects with a threshold p-value chosen at 10 "4 In order from top to bottom, these are SEQ ID NO: 1-5. It can be seen that at p -lower value, a greater number of TCRp sequences associated with CMB can be identified. FIG. 6 represents the CMV load, which is represented as the proportion of unique TCRs in each subject that are significantly associated with ^c M ^v versus to those TCRs that are not significantly associated with CMV.

La FIG. 7 describe el método de validación cruzada, que deja fuera una de las 640 muestras iniciales, luego, la base de datos de secuencias de TCRp específicas del CMV y las estadísticas asociadas se vuelven a entrenar de una manera no supervisada para eliminar el sesgo, y se clasifica el estado serológico del CMV de la muestra excluida. La FIG. 7 representa CASSLIGVSSYNEQFF (SEQ ID NO: 12).FIG. 7 describes the cross-validation method, which leaves out one of the initial 640 samples, then the CMV-specific TCRp sequence database and associated statistics are retrained in an unsupervised manner to eliminate bias, and The CMV serological status of the excluded sample is classified. FIG. 7 represents CASSLIGVSSYNEQFF (SEQ ID NO: 12).

La FIG. 8 describe los resultados del método de validación cruzada que se muestra para todos los sujetos y sujetos con validación cruzada. Los datos se presentan como el área bajo la característica operativa del receptor (ABCOR) en el eje y frente al p-valor en el eje x. Los resultados del método de validación cruzada se muestran como un gráfico de la tasa de falsos positivos frente a la tasa de verdaderos positivos. La FIG. 8 (gráfico superior) muestra datos para el rendimiento de clasificación de todos y los conjuntos de datos de validación cruzada (VC) para cada umbral de p-valor, medido como el área bajo la curva ^cO^r(ABCOR). El número sobre cada conjunto de puntos de datos se corresponde con el número de TCRp asociados al CMV identificados en ese umbral de p-valor, y el rectángulo indica el conjunto de datos seleccionado para el análisis posterior (p-valor = 10-4). La FIG. 8 (gráfico inferior) también muestra una tasa de descubrimientos falsos (TDF) estimada para cada umbral de p-valor utilizado en la identificación de secuencias de TCRp asociadas significativamente al CMV, utilizando permutaciones del estado del CMV. El mejor rendimiento se observa con un p-valor de 10-4, que se corresponde con una TDF estimada de ~ 20 %, dando como resultado la identificación de un conjunto de 142 secuencias de TCR-p que se asociaron significativamente con el estado positivo del CMV (enumeradas en la Tabla 1).FIG. 8 describes the results of the cross-validation method shown for all subjects and cross-validated subjects. Data are presented as the area under the receiver operating characteristic (ABCOR) on the y-axis versus the p-value on the x-axis. The results of the cross-validation method are displayed as a plot of the false positive rate versus the true positive rate. FIG. 8 (upper graph) shows performance data for the classification of all datasets and cross - validation (CV) for each threshold p-value, measured as the area under the curve ^c O ^r (Abcor). The number on each set of data points corresponds to the number of TCRp associated with CMV identified at that p-value threshold, and the rectangle indicates the data set selected for subsequent analysis (p-value = 10-4) . FIG. 8 (bottom graph) also shows an estimated false discovery rate (TDF) for each threshold p-value used in the identification of TCRp sequences significantly associated with CMV, using permutations of CMV status. The best performance is observed with a p-value of 10-4, which corresponds to an estimated TDF of ~ 20%, resulting in the identification of a set of 142 TCR-p sequences that were significantly associated with the positive state. CMV (listed in Table 1).

La FIG. 9 muestra las curvas COR para los conjuntos de datos totales y de validación cruzada.FIG. 9 shows the COR curves for the total and cross-validation data sets.

Las FIG. 10A y 10B muestran restricción de HLA de secuencias de TCRp asociados al CMV. La FIG. 10A muestra la distribución de los alelos HLA-A en esta cohorte. La FIG. 10B muestra la distribución de los alelos HLA-B en esta cohorte. Las FIG. 10A y 10B representan las siguientes secuencias: CASSLAPGATNEKLFF (SEQ ID NO:8), CASSLIGVSSYNEQFF (SEQ ID NO:12), CASSPSRNTEAFF (SEQ ID NO:73), CASSLQAGANEQFF (SEQ ID NO: 119) y CASASANYGYTF (SEQ ID NO:118).FIGS. 10A and 10B show HLA restriction of CMV-associated TCRp sequences. FIG. 10A shows the distribution of HLA-A alleles in this cohort. FIG. 10B shows the distribution of HLA-B alleles in this cohort. FIGS. 10A and 10B represent the following sequences: CASSLAPGATNEKLFF (SEQ ID NO: 8), CASSLIGVSSYNEQFF (SEQ ID NO: 12), CASSPSRNTEAFF (SEQ ID NO: 73), CASSLQAGANEQFF (SEQ ID NO: 119) and CASASANYGYTF (SEQ ID NO: 118).

Las FIG. 11A y 11B muestran la incidencia de secuencias de los TCRp reactivos al CMV previamente documentados en esta cohorte. La FIG. 11A muestra la incidencia de cada secuencia de los TCRp en la cohorte de 640 sujetos representada gráficamente a lo largo del eje horizontal mediante la disminución de la incidencia total, con la incidencia en sujetos CMV+ por encima de la horizontal y la incidencia en sujetos CMV- por debajo de la horizontal. La FIG. 11B muestra un histograma de incidencia de estas secuencias de los TCRp en la cohorte de 640 sujetos representados gráficamente para cada grupo de secuencias.FIGS. 11A and 11B show the incidence of previously documented CMV-reactive TCRp sequences in this cohort. FIG. 11A shows the incidence of each sequence of PCRRs in the cohort of 640 subjects represented graphically along the horizontal axis by decreasing the total incidence, with the incidence in CMV + subjects above the horizontal and the incidence in CMV- subjects. below horizontal. FIG. 11B shows an incidence histogram of these sequences of the TCRp in the cohort of 640 subjects plotted for each group of sequences.

La FIG. 12 muestra la concordancia de las secuencias de los TCRB en la cohorte en comparación con las de la bibliografía. La FIG. 12 representa las siguientes secuencias: CASSLAPGATNEKLFF (SEQ ID NO:8), CASSLIGVSSYNEQFF (SEQ ID NO:12), CASSPSRNTEAFF (SEQ ID NO:73), CASSLQAGANEQFF (SEQ ID NO:119) y CASASANYGYTF (SEQ ID NO:118).FIG. 12 shows the concordance of the TCRB sequences in the cohort compared to those in the literature. FIG. 12 represents the following sequences: CASSLAPGATNEKLFF (SEQ ID NO: 8), CASSLIGVSSYNEQFF (SEQ ID NO: 12), CASSPSRNTEAFF (SEQ ID NO: 73), CASSLQAGANEQFF (SEQ ID NO: 119) and CASASANYGYTF (SEQ ID NO: 118) .

La FIG. 13 representa una descripción general de una realización del método. La FIG. 13 representa CSARDRGIGNTIYF (SEQ ID NO: 152).FIG. 13 represents a general description of an embodiment of the method. FIG. 13 represents CSARDRGIGNTIYF (SEQ ID NO: 152).

La FIG. 14 representa la selección de rasgos utilizando una prueba exacta de Fisher de dos colas para determinar la significación estadística de la asociación entre un rasgo (secuencia de TCRB único) y el estado del alelo HLA (HLA-A2+ o HLA-A2-), de acuerdo con una realización de la invención. Se muestra un listado ilustrativo de características (secuencias de TCRB únicos) y el número de sujetos que tienen una característica particular y si el sujeto es positivo o negativo para el alelo HLA-A2. La FIG. 14 representa, en orden de arriba hacia abajo, las SEQ ID NO:150-161.FIG. 14 depicts the selection of traits using a two-tailed Fisher's exact test to determine the statistical significance of the association between a trait (unique TCRB sequence) and HLA allele status (HLA-A2 + or HLA-A2-), of according to an embodiment of the invention. An illustrative listing of characteristics (unique TCRB sequences) and the number of subjects that have a particular characteristic and whether the subject is positive or negative for the HLA-A2 allele is shown. FIG. 14 represents, in order from top to bottom, SEQ ID NO: 150-161.

La FIG. 15 representa las etapas para la selección de rasgos, de acuerdo con una realización de la invención. Se selecciona un p-valor como un punto de corte para identificar un conjunto de "rasgos de los TCR" del listado completo de las posibles secuencias de los TCR. La definición de un umbral de p-valor y la permutación del estado del alelo entre individuos proporciona una estimación de la tasa de descubrimientos falsos. Esto se realiza para cada alelo HLA, dando como resultado un conjunto de secuencias de TCRp asociadas a los alelos para cada alelo HLA. Se utilizó un p-valor de corte de p<10'4y una TDF de 0,1 para identificar 288 secuencias de TCRB que están asociadas positivamente con HLA-A2. Para cada una de las secuencias de TCRB asociadas a los alelos, la frecuencia de la secuencia también se determina en cada sujeto. La FIG. 15 representa, en orden de izquierda a derecha, las SEQ ID NO:162 y 163.FIG. 15 depicts the steps for selection of traits, according to one embodiment of the invention. A p-value is selected as a cut-off point to identify a set of "TCR traits" from the complete list of possible TCR sequences. Defining a threshold p-value and permutation of allele status between individuals provides an estimate of the false discovery rate. This is done for each HLA allele, resulting in a set of TCRp sequences associated with the alleles for each HLA allele. A p-cutoff value of p <10.4 and a TDF of 0.1 were used to identify 288 TCRB sequences that are positively associated with HLA-A2. For each of the TCRB sequences associated with the alleles, the frequency of the sequence is also determined in each subject. FIG. 15 represents, in order from left to right, SEQ ID NO: 162 and 163.

La FIG. 16 representa un proceso de aprendizaje automático para ajustar un modelo de regresión logística, de acuerdo con una realización de la invención.FIG. 16 depicts a machine learning process for fitting a logistic regression model, in accordance with one embodiment of the invention.

La FIG. 17 representa una validación cruzada exhaustiva de dejar uno fuera, de acuerdo con una realización de la invención.FIG. 17 represents a comprehensive cross-validation of leaving one out, in accordance with one embodiment of the invention.

La FIG. 18 muestra los resultados del experimento de validación cruzada e ilustra la precisión del método.FIG. 18 shows the results of the cross-validation experiment and illustrates the precision of the method.

Descripción detallada de la invenciónDetailed description of the invention

En este documento se describen métodos para predecir y diagnosticar enfermedades infecciosas en un sujeto que son específicos de la enfermedad (específicos para cada estado de enfermedad en particular), tienen un soporte universal (no requieren procesos/reactivos diferentes para cada estado de enfermedad) y son multiplexados (son capaces de analizar múltiples estados de enfermedad simultáneamente).This document describes methods for predicting and diagnosing infectious diseases in a subject that they are disease specific (specific for each particular disease state), they have universal support (they do not require different processes / reagents for each disease state) and they are multiplexed (they are capable of analyzing multiple disease states simultaneously).

En un caso, el método incluye etapas para la inmunosecuenciación de alto rendimiento de genes TCR reorganizados en sujetos sanos con estado conocido del CMV. Usando los resultados de la inmunosecuenciación, el método incluye buscar secuencias de TCRp que están presentes en múltiples sujetos e identificar un conjunto de secuencias de TCRp que están significativamente asociadas con el estado positivo del CMV. El método también incluye calcular un p-valor para la asociación de cada secuencia de TCRp con el estado del CMV usando una prueba exacta de Fisher, controlar la tasa de descubrimientos falsos (TDF) mediante la permutación del estado del CMV e identificar un listado de secuencias de TCRp asociadas al CMV (para una determinada TDF y p-valor). Se calcula una puntuación del CMV para cada sujeto como la proporción de todas las secuencias de TCRp de ese sujeto que están representadas en el catálogo de secuencias de TCRp asociadas al CMV. La puntuación del CMV se utiliza para distinguir entre sujetos CMV+ y CMV-.In one case, the method includes steps for high-throughput immunosequencing of rearranged TCR genes in healthy subjects with known CMV status. Using the results of immunosequencing, the method includes searching for TCRp sequences that are present in multiple subjects and identifying a set of TCRp sequences that are significantly associated with CMV positive status. The method also includes calculating a p-value for the association of each TCRp sequence with CMV status using Fisher's exact test, controlling the false discovery rate (TDF) by permutation of CMV status, and identifying a listing of TCRp sequences associated with CMV (for a given TDF and p-value). A CMV score for each subject is calculated as the proportion of all TCRp sequences from that subject that are represented in the catalog of CMV-associated TCRp sequences. The CMV score is used to distinguish between CMV + and CMV- subjects.

Los agentes infecciosos incluyen patógenos, virus, bacterias, parásitos y/o microorganismos. En ciertas ocasiones, los virus incluyen, pero sin limitación, miembros de la familia del virus del herpes (tales como los virus del herpes simple 1 y 2, virus de la varicela-zóster, EBV (virus de Epstein-Barr), citomegalovirus humano (CMV), virus del herpes humano 6, virus del herpes humano 7 y virus del herpes asociado al sarcoma de Kaposi), virus de la hepatitis B (VHB), virus de la hepatitis C (VHC), virus de inmunodeficiencia humana (VIH) I y II, virus de la gripe A, virus de la gripe B, virus respiratorios sinciciales (VRS) A y B, y metaneumovirus humano (MPV). Otros ejemplos incluyen virus linfocitotrófico de linfocitos T humanos, virus del papiloma humano, ortomixovirus, paramixovirus, adenovirus, coronavirus, rabdovirus, virus de la polio, togavirus, buniavirus, arenavirus, virus de la rubéola, reovirus, norovirus, metaneumovirus humano (MPV), virus del Nilo Occidental, virus de la fiebre amarilla, virus de la rabia, rinovirus, virus de la fiebre del Valle del Rift, virus de Marburgo, virus de las paperas, virus del sarampión, virus del papiloma humano (VPH), virus del ébola, virus de la fiebre por garrapatas de Colorado (CTFV) y/o rinovirus.Infectious agents include pathogens, viruses, bacteria, parasites, and / or microorganisms. Viruses sometimes include, but are not limited to, members of the herpes virus family (such as herpes simplex viruses 1 and 2, varicella-zoster virus, EBV (Epstein-Barr virus), human cytomegalovirus (CMV), human herpes virus 6, human herpes virus 7 and herpes virus associated with Kaposi sarcoma), hepatitis B virus (HBV), hepatitis C virus (HCV), human immunodeficiency virus (HIV ) I and II, influenza virus A, influenza virus B, respiratory syncytial virus (RSV) A and B, and human metapneumovirus (MPV). Other examples include human T-cell lymphocytotrophic virus, human papillomavirus, orthomyxovirus, paramyxovirus, adenovirus, coronavirus, rhabdovirus, polio virus, togavirus, buniavirus, arenavirus, rubella virus, reovirus, norovirus, human metapneumovirus (MPV) , West Nile virus, yellow fever virus, rabies virus, rhinovirus, Rift Valley fever virus, Marburg virus, mumps virus, measles virus, human papillomavirus (HPV), virus Ebola, Colorado tick fever virus (CTFV) and / or rhinovirus.

Otros organismos infecciosos incluyen Escherichia coli, Salmonella, Shigella, Campylobacter, Klebsiella, Pseudomonas, Listeria monocytogenes, Mycobacterium tuberculosis, Mycobacterium avium-intracellulare, Yersinia, Francisella, Pasteurella, Brucella, Clostridia, Bordetella pertussis, Bacteroides, Staphylococcus aureus, Streptococcus pneumonia, estreptococo hemolítico del grupo B, Corynebacteria, Legionella, Micoplasma, Ureaplasma, Chlamydia, Clostridium difficile, Gardnerella, Trichomonas vaginalis, Neisseria gonorrhea, Neisseria meningitides, Hemophilus influenza, Enterococcus faecalis, Proteus vulgaris, Proteus mirabilis, Helicobacter pylori, Treponema palladium, Borrelia burgdorferi, Borrelia recurrentis, patógenos rickettsiales, Nocardia, Acitnomycetes y/o Acinetobacter.Other infectious organisms include Escherichia coli, Salmonella, Shigella, Campylobacter, Klebsiella, Pseudomonas, Listeria monocytogenes, Mycobacterium tuberculosis, Mycobacterium avium-intracellulare, Yersinia, Francisella, Pasteurella, Brucella, Clostridia, Bordetella pertussis, Stacousterophy pneumonia, Streptocus acoureus, Streptococcus group B haemolytic, Corynebacteria, Legionella, Mycoplasma, Ureaplasma, Chlamydia, Clostridium difficile, Gardnerella, Trichomonas vaginalis, Neisseria gonorrhea, Neisseria meningitides, Hemophilus influenza, Enterococcus faecalis, Proteus vulgardor, Tremoris pallabilis, Proteicobacteria palmaris, Proteicobacteria palmaris, Proteicobacteria palladium Borrelia recurrentis, rickettsial pathogens, Nocardia, Acitnomycetes and / or Acinetobacter.

En otros casos más, los agentes infecciosos fúngicos incluyen, pero sin limitación, Cryptococcus neoformans, Blastomyces dermatitidis, Histoplasma capsulatum, Coccidioides immitis, Paracoccicioides brasiliensis, Candida albicans, Aspergillus fumigautus, Phycomycetes (Rhizopus), Sporothrix schenckii, Chromomycosis y/o Maduromycosis.In still other cases, fungal infectious agents include, but are not limited to, Cryptococcus neoformans, Blastomyces dermatitidis, Histoplasma capsulatum, Coccidioides immitis, Paracoccicioides brasiliensis, Candida albicans, Aspergillus fumigautus, Phycomomyycetes (Rhizopuschen.

En más casos, los agentes parasitarios incluyen, pero sin limitación, Plasmodium falciparum, Plasmodium malaria, Plasmodium vivax, Plasmodium ovale, Onchoverva volvulus, Leishmania, Trypanosoma spp., Schistosoma spp., Entamoeba histolytica, Cryptosporidum, Giardia spp., Trichimonas spp., Balatidium coli, Wuchereria bancrofti, Toxoplasma spp., Enterobius vermicularis, Ascaris lumbricoides, Trichuris trichiura, Dracunculus medinesis, tremátodos, Diphyllobothrium latum, Taenia spp., Pneumocystis carinii y/o Necator americanis.In more cases, parasitic agents include, but are not limited to, Plasmodium falciparum, Plasmodium malaria, Plasmodium vivax, Plasmodium ovale, Onchoverva volvulus, Leishmania, Trypanosoma spp., Schistosoma spp., Entamoeba histolytica, Cryptosporidum, Giardia spp., Trichimonas spp. , Balatidium coli, Wuchereria bancrofti, Toxoplasma spp., Enterobius vermicularis, Ascaris lumbricoides, Trichuris trichiura, Dracunculus medinesis, trematodes, Diphyllobothrium latum, Taenia spp., Pneumocystis carinitori and / or Necanis america.

El complejo principal de histocompatibilidad (MHC) es un conjunto de moléculas de superficie celular codificadas por una gran familia de genes que controla una parte importante del sistema inmunitario en todos los vertebrados. La función principal de los complejos principales de histocompatibilidad es unirse a fragmentos de péptidos que provienen de patógenos y mostrarlos en la superficie celular para que los reconozcan los linfocitos T apropiados. El complejo principal de histocompatibilidad (MHC) contiene dos tipos de genes polimórficos del MHC, los genes de clase I y de clase II, que codifican dos grupos de proteínas estructuralmente distintas pero homólogas, y otros genes no polimórficos cuyos productos están implicados en la presentación de antígenos.The major histocompatibility complex (MHC) is a set of cell surface molecules encoded by a large family of genes that controls an important part of the immune system in all vertebrates. The primary function of major histocompatibility complexes is to bind peptide fragments from pathogens and display them on the cell surface for recognition by the appropriate T lymphocytes. The major histocompatibility complex (MHC) contains two types of MHC polymorphic genes, class I and class II genes, which encode two groups of structurally distinct but homologous proteins, and other non-polymorphic genes whose products are involved in presentation. antigens.

El MHC humano se llama antígeno leucocitario humano (HLA). Las proteínas HLA están codificadas por genes del MHC. Los antígenos HLA de clase I incluyen HLA-A, HlA-B y HLA-C. Los antígenos HLA de clase II incluyen HLA-DR, HLA-DQ, HLA-DP, HLA-DM, HLA-DOA, HLA-DOB. Los HLA correspondientes al MHC de clase I (A, B y C) presentan péptidos del interior de la célula. Los HLA correspondientes al MHC de clase II (DP, DM, DOA, DOB, Dq y DR) presentan antígenos del exterior de la célula a los linfocitos T. Las moléculas de MHC median la unión de un receptor de linfocitos T dado a un antígeno dado, por tanto, el polimorfismo del MHC entre individuos modula la respuesta de los linfocitos T a un antígeno determinado. Las aplicaciones clínicas de la tipificación de HLA incluyen ensayos de vacunas, asociaciones de enfermedades, reacciones adversas a fármacos, transfusión de plaquetas y trasplante de órganos y células madre. Human MHC is called human leukocyte antigen (HLA). HLA proteins are encoded by MHC genes. HLA class I antigens include HLA-A, HlA-B, and HLA-C. HLA class II antigens include HLA-DR, HLA-DQ, HLA-DP, HLA-DM, HLA-DOA, HLA-DOB. The HLAs corresponding to MHC class I (A, B and C) present peptides from the interior of the cell. HLAs corresponding to MHC class II (DP, DM, DOA, DOB, Dq, and DR) present antigens from outside the cell to T lymphocytes. MHC molecules mediate the binding of a given T lymphocyte receptor to an antigen. given, therefore, the MHC polymorphism between individuals modulates the response of T lymphocytes to a given antigen. The clinical applications of HLA typing include vaccine trials, disease associations, adverse drug reactions, platelet transfusion, and organ and stem cell transplantation.

Existen numerosos alelos en cada locus del gen HLA (A1, A2, A3, etc.). Cada persona hereda un conjunto completo de alelos de HLA (haplotipo) de cada padre, y esta combinación de proteínas codificadas constituye el tipo HLA de una persona (por ejemplo, diferentes antígenos de A23, A31, B7, b44, C7, C8, DR4, DR7, DQ2, DQ7, Dp2, DP3). Hay más de 50.000 tipos diferentes de HLA conocidos.There are numerous alleles at each HLA gene locus (A1, A2, A3, etc.). Each person inherits a complete set of HLA alleles (haplotype) from each parent, and this combination of encoded proteins constitutes a person's HLA type (for example, different antigens from A23, A31, B7, b44, C7, C8, DR4 , DR7, DQ2, DQ7, Dp2, DP3). There are more than 50,000 different types of HLA known.

Tal como se usa en el presente documento, el receptor inmune adaptativo (AIR, por sus siglas en inglés) se refiere a un receptor de células inmunitarias, por ejemplo, un receptor de linfocitos T (TCR) o un receptor de inmunoglobulina (Ig) hallado en células de mamíferos. En determinadas realizaciones, el receptor inmune adaptativo está codificado por un gen o segmento génico de TCRB, TCRG, TCRA, TCRD, IGH, IGK e IGL.As used herein, adaptive immune receptor (AIR) refers to an immune cell receptor, for example, a T-lymphocyte receptor (TCR) or an immunoglobulin receptor (Ig). found in mammalian cells. In certain embodiments, the adaptive immune receptor is encoded by a gene or gene segment from TCRB, TCRG, TCRA, TCRD, IGH, IGK, and IGL.

El término "cebador", tal como se usa en el presente documento, se refiere a una secuencia de oligonucleótidos capaz de actuar como un punto de inicio de la síntesis de ADN en condiciones adecuadas. Dichas condiciones incluyen aquellas en las que se induce la síntesis de un producto de extensión de cebador complementario a una cadena de ácido nucleico en presencia de cuatro nucleósidos trifosfatos diferentes y un agente de extensión (por ejemplo, una ADN polimerasa o transcriptasa inversa) en un tampón apropiado y a una temperatura adecuada. Tal como se usa en el presente documento, el término "gen" se refiere al segmento de ADN involucrado en la producción de una cadena polipeptídica, tal como todo o una porción de un polipéptido del TCR o de la Ig (por ejemplo, un polipéptido que contiene CDR3); incluye regiones que preceden y siguen a la región de codificación "líder y cola", así como secuencias intermedias (intrones) entre segmentos de codificación individuales (exones), y también puede incluir elementos reguladores (por ejemplo, promotores, potenciadores, sitios de unión del represor y similares), y también puede incluir secuencias señal de recombinación (RSS), tal como se describe en el presente documento.The term "primer", as used herein, refers to an oligonucleotide sequence capable of acting as a starting point for DNA synthesis under suitable conditions. Such conditions include those in which the synthesis of a primer extension product complementary to a nucleic acid strand is induced in the presence of four different nucleoside triphosphates and an extension agent (eg, a DNA polymerase or reverse transcriptase) in a appropriate buffer and at a suitable temperature. As used herein, the term "gene" refers to the segment of DNA involved in the production of a polypeptide chain, such as all or a portion of a TCR or Ig polypeptide (eg, a polypeptide containing CDR3); includes regions preceding and following the "leader and tail" coding region, as well as intervening sequences (introns) between individual coding segments (exons), and may also include regulatory elements (eg, promoters, enhancers, binding sites repressor and the like), and may also include recombination signal sequences (RSS), as described herein.

Los ácidos nucleicos de las presentes realizaciones, también denominado en el presente documento como polinucleótidos, e incluyendo oligonucleótidos, puede estar en forma de ARN o en forma de ADN, incluyendo ADNc, ADN genómico y ADN sintético. El ADN puede ser bicatenario o monocatenario, y si es monocatenario puede ser la cadena codificante o la cadena no codificante (antisentido). Una secuencia de codificación que codifica un TCR o una inmunoglobulina o una región de la misma (por ejemplo, una región V, un segmento D, una región J, una región C, etc.) para su uso de acuerdo con las presentes realizaciones puede ser idéntica a la secuencia codificante conocida en la técnica para cualquier región de gen del TCR o de la inmunoglobulina o de dominios de polipéptidos dados (por ejemplo, dominios de la región V, dominios CDR3, etc.), o puede ser una secuencia codificante diferente, que, como resultado de la redundancia o degeneración del código genético, codifica la misma región o polipéptido del TCR o de la inmunoglobulina.The nucleic acids of the present embodiments, also referred to herein as polynucleotides, and including oligonucleotides, can be in the form of RNA or in the form of DNA, including cDNA, genomic DNA, and synthetic DNA. DNA can be double-stranded or single-stranded, and if it is single-stranded it can be the coding strand or the non-coding strand (antisense). A coding sequence encoding a TCR or an immunoglobulin or a region thereof (eg, a V region, a D segment, a J region, a C region, etc.) for use in accordance with the present embodiments may be identical to the coding sequence known in the art for any given TCR or immunoglobulin gene region or polypeptide domains (eg, V region domains, CDR3 domains, etc.), or may be a coding sequence different, which, as a result of the redundancy or degeneracy of the genetic code, encodes the same region or polypeptide of the TCR or of the immunoglobulin.

A menos que se proporcionen definiciones específicas, la nomenclatura utilizada en relación con los procedimientos y técnicas de laboratorio de, biología molecular, química analítica, química orgánica sintética y química medicinal y farmacéutica descritas en el presente documento son las bien conocidas y comúnmente utilizadas en la técnica. Se pueden usar técnicas estándar para tecnología recombinante, biología molecular, microbiológica, síntesis química, análisis químicos, preparación farmacéutica, formulación y administración y tratamiento de pacientes.Unless specific definitions are provided, the nomenclature used in relation to laboratory procedures and techniques of, molecular biology, analytical chemistry, synthetic organic chemistry, and medicinal and pharmaceutical chemistry described herein are those well known and commonly used in the technique. Standard techniques can be used for recombinant technology, molecular biology, microbiology, chemical synthesis, chemical analysis, pharmaceutical preparation, formulation, and administration and treatment of patients.

A menos que el contexto requiera lo contrario, a lo largo de la presente especificación y reivindicaciones, la palabra "comprender" y variaciones de la misma, tales como, "comprende" y "que comprende" se deben interpretar en un sentido abierto, inclusivo, es decir, como "que incluye, pero no se limita a". Por "que consiste en" se entiende que incluye, y normalmente se limita a, lo que sigue en la expresión "que consiste en". Por "que consiste esencialmente en" se entiende que incluye cualquiera elementos enumerados después de la expresión, y se limita a otros elementos que no interfieren con o contribuyen a la actividad o acción especificada en la divulgación de los elementos enumerados. Por tanto, la expresión "que consiste esencialmente en" indica que los elementos enumerados son necesarios u obligatorios, pero que no se requieren otros elementos y pueden o no pueden estar presentes dependiendo de si afectan o no a la actividad o acción de los elementos enumerados.Unless the context requires otherwise, throughout this specification and claims, the word "comprise" and variations thereof, such as, "comprises" and "comprising" are to be construed in an open, inclusive sense. , that is, as "which includes, but is not limited to". By "consisting of" is meant to include, and is normally limited to, what follows in the term "consisting of". By "consisting essentially of" is meant to include any items listed after the expression, and is limited to other items that do not interfere with or contribute to the activity or action specified in the disclosure of the listed items. Therefore, the expression "consisting essentially of" indicates that the listed items are required or required, but that other items are not required and may or may not be present depending on whether or not they affect the activity or action of the listed items. .

En esta memoria descriptiva y en las reivindicaciones adjuntas, las formas en singular "un", "una", "el" y "la" incluyen referencias en plural, a menos que el contenido indique claramente otra cosa.In this specification and in the appended claims, the singular forms "a", "an", "the" and "the" include plural references, unless the content clearly indicates otherwise.

La referencia a lo largo de la presente memoria descriptiva a "una sola realización" o "una realización" o "un aspecto" significa que un rasgo, estructura o característica particular descrita en relación con la realización se incluye en al menos una realización de la presente invención. Por tanto, las apariciones de las expresiones "en una sola realización" o "en una realización" en diversos lugares a lo largo de la presente memoria descriptiva no se refieren necesariamente a la misma realización. Además, los aspectos, estructuras o características particulares se pueden combinar de cualquier manera adecuada en una o más realizaciones.Reference throughout the present specification to "a single embodiment" or "one embodiment" or "one aspect" means that a particular feature, structure, or characteristic described in connection with the embodiment is included in at least one embodiment of the embodiment. present invention. Thus, the occurrences of the terms "in one embodiment" or "in one embodiment" in various places throughout the present specification do not necessarily refer to the same embodiment. Furthermore, the particular features, structures, or features can be combined in any suitable way in one or more embodiments.

Métodos de la invenciónMethods of the invention

CélulasCells

Se puede obtener una muestra que contiene moléculas de ácido nucleico linfoide (ADN genómico, ADNc o, como alternativa, ARN mensajero) de un sujeto. El sujeto es un sujeto mamífero, tal como un ser humano.A sample can be obtained that contains lymphoid nucleic acid molecules (genomic DNA, cDNA, or, as alternative, messenger RNA) from a subject. The subject is a mammalian subject, such as a human.

Los linfocitos (linfocitos B y/o linfocitos T) se pueden obtener a partir de una muestra biológica, tal como a partir de una variedad de muestras de tejidos y fluidos biológicos. Estos incluyen pero no se limitan a la médula ósea, timo, glándulas linfáticas, ganglios linfáticos, tejidos periféricos y sangre o muestras de tejido sólido. Se puede tomar una muestra de cualquier tejido perifériLymphocytes (B lymphocytes and / or T lymphocytes) can be obtained from a biological sample, such as from a variety of biological fluid and tissue samples. These include but are not limited to the bone marrow, thymus, lymph glands, lymph nodes, peripheral tissues, and blood or solid tissue samples. A sample can be taken from any peripheral tissue.

uso en los métodos descritos en el presente documento. Las células mononucleares de sangre periférica (PBMC) se aíslan mediante técnicas conocidas por los expertos en la materia, por ejemplo, por separación de gradiente de densidad Ficoll-Hypaque®. En determinadas realizaciones, se utilizan P^{b m}C completas para el análisis.use in the methods described herein. Peripheral blood mononuclear cells (PBMC) are isolated by techniques known to those of skill in the art, for example, by Ficoll-Hypaque® density gradient separation. In certain embodiments, full P ^bm C are used for analysis.

Extracción de ácido nucleicoNucleic acid extraction

El ADN genómico total se puede extraer de las células mediante métodos conocidos por los expertos en la materia. Los ejemplos incluyen el uso del mini kit de sangre de ADN QIAamp® (QIAGEN®) o un kit de extracción de sangre Qiagen DNeasy (Qiagen, Gaithersburg, MD, EE. UU.). La masa aproximada de un genoma haploide único es de 3 pg. Preferentemente, se utilizan al menos 100.000 a 200.000 células para el análisis de la diversidad, es decir, aproximadamente de 0,6 a 1,2 pg de ADN de linfocitos T diploides. Con el uso de PBMC como fuente, el número de linfocitos T se puede estimar en aproximadamente el 30 % del total de células. Como alternativa, el ácido nucleico total se puede aislar de las células, incluyendo tanto ADN genómico como ARNm. En otras realizaciones, el ADNc se transcribe a partir del ARNm y luego se usa como molde para la amplificación.Total genomic DNA can be extracted from cells by methods known to those of skill in the art. Examples include the use of the QIAamp® DNA Mini Blood Kit (QIAGEN®) or a Qiagen DNeasy Blood Collection Kit (Qiagen, Gaithersburg, MD, USA). The approximate mass of a single haploid genome is 3 pg. Preferably, at least 100,000 to 200,000 cells are used for diversity analysis, ie, about 0.6 to 1.2 pg of diploid T-lymphocyte DNA. Using PBMC as a source, the number of T lymphocytes can be estimated at approximately 30% of total cells. Alternatively, the total nucleic acid can be isolated from cells, including both genomic DNA and mRNA. In other embodiments, the cDNA is transcribed from the mRNA and is then used as a template for amplification.

PCR cuantitativa multiplexadaMultiplexed quantitative PCR

La PCR cuantitativa multiplexada se realizó tal como se describe en el presente documento y en Robins et al., 2009 Blood 114, 4099; Robins et al., 2010 Sci. Translat. Med. 2:47ra64; Robins et al., 2011 J. Immunol. Meth. doi:10.1016/j.jim.2011.09. 001; Sherwood et al. 2011 Sci. Translat. Med. 3:90ra61; los documentos US 2012/0058902, US 2010/0330571, WO/2010/151416, WO/2011/106738 (PCT/US2011/026373), US 2015/0299785, WO2012/027503 (PCT/US2011/049012), US 2013/0288237, US 9.181.590, US 9.181.591 y US 2013/0253842. Los métodos actuales implican un método de PCR multiplexada que utiliza un conjunto de cebadores directos que hibridan específicamente con segmentos V y un conjunto de cebadores inversos que hibridan específicamente con los segmentos J de un locus de TCR o de Ig, en donde una reacción de PCR multiplexada usando los cebadores permite la amplificación de todas las combinaciones posibles de VJ (y VDJ) dentro de una población dada de linfocitos T o B.Multiplexed quantitative PCR was performed as described herein and in Robins et al., 2009 Blood 114, 4099; Robins et al., 2010 Sci. Translat. Med. 2: 47ra64; Robins et al., 2011 J. Immunol. Meth. doi: 10.1016 / j.jim.2011.09. 001; Sherwood et al. 2011 Sci. Translat. Med. 3: 90ra61; US 2012/0058902, US 2010/0330571, WO / 2010/151416, WO / 2011/106738 (PCT / US2011 / 026373), US 2015/0299785, WO2012 / 027503 (PCT / US2011 / 049012), US 2013 / 0288237, US 9,181,590, US 9,181,591 and US 2013/0253842. Current methods involve a multiplexed PCR method using a set of forward primers that specifically hybridize to V segments and a set of reverse primers that specifically hybridize to J segments of a TCR or Ig locus, wherein a PCR reaction Multiplexed using the primers allows the amplification of all possible combinations of VJ (and VDJ) within a given population of T or B lymphocytes.

Los ejemplos de cebadores de segmento V y de segmento J se describen en los documentos US2012/0058902, US 2010/033057, WO/2010/151416, WO/2011/106738 (PCT/US2011/026373), US 2015/0299785, WO2012/027503 (PCT/US2011/049012), US 2013/0288237, US 9.181.590, US 9.181.591, US 2013/0253842, WO 2013/188831 (PCT/US2013/045994).Examples of V segment and J segment primers are described in US2012 / 0058902, US 2010/033057, WO / 2010/151416, WO / 2011/106738 (PCT / US2011 / 026373), US 2015/0299785, WO2012 / 027503 (PCT / US2011 / 049012), US 2013/0288237, US 9,181,590, US 9,181,591, US 2013/0253842, WO 2013/188831 (PCT / US2013 / 045994).

Se puede utilizar un sistema de PCR multiplexada para amplificar los loci reordenados de receptores de células inmunitarias adaptativas. En determinadas realizaciones, la región CDR3 se amplifica a partir de una región CDR3 de TCRA, TCRB, TCRG o TCRD o de manera similar a partir de un locus IgH o IgL (lambda o kappa). Se utiliza una pluralidad de cebadores del segmento V y del segmento J para amplificar sustancialmente todas (por ejemplo, más del 90 %, del 91 %, del 92 %, del 93 %, del 94 %, del 95 %, del 96 %, del 97 %, del 98 % o del 99 %) las regiones que codifican la CDR3 del receptor inmune adaptativo reordenadas para producir una multiplicidad de moléculas de ADN reordenadas amplificadas. En determinadas realizaciones, los cebadores están diseñados para que cada molécula de ADN reordenada amplificada tenga menos de 600 nucleótidos de longitud, excluyendo así los productos de amplificación de loci de receptores inmunes adaptativos no reordenados.A multiplexed PCR system can be used to amplify the rearranged adaptive immune cell receptor loci. In certain embodiments, the CDR3 region is amplified from a CDR3 region of TCRA, TCRB, TCRG, or TCRD or similarly from an IgH or IgL locus (lambda or kappa). A plurality of V segment and J segment primers are used to amplify substantially all (e.g., greater than 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, or 99%) the adaptive immune receptor CDR3 encoding regions rearranged to produce a multiplicity of amplified rearranged DNA molecules. In certain embodiments, the primers are designed so that each amplified rearranged DNA molecule is less than 600 nucleotides in length, thus excluding amplification products from non-rearranged adaptive immune receptor loci.

En algunas realizaciones, Se utilizan dos grupos de cebadores en una sola reacción de PCR altamente multiplexada. El grupo de cebadores "directos" puede incluir una pluralidad de cebadores de oligonucleótidos del segmento V y el grupo inverso puede incluir una pluralidad de cebadores de oligonucleótidos del segmento J. En algunas realizaciones, hay un cebador que es específico (por ejemplo, que tiene una secuencia de nucleótidos complementaria a una región de secuencia única de) cada segmento de la región V y para cada segmento de la región J en el respectivo locus del gen de TCR o Ig. En otras realizaciones, un cebador puede hibridar con uno o más segmentos V o segmentos J, reduciendo así el número de cebadores requeridos en la PCR multiplexada. En determinadas realizaciones, los cebadores del segmento J se combinan con una secuencia conservada en el segmento de unión ("J").In some embodiments, two sets of primers are used in a single highly multiplexed PCR reaction. The set of "forward" primers can include a plurality of oligonucleotide primers from segment V and the reverse set can include a plurality of oligonucleotide primers from segment J. In some embodiments, there is a primer that is specific (eg, having a nucleotide sequence complementary to a unique sequence region of) each segment of the V region and for each segment of the J region at the respective TCR or Ig gene locus. In other embodiments, a primer can hybridize to one or more V segments or J segments, thus reducing the number of primers required in multiplexed PCR. In certain embodiments, the J segment primers are combined with a conserved sequence in the junction segment ("J").

Cada cebador puede diseñarse de manera que se obtenga un segmento de ADN amplificado respectivo que incluya una porción de secuencia de longitud suficiente para identificar cada segmento J sin ambigüedad en función de las diferencias de secuencia entre segmentos de genes que codifican la región J conocidos en la base de datos del genoma humano, y también para incluir una porción de secuencia con la que puede hibridar un cebador específico del segmento J para la resecuenciación. Este diseño de cebadores específicos del segmento V y J permite la observación directa de una gran fracción de los reordenamientos somáticos presentes en el repertorio de genes del receptor inmunitario adaptativo dentro de un individuo. Each primer can be designed so that a respective amplified DNA segment is obtained that includes a portion of sequence of sufficient length to identify each J segment unambiguously based on sequence differences between known J region-encoding gene segments in the human genome database, and also to include a portion of sequence to which a J-segment specific primer can hybridize for resequencing. This design of V and J segment specific primers allows direct observation of a large fraction of somatic rearrangements present in the adaptive immune receptor gene repertoire within an individual.

En una realización, la presente divulgación proporciona una pluralidad de cebadores del segmento V y una pluralidad de cebadores del segmento J. La pluralidad de cebadores del segmento V y la pluralidad de cebadores del segmento J amplifican todas o sustancialmente todas las combinaciones de los segmentos V y J de un locus de receptor inmunitario reordenado. En algunas realizaciones, el método proporciona amplificación de sustancialmente todas las secuencias del AIR reordenadas en una célula linfoide y es capaz de cuantificar la diversidad del repertorio de TCR o IG de al menos 106, 105, 104 o 103 secuencias AIR reordenadas únicas en una muestra. "Sustancialmente todas las combinaciones" puede referirse al menos al 80 %, el 85 %, el 90 %, el 91 %, el 92 %, el 93 %, el 94 %, el 95 %, el 96 %, el 97 %, el 98 %, el 99 % o más de todas las combinaciones de los segmentos V y J de un locus del receptor inmunitario reordenado. En determinadas realizaciones, la pluralidad de cebadores del segmento V y la pluralidad de cebadores del segmento J amplifican todas las combinaciones de los segmentos V y J de un locus de receptor inmunitario reordenado.In one embodiment, the present disclosure provides a plurality of V segment primers and a plurality of J segment primers. The plurality of V segment primers and the plurality of J segment primers amplify all or substantially all combinations of V segments. and J from a rearranged immune receptor locus. In some embodiments, the method provides amplification of substantially all rearranged AIR sequences in a lymphoid cell and is capable of quantifying the diversity of the TCR or IG repertoire of at least 106, 105, 104, or 103 unique rearranged AIR sequences in a sample. . "Substantially all combinations" can refer to at least 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% or more of all combinations of V and J segments of a rearranged immune receptor locus. In certain embodiments, the plurality of V segment primers and the plurality of J segment primers amplify all combinations of the V and J segments of a rearranged immune receptor locus.

En general, un sistema de PCR multiplexada puede usar 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 o 25, y en ciertas realizaciones, al menos 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38 o 39, y en otras realizaciones 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 65, 70, 75, 80, 85 o más cebadores directos, en donde cada cebador directo hibrida específicamente o es complementario con una secuencia correspondiente a uno o más segmentos de la región V. El sistema de PCR multiplexada también utiliza al menos 2, 3, 4, 5, 6 o 7, y en ciertas realizaciones, 8, 9, 10, 11, 12 o 13 cebadores inversos, o 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24 o 25 o más cebadores, en donde cada cebador inverso hibrida específicamente con o es complementario con una secuencia correspondiente a uno o más segmentos de la región J. Se pueden usar varias combinaciones de cebadores del segmento V y J para amplificar la diversidad completa de secuencias TCR e IG en un repertorio. Para obtener detalles sobre el sistema de PCR multiplexada, incluyendo secuencias de oligonucleótidos cebadores para amplificar las secuencias de TCR e IG, véase, por ejemplo, Robins et al., 2009 Blood 114, 4099; Robins et al., 2010 Sci. Translat. Med. 2:47ra64; Robins et al., 2011 J. Immunol. Meth. doi:10.1016/j.jim.2011.09. 001; Sherwood et al. 2011 Sci. Translat. Med. 3:90ra61; US 2012/0058902, US 2010/033057, WO/2010/151416, WO/2011/106738 (PCT/US2011/026373), US 2015/0299785, WO2012/027503 (PCT/US2011/049012), US 2013/0288237, US 9.181.590, US 9.181.591, US 2013/0253842, WO 2013/188831 (PCT/US2013/045994).In general, a multiplexed PCR system can use 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, or 25, and in certain embodiments, at least 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, or 39, and in other embodiments 40, 41 , 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 65, 70, 75, 80, 85 or more forward primers, wherein each forward primer specifically hybridizes or is complementary to a sequence corresponding to one or more segments of the V region. The multiplexed PCR system also uses at least 2, 3, 4, 5, 6, or 7, and in certain embodiments, 8, 9, 10, 11, 12, or 13 reverse primers, or 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, or 25 or more primers, wherein each reverse primer specifically hybridizes to or is complementary to a sequence corresponding to one or more J region segments. Various combinations of V and J segment primers can be used to amplify common diversity. Complete set of TCR and IG sequences in a repertoire. For details on the multiplexed PCR system, including primer oligonucleotide sequences to amplify the TCR and IG sequences, see, eg, Robins et al., 2009 Blood 114, 4099; Robins et al., 2010 Sci. Translat. Med. 2: 47ra64; Robins et al., 2011 J. Immunol. Meth. doi: 10.1016 / j.jim.2011.09. 001; Sherwood et al. 2011 Sci. Translat. Med. 3: 90ra61; US 2012/0058902, US 2010/033057, WO / 2010/151416, WO / 2011/106738 (PCT / US2011 / 026373), US 2015/0299785, WO2012 / 027503 (PCT / US2011 / 049012), US 2013/0288237, US 9,181,590, US 9,181,591, US 2013/0253842, WO 2013/188831 (PCT / US2013 / 045994).

Los oligonucleótidos o polinucleótidos que son capaces de hibridar o de hibridar específicamente con una secuencia de ácido nucleico diana mediante la complementariedad de las bases de nucleótidos pueden hacerlo en condiciones de rigurosidad moderada a alta. En una realización, las condiciones de rigurosidad moderada a alta adecuadas para la amplificación por PCR específica de una secuencia de ácido nucleico diana puede estar entre 25 y 80 ciclos de PCR, con cada ciclo que consiste en una etapa de desnaturalización (por ejemplo, aproximadamente 10-30 segundos (s) a más de aproximadamente 95 °C), una etapa de hibridación (por ejemplo, de aproximadamente 10-30 s a aproximadamente 60-68 °C), y una etapa de extensión (por ejemplo, de aproximadamente 10-60 s a aproximadamente 60-72 °C), opcionalmente de acuerdo con ciertas realizaciones con las etapas de hibridación y extensión combinadas para proporcionar una PCR de dos etapas. Tal como reconocería el experto en la materia, se pueden agregar o cambiar otros reactivos de PCR en la reacción de PCR para aumentar la especificidad de la hibridación y la amplificación del cebador, tal como alterar la concentración de magnesio, opcionalmente añadiendo DMSO, y/o el uso de cebadores bloqueados, nucleótidos modificados, ácidos nucleicos peptídicos, y similares. Oligonucleotides or polynucleotides that are capable of specifically hybridizing or hybridizing to a target nucleic acid sequence by nucleotide base complementarity can do so under moderate to high stringency conditions. In one embodiment, moderate to high stringency conditions suitable for specific PCR amplification of a target nucleic acid sequence may be between 25 and 80 PCR cycles, with each cycle consisting of a denaturation step (e.g., approximately 10-30 second (s) at greater than about 95 ° C), a hybridization step (for example, from about 10-30 s to about 60-68 ° C), and an extension step (for example, from about 10 -60 s to about 60-72 ° C), optionally in accordance with certain embodiments with the hybridization and extension steps combined to provide a two-step PCR. As would be recognized by the person skilled in the art, other PCR reagents can be added or changed in the PCR reaction to increase the specificity of the hybridization and amplification of the primer, such as altering the magnesium concentration, optionally adding DMSO, and / or the use of blocked primers, modified nucleotides, peptide nucleic acids, and the like.

Un cebador es preferentemente un ADN monocatenario. La longitud apropiada de un cebador depende del uso previsto del cebador, pero típicamente varía de 6 a 50 nucleótidos, o en ciertas realizaciones, de 15-35 nucleótidos de longitud. Las moléculas de cebador cortas generalmente requieren temperaturas más frías para formar complejos híbridos suficientemente estables con el molde. Un cebador no necesita reflejar la secuencia exacta del ácido nucleico del molde, pero debe ser lo suficientemente complementario para hibridar con el molde. El diseño de cebadores adecuados para la amplificación de una secuencia diana dada es bien conocido en la técnica y se describe en la bibliografía citada en el presente documento.A primer is preferably single-stranded DNA. The appropriate length of a primer depends on the intended use of the primer, but typically ranges from 6 to 50 nucleotides, or in certain embodiments, 15-35 nucleotides in length. Short primer molecules generally require cooler temperatures to form sufficiently stable hybrid complexes with the template. A primer need not reflect the exact nucleic acid sequence of the template, but must be complementary enough to hybridize to the template. The design of suitable primers for the amplification of a given target sequence is well known in the art and is described in the literature cited herein.

En algunas realizaciones, se usan los cebadores del segmento V y J para producir una pluralidad de amplicones a partir de la reacción de PCR multiplexada. En determinadas realizaciones, los amplicones varían en tamaño de 10, 20, 30, 40, 50, 75, 100, 200, 300, 400, 500, 600, 700, 800 o más nucleótidos de longitud. En realizaciones preferidas, los amplicones tienen un tamaño entre 50-600 nucleótidos de longitud.In some embodiments, the V and J segment primers are used to produce a plurality of amplicons from the multiplexed PCR reaction. In certain embodiments, the amplicons range in size from 10, 20, 30, 40, 50, 75, 100, 200, 300, 400, 500, 600, 700, 800, or more nucleotides in length. In preferred embodiments, the amplicons are between 50-600 nucleotides in length.

Según la teoría no limitativa, estas realizaciones aprovechan la comprensión actual en la técnica (también descrita anteriormente) de que una vez que una célula inmunitaria adaptativa (por ejemplo, un linfocito T o B) ha reordenado sus genes codificantes del receptor inmunitario adaptativo (por ejemplo, genes de TCR o Ig), sus células de progenie poseen el mismo reordenamiento del gen codificante del receptor inmune adaptativo, dando así lugar a una población clonal (clones) que puede ser identificada de forma única por la presencia en ella de segmentos génicos V y J reordenados (por ejemplo, codificantes de CDR3) que se pueden amplificar mediante una combinación específica por pares de cebadores de oligonucleótidos específicos de V y J tal como se describe en el presente documento.According to non-limiting theory, these embodiments take advantage of the current understanding in the art (also described above) that once an adaptive immune cell (e.g., a T or B lymphocyte) has rearranged its genes encoding the adaptive immune receptor (e.g. For example, TCR or Ig genes), their progeny cells possess the same rearrangement of the gene encoding the adaptive immune receptor, thus giving rise to a clonal population (clones) that can be uniquely identified by the presence in it of gene segments Rearranged V and J (eg, coding for CDR3) that can be amplified by a specific combination of V and J specific oligonucleotide primer pairs as described herein.

En algunas realizaciones, los cebadores del segmento V y los cebadores del segmento J incluyen, cada uno, una segunda secuencia en el extremo 5' del cebador que no es complementaria al segmento V o J diana. La segunda secuencia puede comprender un oligonucleótido que tiene una secuencia que se selecciona de (i) una secuencia oligonucleotídica del adaptador universal, y (ii) una secuencia oligonucleotídica específica de la plataforma de secuenciación que está unida a y posicionada en 5' a una primera secuencia oligonucleotídica del adaptador universal. Ejemplos de secuencias de oligonucleótidos del adaptador universal pueden ser las secuencias del adaptador pGEX directa y pGEX inversa.In some embodiments, segment V primers and segment J primers each include a second sequence at the 5 'end of the primer that is not complementary to the target V or J segment. The second sequence may comprise an oligonucleotide having a sequence that is selected from (i) a universal adapter oligonucleotide sequence, and (ii) a sequencing platform specific oligonucleotide sequence that is attached to and 5 'to a first sequence. oligonucleotide of the universal adapter. Examples of universal linker oligonucleotide sequences can be the forward pGEX and reverse pGEX linker sequences.

En algunas realizaciones, los amplicones resultantes que usan los cebadores del segmento V y del segmento J descritos anteriormente incluyen segmentos V y J amplificados y las secuencias de oligonucleótidos del adaptador universal. La secuencia del adaptador universal puede ser complementaria a una secuencia de oligonucleótidos que se encuentra en un cebador de cola. Los cebadores de colas se pueden usar en una segunda reacción de PCR para generar un segundo conjunto de amplicones. En algunas realizaciones, los cebadores de cola pueden tener la fórmula general:In some embodiments, the resulting amplicons using the V segment and J segment primers described above include amplified V and J segments and the universal adapter oligonucleotide sequences. The universal adapter sequence can be complementary to an oligonucleotide sequence found on a tail primer. The tail primers can be used in a second PCR reaction to generate a second set of amplicons. In some embodiments, the tail primers can have the general formula:

5-P-S-B-U-3' (III),5-P-S-B-U-3 '(III),

en donde P comprende un oligonucleótido específico de la plataforma de secuenciación,wherein P comprises a sequencing platform specific oligonucleotide,

en donde S comprende una secuencia de oligonucleótidos que contiene una etiqueta de plataforma de secuenciación;wherein S comprises an oligonucleotide sequence containing a sequencing platform tag;

en donde B comprende una secuencia de código de barras de oligonucleótidos y en donde dicha secuencia de código de barras de oligonucleótidos se puede usar para identificar una fuente de muestra, ywherein B comprises an oligonucleotide barcode sequence and wherein said oligonucleotide barcode sequence can be used to identify a sample source, and

en donde U comprende una secuencia que es complementaria a la secuencia de oligonucleótidos del adaptador universal o es la misma que la secuencia de oligonucleótidos del adaptador universal.wherein U comprises a sequence that is complementary to the oligonucleotide sequence of the universal adapter or is the same as the oligonucleotide sequence of the universal adapter.

La descripción adicional sobre secuencias de oligonucleótidos adaptadores universales, los códigos de barras y los cebadores de colas se encuentran en el documento WO 2013/188831 (PCT/US13/45994).Additional description on universal adapter oligonucleotide sequences, barcodes and tail primers are found in WO 2013/188831 (PCT / US13 / 45994).

Control de sesgo de amplificaciónAmplification bias control

Los ensayos de PCR multiplexada pueden dar lugar a un sesgo en el número total de amplicones producidos a partir de una muestra, dado que ciertos conjuntos de cebadores son más eficaces en la amplificación que otros. Para superar el problema de dicha utilización sesgada de subpoblaciones de cebadores de amplificación, se pueden usar métodos que proporcionan una composición de molde para estandarizar las eficacias de amplificación de los miembros de un conjunto de cebadores oligonucleotídicos, donde el conjunto de cebadores es capaz de amplificar ADN reordenado que codifica una pluralidad de receptores inmunes adaptativos (TCR o Ig) en una muestra biológica que comprende ADN de células linfoides.Multiplexed PCR assays can lead to a bias in the total number of amplicons produced from a sample, as certain primer sets are more efficient at amplifying than others. To overcome the problem of such biased use of amplification primer subpopulations, methods that provide a template composition can be used to standardize the amplification efficiencies of the members of an oligonucleotide primer set, where the primer set is capable of amplifying Rearranged DNA encoding a plurality of adaptive immune receptors (TCR or Ig) in a biological sample comprising DNA from lymphoid cells.

En algunas realizaciones, se utiliza una composición de molde para estandarizar las diversas eficacias de amplificación de los conjuntos de cebadores. La composición de molde puede comprender una pluralidad de oligonucleótidos de molde diversos de fórmula general (I):In some embodiments, a template composition is used to standardize the various amplification efficiencies of the primer sets. The template composition may comprise a plurality of various template oligonucleotides of general formula (I):

5'-U1-B1-V-B2-R-J-B3-U2-3' (I)5'-U1-B1-V-B2-R-J-B3-U2-3 '(I)

Los oligonucleótidos molde constituyentes son diversos con respecto a las secuencias de nucleótidos de los oligonucleótidos molde individuales. Los oligonucleótidos molde individuales pueden variar considerablemente en la secuencia de nucleótidos entre sí en función de una variabilidad de secuencia significativa entre el gran número de posibles polinucleótidos de la región variable (V) y la región de unión (J) de TCR o BCR. Las secuencias de especies de oligonucleótidos de molde individuales también pueden variar entre sí en función de las diferencias de secuencia en U1, U2, B (B1, B2 y B3) y R oligonucleótidos que se incluyen en un molde particular dentro de la pluralidad diversa de moldes.The constituent template oligonucleotides are diverse with respect to the nucleotide sequences of the individual template oligonucleotides. Individual template oligonucleotides can vary considerably in nucleotide sequence from one another based on significant sequence variability between the large number of possible polynucleotides of the variable region (V) and the TCR or BCR binding region (J). The sequences of individual template oligonucleotide species may also vary from each other based on sequence differences in U1, U2, B (B1, B2 and B3) and R oligonucleotides that are included in a particular template within the diverse plurality of molds.

En determinadas realizaciones, V es un polinucleótido que comprende al menos 20, 30, 60, 90, 120, 150, 180 o 210, y no más de 1000, 900, 800, 700, 600 o 500 nucleótidos contiguos de la secuencia de un gen codificante de una región variable (V) del receptor inmunitario adaptativo, o el complemento de la misma, y en cada una de la pluralidad de secuencias de oligonucleótidos del molde de V comprende una secuencia de oligonucleótidos única.In certain embodiments, V is a polynucleotide comprising at least 20, 30, 60, 90, 120, 150, 180, or 210, and no more than 1000, 900, 800, 700, 600, or 500 contiguous nucleotides of the sequence of a gene encoding an adaptive immune receptor variable region (V), or the complement thereof, and in each of the plurality of oligonucleotide sequences of the V template comprises a unique oligonucleotide sequence.

En algunas realizaciones, J es un polinucleótido que comprende al menos 15-30, 31-60, 61-90, 91-120 o 120-150, y no más de 600, 500, 400, 300 o 200 nucleótidos contiguos de la secuencia de un gen codificante de una región de unión (J) o el complemento de la misma, y en cada una de la pluralidad de secuencias de oligonucleótidos del molde J comprende una secuencia de oligonucleótidos única.In some embodiments, J is a polynucleotide comprising at least 15-30, 31-60, 61-90, 91-120, or 120-150, and no more than 600, 500, 400, 300, or 200 contiguous nucleotides of the sequence of a gene encoding a junction region (J) or the complement thereof, and in each of the plurality of oligonucleotide sequences of template J comprises a unique oligonucleotide sequence.

U1 y U2 pueden ser cada uno nada o cada uno comprende un oligonucleótido que tiene, independientemente, una secuencia que se selecciona de (i) una secuencia de oligonucleótidos con adaptador universal, y (ii) una secuencia de oligonucleótidos específica de plataforma de secuenciación que está unida y posicionada en 5' a la secuencia de oligonucleótidos con adaptador universal. U1 and U2 may each be none or each comprises an oligonucleotide independently having a sequence that is selected from (i) a universal adapter oligonucleotide sequence, and (ii) a sequencing platform specific oligonucleotide sequence that it is attached and positioned 5 'to the universal adapter oligonucleotide sequence.

B1, B2 y B3 pueden ser nada o cada uno comprende un oligonucleótido B que comprende una primera y una segunda secuencia de código de barras de oligonucleótidos de 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900 o 1000 nucleótidos contiguos (incluidos todos los valores enteros entre ellos), en donde en cada una de la pluralidad de secuencias de oligonucleótidos de molde B comprende una secuencia de oligonucleótidos única en la que (i) la primera secuencia de código de barras identifica de manera única la secuencia de oligonucleótidos V única del oligonucleótido de molde y (ii) la segunda secuencia de código de barras identifica de manera única el oligonucleótido J único secuencia del oligonucleótido de molde.B1, B2 and B3 can be none or each comprises an oligonucleotide B comprising a first and a second barcode sequence of oligonucleotides of 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900 or 1000 contiguous nucleotides (including all integer values between them), wherein each of the plurality of template oligonucleotide sequences B comprises a unique oligonucleotide sequence in which (i) the first code sequence of bars uniquely identifies the unique oligonucleotide V sequence of the template oligonucleotide and (ii) the second barcode sequence uniquely identifies the unique oligonucleotide J sequence of the template oligonucleotide.

R puede ser nada o comprende un sitio de reconocimiento de enzimas de restricción que comprende una secuencia de oligonucleótidos que está ausente de V, J, U1, U2, B1, B2 y B3.R can be none at all or comprises a restriction enzyme recognition site comprising an oligonucleotide sequence that is absent from V, J, U1, U2, B1, B2, and B3.

Los métodos se utilizan con la composición de molde para determinar el potencial de amplificación de ácido nucleico no uniforme entre los miembros de un conjunto de cebadores de amplificación de oligonucleótidos que son capaces de amplificar ADN reorganizado productivamente que codifica uno o una pluralidad de receptores inmunes adaptativos en una muestra biológica que comprende ADN de células linfoides de un sujeto. El método puede incluir las etapas de: (a) amplificación de ADN de una composición de molde para estandarizar la eficiencia de amplificación de un conjunto de cebador oligonucleotídico en una reacción en cadena de polimerasa (PCR) multiplexada que comprende: (i) la composición del molde (I) descrita anteriormente, en donde cada oligonucleótido de molde en la pluralidad de oligonucleótidos de molde está presente en una cantidad sustancialmente equimolar; (ii) un conjunto de cebadores de amplificación de oligonucleótidos que es capaz de amplificar de manera productiva ADN reordenado que codifica uno o una pluralidad de receptores inmunes adaptativos en una muestra biológica que comprende ADN de células linfoides de un sujeto.The methods are used with the template composition to determine the non-uniform nucleic acid amplification potential between members of a set of oligonucleotide amplification primers that are capable of amplifying productively rearranged DNA encoding one or a plurality of adaptive immune receptors. in a biological sample comprising DNA from lymphoid cells from a subject. The method may include the steps of: (a) amplifying DNA from a template composition to standardize the efficiency of amplification of an oligonucleotide primer set in a multiplexed polymerase chain reaction (PCR) comprising: (i) the composition of the template (I) described above, wherein each template oligonucleotide in the plurality of template oligonucleotides is present in a substantially equimolar amount; (ii) a set of oligonucleotide amplification primers that is capable of productively amplifying rearranged DNA encoding one or a plurality of adaptive immune receptors in a biological sample comprising DNA from lymphoid cells from a subject.

El conjunto de cebador puede incluir: (1) en cantidades sustancialmente equimolares, una pluralidad de cebadores oligonucleotídicos del segmento V que son independientemente capaces de hibridar específicamente con al menos un polinucleótido que codifica un polipéptido de la región V del receptor inmunitario adaptativo o con el complemento del mismo, en donde cada cebador del segmento V comprende una secuencia de nucleótidos de al menos 15 nucleótidos contiguos que es complementaria a al menos un segmento génico funcional que codifica la región V del receptor inmunitario adaptativo funcional y en el que la pluralidad de cebadores del segmento V hibrida específicamente con prácticamente todos los segmentos génicos que codifican la región V del receptor inmunitario adaptativo que están presentes en la composición del molde, y (2) en cantidades sustancialmente equimolares, una pluralidad de cebadores oligonucleotídicos del segmento J que son independientemente capaces de hibridar específicamente con al menos un polinucleótido que codifica un polipéptido de la región J del receptor inmune adaptativo o con el complemento del mismo, en donde cada cebador del segmento J comprende una secuencia de nucleótidos de al menos 15 nucleótidos contiguos que es complementaria a al menos un segmento génico funcional que codifica la región J del receptor inmune adaptativo funcional y en donde la pluralidad de cebadores del segmento J hibrida específicamente con prácticamente todos los segmentos génicos que codifican la región J del receptor inmunitario adaptativo que están presentes en la composición del molde.The primer set may include: (1) in substantially equimolar amounts, a plurality of oligonucleotide V segment primers that are independently capable of specifically hybridizing to at least one polynucleotide encoding an adaptive immune receptor V region polypeptide or to the complement thereof, wherein each V segment primer comprises a nucleotide sequence of at least 15 contiguous nucleotides that is complementary to at least one functional gene segment encoding the functional adaptive immune receptor V region and wherein the plurality of primers segment V specifically hybridizes to virtually all adaptive immune receptor V region-encoding gene segments that are present in the template composition, and (2) in substantially equimolar amounts, a plurality of J segment oligonucleotide primers that are independently capable to hybridize specific with at least one polynucleotide encoding an adaptive immune receptor J region polypeptide or complement thereof, wherein each J segment primer comprises a nucleotide sequence of at least 15 contiguous nucleotides that is complementary to at least one functional gene segment that encodes the J region of the functional adaptive immune receptor and wherein the plurality of primers of the J segment specifically hybridizes with practically all the gene segments that encode the J region of the adaptive immune receptor that are present in the template composition.

Los cebadores oligonucleotídicos del segmento V y del segmento J son capaces de promover la amplificación en dicha reacción en cadena de polimerasa (PCR) multiplexada de sustancialmente todos los oligonucleótidos del molde en la composición del molde para producir una multiplicidad de moléculas de ADN del molde amplificadas, siendo dicha multiplicidad de moléculas de ADN del molde amplificadas suficiente para cuantificar la diversidad de los oligonucleótidos del molde en la composición del molde, y en donde cada molécula de ADN del molde amplificada en la multiplicidad de moléculas de ADN del molde amplificada es menor de 1000, 900, 800, 700, 600, 500, 400, 300, 200, 100, 90, 80 o 70 nucleótidos de longitud.Segment V and segment J oligonucleotide primers are capable of promoting amplification in said multiplexed polymerase chain reaction (PCR) of substantially all template oligonucleotides in the template composition to produce a multiplicity of amplified template DNA molecules. , said multiplicity of amplified template DNA molecules being sufficient to quantify the diversity of template oligonucleotides in the template composition, and wherein each amplified template DNA molecule in the multiplicity of amplified template DNA molecules is less than 1000, 900, 800, 700, 600, 500, 400, 300, 200, 100, 90, 80, or 70 nucleotides in length.

El método también incluye las etapas de: (b) secuenciar todas o una porción suficiente de cada una de dicha multiplicidad de moléculas de ADN del molde amplificadas para determinar, para cada molécula de ADN del molde única en dicha multiplicidad de moléculas de ADN del molde amplificada, (i) una secuencia de ADN de oligonucleótido específica del molde y (ii) una frecuencia relativa de aparición del oligonucleótido del molde; y (c) comparar la frecuencia relativa de ocurrencia para cada secuencia de ADN del molde única de dicha composición del molde, en donde una frecuencia de aparición no uniforme para una o más secuencias de ADN del molde indica potencial de amplificación de ácido nucleico no uniforme entre los miembros del conjunto de cebadores de amplificación de oligonucleótidos.The method also includes the steps of: (b) sequencing all or a sufficient portion of each of said multiplicity of amplified template DNA molecules to determine, for each template DNA molecule unique in said multiplicity of template DNA molecules amplified, (i) a template-specific oligonucleotide DNA sequence and (ii) a relative frequency of occurrence of the template oligonucleotide; and (c) comparing the relative frequency of occurrence for each unique template DNA sequence of said template composition, wherein a non-uniform frequency of occurrence for one or more template DNA sequences indicates potential for non-uniform nucleic acid amplification. between the members of the oligonucleotide amplification primer set.

Se proporciona una descripción adicional sobre los métodos de control de sesgo en los documentos US 2013/0253842, US 9.150.905, US 2015/0203897 y WO 2013/169957 (PCT/US2013/040221).Additional description on bias control methods is provided in US 2013/0253842, US 9,150,905, US 2015/0203897 and WO 2013/169957 (PCT / US2013 / 040221).

SecuenciaciónSequencing

La secuenciación se puede realizar usando cualquiera de una variedad de máquinas y sistemas de secuenciación de una sola molécula de alto rendimiento disponibles. Los sistemas de secuencia ilustrativos incluyen sistemas secuencia por síntesis, tales como el analizador del genoma de Illumina y los equipos asociados (Illumina HiSeq) (Illumina, Inc., San Diego, CA), el sistema de análisis genético Helicos (Helicos BioSciences Corp., Cambridge, MA), Pacific Biosciences PacBio RS (Pacific Biosciences, Menlo Park, CA) u otros sistemas con capacidades similares. La secuenciación se logra utilizando un conjunto de oligonucleótidos específicos de la plataforma de secuenciación que hibridan con una región definida dentro de las moléculas de ADN amplificadas. Los oligonucleótidos específicos de la plataforma de secuenciación están diseñados para secuenciar amplicones, de manera que los segmentos génicos que codifican V y J se pueden identificar de forma única por las secuencias que se generan. Véanse, por ejemplo, los documentos US 2012/0058902; US 2010/033057; WO 2011/106738 (PCT/US2011/026373); US 2015/0299785; o WO 2012/027503 (PCT/US2011/049012).Sequencing can be performed using any of a variety of available high throughput single molecule sequencing machines and systems. Illustrative sequence systems include sequence-by-synthesis systems, such as the Illumina Genome Analyzer and associated kits (Illumina HiSeq) (Illumina, Inc., San Diego, CA), the Helicos Genetic Analysis System (Helicos BioSciences Corp. , Cambridge, MA), Pacific Biosciences PacBio RS (Pacific Biosciences, Menlo Park, CA) or other systems with similar capabilities. Sequencing is accomplished using a set of sequencing platform specific oligonucleotides that hybridize to a defined region within the amplified DNA molecules. The sequencing platform specific oligonucleotides are designed to sequence amplicons, so that the gene segments encoding V and J can be uniquely identified by the sequences that are generated. See, for example, US 2012/0058902; US 2010/033057; WO 2011/106738 (PCT / US2011 / 026373); US 2015/0299785; or WO 2012/027503 (PCT / US2011 / 049012).

En algunas realizaciones, los datos de secuencia sin procesar se preprocesan para eliminar errores en la secuencia primaria de cada lectura y comprimir los datos. Se puede utilizar un algoritmo del vecino más cercano para contraer los datos en secuencias únicas fusionando secuencias estrechamente relacionadas, para eliminar errores de secuenciación y de PCR. Véanse, por ejemplo, US 2012/0058902; US 2010/033057; WO 2011/106738 (PCT/US2011/026373); US 2015/0299785; o WO 2012/027503 (PCT/US2011/049012).In some embodiments, the raw stream data is pre-processed to debug the primary stream of each read and compress the data. A nearest neighbor algorithm can be used to collapse data into unique sequences by fusing closely related sequences to eliminate sequencing and PCR errors. See, for example, US 2012/0058902; US 2010/033057; WO 2011/106738 (PCT / US2011 / 026373); US 2015/0299785; or WO 2012/027503 (PCT / US2011 / 049012).

Estimación de la abundancia del molde de la PCREstimation of the abundance of the PCR template

Para estimar la cobertura de lectura promedio por molde de entrada en el enfoque de secuenciación y PCR multiplexada, se puede utilizar un conjunto de moldes sintéticos de TCR (o BCR) (tal como se describe anteriormente), que comprende cada combinación de segmentos génicos Vp y Jp. Estas moléculas sintéticas pueden ser las descritas en la fórmula general (I) anterior y en el documento US 2013/0253842, US 9.150.905, US 2015/0203897 y WO 2013/169957 (PCT/US2013/040221).To estimate the average read coverage per input template in the multiplexed PCR and sequencing approach, a set of synthetic TCR (or BCR) templates (as described above) can be used, comprising each combination of Vp gene segments. and Jp. These synthetic molecules can be those described in the general formula (I) above and in US 2013/0253842, US 9,150,905, US 2015/0203897 and WO 2013/169957 (PCT / US2013 / 040221).

Estas moléculas sintéticas se pueden incluir en cada reacción de PCR a una concentración muy baja de modo que solo se observen algunos de los moldes sintéticos. Utilizando la concentración conocida del conjunto de moldes sintéticos, se puede simular la relación entre el número de moléculas sintéticas únicas observadas y el número total de moléculas sintéticas añadidas a la reacción (esto es casi uno a uno a las bajas concentraciones que se utilizaron). Las moléculas sintéticas permiten calcular para cada reacción de PCR el número medio de lecturas de secuenciación obtenidas por molécula de molde de PCR y una estimación del número de linfocitos T en el material de entrada que lleva cada reordenamiento de TCR único.These synthetic molecules can be included in each PCR reaction at a very low concentration so that only some of the synthetic templates are seen. Using the known concentration of the set of synthetic templates, the relationship between the number of unique synthetic molecules observed and the total number of synthetic molecules added to the reaction can be simulated (this is almost one to one at the low concentrations that were used). Synthetic molecules allow the average number of sequencing reads obtained per PCR template molecule and an estimate of the number of T lymphocytes in the input material carrying each unique TCR rearrangement to be calculated for each PCR reaction.

Descubrimiento de respuestas de linfocitos T públicos de diagnósticoDiscovery of diagnostic public T cell responses

Dada una gran población de sujetos con y sin una determinada enfermedad infecciosa, las respuestas de los linfocitos T públicos de diagnóstico para el estado patológico se pueden determinar aplicando el siguiente método estadístico. Se determina un repertorio de receptores inmunes de secuencias únicas de receptores de linfocitos T, usando los métodos descritos anteriormente, para un grupo de sujetos que han sido identificados como que tienen o que no tienen una enfermedad infecciosa, tal como CMV o viruela. Es posible, a continuación, determinar cuáles de esas secuencias de receptores de linfocitos T son significativamente más comunes (es decir, están presentes en más individuos) entre sujetos con el estado de enfermedad que en sujetos sin el estado de enfermedad. Cuando un TCR común se une a un antígeno, se llama respuesta de linfocitos T públicos. Las respuestas de las linfocitos T públicos son específicas para una enfermedad o antígeno en particular, están presentes en muchos individuos y están codificadas en un formato común (secuencias de receptores reorganizadas específicas) independientemente de la enfermedad.Given a large population of subjects with and without a particular infectious disease, the responses of diagnostic public T cells to disease state can be determined by applying the following statistical method. An immune receptor repertoire of unique T-cell receptor sequences is determined, using the methods described above, for a group of subjects who have been identified as having or not having an infectious disease, such as CMV or smallpox. It is then possible to determine which of these T cell receptor sequences are significantly more common (ie, present in more individuals) among subjects with the disease state than in subjects without the disease state. When a common TCR binds to an antigen, it is called the public T cell response. Public T cell responses are specific for a particular disease or antigen, are present in many individuals, and are encoded in a common format (specific rearranged receptor sequences) regardless of disease.

Se utiliza una prueba exacta de Fisher de una cola, usando la presencia o ausencia de la secuencia del receptor de linfocitos T en cuestión frente a con o sin estado de enfermedad para construir una tabla de contingencia de 2x2 (que se muestra a continuación) y con la TFD (tasa de descubrimientos falsos) controlada usando una distribución empírica de p-valores nulos determinados por permutaciones del estado de enfermedad. Dado que muchos clones son exclusivos de un solo sujeto (y, en consecuencia, exclusivos de las clases de estado de enfermedad positivo o negativo), es vital controlar la tasa de descubrimientos falsos en la selección de rasgos para evitar un ajuste excesivo a las muchas asociaciones falsas de TCRp únicos con estado positivo de enfermedad infecciosa. Este proceso genera un listado de secuencias de receptores de linfocitos T significativamente más comunes en sujetos con el estado de enfermedad de interés.A one-tailed Fisher's exact test is used, using the presence or absence of the T cell receptor sequence in question versus with or without disease status to construct a 2x2 contingency table (shown below) and with PDT (false discovery rate) controlled using an empirical distribution of null p-values determined by disease state permutations. Since many clones are unique to a single subject (and consequently unique to positive or negative disease state classes), it is vital to control the rate of false discoveries in trait selection to avoid over-fitting to the many False associations of unique TCRp with positive infectious disease status. This process generates a list of T cell receptor sequences that are significantly more common in subjects with the disease state of interest.

Uso de respuestas de diagnóstico de linfocitos T públicos para inferir el estado de la enfermedadUse of public T-cell diagnostic responses to infer disease status

Dada una gran población de sujetos con y sin una enfermedad infecciosa determinada, y dado un listado de respuestas de linfocitos T públicos de diagnóstico generado tal como se describe anteriormente, es posible inferir el estado de la enfermedad en un sujeto cuyo estado de enfermedad se desconoce. Given a large population of subjects with and without a given infectious disease, and given a list of diagnostic public T-cell responses generated as described above, it is possible to infer disease status in a subject whose disease status is unknown. .

Primero, se calcula una "carga de enfermedad" o medida cuantitativa de la presencia y/o abundancia de dichas respuestas de linfocitos T públicos de diagnóstico para cada sujeto (aquellos con estado conocido así como el sujeto de estado desconocido). La carga de enfermedad o medida cuantitativa es la proporción de secuencias de receptores de linfocitos T únicos en cada sujeto que se encuentran entre el listado de respuestas de linfocitos T públicos de diagnóstico.First, a "burden of disease" or quantitative measure of the presence and / or abundance of such diagnostic public T cell responses is calculated for each subject (those with known status as well as the subject with unknown status). Burden of disease or quantitative measure is the proportion of unique T-cell receptor sequences in each subject that are among the list of diagnostic public T-cell responses.

Una vez calculada esta medida, luego se determina si el sujeto de estado desconocido tiene una carga de enfermedad consistente con sujetos de los que se sabe que tienen el estado de enfermedad de interés o con sujetos de los que se sabe que no tienen el estado de enfermedad de interés. En el presente documento, el método de comparación es entrenar un modelo de regresión logística de (carga de enfermedad frente a presencia de estado de enfermedad) en todos los sujetos con estado de enfermedad conocido, y usar ese modelo para asignar al sujeto de estado desconocido una probabilidad de tener el estado de enfermedad de interés.Once this measure is calculated, it is then determined whether the subject of unknown status has a disease burden consistent with subjects known to have the disease status of interest or with subjects known not to have the disease status of interest. disease of interest. Here, the comparison method is to train a logistic regression model of (burden of disease versus presence of disease state) in all subjects with known disease state, and use that model to assign the subject to unknown state a probability of having the disease state of interest.

En algunas realizaciones, el método comprende un modelo de clasificación que utiliza una validación cruzada exhaustiva de dejar uno fuera, en la que el conjunto de datos del perfil inmunitario de un individuo se excluye de los cálculos y el proceso se repite desde el principio. En un aspecto, la validación cruzada se utiliza para evaluar la precisión de un modelo de clasificación. El modelo de clasificación resultante se utiliza para predecir el estado de enfermedad infecciosa del sujeto que se ha quedado fuera.In some embodiments, the method comprises a classification model that uses extensive cross-validation of leaving one out, in which an individual's immune profile data set is excluded from the calculations and the process is repeated from the beginning. In one aspect, cross-validation is used to evaluate the precision of a classification model. The resulting classification model is used to predict the infectious disease status of the subject who has been left out.

Estos métodos se pueden realizar para determinar el estado de la enfermedad para varios tipos de enfermedad, incluyendo, pero sin limitación, CMV, EBV, HPV, VIH, viruela, otras enfermedades infecciosas, o incluso enfermedades no infecciosas, como enfermedades autoinmunes y neoplasias.These methods can be performed to determine disease status for various types of disease, including, but not limited to, CMV, EBV, HPV, HIV, smallpox, other infectious diseases, or even non-infectious diseases, such as autoimmune diseases and neoplasms.

Tipificación de HLAHLA typing

La tipificación de HLA de sujetos donantes de médula ósea se realizó de acuerdo con el protocolo estándar del Centro de Investigación del Cáncer Fred Hutchinson, y se puede realizar mediante métodos conocidos por los expertos en la técnica.HLA typing of bone marrow donor subjects was performed according to the standard protocol of the Fred Hutchinson Cancer Research Center, and can be performed by methods known to those of skill in the art.

Método para determinar el estado de HLA de sujetos desconocidosMethod for determining the HLA status of unknown subjects

La FIG. 13 muestra una descripción general del método para inferir el estado de HLA. Este método se puede aplicar a cualquier tipo de alelo HLA y a cualquier perfil de secuencias de los TCR, que incluyen las secuencias génicas de TCRA, TCRB, TCRG o TCRD.FIG. 13 shows an overview of the method for inferring HLA status. This method can be applied to any type of HLA allele and to any sequence profile of TCRs, including the gene sequences of TCRA, TCRB, TCRG or TCRD.

Primero, el tipo de alelo HLA se determina para cada sujeto de un grupo, de acuerdo con métodos estándar en la técnica para la tipificación de HLA. A continuación, se secuencia un locus del repertorio inmunitario del sujeto. Por ejemplo, el locus TCRB se amplifica y secuencia, usando los métodos descritos anteriormente.First, the type of HLA allele is determined for each subject in a group, according to methods standard in the art for HLA typing. Next, a locus from the subject's immune repertoire is sequenced. For example, the TCRB locus is amplified and sequenced, using the methods described above.

Para cada sujeto, se determina el número total de secuencias de TCRB único y la frecuencia de cada secuencia de TCRB único. Para un alelo HLA dado, se determina qué secuencias de TCRB están asociadas significativamente con el alelo de HLA. En una realización, para cada secuencia de TCRB único, se determina cuántos sujetos que son positivos para un alelo HLA tienen la secuencia de TCRB y cuántos sujetos que son negativos para el alelo HLA tienen la secuencia de TCRB. Además, se puede determinar el número de sujetos que son positivos para un alelo HLA y negativos para la secuencia de TCRB y el número de sujetos que son negativos para el alelo h La y positivos para la secuencia de TCRB. La siguiente tabla muestra la categorización de los sujetos según la presencia o ausencia de una secuencia de TCRB y la presencia o ausencia de un alelo de HLA, HLA-A2.For each subject, the total number of unique TCRB sequences and the frequency of each unique TCRB sequence are determined. For a given HLA allele, it is determined which TCRB sequences are significantly associated with the HLA allele. In one embodiment, for each unique TCRB sequence, it is determined how many subjects who are positive for an HLA allele have the TCRB sequence and how many subjects who are negative for the HLA allele have the TCRB sequence. In addition, the number of subjects that are positive for an HLA allele and negative for the TCRB sequence and the number of subjects that are negative for the h La allele and positive for the TCRB sequence can be determined. The following table shows the categorization of subjects according to the presence or absence of a TCRB sequence and the presence or absence of an HLA allele, HLA-A2.

La FIG. 14 muestra un listado de secuencias de TCRB únicos ilustrativos y el número de sujetos que son positivos o negativos para un alelo HLA-A2 que tienen una secuencia de TCRB particular.FIG. 14 shows a listing of illustrative unique TCRB sequences and the number of subjects who are positive or negative for an HLA-A2 allele who have a particular TCRB sequence.

Se determina un p-valor para la asociación de cada secuencia de TCRB con un estado de HLA utilizando una prueba exacta de Fisher (de dos colas). El p-valor para la asociación de cada TCR con el estado del alelo usando una prueba exacta de Fisher (dos colas) se calcula de la siguiente manera: A p-value is determined for the association of each TCRB sequence with an HLA status using a Fisher's exact (two-tailed) test. The p-value for the association of each TCR with allele status using Fisher's exact test (two tailed) is calculated as follows:

La FIG. 14 también muestra p-valores ilustrativos que se calculan para la asociación de una secuencia de TCRB particular con un tipo de HLA (HLA-A2).FIG. 14 also shows illustrative p-values that are calculated for the association of a particular TCRB sequence with an HLA type (HLA-A2).

Tal como se muestra en la FIG. 15, se selecciona un p-valor como un punto de corte para identificar un conjunto de "rasgos de los TCR" del listado completo de las posibles secuencias de los TCR. La definición de un umbral de pvalor y la permutación del estado del alelo entre individuos proporciona una estimación de la tasa de descubrimientos falsos. Esto se realiza para cada alelo HLA, dando como resultado un conjunto de secuencias de TCRp asociadas a alelos para cada alelo HLA presente en los datos de entrenamiento. En la FIG. 15, se usa un valor de corte del p-valor de p<10-4 y una TDF de 0,1 para identificar 288 secuencias de TCRB que están asociadas positivamente con HLA-A2. Para cada una de las secuencias de TCRB asociadas a los alelos, la frecuencia de la secuencia también se determina en cada sujeto.As shown in FIG. 15, a p-value is selected as a cut-off point to identify a set of "TCR traits" from the complete list of possible TCR sequences. Defining a threshold of p-value and permutation of allele status between individuals provides an estimate of the false discovery rate. This is done for each HLA allele, resulting in a set of allele-associated TCRp sequences for each HLA allele present in the training data. In FIG. 15, a cutoff value of p-value of p <10-4 and a TDF of 0.1 are used to identify 288 TCRB sequences that are positively associated with HLA-A2. For each of the TCRB sequences associated with the alleles, the frequency of the sequence is also determined in each subject.

La etapa de selección de rasgos va seguida de un proceso de aprendizaje automático. Tal como se muestra en la FIG. 16, para cada alelo HLA, se entrena un modelo de regresión logística utilizando el conjunto de vectores de características sobre todos los sujetos, junto con el estado conocido de la presencia de ese alelo.The trait selection stage is followed by a machine learning process. As shown in FIG. 16, for each HLA allele, a logistic regression model is trained using the set of characteristic vectors on all subjects, along with the known status of the presence of that allele.

Tal como se muestra en la FIG. 17, se realiza una validación cruzada exhaustiva de dejar uno fuera donde se elimina un sujeto del análisis, y el estado de HLA del sujeto se infiere basándose en la selección de rasgos y el entrenamiento de solo los sujetos restantes. El resultado es un conjunto de clasificadores (uno para cada alelo HLA) que estiman la probabilidad de un estado positivo para cada alelo HLA, tomando como entrada el vector de características para cada alelo.As shown in FIG. 17, a comprehensive leave-one-out cross-validation is performed where a subject is removed from analysis, and the subject's HLA status is inferred based on trait selection and training of only the remaining subjects. The result is a set of classifiers (one for each HLA allele) that estimate the probability of a positive status for each HLA allele, taking as input the vector of characteristics for each allele.

Equipado con estos clasificadores, el tipo de HLA de un nuevo sujeto se puede evaluar mediante: 1. secuenciación del repertorio inmunitario, 2. calcular los vectores de rasgos para cada alelo, y 3. definir un umbral de probabilidad para el estado positivo que se aplicará a la salida de cada clasificador. De esta forma, se puede inferir un estado de HLA para un nuevo sujeto con un estado de HLA desconocido.Equipped with these classifiers, the HLA type of a new subject can be assessed by: 1. sequencing the immune repertoire, 2. calculating the trait vectors for each allele, and 3. defining a probability threshold for the positive state to be will apply to the output of each classifier. In this way, an HLA status can be inferred for a new subject with an unknown HLA status.

En una realización, dados los resultados del esquema de selección de los rasgos, una puntuación alélica de una dimensión se determina como la fracción de las secuencias de TCRp únicos de un individuo que aparecen en el conjunto de secuencias de TCRp asociados con un alelo dado. Esta única cantidad, en lugar de un vector de rasgos, también se puede utilizar para entrenar a un clasificador y diagnosticar nuevos individuos con una precisión similar. Adicionalmente, el clasificador específico descrito (regresión logística) se puede reemplazar con cualquiera de otros clasificadores binarios y da resultados sustancialmente similares. Éstos incluyen: k-vecinos más cercanos, bosques aleatorios, red neurona! artificial, naive Bayes y máquina de vectores de soporte.In one embodiment, given the results of the trait selection scheme, a one-dimensional allelic score is determined as the fraction of an individual's unique TCRp sequences that appear in the set of TCRp sequences associated with a given allele. This single quantity, rather than a vector of traits, can also be used to train a classifier and diagnose new individuals with similar precision. Additionally, the specific classifier described (logistic regression) can be replaced with any of the other binary classifiers and gives substantially similar results. These include: k-nearest neighbors, random forests, neural network! artificial, naive Bayes and support vector machine.

EjemplosExamples

Los ejemplos siguientes se ofrecen únicamente con fines ilustrativos y no pretenden limitar el alcance de la presente invención de ninguna manera. Se han realizado esfuerzos para asegurar la exactitud con respecto a los números utilizados (por ejemplo, cantidades, temperaturas, etc.), pero, por supuesto, deberían permitirse algunos errores y desviaciones experimentales.The following examples are offered for illustrative purposes only and are not intended to limit the scope of the present invention in any way. Efforts have been made to ensure accuracy with respect to the numbers used (eg quantities, temperatures, etc.), but of course some experimental errors and deviations should be allowed.

La práctica de la presente invención empleará, a menos que se indique otra cosa, métodos convencionales de química de proteínas, bioquímica, técnicas de ADN recombinante y farmacología, dentro de la habilidad de la técnica. Dichas técnicas se explican completamente en la bibliografía. Véanse, por ejemplo, T.E. Creighton, Proteins: Structures and Molecular Properties (W.H. Freeman and Company, 1993); A.L. Lehninger, Biochemistry (Worth Publishers, Inc., adición actual); Sambrook, et al., Molecular Cloning: A Laboratory Manual (2a Edición, 1989); Methods In Enzymology (S. Colowick y N. Kaplan eds., Academic Press, Inc.); Remington's Pharmaceutical Sciences, 18a edición (Easton, Pennsylvania: Mack Publishing Company, 1990); Carey and Sundberg Advanced Organic Chemistry 3a Ed. (Plenum Press) Vol. A y B(1992).The practice of the present invention will employ, unless otherwise indicated, conventional methods of protein chemistry, biochemistry, recombinant DNA techniques, and pharmacology, within the skill of the art. These techniques are fully explained in the literature. See, for example, TE Creighton, Proteins: Structures and Molecular Properties (WH Freeman and Company, 1993); AL Lehninger, Biochemistry (Worth Publishers, Inc., current addition); Sambrook, et al., Molecular Cloning: A Laboratory Manual (2nd Edition, 1989); Methods In Enzymology (S. Colowick and N. Kaplan eds., Academic Press, Inc.); Remington's Pharmaceutical Sciences, 18th Edition (Easton, Pennsylvania: Mack Publishing Company, 1990); Carey and Sundberg Advanced Organic Chemistry 3rd Ed. (Plenum Press) Vol. A and B (1992).

Ejemplo 1: Identificación de TCR asociados con citomegalovirus (CMV) y clasificación del estado de CMV a partir de datos de inmunosecuenciaciónExample 1: Identification of TCRs Associated with Cytomegalovirus (CMV) and Classification of CMV Status from Immunosequencing Data

El primer objetivo del estudio fue crear un catálogo completo de secuencias de receptores de linfocitos T específicos de CMV. El objetivo era identificar secuencias de TCRp compartidas, tanto comunes como raras, enriquecidas en individuos seropositivos para CMV en relación con individuos seronegativos para CMV. El CMV se utilizó como modelo porque proporciona un banco de pruebas ideal para el desarrollo de biomarcadores de linfocitos T. El estado serológico del CMV está ampliamente disponible y el fácil acceso a un número casi igual de individuos seropositivos (casos) y seronegativos (control) entre adultos sanos proporciona un buen poder estadístico para un análisis riguroso.The first goal of the study was to create a comprehensive catalog of CMV-specific T-cell receptor sequences. The objective was to identify common and rare shared TCRp sequences enriched in CMV-seropositive individuals relative to CMV-seronegative individuals. CMV was used as model because it provides an ideal test bed for the development of T cell biomarkers. CMV serostatus is widely available and easy access to nearly equal numbers of seropositive (cases) and seronegative (control) individuals among healthy adults provides a good statistical power for rigorous analysis.

Hay muchas posibles secuencias de TCR generados durante la recombinación VDJ (~ 1012 fácilmente accesibles mediante recombinación VDJ). Tal como se muestra en la FIG. 1, diferentes eventos de recombinación de VDJ pueden dar como resultado la misma secuencia de nucleótidos. Además, es posible que la recombinación VDJ pueda dar como resultado diferentes secuencias de nucleótidos que se traducen en la misma secuencia de aminoácidos. Véase Venturi, Price, Douek y Davenport 2008. The molecular basis for public T-cell responses? Nature Reviews Immunology. Ciertos TCR son reordenamientos comunes y compartidos por más de un individuo. Cuando un TCR común se une a un antígeno, se llama respuesta de linfocitos T públicos. Las respuestas de las linfocitos T públicos son específicas para una enfermedad o antígeno en particular, están presentes en muchos individuos y están codificadas en un formato común (secuencias de receptores reorganizadas específicas) independientemente de la enfermedad.There are many possible TCR sequences generated during VDJ recombination (~ 1012 easily accessible via VDJ recombination). As shown in FIG. 1, different VDJ recombination events can result in the same nucleotide sequence. Furthermore, it is possible that VDJ recombination may result in different nucleotide sequences that are translated into the same amino acid sequence. See Venturi, Price, Douek, and Davenport 2008. The molecular basis for public T-cell responses? Nature Reviews Immunology. Certain TCRs are common rearrangements shared by more than one individual. When a common TCR binds to an antigen, it is called the public T cell response. Public T cell responses are specific for a particular disease or antigen, are present in many individuals, and are encoded in a common format (specific rearranged receptor sequences) regardless of disease.

En este estudio, la respuesta de los linfocitos T públicos al citomegalovirus (CMV) se examinó mediante la secuenciación de genes de receptores de linfocitos T reorganizados (TCR) obtenidos de 640 sujetos. El CMV es una infección de por vida, generalmente asintomática, que afecta a la mayoría de los adultos y provoca una sólida respuesta de linfocitos T de memoria.In this study, the response of public T cells to cytomegalovirus (CMV) was examined by sequencing T-cell rearranged receptor (TCR) genes obtained from 640 subjects. CMV is a lifelong, usually asymptomatic infection that affects most adults and elicits a robust memory T-cell response.

Las FIG. 2A, 2B y 2C proporcionan una descripción general del método, de acuerdo con una realización de la invención. La FIG. 2A muestra un conjunto de datos de muestras de sangre periférica de 640 sujetos sanos (287 CMV- y 353 CMV+), que fueron analizados mediante perfiles de TCR de alto rendimiento. En la FIG. 2B, se identificaron secuencias de TCRp únicos que estaban presentes en significativamente más sujetos CMV+ que sujetos CMV-, controlando la tasa de descubrimientos falsos (TDF) por permutación del estado de CMV. La presencia de estas secuencias de TCRp asociadas al CMV se utilizó para construir un modelo de clasificación. En la FIG. 2C, el modelo de clasificación se probó utilizando una validación cruzada exhaustiva de dejar uno fuera, en la que una muestra se mantuvo fuera de los cálculos y el proceso se repitió desde el principio. El modelo de clasificación resultante se utilizó para predecir el estado del CMV del sujeto excluido.FIGS. 2A, 2B and 2C provide a general description of the method, in accordance with one embodiment of the invention. FIG. 2A shows a data set of peripheral blood samples from 640 healthy subjects (287 CMV- and 353 CMV +), which were analyzed using high-throughput TCR profiles. In FIG. 2B, unique TCRp sequences were identified that were present in significantly more CMV + subjects than CMV- subjects, controlling for the false discovery rate (TDF) per permutation of CMV status. The presence of these CMV-associated TCRp sequences was used to construct a classification model. In FIG. 2C, the classification model was tested using extensive cross-validation of leaving one out, in which a sample was kept out of the calculations and the process was repeated from the beginning. The resulting classification model was used to predict the CMV status of the excluded subject.

Se obtuvieron muestras de sangre periférica humana del biorrepositorio de donantes de médula ósea sanos del Fred Hutchinson Cancer Research Center Research Cell Bank bajo un protocolo siguiendo el consentimiento informado por escrito aprobado y supervisado por el Fred Hutchinson Cancer Research Center Institutional Review Board. Este biodepósito alberga un inventario de PBMC, B-LCL y ADN de pacientes con trasplante de células hematopoyéticas (TCH), donantes y miembros de la familia junto con líneas celulares y ADN que proviene de pacientes con trasplante de células madre, donantes y familiares seleccionados de ~ 7.800 pacientes con trasplante de células madre y 7.300 donantes (de los cuales se extrajeron muestras). El ADN para este estudio se extrajo de sangre periférica de donantes de TCH y se tipificó ampliamente para antígenos y alelos HLA junto con otros fenotipos definitorios necesarios para la compatibilidad entre donante y paciente o la inclusión/exclusión de donantes. Entre estos se encuentran el citomegalovirus (CMV), virus de Epstein-Barr (EBV), virus del herpes simple (HSV), hepatitis y diabetes mellitus.Human peripheral blood samples were obtained from the healthy bone marrow donor biorepository of the Fred Hutchinson Cancer Research Center Research Cell Bank under a protocol following written informed consent approved and supervised by the Fred Hutchinson Cancer Research Center Institutional Review Board. This biorepository houses an inventory of PBMC, B-LCL, and DNA from hematopoietic cell transplant (HCT) patients, donors, and family members along with cell lines and DNA sourced from selected stem cell transplant patients, donors, and family members. of ~ 7,800 stem cell transplant patients and 7,300 donors (from whom samples were drawn). DNA for this study was drawn from peripheral blood of HCT donors and extensively typed for HLA antigens and alleles along with other defining phenotypes required for donor-patient matching or donor inclusion / exclusion. These include cytomegalovirus (CMV), Epstein-Barr virus (EBV), herpes simplex virus (HSV), hepatitis, and diabetes mellitus.

Tal como se muestra en la FIG. 3A, 640 sujetos fueron fenotipados específicamente para el tipo de HLA y el estado de CMV para ser elegibles como donantes de TCH, y se separaron entre 287 donantes de ^cM^vy 353 donantes de CMV. La tasa de seropositivos para el CMV fue de aproximadamente el 45 % (aproximadamente el mismo número de muestras seropositivas y seronegativas para la investigación de las respuestas de los linfocitos T públicos). As shown in FIG. 3A, 640 subjects were phenotyped specifically for HLA type and CMV status to be eligible as TCH donors, and they were separated into 287 ^c M ^v donors and 353 CMV donors. The seropositive rate for CMV was approximately 45% (approximately the same number of seropositive and seronegative samples for the investigation of public T cell responses).

S e c u e n c i a c i ó n d e T C R B d e al to r e n d i m i e n t o :S e c u e n c i a t i o n d e T C R B de al to r e n d i m i e n t:

El ADN genómico se extrajo de muestras de sangre periférica utilizando el kit de extracción de sangre Qiagen DNeasy (Qiagen, Gaithersburg, MD, EE. UU.). Se secuenciaron las regiones de CDR3 de los genes de TCR-p reordenados; la región de CDR3 de TCR-p se definió de acuerdo con la colaboración IMGT28,20. Las regiones de CDR3 de TCRp se amplificaron y secuenciaron utilizando los métodos descritos anteriormente y en los protocolos descritos anteriormente5,29. El método de PCR multiplexada utilizó una mezcla de 60 cebadores directos específicos para los segmentos del gen TCR Vp y 13 cebadores inversos específicos para los segmentos del gen TCR Jp. Los amplicones resultantes se secuenciaron utilizando los métodos descritos anteriormente. Se obtuvieron lecturas de 87 pb utilizando el sistema Illumina HiSeq. Los datos de secuencia de HiSeq sin procesar se preprocesaron para eliminar errores en la secuencia principal de cada lectura y para comprimir los datos. Se utilizó un algoritmo del vecino más cercano para contraer los datos en secuencias únicas fusionando secuencias estrechamente relacionadas, para eliminar errores de secuenciación y de PCR.Genomic DNA was extracted from peripheral blood samples using the Qiagen DNeasy Blood Collection Kit (Qiagen, Gaithersburg, MD, USA). The CDR3 regions of the rearranged TCR-p genes were sequenced; the CDR3 region of TCR-p was defined according to the collaboration IMGT28,20. The CDR3 regions of TCRp were amplified and sequenced using the methods described above and in the protocols described above5,29. The multiplexed PCR method used a mixture of 60 specific forward primers for the TCR Vp gene segments and 13 specific reverse primers for the TCR Jp gene segments. The resulting amplicons were sequenced using the methods described above. 87 bp readings were obtained using the Illumina HiSeq system. The raw HiSeq sequence data was pre-processed to eliminate errors in the main sequence of each read and to compress the data. A nearest neighbor algorithm was used to collapse the data into unique sequences by fusing closely related sequences, to eliminate sequencing and PCR errors.

Con el fin de asegurar una cobertura adecuada de cada reordenamiento de linfocitos T, se generó una cobertura de secuencia de 8-10x, o ~ 6-10 millones de lecturas de secuenciación por muestra, usando aproximadamente ocho ejecuciones de secuenciación completas. Todas las lecturas de secuenciación se procesaron utilizando un modelo bioinformático estandarizado en desarrollo para 1) demultiplexar lecturas para muestras específicas, 2) eliminar secuencias de baja calidad y eliminar posibles contaminantes, 3) alinear e identificar segmentos de genes específicos de las regiones CDR3 de V y J de TCRp, 4) agrupar altamente secuencias similares para tener en cuenta la PCR y los errores de secuenciación, 5) normalizar los datos para eliminar el sesgo de amplificación de la PCR, 6) estimar la entrada total de linfocitos T y 7) generar recuentos y distribuciones de secuencias únicas de TCRp.In order to ensure adequate coverage of each T lymphocyte rearrangement, a coverage of 8-10x sequence, or ~ 6-10 million sequencing reads per sample, using approximately eight full sequencing runs. All sequencing reads were processed using a standardized bioinformatics model under development to 1) demultiplex reads for specific samples, 2) remove low quality sequences and remove potential contaminants, 3) align and identify specific gene segments from CDR3 regions of V and J from TCRp, 4) cluster highly similar sequences to account for PCR and sequencing errors, 5) normalize data to eliminate PCR amplification bias, 6) estimate total T lymphocyte input, and 7) generate unique sequence counts and distributions of TCRp.

En el presente documento, se secuenciaron aproximadamente 250.000 genes de receptores de linfocitos T reordenados a partir de sangre periférica de cada sujeto.Herein, approximately 250,000 rearranged T-cell receptor genes were sequenced from the peripheral blood of each subject.

S e l e c c i ó n d e r a s a o s :S e l e c t i o n d e r a s a o s:

En 640 sujetos, había 185.204 (+/- 84.171) TCRp únicos por sujeto y 83.727.796 TCRp únicos en total. En lugar de intentar una clasificación de CMV de alta dimensión utilizando todos los TCRp únicos como posibles rasgos, se desarrolló un nuevo esquema de selección de rasgos. La selección de rasgos fue la selección de una secuencia de aminoácidos particular para identificar TCR comunes entre individuos con CMV.In 640 subjects, there were 185,204 (+/- 84,171) unique TCRp per subject and 83,727,796 unique TCRp in total. Rather than attempting a high-dimensional CMV classification using all single TCRp as possible traits, a new trait selection scheme was developed. Trait selection was the selection of a particular amino acid sequence to identify common TCRs among individuals with CMV.

Dado que muchos clones eran exclusivos de un solo sujeto (y, en consecuencia, exclusivos de las clases CMV+ o CMV-), fue vital controlar la tasa de descubrimientos falsos en la selección de características para evitar un ajuste excesivo a las muchas asociaciones espurias de TCRp únicos con el estado de CMV.Since many clones were unique to a single subject (and consequently unique to the CMV + or CMV- classes), it was vital to control the rate of false discoveries in the selection of traits to avoid an over-adjustment to the many spurious associations of Unique TCRp with CMV status.

Cada reordenamiento único de TCRp, identificado por la asignación de genes V y J y la secuencia de aminoácidos de CDR3, fue probado para la asociación de CMV. Cada uno de estos se sometió a una prueba exacta de Fisher de una cola para determinar su incidencia en sujetos CMV- y CMV+. Específicamente, dejando n¡j denotar el número de sujetos con estatus de CMV j (con j - o ) y clon i presente, se calculó un p-valorp, realizando la prueba exacta de Fisher en la tabla de contingencia.Each unique TCRp rearrangement, identified by V and J gene assignment and CDR3 amino acid sequence, was tested for CMV association. Each of these underwent a one-tailed Fisher's exact test to determine their incidence in CMV- and CMV + subjects. Specifically, letting nj denote the number of subjects with CMV status j (with j - o) and clone i present, a p-value was calculated, performing Fisher's exact test on the contingency table.

en donde N+ y n.denotan el número total de sujetos que tienen cada estado de CMV (CMV+ y CMV-, respectivamente).where N + and N. denote the total number of subjects with each CMV status (CMV + and CMV-, respectively).

Para caracterizar una región de rechazo en presencia de muchas hipótesis débilmente dependientes (una para cada TCRp único), las asignaciones de estado de CMV se permutaron aleatoriamente 100 veces y se calcularon las estadísticas sobre el número de rechazos en el umbral teórico de p-valor. Aproximando la fracción total de hipótesis nulas verdaderas como unidad, esto permitió la estimación de la tasa de descubrimientos falsos (TDF) como la proporción entre el número medio de rechazos bajo permutación y el número real de rechazos.To characterize a rejection region in the presence of many weakly dependent hypotheses (one for each unique TCRp), CMV status assignments were randomly permuted 100 times and statistics on the number of rejections at the theoretical threshold of p-value were calculated. . Approximating the total fraction of true null hypotheses as a unit, this allowed estimation of the false discovery rate (TDF) as the ratio between the mean number of rejections under permutation and the actual number of rejections.

Tal como se muestra por ejemplo en la FIG. 4, se seleccionó la secuencia de aminoácidos de TCR "CASSLIGVSSYNEQFF" (SEQ ID NO: 12) y se identificó en 27 sujetos CMV+ y 2 sujetos CMV- (p= 2,8E-08).As shown for example in FIG. 4, the amino acid sequence of TCR "CASSLIGVSSYNEQFF" (SEQ ID NO: 12) was selected and identified in 27 CMV + subjects and 2 CMV- subjects (p = 2.8E-08).

Las FIG. 5 muestra secuencias de aminoácidos de TCR ilustrativas identificadas en sujetos CMV+. Tal como se muestra en la Tabla 1, a un p-valor seleccionado de 10-4, se identificaron 142 clones de linfocitos T públicos como asociados con sujetos CMV+. El p-valor se eligió en 10-4, pero tal como se ve, a un p-valor más bajo, se pueden identificar un mayor número de secuencias de TCRB asociados al CMV.FIGS. 5 shows illustrative TCR amino acid sequences identified in CMV + subjects. As shown in Table 1, at a selected p-value of 10-4, 142 public T cell clones were identified as associated with CMV + subjects. The p-value was chosen at 10-4, but as seen, at a lower p-value, a greater number of CMV-associated TCRB sequences can be identified.

Tabla 1: Se incluyó cada una de las 142 secuencias de TCRp asociados significativamente con el estado de CMV (p<1x10-4, TDF ~ 20%) en la cohorte. Las secuencias se definieron utilizando la secuencia de aminoácidos de la región CDR3 junto con los segmentos génicos V y J. Se proporciona el número de sujetos CMV+ y CMV- en los que se observó cada secuencia, así como el p-valor de una prueba exacta de Fisher para la asociación con el estado de CMV, y cualquier alelo HLA-A o HLA-B que estuviera asociado significativamente (p < 1x10-3) con la presencia de cada secuencia. Table 1: Each of the 142 TCRp sequences significantly associated with CMV status (p <1x10-4, TDF ~ 20%) was included in the cohort. The sequences were defined using the amino acid sequence of the CDR3 region together with the V and J gene segments. The number of CMV + and CMV- subjects in which each sequence was observed is given, as well as the p-value of an exact test. Fisher's for association with CMV status, and any HLA-A or HLA-B allele that was significantly associated (p <1x10-3) with the presence of each sequence.

_ _ _ _ R e d u c c i ó n d e d i m e n s i o n a l i d a d y a p r e n d i z a j e a u t o m á t i c o : _ _ _ _ R eduction of dimensionality and automatic rendering:

Se calculó la carga del CMV para cada sujeto. La carga del CMV se define como la fracción de los TCRp únicos de un sujeto que están significativamente asociados al CMV, tal como se muestra en la FIG. 6. El gráfico de la FIG. 6 muestra la distribución de las puntuaciones del CMV (es decir, la proporción del repertorio de TCRp de cada sujeto que coincide con el listado de 142 secuencias de TCRp asociadas con el CMV) entre sujetos CMV+ y CMV-.The CMV load was calculated for each subject. CMV loading is defined as the fraction of a subject's unique TCRps that are significantly associated with CMV, as shown in FIG. 6. The graph of FIG. 6 shows the distribution of CMV scores (that is, the proportion of each subject's TCRp repertoire that matches the listing of 142 CMV-associated TCRp sequences) between CMV + and CMV- subjects.

Esto permitió el entrenamiento rápido de un clasificador de regresión logística unidimensional del estado del CMV. Se realizó una validación cruzada exhaustiva de dejar uno fuera (incluido el recálculo de los clones asociados con el CMV), que indica una alta precisión en una amplia gama de umbrales de p-valor, con un rendimiento degradado a una TDF alta.This allowed for rapid training of a one-dimensional logistic regression classifier of CMV status. Extensive one-out cross-validation (including recalculation of CMV-associated clones) was performed, indicating high precision across a wide range of p-value thresholds, with performance degraded at high TDF.

Cada sujeto se eliminó del conjunto de datos a su vez, y la lista de TCRp significativamente asociados con el CMV se volvió a calcular utilizando los sujetos restantes con estado conocido de CMV. A continuación, se calculó la carga del CMV de cada sujeto tal como se describe anteriormente. A continuación, se entrenó un clasificador de regresión logística unidimensional sobre la carga de CMV frente al estado del CMV, y la carga de CMV del sujeto que se mantuvo fuera se calculó y se introdujo en la regresión logística. El resultado de este modelo de regresión logística fue la probabilidad de que el sujeto de estado desconocido fuera CMV+, que luego se comparó con el estado (conocido pero no potenciado) del sujeto excluido para determinar la precisión de la clasificación de exclusión. La clasificación de un sujeto con un estado de CMV realmente desconocido procede de la misma manera: secuenciar el TCRp, calcular una carga del CMV (como proporción de TCRp únicos de este sujeto presentes en el listado de TCRp asociados con CMV) e ingresar esta carga de CMV en un modelo de regresión logística entrenado en sujetos de estado conocido, con una probabilidad estimada de positividad para CMV como salida.Each subject was removed from the data set in turn, and the list of TCRp significantly associated with CMV was recalculated using the remaining subjects with known CMV status. The CMV load of each subject was then calculated as described above. Next, a one-dimensional logistic regression classifier was trained on CMV load versus CMV status, and the subject's CMV load kept out was calculated and entered into the logistic regression. The result of this logistic regression model was the probability that the subject of unknown status was CMV +, which was then compared to the status (known but not potentiated) of the excluded subject to determine the precision of the exclusion classification. The classification of a subject with a truly unknown CMV status proceeds in the same way: sequencing the TCRp, calculating a CMV load (as a proportion of unique TCRp of this subject present in the list of TCRp associated with CMV) and entering this load of CMV in a trained logistic regression model in subjects of known status, with an estimated probability of CMV positivity as the output.

Tal como se muestra en la FIG. 7, el método de validación cruzada dejó fuera una de las 640 muestras iniciales, luego, la base de datos de secuencias de TCRp específicas del CMV y las estadísticas asociadas se volvieron a entrenar de una manera no supervisada para eliminar el sesgo, y se clasificó el estado serológico del CMV de la muestra excluida.As shown in FIG. 7, the cross-validation method left out one of the initial 640 samples, then the CMV-specific TCRp sequence database and associated statistics were retrained in an unsupervised manner to eliminate bias, and classified the CMV serological status of the excluded sample.

Los resultados de validación cruzada se muestran en las FIG. 8 y 9 (mostrados para todos los sujetos y sujetos con validación cruzada (VC)). Se demostró que la precisión del modelo es del 89 %, correspondiente a una proporción de posibilidades de diagnóstico de ~ 66. Al evaluar el rendimiento del modelo en el rango de especificidad frente a sensibilidad utilizando una curva COR, se logró un área bajo la curva COR del 93 %.The cross-validation results are shown in FIGS. 8 and 9 (displayed for all subjects and cross-validated (CV) subjects). The accuracy of the model was shown to be 89%, corresponding to a diagnostic chance ratio of ~ 66. By evaluating the performance of the model in the range of specificity versus sensitivity using a COR curve, an area under the curve was achieved. 93% COR.

La FIG. 8 (gráfico superior) muestra datos para el rendimiento de clasificación de todos y los conjuntos de datos de validación cruzada (VC) para cada umbral de p-valor, medido como el área bajo la curva COR (ABCOR). El número sobre cada conjunto de puntos de datos se corresponde con el número de TCRp asociados al CMV identificados en ese umbral de p-valor, y el rectángulo indica el conjunto de datos seleccionado para el análisis posterior (p-valor = 10"4).FIG. 8 (top graph) shows data for the classification performance of all and cross-validation (CV) data sets for each threshold p-value, measured as the area under the COR curve (AUCOR). The number on each set of data points corresponds to the number of TCRp associated with CMV identified at that p-value threshold, and the rectangle indicates the data set selected for subsequent analysis (p-value = 10 "4) .

La FIG. 8 (gráfico inferior) también muestra una tasa de descubrimientos falsos (TDF) estimada para cada umbral de p-valor utilizado en la identificación de secuencias de TCRp asociadas significativamente al CMV, utilizando permutaciones del estado del CMV. El mejor rendimiento se observa con un p-valor de 10-4, que se corresponde con una TDF estimada de ~ 20 %, dando como resultado la identificación de un conjunto de 142 secuencias de TCRp que se asociaron significativamente con el estado positivo del CMV (enumeradas en la Tabla 1). El uso de estas condiciones dio como resultado una buena separación entre los sujetos CMV+ y CMV- en la cohorte medida por la puntuación del CMV (véase la FIG. 6).FIG. 8 (bottom graph) also shows an estimated false discovery rate (TDF) for each threshold p-value used in the identification of TCRp sequences significantly associated with CMV, using permutations of CMV status. The best performance is observed with a p-value of 10-4, which corresponds to an estimated TDF of ~ 20%, resulting in the identification of a set of 142 TCRp sequences that were significantly associated with CMV positive status. (listed in Table 1). The use of these conditions resulted in a good separation between CMV + and CMV- subjects in the cohort as measured by the CMV score (see FIG. 6).

La FIG. 9 muestra las curvas COR para los conjuntos de datos totales y de validación cruzada. El ABCOR para el conjunto de datos completo es 0,98, lo que indica que el enfoque de los presentes inventores dio como resultado un clasificador excelente para el estado del CMV. En el punto de mayor poder de discriminación, se observó una precisión de 0,89 y una proporción de probabilidades de diagnóstico de 66 en el conjunto de datos de validación cruzada (logrado al clasificar correctamente el 86 % de los verdaderos positivos con una tasa de falsos positivos del 8 %). En conjunto, estos datos sugieren que la presencia de respuestas de linfocitos T públicos al CMV está altamente correlacionada con el estado positivo del CMV.FIG. 9 shows the COR curves for the total and cross-validation data sets. The AUCOR for the entire data set is 0.98, indicating that our approach resulted in an excellent classifier for CMV status. At the point of greatest discrimination power, a precision of 0.89 and a diagnostic probability ratio of 66 were observed in the cross-validation data set (achieved by correctly classifying 86% of true positives with a rate of 8% false positives). Taken together, these data suggest that the presence of public T cell responses to CMV is highly correlated with CMV positive status.

Dado que los linfocitos T reconocen sus antígenos afines en el entorno de moléculas del MHC expresadas por células presentadoras de antígenos, se probó si se podía identificar la restricción de HLA de las secuencias de los presentes inventores del TCRp asociadas al CMV. Se realizó una prueba exacta de Fisher en cada secuencia de los TCRp asociados al CMV para determinar si su presencia estaba significativamente asociada con alguno de los alelos HLA observados en la cohorte. La asociación de 57 de las 142 secuencias de TCRp asociados al CMV se podría asignar con confianza con al menos un alelo de HLA, con un p-valor de corte de 1x10-3. Los resultados completos se presentan en la Tabla 1 (anteriormente) y en la FIG. 10.Since T lymphocytes recognize their cognate antigens in the environment of MHC molecules expressed by antigen presenting cells, it was tested whether HLA restriction of CMV-associated TCRp sequences of the present inventors could be identified. A Fisher's exact test was performed on each CMV-associated TCRp sequence to determine whether their presence was significantly associated with any of the HLA alleles observed in the cohort. The association of 57 of the 142 CMV-associated TCRp sequences could be confidently assigned to at least one HLA allele, with a p-value cutoff of 1x10-3. Full results are presented in Table 1 (above) and FIG. 10.

Las FIG. 10A y 10B muestran restricción de HLA de secuencias de TCRp asociados al CMV. La FIG. 10A muestra la distribución de los alelos HLA-A en esta cohorte. La FIG. 10B muestra la distribución de los alelos HLA-B en esta cohorte. Se probó cada una de las 142 secuencias de los TCRp asociados al CMV identificados en p < 1x10-4 para una asociación significativa con cada alelo de HLA, con un umbral de p-valor de 1x10-3 De estas 142 secuencias de los TCRp asociadas al CMV, 57 se asociaron significativamente con un alelo HLA-A y/o HLA-B, y ninguna secuencia se asoció significativamente con más de un alelo de cada locus. Los recuadros de colores y las secuencias de aminoácidos indican las 5 secuencias de los TCRp identificadas en el estudio de los presentes inventores que habían sido previamente identificadas. En 4 de los casos, se recapituló la asociación correcta de HLA, y en el 5° caso, no hubo asociación de HLA estadísticamente significativa.FIGS. 10A and 10B show HLA restriction of CMV-associated TCRp sequences. FIG. 10A shows the distribution of HLA-A alleles in this cohort. FIG. 10B shows the distribution of HLA-B alleles in this cohort. Each of the 142 CMV-associated TCRp sequences identified at p <1x10-4 was tested for a significant association with each HLA allele, with a threshold p-value of 1x10-3 Of these 142 associated TCRp sequences to CMV, 57 were significantly associated with one HLA-A and / or HLA-B allele, and no sequence was significantly associated with more than one allele at each locus. The colored boxes and amino acid sequences indicate the 5 sequences of the TCRp identified in the present inventors' study that had been previously identified. In 4 of the cases, the correct HLA association was recapitulated, and in the 5th case, there was no statistically significant HLA association.

Se realizó una búsqueda en la bibliografía para identificar secuencias de los TCRp reactivos al CMV previamente ^{d e TCRp os q e habían sido identificadas os un} _e ^o A search was made in the literature to identify sequences of TCRP CMV reagents previously ^{TCRP I qe had been identified os} _E ^or

_stst ^cc

_uor ^uor

_dd ^mm

_ioio ^enon

_pp ^tt

_rr ^ato

_eand ^dd

_vv ^ato

_iaia ^ss

_mm ^{, y, and} J J ^{seI know}

_{ente entity} ^ss

_pp ^eand

_uor ^leyou

_bb ^cc

_lili ^cc

_cc ⁱⁱ

_ato ^oor

_dd ⁿⁿ

_o ^a3^ro _or 3 ^ro

_'1ⁿ0⁵1⁹2⁵27 ^{secuencias d} _' 1 ⁿ 0 ⁵ 1 ⁹ 2 ⁵ 27 ^{sequences d}

_{. De éstas, 30 secu}1 ^únic _{. Of these, 30 secu} 1 ^unique

_{encias ún}1^u _{gums only} 1 ^u

_{icas de los TCRp habían s}1_i ^p _{icas of the TCRp had s} 1 _i ^p

_dd ^oor

_o ^{r a} _p ^l _re ^m _v ^e _ia ⁿ _menteclasificadas como públicas o se documentaron en múltiples estudios. Se determinó que 5 de estas 30 secuencias de los TCRp públicos únicas estaban contenidas en el conjunto de 142 secuencias de los TCRp asociados al CMV. Además, se identificó una asociación de HLA para 4 de estas 5 secuencias de los TCRp, y en los 4 casos, la asociación de HLA de los presentes inventores estuvo de acuerdo con la bibliografía. Las FIG. 11 A, 11B y 12 proporcionan información más completa sobre la prevalencia en el conjunto de datos de los presentes inventores de secuencias de TCRp reactivos al CMV previamente identificadas, tal como se describe a continuación. _or _re ^ra _p ^l ^e ^m _e ⁿ _v _mind classified as public or were documented in numerous studies. 5 of these 30 unique public TCRp sequences were found to be contained within the 142 CMV-associated TCRp set. Furthermore, an HLA association was identified for 4 of these 5 sequences of the TCRp, and in all 4 cases, the HLA association of the present inventors was in agreement with the literature. FIGS. 11A, 11B and 12 provide more complete information on the prevalence in our data set of previously identified CMV-reactive TCRp sequences, as described below.

Las FIG. 11A y 11B muestran la incidencia de secuencias de los TCRp reactivos al CMV previamente documentados en esta cohorte. Después de una búsqueda de la bibliografía, se identificaron 565 secuencias de TCRp reactivos al CMV 'privadas' (documentadas en un individuo de un solo estudio) y 30 secuencias de TCRp reactivos al CMV 'públicas' (documentadas en múltiples estudios o en múltiples individuos dentro de un solo estudio). La FIG. 11A muestra la incidencia de cada secuencia de los TCRp en la cohorte de 640 sujetos representada gráficamente a lo largo del eje horizontal mediante la disminución de la incidencia total, con la incidencia en sujetos CMV+ por encima de la horizontal y la incidencia en sujetos CMV- por debajo de la horizontal. Se observaron muchas secuencias documentadas anteriormente en el conjunto de datos, pero la mayoría se observó en aproximadamente el mismo número de sujetos CMV+ y CMV-, lo que podría explicarse por secuencias de receptores con una frecuencia excepcionalmente alta en el repertorio sin exposición previa, o podría reflejar receptores de reacción cruzada que se unen a antígenos del CMV, pero también a otros antígenos comunes. La FIG. 11B muestra un histograma de incidencia de estas secuencias de los TCRp en la cohorte de 640 sujetos representados gráficamente para cada grupo de secuencias. La mayoría de las secuencias del TCRp reactivos al CMV documentados anteriormente se encontraron en el conjunto de datos de los presentes inventores en niveles apreciables, aunque solo un puñado se encontró de manera desproporcionada en sujetos CMV+ en p < 1x10-4. Las secuencias de TrRp "públicos" descritas en la bibliografía fueron considerablemente más comunes en la cohorte de los presentes inventores.FIGS. 11A and 11B show the incidence of previously documented CMV-reactive TCRp sequences in this cohort. After a literature search, 565 'private' CMV-reactive TCRp sequences (documented in one individual from a single study) and 30 'public' CMV-reactive TCRp sequences (documented in multiple studies or in multiple individuals were identified within a single study). FIG. 11A shows the incidence of each sequence of PCRRs in the cohort of 640 subjects represented graphically along the horizontal axis by decreasing the total incidence, with the incidence in CMV + subjects above the horizontal and the incidence in CMV- subjects. below horizontal. Many previously documented sequences were seen in the data set, but most were seen in roughly the same number of CMV + and CMV- subjects, which could be explained by receptor sequences with exceptionally high frequency in the repertoire without prior exposure, or it could reflect cross-reactive receptors that bind to CMV antigens, but also to other common antigens. FIG. 11B shows an incidence histogram of these sequences of the TCRp in the cohort of 640 subjects plotted for each group of sequences. Most of the previously documented CMV-reactive TCRp sequences were found in our data set at appreciable levels, although only a handful were found disproportionately in CMV + subjects at p <1x10-4. The "public" TrRp sequences described in the literature were considerably more common in our cohort.

La FIG. 12 muestra la concordancia de las secuencias de los TCRB en la cohorte en comparación con las de la bibliografía. De las 142 secuencias de TCRp asociadas significativamente con el estado de CMV en la cohorte con un p-valor de menos de 1x10-4, cinco secuencias de TCRp (definidas por la coincidencia de la secuencia de aminoácidos de CDR3) se han documentado previamente en la bibliografía como clones públicos. La FIG. 12 proporciona la secuencia de aminoácidos de CDR3, los genes V y J, y la asociación de HLA para cada secuencia y la compara con informes anteriores. Tal como se esperaba, las dos secuencias previamente identificadas como públicas se vieron en más sujetos en la cohorte de los presentes inventores que las tres secuencias previamente documentadas solo una vez. La concordancia del gen V, del gen J y el alelo HLA con las descritas en la bibliografía fue muy buena. Cinco de las nueve comparaciones totales tenían el mismo gen V y las otras 4 comparaciones tenían la misma subfamilia del gen V. Había genes J concordantes en 9 de 9 comparaciones, y una asociación de HLA idéntica en 8 de 9 comparaciones, con una secuencia no significativamente asociada a HLA en este estudio.FIG. 12 shows the concordance of the TCRB sequences in the cohort compared to those in the literature. Of the 142 TCRp sequences significantly associated with CMV status in the cohort with a p-value of less than 1x10-4, five TCRp sequences (defined by the coincidence of the CDR3 amino acid sequence) have been previously documented in the bibliography as public clones. FIG. 12 provides the amino acid sequence of CDR3, the V and J genes, and the HLA association for each sequence and compares it to previous reports. As expected, the two sequences previously identified as public were seen in more subjects in our cohort than the three sequences previously documented only once. The concordance of the V gene, the J gene and the HLA allele with those described in the bibliography was very good. Five of the nine total comparisons had the same V gene and the other 4 comparisons had the same subfamily of the V gene. There were concordant J genes in 9 of 9 comparisons, and an identical HLA association in 8 of 9 comparisons, with no sequence. significantly associated with HLA in this study.

Por tanto, la inmunosecuenciación se puede usar para determinar secuencias de linfocitos T específicos de CMV en una gran cohorte y predecir el estado del CMV en nuevos sujetos con alta precisión. En resumen, se ha demostrado que la información obtenida de los receptores de linfocitos T reordenados se puede utilizar para inferir el estado de la enfermedad basándose en la presencia de respuestas de linfocitos T públicos; el único requisito es una muestra grande de muestras positivas y negativas para patógenos con las que identificar estas respuestas de linfocitos T públicos. Debido a que la secuenciación de alto rendimiento de los receptores de linfocitos T captura todas las respuestas de los linfocitos T por igual, y estas almacenan la memoria inmunológica para todos los patógenos en un formato común, la lectura de la memoria de los linfocitos T buscando respuestas públicas conocidas puede ser una estrategia viable para diagnosticar simultáneamente una amplia gama de agentes infecciosos utilizando una sola muestra de sangre periférica y un ensayo simple unificado. Estos métodos se pueden aplicar de forma necesaria a las infecciones agudas, dado que la memoria de los linfocitos T persiste durante años, lo que explica el hecho de que no se sabe cómo los clones públicos decaen con el tiempo después de una infección aguda. Por consiguiente, el presente método se puede utilizar para evaluar múltiples infecciones simultáneamente, tal como HPV, EBV, CMV y otras. El método también se puede usar para predecir o diagnosticar una enfermedad no infecciosa (por ejemplo, autoinmune).Thus, immunosequencing can be used to determine CMV-specific T cell sequences in a large cohort and predict CMV status in new subjects with high precision. In summary, it has been shown that information obtained from rearranged T-cell receptors can be used to infer disease status based on the presence of public T-cell responses; the only requirement is a large sample of pathogen positive and negative samples with which to identify these public T cell responses. Because high-throughput sequencing of T-cell receptors captures all T-cell responses equally, and they store immunological memory for all pathogens in a common format, reading T-cell memory looking for Known public responses may be a viable strategy to simultaneously diagnose a wide range of infectious agents using a single peripheral blood sample and a single unitized assay. These methods are necessarily applicable to acute infections, since the memory of T lymphocytes persists for years, which explains the fact that it is not known how public clones decay over time after an acute infection. Accordingly, the present method can be used to evaluate multiple infections simultaneously, such as HPV, EBV, CMV, and others. The method can also be used to predict or diagnose a non-infectious (eg autoimmune) disease.

Los métodos descritos en el presente documento también se pueden usar para cuantificar la carga de la enfermedad (por ejemplo, reactivación del CMV después del trasplante). The methods described herein can also be used to quantify disease burden (eg, CMV reactivation after transplantation).

Ejemplo 2: Identificación del tipo de HLAExample 2: Identifying the type of HLA

El primer objetivo del estudio fue crear un catálogo completo de secuencias de receptores de linfocitos T y tipos de HLA asociados.The first aim of the study was to create a comprehensive catalog of T cell receptor sequences and associated HLA types.

H L A T w i n a :H L A T w i n a:

640 sujetos fueron fenotipados para el tipo HLA de acuerdo con el protocolo estándar del Fred Hutchinson Cancer Research Center.640 subjects were phenotyped for the HLA type according to the standard protocol of the Fred Hutchinson Cancer Research Center.

S e c u e n c i a c i ó n d e l r e p e r t o r i o i n m u n i t a r i o :S e c u e n c i a t i o n de l r e p e r t o r i o i n m u n i t a r i o:

A continuación, las secuencias de TCRB para cada sujeto se determinaron mediante amplificación y secuenciación. The TCRB sequences for each subject were then determined by amplification and sequencing.

El ADN genómico se extrajo de muestras de sangre periférica utilizando el kit de extracción de sangre Qiagen DNeasy (Qiagen, Gaithersburg, MD, EE. UU.). Se secuenciaron las regiones de CDR3 de los genes de TCRp reordenados; la región CDR3 de TCRp se definió de acuerdo con la colaboración del IMGT28, 20 Las regiones de CDR3 de TCRp se amplificaron y secuenciaron utilizando los métodos descritos anteriormente y en los protocolos descritos anteriormente5, 29 El método de PCR multiplexada utilizó una mezcla de 60 cebadores directos específicos para los segmentos del gen TCR Vp y 13 cebadores inversos específicos para los segmentos del gen TCR Jp. Los amplicones resultantes se secuenciaron utilizando los métodos descritos anteriormente. Se obtuvieron lecturas de 87 pb utilizando el sistema Illumina HiSeq. Los datos de secuencia de HiSeq sin procesar se preprocesaron para eliminar errores en la secuencia principal de cada lectura y para comprimir los datos. Se utilizó un algoritmo del vecino más cercano para contraer los datos en secuencias únicas fusionando secuencias estrechamente relacionadas, para eliminar errores de secuenciación y de PCR.Genomic DNA was extracted from peripheral blood samples using the Qiagen DNeasy Blood Collection Kit (Qiagen, Gaithersburg, MD, USA). The CDR3 regions of the rearranged TCRp genes were sequenced; the CDR3 region of TCRp was defined in collaboration with IMGT28, 20 The CDR3 regions of TCRp were amplified and sequenced using the methods described above and in the protocols described above.5, 29 The multiplexed PCR method used a mixture of 60 primers specific direct for the TCR Vp gene segments and 13 specific reverse primers for the TCR Jp gene segments. The resulting amplicons were sequenced using the methods described above. 87 bp readings were obtained using the Illumina HiSeq system. The raw HiSeq sequence data was pre-processed to eliminate errors in the main sequence of each read and to compress the data. A nearest neighbor algorithm was used to collapse the data into unique sequences by fusing closely related sequences, to eliminate sequencing and PCR errors.

Para garantizar una cobertura adecuada de cada reordenamiento de linfocitos T, la cobertura de secuencia de 8-10x, o ~ 6-10 millones de lecturas de secuenciación por muestra se generó utilizando aproximadamente ocho ejecuciones de secuenciación completas. Todas las lecturas de secuenciación se procesaron utilizando un modelo bioinformático estandarizado en desarrollo para 1) demultiplexar lecturas para muestras específicas, 2) eliminar secuencias de baja calidad y eliminar posibles contaminantes, 3) alinear e identificar segmentos de genes específicos de las regiones CDR3 de V y J de TCRp, 4) agrupar altamente secuencias similares para tener en cuenta la PCR y los errores de secuenciación, 5) normalizar los datos para eliminar el sesgo de amplificación de la PCR, 6) estimar la entrada total de linfocitos T y 7) generar recuentos y distribuciones de secuencias únicas de TCRp.To ensure adequate coverage of each T cell rearrangement, 8-10x sequence coverage, or ~ 6-10 million sequencing reads per sample was generated using approximately eight full sequencing runs. All sequencing reads were processed using a standardized bioinformatics model under development to 1) demultiplex reads for specific samples, 2) remove low quality sequences and remove potential contaminants, 3) align and identify specific gene segments from CDR3 regions of V and J from TCRp, 4) cluster highly similar sequences to account for PCR and sequencing errors, 5) normalize data to eliminate PCR amplification bias, 6) estimate total T lymphocyte input, and 7) generate unique sequence counts and distributions of TCRp.

En el presente documento, se secuenciaron aproximadamente 250.000 genes de receptores de linfocitos T reordenados a partir de sangre periférica de cada sujeto. Para cada sujeto, se obtuvieron aproximadamente 105 secuencias de TCRB y se cuantificaron las abundancias de cada secuencia única.Herein, approximately 250,000 rearranged T-cell receptor genes were sequenced from the peripheral blood of each subject. For each subject, approximately 105 TCRB sequences were obtained and the abundances of each unique sequence were quantified.

S e l e c c i ó n d e r a s a o s : P a r a d e f i n i r la a s o c i a c i ó n e n t r e u n a l e l o H L A y s e c u e n c i a s d e T C R BS e l e c c i o n d e r a s a o s: P a r a d e f i r la a s o c i a c i o n e n t r e u n a l e l o H L A y s e c u e n c i a s d e T C R B

Para cada sujeto, se determina el número total de secuencias de TCRB único y la frecuencia de cada secuencia de TCRB único. Para una secuencia de TCRB único, se determina cuántos sujetos que son positivos para un alelo HLA tienen la secuencia de TCRB y cuántos sujetos que son negativos para el alelo HLA tienen la secuencia de TCRB. Además, se puede determinar el número de sujetos que son positivos para un alelo HLA y negativos para la secuencia de TCRB y el número de sujetos que son negativos para el alelo HLA y positivos para la secuencia de TCRB. La siguiente tabla muestra la categorización de los sujetos según la presencia o ausencia de una secuencia de TCRB y la presencia o ausencia de un alelo de HLA, HLA-A2.For each subject, the total number of unique TCRB sequences and the frequency of each unique TCRB sequence are determined. For a single TCRB sequence, it is determined how many subjects who are positive for an HLA allele have the TCRB sequence and how many subjects who are negative for the HLA allele have the TCRB sequence. Furthermore, the number of subjects who are positive for an HLA allele and negative for the TCRB sequence and the number of subjects who are negative for the HLA allele and positive for the TCRB sequence can be determined. The following table shows the categorization of subjects according to the presence or absence of a TCRB sequence and the presence or absence of an HLA allele, HLA-A2.

La FIG. 14 muestra p-valores ilustrativos que se calcularon para la asociación de una secuencia de TCRB particular con un tipo de HLA (HLA-A2).FIG. 14 shows illustrative p-values that were calculated for the association of a particular TCRB sequence with an HLA type (HLA-A2).

Tal como se muestra en la FIG. 15, se selecciona un p-valor como un punto de corte para identificar un conjunto de "rasgos de los TCR" del listado completo de las posibles secuencias de los TCR. La definición de un umbral de pvalor y la permutación del estado del alelo entre individuos proporciona una estimación de la tasa de descubrimientos falsos. Esto se realiza para cada alelo HLA, dando como resultado un conjunto de secuencias de TCRp asociadas a los alelos para cada alelo HLA. En la FIG. 15, se usa un valor de corte del p-valor de p<10-4 y una TDF de 0,1 para identificar 288 secuencias de TCRB que están asociadas positivamente con HLA-A2. Para cada una de las secuencias de TCRB asociadas a los alelos, la frecuencia de la secuencia también se determina en cada sujeto.As shown in FIG. 15, a p-value is selected as a cut-off point to identify a set of "TCR traits" from the complete list of possible TCR sequences. Defining a threshold of p-value and permutation of allele status between individuals provides an estimate of the false discovery rate. This is done for each HLA allele, resulting in a set of TCRp sequences associated with the alleles for each HLA allele. In FIG. 15, a cutoff value of p-value of p <10-4 and a TDF of 0.1 are used to identify 288 TCRB sequences that are positively associated with HLA-A2. For each of the TCRB sequences associated with the alleles, the frequency of the sequence is also determined in each subject.

La tasa de descubrimientos falsos (TDF) se determinó mediante la permutación del estado del alelo. Véase Storey et al. Statistical significance for genomewide studies. PNAS, 100(6), págs. 9440-9445.The false discovery rate (TDF) was determined by permutation of the allele status. See Storey et al. Statistical significance for genomewide studies. PNAS, 100 (6), pp. 9440-9445.

La FIG. 18 muestra los resultados de un estudio de validación cruzada. La validación cruzada de dejar uno fuera se realizó durante 78 rondas. Para el alelo HLA-A2, el método descrito anteriormente dio como resultado la identificación de 288 rasgos de TCR y una predicción precisa de 41 sujetos de 43 como positivos para HLA-A2. Como se ha descrito anteriormente, el tipo de HLA de los sujetos se conocía antes de realizar la validación cruzada. Solo 2/43 sujetos fueron falsos positivos para HLA-A2. Por tanto, el método tuvo una precisión del 96 % para predecir la presencia de HLA-A2 en un sujeto basándose en el perfil de secuencia de TCRB del sujeto.FIG. 18 shows the results of a cross-validation study. The cross-validation of leaving one out was done for 78 rounds. For the HLA-A2 allele, the method described above resulted in the identification of 288 TCR traits and an accurate prediction of 41 out of 43 subjects as HLA-A2 positive. As described above, the HLA type of the subjects was known prior to cross-validation. Only 2/43 subjects were false positives for HLA-A2. Thus, the method was 96% accurate in predicting the presence of HLA-A2 in a subject based on the subject's TCRB sequence profile.

La FIG. 18 también muestra los resultados de la validación cruzada del alelo HLA-A24, que también tuvo una precisión del 96 %. Se predijo con precisión que 10 de 13 sujetos poseían el alelo HLA-A24, y se predijo con precisión que 65 de 65 sujetos no tenían el alelo HLA-A24 según los rasgos identificados de los TCRB.FIG. 18 also shows the results of the cross-validation of the HLA-A24 allele, which was also 96% accurate. 10 of 13 subjects were accurately predicted to have the HLA-A24 allele, and 65 of 65 subjects were accurately predicted not to have the HLA-A24 allele based on identified TCRB traits.

Ejemplo 3: Estudio de HLAExample 3: HLA Study

En otro ejemplo, la respuesta de los linfocitos T públicos al citomegalovirus (CMV) se investigó mediante la secuenciación de los receptores de linfocitos T (TCR) reordenados en 650 sujetos (294 con y 356 sin CMV). Se evaluó la concordancia entre ~ 90 millones de TCR únicos y el estado serológico del CMV, centrándose en la identificación de asociaciones significativas. En este estudio, se identificaron 157 TCR asociados al CMV a p < 10-3, TDF “ 0,15). Entrenando un clasificador binario en estas rasgos, se predijo que el estado serológico del CMV en un procedimiento de validación cruzada de dejar uno fuera tenía una razón de probabilidades de diagnóstico de 44. El clasificador también se probó en una segunda cohorte independiente de 120 sujetos con estado serológico del CMV conocido, generando una razón de probabilidades de diagnóstico de 49.In another example, the response of public T cells to cytomegalovirus (CMV) was investigated by sequencing rearranged T cell receptors (TCRs) in 650 subjects (294 with and 356 without CMV). The concordance between ~ 90 million unique CRTs and CMV serostatus was evaluated, focusing on the identification of significant associations. In this study, 157 CRTs associated with CMV ap <10-3, TDF “0.15) were identified. By training a binary classifier on these traits, CMV serostatus in a cross-validation procedure of leaving one out was predicted to have a diagnostic odds ratio of 44. The classifier was also tested in a second independent cohort of 120 subjects with known CMV serostatus, generating a diagnostic odds ratio of 49.

A continuación, la restricción de HLA de cada TCR asociado al CMV se investigó evaluando la sobrerrepresentación de tipos de HLA particulares entre los sujetos que portan cada TCR asociado al CMV. De 157 TCR asociados a CMV, 61 estaban asociados a HLA a p < 10-3 Ninguno de estos se asoció significativamente con múltiples alelos HLA-A o HLA-B.Next, the HLA restriction of each CMV-associated TCR was investigated by evaluating the over-representation of particular HLA types among subjects carrying each CMV-associated TCR. Of 157 CMV-associated TCRs, 61 were HLA-associated at p <10-3 None of these were significantly associated with multiple HLA-A or HLA-B alleles.

Hubo una concordancia sustancial entre los datos de los presentes inventores y los TCR asociados con el CMV y HLA publicados anteriormente. La mayoría de los TCR específicos del CMV públicos documentados anteriormente se observaron en los datos, aunque solo se han documentado previamente 5/157 TCR asociados con el CMV identificados en este estudio. De éstos, 4 tenían una restricción significativa de HLA y los cuatro confirmaron hallazgos anteriores.There was substantial agreement between our data and previously published TCRs associated with CMV and HLA. Most of the previously documented public CMV-specific TCRs were seen in the data, although only 5/157 CMV-associated TCRs identified in this study have been previously documented. Of these, 4 had significant HLA restriction and all four confirmed previous findings.

Además, se investigó la asociación de los TCR con cada alelo HLA-A presente en la cohorte, con resultados significativos (p < 10"4) para muchos alelos de mayor frecuencia. El entrenamiento del clasificador binario dio como resultado una predicción de alta precisión (-96%) para estos alelos, lo que indica que el tipo de HLA se puede inferir a partir de los datos de inmunosecuenciación.Furthermore, the association of TCRs with each HLA-A allele present in the cohort was investigated, with significant results (p <10 "4) for many higher frequency alleles. Training of the binary classifier resulted in a highly accurate prediction. (-96%) for these alleles, indicating that the HLA type can be inferred from the immunosequencing data.

En resumen, el presente estudio demostró la validez de los estudios de asociación que utilizan la inmunosecuenciación para la detección y la asociación HLA de las respuestas de los linfocitos T públicos a la infección, y mostró que evaluar la presencia de respuestas de los linfocitos T asociadas puede servir como un poderoso clasificador de diagnóstico.In summary, the present study demonstrated the validity of association studies using immunosequencing for detection and HLA association of public T-cell responses to infection, and showed that assessing the presence of associated T-cell responses it can serve as a powerful diagnostic classifier.

REFERENCIASREFERENCES

1. Neller, M.A., Burrows, J.M., Rist, M.J., Miles, J.J. & Burrows, S.R. High frequency of herpesvirus-specific clonotypes in the human T cell repertoire can remain stable over decades with minimal turnover. J Virol 87, 697 700 (2013).1. Neller, M.A., Burrows, J.M., Rist, M.J., Miles, J.J. & Burrows, S.R. High frequency of herpesvirus-specific clonotypes in the human T cell repertoire can remain stable over decades with minimal turnover. J Virol 87, 697 700 (2013).

2. Li, H., Ye, C., Ji, G. & Han, J. Determinants of public T cell responses. Cell Res 22, 33-42 (2012).2. Li, H., Ye, C., Ji, G. & Han, J. Determinants of public T cell responses. Cell Res 22, 33-42 (2012).

3. Venturi, V., Price, D.A., Douek, D.C. & Davenport, M.P. The molecular basis for public T-cell responses? Nat Rev Immunol 8, 231-238 (2008).3. Venturi, V., Price, D.A., Douek, D.C. & Davenport, M.P. The molecular basis for public T-cell responses? Nat Rev Immunol 8, 231-238 (2008).

4. Arstila, T.P. et al. A direct estimate of the human alphabeta T cell receptor diversity. Science 286, 958-961 (1999).4. Arstila, TP et al. A direct estimate of the human alphabeta T cell receptor diversity. Science 286, 958-961 (1999).

5. Robins, H.S. et al. Comprehensive assessment of T-cell receptor beta-chain diversity in alphabeta T cells. Blood 114, 4099-4107 (2009).5. Robins, HS et al. Comprehensive assessment of T-cell receptor beta-chain diversity in alphabeta T cells. Blood 114, 4099-4107 (2009).

6. Cabaniols, J.P., Fazilleau, N., Casrouge, A., Kourilsky, P. & Kanellopoulos, J.M. Most alpha/beta T cell receptor diversity is due to terminal deoxynucleotidyl transferase. J Exp Med 194, 1385-1390 (2001).6. Cabaniols, J.P., Fazilleau, N., Casrouge, A., Kourilsky, P. & Kanellopoulos, J.M. Most alpha / beta T cell receptor diversity is due to terminal deoxynucleotidyl transferase. J Exp Med 194, 1385-1390 (2001).

7. Davis, M.M. & Bjorkman, P.J. T-cell antigen receptor genes and T-cell recognition. Nature 334 (1988).7. Davis, M.M. & Bjorkman, P.J. T-cell antigen receptor genes and T-cell recognition. Nature 334 (1988).

8. Robins, H.S. et al. Overlap and effective size of the human CD8+ T cell receptor repertoire. Sci Transl Med 2, 47ra64 (2010).8. Robins, HS et al. Overlap and effective size of the human CD8 + T cell receptor repertoire. Sci Transl Med 2, 47ra64 (2010).

9. Li, H. et al. Recombinatorial biases and convergent recombination determine interindividual TCRbeta sharing in murine thymocytes. J Immunol 189, 2404-2413 (2012).9. Li, H. et al. Recombinatorial biases and convergent recombination determine interindividual TCRbeta sharing in murine thymocytes. J Immunol 189, 2404-2413 (2012).

10. Venturi, V. et al. TCR beta-chain sharing in human CD8+ T cell responses to cytomegalovirus and EBV. J Immunol 181, 7853-7862 (2008).10. Venturi, V. et al. TCR beta-chain sharing in human CD8 + T cell responses to cytomegalovirus and EBV. J Immunol 181, 7853-7862 (2008).

11. Gandhi, M.K. & Khanna, R. Human cytomegalovirus: clinical aspects, immune regulation, and emerging treatments. Lancet Infect Dis 4, 725-738 (2004).11. Gandhi, M.K. & Khanna, R. Human cytomegalovirus: clinical aspects, immune regulation, and emerging treatments. Lancet Infect Dis 4, 725-738 (2004).

12. Babel, N. et al. Clonotype analysis of cytomegalovirus-specific cytotoxic T lymphocytes. J Am Soc Nephrol 20, 344-352 (2009).12. Babel, N. et al. Clonotype analysis of cytomegalovirus-specific cytotoxic T lymphocytes. J Am Soc Nephrol 20, 344-352 (2009).

13. lancu, E.M. et al. Clonotype selection and composition of human CD8 T cells specific for persistent herpes viruses varies with differentiation but is stable over time. J Immunol 183, 319-331 (2009).13. lancu, EM et al. Clonotype selection and composition of human CD8 T cells specific for persistent herpes viruses varies with differentiation but is stable over time. J Immunol 183, 319-331 (2009).

14. Khan, N., Cobbold, M., Keenan, R. & Moss, P.A. Comparative analysis of CD8+ T cell responses against human cytomegalovirus proteins pp65 and immediate early 1 shows similarities in precursor frequency, oligoclonality, and phenotype. J Infect Dis 185, 1025-1034 (2002).14. Khan, N., Cobbold, M., Keenan, R. & Moss, P.A. Comparative analysis of CD8 + T cell responses against human cytomegalovirus proteins pp65 and immediate early 1 shows similarities in precursor frequency, oligoclonality, and phenotype. J Infect Dis 185, 1025-1034 (2002).

15. Klarenbeek, P.L. et al. Deep sequencing of antiviral T-cell responses to HCMV and EBV in humans reveals a stable repertoire that is maintained for many years. PLoSPathog 8, e1002889 (2012).15. Klarenbeek, PL et al. Deep sequencing of antiviral T-cell responses to HCMV and EBV in humans reveals a stable repertoire that is maintained for many years. PLoSPathog 8, e1002889 (2012).

16. Klinger, M. et al. Combining next-generation sequencing and immune assays: a novel method for identification of antigen-specific T cells. PLoS One 8, e74231 (2013).16. Klinger, M. et al. Combining next-generation sequencing and immune assays: a novel method for identification of antigen-specific T cells. PLoS One 8, e74231 (2013).

17. Koning, D. et al. In vitro expansion of antigen-specific CD8(+) T cells distorts the T-cell repertoire. J Immunol Methods 405, 199-203 (2014).17. Koning, D. et al. In vitro expansion of antigen-specific CD8 (+) T cells distorts the T-cell repertoire. J Immunol Methods 405, 199-203 (2014).

18. Miconnet, I. et al. Large TCR diversity of virus-specific CD8 T cells provides the mechanistic basis for massive TCR renewal after antigen exposure. J Immunol 186, 7039-7049 (2011).18. Miconnet, I. et al. Large TCR diversity of virus-specific CD8 T cells provides the mechanistic basis for massive TCR renewal after antigen exposure. J Immunol 186, 7039-7049 (2011).

19. Price, D.A. et al. Avidity for antigen shapes clonal dominance in CD8+ T cell populations specific for persistent DNA viruses. J Exp Med 202, 1349-1361 (2005).19. Price, DA et al. Avidity for antigen shapes clonal dominance in CD8 + T cell populations specific for persistent DNA viruses. J Exp Med 202, 1349-1361 (2005).

20. Retiere, C. et al. Generation of cytomegalovirus-specific human T-lymphocyte clones by using autologous B-lymphoblastoid cells with stable expression of pp65 or IE1 proteins: a tool to study the fine specificity of the 20. Retiere, C. et al. Generation of cytomegalovirus-specific human T-lymphocyte clones by using autologous B-lymphoblastoid cells with stable expression of pp65 or IE1 proteins: a tool to study the fine specificity of the

Claims

1. A method of predicting the status of a human leukocyte antigen (HLA) allele of a subject, comprising:

(a) determining an immune receptor profile of unique T-cell receptor (TCR) rearranged DNA sequences for each of a plurality of subjects, each subject having a known HLA allele status; (b) categorizing the plurality of subjects based on (i) said subject's known HLA allele status and (ii) a presence or absence in the subject's immune receptor profile of a trait comprising a single TCR rearranged DNA sequence ;

(c) determining a statistical score for the association between a set of traits and an HLA positive allele status based on (b);

(d) training a machine learning model using said set of traits to define a set of classifiers for each HLA allele state;

(e) introducing one or more rearranged DNA sequences from the unique TCR of a subject with unknown HLA allele status into said machine learning model to identify one or more traits that match the set of classifiers; and

(f) predicting the status of an HLA allele of said subject based on said one or more paired traits.

The method of claim 1, wherein training a machine learning model comprises training a logistic regression model using said set of identified characteristics and said known HLA allele states of each subject.

The method of claim 1 or claim 2, further comprising determining a false discovery rate (TDF) of the association of a trait with an HLA allele status.

The method of any one of claims 1 to 3, further comprising determining a series of false positive associations between said trait and said HLA allele status.

The method of any one of claims 1 to 4, wherein training a machine learning model further comprises performing a cross-validation method of leaving one out.

The method of any one of claims 1 to 5, wherein said HLA allele is an HLA-A2 allele or an HLA-24 allele.

The method of any one of claims 1 to 6, wherein determining an immune receptor profile comprises determining the total number of unique TCR sequences and the frequency of each unique TCR sequence.