BR102012007246A2

BR102012007246A2 - methods for predicting and classifying event outcomes

Info

Publication number: BR102012007246A2
Application number: BR102012007246A
Authority: BR
Inventors: Renato David Puga; Ricardo Renzo Brentani
Original assignee: Fundação Antonio Prudente; Supremum Assessoria E Consultoria Ltda
Priority date: 2012-03-30
Filing date: 2012-03-30
Publication date: 2016-02-10
Also published as: WO2013142939A1

Abstract

resumo métodos para prognóstico e classificação de resultados de um evento; a presente invenção prove métodos preditivos de classificação de uma amostra biológica latente de acordo com um resultado fenotípico mais ou menos provável, métodos preditivos de classificação de um estado de doença alternativo de acordo com um prognóstico mais ou menos favorável e métodos preditivos de classificação de câncer de próstata de estágio gleason 7 de acordo com uma reincidência mais ou menos provável. os métodos preditivos incluem etapas de: obtenção de uma coleta de dados primários; geração estatística de um classificador pequeno de alta qualidade a partir dos dados primários; e utilização do classificador em um contexto clínico para classificar de acordo com um resultado fenotípico mais ou menos provável ou prognóstico mais ou menos favorável.summary methods for prognosis and classification of results of an event; The present invention provides predictive methods of classifying a latent biological sample according to a more or less likely phenotypic outcome, predictive methods of classifying an alternative disease state according to a more or less favorable prognosis, and predictive methods of cancer classification. stage 7 prostate glands according to a more or less likely recurrence. Predictive methods include steps of: obtaining a primary data collection; statistical generation of a high quality small classifier from primary data; and using the classifier in a clinical context to classify according to a more or less likely phenotypic outcome or more or less favorable prognosis.

Description

MÉTODOS PARA PROGNÓSTICO E CLASSIFICAÇÃO DE RESULTADOSPROGNOSTIC METHODS AND RESULTS CLASSIFICATION

DE UM EVENTOFROM AN EVENT

CAMPO DA INVENÇÃO A presente invenção refere-se a métodos matemáticos que podem ser aplicados a informação biológica e molecular para gerar um modelo de prognóstico para classificação de resultados de um evento. Composições de densidades logísticas-normais são aplicadas a informação de transcriptoma, genoma e/ou proteoma obtida a partir de grupos biologicamente distintos de pacientes para identificar genes expressos diferencial mente em perfis de expressão gênica digitais genes. Os genes expressos o mais diferenciadamente são selecionados em um classificador pequeno, de alta qualidade, e a resolução do classificador é aumentada mediante integração das densidades de probabilidade de grupo dos genes expressos o mais diferenciadamente em um par de densidades de probabilidade marginal, multivariado e correspondente a vetores do log de probabilidades (log-odds) de acordo com dois resultados. As densidades de probabilidade multivariada, marginais são ainda reexaminadas por uma probabilidade condicional Bayesiana sinergística, probabilidade posterior, ou equivalentes desta. O pequeno classificador de alta qualidade pode ser usado em ura contexto clínico para prover um diagnóstico diferencial da doença de alta resolução.FIELD OF THE INVENTION The present invention relates to mathematical methods that can be applied to biological and molecular information to generate a prognostic model for classifying event outcomes. Normal logistic density compositions are applied to transcriptome, genome and / or proteome information obtained from biologically distinct groups of patients to identify differentially expressed genes in digital gene expression profiles. The most differentially expressed genes are selected from a small, high quality classifier, and the resolution of the classifier is increased by integrating the group probability densities of the most differentially expressed genes into a pair of multivariate and corresponding marginal probability densities. to log odds vectors according to two results. Multivariate, marginal probability densities are further reexamined by a synergistic Bayesian conditional probability, later probability, or equivalents thereof. The small high quality classifier can be used in a clinical setting to provide a differential diagnosis of high resolution disease.

HISTÓRICO DA INVENÇÃO O câncer de próstata (PCa) é o câncer não-dermatológico mais comum entre homens no mundo inteiro. Os dois fatores de prognóstico mais amplamente aceitos para câncer de próstata são níveis de antígeno prostático específico (PSA) no soro pré-operatório e pontuação de Gleason de diferenciação de célula cancerosa analisada em biópsia. Níveis de PSA acima de lOng/ml e uma pontuação de Gleason de 8 e superior, parecem indicar um mau prognóstico da evolução da doença. A adoção muito difundida de varredura baseada em níveis de PSA, por exemplo, levou à detecção precoce e diagnóstico de câncer de próstata, em "que a maioria dos casos pareciam confinados à glândula prostática à apresentação.BACKGROUND OF THE INVENTION Prostate cancer (PCa) is the most common non-dermatological cancer among men worldwide. The two most widely accepted prognostic factors for prostate cancer are preoperative serum prostate specific antigen (PSA) levels and a biopsy analyzed cancer cell differentiation Gleason score. PSA levels above 10ng / ml and a Gleason score of 8 and above appear to indicate a poor prognosis for disease progression. The widespread adoption of screening based on PSA levels, for example, led to early detection and diagnosis of prostate cancer, in which "most cases seemed confined to the prostate gland to presentation.

Porém, enquanto tal diagnóstico precoce baseado em níveis de PSA e parâmetros de pontuação de Gleason provê uma oportunidade de cura homens com a doença confinada áo órgão, até 30% dos homens que se submetem a prostatectomia radical como terapia para tais tumores, apresentarão em última análise recidiva, provavelmente como resultado da doença micro-metastática latente presente na época da cirurgia. Além disso, esses parâmetros não são prognósticos em uma fração significativa dos pacientes, especialmente se a pontuação de Gleason for um grau intermediário (i.e., uma pontuação de 7), que evidencia a necessidade de outros marcadores para melhorar a eficácia de intervenções terapêuticas. O sistema de pontuação de Gleason é baseado em padrões de tumor microscópicos que são medidos pelo patologista, com base em uma biópsia de próstata. O patologista examina a amostra e tenta conferir duas pontuações: um grau primário representa a maioria visível da amostra de tumor; e um grau secundário que se refere à minoria dos padrões de tumor visíveis. Essas pontuações são então adicionadas para obter a pontuação de Gleason final. Assim, esse sistema de classificação baseado em amostras biológicas não é uma ciência exata, é evidentemente subjetiva por natureza, e os resultados referentes a uma única amostra de biópsia lida por dois diferentes patologistas podem diferir um do outro. Portanto, uma questão crítica no tratamento de homens com câncer de próstata é melhorar a estratificação de risco de pacientes com doença de risco intermediária. Embora os níveis de PSA séricos e pontuações de Gleason continuem sendo as variáveis mais importantes para prognosticar comportamento da doença e possam diferenciar com êxito entre homens com risco baixo, intermediário e elevado de uma recorrência do tumor após terapia local, essas medidas são menos bem sucedidas no sentido de ajudar a conduzir a terapia para a maioria dos homens que estão no grupo de risco intermediário. O advento da metodologia de oligoarranjos e de cDNA acarretou a geração de perfis de expressão gênica diferenciais que permitiram melhor discriminação entre um bom e um mau prognóstico. Um exemplo recente foi fornecido por um estudo, que mostra que a resposta ao andrógeno não depende somente da expressão de genes que contém um elemento responsivo a andrógenos (ARE) em sua região de promotor (REF), mas também que aquela de genes ARE, regulados pelo formador, conforme representado por um conjunto de genes composto por 142 genes, que pode separar tumor PCa de tecidos normais. O prognóstico de doença PCa fatal também foi recentemente aprimorado por uma assinatura gênica 157.However, while such early diagnosis based on PSA levels and Gleason score parameters provide an opportunity to cure men with organ-confined disease, up to 30% of men who undergo radical prostatectomy as therapy for such tumors will ultimately present. relapse analysis, probably as a result of latent micro-metastatic disease present at the time of surgery. Furthermore, these parameters are not prognostic in a significant fraction of patients, especially if the Gleason score is an intermediate grade (i.e., a score of 7), which highlights the need for other markers to improve the effectiveness of therapeutic interventions. Gleason's scoring system is based on microscopic tumor patterns that are measured by the pathologist, based on a prostate biopsy. The pathologist examines the sample and attempts to check two scores: one primary grade represents the visible majority of the tumor sample; and a secondary grade that refers to the minority of visible tumor patterns. These scores are then added to get the final Gleason score. Thus, this classification system based on biological samples is not an exact science, it is evidently subjective in nature, and results for a single biopsy sample read by two different pathologists may differ from each other. Therefore, a critical issue in treating men with prostate cancer is to improve the risk stratification of patients with intermediate risk disease. Although serum PSA levels and Gleason scores remain the most important variables to predict disease behavior and can successfully differentiate between men with low, intermediate, and high risk of tumor recurrence following local therapy, these measures are less successful. in helping to conduct therapy for most men who are in the intermediate risk group. The advent of the oligoarrangement and cDNA methodology led to the generation of differential gene expression profiles that allowed better discrimination between good and poor prognosis. A recent example has been provided by a study showing that the androgen response not only depends on the expression of genes that contain an androgen responsive element (ARE) in its promoter region (REF), but also that that of ARE genes, regulated by the trainer, as represented by a gene pool comprised of 142 genes, which can separate tumor PCa from normal tissues. The prognosis of fatal PCa disease has also recently been enhanced by a gene signature 157.

Altemativamente, o projeto Human Câncer Genome “Genoma de Câncer Humano) que provê uma cobertura de aproximadamente 80% do transcritoma, revelou que uma fração insignificante de transcritos não é traduzido em proteína. Uma vez que cada região de DNA dá origem a uma média de seis transcritos, somente um deles é traduzido, utilizando-se micro-arranjos de material intrônico e selecionando-se, entre outros, marcadores candidatos de câncer prostático, pode ser gerado um padrão de expressão gênica entre diversos tumores distintos e suas contrapartes teciduais normais.Alternatively, the Human Cancer Genome project, which provides approximately 80% coverage of the transcriptome, revealed that an insignificant fraction of transcripts is not translated into protein. Since each region of DNA yields an average of six transcripts, only one of them is translated using microarray of intronic material and selecting, among others, candidate markers of prostate cancer, a pattern can be generated. of gene expression between several distinct tumors and their normal tissue counterparts.

Porém, esses tipos de análises, embora de grande importância biológica, também são muito incômodos para serem introduzidos na prática clínica urológica e, portanto são necessários outros métodos a fim de refinar a gestão do câncer prostático. Desse modo, subsiste uma necessidade por métodos de alta-resolução, precisos e eficientes para classificação de câncer de próstata e prognóstico de resultados de câncer de próstata em um contexto clínico.However, these types of analyzes, although of great biological importance, are also too cumbersome to be introduced into clinical urological practice and therefore other methods are needed to refine the management of prostate cancer. Thus, there remains a need for high-resolution, accurate and efficient methods for prostate cancer classification and prognosis of prostate cancer outcomes in a clinical context.

SUMÁRIO DA INVENÇÃOSUMMARY OF THE INVENTION

Para solucionar essas limitações acima descritas, e para prover um método preditivo diferente e mais sensível, a presente invenção baseia-se em uma estratégia completamente diferente utilizando-se métodos matemáticos e estatísticos de classificação. Em muitos exemplos, a classificação tradicional de uma amostra por um indivíduo em classes particulares de doenças provou ser difícil, incorreta ou equivocada, pois a classificação depende de um indivíduo e da habilidade variável para discernir visualmente distinções biológicas entre célula ou amostras teciduais. Além disso, em métodos tradicionais tais como análises histoquímicas, imunofenotipagem, e análises citogênicas apenas uma ou duas características da amostra são analisadas para determinar a classificação de amostra. A presente invenção, porém, é um método preditivo de classificação de uma amostra biológica de acordo com um resultado fenotípico mais ou menos provável baseado em padrões de expressão gênica latente decidido por modelagem sinergística, matemática objetiva.To overcome these limitations described above, and to provide a different and more sensitive predictive method, the present invention is based on a completely different strategy using mathematical and statistical classification methods. In many instances, an individual's traditional classification of a sample into particular classes of disease has proved difficult, incorrect, or misleading, because classification depends on an individual and the variable ability to visually discern biological distinctions between cell or tissue samples. Furthermore, in traditional methods such as histochemical analysis, immunophenotyping, and cytogenetic analysis only one or two sample characteristics are analyzed to determine the sample classification. The present invention, however, is a predictive method of classifying a biological sample according to a more or less likely phenotypic result based on latent gene expression patterns decided by objective mathematical, synergistic modeling.

Concretizações específicas da presente invenção são aqui descritas. Porém, naturalmente que as concretizações descritas são meramente ilustrativas da invenção que pode ser concretizada de várias formas.Specific embodiments of the present invention are described herein. However, of course the embodiments described are merely illustrative of the invention which may be embodied in various ways.

Em uma concretização, um método preditivo de classificação de uma amostra biológica latente de acordo com um resultado fenotípico mais ou menos provável inclui: (a) seleção de um resultado fenotípico; obtenção de uma coleta de dados moleculares primários a partir de uma população de sujeitos existente como classes latentes A e B que apresentam um conjunto de características moleculares distintas, e um tópico de classe latente A exibe o resultado fenotípico selecionado e um tópico de classe latente B não; (b) aproximação de uma distribuição posterior de frequências de dados moleculares a cada sujeito na população; (c) construção de duas frequências de dados composicionais independentes para cada molécula na coleta de dados de acordo com as classes latentes A ou B; (d) comparação das frequências de dados composicionais de classes latentes A e B para cada molécula e seleção das moléculas de resolução o mais diferenciadas em um pequeno classificador, de alta qualidade; (e) aumento de resolução do pequeno classificador de alta qualidade através da integração das frequências de dados composicionais das moléculas de resolução o mais diferenciada em um par de densidades de probabilidade inultivariada, marginais de acordo com as classes latentes A ou B; (f) cálculo de uma densidade de probabilidade multivariada para uma amostra biológica latente de acordo com o classificador pequeno, de alta qualidade; e (g) classificação da amostra biológica para um resultado fenotípico mais ou menos provável através da comparação da densidade multivariada de amostra do par de densidades marginais.In one embodiment, a predictive method of classifying a latent biological sample according to a more or less likely phenotypic outcome includes: (a) selecting a phenotypic outcome; obtaining a collection of primary molecular data from an existing population of subjects such as latent classes A and B that have a set of distinct molecular characteristics, and a latent class A topic displays the selected phenotypic result and a latent class B topic. not; (b) approximation of a later distribution of molecular data frequencies to each subject in the population; (c) constructing two independent compositional data frequencies for each molecule in data collection according to latent classes A or B; (d) comparing the latent class A and B compositional data frequencies for each molecule and selecting the most differentiated resolution molecules in a small, high-quality classifier; (e) increasing the resolution of the high quality small classifier by integrating the compositional data frequencies of the most differentiated resolution molecules into a pair of marginal multicultural probability densities according to latent classes A or B; (f) calculating a multivariate probability density for a latent biological sample according to the small, high quality classifier; and (g) classifying the biological sample for a more or less likely phenotypic result by comparing the multivariate sample density of the marginal density pair.

Em uma concretização, um método preditivo de classificação de um estado alternativo de doença de acordo com um prognóstico mais ou menos favorável inclui: obtenção de uma coleta de dados primária; geração estatística de um pequeno classificador de alta resolução a partir dos dados primários; e uso do classificador em um contexto clínico para prover um diagnóstico diferencial da doença.In one embodiment, a predictive method of classifying an alternative disease state according to a more or less favorable prognosis includes: obtaining a primary data collection; statistical generation of a small high resolution classifier from primary data; and use of the classifier in a clinical context to provide a differential diagnosis of the disease.

Em uma concretização, um método preditivo de classificação de câncer de próstata de estágio de Gleason 7 de acordo com uma reincidência mais ou menos provável inclui: (a) extração de mRNA de uma população de sujeitos de estágio de Gleason 7 existente como classes A e B recidivante latentes ou não-recidivantes que apresentam um conjunto de características moleculares distintas e geração de bancos de cDNA marcados por investigações específicas a pacientes individuais; (b) sequenciamento qualitativo dos bancos de cDNA como lote de alto desempenho e de-convolução dos resultados de sequenciamento com base em marcações paciente-específicas; (c) aproximação de uma distribuição posterior de frequências de dados moleculares para cada sujeito, sob uma priori não informativa de Jeffrey, através de uma distribuição normal logística; (d) construção de duas densidades de probabilidade de grupo independente para cada gene na coleta de dados de acordo com as classes latentes A ou B; (e) comparação das densidades de probabilidade de grupo de classes latentes A e B para cada gene, distribuição de cada gene diferencialmente ou de forma idêntica de acordo com essas densidades de probabilidade e seleção dos genes de resolução o mais diferenciada em um classificador pequeno, de alta qualidade; (f) aumento de resoluções do classificador pequeno de alta qualidade através da integração das densidades de probabilidade de grupo dos genes de resolução o mais diferenciada em um par de densidades de probabilidade multivariada, marginais e correspondência de vetores do log da razão de probabilidade de acordo com classes latentes A ou B; (g) cálculo de uma densidade de probabilidade multivariada para uma próximo paciente de estágio de Gleason 7 de acordo com os genes que são membros do pequeno classificador de alta qualidade; (h) classificação em um contexto clínico do próximo paciente de estágio de Gleason 7 de acordo com uma reincidência mais ou menos provável recorrendo aos pares de densidades de probabilidade de grupo marginais.In one embodiment, a predictive method of classifying Gleason 7 stage prostate cancer according to a more or less likely recurrence includes: (a) mRNA extraction from an existing Gleason 7 stage subject population as classes A and B latent or non-relapsing relapses that have a distinct set of molecular characteristics and generation of cDNA banks marked by individual patient-specific investigations; (b) qualitative sequencing of cDNA pools as high performance batch and convolution of sequencing results based on patient-specific markings; (c) approximation of a later distribution of molecular data frequencies for each subject under a non-informative Jeffrey priori through a logistic normal distribution; (d) constructing two independent group probability densities for each gene in data collection according to latent classes A or B; (e) comparing the probability densities of latent class group A and B for each gene, distributing each gene differentially or identically according to these probability densities and selecting the most differentiated resolution genes in a small classifier, high-quality; (f) increasing high-quality small classifier resolutions by integrating the group probability densities of the most differentiated-resolution genes into a pair of multivariate, marginal probability densities, and likelihood ratio log vector matching with latent classes A or B; (g) calculating a multivariate probability density for a next Gleason stage 7 patient according to the genes that are members of the small high-quality classifier; (h) classification in a clinical context of the next Gleason stage 7 patient according to a more or less likely recurrence using the marginal group probability density pairs.

BREVE DESCRIÇÃO DOS DESENHOSBRIEF DESCRIPTION OF DRAWINGS

Figuras la—Id - ilustram a capacidade discriminatória de níveis de expressão simples e ajustados.Figures la — Id — illustrate the discriminatory capacity of simple and adjusted expression levels.

Figura 2 ilustra um plateau de valor preditivo de 99% que se inicia com um conjunto de seis genes (6).Figure 2 illustrates a 99% predictive plateau that starts with a set of six genes (6).

DESCRIÇÃO DETALHADA A presente invenção é descrita detalhadamente abaixo em conexão com algumas concretizações para fins de ilustração somente. Ao versado na técnica será imediatamente perceptível modificações para concretizações particulares dentro do espírito e escopo da presente invenção, conforme indicado nas reivindicações anexas. A presente invenção permite o uso de seus conceitos com amplas variações de resultados de evento, dados moleculares, métodos matemáticos e estatísticos, e classificadores. Podem existir também variações nos métodos da produção industrial dos classificadores, e seus usos em contextos clínicos.DETAILED DESCRIPTION The present invention is described in detail below in connection with some embodiments for illustration purposes only. Those skilled in the art will readily appreciate modifications to particular embodiments within the spirit and scope of the present invention as set forth in the appended claims. The present invention allows the use of its concepts with wide variations of event results, molecular data, mathematical and statistical methods, and classifiers. There may also be variations in the methods of industrial production of the classifiers, and their uses in clinical contexts.

Em geral, a presente invenção refere-se a métodos para classificação de uma amostra biológica com relação a um resultado fenotípico previsto de acordo com os perfis de dados moleculares latentes da amostra Resultados Fenotípicos Conforme aqui usado, um “resultado fenotípico” de acordo com a presente invenção refere-se a qualquer característica biológica observável ou traços que resultam da expressão de um dado molecular do organismo, da influência de fatores ambientais e/ou interações entre dados moleculares e o meio ambiente.In general, the present invention relates to methods for classifying a biological sample with respect to a predicted phenotypic result according to the latent molecular data profiles of the sample. Phenotypic Results As used herein, a "phenotypic result" according to The present invention relates to any observable biological trait or trait resulting from the expression of a given molecular organism, the influence of environmental factors and / or interactions between molecular data and the environment.

Em uma concretização, um resultado fenotípico de acordo dom a presente invenção é uma propriedade morfológica, de desenvolvimento, bioquímica ou fisiológica; um comportamento ou um produto de comportamento; ou combinações destes. Em uma concretização, um resultado fenotípico é um prognóstico mais ou menos provável com relação a um estado de doença alternativo. Em uma concretização, o estado de doença alternativo é um câncer de estágio intennediário. Em uma concretização, o estado de doença alternativo é um câncer de próstata de estágio de Gleason 7. Em uma concretização, o resultado fenotípico é uma reincidência mais ou menos provável.In one embodiment, a phenotypic result according to the present invention is a morphological, developmental, biochemical or physiological property; a behavior or a product of behavior; or combinations thereof. In one embodiment, a phenotypic outcome is a more or less likely prognosis with respect to an alternative disease state. In one embodiment, the alternative disease state is a mid-stage cancer. In one embodiment, the alternative disease state is a Gleason 7 stage prostate cancer. In one embodiment, the phenotypic outcome is a more or less likely recurrence.

Dados Moleculares Conforme aqui usado, “dados moleculares” de acordo com a presente invenção referem-se a qualquer característica quantificável latente expressa com relação à formação, estrutura e/ou função de ácidos nucléicos, peptídeos, e outras macromoléculas essenciais à vida.Molecular Data As used herein, "molecular data" according to the present invention refers to any latent quantifiable characteristic expressed with respect to the formation, structure and / or function of nucleic acids, peptides, and other life-critical macromolecules.

Em uma concretização, dados moleculares de acordo com a presente invenção são coletados a partir de um transcriptoma, genoma, proteoma, ou combinação destes, o dado molecular é coletado a partir de um interactoma. Em uma concretização, o dado molecular é mRNA. Em uma concretização, o dado molecular gera bancos de cDNA. Em uma concretização, os bancos de cDNA são qualitativamente sequenciados como um lote de alto desempenho. Em uma concretização, o dado molecular é coletado após a de-convolução dos resultados de sequenciamento de lote de alto desempenho. Métodos matemáticos c estatísticos Conforme aqui usado, métodos “matemáticos” e “estatísticos” de acordo com a presente invenção referem-se a qualquer método descritivo ou inferencial de acesso a dados com relação à sua medição, propriedades, padrões e/ou relações de quantidades e conjuntos, utilizando-se números e símbolos.In one embodiment, molecular data according to the present invention is collected from a transcriptome, genome, proteome, or combination thereof, molecular data is collected from an interactome. In one embodiment, the molecular data is mRNA. In one embodiment, the molecular data generates cDNA banks. In one embodiment, cDNA pools are qualitatively sequenced as a high performance batch. In one embodiment, the molecular data is collected after the high performance batch sequencing results are convoluted. Mathematical and statistical methods As used herein, "mathematical" and "statistical" methods according to the present invention refer to any descriptive or inferential method of accessing data with respect to its measurement, properties, patterns and / or quantity ratios. and sets using numbers and symbols.

Em uma concretização, métodos matemáticos e estatísticos de acordo com a presente invenção incluem avaliação numérica e/ou simbólica de dados para resolver probabilidades de resultados alternativos. Em uma concretização, os métodos matemáticos e estatísticos usam dados para atualizar as incertezas de modelos de probabilidade concorrentes. Em uma concretização, os métodos matemáticos e estatísticos determinam parâmetros de modelo, variáveis desconhecidas de prognóstico e/ou seleção de modelo de competência.In one embodiment, mathematical and statistical methods according to the present invention include numerical and / or symbolic evaluation of data to solve probabilities of alternative outcomes. In one embodiment, mathematical and statistical methods use data to update the uncertainties of competing probability models. In one embodiment, mathematical and statistical methods determine model parameters, unknown prognostic variables, and / or competency model selection.

Em uma concretização, métodos matemáticos e estatísticos de acordo com a presente invenção requerem a formulação de um conjunto de distribuições de probabilidade anteriores c posteriores para quaisquer parâmetros desconhecidos. Em uma concretização, a probabilidade anterior ou posterior de um evento randômico ou de uma proposição incerta é a probabilidade condicional que é atribuída após a evidência relevante ser levada em conta. Em uma concretização, a distribuição de probabilidade anterior e posterior é a distribuição de uma quantidade desconhecida, tratada como uma variável randômica, condicional dos dados coletados.In one embodiment, mathematical and statistical methods according to the present invention require the formulation of a set of earlier and later probability distributions for any unknown parameters. In one embodiment, the before or after probability of a random event or uncertain proposition is the conditional probability that is assigned after the relevant evidence is taken into account. In one embodiment, the anterior and posterior probability distribution is the distribution of an unknown quantity, treated as a random variable, conditional on the collected data.

Em uma concretização, métodos matemáticos e estatísticos de acordo com a presente invenção incluem avaliação de dados coletados a partir de uma população de sujeitos. Em uma concretização, os métodos incluem aproximação de uma distribuição posterior de frequências de dados moleculares para cada sujeito. Em uma concretização, a distribuição posterior de frequências moleculares é aproximada através de uma distribuição normal logística, logit, logits, probit, função logística, regressão logística, log, log-odds (logaritmo de probabilidades), uma distribuição logit-normal, ou equivalentes destes. Em uma concretização, a aproximação de uma distribuição posterior de frequências moleculares inclui um priori não-informativo de Jeffrey. Em uma concretização, a distribuição posterior de frequências moleculares é aproximada através de uma distribuição normal logística. Em uma concretização, um vetor de log da razão de probabilidades correspondente à distribuição normal logística, apresenta uma distribuição normal assimptótica multivariada com meios e matriz de covariância totalmente determinada pelo uso de funções digama e trigama. Em uma concretização, a distribuição posterior de frequências de dados moleculares para cada sujeito é também reavaliada através de uma probabilidade sinergística Bayesiana, probabilidade condicional, probabilidade posterior, ou equivalentes destes. Em uma concretização, a distribuição posterior de frequências de dados moleculares para cada sujeito é uma densidade normal multivariada.In one embodiment, mathematical and statistical methods according to the present invention include evaluation of data collected from a subject population. In one embodiment, the methods include approximation of a later distribution of molecular data frequencies for each subject. In one embodiment, the subsequent distribution of molecular frequencies is approximated by a logistic normal distribution, logit, logits, probit, logistic function, logistic regression, log, log-odds, a logit-normal distribution, or equivalents. of these. In one embodiment, the approximation of a later distribution of molecular frequencies includes a non-informative Jeffrey priori. In one embodiment, the subsequent distribution of molecular frequencies is approximated by a normal logistic distribution. In one embodiment, a log vector of the odds ratio corresponding to the logistic normal distribution has a multivariate asymptotic normal distribution with means and covariance matrix fully determined by the use of digama and trigama functions. In one embodiment, the further distribution of molecular data frequencies for each subject is also reassessed through a Bayesian synergistic probability, conditional probability, later probability, or equivalents thereof. In one embodiment, the subsequent distribution of molecular data frequencies for each subject is a normal multivariate density.

Em uma concretização, após o cálculo de cada densidade multivariada de sujeito, os métodos matemáticos e estatísticos da presente invenção incluem a construção de frequências de dados composicionais. Em uma concretização, as frequências de dados composicionais são densidades de probabilidade de grupo, densidades de probabilidade conjuntas, densidades multivariadas ou equivalentes destes. Em uma concretização, a frequência de dados composicionais é uma densidade de probabilidade de grupo. Em uma concretização, o vetor de log da razão de probabilidades correspondente a uma densidade de probabilidade de grupo apresenta uma distribuição normal multivariada assimptótica com meios e matriz de covariância totalmente determinada pelo uso de funções digama e trigama. Em uma concretização, as frequências de dados composicionais são também reavaliadas através de uma probabilidade Bayesiana sinergística, probabilidade condicional, probabilidade posterior ou equivalentes destes.In one embodiment, after calculating each multivariate subject density, the mathematical and statistical methods of the present invention include the construction of compositional data frequencies. In one embodiment, compositional data frequencies are group probability densities, joint probability densities, multivariate densities, or equivalents thereof. In one embodiment, the frequency of compositional data is a group probability density. In one embodiment, the probability ratio log vector corresponding to a group probability density has an asymptotic multivariate normal distribution with means and covariance matrix fully determined by the use of digama and trigama functions. In one embodiment, the frequencies of compositional data are also reevaluated by a synergistic Bayesian probability, conditional probability, later probability, or equivalents thereof.

Em uma concretização, os dados moleculares da presente invenção incluem subconjuntos. Em uma concretização, duas frequências de dados composicionais independentes são construídas para cada subconjunto nos dados moleculares. Em uma concretização, cada subconjunto é distribuído diferencialmente ou de forma idêntica, de acordo com as frequências de dados composicionais independentes, determinando seu valor preditivo. Em uma concretização, o valor preditivo é uma probabilidade próxima a zero ou um. Em uma concretização, uma probabilidade próxima a um significa que os dados moleculares são mais expressos em subconjunto em relação aos outros, e sendo que uma probabilidade próxima a zero significa que os dados moleculares são menos expressos em um subconjunto em relação aos outros.In one embodiment, the molecular data of the present invention include subsets. In one embodiment, two independent compositional data frequencies are constructed for each subset in the molecular data. In one embodiment, each subset is differentially or identically distributed according to the frequencies of independent compositional data, determining its predictive value. In one embodiment, the predictive value is a near zero or one probability. In one embodiment, a near-one probability means that molecular data is more expressed in subset relative to the others, and a near-zero probability means that molecular data is less expressed in a subset relative to the others.

Em uma concretização, métodos matemáticos e estatísticos de acordo com a presente invenção incluem uma análise de componente principal (AGP), um procedimento matemático que utiliza uma transformação ortogonal para converter um conjunto de dados de variáveis possivelmente correlacionadas em um conjunto de valores de variáveis não correlacionadas chamados componentes principais (k). O número de componentes principais k é inferior ou igual ao número de variáveis originais. Essa transformação é definida de tal forma que o primeiro componente principal k apresenta uma variância o mais elevada possível (i.e., responsável o máximo possível pela variabilidade nos dados), e cada componente subsequente por sua vez apresenta a variância máxima possível sob a restrição de ser ortogonal em relação ou não correlacionado com os componentes precedentes. Componentes principais são garantidamente independentes se o conjunto de dados for distribuído normalmente conjuntamente. ACP é sensível à graduação relativa das variáveis originais.In one embodiment, mathematical and statistical methods according to the present invention include a principal component analysis (AGP), a mathematical procedure that uses an orthogonal transformation to convert a possibly correlated variable data set into a non-variable variable value set. correlations called principal components (k). The number of major components k is less than or equal to the number of original variables. This transformation is defined such that the first major component k has the highest possible variance (ie, as responsible for the variability in the data as possible), and each subsequent component in turn has the maximum possible variance under the constraint of being. orthogonal in relation to or not correlated with the preceding components. Core components are guaranteed to be independent if the data set is normally distributed together. ACP is sensitive to the relative grading of the original variables.

Em uma concretização, a densidade normal multivariada individual para cada sujeito é considerada um vetor de log de probabilidades com relação a uma análise de componente principal. Em uma concretização, a soma dos últimos componentes k subtraídos da soma dos primeiros componentes k resulta em uma pontuação para cada sujeito. Em uma concretização, essa pontuação é uma combinação linear de variáveis normalmente distribuídas. Em uma concretização, a pontuação apresenta uma distribuição normal invariável com meio e variância conhecidos.In one embodiment, the individual multivariate normal density for each subject is considered a probability log vector with respect to a principal component analysis. In one embodiment, the sum of the last components k subtracted from the sum of the first components k results in a score for each subject. In one embodiment, this score is a linear combination of normally distributed variables. In one embodiment, the score has an invariable normal distribution with known medium and variance.

Em uma concretização, após a construção de densidades de probabilidade de grupo para cada subconjunto de dados moleculares, a mesma média ponderada de densidades de pontuação foi tirada dentro de cada grupo a fim de obter um par de densidades de pontuação de grupo à qual a pontuação de um próximo sujeito deve ser referida. Em uma concretização, o método matemático e estatístico para obter uma densidade de pontuação de grupo resulta da definição do sistema de pesagem que divide proporcionalmente as densidades multivariadas dos sujeitos no grupo. Em uma concretização, o peso para cada sujeito é o tamanho dos dados moleculares coletados do sujeito. Em uma concretização, sendo que o dado primário coletado é mRNA, o peso para cada sujeito é o peso do banco de cDNA do sujeito obtido em um processo de sequenciamento gênico. Em uma concretização, o método matemático e estatístico para obter densidades de pontuação de grupo apresenta conexões a uma meta-análise com constitui informação provida por cada sujeito gerador de dados. Em uma concretização, o sujeito gerador de dados gera uma densidade multivariada ponderada na construção de densidades de probabilidade de grupo ponderadas e densidades de pontuação de grupo ponderadas.In one embodiment, after constructing group probability densities for each subset of molecular data, the same weighted average score density was taken within each group to obtain a pair of group score densities to which the score was scored. of a next subject should be referred to. In one embodiment, the mathematical and statistical method for obtaining a group scoring density results from the definition of the weighing system that proportionally divides the multivariate densities of the subjects in the group. In one embodiment, the weight for each subject is the size of the molecular data collected from the subject. In one embodiment, with the primary data collected being mRNA, the weight for each subject is the weight of the subject's cDNA pool obtained in a gene sequencing process. In one embodiment, the mathematical and statistical method for obtaining group scoring densities presents connections to a meta-analysis with information provided by each data generating subject. In one embodiment, the data generating subject generates a weighted multivariate density in constructing weighted group probability densities and weighted group score densities.

Em uma concretização, o dado molecular é um dado genômico ou dado de ácido nucléico e as duas densidades de grupo independente permitem computar a probabilidade de que um gene é diferencialmente expresso entre dois subconjuntos de probabilidade de resultado alternativo. Em uma concretização, probabilidades de resultado são calculadas para todos os genes considerados e os genes são ordenados de acordo com esses valores de probabilidade. Em uma concretização, genes que apresentam expressão distinta entre subconjuntos possuem probabilidades próximas a zero ou a um. Em uma concretização, esses genes serão o foco de atenção na classificação ou diagnóstico de um próximo sujeito. Em uma concretização, é o mais desejado apresentar uma pontuação para a classificação ou diagnóstico de um próximo sujeito que leva em consideração genes que apresentam probabilidades extremas próximas a zero ou a um.In one embodiment, the molecular data is genomic data or nucleic acid data, and the two independent group densities allow us to compute the probability that a gene is differentially expressed between two subsets of alternative result probability. In one embodiment, outcome probabilities are calculated for all genes considered and the genes are ordered according to these probability values. In one embodiment, genes that display distinct expression between subsets have probabilities close to zero or one. In one embodiment, these genes will be the focus of attention in classifying or diagnosing a next subject. In one embodiment, it is most desirable to provide a score for the classification or diagnosis of a next subject that takes into account genes that have extreme probabilities close to zero or one.

Em uma concretização, os subconjuntos de probabilidade de resultado são caracterizados por um prognóstico mais ou menos favorável. Em uma concretização, os subconjuntos de probabilidade de resultado são caracterizados por recidivante e não-recidivante. Em uma concretização, um gene é mais ou menos expresso em um subconjunto recidivante e não-recidivante em relação aos outros.In one embodiment, the subsets of probability of outcome are characterized by a more or less favorable prognosis. In one embodiment, the subsets of probability of outcome are characterized by relapsing and non-relapsing. In one embodiment, a gene is more or less expressed in a relapsing and non-relapsing subset relative to the others.

Classificadores Conforme aqui usado, um “classificador” refere-se a qualquer conjunto pequeno de dados moleculares compreendendo os subconjuntos de resolução o mais diferenciada de acordo com a presente invenção.Classifiers As used herein, a "classifier" refers to any small set of molecular data comprising the most differentiated resolution subsets according to the present invention.

Em uma concretização, as frequências de dados composicionais de subconjuntos de dados moleculares latentes são comparados, e os subconjuntos de resolução o mais diferenciada são selecionados em um classificador pequeno de alta qualidade. Em uma concretização, a resolução do classificador pequeno, de alta qualidade é aumentada através da integração das frequências de dados composicionais das moléculas de resolução o mais diferenciada em um par de densidades de probabilidade multivariada marginais e correspondência a vetores de log de probabilidades. Em uma concretização, uma densidade de probabilidade multivariada para uma amostra biológica latente é calculada de acordo com o classificador pequeno de alta qualidade. Em uma concretização, a amostra biológica é classificada de acordo com um resultado fenotípico mais ou menos provável através da comparação da densidade multivariada de amostra com o par de densidade marginal. Em uma concretização, as densidades de probabilidade multivariadas marginais também são reavaliadas através de uma probabilidade Bayesiana sinergística, probabilidade condicional, probabilidade posterior, ou equivalentes destes. Em uma concretização, para um próximo sujeito, os subconjuntos moleculares latentes que são membros do classificador, são comparados com os pares de densidades de probabilidade de grupo marginais e pontuações, e o sujeito é classificado de acordo com um resultado fenotípico mais ou menos provável.In one embodiment, the compositional data frequencies of latent molecular data subsets are compared, and the most differentiated resolution subsets are selected from a high quality small classifier. In one embodiment, the resolution of the high quality small classifier is increased by integrating the compositional data frequencies of the most differentiated resolution molecules into a pair of marginal multivariate probability densities and matching log probability vectors. In one embodiment, a multivariate probability density for a latent biological sample is calculated according to the high quality small classifier. In one embodiment, the biological sample is classified according to a more or less likely phenotypic result by comparing the multivariate sample density with the marginal density pair. In one embodiment, marginal multivariate probability densities are also reassessed through a synergistic Bayesian probability, conditional probability, later probability, or equivalents thereof. In one embodiment, for a next subject, the latent molecular subsets that are members of the classifier are compared with the marginal group probability density pairs and scores, and the subject is classified according to a more or less likely phenotypic result.

Em uma concretização, um classificador pequeno de alta resolução, pequeno é estatisticamente gerado a partir dos dados primários coletados. Em uma concretização, o classificador é usado em um contexto clínico para prover um diagnóstico diferencial de doença. Em uma concretização, para um próximo sujeito, os valores de expressão de dados moleculares para os genes que são membros de um classifícador, são comparados com os pares de densidades de probabilidade de grupo marginais e pontuações, e o sujeito é classificado de acordo com um resultado mais ou menos provável ou prognóstico. Em uma concretização, o classifícador pequeno de alta resolução é usado em um contexto clínico. Em uma concretização, o classifícador é usado em um contexto clínico para classificar um próximo paciente de estágio de Gleason 7 de acordo com uma reincidência mais ou menos provável mediante referência aos pares de densidades de probabilidade de grupo marginais. Em uma concretização, o classifícador pequeno de alta qualidade inclui um gene único. Em uma concretização, o classifícador inclui de aproximadamente um a aproximadamente doze genes. Em uma concretização, o valor preditivo do classifícador é de aproximadamente 99%. Métodos preditivos Em uma concretização, a presente invenção refere-se a um método preditivo de classificação de uma amostra biológica latente de acordo com um resultado fenotípico mais ou menos provável, incluindo: (a) seleção de um resultado fenotípico; (b) obtenção de uma coleta de dados moleculares primários a partir de uma população de sujeitos existente como classes latentes A e B, que apresentam um conjunto de características moleculares distintas, sendo que um sujeito de classe latente A mostra o resultado fenotípico selecionado e um sujeito de classe latente B não; (c) aproximação de uma distribuição posterior de frequências de dados moleculares para cada sujeito na população; (d) construção de duas frequências de dados moleculares composicionais independentes para cada molécula na coleta de dados de acordo com as classes latentes A ou B; (d) comparação das frequências de dados composicionais de classes latentes A e B para cada molécula e seleção das moléculas de resolução o mais diferenciada em um classifícador pequeno, de alta qualidade; (e) aumento da resolução do classifícador pequeno, de alta qualidade através da integração das frequências de dados composicionais das moléculas de resolução o mais diferenciada em um par de densidades de probabilidade multivariada, marginais de acordo com as classes latentes A ou B; (f) cálculo de uma densidade de probabilidade multivariada para uma amostra biológica latente de acordo com o classifícador pequeno de alta qualidade; e (g) classificação da amostra biológica de acordo com um resultado fenotípico mais ou menos provável através da comparação da densidade multivariada de amostra com o par de densidades marginais.In one embodiment, a small, high resolution small classifier is statistically generated from the collected primary data. In one embodiment, the classifier is used in a clinical context to provide a differential diagnosis of disease. In one embodiment, for a next subject, molecular data expression values for genes that are members of a classifier are compared with the marginal group probability density pairs and scores, and the subject is classified according to a more or less likely outcome or prognosis. In one embodiment, the high resolution small classifier is used in a clinical context. In one embodiment, the classifier is used in a clinical context to classify a next Gleason stage 7 patient according to a more or less likely recurrence by reference to the marginal group probability density pairs. In one embodiment, the high quality small classifier includes a single gene. In one embodiment, the classifier includes from about one to about twelve genes. In one embodiment, the predictive value of the classifier is approximately 99%. Predictive Methods In one embodiment, the present invention relates to a predictive method of classifying a latent biological sample according to a more or less likely phenotypic result, including: (a) selecting a phenotypic result; (b) obtaining a collection of primary molecular data from a population of existing subjects such as latent classes A and B, which have a distinct set of molecular characteristics, and a latent class A subject shows the selected phenotypic result and a latent class subject B no; (c) approximation of a later distribution of molecular data frequencies for each subject in the population; (d) constructing two independent compositional molecular data frequencies for each molecule in the data collection according to latent classes A or B; (d) comparing the frequencies of latent class A and B compositional data for each molecule and selecting the most differentiated resolution molecules in a small, high quality classifier; (e) increasing the resolution of the small, high quality classifier by integrating the compositional data frequencies of the most differentiated resolution molecules into a pair of marginal multivariate probability densities according to latent classes A or B; (f) calculating a multivariate probability density for a latent biological sample according to the high quality small classifier; and (g) classifying the biological sample according to a more or less likely phenotypic result by comparing the multivariate sample density with the marginal density pair.

Em uma concretização, a presente invenção refere-se a um método preditivo de classificação de um estado de doença alternativo de acordo com um prognóstico mais ou menos favorável, incluindo: (a) obtenção de uma coleta de dados primários; (b) geração estatística de um classificador pequeno, de alta resolução a partir dos dados primários; e (c) utilização do classificador em um contexto clínico para prover um diagnóstico diferenciado da doença. Em uma concretização, o estado de doença alternativo existe como classes latentes A e B correspondente a um prognóstico mais ou menos favorável e as classes latentes apresentam um conjunto distinto de características moleculares. Em uma concretização, a coleta de dados primários inclui uma extração de mRNA a partir de dois grupos biologicamente distintos de pacientes correspondentes a classes latentes A e B, e uma geração de bancos de cDNA marcados por sondas específicas a pacientes individuais. Em uma concretização, a coleta de dados primários também inclui um sequenciamento qualitativo dos bancos de cDNA como um lote de alto-desempenho, e uma de-convolução de resultados de sequenciamento baseada nas marcações. Em uma concretização, o sequenciamento de lotes de alto-desempenho é um sequenciamento de assinaturas massivamente paralelo, sequenciamento polony, pirosequenciamento paralelizado, sequenciamento por corante terminador, sequenciamento de ligação, sequenciamento por semicondutores de íons, sequenciamento de nanoball de DNA, sequenciamento de molécula simples, sequenciamento de DNA por nanoporo, sequenciamento de hibridização, sequenciamento de Sanger microfluídico, ou equivalentes destes. Em uma concretização, densidades de probabilidade de grupo de classes latentes A e B são comparadas para cada gene, e os genes de resolução o mais diferenciada são selecionados em um classificador pequeno, de alta qualidade. Em uma concretização, a resolução do classificador pequeno, de alta qualidade é aumentada através da integração das densidades de probabilidade de grupo das moléculas de resolução o mais diferenciada em um par de densidades de probabilidade multivariada, marginais e correspondência a vetores de log de probabilidades de acordo com classes latentes A ou B. Em uma concretização, as densidades de probabilidade multivariada, marginais são também reavaliadas através de uma probabilidade Bayesiana sinergística, probabilidade condicional, probabilidade posterior, ou equivalentes destas. Em uma concretização para um paciente individual, os valores de expressão de cDNA para os genes que são membros do classificador são comparados com os pares de densidades de probabilidade de grupo marginais correspondentes a um prognóstico mais ou menos favorável.In one embodiment, the present invention relates to a predictive method of classifying an alternative disease state according to a more or less favorable prognosis, including: (a) obtaining a primary data collection; (b) statistical generation of a small, high resolution classifier from the primary data; and (c) use of the classifier in a clinical context to provide a differentiated diagnosis of the disease. In one embodiment, the alternative disease state exists as latent classes A and B corresponding to a more or less favorable prognosis, and latent classes exhibit a distinct set of molecular characteristics. In one embodiment, primary data collection includes an extraction of mRNA from two biologically distinct patient groups corresponding to latent classes A and B, and a generation of probe-labeled cDNA banks specific to individual patients. In one embodiment, primary data collection also includes a qualitative sequencing of cDNA pools as a high-performance batch, and a deconvolution of tag-based sequencing results. In one embodiment, high performance batch sequencing is a massively parallel signature sequencing, polony sequencing, parallelized pyrosequencing, terminator dye sequencing, binding sequencing, ion semiconductor sequencing, DNA nanoball sequencing, molecule sequencing. DNA, nanopore DNA sequencing, hybridization sequencing, microfluidic Sanger sequencing, or equivalents thereof. In one embodiment, latent class group probability densities A and B are compared for each gene, and the most differentiated resolution genes are selected from a small, high quality classifier. In one embodiment, the resolution of the high quality small classifier is increased by integrating the group probability densities of the most differentiated resolution molecules into a pair of multivariate, marginal probability densities and matching log probability vectors. according to latent classes A or B. In one embodiment, multivariate, marginal probability densities are also reassessed through a synergistic Bayesian probability, conditional probability, later probability, or equivalents thereof. In one embodiment for an individual patient, cDNA expression values for the genes that are members of the classifier are compared with the marginal group probability density pairs corresponding to a more or less favorable prognosis.

Conforme aqui descrito, padrões de expressão gênica em dois grupos de pacientes - pacientes de câncer de próstata com recidiva de estágio de Gleason 7 e pacientes de câncer de próstata não-recidiva de estágio de Gleason 7 - foram avaliados a fim de determinar se: (1) o cálculo de densidades de grupo independente permitiu computar a probabilidade de um gene ser diferencialmente expresso entre os grupos; e (2) se uma expressão diferencial está associada a um resultado clínico previsto (seja recidiva ou não-recidiva). Genes que apresentam expressão distinta entre grupos possuem probabilidades próximas a zero ou a um. e são integrados em um classifícador pequeno, de alta qualidade que será usado no diagnóstico clínico do próximo paciente de estágio de Gleason 7.As described herein, gene expression patterns in two patient groups - Gleason 7-stage relapse prostate cancer patients and Gleason 7-stage non-relapse prostate cancer patients - were evaluated to determine whether: ( 1) the calculation of independent group densities allowed us to compute the probability of a gene being differentially expressed between groups; and (2) whether a differential expression is associated with an expected clinical outcome (either relapse or non-relapse). Genes that have distinct expression between groups have probabilities close to zero or one. and are integrated into a small, high quality classifier that will be used in the clinical diagnosis of the next Gleason stage patient 7.

Com relação particularmente aos desenhos, que mostram algumas concretizações da presente invenção, aparece ilustrado nas figuras la-ld a capacidade discriminatório de um nível de expressão de gene simples (FIG. Ia), ou aquela dos níveis de expressão arranjados de quatro (FIG. lb), seis (FIG. lc), e doze genes (FIG. ld). Mais especificamente, a figura la ilustra o poder discriminatório de um nível de expressão de gene simples (RPL35); A figura lb mostra os níveis de expressão combinados de RPL35, RPS28, SRSF5, LOC100293090; a figura lc mostra RPL35, RPS28, C12orf57, PODXL, SRSF5, LOC100293090; e a figura ld ilustra a expressão arranjada de RPL35, RPS28, C12orf57, NFKBIZ, RPS15, UBA52, PNN, MTRNR2L10, SLC25A4, PODXL, SRSF5, e LOC 100293090. O corte nas figuras la-ld é definido como o valor no eixo-x que definiu a intercepção das duas densidades. Tomando a pontuação e corte juntos, a sensibilidade e especificidade obtidas com um conjunto de seis (6) genes foi de 100%e 82%, respectivamente. Este é um resultado significativo mesmo para uma pequena amostra (i.e21 pacientes). A figura 2 ilustra os valores preditivos dos níveis de expressão arranjados dos melhores conjuntos de genes com 1, 2, 4, 6, 8, 10 e 12 genes. Um conjunto de seis (6) genes indica 99% de probabilidade de o valor do conjunto composicional em pacientes que não apresentam recidiva (NR) ser superior em relação a pacientes que apresentaram recidiva (R). Assim sendo, um valor preditivo de 99% dos níveis de expressão arranjados de diversos genes atinge um patamar com seis genes (k = 3), e esse grupo de seis genes compreende um “conjunto composicional” que pode ser usado como ou dentro de um classifícador pequeno de alta resolução.Referring particularly to the drawings, which show some embodiments of the present invention, there is shown in Figures 1-1d the discriminatory ability of a single gene expression level (FIG. 1a), or that of the arranged expression levels of four (FIG. 1b), six (FIG. 1c), and twelve genes (FIG. 1d). More specifically, Figure 1a illustrates the discriminatory power of a single gene expression level (RPL35); Figure 1b shows the combined expression levels of RPL35, RPS28, SRSF5, LOC100293090; Figure 1c shows RPL35, RPS28, C12orf57, PODXL, SRSF5, LOC100293090; and FIGURE 1d illustrates the arranged expression of RPL35, RPS28, C12orf57, NFKBIZ, RPS15, UBA52, PNN, MTRNR2L10, SLC25A4, PODXL, SRSF5, and LOC 100293090. The cut-off in Figs. x which defined the interception of the two densities. Taking the score and cut together, the sensitivity and specificity obtained with a set of six (6) genes was 100% and 82%, respectively. This is a significant result even for a small sample (i.e21 patients). Figure 2 illustrates the predictive values of the arranged expression levels of the best gene sets with 1, 2, 4, 6, 8, 10, and 12 genes. A set of six (6) genes indicates a 99% probability that the value of the compositional set in patients with no relapse (NR) is higher than patients with relapse (R). Thus, a predictive value of 99% of the arranged expression levels of several genes reaches a plateau with six genes (k = 3), and this group of six genes comprises a “compositional set” that can be used as or within a single gene. high resolution small sorter.

Em uma concretização, a presente invenção refere-se a um método preditivo de classificação de câncer de próstata de estágio de Gleason 7 de acordo com uma reincidência mais ou menos provável, incluindo: (a) extração de mRNA de uma população de sujeitos de estágio Gleason 7 existente como classes recidivante latentes e nâo-recidivantes A e B, que apresentam um conjunto de características moleculares distintas e a geração de bancos de cDNA marcados por sondas específicas a pacientes individuais; (b) sequenciamento qualitativo do cDNA como um lote de alto desempenho, e a de-convolução dos resultados de sequenciamento com base nas marcações paciente-específicas; (c) aproximação de uma distribuição posterior de frequências de dados moleculares a cada sujeito, sob a priori não-informativa de Jeffrey, através de uma distribuição normal logística; (d) construção de duas densidades de probabilidade de grupo independente para cada gene na coleta de dados de acordo com classes latentes A ou B; (e) comparação das densidades de probabilidade de grupo de classes latentes A e B para cada gene, distribuição de cada gene diferencialmente ou de forma idêntica de acordo com essas densidades de probabilidade e seleção dos genes de resolução o mais diferenciada em um pequeno classificador de alta qualidade; (f) aumento da resolução do classificador pequeno, de alta qualidade através da integração das densidades de probabilidade de grupo dos genes de resolução o mais diferenciada em um par de densidades de probabilidade multivariadas, marginais e correspondência dos vetores de log da razão de probabilidades de acordo com classes latentes A ou B; (g) cálculo de uma densidade de probabilidade multivariada para um próximo paciente de estágio de Gleason 7 de acordo com os genes que são membros do classificador pequeno dc alta qualidade; e (h) classificação em um contexto clínico do paciente de estágio de 7 de acordo com uma reincidência mais ou menos provável por referência aos pares de densidades de probabilidade de grupo marginais.In one embodiment, the present invention relates to a predictive method of classifying Gleason 7 stage prostate cancer according to a more or less likely recurrence, including: (a) mRNA extraction from a stage subject population Gleason 7 exists as latent and non-relapsing relapsing classes A and B, which have a distinct set of molecular characteristics and the generation of individual patient-specific probe-labeled cDNA banks; (b) qualitative sequencing of cDNA as a high performance batch, and de-convolution of sequencing results based on patient-specific markings; (c) approximation of a later distribution of molecular data frequencies to each subject, under Jeffrey's non-informative a priori, through a normal logistic distribution; (d) constructing two independent group probability densities for each gene in data collection according to latent classes A or B; (e) comparison of the probability densities of latent class group A and B for each gene, distribution of each gene differentially or identically according to these probability densities and selection of the most differentiated resolution genes in a small classifier. high quality; (f) increasing the resolution of the small, high quality classifier by integrating the group probability densities of the most differentiated resolving genes into a pair of multivariate, marginal probability densities, and matching the probability probability ratio log vectors. according to latent classes A or B; (g) calculating a multivariate probability density for a next Gleason 7 stage patient according to the genes that are members of the small high-quality classifier; and (h) classification in a clinical context of the stage 7 patient according to a more or less likely recurrence by reference to the marginal group probability density pairs.

Em uma concretização, os genes que apresentam expressão distinta entre classes latentes A e B possuem probabilidades próximas a zero ou a um. Em uma concretização, uma probabilidade próxima a um significa que o gene é mais expresso em uma classe latente em relação às outras e uma probabilidade próxima a zero significa que o gene é menos expresso em uma classe latente com relação às outras. Em uma concretização, o classificador pequeno de alta-qualidade compreende um gene simples. Em uma concretização, o gene simples é RPL35. Em uma concretização, o gene simples é SRSF5. Em uma concretização, o classificador compreende de aproximadamente um a aproximadamente doze genes. Em uma concretização, o classificador compreende: RPL35, RPS28, SRSF5, e LOC100293090. Em uma concretização o classificador compreende: RPL35, RPS28, C12orf57, PODXL, SRSF5, e LOC100293090. Em uma concretização o classificador compreende: RPL35, RPS28, C12orf57, NFKBIZ, RPS15, UBA52, PNN, MTRNR2L10, SLC25A4, PODXL, SRSF5, e LOC 100293090. Em uma concretização o valor preditivo do classificador é de aproximadamente 99%. Em uma concretização, o classificador é adequado para uso diagnóstico em um contexto clínico.In one embodiment, genes that have distinct expression between latent classes A and B have probabilities close to zero or one. In one embodiment, a near-one probability means that the gene is more expressed in one latent class than the others and a near-zero probability means that the gene is less expressed in one latent class than the others. In one embodiment, the high quality small classifier comprises a single gene. In one embodiment, the single gene is RPL35. In one embodiment, the single gene is SRSF5. In one embodiment, the classifier comprises from about one to about twelve genes. In one embodiment, the classifier comprises: RPL35, RPS28, SRSF5, and LOC100293090. In one embodiment the classifier comprises: RPL35, RPS28, C12orf57, PODXL, SRSF5, and LOC100293090. In one embodiment the classifier comprises: RPL35, RPS28, C12orf57, NFKBIZ, RPS15, UBA52, PNN, MTRNR2L10, SLC25A4, PODXL, SRSF5. In one embodiment the predictive value of the classifier is approximately 99%. In one embodiment, the classifier is suitable for diagnostic use in a clinical context.

EXEMPLOS Câncer de próstata estágio de Gleason 7 Tumores de estágio de Gleason 7 exibem grande heterogeneidade morfológica com diferentes regiões, ou foco, apresentando padrão de Gleason de grau 3 ou um padrão de Gleason de grau superior. O resultado da doença depende da proporção dos diferentes padrões de Gleason encontrados no tumor do paciente.EXAMPLES Gleason 7 Stage Prostate Cancer Gleason 7 stage tumors exhibit great morphological heterogeneity with different regions, or focus, presenting with grade 3 Gleason pattern or higher grade Gleason pattern. The outcome of the disease depends on the proportion of the different Gleason patterns found in the patient's tumor.

Trabalhando-se sob o pressuposto de que o número de sequências gênicas é proporcional à concentração dos transcritos gênicos no grupo total de mRNA de uma determinada amostra, foi anteriormente desenvolvido um método adequado para avaliação estrutural, quantitativa e qualitativa de tmascriptomas complexos utilizando-se uma mistura de bancos de cDNA marcados gerados a partir de linhagens celulares de câncer de mama normais e imortalizadas. Esse método, incluindo sequenciamento de alto desempenho, permitiu identificar do espécime a partir da qual cada sequência é originada para ser obtida digitalmente, enquanto um perfil gênico diferencial também é obtido para cada linhagem celular. O sequenciamento de alto desempenho pode prover uma quantificação mais consistente de expressão gênica e assim um melhor estabelecimento de perfil de expressão diferencial em relação à metologia de arranjo somente.Working on the assumption that the number of gene sequences is proportional to the concentration of gene transcripts in the total mRNA group of a given sample, a suitable method for the structural, quantitative and qualitative evaluation of complex tmascriptomas has previously been developed. mix of labeled cDNA pools generated from normal and immortalized breast cancer cell lines. This method, including high performance sequencing, allowed us to identify the specimen from which each sequence originates to be digitally obtained, while a differential gene profile is also obtained for each cell line. High performance sequencing can provide a more consistent quantification of gene expression and thus a better differential expression profiling compared to the array methodology only.

Para então buscar marcadores de prognóstico que possam distinguir entre pacientes de câncer de próstata recidivos e não recidivos com pontuação de Gleason 7, o método acima foi combinado com uma nova análise estatística sofisticada.To then look for prognostic markers that can distinguish between relapsing and non-relapsing prostate cancer patients with Gleason score 7, the above method was combined with a new sophisticated statistical analysis.

Bancos de cDNA marcados foram preparados a partir de amostras dissecadas a laser obtidas a partir de vinte e um (21) pacientes de câncer de próstata com de Gleason 7 durante cirurgia e submetidos à sequenciamento de alto desempenho. Um total de 868.554 sequências foram obtidas completas com 5’e 3’ primers finais e as seis marcações com seis nucleotídeos de comprimento. Após identificação das marcações para cada paciente, dois conjuntos de pacientes foram estabelecidos — onze pacientes (11) de Gleason 7 com recorrência bioquímica, e dez (10) pacientes de grau de Gleason 7 sem recorrência bioquímica - sendo que cada paciente apresenta um conjunto de frequências gênicas. A expressão gênica foi registrada para cada paciente, resultando em um total de 659.353 sequências que representam 11.955 genes depositados em uma base de dados RefSeq.Labeled cDNA banks were prepared from laser-dissected specimens obtained from twenty-one (21) Gleason 7 prostate cancer patients during surgery and submitted to high-performance sequencing. A total of 868,554 sequences were obtained complete with final 5 'and 3' primers and six labels with six nucleotides in length. After identifying the markings for each patient, two patient sets were established - eleven (11) Gleason 7 patients with biochemical recurrence, and ten (10) Gleason 7 grade patients without biochemical recurrence - each patient presenting a set of gene frequencies. Gene expression was recorded for each patient, resulting in a total of 659,353 sequences representing 11,955 genes deposited in a RefSeq database.

Subsequentemente, para cada paciente sob a prior não-informativa de Jeffrey, a distribuição posterior de frequências gênicas é aproximada através de uma distribuição normal logística. Desse modo, o vetor dolog da razão de probabilidades apresenta uma distribuição normal multivariada assimptótica com meios e matriz de covariância totalmente determinados pelo uso de funções digama e trigama. Após o cálculo de cada densidade multivariada do paciente, foi construído um par de densidades de grupo independente para cada um dos genes. Tomando o mesmo peso médio de densidades de pontuação individual dentro de cada grupo (o tamanho de um banco corresponde ao seu peso), obteve-se o par de densidades de pontuação de grupo para o qual a pontuação do próximo paciente teve que ser indicada. Uma definição operacional da pontuação foi, portanto, o ponto no eixo-x no qual as densidades interceptaram. A escolha do valor k é justificada pelo fato de o valor de k aumentar, o poder da pontuação da expressão diferencial também deve aumentar. O método matemático e estatístico para obter uma densidade de grupo, portanto resulta da definição do sistema de pesagem que divide proporcionalmente as densidades dos pacientes no grupo: o peso de cada paciente é o tamanho do banco do paciente obtido no processo de sequenciamento de genes. Assim sendo, esse procedimento apresenta conexões a uma meta-análise que constitui informação fornecida por cada paciente do grupo.Subsequently, for each patient under Jeffrey's noninformative prior, the subsequent distribution of gene frequencies is approximated through a normal logistic distribution. Thus, the dolog vector of the odds ratio presents an asymptotic multivariate normal distribution with means and covariance matrix totally determined by the use of digama and trigama functions. After calculating each patient's multivariate density, a pair of independent group densities was constructed for each of the genes. Taking the same average weight of individual scoring densities within each group (the size of a bank corresponds to its weight), we obtained the pair of scoring densities for which the next patient's score had to be indicated. An operational definition of the score was therefore the point on the x-axis at which densities intersected. The choice of the k value is justified by the fact that the value of k increases, the power of differential expression scoring must also increase. The mathematical and statistical method for obtaining group density therefore results from the definition of the weighing system that proportionally divides the patient densities into the group: each patient's weight is the size of the patient bank obtained in the gene sequencing process. Thus, this procedure presents connections to a meta-analysis that constitutes information provided by each patient in the group.

As duas densidades de grupo independente permitem computar a probabilidade de um gene ser expresso no grupo que não apresente reincidência. Tais probabilidades para todos os genes considerados foram computadas e os genes foram ordenados de acordo com esses valores de probabilidade. Os genes que apresentam expressão distinta entre grupos recidivante e não-recidivante possuem probabilidades próximas a zero ou a um: uma probabilidade próxima a um no caso de câncer de próstata de Gleason 7 significa que o gene é mais expresso neste grupo em relação aos outros; e uma probabilidade próxima a zero significa que o gene é diferencialmente menos expresso. Portanto, ao invés de um procedimento de gene um-por-um para classificar um paciente, a presente invenção provê uma composição de gene pequena, de alta resolução de genes expressos o mais diferencialmente. Esses genes serão o foco de atenção na avaliação prognostica do próximo paciente de Gleason 7. Além disso, ao tomar uma composição da distribuição do log de probabilidades multivariada a presente invenção também leva em consideração a possível dependência de expressão entre os genes.The two independent group densities allow us to compute the probability of a gene being expressed in the non-recurring group. Such probabilities for all considered genes were computed and the genes were ordered according to these probability values. Genes that have different expression between relapsing and non-relapsing groups have probabilities close to zero or one: a near one probability for Gleason 7 prostate cancer means that the gene is more expressed in this group than the others; and a near zero probability means that the gene is differentially less expressed. Therefore, instead of a one-by-one gene procedure for classifying a patient, the present invention provides a small, high resolution gene composition of the most differentially expressed genes. These genes will be the focus of attention in the prognostic evaluation of the next Gleason 7 patient. Furthermore, by taking a composition of the multivariate probability log distribution the present invention also takes into account the possible expression dependence between the genes.

Considerando novamente cada paciente individual na amostra e sua densidade normal multivariada para o vetor de log de probabilidades do gene expresso diferencialmente, a soma dos últimos componentes k (sub-expressos) da lista de genes acima ordenada subtraída da soma dos primeiros componentes k (super-expressos) resultou em uma pontuação para cada paciente individual. Esta pontuação é uma distribuição linear de variáveis normalmente distribuídas; assim, ela apresenta uma distribuição normal univariada com meio e variância conhecidos. A mesma media ponderada dessas densidades de pontuação dentro de cada grupo foi calculada a fim de obter um par de densidades de pontuação de grupo ao qual a pontuação da próxima paciente deve ser indicada. A escolha do valor de k continua por ser justificada: espera-se aumentar o poder de expressão diferencial de pontuação quando o valor de k aumenta. No exemplo presente, com doze genes (k = 6), a probabilidade da pontuação no grupo de não-recidiva que é superior ao seu valor no grupo de recidiva, é 0.9939. Note que através da contemplação de uma composição na distribuição de log de probabilidades multivariada aquele expressão-dependência entre genes também é considerada. Com seis genes (k = 3), a probabilidade é 0.9873. Desse modo, o valor preditivo dos níveis de expressão arranjados de diversos genes atinge um patamar de aproximadamente 99%, em seis genes.Considering again each individual patient in the sample and its multivariate normal density for the differentially expressed gene probability log vector, the sum of the last k (sub-expressed) components of the above-ordered gene list subtracted from the sum of the first k (super) components -expressed) resulted in a score for each individual patient. This score is a linear distribution of normally distributed variables; thus, it has a univariate normal distribution with known medium and variance. The same weighted average of these scoring densities within each group was calculated in order to obtain a pair of scoring densities from the group to which the next patient's score should be indicated. The choice of the value of k remains justified: it is expected to increase the power of differential scoring when the value of k increases. In the present example, with twelve genes (k = 6), the probability of punctuation in the non-relapse group that is greater than its value in the relapse group is 0.9939. Note that by contemplating a composition in the multivariate probability log distribution that expression dependence between genes is also considered. With six genes (k = 3), the probability is 0.9873. Thus, the predictive value of the arranged expression levels of several genes reaches approximately 99% in six genes.

Portanto, um conjunto pequeno de alta-re solução de seis genes foi descoberto na presente invenção que é adequado para a classificação de amostra com um valor preditivo, e consequentemente pode ser facilmente implementado na prática clínica. Ele inclui: RPL35, RPL35a, RPS28, PODXL, PODXL1, and SRSF5. RPL35, e sua variante de splicing (alinhamento) RPL35a, foram mostrados para apresentar seu nível de expressão comprimido no câncer coloretal (Kasai et al., J. Histochem & Cytochem, 51, 567-573, 2003). RPL35 também foi incluído recentemente em uma assinatura de onze genes (11) capaz de predizer metástases de limfonodos em carcinoma cervical precoce (Huang et al., Câncer, 117, 3363-3373, 2011). RPS28 foram mostrados como um preditor de resultado em câncer de mama (Yau et al., Breast Câncer Res, 12, R85, 2010). Podocalixina (PODXL), um alvo bona fide de p53, revelou ser positivamente regulado por WT1, e sua expressão inapropriada contribuiu para a tumorgênese de Wilms (Stanhope-Baker et al., J. Biol. Chem, 279, 33575-85, 2004). Com relação ao câncer de próstata, PODXL foi considerado um marcador de agressividade (Casey et al., Hum. Mol. Genetics, 15, 735-41, 2006). A expressão PODXL também foi demonstrada em neoplasia de células germinativas intratubular não classificada (IGCNU), seminomas, e carcinomas embrionários (Biermann et al., Anticancer Res., 27, 3091-100, 2007). Além disso, o PODXL revelou ser regulado por miR-199a-5p e super-expresso em tumor maligno testicular (Cheung et al., Oncogene, 2011). Expressão de proteína tipo podocalixina 1 (PODXL 1) revelou-se ausente em adenocarcinomas do pulmão e próstata, assim como matastes de fígado de carcinomas coloretais (Ney et al., Hum. Pathol., 38, 359-64, 2007). Além disso, neste caso, pela primeira vez, descobriu-se um papel para a expressão diferencial de fator 5 de splicing (alinhamento) de serina/arginina (SRSF5) em câncer de próstata.Therefore, a small set of high-re solution of six genes has been discovered in the present invention that is suitable for sample classification with a predictive value, and therefore can be easily implemented in clinical practice. It includes: RPL35, RPL35a, RPS28, PODXL, PODXL1, and SRSF5. RPL35, and its splicing variant RPL35a, have been shown to show their compressed expression level in colorectal cancer (Kasai et al., J. Histochem & Cytochem, 51, 567-573, 2003). RPL35 has also recently been included in an eleven-gene signature (11) capable of predicting lymph node metastases in early cervical carcinoma (Huang et al., Cancer, 117, 3363-3373, 2011). RPS28 have been shown as a predictor of outcome in breast cancer (Yau et al., Breast Cancer Res, 12, R85, 2010). Podocalixin (PODXL), a p53 bona fide target, was found to be positively regulated by WT1, and its inappropriate expression contributed to Wilms tumorgenesis (Stanhope-Baker et al., J. Biol. Chem, 279, 33575-85, 2004 ). With respect to prostate cancer, PODXL was considered a marker of aggression (Casey et al., Hum. Mol. Genetics, 15, 735-41, 2006). PODXL expression has also been demonstrated in unclassified intratubular germ cell neoplasia (IGCNU), seminomas, and embryonic carcinomas (Biermann et al., Anticancer Res., 27, 3091-100, 2007). In addition, PODXL was found to be miR-199a-5p-regulated and overexpressed in testicular malignant tumor (Cheung et al., Oncogene, 2011). Expression of podocalyxin-1 protein (PODXL 1) was found to be absent in lung and prostate adenocarcinomas, as well as liver kills of colorectal carcinomas (Ney et al., Hum. Pathol., 38, 359-64, 2007). Furthermore, in this case, for the first time, a role has been discovered for the differential expression of serine / arginine splicing factor (SRSF5) in prostate cancer.

Utilizando esse conjunto de seis genes como marcadores “germe”, interações desses genes no interctoma humano foram pesquisadas utilizando-se apenas as trilhas mínimas para estabelecer as conexões. Para validar esses resultados, levando em consideração a hipótese de que o pequeno classificador de alta qualidade da presente invenção para tumores Gleason 7 também classifica ou aumenta a resolução de outras pontuações de Gleason, pois a disrupção provocada por esse classificador está relacionada a tumorgêneses prostáticos, utilizou-se um conjunto de dados de micro-arranjo de 89 pacientes com câncer de próstata com ou sem recorrência. As interações preditas pelo modelo da presente invenção foram, portanto construídas com base no interactoma utilizando-se como valores de conexão a correlação de Pearson entre genes expressos no grupo de recorrência e conjuntos de dados sem recorrência. Na comparação das correlações de Pearson, observou-se que dentro do conjunto de genes classificadores, interação com outros genes também mudam entre os grupos de pacientes com e sem recorrência bioquímica. Desse modo, adicionalmente às mudanças quantitativas induzidas pelo conjunto de genes classificadores, um exame da estrutura dinâmica da rede de interação de proteína humana (interactoma) evidenciou mudanças substanciais em sua organização que pode esclarecer de forma dinâmica diferenças entre tumores e controles levando em consideração genes que não são expressos diferencialmente.Using this set of six genes as “germ” markers, interactions of these genes in the human interctoma were researched using only minimal pathways to establish connections. To validate these results, taking into account the hypothesis that the small high-quality classifier of the present invention for Gleason tumors 7 also ranks or increases the resolution of other Gleason scores, as the disruption caused by this classifier is related to prostate tumors, A microarray data set of 89 prostate cancer patients with or without recurrence was used. The interactions predicted by the model of the present invention were therefore constructed based on the interactome using Pearson's correlation between genes expressed in the recurrence group and non-recurring data sets as connection values. In comparing Pearson's correlations, it was observed that within the set of classifying genes, interaction with other genes also changes between groups of patients with and without biochemical recurrence. Thus, in addition to the quantitative changes induced by the classifying gene pool, an examination of the dynamic structure of the human protein interaction network (interactome) has shown substantial changes in its organization that can dynamically clarify differences between tumors and controls by considering genes. that are not expressed differentially.

Em suma, a presente invenção demonstrou que a marcação de bancos de cDNA, seguida por um sequenciamento de alto desempenho, acoplada a uma nova ferramenta analítica, possibilita a identificação de genes cujos níveis de expressão arranjados podem separar pacientes com câncer de próstata Gleason 7 recidivantes dos não-recidivantes com 99% de certeza, superando o desempenho de qualquer outro método descrito na literatura até então. É muito importante notar que esses genes foram descobertos mesmo com um número relativamente pequeno de sequências muito abaixo dos níveis de sequenciamento de alto desempenho. Análises de agrupamento de interactoma também destacam diversos pares de interação de genes/proteína que mudam seus níveis de interação entre ambos os grupos de pacientes. Esses resultados podem conduzir a uma identificação de novos marcadores ou alvos farmacologicamente acessíveis.In summary, the present invention has demonstrated that cDNA-bank tagging, followed by high performance sequencing coupled with a new analytical tool, enables the identification of genes whose arranged expression levels can separate relapsing Gleason 7 prostate cancer patients 99% of non-relapsers, outperforming any other method described in the literature so far. It is very important to note that these genes were discovered even with a relatively small number of sequences far below high performance sequencing levels. Interactome cluster analyzes also highlight several gene / protein interaction pairs that change their interaction levels between both patient groups. These results may lead to the identification of new pharmacologically accessible markers or targets.

Grupo linear de dados de composição de frequência: aplicação a sequenciamento gênicos No diagnóstico de um paciente de acordo com seu perfil de expressão gênica digital — i. e., classificação do paciente em uma das condições possíveis de saúde r >1 — o paciente é classificado de acordo com seu vetor observado z = (zj, Z2,..., de frequências associadas aos genes o mais diferencialmente expressos k. A escolha de quais somas totais k devem ser consideradas para um diagnóstico ou um classificador deve ser feita antecipadamente e com base em vetores de frequências de pacientes que tiveram suas condições previamente diagnosticadas. Esses vetores de dados, porém, apresentam um número de componentes principais, g, que é muito maior do que k. Assim, o objetivo é identificar as marcas k o mais disponíveis ou sequências gênicas para um diagnóstico ou um classificador.Linear group of frequency composition data: application to gene sequencing In the diagnosis of a patient according to their digital gene expression profile - i. e., patient classification into one of the possible health conditions r> 1 - the patient is classified according to their observed vector z = (zj, Z2, ..., of frequencies associated with the most differentially expressed genes k. The choice of which total sums k should be considered for a diagnosis or a classifier should be made in advance and based on frequency vectors of patients who had their conditions previously diagnosed, but these data vectors have a number of major components, g , which is much larger than K. Thus, the goal is to identify the most available ko tags or gene sequences for a diagnostic or classifier.

Em um exemplo, existem duas condições alternativas: r = 2. Dados, d, quando consistem de vetores de frequência m e n de pacientes revelaram apresentar, respectivamente, a primeira e segunda condição. Todos os vetores m+n apresentam componentes g correspondentes a cada uma das marcas consideradas g. As marcas g são as mesma para todos os vetores m+n. A probabilidade L gerada por d é descrita pela seguinte função: para a qual pu (qy) é a expressão gênica teórica da marca /-th do /-th individual sob a primeira (segunda) condição de saúde; e xtJ (ytJ) é a soma total observada produzida por leitura/amostra da marca /-th do /-th individual sob a primeira (segunda) condição de saúde.In one example, there are two alternative conditions: r = 2. Data, d, when consisting of frequency vectors m and n of patients, revealed to have respectively the first and second condition. All vectors m + n have g components corresponding to each of the marks considered g. The g marks are the same for all vectors m + n. The probability L generated by d is described by the following function: for which pu (qy) is the theoretical gene expression of the / -th mark of the individual / -th under the first (second) health condition; and xtJ (ytJ) is the total observed sum produced by reading / sampling the individual / -th mark / -th under the first (second) health condition.

Devido ao número tipicamente muito grande de marcas, foi usada uma prior não-informativa de Jeffrey para cada vetor individual de parâmetros. Em um exemplo, uma priori adequada, é utilizada uma distribuição a priori de Dirichlet com todos os hiper-parâmetros iguais a /2. Consequentemente, cada posterior individual é Dirichlet com hiper-parâmetros x + V2 (e y + Vi). Propriedades úteis de uma distribuição a priori de Dirichlet incluem: momentos, distribuições marginais e transformação.Due to the typically very large number of tags, a non-informative Jeffrey prior was used for each individual parameter vector. In one example, a suitable a priori, a Dirichlet a priori distribution with all hyper parameters equal to / 2 is used. Consequently, each individual posterior is Dirichlet with hyper parameters x + V2 (and y + Vi). Useful properties of a Dirichlet a priori distribution include: moments, marginal distributions, and transformation.

Considerando um vetor randômico W = (wo, wj,..., wh) que apresenta uma distribuição Dirichlet com vetor de parâmetro {ao, a/,..., ai), W apresenta a seguinte densidade no conjunto simplex: S = {(sO,...,sk) : sj > 0, s0+...+sk =1}: Tomando ao + ... + ak =A, mantendo as seguintes propriedades: 1. Momentos: 2. Distribuições marginais: Considerando um subconjunto de componentes / (< k) de W: (w/, w?, ..., w/) e seu complemento (w>o — wi+j + ... + wk). O vetor {wt; ... ; wt; wq) é distribuído como uma distribuição de Dirichlet com parâmetros a/, a2, ..., ai, ao for ao = a/+/ + ... + ak. Particularmente, a variável (wt; 1 - w/) ou, abreviadamente, w 1 apresenta uma distribuição beta com parâmetros ai eA - a\ — a2 + ... 1 ak ~ ao. 3. Transformação: A distribuição do vetor T é normal aproximativamente mui ti variada, com meios, variâncias e covariâncias definidas como: As funções ψ e ψ ’ são respectivamente a digama (derivada da função gama) e a trigama (derivada da digama).Considering a random vector W = (wo, wj, ..., wh) that has a Dirichlet distribution with parameter vector {ao, a /, ..., ai), W has the following density in the simplex set: S = {(sO, ..., sk): sj> 0, s0 + ... + sk = 1}: Taking + ... + ak = A, maintaining the following properties: 1. Moments: 2. Marginal distributions: Considering a subset of components / (<k) of W: (w /, w ?, ..., w /) and its complement (w> o - wi + j + ... + wk). The vector {wt; ...; wt; wq) is distributed as a Dirichlet distribution with parameters a /, a2, ..., ai, for for ao = a / + / + ... + ak. Particularly, the variable (wt; 1 - w /) or, briefly, w 1 has a beta distribution with parameters ai and A - a \ - a2 + ... 1 ak - o. 3. Transformation: The distribution of the vector T is approximately roughly varied, with means, variances and covariances defined as: The functions ψ and ψ ’are respectively the digama (derived from the gamma function) and trigama (derived from the digama).

Em um exemplo, para preservar a variabilidade de expressão gênica entre indivíduos, os pacientes são considerados como unidades de amostragem primária, c cada indivíduo provê fornece uma probabilidade que é combinada com a priori de Jeffrey para resultar seu perfil de expressão gênica de Dirichlet posterior. Para evitar as dificuldades computacionais produzidas por distribuições de Dirichlet que apresentam valores de parâmetros e alta dimensão, distribuições normais são transformadas. Desse modo, Thus, i e j individuais do grupo um e dois respectivamente e tomando pw = p,k+ / + ... + PigQ qjo = qjk+i + ... + qJg, os vetores (pi0; Pu: ... ; p,k) e (qjo; qp; ...; qp) serão parametrizados em: A densidade posterior de tais parâmetros transformados é normal aproximai ivamente multivariada com momentos: Desse modo, para qualquer marca escolhida t usada para i individual do primeiro grupo e qualquer j individual do segundo grupo: pm = 1 -puO qjo = 1.qjt· Em um exemplo, para construir um grupo-posterior no qual cada paciente contribui enquanto mantém sua variabilidade, é calculada uma média ponderada de densidades individuais para a densidade de grupo. Esse método de agrupamento é pertinente para meta-análise ou contextos de análise de síntese. Os pesos a serem utilizados no grupo de densidade linear são os tamanhos dos bancos de sequenciamento individuais de grupo. O procedimento é igualmente realizado por ambos os grupos, deixando um com duas densidades posteriores, um para cada grupo. Para cada marca escolhida t (= 1, ... , g), x, e y, são considerados serem variáveis randômicas independentes distribuídas de acordo com as duas densidades posteriores marginais de grupo relativas à marca í,ea probabilidade de xt > y, é consequentemente computada. Essas probabilidades são em seguidas ordenadas de acordo com as marcas o mais diferencialmente expressas - i.e., aquelas para as quais a probabilidade de xt > y, é o mais próxima de 0 ou de 1.In one example, to preserve the variability of gene expression between individuals, patients are considered as primary sampling units, and each individual provides a probability that is combined with Jeffrey's a priori to result in his later Dirichlet gene expression profile. To avoid the computational difficulties produced by Dirichlet distributions that have high parameter values, normal distributions are transformed. Thus, Thus, iej individual from group one and two respectively and taking pw = p, k + / + ... + PigQ qjo = qjk + i + ... + qJg, the vectors (pi0; Pu: ...; p, k) and (qjo; qp; ...; qp) will be parameterized as: The later density of such transformed parameters is normal approximately multivariate with moments: Thus, for any chosen mark t used for the individual i of the first group. and any individual j of the second group: pm = 1 -puO qjo = 1.qjt · In one example, to construct a posterior group to which each patient contributes while maintaining their variability, a weighted average of individual densities for the density is calculated. of group. This grouping method is pertinent to meta-analysis or synthesis analysis contexts. The weights to be used in the linear density group are the sizes of the individual group sequencing banks. The procedure is equally performed by both groups, leaving one with two posterior densities, one for each group. For each chosen mark t (= 1, ..., g), x, and y, are considered to be independent random variables distributed according to the two later marginal group densities relative to mark i, and the probability of xt> y is consequently computed. These probabilities are then ordered according to the most differentially expressed marks - i.e., those for which the probability of xt> y is closest to 0 or 1.

Os exemplos anteriores são providos somente para um versado na técnica possa utilizar a presente invenção. Várias modificações em relação a essas concretizações são claramente evidentes ao versado na técnica e os princípios genéricos aqui definidos podem ser aplicados a outras concretizações sem abandonar o espírito ou escopo da invenção.The foregoing examples are provided only for one skilled in the art to utilize the present invention. Various modifications with respect to such embodiments are clearly apparent to one skilled in the art and the generic principles defined herein may be applied to other embodiments without departing from the spirit or scope of the invention.

Claims

1. Predictive method of classifying a latent biological sample according to a more or less likely phenotypic result, characterized by the fact that it comprises: (a) selection of a phenotypic result; (b) obtaining a collection of primary molecular data from a population of subjects, existing as latent classes A and B that have a set of distinct molecular characteristics, and a subject of latent class A shows the selected phenotypic result and a latent class subject B no; (c) approximation of a later distribution of molecular data frequencies for each subject in the population; (d) constructing two independent compositional data frequencies for each molecule in data collection according to latent classes A or B; (e) comparing the latent class A and B compositional data frequencies for each molecule and selecting the most differentiated resolution molecules in a small, high-quality classifier; (f) increasing the resolution of the high quality small classifier by integrating the compositional data frequencies of the most differentiated resolution molecules into a pair of marginal multivariate probability densities according to latent classes A or B; (g) calculating a multivariate probability density for a latent biological sample according to the small, high quality classifier; and (h) classification of the biological sample according to a more or less likely phenotypic result by comparing the multivariate sample density with the marginal density pair.

Predictive method according to claim 1, characterized in that the phenotypic result comprises: a morphological, developmental, biochemical or physiological property; a behavior or a product of behavior; or combinations thereof.

Predictive method according to claim 1, characterized in that the probability L of a phenotypic result is generated by a function:

Predictive method according to claim 1, characterized in that the collected molecular data comprises: transcriptomic, genomic, or proteomic data, or combinations thereof.

Predictive method according to claim 1, characterized in that the subsequent distribution of molecular frequencies is approximated by a normal logistic distribution, logit, logits, probit, logistic function, logistic regression, log odds. ), a normal-logit distribution, or equivalents thereof.

Predictive method according to claim 5, characterized in that the approximation of a later distribution of molecular frequencies includes a non-informative Jeffrey priori.

Predictive method according to claim 5, characterized in that the subsequent distribution of molecular frequencies is approximated by a normal logistic distribution.

Predictive method according to claim 5, characterized in that a probability ratio log vector has an asymptotic multivariate normal distribution with means and covariance matrix fully determined by the use of digama and trigama functions.

Predictive method according to claim 8, characterized in that the further distribution of molecular data frequencies for each subject is also reassessed by a synergistic Bayesian probability, conditional probability, posterior probability or the like.

Predictive method according to claim 1, characterized in that the compositional data frequencies are group probability densities, joint probability densities, multivariate or equivalent densities thereof.

Predictive method according to claim 10, characterized in that a log vector of the corresponding probability ratio has an asymptotic multivariate normal distribution with means and covariance matrix fully determined by the use of digama and trigama functions.

Predictive method according to claim 11, characterized in that the frequencies of compositional data are also reassessed through a synergistic Bayesian probability, conditional probability, subsequent probability or equivalents thereof.

Predictive method of classifying an alternative disease state according to a more or less favorable prognosis, characterized by the fact that it comprises: (a) obtaining a primary data collection; (b) statistical generation of a small high resolution classifier from the primary data; and (c) using the classifier in a clinical context to provide a differential diagnosis of the disease.

Predictive method according to claim 13, characterized in that the alternative disease state exists as latent classes A and B corresponding to a more or less favorable prognosis, and the latent classes show a distinct set of molecular characteristics. .

Predictive method according to claim 13, characterized in that the primary data comprises: transcriptomic, genomic, or proteomic data, or combinations thereof.

Predictive method according to claim 15, characterized in that the primary data collection includes an mRNA extraction from two biologically distinct patient groups corresponding to latent classes A and B, and a generation of cDNA databases. labeled by individual patient specific probes.

Predictive method according to claim 16, characterized in that the primary data collection also includes qualitative sequencing of cDNA banks as a high-performance batch, and a deconvolution of sequencing results based on the tags.

Predictive method according to claim 17, characterized in that the high performance batch sequencing is massively parallel signature sequencing, polony sequencing, parallelized pyrosequencing, reversible dye-terminator sequencing, ligation sequencing, ion semiconductors, DNA nanoball sequencing, single molecule sequencing, nanopore DNA sequencing, hybridization sequencing, microfluidic Sanger sequencing or equivalents thereof.

Predictive method according to claim 17, characterized in that each gene in the two biologically distinct groups of patients is differentially or identically distributed, determining its predictive value.

Predictive method according to claim 17, characterized in that a subsequent distribution of molecular frequencies is approximate for each individual patient.

Predictive method according to claim 20, characterized in that the subsequent distribution of molecular frequencies is approximate for each individual patient and is calculated under a non-informative Jeffrey priori.

Predictive method according to claim 21, characterized in that the subsequent distribution of molecular frequencies is approximated by a normal logistic distribution, logit, logits, probit, logistic function, logistic regression, log odds. , a normal logit distribution or equivalents thereof.

Predictive method according to claim 22, characterized in that the subsequent distribution of molecular frequencies is approximated by a normal logistic distribution.

Predictive method according to claim 23, characterized in that a corresponding probability ratio log vector has an asymptotic multivariate normal distribution with means and covariance matrix determined by the use of digama and trigama functions.

Predictive method according to claim 20, characterized in that the further distribution of molecular data frequencies for each patient is also reassessed by a synergistic Bayesian probability, conditional probability, posterior probability or the like thereof.

Predictive method according to claim 14, characterized in that two independent compositional data frequencies corresponding to latent classes A and B are constructed for each gene in the data collection.

Predictive method according to claim 26, characterized in that the compositional data frequencies are group probability densities, joint probability densities, multivariate or equivalent densities thereof.

Predictive method according to claim 27, characterized in that the compositional data frequencies are group probability densities.

Predictive method according to claim 27, characterized in that the corresponding probability ratio log vectors have an asymptotic multivariate normal distribution with means and covariance matrix fully determined by the use of digama and trigama functions.

Predictive method according to claim 29, characterized in that the frequencies of compositional data are also reassessed through a synergistic Bayesian probability, conditional probability, subsequent probability or equivalents thereof.

Predictive method according to claim 26, characterized in that the probability densities of latent class group A and B are compared for each gene and that the most differentiated resolution genes are selected in a small classifier, high-quality.

Predictive method according to claim 31, characterized in that the resolution of the high quality small classifier is increased by integrating the group probability densities of the most differentiated resolution molecules into a pair of probability densities. very varied, marginal, and probability log vector matching according to latent classes A or B.

Predictive method according to claim 32, characterized in that the marginal multivariate probability densities are also reassessed by a synergistic Bayesian probability, conditional probability, posterior probability or equivalents thereof.

Predictive method according to Claim 31, characterized in that for an individual patient the cDNA expression values for the genes that are members of the classifier are compared with the marginal group probability density pairs corresponding to a prognosis. more or less favorable.

Predictive method according to claim 13, characterized in that the probability L of a prognosis is generated by the function:

36. Predictive method of classifying Gleason 7 stage prostate cancer according to a more or less likely recurrence, characterized by the fact that it comprises: (a) mRNA extraction from a population of Gleason 7 stage subjects that exists as latent and non-relapsing relapsing classes A and B, presenting a set of distinct molecular characteristics and generation of probe-specific cDNA banks specific to individual patients; (b) qualitative sequencing of cDNA pools as a high performance batch, and de-convolution of sequencing results based on patient-specific (barcode) tags; (c) approximation of a later distribution of molecular data frequencies for each subject under a non-informative Jeffrey priori through a normal logistic distribution; (d) constructing two independent group probability densities for each gene in data collection according to latent classes A or B; (e) comparing the probability densities of latent class group A and B for each gene, distributing each gene differently or identically according to these probability densities and selecting the most differentiated resolution genes in a small classification, high-quality; (f) increasing the resolution of the high quality small classifier by integrating the group probability densities of the most differentiated resolving genes into a pair of multivariate, marginal probability densities, and multivariate probability ratio log vector matching. according to latent classes A or B; (g) calculating a multivariate probability density for a next Gleason 7 stage patient in relation to genes that are members of the high quality small classifier; and (h) classification in a clinical context of the Gleason 7 stage patient according to a more or less likely recurrence by peer indication of marginal group probability densities.

Predictive method according to claim 36, characterized in that genes, which have distinct expression between latent classes A and B, have probabilities close to zero or one.

Predictive method according to claim 37, characterized in that a probability close to one means that the gene is more expressed in one latent class than the others, and a probability close to zero means that the gene is less expressed in a latent class with respect to others.

Predictive method according to claim 36, characterized in that the small, high quality classifier comprises a single gene.

Predictive method according to claim 39, characterized in that the single gene is RPL35.

Predictive method according to claim 39, characterized in that the single gene is SRSF5.

Predictive method according to claim 36, characterized in that the high-quality small classifier comprises from approximately one to approximately twelve genes.

Predictive method according to claim 42, characterized in that the high quality small classifier comprises genes selected from the group consisting of: RPL35, RPS28, C12orf57, NFKBIZ, RPS15, UBA52, PNN, MTRNR2L10, SLC25A4, PODXL, SRSF5, and LOC100293090.

Predictive method according to claim 42, characterized in that the predictive value of the classifier is approximately 99%.

Predictive method according to claim 42, characterized in that the classifier is suitable for diagnostic use in a clinical context.

Predictive method according to claim 36, characterized in that the probability L of recurrence is generated by the function: