BR112020013252A2 - abordagens de decodificação para a identificação de proteína - Google Patents

abordagens de decodificação para a identificação de proteína Download PDF

Info

Publication number
BR112020013252A2
BR112020013252A2 BR112020013252-7A BR112020013252A BR112020013252A2 BR 112020013252 A2 BR112020013252 A2 BR 112020013252A2 BR 112020013252 A BR112020013252 A BR 112020013252A BR 112020013252 A2 BR112020013252 A2 BR 112020013252A2
Authority
BR
Brazil
Prior art keywords
protein
proteins
sample
binding
candidate
Prior art date
Application number
BR112020013252-7A
Other languages
English (en)
Inventor
Sujal M. Patel
Parag Mallick
Jarrett D. Egertson
Original Assignee
Nautilus Biotechnology, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/US2018/056807 external-priority patent/WO2019083856A1/en
Application filed by Nautilus Biotechnology, Inc. filed Critical Nautilus Biotechnology, Inc.
Publication of BR112020013252A2 publication Critical patent/BR112020013252A2/pt

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/60Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrostatic variables, e.g. electrographic flaw testing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/72Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating magnetic variables
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Signal Processing (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Probability & Statistics with Applications (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Peptides Or Proteins (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

São providos métodos e sistemas para a identificação e quantificação precisas e eficientes de proteínas. Em um aspecto, é descrito aqui um método para a identificação de uma proteína em uma amostra de proteínas desconhecidas, compreendendo a recepção de informação de uma pluralidade de medições empíricas realizadas nas proteínas desconhecidas; comparação da informação de medições empíricas contra uma base de dados compreendendo uma pluralidade de sequências de proteínas, cada sequência de proteína correspondendo a uma proteína candidata entre uma pluralidade de proteínas candidatas; e para cada uma ou mais da pluralidade de proteínas candidatas, a geração de uma probabilidade da proteína candidata gerar a informação das medições empíricas, uma probabilidade da pluralidade de medições empíricas não ser observada tendo em vista que a proteína candidata está presente na amostra ou uma probabilidade da proteína candidata estar presente na amostra; com base na comparação da informação das medições empíricas contra a base de dados.

Description

ABORDAGENS DE DECODIFICAÇÃO PARA A IDENTIFICAÇÃO DE PROTEÍNA REFERÊNCIA CRUZADA
[001] Este pedido reivindica o benefício do pedido provisórios de patente US nº 62/611,979, depositado em 29 de dezembro de 2017, a do pedido de patente internacional PCT/US2018/056807, depositado em 20 de outubro de 2018, cada um dos quais é aqui incorporado como referência em sua totalidade.
ANTECEDENTES
[002] As técnicos no assunto atuais para a identificação de proteína tipicamente contam ou com a ligação e subsequente leitura de reagentes de afinidade altamente específicos e sensíveis (tais como anticorpos) ou com dados de peptídeo de leitura (tipicamente da ordem de 12-30 aminoácidos de comprimento) a partir de um espectrômetro de massa. Tais técnicas podem ser aplicadas a proteínas desconhecidas em uma amostra para determinar a presença, ausência ou quantidade de proteínas candidatas com base na análise de medições de ligação dos reagentes de afinidade altamente específicos e sensíveis para as proteína de interesse.
SUMÁRIO
[003] É reconhecida aqui a necessidade por identificação e quantificação de proteínas melhoradas em uma amostra de proteínas desconhecidas. Os métodos e sistemas providos aqui podem reduzir ou eliminar significativamente erros na identificação de proteínas em uma amostra e, desta forma, melhorar a quantificação das ditas proteínas. Tais métodos e sistemas podem alcançar a identificação precisa e eficiente de proteínas candidatas em uma amostra de proteínas desconhecidas. Tal identificação pode ser baseada em cálculos que utilizam informações tais como medições de ligação de sondas reagentes de afinidade configuradas para se ligarem seletivamente a uma ou mais proteínas candidatas, comprimento de proteína, hidrofobicidade proteína e ponto isoelétrico. Em algumas realizações, uma amostra de proteínas desconhecidas pode ser exposta a sondas reagentes de afinidade individuais, sondas reagentes de afinidade reunidas ou uma combinação de sondas reagentes de afinidade individuais e sondas reagentes de afinidade reunidas. A identificação pode compreender a estimativa de um nível de confiança de cada uma ou mais das proteínas candidatas estar presente na amostra.
[004] Os métodos e sistemas providos aqui podem compreender algoritmos para a identificação de proteínas com base em uma sequência de experimentos realizados em proteínas intactas ou fragmentos de proteína. Cada experimento pode ser uma medição empírica realizada em uma proteína e pode prover informação que pode ser útil para a identificação da proteína. Exemplos de experimentos incluem a medição da ligação de um reagente de afinidade (por exemplo, anticorpo ou aptâmero), comprimento da proteína, hidrofobicidade da proteína e ponto isoelétrico. A informação a cerca dos resultados experimentais pode ser utilizada para calcular as probabilidades ou possibilidades das proteínas candidatas e/ou para inferir a identidade da proteína pela seleção da proteína a partir de uma lista de proteínas candidatas que maximiza a possibilidade dos resultados experimentais observados. Os métodos e sistemas providos aqui podem compreender também uma coleção de proteínas candidatas e algoritmos para calcular a probabilidade dos resultados experimentais de cada uma destas proteínas candidatas.
[005] Em um aspecto, o presente relatório provê um método implementado em computador para a identificação de uma proteína em uma amostra de proteínas desconhecidas, o método compreendendo: (a) a recepção, pelo dito computador, de informação de uma pluralidade de medições empíricas realizadas nas ditas proteínas desconhecidas na dita amostra; (b) comparação, pelo dito computador, de pelo menos uma parte da dita informação da dita pluralidade das ditas medições empíricas contra um base de dados compreendendo uma pluralidade de sequências de proteínas, cada sequência de proteína correspondendo a uma proteína candidata entre uma pluralidade de proteínas candidatas; e (c) para cada uma ou mais das proteínas candidatas na dita pluralidade de proteínas candidatas, gerando, pelo dito computador, uma ou mais de: (1) uma probabilidade a dita proteína candidata gerar a dita informação da dita pluralidade de medições empíricas, (11) uma probabilidade da dita pluralidade de medições empíricas não ser observada tendo em vista que a dita proteína candidata está presente na dita amostra e (lil) uma probabilidade da dita proteína candidata estar presente na dita amostra; com base na dita comparação da dita pelo menos uma parte da dita pluralidade das ditas medições empíricas contra a dita base de dados compreendendo a dita pluralidade de sequências de proteínas.
[006] Em algumas realizações, duas ou mais da dita pluralidade de medições empíricas são selecionadas a partir do grupo consistindo em: (1) medições de ligação de cada uma ou mais sondas reagentes de afinidade às ditas proteínas desconhecidas na dita amostra, cada sonda reagente de afinidade sendo configurada para se ligar seletivamente a uma ou mais proteínas candidatas entre a dita pluralidade de proteínas candidatas; (11) comprimento da uma ou mais das ditas proteínas desconhecidas na dita amostra; (ii) hidrofobicidade de uma ou mais das ditas proteínas desconhecidas na dita amostra; e (iv) ponto isoelétrico da uma ou mais das ditas proteínas desconhecidas na dita amostra.
[007] Em algumas realizações, a geração da dita pluralidade de probabilidades compreende adicionalmente a recepção de informação adicional medições de ligação de cada uma de uma pluralidade de sondas reagentes de afinidade adicionais, cada sonda reagente de afinidade adicional sendo configurada para se ligar seletivamente a uma ou mais proteínas candidatas entre a dita pluralidade de proteínas candidatas. Em algumas realizações, o método compreende adicionalmente a geração, para cada uma ou mais das proteínas candidatas, um nível de confiança de que a proteína candidata se combina com uma das ditas proteínas desconhecidas na dita amostra.
[008] Em algumas realizações, a dita pluralidade de sondas reagentes de afinidade compreende não mais que 50 sondas reagentes de afinidade. Em algumas realizações, a dita pluralidade de sondas reagentes de afinidade compreende não mais que 100 sondas reagentes de afinidade. Em algumas realizações, a dita pluralidade de sondas reagentes de afinidade compreende não mais que 200 sondas reagentes de afinidade. Em algumas realizações, a dita pluralidade de sondas reagentes de afinidade compreende não mais que 300 sondas reagentes de afinidade. Em algumas realizações, a dita pluralidade de sondas reagentes de afinidade compreende não mais que 500 sondas reagentes de afinidade. Em algumas realizações, a dita pluralidade de sondas reagentes de afinidade compreende mais de 500 sondas reagentes de afinidade. Em algumas realizações, o método compreender adicionalmente a geração de uma nota ou relatório eletrônico de identificação das ditas proteínas na dita amostra.
[009] Em algumas realizações, a dita amostra compreende uma amostra biológica. Em algumas realizações, a dita amostra biológica é obtida a partir de um indivíduo. Em algumas realizações, o método compreende adicionalmente a identificação de um estado de uma doença no dito indivíduo com base pelo menos na dita pluralidade de probabilidades.
[0010] Em algumas realizações, (c) compreende, para cada uma ou mais proteínas candidatas na dita pluralidade de proteínas candidatas, a geração, pelo dito computador, (1) da dita probabilidade da dita proteína candidata gerar a dita informação da dita pluralidade de medições empíricas. Em algumas realizações, (c) compreende, para cada uma ou mais das proteínas candidatas na dita pluralidade de proteínas candidatas, a geração, pelo dito computador, (ii) da dita probabilidade da dita pluralidade de medições empíricas não ser observada tendo em vista que a dita proteína candidata está presente na dita amostra. Em algumas realizações, (c) compreende, para cada uma ou mais das proteínas candidatas na dita pluralidade de proteínas candidatas, a geração, pelo dito computador, (iii) da dita probabilidade da dita proteína candidata estar presente na dita amostra. Em algumas realizações, o dito resultado da medição compreende a ligação das sondas reagentes de afinidade. Em algumas realizações, o dito resultado da medição compreende a ligação não específica das sondas reagentes de afinidade. Em algumas realizações, o dito resultado da medição compreende a ligação das sondas reagentes de afinidade. Em algumas realizações, o dito resultado da medição compreende a ligação não específica das sondas reagentes de afinidade. Em algumas realizações, as ditas medições empíricas compreendem a ligação das sondas reagentes de afinidade. Em algumas realizações, as ditas medições empíricas compreendem a ligação não específica das sondas reagentes de afinidade.
[0011] Em algumas realizações, o método compreende adicionalmente a geração de uma sensibilidade da identificação da proteína com um limite predeterminado. Em algumas realizações, o dito limite predeterminado é menos de 1% de estar incorreto. Em algumas realizações, a dita proteína na dita amostra é truncada ou degradada. Em algumas realizações, a dita proteína na dita amostra não é originária de um terminal da proteína.
[0012] Em algumas realizações, as ditas medições empíricas compreendem o comprimento de uma ou mais das ditas proteínas desconhecidas na dita amostra. Em algumas realizações, as ditas medições empíricas compreendem a hidrofobicidade de uma ou mais das ditas proteínas desconhecidas na dita amostra. Em algumas realizações, as ditas medições empíricas compreendem o ponto isoelétrico de uma ou mais das ditas proteínas desconhecidas na dita amostra. Em algumas realizações, as ditas medições empíricas compreendem medições realizadas em misturas de anticorpos. Em algumas realizações, as ditas medições empíricas compreendem medições realizadas em amostras obtidas de uma pluralidade de espécies. Em algumas realizações, as ditas medições empíricas compreendem medições realizadas em amostras na presença de variantes de aminoácido único (SAVs) causadas por polimorfismos de nucleotídeo único não sinônimos (SNPs).
[0013] Aspectos e vantagens adicionais do presente relatório ficarão facilmente claros para os técnicos no assunto a partir da descrição detalhada a seguir, onde apenas realizações ilustrativas do presente relatório são mostradas e descritas. Como será observado, o presente relatório é capaz de outras e diferentes realizações e seus vários detalhes são passíveis de modificações em vários aspectos óbvios, todos sem se afastarem do relatório. Da mesma forma, os desenhos e descrição devem ser considerados como ilustrativos em natureza e não restritivos.
INCORPORAÇÃO POR REFERÊNCIA
[0014] Todas as publicações, patentes e pedidos de patente mencionados neste relatório são aqui incorporados como referência na mesma extensão em que cada publicação, patente ou pedido de patente individual fosse especificamente indicado como sendo incorporado por referência. Caso as publicações e patentes ou pedidos de patente incorporados aqui por referência contradigam a descrição contida neste relatório, o relatório deve substituir e/ou ter precedência sobre qualquer um de tais materiais contraditórios.
BREVE DESCRIÇÃO DOS DESENHOS
[0015] As novas características da invenção são apresentadas com particularidade nas reivindicações anexas. Uma melhor compreensão das características e vantagens da presente invenção será obtida por referência à descrição detalhada a seguir que apresenta realizações ilustrativas, nas quais os princípios da invenção são utilizados e nos desenhos anexos (também “Figura” e “FIG.” aqui), nos quais:
[0016] A FIG.1 ilustra um fluxograma de exemplo da identificação de proteína de proteínas desconhecidas em uma amostra biológica, de acordo com as realizações descritas.
[0017] A FIG.2 ilustra a sensibilidade de sondas reagentes de afinidade (por exemplo, o percentual de substrato identificado com uma taxa de detecção falsa (FDR) de menos de 1%) plotada contra o número de sítios de reconhecimento de sonda (por exemplo, epitopos de ligação a trímero) na sonda reagente de afinidade (variando até 100 sítios de reconhecimento de sonda ou epitopos de ligação a trímero), para três casos experimentais diferentes (com 50, 100 e 200 sondas utilizadas, como indicado pelos círculos cinza, pretos e brancos, respectivamente), de acordo com as realizações descritas.
[0018] A FIG.3 ilustra a sensibilidade das sondas reagentes de afinidade (por exemplo, o percentual de substratos identificados com uma taxa de detecção falsa (FDR) de menos de 1%) plotada contra o número de sítios de reconhecimento de sonda (por exemplo, epitopos de ligação a trímero) na sonda reagente de afinidade (variando até 700 sítios de reconhecimento de sonda ou epitopos de ligação a trímero) para três casos experimentais diferentes (com 50, 100 e 200 sondas utilizadas, como indicado pelos círculos cinza, pretos e brancos, respectivamente), de acordo com as realizações descritas.
[0019] A FIG. 4 ilustra plotagens mostrando a sensibilidade da identificação de proteína com experimentos utilizando 100 (esquerda), 200 (centro) ou 300 sondas (direita), de acordo com as realizações descritas.
[0020] A FIG. 5 ilustra plotagens mostrando a sensibilidade da identificação de proteína com experimentos utilizando várias abordagens de fragmentação de proteína. Em cada uma das linhas superiores e linhas inferiores, o desempenho da identificação de proteína é mostrado com 50, 100, 200 e 300 medições de reagente de afinidade (nos 4 painéis da esquerda para a direita), com valores máximos de comprimento de fragmento de 50, 100, 200, 300, 400 e 500 (como indicado pelos hexágonos, triângulos apontados para baixo, triângulos apontando para cima, diamantes, retângulos e círculos, respectivamente), de acordo com de acordo com as realizações descritas.
[0021] A FIG. 6 ilustra plotagens mostrando a sensibilidade da identificação de proteínas humanas (porcentagem de substratos identificados em uma FDR de menos de 1%) com experimentos utilizando várias combinações de tipos de medições), de acordo com as realizações descritas.
[0022] A FIG. 7 ilustra plotagens mostrando a sensibilidade da identificação de proteína com experimentos utilizando 50, 100, 200 ou 300 passos de sonda reagente de afinidade contra proteínas desconhecidas tanto de E. coli, de levedura quanto humanas (como indicado pelos círculos, triângulos e quadrados, respectivamente), de acordo com as realizações descritas.
[0023] A FIG. 38 ilustra uma plotagem mostrando a probabilidade de ligação (eixo y, à esquerda) e a sensibilidade de identificação de proteína (eixo y, à direita) contra a iteração (eixo x), de acordo com as realizações descritas.
[0024] A FIG. 9 mostra uma comparação da taxa de identificação falsa estimada com a taxa de identificação falsa real para um experimento simulado de 200 sondas que demonstra a estimativa precisa da taxa de identificação falsa, de acordo com as realizações descritas.
[0025] A FIG. 10 ilustra um sistema de controle em computador que é programado ou de alguma outra forma configurado para implementar os métodos providos aqui.
[0026] A TFIG.11 ilustra o desempenho de uma abordagem de identificação de proteína censurada vs. uma abordagem de identificação de proteína não censurada.
[0027] A FIG. 12 ilustra a tolerância de abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas para resultados de ligação randômicos “falso negativos”.
[0028] A FIG.13 ilustra a tolerância de abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas para resultados de ligação randômicos “falso negativos”.
[0029] A FIG. 14 ilustra o desempenho de abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas com probabilidade de ligação de reagente de afinidade superestimada ou subestimada.
[0030] A FIG.15 ilustra o desempenho de abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas utilizando reagentes de afinidade com epitopos de ligação desconhecidos.
[0031] A FIG.16 ilustra o desempenho de abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas utilizando reagentes de afinidade com epitopos de ligação que perdidos.
[0032] A FIG.17 ilustra o desempenho de abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas utilizando reagentes de afinidade orientados para os 300 trímeros mais abundantes no proteoma, 300 trímeros randomicamente selecionados no proteoma ou os 300 trímeros menos abundantes no proteoma.
[0033] A FIG. 18 ilustra o desempenho de abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas utilizando reagentes de afinidade com sítios fora do alvo randômicos ou biossimilares.
[0034] A TFIG.19 ilustra o desempenho das abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas pela utilização de um conjunto de reagentes de afinidade ótimos (sondas).
[0035] A FIG.20 ilustra o desempenho das abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas pela utilização de reagentes de afinidade candidatos não misturados e misturas de reagentes de afinidade candidatos.
[0036] A FIG.21 ilustra duas etapas de hibridização no reforço de uma ligação entre um reagente de afinidade e uma proteína, de acordo com algumas realizações.
[0037] A FIG. 22 ilustra o desempenho da identificação de proteína pela utilização de uma coleção de reagentes para a modificação e detecção seletivas de 4 aminoácidos (K, D, C e W), de acordo com algumas realizações.
[0038] A FIG. 23 ilustra o desempenho da identificação de proteína pela utilização de uma coleção de reagentes para a modificação e detecção seletivas de 20 aminoácidos (R, H, K, D, E, S, T. N, Q, C, G, PR, A, VL L, MF, Y e W), de acordo com algumas realizações.
[0039] A FIG. 24 ilustra o desempenho da identificação de proteína pela utilização da ordem dos aminoácidos, onde todos os aminoácidos são medidos com uma probabilidade de detecção (igual à eficiência da reação) indicada no eixo x e o eixo y indica a percentagem de proteínas na amostra identificadas com uma taxa de descoberta falsa abaixo de 1%, de acordo com algumas realizações.
DESCRIÇÃO DETALHADA
[0040] “Embora várias realizações da invenção tenham sido mostradas e descritas aqui, ficará claro para os técnicos no assunto que tais realizações são providas apenas como exemplo. .— Numerosas variações, alterações e substituições podem ocorrer aos técnicos no assunto sem se afastarem da invenção. Deve ser entendido que várias alternativas às realizações da invenção descrita aqui podem ser empregadas.
[0041] O termo “amostra”, tal como utilizado aqui, refere-se geralmente a uma amostra biológica (por exemplo, uma amostra contendo proteína). As amostras podem ser tomadas de tecido ou células ou do ambiente do tecido ou células. Em alguns exemplos, a amostra pode compreender ou ser derivada uma biopsia e tecido, sangue, plasma sanguíneo, fluido extracelular, manchas de sangue soco, células cultivadas, meio de cultura, tecido descartado, matéria vegetal, proteínas sintéticas, amostras bacterianas e/ou virais, tecido fúngico, arqueia ou protozoários. A amostra pode ser isolado da fonte antes da coleta. As amostras podem compreender evidência forense. Exemplos não limitantes incluem impressão digital, saliva, urina, sangue, fezes, sêmen ou outros fluidos corporais isolados da fonte primária antes da coleta. Em alguns exemplos, a proteína é isolada de sua fonte primária (células, tecido, fluidos corporais tais como sangue, amostras do ambiente, etc.) durante a preparação da amostra. À amostra pode ser derivada de uma espécie extinta incluindo, mas não se limitando a, amostras derivadas de fósseis. A proteína pode ser ou não purificada ou de alguma forma enriquecida a partir de sua fonte primária. Em alguns casos, a fonte primária é homogeneizada antes do processamento adicional. Em alguns casos, as células são lisadas pela utilização de um tampão tal como o tampão RIPA. Tampões desnaturantes podem ser também utilizados neste estágio. A amostra pode ser filtrada ou centrifugada para remover lipídeos e matéria particulada. A amostra pode ser também purificada para remover ácidos nucleicos ou pode ser tratada com RNAses e DNAses. A amostra pode conter proteínas intactas, proteínas desnaturadas, fragmentos de proteína ou proteínas parcialmente degradadas.
[0042] A amostra pode ser tomada de um indivíduo com uma doença ou um distúrbio. A doença ou distúrbio pode ser uma doença infecciosa, um distúrbio ou doença imune, um câncer, uma doença genética, uma doença degenerativa, uma doença de estilo de vida, uma lesão, uma doença rara ou doença relacionada à idade. A doença infecciosa pode ser causada por bactérias, vírus, fungos e/ou parasitas. Exemplos não limitantes de cânceres incluem câncer de bexiga, câncer de pulmão, câncer cerebral, melanoma, câncer de mama, linfoma não de Hodgkin, câncer cervical, câncer de ovário, câncer colorretal, câncer pancreático, câncer esofágico, câncer de próstata, câncer renal, câncer de pele, leucemia, câncer da tiroide, câncer de fígado e câncer uterino. Alguns exemplos de doenças ou distúrbios genéticos incluem, mas não estão limitados a, esclerose múltipla (MS), fibrose cística, doença de Charcot-Marie-Tooth, doença de Huntington, síndrome de Peutz-Jeghers, síndrome de Down, artrite reumatoide e doença de Tay Sachs. Exemplos não limitantes de doenças do estilo de vida incluem obesidade, diabetes, aterosclerose, doença cardíaca, derrame, hipertensão, cirrose hepática, nefrite, câncer, doença pulmonar obstrutiva crônica (COPD), problemas de audição e dor nas costas crônica. Alguns exemplos de lesões incluem, mas não estão limitados a, abrasão, lesões cerebrais, hematomas, queimadura, concussões, insuficiência cardíaca congestiva, leões de construção, deslocamento, mangote, fratura, hemotórax, hérnia de disco, crista ilíaca, hipotermia,
lacerações, nervo comprimido, pneumotórax, fratura de costela, ciática, leão da medula espinal, lesão da fáscia dos ligamentos de tendões, lesão cerebral traumática e chicote. A amostra pode ser tomada antes e/ou depois do tratamento de um indivíduo com uma doença ou distúrbio. As amostras podem ser tomadas antes e/ou depois de um tratamento. As amostras podem ser tomadas durante um tratamento ou um regime de tratamento. Amostras múltiplas podem ser tomadas de um indivíduo para o monitoramento dos efeitos do tratamento no tempo. A amostra pode ser tomada de um indivíduo conhecido por ou sob suspeita de apresentar uma doença infecciosa para a qual anticorpos de diagnóstico não estão disponíveis.
[0043] A amostra pode ser tomada de um indivíduo sob suspeita de apresentar uma doença ou um distúrbio. A amostra pode ser tomada de um indivíduo experimentando sintomas inexplicados, tais como fatiga, náusea, perda de peso e dores, fraqueza ou perda de memória. A amostra pode ser tomada de um indivíduo apresentando sintomas explicados. A amostra pode ser tomada de um indivíduo sob risco de desenvolver uma doença ou distúrbio devido a fatores tais como histórico familiar, idade, exposição ao meio ambiente, fatores de risco do estilo de vida ou presença de outros fatores de risco conhecidos.
[0044] A amostra pode ser tomada de um embrião, feto ou mulher grávida. Em alguns exemplos, a amostra pode compreender proteínas isoladas do plasma sanguíneo da mãe. Em alguns exemplos, proteínas isoladas de células fetais em circulação no sangue da mãe.
[0045] A amostra pode ser tomada de um indivíduo saldável. Em alguns casos, as amostras podem ser tomadas longitudinalmente do mesmo individual. Em alguns casos, as amostras obtidas longitudinalmente podem ser analisadas com o objetivo de monitorar a saúde individual e detecção precoce de problemas de saúde. Em algumas realizações, a amostra pode ser coletada domesticamente ou em um posto de saúde e subsequentemente transportada por um serviço de entrega dos correios, entrega por courier ou outro método de transporte antes da análise. For exemplo, um usuário doméstico pode coletar uma amostra de uma gota de sangue por meio de uma picada no dedo, amostra de gota de sangue esta que pode ser secada e subsequentemente transportada pelos correios antes da análise. Em alguns casos, as amostras obtidas longitudinalmente podem ser utilizadas para monitorar uma resposta a estímulos esperados por impactar a saúde, o desempenho atlético ou desempenho cognitivo. Exemplos não limitantes incluem resposta a medicação, dieta ou um regime de exercícios.
[0046] As proteínas da amostra podem ser tratadas para remover modificações que possam interferir com a ligação do epitopo. Por exemplo, a proteína pode ser tratada enzimaticamente. Por exemplo, a proteína pode ser tratada com glicosidase para remover glicolização posterior à tradução. A proteína pode ser tratada com um agente redutor para reduzir ligações dissulfeto dentro da proteína. A proteína pode ser tratada com uma fosfatase para remover grupos fosfato. Outros exemplos não limitantes de modificações posteriores à tradução que podem ser removidas incluem grupos acetato, grupos amida, grupos metil, lipídeos, ubiquitina, miristoilação, palmitoilação, isoprenilação ou prenilação (por exemplo, farnesol e geranilgeraniol), farnesilação, geranilgeranilação, glipiação, lipoilação, ligação de radical flavina, fosfopanteteinilação e formação da base de Schiff retinilideno.
[0047] As proteínas da amostra podem ser tratadas pela modificação de um ou mais resíduos para torná-los mais passíveis de se ligarem ou serem detectados por um reagente de afinidade. Em alguns casos, as proteínas da amostra podem ser tratadas para reter as modificações posteriores à tradução da proteína que possam facilitar ou aumentar a ligação do epitopo. Em alguns exemplos, inibidores de fosfatase podem ser adicionados à amostra. Em alguns exemplos, agentes oxidantes podem ser adicionados para proteger as ligações dissulfeto.
[0048] As proteínas da amostra podem ser desnaturadas completamente ou em parte. Em algumas realizações, as proteínas podem ser completamente desnaturadas. As proteínas podem ser desnaturadas por aplicação de um estresse externo tal como um detergente, um ácido forte ou base forte, um sal inorgânico concentrado, um solvente orgânico (por exemplo, álcool ou clorofórmio), radiação ou calor. As proteínas podem ser desnaturadas pela adição de um tampão desnaturante. As proteínas podem ser também precipitadas, liofilizadas e suspensas em tampão desnaturante. As proteínas podem ser desnaturadas por aquecimento. Os métodos de desnaturação que são improváveis de causar modificações químicas às proteínas podem ser preferidos.
[0049] As proteinas da amostra podem ser tratadas para produzir polipeptídeos curtos, ou antes ou depois da conjugação. As proteínas restantes podem ser parcialmente digeridas com uma enzima tal como Proteinase K para gerar fragmentos ou podem ser deixadas intactas. Em exemplos adicionais, as proteínas podem ser expostas a proteases tais como tripsina. Exemplos adicionais de proteases podem incluir serina proteases, cisteína proteases, treonina proteases, proteases aspárticas, proteases glutâmicas, metaloproteases e asparagina peptídeo liases.
[0050] Em alguns casos, pode ser útil remover proteínas extremamente grandes e pequenas (por exemplo, Titin), por exemplo, tais proteínas podem ser removidas por filtração ou outros métodos apropriados. Em alguns exemplos, proteínas extremamente grandes podem incluir proteínas que são pelo menos cerca de 400 quilodaltons (kD), 450 kD, 500 kD, 600 kD, 650 kD, 700 kD, 750 kD, 800 kD ou 850 kD. Em alguns exemplos, proteínas extremamente grandes podem incluir proteínas que apresentam pelo menos cerca de 8000 aminoácidos, cerca de 8500 aminoácidos, cerca de 9000 aminoácidos, cerca de 9500 aminoácidos, cerca de 10000 aminoácidos, cerca de 10500 aminoácidos, cerca de 11000 aminoácidos ou cerca de 15000 aminoácidos. Em alguns exemplos, proteínas pequenas podem incluir proteínas que são menores que cerca de 10 kD, 9 kD, 8 kD, 7 kD, 6 kD, 5 kD, 4 kD, 3 kD, 2 kKD ou 1 kD. Em alguns exemplos, proteínas pequenas podem incluir proteínas que são menores que cerca de 50 aminoácidos, 45 aminoácidos, 40 aminoácidos, 35 aminoácidos ou cerca de 30 aminoácidos. Proteínas extremamente grandes ou proteínas pequenas podem ser removidas por cromatografia de exclusão por tamanho. Proteínas extremamente grandes podem ser isoladas por cromatografia de exclusão por tamanho, tratadas como proteases para produzir polipeptídeos de tamanho moderado e recombinados com as proteínas de tamanho moderado da amostra.
[0051] As proteínas da amostra podem ser etiquetadas, por exemplo, com etiquetas identificáveis, para permitir a multiplexação das amostras. Alguns exemplos não limitantes de etiquetas identificáveis incluem: fluoróforos, nanopartículas fluorescentes, pontos quânticos, nanopartículas magnéticas ou ligantes baseados em código de barras de DNA. Os fluoróforos utilizados podem incluir proteínas fluorescentes tais como GFP, YFP, RFP, eGFP, mCherry, tdtomato, FITC, Alexa Fluor 350, Alexa Fluor 405, Alexa Fluor 488, Alexa Fluor 532, Alexa Fluor 546, Alexa Fluor 555, Alexa Fluor 568, Alexa Fluor 594, Alexa Fluor 647, Alexa Fluor 680, Alexa Fluor 750, Pacific Blue, Coumarin, BODIPY FL, Pacific Green, Oregon Green, Cy3, Cy5, Pacific Orange, TRITC, Texas Red, Ficoeritrina e Aloficocianina.
[0052] — Qualquer número de amostras de proteínas pode ser multiplexado. Por exemplo, uma reação multiplexada pode conter proteínas de 2, 3, 4, 5, 6, 7,8,9,10, 11, 12, 13, 14, 15, 16, 17, 18, 19, cerca de 20, cerca de 25, cerca de 30, cerca de 35, cerca de 40, cerca de 45, cerca de 50, cerca de 55, cerca de 60, cerca de 65, cerca de 70, cerca de 75, cerca de 80, cerca de 85, cerca de 90, cerca de 95, cerca de 100 ou mais de cerca de 100 amostras iniciais. As etiquetas identificáveis podem prover uma forma de questionar cada proteína como a sua amostra de origem ou pode direcionar as proteínas de diferentes amostras para segregar para diferentes áreas ou par um suporte sólido. Em algumas realizações, as proteínas são então aplicadas a um substrato funcionalizado para fixar quimicamente as proteínas ao substrato.
[0053] Qualquer número de amostras de proteínas pode ser misturado antes da análise sem etiquetagem ou multiplexação. Por exemplo, uma reação multiplexada pode conter proteínas de 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, cerca de 20, cerca de 25, cerca de 30, cerca de 35, cerca de 40, cerca de 45, cerca de 50, cerca de 55, cerca de 60, cerca de 65, cerca de 70, cerca de 75, cerca de 80, cerca de 85, cerca de 90, cerca de 95, cerca de 100 ou mais de cerca de 100 amostras iniciais. Por exemplo, o diagnóstico para condições raras pode ser realizado em amostras reunidas. A análise de amostras individuais podem ser então realizada apenas das amostras em um conjunto que testou positivo para o diagnóstico. As amostras podem ser multiplexadas sem etiquetagem pela utilização de um desenho de reunião combinatória no qual as amostras são misturadas em conjuntos de uma maneira que permite que o sinal de amostras individuais sejam resolvidos a partir dos conjuntos analisados pela utilização de demultiplexação computacional.
[0054] O termo “substrato”, tal como utilizado aqui, geralmente se refere a um substrato capaz de formar um suporte sólido. Substratos ou substratos sólidos, podem se referir a qualquer superfície sólida à qual as proteínas podem ser fixadas covalentemente ou não covalentemente. Exemplos não limitantes de substratos sólidos incluem partículas, esferas, lâminas, superfícies de elementos de dispositivos, membranas, câmaras de fluxo, poços, câmaras, câmaras macrofluídicas, câmaras microfluídicas, canais, canais microfluídicos ou quaisquer outras superfícies. As superfícies do substrato podem ser planas ou curvas ou podem apresentar outros formatos e podem ser lisas ou texturizadas. As superfícies do substrato podem conter micro poços. Em algumas realizações, o substrato pode ser composto de vidro, carboidratos tais como dextranos, plásticos tais como poliestireno ou polipropileno, poliacrilamida, látex, silicone, metais tais como ouro ou celulose e podem ser adicionalmente modificados para permitir ou aumentar a fixação covalente ou não covalente das proteínas. Por exemplo, a superfície do substrato pode ser funcionalizada por modificação com grupos funcionais específicos, tais como radicais maleicos ou succínicos ou derivatizada por modificação com um grupo quimicamente reativo, tais como grupos amino, tiol ou acrilato, tal como por silanização. Reagentes de silano adequados incluem aminopropiltrimetoxisilano, aminopropiltrietoxisilano e 4- aminobutiltrietoxisilano. O substrato pode ser funcionalizado com grupos funcionais de N-hidroxisuccinimida (NHS). Superfícies de vidro podem ser também derivatizadas com outros grupos reativos, tais como acrilato ou epóxi, pela utilização, por exemplo, de epoxisilano, acrilatosilano ou acrilamidasilano. O substrato e o processo para a fixação de proteína são preferivelmente estáveis para etapas repetidas de ligação, lavagem, formação de imagem e eluição. Em alguns exemplos, o substrato pode ser uma lâmina, uma câmara de fluxo ou uma estrutura em microescala ou em nano escala (por exemplo, uma estrutura ordenada tal como micro poços, micro pilares, matrizes de molécula única, nanobilhas, nanopilares ou nanofios).
[0055] O espaçamento dos grupos funcionais no substrato pode ser ordenado ou randômico. Um conjunto ordenado de grupos funcionais pode ser criado, por exemplo, por fotolitografia, nano litografia Dip-Pen, litografia por nano impressão, litografia por nano esfera, litografia por nano bilha, matrizes de nano pilares, litografia por nano fio, litografia por sonda de escaneamento, litografia termoquímica, litografia por sonda de escaneamento térmico, nano litografia por oxidação local, automontagem molecular, litografia por estêncil ou litografia por feixe de elétrons. Os grupos funcionais em um conjunto ordenado podem ser localizados de tal forma que cada grupo funcional fica menos de 200 nanômetros (nm) ou cerca de 200 nm, cerca de 225 nm, cerca de 250 nm, cerca de 275 nm, cerca de 300 nm, cerca de 325 nm, cerca de 350 nm, cerca de 375 nm, cerca de 400 nm, cerca de 425 nm, cerca de 450 nm, cerca de 475 nm, cerca de 500 nm, cerca de 525 nm, cerca de 550 nm, cerca de 575 nm, cerca de 600 nm, cerca de 625 nm, cerca de 650 nm, cerca de 675 nm, cerca de 700 nm, cerca de 725 nm, cerca de 750 nm, cerca de 775 nm, cerca de 800 nm, cerca de 825 nm, cerca de 850 nm, cerca de 875 nm, cerca de 900 nm, cerca de 925 nm, cerca de 950 nm, cerca de 975 nm, cerca de 1000 nm, cerca de 1025 nm, cerca de 1050 nm, cerca de 1075 nm, cerca de 1100 nm, cerca de 1125 nm, cerca de 1150 nm, cerca de 1175 nm, cerca de 1200 nm, cerca de 1225 nm, cerca de 1250 nm, cerca de 1275 nm, cerca de 1300 nm, cerca de 1325 nm, cerca de 1350 nm, cerca de 1375 nm, cerca de 1400 nm, cerca de 1425 nm, cerca de 1450 nm, cerca de 1475 nm, cerca de 1500 nm, cerca de 1525 nm, cerca de 1550 nm, cerca de 1575 nm, cerca de 1600 nm, cerca de 1625 nm, cerca de 1650 nm, cerca de 1675 nm, cerca de 1700 nm, cerca de 1725 nm, cerca de 1750 nm, cerca de 1775 nm, cerca de 1800 nm, cerca de 1825 nm, cerca de 1850 nm, cerca de 1875 nm, cerca de 1900 nm, cerca de 1925 nm, cerca de 1950 nm, cerca de 1975 nm, cerca de 2000 nm ou mais de 2000 nm de qualquer outro grupo funcional. Os grupos funcionais em um espaçamento randômico podem ser providos a uma concentração tal que os grupos funcionais ficam em média pelo menos cerca de 50 nm, cerca de 100 nm, cerca de 150 nm, cerca de 200 nm, cerca de 250 nm, cerca de 300 nm, cerca de 350 nm, cerca de 400 nm, cerca de 450 nm, cerca de 500 nm, cerca de 550 nm, cerca de 600 nm, cerca de 650 nm, cerca de 700 nm, cerca de 750 nm, cerca de 800 nm, cerca de 850 nm, cerca de 900 nm, cerca de 950 nm, cerca de 1000 nm ou mais de 100 nm de qualquer outro grupo funcional.
[0056] O substrato pode ser funcionalizado indiretamente. Por exemplo, o substrato pode ser PEGuilado e um grupo funcional pode ser aplicado a todas ou a um subconjunto de moléculas PEG. O substrato pode ser funcionalizado pela utilização de técnicas adequadas para estruturas em microescala ou nano escala (por exemplo, uma estrutura ordenada tal como micro poços, micro pilares, matrizes me molécula única, nano bilhas, nano pilares ou nano fios).
[0057] O substrato pode ser de qualquer material, incluindo metais, vidro, plásticos, cerâmicas ou combinações destes. Em algumas realizações preferidas, o substrato sólido pode ser uma câmara de fluxo. A câmara de fluxo pode ser composta de uma camada única ou camadas múltiplas. Por exemplo, uma câmara de fluxo pode compreender uma camada de base (por exemplo, de vidro de silicato de boro), uma camada de canal (por exemplo, de silício gravado) sobreposta à camada de base e uma camada de cobertura ou parte de cima. Quando as camadas são montadas em conjunto, os canais podem ser formados apresentando entradas/saídas em qualquer das extremidades através da cobertura. A espessura da cada camada pode variar, mas é preferivelmente menor que cerca de 1700 um. As camadas podem ser compostas de materiais adequados tais como vidros fotossensíveis, vidro de boro silicato, silicato fundido, PDMS ou silício. Camadas diferentes podem ser compostas do mesmo material ou de matérias diferentes.
[0058] Em algumas realizações, as câmaras de fluxo podem conter aberturas para os canais no fundo da câmara de fluxo. Uma câmara de fluxo pode compreender milhões de locais de conjugação alvo fixados em localizações que podem ser visualizados discretamente. — Em algumas realizações, várias câmaras de fluxo de uso com as realizações da invenção podem conter diferentes números de canais (por exemplo, 1 canal, 2 ou mais canais, 3 ou mais canais, 4 ou mais canais, 6 ou mais canais, 8 ou mais canais, ou mais canais, 12 ou mais canais, 16 ou mais canais ou mais de 16 canais). Várias câmaras de fluxo podem conter canais de profundidades ou larguras diferentes, que podem ser diferentes entre os canais no interior de uma única câmara de fluxo ou diferentes entre canais de diferentes câmaras de fluxo. Um único canal pode variar também em profundidade e/ou largura. Por exemplo, um canal pode apresentar menos de cerca de 50 um de profundidade, cerca de 50 um de profundidade, menos de cerca de 100 um de profundidade, cerca de 100 um de profundidade, cerca de 100 um a cerca de 500 um de profundidade, cerca de 500 um de profundidade ou mais de cerca de 500 um de profundidade em um ou mais pontos no interior do canal. Os canais podem apresentar qualquer formato de seção transversal, incluindo, mas não se limitando a,
seção transversal circular, semicircular, retangular, trapezoidal, triangular ou ovoide.
[0059] As proteínas podem ser aplicadas no substrato como pontos, em gotas, pipetadas, fluidas, lavadas ou de alguma outra forma. No caso de um substrato que foi funcionalizado com um radical tal como um éster NHS, nenhuma modificação da proteína é requerida. No caso de um substrato que foi funcionalizado com radicais alternados (por exemplo, a sulfidril, amina ou ácido nucleico ligante), um reagente de reticulação (por exemplo, suberato de disuccinimidil, NHS, sulfonamidas) pode ser utilizado. No caso de um substrato que foi funcionalizado com ácido nucleico ligante, as proteínas da amostra podem ser modificadas com etiquetas de ácido nucleico complementar.
[0060] —Reticulantes foto ativáveis podem ser utilizados para direcionar a reticulação de uma amostra para uma área específica no substrato. Os reticulantes foto ativáveis podem ser utilizados para permitir a multiplexação das amostras de proteínas pela fixação de cada amostra em uma região conhecida do substrato. Os reticulantes foto ativáveis podem permitir a fixação das proteínas que foram etiquetadas com sucesso, por exemplo, pela detecção de uma etiqueta fluorescente antes da reticulação da. Exemplos de reticulantes foto ativáveis incluem, mas não se limitam a, N-5-azido-2- nitrobenzoiloxisuccinimida, sulfosuccinimidil 6-(4'-azido-2"- nitrofenilamino)hexanoato, succinimidil 4,4'-azipentanoato, sulfosuccinimidil 4 ,4'-azipentanoato, succinimidil 6-(4,4'-azipentanamido)hexanoato, sulfosuccinimidil 6-(4,4'-azipentanamido)hexanoato, succinimidil 2-((4,4"- azipentanamido)etil)-1,3'-ditiopropionato — e —sulfosuccinimidil — 2-((4,4"- azipentanamido)etil)-1,3'-ditiopropionato.
[0061] Os polipeptídeos podem ser fixados no substrato por um ou mais resíduos. Em alguns exemplos, os polipeptídeos podem ser fixados por meio do terminal N, terminal C, ambos os terminais ou por meio de um resíduo interno.
[0062] Em adição a reticulantes permanentes, pode ser apropriado para algumas aplicações a utilização de ligantes foto cliváveis e assim o fazendo possibilita que as proteínas sejam seletivamente extraídas do substrato após a análise. Em alguns casos os reticulantes foto cliváveis podem ser utilizados para várias amostras multiplexadas diferentes. Em alguns casos, os reticulantes foto cliváveis podem ser utilizados de uma ou mais amostras dentro de uma reação multiplexada. Em alguns casos, uma reação multiplexada pode compreender amostras de controle reticuladas ao substrato por meio de reticulantes permanentes e amostras experimentais reticuladas ao substrato por meio de reticulantes foto cliváveis.
[0063] Cada proteína conjugada pode ser separada espacialmente de cada outra proteína conjugada de tal forma que cada proteína conjugada é resolvível oticamente. As proteínas, desta forma, podem ser rotuladas individualmente com um endereço espacial único. Em algumas realizações, isto pode ser conseguido pela conjugação utilizando baixas concentrações da proteína e baixa densidade dos locais de fixação no substrato de tal forma que cada molécula de proteína é espacialmente separada de cada outra molécula de proteína. Nos exemplos em que reticulantes foto ativáveis são utilizados um padrão luminoso pode ser utilizado de tal forma que as proteínas são fixadas em locais predeterminados.
[0064] Em algumas realizações, cada proteína pode ser associada com um endereço espacial único. Por exemplo, uma vez fixadas as proteínas no substrato em localizações separadas espacialmente, a cada proteína pode ser atribuído um endereço indexado, tal como por coordenadas. Em alguns exemplos, uma grade de endereços espaciais únicos pré-atribuídos pode ser predeterminada. Em algumas realizações, o substrato pode conter marcas fixas facilmente identificáveis de tal forma que a colocação de cada proteína pode ser determinada em relação às marcas fixas do substrato. Em alguns exemplos, o substrato pode apresentar linhas de grade e/ou “origem” ou outros fiduciais marcados permanentemente na superfície. Em alguns exemplos, a superfície do substrato pode ser marcada permanentemente ou semi- permanentemente para prover uma referência com a qual localizar as proteínas reticuladas. O formato da padronização em si, tal como as bordas externas dos polipeptídeos conjugados, pode ser utilizado como fiducial para a determinação da localização única de cada ponto.
[0065] O substrato pode conter também padrões e controles de proteína conjugada. Os padrões e controles de proteína conjugada podem ser peptídeos ou proteínas de sequência conhecida que foram conjugados em locais conhecidos. Em alguns exemplos, padrões e controles de proteína conjugada podem servir como controles internos em um ensaio. As proteínas podem ser aplicadas no substrato a partir de estoques de proteína purificada ou podem ser sintetizadas no substrato por meio de um processo tal como a Matriz de Proteínas Programáveis de Ácido Nucleico (“Nucleic Acid-Programmable Protein Array” - NAPPA).
[0066] Em alguns exemplos, o substrato pode compreender padrões fluorescentes. Estes padrões fluorescentes podem ser utilizados para calibrar a intensidade dos sinais fluorescentes de ensaio para ensaio. Estes padrões fluorescentes podem ser utilizando-se também para correlacionar a intensidade de um sinal fluorescente com o número de fluoróforos presentes em uma área. Os padrões fluorescentes podem compreender alguns ou todos os diferentes tipos de fluoróforos utilizados no ensaio.
[0067] “Uma vez conjugado o substrato com as proteínas da amostra, podem ser realizadas medições de reagente de afinidade múltipla. Os processos de medição descritos aqui podem utilizar vários reagentes de afinidade. Em algumas realizações, reagentes de afinidades múltiplas podem ser misturados em conjunto e as medições podem ser realizadas na ligação da mistura de reagentes de afinidade ao conjugado proteína-substrato. Em alguns casos, as medições realizadas na ligação das misturas de reagentes de afinidade podem variar para diferentes condições de solvente e/ou condições de dobramento da proteína; desta forma, medições repetidas podem ser realizadas no mesmo reagente de afinidade ou conjuntos de reagentes de afinidade, sob condições de solvente variáveis e/ou condições de dobramento de proteína variáveis, de maneira a se obter diferentes conjuntos de medições de ligação. Em alguns casos, diferentes conjuntos de medições de ligação podem ser obtidos pela realização de medições repetidas nas amostras nas quais as proteínas foram tratadas enzimaticamente (por exemplo, com glicosidase, fosforilase ou fosfatase) ou tratadas não enzimaticamente.
[0068] O termo “reagente de afinidade”, tal como utilizado aqui, refere-se geralmente a um reagente que liga proteínas ou peptídeos com especificidade reprodutível. Por exemplo, os reagentes de afinidade podem ser anticorpos, fragmentos de anticorpo, aptâmeros, ligantes de mini proteína ou peptídeos. Em algumas realizações, os ligantes de mini proteína podem compreender ligantes de proteína que podem apresentar entre 30-210 aminoácidos de comprimento. Em algumas realizações, os ligantes de mini proteína podem ser desenhados. Por exemplo, os ligantes de proteína podem incluir macrociclos de peptídeo (por exemplo, como descrito em [Hosseinzadeh er al., “Comprehensive computational design of ordemed peptide macrocycles”, Science, 2017 Dec. 15; 358(6369): 1461-1466], que é aqui incorporado como referência em sua totalidade). Em algumas realizações, podem ser preferidos anticorpos monoclonais. Em algumas realizações, fragmentos de anticorpo tais como fragmentos Fab podem ser preferidos. Em algumas realizações, os reagentes de afinidade podem ser reagentes de afinidade comercialmente disponíveis, tais como anticorpos comercialmente disponíveis. Em algumas realizações, os reagentes de afinidade desejados podem ser selecionados por varredura de reagentes de afinidade comercialmente disponíveis para a identificação de características úteis.
[0069] Os reagentes de afinidade podem apresentar especificidade alta, moderada ou baixa. Em alguns exemplos, os reagentes de afinidade podem reconhecer vários epitopos diferentes. Em alguns exemplos, os reagentes de afinidade podem reconhecer epitopos presentes em duas ou mais proteínas diferentes. Em alguns exemplos, os reagentes de afinidade podem reconhecer epitopos presentes em muitas proteínas diferentes. Em alguns casos, um reagente de afinidade utilizado nos métodos deste relatório pode ser altamente específico para um único epitopo. Em alguns casos, um reagente de afinidade utilizado nos métodos deste relatório pode ser altamente específico para um epitopo único contendo uma modificação posterior à tradução. Em alguns casos, os reagentes de afinidade podem apresentar especificidade altamente similar para o epitopo. Em alguns casos, os reagentes de afinidade com especificidade altamente similar para o epitopo podem ser desenhados especificamente para resolver sequências de proteína candidatas altamente similares (por exemplo, candidatas com variantes de aminoácido único ou isoformas). Em alguns casos, os reagentes de afinidade podem apresentar especificidade de epitopo altamente diversa de maneira a maximizar a cobertura da sequência de proteína. Em algumas realizações, os experimentos podem ser realizados em replicata com a mesma sonda de afinidade com a expectativa de que os resultados possam diferir e, desta forma, prover informação adicional para a identificação da proteína, devido à natureza estocástica da ligação da sonda ao proteína-substrato.
[0070] Em alguns casos, o epitopo ou epitopos específicos reconhecidos por um reagente de afinidade podem não ser totalmente conhecidos. Por exemplo, os reagentes de afinidade podem ser desenhados ou selecionados para se ligarem especificamente a uma ou mais proteínas completas, complexos de proteínas ou fragmentos de proteína sem conhecimento de um epitopo de ligação específico. Por meio de um processo de qualificação, o perfil de ligação deste reagente pode ter sido elaborado. Mesmo embora o(s) epitopo(s) de ligação específico(s) seja(m) desconhecido(s), as medições de ligação utilizando os dito reagente de afinidade pode ser utilizado para determinar a identidade da proteína. Por exemplo, um anticorpo ou aptâmero comercialmente disponível para a ligação a uma proteína alvo pode ser utilizado como reagente de afinidade. Após a qualificação sob condições de ensaio (por exemplo, totalmente dobrada, parcialmente ou totalmente desnaturada), a ligação deste reagente de afinidade a uma proteína desconhecida pode prover informação a cerca da identidade da proteína desconhecida.
Em alguns casos, uma coleção de reagentes de afinidade específicos para a proteína (por exemplo, anticorpos ou aptâmeros) pode ser utilizada para gerar a identificação de proteínas, com ou sem o conhecimento dos epitopos específicos para os quais estão orientados.
Em alguns casos, a coleção de reagentes de afinidade específicos para proteína pode conter cerca de 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 2000, 3000, 4000, 5000, 10000, 20000 ou mais de 20000 reagentes de afinidade.
Em alguns casos, a coleção de reagentes de afinidade pode conter todos os reagentes de afinidade comercialmente disponíveis que demonstrem reatividade para o alvo em um organismo específico.
Por exemplo, uma coleção de reagentes de afinidade específicos para proteína podem ser ensaiados em série, com medições de ligação para cada reagente de afinidade feitas individualmente.
Em alguns casos, subconjuntos dos reagentes de afinidade específicos para proteína podem ser misturados antes da medição de ligação.
Por exemplo, para cada passo da medição de ligação, uma nova mistura de reagentes de afinidade pode ser selecionada compreendendo um subconjunto dos reagentes de afinidade selecionados randomicamente a partir do conjunto completo.
Por exemplo, cada mistura subsequente pode ser gerada da mesma maneira randômica, com a expectativa de que muitos dos reagentes de afinidade estarão presentes em mais de uma das misturas.
Em alguns casos, a identificação de proteínas pode ser gerada mais rapidamente pela utilização de misturas de reagentes de afinidade específicos para proteína.
Em alguns casos, tais misturas de reagentes de afinidade específicos para proteína podem aumentar a percentagem de proteínas desconhecidas para as quais um reagente de afinidade se liga em qualquer passo individual.
As misturas de reagentes de afinidade podem conter cerca de 1%, 5%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% ou mais de 90% de todos os reagentes de afinidade disponíveis. As misturas de reagentes de afinidade avaliadas em um único experimento podem ou não compartilhar reagentes de afinidade individuais em comum. Em alguns casos, pode haver reagentes de afinidade múltiplos diferentes em uma coleção que se ligam à mesma proteína. Em alguns casos, cada reagente de afinidade na coleção pode se ligar a uma proteína diferente. Nos casos em que reagentes de afinidade múltiplos com afinidade para a mesma proteína se ligam a uma única proteína desconhecida, a confiança na identidade da proteína desconhecida sendo o alvo comum dos ditos reagentes de afinidade pode aumentar. Em alguns casos, a utilização de reagentes de afinidade múltiplos que são direcionados para a mesma proteína podem prover redundância nos casos em que os reagentes de afinidade múltiplos ligam diferentes epitopos na mesma proteína e a ligação de apenas um subconjunto dos reagentes de afinidade que são direcionados para esta proteína pode interferir com as modificações posteriores à tradução ou outro impedimento estérico de um epitopo de ligação. Em alguns casos, a ligação de reagentes de afinidade para os quais o epitopo de ligação é desconhecido pode ser utilizada em conjunto com as medições de ligação dos reagentes de afinidade para os quais o epitopo de ligação é conhecido por gerar identificação de proteínas.
[0071] Em alguns exemplos, um ou mais reagentes de afinidade podem ser escolhidos para ligar motivos de aminoácidos de um dado comprimento, tal como 2, 3, 4, 5, 6, 7, 8, 9, 10 ou mais de 10 aminoácidos. Em alguns exemplos, um ou mais reagentes de afinidade podem ser escolhidos para ligar motivos de aminoácidos de faixa de diferentes comprimentos de 2 aminoácidos a 40 aminoácidos.
[0072] Em alguns casos, os reagentes de afinidade podem ser rotulados com códigos de barras de ácido nucleico. Em alguns exemplos, os códigos de barras de ácido nucleico podem ser utilizados para purificar os reagentes de afinidade após o uso. Em alguns exemplos, os códigos de barras de ácido nucleico podem ser utilizados para separar os reagentes de afinidade para usos repetidos. Em alguns casos, os reagentes de afinidade podem ser rotulados com fluoróforos que podem ser utilizados para separar os reagentes de afinidade após o uso.
[0073] A família de reagentes de afinidade pode compreender um ou mais tipos de reagentes de afinidade. Por exemplo, os métodos do presente relatório podem utilizar uma família de reagentes de afinidade compreendendo um ou mais anticorpos, fragmentos de anticorpo, fragmentos Fab, aptâmeros, peptídeos e proteínas.
[0074] Os reagentes de afinidade podem ser modificados. Exemplos de modificações incluem, mas não se limitam a, fixação de um radical de detecção. Os radicais de detecção podem ser fixados diretamente ou indiretamente. — Por exemplo, o radical de detecção pode ser fixado diretamente covalentemente ao reagente de afinidade ou pode ser fixado por meio de um ligante ou pode ser fixado por meio de uma reação de afinidade tal como etiquetas de ácido nucleico complementares ou um par biotina estreptavidina. Os métodos de fixação que são capazes de suportar lavagem e eluição brandas do reagente de afinidade podem ser preferidos.
[0075] Os reagentes de afinidade podem ser etiquetados, por exemplo, com etiquetas identificáveis, de maneira a permitir a identificação ou quantificação de eventos de ligação (por exemplo, com detecção por fluorescência dos eventos de ligação). Alguns exemplos não limitantes de etiquetas identificáveis incluem: fluoróforos, nanopartículas magnéticas ou ligantes baseados em código de barras de ácido nucleico. Os fluoróforos utilizados podem incluir proteínas fluorescentes tais como GFP, YFP, RFP, eGFP, mCherry, tdtomato, FITC, Alexa Fluor 350, Alexa Fluor 405, Alexa Fluor 488, Alexa Fluor 532, Alexa Fluor 546, Alexa Fluor 555, Alexa Fluor 568, Alexa Fluor 594, Alexa Fluor 647, Alexa Fluor 680, Alexa Fluor 750, Pacific Blue, Coumarin, BODIPY FL, Pacific Green, Oregon Green, Cy3, Cy5, Pacificc Orange, TRITC, Texas Red, Ficoeritrina e Aloficocianina. Alternativamente, os reagentes de afinidade podem ser não etiquetados, tal como quando eventos de ligação são diretamente detectados, por exemplo,
detecção por ressonância plasmônica de superfície (SPR) dos eventos de ligação.
[0076] “Exemplos de radicais de detecção incluem, mas não se limitam a, fluoróforos, proteínas bioluminescentes, segmentos de ácido nucleico incluindo uma região constante e região de código de barras ou amarras químicas para a ligação a uma nanopartícula tal como uma partícula magnética. Por exemplo, os reagentes de afinidade podem ser etiquetados com códigos de barras de DNA, que podem ser então explicitamente sequenciados em suas localizações. Como um outro exemplo, conjuntos de diferentes fluoróforos podem ser utilizados como radicais de detecção por métodos de detecção por transferência ressonante por energia por fluorescência (FRET). Os radicais de detecção podem incluir vários fluoróforos diferentes com diferentes padrões de excitação ou emissão.
[0077] O radical de detecção pode ser clivado do reagente de afinidade. Isto pode permitir que uma etapa na qual os radicais de detecção são removidos dos reagentes de afinidade que não mais são de interesse de maneira a reduzir a contaminação do sinal.
[0078] Em alguns casos, os reagentes de afinidade são não modificados. Por exemplo, se o reagente de afinidade for um anticorpo, então a presença do anticorpo pode ser detectada por microscopia de força atômica. Os reagentes de afinidade podem ser não modificados e podem ser detectados, por exemplo, por anticorpos específicos para um ou mais dos reagentes de afinidade. Por exemplo, se o reagente de afinidade for um anticorpo de camundongo, então o anticorpo de camundongo pode detectado pela utilização de um anticorpo secundário anti-camundongo. Alternativamente, o reagente de afinidade pode ser um aptâmero que é detectado por um anticorpo específico para o aptâmero. O anticorpo secundário pode ser modificado com um radical de detecção como descrito acima. Em alguns casos, a presença do anticorpo secundário pode ser detectado por microscopia de força atômica.
[0079] Em alguns exemplos, os reagentes de afinidade podem compreender a mesma modificação, por exemplo, uma proteína fluorescente verde conjugada, ou pode compreender dois ou mais tipos diferentes de modificação.
Por exemplo, cada reagente de afinidade pode ser conjugado a um de vários radicais fluorescentes diferentes, cada um com um comprimento de onda diferente de excitação ou emissão.
Isto pode permitir a multiplexação dos reagentes de afinidade na medida em que vários diferentes reagentes de afinidade podem ser combinados e/ou distinguidos.
Em um exemplo, um primeiro reagente de afinidade pode ser conjugado a uma proteína fluorescente verde, um segundo reagente de afinidade pode ser conjugado a uma proteína fluorescente amarela e um terceiro reagente de afinidade pode ser conjugado a uma proteína fluorescente vermelha, desta forma, os três reagentes de afinidade podem ser multiplexados e identificados por sua fluorescência.
Em um exemplo adicional, um primeiro, quarto e sétimo reagente de afinidade pode ser conjugado a uma proteína fluorescente verde, um segundo, quinto e oitavo reagente de afinidade pode ser conjugado a uma proteína fluorescente amarela e um terceiro, sexto e nono reagente de afinidade pode ser conjugado a uma proteína fluorescente vermelha; neste caso, o primeiro, segundo e terceiro reagentes de afinidade podem ser multiplexados em conjunto enquanto o segundo, quarto e sétimo reagentes de afinidade e o terceiro, sexto e nono reagentes de afinidade formam duas reações de multiplexação adicionais.
O número de reagentes de afinidade que podem ser multiplexados em conjunto pode depender dos radicais de detecção utilizados para diferenciá-los.
Por exemplo, a multiplexação de reagentes de afinidade rotulados com fluoróforos pode ser limitada pelo número de fluoróforos especiais disponíveis.
Como exemplo adicional, a multiplexação dos reagentes de afinidade rotulados com etiquetas de ácido nucleico pode ser determinada pelo comprimento do código de barras de ácido nucleico.
Os ácido nucleicos podem ser ácido desoxirribonucleico (DNA) ou ácido ribonucleico (RNA).
[0080] A especificidade de cada reagente de afinidade pode ser determinada antes do uso em um ensaio.
A especificidade de ligação dos reagentes de afinidade pode ser determinada em um experimento de controle pela utilização de proteínas conhecidas.
Quaisquer métodos experimentais apropriados podem ser utilizados para determinar a especificidade do reagente de afinidade.
Em um exemplo, um substrato pode ser carregado com padrões proteína conhecidos em locais conhecidos e utilizado para avaliar a especificidade de uma pluralidade de reagentes de afinidade.
Em um outro exemplo, um substrato pode conter tanto amostras experimentais quanto um painel de controles e padrões, de tal forma que a especificidade de cada reagente de afinidade pode ser calculada a partir da ligação aos controles e padrões e então utilizada para identificar as amostras experimentais.
Em alguns casos, os reagentes de afinidade com especificidade desconhecida podem ser incluídos juntamente com reagentes de afinidade de especificidade conhecida, os dados de reagentes de afinidade com especificidade conhecida podem ser utilizados para identificar proteínas e o padrão de ligação dos reagentes de afinidade com especificidades desconhecidas para as proteínas identificadas pode ser utilizado para determinar suas especificidades de ligação.
É também possível reconfirmar a especificidade de qualquer reagente de afinidade individual pela utilização de dados de ligação conhecidos de outros reagentes de afinidade para avaliar quais proteínas o reagente de afinidade individual liga.
Em alguns casos, a frequência de ligação do reagente de afinidade a cada proteína conhecida conjugada ao substrato pode ser utilizada para derivar uma probabilidade de ligação a qualquer uma das proteínas no substrato.
Em alguns casos, a frequência de ligação a proteínas conhecidas contendo um epitopo (por exemplo, uma sequência de aminoácidos ou modificação posterior à tradução) pode ser utilizada para determinar a probabilidade de ligação do reagente de afinidade a um epitopo particular.
Desta forma, com usos múltiplos de um painel de reagentes de afinidade, as especificidades dos reagentes de afinidade podem ser refinadas gradualmente com cada iteração. Embora os reagentes de afinidade que são específicos de forma única para proteínas particulares possam ser utilizados, os métodos descritos aqui podem não os requerer. — Adicionalmente, os métodos podem ser efetivos em uma faixa de especificidades. Em alguns exemplos, os métodos descritos aqui podem ser particularmente eficientes quando os reagentes de afinidade não são específicos para qualquer proteína particular, mas, em vez disto, são específicos para motivos de aminoácidos (por exemplo, o tri-peptídeo AAA).
[0081] Em alguns exemplos, os reagentes de afinidade podem ser escolhidos para apresentar afinidades de ligação altas, moderadas ou baixas. Em alguns casos, os reagentes de afinidade com afinidades de ligação baixas ou moderadas podem ser preferidos. Em alguns casos, os reagentes de afinidade podem apresentar constantes de dissociação de cerca de 10º M, 10º M, 10º M, 10º M, 107 M, 10º M, 10º M, 10º M ou menos de cerca de 107º M. Em alguns casos, os reagentes de afinidade podem apresentar constantes de dissociação acima de cerca de 107º M, 10º M, 10º M, 107 M, 10 M, 10º M, 10º M, 10? M, 10? M ou acima de 10? M. Em alguns casos, os reagentes de afinidade com taxas baixas ou moderadas de kr ou taxas moderadas ou altas de k., podem ser preferidos.
[0082] — Alguns dos reagentes de afinidade podem ser escolhidos para ligar sequências de aminoácidos modificadas, tais como sequências de aminoácidos fosforiladas ou ubiquitinadas. Em alguns exemplos, um ou mais reagentes de afinidade podem ser escolhidos para serem amplamente específicos para uma família de epitopos que pode estar contida por uma ou mais proteínas. Em alguns exemplos, um ou mais reagentes de afinidade podem ligar duas ou mais proteínas diferentes. Em alguns exemplos, um ou mais reagentes de afinidade podem se ligar de forma fraca a seu alvo ou alvos. Por exemplo, os reagentes de afinidade podem se ligar menos de 10%, menos de 10%, menos de 15%, menos de 20%, menos de 25%, menos de 30% ou menos de 35% a seu alvo ou alvos. Em alguns exemplos, um ou mais reagentes de afinidade podem se ligar moderadamente ou fortemente a seu alvo ou alvos. Por exemplo, os reagentes de afinidade podem se ligar mais de 35%, mais de 40%, mais de 45%, mais de 60%, mais de 65%, mais de 70%, mais de 75%, mais de 80%, mais de 85%, mais de 90%, mais de 91%, mais de 92%, mais de 93%, mais de 94%, mais de 95%, mais de 96%, mais de 97%, mais de 98% ou mais de 99% a seu alvo ou alvos.
[0083] De maneira a compensar a ligação fraca, pode ser aplicado um excesso do reagente de afinidade ao substrato. O reagente de afinidade pode ser aplicado em um excesso de cerca de 1:1, 2:1, 3:1, 4:1, 5:1, 6:1, 7:1, 8:1, 9:1 ou 10:1 em relação às proteínas na amostra. O reagente de afinidade pode ser aplicado em um excesso de cerca de 1:1, 2:1, 3:1, 4:1, 5:1, 6:1, 7:1, 8:1, 9:1 ou 10:1 em relação à incidência esperada do epitopo nas proteínas da amostra.
[0084] De maneira a compensar taxas de dissociação altas do reagente de afinidade, pode ser fixado um radical ligante a cada reagente de afinidade e utilizado para ligar de forma reversível os reagentes de afinidade ao substrato ou proteína desconhecida ao qual se liga. Por exemplo, uma etiqueta de DNA pode ser fixada na extremidade de cada reagente de afinidade e uma etiqueta de DNA diferente fixada no substrato ou a cada proteína desconhecida. Após a hibridização do reagente de afinidade com as proteínas desconhecidas, um DNA ligante complementar à etiqueta de DNA associada ao reagente de afinidade em uma extremidade e a etiqueta associada ao substrato na outra podem ser lavadas no chip para ligar o reagente de afinidade ao substrato e prevenir que o reagente de afinidade se dissocie antes da medição. Após a ligação, o reagente de afinidade ligado pode ser liberado por lavagem na presença de calor ou alta concentração salina para romper a ligação do ligante de DNA.
[0085] A FIG.21 ilustra duas etapas de hibridização no reforço de uma ligação entre um reagente de afinidade e uma proteína, de acordo com algumas realizações. Em particular, a etapa 1 da FIG. 21 ilustra a hibridização de um reagente de afinidade. Como observado na etapa 1, o reagente de afinidade (2110) é hibridizado à proteína (2130). A proteína (2130) é ligada a uma lâmina (2105). Como observado na etapa 1, o reagente de afinidade (2110) apresenta uma etiqueta de DNA (2120) fixada. Em algumas realizações, um reagente de afinidade pode conter mais de uma etiqueta de DNA fixada. Em algumas realizações, um reagente de afinidade pode conter 1, 2, 3, 4, 5, 6,7, 8,9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 ou mais de 20 etiquetas de DNA fixadas. A etiqueta de DNA (2120) compreende uma etiqueta de DNA de fita única (ssDNA) contendo uma sequência de reconhecimento (2125). Adicionalmente, a proteína (2130) compreende duas etiquetas de DNA (2140). Em algumas realizações, as etiquetas de DNA podem ser adicionadas pela utilização de produtos químicos que reagem com as cisteínas em uma proteína. Em algumas realizações, uma proteína pode conter mais de uma etiqueta de DNA fixada. Em algumas realizações, uma proteína pode conter 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100 ou mais de 100 etiquetas de DNA fixadas. Cada etiqueta de DNA (2140) compreende uma etiqueta de ssDNA contendo uma sequência de reconhecimento (2145).
[0086] — Como observado na etapa 2, o ligante de DNA (2150) é hibridizado às etiquetas de DNA (2120) e (2140) fixadas no reagente de afinidade (2110) e proteína (2130), respectivamente. O ligante de DNA (2150) compreende ssDNA contendo sequências complementares às sequências de reconhecimento (2125) e (2145), respectivamente. Além disto, as sequências de reconhecimento (2125) e (2145) estão situadas no ligante de DNA (2150) de maneira a permitir que o ligante de DNA (2150) se ligue a ambas as etiquetas de DNA (2120) e (2140) ao mesmo tempo, como ilustrado na etapa
2. Em particular, uma primeira região (2152) do ligante de DNA (2150) é hibridizada seletivamente à sequência de reconhecimento (2125) e uma segunda região (2154) do ligante de DNA (2150) é hibridizada seletivamente à sequência de reconhecimento (2145). Em algumas realizações, a primeira região (2152) e a segunda região (2154) podem ser separadas espacialmente entre si no ligante de DNA.
Em particular, em algumas realizações, uma primeira região de um ligante de DNA e uma segunda região de um ligante de DNA podem ser separadas espacialmente por uma sequência espaçadora que não hibridiza entre a primeira região e a segunda região.
Além disto, em algumas realizações, uma sequência de reconhecimento pode ser menos do que completamente complementar a um ligante de DNA e pode, mesmo assim, se ligar à sequência do ligante de DNA.
Em algumas realizações, um comprimento de uma sequência de reconhecimento pode ser menor que 5 nucleotídeos, 5 nucleotídeos, 6 nucleotídeos, 7 nucleotídeos, 8 nucleotídeos, 9 nucleotídeos, 10 nucleotídeos, 11 nucleotídeos, 12 nucleotídeos, 13 nucleotídeos, 14 nucleotídeos, 15 nucleotídeos, 16 nucleotídeos, 17 nucleotídeos, 18 nucleotídeos, 19 nucleotídeos, 20 nucleotídeos, 21 nucleotídeos, 22 nucleotídeos, 23 nucleotídeos, 24 nucleotídeos, 25 nucleotídeos, 26 nucleotídeos, 27 nucleotídeos, 28 nucleotídeos, 29 nucleotídeos ou 30 nucleotídeos ou mais de 30 nucleotídeos.
Em algumas realizações, uma sequência de reconhecimento pode apresentar um ou mais descasamentos a uma sequência de etiqueta de DNA complementar.
Em algumas realizações, aproximadamente 1 em 10 nucleotídeos de uma sequência de reconhecimento pode ser descasada com uma sequência de etiqueta de DNA sequência complementar e pode ainda ser hibridizado à sequência da etiqueta de DNA complementar.
Em algumas realizações, menos de 1 em 10 nucleotídeos de uma sequência de reconhecimento pode ser descasada com uma sequência da etiqueta de DNA complementar e pode mesmo assim ser hibridizado à sequência da etiqueta de DNA complementar.
Em algumas realizações, aproximadamente 2 em 10 nucleotídeos de uma sequência de reconhecimento podem ser descasados com uma sequência da etiqueta de DNA complementar e podem mesmo assim ser hibridizados à sequência da etiqueta de DNA complementar.
Em algumas realizações, mais de 2 em 10 nucleotídeos de uma sequência de reconhecimento podem ser descasados com uma sequência da etiqueta de DNA complementar e podem mesmo assim ser hibridizados à sequência da etiqueta de DNA complementar.
[0087] Os reagentes de afinidade podem compreender também um componente magnético. O componente magnético pode ser útil para a manipulação de alguns ou todos os reagentes de afinidade ligados no mesmo plano de imagem ou pulha z. A manipulação de alguns ou todos os reagentes de afinidade no mesmo plano de imagem pode aumentar a qualidade dos dados de imagem e reduzir o ruído no sistema.
[0088] O termo “detector”, tal como utilizado aqui, refere-se geralmente a um dispositivo que é capaz de detectar um sinal, incluindo um sinal indicativo da presença ou ausência de um evento de ligação de um reagente de afinidade a uma proteína. O sinal pode ser um sinal direto indicativo da presença ou ausência de um evento de ligação, tal como um sinal de ressonância plasmônica de superfície (SPR). O sinal pode ser um sinal indireto indicativo da presença ou ausência de um evento de ligação, tal como um sinal fluorescente. Em alguns casos, um detector pode incluir componentes óticos e/ou eletrônicos que podem detectar sinais. O termo “detector” pode ser utilizado em métodos de detecção. Exemplos não limitantes de métodos de detecção incluem detecção ótica, detecção espectroscópica, detecção eletrostática, detecção eletroquímica, detecção magnética, detecção fluorescente, ressonância plasmônica de superfície (SPR) e semelhantes. Exemplos de métodos de detecção ótica incluem, mas não se limitam a, , fluorimetria e absorbância de luz UV-visível.. Exemplos de métodos de detecção espectroscópica incluem, mas não se limitam a, espectrometria de massa, espectroscopia de ressonância magnética nuclear (NMR) «e espectroscopia por infravermelho. “Exemplos de métodos de detecção eletrostática incluem, mas não se limitam a, técnicas a base de gel, tais como, eletroforese em gel. Exemplos de métodos de detecção eletroquímica incluem, mas não se limitam a, detecção eletroquímica de produto amplificado após separação por cromatografia líquida de alta performance dos produtos amplificados. Identificação de proteína em uma amostra
[0089] — Proteínas são blocos de construção vitais das células e tecidos de organismos vivos. Uma dado organismo produz um grande conjunto de diferentes proteínas, tipicamente chamado de proteoma. O proteoma pode variar com o tempo e como função de vários estágios (por exemplo, estágios do ciclo celular ou estados doentios) que uma célula ou organismo passa. Um estudo ou medição em larga escala (por exemplo, análise experimental) de proteomas pode ser chamado de proteômica. Na proteômica, existem métodos múltiplos para identificar proteínas, incluindo imunoensaios (por exemplo, ensaio de imunoabsorção enzimática (ELISA) e Western blot), métodos baseados em espectroscopia de massa (por exemplo, dessorção/ionização a laser assistida por matriz (MALDI) e ionização por eletropulverização (ESD)), métodos híbridos (por exemplo, imunoensaio por espectrometria de massa (MSIA)) e microarranjos de proteína. Por exemplo, métodos proteômicos de molécula única podem tentar inferir a identidade das moléculas de proteína em uma amostra por diversas abordagens, variando de funcionalização direta do aminoácidos ao uso de reagentes de afinidade. A informação ou medições obtidas de tais abordagens são tipicamente analisadas por algoritmos de acordo com de maneira a identificar as proteínas presentes na amostra.
[0090] A quantificação precisa de proteínas pode enfrentar também desafios devidos à falta de sensibilidade, falta de especificidade e ruído do detector. Em particular, a quantificação precisa de proteínas em uma amostra pode enfrentar desafios devidos a variações sistemáticas randômicas e imprevisíveis no nível de sinal dos detectores, o que pode causar erros na identificação e quantificação de proteínas. Em alguns casos, o instrumento e a sistemática de detecção podem ser calibrados e removidos pelo diagnóstico dos instrumentos de monitoramento e comportamento do modo comum. No entanto, a ligação de proteínas (por exemplo, por sondas reagentes de afinidade) é inerentemente um processo probabilístico que pode apresentar uma sensibilidade e especificidade da ligação abaixo das ideais.
[0091] O presente relatório provê métodos e sistemas para a identificação precisa e eficiente de proteínas. Os métodos e sistemas providos aqui podem reduzir ou eliminar significativamente erros na identificação de proteínas em uma amostra. Tais métodos e sistemas podem alcançar identificação precisa e eficiente de proteínas candidatas em uma amostra de proteínas desconhecidas. A identificação de proteína pode ser baseada em cálculos que utilizam informação de medições empíricas das proteínas desconhecidas na amostra. Por exemplo, as medições empíricas podem incluir informação de ligação de sondas reagentes de afinidade que são configuradas para se ligar seletivamente a uma ou mais proteínas candidatas, comprimento da proteína, hidrofobicidade da proteína, e/ou ponto isoelétrico. A identificação de proteína pode ser otimizada para ser computável dentro de um espaço mínimo de memória. A identificação de proteína pode compreender a estimativa de um nível de confiança de que cada uma ou mais proteínas candidatas estarem presentes na amostra.
[0092] Em um aspecto, é descrito aqui um método implementado em computador 100 para a identificação de uma proteína em uma amostra de proteínas desconhecidas (por exemplo, como ilustrado na FIG. 1). O método pode ser aplicado independentemente a cada proteína desconhecida na amostra, de maneira a gerar uma coleção de proteínas identificadas na amostra. As quantidades da proteína podem ser calculadas pela contagem do número de identificações para cada proteína candidata. O método para a identificação de uma proteína pode compreender a recepção, pelo computador, de informação de uma pluralidade de medições empíricas da proteína desconhecida na amostra (por exemplo, etapa 105). As medições empíricas podem compreender (1) medições de ligação de cada uma ou mais sondas reagentes de afinidade a uma ou mais das proteínas desconhecidas na amostra, (11) comprimento de uma ou mais das proteínas desconhecidas; (iii)
hidrofobicidade de uma ou mais das proteínas desconhecidas; e/ou (iv) ponto isoelétrico de uma ou mais das proteínas desconhecidas.
Em algumas realizações, uma pluralidade de sondas reagentes de afinidade pode compreender uma reunião de uma pluralidade de sondas reagentes de afinidade individuais.
Por exemplo, um conjunto de sondas reagentes de afinidade pode compreender 2, 3, 4, 5, 6, 7, 8, 9, 10 ou mais de 10 tipos de sondas reagentes de afinidade.
Em algumas realizações, um conjunto de sondas reagentes de afinidade pode compreender 2 tipos de sondas reagentes de afinidade que combinadas formam uma maioria da composição das sondas reagentes de afinidade no conjunto de sondas reagentes de afinidade.
Em algumas realizações, um conjunto de sondas reagentes de afinidade pode compreender 3 tipos de sondas reagentes de afinidade que combinadas formam uma maioria da composição das sondas reagentes de afinidade no conjunto de sondas reagentes de afinidade.
Em algumas realizações, um conjunto de sondas reagentes de afinidade pode compreender 4 tipos de sondas reagentes de afinidade que combinadas formam uma maioria da composição das sondas reagentes de afinidade no conjunto de sondas reagentes de afinidade.
Em algumas realizações, um conjunto de sondas reagentes de afinidade pode compreender 5 tipos de sondas reagentes de afinidade que combinadas formam uma maioria da composição das sondas reagentes de afinidade no conjunto de sondas reagentes de afinidade.
Em algumas realizações, um conjunto de sondas reagentes de afinidade pode compreender mais de 5 tipos de sondas reagentes de afinidade que combinadas formam uma maioria da composição das sondas reagentes de afinidade no conjunto de sondas reagentes de afinidade.
Cada uma das sondas reagentes de afinidade pode ser configurada para se ligar seletivamente a uma ou mais proteínas candidatas entre a pluralidade de proteínas candidatas.
As sondas reagentes de afinidade podem ser sondas reagentes de afinidade k-méricas.
Em algumas realizações, cada sonda reagente de afinidade k-mérica é configurada para se ligar seletivamente a uma ou mais proteínas candidatas entre uma pluralidade de proteínas candidatas. A informação das medições empíricas pode compreender medições de ligação de um conjunto de sondas que acredita-se terem se ligado a uma proteína desconhecida.
[0093] A seguir, pelo menos uma parte da informação das medições empíricas de uma proteína desconhecida pode ser comparada, pelo computador, contra uma base de dados compreendendo uma pluralidade de sequências de proteínas (por exemplo, etapa 110). Cada uma das sequências de proteínas pode corresponder a uma proteína candidata entre a pluralidade de proteínas candidatas. A pluralidade de proteínas candidatas pode compreender pelo menos 10, pelo menos 20, pelo menos 30, pelo menos 40, pelo menos 50, pelo menos 60, pelo menos 70, pelo menos 80, pelo menos 90, pelo menos 100, pelo menos 150, pelo menos 200, pelo menos 250, pelo menos 300, pelo menos 350, pelo menos 400, pelo menos 450, pelo menos 500, pelo menos 600, pelo menos 700, pelo menos 800, pelo menos 900, pelo menos 1000 ou mais de 1000 proteínas candidatas diferentes.
[0094] A seguir, para cada uma ou mais das proteínas candidatas na pluralidade de proteínas candidatas, uma probabilidade de que uma medida empírica na proteína candidata geraria um resultado da medição observado pode ser calculada ou gerada, pelo computador (por exemplo, na etapa 115). O termo “resultado da medição”, tal como utilizado aqui, refere-se à informação observada na realização de uma medição. Por exemplo, o resultado da medição de um experimento de ligação de reagente de afinidade pode ser um resultado positivo ou negativo, tal como ligação ou não ligação do reagente. Como um outro exemplo, o resultado da medição de um experimento que mede o comprimento de uma proteína pode ser 417 aminoácidos. Adicionalmente ou alternativamente, para cada uma ou mais das proteínas candidatas na pluralidade de proteínas candidatas, uma probabilidade de uma medição empírica na proteína candidata gerar um resultado da medição observado, pode ser calculada ou gerada pelo computador. Adicionalmente ou alternativamente, uma probabilidade de uma medição empírica na proteína candidata gerar um resultado da medição não observado, pode ser calculada ou gerada pelo computador. Adicionalmente ou alternativamente, uma probabilidade de uma série de medições empíricas na proteína candidata gerar um conjunto de resultados pode ser calculada ou gerada pelo computador.
[0095] “Conjunto de resultados” como utilizado aqui refere-se a uma pluralidade de resultados da medição independentes para uma proteína. Por exemplo, uma série de — medições empíricas de ligação de reagente de afinidade pode ser realizada em uma proteína desconhecida. A medição de ligação de cada reagente de afinidade individual compreende um resultado da medição e o conjunto de todos os resultados da medição é o conjunto de resultados. — Em alguns casos, o conjunto de resultados pode ser um subconjunto de todos os resultados observados. Em alguns casos, o conjunto de resultados pode consistir em resultados da medição que não foram empiricamente observados. Adicionalmente ou alternativamente, para cada uma ou mais das proteínas candidatas na pluralidade de proteínas candidatas, uma probabilidade da proteína desconhecida ser a proteína candidata, pode ser calculada ou gerada pelo computador. O cálculo ou geração das etapas 115 e/ou 120 pode ser realizado iterativamente ou não iterativamente. A probabilidades na etapa 115 pode ser gerada com base na comparação dos resultados da medição empírica das proteínas desconhecidas contra a base de dados compreendendo a pluralidade de sequências de proteínas para todas as proteínas candidatas. Desta forma, o algoritmo de entrada pode compreender uma base de dados de sequências de proteínas candidatas e um conjunto de medições empíricas (por exemplo, sondas que acredita-se terem se ligado a uma proteína desconhecida, comprimento da proteína desconhecida, hidrofobicidade da proteína desconhecida e/ou ponto isoelétrico da proteína desconhecida) para a proteína desconhecida. Em alguns casos, o algoritmo de entrada pode compreender parâmetros relevantes para a estimativa da probabilidade de qualquer um dos reagentes de afinidade gerar qualquer medição de ligação para qualquer uma das proteínas candidatas (por exemplo probabilidades de ligação ao nível de trímero para cada reagente de afinidade). O resultado do algoritmo pode compreender (1) uma probabilidade de um resultado da medição ou conjunto de resultados ser observada dada a identidade de um proteína candidata hipotética, (i1) a identidade mais provável, selecionada do conjunto de proteínas candidatas, para a proteína desconhecida e a probabilidade desta identificação estar correta dado um resultado da medição ou conjunto de resultados (por exemplo, na etapa 120) e/ou (li) um grupo de identidades de proteína candidata com alta probabilidade e uma probabilidade associada de que a proteína desconhecida é uma das proteínas no grupo. A probabilidade do resultado da medição ser observado tendo em vista que a proteína candidata é a proteína sendo medida pode ser expressa como: P(resultado da medição | proteína).
[0096] Em algumas realizações, P(resultado da medição | proteína) é calculada completamente in silico. Em algumas realizações, P(resultado da medição | proteína) é calculada com base em ou derivada de, características da sequência de aminoácidos da proteína. Em algumas realizações, P(resultado da medição | proteína) é calculada independente do conhecimento da sequência de aminoácidos da proteína. Por exemplo, P(resultado da medição | proteína) pode ser determinada empiricamente pela aquisição da medição em experimentos em réplica em um isolado da proteína candidata e cálculo da P(resultado da medição | proteína) a partir da frequência: (número de medições com resultado / número total de medições). Em algumas realizações, P(resultado da medição | proteína) é derivada de uma base de dados de medições passadas na proteína, Em algumas realizações P(resultado da medição | proteína) é calculada pela geração de um conjunto de identificações confiáveis de proteínas a partir de uma coleção de proteínas desconhecidas com os resultados das medições censurados e então cálculo da frequência do resultado da medição entre o conjunto de proteínas desconhecidas que foram identificadas confiavelmente como a proteína candidata. Em algumas realizações, uma coleção de proteínas desconhecidas pode ser identificada pela utilização de um valor semente de P(resultado da medição | proteína) e o valor semente refinado com base na frequência do resultado da medição entre as proteínas desconhecidas confiavelmente combinados com a proteína candidata. Em algumas realizações, este processo é repetido, com novas identificações geradas com base nas probabilidades de resultado da medição atualizadas e então as novas probabilidades de resultado da medição geradas a partir do conjunto atualizado de identificações confiáveis.
[0097] A probabilidade de que o resultado da medição não seja observado tendo em vista que uma proteína candidata é a proteína sendo medida, pode ser expressa como: P(não resultado da medição | proteína) = 1 — P(resultado da medição | proteína).
[0098] A probabilidade de um conjunto de resultados da medição consistindo em N resultados da medição individuais ser observado tendo em vista que uma proteína candidata ser a proteína sendo medida, pode ser expressa como um produto das probabilidades para cada resultado da medição individual: P(conjunto de resultados | proteína) = P(resultado da medição 1 | proteína) * P(resultado da medição 2 | proteína) * ... * P(resultado da medição N | proteína)
[0099] A probabilidade de uma proteína desconhecida ser uma proteína candidata (proteína;), pode ser calculada com base na probabilidade do conjunto de resultados para cada possível proteína candidata.
[00100] Em algumas realizações, o conjunto de resultados de medição compreende a ligação de sondas reagentes de afinidade. — Em algumas realizações, o conjunto de resultados de medição compreende a ligação não específica de sondas reagentes de afinidade.
[00101] Em algumas realizações, a proteína na amostra é truncada ou degradada. Em algumas realizações, a proteína na amostra não contém o terminal C da proteína original... Em algumas realizações, a proteína na amostra não contém o terminal N da proteína original. Em algumas realizações, a proteína na amostra não contém o terminal N e não contém o terminal C da proteína original.
[00102] Em algumas realizações, as medições empíricas compreendem medições realizadas em misturas de anticorpos. Em algumas realizações, as medições empíricas compreendem medições realizadas em amostras contendo proteínas de uma pluralidade de espécies. Em algumas realizações, as medições empíricas compreendem medições realizadas em uma amostra derivada de humanos. Em algumas realizações, as medições empíricas compreendem medições realizadas em uma amostra derivada de uma espécie diferentes da humana. Em algumas realizações, as medições empíricas compreendem medições realizadas em amostras na presença de variantes de aminoácido único (SAVs) causadas por polimorfismos de nucleotídeo único não sinônimos (SNPs). Em algumas realizações, as medições empíricas compreendem medições em amostras na presença de variação estrutural genômica, tal como inserções, deleções, translocações, inversões, duplicações segmentais ou variação do número de cópias (CNV) que afetam a sequência da proteínas na amostra.
[00103] Em algumas realizações, o método compreende adicionalmente a aplicação do método a todas as proteínas desconhecidas medidas na amostra. Em algumas realizações, o método compreende adicionalmente a geração, para cada uma das uma ou mais proteínas candidatas, de um nível de confiança de que a proteína candidata combina com a proteína desconhecida sendo medida na amostra. O nível de confiança pode compreender um valor de probabilidade. Alternativamente, o nível de confiança pode compreender um valor de probabilidade com um erro. Alternativamente, o nível de confiança pode compreender uma faixa de valores de probabilidade, opcionalmente com uma confiança (por exemplo, cerca de 90%, cerca de 95%, cerca de 96%, cerca de 97%, cerca de 98%, cerca de 99%, cerca de 99,9%,
cerca de 99,99%, cerca de 99,999%, cerca de 99,9999%, cerca de 99,99999%, cerca de 99,999999%, cerca de 99,9999999%, cerca de 99,99999999%, cerca de 99,999999999%, cerca de 99,9999999999%, cerca de 99,99999999999%, cerca de 99,999999999999%, cerca de 99,9999999999999% de confiança ou acima de 99,9999999999999%, de confiança).
[00104] Em algumas realizações, o método compreende adicionalmente a geração de uma probabilidade de uma proteína candidata estar presente na amostra.
[00105] Em algumas realizações, o método compreende adicionalmente a geração de identificações de proteínas e probabilidades associadas, independentemente para cada proteína desconhecida na amostra e geração de uma lista de todas as proteínas únicas identificadas na amostra. Em algumas realizações, o método compreende adicionalmente a contagem do número de identificações geradas para cada proteína candidata única para determinar a quantidade de cada proteína candidata na amostra. Em algumas realizações, uma coleção de identificações de proteínas e probabilidades associadas pode ser filtrada para conter apenas as identificações de alta classificação, alta confiança e/ou baixa taxa de falsa descoberta.
[00106] Em algumas realizações, as probabilidades de ligação podem ser geradas para reagentes de afinidade para proteínas candidatas de comprimento completo. Em algumas realizações, as probabilidades de ligação podem ser geradas para reagentes de afinidade para fragmentos de proteína (por exemplo, uma subsequência da sequência completa de proteína). Por exemplo, se as proteínas desconhecidas foram processadas e conjugadas ao substrato em uma maneira tal que apenas os primeiros 100 aminoácidos de cada proteína desconhecida foram conjugados, as probabilidades de ligação podem ser geradas para cada proteína candidata de tal forma que todas as probabilidades de ligação para a ligação do epitopo além dos primeiros 100 aminoácidos são estabelecidas como zero ou alternativamente para uma probabilidade muito baixa representando uma taxa de erro. Uma abordagem similar pode ser utilizada se os primeiros 10, 20, 50, 100, 150, 200, 300, 400 ou mais de 400 aminoácidos de cada proteína foram conjugados ao substrato. — Uma abordagem similar pode ser utilizada se os últimos 10, 20, 50, 100, 150, 200, 300, 400 ou mais de 400 aminoácidos forem conjugados ao substrato.
[00107] Em algumas realizações, nos casos em que a combinação de uma proteína candidata única não pode ser atribuída a uma proteína desconhecida, um grupo de combinações potenciais de proteína candidata pode ser atribuído à proteína desconhecida. Pode ser atribuído um nível de confiança à proteína desconhecida sendo uma de qualquer das proteínas candidatas no grupo. O nível de confiança pode compreender um valor de probabilidade. Alternativamente, o nível de confiança pode compreender um valor de probabilidade com um erro. Alternativamente, o nível de confiança pode compreender uma faixa de valores de probabilidade, opcionalmente com uma confiança (por exemplo, cerca de 90%, cerca de 95%, cerca de 96%, cerca de 97%, cerca de 98%, cerca de 99%, cerca de 99,9%, cerca de 99,99%, cerca de 99,999%, cerca de 99,9999%, cerca de 99,99999%, cerca de 99,999999%, cerca de 99,9999999%, cerca de 99,99999999%, cerca de 99,999999999%, cerca de 99,9999999999%, cerca de 99,99999999999%, cerca de 99,999999999999%, cerca de 99,9999999999999% de confiança ou acima de 99,9999999999999% de confiança). Por exemplo, uma proteína desconhecida pode se combinar fortemente com duas proteínas candidatas. As duas proteínas candidatas podem apresentar alta similaridade de sequência entre si (por exemplo, duas isoformas da proteína, tal como proteínas com variantes de aminoácido único em comparação com uma sequência canônica). Nestes casos, nenhuma proteína candidata individual pode ser atribuída com alta confiança, mas uma alta confiança pode ser atribuída à proteína desconhecida que combina com um único, mas desconhecido, membro do "grupo de proteínas" compreendendo as duas proteínas candidatas que combinam fortemente.
[00108] Em algumas realizações, podem ser feitos esforços para detectar casos em que as proteínas desconhecidas não são oticamente resolvidas. Por exemplo, em rara ocasião, duas ou mais proteínas podem ligar no mesmo “poço” ou local de um substrato apesar dos esforços para prevenir esta ocorrência. Em alguns casos, as proteínas conjugadas podem ser tratadas com um corante não específico e o sinal do corante medido. Nos casos em que duas ou mais proteínas não são oticamente resolvidas, o sinal resultante do corante pode ser mais alto que nos locais contendo uma única proteína e pode ser utilizado como locais de bandeira com proteínas ligadas múltiplas.
[00109] Em algumas realizações, a pluralidade de proteínas candidatas é gerada ou modificada pelo sequenciamento ou análise do DNA ou RNA do humano ou organismo do qual a amostra de proteínas desconhecidas é obtida ou derivada.
[00110] Em algumas realizações, o método compreende adicionalmente a derivação da informação em modificações posteriores à tradução da proteína desconhecida. A informação sobre as modificações posteriores à tradução pode compreender a presença de uma modificação posterior à tradução sem conhecimento da natureza da modificação específica. A base de dados pode ser considerada como sendo um produto exponencial de PTMs. Por exemplo, uma vez atribuída uma sequência de proteína candidata a uma proteína desconhecida, o padrão da ligação do reagente de afinidade para a proteína testada pode ser comparado a uma base de dados contendo medições de ligação para os reagentes de afinidade à mesma candidata dos experimentos prévios. Por exemplo, uma base de dados de medições de ligação pode ser derivada de ligação a uma Matriz de Proteínas Programáveis de Ácido Nucleico (NAPPA) contendo proteínas não modificadas de sequência conhecida em locais conhecidos.
[00111] Adicionalmente ou alternativamente, uma base de dados de medições de ligação pode ser derivada de experimentos prévios nos quais sequências de proteínas candidatas foram atribuídas de forma confiável a proteínas desconhecidas. Discrepâncias nas medições de ligação entre a proteína testada e a base de dados de medições existentes podem prover informação sobre a possibilidade de modificação posterior à tradução. Por exemplo, se um agente de afinidade apresenta uma alta frequência de ligação à proteína candidata na base de dados, mas não liga a proteína testada, existe uma alta possibilidade de um modificação posterior à tradução estar presente em algum lugar na proteína. Se a ligação do epitopo é conhecida para o reagente de afinidade para o qual há uma discrepância de ligação, o local da modificação posterior à tradução pode ser localizada na ou próxima à ligação do epitopo do reagente de afinidade. Em algumas realizações, a informação sobre modificações específicas posteriores à tradução pode ser derivada pela realização de medições repetidas do reagente de afinidade antes e depois do tratamento do conjugado proteína-substrato com uma enzima que remove especificamente a modificação particular posterior à tradução. Por exemplo, as medições de ligação podem ser obtidas para uma sequência de reagentes de afinidade antes do tratamento do substrato com uma fosfatase e então repetida após o tratamento com uma fosfatase. Os reagentes de afinidade que ligam uma proteína desconhecida antes do tratamento com fosfatase, mas não depois do tratamento com fosfatase (ligação diferencial) pode prover evidência da fosforilação. Se o epitopo reconhecido pelo reagente de afinidade de ligação diferencial for conhecido, a fosforilação pode ser localizada no ou próxima à ligação do epitopo para o reagente de afinidade.
[00112] Em alguns casos, a contagem de uma modificação particular posterior à tradução pode ser determinada pela utilização de medições de ligação com um reagente de afinidade contra uma modificação particular posterior à tradução. Por exemplo, um anticorpo que reconhece eventos de fosforilação pode ser utilizado como um reagente de afinidade. A ligação deste reagente pode indicar a presença de pelo menos uma fosforilação na proteína desconhecida. Em alguns casos, o número de modificações discretas posteriores à tradução de um tipo particular em uma proteína desconhecida pode ser determinado pela contagem do número de eventos de ligação medido para um reagente de afinidade específico para a modificação particular posterior à tradução. Por exemplo, um anticorpo específico para fosforilação pode ser conjugado a um repórter fluorescente. Neste caso, a intensidade do sinal fluorescente pode ser utilizada para determinar o número de reagentes de afinidade específicos para fosforilação ligados a uma proteína desconhecida. O número de reagentes de afinidade específicos para fosforilação ligados à proteína desconhecida pode, por sua vez, ser utilizado para determinar o número de locais de fosforilação na proteína desconhecida. Em algumas realizações, a evidência proveniente do experimento de ligação de reagentes de afinidade pode ser combinada com conhecimento pré-existente dos motivos da sequência de aminoácidos ou locais específicos na proteína possivelmente modificados posteriormente à tradução (por exemplo, a partir de dbPTM, PhosphoSitePlus ou UniProt) para derivar uma contagem, identificação ou localização mais precisas da modificação posterior à tradução. Por exemplo, se o local de uma modificação posteriores à tradução não for exatamente determinado a partir apenas das medições de afinidade, um local contendo um motivo de sequência de aminoácidos frequentemente associado com a modificação posterior à tradução de interesse pode ser favorecido.
[00113] Em algumas realizações, as probabilidades são geradas iterativamente até ser satisfeita uma condição predeterminada. Em algumas realizações, a condição predeterminada compreende a geração de cada uma da pluralidade de probabilidades com uma confiança de pelo menos 50%, pelo menos 55%, pelo menos 60%, pelo menos 65%, pelo menos 70%, pelo menos 75%, pelo menos 80%, pelo menos 85%, pelo menos 90%, pelo menos 91%, pelo menos 92%, pelo menos 93%, pelo menos 94%, pelo menos 95%, pelo menos 96%, pelo menos 97%, pelo menos 98%, pelo menos 99%, pelo menos 99,9%, pelo menos 99,99%, pelo menos 99,999%, pelo menos 99,9999%, pelo menos 99,99999%, pelo menos 99,999999%, pelo menos 99,9999999%, pelo menos —99,99999999%, pelo menos 99,999999999%, pelo menos
99,9999999999%, pelo menos 99,99999999999%, pelo menos 99,999999999999%, pelo menos 99,9999999999999% de confiança ou acima de 99,9999999999999% de confiança.
[00114] Em algumas realizações, o método compreende adicionalmente a geração de uma notificação ou relatório eletrônico da identificação de uma ou mais proteínas desconhecidas na amostra. A notificação ou relatório eletrônico pode indicar adicionalmente, para cada uma das proteínas candidatas, um nível de confiança da proteína candidata estar presente na amostra. O nível de confiança pode compreender um valor de probabilidade. Alternativamente, o nível de confiança pode compreender um valor de probabilidade com um erro. Alternativamente, o nível de confiança pode compreender uma faixa de valores de probabilidade, opcionalmente com uma confiança (por exemplo, cerca de 90%, cerca de 95%, cerca de 96%, cerca de 97%, cerca de 98%, cerca de 99%, cerca de 99,9%, cerca de 99,99%, cerca de 99,999%, cerca de 99,9999%, cerca de 99,99999%, cerca de 99,999999%, cerca de 99,9999999%, cerca de 99,99999999%, cerca de 99,999999999%, cerca de 99,9999999999%, cerca de 99,99999999999%, cerca de 99,999999999999%, cerca de 99,9999999999999% de confiança ou acima de 99,9999999999999% de confiança). A notificação ou relatório eletrônico pode indicar adicionalmente a lista de proteínas candidatas identificadas abaixo do limite de taxa de descoberta falsa esperada (por exemplo, um taxa de descoberta falsa abaixo de 10%, 9%, 8%, 7%, 6%, 5%, 4%, 3%, 2%, 1%, 0,5%, 0,4%, 0,3%, 0,2% ou 0,1%). A taxa de descoberta falsa pode ser estimada primeiramente pela classificação da identificação de proteínas em ordem descendente de confiança. A taxa de descoberta falsa estimada em qualquer ponto na lista classificada podem então ser calculada como 1 — med c prob, onde med c prob é a probabilidade candidata média para todas as proteínas no ou antes do (por exemplo, confiança acima de) ponto atual na lista. Uma lista de identificação de proteínas abaixo de um limite de taxa de descoberta falsa desejado pode então ser gerada pelo retorno de todas as identificações de proteínas antes do ponto mais anterior na lista classificada onde a taxa de descoberta falsa é mais alta que o limite. Alternativamente, uma lista de identificação de proteínas abaixo de um limite de taxa de descoberta falsa desejado pode ser gerada pelo retorno de todas as proteínas antes e incluindo, o último ponto na lista classificada onde a taxa de descoberta falsa é abaixo ou igual ao limite desejado.
[00115] Em algumas realizações, a amostra compreende uma amostra biológica. A amostra biológica pode ser obtida de um indivíduo. Em algumas realizações, o método compreende adicionalmente a identificação de um estado de doença ou de um distúrbio no indivíduo com base pelo menos na pluralidade de probabilidades. Em algumas realizações, o método compreende adicionalmente a quantificação de proteínas pela contagem do número de identificações gerado para cada proteína candidata. Por exemplo, a quantidade absoluta (por exemplo, número de moléculas de proteína) de uma proteína presente na amostra pode ser calculada pela contagem do número de identificações confiáveis gerado a partir da proteína candidata. Em algumas realizações, a quantidade pode ser calculada como uma percentagem do número total de proteínas desconhecidas testadas. Em algumas realizações, as contagens brutas de identificação podem ser calibradas para remover erro sistemático do instrumento e sistemas de detecção. Em algumas realizações, a quantidade pode ser calibrada para remover desvios na quantidade causados por variação na detetabilidade das proteínas candidatas. A detetabilidade da proteína pode ser avaliada a partir de medições empíricas ou simulação em computador.
[00116] A doença ou distúrbio pode ser uma doença infecciosa, um distúrbio ou doença imune, um câncer, uma doença genética, uma doença degenerativa, uma doença do estilo de vida, uma lesão, doença rara ou doença relacionada à idade. A doença infecciosa pode ser causada por bactérias, vírus, fungos e/ou parasitas. Exemplos não limitantes de cânceres incluem câncer de bexiga, câncer de pulmão, câncer cerebral, melanoma, câncer de mama, linfoma não de Hodgkin, câncer cervical, câncer de ovário, câncer colorretal, câncer pancreático, câncer esofágico, câncer de próstata, câncer renal, câncer de pele, leucemia, câncer da tiroide, câncer de fígado e câncer uterino. Alguns exemplos de doenças ou distúrbios genéticos incluem, mas não estão limitados a, esclerose múltipla (MS), fibrose cística, doença de Charcot-Marie-Tooth, doença de Huntington, síndrome de Peutz-Jeghers, síndrome de Down, artrite reumatoide e doença de TaySachs. Exemplos não limitantes de doenças do estilo de vida incluem obesidade, diabetes, aterosclerose, doença cardíaca, derrame, hipertensão, cirrose hepática, nefrite, câncer, doença pulmonar obstrutiva crônica (COPD), problemas de audição e dor nas costas crônica. Alguns exemplos de lesões incluem, mas não estão limitados a, abrasão, lesões cerebrais, hematomas, queimadura, concussões, insuficiência cardíaca congestiva, leões de construção, deslocamento, mangote, fratura, hemotórax, hérnia de disco, crista ilíaca, hipotermia, lacerações, nervo comprimido, pneumotórax, fratura de costela, ciática, leão da medula espinal, lesão da fáscia dos ligamentos de tendões, lesão cerebral traumática e chicote.
[00117] Em algumas realizações, o método compreende a identificação e quantificação de moléculas pequenas (por exemplo metabólitos) ou glicanas em vez de ou em adição às proteínas. Por exemplo, reagentes de afinidade, tais como lectinas ou anticorpos que se ligam a açúcares ou combinações de açúcares com tendência variável, podem ser utilizados para a identificação de glicanas. A tendência dos reagentes de afinidade em se ligarem a vários açúcares ou combinações de açúcares pode ser caracterizada pela análise da ligação a um conjunto de glicanas comercialmente disponível. Por exemplo, glicanas desconhecidas podem ser conjugadas a um substrato funcionalizado pela utilização de um produto químico reativo a hidroxila e as medições de ligação podem ser obtidas pela utilização dos reagentes de afinidade de ligação a glicana. As medições de ligação dos reagentes de afinidade a glicanas desconhecidas no substrato podem ser utilizadas diretamente para quantificar o número de glicanas com um açúcar particular ou combinação de açúcares. Alternativamente, uma ou mais medições de ligação podem ser comparadas a medições de ligação previstas de uma base de dados de estruturas de glicanas candidatas pela utilização dos métodos descritos aqui para identificar a estrutura de cada glicana desconhecida. Em algumas realizações, as proteínas são ligadas ao substrato e as medições de ligação com reagentes de afinidade para glicana são geradas para identificar glicanas fixadas nas proteínas. Além disto, medições de ligação podem ser feitas tanto com reagentes de afinidade de glicana quanto de proteína para gerar a sequência esqueleto da proteína e identificações de glicana conjugada em um único experimento. Como um outro exemplo, metabólitos podem ser conjugados a um substrato funcionalizado pela utilização de produto químico direcionado para grupos de acoplamento comumente encontrados em metabólitos tais como sulfidril, carbonil, amina ou hidrogênio ativo. As medições de ligação podem ser feitas pela utilização de reagentes de afinidade com diferentes tendências para grupos funcionais, motivos estruturais ou metabólitos particulares. As medições de ligação resultantes podem ser comparadas com medições de ligação previstas para um base de dados de moléculas pequenas candidatas e os métodos descritos aqui podem ser utilizados para identificar o metabólito em cada local no substrato.
Exemplo 1: Identificação de proteína por ligação do reagente de afinidade
[00118] Os métodos descritos aqui podem ser utilizados em combinação com medições de ligação de reagentes de afinidade de ligação (por exemplo, aptâmeros ou anticorpos) para analisar e/ou identificar proteínas em uma amostra. Neste caso, a probabilidade do resultado da medição a ser calculada é a probabilidade de um evento de ligação ou de não ligação de um reagente de afinidade de ligação (por exemplo, reagente de afinidade ou sonda de afinidade) a uma proteína candidata. Uma probabilidade de ligação pode ser modelada como sendo condicionada à presença de um epitopo que é reconhecido pelo reagente de afinidade de ligação estar presente na sequência da proteína. Por exemplo, um epitopo pode ser um “trímero” (uma sequência de três aminoácidos). Um reagente de afinidade pode ser desenhado para ser direcionado para um epitopo particular (por exemplo, GAV). A ligação fora do alvo de um reagente de afinidade (por exemplo, a ligação de um reagente de afinidade a um epitopo diferente de seu epitopo alvo) pode ser modelada pela inclusão de uma probabilidade diferente de zero da ligação a epitopos adicionais.
[00119] Por exemplo, um reagente de afinidade pode ser desenhado para se logar ao trimero GAV, mas pode apresentar ligação fora do alvo a sítios de reconhecimento tridimensionais: CLD, TIL e IAD. Para este reagente de afinidade, a probabilidade de ligação pode ser modelada como: P(ligação da sonda de afinidade | proteína) = (0,25, se GAV, CLD, TIL ou IAD estiver presente na sequência de proteína; 0, ao contrário).
[00120] Pode haver também uma pequena probabilidade da ligação do reagente de afinidade não específica a uma proteína, que pode ser expressa como: P(ligação da sonda de afinidade | proteína) = (0,25, se GAV, CLD, TIL ou IAD estiver presente na sequência de proteína; 0,00001, ao contrário). Aqui, a probabilidade mede o resultado da detecção da ligação de anticorpo.
[00121] Como um exemplo, considerar um caso em que as proteínas de uma amostra derivada de humano são analisadas. As proteínas na amostra são assumidas como sendo representadas no proteoma humano de “referência” (por exemplo, como encontrado na base de dados Uniprot da sequência canônica de proteína e informação funcional). Isto é, a lista de proteínas candidatas é o conjunto de cerca de 21 mil proteínas e sequências associadas na base de dados UniProt. Uma coleção de proteínas desconhecidas é derivada da amostra e cada proteína desconhecida é submetida a sonda em uma série de experimentos de ligação de reagente de afinidade com o resultado (ligação ou não ligação) medido e registrado. Por exemplo, tais experimentos podem compreender sequencialmente a adição de diferentes reagentes de afinidade e observação da ligação dos reagentes de afinidade às proteínas desconhecidas. “Os reagentes de afinidade ou “sondas”, são selecionados para serem direcionados para os trímeros mais frequentemente observados (de cerca de 800 trímeros possíveis) na lista de proteínas candidatas. Fora do trímero focalizado, cada sonda apresenta ligação fora do alvo a um número de trímeros adicionais que são selecionados randomicamente. A probabilidade de uma sonda se ligar a uma sequência de proteína pode ser expressa como: P(ligação da sonda de afinidade | proteína) = 1 — [ P(nenhuma ligação não específica) * P(nenhuma ligação específica)].
[00122] Assumindo que: n = comprimento da sequência de uma proteína candidata; q = comprimento de um sítio de reconhecimento (por exemplo, 3); s = probabilidade de ligação a trímero não específico (por exemplo, 10º); p = probabilidade de ligação específica (por exemplo, 0,25); os termos P(nenhuma ligação não específica) e P(nenhuma ligação específica) podem ser expressos como: P(nenhuma ligação não específica) = (1 =s)"9*! =(1-105/9*! e P(nenhuma ligação específica) = Tlparacasa sítio de reconhecimento (1 — p) número de ocorrências de sítios na proteina
[00123] Finalmente, a probabilidade de uma sonda não se ligar a uma proteína pode ser expressa como: P(não ligação da sonda de afinidade | proteína) = 1 — P(ligação da sonda de afinidade | proteína).
[00124] A FIG. 2 ilustra a sensibilidade das sondas reagentes de afinidade (por exemplo, o percentual de substratos identificados com uma taxa de detecção falsa (FDR) de menos de 1%) plotada contra o número de sítios de reconhecimento de sonda (por exemplo, epitopos de ligação a trímero) na sonda reagente de afinidade (variando em até 100 sítios de reconhecimento de sonda ou epitopos de ligação a trímero), para três casos experimentais diferentes (com 50, 100 e 200 sondas utilizadas, como indicado pelos círculos cinza, pretos e brancos, respectivamente). Como observado na FIG. 2, o número de sondas utilizadas apresenta um efeito significativo sobre a capacidade de identificar corretamente as proteínas. A sensibilidade é plotada no eixo y, que é a percentagem das proteínas desconhecidas que são corretamente identificadas com um limite (por exemplo, limite superior) de menos de 1% das identificações incorretas. Por exemplo, se cada sonda contiver 5 sítios de reconhecimento ou epitopos de ligação a trímero (1 sitio alvo e 4 sítios fora do alvo), a sensibilidade de identificação de proteína é menor que 10% quando 50 sondas são utilizadas, cerca de 60% quando 100 sondas são utilizadas e cerca de 90% quando 200 sondas são utilizadas. De fato, quando 300 sondas são utilizadas, a sensibilidade excede a 95% (resultado não mostrado na plotagem). Esta abordagem de identificação de proteína suporta sondas com muito sítios de ligação fora do alvo sites. Mesmo com 60 sítios de reconhecimento ou epitopos de ligação a trímero (1 sítio alvo e 59 sítios fora do alvo), a sensibilidade de identificação é de cerca de 55% em um experimento com 100 sondas e cerca de 90% em um experimento com 200 sondas.
[00125] Entretanto, como observado na FIG. 3, a capacidade de identificação de proteínas se degrada rapidamente quando as sondas apresentam mais de 100 sítios de ligação ou epitopos de ligação a trímero. A FIG. 3 ilustra a sensibilidade das sondas reagentes de afinidade (por exemplo, o percentual de substratos identificados com uma taxa de detecção falsa (FDR) de menos de 1%) plotada contra o número de sítios de reconhecimento de sonda (por exemplo, epitopos de ligação a trímero) na sonda reagente de afinidade (variando em até 700 sítios de reconhecimento de sonda ou epitopos de ligação a trímero) para três casos experimentais diferentes (com 50, 100 e 200 sondas utilizadas, como indicado pelos círculos cinza, pretos e brancos, respectivamente). — Por exemplo, se cada sonda contiver 100 sítios de reconhecimento ou epitopos de ligação a trímero (1 sítio alvo, 99 sítios fora do alvo), a sensibilidade da identificação de proteína é de cerca de 1% quando 50 sondas são utilizadas, cerca de 30% quando 100 sondas são utilizadas e cerca de 70% quando 200 sondas são utilizadas. Entretanto, se cada sonda contiver 200 sítios de reconhecimento ou epitopos de ligação a trímero (1 sítio alvo, 199 sítios fora do alvo), a sensibilidade de identificação de proteína é menor que 1% quando 50 sondas são utilizadas, menor que 20% quando 100 sondas são utilizadas e menor que 40% quando 200 sondas são utilizadas. Exemplo 2: Ligação de reagente de afinidade a proteína para proteínas que foram truncadas ou degradadas
[00126] Os métodos descritos aqui podem ser aplicados para a análise e/ou identificação de proteínas em uma amostra que foram truncadas. Em tais experimentos, o cálculo da probabilidade de uma ligação da sonda de afinidade a uma proteína é modificado para considerar apenas a ligação à sequência de proteína truncada, em vez da sequência completa da proteína. Por exemplo, a FIG. 4 ilustra plotagens mostrando a sensibilidade de identificação de proteína com experimentos que utilizam 100 (esquerda), 200 (centro) ou 300 sondas (direita)) Em cada plotagem, a sensibilidade das sondas reagentes de afinidade (por exemplo, o percentual de substratos identificados com uma taxa de detecção falsa (FDR) de menos de 1%) é determinada para um experimento no qual são medidos comprimentos de 4 substratos: (1) a proteína intacta (completa), (2) o fragmento do terminal N ou terminal C de 50 de comprimento da proteína, (3) o fragmento do terminal N ou terminal C de 100 de comprimento da proteína e (4) o fragmento do terminal N ou terminal C de 200 de comprimento da proteína. Os fragmentos de terminal N e C são indicados com barras sólidas e com tiras, respectivamente. Cada sonda se liga ao trímero alvo e 4 outros trímeros randômicos fora do alvo. Como mostrado na FIG. 4, uma proporção substancial das proteínas (40%) pode ser identificada, por exemplo, mesmo quando as proteínas são truncadas para fragmentos contendo apenas 100 aminoácidos e são realizados experimentos de 200 sondas.
[00127] Se 300 sondas são utilizadas, então cerca de 70-75% das proteínas podem ser identificadas no caso em que as proteínas são truncadas para fragmentos contendo apenas 100 aminoácidos. A FIG. 4 mostra também que as proteínas truncadas contendo o fragmento do terminal N- são ligeiramente mais fáceis de identificar (por exemplo, sensibilidade mais alta de identificação de proteína) que os fragmentos contendo o fragmento do terminal C. Exemplo 3: Fragmentos de proteína não contendo nem o terminal C nem o terminal N da proteína intacta da qual são derivados
[00128] Os métodos descritos aqui podem ser aplicados para a análise e/ou identificação de fragmentos de proteína em uma amostra que não contém nenhum dos 2 terminais originais da proteína intacta da quão o fragmento é derivado. O cálculo da probabilidade de uma ligação da sonda de afinidade a uma proteína em tal experimento é modificado para considerar apenas a ligação à truncada em vez de à sequência completa da proteína. A FIG. 5 ilustra plotagens mostrando a sensibilidade da identificação de proteína com experimentos que utilizam várias abordagens de fragmentação de proteína. Em cada uma das filas superiores e filas inferiores, o desempenho da identificação de proteína é mostrado com 50, 100, 200 e 300 medições de reagente de afinidade (nos 4 painéis da esquerda para a direita), com valores comprimento máximo de fragmento de 50, 100, 200, 300, 400 e 500 (como indicado pelos hexágonos, triângulos apontando para baixo, triângulos apontando para cima, diamantes, retângulos e círculos, respectivamente).
[00129] Com referência à fila superior da FIG. 5, cada ponto em cada sub- plotagem representa a sensibilidade (taxa de identificação de proteína) quando da utilização de uma abordagem de geração de fragmento particular definida pela localização do início do fragmento e comprimento do fragmento. Os fragmentos são gerados em um local de partida específico em cada proteína indexado pela distância (por exemplo, número de aminoácidos (AA) afastados) a partir do terminal N em aminoácidos (tal como plotado no eixo x).
A extremidade de cada fragmento de proteína é selecionada para gerar um fragmento com comprimento de 50, 100, 200, 300, 400 ou 500 aminoácidos (comprimento máximo de fragmento ou valores de max fragmento comprimento), tal como indicado pelos hexágonos, triângulos apontando para baixo, triângulos apontando para cima, diamantes, retângulos e círculos, respectivamente. Se um fragmento de um dado comprimento desenhado não puder ser gerado tendo em vista que a proteína é muito curta, o fragmento mais curto que o comprimento requerido contendo o terminal C é retido. Por exemplo, quando um experimento é realizado com 50 reagentes de afinidade, apenas uma pequena percentagem das proteínas pode ser identificada (como plotado o eixo y). No entanto, quando um experimento é realizado com 200 sondas reagentes de afinidade utilizando fragmentos com um comprimento máximo de 200 aminoácidos, cerca de 50% a cerca de 85% das proteínas podem ser identificadas (como plotado no eixo y) dependendo do local de início do fragmento (como plotado no eixo x). Há uma tendência geral de redução na sensibilidade de identificação de proteína conforme o local de início do fragmento se desloca em afastamento do terminal N. Esta tendência pode ser explicada pelo fato de que, conforme o local de início do fragmento se desloca em afastamento do terminal N, mais fragmentos são gerados os quais incluem o terminal C e são menores que o comprimento máximo de fragmento.
[00130] Com referência à fila inferior da FIG. 5, as 4 sub-plotagens aqui mostram resultados similares aos da fila superior, exceto que quaisquer fragmentos que não combinem com o comprimento máximo de fragmento (por exemplo, fragmentos que não contêm o terminal C) são descartados da análise antes do cálculo da sensibilidade e taxa de descoberta falsa. A sensibilidade de identificação de proteína é calculada apenas entre as proteínas que podem ter gerado um fragmento válido. Como mostra a fila inferior da FIG. 5, sem o comprimento de fragmento fixo, no comprimento máximo de fragmento, não existe variação estatisticamente significativa na sensibilidade de identificação de proteína no que diz respeito à localização do local de início do fragmento. O comprimento de fragmento é o determinante principal da taxa de identificação de proteína em vez da localização do fragmento dentro da sequência de proteína. Exemplo 4: Identificação de proteína pela medição do comprimento, hidrofobicidade e/ou ponto isoelétrico
[00131] Os métodos descritos aqui podem ser aplicados para a análise e/ou identificação de proteínas em uma amostra pela utilização de informação das medições nas proteínas, incluindo comprimento, hidrofobicidade e/ou ponto isoelétrico (pl). A probabilidade da medição de um comprimento particular para uma consulta de proteína candidata pode ser expressa como: P(resultado da medição | proteína) = = exp (- =) onde o =| CV * valor produzido esperado | u = (valor produzido medido — valor produzido esperado) / o
[00132] Neste caso, o resultado da medição é o comprimento medido da proteína desconhecida e o valor produzido esperado é o comprimento da proteína candidata pesquisada. O modelo utiliza também um valor de coeficiente de variação (CV) que descreve a precisão esperada da abordagem de medição. A probabilidade da medição de uma hidrofobicidade particular para uma proteína é calculada pela utilização da mesma fórmula, com o valor produzido esperado sendo estabelecido para uma classificação do índice médio de hidropatia (“grand average of hydropathy” - gravy) calculada a partir da sequência da proteína candidata. Tal classificação gravy pode ser calculada, por exemplo, pela utilização de uma ferramenta Biopython para biologia molecular computacional para realizar um método computacional de Kyte-Doolittle (por exemplo, tal como descrito em [Kyte et al., “A simple method for displaying the hydropathic character of a protein”, J. Mol. Biol., 1982 May 5; 157(1):105-32], o qual é aqui incorporado como referência em sua totalidade). Similarmente, o ponto isoelétrico (pl) é modelado com um valor de pI esperado calculado a partir da sequência da proteína candidata pela utilização da Biopython para implementar os métodos de Bjellqvist (por exemplo, tal como descrito em [Audain er al., “Accurate estimation of isoelectric point of protein and peptide based on amino acid sequences”, Bioinformatics, 14 de novembro de 2015; 32(6):821-27], o qual é aqui incorporado como referência em sua totalidade), de acordo com os métodos descritos em [Tabb, David L., “An algorithm for isoelectric point estimation,” <http://fields.scripps.eduw/DTASelect/200107 10-pI-Algorithm.pdf>, 28 de junho de 2003], o qual é aqui incorporado como referência em sua totalidade. Em todos os casos, a precisão das medições experimentais foi estabelecida para um valor de CV de 0,1.
[00133] A FIG. 6 ilustra plotagens mostrando a sensibilidade de identificação de proteínas humanas (percentagem de substratos identificados em uma FDR de menos de 1%) com experimentos utilizando várias combinações de tipos de medição. Utilizando medições de comprimento da proteína, hidrofobicidade ou pI separadamente, virtualmente nenhuma proteína pode ser identificada (por exemplo, uma sensibilidade < 1%). A combinação de todos os três tipos de medição (com + hidro + pI) ainda produz virtualmente nenhuma identificação. No entanto, as medições de comprimento da proteína, hidrofobicidade ou pI podem ser utilizadas para aumentar as medições dos experimento de ligação de sonda reagente de afinidade. Por exemplo, as proteínas podem ser fracionadas com base em qualquer uma destas características e cada fração conjugada a um local espacial diferente no substrato. Após este fracionamento e conjugação, as medições de ligação do reagente de afinidade podem ser feitas e a medição da hidrofobicidade, comprimento da proteína ou pl pode ser determinada pelo endereço espacial da proteína. Proteínas desnaturadas podem ser fracionadas com base no peso molecular em filtração por gel (SDS-PAGE) ou cromatografia por exclusão de tamanho. O comprimento das proteínas pode ser estimado a partir do peso molecular pela divisão do pelo pela massa média de um aminoácido (111 Da). As proteínas podem ser fracionadas pela hidrofobicidade utilizando-se cromatografia por interação hidrofóbica. As proteínas podem ser fracionadas pelo pI utilizando-se cromatografia de troca iônica. Por exemplo, pela realização de medições adicionais do comprimento da proteína pelo fracionamento com um valor de CV de 0,1 a sensibilidade de identificação aumentou pela utilização de experimentos de 100 sondas (1 trímero alvo e 4 sítios fora do alvo adicionais por sonda) de —55% (sem medições de comprimento da proteína) a —65% (com medições de comprimento da proteína). Similarmente, pela realização de medições adicionais de comprimento da proteína com um valor de CV de 0,1 a sensibilidade de identificação aumentou em experimentos de 200 sondas (1 trímero alvo e 4 sítios fora do alvo adicionais por sonda) de —90% (sem medições de comprimento da proteína) a —95% (com medições de comprimento da proteína).
Exemplo 5: Identificação de proteína pela medição com misturas de anticorpos
[00134] Os métodos descritos aqui podem ser aplicados para a análise e/ou identificação de proteínas em uma amostra pela utilização de informação dos experimentos nos quais misturas de reagentes de afinidade são medidas em cada experimento de ligação. Consistente com as realizações descritas, a identificação de 1000 proteínas humanas desconhecidas aferida pela aquisição de medições de ligação que utilizam pools anticorpos comercialmente disponíveis da Santa Cruz Biotechnology, Inc. As 1000 proteínas foram selecionadas randomicamente a partir da base de dados de proteína Uniprot, que compreende cerca de 21005 proteínas. Uma lista de anticorpos monoclonais disponíveis do catálogo da Santa Cruz Biotechnology com reatividade contra proteínas humanas foi baixada de um registro online de anticorpos. A lista continha 22301 anticorpos e foi filtrada para uma lista de 14566 anticorpos que se combinavam com as proteínas na base de dados Uniprot de proteína humana. A coleção completa de anticorpos modelada no experimento compreendeu estes 14566 anticorpos. A avaliação experimental da ligação das misturas de anticorpos às 1000 proteína candidatas desconhecidas foi realizada como descrito abaixo.
[00135] Primeiramente, 50 misturas de anticorpos foram modeladas. Para produzir qualquer mistura única, 5000 anticorpos da coleção total de anticorpos foram selecionados randomicamente.
[00136] A seguir, para cada mistura, foi determinada uma probabilidade de ligação para a mistura a qualquer uma das proteínas desconhecidas. Observe- se que, embora as proteínas sejam “desconhecidas” no sentido de que o objetivo é inferir sua identidade, o algoritmo está ciente da verdadeira identidade de cada “proteína desconhecida”. Se a mistura contém um anticorpo contra a proteína desconhecida, foi atribuída uma probabilidade de ligação de 0,99. Se a mistura não contém um anticorpo contra a proteína desconhecida, foi atribuída uma probabilidade de ligação de 0,0488. Em outras palavras, a probabilidade de um resultado de ligação para a mistura de anticorpos foi modelada como: P(resultado de ligação | proteína) = (0,99, se mistura contém um anticorpo para a proteína; 0,0488, para o contrário). O valor de 0,0488 representa a probabilidade de um evento de ligação não específica (fora do alvo) ocorrer para esta mistura contra a proteína. A probabilidade de ligação não específica para uma mistura foi modelada com base na probabilidade esperada de qualquer ligação individual de anticorpo a uma proteína outra que não seu alvo target e o número de proteínas na mistura. A probabilidade de um evento de ligação não específica para a mistura de anticorpos é a probabilidade de qualquer anticorpo único na mistura se ligar não especificamente. Esta probabilidade é calculada com base no número de anticorpos na mistura (1) e na probabilidade de ligação não específica (p) para qualquer anticorpo único e pode ser expressa cela equação: Probabilidade de mistura ligação não específica =1-(1-p)"
[00137] Neste caso, foi assumido que há uma probabilidade de 0,00001 (10 5) de um evento de ligação não específica onde uma ligação de anticorpo individual algo diferente de sua proteína alvo. Desta forma, a probabilidade ligação não específica (p) para qualquer anticorpo único é de 10º, tendo em vista: probabilidade de ligação não específica da mistura = 1 — (1 — 105)I* = 0,0488.
[00138] Em adição, a probabilidade de um resultado de não ligação a uma proteína foi calculada como: P(resultado de não ligação | proteína) = 1 — P(resultado de ligação | proteína).
[00139] Para cada proteína desconhecida, a ligação foi avaliada para cada mistura de anticorpos medida com base na probabilidade de ligação da mistura à proteína desconhecida. A distribuição uniforme, com um mínimo de 0 e um máximo de 1, foi amostrada randomicamente e se o número resultante é menor que o da probabilidade de ligação da mistura de anticorpos à proteína desconhecida, o experimento resultou em um evento de ligação para esta mistura. De outra forma, o experimento resultou em um evento de não ligação para esta mistura. Com todos os eventos de ligação avaliados, é realizada a inferência da proteína como se segue:
[00140] Para cada proteína desconhecida, a sequência de eventos de ligação avaliados (50 no total, 1 por mistura) foi avaliada contra cada uma das 21005 proteínas candidatas na base de dados Uniprot. Mais especificamente, uma probabilidade de observação da sequência de eventos de ligação foi calculada para cada candidata. A probabilidade foi calculada pela multiplicação da probabilidade de cada ligação de mistura individual / evento de não ligação em todas as 50 misturas medidas. A probabilidade de ligação foi calculada da mesma maneira que descrita acima e a probabilidade de não ligação é um menos a probabilidade de ligação. A proteína candidata consultada com a probabilidade de ligação mais alta é a identidade inferida para a proteína desconhecida. Uma probabilidade da identificação estar correta para esta proteína individual foi calculada como a probabilidade da candidata individual superior dividida pela soma das probabilidades de todas as candidatas.
[00141] Com a identidade inferida para cada uma das 1000 proteínas desconhecidas, as proteínas desconhecidas foram classificadas em ordem descendente de sua probabilidade de identificação. Um corte na probabilidade de identificação foi selecionado de tal forma que a percentagem de identificações incorretas entre todas as identificações antes na lista foi de 1%. No global, 551 das 1000 proteínas desconhecidas foram identificadas com uma taxa de identificação de 1% incorreção. Desta forma, a identificação de proteína foi realizada com uma sensibilidade de 55,1%. Exemplo 6: Identificação de proteína em muitas espécies
[00142] Os métodos descritos aqui podem ser aplicados para a análise e/ou identificação de proteínas em uma amostra obtida de muitas espécies diferentes. Por exemplo, os resultados de sequência de experimentos de ligação de reagente de afinidade podem ser utilizados para identificar proteínas em E. coli, Saccharomyces cerevisiae (levedura) ou Homo sapiens (humanos), como indicado pelos círculos, triângulos e quadrados, respectivamente. Para adaptar métodos analíticos para cada espécie, a lisa de proteínas candidatas deve ser gerada a partir de uma base de dados de sequência específica para espécie, tal como um proteoma de referência para espécies baixado da Uniprot.
[00143] A FIG. 7 ilustra plotagens mostrando a sensibilidade de identificação de proteína com experimentos que utilizam 50, 100, 200 ou 300 passos de sonda reagente de afinidade contra proteínas desconhecidas de E. coli, de levedura ou humanas (como indicado pelos círculos, triângulos e quadrados, respectivamente). Cada sonda se liga a um trímero alvo e 4 sítios fora do alvo adicionais com probabilidade de 0,25. A sensibilidade (percentagem de proteínas desconhecidas identificadas a uma taxa de identificação falsa de menos de 1%) para um experimento utilizando 200 sondas foi de cerca de 90% para cada uma das três espécies testadas. Exemplo 7: Identificação de proteína na presença de SNPs
[00144] Os métodos descritos aqui podem ser aplicados para a análise e/ou identificação de proteínas em uma amostra na presença de variantes de aminoácido único (SAVs) causadas por polimorfismos de nucleotídeo único não sinônimos (SNPs). As proteínas que apresentam a mesma sequência exceto por um punhado de variantes de aminoácido único (SAVs) podem ser difíceis de distinguir. Por exemplo, em um experimento que utiliza uma série de medições de reagentes de afinidade, a forma canônica de uma proteína pode ser quase impossível de distinguir de sua forma variante, a não ser que um reagente de afinidade que é altamente seletivo para a região polimórfica da proteína seja incluído no experimento. Em casos em que a região polimórfica não é distinguida por qualquer um das medições de reagente de afinidade, medições de qualquer forma da proteína irão retornar probabilidades similares (possibilidades) para a proteína candidata pesquisada tanto canônica quanto a variante (por exemplo, L (proteína canônica | evidência) = 0,8 e L (proteína variante | evidência) = 0,8).
[00145] Em tal caso, nenhuma proteína candidata individual pode retornar uma probabilidade maior que 0,5, por exemplo, como expressa para a proteína canônica abaixo (onde cprot = proteína canônica, vprot = proteína variante):
[00146] Pr(cprot| evidência) = L(cprot | evidência) = 08 < 0,5 L(cprot | evidência) +L(vprot|evidência)+Loutra L6+Loutra = onde Loura É a possibilidade somada de todas as proteínas candidatas pesquisadas exceto a proteína canônica e a proteína variante e é um número maior ou igual a zero.
[00147] Neste caso, grupos de identificação de proteínas potenciais podem ser retornados para uma proteína desconhecida. Por exemplo, a probabilidade das duas proteínas candidatas pesquisadas mais prováveis pode ser expressa como:
[00148] Pr(cprot ou vprot| evidência) = L(cprot Jevidência)+L(vprot| evidência) = 16 L(cprot |Jevidência)+L(v|evidência)+ Loutra — L6+Loutra Pela utilização desta abordagem, uma identificação confiável pode ser derivada a partir da proteína desconhecida, embora uma que não resolve a proteína canônica e a proteína variante. Em particular, casos em que Loura É próxima de zero pode ser possivelmente resultar em uma identificação confiável. Exemplo 8: Melhoramento iterativo do modelo de probabilidade a partir de resultados empíricos
[00149] Um modelo probabilístico utilizado em um ou mais dos métodos descritos aqui pode ser melhorado iterativamente pela utilização de medições empíricas durante a computação da identificação de proteínas pela utilização de maximização de expectativa ou abordagens relacionadas. Uma tal abordagem é descrita aqui para um experimento de ligação de reagente de afinidade.
[00150] Primeiramente, as probabilidades de ligação para cada sonda reagente de afinidade são iniciadas com uma estimativa. Por exemplo, uma coleção de 200 sondas pode cada uma ser direcionada para um único trímero e apresentar uma probabilidade de ligação estimada de 0,5. As proteínas são identificadas pela utilização de abordagens descritas aqui (por exemplo, ver Exemplo 1). A seguir, as probabilidades de ligação para cada sonda são refinadas iterativamente com base nas medições empíricas, como resumido pelas etapas abaixo:
[00151] (1) Uso de uma coleção de proteínas desconhecidas identificadas com taxa de descoberta falsa estimada < 0,01 de maneira a atualizar a probabilidades de ligação:
[00152] Para cada sonda, cálculo da probabilidade de ligação atualizada pela utilização da proporção de proteínas na coleção que contêm um sítio de ligação (trímero) reconhecido pela sonda: probabilidade atualizada — Hide proteínas na coleção com sítio de ligação que são ligadas pela sonda t de proteínas na coleção com sítio de ligação
[00153] Atualização da probabilidade de sonda do “* de proteínas na coleção com sítio de ligação > 20”.
[00154] Se a probabilidade atualizada for < 10, configurar esta para 10º (para evitar uma probabilidade de O ser atribuída).
[00155] (2) realização de uma outra identificação de proteína pela utilização de probabilidades de ligação atualizadas.
[00156] Repetição das etapas | e 2 para iterações múltiplas (por exemplo, para um total de 1, 2, 3,4,5,6,7,8,9,10 ou mais de 10 iterações).
[00157] Esta abordagem iterativa foi testada utilizando-se um experimento com 200 sondas, cada uma reconhecendo um único trímero com probabilidade de ligação de 0,25. As medições de ligação das 200 sondas foram modeladas contra 2000 proteínas desconhecidas com a estimativa inicial para a probabilidade de ligação da sonda estabelecida em 0,5. Após a realização de 5 iterações deste algoritmo iterativo, a probabilidades de ligação atualizada da sonda se tornou mais precisa (mais próxima de 0,25) e a sensibilidade identificação de proteína aumentou.
[00158] A FIG. 8 ilustra uma plotagem mostrando a probabilidade de ligação (eixo y, esquerda) e a sensibilidade de identificação de proteína (eixo y, direita) contra iteração (eixo x). Como mostrado na FIG. 8, as linhas delgadas mostram as probabilidades de ligação da sonda para cada sonda individual, a linha escura entre as linhas delgadas é a probabilidade de ligação da sonda média e a linha espessa mostra a sensibilidade da identificação de proteína em cada iteração. Exemplo 9: Estimativa da taxa de descoberta falsa de identificação das probabilidades de combinação da proteína candidata
[00159] Um modelo probabilístico para a inferência ou identificação de proteína utilizado e um ou mais dos métodos descritos aqui produz como resultado direto uma lista de combinações de sequência de proteína para cada proteína desconhecida e uma probabilidade associada da combinação da sequência estar correta. Em muitos casos, apenas um subconjunto de identificações de proteínas pode estar correto. Por esta razão, um método útil para a estimativa e controle da taxa de identificação falsa para um conjunto de proteínas é descrito abaixo.
[00160] Primeiramente, o conjunto completo de identificações de proteínas é classificado em ordem descendente pela probabilidade de identificação de proteína, como dado abaixo (onde prot = proteína): prot1l probabilidade (p,): 0,99 prot2 probabilidade (p,): 0,97 prot3 probabilidade (73): 0,92 prot4 probabilidade (74): 0,9 prot5 probabilidade (ps): 0,8 prot6 probabilidade (pçs): 0,75 prot7 probabilidade (p7): 0,6 prot8 probabilidade (ps): 0,5
[00161] A seguir, a taxa de descoberta falsa esperada em cada ponto é calculada como 1 — p onde p é a média de todas as probabilidades no dado ponto e anterior na lista (como fornecido abaixo): Proteína Probabilidade Taxa de ID Falsa Estimada prot!1 0,990 0,010 prot2 0,970 0,020 prot3 0,920 0,040 prot4 0,900 0,055 prot5 0,800 0,084 prot6 0,750 0,112 prot7 0,600 0,153 prot8 0,500 0,196
[00162] Como mostrado na FIG. 9, uma comparação da taxa de identificação falsa estimada com a taxa de identificação falsa real para um experimento de 200 sondas simulado demonstra uma estimativa de taxa de identificação falsa precisa. Com referência à plotagem da FIG. 9, a sensibilidade de identificação é comparada com a taxa de identificação falsa real e a taxa de identificação falsa estimada. Com referência à plotagem na parte de baixo da FIG. 9, a taxa de identificação falsa estimada é plotada contra a taxa de identificação falsa real (como indicado pela linha sólida), enquanto a linha tracejada indica uma estimativa de taxa de identificação falsa perfeitamente precisa ideal.
[00163] A taxa de identificação falsa estimada (ID) pode ser utilizada para criar um limite em uma lista de identificação de proteínas dependendo de uma tolerância para identificações falsas. Exemplo 10: Derivação de uma abordagem de estimativa de taxa de descoberta falsa
[00164] Considerando uma lista de identificação de proteínas, cada identificação de proteína compreendendo a combinação de proteína mais provável para uma proteína desconhecida e a probabilidade associada de que a combinação é correta (P(proteína | evidência). Por exemplo: prot, =- MACD2, — p,=0,99 prot, — KCNUI, p2=0,97 prot; — RGL2, p;=0,92 prot, — MTLR, Pa =0,9
[00165] O número esperado de descobertas falsas nesta lista é de 1 — a média de combinação de probabilidade para todas as proteínas na lista. Neste caso: 12 0,99 + 0,97 + 0,92 + 0,9 = 0,055 4
[00166] A lógica por trás desta abordagem é como se segue. Considerando uma lista de N identificações de proteínas e cada identificação de proteína prot; como sendo uma variável randômica onde prot;= 1 se a identificação for correta e prot; = O se a identificação for incorreta. Neste caso, o número de identificações corretas (correctids) em qualquer lista é a soma destas variáveis randômicas:
N correctids = > prot; il
[00167] O valor de expectativa para cada identificação de proteína individual é equivalente à probabilidade de uma identificação correta: E(prot,) =1*p; +O*x(1-p)=p
[00168] Por linearidade de expectativa, segue-se que:
N N E(correctids) = > E(prot;) = > Pi i=1 i=1
[00169] A taxa de descoberta real esperada (&*IDs corretas / 4% IDs) é a probabilidade candidata média: E(correctids) 1 & — — 12 pis?
[00170] A taxa de descoberta falsa é 1 — taxa de descoberta real, ou: 1-6 Exemplo 11: Identificação de proteína pela utilização de resultados da medição de ligação
[00171] Os métodos descritos aqui podem ser aplicados a diferentes subconjuntos de dados associados com a ligação e/ou não ligação de reagentes de afinidade a proteínas não identificadas. Em algumas realizações, os métodos descritos aqui podem ser aplicados a experimentos nos quais um subconjunto particular dos resultados de ligações medidas não são considerados (por exemplo, resultados da medição de não ligação). Estes métodos em que um subconjunto dos resultados das ligações medidas não são considerados podem ser chamados aqui como uma abordagem de inferência “censurada” (por exemplo, como descrito no Exemplo 1). Nos resultados descritos na FIG. 10, as identificações de proteínas que resultam da abordagem de inferência censurada são baseadas em ocorrências de avaliação de eventos de ligação associados com as proteínas não identificadas particulares. Da mesma forma, a abordagem de inferência censurada não considera os resultados de não ligação na determinação das identidades das proteínas desconhecidas.
[00172] Este tipo de abordagem de inferência censurada é, em contraste com uma abordagem “não censurada”, na qual todos os resultados de ligação obtidos são considerados (por exemplo, tanto resultados da medição ligação quanto resultados da medição de não ligação associados com as proteínas não identificadas particulares) Em algumas realizações, uma abordagem censurada pode ser aplicável em casos em que há uma expectativa de que medições de ligação particulares ou resultados da medição de ligação são mais propensos a erro ou prováveis de se desviarem do resultado da medição de ligação esperado para a proteína (por exemplo, a probabilidade deste resultado da medição de ligação ser gerado pela proteína). Por exemplo, em um experimento de ligação de reagente de afinidade, as probabilidades dos resultados da medição de ligação e resultados da medição de não ligação podem ser calculadas com base na ligação a proteínas desnaturadas com estrutura predominantemente linear.
Nestas condições, os epitopos podem ser facilmente acessíveis aos reagentes de afinidade.
No entanto, em algumas realizações, as medições de ligação na amostra de proteína testada podem ser coletadas sob condições não desnaturantes ou parcialmente desnaturantes onde as proteínas estão presentes em um estado “dobrado” com estrutura tridimensional significativa, o que em muitos casos pode fazer com que a ligação do reagente de afinidade a epitopos na proteína que são acessíveis em uma forma linearizada se tornem inacessíveis devido ao impedimento estérico no estado dobrado.
Se, por exemplo, os epitopos que os reagente de afinidade reconhecem para uma proteína estão em regiões estruturalmente acessíveis da proteína dobrada, a expectativa pode ser de que medições empíricas de ligação adquiridas na amostra desconhecida serão consistentes com as probabilidades calculadas de ligação derivadas das proteínas linearizadas.
No entanto, se, por exemplo, os epitopos reconhecidos pelos reagente de afinidade forem estruturalmente inacessíveis, a expectativa pode ser de que haverá mais resultados de não ligação que o esperado a partir das probabilidades calculadas de ligação derivadas de proteínas linearizadas.
Além disto, com base nas condições particulares que circundam a proteína, a estrutura tridimensional pode ser configurada em um número de diferentes possíveis configurações e cada uma das possíveis diferentes configurações pode apresentar uma expectativa única para a ligação de um reagente de afinidade particular com base no grau de acessibilidade do reagente de afinidade desejado.
[00173] Como tal, pode ser esperado que os resultados de não ligação se desviem da probabilidades de ligação calculada para cada proteína e uma abordagem de inferência censurada que considera apenas os resultados de ligação pode ser apropriada. Na abordagem de inferência “censurada” como provido na FIG. 10, apenas resultados de ligação medida são considerados (em outras palavras, ou os resultados de não ligação não são medidos ou os resultados de não ligação medidos não são considerados), de tal forma que a probabilidade de um conjunto de resultados de ligação considera apenas os resultados de ligação M medidos que resultaram em uma medição de ligação, que é um subconjunto dos N resultados de ligação medidos totais contendo tanto resultados de medição de não ligação quanto de ligação. Isto pode ser descrito pela expressão: P(conjunto de resultados | proteína) = P(evento de ligação 1 | proteína) * P(evento de ligação 2 | proteína) * ... * P(evento de ligação M | proteína).
[00174] Quando da aplicação de uma abordagem censurada, pode ser apropriado se aplicar um fator de escala para P(conjunto de resultados de ligação | proteína) para corrigir desvios. Por exemplo, proteínas mais longas geralmente apresentam uma maior probabilidade de geração de um resultado potencial de ligação (por exemplo, tendo em vista que contêm mais sítios de ligação potenciais). De maneira a corrigir este desvio, uma probabilidade escalonada SL pode ser calculada para cada proteína candidata pela divisão de P(conjunto de resultados de ligação | proteína) pelo número de combinações únicas de M sítios de ligação que podem ser geradas a partir da proteína com base no número de sítios de ligação potenciais na proteína. Para uma proteína de comprimento L, com sítios de reconhecimento de trímero, podem haver L-2 sítios de ligação potenciais (por exemplo, todas as subsequência de comprimento L possíveis da sequência de proteína completa), de tal forma que: P(conjunto de resultados | proteína) SLprotema = o
M — P(conjunto de resultados | proteina)M!(L—2—M)! (L—2)!
[00175] A probabilidade de qualquer proteína candidata selecionada de uma coleção de Q possíveis proteínas candidatas, tendo em vista o conjunto de resultados, pode ser dada por: P(proteína; | conjunto de resultados) = tema Eja SLproteina;
[00176] O desempenho de uma realização de uma abordagem de inferência censurada de proteína vs. inferência não censurada de proteína é plotada na FIG. 10. Os dados plotados na FIG. 10 são providos na Tabela 1. Tabela 1 Número de | Sensibilida
[00177] Na comparação mostrada na FIG. 10, a sensibilidade de identificação de proteína (por exemplo, percentagem de proteínas únicas identificadas) é plotada contra o ciclos de reagente de afinidade medidos tanto para a inferência censurada quanto para a inferência não censurada utilizadas nos substratos de proteína linearizada. Os reagentes de afinidade utilizados são direcionados para os mais trímeros abundantes no proteoma e cada reagente de afinidade apresenta uma afinidade fora do alvo para quatro trímeros randômicos adicionais. A abordagem não censurada supera a abordagem censurada em uma margem de mais de dez vezes quando 100 ciclos de reagente de afinidade são utilizados. O grau de inferência não censurada supera inferência censurada diminui quando mais ciclos são utilizados.
Exemplo 12: Tolerância da identificação de ligação do reagente de afinidade a proteína a falso negativo e falso positivo randômico
[00178] Em alguns casos, pode haver uma alta incidência de resultados falso negativos da medição de ligação para ligação do reagente de afinidade. Resultados de ligação “falso negativos” se manifestam como medições de ligação do reagente de afinidade que ocorrem menos frequentemente que o esperado. Tais resultados “falso negativos” podem surgir, por exemplo, devido a problemas com o método de detecção de ligação, as condições de ligação (por exemplo, temperatura, composição do tampão etc.), corrupção da amostra de proteína ou corrupção do estoque de reagente de afinidade. De maneira a determinar o impacto das medições falso negativas na abordagem de identificação de proteína censurada e identificação de proteína não censurada, um subconjunto de ciclos de medição de reagente de afinidade foi corrompido propositalmente pela troca de ou 1 em 10, 1 em 100, 1 em 1,000, 1 em 10000 ou 1 em 100000 eventos de ligação randômicos observados para eventos de não ligação in silico. Ou 0, 1, 50, 100, 200 ou 300 dos 300 ciclos totais de reagente de afinidade foram corrompidos desta maneira. Como mostrado pelos resultados plotados na FIG. 11, tanto a abordagem de identificação de proteína censurada quanto a abordagem de identificação de proteína não censurada são tolerantes a este tipo de ligação falso negativa.
Os dados plotados na FIG. 11 são providos na Tabela 2. Tabela 2
Taxa de Número de falso Número de Sondas
Censurada negativa Sondas Impactadas Sensibilidade
E o am | Fo o o am
Taxa de Número de falso Número de Sondas Censurada negativa Sondas Impactadas Sensibilidade
FEET IREI
Taxa de Número de falso Número de Sondas Censurada negativa Sondas Impactadas Sensibilidade
[00179] Similarmente, os resultados de ligação “falso positiva” se manifestam como medições de ligação de reagente de afinidade que ocorrem mais frequentemente que o esperado. A tolerância aos resultados de ligação “ falso positiva” foi avaliada pela troca de um subconjunto de resultados de ligação de resultados de não ligação para resultados de ligação. Os resultados desta avaliação são providos na Tabela 3. Tabela 3 Taxa de Número de falso Número de Sondas Censurada positivas Sondas Impactadas Sensibilidade FR ar aa EE Rr RR as
Taxa de Número de falso Número de Sondas Censurada positivas Sondas Impactadas Sensibilidade E ar e 2
Taxa de Número de falso Número de Sondas Censurada positivas Sondas Impactadas Sensibilidade
[00180] Estes resultados, que são plotados na FIG. 12, indicam que o desempenho de uma abordagem de identificação de proteína censurada se decai mais rapidamente que a abordagem de identificação de proteína não censurada com incidência crescente de medições falso positivas randômicas. No entanto, ambas as abordagens toleram uma taxa de falso positivas de 1 em 1000 em cada ciclo do reagente de afinidade ou uma taxa de 1 em 100 em um subconjunto dos ciclos de reagente de afinidade.
Exemplo 13: Desempenho da inferência de proteína com probabilidades de ligação de reagente de afinidade superestimadas ou subestimadas
[00181] A sensibilidade de identificação de proteína foi avaliada pela utilização de identificação de proteína com probabilidades de ligação de reagente de afinidade corretamente estimadas a trímero e com probabilidades de ligação de reagente de afinidade superestimada ou subestimada. A probabilidade de ligação verdadeira foi de 0,25. As probabilidades de ligação subestimadas foram: 0,05, 0,1 e 0,2. As probabilidades de ligação superestimadas foram 0,30, 0,50, 0,75 e 0,90. No total, 300 ciclos de medições de reagente de afinidade foram obtidos. Nenhum (0), todos os 300 ou um subconjunto (1, 50, 100, 200) dos reagentes de afinidade apresentaram as probabilidades de ligação superestimadas ou subestimadas aplicadas. Todos os outros apresentaram probabilidades de ligação corretas (0,25) utilizadas na identificação de proteína. Os resultados da análise são providos na Tabela 4. Tabela 4 Inferência da Probabilidad | Número — Número de Probabilida e de Sondas de de Censurada de ligação Sondas | Impactadas | Sensibilidade | ligação real
E
Inferência da Probabilidad | Número | Número de Probabilida e de Sondas de de Censurada de ligação Sondas | Impactadas Sensibilidade | ligação real
E FE RR a as
E
E FE E RR a o a
Inferência da Probabilidad | Número | Número de Probabilida e de Sondas de de Censurada de ligação Sondas | Impactadas Sensibilidade | ligação real
E Fc o ag e
E E
Inferência da Probabilidad | Número | Número de Probabilida e de Sondas de de Censurada de ligação Sondas | Impactadas Sensibilidade | ligação real
E FE a as Fasso o es
E
E FE RR a a
[00182] Estes resultados, que são plotados na FIG. 13, mostram que a identificação de proteína censurada pode ser uma abordagem preferida em alguns casos em que as probabilidades de ligação possam não ser corretamente estimadas. Exemplo 14: Desempenho das abordagens de inferência de proteína pela utilização de reagentes de afinidade com epitopos de ligação desconhecidos
[00183] Em alguns casos, os reagentes de afinidade podem conter um número de sítios de ligação (por exemplo, epitopos) os quais são desconhecidos. A sensibilidade das abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas com medições de ligação do reagente de afinidade foram comparadas pela utilizado de reagentes de afinidade que se ligam a cinco sítios de trímero (por exemplo, um trímero alvo e quatro sítios fora do alvo randômicos) com probabilidade de 0,25 que são entrados no algoritmo de identificação de proteina. Um subconjunto dos reagentes de afinidade (O de 300, 1 de 300, 50 de 300, 100 de 300, 200 de 300 ou 300 de 300) continha ou 1, 4 ou 40 sítios de ligação adicionais extras contra um trímero randômico com probabilidade de ligação de 0,05, 0,1 ou 0,25. Os resultados da análise são mostrados na Tabela 5. Tabela 5 Probabili- Número de dade de Sítios ligação de | Número | Número de Extras sítios de Sondas Desconheci Censurada extras Sondas | Impactadas | Sensibilidade dos E e o ag O
Probabili- Número de dade de Sítios ligação de | Número | Número de Extras sítios de Sondas Desconheci Censurada extras Sondas | Impactadas | Sensibilidade dos Fa Os Tr a
E FE a ag
E E)
Probabili- Número de dade de Sítios ligação de | Número | Número de Extras sítios de Sondas Desconheci Censurada extras Sondas | Impactadas | Sensibilidade dos
EE E EE
Probabili- Número de dade de Sítios ligação de | Número | Número de Extras sítios de Sondas Desconheci Censurada extras Sondas | Impactadas | Sensibilidade dos E a
EE FE Es A e EE a
Probabili- Número de dade de Sítios ligação de | Número | Número de Extras sítios de Sondas Desconheci Censurada extras Sondas | Impactadas | Sensibilidade dos
E
FR as os o
[00184] Estes resultados, que são plotados na FIG. 14, mostram que a inferência não censurada é mais tolerante à inclusão de sítios de ligação adicionais escondidos e que o desempenho de ambas as abordagens de inferência são significativamente comprometidas quando 50 dos 300 reagentes de afinidade contêm 40 sítios de ligação adicionais. Exemplo 15: Desempenho das abordagens de inferência de proteína utilizando reagentes de afinidade com epitopos de ligação perdidos
[00185] Em alguns casos, pode haver reagentes de afinidade inapropriadamente caracterizados com um número epitopos de ligação anotados que não existem (por exemplo, sítios de ligação esperados extras). Isto é, o modelo utilizado para gerar probabilidades de ligação esperadas para um reagente de afinidade contém sítios esperados extras que não existem.
A sensibilidade das abordagens de identificação de proteína censuradas e abordagens de identificação de proteína não censuradas com medições de ligação do reagente de afinidade foram comparadas pela utilização de reagentes de afinidade que se ligam cada um a sítios de tríimero randômicos (por exemplo, um trímero alvo e quatro sítios fora do alvo randômicos) com probabilidade de 0,25 eu são entrados no algoritmo de identificação de proteína.
Um subconjunto dos reagentes de afinidade (O de 300, 1 de 300, 50 de 300, 100 de 300, 200 de 300 ou 300 de 300) continha ou 1, 4 ou 40 sítios de ligação esperados extras contra um trímero randômico com probabilidade de ligação de 0,05, 0,1 ou 0,25 adicionados ao modelo para o reagente de afinidade utilizado pelo algoritmo de inferência de proteína.
Os resultados da análise são mostrados na Tabela 6. Tabela 6 Probabilida de de Número Número de ligação de | de Sítios — Número Sondas Censurada | sítios extras | Extras | de Sondas | Impactadas | Sensibilidade
E so o o a so a rm o E es a ae o
Probabilida de de Número Número de ligação de | de Sítios — Número Sondas Censurada | sítios extras | Extras | de Sondas | Impactadas | Sensibilidade Fo am ar se DER RT | as DER E A a in so | —. e
Probabilida de de Número Número de ligação de | de Sítios — Número Sondas Censurada | sítios extras | Extras | de Sondas | Impactadas | Sensibilidade
E sos ro o | ss RS A a —
E es or e | e
FO E ss e as
RE
Probabilida de de Número Número de ligação de | de Sítios — Número Sondas Censurada | sítios extras | Extras | de Sondas | Impactadas | Sensibilidade Fo in so | O. e
Probabilida de de Número Número de ligação de | de Sítios — Número Sondas Censurada | sítios extras | Extras | de Sondas | Impactadas | Sensibilidade
E E ar a ns AS a o As as e o o
[00186] Estes resultados, que são plotados na FIG. 15, mostram que a inferência não censurada é mais tolerante à inclusão de sítios de ligação esperados extras incluídos no modelo de ligação do reagente de afinidade e que o desempenho de ambas as abordagens de identificação de proteína é comprometido em algum grau quando a maioria dos reagentes de afinidade contêm 40 sítios de ligação esperados extras. Exemplo 16: Inferência censurada para a análise de ligação do reagente de afinidade com uma estratégia de escalonamento alternativa
[00187] Os métodos descritos aqui podem ser aplicados para inferir a identidade de proteína (por exemplo, a identidade de proteínas desconhecidas) pela utilização de medições de ligação do reagente de afinidade em combinação com várias estratégias de escalonamento de probabilidade. A abordagem de inferência censurada descrita no Exemplo 11 escalona a probabilidade de um resultado observado para uma proteína com base no número de sítios de ligação potenciais na proteína (comprimento da proteína — 2) e no número de resultados de ligação observados (M): P(conjunto de resultados | proteína) SLprotema = TEA
M
[00188] Os métodos descritos aqui podem ser aplicados com abordagens alternativas para computar probabilidades escalonadas. Este exemplo aplica uma abordagem alternativa para a normalização que modela a probabilidade de geração de N eventos de ligação para uma proteína de comprimento k a partir de um conjunto de reagentes de afinidade utilizados para medir a proteína e escalonar com base nesta probabilidade. Primeiramente, para cada sonda, é calculada a probabilidade da sonda ligar um trímero de identidade desconhecida na amostra: P(ligação de trímero |sonda ;) j=8000 = > P(trímero;)P(ligação de sonda; |trímero;) j=1 onde P(trímero;) é a frequência com a qual o trímero ocorre em relação à contagem somada de todos os 8000 trímeros no proteoma. Para qualquer proteína de comprimento &, a probabilidade de uma sonda ligar a proteína pode ser dada por: P(ligação de proteína | sonda ;, k) =1-(1— P(ligação de trímero |sonda;))*?
[00189] O número de eventos de ligação bem sucedidos observados para uma proteína de comprimento & pode seguir uma distribuição binomial de Poisson com n tentativas, onde n é o número de medições de ligação de sonda feitas para a proteína e os parâmetros Psondask da distribuição indicam a probabilidade e sucesso para cada tentativa: Psondas,k = [P(ligação |sonda,, k), P(ligação |sonda 2, k), P(ligação |sondaz, k) ... P(ligação |son
[00190] A probabilidade de geração de N eventos de ligação de uma proteína de comprimento &, com um conjunto particular de sondas, pode ser dada pela função de massa de probabilidade da distribuição binomial de Poisson (PM Fpoigin) parametrizada por p, avaliada em N: P(N eventos de ligação | sondas, k) = PMFrpoigin(N, Psondas,k)
[00191] A probabilidade escalonada de um conjunto particular de resultados é computada com base nesta probabilidade: SL ' o P(conjunto de resultados | proteína) proteina,eventos de ligação P(N eventos de ligação |sondas, k) Exemplo 17: Utilização de reagentes de afinidade selecionados randomicamente
[00192] Os métodos descritos aqui podem ser aplicados a qualquer conjunto de reagentes de afinidade. Por exemplo, a abordagem de identificação de proteína pode ser aplicada a um conjunto de reagentes de afinidade direcionados para os trímeros mais abundantes no proteoma ou direcionados para trímeros randômicos. Os resultados de uma análise de inferência de proteína humana que utiliza reagentes de afinidade direcionados para os 300 trímeros menos abundantes no proteoma, 300 trímeros selecionados randomicamente no proteoma ou os 300 trímeros mais abundantes no proteoma, são mostrados nas Tabelas 7A-7C, respectivamente. Tabelas 7A-C Tabela 7A — 300 reagentes de afinidade direcionados para os trímeros menos abundantes no proteoma ID do Repetição Número | Conjunt do de o de Experimen Tipo de Sensibilida Sondas | Sondas to Seleção de
TD do Repetição Número | Conjunt do de o de Experimen Tipo de Sensibilida Sondas | Sondas to Seleção de Gm mes 30 | Co TR mes] | Tabela 7B — 300 reagentes de afinidade direcionados para trímeros randômicos no proteoma ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas | Experimento Seleção Sensibilidade E TT eme | sa o me | ou Ro ama | as ET eae | ER TG eee | 57 [TE ane | 5
TD do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade 300 3 0 Randômica 95,12 Cr o O ams | 6 300 4 3 Randômica 94,66 300 5 0 Randômica 94,58 300 5 2 Randômica 94,48 300 5 4 Randômica 95 | 300 | 6 1 | Randômica | 93,44 300 6 3 Randômica 93,8 300 6 4 Randômica 94,26 300 7 2 Randômica 95
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade GR o ame | ss Rr ee | om PETI TI ae |
ETITTIT AA TR 8 o aaa | os GR o ama | 6 3 | ro ama | 5 PETIT ae | EETIOI ee |
TT GET AS aa
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETIMTITT AE RA GR o ama | 55 FT O ame | FETIE TI ee | AS
ET GT AAA ae
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETITITT AA TEA Gs o ama | os PETER O eee | EETEITI ee | eA
FT E ee | 5
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade ETETTITT AA TR) GR ama | 5 ETR O ee |
FETET TI E AE
ET ee | nm
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETETTITT AE RA Gs ama | om FTF O eme | EETITI ee | EE
FT GET AAA =
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETIETTITT AE A GR o ama | er FT O eme | 5 FETE TO ee |
TO FEITIO AAA as
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETIETTITT AE TE GS o ama | 7 Gs Team | 55 EETIT TI e | R
FT E ee | ns
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETETTITT AE EE GR A o ama | o TE O ame | FETE TI E | AE
ET GET AAA a
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETIETTITT AE EE Rs | ama | 5 FTF O eme | EETIT TI ee |
FT GET AAA as
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETETTITT AA A Gs o ama | os FT O ame | FETE TI ee | AS Ts FE TI AAAA aa
TD do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade 300 58 0 Randômica 94,36 300 59 3 Randômica 95,4 300 60 0 Randômica 94,8 300 60 2 Randômica 93,82 300 60 4 Randômica 93,86 Gra o ea | 55 | 300 | 61 1 | Randômica | 94,76 300 61 3 Randômica 94,68 300 61 4 Randômica 94,42 300 62 2 Randômica 94,12
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETETTIT AA TR 8 RA o ama | 3656 Gr Ta TI Dee | 5 TE O ame | e FETE TI e | AA)
RT GE TI AAA a
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade GR a o ama | a FE O ame | 55
ETETTIT AA TE GS o ama | os RS Tr ama | or Gr Te Dee | GE Ss Team | 55 EETIT ee | E
FT GET AAA a
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETITTITT AA AE GR o aaa | xe FT O ee | 5 EE TIE TO eee | 5
TO Gr TI AAA as
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade
ETITTIT AE E aaa | ms GT Tama | 555
EITITILIITES E ms eae | o EETIT O ee |
FT E ee | an
TD do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade 300 83 0 Randômica 94,9 Gr E O een | 6 300 84 3 Randômica 93,58 300 85 0 Randômica 94,16 300 85 2 Randômica 94,02 300 85 4 Randômica 94,3 | 300 | 86 1 | Randômica | 95,02 300 86 3 Randômica 94,58 300 86 4 Randômica 94,8 300 87 2 Randômica 95,38
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade Gm e o eae | 7 mr ee | as TE OG ane | sm
ETIETSTITT AE TE Gs | ama | se RS o ama | os Gr Ta Dee | FTF O eme | A
FEITITILIITES HA mr ea | os EETIT TI = | AE
FT Rr ee | sm
TD do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade 300 93 0 Randômica 93,46 GR eae | ER TR eee | 300 94 3 Randômica 94,26 300 95 0 Randômica 94,94 300 95 2 Randômica 93,9 300 95 4 Randômica 94,14 | 300 | 96 1 | Randômica | 94,54 300 9% 3 Randômica 95,14 300 96 4 Randômica 93,88 300 97 2 Randômica 93,76
ID do Número | Conjunt de o de Repetição do Tipo de Sondas | Sondas Experimento Seleção Sensibilidade o RT ama | 356 CT E ama | 356 RA ama | am TI TT aaa | 55 GR eae | 5 GR ama | oa ER E FR eae | ss CE ea | o Tabela 7C — 300 reagentes de afinidade direcionados para os trímeros mais abundantes no proteoma ID do Repetições Número | Conjunt do de o de Experimen Tipo de Sensibilida Sondas | Sondas to Seleção de 300 300 300 300
ID do Repetições Número | Conjunt do de o de Experimen Tipo de Sensibilida Sondas | Sondas to Seleção de 300
[00193] Estes resultados são plotados na FIG. 16. Em todos os casos, cada reagente de afinidade apresentou uma probabilidade de ligação de 0,25 para o trímero alvo e uma probabilidade de ligação de 0,25 para os 4 trímeros adicionais selecionados randomicamente. O desempenho de cada conjunto de reagentes de afinidade é medido com base na sensibilidade (por exemplo, a percentagem de proteínas identificadas). Cada conjunto de reagentes de afinidade foi avaliado em 5 réplicas, com o desempenho de cada réplica sendo plotado como um ponto em uma linha vertical conectando as medições da réplica do mesmo conjunto de reagentes de afinidade. Os resultados do conjunto de reagentes de afinidade consistindo nos 300 reagentes de afinidade mais abundantes está em azul, os 300 menos abundantes em verde. Um total de 100 conjuntos diferentes de 300 reagentes de afinidade direcionados para trímeros randômicos foram gerados e avaliados. Cada um destes conjuntos é representado por um conjunto de 5 pontos cinza (um para cada réplica) conectados por uma linha vertical cinza. De acordo com a inferência não censurada utilizada nesta análise, direcionada para os trímeros mais abundantes aumenta o desempenho de identificação em comparação com os trímeros alvo randômicos. Exemplo 18: Reagentes de afinidade com sítios fora do alvo biossimilares
[00194] Os métodos descritos aqui podem ser aplicados a experimento de ligação de reagente de afinidade com reagentes de afinidade apresentando diferentes tipos de sítios de ligação fora do alvo (epitopos). Neste exemplo, o desempenho com duas classes de reagentes de afinidade é comparado:
reagentes de afinidade randômicos e “biossimilares”. Os resultados destas avaliações são mostrados nas Tabelas 8A-8D.
Tabelas 8A-D Tabela 8A — Desempenho de Inferência Censurada com Reagentes de Afinidade apresentando Sítios Fora do Alvo Biossimilares e Direcionados para os 300 Trímeros Mais Abundantes no Proteoma
Número de Tipo de Sensibilida Tabela 8B — Desempenho Inferência Não Censurada com Reagentes de Afinidade apresentando Sítios Fora do Alvo Biossimilares e Direcionados para os 300 Trímeros Mais Abundantes no Proteoma
Número de Tipo de Sensibilida
Tabela 8C — Desempenho de Inferência Censurada com Reagentes de Afinidade apresentando Sítios Fora do Alvo Randômicos e Direcionados para os 300 Trímeros Mais Abundantes no Proteoma Número de Tipo de Sensibilida Tabela 8D — Desempenho de Inferência Não Censurada com Reagentes de afinidade apresentando Sítios Fora do Alvo Randômicos e Direcionamento para os 300 Trímeros Mais Abundantes no Proteoma Número de Tipo de Sensibilida
[00195] Diferentemente dos reagentes de afinidade randômicos, os reagentes de afinidade biossimilares apresentam sítios de ligação fora do alvo que são bioquimicamente similares ao epitopo alvo. Tanto os reagentes de afinidade randômicos quanto os biossimilares reconhecem seus epitopos alvo (por exemplo, um trímero) com probabilidade de ligação de 0,25. Cada uma das classes de reagentes de afinidade randômicos apresenta 4 sítios de ligação fora do alvo a trimero randomicamente selecionados com probabilidade de ligação de 0,25. Em contraste, os 4 sítios de ligação fora do alvo para os reagentes de afinidade “biossimilares” são os quatro trímeros mais similares ao trímero alvo do reagente de afinidade, que são ligados com probabilidade de 0,25. Para estes reagentes de afinidade biossimilares, a similaridade entre as sequências do trímero é computada pela soma do coeficiente BLOSUMO6?2 para o par de aminoácidos em cada localização da sequência. Tanto o conjunto de reagentes de afinidades randômico quanto o biossimilar são direcionados para os 300 trímeros mais abundantes no proteoma humano, onde a abundância é medida como o número de proteínas únicas contendo um ou mais casos do trímero. À FIG. 17 mostra o desempenho das abordagens de inferência de proteína tanto censuradas (linhas tracejadas) quanto não censuradas (linhas sólidas) em termos da percentagem de proteínas identificadas em uma amostra humana quando são utilizados reagentes de afinidade com sítios fora do alvo randômicos (azul) ou biossimilares (laranja).
[00196] Nesta comparação, a inferência não censurada supera a inferência censurada, com a inferência não censurada com melhor desempenho no caso de reagentes de afinidade biossimilares e a inferência censurada com melhor desempenho o caso de reagentes de afinidade randômicos.
[00197] Alternativamente, em vez de utilizar reagentes de afinidade direcionados para os trímeros mais abundantes no proteoma, um conjunto ideal de trímeros alvo pode ser escolhido para uma abordagem particular baseada nas proteínas candidatas que possam ser medidas (por exemplo, o proteoma humano), o tipo de inferência de proteína sendo realizado (censurada ou não censurada) e o tipo de reagentes de afinidade sendo utilizado (randômicos ou biossimilares). Um algoritmo “guloso”, tal como descrito abaixo, pode ser utilizado para selecionar um conjunto de reagentes de afinidade ideias: 1) Inicializar uma lista vazia de reagentes de afinidade (AR) selecionados. 2) Inicializar um conjunto de ARs candidatos (por exemplo, uma coleção de 8000 ARs, cada um direcionado para um trímero único com sítios fora do alvo randômicos). 3) Selecionar um conjunto de sequências de proteínas de maneira a otimizar contra (por exemplo, todas as proteínas humanas do proteoma de referência da Uniprot).
4) Repetir o que se segue até o número desejado de ARs ter sido selecionado: a. Para cada AR candidato: i. Simular a ligação do AR candidato contra o conjunto de proteínas. ài. Realizar a inferência de proteína para cada proteína pela utilização de medições simuladas de ligação a partir do AR candidato e as medições simuladas de ligação a partir de todos os ARs previamente selecionados.
iii. Calcular uma pontuação para o AR candidato pela soma da probabilidade da identificação correta de proteína para cada proteína determinada pela inferência de proteína.
b. Adicionar o AR com a maior pontuação ao conjunto de ARs selecionados e removê-lo da lista de AR candidato.
A abordagem gulosa foi utilizada para selecionar 300 reagentes de afinidade ideais ou da coleção de reagentes de afinidade randômicos ou dos reagentes de afinidade biossimilares direcionados para os 4000 trímeros mais abundantes no proteoma humano. A otimização foi realizada tanto para a inferência de proteína censurada quanto para a inferência de proteína não censurada. Os resultados destas otimizações são providos nas Tabelas 9A-9D. Tabelas 9A-D Tabela 9A — Desempenho de Inferência Censurada com Reagentes de Afinidade apresentando Sítios Fora do Alvo Biossimilares e Direcionados para os 300 Trímeros Ótimos no Proteoma Número de Tipo de Sensibilida Censurada | Ciclos Sonda de
E
Tabela 9B — Desempenho de Inferência Não Censurada com Reagentes de Afinidade apresentando Sítios Fora do Alvo Biossimilares e Direcionados para os 300 Trímeros Ótimos no Proteoma
Númer o de Tipo de Sensibilida Censurada | Ciclos | Sonda de Tabela 9C — Desempenho de Inferência Censurada com Reagentes de afinidade apresentando Sítios Fora do Alvo Randômicos e Direcionados para os 300 Trímeros Ótimos no Proteoma
Númer o de Tipo de Sensibilida Censurada | Ciclos | Sonda de Tabela 9D — Desempenho de Inferência Não Censurada com Reagentes de afinidade apresentando Sítios Fora do Alvo Randômicos e Direcionados para os 300 Trímeros Ótimos no Proteoma Censura | Número Sensibilida FALSA 200 Randômica
[00198] Os desempenhos de conjunto de sondas otimizadas tanto para inferência de proteína censurada quanto para inferência de proteína não censurada são plotados na FIG. 18.
[00199] Pela utilização do conjunto reagentes de afinidade selecionados pelo algoritmo guloso de otimização é aumentado o desempenho tanto do conjunto de reagentes de afinidade randômicos quanto o biossimilares pela utilização tanto da inferência de proteína censurada quanto da inferência de proteína não censurada. Adicionalmente, conjuntos de reagentes de afinidade randômicos apresentam desempenho quase idêntico aos conjuntos de reagentes de afinidade biossimilares quando a abordagem gulosa é utilizada para selecionar reagentes de afinidade. Exemplo 19: Inferência de proteína pela utilização de misturas de reagentes de afinidade
[00200] Os métodos descritos aqui podem ser aplicados para a análise e/ou identificação de proteínas que foram medidas pela utilização de misturas de reagentes de afinidade. A probabilidade de uma proteína específica gerar um resultado de ligação quando testada por uma mistura de reagentes de afinidade pode ser computada como se segue: 1) Cálculo de Prós, a probabilidade média de ligação não específica de epitopo de cada reagente de afinidade na mistura.
2) Cálculo do número de sítios de ligação na proteína com base no comprimento da proteína (L) e no comprimento dos epitopos do reagente de afinidade (K): Número de sítios de ligação = L-K+1. A probabilidade de não haver a ocorrência de eventos de ligação não específica é (1 — pn)! EL.
3) Para cada reagente de afinidade na mistura, cálculo da probabilidade de não ocorrer qualquer evento de ligação específica de epitopo:
P no spec bind(AR) = HH a epitopo — probabilida de ligação de epitopo)ontagem de epitopos na proteina 4) A probabilidade da mistura gerar um resultado de não ligação para a proteína é: P(nenhuma ligação| proteína) = 1- Pp) IH P no spec bind(AR)
AR 5) A probabilidade da mistura gerar um resultado de ligação é: P(ligação | proteína) = 1 — P(nenhuma ligação | proteína)
[00201] Esta abordagem para o cálculo da probabilidade de um resultado de ligação ou de não ligação a partir de uma mistura de proteínas foi utilizada em combinação com os métodos descritos aqui para analisar o desempenho de misturas de reagentes de afinidade para a identificação de proteína. Cada reagente de afinidade individual na análise se liga a seu epitopo do trímero alvo com uma probabilidade de 0,25 e os 4 trímeros mais similares ao epitopo alvo com uma probabilidade de 0,25. Para estes reagentes de afinidade, a similaridade de trímero é calculada pela soma dos coeficientes da matiz de substituição BLOSUMO6?2 para o aminoácidos em cada local da sequência nos trímeros sendo comparados. Adicionalmente, cada reagente de afinidade se liga a 20 sítios fora do alvo adicionais com probabilidade de ligação escalonada dependendo da similaridade de sequência entre o sítio fora do alvo e o trímero alvo calculado pela utilização da matriz de substituição BLOSUM62. A probabilidade para estes sítios fora do alvo adicionais é: 0,25 * 1,550TSself onde Sor é a similaridade BLOSUMG?2 entre o sítio fora do alvo e o sítio alvo e Sse1s é a similaridade BLOSUMO6?2 entre a sequência alvo e si mesma. Quaisquer sítios fora do alvo com probabilidade de ligação abaixo 2,45 x 10º são ajustados para apresentar probabilidade de ligação de
245 x 10º. A probabilidade de ligação de epitopo específico é de 2,45 x 10º neste exemplo.
[00202] Um conjunto ótimo de 300 misturas de reagentes de afinidade foi gerado tanto para a abordagem de inferência de proteína censurada quanto a não censurada pela utilização de uma abordagem gulosa: 1) Inicializar uma lista vazia de misturas de reagentes de afinidade (AR) selecionados.
2) Inicializar uma lista de reagentes de afinidade candidatos (neste exemplo, consistindo no 300 mais ideais computados pela utilização da abordagem gulosa detalhada no Exemplo 18).
3) Selecionar um conjunto de sequências de proteínas a serem otimizadas (por exemplo, todas as proteínas humanas no proteoma de referência da Uniprot).
4) Repetir o que se segue até ser gerado o número desejado de misturas de ARs: a. Inicializar uma mistura vazia. b. Para cada AR candidato: i. Simular os resultados de ligação pela utilização da mistura corrente com o AR candidato adicionado a esta.
ii. Realizar a inferência de proteína para cada proteína pela utilização das medições simuladas de ligação de 1. e medições simuladas de ligação das misturas previamente geradas.
iii. Calcular uma pontuação para a mistura com este AR candidato pela soma das probabilidades da identificação correta de proteína para cada proteína tal como determinada pela inferência de proteína.
c. Adicionar o d AR candidato pontuação mais alta à mistura. d. Para cada AR candidato ainda não na mistura, pontuar a mistura com a adição do AR, como em i-ili e se o candidate de pontuação mais alta apresentar uma pontuação mais lata o candidato anterior adicionado à mistura, adicionar este à mistura e repetir esta etapa. A mistura está completa quando o AR candidato de melhor pontuação reduzir a pontuação da mistura em relação ao candidate previamente adicionado ou quando todos os AR candidatos foram adicionados à mistura.
[00203] A FIG. 19 mostra a sensibilidade de identificação de proteína quando são utilizados reagentes de afinidade candidatos não misturados com inferência de proteína censurada e inferência de proteína não censurada e quando são utilizadas misturas. Os dados plotados na FIG. 19 são mostrados nas Tabelas 10A-10B. Tabelas 10A-B Tabela 10A — Desempenho de Inferência Censurada com Medições Feitas em Ligação de Sonda Individual (não mist) ou Misturas de Sondas (mist) Tipo de Número Mistu | de Tipo de Sensibilidad Censurada |ra Ciclos Sonda e não não não
Tabela 10B — Desempenho de Inferência Não Censurada com Medições Feitas em Ligação de Sonda Individual (não misturado) ou Misturas de Sondas (misturado) Tipo de Número Mistu | de Tipo de Sensibilidad Censurada |ra Ciclos Sonda e não não não
[00204] O uso de misturas aumenta o desempenho quando é utilizada a inferência não censurada, mas pode impactar negativamente o desempenho se for utilizada a inferência censurada.
Exemplo 20 —Identificação de glicana com uma base de dados de 7 glicanas candidatas
[00205] Considerar uma situação em que uma base de dados contém 7 glicanas candidatas: 52 | GlIeNAcb1-2Manal-6(GIcNAcb1-2Mana1-3)Manb1-4GIcNAcb1- [ais mA
[00206] Adicionalmente, o experimento é realizado com 4 reagentes de afinidade (AR), cada um dos quais apresenta 25% de probabilidade de ligação a um dado dissacarídeo. Os outros dissacarídeos que estes reagentes se ligam não são encontrados em aa glicana na base de dados.
[00207] Uma tabela de acertos é construída para os reagentes de afinidade para cada sequência na base de dados (Row = reagentes de afinidade 41 a 74, Col = SEQ ID) NeuSAca2- 1 1
PCNNNNNANBA GIcNAcb1- 2 1 Be Fucal- 1 1 eme
Galb1- 2 1 1 1
PESSNSSAN
[00208] Notadamente, esta informação chega incrementalmente e, desta forma, pode ser computada iterativamente. A partir da tabela de acertos, P(glicana i | AR j) é avaliada para gerar uma matriz de probabilidade, como mostrado abaixo. Observe-se que, para uma dada entrada, se a tabela de acertos > 1, então utilizar P fixação AR n = taxa de fixação verdadeira = 0,25; de outra forma se a tabela de acertos = O, utilizar P(erro de detector) = 0,00001.
NeuSAca2 | 1,00E- |1,00E- | 1,00E- |0,25 1,00E- | 1,00E- 0,25 a GIcNAcb1 | 1,00E- | 0,25 1,00E- |1,00E- | 1,00E- | 1,00E- | 0,25 am Fucal- 1,00E- |1,00E- |1,00E- |0,25 0,25 1,00E- |0,25 ame Galb1- 0,25 1,00E- |1,00E- |0,25 0,25 0,25 0,25 om O a jo
[00209] Observe-se que muitas das células contêm 0,00001 de probabilidade. Esta pequena probabilidade é responsável por possíveis erros de detector. A probabilidade inicial, não normalizada, de uma glicana é calculada como o produto das probabilidades para cada glicana candidata: 2,5E-16 [2,5E-16 | 1E-20 1,5625E-07 | 6,25E- |[2,5E- [/0,00390625 ot ço de [o
[00210] A seguir, é computada a normalização de tamanho, que se refere ao número de formas que algum número de reagentes de afinidade pode fixar em uma dada glicana, como uma função do número de sítios de ligação potenciais da glicana. A normalização do tamanho é dada pelo termo Escolha(sítios 1, n). Por exemplo, 52 IDs de candidatos apresentam 6 sítios de dissacarídeo e uma normalização de tamanho de [6 escolha 4] que é 15. Se há mais eventos de ligação que o número de sítios de dissacarídeos disponíveis, o fator de normalização de tamanho é estabelecido para 1. As probabilidades não normalizadas de cada glicana são normalizadas para se levar em conta esta correção de tamanho pela divisão da normalização de tamanho o que fornece: 2,5E-16 1,6667E- |1E-20 |1,5625E- |1,25E- [2,5E-16 /0,003906
TV TO
[00211] A seguir, as probabilidades são normalizadas de tal forma que todo o conjunto de probabilidades por toda a base de dados soma um. Isto é alcançado pela soma das probabilidades normalizadas para tamanho para 0,0039064] e dividindo cada uma das probabilidades normalizadas para tamanho por esta normalização de maneira a se obter as probabilidades equilibradas finais: 6,39974E- |[4,2665E- |2,5599E- /3,9998E- |3,1999E- |6,3997E- /0,99996 e o Exemplo 21: Desempenho da identificação de proteína censurada em amostras contendo isoformas de proteína
[00212] As abordagens de identificação de proteína descritas aqui podem ser aplicadas a amostras contendo isoformas de proteína. Uma isoforma de uma proteína canônica pode se referir a uma variante da proteína canônica formada pelo splicing alternativo do mesmo gene que o da proteína canônica ou um outro gene na mesma família genética que a da proteína canônica. Uma isoforma de proteína pode ser estruturalmente similar à proteína canônica,
tipicamente compartilhando grandes partes da sequência com a proteína canônica.
[00213] Amostra de proteína e reagentes de afinidade
[00214] De maneira a determinar o impacto da presença de sequências de isoforma na identificação de proteína, uma análise da ligação do reagente de afinidade foi realizada em uma coleção de proteínas consistindo em 20374 proteínas humanas canônicas únicas e 21987 isoformas únicas destas proteína canônicas. As proteínas canônicas e isoformas de proteínas são aquelas listadas no proteoma humano de referência disponível como parte da base de dados Uniprot. Apenas proteínas com a designação “Swiss-Prot”, utilizada para designar proteínas que foram anotadas manualmente e revisadas, foram incluídas na análise. O número de isoformas incluídas para cada proteína canônica individual variou de O a 36 isoformas. O número médio de isoformas para uma proteína canônica neste conjunto é 1,08. A amostra foi analisada utilizando-se 384 ciclos de reagente de afinidade, cada ciclo medindo os resultados de ligação de um reagente de afinidade único a cada uma das proteínas na amostra. Cada reagente de afinidade se liga a um trímero alvo com uma probabilidade de 0,25 e a quatro trímeros mais similares ao trímero alvo com uma probabilidade de 0,25. Outros trímeros fora do alvo são ligados com uma probabilidade da maior das quantidades 2,45 x 10º e 0,25 * 1,5” onde x é a similaridade do trímero fora do alvo ao trímero alvo subtraída da similaridade do trímero alvo para si mesmo. A similaridade entre as sequências de trímero pode ser computada, por exemplo, pela soma do coeficiente BLOSUM62 para o par de aminoácido em cada uma das três localizações da sequência. Os reagentes de afinidade para os trímeros alvo foram selecionados utilizando-se uma abordagem gulosa, como descrito no Exemplo 18, para otimizar contra o proteoma humano.
[00215] Identificação do desempenho da proteína pela utilização de sequências de isoformas desconhecidas
[00216] Foi realizada a inferência censurada de proteína nos resultados de ligação da amostra utilizando-se uma base de dados contendo apenas as sequências para as 20374 proteínas canônicas na amostra de proteína. Tendo em vista que a base de dados utilizada para a inferência de proteína não contém as sequências das 21987 isoformas de proteína na amostra, os resultados desta análise indicam o desempenho quando as sequências de isoformas de proteína potenciais em uma amostra não são conhecidas. Quando a inferência de proteína é realizada desta forma, a família correta da proteína é identificada para 83,9% das proteínas na amostra com uma taxa de descoberta falsa de 1%. O termo “família da proteína”, tal como utilizado aqui, refere-se genericamente a um conjunto de sequências incluindo uma sequência canônica de proteína e todas as isoformas desta sequência canônica de proteína. A família correta da proteína para uma proteína é identificada se a identidade inferida da proteína fica dentro da mesma família da proteína que a da proteína sendo analisada.
[00217] Desempenho da identificação de proteína pela utilização de sequências de isoformas conhecidas
[00218] Quando foi realizada a inferência de proteína utilizando-se uma base de dados de sequência consistindo em todas as sequências de proteínas na amostra (tanto sequência canônicas de proteínas quanto sequências de isoformas de proteínas),a sequência correta de proteína foi identificada para 60,9% das proteínas na amostra com uma taxa de descoberta falsa de 1%. A sequência correta de proteína é identificada para uma proteína se a sequência exata para a proteína é identificada. Além disto, a família correta da proteína é identificada para 89,8% das proteínas na amostra. A discrepância entre a taxa de identificação das famílias de proteína e das sequências exatas das proteínas pode surgir devido a dificuldades na resolução da identidade de uma proteína entre isoformas candidates múltiplas apresentando sequências similares.
[00219] Desempenho da identificação de proteína pela utilização de famílias de proteína definidas a priori
[00220] Quando o agrupamento de sequências canônicas de proteínas e sequências de isoformas de proteínas em famílias de proteína é conhecido a priori, a taxa de identificação para as famílias de proteína pode ser aumentada pelo cálculo direto das probabilidades da família de proteína. Para uma proteína individual sendo medida, a probabilidade da proteína ser um membro da família de proteína pode ser calculada pela soma de cada uma das probabilidades das sequências individuais das proteínas que compreendem a família. A família de proteína com a maior probabilidade para a proteína em análise é atribuída como a identificação da família da proteína. Quando as probabilidades da família de proteína são calculadas nesta maneira, a família correta da proteína é identificada para 97,2% das proteínas na amostra a um taxa de descoberta falsa de 1%. Em comparação, a família correta da proteína é identificada para 89,8% das proteínas na amostra a uma taxa de descoberta falsa de 1%, quando as probabilidades da família da proteína não são diretamente calculadas. Exemplo 22: Desempenho da identificação censurada de proteína em amostras contendo proteínas com variantes de aminoácido único (SAVs)
[00221] As abordagens de identificação de proteína descritas aqui podem ser aplicadas a amostras contendo proteínas com variantes de aminoácido único. Uma variante de aminoácido único (SAV) de uma proteína canônica, tal como utilizado aqui, refere-se genericamente a uma variante da proteína canônica que difere em um único aminoácido. Variantes de aminoácido único de proteína podem tipicamente ocorrer a partir de um polimorfismo missense de nucleotídeo único (SNPs) no gene que codifica a proteína.
[00222] Amostra de proteína e reagentes de afinidade
[00223] De maneira a determinar o impacto da presença de proteínas SAV na identificação de proteína, uma análise da ligação do reagente de afinidade foi realizada em uma coleção de proteínas consistindo em 20374 proteínas canônicas humanas únicas e 12827 SAVs únicas destas proteína canônicas. As proteínas canônicas são as listadas no proteoma humano de referência disponível como parte da base de dados Uniprot. Para cada proteína canônica, se uma ou mais SAVs para a proteína existirem na base de dados de SAV, uma SAV randomicamente escolhida é incluída na amostra. A base de dados de SAV utilizada é o índice de polimorfismos humanos da Uniprot e de doenças por mutações. Apenas proteínas com a designação “Swiss-Prot”, utilizada para designar proteínas que foram anotadas e revisadas manualmente, foram incluídas na análise. A amostra foi analisada utilizando-se 384 ciclos de reagente de afinidade, cada ciclo medindo os resultados de ligação de um reagente de afinidade único ao qual a cada uma das proteínas na amostra. Cada reagente de afinidade liga um trímero alvo com uma probabilidade de 0,25 e aos quatro trímeros mais similares ao trímero alvo com uma probabilidade de 0,25. Outros trímeros fora do alvo são ligados com uma probabilidade maior que as quantidades 2,45 x 10 e 0,25 * 1,5” onde x é a similaridade do trímero fora do alvo para o trímero alvo subtraído da similaridade do trímero alvo para si próprio. A similaridade entre as sequências dos trímeros pode ser computada, por exemplo, pela soma do coeficiente BLOSUMO6?2 para o par de aminoácidos em cada um dos três locais da sequência. Os reagente de afinidade para os trímeros alvo foram selecionados pela utilização de um abordagem gulosa, tal como descrito no Exemplo 18, para otimizar contra o proteoma humano.
[00224] Desempenho da identificação de proteína pela utilização de sequências SAV conhecidas
[00225] A inferência censurada de proteína foi realizada nos resultados de ligação da amostra utilizando-se uma base de dados contendo apenas as sequências para as 20374 proteínas canônicas na amostra de proteína. Tendo em vista que a base de dados utilizada para a inferência de proteína não contém as sequências das 12827 proteínas SAV na amostra, os resultados desta análise indicam o desempenho quando as sequências de todas as SAVs potenciais em uma amostra não são conhecidas. Com a inferência de proteína realizada desta maneira, a família correta de proteína SAV é identificada para
96,0% das proteínas na amostra com uma taxa de descoberta falsa de 1%. O termo “família da proteina SAV”, tal como utilizado aqui, refere-se genericamente ao conjunto de sequências incluindo uma sequência canônica de proteína e todas as SAVs desta sequência canônica de proteína. A família correta de proteína SAV para uma proteína é identificada se a identidade inferida da proteína fica dentro da mesma família de proteína SAV que a da proteína sendo analisada.
[00226] Desempenho da identificação de proteína pela utilização de sequências SAV conhecidas
[00227] Quando a inferência de proteína foi realizada utilizando-se uma base de dados de sequência consistindo em todas as sequências de proteínas na amostra (tanto sequências canônicas de proteínas quanto sequências de proteínas SAV), a sequência correta de proteína foi identificada para 27,1% das proteínas na amostra com uma taxa de descoberta falsa de 1%. A sequência de proteína correta é identificada para uma proteína se a sequência exata para a proteína for identificada. Além disto, a família correta da proteina SAV é identificada para 96,1% das proteínas na amostra. À discrepância entre a taxa de identificação de famílias de proteína SAV e das sequências exatas de proteínas pode surgir devido à dificuldade na resolução entre as identidades de uma sequência canônica de proteína e uma sequência SAV extremamente similar.
[00228] Desempenho da identificação de proteína pela utilização de famílias proteína SAV definidas a priori
[00229] A taxa de identificação para famílias de proteína SAV pode ser aumentada pelo cálculo das probabilidades da família da proteina SAV diretamente. Para uma proteína individual sendo medida, a probabilidade da proteína ser um membro de uma família de proteína SAV pode ser calculada pela soma de cada uma das probabilidades das sequências de proteínas individuais da família. A família de proteína SAV com a probabilidade mais alta para a proteína em análise é atribuída como a identificação da família da proteina SAV. Quando as probabilidades da família de proteína SAV são calculadas desta maneira, a família correta de proteína SAV é identificada para 96,5% das proteínas na amostra a 1% de taxa de descoberta falsa. Em comparação, a família correta de proteína SAV é identificada para 96,1% das proteínas na amostra a 1% de taxa de descoberta falsa quando as probabilidades da família da proteína não são calculadas diretamente. Exemplo 23: Desempenho da inferência censurada de proteína em uma amostra contendo proteínas de uma mistura de espécies
[00230] Em alguns casos, uma amostra de proteína pode compreender proteínas de cada uma de uma pluralidade de espécies. Uma amostra de proteína pode conter proteínas provenientes de fontes externas tais como fósseis. Em algumas realizações, uma amostra de proteína pode conter proteínas que são sintetizada, modificadas ou engenheiradas, tal como uma proteína recombinante ou uma proteína sintetizada por transcrição e tradução in-vitro. Em algumas realizações, as proteínas sintetizadas, modificadas ou engenheiradas podem conter sequências não naturais (por exemplo, provenientes da modificação de CRISPR-Cas9 ou outros construtos de gene artificial). Cada uma das espécies pode ser, por exemplo, um animal tal como um mamífero (por exemplo, humano, camundongo, rato, primata ou símio), animais de fazenda (gado de corte, gado leiteiro, aves, cavalos, porcos e semelhantes), animais de esporte, animais de companhia (por exemplo, pets ou animais de suporte); uma planta, um protista, uma bactéria, um vírus ou um arqueia.
[00231] Neste exemplo, uma amostra de um modelo xenográfico de tumor de camundongo pode compreender quantidades substanciais de proteínas de origem tanto de camundongo quanto humana. De maneira a se determinar o desempenho da inferência de proteína em uma amostra contendo proteínas de uma mistura de espécies na inferência de proteína, uma análise da ligação do reagente de afinidade foi realizada em uma coleção de proteínas consistindo em 2,00 proteínas de camundongo únicas e 2000 proteínas humanas únicas.
Tanto as proteínas humanas quanto as de camundongo foram selecionadas randomicamente a partir da coleção de sequências canônicas Swiss-Prot no proteoma de referência da Uniprot das respectivas espécies. A amostra foi analisada utilizando-se 384 ciclos de reagente de afinidade, cada ciclo medindo os resultados de ligação de um reagente de afinidade único a cada uma das proteínas na amostra. Cada reagente de afinidade liga um trímero alvo com uma probabilidade de 0,25 e aos quatro trímeros mais similares ao trímero alvo com uma probabilidade de 0,25. Outros trímeros fora do alvo são ligados com probabilidade da maior das quantidades 2,45 x 10º e 0,25 * 1,5" onde x é a similaridade do trímero fora do alvo para o trímero alvo subtraído da similaridade do trímero alvo para si mesmo. A similaridade entre as sequências de trímero pode ser computada, por exemplo, pela soma do coeficiente BLOSUM62 para o par de aminoácidos em cada uma das três localizações da sequência. Os reagentes de afinidade para os trímeros alvo foram selecionados pela utilização de uma abordagem gulosa, como descrito no Exemplo 18, para otimizar contra o proteoma humano.
[00232] Quando a inferência de proteína foi realizada na mistura amostra utilizando uma base de dados contendo apenas as sequências para as proteínas candidatas do proteoma humano (entradas de sequência canônica Swiss-Prot no proteoma de referência humano Uniprot), os resultados não mostraram quaisquer identificações de proteínas na amostra (por exemplo, uma taxa de identificação de 0%) abaixo de um limite de taxa de descoberta falsa de 1%. Em comparação, quando a inferência de proteína foi realizada na mistura amostra utilizando uma base de dados contendo as sequências para as proteínas candidatas tanto do proteoma humano quanto do proteoma de camundongo, 85,3% das proteínas na amostra foram identificadas abaixo de um limite de taxa de descoberta falsa de 1%. Esta discrepância no desempenho indica que para uma amostra contendo proteínas de espécies múltiplas (por exemplo, uma amostra de mistura), o desempenho da identificação de proteína é significativamente aumentado quando a análise da inferência de proteína é realizada utilizando-se uma base de dados contendo as sequências para as proteínas candidatas de todas as espécies representadas na amostra da mistura. Exemplo 24: Desenho de um conjunto de reagentes de afinidade para um painel de proteínas alvo
[00233] Um conjunto de reagentes de afinidade pode ser desenhado o qual é otimizado para a identificação de um subconjunto específico de proteínas em uma amostra. Por exemplo, uma coleção ótima de reagentes de afinidade pode ser utilizada para identificar um conjunto específico de proteínas alvo em menos ciclos ligação de reagente de afinidade em comparação com a utilização de um conjunto otimizado para a identificação de todo o proteoma. Neste exemplo, um conjunto de reagentes de afinidade é gerado para a identificação ótima de 25 proteínas humanas, as quais são biomarcadores potenciais para resposta clínica ao tratamento de câncer por imunoterapia. As proteínas no painel alvo estão listadas na Tabela 11. Tabela 11: Proteínas Incluídas no Painel Alvo para Resposta à Imunoterapia de Câncer P07766; P09693; Marcadores de superfície de célula T Fatores citotóxicos Citocinas e quimiocinas relacionadas à rejeição de tecido
| CCLA P13236 | Lo eme e PD-I1 / pontos de controle | Imunidade & atividade celular
[00234] De maneira a gerar um conjunto de reagentes de afinidade otimizados para a identificação do proteoma completo, foi aplicada uma abordagem gulosa de seleção, tal como descrita no Exemplo 18. Este conjunto de reagentes de afinidade pode ser chamado de conjunto de reagentes de afinidade “otimizado para proteoma”. De maneira a gerar um conjunto de reagentes de afinidade otimizado para a identificação das proteínas na Tabela 11, uma versão modificada da etapa 4) i) no Exemplo 18 é realizada, na qual, em vez de calcular a pontuação para o reagente de afinidade candidato pela soma de cada uma das probabilidades da identificação correta de proteína para cada proteína determinada pela inferência de proteína, a pontuação para o reagente de afinidade candidato é calculada pela soma de cada uma das probabilidades de identificação correta de proteína apenas para as proteínas no painel alvo. Este conjunto de reagentes de afinidade pode ser chamado de conjunto de reagentes de afinidade “otimizado para painel”. Os desempenhos dos conjuntos de reagentes de afinidade otimizado para proteoma e otimizado para painel foram testados em uma amostra de proteoma humano contendo todas as proteínas canônicas únicas no proteoma de referência humano Swiss-
Prot da Uniprot (20374 proteínas). Esta amostra inclui todas as 25 proteínas no painel alvo. Ambos os conjuntos de reagentes de afinidade foram utilizados para analisar a amostra de proteína e a inferência censurada utilizada para gerar a identificação de proteínas para todas as proteína na amostra.
[00235] O número de proteínas do painel alvo identificadas pelos conjuntos de reagentes de afinidade otimizado para proteoma e otimizado para painel é indicado na Tabela 12. Para uma proteína no painel alvo ser contabilizada como uma identificação bem sucedida, esta deve estar presente na lista de todas as proteínas identificadas na amostra a uma taxa de descoberta falsa abaixo de 1%. A identificação foi realizada com número variável de ciclos de reagente de afinidade. Por exemplo, 150 ciclos de reagente de afinidade indica que a inferência de proteína foi realizada em um conjunto de dados compreendendo a análise com os primeiros 150 reagentes de afinidade ou do conjunto otimizado para proteoma ou otimizado para painel, com cada reagente de afinidade sendo analisado em um ciclo individual.
Tabela 12: Desempenho da Identificação de Proteína para Painel Alvo de Proteínas Alvo Número de Ciclos | Proteínas do Painel Alvo Proteínas do Painel Alvo de reagente de Identificadas (Reagentes Identificadas afinidade Otimizados para Proteoma) | (Reagentes Otimizados para Painel)
RR E ER
[00236] Os resultados mostrados na Tabela 12 indicam que a aplicação dos reagentes de afinidade otimizados para painel aumentaram com sucesso a taxa de identificação da proteína nos painéis alvo.
A percentagem de todas as proteínas identificadas a uma taxa de descoberta falsa abaixo de 1% tanto para o conjunto de reagentes de afinidade tanto o otimizado para painel quanto o otimizado para proteoma são indicadas na Tabela 13.
Tabela 13: Desempenho da Identificação de Proteína para Todas as Proteínas na Amostra Número de % de Proteínas Identificadas | % de Proteínas Ciclos de na Amostra (Reagentes Identificadas na Amostra reagente de Otimizados para Proteoma) | (Reagentes Otimizados afinidade para Painel)
E A
[00237] Os resultados mostrados na Tabela 13 indicam que um conjunto de reagentes de afinidade otimizado para painel pode ser gerado para aumentar o desempenho de identificação de um conjunto de proteínas em um painel alvo específico. No entanto, uma troca pode ser encontrada, onde o conjunto de reagentes de afinidade otimizado para painel resultante pode ser sub-ótimo para a identificação de proteínas fora do painel alvo, como indicado pela taxa identificação global de proteína reduzida dos reagentes otimizado para painel na Tabela 13. Exemplo 25: Desempenho da inferência de proteína pela utilização da detecção da presença, contagem ou ordem de aminoácidos individuais
[00238] A abordagem de inferência de proteína descrita aqui pode ser aplicada a medições de aminoácidos específicos em proteínas e peptídeos. Por exemplo, medições em uma proteína podem ser feitas que indicam a presença ou ausência de um aminoácido em uma proteína ou peptídeo (binário), a contagem de um aminoácido e uma proteína ou peptídeo (contagem) ou a ordem dos aminoácidos em um proteína (ordem). Neste exemplo, as proteínas são modificadas por uma série de reações as quais cada uma seletivamente modifica um aminoácido particular. Cada reação da série de reações apresenta uma eficiência de reação entre O e 1, indicando a probabilidade da reação modificar com sucesso qualquer substrato de aminoácido único na proteína. Após a realização de tais reações de modificação na amostra de proteína, a presença ou ausência de um aminoácido seletivamente modificado pode ser detectada, a contagem de um aminoácido seletivamente modificado pode ser detectada e/ou a ordem de um conjunto particular de aminoácidos seletivamente modificados na proteína pode ser detectada.
[00239] Detecções da presença e ausência nas medições de aminoácidos
[00240] De maneira a gerar a identificação de proteínas a partir de uma sequência de medições binárias indicando a presença ou ausência de aminoácidos, a probabilidade Pr(aminoácido presente detectado | proteína) pode ser expressa como 1 - (1 — Ra.) onde R, é a eficiência da reação para o aminoácido e Caa é a contagem do número de vezes que o aminoácido ocorre na proteína. A probabilidade Pr(aminoácido presente não detectado | proteína) pode ser expressa como 1 — Pr(aminoácido presente detectado | proteína). Se a sequência de medições de detecção de aminoácidos múltiplos for feita, a probabilidades pode ser multiplicada para se determinar a probabilidade do conjunto completo de N medições para uma dada proteína candidata, expressa por: Pr(conjunto de resultados | proteína) = Príresultado da medição para aminoácido 1 | proteína) * Príresultado da medição para aminoácido 2 | proteína) * ... Pr(resultado da medição para aminoácido N | proteína).
[00241] A probabilidade de uma proteína candidata particular ser a identificação correta para a proteína sendo medida pode ser expressa como Príconjunto de resultados |proteína candidata) XE, Pr(conjunto de resultados |proteína;) é a soma das probabilidades do conjunto de resultados para cada possível proteína na base de dados de sequência de proteína consistindo em P proteínas.
[00242] Detecções a partir das medições de contagem de aminoácidos
[00243] De maneira a gerar a identificação de proteínas a partir de uma sequência de medições de contagem de aminoácidos, a probabilidade Pr(medições de contagem de aminoácido | proteína) pode ser expressa como (Raa)M * (1— Rag) EM x (O) onde R,, é a eficiência de reação para o aminoácido, Caa é a contagem do número de vezes que o aminoácido ocorre na proteína e M é a contagem medida para o aminoácido na proteína. Se M> Caa, uma probabilidade de O é fornecida. Se uma sequência de medições de contagem de aminoácidos múltiplos é feita, a probabilidades pode ser multiplicada para se determinar a probabilidade do conjunto completo de N medições de uma dada proteína candidata, expressa por: Pr(conjunto de resultados | proteína) = Pr(resultado da medição para o aminoácido | | proteína) * Pr(resultado da medição para o aminoácido 2 | proteína) * ... Pr(resultado da medição para o aminoácido N | proteína).
[00244] A probabilidade de uma proteína candidata particular ser a identificação correta para a proteína sendo medida pode ser expressa como Príconjunto de resultados |proteína candidata) XE, Pr(conjunto de resultados | proteína;) é a soma das probabilidades do conjunto de resultados para cada possível proteína na base de dados de sequência de proteína consistindo em P proteínas.
[00245] Detecções a partir das medições da ordem dos aminoácidos
[00246] Em algumas realizações, pode ser medida uma ordem de aminoácidos seletivamente modificados em uma proteína. Por exemplo, uma proteína com sequência TINYPRTEIN pode gerar um resultado da medição ININ se o aminoácidos I e N são modificados e medidos. Similarmente, a mesma proteína pode gerar um resultado da medição INN ou IIN, nos casos em que um subconjunto de modificações e/ou medições de aminoácido não é bem sucedida.
A probabilidade Pr(resultado da medição | proteína) pode ser expressa como Pr(aa contagens | proteina) * NUMORDEM.
A Pr(aa contagens | proteína) = TIi=F(Raai)M! * (1 — Ragi) CM onde Razi é à eficiência de reação para o aminoácido 1, M; é o número de vezes que o aminoácido i foi medido (por exemplo, em um resultado da medição de INN, N foi medido 2 vezes), Cas; é o número de vezes que o aminoácido i ocorre na sequência da proteína candidata e os aminoácidos 1 a L são todos aminoácidos únicos medidos na proteína (por exemplo, I e N, para o resultado da medição ININ). Se o número de contagens medidas para qualquer aminoácido particular for maior que o número de vezes que o aminoácido ocorre na sequência da proteína candidata, então a probabilidade Pr(aa contagens | proteína) é estabelecida como zero.
NUMORDEM é o número de formas que um resultado particular pode ser gerado a partir da sequência da proteína.
Por exemplo, o resultado da medição de IN pode ser gerado a partir da proteína TINYPRTEIN das seguintes formas: (TINYPRTEIN, TINYPRTEIN, TINYPRTEIN), assim NUMORDEM é 3 para este resultado particular e para a sequência de proteína.
Observe-se que NUMORDEM apresenta um valor de zero nos casos em que não é possível gerar um resultado particular a partir de uma proteína (por exemplo, o resultado da medição de INNI não pode ser gerado a partir da proteína TINYPRTEIN). A probabilidade de uma proteína candidata particular ser a identificação correta para a proteína sendo medida pode ser expressa como Pr(resultado de medição |proteín candidata) XL, Pr(resultado de medição | proteína;) é a somadas — probabilidades do resultado da medição para cada possível proteína na base de dados de sequência de proteína consistindo em P proteínas.
Nos casos em que XE, Pr(resultado de medição | proteína;) é igual a zero, a probabilidade da proteína candidata é estabelecida em zero.
[00247] O desempenho de identificação de proteína que utiliza uma coleção de reagentes para a modificação seletiva e detecção dos aminoácidos K, D, C e W é ilustrado na FIG. 22 e na Tabela 14. As reações são realizadas com eficiência variável, como indicado no eixo x. a modalidade de detecção (ou “binária”, “contagem” ou “ordem” indicando a detecção da presença ou ausência de aminoácidos, as contagens de aminoácidos ou ordem de aminoácidos, respectivamente) é indicada pela sombra de cada barra.
A altura de cada barra indica a percentagem de proteínas na amostra identificadas com uma taxa de descoberta falsa abaixo de 1%. A amostra medida foi uma amostra de proteína humana contendo 1000 proteínas.
Os resultados indicam que um número substancial de proteínas pode ser identificado pela utilização de medições da ordem de aminoácidos com uma eficiência de reação de 0,9 ou mais alta.
Se forem utilizadas as medições das contagens de aminoácidos, um número substancial de proteínas pode ser identificado com uma eficiência de reação de 0,99 ou mais alta.
Em nenhum dos cenários testados foi medida a houve medição da presença ou ausência de aminoácidos suficiente para gerar detecções de proteína.
Tabela 14: Desempenho da Identificação de Proteína Pela Utilização de Modificação Seletiva e Detecção de 4 Aminoácidos (K, D, Ce W) Nome do Tipo de Eficiência de ovEBmEOS form — o KDWC Contagem [oWCRmEROS fem o KDWC Contagem
KDWC Binário KDWC Contagem KDWC Binário mo an do KDWC Contagem KDWC Ordem
[00248] Como mostrado na FIG. 23, a coleção de reagentes para a modificação seletiva e detecção de aminoácidos foi expandida para incluir os aminoácidos R, H, K, D, E, S, T, N, Q, C, G, P, A, V,L L,M,F, Ye W. À modalidade de detecção é indicada pela linha sombreada e a eficiência de reação é indicada no eixo x. O eixo y indica a percentagem de proteínas identificadas com uma taxa de descoberta falsa abaixo de 1% na amostra.
[00249] Os resultados mostrados na FIG. 23 e na Tabela 15 indicam que tal coleção de reagentes é muito efetiva na identificação de proteína se a reação eficiência for maior que cerca de 0,6 e são utilizadas as medições das contagens de aminoácidos. No entanto, apenas uma pequena percentagem de proteínas é sempre identificada se as medições da presença ou ausência de aminoácidos forem utilizadas em vez das medições das contagens de aminoácidos.
Tabela 15: Desempenho da Identificação de Proteína Pela Utilização de Modificação Seletiva e Detecção de 20 Aminoácidos (R, H, K, D, E, S, T, N, Q, C, G, P, A, VI, L, M, F, Ye W)
Todos Res Contagem Todos Res Contagem Todos Res Contagem Todos Res Contagem Todos Res Contagem [rossR proa fonão — a as Todos Res Contagem Todos Res Contagem [roasRa pras fonão — o os Todos Res Contagem ns amem jm o Todos Res Contagem
[00250] A FIG. 24 ilustra o desempenho de identificação de proteína utilizando medições da ordem de aminoácidos, onde os aminoácidos são medidos com uma probabilidade de detecção (igual à eficiência de reação) indicada no eixo x. O eixo y indica a percentagem de proteínas na amostra identificadas com uma taxa de descoberta falsa abaixo de 1%. O experimento foi realizado com medições da ordem dos aminoácidos medida nos 25, 50, 100 ou 200 aminoácidos do terminal N de cada proteína e a base de dados da sequência de proteína candidata consistiu nos primeiros 25, 50, 100 ou 200 aminoácidos, respectivamente, de cada sequência canônica de proteína na base de dados de proteína humana de referência Uniprot.
[00251] O desempenho ilustrado na FIG. 24 e na Tabela 16 indica que, com uma probabilidade de detecção de cerca de 0,3, é ótimo para sequenciar pelo menos os primeiros 100 aminoácidos de cada proteína. Acima de uma probabilidade de detecção de cerca de 0,6, o sequenciamento dos primeiros 25 aminoácidos ou mais parece ser suficiente. Tabela 16: Desempenho da Identificação de Proteína Pela Utilização de Medições da Ordem dos Aminoácidos Comprimento Nome do Tipo de Probabilidad | do Sequencia- Experimento Experimento Sensibilidade | e de Detecção | mento Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term
BE O q Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Dna Jem as faman
Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term Amostra Ordem term
[00252] A FIG. 25 ilustra o desempenho de várias abordagens em uma digestão tríptica de uma amostra consistindo em 1000 proteínas humanas únicas. A amostra contém todos os peptídeos completamente trípticos de comprimento acima de 12 sem clivagens perdidas surgidas destas proteínas. As linhas escuras indicam o desempenho quando é realizada a identificação de proteína utilizando-se as medições da ordem de todos os aminoácidos, que são medidos em probabilidade de detecção variável (equivalente à eficiência de reação). As linhas claras indicam o desempenho quando apenas a ordem dos aminoácidos K, D, W e C é medida com probabilidade de detecção variável (equivalente à eficiência de reação). A base de dados de sequência utilizada para a inferência contém as sequências de todos os peptídeos completamente trípticos com comprimento acima de 12 sem clivagens perdidas surgidas destas proteínas, derivados de todas as sequências canônicas de proteína na base de dados do proteoma de referência humano obtidas da Uniprot. As linhas sólidas indicam a percentagem de peptídeos na amostra identificados a uma taxa de descoberta falsa abaixo de 1%. As linhas tracejadas indicam a percentagem de proteínas na amostra identificadas a uma taxa de descoberta falsa abaixo de 1%. Uma proteína é identificada se um peptídeo com sequência única para esta proteína for identificado a uma taxa de descoberta falsa abaixo de 1%. Estes resultados indicam que a medição da ordem de apenas os aminoácidos K, D, W e C pode não ser suficiente para a detecção de proteína de uma digestão tríptica da amostra. Além disto, as medições da ordem de todos os aminoácidos com uma probabilidade de detecção (equivalente à eficiência de reação) a ou acima de cerca de 0,5 é suficiente para a identificação da maioria das proteínas em uma digestão tríptica. Sistema de controle em computadores
[00253] O presente relatório provê sistemas de controle em computadores que são programados para implementar os métodos deste relatório. A FIG. 10 mostra um sistema de computador (1001) que é programado ou de alguma outra forma configurado para: receber informação de medições empíricas de proteínas desconhecidas em uma amostra, comparar a informação das medições empíricas contra uma base de dados compreendendo uma pluralidade de sequências de proteínas correspondendo às proteínas candidatas, gerar probabilidades de uma proteína candidata gerar o conjunto de resultados de medição observado e/ou gerar probabilidades das proteínas candidatas serem corretamente identificadas na amostra.
[00254] O sistema de computador (1001) pode regular vários aspectos dos métodos e sistemas do presente relatório, tal como, por exemplo, recepção de informação de medições empíricas de proteínas desconhecidas em uma amostra, comparação da informação das medições empíricas contra uma base de dados compreendendo uma pluralidade de sequências de proteínas correspondendo às proteínas candidatas, geração de probabilidades de uma proteína candidata gerar o conjunto de resultados de medição observado e/ou geração de probabilidades das proteínas candidatas serem corretamente identificadas na amostra.
[00255] O sistema de computador (1001) pode ser um dispositivo eletrônico de um usuário ou um sistema de computador que é localizado remotamente em relação ao dispositivo eletrônico. O dispositivo eletrônico pode ser um dispositivo eletrônico móvel. O sistema de computador (1001) inclui uma unidade de processamento central (CPU, também “processador” e “processador de computador” aqui) (1005), que pode ser um processador de núcleo único ou de núcleo múltiplo ou uma pluralidade de processadores para processamento em paralelo.
O sistema de computador (1001) inclui também memória local (1010) (por exemplo, memória de acesso randômico, memória de leitura apenas, memória flash), unidade de armazenamento eletrônico (1015) (por exemplo, disco rígido), interface de comunicação (1020) (por exemplo, adaptador de rede) para comunicação com um ou mais outros sistemas e dispositivos periféricos (1025), tais como cache, outra memória, adaptadores de apresentação de dados de armazenamento e/ou eletrônico.
A memória (1010), unidade de armazenamento (1015), interface (1020) e dispositivos periféricos (1025) estão em comunicação com a CPU (1005) por meio de um barramento de comunicação (linhas sólidas), tal como uma placa mãe.
A unidade de armazenamento (1015) pode ser uma unidade de armazenamento de dados (ou repositório de dados) para o armazenamento de dados.
O sistema de computador (1001) pode ser acoplado de forma operacional a uma rede de computadores (“rede”) (1030) com o auxílio da interface de comunicação (1020). A rede (1030) pode ser a Internet, uma internet e/ou extranet ou uma intranet e/ou extranet que está em comunicação com a Internet.
A rede (1030) em alguns casos é uma rede de telecomunicação e/ou de dados.
A rede (1030) pode incluir um ou mais servidores de computador, os quais podem capacitar a distribuição de computação, tal como computação em nuvem.
Por exemplo, um ou mais servidores de computador podem capacitar a computação em nuvem na rede (1030) (“nuvem”) para realizar vários aspectos da análise, cálculo e geração do presente relatório, tal como, por exemplo, recepção de informação de medições empíricas de proteínas desconhecidas em uma amostra, comparação da informação das medições empíricas contra uma base de dados compreendendo uma pluralidade de sequências de proteínas correspondendo às proteínas candidatas, geração de probabilidades de uma proteína candidata gerar o conjunto de resultados de medição observado e/ou geração de probabilidades das proteínas candidatas serem corretamente identificadas na amostra. Tal computação em nuvem pode ser provida por plataformas de computação em nuvem tais como, por exemplo, Amazon Web Services (AWS), Microsoft Azure, Google Cloud Platform e IBM cloud. A rede (1030), em alguns casos, com o auxílio do sistema de computador (1001), pode implementar uma rede ponto a ponto, que pode capacitar os dispositivos acoplados ao sistema de computador (1001) se comportarem como um cliente ou servidos.
[00256] A CPU (1005) pode executar uma sequência de instruções legíveis em máquina, as quais podem ser incorporadas em um programa ou software. As instruções podem ser armazenadas em uma memória local, tal como a memória (1010). As instruções podem ser direcionadas para a CPU (1005), as quais podem subsequentemente programar ou de alguma outra forma configurar a CPU (1005) para implementar os métodos do presente relatório. Exemplos de operações desempenhadas pela CPU (1005) podem incluir busca, decodificação, execução e resposta.
[00257] A CPU (1005) pode ser parte de um circuito, tal como um circuito integrado. Um ou mais outros componentes do sistema (1001) podem ser incluídos no circuito. Em alguns casos, o circuito é um circuito integrado de aplicação específica (ASIC).
[00258] A unidade de armazenamento (1015) pode armazenar arquivos, tais como drivers, bibliotecas e programas salvos. A unidade de armazenamento (1015) pode armazenar dados do usuário, por exemplo, preferências do usuário e programas do usuário. O sistema de computador (1001), em alguns casos, pode incluir uma ou mais unidades de armazenamento de dados adicionais que são externas ao sistema de computador (1001), tais com o localizadas em um servidor remoto que está em comunicação com o sistema de computador (1001) por meio de uma intranet ou da Internet.
[00259] O sistema de computador (1001) pode se comunicar com um ou mais sistemas de computador remotos por meio de rede (1030). Por exemplo, o sistema de computador (1001) pode se comunicar com um sistema de computador remoto de um usuário. Exemplos de sistemas de computador remotos incluem computadores pessoais (por exemplo, PC portátil), slate ou tablet PCs (por exemplo, Apple& iPad, Samsung& Galaxy Tab), telefones, telefones inteligentes (por exemplo, Apple8& iPhone, dispositivo Android, Blackberry&) ou assistentes digitais pessoais. O usuário pode acessar o sistema de computador (1001) por meio da rede (1030).
[00260] Os métodos tais como descritos aqui podem ser implementados por meio de código executável em máquina (por exemplo, processador de computador) armazenado em um local de armazenamento eletrônico do sistema de computador (1001), tal como, por exemplo, na memória (1010) ou na unidade de armazenamento eletrônico (1015). O código executável em máquina ou legível em máquina pode ser provido na forma de software. Durante o uso, o código pode ser executado pelo processador (1005). Em alguns casos, o código pode ser recuperado da unidade de armazenamento (1015) e armazenado na memória (1010) para acesso imediato pelo processador (1005). Em algumas situações, a unidade de armazenamento eletrônico (1015) pode estar impedida e as instruções executáveis em máquina são armazenadas na memória (1010).
[00261] O código pode ser pré-compilado e configurado para uso com uma máquina contendo um processador adaptado para executar o código ou pode ser compilado durante o tempo de execução. O código pode ser fornecido em uma linguagem de programação que pode ser selecionada para possibilitar que o código seja executado em uma maneira pré-compilada ou compilada.
[00262] Os aspectos dos sistemas e métodos providos aqui, tal como o sistema de computador (1001), podem ser incorporados em programação. Vários aspectos da tecnologia podem ser pensados como “produtos” ou “artigos de manufatura” tipicamente na forma de código executável em máquina (ou processador) e/ou dados associados que é realizado ou incorporado em um tipo de meio legível em máquina. O código executável em máquina pode ser armazenado em uma unidade de armazenamento eletrônico, tal como uma memória (por exemplo, memória apenas de leitura, memória de acesso randômico, memória flash) ou um disco rígido. Meio do tipo de “armazenamento” pode incluir qualquer ou toda a memória tangível dos computadores, processadores ou semelhantes ou módulos associados a estes, tais como várias memórias semicondutoras, leitores de fita, leitores de disco e semelhantes, que podem prover armazenamento não transitório a qualquer tempo para a programação de software. Todo ou parte do software pode às vezes se comunicar por meio da Internet ou várias outras redes de telecomunicação. “Tais comunicações, por exemplo, podem possibilitar o carregamento do software a partir de um computador ou processador para um outro, por exemplo, de um servidor de gerenciamento ou computador hospedeiro para a plataforma de computador de um servidor de aplicativo. Desta forma, um outro tipo de meio que pode conter os elementos do software inclui ótico, elétrico e ondas eletromagnéticas, tal como utilizados em interfaces físicas entre dispositivos locais, por meio de redes com fio e fixas óticas e por várias ligações aéreas. Os elementos físicos que portam tais ondas, tais como ligações por fio ou sem fio, ligações óticas ou semelhantes, também podem ser considerados como meio contendo o software. Tal como utilizados aqui, a não ser que restrito a meio de “armazenamento” tangível não transitório, termos tais como “meio legível” em computador ou máquina referem-se a qualquer meio que participe no provimento de instruções para um processador para execução.
[00263] Assim, um meio legível em máquina, tal como um código executável em computador, pode assumir muitas formas, incluindo, mas não se limitando a, um meio de armazenamento tangível, um meio portador de onda ou um meio de transmissão física. Meios de armazenamento não volátil incluem, por exemplo, discos óticos ou magnéticos, tais como qualquer dos dispositivos de armazenamento em qualquer (quaisquer) computador(es) ou semelhantes, que possam ser utilizados par implementar as bases de dados etc. mostradas nos desenhos. Os meios de armazenamento volátil incluem memória dinâmica, tal como memória principal de tal plataforma de computador. Meios de transmissão tangíveis incluem cabos coaxiais; fios de cobre e fibras óticas, incluindo os fios que compreendem um barramento dentro de um sistema de computador. Meios de transmissão de onda por portador podem assumir a forma de sinais elétrico ou eletromagnéticos ou ondas acústicas ou luminosas tais como as geradas durante a comunicações de dados por radio frequência (RF) e infravermelho (IR). Formas comuns de meios legíveis em computador incluem, desta forma, por exemplo: um disquete, um disk flexível, disco rígido, fita magnética, qualquer outro tipo de maio magnético, um CD-ROM, DVD ou DVD-ROM, qualquer outro tipo de meio, cartões perfurado, fita de papel, qualquer outro meio de armazenamento físico com padrões de perfuração, uma RAM, uma ROM, uma PROM e EPROM, uma FLASH-EPROM, qualquer outro chip ou cartucho de memória, uma onda portadora que transporta dados ou instruções, cabos ou links que transportam tal onda portadora ou qualquer outro meio que um computador possa ler o código de programação e/ou dados. Muitas destas formas de meios legíveis em computador pode ser envolvidas no transporte de uma ou mais sequências de uma ou mais instruções para um processador para execução.
[00264] O sistema de computador (1001) pode incluir ou estar em comunicação com um display eletrônico (1035) que compreende uma interface de usuário (UI) (1040) para o provimento, por exemplo, de seleção pelo usuário de algoritmos, dados de medição de ligação, proteínas candidatas e bases de dados. Exemplos de Uls incluem, sem limitação, uma interface gráfica de usuário (GUI) e interface de usuário baseada em rede.
[00265] Os métodos e sistemas do presente relatório podem ser implementados por meio de um ou mais algoritmos. Um algoritmo pode ser implementado por meio de software por execução pela unidade de processamento central (1005). O algoritmo pode, por exemplo, receber informação de medições empíricas de proteínas desconhecidas em uma amostra, comparar a informação das medições empíricas contra uma base de dados compreendendo uma pluralidade de sequências de proteínas correspondendo às proteínas candidatas, gerar probabilidades de uma proteína candidata gerar o conjunto de resultados de medição observado e/ou gerar probabilidades das proteínas candidatas serem corretamente identificadas na amostra.
[00266] Embora as realizações preferidas da presente invenção tenham sido descritas aqui, será óbvio aos técnicos no assunto que tais realizações são providas apenas como exemplo. Não se pretende que a invenção seja limitada pelos exemplos específicos providos no relatório. Embora a invenção tenha sido descrita com referência ao relatório mencionado acima, as descrições e ilustrações das realizações aqui não devem ser construídas no sentido limitante. Numerosas variações, alterações e substituições irão ocorrer aos técnicos no assunto sem se afastarem da invenção. Além disto, deve ser entendido que todos os aspectos da invenção não estão limitados a representações específicas ou proporções relativas apresentadas aqui as quais dependem de uma variedade de condições e variáveis. Deve ser entendido que várias alternativas às realizações da invenção descritas aqui podem ser empregadas na prática da invenção. Desta forma, é contemplado que a invenção deve cobrir também tais alternativas, modificações, variações ou equivalentes. Pretende-se que as reivindicações a seguir definam o escopo da invenção e que os métodos e estruturas dentro do escopo destas reivindicações e suas equivalentes estejam cobertos por estas.

Claims (33)

  1. REIVINDICAÇÕES LL. Método implementado em computador para a identificação de uma proteína em uma amostra de proteínas desconhecidas, caracterizado pelo fato de compreender: (a) recepção, pelo dito computador, de informação de uma pluralidade de medições empíricas realizadas nas ditas proteínas desconhecidas na dita amostra; (b) comparação, pelo dito computador, de pelo menos uma parte da dita informação da dita pluralidade das ditas medições empíricas contra uma base de dados compreendendo uma pluralidade de sequências de proteínas, cada sequência de proteína correspondendo a uma proteína candidata entre uma pluralidade de proteínas candidatas; e (c) para cada uma ou mais proteínas candidatas na dita pluralidade de proteínas candidatas, geração, pelo dito computador, de um ou mais de: (1) uma probabilidade da dita proteína candidata gerar a dita informação da dita pluralidade de medições empíricas, (1i) uma probabilidade da dita pluralidade de medições empíricas não ser observada tendo em vista que a dita proteína candidata está presente na dita amostra, e (111) uma probabilidade da dita proteína candidata estar presente na dita amostra; com base na dita comparação da dita pelo menos uma parte da dita informação da dita pluralidade das ditas medições empíricas contra a dita base de dados compreendendo a dita pluralidade de sequências de proteínas.
  2. 2. Método de acordo com a reivindicação 1, caracterizado pelo fato duas ou mais da dita pluralidade de medições empíricas serem selecionadas do grupo consistindo em:
    (í) medições de ligação de cada uma de uma ou mais das sondas reagentes de afinidade às ditas proteínas desconhecidas na dita amostra, cada sonda reagente de afinidade sendo configurada para se ligar seletivamente uma ou mais proteínas candidatas entre a dita pluralidade de proteínas candidatas; (il) comprimento de uma ou mais das ditas proteínas desconhecidas na dita amostra; (iii) hidrofobicidade de uma ou mais das ditas proteínas desconhecidas na dita amostra; e (iv) ponto isoelétrico de um ou mais das ditas proteínas desconhecidas na dita amostra.
  3. 3. Método de acordo com a reivindicação 1, caracterizado pelo fato da geração da dita pluralidade de probabilidades compreender adicionalmente o recebimento de informação adicional das medições de ligação de cada de uma pluralidade de sondas reagentes de afinidade adicionais, cada sonda reagente de afinidade adicional sendo configurada para se ligar seletivamente a uma ou mais proteínas candidatas entre a dita pluralidade de proteínas candidatas.
  4. 4, Método de acordo com a reivindicação 1, caracterizado pelo fato de compreender adicionalmente a geração, para cada dita uma ou mais proteínas candidatas, de um nível de confiança que a dita proteína candidata combina com uma das ditas proteínas desconhecidas na dita amostra.
  5. 5. Método de acordo com a reivindicação 1, caracterizado pelo fato da dita pluralidade de sondas reagentes de afinidade compreender não mais que 50 sondas reagentes de afinidade.
  6. 6. Método de acordo com a reivindicação 1, caracterizado pelo fato da dita pluralidade de sondas reagentes de afinidade compreender não mais que 100 sondas reagentes de afinidade.
  7. 7. Método de acordo com a reivindicação 1, caracterizado pelo fato da dita pluralidade de sondas reagentes de afinidade compreender não mais que 200 sondas reagentes de afinidade.
  8. 8. Método de acordo com a reivindicação 1, caracterizado pelo fato da dita pluralidade de sondas reagentes de afinidade compreender não mais que 300 sondas reagentes de afinidade.
  9. 9. Método de acordo com a reivindicação 1, caracterizado pelo fato da dita pluralidade de sondas reagentes de afinidade compreender não mais que 500 sondas reagentes de afinidade.
  10. 10. "Método de acordo com a reivindicação 1, caracterizado pelo fato da dita pluralidade de sondas reagentes de afinidade compreender mais de 500 sondas reagentes de afinidade.
  11. 11. “Método de acordo com a reivindicação 1, caracterizado pelo fato de compreender adicionalmente a geração de uma nota ou relatório eletrônico identificando as ditas proteínas na dita amostra.
  12. 12. "Método de acordo com a reivindicação 1, caracterizado pelo fato da dita amostra ser uma amostra biológica.
  13. 13. — Método de acordo com a reivindicação 12, caracterizado pelo fato da dita amostra biológica ser obtida a partir de um indivíduo.
  14. 14. “Método de acordo com a reivindicação 13, caracterizado pelo fato de compreender adicionalmente a identificação de uma doença no dito indivíduo com base pelo menos na dita pluralidade de probabilidades.
  15. 15. “Método de acordo com a reivindicação 1, caracterizado pelo fato de (c) compreender, para cada uma ou mais proteínas candidatas na dita pluralidade de proteínas candidatas, a geração, pelo dito computador, (1) da dita probabilidade que a dita proteína candidata gerar a dita informação da dita pluralidade de medições empíricas.
  16. 16. “Método de acordo com a reivindicação 1, caracterizado pelo fato de (c) compreender, para cada uma ou mais proteínas candidatas na dita pluralidade de proteínas candidatas, a geração, pelo dito computador, (ii) da dita probabilidade que a dita pluralidade de medições empíricas não ser observada tendo em vista que a dita proteína candidata está presente na dita amostra.
  17. 17. Método de acordo com a reivindicação 1, caracterizado pelo fato de (c) compreender, para cada uma ou mais proteínas candidatas na dita pluralidade de proteínas candidatas, a geração, pelo dito computador, (iii) da dita probabilidade que a dita proteína candidata estar presente na dita amostra.
  18. 18. — Método de acordo com a reivindicação 15, caracterizado pelo fato do dito resultado da medição compreender a ligação das sondas reagentes de afinidade.
  19. 19. — Método de acordo com a reivindicação 15, caracterizado pelo fato do dito resultado da medição compreendendo a ligação não específica das sondas reagentes de afinidade.
  20. 20. “Método de acordo com a reivindicação 16, caracterizado pelo fato do resultado da medição compreender a ligação das sondas reagentes de afinidade.
  21. 21. “Método de acordo com a reivindicação 16, caracterizado pelo fato do dito resultado da medição compreender a ligação não específica das sondas reagentes de afinidade.
  22. 22. — Método de acordo com a reivindicação 17, caracterizado pelo fato das ditas medições empíricas compreenderem a ligação das sondas reagentes de afinidade.
  23. 23. — Método de acordo com a reivindicação 17, caracterizado pelo fato das ditas medições empíricas compreenderem a ligação não específica das sondas reagentes de afinidade.
  24. 24. "Método de acordo com a reivindicação 1, caracterizado pelo fato de compreender adicionalmente a geração de uma sensibilidade da identificação de proteína com um limite predeterminado.
  25. 25. — Método de acordo com a reivindicação 24, caracterizado pelo fato do dito limite predeterminado ser menos de 1% incorreto.
  26. 26. Método de acordo com a reivindicação 1, caracterizado pelo fato da dita proteína na dita amostra ser truncada ou degradada.
  27. 27. "Método de acordo com a reivindicação 1, caracterizado pelo fato da dita proteína na dita amostra não ser originária de um terminal da terminal da proteína.
  28. 28. “Método de acordo com qualquer uma das reivindicações 15 a 17, caracterizado pelo fato das ditas medições empíricas compreenderem o comprimento de uma ou mais das ditas proteínas desconhecidas na dita amostra.
  29. 29. “Método de acordo com qualquer uma das reivindicações 15 a 17, caracterizado pelo fato das ditas medições empíricas compreenderem a hidrofobicidade de uma ou mais das ditas proteínas desconhecidas na dita amostra.
  30. 30. “Método de acordo com qualquer uma das reivindicações 15 a 17, caracterizado pelo fato das ditas medições empíricas compreenderem o ponto isoelétrico de uma ou mais das ditas proteínas desconhecidas na dita amostra.
  31. 31. — Método de acordo com a reivindicação 1, caracterizado pelo fato das ditas medições empíricas compreenderem as medições realizadas em misturas de anticorpos.
  32. 32. — Método de acordo com a reivindicação 1, caracterizado pelo fato das ditas medições empíricas compreenderem as medições realizadas em amostras obtidas de uma pluralidade de espécies.
  33. 33. Método de acordo com a reivindicação 1, caracterizado pelo fato das ditas medições empíricas compreenderem as medições realizadas em amostras na presença de variantes de aminoácido único (SAVs) causadas por polimorfismos de nucleotídeo único (SNPs) não sinônimos.
BR112020013252-7A 2017-12-29 2018-12-28 abordagens de decodificação para a identificação de proteína BR112020013252A2 (pt)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762611979P 2017-12-29 2017-12-29
US62/611,979 2017-12-29
PCT/US2018/056807 WO2019083856A1 (en) 2017-10-23 2018-10-20 METHODS AND SYSTEMS FOR PROTEIN IDENTIFICATION
WOUS2018/056807 2018-10-20
PCT/US2018/067985 WO2019133892A1 (en) 2017-12-29 2018-12-28 Decoding approaches for protein identification

Publications (1)

Publication Number Publication Date
BR112020013252A2 true BR112020013252A2 (pt) 2020-12-01

Family

ID=67068145

Family Applications (1)

Application Number Title Priority Date Filing Date
BR112020013252-7A BR112020013252A2 (pt) 2017-12-29 2018-12-28 abordagens de decodificação para a identificação de proteína

Country Status (11)

Country Link
US (5) US11545234B2 (pt)
EP (1) EP3735259A4 (pt)
JP (2) JP7458678B2 (pt)
KR (1) KR20200105497A (pt)
CN (1) CN111788633A (pt)
AU (2) AU2018395430B2 (pt)
BR (1) BR112020013252A2 (pt)
CA (1) CA3086915A1 (pt)
IL (1) IL275670A (pt)
MX (1) MX2020006803A (pt)
WO (1) WO2019133892A1 (pt)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2018013341A (es) 2016-05-02 2019-09-18 Encodia Inc Analisis de macromoleculas que emplea la codificacion de acido nucleico.
JP2020514746A (ja) 2016-12-01 2020-05-21 ノーティラス バイオテクノロジー インコーポレイテッド タンパク質をアッセイする方法
US11721412B2 (en) 2017-10-23 2023-08-08 Nautilus Subsidiary, Inc. Methods for identifying a protein in a sample of unknown proteins
WO2019083856A1 (en) * 2017-10-23 2019-05-02 Ignite Biosciences, Inc. METHODS AND SYSTEMS FOR PROTEIN IDENTIFICATION
JP7390027B2 (ja) 2017-10-31 2023-12-01 エンコディア, インコーポレイテッド 核酸エンコーディングおよび/または標識を使用する解析のためのキット
KR20200105497A (ko) 2017-12-29 2020-09-07 노틸러스 바이오테크놀로지, 인크. 단백질 식별을 위한 디코딩 접근법
GB2595583A (en) 2018-11-07 2021-12-01 Seer Inc Compositions, methods and systems for protein corona analysis and uses thereof
AU2020247907A1 (en) 2019-03-26 2021-10-28 Seer, Inc. Compositions, methods and systems for protein corona analysis from biofluids and uses thereof
JP2022530966A (ja) 2019-04-30 2022-07-05 エンコディア, インコーポレイテッド 分析物を調製するための方法および関連キット
EP4073263A4 (en) 2020-01-07 2023-11-08 Encodia, Inc. METHODS FOR FORMING A STABLE COMPLEX AND ASSOCIATED KITS
EP4204580A2 (en) 2020-08-25 2023-07-05 Seer, Inc. Compositions and methods for assaying proteins and nucleic acids
US11692217B2 (en) 2020-11-11 2023-07-04 Nautilus Subsidiary, Inc. Affinity reagents having enhanced binding and detection characteristics
CN116848266A (zh) * 2020-12-15 2023-10-03 宽腾矽公司 超灵敏生物传感器方法
US20220214350A1 (en) * 2021-01-05 2022-07-07 Encodia, Inc. Methods for stable complex formation and related kits
EP4360097A1 (en) 2021-06-24 2024-05-01 Nautilus Subsidiary, Inc. Methods and systems for assay refinement
AU2022341171A1 (en) 2021-09-09 2024-02-22 Nautilus Subsidiary, Inc. Characterization and localization of protein modifications
CN114034755B (zh) * 2021-10-13 2024-01-12 郑州航空工业管理学院 一种基于发动机气路静电信号的异常颗粒物检测方法
US20230360732A1 (en) * 2022-04-25 2023-11-09 Nautilus Subsidiary, Inc. Systems and methods for assessing and improving the quality of multiplex molecular assays
WO2024058967A1 (en) 2022-09-13 2024-03-21 Nautilus Subsidiary, Inc. Systems and methods of validating new affinity reagents
US20240183858A1 (en) 2022-11-15 2024-06-06 Nautilus Subsidiary, Inc. Standard polypeptides
WO2024124073A1 (en) 2022-12-09 2024-06-13 Nautilus Subsidiary, Inc. A method comprising performing on a single-analyte array at least 50 cycles of a process

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5733729A (en) * 1995-09-14 1998-03-31 Affymetrix, Inc. Computer-aided probability base calling for arrays of nucleic acid probes on chips
US6762056B1 (en) * 1997-11-12 2004-07-13 Protiveris, Inc. Rapid method for determining potential binding sites of a protein
EP1688987A1 (en) * 1999-04-06 2006-08-09 Micromass UK Limited Improved methods of identifying peptides and proteins by mass spectrometry
WO2000073787A1 (en) * 1999-05-27 2000-12-07 Rockefeller University An expert system for protein identification using mass spectrometric information combined with database searching
KR20030074773A (ko) * 2001-02-01 2003-09-19 싸이퍼젠 바이오시스템즈, 인코포레이티드 탠덤 질량 분광계에 의한 단백질 확인, 특성화 및 서열결정을 위한 개선된 방법
WO2002072613A1 (en) 2001-03-10 2002-09-19 Kent Ridge Digital Labs System and method for systematic prediction of ligand/receptor activity
US20030054408A1 (en) * 2001-04-20 2003-03-20 Ramamoorthi Ravi Methods and systems for identifying proteins
AU2003231980A1 (en) * 2002-03-29 2003-10-13 Buck Institute Identification of apoptotic peptides and methods of use thereof
JP4584828B2 (ja) 2002-10-15 2010-11-24 アブメトリックス, インコーポレイテッド 短いエピトープに対して向けられる複数組のディジタル抗体、およびその使用
US7593817B2 (en) * 2003-12-16 2009-09-22 Thermo Finnigan Llc Calculating confidence levels for peptide and protein identification
CN101124581A (zh) * 2005-03-03 2008-02-13 伊利诺斯大学理事会 使用新的数据库检索模式鉴别和鉴定蛋白质
JP5127718B2 (ja) 2005-10-29 2013-01-23 バイエル・テクノロジー・サービシズ・ゲゼルシヤフト・ミツト・ベシユレンクテル・ハフツング 複雑な組成を有する生物学的起源のサンプル中の1種若しくはそれ以上の被検体の測定方法およびその使用
US20070218503A1 (en) * 2006-02-13 2007-09-20 Mitra Robi D Methods of polypeptide identification, and compositions therefor
EP1996942A1 (en) 2006-03-10 2008-12-03 Tethys Bioscience, Inc. Multiplex protein fractionation
DE102006015001A1 (de) * 2006-03-31 2007-10-11 NMI Naturwissenschaftliches und Medizinisches Institut an der Universität Tübingen Verfahren zum Nachweis und/oder zur Anreicherung von Analytproteinen und/oder Analytpeptiden aus einer komplexen Proteinmischung
US8415102B2 (en) * 2007-04-10 2013-04-09 Nanostring Technologies, Inc. Methods and computer systems for identifying target-specific sequences for use in nanoreporters
US9354236B2 (en) * 2009-07-01 2016-05-31 Consejo Superior De Investigaciones Cientificas Method for identifying peptides and proteins from mass spectrometry data
US9410965B2 (en) * 2009-09-17 2016-08-09 Battelle Energy Alliance, Llc Identification of discriminant proteins through antibody profiling, methods and apparatus for identifying an individual
BR112012017483A2 (pt) * 2010-01-14 2019-09-24 Haplomics Inc previsão e redução de aloimunogenicidade de terapêuticos de proteína
US20130053541A1 (en) * 2011-03-11 2013-02-28 Lynntech, Inc. Methods for discovering molecules that bind to proteins
CN102495127B (zh) * 2011-11-11 2013-09-04 暨南大学 一种基于概率统计模型的蛋白质二级质谱鉴定方法
US10829816B2 (en) 2012-11-19 2020-11-10 Apton Biosystems, Inc. Methods of analyte detection
EP4012716A1 (en) 2012-11-19 2022-06-15 Apton Biosystems, Inc. Digital analysis of molecular analytes using single molecule detection
CN103336914B (zh) * 2013-05-31 2016-05-25 中国人民解放军国防科学技术大学 一种提取荟萃生物标志物的方法及装置
CN104076115B (zh) * 2014-06-26 2015-12-30 云南民族大学 基于峰强度识别能力的蛋白质二级质谱鉴定方法
ES2949063T3 (es) * 2015-05-18 2023-09-25 Univ California Sistemas y métodos para predecir la glucosilación de proteínas
JP2020514746A (ja) * 2016-12-01 2020-05-21 ノーティラス バイオテクノロジー インコーポレイテッド タンパク質をアッセイする方法
JP7295092B2 (ja) 2017-08-18 2023-06-20 ノーティラス・サブシディアリー・インコーポレイテッド 結合試薬を選択する方法
WO2019083856A1 (en) * 2017-10-23 2019-05-02 Ignite Biosciences, Inc. METHODS AND SYSTEMS FOR PROTEIN IDENTIFICATION
US11721412B2 (en) 2017-10-23 2023-08-08 Nautilus Subsidiary, Inc. Methods for identifying a protein in a sample of unknown proteins
JP7253833B2 (ja) 2017-10-31 2023-04-07 エンコディア, インコーポレイテッド 核酸エンコーディングおよび/または標識を使用する方法およびキット
KR20200105497A (ko) 2017-12-29 2020-09-07 노틸러스 바이오테크놀로지, 인크. 단백질 식별을 위한 디코딩 접근법
WO2021003470A1 (en) 2019-07-03 2021-01-07 Nautilus Biotechnology, Inc. Decoding approaches for protein and peptide identification

Also Published As

Publication number Publication date
WO2019133892A1 (en) 2019-07-04
JP2024075638A (ja) 2024-06-04
AU2018395430B2 (en) 2024-05-23
US11545234B2 (en) 2023-01-03
JP7458678B2 (ja) 2024-04-01
CA3086915A1 (en) 2019-07-04
CN111788633A (zh) 2020-10-16
JP2021508885A (ja) 2021-03-11
US20230117795A1 (en) 2023-04-20
US20220068431A1 (en) 2022-03-03
EP3735259A4 (en) 2021-09-08
US11282585B2 (en) 2022-03-22
US11282586B2 (en) 2022-03-22
US20210358562A1 (en) 2021-11-18
AU2018395430A1 (en) 2020-07-23
KR20200105497A (ko) 2020-09-07
MX2020006803A (es) 2020-10-28
IL275670A (en) 2020-08-31
US20210304839A1 (en) 2021-09-30
EP3735259A1 (en) 2020-11-11
US20210358563A1 (en) 2021-11-18
AU2024202653A1 (en) 2024-05-16

Similar Documents

Publication Publication Date Title
BR112020013252A2 (pt) abordagens de decodificação para a identificação de proteína
US11721412B2 (en) Methods for identifying a protein in a sample of unknown proteins
AU2018353967B2 (en) Methods and systems for protein identification
US11970693B2 (en) Methods of selecting binding reagents
US10473654B1 (en) Methods of assaying proteins
WO2021003470A1 (en) Decoding approaches for protein and peptide identification

Legal Events

Date Code Title Description
B350 Update of information on the portal [chapter 15.35 patent gazette]