CN112154230A - 用于蛋白质鉴定的方法和系统 - Google Patents

用于蛋白质鉴定的方法和系统 Download PDF

Info

Publication number
CN112154230A
CN112154230A CN201880083563.8A CN201880083563A CN112154230A CN 112154230 A CN112154230 A CN 112154230A CN 201880083563 A CN201880083563 A CN 201880083563A CN 112154230 A CN112154230 A CN 112154230A
Authority
CN
China
Prior art keywords
protein
binding
affinity reagent
candidate
proteins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880083563.8A
Other languages
English (en)
Inventor
苏贾尔·M·帕特尔
帕拉格·马利克
贾勒特·D·艾格特森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nordiles Biotechnology Co
Original Assignee
Nordiles Biotechnology Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nordiles Biotechnology Co filed Critical Nordiles Biotechnology Co
Publication of CN112154230A publication Critical patent/CN112154230A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B30/00Methods of screening libraries
    • C40B30/04Methods of screening libraries by measuring the ability to specifically bind a target molecule, e.g. antibody-antigen binding, receptor-ligand binding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/543Immunoassay; Biospecific binding assay; Materials therefor with an insoluble carrier for immobilising immunochemicals
    • G01N33/54353Immunoassay; Biospecific binding assay; Materials therefor with an insoluble carrier for immobilising immunochemicals with ligand attached to the carrier via a chemical coupling agent
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Immunology (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Biotechnology (AREA)
  • Medicinal Chemistry (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Food Science & Technology (AREA)
  • Pathology (AREA)
  • Organic Chemistry (AREA)
  • Cell Biology (AREA)
  • Microbiology (AREA)
  • General Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

提供了用于蛋白质的准确且有效鉴定和定量的方法和系统。在一个方面,本文公开了一种迭代地鉴定未知蛋白质样品中的候选蛋白质的方法,该方法包括:接收多个亲和试剂探针中的每一个与未知蛋白质的结合测量的信息,每个亲和试剂探针被配置为选择性地与一种或多种候选蛋白质结合;将结合测量的信息的至少一部分与包含多个蛋白质序列的数据库进行比较,每个蛋白质序列对应于候选蛋白质;以及基于候选蛋白质的结合测量的信息与包含多个蛋白质序列的数据库的比较,迭代地生成该样品中存在一种或多种候选蛋白质中的每一种的概率。

Description

用于蛋白质鉴定的方法和系统
交叉引用
本申请要求2017年10月23日提交的第62/575,976号美国临时专利申请的优先权,该临时申请通过引用整体并入本文。
背景技术
当前用于蛋白质鉴定的技术通常依赖于高度特异性和灵敏性亲和试剂(如抗体)的结合和随后读出,或者依赖于来自质谱仪的肽读取数据(长度通常为大约12-30个氨基酸)。可以将这类技术应用于样品中的未知蛋白质,以基于对高度特异性和敏感性亲和试剂与目的蛋白质的结合测量值的分析,确定候选蛋白质的存在、不存在或量。
发明内容
本文认识到需要改进未知蛋白质样品中蛋白质的鉴定和定量。本文提供的方法和系统可以显著减少或消除鉴定样品中的蛋白质的错误,从而改善所述蛋白质的定量。这类方法和系统可以实现未知蛋白质样品内候选蛋白质的准确和有效鉴定。这样的鉴定可以基于使用被配置为选择性地与一种或多种候选蛋白质结合的亲和试剂探针的结合测量信息的迭代计算。在一些实施方案中,未知蛋白质的样品可以迭代地暴露于单独的亲和试剂探针、合并的亲和试剂探针或单独的亲和试剂探针和合并的亲和试剂探针的组合。所述鉴定可以包括估计所述样品中存在一种或多种候选蛋白质中的每一种的置信水平。
在一方面,本文公开了一种迭代地鉴定未知蛋白质样品内每种候选蛋白质的计算机实现的方法,该方法包括:(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知蛋白质的结合测量的信息,每个亲和试剂探针被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合;(b)通过所述计算机,将所述结合测量信息的至少一部分与包含多个蛋白质序列的数据库进行比较,每个蛋白质序列对应于所述多种候选蛋白质中的候选蛋白质;以及(c)对于所述多种候选蛋白质中的一种或多种候选蛋白质中的每一种,通过所述计算机,基于所述一种或多种候选蛋白质中的每一种的所述结合测量信息的所述至少一部分与包含所述多个蛋白质序列的所述数据库的所述比较,迭代地生成所述样品中存在所述一种或多种候选蛋白质中的每一种的概率。
在一些实施方案中,生成所述多个概率进一步包括迭代地接收多个附加亲和试剂探针中的每一个的结合测量的附加信息,每个附加亲和试剂探针被配置为选择性地与所述多种候选蛋白质中的一种或多种候选蛋白质结合。在一些实施方案中,所述方法进一步包括针对所述一种或多种候选蛋白质中的每一种,生成所述候选蛋白质与所述样品中的所述未知蛋白质之一相匹配的置信水平。
在一些实施方案中,生成所述概率包括考虑与所述结合测量信息相关的检测器错误率。在一些实施方案中,所述检测器错误率是从用来获取所述结合测量信息的一个或多个检测器的说明书中获得的。在一些实施方案中,将所述检测器错误率设置为估计的检测器错误率。在一些实施方案中,所述估计的检测器错误率由所述计算机的用户设置。在一些实施方案中,所述估计的检测器错误率约为0.001。这样的错误率可以包括物理检测器错误,这在本文其他地方描述。或者,这样的错误率可归因于探针无法“降落在”蛋白质上,例如,当探针卡在系统中且未正确洗掉时,或者当探针与基于先前的探针鉴定和测试未预期的蛋白质结合时。因此,检测器错误率可包括以下一项或多项:物理检测器错误率、脱靶结合率或由于探针卡住而导致的错误率。
在一些实施方案中,迭代地生成所述多个概率进一步包括从后续迭代中从所述多种候选蛋白质中去除一种或多种候选蛋白质,从而减少进行所述概率的所述迭代生成所必需的迭代次数。在一些实施方案中,去除所述一种或多种候选蛋白质至少基于与所述候选蛋白质相关的所述结合测量的预定标准。在一些实施方案中,所述预定标准包括所述一种或多种候选蛋白质与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
在一些实施方案中,将每个所述概率相对于所述候选蛋白质的长度进行归一化。在一些实施方案中,将每个所述概率相对于所述多种候选蛋白质的概率总和进行归一化。在一些实施方案中,所述多个亲和试剂探针包含不超过50个亲和试剂探针。在一些实施方案中,所述多个亲和试剂探针包含不超过100个亲和试剂探针。在一些实施方案中,所述多个亲和试剂探针包含不超过500个亲和试剂探针。
认识到所述候选蛋白质的长度是候选蛋白质中可用于结合特定亲和试剂的表位(“结合位点”)数目的近似替代指标,在一些实施方案中,将所述概率中的每一个相对于每种所述候选蛋白质中可用的结合位点的总数进行归一化。在一些实施方案中,通过鉴定过程凭经验确定可用于每种所述候选蛋白质的结合位点的数目。在一些实施方案中,所述鉴定过程重复测量亲和试剂与特定蛋白质的结合。在一些实施方案中,所述鉴定过程在与本文所述的蛋白质鉴定的所述方法和系统期间存在的条件相似或相同的条件下进行。
在一些实施方案中,迭代地生成所述概率,直到满足预定条件。在一些实施方案中,所述预定条件包括以至少90%的置信度生成所述多个概率中的每一个。在一些实施方案中,所述预定条件包括以至少95%的置信度生成所述多个概率中的每一个。在一些实施方案中,所述预定条件包括以至少99%的置信度生成所述多个概率中的每一个。
在一些实施方案中,所述方法进一步包括生成鉴定所述样品中的一种或多种未知蛋白质的纸质或电子报告。在一些实施方案中,所述样品包括生物样品。在一些实施方案中,所述生物样品从受试者获得。在一些实施方案中,所述方法进一步包括至少基于所述多个概率来确定所述受试者中的疾病状态。
在一些实施方案中,所述方法进一步包括通过计数对每种蛋白质候选物进行的鉴定次数来量化所述生物样品中的蛋白质。在一些实施方案中,将原始蛋白质计数进行归一化,以针对误差和偏倚的来源进行校正,所述来源包括但不限于检测器误差、荧光团强度、被亲和试剂的脱靶结合以及蛋白质可检测性。
在另一方面,本文公开了一种鉴定未知蛋白质样品内候选蛋白质的计算机实现的方法,该方法包括:(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知蛋白质的结合测量的信息,每个亲和试剂探针被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合;(b)通过所述计算机,将所述结合测量信息的至少一部分与包含多个蛋白质序列的数据库进行比较,每个蛋白质序列对应于所述多种候选蛋白质中的候选蛋白质;以及(c)至少基于所述结合测量信息的所述至少一部分与包含所述多个蛋白质序列的所述数据库的所述比较,从所述多种候选蛋白质中去除一种或多种候选蛋白质。
在一些实施方案中,去除所述一种或多种候选蛋白质至少基于与所述候选蛋白质相关的所述结合测量的预定标准。在一些实施方案中,所述预定标准包括所述一种或多种候选蛋白质与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。在一些实施方案中,所述多个亲和试剂探针包含不超过50个亲和试剂探针。在一些实施方案中,所述多个亲和试剂探针包含不超过100个亲和试剂探针。在一些实施方案中,所述多个亲和试剂探针包含不超过500个亲和试剂探针。
在一些实施方案中,所述方法进一步包括生成鉴定所述样品中的一种或多种未知蛋白质的纸质或电子报告。在一些实施方案中,所述样品包括生物样品。在一些实施方案中,所述生物样品从受试者获得。在一些实施方案中,所述方法进一步包括至少基于所述鉴定的候选蛋白质来确定所述受试者中的疾病状态。
基于仅示出并描述了本公开的说明性实施方案的以下详细描述,本公开的其他方面和优点对本领域技术人员而言将变得显而易见。应当认识到,本公开能够具有其他不同的实施方案,并且其若干细节能够在各个明显的方面进行修改,所有这些都不脱离本公开内容。因此,附图和说明书在本质上将被视为说明性的,而非限制性的。
援引并入
本说明书中所提及的所有出版物、专利和专利申请均通过引用并入本文,其程度犹如具体地且单独地指出每个单独的出版物、专利或专利申请均通过引用而并入。如果通过引用而并入的出版物和专利或专利申请与本说明书中包含的公开内容存在矛盾,则本说明书旨在取代和/或优先于任何这样的矛盾材料。
附图说明
本发明的新颖特征在所附权利要求书中具体阐述。通过参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述以及附图(在本文中也称为“图”),将会对本发明的特征和优点获得更好的理解,在这些附图中:
图1示出了根据一些实施方案,生物样品中未知蛋白质的蛋白质鉴定的示例流程图。
图2示出了被编程或以其他方式配置为实现本文提供的方法的计算机控制系统。
图3示出了根据一些实施方案,删截(censored)的蛋白质鉴定与未删截(uncensored)的蛋白质鉴定方法的性能。
图4示出了根据一些实施方案,删截的蛋白质鉴定和未删截的蛋白质鉴定方法对随机“假阴性”结合结果的容忍度。
图5示出了根据一些实施方案,删截的蛋白质鉴定和未删截的蛋白质鉴定方法对随机“假阳性”结合结果的容忍度。
图6示出了根据一些实施方案,采用被高估或低估的亲和试剂结合概率,删截的蛋白质鉴定和未删截的蛋白质鉴定方法的性能。
图7示出了根据一些实施方案,使用具有未知结合表位的亲和试剂,删截的蛋白质鉴定和未删截的蛋白质鉴定方法的性能。
图8示出了根据一些实施方案,使用具有遗漏的结合表位的亲和试剂,删截的蛋白质鉴定和未删截的蛋白质鉴定方法的性能。
图9示出了根据一些实施方案,使用针对蛋白质组中的前300个最丰富的三聚体、蛋白质组中的300个随机选择的三聚体或蛋白质组中的300个最不丰富的三聚体的亲和试剂,删截的蛋白质鉴定和未删截的蛋白质鉴定方法的性能。
图10示出了根据一些实施方案,使用具有随机或生物类似脱靶位点的亲和试剂,删截的蛋白质鉴定和未删截的蛋白质鉴定方法的性能。
图11示出了根据一些实施方案,使用一组最佳亲和试剂(探针),删截的蛋白质鉴定和未删截的蛋白质鉴定方法的性能。
图12示出了根据一些实施方案,使用未混合的候选亲和试剂和候选亲和试剂的混合物,删截的蛋白质鉴定和未删截的蛋白质鉴定方法的性能。
图13示出了根据一些实施方案,两个杂交步骤对亲和试剂与蛋白质之间的结合的增强。
具体实施方式
尽管已经在本文中显示并描述了本发明的多个实施方案,但是对本领域技术人员显而易见的是这些实施方案仅作为实例提供。在不偏离本发明的情况下,本领域技术人员可以想到许多改变、变化和替换。应当理解,可以使用本文所述发明的实施方案的各种替代方案。
如本文所用的术语“样品”通常是指生物样品(例如,含有蛋白质的样品)。样品可取自组织或细胞,或者取自组织或细胞的环境。在一些实例中,样品可以包含或来源于组织活检物、血液、血浆、细胞外液、干燥的血液斑点、培养的细胞、培养基、废弃组织、植物物质、合成蛋白质、细菌样品和/或病毒样品、真菌组织、古菌或原生动物。在采集之前,样品可能已从来源中分离。样品可包含法医证据。非限制性实例包括在采集之前从主要来源中分离的指纹、唾液、尿液、血液、粪便、精液或其他体液。在一些实例中,蛋白质在样品制备过程中从其主要来源(细胞、组织、体液如血液、环境样品等)中分离。样品可以来源于灭绝的物种,包括但不限于来源于化石的样品。该蛋白质可以从或者可以不从其主要来源纯化或以其他方式富集。在一些情况下,在进一步加工之前将主要来源均质化。在一些情况下,使用缓冲液如RIPA缓冲液裂解细胞。在此阶段也可使用变性缓冲液。可以对样品进行过滤或离心以去除脂质和颗粒物质。样品也可以被纯化以去除核酸,或者可以用RNA酶和DNA酶处理。样品可含有完整蛋白质、变性蛋白质、蛋白质片段或部分降解的蛋白质。
样品可取自患有疾病或病症的受试者。该疾病或病症可以是传染病、免疫病症或疾病、癌症、遗传病、退行性疾病、生活方式疾病、损伤、罕见疾病或年龄相关性疾病。该传染病可由细菌、病毒、真菌和/或寄生虫引起。癌症的非限制性实例包括膀胱癌、肺癌、脑癌、黑素瘤、乳腺癌、非霍奇金淋巴瘤、宫颈癌、卵巢癌、结直肠癌、胰腺癌、食管癌、前列腺癌、肾癌、皮肤癌、白血病、甲状腺癌、肝癌和子宫癌。遗传疾病或病症的一些实例包括但不限于囊性纤维化、Charcot–Marie–Tooth病、亨廷顿病(Huntington's disease)、Peutz-Jeghers综合征、唐氏综合症、类风湿性关节炎和Tay–Sachs病。生活方式疾病的非限制性实例包括肥胖症、糖尿病、动脉硬化、心脏病、中风、高血压、肝硬化、肾炎、癌症、慢性阻塞性肺病(copd)、听力问题和慢性背痛。损伤的一些实例包括但不限于擦伤、脑损伤、瘀伤、烧伤、脑震荡、充血性心力衰竭、建筑损伤、脱位、连枷胸、骨折、血胸、椎间盘突出、髋骨隆凸挫伤、低体温、撕裂、神经挟捏、气胸、肋骨骨折、坐骨神经痛、脊髓损伤、肌腱韧带筋膜损伤、创伤性脑损伤和鞭伤。可在治疗患有疾病或病症的受试者之前和/或之后取得样品。可在治疗之前和/或之后取得样品。可在治疗或治疗方案期间取得样品。可从受试者取得多个样品以监测治疗随时间的效果。可从已知或疑似患有没有可用诊断性抗体的传染病的受试者取得样品。
样品可取自疑似患有疾病或病症的受试者。样品可取自经历不明原因的症状如疲劳、恶心、体重减轻、酸痛和疼痛、虚弱或记忆丧失的受试者。样品可取自具有明确原因的症状的受试者。样品可取自由于诸如家族史、年龄、环境暴露等因素、生活方式风险因素或存在其他已知风险因素而具有发生疾病或病症的风险的受试者。
样品可取自胚胎、胎儿或孕妇。在一些实例中,样品可包含从母亲血浆中分离的蛋白质。在一些实例中,蛋白质从母亲血液中的循环胎儿细胞分离。
样品可取自健康个体。在一些情况下,样品可以纵向地取自同一个体。在一些情况下,可以对纵向获取的样品进行分析,目的是监测个体的健康状况并早期检测健康问题。在一些实施方案中,可以在家庭环境或照护点环境下采集样品,随后在分析之前通过邮递、快递或其他运输方法来运输该样品。例如,家庭用户可以通过手指点刺采集血斑样品,该血斑样品可以被干燥并且随后在分析之前通过邮递来运输。在一些情况下,可以使用纵向获取的样品来监测对预期会影响健康、运动表现或认知表现的刺激的反应。非限制性实例包括对药物、节食或运动方案的反应。
可对样品的蛋白质进行处理以去除可能干扰表位结合的修饰。例如,可对蛋白质进行糖苷酶处理以去除翻译后糖基化。可用还原剂处理蛋白质以减少该蛋白质内的二硫键。可用磷酸酶处理蛋白质以去除磷酸基团。可以去除的翻译后修饰的其他非限制性实例包括乙酸基团、酰胺基团、甲基、脂质、遍在蛋白、豆蔻酰化、棕榈酰化、异戊二烯化或异戊烯化(例如法尼醇和香叶基香叶醇)、法尼基化、香叶基香叶酰化、糖基磷脂酰肌醇化、脂化、黄素部分附接、磷酸泛酰巯基乙胺化和亚视黄基席夫碱形成。还可对样品进行处理以保留翻译后蛋白质修饰。在一些实例中,可将磷酸酶抑制剂添加到样品中。在一些实例中,可添加氧化剂以保护二硫键。
可以使样品的蛋白质完全或部分变性。在一些实施方案中,可以使蛋白质完全变性。可通过施加外部应激如去污剂、强酸或强碱、浓无机盐、有机溶剂(例如,醇或氯仿)、辐射或热而使蛋白质变性。可通过添加变性缓冲液而使蛋白质变性。也可将蛋白质沉淀、冻干和悬浮在变性缓冲液中。蛋白质可通过加热而变性。不太可能对蛋白质造成化学修饰的变性方法可能是优选的。
在缀合之前或之后,可对样品的蛋白质进行处理以产生更短的多肽。剩余的蛋白质可以用酶如蛋白酶K部分消化以生成片段,或者可以保持其完整。在进一步的实例中,蛋白质可暴露于蛋白酶如胰蛋白酶。蛋白酶的另外的实例可包括丝氨酸蛋白酶、半胱氨酸蛋白酶、苏氨酸蛋白酶、天冬氨酸蛋白酶、谷氨酸蛋白酶、金属蛋白酶和天冬酰胺肽裂合酶。
在一些情况下,去除极大的和小的蛋白质(例如肌联蛋白)可能是有用的,此类蛋白质可以通过过滤或其他适当的方法去除。在一些实例中,极大蛋白质可包括超过400千道尔顿(kD)、450kD、500kD、600kD、650kD、700kD、750kD、800kD或850kD的蛋白质。在一些实例中,极大蛋白质可包括超过约8,000个氨基酸、约8,500个氨基酸、约9,000个氨基酸、约9,500个氨基酸、约10,000个氨基酸、约10,500个氨基酸、约11,000个氨基酸或约15,000个氨基酸的蛋白质。在一些实例中,小蛋白质可包括小于约10kD、9kD、8kD、7kD、6kD、5kD、4kD、3kD、2kD或1kD的蛋白质。在一些实例中,小蛋白质可包括少于约50个氨基酸、45个氨基酸、40个氨基酸、35个氨基酸或约30个氨基酸的蛋白质。可以通过大小排阻色谱法去除极大或小蛋白质。极大蛋白质可通过大小排阻色谱法分离,用蛋白酶处理以产生中等大小的多肽,并与样品的中等大小的蛋白质重新组合。
例如,可以用可辨识的标签标记样品的蛋白质,以允许样品的多路化。可辨识的标签的一些非限制性实例包括:荧光团、磁性纳米颗粒或DNA条形码化的碱基连接体。所使用的荧光团可包括荧光蛋白,如GFP、YFP、RFP、eGFP、mCherry、tdtomato、FITC、Alexa Fluor350、Alexa Fluor 405、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 546、AlexaFluor 555、Alexa Fluor 568、Alexa Fluor 594、Alexa Fluor 647、Alexa Fluor680、Alexa Fluor 750、Pacific Blue、香豆素、BODIPY FL、Pacific Green、Oregon Green、Cy3、Cy5、Pacific Orange、TRITC、Texas Red、藻红蛋白、别藻蓝蛋白或其他本领域已知的荧光团。
可以对任何数目的蛋白质样品进行多路化。例如,多路化的反应可含有来自2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、约20、约25、约30、约35、约40、约45、约50、约55、约60、约65、约70、约75、约80、约85、约90、约95、约100个或多于100个初始样品的蛋白质。可辨识的标签可提供探询每种蛋白质的来源样品的方式,或者可指导来自不同样品的蛋白质隔离到固体支持物上的不同区域。在一些实施方案中,随后将蛋白质施加至官能化的基底上,从而以化学方式将蛋白质附接至基底。
任何数目的蛋白质样品可以在分析之前混合,而不进行标记或多路化。例如,多路化的反应可含有来自2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、约20、约25、约30、约35、约40、约45、约50、约55、约60、约65、约70、约75、约80、约85、约90、约95、约100个或多于100个初始样品的蛋白质。例如,可以对合并的样品进行罕见病况的诊断。然后可以只对该诊断检测呈阳性的样品池中的样品进行单个样品的分析。可以使用组合池化设计对样品进行多路化而无需标记,在该设计中,以某种方式将样品混合到池中,该方式允许使用计算多路分解从分析的池中解析出来自各个样品的信号。
如本文所用的术语“基底”通常是指能够形成固体支持物的基底。基底或固体基底可指蛋白质可以共价或非共价附接至其上的任何固体表面。固体基底的非限制性实例包括颗粒、珠子、载玻片、装置元件的表面、膜、流动池、孔、腔室、宏观流体腔室、微流体腔室、通道、微流体通道或其他任何表面。基底表面可以是平的或弯曲的,或者可以具有其他形状,并且可以是光滑的或有纹理的。基底表面可含有微孔。在一些实施方案中,基底可以由玻璃、碳水化合物如葡聚糖、塑料如聚苯乙烯或聚丙烯、聚丙烯酰胺、胶乳、硅、金属如金,或纤维素组成,并且可被进一步修饰以允许或增强蛋白质的共价或非共价附接。例如,基底表面可通过用特定官能团如马来酸或琥珀酸部分修饰进行官能化,或者通过用化学反应性基团如氨基、巯基或丙烯酸基团修饰(例如通过硅烷化)进行衍生化。合适的硅烷试剂包括氨基丙基三甲氧基硅烷、氨基丙基三乙氧基硅烷和4-氨基丁基三乙氧基硅烷。基底可用N-羟基琥珀酰亚胺(NHS)官能团进行官能化。玻璃表面还可以使用例如环氧硅烷、丙烯酸硅烷或丙烯酰胺硅烷,通过诸如丙烯酸或环氧基等其他反应性基团进行衍生化。供蛋白质附接的基底和方法优选地对于反复的结合、洗涤、成像和洗脱步骤是稳定的。在一些实例中,基底可以是载玻片、流动池或者微尺度或纳米尺度结构(例如,有序结构,如微孔、微柱、单分子阵列、纳米球、纳米柱或纳米线)。
基底上官能团的间隔可以是有序的或随机的。可通过例如光刻法、蘸笔(Dip-Pen)纳米刻蚀法、纳米压印刻蚀法、纳米球刻蚀法(nanosphere lithography)、纳米球刻蚀法(nanoball lithography)、纳米柱阵列、纳米线刻蚀法、扫描探针刻蚀法、热化学刻蚀法、热扫描探针刻蚀法、局部氧化纳米刻蚀法、分子自组装、模版刻蚀法或电子束刻蚀法来创建官能团的有序阵列。有序阵列中的官能团可被定位成使得每个官能团与其他任何官能团相距小于200纳米(nm),或约200nm、约225nm、约250nm、约275nm、约300nm、约325nm、约350nm、约375nm、约400nm、约425nm、约450nm、约475nm、约500nm、约525nm、约550nm、约575nm、约600nm、约625nm、约650nm、约675nm、约700nm、约725nm、约750nm、约775nm、约800nm、约825nm、约850nm、约875nm、约900nm、约925nm、约950nm、约975nm、约1000nm、约1025nm、约1050nm、约1075nm、约1100nm、约1125nm、约1150nm、约1175nm、约1200nm、约1225nm、约1250nm、约1275nm、约1300nm、约1325nm、约1350nm、约1375nm、约1400nm、约1425nm、约1450nm、约1475nm、约1500nm、约1525nm、约1550nm、约1575nm、约1600nm、约1625nm、约1650nm、约1675nm、约1700nm、约1725nm、约1750nm、约1775nm、约1800nm、约1825nm、约1850nm、约1875nm、约1900nm、约1925nm、约1950nm、约1975nm、约2000nm或超过2000nm。可以以一定的浓度提供随机间隔的官能团,使得官能团与其他任何官能团平均相距至少约50nm、约100nm、约150nm、约200nm、约250nm、约300nm、约350nm、约400nm、约450nm、约500nm、约550nm、约600nm、约650nm、约700nm、约750nm、约800nm、约850nm、约900nm、约950nm、约1000nm或超过100nm。
基底可被间接地官能化。例如,可对基底进行聚乙二醇化,并且可将官能团施加至全部或一组PEG分子。可使用适合于微尺度或纳米尺度结构(例如,有序结构,如微孔、微柱、单分子阵列、纳米球、纳米柱或纳米线)的技术对基底进行官能化。
基底可包含任何材料,包括金属、玻璃、塑料、陶瓷或其组合。在一些优选的实施方案中,固体基底可以是流动池。流动池可以由单层或多层组成。例如,流动池可包含基层(例如,硼硅酸盐玻璃层)、覆盖在基层上的通道层(例如,蚀刻的硅层)以及覆盖层或顶层。当这些层组装在一起时,可以形成封闭的通道,在任一端具有穿过覆盖层的入口/出口。每层的厚度可以变化,但优选小于约1700μm。这些层可由本领域已知的任何合适的材料组成,包括但不限于光敏玻璃、硼硅酸盐玻璃、熔融硅酸盐、PDMS或硅。不同的层可由相同的材料或不同的材料组成。
在一些实施方案中,流动池可在流动池底部上包含通道开口。流动池可在可被离散地可视化的位置上包含数百万个附接的靶标缀合位点。在一些实施方案中,与本发明的实施方案一起使用的各种流动池可包含不同数目的通道(例如,1个通道、2个或更多个通道、3个或更多个通道、4个或更多个通道、6个或更多个通道、8个或更多个通道、10个或更多个通道、12个或更多个通道、16个或更多个通道,或超过16个通道)。各种流动池可包含不同深度或宽度的通道,深度或宽度可在单个流动池内的通道之间不同,或在不同流动池的通道之间不同。单个通道的深度和/或宽度也可以变化。例如,在通道内的一个或多个点处,通道可以是小于约50μm深、约50μm深、小于约100μm深、约100μm深、约100μm至约500μm深、约500μm深或超过约500μm深。通道可具有任何横截面形状,包括但不限于圆形、半圆形、矩形、梯形、三角形或卵形的横截面。
可将蛋白质点样、滴加、移液、流动、洗涤或以其他方式施加至基底。在基底已经用诸如NHS酯的部分进行官能化的情况下,不需要对蛋白质进行修饰。在基底已经用替代部分(例如巯基、胺或连接体DNA)进行官能化的情况下,可以使用交联试剂(例如辛二酸二琥珀酰亚胺酯、NHS、磺酰胺)。在基底已经用连接体DNA进行官能化的情况下,可以用互补DNA标签修饰样品的蛋白质。在一些情况下,可以对蛋白质进行官能化,使其可以通过静电相互作用与基底结合。
可以使用可光活化的交联剂来引导样品与基底上的特定区域的交联。可以使用可光活化的交联剂通过将每个样品附接在基底的已知区域中来允许蛋白质样品的多路化。可光活化的交联剂可以例如通过在蛋白质交联之前检测荧光标签来允许已经成功标记的蛋白质的特异性附接。可光活化的交联剂的实例包括但不限于N-5-叠氮基-2-硝基苯甲酰基氧基琥珀酰亚胺、6-(4'-叠氮基-2'-硝基苯基氨基)己酸磺基琥珀酰亚胺酯、4,4'-氮杂戊酸琥珀酰亚胺酯、4,4'-氮杂戊酸磺基琥珀酰亚胺酯、6-(4,4'-氮杂戊酰胺基)己酸琥珀酰亚胺酯、6-(4,4'-氮杂戊酰胺基)己酸磺基琥珀酰亚胺酯、2-((4,4'-氮杂戊酰胺基)乙基)-1,3'-二硫代丙酸琥珀酰亚胺酯和2-((4,4'-氮杂戊酰胺基)乙基)-1,3'-二硫代丙酸磺基琥珀酰亚胺酯。
多肽可通过一个或多个残基附接至基底。在一些实例中,多肽可经由N末端、C末端、两个末端或经由内部残基附接。
除了永久性交联剂之外,使用可光切割的连接体对于一些应用也可能是合适的,并且这样做使得能够在分析后从基底中选择性地提取蛋白质。在一些情况下,可光切割的交联剂可用于几种不同的多路化样品。在一些情况下,可光切割的交联剂可用于多路化反应中的一个或多个样品。在一些情况下,多路化反应可包含经由永久性交联剂交联至基底的对照样品和经由可光切割的交联剂交联至基底的实验样品。
每个缀合的蛋白质可在空间上彼此分开,使得每个缀合的蛋白质是光学可辨析的。因此,蛋白质可以用独特空间地址单独标记。在一些实施方案中,这可以通过使用低浓度蛋白质和基底上的低密度附接位点进行缀合以使得每个蛋白质分子在空间上彼此分开来实现。在使用可光活化的交联剂的实例中,可以使用光图案,使得蛋白质附着至预定的位置。
在一些实施方案中,每个蛋白质可与独特空间地址相关联。例如,一旦蛋白质在空间上分离的位置处附接至基底,则每个蛋白质可以例如通过坐标被分配索引化的地址。在一些实例中,预先分配的独特空间地址的网格可以预先确定。在一些实施方案中,基底可含有易于辨识的固定的标志,使得可以相对于该基底的固定的标志确定每个蛋白质的放置。在一些实例中,基底可具有永久地标记在表面上的网格线和/或“原点”或其他基准点。在一些实例中,可永久地或半永久地标记基底的表面,以提供用以定位所交联的蛋白质的参考。图案化的形状本身,如缀合多肽的外部边界,也可以用作基准点,以供确定每个斑点的独特位置。
基底还可以含有缀合的蛋白质标准品和对照。缀合的蛋白质标准品和对照可以是已缀合在已知位置上的已知序列的肽或蛋白质。在一些实例中,缀合的蛋白质标准品和对照可充当测定中的内部对照。蛋白质可以从纯化的蛋白质储备物施加至基底,或者可以通过诸如核酸可编程蛋白质阵列(Nucleic Acid-Programmable Protein Array,NAPPA)等过程在基底上合成。
在一些实例中,基底可包含荧光标准品。这些荧光标准品可用来校准测定之间的荧光信号强度。这些荧光标准品也可用来将荧光信号强度与区域中存在的荧光团的数目相关联。荧光标准品可包含在测定中使用的一些或所有不同类型的荧光团。
一旦基底与来自样品的蛋白质缀合,就可进行多亲和试剂测量。本文所述的测量过程可以采用各种亲和试剂。在一些实施方案中,可以将多种亲和试剂混合在一起,并且可以对该亲和试剂混合物与蛋白质-基底缀合物的结合进行测量。
如本文所用的,术语“亲和试剂”通常是指以可再现的特异性结合蛋白质或肽的试剂。例如,亲和试剂可以是抗体、抗体片段、适体、微蛋白质结合物或肽。在一些实施方案中,微蛋白质结合物可以包括长度可以在30-210个氨基酸之间的蛋白质结合物。在一些实施方案中,可以设计微蛋白质结合物。在一些实施方案中,单克隆抗体可能是优选的。在一些实例中,抗体片段如Fab片段可能是优选的。在一些情况下,亲和试剂可以是可商购获得的亲和试剂,如可商购获得的抗体。在一些情况下,可通过筛选可商购获得的亲和试剂以鉴定具有有用特性的亲和试剂来选择所需的亲和试剂。
亲和试剂可具有高、中或低特异性。在一些实例中,亲和试剂可识别几种不同的表位。在一些实例中,亲和试剂可识别存在于两种或更多种不同蛋白质中的表位。在一些实例中,亲和试剂可识别存在于多种不同蛋白质中的表位。在一些情况下,在本公开的方法中使用的亲和试剂可以对单个表位是高度特异性的。在一些情况下,在本公开的方法中使用的亲和试剂可以对含有翻译后修饰的单个表位是高度特异性的。在一些情况下,亲和试剂可具有高度相似的表位特异性。在一些情况下,可以专门设计具有高度相似的表位特异性的亲和试剂,以解析高度相似的蛋白质候选物序列(例如,具有单氨基酸变体或同种型的候选物)。在一些情况下,亲和试剂可具有高度多样的表位特异性,以使蛋白质序列的覆盖最大化。在一些实施方案中,由于探针与蛋白质-基底结合的随机性质,可以用相同的亲和探针重复进行实验,预期是结果可以不同,从而为蛋白质鉴定提供额外的信息。
在一些情况下,被亲和试剂识别的一个或多个特定表位可能不是完全已知的。例如,可以针对对一种或多种完整蛋白质、蛋白质复合物或蛋白质片段具有特异性的结合来设计或选择亲和试剂,而无需知道特定结合表位。通过鉴定过程,可能已经详细了解了该试剂的结合谱。即使特定结合表位是未知的,使用所述亲和试剂的结合测量也可以用来确定蛋白质身份。例如,针对与蛋白质靶标结合而设计的可商购获得的抗体或适体可以用作亲和试剂。在测定条件(例如,完全折叠、部分变性或完全变性)下鉴定后,该亲和试剂与未知蛋白质的结合可提供关于未知蛋白质的身份的信息。在一些情况下,在知道或不知道它们所靶向的特定表位的情况下,可以使用蛋白质特异性亲和试剂(例如,可商购获得的抗体或适体)的集合来生成蛋白质鉴定。在一些情况下,蛋白质特异性亲和试剂的集合可包含50、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、10000、20000种或超过20000种亲和试剂。在一些情况下,亲和试剂的集合可包含证明在特定生物体中具有靶标反应性的所有可商购获得的亲和试剂。例如,可以连续地对蛋白质特异性亲和试剂的集合进行测定,并单独地对每种亲和试剂进行结合测量。在一些情况下,可以在结合测量之前混合蛋白质特异性亲和试剂的子集。例如,对于每个结合测量运行,可以选择亲和试剂的新混合物,该新混合物包含从完整组中随机选择的亲和试剂的子集。例如,每种后续混合物可以以相同的随机方式生成,期望许多亲和试剂将存在于多于一种混合物中。在一些情况下,可以使用蛋白质特异性亲和试剂的混合物更快速地生成蛋白质鉴定。在一些情况下,蛋白质特异性亲和试剂的此类混合物可增大亲和试剂在任何单独的运行中结合的未知蛋白质的百分比。亲和试剂的混合物可以包含所有可用亲和试剂的1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或更多。在单个实验中评估的亲和试剂的混合物可能会或可能不会共享单独的亲和试剂。在一些情况下,在集合内可能有多种与相同蛋白质结合的不同的亲和试剂。在一些情况下,该集合中的每种亲和试剂都可以与不同的蛋白质结合。在对相同蛋白质具有亲和力的多种亲和试剂与单个未知蛋白质结合的情况下,未知蛋白质的身份是所述亲和试剂的共同靶标的置信度可能增加。在一些情况下,在多种亲和试剂结合相同蛋白质上的不同表位的情况下,使用靶向相同蛋白质的多种蛋白质亲和试剂可能会提供冗余,并且仅靶向该蛋白质的亲和试剂子集的结合可能会受到翻译后修饰或结合表位的其他空间位阻的干扰。在一些情况下,结合表位未知的亲和试剂的结合可与结合表位已知的亲和试剂的结合测量一起使用,以生成蛋白质鉴定。
在一些实例中,可以选择一种或多种亲和试剂来结合给定长度如2、3、4、5、6、7、8、9、10个或多于10个氨基酸的氨基酸基序。在一些实例中,可以选择一种或多种亲和试剂来结合具有2个氨基酸至40个氨基酸的一系列不同长度的氨基酸基序。
在一些情况下,亲和试剂可以用DNA条形码进行标记。在一些实例中,DNA条形码可用来纯化使用后的亲和试剂。在一些实例中,DNA条形码可用来分选亲和试剂以供重复使用。在一些情况下,亲和试剂可以用荧光团进行标记,该荧光团可用来分选使用后的亲和试剂。
亲和试剂家族可包含一种或多种类型的亲和试剂。例如,本公开的方法可以使用亲和试剂家族,其包含抗体、抗体片段、Fab片段、适体、肽和蛋白质中的一种或多种。
可以修饰亲和试剂。修饰包括但不限于检测部分的附接。检测部分可以直接或间接附接。例如,检测部分可以直接共价附接至亲和试剂,或者可以通过连接体附接,或者可以通过亲和反应附接,如互补DNA标签或生物素链霉亲和素对。能够经受亲和试剂的温和洗涤和洗脱的附接方法可能是优选的。
亲和试剂可以用例如可辨识的标签进行标记,以允许结合事件的鉴定或定量(例如,采用结合事件的荧光检测)。可辨识的标签的一些非限制性实例包括:荧光团、荧光纳米颗粒、量子点、磁性纳米颗粒或DNA条形码化的碱基连接体。所使用的荧光团可包括荧光蛋白,如GFP、YFP、RFP、eGFP、mCherry、tdtomato、FITC、Alexa Fluor 350、Alexa Fluor 405、Alexa Fluor 488、Alexa Fluor 532、Alexa Fluor 546、Alexa Fluor555、Alexa Fluor568、Alexa Fluor 594、Alexa Fluor 647、Alexa Fluor 680、Alexa Fluor 750、PacificBlue、香豆素、BODIPY FL、Pacific Green、Oregon Green、Cy3、Cy5、Pacific Orange、TRITC、Texas Red、藻红蛋白、别藻蓝蛋白或其他本领域已知的荧光团。或者,亲和试剂可以未标记,例如当直接检测结合事件时,例如采用结合事件的SPR检测。
检测部分可包括但不限于荧光团、生物发光蛋白、包含恒定区和条形码区的DNA区段,或用于与纳米颗粒如磁性颗粒连接的化学系链(tether)。检测部分可包括具有不同激发或发射模式的几种不同的荧光团。
检测部分可以是可从亲和试剂上切下的。这可以允许从不再感兴趣的亲和试剂上去除检测部分以减少信号污染的步骤。
在一些情况下,亲和试剂是未修饰的。例如,如果亲和试剂是抗体,则可以通过原子力显微术检测抗体的存在。亲和试剂可以是未修饰的,并且可以例如通过对一种或多种亲和试剂具有特异性的抗体来检测。例如,如果亲和试剂是小鼠抗体,则可以通过使用抗小鼠第二抗体来检测该小鼠抗体。或者,亲和试剂可以是适体,该适体由对该适体具有特异性的抗体来检测。可以用如上所述的检测部分修饰第二抗体。在一些情况下,可以通过原子力显微术检测第二抗体的存在。
在一些实例中,亲和试剂可包含相同的修饰,例如缀合的绿色荧光蛋白,或者可包含两种或更多种不同类型的修饰。例如,每种亲和试剂可与各自具有不同激发或发射波长的几种不同荧光部分之一缀合。这可以允许亲和试剂的多路化,因为可以组合和/或区分几种不同的亲和试剂。在一个实例中,第一亲和试剂可与绿色荧光蛋白缀合,第二亲和试剂可与黄色荧光蛋白缀合,而第三亲和试剂可与红色荧光蛋白缀合,因此这三种亲和试剂可以是多路化的并通过它们的荧光进行鉴定。在另一个实例中,第一、第四和第七亲和试剂可与绿色荧光蛋白缀合,第二、第五和第八亲和试剂可与黄色荧光蛋白缀合,而第三、第六和第九亲和试剂可与红色荧光蛋白缀合;在这种情况下,第一、第二和第三亲和试剂可以一起多路化,而第二、第四和第七,以及第三、第六和第九亲和试剂形成两个进一步的多路化反应。可以一起多路化的亲和试剂的数目可取决于用来区分它们的检测部分。例如,用荧光团标记的亲和试剂的多路化可能受到可用的独特荧光团数目的限制。对于进一步的实例,用DNA标签标记的亲和试剂的多路化可由DNA条形码的长度决定。
可以在用于测定之前确定每种亲和试剂的特异性。可以在使用已知蛋白质的对照实验中确定亲和试剂的结合特异性。可以使用任何合适的实验方法来确定亲和试剂的特异性。在一个实例中,基底可以在已知位置处负载已知的蛋白质标准品并用于评估多种亲和试剂的特异性。在另一个实例中,基底可包含实验样品以及对照和标准品的小组,使得每种亲和试剂的特异性可从与对照和标准品的结合来计算,然后用于鉴定实验样品。在一些情况下,可以包括具有未知特异性的亲和试剂以及已知特异性的亲和试剂,来自已知特异性的亲和试剂的数据可用来鉴定蛋白质,而未知特异性的亲和试剂与所鉴定的蛋白质的结合模式可用来确定其结合特异性。还可以通过使用其他亲和试剂的已知结合数据来重新确认任何单独的亲和试剂的特异性,以评估该单独的亲和试剂结合哪些蛋白质。在一些情况下,亲和试剂与缀合至基底上的每种已知蛋白质结合的频率可以用来得出与基底上的任何蛋白质结合的概率。在一些情况下,与包含表位(例如氨基酸序列或翻译后修饰)的已知蛋白质结合的频率可以用来确定亲和试剂与特定表位结合的概率。因此,通过亲和试剂组的多次使用,亲和试剂的特异性可以随着每次迭代而逐渐改善。虽然可以使用对特定蛋白质具有独特特异性的亲和试剂,但是本文所述的方法可能不需要它们。另外,方法可能对一系列特异性有效。在一些实例中,当亲和试剂对任何特定蛋白质都不具有特异性,但对氨基酸基序(例如三肽AAA)具有特异性时,本文所述的方法可能特别有效。
在一些实例中,可以选择具有高、中或低结合亲和力的亲和试剂。在一些情况下,具有低或中结合亲和力的亲和试剂可能是优选的。在一些情况下,亲和试剂可具有约10-3M、10-4M、10-5M、10-6M、10-7M、10-8M、10-9M、10-10M或低于10-10M的解离常数。在一些情况下,亲和试剂可具有大于约10-10M、10-9M、10-8M、10-7M、10-6M、10-5M、10-4M、10-3M、10-2M或高于10-2M的解离常数。在一些情况下,具有低或中koff速率或者中或高kon速率的亲和试剂可能是优选的。
可以选择一些亲和试剂来结合修饰的氨基酸序列,如磷酸化的或遍在蛋白化的氨基酸序列。在一些实例中,可以选择对可由一种或多种蛋白质包含的表位家族具有广泛特异性的一种或多种亲和试剂。在一些实例中,一种或多种亲和试剂可以结合两种或更多种不同的蛋白质。在一些实例中,一种或多种亲和试剂可以与其一种或多种靶标弱结合。例如,亲和试剂可以与其一种或多种靶标以低于10%、低于10%、低于15%、低于20%、低于25%、低于30%或低于35%结合。在一些实例中,一种或多种亲和试剂可以与其一种或多种靶标中等或强烈地结合。例如,亲和试剂可以与其一种或多种靶标以超过35%、超过40%、超过45%、超过60%、超过65%、超过70%、超过75%、超过80%、超过85%、超过90%、超过91%、超过92%、超过93%、超过94%、超过95%、超过96%、超过97%、超过98%或超过99%结合。
为了补偿弱结合,可将过量的亲和试剂施加至基底。亲和试剂可以相对于样品蛋白质以约1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1或10:1过量施加。亲和试剂可以相对于样品蛋白质中表位的预期出现率以约1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1或10:1过量施加。
为了补偿高亲和试剂解离速率,可以将连接体部分附接至每种亲和试剂,并用来将结合的亲和试剂可逆地连接至其结合的基底或未知蛋白质。例如,DNA标签可以附接至每种亲和试剂的末端,而不同的DNA标签附接至基底或每种未知蛋白质上。在亲和试剂与未知蛋白质杂交后,可以在芯片上洗涤在一端与亲和试剂相关DNA标签互补而在另一端与基底相关标签互补的连接体DNA,以使亲和试剂与基底结合,并防止亲和试剂在测量前解离。结合后,可以通过在破坏DNA连接键的热或高盐浓度的存在下洗涤来释放连接的亲和试剂。
图13示出了根据一些实施方案,两个杂交步骤对亲和试剂与蛋白质之间的结合的增强。特别是,图13的步骤1示出了亲和试剂杂交。如步骤1中所见,亲和试剂1310与蛋白质1330杂交。蛋白质1330与载玻片1305结合。如步骤1中所见,亲和试剂1310附接有DNA标签1320。在一些实施方案中,亲和试剂可以附接有超过一个DNA标签。在一些实施方案中,亲和试剂可以附接有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或超过20个DNA标签。DNA标签1320包括具有识别序列1325的ssDNA标签。另外,蛋白质1330具有两个DNA标签1340。在一些实施方案中,可以使用与蛋白质中的半胱氨酸反应的化学法添加DNA标签。在一些实施方案中,蛋白质可以附接有超过一个DNA标签。在一些实施方案中,蛋白质可以附接有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100个或超过100个DNA标签。每个DNA标签1340包括具有识别序列1345的ssDNA标签。
如步骤2中所见,DNA连接体1350与分别附接至亲和试剂1310和蛋白质1330的DNA标签1320和1340杂交。DNA连接体1350包含具有分别与识别序列1325和1345互补的序列的ssDNA。此外,识别序列1325和1345位于DNA连接体1350上,以允许DNA连接体1350同时与DNA标签1320和1340两者结合,如步骤2中所示。特别是,DNA连接体1350的第一区域1352选择性地与识别序列1325杂交,而DNA连接体1350的第二区域1354选择性地与识别序列1345杂交。在一些实施方案中,第一区域1352和第二区域1354可以在DNA连接体上彼此间隔开。特别是,在一些实施方案中,DNA连接体的第一区域和DNA连接体的第二区域可以在第一区域与第二区域之间用非杂交间隔序列间隔开。此外,在一些实施方案中,识别序列的序列可以小于与DNA连接体完全互补,并且仍可以与DNA连接体序列结合。在一些实施方案中,识别序列的长度可以小于5个核苷酸、5个核苷酸、6个核苷酸、7个核苷酸、8个核苷酸、9个核苷酸、10个核苷酸、11个核苷酸、12个核苷酸、13个核苷酸、14个核苷酸、15个核苷酸、16个核苷酸、17个核苷酸、18个核苷酸、19个核苷酸、20个核苷酸、21个核苷酸、22个核苷酸、23个核苷酸、24个核苷酸、25个核苷酸、26个核苷酸、27个核苷酸、28个核苷酸、29个核苷酸、30个核苷酸或超过30个核苷酸。在一些实施方案中,识别序列可以与互补DNA标签序列具有一个或多个错配。在一些实施方案中,识别序列的大约十分之一的核苷酸可以与互补DNA标签序列错配,并且仍然可以与互补DNA标签序列杂交。在一些实施方案中,识别序列的不到十分之一的核苷酸可以与互补DNA标签序列错配,并且仍然可以与互补DNA标签序列杂交。在一些实施方案中,识别序列的大约十分之二的核苷酸可以与互补DNA标签序列错配,并且仍然可以与互补DNA标签序列杂交。在一些实施方案中,识别序列的超过十分之二的核苷酸可以与互补DNA标签序列错配,并且仍然可以与互补DNA标签序列杂交。
亲和试剂还可包含磁性组分。该磁性组分可用于将一些或所有结合的亲和试剂操纵到同一成像平面或z堆叠(stack)中。将一些或所有亲和试剂操纵到同一成像平面中可以改善成像数据的质量并降低系统中的噪声。
如本文所用的,术语“检测器”通常是指能够检测信号的装置,该信号包括指示亲和试剂与蛋白质的结合事件存在与否的信号。该信号可以是指示结合事件存在与否的直接信号,如表面等离子体共振(SPR)信号。该信号可以是指示结合事件存在与否的间接信号,如荧光信号。在一些情况下,检测器可以包括可以检测信号的光学和/或电子组件。术语“检测器”可以在检测方法中使用。检测方法的非限制性实例包括光学检测、光谱检测、静电检测、电化学检测、磁性检测、荧光检测、表面等离子体共振(SPR)等。光学检测方法包括但不限于荧光测定法和紫外线-可见光吸收。光谱检测方法包括但不限于质谱法、核磁共振(NMR)光谱法和红外光谱法。静电检测方法包括但不限于基于凝胶的技术,例如,凝胶电泳。电化学检测方法包括但不限于在高效液相色谱法分离扩增产物后对扩增产物的电化学检测。
样品中的蛋白质鉴定
蛋白质是活生物体的细胞和组织的重要结构单元。给定的生物体产生一大组不同的蛋白质,通常被称为蛋白质组。蛋白质组可以随时间而变化,并且随细胞或生物体经历的各个阶段(例如,细胞周期阶段或疾病状态)而变化。对蛋白质组的大规模研究(例如,实验分析)可被称为蛋白质组学。在蛋白质组学中,存在多种鉴定蛋白质的方法,包括免疫测定(例如酶联免疫吸附测定(ELISA)和Western印迹法)、基于质谱学的方法(例如,基质辅助激光解吸/电离(MALDI)和电喷雾电离(ESI))、混合方法(例如,质谱免疫测定(MSIA))和蛋白质微阵列。例如,单分子蛋白质组学方法可以尝试通过多种方法来推断样品中蛋白质分子的身份,这些方法的范围从氨基酸的直接官能化到使用亲和试剂。从此类方法收集的信息或测量值通常通过合适的算法进行分析,以鉴定样品中存在的蛋白质。
由于缺乏灵敏度、缺乏特异性和检测器噪声,蛋白质的准确定量也可能会遇到挑战。特别是,由于检测器信号水平的随机和不可预测的系统变异,样品中蛋白质的准确定量可能会遇到挑战,这可能会导致蛋白质鉴定和定量错误。在一些情况下,可以通过监测仪器诊断学和共模行为来校准和去除仪器和检测系统学。然而,蛋白质(例如,通过亲和试剂探针)的结合本质上是一个概率过程,其结合灵敏度和特异性均不理想。
本公开提供了用于精确且有效鉴定蛋白质的方法和系统。本文提供的方法和系统可以显著减少或消除鉴定样品中的蛋白质的错误。这类方法和系统可以实现未知蛋白质样品内候选蛋白质的准确和有效鉴定。该蛋白质鉴定可以基于使用被配置为选择性地与一种或多种候选蛋白质结合的亲和试剂探针的结合测量信息的迭代计算。可以将蛋白质鉴定优化为可在最小内存占用下计算。该蛋白质鉴定可以包括生成样品中存在一种或多种候选蛋白质中的每一种的置信水平。
在一方面,本文公开了一种迭代地鉴定未知蛋白质样品内候选蛋白质的计算机实现的方法100(例如,如图1所示)。该方法可以包括通过计算机接收多个亲和试剂探针中的每一个与样品中未知蛋白质的结合测量的信息(例如,步骤105)。在一些实施方案中,多个亲和试剂探针可包含多个单独亲和试剂探针的池。例如,亲和试剂探针池可包含2、3、4、5、6、7、8、9、10种或超过10种类型的亲和试剂探针。在一些实施方案中,亲和试剂探针池可包含2种类型的亲和试剂探针,它们组合构成该亲和试剂探针池中亲和试剂探针的大部分组成。在一些实施方案中,亲和试剂探针池可包含3种类型的亲和试剂探针,它们组合构成该亲和试剂探针池中亲和试剂探针的大部分组成。在一些实施方案中,亲和试剂探针池可包含4种类型的亲和试剂探针,它们组合构成该亲和试剂探针池中亲和试剂探针的大部分组成。在一些实施方案中,亲和试剂探针池可包含5种类型的亲和试剂探针,它们组合构成该亲和试剂探针池中亲和试剂探针的大部分组成。在一些实施方案中,亲和试剂探针池可包含超过5种类型的亲和试剂探针,它们组合构成该亲和试剂探针池中亲和试剂探针的大部分组成。每个亲和试剂探针可以被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合。所述亲和试剂探针可以是k-聚体亲和试剂探针。在一些实施方案中,每个k-聚体亲和试剂探针被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合。结合测量的信息可以包含被认为已经与未知蛋白质结合的一组探针。
接下来,可以通过计算机将结合测量信息的至少一部分与包含多个蛋白质序列的数据库进行比较(例如,步骤110)。每个蛋白质序列可以对应于多种候选蛋白质中的候选蛋白质。所述多种候选蛋白质可包含至少10种、至少20种、至少30种、至少40种、至少50种、至少60种、至少70种、至少80种、至少90种、至少100种、至少150种、至少200种、至少250种、至少300种、至少350种、至少400种、至少450种、至少500种、至少600种、至少700种、至少800种、至少900种、至少1000种或超过1000种不同的候选蛋白质。
接下来,对于多种候选蛋白质中的一种或多种候选蛋白质中的每一种,可以通过计算机来计算或生成样品中存在该候选蛋白质的概率(例如,步骤115)。可以迭代地进行该计算或生成。或者,可以非迭代地进行该计算或生成。可以基于候选蛋白质的结合测量信息与包含多个蛋白质序列的数据库的比较来迭代地生成概率。因此,算法的输入可包括蛋白质序列的数据库和被认为已经与未知蛋白质结合的一组探针。算法的输出可包括数据库中的每种蛋白质可能存在于样品中的概率。
在一些实施方案中,在步骤115中计算的输出概率可以表示为:P(蛋白质_i|探针[1,2,…,n],长度(蛋白质_i))。在给出与蛋白质_i结合的探针集[1,2,…,n]和蛋白质_i的长度(例如,肽的数目)的情况下,该值给出了样品中存在给定蛋白质(蛋白质_i)的概率。
在一些实施方案中,计算输出概率可包括得出一种或多种亲和试剂(探针)降落在蛋白质上的概率的乘积。例如,如果已检测到n个探针与蛋白质结合,则每个不同探针降落在该蛋白质上的概率可以表示为P_降落_探针_1、P_降落_探针_2、…、P_降落_探针_n。因此,一种或多种亲和试剂(探针)降落在该蛋白质上的概率的乘积可以表示为乘积(P_降落_探针_1,P_降落_探针_2,…,P_降落_探针_n)。
在一些实施方案中,计算输出概率可包括按照长度因数对一种或多种亲和试剂(探针)降落在蛋白质上的概率的乘积进行归一化。长度因数可以考虑这样的假设:与长度较短(例如,较短)的蛋白质相比,长度较长(例如,较长)的蛋白质更可能随机地结合(例如,降落)有更大量的亲和试剂。长度因数可被表示为一组基数Len_i的n-组合(表示蛋白质_i的长度),或二项式系数“Len_i选择n”,其可以用Choose(Len_i,n)表示。长度因数表示从一组Len_i元素(例如,长度为i的蛋白质)中选择大小为n的元素的子集(例如,降落在蛋白质上的探针的数目)而无视其顺序的不同方式的数目。因此,根据长度因素归一化的或除以长度因数的一种或多种亲和试剂(探针)降落在蛋白质上的概率的乘积可以表示为:
[Product(P_降落_探针_1,P_降落_探针_2,…,P_降落_探针_n)/Choose(Len_i,n)]。该值也可以被称为样品中存在蛋白质_i的非归一化概率。
认识到所述候选蛋白质的长度是候选蛋白质中可用于结合特定亲和试剂的表位(“结合位点”)数目的近似替代指标,在一些实施方案中,计算输出概率可包括将每个所述概率相对于每种所述候选蛋白质中可用的结合位点的总数进行归一化。在一些实施方案中,通过鉴定过程凭经验确定可用于每种所述候选蛋白质的结合位点的数目。在一些实施方案中,所述鉴定过程重复测量亲和试剂与特定蛋白质的结合。在一些实施方案中,所述鉴定过程在与本文所述的蛋白质鉴定的所述方法和系统期间存在的条件相似或相同的条件下进行。
在一些实施方案中,计算输出概率可包括对样品中存在蛋白质_i的未归一化概率进行归一化。归一化可包括除以数据库中所有蛋白质(例如,多种候选蛋白质)的所有未归一化概率的总和。例如,数据库中的所有蛋白质j(例如,多种候选蛋白质)的所有未归一化概率的总和可以被表示为SUM(P(蛋白质_j|探针[1,…,n],长度(蛋白质_j))。因此,样品中存在蛋白质_i的归一化概率可以被表示为:
P(蛋白质_i|探针[1,2,…,n],长度(蛋白质_i))=[Product(P_降落_探针_1,P_降落_探针_2,…,P_降落_探针_n)/Choose(Len_i,n)]/SUM(P(蛋白质_j|探针[1,…,n],长度(蛋白质_j)))
在一些实施方案中,生成多个概率进一步包括迭代地接收多个附加亲和试剂探针中每个探针的结合测量的附加信息。每个附加亲和试剂探针可以被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合。例如,可以基于两个降落探针为每种候选蛋白质生成输出概率的第一值,如下给出:
P(蛋白质_i|探针[1,2],长度(蛋白质_i))=[Product(P_降落_探针_1,P_降落_探针_2)/Choose(Len_i,2)]/SUM(P(蛋白质_j|探针[1,2],长度(蛋白质_j)))。
接下来,可以迭代地接收多个附加亲和试剂探针中每个探针的结合测量的附加信息,并迭代地计算为输出概率的后续迭代值,从而生成输出概率的第二值。例如,可以基于前两个降落探针(探针1和2)和接下来的两个降落探针(探针3和4)为每种候选蛋白质生成输出概率的第二值,如下给出:
P(蛋白质_i|探针[1,2,3,4],长度(蛋白质_i))=[Product(P_降落_探针_1,P_降落_探针_2,P_降落_探针_3,P_降落_探针_4)/Choose(Len_i,4)]/SUM(P(蛋白质_j|探针[1,2,3,4],长度(蛋白质_j)))
在一些实施方案中,在步骤115中计算或生成的输出概率是对候选蛋白质的结合测量将会生成观察到的测量结果的概率。如本文所用的,术语“结合测量结果”是指在进行结合测量时观察到的信息。例如,亲和试剂结合实验的结合测量结果可以是试剂的结合或不结合。另外或备选地,对于多种候选蛋白质中的一种或多种候选蛋白质中的每一种,可以由计算机计算或生成对候选蛋白质的结合测量将不会生成观察到的测量结果的概率。另外或备选地,可以由计算机计算或生成对候选蛋白质的结合测量将会生成未观察到的测量结果的概率。另外或备选地,可以由计算机计算或生成对候选蛋白质的一系列结合测量将会生成结果集的概率。
如本文所用的,“结合结果集”是指蛋白质的多个独立的结合测量结果。例如,可以对未知蛋白质进行一系列经验亲和试剂结合测量。每种单独的亲和试剂的结合测量包括结合测量结果,并且所有结合测量结果的集合是结合结果集。在一些情况下,结合结果集可以是所有观察到的结合结果的子集。在一些情况下,结合结果集可以包含未凭经验观察到的结合测量结果。
另外或备选地,对于多种候选蛋白质中的一种或多种候选蛋白质中的每一种,可以由计算机计算或生成未知蛋白质是候选蛋白质的概率。
可以基于未知蛋白质的结合测量结果与包含针对所有候选蛋白质的多个蛋白质序列的数据库的比较来生成步骤115中的概率。因此,算法的输入可包括候选蛋白质序列的数据库和一组结合测量值(例如,被认为已经与未知蛋白质结合的探针)。在一些情况下,算法的输入可包括与估计任何亲和试剂针对任何候选蛋白质生成任何结合测量值的概率(例如,每种亲和试剂的三聚体水平结合概率)有关的参数。在给出假设的候选蛋白质身份的情况下,算法的输出可包括观察到结合测量结果或结合结果集的概率。另外或备选地,算法的输出可包括针对未知蛋白质,从这组候选蛋白质中选出的最可能的身份,以及在给出结合测量结果或结合结果集的情况下该鉴定为正确的概率。另外或备选地,算法的输出可包括一组高概率候选蛋白质身份以及未知蛋白质是该组蛋白质之一的相关概率。假定候选蛋白质是被测量的蛋白质,则观察到结合测量结果的概率可以被表示为:
P(结合测量结果|蛋白质)。
在一些实施方案中,P(结合测量结果|蛋白质)是完全通过计算机计算的。在一些实施方案中,P(结合测量结果|蛋白质)是基于蛋白质的氨基酸序列的特征来计算的,或来源于蛋白质的氨基酸序列的特征。在一些实施方案中,P(结合测量结果|蛋白质)不依赖于对蛋白质的氨基酸序列的了解来计算。例如,P(结合测量结果|蛋白质)可以通过以下方式凭经验确定:在针对候选蛋白质分离物的重复实验中获取结合测量值,并根据以下频率计算P(结合测量结果|蛋白质):(具有结果的结合测量数,除以结合测量的总数)。在一些实施方案中,P(结合测量结果|蛋白质)是基于过去对蛋白质的结合测量的数据库来计算的,或来源于过去对蛋白质的结合测量的数据库。在一些实施方案中,P(结合测量结果|蛋白质)是基于以下方式计算的或由以下方式衍生的:从结合测量结果得到删截的未知蛋白质的集合生成一组确信蛋白质鉴定,然后计算确信地被确定为候选蛋白质的一组未知蛋白质之间的结合测量结果的频率。
在一些实施方案中,可以使用P(结合测量结果|蛋白质)的种子值来鉴定未知蛋白质的集合,并且可以基于确信地与候选蛋白质匹配的未知蛋白质之间的结合测量结果的频率来精炼该种子值。在一些实施方案中,重复该过程,其中基于更新的结合测量结果概率生成新的鉴定,然后可以从更新的确信鉴定集合生成新的结合测量结果概率。在一些实施方案中,基于确信地鉴定的未知蛋白质之间观察到的结合测量结果,学习或更新计算机模型预测一种或多种蛋白质的结合测量结果概率的参数。在一些实施方案中,重复该过程,其中基于更新的计算机模型生成新的鉴定,然后可以从更新的计算机模型生成新的测量结果概率。
假定候选蛋白质是被测量的蛋白质,则未观察到结合测量结果的概率可以被表示为:
P(未结合测量结果|蛋白质)=1–P(结合测量结果|蛋白质)。
假定候选蛋白质是被测量的蛋白质,则观察到由N个单独结合测量结果组成的结合测量结果集的概率可以被表示为每个单独结合测量结果的概率的乘积:
P(结合结果集|蛋白质)=P(结合测量结果1|蛋白质)*P(结合测量结果2|蛋白质)*...*P(结合测量结果N|蛋白质)
未知蛋白质为候选蛋白质(蛋白质i)的概率可以基于每种可能的候选蛋白质的结合结果集的概率来计算。
在一些实施方案中,未知蛋白质是候选蛋白质(蛋白质i)的概率被计算为观察到N种候选蛋白质的完整集合中每种候选蛋白质j的结合结果集的概率总和的分数:
Figure BDA0002552612660000291
在一些实施方案中,结合测量结果集包含亲和试剂探针的结合。在一些实施方案中,结合测量结果集包含亲和试剂探针的非特异性结合。
在一些实施方案中,所述方法进一步包括将该方法应用于样品中测量的所有未知蛋白质。在一些实施方案中,所述方法进一步包括针对所述一种或多种候选蛋白质中的每一种,生成候选蛋白质与样品中的未知蛋白质之一相匹配的置信水平。该置信水平可以包括概率值。或者,该置信水平可以包括具有误差的概率值。或者,该置信水平可以包括概率值的范围,任选地具有置信度(约90%、约95%、约96%、约97%、约98%、约99%、约99.9%、约99.99%、约99.999%、约99.9999%、约99.99999%、约99.999999%、约99.9999999%、约99.99999999%、约99.999999999%、约99.9999999999%、约99.99999999999%、约99.999999999999%、约99.9999999999999%置信度或高于99.9999999999999%置信度)。
在一些实施方案中,所述方法进一步包括独立于样品中的每种未知蛋白质生成蛋白质鉴定和相关概率,并生成在样品中鉴定出的所有独特蛋白质的列表。在一些实施方案中,该方法进一步包括对为每种独特候选蛋白质生成的鉴定数进行计数,以确定样品中每种候选蛋白质的量。在一些实施方案中,可以过滤蛋白质鉴定和相关概率的集合,以仅包含高评分、高置信度和/或低假发现率的鉴定。
在一些实施方案中,可以生成亲和试剂与全长候选蛋白质的结合概率。在一些实施方案中,可以生成亲和试剂与蛋白质片段(例如,完整蛋白质序列的子序列)的结合概率。例如,如果以某种方式处理未知蛋白质并将其与基底缀合,使得每种未知蛋白质仅前100个氨基酸被缀合,则可以为每种蛋白质候选物生成结合概率,使得将前100个氨基酸以外的表位结合的所有结合概率都被设置为零,或者设置为表示错误率的极低概率。如果每种蛋白质的前10、20、50、100、150、200、300、400个或超过400个氨基酸与基底缀合,则可以使用类似的方法。如果最后10、20、50、100、150、200、300、400个或超过400个氨基酸与基底缀合,则可以使用类似的方法。
在一些实施方案中,在缀合之前或之后可能已经处理蛋白质以生成片段的情况下,每种蛋白质的片段化可能不是确定性的。例如,可以在基底缀合之前对蛋白质进行物理剪切。在这样的情况下,亲和试剂的结合概率可以与蛋白质片段同一性(例如,包含该片段的完整蛋白质候选物的子序列的起点和终点)一起建模。例如,在生成每种蛋白质候选物的结合概率时,可以使用期望最大化方法,该方法基于观察到的结合测量值迭代地精炼蛋白质候选物生成的最可能片段的估计,继而更新每种亲和试剂与建模的蛋白质片段的结合概率。
在一些情况下,蛋白质片段的建模可以并入关于从蛋白质候选物生成特定片段的可能性的先验知识。例如,可以施加关于蛋白质片段的预期长度分布的先验知识。作为另一个实例,如果在缀合之前用胰蛋白酶处理完整蛋白质,则可以施加有利于侧翼为赖氨酸或精氨酸的蛋白质片段的先验知识。在一些实施方案中,与结合测量值进行比较的候选蛋白质序列的数据库可包含蛋白质片段。例如,如果将从来源样品的胰蛋白酶消化物得到的肽混合物与基底缀合,则蛋白质候选物列表可包括从完整蛋白质序列数据库的计算机消化物生成的每个完全胰蛋白酶肽。在这样的情况下,来自亲和试剂结合测量的结果可用来鉴定样品中每个未知蛋白质片段的最可能的胰蛋白酶肽。在这样的情况下,可以使用蛋白质推断方法将所得的肽身份和/或量转换为蛋白质水平测量值,例如在质谱学领域存在这些方法的许多示例。
在一些实施方案中,在不能将单个蛋白质候选物匹配分配给未知蛋白质的情况下,可以将一组潜在的蛋白质候选物匹配分配给未知候选物。可以将置信水平分配给未知蛋白质,该未知蛋白质是该组中任何蛋白质候选物之一。该置信水平可以包括概率值。或者,该置信水平可以包括具有误差的概率值。或者,该置信水平可以包括概率值的范围,任选地具有置信度(例如,约90%、约95%、约96%、约97%、约98%或约99%的置信度)。例如,未知蛋白质可能与两种蛋白质候选物强烈匹配。这两种蛋白质候选物可能具有高度的序列相似性(例如,蛋白质同种型,与规范序列相比具有单个氨基酸变体的蛋白质)。在这些情况下,可能没有单独的蛋白质候选物被分配有高置信度,但是高置信度可归因于与包含这两种强烈匹配蛋白质候选物的“蛋白质组”的单个但未知的成员匹配的未知蛋白质。
在一些实施方案中,可以努力检测其中未知蛋白质未被光学拆分的情况。例如,在极少数情况下,两个或更多个蛋白质可能会结合在基底的同一“孔”或位置中,尽管努力避免这种情况发生。在一些情况下,可以用非特异性染料处理缀合的蛋白质,并测量来自该染料的信号。如果两个或更多个蛋白质没有被光学拆分,则由染料产生的信号将高于包含单个蛋白质的位置,并用来标示出具有多个结合蛋白质的位置。
在一些实施方案中,通过对从中获得或衍生出未知蛋白质样品的人类或生物体的DNA或RNA进行测序或分析来生成或修饰多种候选蛋白质。
在一些实施方案中,所述方法进一步包括获得关于未知蛋白质的翻译后修饰的信息。关于翻译后修饰的信息可包括翻译后修饰的存在,而无需了解具体修饰的性质。该数据库可以被认为是PTM的指数产物。例如,一旦已经将蛋白质候选物序列分配给未知蛋白质,就可以将针对所测定的蛋白质的亲和试剂结合的模式与包含来自先前实验的亲和试剂与相同候选物的结合测量值的数据库进行比较。例如,结合测量值的数据库可衍生自与在已知位置含有已知序列的未修饰蛋白质的核酸可编程蛋白质阵列(Nucleic Acid-Programmable Protein Array,NAPPA)的结合。
或者,可以从先前的实验获得结合测量值的数据库,在所述实验中,蛋白质候选物序列被确信地分配给未知蛋白质。被测蛋白质与现有测量值数据库之间的结合测量值差异可提供关于翻译后修饰可能性的信息。例如,如果亲和剂与数据库中的候选蛋白质具有高结合频率,但不与测定的蛋白质结合,则该蛋白质上某处存在翻译后修饰的可能性较高。如果存在结合差异的亲和试剂的结合表位已知,则翻译后修饰的位置可以定位在亲和试剂的结合表位处或附近。在一些实施方案中,关于特定翻译后修饰的信息可以通过在用特异性去除特定翻译后修饰的酶处理蛋白质-基底缀合物之前和之后进行重复亲和试剂测量而得出。例如,可以在用磷酸酶处理基底之前获取一系列亲和试剂的结合测量值,然后在用磷酸酶处理后重复测量。在磷酸酶处理之前结合未知蛋白质但在磷酸酶处理之后不结合(差异结合)的亲和试剂提供磷酸化的证据。如果被差异结合亲和试剂识别的表位已知,则磷酸化可以位于该亲和试剂的结合表位处或附近。
在一些情况下,可以使用针对特定翻译后修饰的亲和试剂的结合测量值来确定特定翻译后修饰的计数。例如,可以使用识别磷酸化事件的抗体作为亲和试剂。该试剂的结合可以指示未知蛋白质上存在至少一个磷酸化。在一些情况下,可通过对针对特定翻译后修饰特异性亲和试剂所测量的结合事件的数目进行计数来确定未知蛋白质上特定类型的离散翻译后修饰的数目。例如,磷酸化特异性抗体可以与荧光报道分子缀合。在这种情况下,荧光信号的强度可用来确定与未知蛋白质结合的磷酸化特异性亲和试剂的数量。与未知蛋白质结合的磷酸化特异性亲和试剂的数量继而可用来确定未知蛋白质上的磷酸化位点的数目。在一些实施方案中,可以将来自亲和试剂结合实验的证据与可能被翻译后修饰的氨基酸序列基序或特定蛋白质位置的已有知识(例如,来自dbPTM、PhosphoSitePlus或UniProt)相组合,以得出翻译后修饰的更准确的计数、鉴定或定位。例如,如果不能仅从亲和力测量值准确地确定翻译后修饰的位置,则可能支持包含经常与目的翻译后修饰相关的氨基酸序列基序的位置。
在一些实施方案中,生成概率包括考虑与结合测量信息相关的检测器错误率。检测器错误率可以包括真实降落率(landing rate)。例如,检测器错误率可归因于探针无法“降落在”蛋白质上,例如,当探针卡在系统中且未正确洗掉时,或者当探针与基于先前的探针鉴定和测试未预期的蛋白质结合时。或者,检测器错误率可以归因于检测器的物理错误,并且可以从用来获取结合测量信息的一个或多个检测器的说明书中获得。检测器错误率可包括以下一项或多项:物理检测器错误率、脱靶结合率或由于探针卡住而导致的错误率。在一些实施方案中,将检测器错误率设置为估计的检测器错误率。或者,估计的检测器错误率可由计算机的用户设置。在一些实施方案中,估计的检测器错误率为约0.0001、约0.0002、约0.0003、约0.0004、约0.0005、约0.0006、约0.0007、约0.0008、约0.0009、约0.001、约0.002、约0.003、约0.004、约0.005、约0.006、约0.007、约0.008、约0.009、约0.01、约0.02、约0.03、约0.04、约0.05、约0.06、约0.07、约0.08、约0.09、约0.1或大于约0.1。
可以生成命中(hit)表,使得命中表的每一列代表不同的蛋白质(例如,具有不同的长度)和/或命中表的每一行代表不同的探针。命中表的给定元素的每个值(例如,在第j行和第i列)可以包括指示暴露于样品的给定探针j是否可以与给定蛋白质i结合的值。例如,如果探针j可以与蛋白质i结合,则可以将命中表元素设置为1(例如,在第j行和第i列),否则设置为0。该信息可以逐步达到,因此,命中表可以迭代地计算。
根据命中表,可以计算或生成概率矩阵。假定探针j暴露于样品中的蛋白质i,则概率矩阵的给定元素的每个值可以包括指示观察到结合测量的概率的值。该概率可以被表示为P(蛋白质_i|探针_j)。在相应的命中表条目大于或等于1的情况下,可以将概率矩阵条目设置为真实降落率(例如P_降落_探针_j)。在相应的命中表条目为0的情况下,则可以将概率矩阵条目设置为检测器错误率(例如0.0001)。检测器错误率可包括以下一项或多项:物理检测器错误率、脱靶结合率或由于探针卡住而导致的错误率。
在一些实施方案中,迭代地生成多个概率进一步包括从后续迭代中从多种候选蛋白质中去除一种或多种候选蛋白质,从而减少进行概率的迭代生成所必需的迭代次数。在一些实施方案中,去除所述一种或多种候选蛋白质至少基于与候选蛋白质相关的结合测量的预定标准。在一些实施方案中,该预定标准包括所述一种或多种候选蛋白质与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。例如,如果在已测量k个探针的结合后,蛋白质的P(蛋白质i|探针[1..k])小于0.01、小于0.001、小于0.0001、小于0.00001、小于0.000001或小于0.0000001,则可以将其排除在考虑之外。如果蛋白质已通过实验从样品中去除,则也可以将其排除在考虑之外。
在一些实施方案中,如本文其他地方所述,将每个概率相对于候选蛋白质的长度进行归一化。在一些实施方案中,如本文其他地方所述,将每个概率相对于多种候选蛋白质的概率总和进行归一化。在一些实施方案中,多个亲和试剂探针包含不超过10个、不超过20个、不超过30个、不超过40个、不超过50个、不超过60个、不超过70个、不超过80个、不超过90个、不超过100个、不超过150个、不超过200个、不超过250个、不超过300个、不超过350个、不超过400个、不超过450个、不超过500个或超过500个亲和试剂探针。
在一些实施方案中,迭代地生成概率,直到满足预定条件。在一些实施方案中,预定条件包括以至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.9%的置信度生成多个概率中的每一个。
在一些实施方案中,所述方法进一步包括生成鉴定样品中的一种或多种未知蛋白质的纸质或电子报告。该纸质或电子报告可以进一步针对每种候选蛋白质指示样品中存在候选蛋白质的置信水平。该置信水平可以包括概率值。或者,该置信水平可以包括具有误差的概率值。或者,该置信水平可以包括概率值的范围,任选地具有置信度(例如,90%、95%、96%、97%、98%或99%置信度)。该纸质或电子报告可以进一步指示在预期的假发现率阈值以下(例如,低于10%、5%、4%、3%、2%、1%、0.5%、0.4%、0.3%、0.2%或0.1%的假发现率)鉴定的蛋白质候选物列表。假发现率可以如下估计:首先以置信度的降序对蛋白质鉴定进行排序。然后,可以将排序列表中任意点的估计假发现率计算为1-avg_c_prob,其中avg_c_prob是该列表中当前点之处或之前(更高置信度)的所有蛋白质的平均候选物概率。然后,可以通过返回排序列表中假发现率高于阈值的最早点之前的所有蛋白质鉴定,来生成低于所需假发现率阈值的蛋白质鉴定的列表。或者,可以通过返回排序列表中假发现率低于或等于所需阈值的最后点之前(含)的所有蛋白质,来生成低于所需假发现率阈值的蛋白质鉴定的列表。
在一些实施方案中,样品包括生物样品。该生物样品可以从受试者获得。在一些实施方案中,所述方法进一步包括至少基于多个概率来确定受试者中的疾病状态或病症。在一些实施方案中,所述方法进一步包括通过计数对每种蛋白质候选物进行的鉴定的次数来量化蛋白质。例如,样品中存在的蛋白质的绝对量(蛋白质分子数)可以通过对从该蛋白质候选物生成的确信鉴定的数目进行计数来计算。在一些实施方案中,该量可以计算为所测定的未知蛋白质总数的百分比。在一些实施方案中,可以对原始鉴定计数进行校准,以从仪器和检测系统去除系统误差。在一些实施方案中,可以对该量进行校准,以消除由蛋白质候选物的可检测性变化引起的量偏差。蛋白质的可检测性可以通过经验测量或计算机模拟来评估。
所述疾病或病症可以是传染病、免疫病症或疾病、癌症、遗传病、退行性疾病、生活方式疾病、损伤、罕见疾病或年龄相关性疾病。该传染病可由细菌、病毒、真菌和/或寄生虫引起。癌症的非限制性实例包括膀胱癌、肺癌、脑癌、黑素瘤、乳腺癌、非霍奇金淋巴瘤、宫颈癌、卵巢癌、结直肠癌、胰腺癌、食管癌、前列腺癌、肾癌、皮肤癌、白血病、甲状腺癌、肝癌和子宫癌。遗传疾病或病症的一些实例包括但不限于囊性纤维化、Charcot–Marie–Tooth病、亨廷顿病(Huntington's disease)、Peutz-Jeghers综合征、唐氏综合症、类风湿性关节炎和Tay–Sachs病。生活方式疾病的非限制性实例包括肥胖症、糖尿病、动脉硬化、心脏病、中风、高血压、肝硬化、肾炎、癌症、慢性阻塞性肺病(copd)、听力问题和慢性背痛。损伤的一些实例包括但不限于擦伤、脑损伤、瘀伤、烧伤、脑震荡、充血性心力衰竭、建筑损伤、脱位、连枷胸、骨折、血胸、椎间盘突出、髋骨隆凸挫伤、低体温、撕裂、神经挟捏、气胸、肋骨骨折、坐骨神经痛、脊髓损伤、肌腱韧带筋膜损伤、创伤性脑损伤和鞭伤。
在另一方面,本文公开了一种鉴定未知蛋白质样品内候选蛋白质的计算机实现的方法。该方法可以包括通过计算机接收多个亲和试剂探针中的每一个与样品中未知蛋白质的结合测量的信息。所述亲和试剂探针可以是k-聚体亲和试剂探针。在一些实施方案中,每个k-聚体亲和试剂探针被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合。结合测量的信息可以包含被认为已经与未知蛋白质结合的一组探针。
接下来,可以通过计算机将结合测量信息的至少一部分与包含多个蛋白质序列的数据库进行比较。每个蛋白质序列可以对应于多种候选蛋白质中的候选蛋白质。所述多种候选蛋白质可包含至少10种、至少20种、至少30种、至少40种、至少50种、至少60种、至少70种、至少80种、至少90种、至少100种、至少150种、至少200种、至少250种、至少300种、至少350种、至少400种、至少450种、至少500种、至少600种、至少700种、至少800种、至少900种、至少1000种或超过1000种不同的候选蛋白质。
接下来,可以从进一步考虑(例如,后续的计算、迭代、运算或概率的生成)中去除多种候选蛋白质中的一种或多种候选蛋白质。从多种候选蛋白质中去除一种或多种候选蛋白质可以至少基于结合测量信息与包括多个蛋白质序列的数据库的比较。
在一些实施方案中,去除所述一种或多种候选蛋白质至少基于与候选蛋白质相关的结合测量的预定标准。在一些实施方案中,该预定标准包括所述一种或多种候选蛋白质与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。在一些实施方案中,例如,如果在已测量k个探针的结合后,候选蛋白质的P(蛋白质i|探针[1..k])小于0.01、小于0.001、小于0.0001、小于0.00001、小于0.000001或小于0.0000001,则可以将其排除在考虑之外。如果蛋白质已通过实验从样品中去除,则也可以将其排除在考虑之外
在一些实施方案中,所述多个亲和试剂探针包含不超过10个、不超过20个、不超过30个、不超过40个、不超过50个、不超过60个、不超过70个、不超过80个、不超过90个、不超过100个、不超过150个、不超过200个、不超过250个、不超过300个、不超过350个、不超过400个、不超过450个、不超过500个或超过500个亲和试剂探针。
在一些实施方案中,在进行测量之前完全确定对其进行结合测量的亲和试剂探针。在一些实施方案中,基于对之前获得的结合测量值的迭代计算分析,在实验期间修改或得出要对其进行结合测量的亲和试剂探针的组或顺序。例如,可以迭代地优化亲和探针的顺序,以优先考虑采用更可能对未鉴定的未知蛋白质生成明确鉴定的探针的结合实验。这样的优化可以基于选择能够解析尚未鉴定的未知蛋白质的前两个、前三个、前四个、前五个或超过前五个候选蛋白质序列的探针。
在一些实施方案中,所述方法进一步包括生成鉴定样品中的一种或多种未知蛋白质的纸质或电子报告。该纸质或电子报告可以进一步针对每种候选蛋白质指示样品中存在候选蛋白质的置信水平。该置信水平可以包括概率值。或者,该置信水平可以包括具有误差的概率值。或者,该置信水平可以包括概率值的范围,任选地具有置信度(例如,90%、95%、96%、97%、98%、99%置信度)。在一些实施方案中,样品包括生物样品。该生物样品可以从受试者获得。在一些实施方案中,所述方法进一步包括至少基于多个概率来确定受试者中的疾病状态或病症。
所述疾病或病症可以是传染病、免疫病症或疾病、癌症、遗传病、退行性疾病、生活方式疾病、损伤、罕见疾病或年龄相关性疾病。该传染病可由细菌、病毒、真菌和/或寄生虫引起。癌症的非限制性实例包括膀胱癌、肺癌、脑癌、黑素瘤、乳腺癌、非霍奇金淋巴瘤、宫颈癌、卵巢癌、结直肠癌、胰腺癌、食管癌、前列腺癌、肾癌、皮肤癌、白血病、甲状腺癌、肝癌和子宫癌。遗传疾病或病症的一些实例包括但不限于囊性纤维化、Charcot–Marie–Tooth病、亨廷顿病(Huntington's disease)、Peutz-Jeghers综合征、唐氏综合症、类风湿性关节炎和Tay–Sachs病。生活方式疾病的非限制性实例包括肥胖症、糖尿病、动脉硬化、心脏病、中风、高血压、肝硬化、肾炎、癌症、慢性阻塞性肺病(copd)、听力问题和慢性背痛。损伤的一些实例包括但不限于擦伤、脑损伤、瘀伤、烧伤、脑震荡、充血性心力衰竭、建筑损伤、脱位、连枷胸、骨折、血胸、椎间盘突出、髋骨隆凸挫伤、低体温、撕裂、神经挟捏、气胸、肋骨骨折、坐骨神经痛、脊髓损伤、肌腱韧带筋膜损伤、创伤性脑损伤和鞭伤。
在一些实施方案中,所述方法包括鉴定和量化小分子(例如,代谢产物)或聚糖,而不是蛋白质。例如,可以使用亲和试剂,例如以不同倾向结合糖或糖组合的凝集素或抗体来鉴定聚糖。亲和试剂结合各种糖或糖组合的倾向可以通过分析与可商购获得的聚糖阵列的结合来表征。未知的聚糖可以使用羟基反应性化学与官能化的基底缀合,并使用聚糖结合亲和试剂获得结合测量值。亲和试剂与基底上未知聚糖的结合测量值可直接用来量化具有特定糖或糖组合的聚糖的数目。或者,可以使用本文所述的推断算法将一个或多个结合测量值与从候选聚糖结构数据库预测的结合测量值进行比较,以鉴定每种未知聚糖的结构。在一些实施方案中,将蛋白质与基底结合,并用聚糖亲和试剂进行结合测量,以鉴定附接至蛋白质的聚糖。此外,可以在单个实验中使用聚糖和蛋白质亲和试剂两者进行结合测量,以生成蛋白质骨架序列和缀合的聚糖鉴定。作为另一个实例,可以使用针对代谢物中常见的偶联基团如巯基、羰基、胺或活性氢的化学,将代谢物缀合至官能化的基底。可以使用对特定官能团、结构基序或代谢物具有不同倾向的亲和试剂进行结合测量。可以将所得结合测量值与候选小分子数据库的预测结合测量值进行比较,并且用本文所述的推断方法鉴定基底上每个位置处的代谢物。
计算机控制系统
本公开提供了计算机系统,其被编程用于实现本公开的方法。图2示出了计算机系统201,其被编程或以其他方式配置为:接收亲和试剂探针与样品中未知蛋白质的结合测量的信息,将结合测量的信息与包含对应于候选蛋白质的多个蛋白质序列的数据库进行比较,以及/或者迭代地生成样品中存在候选蛋白质的概率。
计算机系统201可以调节本公开的方法和系统的各个方面,例如,接收亲和试剂探针与样品中未知蛋白质的结合测量的信息,将结合测量的信息与包含对应于候选蛋白质的多个蛋白质序列的数据库进行比较,以及/或者迭代地生成样品中存在候选蛋白质的概率。
计算机系统201可以是用户的电子设备,或者是相对于该电子设备位于远程的计算机系统。该电子设备可以是移动电子设备。计算机系统201包括中央处理单元(CPU,本文中也称为“处理器”和“计算机处理器”)205,中央处理单元1405可以是单核或多核处理器,或者用于并行处理的多个处理器。计算机系统201还包括存储器或存储器位置210(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元215(例如,硬盘)、用于与一个或多个其他系统通信的通信接口220(例如,网络适配器)和外围设备225,如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器210、存储单元215、接口220和外围设备225通过诸如主板的通信总线(实线)与CPU 205通信。存储单元215可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统201可以借助于通信接口220可操作地耦合至计算机网络(“网络”)230。网络230可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。网络230在一些情况下是电信和/或数据网络。网络230可以包括能够实现分布式计算如云计算的一个或多个计算机服务器。在一些情况下,网络230借助于计算机系统201可以实现对等网络,这可以使得耦合至计算机系统201的设备能够起到客户端或服务器的作用。
CPU 205可以执行一系列可以在程序或软件中体现的机器可读指令。所述指令可以存储在诸如存储器210的存储器位置中。所述指令可被导向CPU 205,其随后可对CPU 205进行编程或以其他方式进行配置,以实现本公开的方法。由CPU 205执行的操作的实例可以包括获取、解码、执行和写回。
CPU 205可以是电路如集成电路的一部分。系统201中的一个或多个其他组件可被包括在该电路中。在一些情况下,该电路是专用集成电路(ASIC)。
存储单元215可以存储文件,如驱动程序、文库和保存的程序。存储单元215可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,计算机系统201可以包括位于计算机系统201外部(诸如位于通过内联网或因特网与计算机系统201通信的远程服务器上)的一个或多个附加数据存储单元。
计算机系统201可以通过网络230与一个或多个远程计算机系统通信。例如,计算机系统201可与用户的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、平板或平板PC(例如,
Figure BDA0002552612660000401
iPad、
Figure BDA0002552612660000402
Galaxy Tab)、电话、智能电话(例如,
Figure BDA0002552612660000403
iPhone、支持Android的设备、
Figure BDA0002552612660000404
)或个人数字助理。用户可以通过网络230访问计算机系统201。
如本文所述的方法可通过存储在计算机系统201的电子存储位置上(例如存储器210或电子存储单元215上)的机器(例如,计算机处理器)可执行代码来实现。该机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,该代码可以由处理器205执行。在一些情况下,该代码可从存储单元215中检索并存储在存储器210上,以备处理器205访问。在一些情况下,可以不包括电子存储单元215,而将机器可执行指令存储在存储器210上。
可将所述代码预编译并配置用于与具有适于执行该代码的处理器的机器一起使用,或者可以在运行过程中对其进行编译。该代码可以以编程语言的形式提供,该编程语言可以被选择为使得该代码能够以预编译或实时编译的方式执行。
本文提供的系统和方法的各方面,如计算机系统201,可以在编程中体现。该技术的各个方面可以被认为是“产品”或“制品”,其一般为在某种类型的机器可读介质中携带或体现的机器(或处理器)可执行代码和/或关联数据的形式。机器可执行代码可以存储在电子存储单元如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或全部有形存储器,或其相关模块,如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可以随时为软件编程提供非暂时性存储。软件的全部或部分可以不时地通过因特网或各种其他电信网络进行通信。例如,这样的通信可以使软件能够从一台计算机或处理器加载到另一台计算机或处理器,例如,从管理服务器或主机加载到应用服务器的计算机平台。因此,可以承载软件元件的另一类型的介质包括光波、电波和电磁波,诸如跨越本地设备之间的物理接口、通过有线和光学陆线网络以及经由各种空中链路所使用的。携带这类波的物理元件,如有线或无线链路、光学链路等,也可以被认为是承载软件的介质。除非局限于非暂时性有形“存储”介质,否则如本文所用的诸如计算机或机器“可读介质”等术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质,如计算机可执行代码,可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如,光盘或磁盘,如任何计算机中的任何存储设备等,例如可用来实现附图中所示的数据库等。易失性存储介质包括动态存储器,如这样的计算机平台的主存储器。有形传输介质包括同轴电缆、铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频(RF)和红外线(IR)数据通信期间生成的那些信号或波。因此,计算机可读介质的常见形式包括,例如:软盘、柔性盘、硬盘、磁带、其他任何磁性介质、CD-ROM、DVD或DVD-ROM、其他任何光学介质、穿孔卡片纸带、其他任何具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、其他任何存储器芯片或匣盒、传输数据或指令的载波、传输这类载波的线缆或链路,或者计算机可以从中读取编程代码和/或数据的其他任何介质。这些计算机可读介质形式中的许多形式可以参与将一个或多个指令的一个或多个序列运载到处理器以供执行。
计算机系统201可以包括电子显示器235或与电子显示器235通信,电子显示器235包括用于提供例如算法、结合测量数据、候选蛋白质和数据库的用户选择的用户界面(UI)240。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
本公开的方法和系统可以通过一个或多个算法来实现。算法可以通过软件在由中央处理单元205执行时实现。例如,该算法可以接收亲和试剂探针与样品中未知蛋白质的结合测量的信息,将结合测量的信息与包含对应于候选蛋白质的多个蛋白质序列的数据库进行比较,以及/或者迭代地生成样品中存在候选蛋白质的概率。
实施例1–采用包含6种候选蛋白质的数据库的蛋白质鉴定
考虑数据库包含6种候选蛋白质的情况,它们的长度为{276,275,151,437,244,644}。另外,使用5种探针进行该实验,每种探针具有25%的结合给定三聚体的可能性。这些试剂所结合的其他三聚体在该数据库中的任何蛋白质中均未发现。
对于针对数据库中的每个序列的探针,构建命中表
(行=探针#1至#5,列=SEQ ID 1至6)
0 1 2 3 4 5
GAV/0.250 1 1 1
CLD/0.250 1 1 1
TYL/0.250 1 1 2
IAD/0.250 1 1 1
PLE/0.250 1 1 1
需要注意的是,该信息以渐进的方式达到,因此可以迭代地进行计算。从命中表中,评价P(蛋白质_i|探针_j)以生成概率矩阵,如下所示。请注意,对于给定的条目,如果命中表>=1,则使用P_降落_探针_n=真实降落率=0.25;否则,如果命中表=0,则使用P(检测器错误)=0.0001。
276 275 151 437 244 644
0 1 2 3 4 5
0.25 0.25 0.0001 0.0001 0.0001 0.25
0.25 0.25 0.0001 0.0001 0.0001 0.25
0.25 0.25 0.0001 0.0001 0.0001 0.25
0.25 0.25 0.0001 0.0001 0.0001 0.25
0.25 0.25 0.25 0.0001 0.0001 0.0001
注意,许多单元具有0.0001的概率。这种小概率说明了可能的检测器错误。
蛋白质的初始、未归一化的概率被计算为每种候选蛋白质的概率的乘积:
ProductP 0.000977 0.000977 2.5E-17 1E-20 1E-20 3.906E-07
接下来,计算长度归一化,这是指一定数目的探针降落在给定蛋白质上的方式的数目,它是蛋白质长度的函数。长度归一化由Choose(Len_i,n)项给出。例如,第一个蛋白质的长度归一化为[276choose5],第二个蛋白质的长度归一化为[275choose 5]。在一些实施方案中,长度归一化可以被计算为被计算为Len_i!/(len_i!-n!)的排列的数目,其中!运算表示阶乘。
LenNorm 12868936080 12635803180 151 1 1 7100332001
接下来,将上面的乘积(Productp)进行归一化,以考虑该长度校正,方法是除以长度归一化,得出:
LenNormP 7.59E-14 7.73E-14 1.66E-19 1E-20 1E-20 5.50E-17
接下来,对概率进行归一化,以使整个数据库中的整个概率集总计为一个。这是通过将LenNormP值相加为1.53E-13,然后将每个LenNormP除以该归一化以获得最终平衡概率来实现的:
0.495251 0.504389 1.081E-06 6.526E-08 6.526E-08 0.000359
注意到虽然其中4种蛋白质极不可能,但区分蛋白质1和2有些困难。查看数据库,这是可以预期的,因为蛋白质1和2之间仅存在单点缺失差异。另外,注意到蛋白质1和2各自以50%的概率分离,而蛋白质3-6基本上具有零概率。
在实验技术中,探针是顺序检测的;因此,希望迭代地计算该函数。有多种实现此目的的不同方法,其实例如下所示。
实施例2–使用抗体混合物的蛋白质鉴定
与公开的实施方案一致,通过使用来自Santa Cruz Biotechnology目录的市售抗体池获得结合测量值来对1,000种未知人类蛋白质的鉴定进行基准化。从包含约21,005种蛋白质的Uniprot蛋白质数据库中随机选择了1,000种未知蛋白质。可从Santa CruzBiotechnology目录获得的对人类蛋白质具有反应性的单克隆抗体的列表从在线抗体登录中心下载。该列表包含22,301种抗体,并被过滤为与Uniprot人类蛋白质数据库中的蛋白质相匹配的14,566种抗体的列表。在该实验中建模的抗体的完整集合包含这14,566种抗体。抗体混合物与1,000种未知蛋白质候选物结合的实验评估如下进行:
首先,模建了50种抗体混合物。为了产生任何单一混合物,从抗体的总集合中随机选择了5,000种抗体。
接下来,对于每种混合物,确定该混合物与任何未知蛋白质的结合概率。注意到尽管从目的是推断它们的身份的意义上来说这些蛋白质是“未知的”,但是该算法知道每种“未知蛋白质”的真实身份。如果混合物中含有针对未知蛋白质的抗体,则结合概率指定为0.99。如果混合物不包含针对未知蛋白质的抗体,则将结合概率指定为0.0488。
基于任何单个抗体结合除其靶标以外的蛋白质的预期概率以及混合物中蛋白质的数目,对混合物的非特异性结合概率进行建模。对于该实验评估,假设单个抗体结合除其靶蛋白以外的其他蛋白质的非特异性结合事件的概率为0.00001(1E-5)。抗体混合物的非特异性结合事件的概率是该混合物中任何单个抗体非特异性结合的概率。将该概率计算为1减去混合物中所有5000种抗体未非特异性结合的概率,或1–(1–1e-5)^1000=0.0488。
对于每种未知蛋白质,基于混合物与未知蛋白质的结合概率,评估所测量的每种抗体混合物的结合。对最小值为0且最大值为1的均匀分布进行随机采样,并且如果所得到的数字小于抗体混合物与未知蛋白质的结合概率,则实验导致该混合物的结合事件。否则,实验导致该混合物的非结合事件。评估所有结合事件后,如下进行蛋白质推断:
对于每种未知蛋白质,针对Uniprot数据库中21,005种蛋白质候选物中的每一种,评价了所评估的结合事件(总计50个,每种混合物1个)的顺序。更具体地,针对每种候选物计算观察到结合事件顺序的概率。通过将测量的所有50种混合物中每个单独混合物结合/非结合事件的概率相乘,计算出概率。以与上述相同的方式计算结合概率,并且非结合的概率为1减去结合概率。具有最高结合概率的蛋白质查询候选物是未知蛋白质的推断身份。通过将头部单独候选物的概率除以所有候选物的总概率,计算出针对该单个蛋白质正确的鉴定概率。
采用对1,000种未知蛋白质中的每一种推断出的身份,未知蛋白质按照其鉴定概率的降序进行排序。选择鉴定概率截断值,以使列表中所有先前鉴定中不正确鉴定的百分比为1%。总体而言,在1,000种未知蛋白质中,有551种得到鉴定,不正确鉴定率为1%。
实施例3:使用结合测量结果的蛋白质鉴定
本文所述的方法可以应用于与亲和试剂与未鉴定的蛋白质的结合和/或非结合相关的数据的不同子集。在一些实施方案中,本文所述的方法可以应用于其中不考虑所测量的结合结果的特定子集(例如,非结合测量结果)的实验。这些不考虑所测量的结合结果的子集的方法在本文中可以被称为“删截的”推断方法(例如,如实施例1中所述)。在图3描述的结果中,由删截的推断方法得到的蛋白质鉴定是基于评估与特定未鉴定的蛋白质相关的结合事件的发生率。因此,删截的推断方法在确定未知蛋白质的身份时不考虑非结合结果。
这种类型的删截的推断方法与“未删截的”方法不同,在“未删截的”方法中,所有获得的结合结果都被考虑(例如,与特定未鉴定的蛋白质相关的结合测量结果和非结合测量结果)。在一些实施方案中,在预期特定结合测量或结合测量结果更容易发生错误或可能偏离蛋白质的预期结合测量结果(例如,结合测量结果由该蛋白质生成的概率)的情况下,可采用删截的方法。例如,在亲和试剂结合实验中,可以基于与主要具有线性结构的变性蛋白质的结合来计算结合测量结果和非结合测量结果的概率。在这些条件下,表位可能容易被亲和试剂接近。然而,在一些实施方案中,可以在非变性或部分变性条件下收集对测定的蛋白质样品的结合测量,在这些条件下,蛋白质以具有明显三维结构的“折叠”状态存在,这在许多情况下会导致蛋白质上在线性形式下可及的亲和试剂结合表位由于折叠状态中的空间位阻而成为不可及的。例如,如果亲和试剂识别蛋白质的表位在折叠蛋白质的结构上可及的区域中,则可以预期在未知样品上获得的经验结合测量值将与从线性化蛋白质得出的计算结合概率一致。然而,例如,如果被亲和试剂识别的表位在结构上不可及,则可以预期非结合结果将多于从线性化蛋白质得出的计算结合概率所预期的结果。此外,基于蛋白质周围的特定条件,可以以多种不同的可能构型来配置三维结构,并且基于所需亲和试剂的可及性程度,不同的可能构型中的每一个可以具有结合特定亲和试剂的独特预期。
因此,可以预期非结合结果与针对每种蛋白质计算出的结合概率有所偏差,并且仅考虑结合结果的删截的推断方法可能是合适的。在图3中提供的“删截的”推断方法中,仅考虑测量的结合结果(换句话说,要么不测量非结合结果,要么不考虑测量的非结合结果),使得结合结果集的概率仅考虑导致结合测量值的M个测量的结合结果,它是既包含结合测量结果又包含非结合测量结果的N个总测量结合结果的子集。这可以用以下表达式描述:
P(结果集|蛋白质)=P(结合事件1|蛋白质)*P(结合事件2|蛋白质)*…*P(结合事件M|蛋白质)
当采用删截的方法时,将比例因子应用于P(结合结果集|蛋白质)以校正偏差可能是适当的。例如,更长的蛋白质通常具有更高的生成潜在结合结果的概率(例如,因为它们包含更多的潜在结合位点)。为了纠正这种偏差,可以通过将P(结合结果集|蛋白质)除以可以基于蛋白质上的潜在结合位点数从蛋白质生成的M个结合位点的独特组合的数目,来计算每种候选蛋白质的比例似然SL。对于具有三聚体识别位点的长度为L的蛋白质,可能存在L-2个潜在结合位点(例如,完整蛋白质序列的每个可能的长度为L的子序列),以使:
Figure BDA0002552612660000461
在给定结果集的情况下,从Q种可能的候选蛋白质的集合中选择出任何候选蛋白质的概率可以由下式给出:
Figure BDA0002552612660000462
在图3中绘出了删截的蛋白质推断与未删截的蛋白质推断方法的实施方案的性能。在图3中绘出的数据在表1中提供。
表1
删截的 探针数 灵敏度
100 1.52
100 56.84
200 73.28
200 93.18
300 93.92
300 98.14
400 96.68
400 98.84
500 98.42
500 99.6
在图3所示的比较中,将蛋白质鉴定灵敏度(例如,鉴定出的独特蛋白质的百分比)相对于针对在线性化蛋白质基底上使用的删截推断和未删截推断所测量的亲和试剂循环数作图。所使用的亲和试剂针对蛋白质组中排名前列的最丰富的三聚体,并且每种亲和试剂对另外四个随机三聚体具有脱靶亲和力。当使用100个亲和试剂循环时,未删截的方法要比删截的方法表现好十倍以上。当使用更多循环时,未删截的推断胜过删截的推断的程度降低。
实施例4:蛋白质鉴定对随机假阴性和假阳性亲和试剂结合的容忍度
在一些情况下,亲和试剂结合的假阴性结合测量结果可能具有高发生率。“假阴性”结合结果表现为亲和试剂结合测量的发生频率低于预期。例如,由于结合检测方法、结合条件(例如,温度、缓冲液组成等)、蛋白质样品的破坏或亲和试剂储备液的破坏等问题,可能会出现这样的“假阴性”结果。为了确定假阴性测量值对删截的蛋白质鉴定和未删截的蛋白质鉴定方法的影响,通过在计算机中将1/10、1/100、1/1,000、1/10,000或1/100,000的随机观察到的结合事件切换为非结合事件,有意破坏亲和试剂测量循环的子集。以这种方式破坏了总共300个亲和试剂循环中的0、1、50、100、200或300个。如图4中绘出的结果所示,删截的蛋白质鉴定方法和未删截的蛋白质鉴定方法均能容忍这种类型的随机假阴性结合。在图4中绘出的数据在表2中提供。
表2
Figure BDA0002552612660000481
Figure BDA0002552612660000491
类似地,通过将结合结果的子集从非结合结果切换为结合结果来估计对“假阳性”结合结果的容忍度。该评估的结果在表3中提供。
表3
Figure BDA0002552612660000492
Figure BDA0002552612660000501
Figure BDA0002552612660000511
这些结果在图5中绘出,图5表明,随着随机假阳性测量值的发生率逐渐增加,删截的蛋白质鉴定方法的性能比未删截的蛋白质鉴定方法衰减得更快。然而,这两种方法都可以容忍每个亲和试剂循环中1/1000的假阳性率,或亲和试剂循环的子集中1/100的假阳性率。
实施例5:采用被高估或低估的亲和试剂结合概率的蛋白质推断的性能
采用正确估计的亲和试剂与三聚体的结合概率,并采用被高估或低估的结合概率,使用蛋白质鉴定来评估蛋白质鉴定灵敏度。真实结合概率为0.25。被低估的结合概率为:0.05、0.1和0.2。被高估的结合概率为0.30、0.50、0.75和0.90。总共获取了300个循环的亲和试剂测量。没有(0)、所有300种或一部分(1、50、100、200种)亲和试剂应用了被高估或低估的结合概率。其他所有蛋白质都在蛋白质鉴定中使用了正确的结合概率(0.25)。该分析的结果在表4中提供。
表4
Figure BDA0002552612660000512
Figure BDA0002552612660000521
Figure BDA0002552612660000531
Figure BDA0002552612660000541
这些结果在图6中绘出,显示在可能无法准确估计结合概率的一些情况下,删截的蛋白质鉴定可能是优选的方法。
实施例6:使用具有未知结合表位的亲和试剂进行的蛋白质推断方法的性能
在一些情况下,亲和试剂可具有许多未知的结合位点。使用输入蛋白质鉴定算法中的以概率0.25各自结合五个三聚体位点(例如,靶向的三聚体和四个随机脱靶位点)的亲和试剂,比较了采用亲和试剂结合测量的删截的蛋白鉴定和未删截的蛋白鉴定方法的灵敏度。亲和试剂的子集(0/300、1/300、50/300、100/300、200/300或300/300个)具有另外1个、4个或40个额外的结合位点,每个额外的结合位点针对一个随机三聚体,结合概率为0.05、0.1或0.25。该分析的结果在表5中示出。
表5
Figure BDA0002552612660000542
Figure BDA0002552612660000551
Figure BDA0002552612660000561
Figure BDA0002552612660000571
这些结果在图7中绘出,显示未删截的推断更能容忍包含另外的隐藏结合位点,并且当300种亲和试剂中的50种含有40个另外的结合位点时,这两种推断方法的性能都显著受损。
实施例7:使用具有遗漏的结合表位的亲和试剂进行的蛋白质推断方法的性能
在一些情况下,可能有表征不当的亲和试剂具有许多不存在的带注释的结合表位(例如,额外的预期结合位点)。即,用于生成亲和试剂的预期结合概率的模型包含不存在的额外预期位点。使用输入蛋白质鉴定算法中的以概率0.25各自结合随机三聚体位点(例如,靶向的三聚体和四个随机脱靶位点)的亲和试剂,比较了采用亲和试剂结合测量的删截的蛋白鉴定和未删截的蛋白鉴定方法的灵敏度。亲和试剂的子集(0/300、1/300、50/300、100/300、200/300或300/300个)具有1个、4个或40个额外的结合位点,每个额外的结合位点针对一个随机三聚体,结合概率为0.05、0.1或0.25,添加到蛋白质推断算法使用的亲和试剂的模型中。该分析的结果在表6中示出。
表6
Figure BDA0002552612660000581
Figure BDA0002552612660000591
Figure BDA0002552612660000601
这些结果在图8中绘出,显示未删截的推断更能容忍在亲和试剂结合模型中包含额外的预期结合位点,并且当大多数亲和试剂含有40个额外的预期结合位点时,这两种蛋白质推断方法的性能都一定程度地受损。
实施例8:采用替代缩放策略,对亲和试剂结合分析的删截的推断
可以使用亲和试剂结合测量值与各种概率缩放策略的组合,将本文所述的方法应用于推断蛋白质身份(例如,鉴定未知蛋白质)。实施例3中描述的删截的推断方法基于蛋白质上潜在的结合位点数(蛋白质长度-2)和观察到的结合结果数(M)来缩放观察到的蛋白质结果的概率:
Figure BDA0002552612660000611
本文所述的方法可以与用于计算缩放的可能性的替代方法一起应用。该实施例应用了替代的归一化方法,该方法对从用于测量蛋白质的亲和试剂集中为长度为k的蛋白质生成N个结合事件的概率进行建模,并基于该概率进行缩放。首先,对于每个探针,计算探针结合样品中身份未知的三聚体的概率:
Figure BDA0002552612660000612
其中P(三聚体j)是相对于蛋白质组中所有8,000个三聚体的总计数的三聚体发生频率。对于长度为k的任何蛋白质,探针i结合该蛋白质的概率可以由下式给出:
P(蛋白质结合|探针i,k)=1-(1-P(三聚体结合|探针i))k-2
对长度为k的蛋白质观察到的成功结合事件的数目可以遵循n次试验的Poisson-Binomial分布,其中n为对该蛋白质进行的探针结合测量的次数,分布的参数p探针,k表示每次试验的成功概率:
p探针,k
[P(结合|探针1,k),P(结合|探针2,k),P(结合|探针3,k)…P(结合|探针n,k)]。
用一组特定的探针从长度为k的蛋白质生成N个结合事件的概率可以由用p参数化的Poisson二项式分布(PMFPoiBin)的概率质量函数给出,其在N处评价:
P(N结合事件|探针,k)=PMFPoiBin(N,p探针,k)
基于以下概率计算特定结果集的缩放概率:
Figure BDA0002552612660000621
实施例9:使用随机选择的亲和试剂
本文所述的方法可以应用于任何组亲和试剂。例如,蛋白质鉴定方法可以应用于针对蛋白质组中最丰富的三聚体或针对随机三聚体的亲和试剂。表7a-7c中示出了来自使用亲和试剂的人类蛋白质推断分析的结果,所述亲和试剂针对蛋白质组中的前300个最丰富的三聚体、蛋白质组中的300个随机选择的三聚体或蛋白质组中的300个最不丰富的三聚体。
表7a-c
表7a-针对蛋白质组中最不常见的三聚体的300种亲和试剂
Figure BDA0002552612660000622
表7b-针对蛋白质组中的随机三聚体的300种亲和试剂
Figure BDA0002552612660000623
Figure BDA0002552612660000631
Figure BDA0002552612660000641
Figure BDA0002552612660000651
Figure BDA0002552612660000661
Figure BDA0002552612660000671
Figure BDA0002552612660000681
Figure BDA0002552612660000691
Figure BDA0002552612660000701
Figure BDA0002552612660000711
Figure BDA0002552612660000721
Figure BDA0002552612660000731
Figure BDA0002552612660000741
Figure BDA0002552612660000751
Figure BDA0002552612660000761
表7c-针对蛋白质组中最常见的三聚体的300种亲和试剂
Figure BDA0002552612660000762
Figure BDA0002552612660000771
这些结果在图9中绘出。在所有情况下,每种亲和试剂与目标三聚体的结合概率均为0.25,与其他随机选择的三聚体的结合概率为0.25至4。基于灵敏度(例如,鉴定出的蛋白质的百分比)来测量每个亲和试剂组的性能。每个亲和试剂组进行5次重复评估,每次重复的性能以点绘出,用垂直线连接来自同一组亲和试剂的重复测量。由前300种最丰富的亲和试剂组成的亲和试剂组的结果为蓝色,后300种为绿色。生成并评估了针对随机三聚体的总共100个包含300种亲和试剂的不同组。这些组中的每一个都由用垂直灰线连接的一组5个灰点(每次重复有一个)表示。根据该分析中使用的未删截的推断,与靶向随机三聚体相比,靶向更丰富的三聚体可提高鉴定性能。
实施例10:具有生物类似脱靶位点的亲和试剂
本文所述的方法可以应用于采用具有不同类型的脱靶结合位点(表位)的亲和试剂的亲和试剂结合实验。在该实施例中,比较采用两类亲和试剂的性能:随机的,和“生物类似的”亲和试剂。来自这些评估的结果在表8a-8d中示出。
表8a-d
表8a-采用亲和试剂的删截推断的性能,所述亲和试剂具有生物类似的脱靶位点并且针对蛋白质组中的300个最丰富的三聚体
删截的 循环数 探针类型 灵敏度
100 生物类似 0.00634
200 生物类似 31.97667
300 生物类似 68.73336
表8b-采用亲和试剂的未删截推断的性能,所述亲和试剂具有生物类似的脱靶位点并且针对蛋白质组中的300个最丰富的三聚体
删截的 循环数 探针类型 灵敏度
100 生物类似 75.67516
200 生物类似 97.68607
300 生物类似 99.06809
表8c-采用亲和试剂的删截推断的性能,所述亲和试剂具有随机的脱靶位点并且针对蛋白质组中的300个最丰富的三聚体
删截的 循环数 探针类型 灵敏度
100 随机 0.082414
200 随机 74.68619
300 随机 93.13427
表8d-采用亲和试剂的未删截推断的性能,所述亲和试剂具有随机的脱靶位点并且针对蛋白质组中的300个最丰富的三聚体
删截的 循环数 探针类型 灵敏度
100 随机 60.02916
200 随机 95.47356
300 随机 98.51021
与随机亲和试剂不同,生物类似的亲和试剂具有在生物化学上与靶表位相似的脱靶结合位点。随机亲和试剂和生物类似亲和试剂都以0.25的结合概率识别其靶表位(例如,三聚体)。每种随机类别的亲和试剂均具有4个随机选择的脱靶三聚体结合位点,结合概率为0.25。相反,“生物类似的”亲和试剂的4个脱靶结合位点是与亲和试剂所靶向的三聚体最相似的四个三聚体,它们的结合概率为0.25。对于这些生物类似的亲和试剂,三聚体序列之间的相似性是通过对每个序列位置处氨基酸对的BLOSUM62系数进行求和而计算出的。随机亲和试剂和生物类似的亲和试剂都靶向人类蛋白质组中最丰富的前300个三聚体,其中丰度是通过包含该三聚体的一个或多个实例的独特蛋白质的数目来衡量的。图10显示了当使用具有随机(蓝色)或生物类似(橙色)脱靶位点的亲和试剂时,删截的(虚线)和未删截的(实线)蛋白质推断方法在人类样品中鉴定出的蛋白质百分比方面的性能。
在该比较中,未删截的推断优于删截的推断,在生物类似的亲和试剂的情况下,未删截的推断有更好的性能,在随机亲和试剂的情况下,删截的推断有更好的性能。
或者,不是使用针对蛋白质组中最丰富的三聚体的亲和试剂,而是可以基于可以测量的候选蛋白质(例如,人类蛋白质组)、所进行的蛋白质推断的类型(删截或未删截的)以及使用的亲和试剂的类型(随机的或生物类似的),为特定方法选择最佳的一组三聚体靶标。如下所述,可以使用“贪婪(greedy)”算法来选择一组最佳亲和试剂:
1)初始化所选亲和试剂(AR)的空列表。
2)初始化一组候选AR(例如,8,000种AR的集合,每种AR针对具有随机脱靶位点的独特三聚体)。
3)选择一组蛋白质序列,以针对(例如,Uniprot参考蛋白质组中的所有人类蛋白质)进行优化。
4)重复以下操作,直到选择了所需数目的AR:
a.对于每种候选AR:
i.模拟候选AR与蛋白质集的结合。
ii.使用来自候选AR的模拟结合测量值和来自所有先前选择的AR的模拟结合测量值,对每种蛋白质进行蛋白质推断。
iii.通过将通过蛋白质推断确定每种蛋白质的正确蛋白质鉴定的概率进行加和,计算候选AR的评分。
b.将评分最高的AR添加到所选AR的集合中,并将其从候选AR列表中删除。
贪婪方法用来从针对人类蛋白质组中最丰富的前4,000个三聚体的随机亲和试剂或生物类似亲和试剂集合中选择300种最佳亲和试剂。针对删截的蛋白质推断和未删截的蛋白质推断均进行了优化。来自这些优化的结果在表9a-8d中提供。
表9a-d
表9a-采用亲和试剂的删截推断的性能,所述亲和试剂具有生物类似的脱靶位点并且针对蛋白质组中的300个最佳三聚体
删截的 循环数 探针类型 灵敏度
100 生物类似 25.58007
200 生物类似 87.82173
300 生物类似 95.15025
表9b-采用亲和试剂的未删截推断的性能,所述亲和试剂具有生物类似的脱靶位点并且针对蛋白质组中的300个最佳三聚体
删截的 循环数 探针类型 灵敏度
100 生物类似 76.76556
200 生物类似 97.2106
300 生物类似 99.03005
表9c-采用亲和试剂的删截推断的性能,所述亲和试剂具有随机的脱靶位点并且针对蛋白质组中的300个最佳三聚体
删截的 循环数 探针类型 灵敏度
100 随机 24.93343
200 随机 88.06263
300 随机 95.8476
表9d-采用亲和试剂的未删截推断的性能,所述亲和试剂具有随机的脱靶位点并且针对蛋白质组中的300个最佳三聚体
删截的 循环数 探针类型 灵敏度
100 随机 65.72841
200 随机 96.38012
300 随机 98.56092
图11中绘出了用于删截的蛋白质推断和未删截的蛋白质推断的优化探针集的性能。
使用通过贪婪优化算法选择的一组亲和试剂,可以改善在使用删截的蛋白推断和未删截的蛋白推断方法时,随机和生物类似亲和试剂集的性能。另外,当使用贪婪方法选择亲和试剂时,随机亲和试剂集的性能几乎与生物类似亲和试剂集相同。
实施例11:使用亲和试剂混合物的结合的蛋白质推断
本文所述的方法可以应用于分析和/或鉴定已经使用亲和试剂混合物测量的蛋白质。当通过亲和试剂混合物进行测定时,特定蛋白质生成结合结果的概率可以如下计算:
1)计算
Figure BDA0002552612660000811
即混合物中每种亲和试剂的非特异性表位结合的平均概率。
2)基于蛋白质的长度(L)和亲和试剂表位的长度(K)计算蛋白质上的结合位点数:Num结合位点=L–K+1。不发生非特异性结合事件的概率为
Figure BDA0002552612660000812
3)对于混合物中的每种亲和试剂,计算不发生表位特异性结合事件的概率:
Figure BDA0002552612660000813
4)混合物生成蛋白质的非结合结果的概率为:
Figure BDA0002552612660000814
5)混合物生成结合结果的概率为:
P(结合|蛋白质)=1-P(无结合|蛋白质)
用于计算来自蛋白质混合物的结合或非结合结果的概率的该方法与本文所述的方法结合使用,以分析亲和试剂混合物用于蛋白质鉴定的性能。该分析中的每种单独的亲和试剂以0.25的概率结合其靶向的三聚体表位,并且以0.25的概率结合与该表位靶标结合的4个最相似的三聚体。对于这些亲和试剂,通过针对所比较的三聚体中每个序列位置处的氨基酸,将来自BLOSUM62替换矩阵的系数相加来计算三聚体相似性。另外,每种亲和试剂结合20个额外的脱靶位点,结合概率根据脱靶位点与使用BLOSUM62替换矩阵计算的靶向三聚体之间的序列相似性来缩放。这些额外的脱靶位点的概率为:
Figure BDA0002552612660000821
其中SOT是脱靶位点与靶位点之间的BLOSUM62相似性,而Sself是靶序列与其本身之间的BLOSUM62相似性。将结合概率低于2.45x 108的任何脱靶位点调整为具有2.45x 108的结合概率。在该实例中,非特异性表位结合概率为2.45x 108
使用贪婪方法,针对删截的和未删截的蛋白质推断生成了一组最佳的300种亲和试剂混合物:
1)初始化所选亲和试剂(AR)混合物的空列表。
2)初始化候选亲和试剂列表(在该实施例中,由使用实施例10中详述的贪婪方法计算出的300种最优试剂组成)。
3)选择一组蛋白质序列以针对(例如,Uniprot参考蛋白质组中的所有人类蛋白质)进行优化。
4)重复以下步骤,直到生成所需数目的AR混合物:
a.初始化空混合物。
b.对于每种候选AR:
i.使用添加了候选AR的当前混合物模拟结合结果。
ii.使用来自i的模拟结合测量值和来自先前生成的混合物的模拟结合测量值,对每种蛋白质进行蛋白质推断。
iii.通过将通过蛋白质推断确定每种蛋白质的正确蛋白质鉴定的概率进行加和,计算具有该候选AR的混合物的评分。
c.将评分最高的候选AR添加到该混合物中。
d.对于尚未在该混合物中的每种候选AR,如i-iii中所述,对添加了AR的混合物进行评分,并且如果评分最高的候选物的评分高于添加到该混合物中的先前候选物,则将其添加到该混合物中并重复此步骤。当评分最佳的候选AR相对于先前添加的候选AR降低了混合物的评分时,或者当所有候选AR已添加到混合物中时,该混合物即完成。
图12示出了当未混合的候选亲和试剂与删截的蛋白质推断和未删截的蛋白质推断一起使用时,以及当使用混合物时,蛋白质鉴定的灵敏度。在图12中绘出的数据在表10a-10b中示出。
表10a-b
表10a-在对单个探针结合(未混合)或探针混合物(混合)进行测量时,删截的推断的性能
删截的 混合类型 循环数 探针类型 灵敏度
混合 100 生物类似 2.244199
未混合 100 生物类似 1.363002
混合 200 生物类似 72.16939
未混合 200 生物类似 76.51198
混合 300 生物类似 86.91518
未混合 300 生物类似 91.5684
表10b-在对单个探针结合(未混合)或探针混合物(混合)进行测量时,未删截的推断的性能
Figure BDA0002552612660000831
Figure BDA0002552612660000841
混合物的使用在采用未删截的推断时改善了性能,但是如果采用删截的推断,则可能会负面影响其性能。
实施例12–采用包含7种候选聚糖的数据库的聚糖鉴定
考虑数据库含有7种候选聚糖的情况:
ID 结构
19 Galb1-4GlcNAcb1-6(Galb1-4GlcNAcb1-3)GalNAc
52 GlcNAcb1-2Mana1-6(GlcNAcb1-2Mana1-3)Manb1-4GlcNAcb1-4GlcNAc
344 GlcNAca1-4Galb1-3GalNAc
378 Neu5Aca2-3Galb1-4(Fuca1-3)GlcNAcb1-3GalNAc
430 Fuca1-3GlcNAcb1-6(Galb1-4GlcNAcb1-3)Galb1-4Glc
519 GalNAca1-3(Fuca1-2)Galb1-4GlcNAcb1-6GalNAc
534 Neu5Aca2-3Galb1-4(Fuca1-3)GlcNAcb1-2Man
另外,使用4种亲和试剂(AR)进行该实验,每种亲和试剂具有25%的结合给定二糖的可能性。这些试剂所结合的其他二糖在该数据库中的任何聚糖中均未发现。
对于针对数据库中的每个序列的亲和试剂,构建命中表(行=亲和试剂#1至#4,列=SEQ ID)
AR靶标 19 52 344 378 430 519 534
Neu5Aca2-3Gal 1 1
GlcNAcb1-2Man 2 1
Fuca1-3GlcNAc 1 1 1
Galb1-4GlcNAc 2 1 1 1 1
需要注意的是,该信息以渐进的方式达到,因此可以迭代地进行计算。从命中表中,评价P(聚糖_i|AR_j)以生成概率矩阵,如下所示。请注意,对于给定的条目,如果命中表>=1,则使用P_降落_AR_n=真实降落率=0.25;否则,如果命中表=0,则使用P(检测器错误)=0.00001
Figure BDA0002552612660000851
注意,许多单元具有0.00001的概率。这种小概率说明了可能的检测器错误。聚糖的初始、未归一化的概率被计算为每种候选聚糖的概率的乘积:
19 52 344 378 430 519 534
2.5E-16 2.5E-16 1E-20 1.5625E-07 6.25E-12 2.5E-16 0.00390625
接下来,计算大小归一化,这是指一定数目的亲和试剂可以降落在给定聚糖上的方式的数目,它是该聚糖的潜在结合位点数的函数。大小归一化由Choose(位点_i,n)项给出。例如,候选ID 52具有6个二糖位点,大小归一化为[6select 4],即15。如果结合事件多于可用二糖位点的数目,则大小归一化因数被设置为1。通过除以大小归一化,对每种聚糖的未归一化概率进行归一化,以考虑该大小校正,其得出:
Figure BDA0002552612660000852
接下来,对概率进行归一化,以使整个数据库中的整个概率集总计为一个。这是通过将大小归一化的概率相加为0.00390641并将每个大小归一化的概率除以该归一化以获得最终平衡概率来实现的:
Figure BDA0002552612660000861
项目
1.一种迭代地鉴定未知蛋白质样品内候选蛋白质的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知蛋白质的结合测量的信息,每个亲和试剂探针被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合;
(b)通过所述计算机,将所述结合测量信息的至少一部分与包含多个蛋白质序列的数据库进行比较,每个蛋白质序列对应于所述多种候选蛋白质中的候选蛋白质;以及
(c)对于所述多种候选蛋白质中的一种或多种候选蛋白质中的每一种,通过所述计算机,基于所述一种或多种候选蛋白质中的每一种的所述结合测量信息的所述至少一部分与包含所述多个蛋白质序列的所述数据库的所述比较,迭代地生成所述样品中存在所述一种或多种候选蛋白质中的每一种的概率。
2.根据项目1所述的方法,其中生成所述多个概率进一步包括迭代地接收多个附加亲和试剂探针中的每一个的结合测量的附加信息,每个附加亲和试剂探针被配置为选择性地与所述多种候选蛋白质中的一种或多种候选蛋白质结合。
3.根据项目1所述的方法,其进一步包括针对所述一种或多种候选蛋白质中的每一种,生成所述候选蛋白质与所述样品中的所述未知蛋白质之一相匹配的置信水平。
4.根据项目1所述的方法,其中生成所述概率包括考虑与所述结合测量信息相关的检测器错误率。
5.根据项目4所述的方法,其中所述检测器错误率是从用来获取所述结合测量信息的一个或多个检测器的说明书中获得的。
6.根据项目4所述的方法,其中将所述检测器错误率设置为估计的检测器错误率。
7.根据项目6所述的方法,其中所述估计的检测器错误率由所述计算机的用户设置。
8.根据项目6所述的方法,其中所述估计的检测器错误率约为0.001。
9.根据项目1所述的方法,其中迭代地生成所述多个概率进一步包括从后续迭代中从所述多种候选蛋白质中去除一种或多种候选蛋白质,从而减少进行所述概率的所述迭代生成所必需的迭代次数。
10.根据项目9所述的方法,其中去除所述一种或多种候选蛋白质至少基于与所述候选蛋白质相关的所述结合测量的预定标准。
11.根据项目10所述的方法,其中所述预定标准包括所述一种或多种候选蛋白质与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
12.根据项目1所述的方法,其中将每个所述概率相对于所述候选蛋白质的长度进行归一化。
13.根据项目1所述的方法,其中将每个所述概率相对于所述多种候选蛋白质的概率总和进行归一化。
14.根据项目1所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
15.根据项目1所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
16.根据项目1所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
17.根据项目1所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
18.根据项目1所述的方法,其中迭代地生成所述概率,直到满足预定条件。
19.根据项目18所述的方法,其中所述预定条件包括以至少90%的置信度生成所述多个概率中的每一个。
20.根据项目19所述的方法,其中所述预定条件包括以至少95%的置信度生成所述多个概率中的每一个。
21.根据项目20所述的方法,其中所述预定条件包括以至少99%的置信度生成所述多个概率中的每一个。
22.根据项目1所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知蛋白质的纸质或电子报告。
23.根据项目1所述的方法,其中所述样品包括生物样品。
24.根据项目23所述的方法,其中所述生物样品从受试者获得。
25.根据项目24所述的方法,其进一步包括至少基于所述多个概率来确定所述受试者中的疾病状态。
26.一种鉴定未知蛋白质样品内候选蛋白质的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知蛋白质的结合测量的信息,每个亲和试剂探针被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合;
(b)通过所述计算机,将所述结合测量信息的至少一部分与包含多个蛋白质序列的数据库进行比较,每个蛋白质序列对应于所述多种候选蛋白质中的候选蛋白质;以及
(c)至少基于所述结合测量信息的所述至少一部分与包含所述多个蛋白质序列的所述数据库的所述比较,从所述多种候选蛋白质中去除一种或多种候选蛋白质。
27.根据项目26所述的方法,其中去除所述一种或多种候选蛋白质至少基于与所述候选蛋白质相关的所述结合测量的预定标准。
28.根据项目27所述的方法,其中所述预定标准包括所述一种或多种候选蛋白质与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
29.根据项目26所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
30.根据项目26所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
31.根据项目26所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
32.根据项目26所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
33.根据项目26所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知蛋白质的纸质或电子报告。
34.根据项目26所述的方法,其中所述样品包括生物样品。
35.根据项目34所述的方法,其中所述生物样品从受试者获得。
36.根据项目35所述的方法,其进一步包括至少基于所述鉴定的候选蛋白质来确定所述受试者中的疾病状态。
37.一种迭代地鉴定未知聚糖样品内候选聚糖的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知聚糖的结合测量值,每个亲和试剂探针被配置为选择性地与多种候选聚糖中的一种或多种候选聚糖结合;
(b)通过所述计算机将结合测量值与包含多个聚糖序列的数据库进行比较,每个聚糖序列对应于所述多种候选聚糖中的候选聚糖;以及
(c)对于所述多种候选聚糖中的一种或多种候选聚糖中的每一种,通过所述计算机,基于所述结合测量值与所述包含多个聚糖序列的数据库的所述比较,迭代地生成所述样品中存在所述一种或多种候选聚糖中的每一种的概率,所述数据库中的聚糖序列各自对应于所述多种候选聚糖中的候选聚糖。
38.根据项目37所述的方法,其中生成所述多个概率进一步包括迭代地接收多个附加亲和试剂探针中的每一个的结合测量的附加信息,每个附加亲和试剂探针被配置为选择性地与所述多种候选聚糖中的一种或多种候选聚糖结合。
39.根据项目37所述的方法,其进一步包括针对所述一种或多种候选聚糖中的每一种,生成所述候选聚糖与所述样品中的所述未知聚糖之一相匹配的置信水平。
40.根据项目37所述的方法,其中生成所述概率包括考虑与所述结合测量信息相关的检测器错误率。
41.根据项目40所述的方法,其中所述检测器错误率是从用来获取所述结合测量信息的一个或多个检测器的说明书中获得的。
42.根据项目40所述的方法,其中将所述检测器错误率设置为估计的检测器错误率。
43.根据项目42所述的方法,其中所述估计的检测器错误率由所述计算机的用户设置。
44.根据项目42所述的方法,其中所述估计的检测器错误率约为0.001。
45.根据项目37所述的方法,其中迭代地生成所述多个概率进一步包括从后续迭代中从所述多种候选聚糖中去除一种或多种候选聚糖,从而减少进行所述概率的所述迭代生成所必需的迭代次数。
46.根据项目45所述的方法,其中去除所述一种或多种候选聚糖至少基于与所述候选聚糖相关的所述结合测量的预定标准。
47.根据项目46所述的方法,其中所述预定标准包括所述一种或多种候选聚糖与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
48.根据项目37所述的方法,其中将每个所述概率相对于所述候选聚糖的潜在结合位点数目进行归一化。
49.根据项目37所述的方法,其中将每个所述概率相对于所述多种候选聚糖的概率总和进行归一化。
50.根据项目37所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
51.根据项目37所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
52.根据项目37所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
53.根据项目37所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
54.根据项目37所述的方法,其中迭代地生成所述概率,直到满足预定条件。
55.根据项目54所述的方法,其中所述预定条件包括以至少90%的置信度生成所述多个概率中的每一个。
56.根据项目55所述的方法,其中所述预定条件包括以至少95%的置信度生成所述多个概率中的每一个。
57.根据项目56所述的方法,其中所述预定条件包括以至少99.999%的置信度生成所述多个概率中的每一个。
58.根据项目37所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知聚糖的纸质或电子报告。
59.根据项目37所述的方法,其中所述样品包括生物样品。
60.根据项目59所述的方法,其中所述生物样品从受试者获得。
61.根据项目60所述的方法,其进一步包括至少基于所述多个概率来确定所述受试者中的疾病状态。
62.一种鉴定未知聚糖样品内候选聚糖的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知聚糖的结合测量值,每个亲和试剂探针被配置为选择性地与多种候选聚糖中的一种或多种候选聚糖结合;
(b)通过所述计算机,将所述结合测量值的至少一部分与包含多个聚糖序列的数据库进行比较,每个聚糖序列对应于所述多种候选聚糖中的候选聚糖;以及
(c)至少基于所述结合测量信息的所述至少一部分与包含所述多个聚糖序列的所述数据库的所述比较,从所述多种候选聚糖中去除一种或多种候选聚糖。
63.根据项目62所述的方法,其中去除所述一种或多种候选聚糖至少基于与所述候选聚糖相关的所述结合测量的预定标准。
64.根据项目63所述的方法,其中所述预定标准包括所述一种或多种候选聚糖与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
65.根据项目62所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
66.根据项目62所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
67.根据项目62所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
68.根据项目62所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
69.根据项目62所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知聚糖的纸质或电子报告。
70.根据项目62所述的方法,其中所述样品包括生物样品。
71.根据项目70所述的方法,其中所述生物样品从受试者获得。
72.根据项目71所述的方法,其进一步包括至少基于所述鉴定的候选聚糖来确定所述受试者中的疾病状态。
73.根据前述项目中任一项所述的方法,其中结合测量包括对聚糖的结合亲和试剂的测量。
74.根据前述项目中任一项所述的方法,其中结合测量包括对聚糖的非结合亲和试剂的测量。
75.根据项目57所述的方法,其中所述预定条件包括以至少99.999999999999%的置信度生成所述多个概率中的每一个。
76.根据项目57所述的方法,其中所述预定条件包括以至少99.9999999999999%的置信度生成所述多个概率中的每一个。
77.根据项目57所述的方法,其中所述预定条件包括以至少99.99999999999999%的置信度生成所述多个概率中的每一个。
78.一种迭代地鉴定未知代谢物样品内候选代谢物的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知代谢物的结合测量值,每个亲和试剂探针被配置为选择性地与多种候选代谢物中的一种或多种候选代谢物结合;
(b)通过所述计算机将结合测量值与包含多个代谢物结构的数据库进行比较,每个代谢物结构对应于所述多种候选代谢物中的候选代谢物;以及
(c)对于所述多种候选代谢物中的一种或多种候选代谢物中的每一种,通过所述计算机,基于所述结合测量值与所述包含多个代谢物结构的数据库的所述比较,迭代地生成所述样品中存在所述一种或多种候选代谢物中的每一种的概率,所述数据库中的代谢物结构各自对应于所述多种候选代谢物中的候选代谢物。
79.根据项目78所述的方法,其中生成所述多个概率进一步包括迭代地接收多个附加亲和试剂探针中的每一个的结合测量的附加信息,每个附加亲和试剂探针被配置为选择性地与所述多种候选代谢物中的一种或多种候选代谢物结合。
80.根据项目78所述的方法,其进一步包括针对所述一种或多种候选代谢物中的每一种,生成所述候选代谢物与所述样品中的所述未知代谢物之一相匹配的置信水平。
81.根据项目78所述的方法,其中生成所述概率包括考虑与所述结合测量信息相关的检测器错误率。
82.根据项目81所述的方法,其中所述检测器错误率是从用来获取所述结合测量信息的一个或多个检测器的说明书中获得的。
83.根据项目81所述的方法,其中将所述检测器错误率设置为估计的检测器错误率。
84.根据项目83所述的方法,其中所述估计的检测器错误率由所述计算机的用户设置。
85.根据项目83所述的方法,其中所述估计的检测器错误率约为0.001。
86.根据项目78所述的方法,其中迭代地生成所述多个概率进一步包括从后续迭代中从所述多种候选代谢物中去除一种或多种候选代谢物,从而减少进行所述概率的所述迭代生成所必需的迭代次数。
87.根据项目86所述的方法,其中去除所述一种或多种候选代谢物至少基于与所述候选代谢物相关的所述结合测量的预定标准。
88.根据项目87所述的方法,其中所述预定标准包括所述一种或多种候选代谢物与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
89.根据项目78所述的方法,其中将每个所述概率相对于所述候选代谢物的潜在结合位点数目进行归一化。
90.根据项目78所述的方法,其中将每个所述概率相对于所述多种候选代谢物的概率总和进行归一化。
91.根据项目78所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
92.根据项目78所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
93.根据项目78所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
94.根据项目78所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
95.根据项目78所述的方法,其中迭代地生成所述概率,直到满足预定条件。
96.根据项目95所述的方法,其中所述预定条件包括以至少90%的置信度生成所述多个概率中的每一个。
97.根据项目96所述的方法,其中所述预定条件包括以至少95%的置信度生成所述多个概率中的每一个。
98.根据项目97所述的方法,其中所述预定条件包括以至少99.999%的置信度生成所述多个概率中的每一个。
99.根据项目78所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知代谢物的纸质或电子报告。
100.根据项目78所述的方法,其中所述样品包括生物样品。
101.根据项目100所述的方法,其中所述生物样品从受试者获得。
102.根据项目101所述的方法,其进一步包括至少基于所述多个概率来确定所述受试者中的疾病状态。
103.一种鉴定未知代谢物样品内候选代谢物的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知代谢物的结合测量值,每个亲和试剂探针被配置为选择性地与多种候选代谢物中的一种或多种候选代谢物结合;
(b)通过所述计算机将所述结合测量值的至少一部分与包含多个代谢物结构的数据库进行比较,每个代谢物结构对应于所述多种候选代谢物中的候选代谢物;以及
(c)至少基于所述结合测量信息的所述至少一部分与包含所述多个代谢物结构的所述数据库的所述比较,从所述多种候选代谢物中去除一种或多种候选代谢物。
104.根据项目103所述的方法,其中去除所述一种或多种候选代谢物至少基于与所述候选代谢物相关的所述结合测量的预定标准。
105.根据项目104所述的方法,其中所述预定标准包括所述一种或多种候选代谢物与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
106.根据项目103所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
107.根据项目103所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
108.根据项目103所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
109.根据项目103所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
110.根据项目103所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知代谢物的纸质或电子报告。
111.根据项目103所述的方法,其中所述样品包括生物样品。
112.根据项目111所述的方法,其中所述生物样品从受试者获得。
113.根据项目112所述的方法,其进一步包括至少基于所述鉴定的候选代谢物来确定所述受试者中的疾病状态。
114.根据前述项目中任一项所述的方法,其中结合测量包括对代谢物的结合亲和试剂的测量。
115.根据前述项目中任一项所述的方法,其中结合测量包括对代谢物的非结合亲和试剂的测量。
116.根据项目98所述的方法,其中所述预定条件包括以至少99.99999%的置信度生成所述多个概率中的每一个。
117.根据项目98所述的方法,其中所述预定条件包括以至少99.999999%的置信度生成所述多个概率中的每一个。
118.根据项目98所述的方法,其中所述预定条件包括以至少99.9999999%的置信度生成所述多个概率中的每一个。
119.根据项目98所述的方法,其中所述预定条件包括以至少99.99999999%的置信度生成所述多个概率中的每一个。
120.根据项目98所述的方法,其中所述预定条件包括以至少99.99999999%的置信度生成所述多个概率中的每一个。
121.根据项目98所述的方法,其中所述预定条件包括以至少99.999999999%的置信度生成所述多个概率中的每一个。
122.根据项目98所述的方法,其中所述预定条件包括以至少99.9999999999%的置信度生成所述多个概率中的每一个。
123.根据项目98所述的方法,其中所述预定条件包括以至少99.99999999999%的置信度生成所述多个概率中的每一个。
124.根据项目98所述的方法,其中所述预定条件包括以至少99.999999999999%的置信度生成所述多个概率中的每一个。
125.根据项目98所述的方法,其中所述预定条件包括以至少99.9999999999999%的置信度生成所述多个概率中的每一个。
126.根据项目98所述的方法,其中所述预定条件包括以至少99.99999999999999%的置信度生成所述多个概率中的每一个。
127.一种迭代地鉴定未知聚糖样品内候选聚糖的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知聚糖的结合测量值,每个亲和试剂探针被配置为选择性地与多种候选聚糖中的一种或多种候选聚糖结合;
(b)通过所述计算机将结合测量值与包含多个聚糖结构的数据库进行比较,每个聚糖结构对应于所述多种候选聚糖中的候选聚糖;以及
(c)对于所述多种候选聚糖中的一种或多种候选聚糖中的每一种,通过所述计算机,基于所述结合测量值与所述包含多个聚糖结构的数据库的所述比较,迭代地生成所述样品中存在所述一种或多种候选聚糖中的每一种的概率,所述数据库中的聚糖结构各自对应于所述多种候选聚糖中的候选聚糖。
128.根据项目127所述的方法,其中生成所述多个概率进一步包括迭代地接收多个附加亲和试剂探针中的每一个的结合测量的附加信息,每个附加亲和试剂探针被配置为选择性地与所述多种候选聚糖中的一种或多种候选聚糖结合。
129.根据项目127所述的方法,其进一步包括针对所述一种或多种候选聚糖中的每一种,生成所述候选聚糖与所述样品中的所述未知聚糖之一相匹配的置信水平。
130.根据项目127所述的方法,其中生成所述概率包括考虑与所述结合测量信息相关的检测器错误率。
131.根据项目130所述的方法,其中所述检测器错误率是从用来获取所述结合测量信息的一个或多个检测器的说明书中获得的。
132.根据项目130所述的方法,其中将所述检测器错误率设置为估计的检测器错误率。
133.根据项目132所述的方法,其中所述估计的检测器错误率由所述计算机的用户设置。
134.根据项目132所述的方法,其中所述估计的检测器错误率约为0.001。
135.根据项目127所述的方法,其中迭代地生成所述多个概率进一步包括从后续迭代中从所述多种候选聚糖中去除一种或多种候选聚糖,从而减少进行所述概率的所述迭代生成所必需的迭代次数。
136.根据项目135所述的方法,其中去除所述一种或多种候选聚糖至少基于与所述候选聚糖相关的所述结合测量的预定标准。
137.根据项目136所述的方法,其中所述预定标准包括所述一种或多种候选聚糖与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
138.根据项目127所述的方法,其中将每个所述概率相对于所述候选聚糖的潜在结合位点数目进行归一化。
139.根据项目127所述的方法,其中将每个所述概率相对于所述多种候选聚糖的概率总和进行归一化。
140.根据项目127所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
141.根据项目127所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
142.根据项目127所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
143.根据项目127所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
144.根据项目127所述的方法,其中迭代地生成所述概率,直到满足预定条件。
145.根据项目144所述的方法,其中所述预定条件包括以至少90%的置信度生成所述多个概率中的每一个。
146.根据项目145所述的方法,其中所述预定条件包括以至少95%的置信度生成所述多个概率中的每一个。
147.根据项目146所述的方法,其中所述预定条件包括以至少99.999%的置信度生成所述多个概率中的每一个。
148.根据项目127所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知聚糖的纸质或电子报告。
149.根据项目127所述的方法,其中所述样品包括生物样品。
150.根据项目149所述的方法,其中所述生物样品从受试者获得。
151.根据项目150所述的方法,其进一步包括至少基于所述多个概率来确定所述受试者中的疾病状态。
152.一种鉴定未知聚糖样品内候选聚糖的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知聚糖的结合测量值,每个亲和试剂探针被配置为选择性地与多种候选聚糖中的一种或多种候选聚糖结合;
(b)通过所述计算机,将所述结合测量值的至少一部分与包含多个聚糖结构的数据库进行比较,每个聚糖结构对应于所述多种候选聚糖中的候选聚糖;以及
(c)至少基于所述结合测量信息的所述至少一部分与包含所述多个聚糖结构的所述数据库的所述比较,从所述多种候选聚糖中去除一种或多种候选聚糖。
153.根据项目152所述的方法,其中去除所述一种或多种候选聚糖至少基于与所述候选聚糖相关的所述结合测量的预定标准。
154.根据项目153所述的方法,其中所述预定标准包括所述一种或多种候选聚糖与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
155.根据项目152所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
156.根据项目152所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
157.根据项目152所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
158.根据项目152所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
159.根据项目152所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知聚糖的纸质或电子报告。
160.根据项目152所述的方法,其中所述样品包括生物样品。
161.根据项目160所述的方法,其中所述生物样品从受试者获得。
162.根据项目161所述的方法,其进一步包括至少基于所述鉴定的候选聚糖来确定所述受试者中的疾病状态。
163.根据前述项目中任一项所述的方法,其中结合测量包括对聚糖的结合亲和试剂的测量。
164.根据前述项目中任一项所述的方法,其中结合测量包括对聚糖的非结合亲和试剂的测量。
165.根据项目147所述的方法,其中所述预定条件包括以至少99.99999%的置信度生成所述多个概率中的每一个。
166.根据项目147所述的方法,其中所述预定条件包括以至少99.999999%的置信度生成所述多个概率中的每一个。
167.根据项目147所述的方法,其中所述预定条件包括以至少99.9999999%的置信度生成所述多个概率中的每一个。
168.根据项目147所述的方法,其中所述预定条件包括以至少99.99999999%的置信度生成所述多个概率中的每一个。
169.根据项目147所述的方法,其中所述预定条件包括以至少99.99999999%的置信度生成所述多个概率中的每一个。
170.根据项目147所述的方法,其中所述预定条件包括以至少99.999999999%的置信度生成所述多个概率中的每一个。
171.根据项目147所述的方法,其中所述预定条件包括以至少99.9999999999%的置信度生成所述多个概率中的每一个。
172.根据项目147所述的方法,其中所述预定条件包括以至少99.99999999999%的置信度生成所述多个概率中的每一个。
173.根据项目147所述的方法,其中所述预定条件包括以至少99.999999999999%的置信度生成所述多个概率中的每一个。
174.根据项目147所述的方法,其中所述预定条件包括以至少99.9999999999999%的置信度生成所述多个概率中的每一个。
175.根据项目147所述的方法,其中所述预定条件包括以至少99.99999999999999%的置信度生成所述多个概率中的每一个。
虽然本文已经示出并描述了本发明的优选实施方案,但对于本领域技术人员明显的是,这些实施方案仅以示例的方式提供。并非打算用本说明书中提供的具体实例来限制本发明。尽管已经参照上述说明书对本发明进行了描述,但并不意味着对本文实施方案的描述和说明以限制性的意义来解释。在不脱离本发明的情况下,本领域技术人员现将想到许多变化、改变和替换。此外,应当理解,本发明的所有方面均不限于本文所阐述的具体描述、配置或相对比例,其取决于多种条件和变量。应当理解,在实施本发明的过程中可以采用本文所述的本发明实施方案的各种替代方案。因此可以预期,本发明还应涵盖任何这类替代、改变、变化或等同物。旨在以所附权利要求书限定本发明的范围,由此涵盖在这些权利要求范围内的方法和结构及其等同物。

Claims (58)

1.一种迭代地鉴定未知蛋白质样品内候选蛋白质的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知蛋白质的结合测量值,每个亲和试剂探针被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合;
(b)通过所述计算机将结合测量值与包含多个蛋白质序列的数据库进行比较,每个蛋白质序列对应于所述多种候选蛋白质中的候选蛋白质;以及
(c)对于所述多种候选蛋白质中的一种或多种候选蛋白质中的每一种,通过所述计算机,基于所述结合测量值与所述包含多个蛋白质序列的数据库的所述比较,迭代地生成所述样品中存在所述一种或多种候选蛋白质中的每一种的概率,所述数据库中的蛋白质序列各自对应于所述多种候选蛋白质中的候选蛋白质。
2.根据权利要求1所述的方法,其中生成所述多个概率进一步包括迭代地接收多个附加亲和试剂探针中的每一个的结合测量的附加信息,每个附加亲和试剂探针被配置为选择性地与所述多种候选蛋白质中的一种或多种候选蛋白质结合。
3.根据权利要求1所述的方法,其进一步包括针对所述一种或多种候选蛋白质中的每一种,生成所述候选蛋白质与所述样品中的所述未知蛋白质之一相匹配的置信水平。
4.根据权利要求1所述的方法,其中生成所述概率包括考虑与所述结合测量信息相关的检测器错误率。
5.根据权利要求4所述的方法,其中所述检测器错误率是从用来获取所述结合测量信息的一个或多个检测器的说明书中获得的。
6.根据权利要求4所述的方法,其中将所述检测器错误率设置为估计的检测器错误率。
7.根据权利要求6所述的方法,其中所述估计的检测器错误率由所述计算机的用户设置。
8.根据权利要求6所述的方法,其中所述估计的检测器错误率约为0.001。
9.根据权利要求1所述的方法,其中迭代地生成所述多个概率进一步包括从后续迭代中从所述多种候选蛋白质中去除一种或多种候选蛋白质,从而减少进行所述概率的所述迭代生成所必需的迭代次数。
10.根据权利要求9所述的方法,其中去除所述一种或多种候选蛋白质至少基于与所述候选蛋白质相关的所述结合测量的预定标准。
11.根据权利要求10所述的方法,其中所述预定标准包括所述一种或多种候选蛋白质与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
12.根据权利要求1所述的方法,其中将每个所述概率相对于所述候选蛋白质的长度进行归一化。
13.根据权利要求1所述的方法,其中将每个所述概率相对于所述多种候选蛋白质的概率总和进行归一化。
14.根据权利要求1所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
15.根据权利要求1所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
16.根据权利要求1所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
17.根据权利要求1所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
18.根据权利要求1所述的方法,其中迭代地生成所述概率,直到满足预定条件。
19.根据权利要求18所述的方法,其中所述预定条件包括以至少90%的置信度生成所述多个概率中的每一个。
20.根据权利要求19所述的方法,其中所述预定条件包括以至少95%的置信度生成所述多个概率中的每一个。
21.根据权利要求20所述的方法,其中所述预定条件包括以至少99.999%的置信度生成所述多个概率中的每一个。
22.根据权利要求1所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知蛋白质的纸质或电子报告。
23.根据权利要求1所述的方法,其中所述样品包括生物样品。
24.根据权利要求23所述的方法,其中所述生物样品从受试者获得。
25.根据权利要求24所述的方法,其进一步包括至少基于所述多个概率来确定所述受试者中的疾病状态。
26.一种鉴定未知蛋白质样品内候选蛋白质的计算机实现的方法,该方法包括:
(a)通过所述计算机接收多个亲和试剂探针中的每一个与所述样品中所述未知蛋白质的结合测量值,每个亲和试剂探针被配置为选择性地与多种候选蛋白质中的一种或多种候选蛋白质结合;
(b)通过所述计算机,将所述结合测量值的至少一部分与包含多个蛋白质序列的数据库进行比较,每个蛋白质序列对应于所述多种候选蛋白质中的候选蛋白质;以及
(c)至少基于所述结合测量信息的所述至少一部分与包含所述多个蛋白质序列的所述数据库的所述比较,从所述多种候选蛋白质中去除一种或多种候选蛋白质。
27.根据权利要求26所述的方法,其中去除所述一种或多种候选蛋白质至少基于与所述候选蛋白质相关的所述结合测量的预定标准。
28.根据权利要求27所述的方法,其中所述预定标准包括所述一种或多种候选蛋白质与所述多个亲和试剂探针中的第一多个亲和试剂探针的结合测量值低于预定阈值。
29.根据权利要求26所述的方法,其中所述多个亲和试剂探针包含不超过50个亲和试剂探针。
30.根据权利要求26所述的方法,其中所述多个亲和试剂探针包含不超过100个亲和试剂探针。
31.根据权利要求26所述的方法,其中所述多个亲和试剂探针包含不超过500个亲和试剂探针。
32.根据权利要求26所述的方法,其中所述多个亲和试剂探针包含超过500个亲和试剂探针。
33.根据权利要求26所述的方法,其进一步包括生成鉴定所述样品中的一种或多种未知蛋白质的纸质或电子报告。
34.根据权利要求26所述的方法,其中所述样品包括生物样品。
35.根据权利要求34所述的方法,其中所述生物样品从受试者获得。
36.根据权利要求35所述的方法,其进一步包括至少基于所述鉴定的候选蛋白质来确定所述受试者中的疾病状态。
37.根据前述权利要求中任一项所述的方法,其中结合测量包括对蛋白质的结合亲和试剂的测量。
38.根据前述权利要求中任一项所述的方法,其中结合测量包括对蛋白质的非结合亲和试剂的测量。
39.根据权利要求21所述的方法,其中所述预定条件包括以至少99.99999%的置信度生成所述多个概率中的每一个。
40.根据权利要求21所述的方法,其中所述预定条件包括以至少99.999999%的置信度生成所述多个概率中的每一个。
41.根据权利要求21所述的方法,其中所述预定条件包括以至少99.9999999%的置信度生成所述多个概率中的每一个。
42.根据权利要求21所述的方法,其中所述预定条件包括以至少99.99999999%的置信度生成所述多个概率中的每一个。
43.根据权利要求21所述的方法,其中所述预定条件包括以至少99.99999999%的置信度生成所述多个概率中的每一个。
44.根据权利要求21所述的方法,其中所述预定条件包括以至少99.999999999%的置信度生成所述多个概率中的每一个。
45.根据权利要求21所述的方法,其中所述预定条件包括以至少99.9999999999%的置信度生成所述多个概率中的每一个。
46.根据权利要求21所述的方法,其中所述预定条件包括以至少99.99999999999%的置信度生成所述多个概率中的每一个。
47.根据权利要求21所述的方法,其中所述预定条件包括以至少99.999999999999%的置信度生成所述多个概率中的每一个。
48.根据权利要求21所述的方法,其中所述预定条件包括以至少99.9999999999999%的置信度生成所述多个概率中的每一个。
49.根据权利要求21所述的方法,其中所述预定条件包括以至少99.99999999999999%的置信度生成所述多个概率中的每一个。
50.一种增强亲和试剂与蛋白质之间的偶联的方法,该方法包括:
将具有第一序列的一个或多个DNA标签附接至亲和试剂;
将具有第二序列的一个或多个DNA标签附接至蛋白质;
使所述亲和试剂与所述蛋白质杂交;
使至少一个DNA连接体与所述亲和试剂和所述蛋白质杂交,该DNA连接体具有与所述第一序列杂交的第一区域并且具有与所述第二序列杂交的第二区域。
51.根据权利要求50所述的方法,其中所述亲和试剂具有一个DNA标签。
52.根据权利要求50所述的方法,其中所述亲和试剂具有两个DNA标签。
53.根据权利要求50所述的方法,其中所述亲和试剂具有超过两个DNA标签。
54.根据权利要求50所述的方法,其中所述蛋白质具有一个DNA标签。
55.根据权利要求50所述的方法,其中所述蛋白质具有两个DNA标签。
56.根据权利要求50所述的方法,其中所述蛋白质具有超过两个DNA标签。
57.根据权利要求50所述的方法,其中所述蛋白质具有超过十个DNA标签。
58.根据权利要求50所述的方法,其中所述亲和试剂和蛋白质部分以5皮摩尔至500纳摩尔的浓度暴露于DNA连接体。
CN201880083563.8A 2017-10-23 2018-10-20 用于蛋白质鉴定的方法和系统 Pending CN112154230A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762575976P 2017-10-23 2017-10-23
US62/575,976 2017-10-23
PCT/US2018/056807 WO2019083856A1 (en) 2017-10-23 2018-10-20 METHODS AND SYSTEMS FOR PROTEIN IDENTIFICATION

Publications (1)

Publication Number Publication Date
CN112154230A true CN112154230A (zh) 2020-12-29

Family

ID=66247977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880083563.8A Pending CN112154230A (zh) 2017-10-23 2018-10-20 用于蛋白质鉴定的方法和系统

Country Status (7)

Country Link
US (1) US20200082914A1 (zh)
EP (2) EP3701066B1 (zh)
JP (2) JP7434161B2 (zh)
CN (1) CN112154230A (zh)
AU (2) AU2018353967B2 (zh)
CA (1) CA3079832A1 (zh)
WO (1) WO2019083856A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018102759A1 (en) 2016-12-01 2018-06-07 Ignite Biosciences, Inc. Methods of assaying proteins
US11721412B2 (en) 2017-10-23 2023-08-08 Nautilus Subsidiary, Inc. Methods for identifying a protein in a sample of unknown proteins
CN111788633A (zh) * 2017-12-29 2020-10-16 诺迪勒思生物科技公司 用于蛋白质鉴定的解码方法
CN112236528A (zh) 2018-04-04 2021-01-15 诺迪勒思生物科技公司 产生纳米阵列和微阵列的方法
EP3877400A4 (en) 2018-11-07 2022-09-07 Seer, Inc. COMPOSITIONS, METHODS AND SYSTEMS FOR CROWN PROTEIN ANALYSIS AND THEIR USES
WO2020198209A1 (en) 2019-03-26 2020-10-01 Seer, Inc. Compositions, methods and systems for protein corona analysis from biofluids and uses thereof
WO2021003470A1 (en) * 2019-07-03 2021-01-07 Nautilus Biotechnology, Inc. Decoding approaches for protein and peptide identification
FI20196004A1 (en) * 2019-11-22 2021-05-23 Medicortex Finland Oy Apparatus and method for detecting brain injury in a subject
AU2021288692A1 (en) 2020-06-11 2023-02-02 Nautilus Subsidiary, Inc. Methods and systems for computational decoding of biological, chemical, and physical entities
JP2023540904A (ja) 2020-08-25 2023-09-27 シアー, インコーポレイテッド タンパク質および核酸をアッセイするための組成物および方法
KR20230118570A (ko) 2020-11-11 2023-08-11 노틸러스 서브시디어리, 인크. 강화된 결합 및 검출 특성을 갖는 친화성 시약
US12092642B2 (en) 2021-01-20 2024-09-17 Nautilus Subsidiary, Inc. Systems and methods for biomolecule quantitation
WO2022192591A1 (en) 2021-03-11 2022-09-15 Nautilus Biotechnology, Inc. Systems and methods for biomolecule retention
WO2023192917A1 (en) 2022-03-29 2023-10-05 Nautilus Subsidiary, Inc. Integrated arrays for single-analyte processes
WO2023212490A1 (en) * 2022-04-25 2023-11-02 Nautilus Subsidiary, Inc. Systems and methods for assessing and improving the quality of multiplex molecular assays
WO2024059655A1 (en) * 2022-09-15 2024-03-21 Nautilus Subsidiary, Inc. Characterizing accessibility of macromolecule structures

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128608A (en) * 1998-05-01 2000-10-03 Barnhill Technologies, Llc Enhancing knowledge discovery using multiple support vector machines
EP1047107A2 (en) * 1999-04-06 2000-10-25 Micromass Limited Improved methods of identifying peptides and protein by mass spectrometry
WO2000073787A1 (en) * 1999-05-27 2000-12-07 Rockefeller University An expert system for protein identification using mass spectrometric information combined with database searching
WO2002072613A1 (en) * 2001-03-10 2002-09-19 Kent Ridge Digital Labs System and method for systematic prediction of ligand/receptor activity
US20030054408A1 (en) * 2001-04-20 2003-03-20 Ramamoorthi Ravi Methods and systems for identifying proteins
US20050131647A1 (en) * 2003-12-16 2005-06-16 Maroto Fernando M. Calculating confidence levels for peptide and protein identification
US20070099198A1 (en) * 2005-03-14 2007-05-03 California Institute Of Technology Method and apparatus for detection, identification and quantification of single-and multi-analytes in affinity-based sensor arrays

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19802576B4 (de) * 1998-01-23 2004-10-28 Xerion Pharmaceuticals Ag Verfahren zur gleichzeitigen Identifizierung von Proteinen und ihren Bindungspartnern
DE10145226A1 (de) * 2001-09-13 2003-04-10 Lifebits Ag Herstellung von trägergebundenen Molekülen
US20040067599A1 (en) * 2001-12-14 2004-04-08 Katz Joseph L. Separation identification and quantitation of protein mixtures
US20040002818A1 (en) * 2001-12-21 2004-01-01 Affymetrix, Inc. Method, system and computer software for providing microarray probe data
US20040126840A1 (en) * 2002-12-23 2004-07-01 Affymetrix, Inc. Method, system and computer software for providing genomic ontological data
JP4286075B2 (ja) * 2003-06-25 2009-06-24 株式会社日立製作所 タンパク質同定処理方法
US20070218503A1 (en) * 2006-02-13 2007-09-20 Mitra Robi D Methods of polypeptide identification, and compositions therefor
US7764361B2 (en) * 2006-07-27 2010-07-27 Northwestern University Systems and methods to analyze multiplexed bead-based assays using backscattered light
EP2389585A2 (en) * 2009-01-22 2011-11-30 Li-Cor, Inc. Single molecule proteomics with dynamic probes
US10787701B2 (en) * 2010-04-05 2020-09-29 Prognosys Biosciences, Inc. Spatially encoded biological assays
JP6395718B2 (ja) * 2012-11-19 2018-09-26 アプトン バイオシステムズ インコーポレイテッド 単一分子検出を用いた分子分析物のデジタル分析の方法
US20140288844A1 (en) * 2013-03-15 2014-09-25 Cosmosid Inc. Characterization of biological material in a sample or isolate using unassembled sequence information, probabilistic methods and trait-specific database catalogs
WO2018102759A1 (en) * 2016-12-01 2018-06-07 Ignite Biosciences, Inc. Methods of assaying proteins
US11721412B2 (en) * 2017-10-23 2023-08-08 Nautilus Subsidiary, Inc. Methods for identifying a protein in a sample of unknown proteins
CN111788633A (zh) * 2017-12-29 2020-10-16 诺迪勒思生物科技公司 用于蛋白质鉴定的解码方法
CN112236528A (zh) * 2018-04-04 2021-01-15 诺迪勒思生物科技公司 产生纳米阵列和微阵列的方法
EP3884048A4 (en) * 2018-11-20 2022-08-17 Nautilus Biotechnology, Inc. DESIGN AND SELECTION OF AFFINITY REAGENTS
AU2020266136A1 (en) * 2019-04-29 2021-11-25 Nautilus Subsidiary, Inc. Methods and systems for integrated on-chip single-molecule detection
KR20230118570A (ko) * 2020-11-11 2023-08-11 노틸러스 서브시디어리, 인크. 강화된 결합 및 검출 특성을 갖는 친화성 시약
WO2022159663A1 (en) * 2021-01-21 2022-07-28 Nautilus Biotechnology, Inc. Systems and methods for biomolecule preparation
WO2022192591A1 (en) * 2021-03-11 2022-09-15 Nautilus Biotechnology, Inc. Systems and methods for biomolecule retention
EP4416731A1 (en) * 2021-10-11 2024-08-21 Nautilus Subsidiary, Inc. Highly multiplexable analysis of proteins and proteomes

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128608A (en) * 1998-05-01 2000-10-03 Barnhill Technologies, Llc Enhancing knowledge discovery using multiple support vector machines
EP1047107A2 (en) * 1999-04-06 2000-10-25 Micromass Limited Improved methods of identifying peptides and protein by mass spectrometry
WO2000073787A1 (en) * 1999-05-27 2000-12-07 Rockefeller University An expert system for protein identification using mass spectrometric information combined with database searching
WO2002072613A1 (en) * 2001-03-10 2002-09-19 Kent Ridge Digital Labs System and method for systematic prediction of ligand/receptor activity
US20030054408A1 (en) * 2001-04-20 2003-03-20 Ramamoorthi Ravi Methods and systems for identifying proteins
US20050131647A1 (en) * 2003-12-16 2005-06-16 Maroto Fernando M. Calculating confidence levels for peptide and protein identification
US20070099198A1 (en) * 2005-03-14 2007-05-03 California Institute Of Technology Method and apparatus for detection, identification and quantification of single-and multi-analytes in affinity-based sensor arrays

Also Published As

Publication number Publication date
CA3079832A1 (en) 2019-05-02
US20200082914A1 (en) 2020-03-12
AU2018353967A1 (en) 2020-06-04
EP3701066A1 (en) 2020-09-02
AU2018353967B2 (en) 2024-02-29
JP2024059673A (ja) 2024-05-01
EP3701066B1 (en) 2024-10-16
JP7434161B2 (ja) 2024-02-20
JP2021501332A (ja) 2021-01-14
AU2024202780A1 (en) 2024-05-16
EP4372383A2 (en) 2024-05-22
EP3701066A4 (en) 2021-08-11
WO2019083856A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
JP7458678B2 (ja) タンパク質同定のためのデコーディングアプローチ方法
US11721412B2 (en) Methods for identifying a protein in a sample of unknown proteins
CN112154230A (zh) 用于蛋白质鉴定的方法和系统
US10473654B1 (en) Methods of assaying proteins
CN111566261A (zh) 选择结合试剂的方法
WO2021003470A1 (en) Decoding approaches for protein and peptide identification
KR20240074839A (ko) 단백질 및 프로테옴의 고도로 다중화 가능한 분석

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Washington State

Applicant after: Nordilus subsidiary

Address before: California, USA

Applicant before: Nordiles Biotechnology Co.