CN115989545A - 使用机器学习和相关系统和方法进行蛋白质识别的技术 - Google Patents

使用机器学习和相关系统和方法进行蛋白质识别的技术 Download PDF

Info

Publication number
CN115989545A
CN115989545A CN202080057353.9A CN202080057353A CN115989545A CN 115989545 A CN115989545 A CN 115989545A CN 202080057353 A CN202080057353 A CN 202080057353A CN 115989545 A CN115989545 A CN 115989545A
Authority
CN
China
Prior art keywords
data
learning model
machine learning
amino acids
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080057353.9A
Other languages
English (en)
Inventor
迈克尔·迈耶
布莱恩·瑞德
张智卓
萨布丽娜·拉希德
布拉德利·罗伯特·帕里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quantum Si Inc
Original Assignee
Quantum Si Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quantum Si Inc filed Critical Quantum Si Inc
Publication of CN115989545A publication Critical patent/CN115989545A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本文描述了用于使用由蛋白质测序装置收集的数据来识别多肽的系统和技术。蛋白质测序装置可以收集在试剂与多肽的氨基酸的结合相互作用期间从所检测到的发光标签的光发射获得的数据。光发射可能是由于对发光标签施加激发能量而产生的。该装置可以将数据作为输入提供给经过训练的机器学习模型以获得可用于识别多肽的输出。对于多肽中的多个位置的每一个,输出可以指示一个或多个相应氨基酸存在于该位置的一种或多种可能性。输出可以与指定蛋白质的氨基酸序列进行匹配。

Description

使用机器学习和相关系统和方法进行蛋白质识别的技术
背景技术
蛋白质组学已成为生物系统研究中基因组学和转录组学的重要且必要的补充。对单个生物体的蛋白质组学分析允许深入了解细胞过程和反应模式,从而改进诊断和治疗策略。蛋白质结构、组成和修饰的复杂性对蛋白质的识别提出了挑战。
发明内容
本文描述了使用由蛋白质测序装置收集的数据来识别蛋白质的系统和技术。蛋白质测序装置可以收集试剂与蛋白质氨基酸的结合相互作用的数据。例如,该数据可以包括从向发光标签施加激发能量而导致的光发射中检测到的数据。该装置可以将数据作为输入提供给经过训练的机器学习模型以获得可用于识别多肽的输出。针对多肽中的多个位置的每一个,输出可以指示一个或多个相应氨基酸存在于该位置的一种或多种可能性。输出可以与指定蛋白质的氨基酸序列进行匹配。
根据一些方面,提供了一种用于识别多肽的方法,所述方法包括使用至少一个计算机硬件处理器来执行访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
根据一些方面,提供了一种用于识别多肽的系统,所述系统包括至少一个处理器,以及至少一个存储指令的非暂时性计算机可读存储介质,当被所述至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
根据一些方面,提供了至少一个存储指令的非暂时性计算机可读存储介质,当被至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括:访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
根据一些方面,提供了一种训练用于识别多肽的氨基酸的机器学习模型的方法,所述方法包括使用至少一个计算机硬件处理器来执行访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。
根据一些方面,提供了一种训练用于识别多肽的氨基酸的机器学习模型的系统,所述系统包括至少一个处理器;以及至少一个存储指令的非暂时性计算机可读存储介质,当被所述至少一个处理器执行时,所述指令使所述至少一个处理器执行访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。
根据一些方面,提供了至少一个存储指令的非暂时性计算机可读存储介质,当被至少一个处理器执行时,所述指令使所述至少一个处理器执行访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。
前述装置和方法实施例可以用上文描述的或下文更详细描述的方面、特征和动作的任何适当组合来实现。当结合附图阅读以下描述时,可以更充分地理解本教导的这些和其他方面、实施例和特征。
附图说明
将参考以下附图描述本申请的各个方面和实施例。应当理解,附图不一定按比例绘制。出现在多个图中的项目在它们出现的所有图中由相同的附图标记表示。为清楚起见,并非每个组件都可以在每张图中标记。
图1A示出了根据本文所述的技术的一些实施例的标记的亲和试剂的示例配置,包括选择性地与一种或多种类型的氨基酸结合的标记的酶和标记的适体;
图1B示出了根据本文所述的技术的一些实施例的使用标记的亲和试剂进行多肽测序的基于降解的过程;
图1C示出了根据本文所述的技术的一些实施例的使用标记的多肽进行多肽测序的过程;
图2A-2B示出了根据本文所述的技术的一些实施例的通过检测由光发射产生的一系列信号脉冲来进行多肽测序,其中光发射源于用发光标签标记的亲和试剂之间的结合事件;
图2C示出了根据本文所述的技术的一些实施例的通过迭代末端氨基酸检测和切割进行多肽测序的实例;
图2D示出了根据本文所述的技术的一些实施例的使用分别选择性地结合和切割不同类型末端氨基酸的标记的外肽酶进行实时多肽测序的示例;
图3示出了根据本文所述的技术的一些实施例的通过评估末端氨基酸与标记的亲和试剂和标记的非特异性外肽酶的结合相互作用进行的实时多肽测序的示例;
图4示出了根据本文所述的技术的一些实施例的通过评估末端和内部氨基酸与标记的亲和试剂和标记的非特异性外肽酶的结合相互作用进行的实时多肽测序的示例;
图5A示出了根据本文所述的技术的一些实施例的可以在其中实现本文所述的技术的一些方面的说明性系统;
图5B-C示出了根据本文所述的技术的一些实施例的在图5A中示出的蛋白质测序装置502的组件;
图6A是根据本文所述的技术的一些实施例的训练用于识别氨基酸的机器学习模型的示例过程;
图6B是根据本文所述的技术的一些实施例的使用从图6A的过程中获得的用于识别多肽的机器学习模型的示例过程;
图7是根据本文所述的技术的一些实施例的用于向机器学习模型提供输入的示例过程;
图8是根据本文所述的技术的一些实施例从用于识别多肽的机器学习模型获得的输出的示例;
图9A示出了根据本文所述的技术的一些实施例的可以从试剂与氨基酸的结合相互作用获得的示例性数据;
图9B示出了根据本文所述的技术的一些实施例的用于排列图9A的数据的示例数据结构;
图10A示出了根据本文所述的技术的一些实施例的用于识别机器学习模型的集群的聚类数据点的图;
图10B示出了根据本文所述的技术的一些实施例的根据图10A的聚类数据点识别的集群的图;
图10C示出了根据本文所述的技术的一些实施例的图10A的每个集群的示例高斯混合模型(GMM)图;
图11是根据本文所述的技术的一些实施例的用于识别氨基酸的示例性卷积神经网络(CNN)的结构;
图12是根据本文所述的技术的一些实施例的用于识别氨基酸的示例性联结时序分类(CTC)拟合模型的框图;
图13是可用于实现本文所述的技术的一些实施例的说明性计算设备的框图;
图14A-14C示出了根据本文所述的技术的一些实施例的用于通过计算信号轨迹的小波系数来识别感兴趣区域(ROI)的说明性方法;
图15是根据本文所述的技术的一些实施例的使用上述小波方法识别ROI的方法的流程图;
图16A-16B示出了根据本文所述的技术的一些实施例的用于将由已知亲和试剂产生的数据拟合到参数化分布的说明性方法;
图17A-17B示出了根据本文所述的技术的一些实施例的其中脉冲持续时间值拟合为三个指数函数的总和的方法,其中每个拟合分布包括共同指数函数;
图18示出了根据本文所述的技术的一些实施例的根据一些实施例,表示通过测量来自样品孔的光发射而获得的数据的多个信号轨迹;
图19A-19E示出了根据本文所述的技术的一些实施例的基于三个氨基酸的信号轨迹训练基于GMM的机器学习模型的过程;以及
图20A-20D示出了根据本文所述的技术的一些实施例的识别氨基酸的两步方法。
具体实施方式
发明人开发了一种蛋白质识别系统,该系统使用机器学习技术来识别蛋白质。在一些实施例中,蛋白质识别系统通过以下方式操作:(1)使用实时蛋白质测序装置收集关于蛋白质多肽的数据;(2)使用机器学习模型和收集的数据来确定作为多肽一部分的某些氨基酸位于相应位置的概率;(3)使用识别的概率,作为“概率指纹”来识别蛋白质。在一些实施例中,关于蛋白质多肽的数据可以使用选择性地与氨基酸结合的试剂获得。例如,试剂和/或氨基酸可以用响应激发能量的施加而发光的发光标签(例如发光分子)进行标记。在该示例中,蛋白质测序装置可以在试剂与样品中的氨基酸的结合相互作用期间将激发能量施加到蛋白质样品(例如,多肽)。在一些实施例中,测序装置中的一个或多个传感器(例如,光电探测器、电传感器和/或任何其他合适类型的传感器)可以检测结合相互作用。继而,从检测到的光发射收集和/或导出的数据可以提供给机器学习模型。
发明人已经认识到一些常规蛋白质识别系统需要识别多肽中的每个氨基酸以识别多肽。然而,很难准确地识别多肽中的每个氨基酸。例如,从第一标记的试剂与第一氨基酸选择性结合的相互作用中收集的数据可能无法与从第二标记的试剂与第二氨基酸选择性结合的相互作用中收集的数据具有足够的不同性。本发明人通过开发一种蛋白质识别系统解决了这个问题,该系统与传统蛋白质识别系统不同,不需要(但不排除)识别蛋白质中的每个氨基酸。
如本文所述,多肽可以包括蛋白质多肽、蛋白质的修饰形式、突变的蛋白质、融合蛋白质或其片段。一些实施例不限于特定类型的蛋白质。多肽可以包含一种或多种肽(也称为“肽片段”)。
本文描述的一些实施例解决了发明人已经认识到的常规蛋白质识别系统的所有上述问题。然而,应当理解,并非本文描述的每个实施例都解决了这些问题中的每一个。还应理解,本文所述的技术的实施例可用于解决上述常规蛋白质识别系统的问题以外的目的。
在一些实施例中,蛋白质识别系统可以访问(例如,通过测序装置的传感器部分)一种或多种试剂与多肽的氨基酸的结合相互作用(例如,检测到的光发射、电信号和/或任何其他类型的信号)的数据。蛋白质识别系统可以将访问的数据(经过或未经过预处理)作为输入提供给机器学习模型以获得相应的输出。针对多肽中的多个位置的每一个,输出可以指示一个或多个相应氨基酸存在于该位置的一种或多种可能性。在一些实施例中,一个或多个相应氨基酸存在于该位置的一种或多种可能性包括第一氨基酸存在于该位置的第一可能性;以及第二氨基酸存在于该位置的第二可能性。多个位置可以包括多肽内的相对位置(例如,相对于其他输出的位置)和/或多肽内的绝对位置。例如,针对多个位置的每一个,输出可以识别不同类型的氨基酸存在于该位置的概率。蛋白质识别系统可以使用机器学习模型的输出来识别多肽。
在一些实施例中,蛋白质识别系统可以被配置为通过识别与多肽对应的蛋白质来识别多肽。例如,蛋白质识别系统可以将多肽与来自预定蛋白质组(例如,存储的已知蛋白质的数据库)的蛋白质进行匹配。在一些实施例中,蛋白质识别系统可以被配置为通过将获得的输出与相应蛋白质的关联的多个氨基酸序列之一进行匹配来识别与多肽对应的蛋白质。例如,蛋白质识别系统可以将输出与存储在UniProt数据库和/或人类蛋白质组计划(HPP)数据库中的氨基酸序列进行匹配。在一些实施例中,蛋白质识别系统可以被配置为通过以下方式将输出与氨基酸序列进行匹配:(1)基于从机器学习模型获得的输出生成隐马尔可夫模型(HMM);(2)将HMM与氨基酸序列进行匹配。例如,蛋白质识别系统可以从UniProt数据库中识别出HMM最接近匹配的氨基酸序列作为匹配的氨基酸序列。匹配的氨基酸序列可以指定该多肽构成其一部分的蛋白质。在一些实施例中,蛋白质识别系统可以被配置为基于从机器学习模型获得的输出,通过将获得的输出与数据库中的多个氨基酸序列进行匹配来识别多肽。例如,蛋白质识别系统可以确定从机器学习模型获得的输出与数据库中的第一氨基酸序列和第二氨基酸序列匹配。在一些实施例中,蛋白质识别系统可以被配置为基于从训练的机器学习模型获得的输出,通过识别多肽与数据库中相应的一个或多个氨基酸序列匹配的可能性来识别多肽。例如,蛋白质识别系统可以确定多肽与第一氨基酸序列匹配的概率为50%,多肽与第二氨基酸序列匹配的概率为50%。
在一些实施例中,蛋白质识别系统可以被配置为基于从训练的机器学习模型获得的输出,通过消除一个或多个多肽可能是其中一部分的蛋白质来识别多肽。蛋白质识别系统可以被配置为使用从机器学习模型获得的输出来确定多肽不可能是一个或多个蛋白质的一部分,并因此从一组候选蛋白质中消除该蛋白质。例如,蛋白质识别系统可以:(1)使用从机器学习模型获得的输出确定多肽包括一组一个或多个氨基酸;(2)从数据库(例如Uniprot和/或HPP)中删除不包括该组氨基酸的氨基酸序列。
在一些实施例中,蛋白质识别系统可以被配置为通过从头测序以获得多肽的一个或多个部分(例如,肽)的序列来识别多肽。蛋白质识别系统可以被配置为使用机器学习模型的输出来获得多肽的肽序列。在一些实施例中,蛋白质识别系统可以被配置为基于从机器学习模型获得的输出,通过确定多肽的部分或全部氨基酸序列来识别多肽。在某些情况下,蛋白质识别系统可能无法识别确定序列中一个或多个位置的氨基酸。例如,蛋白质识别系统可以确定多肽的部分或全部氨基酸序列,其中氨基酸序列中一个或多个位置处的氨基酸未被识别。在一些情况下,蛋白质识别系统可以识别氨基酸序列或其部分中每个位置的氨基酸。在一些实施例中,蛋白质识别系统可以被配置为基于从机器学习模型获得的输出,通过确定多肽的氨基酸序列的多个部分来识别多肽。在一些情况下,蛋白质识别系统可以确定多肽的氨基酸序列的非连续部分。例如,蛋白质识别系统可以确定氨基酸序列的第一部分和氨基酸序列的第二部分,其中第一部分与第二部分由氨基酸序列中的至少一个氨基酸隔开。在一些情况下,蛋白质识别系统可以确定多肽的氨基酸序列的连续部分。例如,蛋白质识别系统可以确定氨基酸序列的第一部分和氨基酸序列的第二部分,其中第一和第二部分是连续的。在一些情况下,蛋白质识别系统可以确定多肽的氨基酸序列的连续和非连续部分。例如,蛋白质识别系统可以确定氨基酸序列的三个部分,其中:(1)第一部分和第二部分是连续部分;(2)第三部分通过氨基酸序列中的至少一个氨基酸与第一和第二部分隔开。
在一些实施例中,蛋白质识别系统可以被配置为通过识别多肽中出现的氨基酸序列的天然模式来获得肽序列。例如,蛋白质识别系统可以被配置为确定所识别的氨基酸序列是否符合氨基酸序列的天然模式(例如,在数据库中)。在一些实施例中,蛋白质识别系统可以被配置为通过识别已知的氨基酸模式来获得肽序列。例如,蛋白质识别系统可以从一个或多个蛋白质数据库(例如,Uniprot数据库和/或HPP数据库)中学习氨基酸的模式。蛋白质识别系统可以被配置为了解氨基酸序列模式可能出现在哪些肽中,并使用该信息来获得肽序列。
在一些实施例中,机器学习模型可以被配置为针对多肽中的多个位置的每一个输出概率分布,该概率分布针对多个氨基酸的每一个指示该氨基酸存在于该位置的概率。例如,机器学习模型可以针对多肽中的十五个位置的每一个输出二十个不同氨基酸的每一个存在于多肽中的位置的概率。在一些实施例中,机器学习模型被配置为其生成输出的多肽中的位置可能不一定对应于多肽的氨基酸序列中的实际位置。例如,机器学习模型针对其产生输出的第一位置可以对应于多肽的氨基酸序列中的第二位置,机器学习模型针对其产生输出的第二位置可以对应于多肽的氨基酸序列中的第五氨基酸位置。
在一些实施例中,描述试剂与多肽的氨基酸的结合相互作用的数据可以包括多个光强度值(例如,随时间测量的值)。指示这种随时间测量的光强度值的数据在本文中被称为“信号轨迹”,信号轨迹的说明性示例在下文进一步描述。在一些情况下,描述试剂与多肽的氨基酸的结合相互作用的数据可以包括描述信号轨迹的特性的值,例如一个或多个光脉冲持续时间、脉冲宽度、脉冲强度、脉冲间持续时间或其组合。例如,脉冲持续时间值可以指示针对试剂与氨基酸的结合相互作用检测到的信号脉冲的持续时间,而脉冲间持续时间值可以指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。
在一些实施例中,蛋白质识别系统可以被配置为如下所述识别一个或多个蛋白质和/或多肽。首先,描述试剂与蛋白质/多肽的氨基酸的结合相互作用的数据可以通过以下方式输入经过训练的机器学习模型:(1)识别数据的多个部分,每个部分对应于相应的一个结合相互作用;(2)将多个部分的每一个作为输入提供给训练的机器学习模型以获得对应于该部分的输出。对应于每个数据部分的机器学习模型产生的输出可以指示一个或多个相应氨基酸存在于多肽中相应位置的一种或多种可能性。在某些情况下,输出可以基于数据的单个部分指示多肽内单个位置的可能性。在其他情况下,输出可以指示数据的单个部分与多肽内的多个位置相关联,或者因为该部分表示的连续相同氨基酸(例如,均聚物),或者因为该部分表示多个无法区分的氨基酸。在后一种情况下,输出可以包括特定数量和/或特性的氨基酸存在于多肽中一个以上位置的概率不确定性。
在一些实施例中,蛋白质识别系统可以被配置为根据以下方式识别数据的多个部分,每个部分对应于结合相互作用之一:(1)识别数据中对应于一个或多个氨基酸(例如,来自多肽)的切割的一个或多个点;(2)基于识别的对应于一个或多个氨基酸的切割的一个或多个点识别数据的多个部分。在一些实施例中,蛋白质识别系统可以被配置为通过以下方式识别数据的多个部分:(1)借助发光标签,根据数据确定结合相互作用的一个或多个特性的汇总统计值(例如,脉冲持续时间、脉冲间持续时间、发光强度和/或发光寿命);(2)识别数据中的一个或多个点,在这些点处,至少一个特性的值相对于汇总统计数据(例如,平均值)的值偏离阈值量;以及基于识别的一个或多个点识别数据的多个部分。
在一些实施例中,试剂与多肽的氨基酸的结合相互作用的数据可以包括检测到的一个或多个发光标签的光发射(例如,由结合相互作用产生的)。在一些实施例中,发光标签可与试剂相关联。例如,发光标签可以是与试剂结合的分子。在一些实施例中,发光标签可与多肽的至少一些氨基酸结合。例如,发光标签可以是与一类或多类氨基酸结合的分子。
在一些实施例中,结合相互作用的数据可以在相互作用期间生成。例如,测序装置传感器可以在结合相互作用发生时检测到它们,并根据检测到的相互作用生成数据。在一些实施例中,可以在相互作用之前和/或之后生成结合相互作用的数据。例如,测序装置传感器可以在结合相互作用发生之前和/或之后收集信息,并使用收集的信息生成数据。在一些实施例中,结合相互作用的数据可以在结合相互作用之前、期间和之后生成。
在一些实施例中,结合相互作用的数据可以包括发光标签的光发射的发光强度值和/或发光寿命值。在一些实施例中,数据可以包括发光标签的光发射的波长值。在一些实施例中,数据可以包括一个或多个光发射脉冲持续时间值、一个或多个光发射脉冲间持续时间值、一个或多个光发射发光寿命值、一个或多个光发射发光强度值和/或一个或多个光发射波长值。
在一些实施例中,发光标签可以响应于激发光而发射光,激发光例如可以包括一系列激发光脉冲。作为示例,激光发射器可以施加使发光标签发光的激光。针对多个激发光脉冲的每一个,从发光标签的光发射收集的数据可以包括在多个时间间隔的每一个中检测到的相应数量的光子,这些时间间隔是激发光脉冲之后的时间段的一部分。从光发射收集的数据可以形成如上所述的信号轨迹。
在一些实施例中,蛋白质识别系统可以被配置为将数据排列成数据结构以将数据作为输入提供给机器学习模型。在一些实施例中,数据结构可以包括:(1)第一列,其在作为光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及(2)第二列,其在作为光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。在一些实施例中,数据结构可以包括行,其中每个行在对应于光脉冲的相应时间间隔中保持一定数量的光子。在一些实施例中,行和列可以互换。作为示例,在一些实施例中,数据结构可以包括:(1)第一列,其在作为光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;(2)第二列,其在作为光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。在该示例中,数据结构可以包括列,其中每个列在对应于光脉冲的相应时间间隔中保持一定数量的光子。
在一些实施例中,蛋白质识别系统可以被配置为通过将数据排列在图像中,将试剂与多肽的氨基酸的结合相互作用的数据输入经过训练的机器学习模型,其中图像的每个像素指定在多个光脉冲的一个光脉冲之后的时间段的相应时间间隔中检测到的一定数量的光子。在一些实施例中,蛋白质识别系统可以被配置为通过将数据排列在图像中来将数据作为输入提供给经过训练的机器学习模型中,其中图像的第一像素指定在多个脉冲的第一脉冲之后的第一时间间隔中检测到的第一数量的光子。在一些实施例中,图像的第二像素指定在多个脉冲的第一脉冲之后的第一时间段的第二时间间隔中检测到的第二数量的光子数量。在一些实施例中,图像的第二像素指定在多个脉冲的第二脉冲之后的第二时间段的第一时间间隔中检测到的第二数量的光子。
在一些实施例中,试剂与多肽的氨基酸的结合相互作用的数据可以包括由电传感器(例如,电流计、电压传感器等)检测到的电信号。例如,蛋白质测序装置可以包括一个或多个电传感器,其检测由试剂与多肽的氨基酸的结合相互作用产生的电信号。蛋白质识别系统可以被配置为将脉冲持续时间值确定为针对结合相互作用检测到的电脉冲的持续时间,并将脉冲间持续时间值确定为针对结合相互作用检测到的连续电脉冲之间的持续时间。
在一些实施例中,可以使用纳米孔传感器来检测试剂与多肽的氨基酸的结合相互作用的数据。一种或多种探针(例如,电探针)可以嵌入纳米孔中。探针可以检测由试剂与多肽的氨基酸的结合相互作用产生的信号(例如,电信号)。例如,纳米孔传感器可以是测量由试剂与多肽的氨基酸的结合相互作用引起的电压和/或电流变化的生物纳米孔。作为另一示例,纳米孔传感器可以是固态纳米孔,其测量由试剂与多肽的氨基酸的结合相互作用引起的电压和/或电流变化。纳米孔传感器的示例在“Nano pore Sequencing Technology:AReview(纳米孔测序技术:评论,发表于Journal of Advances in Scientific Research,第3卷,2017年8月)”和“The Evolution of Nanopore Sequencing(纳米孔测序的演变,发表于Frontiers in Genetics,第5卷,2015年1月)”中进行了描述,上述两篇文章在此纳入作为参考。在一些实施例中,亲和试剂可以是ClpS蛋白。例如,亲和试剂可以是来自根癌农杆菌或细长聚球藻的ClpS1或ClpS2蛋白。在另一示例中,亲和试剂可以是来自大肠杆菌、新月茎杆菌或恶性疟原虫的ClspS蛋白。在一些实施例中,亲和试剂可以是核酸适体。
应当理解,本文所述的技术的一些方面不限于获得试剂与多肽的氨基酸的结合相互作用的数据的特定技术,因为本文描述的机器学习技术可以通过利用各种技术获得的数据来应用。
除了上述蛋白质识别系统之外,本文还描述了训练用于识别蛋白质的机器学习模型的系统的实施例。训练系统可以被配置为访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据。训练系统可以使用训练数据来训练机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。其中,将经过训练的机器学习模型提供给如上所述的蛋白质识别系统,蛋白质识别系统和训练系统可以是同一系统,也可以是不同的系统。
在一些实施例中,训练系统可以被配置为通过将监督学习应用于训练数据来训练机器学习模型。例如,可以将训练数据输入训练系统,其中多组数据中的每组数据用对应于该组数据的结合相互作用中涉及的氨基酸进行标记。在一些实施例中,训练系统可以被配置为通过将无监督训练算法应用于训练数据来训练机器学习模型。例如,训练系统可以识别用于数据分类的集群。每个集群可以与一个或多个氨基酸相关。在一些实施例中,训练系统可以被配置为通过将半监督学习算法应用于训练数据来训练机器学习模型。无监督学习算法可用于标记未标记的训练数据。然后,通过将监督学习算法应用于标记的训练数据,标记的训练数据可用于训练机器学习模型。
在一些实施例中,训练数据可以包括一个或多个脉冲持续时间值、一个或多个脉冲间持续时间值和/或一个或多个发光寿命值。
在一些实施例中,机器学习模型可以包括多个组(例如,集群或类),每个组与一个或多个氨基酸相关联。训练系统可以被配置为针对每个类训练机器学习模型以区分该类的氨基酸。例如,训练系统可以针对每个类训练混合模型(例如,高斯混合模型(GMM)),该模型表示与该类相关联的多个不同氨基酸。机器学习模型可以将数据分成一类,然后输出与该类相关联的每个氨基酸参与由数据表示的结合相互作用的可能性的指示。在一些实施例中,机器学习模型可以包括聚类模型,其中每个类由聚类模型的集群定义。聚类模型的每个集群可以与一个或多个氨基酸相关联。
在一些实施例中,机器学习模型可以是或者可以包括深度学习模型。在一些实施例中,深度学习模型可以是卷积神经网络(CNN)。例如,可以训练卷积神经网络以基于一组输入数据识别氨基酸。在一些实施例中,深度学习模型可以是联结时序分类(CTC)拟合神经网络。可以训练CTC拟合神经网络以基于一组输入数据输出氨基酸序列。例如,CTC拟合神经网络可以输出识别氨基酸序列的字母序列。
在一些实施例中,训练系统可以被配置为通过以下方式基于描述试剂与多肽的氨基酸的结合相互作用的数据训练机器学习模型:(1)识别数据的多个部分,每个部分对应于相应的一个结合相互作用;(2)将多个部分的每一个作为输入提供给机器学习模型以获得对应于每个部分数据的输出;(3)使用对应于多个部分的输出来训练机器学习模型。在一些实施例中,对应于该部分数据的输出指示一个或多个相应氨基酸存在于多个位置中的相应一个的一种或多种可能性。
在一些实施例中,所获得的试剂与氨基酸的结合相互作用的训练数据包括来自所检测到的一个或多个发光标签的光发射的数据。在一些实施例中,发光标签可与试剂结合。例如,发光标签可以是与试剂结合的分子。在一些实施例中,发光标签可以与至少一些氨基酸结合。例如,发光标签可以是与一类或多类氨基酸结合的分子。
在一些实施例中,从所检测到的发光标签的光发射获得的训练数据可以包括发光寿命值、发光强度值和/或波长值。波长值可以指示由发光标签发射的光的波长(例如,在结合相互作用期间)。在一些实施例中,光发射响应于一系列光脉冲,并且针对至少一些光脉冲的每一个,该数据包括在作为光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子(也称为“计数”)。
在一些实施例中,训练系统可以被配置为通过将数据排列成具有列的数据结构,将数据作为输入提供给机器学习模型来训练机器学习模型,其中:第一列在作为光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及第二列在作为光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。在一些实施例中,训练系统可以被配置为通过将数据排列成具有行的数据结构,将数据作为输入提供给机器学习模型来训练机器学习模型,其中每个行在对应于至少一些光脉冲的相应时间间隔中保持一定数量的光子。在一些实施例中,数据结构的行可以与列互换。
在一些实施例中,训练系统可以被配置为通过将数据排列在图像中,将数据作为输入提供给机器学习模型,其中图像的每个像素指定在多个光脉冲之一之后的时间段的相应时间间隔中检测到的一定数量的光子。在一些实施例中,训练系统可以被配置为通过将数据排列在图像中,将数据作为输入提供给机器学习模型,其中图像的第一像素指定在多个光脉冲的第一脉冲之后的第一时间间隔中检测到的第一数量的光子。在一些实施例中,图像的第二像素指定在多个脉冲的第一脉冲之后的第一时间段的第二时间间隔中检测到的第二数量的光子。在一些实施例中,图像的第二像素指定在多个脉冲的第二脉冲之后的第二时间段的第一时间间隔中检测到的第二数量的光子。
在一些实施例中,试剂与氨基酸的结合相互作用的训练数据可以包括由用于已知蛋白质的电传感器(例如,电流计和/或电压传感器)检测到的电信号。例如,蛋白质测序装置可以包括一个或多个电传感器,其检测由试剂与氨基酸的结合相互作用产生的电信号。
一些实施例可能不利用机器学习技术来识别多肽的氨基酸。蛋白质识别系统可以被配置为访问试剂与氨基酸的结合相互作用的数据,并使用所访问的数据来识别多肽。例如,蛋白质识别系统可以使用选择性结合特定氨基酸的试剂。这些试剂也可以称为“紧密结合探针”。蛋白质识别系统可以使用结合相互作用的一个或多个性质(例如,脉冲持续时间、脉冲间持续时间)的值来通过确定哪种试剂参与结合相互作用来识别氨基酸。在一些实施例中,蛋白质识别系统可以被配置为通过识别与选择性地结合氨基酸的试剂相关联的发光标签来识别氨基酸。例如,蛋白质识别系统可以使用脉冲持续时间值和/或脉冲间持续时间值来识别氨基酸。作为另一示例,在蛋白质识别系统检测发光标签的光发射的实施例中,蛋白质识别系统可以使用光发射的发光强度值和/或发光寿命值来识别氨基酸。
在一些实施例中,蛋白质识别系统可以被配置为使用机器学习技术来识别第一组一个或多个氨基酸,以及不使用机器学习技术来识别第二组一个或多个氨基酸。在一些实施例中,蛋白质识别系统可以被配置为使用与第一组氨基酸中的多个氨基酸结合的试剂。这些试剂在本文中可以称为“弱结合探针”。蛋白质识别系统可以被配置为使用本文所述的机器学习技术来识别来自第一组的氨基酸。蛋白质识别系统可以被配置为对第二组氨基酸使用紧密结合的探针。蛋白质识别系统可以被配置为在不使用机器学习技术的情况下识别来自第二组的氨基酸。例如,蛋白质识别系统可以基于脉冲持续时间值、脉冲间持续时间值、发光强度值、发光寿命值、波长值和/或从其衍生的值来识别来自第二组的氨基酸。
尽管本文主要参考蛋白质的识别描述了这些技术,但在一些实施例中,这些技术可用于识别核苷酸。例如,本文所述的技术可用于识别DNA和/或RNA样品。蛋白质识别系统可以访问在亲和试剂与待识别的核酸样品混合的降解反应期间从检测到的发光标签的光发射获得的数据。蛋白质识别系统可以将所访问的数据(经过或未经过预处理)作为输入提供给机器学习模型以获得相应输出。针对核酸中的多个位置的每一个,输出可以指示一个或多个相应的核苷酸被掺入到核酸的位置中的一种或多种可能性。在一些实施例中,一个或多个相应核苷酸掺入核酸中的位置的一种或多种可能性包括第一核苷酸存在于该位置的第一可能性;以及第二核苷酸存在于该位置的第二可能性。例如,针对多个位置的每一个,输出可以识别不同核苷酸存在于该位置的概率。蛋白质识别系统可以使用机器学习模型的输出来识别核酸。
在一些实施例中,蛋白质识别系统可以被配置为将获得的输出与相应核酸的相关联的多个核苷酸序列之一进行匹配。例如,蛋白质识别系统可以将输出与存储在GenBank数据库中的核苷酸序列进行匹配。在一些实施例中,蛋白质识别系统可以被配置为通过以下方式将输出与核苷酸序列进行匹配:(1)基于从机器学习模型获得的输出生成HMM;(2)将HMM与核苷酸序列进行匹配。例如,蛋白质识别系统可以从GenBank数据库中识别出HMM最接近匹配的核苷酸序列作为匹配的核苷酸序列。匹配的核苷酸序列可以指定待识别的核酸的特性。
试剂测序
如上所述,蛋白质识别系统可以被配置为基于描述试剂与蛋白质和/或多肽的氨基酸的结合相互作用的数据识别一个或多个蛋白质和/或多肽。在本节中,描述了生成此类数据的说明性方法。
在一些实施例中,多肽可以与选择性结合一种或多种类型的氨基酸的标记的亲和试剂接触。亲和试剂在本文中也可称为“试剂”。在一些实施例中,标记的亲和试剂可以选择性地与末端氨基酸结合。如本文所用,在一些实施例中,末端氨基酸可以指多肽的氨基末端氨基酸或多肽的羧基末端氨基酸。在一些实施例中,标记的亲和试剂选择性地结合一种类型的末端氨基酸而不是其他类型的末端氨基酸。在一些实施例中,标记的亲和试剂选择性地结合一种类型的末端氨基酸而不是相同类型的内部氨基酸。在其他实施例中,标记的亲和试剂选择性地结合多肽的任何位置的一种类型的氨基酸,例如,与末端氨基酸和内部氨基酸相同类型的氨基酸。
如本文所用,氨基酸的“类型”可以指二十种天然存在的氨基酸之一、其类型的子集、二十种天然存在的氨基酸之一的修饰变体,或其未修饰和/或修饰的变体的子集。修饰的氨基酸变体的示例包括但不限于转译后修饰的变体、化学修饰的变体、非天然氨基酸和蛋白质氨基酸(例如硒代半胱氨酸和吡咯赖氨酸)。在一些实施例中,氨基酸类型的子集可以包括具有一种或多种相似生化特性的多于一种且少于二十种的氨基酸。例如,在一些实施例中,一种氨基酸是指选自具有带电荷侧链(例如,带正电荷和/或带负电荷的侧链)的氨基酸、具有极性侧链(例如,极性不带电荷的侧链)的氨基酸、具有非极性侧链(例如,非极性脂肪族和/或芳香族侧链)的氨基酸和具有疏水侧链的氨基酸的一种类型。
在一些实施例中,从所检测到的亲和试剂的发光标签的光发射(例如,发光)收集数据。在一些实施例中,标记的或带标签的亲和试剂包括(1)选择性地结合一种或多种类型氨基酸的亲和试剂;(2)具有与亲和试剂相关联的发光的发光标签。以这种方式,发光(例如,发光寿命、发光强度和本文所述的其他发光特性)可以是亲和试剂选择性结合以识别多肽的氨基酸的特征。在一些实施例中,可以使用多种类型的标记的亲和试剂,其中每种类型包括发光标签,该发光标签具有可从众多发光中唯一识别的发光。合适的发光标签可以包括发光分子,例如荧光团染料。
在一些实施例中,从所检测到的氨基酸发光标签的光发射(例如,发光)收集数据。在一些实施例中,标记的氨基酸包括(1)氨基酸;(2)具有与氨基酸相关联的发光的发光标签。发光可用于识别多肽的氨基酸。在一些实施例中,可以标记多种类型的氨基酸,其中每个发光标签具有可从多种类型发光中唯一识别的发光。
如本文所用,术语“选择性的”和“特异性的”(及其变体,例如,选择性地、特异性地、选择性、特异性)可以指优先的结合相互作用。例如,在一些实施例中,选择性结合一种类型的氨基酸的标记的亲和试剂优先结合一种类型而不是另一种类型的氨基酸。选择性结合相互作用区分一种类型的氨基酸(例如,一种类型的末端氨基酸)与其他类型的氨基酸(例如,其他类型的末端氨基酸),通常超过约10至100倍或更多(例如,超过约1,000或10,000倍)。在一些实施例中,标记的亲和试剂以小于约10-6M(例如,小于约10-7M、小于约10-8M、小于约10-9M、小于约10-10M、小于约10-11M、小于约10-12M、低至10-16M)的解离常数(KD)选择性地结合一种类型的氨基酸,而不显著结合其他类型的氨基酸。在一些实施例中,标记的亲和试剂以小于约100nM、小于约50nM、小于约25nM、小于约10nM,或小于约1nM的KD选择性地结合一种类型的氨基酸(例如,一种类型的末端氨基酸)。在一些实施例中,标记的亲和试剂以约50nM的KD选择性地结合一种类型的氨基酸。
图1A示出了根据本文所述的技术的一些实施例的标记的亲和试剂的各种示例配置和用途。在一些实施例中,标记的亲和试剂100包括发光标签110(例如,标签)和选择性地结合多肽120的一种或多种类型的末端氨基酸的亲和试剂(显示为点状)。在一些实施例中,亲和试剂可以对末端位置或末端和内部位置的一种类型的氨基酸或氨基酸类型的子集(例如,少于二十种常见类型的氨基酸)具有选择性。
如本文所述,亲和试剂可以是能够选择性地或特异性地结合一个分子而非另一分子(例如,一种类型的氨基酸,而非另一类型的氨基酸)的任何生物分子。例如,亲和试剂包括蛋白质和核酸。在一些实施例中,亲和试剂可以是抗体或抗体的抗原结合部分,或酶促生物分子,例如肽酶、核酶、适体酶或tRNA合成酶,包括在2016年9月2日提交的题为“MOLECULES AND METHODS FOR ITERATIVE POLYPEPTIDE ANALYSIS AND PROCESSING(用于迭代多肽分析和处理的分子和方法)”的美国专利申请15/255,433中描述的氨酰tRNA合成酶。肽酶(也称为蛋白酶或朊酶)可以是催化肽键水解的酶。肽酶将多肽消化成较短的片段,通常可分为内肽酶和外肽酶,它们分别在内部和末端切割多肽链。在一些实施例中,亲和试剂可以是参与“The N-end rule pathway:From Recognition by N-recognins,toDestruction by AAA+Proteases(N-端规则途径:从N-识别子的识别到AAA+蛋白酶的破坏,发表于Biochimica et Biophysica Acta(BBA)–Molecular Cell Research,第1823卷,第1期,2012年1月)”中描述的原核生物和真核生物中的N-降解子途径的N-识别子。
在一些实施例中,标记的亲和试剂100包括已被修饰以灭活外肽酶或内肽酶活性的肽酶。以这种方式,标记的亲和试剂100选择性地结合而不从多肽中切割氨基酸。在一些实施例中,可以使用未经修饰以灭活外肽酶或内肽酶活性的肽酶。例如,在一些实施例中,标记的亲和试剂包括标记的外肽酶101。
在一些实施例中,蛋白质测序方法可以包括多肽末端的迭代检测和切割。在一些实施例中,标记的外肽酶101可用作执行氨基酸检测和切割这两个步骤的单一试剂。如一般描述的,在一些实施例中,标记的外肽酶101具有氨肽酶或羧肽酶活性,从而其分别选择性地结合和切割多肽的N-末端或C-末端氨基酸。应当理解,在某些实施例中,标记的外肽酶101可由本领域技术人员催化失活,使得标记的外肽酶101保留选择性结合特性以用作非切割标记的亲和试剂100,如本文所述。在一些实施例中,标记的亲和试剂包括具有结合诱导发光的标签。标记的亲和试剂与氨基酸的结合相互作用可以诱导标记试剂的发光标签的发光。
在一些实施例中,测序可涉及使多肽末端接受末端氨基酸检测和末端氨基酸切割的重复循环。例如,蛋白质测序装置可以通过使多肽与一种或多种标记的亲和试剂接触来收集关于多肽的氨基酸序列的数据。
图1B示出了根据本文所述的技术的一些实施例的使用标记的亲和试剂进行测序的示例。在一些实施例中,测序包括提供多肽121,其通过接头122固定到固体支持物的表面130(例如,固定到样品孔的底部或侧壁表面)。在一些实施例中,多肽121可以固定在一个末端(例如,氨基末端氨基酸),使得另一末端自由地检测和切割末端氨基酸。因此,在一些实施例中,试剂在多肽121的非固定(例如,自由)末端与末端氨基酸相互作用。以此方式,多肽121在检测和切割的重复循环期间保持固定。为此,在一些实施例中,接头122可以根据用于检测和切割的所需条件集进行设计,例如以限制多肽121在化学切割条件下从表面130脱离。
在一些实施例中,测序包括步骤(1)使多肽121与选择性地结合一种或多种末端氨基酸的一种或多种标记的亲和试剂接触。如图所示,在一些实施例中,标记的亲和试剂104通过选择性地结合末端氨基酸与多肽121相互作用。在一些实施例中,步骤(1)进一步包括去除不选择性地结合多肽121的末端氨基酸(例如,自由末端氨基酸)的一种或多种标记的亲和试剂中的任一种。在一些实施例中,测序包括步骤(2)去除多肽121的末端氨基酸。在一些实施例中,步骤(2)包括从多肽121中去除标记的亲和试剂104(例如,选择性地结合末端氨基酸的一种或多种标记的亲和试剂中的任一种)。
在一些实施例中,测序包括在末端氨基酸切割后洗涤多肽121的步骤(3)。在一些实施例中,洗涤包括去除蛋白酶140。在一些实施例中,洗涤包括将多肽121恢复至中性pH条件(例如,在酸性或碱性条件下进行化学切割之后)。在一些实施例中,测序包括多次循环地重复步骤(1)至(3)。
图1C示出了根据本文所述的技术的一些实施例使用标记的蛋白质样品进行测序的示例。如图1C的示例实施例所示,标记的蛋白质样品包括具有标记的氨基酸的多肽140。在一些实施例中,标记的多肽140包括具有一个或多个氨基酸的多肽,这些氨基酸用发光标签进行标记。在一些实施例中,可以标记多肽140的一种或多种类型的氨基酸,同时不标记多肽140的一种或多种其他类型的氨基酸。在一些实施例中,可以标记多肽140的所有氨基酸。
在一些实施例中,测序包括检测标记的多肽的发光,这些多肽重复循环地与一种或多种试剂接触。在图1C的示例实施例中,测序包括使多肽140与结合多肽140的一个或多个氨基酸的试剂142接触的步骤。例如,试剂142可以与标记的多肽的末端氨基酸相互作用。在一些实施例中,测序包括在多肽140与试剂142接触后去除末端氨基酸的步骤。在一些实施例中,试剂142可以在接触多肽140后切割末端氨基酸。试剂142与多肽142的标记的氨基酸的相互作用产生可以由蛋白质测序装置检测到的一种或多种光发射(例如,脉冲)。
上述产生光发射的过程在图2A中进一步说明。示例信号轨迹(I)与一系列面板(II)一起显示,这些面板示出了对应于信号变化的时间处的不同结合事件。如图所示,亲和试剂(点状形状)与多肽末端的氨基酸(显示为成串的珠子)之间的结合事件会产生信号轨迹幅度的变化,该信号轨迹接收到的激发光的测量值,此变化持续一段时间。
如上所述,用发光标签标记的亲和试剂可以响应于施加到亲和试剂的激发光而发射光。当亲和试剂与氨基酸结合时,该光可在氨基酸附近发射。如果随后亲和试剂不再与氨基酸结合,而其发光标签仍响应激发光而发射光,则该光可能从不同的空间位置发出,因此不能像结合期间发射的光那样被测量为具有相同强度(或可能根本不会被测量)。因此,通过测量从氨基酸发射的光,可以在信号轨迹内识别结合事件。
例如,如图2A的面板(A)和(B)所示,亲和试剂与暴露在多肽末端的第一氨基酸(例如,第一末端氨基酸)之间的两种不同的结合事件各自产生单独的光发射。每个结合事件都会产生一个光“脉冲”,该“脉冲”在信号轨迹(I)中进行测量,其特征是在结合事件期间持续存在的信号幅度变化。面板(A)和(B)的结合事件之间的持续时间可以对应于其中多肽和亲和试剂不进行可检测的结合的持续时间。
面板(C)和(D)示出了亲和试剂和暴露在多肽末端的第二氨基酸(例如,第二末端氨基酸)之间的不同结合事件。如本文所述,在多肽末端“暴露”的氨基酸是仍然附着于多肽并且在降解过程中去除先前的末端氨基酸后变成末端氨基酸的氨基酸(例如,单独地或与一种或多种其他氨基酸一起)。因此,一系列面板(II)的第一和第二氨基酸提供了在多肽末端暴露的连续氨基酸的说明性示例,其中第二氨基酸在去除第一氨基酸后变成末端氨基酸。
如一般所描绘的,面板(C)和(D)的结合事件产生不同的光脉冲,这些光脉冲在信号轨迹(I)中被测量并且其特征在于幅度变化的持续时间相对短于面板(A)和(B),并且面板(C)和(D)的结合事件之间的持续时间相对短于面板(A)和(B)。如上所述,在一些实施例中,信号的这种独特变化可用于确定信号轨迹(I)中的特征模式,这些模式可以区分不同类型的氨基酸。
在一些实施例中,从一种特征模式到另一特征模式的转变指示氨基酸切割。如本文所用,在一些实施例中,氨基酸切割是指从多肽的末端去除至少一个氨基酸(例如,从多肽去除至少一个末端氨基酸)。在一些实施例中,氨基酸切割是通过基于特征模式之间的持续时间的推断来确定的。在一些实施例中,氨基酸切割通过检测由标记的切割试剂与多肽末端的氨基酸结合产生的信号变化来确定。由于氨基酸在降解过程中从多肽的末端顺序切割,因此检测到一系列幅度变化或一系列信号脉冲。在一些实施例中,可以分析信号脉冲数据,如图2B所示。
在一些实施例中,可以分析信号轨迹以通过将阈值水平应用于信号数据的一个或多个参数来提取信号脉冲信息。例如,面板(III)示出了应用于示例信号轨迹(I)的信号数据的阈值幅度水平(“ML”)。在一些实施例中,ML是在某个时间点检测到的信号与针对给定数据集确定的基线之间的最小差异。在一些实施例中,信号脉冲(“sp”)被分配给数据的每个部分,其指示超过ML并持续一段时间的幅度变化。在一些实施例中,阈值持续时间可以应用于满足ML的数据的一部分以确定信号脉冲是否被分配给该部分。例如,实验伪影可能导致超过ML的幅度变化,该幅度变化不会持续足以为信号脉冲分配所需置信度的持续时间(例如,对于氨基酸类型无差别的瞬时结合事件、非特异性检测事件,例如进入观察区域的扩散或粘附在观察区域内的试剂)。因此,在一些实施例中,可以基于阈值幅度水平和阈值持续时间从信号轨迹中识别脉冲。
提取的信号脉冲信息在面板(III)中示出,其中示例信号轨迹(I)为说明目的而叠加在上面。在一些实施例中,信号脉冲幅度的峰值是通过对在高于ML的持续时间检测到的幅度进行平均来确定的。应当理解,在一些实施例中,本文所用的“信号脉冲”或“脉冲”可以指示持续时间高于基线的信号数据变化(例如,如示例信号轨迹(I)所示的原始信号数据),或从其中提取的信号脉冲信息(例如,处理的信号数据,如面板(IV)所示)。
面板(IV)示出了从示例信号轨迹(I)提取的脉冲信息。在一些实施例中,可以分析信号脉冲信息以基于一系列信号脉冲中的不同特征模式识别序列中不同类型的氨基酸。例如,如面板(IV)所示,信号脉冲信息指示基于第一特征模式(“CP1”)的第一类型氨基酸和基于第二特征模式(“CP2”)的第二类型氨基酸。举例来说,在较早时间点检测到的两个信号脉冲提供指示多肽末端的基于CP1的第一氨基酸的信息,并且在较晚时间点检测到的两个信号脉冲提供指示多肽末端的基于CP2的第二氨基酸的信息。
另如面板(IV)所示,每个信号脉冲包括对应于亲和试剂和特征模式的氨基酸之间的结合事件的脉冲持续时间(“pd”)。在一些实施例中,脉冲持续时间是结合解离速率的特征。另如图所示,特征模式的每个信号脉冲与特征模式的另一信号脉冲通过脉冲间持续时间(“ipd”)隔开。在一些实施例中,脉冲间持续时间是结合的结合率特征。在一些实施例中,可以基于信号脉冲的基线和峰值之间的差异来确定信号脉冲的幅度变化(“ΔM”)。在一些实施例中,基于脉冲持续时间确定特征模式。在一些实施例中,基于脉冲持续时间和脉冲间持续时间确定特征模式。在一些实施例中,基于脉冲持续时间、脉冲间持续时间和幅度变化中的任何一个或多个确定特征模式。
因此,如图2A-2B所示,在一些实施例中,多肽测序可以通过检测由发光标签标记的亲和试剂之间的结合事件产生的光发射所导致的一系列信号脉冲来执行。可以分析该信号脉冲序列以确定该信号脉冲序列中的特征模式,并且特征模式的时间进程可用于确定多肽的氨基酸序列。
在一些实施例中,蛋白质或多肽可以被消化成多个较小的多肽,并且可以从这些较小的多肽中的一个或多个获得序列信息(例如,使用涉及顺序评估多肽末端氨基酸并去除该氨基酸以暴露末端的下一氨基酸的方法)。在一些实施例中,肽测序方法可涉及以重复循环的形式对多肽末端进行末端氨基酸检测和末端氨基酸切割。
通过迭代末端氨基酸检测和切割进行多肽测序的非限制性示例在图2C中示出。在一些实施例中,多肽测序包括提供多肽250,其通过连接基团252固定到固体支持物的表面254(例如,附接到样品孔的底部或侧壁表面)。在一些实施例中,连接基团252由多肽250的功能化末端和表面254的互补功能部分之间的共价或非共价连接形成。例如,在一些实施例中,连接基团252通过多肽250的生物素部分(例如,根据本公开功能化)和表面254的抗生物素蛋白之间的非共价连接形成。在一些实施例中,连接基团252包括核酸。
在一些实施例中,多肽250通过一个末端的功能部分固定在表面254上,使得另一末端自由地在测序反应中检测和切割末端氨基酸。因此,在一些实施例中,在某些多肽测序反应中使用的试剂优先与多肽250的非固定(例如,自由)末端处的末端氨基酸相互作用。以此方式,多肽250在检测和切割的重复循环中保持固定。为此,在一些实施例中,连接基团252可以根据用于检测和切割的所需条件集进行设计,例如以限制多肽250从表面254脱离。用于功能化多肽(例如,其可用于将多肽固定到表面上)的合适连接器成分和技术在本文别处详细描述。
在一些实施例中,如图2C所示,多肽测序可以通过(1)使多肽250与一种或多种亲和试剂接触来执行,该一种或多种试剂与一种或多种类型的末端氨基酸结合。如图所示,在一些实施例中,标记的亲和试剂256通过与末端氨基酸结合而与多肽250相互作用。
在一些实施例中,该方法进一步包括通过检测标记的亲和试剂256来识别多肽250的氨基酸(末端或内部氨基酸)。在一些实施例中,检测包括检测来自标记的亲和试剂256的发光。在一些实施例中,发光唯一地与标记的亲和试剂256相关联,并且发光由此与标记的亲和试剂256选择性结合的氨基酸类型相关联。因此,在一些实施例中,通过确定标记的亲和试剂256的一种或多种发光特性来识别氨基酸的类型。
在一些实施例中,多肽测序通过以下方式进行:(2)通过使多肽250与结合并切割多肽250的末端氨基酸的外肽酶258接触来去除末端氨基酸。在外肽酶258去除末端氨基酸后,多肽测序通过以下方式进行:(3)对多肽250(具有n-1个氨基酸)进行额外的末端氨基酸识别和切割循环。在一些实施例中,步骤(1)至(3)发生在相同的反应混合物中,例如在动态肽测序反应中。在一些实施例中,步骤(1)至(3)可以使用本领域已知的其他方法进行,例如通过Edman降解进行的肽测序。
Edman降解涉及修饰和切割多肽末端氨基酸的重复循环,其中识别每个连续切割的氨基酸以确定多肽的氨基酸序列。参考图2C,通过以下方式,使用常规Edman降解进行肽测序:(1)使多肽250与选择性地结合一种或多种末端氨基酸的一种或多种亲和试剂接触。在一些实施例中,步骤(1)进一步包括去除不选择性地结合多肽250的一种或多种标记的亲和试剂中的任一种。在一些实施例中,步骤(2)包括通过使末端氨基酸与异硫氰酸酯(例如PITC)接触以形成异硫氰酸酯修饰的末端氨基酸来修饰多肽250的末端氨基酸(例如,自由末端氨基酸)。在一些实施例中,异硫氰酸酯修饰的末端氨基酸比未修饰的末端氨基酸更容易被切割试剂(例如,化学或酶切割试剂)去除。
在一些实施例中,Edman降解通过以下方式进行,(2)通过使多肽250与特异性地结合和切割异硫氰酸酯修饰的末端氨基酸的外肽酶258接触来去除末端氨基酸。在一些实施例中,外肽酶258包含修饰的半胱氨酸蛋白酶。在一些实施例中,外肽酶258包含修饰的半胱氨酸蛋白酶,例如来自克氏锥虫的半胱氨酸蛋白酶(请参见例如Borgo等人发表于(2015年)Protein Science24:571-579)。在其他实施例中,步骤(2)包括通过使多肽250经受足以切割异硫氰酸酯修饰的末端氨基酸的化学(例如酸性、碱性)条件来去除末端氨基酸。在一些实施例中,Edman降解通过以下方式进行:(3)在末端氨基酸切割后洗涤多肽250。在一些实施例中,洗涤包括去除外肽酶258。在一些实施例中,洗涤包括将多肽250恢复至中性pH条件(例如,在酸性或碱性条件下进行化学切割之后)。在一些实施例中,通过Edman降解进行的测序包括多次循环地重复步骤(1)至(3)。
在一些实施例中,肽测序可以在动态肽测序反应中进行。在一些实施例中,再次参考图2C,将进行步骤(1)和步骤(2)所需的试剂组合在单一反应混合物中。例如,在一些实施例中,步骤(1)和(2)可以在没有将一种反应混合物更换为另一种并且在没有常规Edman降解中的洗涤步骤的情况下发生。因此,在这些实施例中,单一反应混合物包括标记的亲和试剂256和外肽酶258。在一些实施例中,外肽酶258以低于标记的亲和试剂256的浓度存在于混合物中。在一些实施例中,外肽酶258以小于标记的亲和试剂256的结合亲和力与多肽250结合。
图2D示出了使用一组标记的外肽酶200进行多肽测序的示例,其中每个标记的外肽酶选择性地结合和切割不同类型的末端氨基酸。
如图2D的示例所示,标记的外肽酶200包括包含第一发光标签的赖氨酸特异性外肽酶、包含第二发光标签的甘氨酸特异性外肽酶、包含第三发光标签的天冬氨酸特异性外肽酶,和包含第四发光标签的亮氨酸特异性外肽酶。在一些实施例中,每个标记的外肽酶200仅在其各自的氨基酸位于多肽的氨基端或羧基端时选择性地结合和切割该氨基酸。因此,随着这种方法的测序从肽的一个末端向另一末端进行,标记的外肽酶200被设计或选择为使得该组的所有试剂具有氨肽酶或羧肽酶活性。
如图2D进一步所示,过程201示意性地示出了使用标记的外肽酶200的实时测序反应。面板(I)至(IX)示出了与下面所示的对应于每个面板中描述的事件的信号轨迹有关的,涉及多肽末端的迭代检测和切割的事件的进展。为了说明的目的,显示的多肽具有任意选择的氨基酸序列“KLDG…”(从一个末端向另一末端进行)。
面板(I)示出了测序反应的开始,其中多肽被固定到固体支持物的表面,例如样品孔的底部或侧壁表面。在一些实施例中,根据本申请的测序方法包括实时单分子测序。在一些实施例中,多个单分子测序反应在样品孔阵列中同时进行。在这样的实施例中,多肽固定通过将多肽锚定在样品孔内以防止多肽扩散出样品孔来进行单分子分析。
面板(II)示出了检测事件,其中来自标记的亲和试剂组200的赖氨酸特异性外肽酶选择性地结合多肽的末端赖氨酸残基。如面板(I)和(II)下方的信号轨迹所示,信号通过显示信号强度的增加(这可以被传感器(例如光电探测器)检测到)来指示此结合事件。图(III)示出了在选择性地结合末端氨基酸后,标记的肽酶切割末端氨基酸。因此,这些成分可以自由地扩散离开观察区域以进行发光检测,这在信号输出中通过信号强度的下降来报告,如面板(III)下方的轨迹所示。面板(IV)至(IX)类似于面板(I)至(III)所述的过程进行。也就是说,标记的外肽酶结合并切割相应的末端氨基酸以在信号输出中分别产生相应的增加和减少。
图2A-2D的示例包括末端氨基酸、内部氨基酸和修饰氨基酸的识别。可以理解,信号轨迹可以允许识别这些类型的氨基酸的任何组合以及单独的每种类型。例如,末端氨基酸和随后的内部氨基酸可以同时与一种或多种亲和试剂相互作用并产生指示该对氨基酸的光。
在一些方面,本申请通过评估末端氨基酸与亲和试剂以及标记的非特异性外肽酶的结合相互作用提供了实时多肽测序的方法。在一些实施例中,亲和试剂可以被标记(例如,用发光标签)。在一些实施例中,亲和试剂可以不被标记。本文描述了示例亲和试剂。图3示出了一个测序方法的示例,其中离散结合事件产生信号轨迹300的信号脉冲。图3示出了通过这种方法进行的实时测序的一般方案。如图所示,标记的亲和试剂310选择性地结合末端氨基酸(此处显示为赖氨酸)以及与其解离,这在信号轨迹300中产生一系列脉冲,这些脉冲可以被传感器检测到。在一些实施例中,可以对试剂进行工程改造以具有目标结合特性。例如,可以对试剂进行工程改造以实现脉冲持续时间、脉冲间持续时间、发光强度和/或发光寿命的目标值。
本文所述的脉冲数量、脉冲持续时间值和/或脉冲间持续时间值出于说明性目的。一些实施例不限于本文描述的特定数量的脉冲、脉冲持续时间值和/或脉冲间持续时间值。此外,本文所述的氨基酸用于说明目的。一些实施例不限于任何特定的氨基酸。
如插图面板所示,测序反应混合物进一步包括标记的非特异性外肽酶320,外肽酶320包括不同于标记的亲和试剂310的发光标签。在一些实施例中,混合物中存在的标记的非特异性外肽酶320的浓度低于标记的亲和试剂310。在一些实施例中,标记的非特异性外肽酶320表现出广泛的特异性,这样便可切割大多数或所有类型的末端氨基酸。
如信号轨迹300的进程所示,在一些实施例中,被标记的非特异性外肽酶320切割的末端氨基酸导致信号脉冲,并且这些事件的发生频率低于标记的亲和试剂310的结合脉冲。如信号轨迹300中进一步所示,在一些实施例中,可以使用多种标记的亲和试剂,每种试剂都具有诊断脉冲模式,其可以用于识别相应的末端氨基酸。
图4示出了测序的示例技术,其中针对图3中的方法描述和说明的方法使用标记的亲和试剂410来修饰,亲和试剂410在末端和内部位置选择性地结合和解离一种类型的氨基酸(这里显示为赖氨酸)(图4,插图面板)。如先前方法中所述,选择性结合在信号轨迹400中产生一系列脉冲。然而,在该方法中,该系列脉冲以可以由贯穿始终多肽的氨基酸类型的数量确定的速率发生。因此,在一些实施例中,对应于结合事件的脉冲速率将诊断当前存在于多肽中的同源氨基酸的数量。
与之前的方法一样,标记的非特异性肽酶420以相对低于标记的亲和试剂410的浓度存在,例如,以在切割事件之间提供最佳时间窗(图4,插图面板)。在一些实施例中,标记的非特异性肽酶420的唯一可识别的发光标签可以指示切割事件何时发生。随着多肽经历反复切割,每当末端氨基酸被标记的非特异性肽酶420切割时,对应于标记的亲和试剂410的结合的脉冲速率将逐步下降。此概念由图401说明,该图通常将脉搏率描述为时间的函数,用箭头表示时间方面的切割事件。因此,在一些实施例中,可以在这种方法中基于脉冲模式和/或基于在切割事件之间检测到的模式内发生的脉冲速率识别氨基酸并由此对多肽进行测序。
用于蛋白质识别的机器学习技术
图5A示出了其中可以实现所描述的技术的一些方面的系统500。系统500包括蛋白质测序装置502、模型训练系统504和数据存储506,其中每一个都连接到网络508。
在一些实施例中,蛋白质测序装置502可以被配置为将从蛋白质多肽的测序(例如,如上文参考图1-4所描述的)中获得的数据传输到数据存储506进行存储。本文描述了可由蛋白质测序装置502收集的数据的示例。蛋白质测序装置502可以被配置为通过网络508从模型训练系统504获得机器学习模型。在一些实施例中,蛋白质测序装置502可以被配置为使用经过训练的机器学习模型来识别多肽。蛋白质测序装置502可以被配置为通过以下方式识别未知的多肽:(1)访问从多肽的氨基酸测序中收集的数据;(2)将数据作为输入提供给经过训练的机器学习模型以获得输出;以及(3)使用相应的输出来识别多肽。蛋白质测序装置502的组件在本文中参考图5B-C进行描述。
虽然图5A所示的示例性系统500示出了单个蛋白质测序装置,但是在一些实施例中,系统500可以包括多个蛋白质测序装置。
在一些实施例中,模型训练系统504可以是被配置为访问存储在数据存储506中的数据并使用所访问的数据训练用于识别多肽的机器学习模型的计算设备。在一些实施例中,模型训练系统504可以被配置为针对多个蛋白质测序装置的每一个训练单独的机器学习模型。作为示例,模型训练系统504可以:(1)使用由第一蛋白质测序装置从氨基酸测序收集的数据,针对第一蛋白质测序装置训练第一机器学习模型;(2)使用由第二蛋白质测序装置从氨基酸测序中收集的数据,针对第二蛋白质测序装置训练第二机器学习模型。用于每个装置的单独机器学习模型可以针对各个蛋白质测序装置的独特特性进行定制。在一些实施例中,模型训练系统504可以被配置为向多个蛋白质测序装置提供单个训练的机器学习模型。作为示例,模型训练系统504可以聚合从多个蛋白质测序装置执行的氨基酸测序收集的数据,并训练单个机器学习模型。单个机器学习模型可以针对多个蛋白质测序装置进行归一化,以减轻由装置变化导致的模型参数。
在一些实施例中,模型训练系统504可以被配置为周期性地更新先前训练的机器学习模型。在一些实施例中,模型训练系统504可以被配置为通过使用新的训练数据更新机器学习模型的一个或多个参数的值来更新先前训练的模型。在一些实施例中,模型训练系统504可以被配置为通过使用先前获得的训练数据和新的训练数据的组合训练新的机器学习模型来更新机器学习模型。
模型训练系统504可以被配置为响应于任何一种不同类型的事件来更新机器学习模型。例如,在一些实施例中,模型训练系统504可以被配置为响应于用户命令而更新机器学习模型。作为示例,模型训练系统504可以提供用户界面,用户可以通过该用户界面来命令训练过程的执行。在一些实施例中,模型训练系统504可以被配置为例如响应于软件命令而自动更新机器学习模型(即,不响应于用户命令)。作为另一示例,在一些实施例中,模型训练系统504可以被配置为响应于检测到一个或多个条件而更新机器学习模型。例如,模型训练系统504可以响应于检测到一段时间的到期而更新机器学习模型。作为另一示例,模型训练系统504可以响应于接收到阈值量的新训练数据而更新机器学习模型。
在一些实施例中,模型训练系统504可以被配置为通过将监督学习训练算法应用于标记的训练数据来训练机器学习模型。作为示例,模型训练系统504可以被配置为通过使用随机梯度下降来训练深度学习模型(例如,神经网络)。作为另一示例,模型训练系统504可以训练支持向量机(SVM)以通过优化成本函数来识别SVM的决策边界。在一些实施例中,模型训练系统504可以被配置为通过将无监督学习算法应用于训练数据来训练机器学习模型。作为示例,模型训练系统504可以通过执行k-means聚类来识别聚类模型的集群。在一些实施例中,模型训练系统504可以被配置为通过将半监督学习算法应用于训练数据来训练机器学习模型。作为示例,模型训练系统504可以(1)通过将无监督学习算法(例如,聚类)应用于训练数据来标记一组未标记的训练数据;(2)将监督学习算法应用于标记的训练数据。
在一些实施例中,机器学习模型可以包括深度学习模型(例如,神经网络)。作为示例,深度学习模型可以包括卷积神经网络(CNN)、递归神经网络(RNN)、多层感知器、自动编码器和/或CTC拟合神经网络模型。在一些实施例中,机器学习模型可以包括聚类模型。例如,聚类模型可以包括多个集群,每个集群与一个或多个氨基酸相关联。
在一些实施例中,机器学习模型可以包括一个或多个混合模型。模型训练系统504可以被配置为针对机器学习模型的每个组(例如,类或组)训练混合模型。例如,机器学习模型可以包括六个不同的组。模型训练系统504可以针对每个组训练高斯混合模型(GMM)。模型训练系统504可以使用涉及氨基酸与相应组结合的结合相互作用的训练数据来训练相应组的GMM。应当理解,机器学习模型的前述示例是非限制性示例,并且在其他实施例中,可以使用任何其他合适类型的机器学习模型,因为本文所述的技术的一些方面在此方面不受限制。
在一些实施例中,数据存储506可以是用于存储数据的系统。在一些实施例中,数据存储506可以包括由一台或多台计算机(例如,服务器)托管的一个或多个数据库。在一些实施例中,数据存储508可以包括一个或多个物理存储设备。作为示例,物理存储设备可以包括一个或多个固态驱动器、硬盘驱动器、闪存驱动器和/或光驱。在一些实施例中,数据存储506可以包括一个或多个存储数据的文件。作为示例,数据存储506可以包括一个或多个存储数据的文本文件。作为另一示例,数据存储506可以包括一个或多个XML文件。在一些实施例中,数据存储506可以是计算设备的存储(例如,硬盘驱动器)。在一些实施例中,数据存储506可以是云存储系统。
在一些实施例中,网络508可以是无线网络、有线网络或其任何合适的组合。作为一个示例,网络508可以是广域网(WAN),例如因特网。在一些实施例中,网络508可以是局域网(LAN)。局域网可以由蛋白质测序装置502、模型训练系统504和数据存储506之间的有线和/或无线连接形成。一些实施例不限于本文描述的任何特定类型的网络。
图5B示出了根据本文所述的技术的一些实施例的图5A所示的蛋白质测序装置502的组件。蛋白质测序装置502包括一个或多个激发源502A、一个或多个孔502B、一个或多个传感器502C,和蛋白质识别系统502D。
在一些实施例中,激发源502A被配置为将激发能量(例如,光脉冲)施加到多个不同的孔502B。在一些实施例中,激发源502A可以是一个或多个光发射器。作为示例,激发源502A可以包括一个或多个发射激光脉冲的激光发射器。作为另一示例,激发源502A可以包括一个或多个发射光脉冲的发光二极管(LED)光源。在一些实施例中,激发源502A可以是一个或多个产生辐射的装置。作为示例,激发源502A可以发射紫外(UV)射线。
在一些实施例中,激发源502A可以被配置为产生施加到孔502B的激发脉冲。在一些实施例中,激发脉冲可以是光脉冲(例如,激光)。激发源502A可以被配置为将激发脉冲引导到孔502B。在一些实施例中,激发源502A可以被配置为将激发脉冲重复地施加到相应的孔。作为示例,激发源502A可以以100MHz的频率发射激光脉冲。向发光标签施加光脉冲可以使发光标签发光。例如,发光标签可以吸收所施加的光脉冲的一个或多个光子,并且作为响应发射一个或多个光子。不同类型的发光标签(例如,发光分子)可能对激发能量的施加做出不同的响应。例如,不同类型的发光标签可以响应光脉冲释放不同数量的光子和/或响应光脉冲释放不同频率的光子。
在一些实施例中,每个孔502B可以包括被配置为容纳一个或多个标本样品(例如,蛋白质多肽的样品)的容器。在一些实施例中,一种或多种试剂与多肽的氨基酸的结合相互作用可发生在孔502B中(例如,如上文参考图1-4所述)。试剂可以用发光标签进行标记。响应于由激发源502A施加的激发能量,发光标签可以发射光。
如图5B的示例实施例所示,在一些实施例中,孔502B可以布置成孔矩阵。矩阵中的每个孔可以包括被配置为容纳一个或多个标本样品的容器。在一些实施例中,孔502B可以被放置在与图5B中所示的布置不同的布置中。作为示例,孔502B可以围绕中心轴线径向布置。一些实施例不限于孔502B的特定布置。
在一些实施例中,传感器502C可以被配置为检测来自孔502B的光发射(例如,发光标签的光发射)。在一些实施例中,传感器502C可以是一个或多个光电探测器,其被配置为将检测到的光发射转换成电信号。作为示例,传感器502C可以将光发射转换成电压或电流。电压或电流可以进一步转换成数字信号。产生的信号可用于(例如,由蛋白质识别系统502C)识别多肽。在一些实施例中,由传感器502C产生的信号可以被处理以获得光发射的各种特性的值。作为示例,可以对信号进行处理以获得光发射强度、光发射持续时间、光发射之间的持续时间和光发射寿命的值。
在一些实施例中,传感器502C可以被配置为在测量周期内测量发光标签的光发射。作为示例,传感器502C可以在10ms的测量周期内测量光子的数量。在一些实施例中,发光标签可以响应于激发而以相应的概率发射光子。例如,一个发光标签可以在每10,000次激发中发射1个光子。如果发光标签在10ms测量周期内被激发100万次,则在此示例中传感器502C可以检测到大约100个光子。不同的发光标签可以以不同概率发射光子。一些实施例不限于本文所述的任何特定的光子发射概率,因为本文所述的值是出于说明性目的。
在一些实施例中,传感器502C可以被配置为确定在施加激发脉冲(例如,一个激光脉冲)之后的时间段的多个时间间隔的每一个中检测到的光子数量(“光子计数”)。时间间隔在本文中也可以称为“间隔”、“仓”或“时间仓”。作为示例,传感器502C可以确定在施加激发脉冲之后的大约3ns的第一时间间隔中检测到的光子数量,以及在施加激发脉冲之后的大约3ns的第二时间间隔中检测到的光子数量。激光脉冲。在一些实施例中,时间间隔可以具有基本相同的持续时间。在一些实施例中,时间间隔可以具有不同的持续时间。在一些实施例中,传感器502C可以被配置为确定在施加激发脉冲之后的时间段的2、3、4、5、6或7个时间间隔中检测到的光子数量。一些实施例不限于传感器502C被配置为确定检测到的光子数量的任何数量的时间间隔。
在一些实施例中,蛋白质识别系统502D可以是被配置为基于传感器502C收集的数据识别多肽的计算设备。蛋白质识别系统502D包括由蛋白质识别系统502D用于识别多肽的机器学习模型。在一些实施例中,经过训练的机器学习模型可以从上面参考图5A描述的模型训练系统504获得。本文描述了可由蛋白质识别系统502D使用的机器学习模型的示例。在一些实施例中,蛋白质识别系统502D可以被配置为使用传感器502C收集的数据生成机器学习模型的输入以获得用于识别多肽的输出。
在一些实施例中,蛋白质识别系统502D可以被配置为处理由传感器502C收集的数据以生成作为输入提供给机器学习模型的数据(经过或未经过额外的预处理)。作为示例,蛋白质识别系统502D可以通过确定由传感器502C检测到的结合相互作用的一个或多个特性的值来生成作为输入提供给机器学习模型的数据。本文描述了结合相互作用的示例特性。在一些实施例中,蛋白质识别系统502D可以被配置为通过将数据排列成数据结构(例如,矩阵或图像)来生成作为输入提供给机器学习模型的数据。作为示例,蛋白质识别系统502D可以识别在施加一个或多个激发脉冲(例如,激光脉冲)之后的时间段的时间间隔中检测到的光子计数。蛋白质识别系统502D可以被配置为将光子计数排列成用于输入机器学习模型的数据结构。作为示例,蛋白质识别系统502D可以将激发脉冲之后的光子计数排列成矩阵的列或行。作为另一示例,蛋白质识别系统502D可以生成用于输入机器学习模型的图像,其中图像的像素指定相应的光子计数。
在一些实施例中,蛋白质识别系统502D可以被配置为确定发光标签的光发射强度(其在本文中可以称为“发光强度”)的指示。发光强度可以是发光标签响应于激发能量(例如,激光脉冲)的施加而在每单位时间发射的光子数。作为示例,如果蛋白质识别系统502D确定在施加激发脉冲之后的10ns测量时间段内检测到总共5个光子,则蛋白质识别系统502D可以确定发光强度值为0.5光子/ns。在一些实施例中,蛋白质识别系统502D可以被配置为基于在施加多个激发脉冲的每一个之后检测到的光子总数确定发光强度的指示。在一些实施例中,蛋白质识别系统502D可以将在施加多个激发脉冲之后检测到的平均光子数确定为发光强度的指示。
在一些实施例中,蛋白质识别系统502D可以被配置为确定发光标签的光发射的寿命(其本文中可以称为“发光寿命”)的指示。发光寿命可以是光子发射的概率随时间衰减的速率。作为示例,如果蛋白质识别系统502D确定在施加激发脉冲之后的时间段的两个时间间隔中检测到的光子数量,则蛋白质识别系统502D可以将第二时间间隔中的光子数量与第一时间间隔中的光子数的比率确定为光子发射随时间衰减的指示。
在一些实施例中,蛋白质识别系统502D可以被配置为确定针对试剂与氨基酸的结合相互作用检测到的一个或多个信号脉冲的每一个的持续时间的指示。信号脉冲的持续时间在本文中也可以称为“脉冲持续时间”。例如,在试剂与氨基酸的结合相互作用期间,用于标记试剂和/或氨基酸的发光标签可以发射一个或多个光脉冲。在一些实施例中,蛋白质识别系统502D可以被配置为将光脉冲的持续时间确定为脉冲持续时间值。作为示例,上面讨论的图3示出在标记的试剂310与氨基酸(K)的结合相互作用期间发射的一系列光脉冲。蛋白质识别系统502D可以被配置为将脉冲持续时间值确定为用于涉及图3所示的氨基酸(K)的结合相互作用的光脉冲的持续时间。在一些实施例中,蛋白质识别系统502D可以被配置为将脉冲持续时间值确定为由电传感器(例如,电压传感器)检测到的电脉冲的持续时间。一些实施例不限于检测脉冲持续时间的特定技术。
在一些实施例中,蛋白质识别系统502D可以被配置为确定针对试剂与氨基酸的结合相互作用检测到的连续信号脉冲之间的持续时间的指示。连续信号脉冲之间的持续时间在本文中也可以称为“脉冲间持续时间”。在每次结合相互作用期间,发光标签可以发射多个光脉冲。在一些实施例中,蛋白质识别系统502D可以被配置为将脉冲间持续时间值确定为两个连续光脉冲之间的持续时间。作为示例,蛋白质识别系统502D可以针对图3所示的试剂与氨基酸(K)的结合相互作用,将脉冲间持续时间值确定为光脉冲之间的持续时间。在一些实施例中,蛋白质识别系统502D可以被配置为将脉冲间持续时间值确定为由电传感器(例如,电压传感器)检测到的电脉冲之间的持续时间。一些实施例不限于检测脉冲持续时间的特定技术。
在一些实施例中,蛋白质识别系统502D可以被配置为确定一个或多个参数的值,这些参数是针对本文所述的结合相互作用的一个或多个特性确定的。在一些实施例中,蛋白质识别系统502D可以被配置为确定一组特性值的汇总统计数据。作为示例,系统可以确定一组脉冲持续时间值、脉冲间持续时间值、发光强度值、发光寿命值和/或波长值的平均值、中值、标准偏差和/或范围。在一些实施例中,蛋白质识别系统502D可以被配置为确定结合反应的平均脉冲持续时间值。例如,蛋白质识别系统502D可以将图3所示氨基酸(K)的结合相互作用的平均脉冲持续时间值确定为在结合相互作用期间发射的光脉冲的平均持续时间。在一些实施例中,蛋白质识别系统502D可以被配置为确定结合反应的平均脉冲间持续时间值。例如,蛋白质识别系统502D可以将图3所示氨基酸(K)的结合相互作用的平均脉冲间持续时间值确定为在结合相互作用期间发射的连续光脉冲之间的持续时间的平均值。在一些实施例中,参数可以包括试剂和/或发光标签的特性。在一些实施例中,特性可以包括使用特性值的试剂和/或发光标签的动力学常数。作为示例,系统可以使用脉冲持续时间和/或脉冲间持续时间值来确定结合亲和力(KD)、结合的结合率(kon)和/或结合的解离率(koff)。
在一些实施例中,蛋白质识别系统502D可以被配置为确定指示脉冲持续时间与脉冲间持续时间的比率、发光寿命与发光强度的比率的值、和/或可以根据特性值确定的任何其他值。
在一些实施例中,蛋白质识别系统502D可以被配置为响应于提供的输入而从经过训练的机器学习模型获得输出。蛋白质识别系统502D可以被配置为使用输出来识别多肽。在一些实施例中,对于多肽中的多个位置的每一个,输出可以指示一个或多个氨基酸存在于多肽中的位置的一种或多种可能性。作为示例,针对每个位置,输出可以指示二十种天然存在的氨基酸的每一种存在于该位置的可能性。在一些实施例中,蛋白质识别系统502D可以被配置为归一化可能性,该可能性可以是归一化的,也可以是非归一化的。在一些实施例中,归一化的可能性可以称为“概率”或“归一化可能性”。在一些实施例中,概率总和可以为1。例如,四种氨基酸存在于一个位置的可能性可以是5、5、5和5。这个示例的概率(或归一化可能性)可以是0.25、0.25、0.25和0.25。
在一些实施例中,针对多肽中的多个位置的每一个,输出可以是概率分布,指示针对每个氨基酸,该氨基酸存在于该位置的概率。输出可以指示每个氨基酸相对于其他氨基酸处于该位置的概率,或者可以指示氨基酸在多肽内的绝对位置的概率。例如,针对每个位置,输出针对二十种氨基酸的每一种指定指示该氨基酸存在于该位置的概率的值。在一些实施例中,蛋白质识别系统502D可以被配置为获得识别多肽的氨基酸序列的输出。例如,机器学习模型的输出可以是识别形成多肽一部分的氨基酸链的字母序列。
在一些实施例中,蛋白质识别系统502D可以被配置为使用从机器学习模型获得的输出来识别多肽。在一些实施例中,蛋白质识别系统502D可以被配置为将从机器学习模型获得的输出与蛋白质数据库中的蛋白质进行匹配。在一些实施例中,蛋白质识别系统502D可以访问指定相应蛋白质的已知氨基酸序列的数据存储。蛋白质识别系统502D可以被配置为通过识别数据存储中与机器学习模型的输出最匹配的氨基酸序列,将机器学习模型的输出与蛋白质进行匹配。例如,当输出指示各种氨基酸存在于多肽中的位置的可能性时,系统可以从数据存储中的序列中识别与输出最匹配的氨基酸序列。蛋白质识别系统502D可以将由所识别的氨基酸序列指定的相应蛋白质识别为该蛋白质。
在一些实施例中,蛋白质识别系统502D可以被配置为基于从机器学习系统获得的输出生成隐马尔可夫模型(HMM),并将HMM与已知的氨基酸序列进行匹配。蛋白质识别系统502D可以将蛋白质识别为与HMM匹配的氨基酸序列的关联蛋白质。作为另一示例,机器学习系统的输出可以识别氨基酸序列。蛋白质识别系统502D可以从数据存储中选择与机器学习系统的输出识别的氨基酸序列最接近匹配的氨基酸序列。蛋白质识别系统502D可以通过确定哪个已知氨基酸序列与由机器学习系统的输出识别的氨基酸序列具有最小差异来确定最接近的匹配。蛋白质识别系统502D可以将蛋白质识别为从数据存储中选择的氨基酸序列的关联蛋白质。
在一些实施例中,蛋白质识别系统502D可以被配置为校准蛋白质测序装置502。在一些实施例中,蛋白质识别系统502D可以被配置为通过训练机器学习模型来校准蛋白质测序装置502。蛋白质识别系统502D可以被配置为使用参考模型训练系统504描述的一种或多种方法来训练机器学习模型。
在一些实施例中,蛋白质识别系统502D可以被配置为通过使用与一种或多种已知的多肽(例如,已知氨基酸序列为其部分或全部)相关联的数据训练机器学习模型来校准蛋白质测序装置502。通过使用与已知的多肽序列相关联的数据进行训练,蛋白质识别系统502D可以获得机器学习模型,该模型提供更准确地区分不同氨基酸和/或蛋白质的输出。在一些实施例中,蛋白质识别系统502D可以被配置为使用在试剂与多肽(已知氨基酸序列为其部分或全部)的氨基酸的结合相互作用期间从所检测到的发光标签的光发射获得的数据。在一些实施例中,蛋白质识别系统502D可以被配置为将训练算法应用于数据以识别可由机器学习模型用于生成输出的一个或多个组(例如,类和/或集群)。
在一些实施例中,机器学习模型可以包括聚类模型,并且蛋白质识别系统502D可以被配置为通过应用无监督学习算法(例如,k-means)以识别聚类模型的集群来校准蛋白质测序装置502。然后机器学习模型可以使用所识别的集群来生成用于识别未知多肽的输出。例如,蛋白质识别系统502D可以识别集群的质心,机器学习模型可以使用该质心来生成输入机器学习模型的数据的输出。作为另一示例,蛋白质识别系统502D可以识别不同氨基酸组之间的边界(例如,基于脉冲持续时间、脉冲间持续时间、波长、发光强度、发光寿命和/或从这些和/或其他特性衍生的任何其他值)。然后机器学习模型可以使用数据点相对于边界的位置来生成机器学习模型的相应输入的输出。
在一些实施例中,蛋白质识别系统502D可以被配置为针对每个孔502B校准蛋白质测序装置502。蛋白质识别系统502D可以被配置为针对每个单独的孔,使用针对已经在单独的孔中发生的结合相互作用而获得的数据来训练相应的机器学习模型。这将提供一种根据各个孔502B微调的蛋白质测序装置502。在一些实施例中,蛋白质识别系统502D可以被配置为针对多个孔校准蛋白质测序装置502。蛋白质识别系统502D可以被配置为使用所获得已经发生在测序装置的多个孔中的结合相互作用的数据来训练机器学习模型。在一些实施例中,蛋白质识别系统502D可以被配置为获得可用于多个孔的通用模型。通用模型可以平均或平滑从单个孔获得的数据中的特性,并且跨多个孔具有良好表现,而针对特定孔定制的模型在从特定孔获得的未来数据上表现得更好,但可能不会在来自多个不同孔的未来数据上表现更好。
在一些实施例中,蛋白质识别系统502D可以被配置为通过使用从单个孔获得的数据,使针对多个孔创建的通用模型适应特定的单个孔。作为示例,蛋白质识别系统502D可以基于所获得的孔中的结合相互作用的数据,针对相应孔修改通用模型的集群质心。
针对多个孔校准单个模型的优势在于,对来自每个单个孔的数据需求更少,因此,收集用于校准的数据的运行时间少于用于针对每个单个孔训练单个模型所需的运行时间。使用通用模型的另一优点是,存储单个模型所需的内存小于针对蛋白质测序装置502的每个孔存储单独的模型所需的内存。
可以在任何合适的时间执行校准。例如,需要在首次使用蛋白质测序装置502之前、在使用一组新标记时、在使用蛋白质测序装置502的环境条件改变时、或在使用一段时间后执行校准,以便解决蛋白质测序装置502的部件老化的问题。校准也可以响应于用户的请求(例如通过按下仪器上的按钮或从另一装置向仪器发送校准命令)来执行,或响应于软件命令而基于调度或根据需要自动执行。
图5C说明了蛋白质测序装置502的孔502B部分的示例孔。在图5C的图示示例中,孔容纳正在测序的蛋白质的样本502F,以及与样本502F的氨基酸结合的试剂502G。
在一些实施例中,蛋白质的样本502F可以包括蛋白质的一种或多种多肽。可以将多肽固定在孔的表面,如图5C所示。在一些实施例中,可基于一种或多种试剂502G与样本502F的末端氨基酸的连续结合和切割相互作用由传感器收集样本502F数据。在一些实施例中,试剂502G可以基本上同时与样本502F的氨基酸结合。在一些实施例中,可以设计多种类型的试剂以与所有或部分氨基酸结合。与氨基酸结合的一种或多种试剂的组合可导致检测到的结合相互作用的特性值(例如,发光强度、发光寿命、脉冲持续时间、脉冲间持续时间、波长和/或由此衍生的任何值)可用于识别多肽。在一些实施例中,试剂(例如分子)的组合中的每一个可以具有不同的特性。例如,每种试剂可以具有不同的结合亲和力(KD)、结合率(kon)和/或结合离解率(koff)。作为另一个例子,与试剂和/或氨基酸相关的发光标记可以具有不同的荧光特性。本文参考图1-4描述了试剂的示例和试剂与氨基酸的结合相互作用。
在一些实施例中,试剂502G可以用发光标记来标记。如上文参考图1-4所述,可以将试剂设计成选择性地结合一个或多个氨基酸。在一些实施例中,多肽502F的一个或多个氨基酸可以用发光标记物进行标记。例如,一种或多种类型的氨基酸可以用发光标记进行标记。当一种或多种试剂502G和多肽502F的氨基酸之间发生结合相互作用时,激发源502A可以向孔施加激发能量(例如光脉冲)。激发能量的应用可导致试剂502G和/或氨基酸被标记的发光标记的光发射。光发射可以由传感器502C检测以生成数据。然后该数据可用于识别如本文所述的多肽。
尽管图5A-C的示例性实施例描述了使用从检测发光标记的光发射获得的结合相互作用数据,但一些实施例可以使用其他技术获得结合相互作用数据。在一些实施例中,蛋白质测序装置可被配置为访问结合相互作用数据,该数据通过检测结合相互作用检测到的电信号获得。例如,蛋白质测序装置可以包括检测对结合相互作用敏感的电压信号的电信号。蛋白质识别系统502D可以被配置为使用电压信号来确定脉冲持续时间值和/或脉冲间持续时间值。一些实施例不限于检测试剂与氨基酸的结合相互作用的特定技术。
图6A图示了根据本文所述技术的一些实施例的用于训练机器学习模型以识别多肽的示例过程600。过程600可以由任何合适的计算装置执行。作为示例,过程600可以由参考图5A描述的模型训练系统504来执行。可以执行过程600以训练本文描述的机器学习模型。作为示例,可以执行过程600以训练如参考图10A-C所描述的集群模型和/或高斯混合模型(GMM)。作为另一示例,可以执行过程600以训练参考图11描述的卷积神经网络(CNN)1100。作为另一示例,可以执行过程600以训练参照图12描述的联结时序分类(CTC)拟合神经网络模型1200。
在一些实施例中,机器学习模型可以是集群模型。在一些实施例中,模型的每个集群可以与一个或多个氨基酸相关。作为说明性示例,集群模型可以包括5个集群,其中每个集群与相应的一组氨基酸相关联。例如,第一集群可以与丙氨酸、异亮氨酸、亮氨酸、蛋氨酸和缬氨酸相关联;第二集群可以与天冬酰胺、半胱氨酸、谷氨酰胺、丝氨酸和苏氨酸相关联;第三集群可以与精氨酸、组氨酸和赖氨酸相关联;第四集群可以与天冬氨酸和谷氨酸相关联;第五集群可以与苯丙氨酸、色氨酸和酪氨酸相关联。为了说明的目的,本文描述了集群和相关联氨基酸的示例数量。一些实施例不限于任何特定数量的集群或与本文描述的特定氨基酸组的关联。
在一些实施例中,机器学习模型可以是深度学习模型。在一些实施例中,深度学习模型可以是神经网络。作为示例,机器学习模型可以是卷积神经网络(CNN),其针对作为输入提供给CNN的一组数据生成识别多肽的一个或多个氨基酸的输出。作为另一个示例,机器学习模型可以是适合CTC的神经网络。在一些实施例中,可以单独训练深度学习模型的部分。例如,深度学习模型可以具有将输入数据编码为一个或多个特征值的第一部分,以及接收特征值作为输入以生成识别多肽的一个或多个氨基酸的输出。
在一些实施例中,机器学习模型可以包括多个组(例如,类或集群),并且机器学习模型可以包括针对每个组的单独模型。在一些实施例中,每个组的模型可以是混合模型。例如,该模型可以包括用于每个组的高斯混合模型(GMM),用于确定与该组相关的氨基酸存在于多肽中的某个位置的可能性。各组的GMM的每个组成分布可以代表与各个组相关的氨基酸。作为示例,上述示例中描述的第一集群的GMM可以包括五种组成分布:丙氨酸的第一分布、异亮氨酸的第二分布、亮氨酸的第三分布、蛋氨酸的第四分布和苏氨酸的第五分布。
过程600开始于方框602,其中执行过程600的系统访问在试剂与多肽的氨基酸结合相互作用期间从发光标记的光发射获得的训练数据。在一些实施例中,数据可由一个或多个传感器(例如参照图5B描述的传感器502C)收集,用于试剂与蛋白质测序装置(例如装置502)的一个或多个孔中的氨基酸的结合相互作用。在一些实施例中,可以响应于一个或多个光脉冲(例如,激光脉冲)发射光发射。
在一些实施例中,系统可以被配置为通过从传感器收集的数据确定结合相互作用的一个或多个特性的值来访问训练数据。本文描述了结合相互作用的特性的示例。在一些实施例中,系统可以被配置为将结合相互作用的一个或多个特性作为机器学习模型的输入特征。在一些实施例中,系统可以被配置为通过访问在每个光脉冲之后的时间段的多个时间间隔中检测到的光子数量来访问训练数据。在一些实施例中,系统可以被配置为以一种或多种数据结构(例如,矩阵或图像)排列数据,本文描述了其说明性示例。
接下来,过程600进行到方框604,其中系统使用在方框602访问的训练数据来训练机器学习模型。
在一些实施例中,在方框602访问的数据可以是未标记的,并且系统可以被配置为将无监督训练算法应用于训练数据以训练机器学习模型。在一些实施例中,机器学习模型可以是集群模型并且系统可以被配置为通过将无监督学习算法应用于训练数据来识别集群模型的集群。每个集群可以与一个或多个氨基酸相关联。例如,系统可以执行k-means集群,以使用在方框602处访问的训练数据识别集群(例如,集群质心)。
在一些实施例中,系统可以被配置为执行监督训练。系统可以被配置为使用指定与在方框602访问的数据相关联的一种或多种预定氨基酸的信息来训练模型。在一些实施例中,系统可以被配置为通过以下方式训练机器学习模型:(1)提供在方框602访问的数据作为机器学习模型的输入以获得识别一个或多个氨基酸的输出;(2)基于输出识别的氨基酸与预定氨基酸之间的差异训练机器学习模型。作为示例,系统可以被配置为基于所确定的差异来更新机器学习模型的一个或多个参数。在一些实施例中,指定一个或多个氨基酸的信息可以是在方框602获得的数据的标签。在一些实施例中,可以将在方框602处获得的数据的一部分作为输入提供给机器学习模型,并且可以将对应于该数据部分的机器学习模型的输出与该数据部分的标签进行比较。继而,可以基于机器学习模型的输出与作为输入提供给机器学习模型的数据部分的标签之间的差异来更新机器学习模型的一个或多个参数。该差异可以衡量机器学习模型在配置了当前参数集时在再现标签方面的表现。作为示例,机器学习模型的参数可以使用随机梯度下降和/或适用于训练神经网络的任何其他迭代优化技术来更新。
在一些实施例中,系统可以被配置为将半监督学习算法应用于训练数据。模型训练系统504可以(1)通过将无监督学习算法(例如,集群)应用于训练数据来标记一组未标记的训练数据;(2)将监督学习算法应用于标记的训练数据。作为示例,系统可以将k-means集群应用于在方框602访问的训练数据以对数据进行集群。然后,系统可以使用基于集群成员的分类来标记数据集。然后系统可以通过对标记数据应用随机梯度下降算法和/或任何其他迭代优化技术来训练机器学习模型。
在一些实施例中,机器学习模型可以将数据输入分类为多个组(例如,类别或集群),其中每个组与一个或多个氨基酸相关联。在一些实施例中,系统可以被配置为为每个组训练模型。在一些实施例中,系统可以被配置为训练每个组的混合模型。该系统可以被配置为通过使用针对涉及与相应组相关联的氨基酸的结合相互作用而获得的训练数据来训练相应组的混合模型。作为示例,系统可以为相应组训练高斯混合模型(GMM),例如,通过使用期望最小化或任何其他合适的最大似然或近似最大似然算法,基于针对涉及与各相关联的氨基酸的结合相互作用而获得的训练数据来识别GMM组成分布的参数。
在方框604训练机器学习模型之后,过程600进行到方框606,系统存储训练的机器学习模型。该系统可以存储机器学习模型的一个或多个训练参数的值。作为示例,机器学习模型可以包括具有一个或多个质心的集群模型。系统可以存储质心的标识(例如坐标)。作为另一个示例,机器学习模型可以包括机器学习模型组的混合模型(例如,GMM)。该系统可以存储定义组件模型的参数。作为另一示例,机器学习模型可以包括一个或多个神经网络。该系统可以存储神经网络的训练权重值。在一些实施例中,系统可以被配置为存储训练的机器学习模型,用于根据本文描述的技术识别多肽。
在一些实施例中,系统可以被配置为获得新数据以使用新的训练数据来更新机器学习模型。在一些实施例中,系统可以被配置为通过使用新的训练数据训练新的机器学习模型来更新机器学习模型。例如,系统可以使用新的训练数据来训练新的机器学习模型。在一些实施例中,系统可以被配置为通过使用新的训练数据重新训练机器学习模型以更新机器学习模型的一个或多个参数来更新机器学习模型。作为示例,模型生成的输出和对应的输入数据可以与先前获得的训练数据一起用作训练数据。在一些实施例中,系统可以被配置为使用识别氨基酸的数据和输出(例如,从执行下面参考图6B描述的过程610获得的)迭代地更新训练的机器学习模型。作为示例,系统可以被配置为向第一训练的机器学习模型(例如,教师模型)提供输入数据,并获得识别一个或多个氨基酸的输出。然后系统可以使用输入数据和相应的输出重新训练机器学习模型以获得第二个训练的机器学习模型(例如,学生模型)。
在一些实施例中,系统可以被配置为针对蛋白质测序装置(例如,蛋白质测序装置502)的每个孔训练单独的机器学习模型。可以使用从孔中获得的数据为各个孔训练机器学习模型。机器学习模型可以针对孔的特性进行调整。在一些实施例中,系统可以被配置为训练通用机器学习模型,该模型将用于识别测序仪的多个孔中的氨基酸。可以使用从多个孔聚合的数据来训练广义机器学习模型。
图6B图示了根据本文所述技术的一些实施例的用于使用从过程600获得的训练机器学习模型来识别多肽的示例过程610。过程610可以由任何合适的计算装置执行。作为示例,过程610可以由以上参照图5B描述的蛋白质识别系统502D来执行。
过程610开始于方框612,其中系统访问从试剂与多肽的氨基酸结合相互作用的发光标签的光发射中获得的数据。在一些实施例中,数据可以从由一个或多个传感器(例如,光电检测器)在蛋白质测序装置(例如,装置502)执行的氨基酸测序期间收集的数据获得。作为示例,系统可以处理由传感器收集的数据以生成数据。
在一些实施例中,数据可以包括由传感器收集的数据确定的结合相互作用的一个或多个特性的值和由此确定的值。本文描述了由其确定的特性和参数的示例。在一些实施例中,光发射可以响应于一系列光脉冲。数据可以包括在光脉冲之后的一个或多个时间段的时间间隔中检测到的光子数量。作为示例,数据可以是下面参考图9A描述的数据900。在一些实施例中,系统可以被配置为将数据排列到下面参照图9B描述的数据结构910中。
在一些实施例中,方框612可以包括对诸如信号轨迹的访问数据执行一个或多个信号处理操作。信号处理操作可以例如包括一个或多个滤波和/或二次采样操作,其可以去除数据中由于噪声而观察到的脉冲。
接下来,过程600进行到方框614,其中系统提供在方框606访问的数据作为对训练的机器学习模型的输入。在一些实施例中,系统可以配置为提供数据作为输入,并获得识别多肽的氨基酸的输出。例如,系统可以将在方框612获得的数据作为输入提供给CTC拟合神经网络模型,并获得识别多肽的氨基酸序列的输出(例如,字母序列)。在一些实施例中,系统可以被配置为将数据划分为多个部分,并且将每个部分的数据作为单独的输入提供给训练的机器学习模型以获得相应的输出(例如,如下文参考图7所述)。例如,该系统可以识别与试剂与多肽的氨基酸的相应结合相互作用相关的数据部分。
接下来,过程600进行到方框616,其中系统从机器学习模型获得输出。在一些实施例中,该系统可以被配置为获得输出,该输出指示对于多肽中的多个位置中的每一个,一个或多个相应氨基酸存在于多肽中的位置处的一种或多种可能性。作为示例,对于每个位置,输出可以指示二十个氨基酸中的每一个都存在于该位置的可能性。下面参考图8描述从机器学习系统获得的输出的示例描述。
在一些实施例中,系统可以被配置为获得提供给机器学习模型的数据的多个部分中的每一个的输出。数据的相应部分的输出可以指示多肽中特定位置处的氨基酸。在一些实施例中,输出可以指示一个或多个相应氨基酸存在于与数据部分相关联的多肽中的位置的可能性。作为示例,对应于作为输入提供给机器学习模型的数据的一部分的输出可以是概率分布,其针对多个氨基酸中的每一个指定氨基酸存在于多肽中的相应位置处的概率。
在一些实施例中,系统可以被配置为识别存在于与数据部分相关联的多肽中的位置处的氨基酸。例如,系统可以基于提供给机器学习模型的数据的输出来确定指定氨基酸的分类。在一些实施例中,系统可以被配置为基于各个氨基酸存在于多肽中的位置的可能性来识别氨基酸。例如,该系统可以将氨基酸识别为在多肽中的位置处最有可能存在的相应氨基酸之一。在一些实施例中,系统可以被配置为基于结合相互作用的一个或多个特性的值和/或其他参数来识别氨基酸,而不使用机器学习模型。例如,系统可以确定该部分数据的脉冲持续时间和/或脉冲间持续时间与选择性结合特定类型蛋白质的试剂相关联,并将该位置存在的氨基酸识别为该类型的氨基酸。
在一些实施例中,系统可以被配置为获得识别多肽的氨基酸的单一输出。例如,系统可以接收识别多肽的氨基酸的字母序列。作为另一个示例,系统可以接收多肽中多个位置中的每个位置的一系列值。系列中的每个值可以指示相应氨基酸存在于多肽中相应位置的可能性。
在一些实施例中,系统可以被配置为对从机器学习模型获得的输出进行归一化。在一些实施例中,系统可以被配置为接收来自机器学习模型的一系列值,其中每个值指示相应氨基酸存在于多肽中相应位置的可能性。系统可以被配置为归一化一系列值。在一些实施例中,系统可以被配置为通过应用softmax函数来归一化一系列值,以获得总和为1的一组概率值。例如,系统可以从神经网络接收一系列输出值,并将softmax函数应用于这些值以获得一组总和为1的概率值。在一些实施例中,系统可以被配置为接收来自多个模型(例如,GMM)的输出,其中每个模型与相应的一组氨基酸相关联。每个模型的输出可以是指示与模型相关联的一组氨基酸中的每一个氨基酸存在于多肽中的位置处的可能性的值。该系统可以被配置为对从所有多个模型接收到的值进行归一化以获得输出。例如,该系统可以(1)从第一GMM接收第一组氨基酸的第一组概率值,以及从第二GMM接收第二组氨基酸的概率值;(2)将softmax函数应用于联合的第一组和第二组概率值以获得归一化输出。在该示例中,对于第一组氨基酸和第二组氨基酸中的每个氨基酸,归一化输出可以指示该氨基酸存在于多肽中的某个位置的概率,其中概率值总和为1。
在方框616处从经过训练的机器学习模型获得输出之后,过程610进行到方框618,其中系统使用从机器学习模型获得的输出来识别多肽。在一些实施例中,系统可以被配置为将在方框616获得的输出与存储在数据存储器(例如,可由蛋白质测序设备502访问)中已知的一组氨基酸序列和相关蛋白质中的一个进行匹配。该系统可以将多肽识别为与输出匹配的氨基酸序列相关联的蛋白质的一部分。例如,数据存储器可以是来自人类基因组的氨基酸序列数据库(例如,UniProt和/或HPP数据库)。
在一些实施例中,系统可以被配置为通过以下方式将输出与氨基酸序列匹配:(1)基于输出生成隐马尔可夫模型(HMM);(2)使用HMM从多个氨基酸序列中识别出与数据最接近的氨基酸序列。在一些实施例中,对于多肽中的多个位置中的每一个,输出可以指示相应氨基酸存在于该位置的可能性。下面参考图8描述来自机器学习模型的输出的示例描述。该系统可以被配置为使用输出来确定HMM的参数值。例如,HMM的每个状态可以代表多肽中的一个位置。HMM可以包括氨基酸在不同位置的概率。在一些实施例中,HMM可以包括插入率和删除率。在一些实施例中,插入率和删除率可以是HMM中的预配置值。在一些实施例中,系统可以被配置为基于在方框616从机器学习模型获得的输出来确定插入率和删除率的值。在一些实施例中,系统可以配置为基于一个或多个先前多肽识别过程的结果来确定插入率和删除率。例如,系统可以基于一个或多个先前的多肽识别和/或从执行过程610获得的机器学习模型的输出来确定例如,系统可以基于一个或多个先前的多肽识别和/或从执行过程610获得的机器学习模型的输出来确定插入率和删除率。
在一些实施例中,系统可以被配置为使用从机器学习模型获得的输出来识别多肽,方法是(1)基于从机器学习模型获得的输出确定氨基酸序列;(2)基于氨基酸序列识别多肽。确定的氨基酸序列可以是多肽的一部分(例如肽)。在一些实施例中,对于多肽中的多个位置中的每一个,输出可以指示相应氨基酸存在于该位置的可能性。系统可以被配置为通过以下方式确定氨基酸序列:(1)对于每个位置,识别在该位置存在的可能性最大的相应氨基酸之一;(2)确定氨基酸的序列为该位置所识别的氨基酸集合。例如,系统可以确定,在可能的二十个氨基酸中,丙氨酸(A)在多肽的第一个位置存在的可能性最大,谷氨酸(E)在多肽的第二个位置存在的可能性最大,而天冬氨酸(D)在第三个位置存在的可能性最大。在该示例中,系统可以确定氨基酸序列的至少一部分是丙氨酸(A)、谷氨酸(E)和天冬氨酸(D)。在一些实施例中,系统可以被配置为基于确定的氨基酸序列,通过将氨基酸序列与来自一组指定蛋白质的氨基酸序列中的一个进行匹配来识别多肽。例如,系统可以将确定的氨基酸序列与来自Uniprot和/或HPP数据库的序列进行匹配,并将多肽识别为与匹配序列相关联的蛋白质的一部分。
在一些实施例中,系统可以通过将确定的氨基酸序列与预先选择的组匹配,使用在方框618中从机器学习模型获得的输出来识别多肽。与系统将确定的氨基酸序列与来自已知多肽数据库的序列相匹配的方法相比,在某些情况下,系统可将序列与预选组匹配,该预选组可以例如是此类数据库的子集。例如,多肽可以是具有已知临床意义的一组多肽中的一个,因此将确定的氨基酸序列与一组多肽中的一个进行匹配可能更准确和/或更有效,而不是搜索整个包含所有可能的多肽的数据库。在一些实施例中,输入到机器学习模型的数据可以通过测量与已知是预选多肽组之一的多肽相互作用的亲和试剂的光发射来生成。即,生成数据的实验过程可以确保用于生成数据的多肽是机器学习模型考虑匹配的一组多肽之一。
在一些实施例中,系统可以使用在方框618中从机器学习模型获得的输出来产生多个多肽的相对概率的列表。与如上所述识别特定多肽不同,可能优选产生若干多肽的列表以及每种多肽正确匹配的概率。在一些实施例中,可以基于这种概率,例如特定蛋白质存在于样本中的置信度分数,和/或特定蛋白质至少包含样本的一些阈值部分,生成与数据的各个方面有关的置信度分数。
在一些实施例中,系统可以使用从方框618中的机器学习模型获得的输出来识别多肽的变体。特别地,在某些情况下,系统可以确定最可能的序列是参考序列的变体(例如,数据库中的序列)。此类变体可包括多肽的天然存在或天然变体,和/或其中氨基酸已被修饰(例如,磷酸化)的多肽。因此,在方框618中,除了考虑参考序列本身之外,还可以考虑多个参考序列的变体以匹配来自机器学习模型的输出。
图7图示了根据本文描述的技术的一些实施例的用于向机器学习模型提供输入的示例过程700。过程700可以由任何合适的计算装置执行。作为示例,过程700可以由以上参照图5B描述的蛋白质识别系统502D来执行。过程700可以作为上面参考图6B描述的过程610的方框616的一部分来执行。
在执行过程700之前,执行过程700的系统可以访问从试剂与氨基酸的结合相互作用的发光标记检测到的光发射获得的数据。作为示例,系统可以访问数据,如在上面参考图6B描述的过程610的框612处执行的那样。
过程700开始于方框702,其中系统识别数据部分,这里也称为感兴趣区域(ROI)。在一些实施例中,系统可以被配置为识别对应于各个结合相互作用的数据部分。例如,每个识别的数据部分可以包括来自试剂与多肽的氨基酸的相应结合相互作用的数据。在一些实施例中,系统可以被配置为通过识别对应于从多肽切割氨基酸的数据点来识别数据的部分。如上文参考图1-3所讨论的,蛋白质测序装置可以通过从多肽(例如,图5C中所示的多肽502F)的末端迭代地检测和切割氨基酸来对样本进行测序。在一些实施例中,可以通过标记有相应发光标记的切割试剂进行切割。系统可以被配置为通过识别与标记有切割试剂的发光标记的光发射相对应的数据点来识别数据的部分。作为示例,系统可以识别一个或多个发光强度、发光寿命值、脉冲持续时间值、脉冲间持续时间值和/或光子仓(bin)计数。然后系统可以基于识别的数据点将数据分割成多个部分。在一些实施例中,可以通过未标记的切割试剂进行切割。系统可以被配置为通过识别对应于分裂周期的数据点来识别数据的部分。然后系统可以基于识别的数据点将数据分割成多个部分。
在一些实施例中,系统可以被配置为通过识别光发射时间段之间的时间间隔来识别数据的部分。作为示例,系统可以识别发射光脉冲的两个时间段之间的时间间隔。系统可以被配置为基于所识别的时间间隔来识别对应于各个结合相互作用的数据部分。例如,系统可以通过确定光发射(例如,光脉冲)之间的时间间隔的持续时间是否超过阈值持续时间来识别连续结合相互作用之间的边界。系统可以基于从所识别的时间间隔确定的边界将数据分割成多个部分。
在一些实施例中,系统可以被配置为通过(1)跟踪数据中的汇总统计来识别对应于各个结合相互作用的数据部分;(2)基于汇总统计偏离的点识别数据部分。在一些实施例中,数据可以是时间序列数据,其中每个点代表在特定时间点获取的一个或多个参数的值。系统可以配置为:(1)跟踪数据中关于时间的汇总统计;(2)识别汇总统计量偏离阈值的数据点;(3)基于识别出的点识别数据部分。作为示例,系统可以跟踪数据中相对于时间的移动平均脉冲持续时间值。系统可以基于平均脉冲持续时间值增加阈值的点来识别与具有结合相互作用的反应相对应的一个或多个点。作为另一个示例,系统可以跟踪数据中相对于时间的移动平均发光强度值。该系统可以基于平均发光强度值增加阈值量的点来识别与结合相互作用相对应的一个或多个点。
在一些实施例中,系统可以被配置为通过将数据划分成大小相等的部分来识别数据的部分。在一些实施例中,数据可以包括多个帧,其中每个帧包括在施加激发脉冲之后的时间段内的一个或多个时间间隔的每一个中检测到的光子数量。系统可以被配置为通过将数据划分成相同大小的帧的部分来识别数据的部分。作为示例,系统可以将数据分1000、5000、10000、50000、100000、1000000和/或1000和1000000之间的任何合适数量的帧部分。在一些实施例中,系统可以被配置为基于确定两个结合相互作用之间的转换将数据划分为多个帧。作为示例,系统可以识别出仓内的光子计数值,该值表明两个结合作用之间的转变。系统可以基于数据中所识别的转变将帧分配给部分。在一些实施例中,系统可以被配置为减小每个部分的大小。作为示例,系统可以确定该部分数据的步幅(例如,每10或100帧)的一个或多个汇总统计。
在一些实施例中,系统可以被配置为通过执行信号轨迹的小波变换并基于从小波变换产生的小波系数识别信号部分的前沿和/或下降沿来识别数据的部分。这个过程将在下面结合图14A-14C和图15更详细地讨论。
在一些实施例中,作为时间段一部分的时间间隔是不重叠的。在其他实施例中,作为时间段一部分的时间间隔可以彼此重叠。可以将两个时间间隔的重叠区域中的光子计数与两个时间间隔的光子计数相加。重叠时间间隔中的数据可能在统计上依赖于相邻时间间隔中的数据。在一些实施例中,这种依赖关系可以用于处理数据(例如,训练数据)。例如,统计相关性可用于归一化和/或平滑数据。
在方框702处识别数据的部分之后,过程700进行到框704,其中系统基于识别的部分向机器学习模型提供输入。在一些实施例中,系统可以被配置为确定检测到的结合相互作用的一个或多个特性的值。这些值可以包括任何数量的脉冲参数,例如但不限于脉冲持续时间、脉冲间持续时间、波长、发光强度、发光寿命值、每单位时间的脉冲计数或其组合。这些值可以表示为平均值、中间值、模式或通过为数据的给定部分提供多个测量脉冲参数来表示。例如,方框704中机器学习模型的输入可以包括数据的识别部分的平均脉冲持续时间。
在一些实施例中,用于机器学习模型的输入的值可以包括从方框702中识别的数据的一部分导出的任何参数。如此导出的参数例如可以包括将合适的函数和/或分布拟合到脉冲参数的测量值。例如,为方框702中识别的数据的一部分测量的不同脉冲持续时间的范围可以拟合指数函数、高斯分布、泊松分布,并且可以将描述这些函数或分布的值输入到方框704中的机器学习模型。因此,这些值可以例如包括高斯分布的均值和方差,其表征用方框702中识别的数据的一部分观察到的多个不同脉冲。下面结合图16A-16B和17A-17B进一步描述将多个指数函数拟合到脉冲参数的示例。
不管在方框704中如何计算这些值,这些值也可以作为输入提供给框704中的机器学习模型。确定的值可以形成输入到机器学习模型的相应结合相互作用的特征集。在一些情况下,数据的部分可对应于一个或多个帧,且所确定的值可形成该帧的特征集。
在一些实施例中,系统可以被配置为提供数据的每个识别部分作为机器学习模型的输入,而不确定结合相互作用的特性值和/或根据特性确定的参数值。作为示例,系统可以提供数据被划分为机器学习模型的输入的每组帧(例如,每组包括一个或多个仓计数)。
接下来,过程700进行到方框706,在方框706,系统获得与输入到训练的机器学习模型中的数据的每个部分相对应的输出。在一些实施例中,每个输出可以对应于多肽中的相应位置。例如,输出可以对应于蛋白质多肽中的位置。在一些实施例中,每个输出可以指示一个或多个氨基酸在多肽中的位置的可能性。作为说明性示例,图8中所示的机器学习系统的输出的描绘800中的每一行可以是与所识别的数据部分之一相对应的机器学习模型的输出。在一些实施例中,每个输出可以识别对应于输入到机器学习模型中的数据部分的相应结合相互作用中涉及的氨基酸。在一些实施例中,系统可以被配置为使用在方框706获得的输出来识别多肽。作为示例,系统可以使用输出来识别多肽,如在上面参照图6B描述的过程610的方框618处执行的那样。
图8示出了描绘根据本文描述的技术的一些实施例的从机器学习模型获得的输出的表800。作为示例,图8中描绘的输出可以在上面参照图6B描述的过程610的方框616处获得。
在图8的示例表800中,对于多肽(例如蛋白质)中的多个位置804中的每一个,从机器学习系统获得的输出包括在该位置存在相应氨基酸802的概率。在图8的示例描述800中,输出包括二十个氨基酸的概率。表800的每一列对应于二十个氨基酸中的相应一个。每个氨基酸在图8中用其各自的单字母缩写标记(例如,A、C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W)。表800的每一行指定二十个氨基酸中的每一个氨基酸存在于多肽中的一个位置的概率。例如,对于编号为1的位置,输出表明该位置存在天冬氨酸(D)的概率为50%,该位置存在谷氨酸(E)的概率为50%。作为另一个示例,对于由编号为10的位置,输出表明该位置存在谷氨酸(D)的概率为30%,该位置存在甘氨酸(G)的概率为5%,该位置存在赖氨酸(K)的概率为25%,该位置存在天冬酰胺(N)的概率为40%。
尽管图8的示例性实施例显示了多肽中15个位置的20个氨基酸的可能性,但一些实施例不限于任何数量的位置或氨基酸。一些实施例可以包括多肽中任何数量的位置的可能性,因为本文描述的技术的方面在这方面不受限制。一些实施例可以包括任何数量的氨基酸的可能性,因为本文描述的技术的方面在这方面不受限制。
图9A图示了根据本文描述的技术的一些实施例的可以从发光标记的光发射获得的数据900的示例。作为示例,数据900可以通过上面参照图5A-C描述的蛋白质测序装置502的传感器502C获得。
数据900表示在激发光脉冲之后的多个时间间隔的每一个中检测到的光子数量。光子数量在本文中也可以称为“光子计数”。在图9A所示的示例中,数据900包括在三个激发光脉冲之后的时间间隔期间检测到的光子数量。在图9A所示的示例中,数据900包括:(1)在第一激发光脉冲之后的时间段902的第一时间间隔902A、第二时间间隔902B和第三时间间隔902C中检测到的光子数量;(2)在第二激发光脉冲之后的时间段904的第一时间间隔904A、第二时间间隔904B和第三时间间隔904C中检测到的光子数量;(3)在第三激发光脉冲之后的时间段906的第一时间间隔906A、第二时间间隔906B和第三时间间隔906C中检测到的光子数量。
在一些实施例中,在激发光脉冲之后的一段时间内的每个时间间隔可以具有相等或基本相等的持续时间。在一些实施例中,在激发光脉冲之后的时间段中的时间间隔可以具有变化的持续时间。在一些实施例中,数据可以包括在每个激发光脉冲之后在固定数量的时间间隔内检测到的光子数量。尽管数据在激发光脉冲之后的每个时间段中包括三个时间间隔,但是可以将数据合并成任何合适数量的时间间隔,因为本文描述的技术的方面在这方面不受限制。此外,虽然图9A的示例示出了三个激发光脉冲之后的三个时间段的数据,但是数据900可以包括在任何合适数量的激发光脉冲之后的时间段期间收集的数据,因为本文描述的技术的方面不受限制在这方面。此外,尽管图9A的示例示出时间段的间隔是不相交的,但在一些实施例中,间隔可以重叠。
图9B图示了根据本文描述的技术的一些实施例的来自图9A的数据900的示例排列,其可以作为输入提供给机器学习模型。作为示例,可以生成数据结构910作为深度学习模型(例如,神经网络)的输入以获得识别氨基酸的输出。
如图9B所示,来自数据900的光子数量可以被排列成包括多个值系列的数据结构910。在一些实施例中,数据结构910可以是编码矩阵(例如,数组、一组链表等)的二维数据结构。这一系列值中的每一个都可以形成矩阵的一行或一列。在图9B所示的示例中,数据结构910包括多个列中的数据系列。数据结构910可以被认为是存储图像的值,其中图像的每个“像素”对应于在相应的激发光脉冲之后的特定时间段中的相应时间间隔,并且像素的值指示在该时间间隔期间检测到的光子的数量。
在图9B所示的示例中,数据结构910包括多列数据系列。每一列在本文中也可以称为“帧”。数据结构910包括:(1)第一帧,其指定在激发光的第一脉冲之后的时间段902的时间间隔902A-C中检测到的光子数量N11、N12、N13;(2)第二帧,其指定在激发光的第二脉冲之后的时间段904的时间间隔904A-C中检测到的光子数量N21、N22、N23;(3)第三帧,其指定在激发光的第三脉冲之后的时间段906的时间间隔906A-C中检测到的光子数量N31、N32、N33。尽管图9B中所示的示例示出了三个帧,但是数据结构910可以保存来自任何合适数量的帧的数据,因为这里描述的技术的方面在这方面不受限制。
在图9B所示的示例中,数据结构910包括多行数据系列。每一行指定在每个激发光脉冲的特定仓中检测到的光子数量。数据结构910包括第一系列值,其包括:(1)在激发光的第一脉冲之后的时间段902中的第三间隔902C中的光子数量N13;(2)在激发光的第二脉冲之后的时间段904中的第三间隔904C中的光子数量N23;以及(3)在激发光的第三脉冲之后的时间段906中的第三间隔906C中的光子数量N33。数据结构910包括第二系列值,其包括:(1)在激发光的第一脉冲之后的时间段902中的第二间隔902B中的光子数量N12;(2)在激发光的第二脉冲之后的第二时间段904中的第二间隔904B中的光子数量N23;以及(3)在激发光的第三脉冲之后的时间段906中的第二间隔906B中的光子数量N32。数据结构910包括第三系列值,其包括:(1)在激发光的第一脉冲之后的时间段902中的第三间隔902C中的光子数量N13;(2)在激发光的第二脉冲之后的时间段904中的第三间隔904C中的光子数量N23;以及(3)在激发光的第三脉冲之后的时间段906中的第三间隔906C中的光子数量N33
图10A-C示出了根据本文描述的技术的一些实施例的用于训练机器学习系统的步骤。作为示例,图10A-C示出了训练机器学习模型的各种步骤,其可以作为以上参考图6A描述的过程600的一部分由以上参考图5A描述的模型训练系统504执行。
图10A显示了从试剂与氨基酸的结合相互作用的发光标记检测到的光发射获得的数据的集群图1000。在图10A的示例中,图1000示出了六个集群之间的数据集群结果。在一些实施例中,系统(例如,模型训练系统504)可以被配置为对数据点进行集群以识别集群(例如,集群之间的质心和/或边界)。在一些实施例中,可以作为参考图6A描述的过程600的一部分来执行集群,以训练集群模型。作为示例,系统可以将迭代算法(例如,k-means)应用于数据点以获得图10A的示例中所示的集群结果。
在一些实施例中,可以通过对具有已知氨基酸序列的已知肽进行测序并生成对应于每个已知氨基酸的数据(例如,脉冲持续时间和脉冲间持续时间数据)来识别数据集群。这个过程可以重复多次,以了解特定已知氨基酸的数据将相对于被评估的各种脉冲特征聚集在哪里。
图10B示出了从图10A的图1000中所示的集群点识别的集群图1010(例如,集群质心的坐标)。作为示例,曲线1010中所示的每个质心可以被确定为相应集群中的数据点的平均脉冲持续时间和脉冲间持续时间值。在图10A的示例中,每个质心与一组不同的氨基酸相关联。图1010显示(1)与氨基酸A、I、L、M和V相关联的第一质心;(2)与氨基酸N、C、Q、S和T相关联的第二质心;(3)与氨基酸R、H和K相关联的第三质心;(4)与氨基酸D和E相关联的第四质心;(5)与F、W和Y相关联的第五质心;(6)与氨基酸G和P相关联的第六质心。
图10C示出了为曲线1000和1010中所示的每个集群训练高斯混合模型(GMM)的结果的曲线1020。曲线1020中所示的每个同心圆标记等效概率的边界。在一些实施例中,针对相应集群训练的GMM模型的每个分量代表与相应集群相关联的氨基酸。然后可以将具有针对每个集群训练的GMM模型的集群模型用于识别多肽,如上文参考图6B所述。例如,可以将来自试剂与未知多肽的氨基酸的结合相互作用的发光标记检测到的光发射获得的数据输入到模型中。在一些实施例中,机器学习模型的每个输入可以对应于试剂与多肽中相应位置处的氨基酸的相应结合相互作用。数据的一部分可被分类为图1020中所示的集群之一,并且为该集群训练的GMM可用于确定与该集群相关联的一个或多个氨基酸在多肽中的位置处的可能性。在一些实施例中,系统可以被配置为在联合概率空间中归一化从GMM获得的可能性。例如,系统可以将softmax函数应用于从GMM获得的可能性,以获得多个氨基酸中的每一个的概率值,其中概率值总和为1。
作为如图10C所示为每个集群训练GMM的替代方案,在一些实施例中,单个GMM可以适合所有集群的高斯混合。在某些情况下,这种拟合可以基于已识别集群的特征,例如集群的数量和它们的质心所在的位置。或者,如果每个数据点的标签都是已知的,则可以使用每个集群的测量方差和质心直接初始化单个GMM的参数。
尽管图10A-C的示例描述了对每个集群使用GMM模型,但是一些实施例可以使用另一种类型的模型,因为实施例在这方面不受限制。例如,支持向量机(SVM)可以针对每个集群进行训练(或者单个SVM可以针对所有集群一起训练)并用于将数据的一部分分类为与集群相关联的多个氨基酸之一。作为另一个示例,可以为每个集群训练神经网络(或者可以为所有集群一起训练单个神经网络),并用于获得与该集群相关联的每个氨基酸存在于多肽中某个位置的可能性。
图18和19A-19E进一步说明了使用GMM模型训练机器学习模型并利用机器学习模型来识别一种或多种氨基酸的上述过程。图18描绘了表示通过测量来自如上所述的样品孔的光发射而获得的数据的多个信号轨迹。在图18的示例中,所示的信号轨迹是通过亲和试剂与肽N末端位置的三个不同氨基酸残基的相互作用产生的:已知四个信号轨迹中的第一列是通过与“F”氨基酸相互作用产生的,第二列是通过与“W”氨基酸相互作用产生的,第三列通过与“Y”氨基酸相互作用产生的。结果,这些信号轨迹可用于训练机器学习模型,如上文关于图6所述。通常,比图18中所示的少数信号轨迹多得多的信号轨迹可用作训练机器学习模型的输入。
图19A-19E描绘了基于如图18所示的三种氨基酸的信号轨迹训练基于GMM的机器学习模型的过程。图19A描绘了根据一些实施例的从亲和试剂与已知氨基酸F、W或Y的相互作用产生的信号轨迹获得的数据。特别地,图19A中所示的数据描绘了来自信号轨迹的脉冲的特性,其中每个信号轨迹的脉冲的平均特性由数据点表示。例如,Y氨基酸的数据点(黑圈)表示已知由与Y氨基酸反应产生的信号轨迹中脉冲的平均脉冲持续时间和平均脉冲间持续时间。
如图19B所示,并且如上所述,可以通过识别对应于已知氨基酸的每个数据集的集群来为此类数据生成GMM。对于图19A中所示的数据,这三个集群在图19B中显示,并且在图19C中显示为没有这些数据点。
一旦训练,包括由图19B和19C表示的GMM的机器学习模型可以应用于未标记的数据,例如图19D中所示的数据。在图19D的示例中,描绘了包含可能已经从许多不同氨基酸(或从与其相关的亲和试剂)产生的数据的信号轨迹。如上面关于图7所讨论的,可以基于脉冲特征来识别数据的部分,或者以其他方式识别可能已经通过不同相互作用产生的部分。这些部分(或其特征)中的每一个都可以输入到训练的机器学习模型中以确定哪个氨基酸与每个部分相关联。如图19E所示,这可以导致为每个部分确定由平均脉冲持续时间和平均脉冲间持续时间定义的二维空间中的位置。由此可以基于训练的机器学习模型确定最可能与空间中的每个位置相关联的氨基酸。例如,如图19E所示,可以确定部分3很可能与F氨基酸相关联。
图20A-20D描绘了根据一些实施例的用于识别氨基酸的替代两步方法。在图20A-20D的示例中,可以开发第一集群模型以识别由亲和试剂产生的数据的特征,从而允许将这些试剂彼此区分开。如果多个亲和试剂在信号轨迹中同时产生数据,这种技术可能是有益的。随后,可以基于数据的哪些部分被确定为包括由各种亲和试剂生成的数据来应用附加的集群模型。
如图20A所示,分析并确定信号轨迹包括在图中相应标记的五个部分。在这些部分中的至少一些包括由多于一种亲和试剂产生的数据的情况下,在来自单一亲和试剂的数据上训练的机器学习模型可能无法准确地对这些数据的部分进行分类。因此,最初基于来自信号轨迹中所有部分的数据开发第一集群模型。该第一集群模型在图20B中表示,其显示了所有部分1到5中的脉冲的发光寿命和脉冲强度。第一集群模型可以由此识别亲和试剂的特征——如图20B所示,识别出两个不同的集群,代表来自两种不同的亲和试剂的数据。
随后,来自图20A中所示的五部分数据中的每一个的脉冲的脉冲寿命和强度数据可以分开排列,如图20C中所示。在排列该数据时,利用了来自第一集群模型的脉冲的集群分配。可以注意到,来自某些部分的脉冲——即部分1、3、4和5——包括来自第一集群模型的两个集群的数据。相比之下,部分2仅主要包括来自单个集群的数据。
通过利用第一集群模型识别每个部分中存在哪些集群,可以基于存在哪些集群来选择不同的GMM模型。例如,部分1、3、4和5的数据可以基于专门针对与第一集群模型中的每个集群对应的亲和试剂的性质而训练的GMM模型分配氨基酸。该结果显示在图20D中,其绘制了来自第一集群的数据点的平均脉冲持续时间与来自第二集群的数据点的平均脉冲持续时间(图20D所示可见区域内未显示部分3的数据点)。这样,可以适当地对每个部分进行分类。相反,部分2可以改为由单独的GMM模型分类,这些模型仅根据其各自绑定器的特性进行训练。
图11图示了根据本文描述的技术的一些实施例的用于识别氨基酸的卷积神经网络(CNN)1100的示例结构。在一些实施例中,可以通过执行上面参考图6A描述的过程600来训练CNN 1100。在一些实施例中,从过程600获得的经过训练的CNN 1100可以用于执行上面参考图6B描述的过程610。
在图11的示例实施例中,CNN 1100接收输入1102A。在一些实施例中,输入1102A可以是在光脉冲之后的时间段的时间间隔中指定光子数量的帧的集合。在一些实施例中,输入1102A可以布置在诸如以上参考图9B描述的数据结构910之类的数据结构中。在图11的示例实施例中,输入1102A包括形成2x1000输入矩阵的两个时间间隔的1000帧数据。在一些实施例中,输入1102A可以包括与试剂与氨基酸的结合相互作用相关联的一组帧(例如,如在过程700期间所识别的))。在一些实施例中,输入1102A可以是检测到的结合相互作用的一种或多种特性的值(例如,脉冲持续时间、脉冲间持续时间、波长、发光强度和/或发光寿命),和/或从特性导出的一个或多个参数的值。
在一些实施例中,CNN 1100包括一个或多个卷积层1102,其中输入1102A与一个或多个滤波器进行卷积。在图11的示例实施例中,输入1102A在第一卷积层中与第一系列的16个2x50滤波器卷积。与16个滤波器的卷积结果是16x951的输出1102B。在一些实施例中,CNN1100可以在第一卷积层之后包括池化层。作为示例,CNN 1100可以通过在第一卷积层的输出的窗口中取最大值来执行池化以获得输出1102B。
在图11的示例实施例中,第一卷积层的输出1102B然后与第二卷积层中的第二组一个或多个滤波器卷积。输出1102B与一组一个或多个1x6滤波器卷积以获得输出1102C。在一些实施例中,CNN 1100可以在第二卷积层之后包括池化层(例如,最大池化层)。
在图11的示例实施例中,CNN 1100包括平坦化步骤1104,其中卷积1102的输出被平坦化以生成平坦化输出1106A。在一些实施例中,CNN 1100可以被配置为通过将8x946输出矩阵转换成一维向量来展平输出1102C。在图11的示例实施例中,8x43输出1102C被转换成1x7568向量1106A。向量1106A可以被输入到全连接层以生成每个可能类别的分数。在图11的示例性实施例中,可能的类别是二十种常见氨基酸和空白(-)。然后对全连接层的输出执行softmax操作1106以获得输出1110。在一些实施例中,softmax操作1106可以将每个类的分数转换成相应的概率。然后对输出1110执行argmax操作1108以获得分类。argmax操作1108可以选择在输出1110中具有最高概率的类别。作为示例,输出可以识别在由输入1102A表示的时间段期间与试剂的结合反应中的氨基酸。作为另一个示例,输出可以通过输出空白(-)的分类来识别在该时间段期间不存在试剂与氨基酸的结合相互作用。
图12图示了根据本文所述技术的一些实施例的用于识别多肽的氨基酸的联结时序分类(CTC)拟合神经网络模型1200的示例。在一些实施例中,可以通过执行上面参考图6A描述的过程600来训练CTC拟合神经网络模型1200。在一些实施例中,从过程600获得的经训练的CTC拟合神经网络模型1200可用于执行以上参照图6B描述的过程610。
在图12的示例实施例中,模型1200被配置为接收由蛋白质测序装置(例如,蛋白质测序装置502)收集的数据。例如,模型1200可以是由蛋白质测序装置502的蛋白质识别系统502C使用的机器学习模型。在试剂与氨基酸相互作用期间,可以通过发光标记从检测到的光发射中获取数据。在一些实施例中,数据可以排列为多个系列的光子和/或帧,如上面参考图9B所描述的。在一些实施例中,由蛋白质测序装置1220收集的部分数据可以作为一系列输入提供给模型1200。作为示例,模型1200可以被配置为接收指定在每个400个光脉冲之后的两个时间间隔中检测到的光子数量的第一2x400输入。
在图12的示例实施例中,模型1200包括特征提取器1204。在一些实施例中,特征提取器可以是经过训练的自动编码器的编码器。可以训练自动编码器,并且可以将来自自动编码器的解码器实现为特征提取器1204。编码器可以被配置为将输入编码为一个或多个特征1206的值。
在图12的示例实施例中,由特征提取器1204确定的特征值1206被输入到预测器1208中,预测器1208输出指示每个可能类别的一系列概率值的概率矩阵1210。在图12的示例性实施例中,类别包括试剂可以结合的氨基酸(例如,二十种常见氨基酸和空白(-))。作为示例,预测器1208可以输出21x50矩阵,指示每个类别的一系列50个概率值。概率矩阵1210可用于生成识别与蛋白质测序装置1220收集的数据相对应的氨基酸序列的输出1230。在一些实施例中,可以从概率矩阵1210确定氨基酸序列。例如,可以执行波束搜索以获得氨基酸序列的输出1230。在一些实施例中,输出可以与指定相应蛋白质的多个氨基酸序列之一匹配(例如,如在过程610的方框618处执行的那样)。例如,输出可用于生成隐马尔可夫模型(HMM),该模型用于从一组多个氨基酸序列中选择与多个蛋白质序列的HMM最接近的氨基酸序列。
在一些实施例中,特征提取器1204可以与预测器1208分开训练。作为示例,可以通过训练自动编码器来获得特征提取器1204。然后来自自动编码器的编码器可以用作特征提取器1204。在一些实施例中,可以使用CTC损失函数1212单独训练预测器1208。CTC损失函数1212可以训练预测器1208以生成可用于生成输出1230的输出。
在一些实施例中,可以组合多个概率矩阵。可以从蛋白质测序装置1220获得的数据中访问第二输入。第二输入可以是由蛋白质测序装置1220获得的数据的第二部分。可以从蛋白质测序装置1220获得的数据中访问第二输入。在一些实施例中,第二输入可以通过在由蛋白质测序装置1220获得的数据中移动多个点来获得。作为示例,第二输入可以是通过在从定序器420获得的数据中移动8个点而获得的第二400x2输入矩阵。对应于第二输入的概率矩阵可以从预测器1208获得,并且与对应于第一输入的第一概率矩阵组合。作为示例,可以将第二概率矩阵添加到第一概率矩阵。作为另一示例,可以将第二概率矩阵移动并添加到第一概率矩阵。然后可以使用组合的概率矩阵来获得识别氨基酸序列的输出1230。
在一些实施例中,特征提取器1204可以是神经网络。在一些实施例中,神经网络可以是卷积神经网络(CNN)。在一些实施例中,CNN可以包括一个或多个卷积层和一个或多个池化层。CNN可以包括第一卷积层,其中来自蛋白质测序装置1220的输入与一组滤波器进行卷积。例如,输入可以与一组16个10x2滤波器使用1x1的步幅进行卷积,以生成16x400x2的输出。可以将激活函数应用于第一卷积层的输出。例如,可以将ReLU激活函数应用于第一卷积层的输出。在一些实施例中,CNN可以包括在第一卷积层之后的第一池化层。在一些实施例中,CNN可以对第一卷积层的输出应用最大池操作。例如,具有1x1步幅的2x2滤波器可应用于16x400x2输出以获得200x1输出。
在一些实施例中,CNN可以包括第二卷积层。第二卷积层可以接收第一池化层的输出作为输入。例如,第二卷积层可以接收第一池化层的200x1输出作为输入。第二卷积层可以涉及与第二组滤波器的卷积。例如,在第二卷积层中,可以将200x1输入与第二组16个10x1滤波器进行卷积,步幅为1x1,以生成16x200输出。可以将激活函数应用于第二卷积层的输出。例如,可以将ReLU激活函数应用于第二卷积层的输出。在一些实施例中,CNN可以包括在第二卷积层之后的第二池化层。在一些实施例中,CNN可以对第二卷积层的输出应用最大池操作。例如,可以将具有4x1步幅的4x1滤波器应用于第二卷积层的16x200输出,以获得16x50输出。
在一些实施例中,特征提取器1204可以是递归神经网络(RNN)。作为示例,特征提取器1204可以是RNN,该RNN被训练以将从蛋白质测序装置1220接收的数据编码为一个或多个特征的值。在一些实施例中,特征提取器1204可以是长短期记忆(LSTM)网络。在一些实施例中,特征提取器1204可以是门控循环单元(GRU)网络。
在一些实施例中,预测器1208可以是神经网络。在一些实施例中,神经网络可以是GRU网络。在一些实施例中,GRU网络可以是双向的。作为示例,GRU网络可以接收作为输入提供给GRU网络的特征提取器1204的16x50输出。例如,GRU网络可能有64个隐藏层,生成50x128输出。在一些实施例中,GRU网络可以使用tanh激活函数。在一些实施例中,预测器1208可以包括全连接层。GRU网络的输出可以作为输入提供给全连接层,全连接层生成21x50输出矩阵。21x50矩阵可以包含每个可能的输出类别的一系列值。在一些实施例中,预测器1208可以被配置为在全连接层的输出上应用softmax函数,以获得概率矩阵1210。
如上面关于图7所讨论的,可以识别信号轨迹的部分以便识别要输入到训练的机器学习模型中的值。每个部分或感兴趣区域(ROI)可以与特定的发光试剂相关联,因为在ROI中产生的信号的特征指示试剂。例如,在图3中,标记为K、F和Q的三个ROI在切割事件之间被识别。因此,识别这些ROI可以表示在从每个ROI提取特征以输入到训练的机器学习模型之前选择数据部分的初始步骤,如图7的方法中那样。
图14A-14C中说明了用于识别ROI的说明性方法。出于解释的目的,图14A描绘了包括如上所述的大量脉冲(测量的光发射)的说明性信号轨迹。通常,这样的信号轨迹可以包括多个ROI,每个ROI对应于由特定亲和试剂产生的脉冲。在下面将进一步描述的方法中,可以将小波变换应用于一些或所有信号轨迹以生成多个小波系数,如图14B所示。这些小波系数代表原始信号轨迹的特性,可以通过将图14B中的各种特征的位置与图14A中的脉冲的相应变化进行比较来注意到。
如图14C所示,可以分析小波系数以识别候选ROI。图14C中的深色垂直条表示小波系数的测量,其指示ROI的开始或结束可能存在于该位置。在一些情况下,如下文所讨论的,候选ROI可以被进一步分析以基于候选ROI是真实ROI的可能性的置信度测量排除一些候选ROI。
图15是根据一些实施例的使用上述小波方法识别ROI的方法的流程图。方法1500例如可以用在图7的方法700中的方框702中,其中在将数据提供给机器学习模型的每个部分之前识别数据的部分(ROI)。
方法1500开始于动作1502,其中对包括脉冲的信号轨迹的一些或全部执行小波分解。在一些实施例中,小波分解可以包括离散小波变换(DWT),其可以被执行到任何合适的分解水平。在一些实施例中,动作1502可以包括生成分解水平至少为10、或在10与20之间、或在15与20之间、或在17与18之间的系数。在一些实施例中,可以基于信号轨迹的一个或多个特性(例如,帧持续时间、脉冲间持续时间等)动态地选择分解水平。
根据一些实施例,在动作1502中执行的小波分解可以使用任何合适的离散小波和/或小波族来执行,包括但不限于Haar、Daubechies、双正交、coiflet或symlet。
由于小波变换可以产生比信号轨迹中的测量值(帧)数量更少的系数,因此可以在动作1502中执行一个或多个操作以在所产生的小波系数之间产生额外的数据值,从而在小波系数和信号轨迹之间存在相同数量的要比较的值。例如,可以通过任何合适的插值方法在小波系数之间插值来生成数据值。例如,可以通过最近邻插值、通过线性插值、通过多项式插值、通过样条插值或者通过它们的组合来生成数据值。
不管在动作1502中如何计算小波系数,也不管是否如上所述生成附加数据值,在动作1504中基于小波系数检测边缘。在随后的描述中,动作1504将被描述为包括基于小波系数执行的操作,尽管应当理解,该描述仅适用于从动作1502中的小波变换产生的一组小波系数,以及小波系数与插值数据值的组合。
在一些实施例中,可以通过在动作1504中测量小波系数的斜率来检测边缘。例如,可以计算系数内的一个或多个相邻值的平均斜率,并且当平均斜率高于合适的阈值时检测到边缘。在一些实施例中,阈值可以为零——即,当系数的斜率从零变到零以上时,可以检测到边缘,并且当系数的斜率为负且上升到零时,也可以检测到边缘。这可以允许检测ROI的前沿和下降沿。
在一些实施例中,可以在动作1504中计算检测到的边缘的幅度。该幅值例如可以是紧邻检测到的边缘的小波系数的斜率的大小。因此,快速上升的边缘可以被识别为具有与上升更慢的边缘不同的幅度。
在动作1506中,可以基于在动作1504中检测到的边缘在信号轨迹内识别一个或多个候选ROI。在一些实施例中,候选ROI可以被识别为起始边缘和结束边缘之间的区域。例如,在图14C的示例中,所识别的初始两个边缘可以被认为是第一ROI的开始和结束,从而允许将区域1405识别为候选ROI。
根据一些实施例,动作1506可以包括显著性测试以确定脉冲的脉冲持续时间的显著变化是否发生在候选ROI内。如果通过某种措施发现脉冲持续时间的变化是显著的,则可以将候选ROI分成两个或多个ROI,每个ROI表现出不同的脉冲持续时间。例如,候选ROI内的时间位置和/或脉冲位置可以被识别为将ROI分割成两个新的ROI的点(因此,第一新ROI可以在分割点处结束并且第二新ROI可以从分割点开始)。这个过程可以是递归的,因为可以分割一个ROI,然后通过分割检查的初始ROI生成新的ROI,并再次分割,以此类推。还可以理解,可以检查任何脉冲特征以确定是否分割候选ROI,因为这种方法不仅限于使用脉冲持续时间。
不管在动作1506中如何从检测到的边缘识别候选ROI,在动作1508中,可以可选地对候选ROI进行评分并且将低评分ROI排除在考虑之外。动作1508由此可以允许剔除在动作1506中识别但不太可能代表实际ROI的虚假ROI。
根据一些实施例,可以在动作1508中为每个ROI计算评分函数的值。评分函数可以是几个变量的函数,包括但不限于:候选ROI前缘和/或后缘处小波系数的平均斜率;ROI内小波系数的平均或中值幅度;ROI内的脉冲率;对整个信号轨迹内的噪声水平的估计;整个信号轨迹内的脉冲率;或其组合。
根据一些实施例,评分函数可以采用以下形式来计算第i个候选ROICi的置信度分数:
Figure BDA0003503482700000651
其中Ei是候选ROI前缘和后缘的小波系数斜率的平均值,Mi是ROI内小波系数的中值幅度,Pri是ROI内的脉冲率,Nt是整个信号轨迹(例如,信号轨迹的全小波熵)内噪声水平的估计值,并且PR是整个信号轨迹内的脉冲率。
根据一些实施例,动作1508可以包括排除计算得分低于阈值的任何ROI。例如,在得分由上述等式给出的情况下,得分低于某个阈值的候选ROI可能会被排除在后续考虑之外。
如上面关于图7所讨论的,用于输入到机器学习模型的值可以包括从数据的一部分导出的任何参数,包括描述与脉冲参数拟合的分布的参数。此外,在机器学习模型的训练过程中,从已知的亲和试剂产生的数据可以拟合到合适的分布,以便训练机器学习模型,以基于它们表现出的分布的参数来识别亲和试剂。
根据一些实施例,图16A-16B描绘了可以以这种方式应用的两种说明性方法。在图16A的示例中,对应于与已知氨基酸相关的亲和试剂的信号轨迹的一部分的脉冲持续时间被拟合为幂律分布。暗线1601代表相关信号轨迹数据所呈现的脉冲持续时间的分布,而亮线1602代表由幂律Cxa描述的线,其中C和a是常数,并且x是脉冲持续时间。通过以这种方式训练机器学习模型,每个亲和试剂可以与它自己的C和a的值(或自己的值分布)相关联。
图16A所示的方法和随后的讨论基于单个脉冲持续时间值(或其他脉冲参数)可能不完全代表由特定亲和试剂产生的测量类型的可能性。相反,每种亲和试剂可以自然地产生一定范围的脉冲参数值。但是,每但是,每个亲和试剂的范围特征可能不同——因此,分布是试剂的特征,而不是特定值。
图16B是使用指数函数之和(也称为指数状态)来表示由给定亲和试剂产生的数据的示例。如图16B所示,对应于与已知氨基酸相关的亲和试剂的部分信号迹线的脉冲持续时间拟合指数函数的总和。暗线1611代表相关信号轨迹数据所呈现的脉冲持续时间的分布,而中灰色线1612代表由指数函数之和描述的线。这些指数函数显示为浅灰色线1615和1616。在数学上,指数函数的总和可以由下式给出:
Figure BDA0003503482700000661
其中ai和bi是第i个指数函数的值。因此,在图16B中描绘的情况下,可以与数据1611拟合的值是a1、a2、b1和b2
图17A-17B描绘了根据一些实施例的其中脉冲持续时间值拟合到三个指数函数的总和的方法,其中每个拟合分布包括共同指数函数。在图17A-17B的示例中,三个指数函数的总和拟合到两个示例性二肽FA和YA中的每一个的脉冲持续时间分布。指数函数的总和可以如上式给出,其中a0和b0的相同值用于拟合每个分布,其余值a1、a2、b1和b2分别拟合每个分布。特别地,图17A描绘了拟合指数函数1705、1715和1716的和1702的数据1701,其中函数1705是公共指数函数。图17B描绘了拟合指数函数1705、1718和1719的和1712的数据1711。
图17A-17B的方法可以具有由值a0和b0表示的共同状态并且可以表示对于所有二肽存在的分布的共同分量的优点。该共同分量可以例如代表测量装置固有的噪声和/或使用亲和试剂产生信号轨迹所固有的噪声。
根据一些实施例,使用这种方法训练机器学习模型可以包括以下内容。首先,将系统的动力学建模为三分量系统,该系统是脉冲持续时间的函数:
Figure BDA0003503482700000671
其中α的值在所有二肽中共享,但其余参数A,B,C、β0和β1特定于索引n引用的特定二肽。
函数G(x)可可以被限制为在观察到的脉冲持续时间范围内求和为单位:
Figure BDA0003503482700000672
其中d0和d1是观察到的可能脉冲持续时间的下限和上限。
在机器学习模型的训练过程中,可以通过最小化模型的负对数似然来确定G(x)的参数。也就是说,最小化:
-<ln(p(n))>
其中p(n)是给定模型参数观察数据的概率:
Figure BDA0003503482700000673
X(n)是为训练数据观察到的一组脉冲持续时间。
在进行蛋白质识别时,可以通过计算所有n的p(n)来应用该模型。模型预测是由n表示的二肽,其具有∑ln(p(n))的最大值。
应当理解,提供上述使用指数函数之和来建模脉冲持续时间分布的示例,作为描述由特定亲和试剂和/或二肽产生的数据的脉冲特征的一个示例。其他方法可能依赖于不同脉冲特征的多个分布,并且可以应用各种机器学习技术来训练机器学习模型以基于来自多个分布的参数来识别蛋白质。
在一些实施例中,分布可以基于测量特定脉冲特征或给定特定亲和试剂与蛋白质相互作用以产生观察到的脉冲的特征的概率。在一些实施例中,分布可以基于测量特定脉冲特征的概率或给定当观察到的脉冲被观察时存在的特定末端二肽的特征。上述两种情况不一定相同,因为当与一种二肽与另一种相互作用时,特定的亲和试剂可能会产生不同的脉冲特征分布。类似地,当与一种亲和试剂与另一种相互作用时,相同的二肽可能会导致产生不同的脉冲特性。
已经如此描述了本发明的至少一个实施例的几个方面,应当理解,本领域技术人员将容易想到各种改变、修改和改进。
此类变更、修改和改进旨在成为本发明的一部分,并且在本发明的精神和范围内。这样的改变、修改和改进旨在成为本公开的一部分,并且旨在落入本发明的精神和范围内。此外,尽管指出了本发明的优点,但应当理解,并非本文描述的技术的每个实施例都将包括每个描述的优点。因此,上述描述和附图仅作为示例。
例如,本文描述了用于对诸如肽、多肽和/或蛋白质的生物聚合物进行测序的技术。应当理解,所描述的技术可以应用于任何合适的氨基酸聚合物,并且本文对测序、识别氨基酸等的任何引用不应被视为对特定聚合物的限制。因此,除非另有说明,本文中对蛋白质、多肽、肽等的任何引用均作为说明性实例提供,并且应理解,此类引用可同样适用于未明确识别的其他氨基酸聚合物。此外,可以使用本文描述的技术对任何生物聚合物进行测序,包括但不限于DNA和/或RNA。
此外,如本文所用,关于多肽或蛋白质的“测序”、“序列确定”、“确定序列”和类似术语包括确定多肽或蛋白质的部分序列信息以及完整序列信息。即,术语包括序列比较、指纹识别、概率指纹识别和关于目标分子的类似级别的信息,以及目标分子的每个氨基酸在感兴趣区域内的明确识别和排序。在一些实施例中,该术语包括识别多肽的单个氨基酸。在又一些实施例中,识别了多肽的多于一个氨基酸。如本文所用,在一些实施例中,关于氨基酸的“识别”、“确定同一性”等术语包括确定氨基酸的表达同一性以及确定氨基酸的表达同一性的概率。例如,在一些实施例中,通过确定氨基酸属于特定类型的概率(例如,从0%到100%)或通过确定多种特定类型中的每一个的概率来识别氨基酸。因此,在一些实施例中,如本文所用的术语“氨基酸序列”、“多肽序列”和“蛋白质序列”可以指多肽或蛋白质材料本身并且不限于特定的序列信息(例如,代表氨基酸从一个末端到另一个末端的顺序的字母序列),其在生物化学上表征特定的多肽或蛋白质。
在一些实施例中,本文描述的系统和技术可以使用一个或多个计算装置来实现。然而,实施例不限于与任何特定类型的计算装置一起操作。通过进一步说明,图13是说明性计算装置1300的框图。计算装置1300可以包括一个或多个处理器1302和一个或多个有形的、非暂时性计算机可读存储介质(例如,存储器1304)。存储器1304可以将计算机程序指令存储在有形的非暂时性计算机可记录介质中,该计算机程序指令在被执行时实现任何上述功能。处理器1302可以耦合到存储器1304并且可以执行这样的计算机程序指令以使功能被实现和执行。
计算装置1300还可以包括网络输入/输出(I/O)接口1306,计算装置可以通过该接口与其他计算装置通信(例如,通过网络),并且还可以包括一个或多个用户I/O接口1308,计算装置可以通过它向用户提供输出并从用户接收输入。用户I/O接口可以包括诸如键盘、鼠标、麦克风、显示设备(例如,监视器或触摸屏)、扬声器、相机和/或各种其他类型的I/O设备之类的设备。
上述实施例可以以多种方式中的任何一种方式实施。作为示例,可以使用硬件、软件或它们的组合来实现实施例。当以软件实现时,软件代码可以在任何合适的处理器(例如,微处理器)或处理器集合上执行,无论是在单个计算装置中提供还是分布在多个计算装置中。应当理解,执行上述功能的任何组件或组件集合通常可以被认为是控制上述功能的一个或多个控制器。一个或多个控制器可以以多种方式实现,例如用专用硬件,或用通用硬件(例如,一个或多个处理器),其使用微代码或软件编程以执行上述功能。
在这方面,应当理解,这里描述的实施例的一种实施方式包括至少一种计算机可读存储介质(例如,RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能盘(DVD))或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁性存储设备,或其他有形、非暂时性计算机可读存储介质),其编码有计算机程序(即,多个可执行指令),当在一个或多个处理器上执行时,执行一个或多个实施例的上述功能。计算机可读介质可以是可传输的,使得存储在其上的程序可以加载到任何计算装置上以实现本文讨论的技术的各个方面。此外,应当理解,对在执行时执行任何上述功能的计算机程序的引用不限于在主机计算机上运行的应用程序。相反,术语计算机程序和软件在本文中以一般意义使用来指代可用于对一个或多个处理器进行编程的任何类型的计算机代码(例如,应用软件、固件、微代码或任何其他形式的计算机指令)来实现这里讨论的技术的各个方面。
本公开的各种特征和方面可以单独使用、以两个或更多个的任意组合、或以在前述实施例中未具体讨论的各种布置来使用,因此其应用不限于前述描述中所述或附图中所示的组件的细节和布置。作为示例,一个实施例中描述的方面可以以任何方式与其他实施例中描述的方面组合。
此外,本文公开的概念可以体现为一种方法,已经提供了该方法的示例。作为该方法的一部分执行的动作可以以任何合适的方式进行排序。因此,可以构造实施例,其中以不同于图示的顺序执行动作,其可以包括同时执行一些动作,即使在图示实施例中示为顺序动作。
此外,一些动作被描述为由“用户”采取。应当理解,“用户”不需要是单个个人,并且在一些实施例中,可归因于“用户”的动作可以由个人团队和/或个人结合计算机辅助工具或其他机制来执行。
在权利要求中使用诸如“第一”、“第二”、“第三”等顺序术语来修改权利要求要素本身并不意味着一个权利要求要素相对于另一个权利要求要素的任何优先级、优先顺序或顺序,也不意味着执行方法动作的时间顺序,但它们仅用作标签,用于区分具有特定名称的一个权利要求要素与具有相同名称的另一个权利要求要素(但用于使用序数术语),以区分权利要求要素。
此外,本文使用的措辞和术语是出于描述的目的,不应被视为限制。本文中“包括”、“包含”、“具有”、“含有”、“涉及”及其变体的使用意在涵盖其后列出的项目及其等同物以及附加项目。
术语“大约”和“约”可用于在一些实施例中表示在目标值的±20%内、在一些实施例中在目标值的±10%内、在一些实施例中在目标值的±5%内,并且在一些实施例中在目标值的±2%以内。术语“大约”和“大约”可以包括目标值。术语“基本上相等”可用于指在一些实施例中彼此在±20%范围内,在一些实施例中彼此在±10%范围内,在一些实施例中彼此在±5%范围内,以及在一些实施例中彼此在±2%范围内的值。
术语“基本上”可用于指在一些实施例中在比较度量的±20%范围内、在一些实施例中在±10%范围内、在一些实施例中在±5%范围内、但在一些实施例中在±2%范围内的值。例如,与第二方向“基本上”垂直的第一方向可以指在某些实施例中与第二方向成90°角的±20%以内,在某些实施例中与第二方向成90°角的±10%以内,在某些实施例中与第二方向成90°角的±5%以内,以及在某些实施例中与第二方向成90°角的±2%以内。

Claims (183)

1.一种识别多肽的方法,所述方法包括:
使用至少一个计算机硬件处理器来执行:
访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;
将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及
基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
2.根据权利要求1所述的方法,其中所述一个或多个相应氨基酸存在于所述位置的所述一种或多种可能性包括:
第一氨基酸存在于所述位置的第一可能性;以及
第二氨基酸存在于所述位置的第二可能性。
3.根据权利要求1或权利要求2中任一项所述的方法,其中识别所述多肽包括将所获得的输出与相应蛋白质的多个关联氨基酸序列之一进行匹配。
4.根据权利要求3所述的方法,其中将所获得的输出与指定相应蛋白质的所述多个氨基酸序列之一进行匹配包括:
基于所获得的输出生成隐马尔可夫模型(HMM);以及
将所述HMM与所述多个氨基酸序列之一进行匹配。
5.根据权利要求1所述的方法,其中所述机器学习模型包括以下之一:
高斯混合模型(GMM);
包含多个集群的聚类模型,所述集群的每一个与一个或多个氨基酸相关联;
深度学习模型;
卷积神经网络;或者
联结时序分类(CTC)拟合神经网络。
6.根据权利要求1所述的方法,其中所述经过训练的机器学习模型是通过将监督训练算法应用于训练数据而生成的。
7.根据权利要求1所述的方法,其中所述经过训练的机器学习模型是通过将半监督训练算法应用于训练数据而生成的。
8.根据权利要求1所述的方法,其中所述经过训练的机器学习模型是通过应用无监督训练算法而生成的。
9.根据权利要求1所述的方法,其中所述经过训练的机器学习模型被配置为针对所述多肽中的所述多个位置的至少一些的每一个输出:
概率分布,其针对多种氨基酸的每一种,指示所述氨基酸存在于所述位置的概率。
10.根据权利要求1所述的方法,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。
11.根据权利要求1所述的方法,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。
12.根据权利要求1所述的方法,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。
13.根据权利要求1所述的方法,其中将所述数据作为输入提供给所述经训练的机器学习模型还包括:
识别所述数据的多个部分,每个部分对应于所述结合相互作用的相应一个;以及
将所述多个部分的每一个作为输入提供给所述经过训练的机器学习模型以获得对应于所述数据的每个部分的输出。
14.根据权利要求13所述的方法,其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于所述多个位置的相应一个的一种或多种可能性。
15.根据权利要求13所述的方法,其中识别所述数据的所述多个部分包括:
识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点;以及
基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分。
16.根据权利要求13所述的方法,其中识别所述数据的所述多个部分包括生成所述数据的离散小波变换。
17.根据权利要求13所述的方法,其中识别所述数据的所述多个部分包括:
根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值;
识别所述数据中的一个或多个点,在这些点处,所述至少一个特性的值相对于所述统计数据的值偏离阈值量;以及
基于所识别的一个或多个点识别所述数据的所述多个部分。
18.根据权利要求1所述的方法,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。
19.根据权利要求18所述的方法,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值,每个波长值指示在结合相互作用期间发射的光的波长。
20.根据权利要求18所述的方法,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。
21.根据权利要求18所述的方法,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。
22.根据权利要求18所述的方法,其中所述光发射响应于一系列光脉冲,并且针对所述光脉冲的至少一些的每一个,所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。
23.根据权利要求1所述的方法,其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列成具有列的数据结构,其中:
第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及
第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。
24.根据权利要求18所述的方法,其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。
25.根据权利要求18所述的方法,其中所述一个或多个发光标签与所述多肽的至少一些氨基酸相关联。
26.根据权利要求1所述的方法,其中所述多个位置包括所述多肽内的至少一个相对位置。
27.一种用于识别多肽的系统,所述系统包括:
至少一个处理器;以及
至少一个存储指令的非暂时性计算机可读存储介质,当被所述至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括:
访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;
将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及
基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
28.根据权利要求27所述的系统,其中所述一个或多个相应氨基酸存在于所述位置的所述一种或多种可能性包括:
第一氨基酸存在于所述位置的第一可能性;以及
第二氨基酸存在于所述位置的第二可能性。
29.根据权利要求27或权利要求28中任一项所述的系统,其中识别所述多肽包括将所获得的输出与相应蛋白质的多个关联氨基酸序列之一进行匹配。
30.根据权利要求29所述的系统,其中将所获得的输出与指定相应蛋白质的所述多个氨基酸序列之一进行匹配包括:
基于所获得的输出生成隐马尔可夫模型(HMM);以及
将所述HMM与所述多个氨基酸序列之一进行匹配。
31.根据权利要求27所述的系统,其中所述机器学习模型包括以下之一:
高斯混合模型(GMM);
包含多个集群的聚类模型,所述集群的每一个与一个或多个氨基酸相关联;
深度学习模型;
卷积神经网络;或者
联结时序分类(CTC)拟合神经网络。
32.根据权利要求27所述的系统,其中所述经过训练的机器学习模型是通过将监督训练算法应用于训练数据而生成的。
33.根据权利要求27所述的系统,其中所述经过训练的机器学习模型是通过将半监督训练算法应用于训练数据而生成的。
34.根据权利要求27所述的系统,其中所述经过训练的机器学习模型是通过应用无监督训练算法而生成的。
35.根据权利要求27所述的系统,其中所述经过训练的机器学习模型被配置为针对所述多肽中的所述多个位置的至少一些的每一个输出:
概率分布,其针对多种氨基酸的每一种,指示所述氨基酸存在于所述位置的概率。
36.根据权利要求27所述的系统,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。
37.根据权利要求27所述的系统,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。
38.根据权利要求27所述的系统,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。
39.根据权利要求27所述的系统,其中将所述数据作为输入提供给所述经训练的机器学习模型还包括:
识别所述数据的多个部分,每个部分对应于所述结合相互作用的相应一个;以及
将所述多个部分的每一个作为输入提供给所述经过训练的机器学习模型以获得对应于所述数据的每个部分的输出。
40.根据权利要求39所述的系统,其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于所述多个位置的相应一个的一种或多种可能性。
41.根据权利要求39所述的系统,其中识别所述数据的所述多个部分包括:
识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点;以及
基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分。
42.根据权利要求39所述的系统,其中识别所述数据的所述多个部分包括生成所述数据的离散小波变换。
43.根据权利要求39所述的系统,其中识别所述数据的所述多个部分包括:
根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值;
识别所述数据中的一个或多个点,在这些点处,所述至少一个特性的值相对于所述统计数据的值偏离阈值量;以及
基于所识别的一个或多个点识别所述数据的所述多个部分。
44.根据权利要求27所述的系统,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。
45.根据权利要求44所述的系统,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值,每个波长值指示在结合相互作用期间发射的光的波长。
46.根据权利要求44所述的系统,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。
47.根据权利要求44所述的系统,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。
48.根据权利要求44所述的系统,其中所述光发射响应于一系列光脉冲,并且针对所述光脉冲的至少一些的每一个,所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。
49.根据权利要求27所述的系统,其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列成具有列的数据结构,其中:
第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及
第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。
50.根据权利要求44所述的系统,其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。
51.根据权利要求44所述的系统,其中所述一个或多个发光标签与所述多肽的至少一些氨基酸相关联。
52.根据权利要求27所述的系统,其中所述多个位置包括所述多肽内的至少一个相对位置。
53.至少一个存储指令的非暂时性计算机可读存储介质,当被至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括:
访问一种或多种试剂与所述多肽的氨基酸的结合相互作用的数据;
将所述数据作为输入提供给经过训练的机器学习模型以获得输出,针对所述多肽中的多个位置的每一个,所述输出指示一个或多个相应氨基酸存在于所述位置的一种或多种可能性;以及
基于从所述经过训练的机器学习模型获得的所述输出识别所述多肽。
54.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述一个或多个相应氨基酸存在于所述位置的所述一种或多种可能性包括:
第一氨基酸存在于所述位置的第一可能性;以及
第二氨基酸存在于所述位置的第二可能性。
55.根据权利要求53或权利要求54中任一项所述的至少一个非暂时性计算机可读存储介质,其中识别所述多肽包括将所获得的输出与相应蛋白质的多个关联氨基酸序列之一进行匹配。
56.根据权利要求55所述的至少一个非暂时性计算机可读存储介质,其中将所获得的输出与指定相应蛋白质的所述多个氨基酸序列之一进行匹配包括:
基于所获得的输出生成隐马尔可夫模型(HMM);以及
将所述HMM与所述多个氨基酸序列之一进行匹配。
57.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述机器学习模型包括以下之一:
高斯混合模型(GMM);
包含多个集群的聚类模型,所述集群的每一个与一个或多个氨基酸相关联;
深度学习模型;
卷积神经网络;或者
联结时序分类(CTC)拟合神经网络。
58.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述经过训练的机器学习模型是通过将监督训练算法应用于训练数据而生成的。
59.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述经过训练的机器学习模型是通过将半监督训练算法应用于训练数据而生成的。
60.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述经过训练的机器学习模型是通过应用无监督训练算法而生成的。
61.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述经过训练的机器学习模型被配置为针对所述多肽中的所述多个位置的至少一些的每一个输出:
概率分布,其针对多种氨基酸的每一种,指示所述氨基酸存在于所述位置的概率。
62.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。
63.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。
64.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。
65.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中将所述数据作为输入提供给所述经训练的机器学习模型还包括:
识别所述数据的多个部分,每个部分对应于所述结合相互作用的相应一个;以及
将所述多个部分的每一个作为输入提供给所述经过训练的机器学习模型以获得对应于所述数据的每个部分的输出。
66.根据权利要求65所述的至少一个非暂时性计算机可读存储介质,其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于所述多个位置的相应一个的一种或多种可能性。
67.根据权利要求65所述的至少一个非暂时性计算机可读存储介质,其中识别所述数据的所述多个部分包括:
识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点;以及
基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分
68.根据权利要求65所述的至少一个非暂时性计算机可读存储介质,其中识别所述数据的所述多个部分包括生成所述数据的离散小波变换。
69.根据权利要求65所述的至少一个非暂时性计算机可读存储介质,其中识别所述数据的所述多个部分包括:
根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值;
识别所述数据中的一个或多个点,在这些点处,所述至少一个特性的值相对于所述统计数据的值偏离阈值量;以及
基于所识别的一个或多个点识别所述数据的所述多个部分。
70.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与所述多肽的氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。
71.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值,每个波长值指示在结合相互作用期间发射的光的波长。
72.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。
73.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。
74.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中所述光发射响应于一系列光脉冲,并且针对所述光脉冲的至少一些的每一个,所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。
75.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列成具有列的数据结构,其中:
第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及
第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。
76.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。
77.根据权利要求70所述的至少一个非暂时性计算机可读存储介质,其中所述一个或多个发光标签与所述多肽的至少一些氨基酸相关联。
78.根据权利要求53所述的至少一个非暂时性计算机可读存储介质,其中所述多个位置包括所述多肽内的至少一个相对位置。
79.一种训练用于识别多肽的氨基酸的机器学习模型的方法,所述方法包括:
使用至少一个计算机硬件处理器来执行:
访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及
使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。
80.根据权利要求79所述的方法,其中所述机器学习模型包括混合模型。
81.根据权利要求80所述的方法,其中所述混合模型包括高斯混合模型(GMM)。
82.根据权利要求79所述的方法,其中所述机器学习模型包括深度学习模型。
83.根据权利要求82所述的方法,其中所述深度学习模型包括卷积神经网络。
84.根据权利要求82所述的方法,其中所述深度学习模型包括联结时序分类(CTC)拟合神经网络。
85.根据权利要求79所述的方法,其中使用所述训练数据训练所述机器学习模型包括将监督训练算法应用于所述训练数据。
86.根据权利要求79所述的方法,其中使用所述训练数据训练所述机器学习模型包括将半监督训练算法应用于所述训练数据。
87.根据权利要求79所述的方法,其中使用所述训练数据训练所述机器学习模型包括将无监督训练算法应用于所述训练数据。
88.根据权利要求79所述的方法,其中所述机器学习模型包括聚类模型,并且训练所述机器学习模型包括识别所述聚类模型的多个集群,所述多个集群的每一个与一个或多个氨基酸相关联。
89.根据权利要求79所述的方法,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。
90.根据权利要求79所述的方法,其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。
91.根据权利要求79所述的方法,其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。
92.根据权利要求79所述的方法,还包括训练所述机器学习模型以针对多肽中的多个位置的每一个输出一个或多个相应氨基酸存在于所述位置的一种或多种可能性。
93.根据权利要求79所述的方法,其中训练所述机器学习模型包括:
识别所述数据的多个部分,每个部分对应于所述结合相互作用的相应一个;
将所述多个部分的每一个作为输入提供给所述机器学习模型以获得对应于所述数据的每个部分的输出;以及
使用对应于所述多个部分的输出来训练所述机器学习模型。
94.根据权利要求93所述的方法,其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于多个位置的相应一个的一种或多种可能性。
95.根据权利要求93所述的方法,其中识别所述数据的所述多个部分包括:
识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点;以及
基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分。
96.根据权利要求93所述的方法,其中识别所述数据的所述多个部分包括:
根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值;
识别所述数据中的一个或多个点,在这些点处,所述至少一个特性的值相对于所述汇总统计的值偏离阈值量;以及
基于所识别的一个或多个点识别所述数据的所述多个部分。
97.根据权利要求79所述的方法,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。
98.根据权利要求97所述的方法,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。
99.根据权利要求97所述的方法,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。
100.根据权利要求97所述的方法,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值,每个波长值指示在结合相互作用期间发射的光的波长。
101.根据权利要求97所述的方法,其中所述光发射响应于一系列光脉冲,并且针对所述光脉冲的至少一些的每一个,所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。
102.根据权利要求101所述的方法,其中训练所述机器学习模型包括通过将所述数据排列成具有列的数据结构来提供所述数据作为所述机器学习模型的输入,其中:
第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及
第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。
103.根据权利要求101所述的方法,其中训练所述机器学习模型包括通过将所述数据排列成具有行的数据结构来提供所述数据作为所述机器学习模型的输入,其中所述行的每一个在对应于所述至少一些光脉冲的相应时间间隔中保持一定数量的光子。
104.根据权利要求101所述的方法,其中将所述数据作为输入提供给所述机器学习模型包括将所述数据排列在图像中,其中所述图像的第一像素指定在所述至少一些脉冲的第一脉冲之后的第一时间段的第一时间间隔中检测到的第一数量的光子。
105.根据权利要求104所述的方法,其中所述图像的第二像素指定在所述至少一些脉冲的所述第一脉冲之后的所述第一时间段的第二时间间隔中检测到的第二数量的光子。
106.根据权利要求104所述的方法,其中所述图像的第二像素指定所述至少一些脉冲的第二脉冲之后的第二时间段的第一时间间隔中的第二数量的光子。
107.根据权利要求101所述的方法,其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列在图像中,其中所述图像的每个像素指定在所述至少一些脉冲的一个脉冲之后的时间段的相应时间间隔中检测到的一定数量的光子。
108.根据权利要求97所述的方法,其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。
109.根据权利要求97所述的方法,其中所述发光标签与所述至少一些氨基酸相关联。
110.根据权利要求79所述的方法,其中所述训练数据表示所述一种或多种试剂与单个分子的氨基酸的结合相互作用。
111.根据权利要求79所述的方法,其中所述训练数据表示所述一种或多种试剂与多个分子的氨基酸的结合相互作用。
112.根据权利要求79所述的方法,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个参数,这些参数描述针对结合相互作用检测到的信号脉冲的至少一个特性的分布。
113.根据权利要求79所述的方法,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个参数,这些参数源自针对结合相互作用检测到的信号脉冲的至少一个特性。
114.一种训练用于识别多肽的氨基酸的机器学习模型的系统,所述系统包括:
至少一个处理器;以及
至少一个存储指令的非暂时性计算机可读存储介质,当被所述至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括:
访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及
使用所述训练数据训练所述机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。
115.根据权利要求114所述的系统,其中所述机器学习模型包括混合模型。
116.根据权利要求115所述的系统,其中所述混合模型包括高斯混合模型(GMM)。
117.根据权利要求114所述的系统,其中所述机器学习模型包括深度学习模型。
118.根据权利要求117所述的系统,其中所述深度学习模型包括卷积神经网络。
119.根据权利要求117所述的系统,其中所述深度学习模型包括联结时序分类(CTC)拟合神经网络。
120.根据权利要求114所述的系统,其中使用所述训练数据训练所述机器学习模型包括将监督训练算法应用于所述训练数据。
121.根据权利要求114所述的系统,其中使用所述训练数据训练所述机器学习模型包括将半监督训练算法应用于所述训练数据。
122.根据权利要求114所述的系统,其中使用所述训练数据训练所述机器学习模型包括将无监督训练算法应用于所述训练数据。
123.根据权利要求114所述的系统,其中所述机器学习模型包括聚类模型,并且训练所述机器学习模型包括识别所述聚类模型的多个集群,所述多个集群的每一个与一个或多个氨基酸相关联。
124.根据权利要求114所述的系统,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。
125.根据权利要求114所述的系统,其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。
126.根据权利要求114所述的系统,其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。
127.根据权利要求114所述的系统,其中当被所述至少一个处理器执行时,所述指令进一步使所述至少一个处理器执行:
训练所述机器学习模型以针对多肽中的多个位置的每一个输出一个或多个相应氨基酸存在于所述位置的一种或多种可能性。
128.根据权利要求114所述的系统,其中训练所述机器学习模型包括:
识别所述数据的多个部分,每个部分对应于所述结合相互作用的相应一个;
将所述多个部分的每一个作为输入提供给所述机器学习模型以获得对应于所述数据的每个部分的输出;以及
使用对应于所述多个部分的输出来训练所述机器学习模型。
129.根据权利要求128所述的系统,其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于多个位置的相应一个的一种或多种可能性。
130.根据权利要求128所述的系统,其中识别所述数据的所述多个部分包括:
识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点;以及
基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分。
131.根据权利要求128所述的系统,其中识别所述数据的所述多个部分包括:
根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值;
识别所述数据中的一个或多个点,在这些点处,所述至少一个特性的值相对于所述汇总统计的值偏离阈值量;以及
基于所识别的一个或多个点识别所述数据的所述多个部分。
132.根据权利要求114所述的系统,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。
133.根据权利要求132所述的系统,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。
134.根据权利要求132所述的系统,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。
135.根据权利要求132所述的系统,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值,每个波长值指示在结合相互作用期间发射的光的波长。
136.根据权利要求132所述的系统,其中所述光发射响应于一系列光脉冲,并且针对所述光脉冲的至少一些的每一个,所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。
137.根据权利要求136所述的系统,其中训练所述机器学习模型包括通过将所述数据排列成具有列的数据结构来提供所述数据作为所述机器学习模型的输入,其中:
第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及
第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。
138.根据权利要求136所述的系统,其中训练所述机器学习模型包括通过将所述数据排列成具有行的数据结构来提供所述数据作为所述机器学习模型的输入,其中所述行的每一个在对应于所述至少一些光脉冲的相应时间间隔中保持一定数量的光子。
139.根据权利要求136所述的系统,其中将所述数据作为输入提供给所述机器学习模型包括将所述数据排列在图像中,其中所述图像的第一像素指定在所述至少一些脉冲的第一脉冲之后的第一时间段的第一时间间隔中检测到的第一数量的光子。
140.根据权利要求139所述的系统,其中所述图像的第二像素指定在所述至少一些脉冲的所述第一脉冲之后的所述第一时间段的第二时间间隔中检测到的第二数量的光子。
141.根据权利要求139所述的系统,其中所述图像的第二像素指定所述至少一些脉冲的第二脉冲之后的第二时间段的第一时间间隔中的第二数量的光子。
142.根据权利要求139所述的系统,其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列在图像中,其中所述图像的每个像素指定在所述至少一些脉冲的一个脉冲之后的时间段的相应时间间隔中检测到的一定数量的光子。
143.根据权利要求132所述的系统,其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。
144.根据权利要求132所述的系统,其中所述发光标签与所述至少一些氨基酸相关联。
145.根据权利要求114所述的系统,其中所述训练数据表示所述一种或多种试剂与单个分子的氨基酸的结合相互作用。
146.根据权利要求114所述的系统,其中所述训练数据表示所述一种或多种试剂与多个分子的氨基酸的结合相互作用。
147.根据权利要求114所述的系统,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个参数,这些参数描述针对结合相互作用检测到的信号脉冲的至少一个特性的分布。
148.根据权利要求114所述的系统,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个参数,这些参数源自针对结合相互作用检测到的信号脉冲的至少一个特性。
149.至少一个存储指令的非暂时性计算机可读存储介质,当被至少一个处理器执行时,所述指令使所述至少一个处理器执行一种方法,所述方法包括:
访问所获得的一种或多种试剂与氨基酸的结合相互作用的训练数据;以及
使用所述训练数据训练机器学习模型以获得用于识别多肽的氨基酸的经过训练的机器学习模型。
150.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中所述机器学习模型包括混合模型。
151.根据权利要求150所述的至少一个非暂时性计算机可读存储介质,其中所述混合模型包括高斯混合模型(GMM)。
152.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中所述机器学习模型包括深度学习模型。
153.根据权利要求152所述的至少一个非暂时性计算机可读存储介质,其中所述深度学习模型包括卷积神经网络。
154.根据权利要求152所述的至少一个非暂时性计算机可读存储介质,其中所述深度学习模型包括联结时序分类(CTC)拟合神经网络。
155.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中使用所述训练数据训练所述机器学习模型包括将监督训练算法应用于所述训练数据。
156.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中使用所述训练数据训练所述机器学习模型包括将半监督训练算法应用于所述训练数据。
157.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中使用所述训练数据训练所述机器学习模型包括将无监督训练算法应用于所述训练数据。
158.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中所述机器学习模型包括聚类模型,并且训练所述机器学习模型包括识别所述聚类模型的多个集群,所述多个集群的每一个与一个或多个氨基酸相关联。
159.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲持续时间值,每个脉冲持续时间值指示针对结合相互作用检测到的信号脉冲的持续时间。
160.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括脉冲间持续时间值,每个脉冲间持续时间值指示针对结合相互作用检测到的连续信号脉冲之间的持续时间。
161.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中所获得的一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个脉冲持续时间值和一个或多个脉冲间持续时间值。
162.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中当被至少一个处理器时,所述指令进一步使所述至少一个处理器执行:
训练所述机器学习模型以针对多肽中的多个位置的每一个输出一个或多个相应氨基酸存在于所述位置的一种或多种可能性。
163.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中训练所述机器学习模型包括:
识别所述数据的多个部分,每个部分对应于所述结合相互作用的相应一个;
将所述多个部分的每一个作为输入提供给所述机器学习模型以获得对应于所述数据的每个部分的输出;以及
使用对应于所述多个部分的输出来训练所述机器学习模型。
164.根据权利要求163所述的至少一个非暂时性计算机可读存储介质,其中对应于所述数据部分的所述输出指示一个或多个相应氨基酸存在于多个位置的相应一个的一种或多种可能性。
165.根据权利要求163所述的至少一个非暂时性计算机可读存储介质,其中识别所述数据的所述多个部分包括:
识别所述数据中对应于所述一个或多个氨基酸的切割的一个或多个点;以及
基于所识别的对应于所述一个或多个氨基酸的所述切割的一个或多个点识别所述数据的所述多个部分。
166.根据权利要求163所述的至少一个非暂时性计算机可读存储介质,其中识别所述数据的所述多个部分包括:
根据所述数据确定所述结合相互作用的至少一个特性的汇总统计值;
识别所述数据中的一个或多个点,在这些点处,所述至少一个特性的值相对于所述汇总统计的值偏离阈值量;以及
基于所识别的一个或多个点识别所述数据的所述多个部分。
167.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括从所检测到的一个或多个发光标签的光发射获得的数据。
168.根据权利要求167所述的至少一个非暂时性计算机可读存储介质,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光寿命值。
169.根据权利要求167所述的至少一个非暂时性计算机可读存储介质,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括发光强度值。
170.根据权利要求167所述的至少一个非暂时性计算机可读存储介质,其中从所检测到的所述一个或多个发光标签的光发射获得的所述数据包括波长值,每个波长值指示在结合相互作用期间发射的光的波长。
171.根据权利要求167所述的至少一个非暂时性计算机可读存储介质,其中所述光发射响应于一系列光脉冲,并且针对所述光脉冲的至少一些的每一个,所述数据包括在作为所述光脉冲之后的时间段的一部分的多个时间间隔的每一个中检测到的相应数量的光子。
172.根据权利要求171所述的至少一个非暂时性计算机可读存储介质,其中训练所述机器学习模型包括通过将所述数据排列成具有列的数据结构来提供所述数据作为所述机器学习模型的输入,其中:
第一列在作为所述光脉冲系列中的第一光脉冲之后的第一时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子;以及
第二列在作为所述光脉冲系列中的第二光脉冲之后的第二时间段的一部分的第一和第二时间间隔的每一个中保持相应数量的光子。
173.根据权利要求171所述的至少一个非暂时性计算机可读存储介质,其中训练所述机器学习模型包括通过将所述数据排列成具有行的数据结构来提供所述数据作为所述机器学习模型的输入,其中所述行的每一个在对应于所述至少一些光脉冲的相应时间间隔中保持一定数量的光子。
174.根据权利要求171所述的至少一个非暂时性计算机可读存储介质,其中将所述数据作为输入提供给所述机器学习模型包括将所述数据排列在图像中,其中所述图像的第一像素指定在所述至少一些脉冲的第一脉冲之后的第一时间段的第一时间间隔中检测到的第一数量的光子。
175.根据权利要求174所述的至少一个非暂时性计算机可读存储介质,其中所述图像的第二像素指定在所述至少一些脉冲的所述第一脉冲之后的所述第一时间段的第二时间间隔中检测到的第二数量的光子。
176.根据权利要求174所述的至少一个非暂时性计算机可读存储介质,其中所述图像的第二像素指定所述至少一些脉冲的第二脉冲之后的第二时间段的第一时间间隔中的第二数量的光子。
177.根据权利要求171所述的至少一个非暂时性计算机可读存储介质,其中将所述数据作为输入提供给所述经过训练的机器学习模型包括将所述数据排列在图像中,其中所述图像的每个像素指定在所述至少一些脉冲的一个脉冲之后的时间段的相应时间间隔中检测到的一定数量的光子。
178.根据权利要求167所述的至少一个非暂时性计算机可读存储介质,其中所述一个或多个发光标签与所述一种或多种试剂的至少一种相关联。
179.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中所述发光标签与所述至少一些氨基酸相关联。
180.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中所述训练数据表示所述一种或多种试剂与单个分子的氨基酸的结合相互作用。
181.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中所述训练数据表示所述一种或多种试剂与多个分子的氨基酸的结合相互作用。
182.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个参数,这些参数描述针对结合相互作用检测到的信号脉冲的至少一个特性的分布。
183.根据权利要求149所述的至少一个非暂时性计算机可读存储介质,其中一种或多种试剂与氨基酸的结合相互作用的所述数据包括一个或多个参数,这些参数源自针对结合相互作用检测到的信号脉冲的至少一个特性。
CN202080057353.9A 2019-06-12 2020-06-12 使用机器学习和相关系统和方法进行蛋白质识别的技术 Pending CN115989545A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962860750P 2019-06-12 2019-06-12
US62/860,750 2019-06-12
PCT/US2020/037541 WO2020252345A1 (en) 2019-06-12 2020-06-12 Techniques for protein identification using machine learning and related systems and methods

Publications (1)

Publication Number Publication Date
CN115989545A true CN115989545A (zh) 2023-04-18

Family

ID=71409529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080057353.9A Pending CN115989545A (zh) 2019-06-12 2020-06-12 使用机器学习和相关系统和方法进行蛋白质识别的技术

Country Status (10)

Country Link
US (1) US20200395099A1 (zh)
EP (1) EP3966824A1 (zh)
JP (1) JP2022536343A (zh)
KR (1) KR20220019778A (zh)
CN (1) CN115989545A (zh)
AU (1) AU2020290510A1 (zh)
BR (1) BR112021024915A2 (zh)
CA (1) CA3142888A1 (zh)
MX (1) MX2021015347A (zh)
WO (1) WO2020252345A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3881078A1 (en) 2018-11-15 2021-09-22 Quantum-Si Incorporated Methods and compositions for protein sequencing
US11126890B2 (en) * 2019-04-18 2021-09-21 Adobe Inc. Robust training of large-scale object detectors with a noisy dataset
EP4045684A1 (en) * 2019-10-28 2022-08-24 Quantum-Si Incorporated Methods of preparing an enriched sample for polypeptide sequencing
US11250568B2 (en) 2020-03-06 2022-02-15 Bostongene Corporation Techniques for determining tissue characteristics using multiplexed immunofluorescence imaging
EP4143579A2 (en) 2020-05-20 2023-03-08 Quantum-si Incorporated Methods and compositions for protein sequencing
CN114093415B (zh) * 2021-11-19 2022-06-03 中国科学院数学与系统科学研究院 肽段可检测性预测方法及系统
CN117744748B (zh) * 2024-02-20 2024-04-30 北京普译生物科技有限公司 一种神经网络模型训练、碱基识别方法及装置、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170276686A1 (en) * 2014-09-15 2017-09-28 Board Of Regents, The University Of Texas System Single molecule peptide sequencing
WO2017214320A1 (en) * 2016-06-07 2017-12-14 Edico Genome, Corp. Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing
US20190018019A1 (en) * 2017-07-17 2019-01-17 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050119454A1 (en) * 2000-01-24 2005-06-02 The Cielo Institute, Inc. Algorithmic design of peptides for binding and/or modulation of the functions of receptors and/or other proteins
CA2466792A1 (en) * 2003-05-16 2004-11-16 Affinium Pharmaceuticals, Inc. Evaluation of spectra
EP2389585A2 (en) * 2009-01-22 2011-11-30 Li-Cor, Inc. Single molecule proteomics with dynamic probes
US20120015825A1 (en) * 2010-07-06 2012-01-19 Pacific Biosciences Of California, Inc. Analytical systems and methods with software mask
US9665694B2 (en) * 2013-01-31 2017-05-30 Codexis, Inc. Methods, systems, and software for identifying bio-molecules with interacting components
US9212996B2 (en) * 2013-08-05 2015-12-15 Tellspec, Inc. Analyzing and correlating spectra, identifying samples and their ingredients, and displaying related personalized information
KR102341026B1 (ko) * 2013-09-27 2021-12-21 코덱시스, 인코포레이티드 구조에 기반한 예측 모델링
CN112903638A (zh) * 2014-08-08 2021-06-04 宽腾矽公司 用于对分子进行探测、检测和分析的带外部光源的集成装置
WO2018132752A1 (en) * 2017-01-13 2018-07-19 Massachusetts Institute Of Technology Machine learning based antibody design
EP3612545A4 (en) * 2017-04-18 2021-01-13 X-Chem, Inc. METHOD OF IDENTIFICATION OF CONNECTIONS
US11587644B2 (en) * 2017-07-28 2023-02-21 The Translational Genomics Research Institute Methods of profiling mass spectral data using neural networks
US20210043273A1 (en) * 2018-02-02 2021-02-11 Arizona Board Of Regents On Behalf Of Arizona State University Methods, systems, and media for predicting functions of molecular sequences
IL276730B2 (en) * 2018-02-17 2024-08-01 Regeneron Pharma GAN–CNN for MHC peptide binding prediction
US20210151123A1 (en) * 2018-03-08 2021-05-20 Jungla Inc. Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
EP3881078A1 (en) * 2018-11-15 2021-09-22 Quantum-Si Incorporated Methods and compositions for protein sequencing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170276686A1 (en) * 2014-09-15 2017-09-28 Board Of Regents, The University Of Texas System Single molecule peptide sequencing
WO2017214320A1 (en) * 2016-06-07 2017-12-14 Edico Genome, Corp. Bioinformatics systems, apparatus, and methods for performing secondary and/or tertiary processing
US20190018019A1 (en) * 2017-07-17 2019-01-17 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning

Also Published As

Publication number Publication date
AU2020290510A1 (en) 2022-02-03
US20200395099A1 (en) 2020-12-17
CA3142888A1 (en) 2020-12-17
KR20220019778A (ko) 2022-02-17
EP3966824A1 (en) 2022-03-16
BR112021024915A2 (pt) 2022-01-18
MX2021015347A (es) 2022-04-06
WO2020252345A9 (en) 2022-02-10
WO2020252345A1 (en) 2020-12-17
JP2022536343A (ja) 2022-08-15

Similar Documents

Publication Publication Date Title
US20200395099A1 (en) Techniques for protein identification using machine learning and related systems and methods
US20230207062A1 (en) Machine learning enabled pulse and base calling for sequencing devices
US11908548B2 (en) Training data generation for artificial intelligence-based sequencing
US11347965B2 (en) Training data generation for artificial intelligence-based sequencing
US11587644B2 (en) Methods of profiling mass spectral data using neural networks
WO2022243303A1 (en) Method and system for 3d reconstruction of tissue gene expression data
NL2023311B1 (en) Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
US20230114905A1 (en) Highly multiplexable analysis of proteins and proteomes
Smith et al. Estimating error rates for single molecule protein sequencing experiments
US20230298339A1 (en) State-based base calling
US20230087698A1 (en) Compressed state-based base calling
US20230360732A1 (en) Systems and methods for assessing and improving the quality of multiplex molecular assays
US20240321393A1 (en) Cell-type optimization method and scanner
Mohamed Adaptable Biophysically-Interpretable Neural Networks in Genomics and Biomedicine
WO2023049215A1 (en) Compressed state-based base calling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination