CN116635950A

CN116635950A - 样本定量分析的改进或与样本定量分析相关的改进

Info

Publication number: CN116635950A
Application number: CN202180063349.8A
Authority: CN
Inventors: 阿列克谢·莫尔古诺夫; 西蒙·莫林
Original assignee: Fluidic Analytics Ltd
Current assignee: Fluidic Analytics Ltd
Priority date: 2020-09-16
Filing date: 2021-09-16
Publication date: 2023-08-22
Also published as: JP2023545630A; CA3195550A1; KR20230069937A; WO2022058731A1; GB202014608D0; EP4214720A1; US20230360747A1

Abstract

提供了一种用于改进样本的定量分析的系统。所述系统包括：设备；数据存储器和处理电路，所述处理电路被配置为使所述系统运行。所述设备被配置为对流体样本进行溶液中生物大分子相互作用的定量分析以提供定量分析数据。数据存储器用于存储：与多个个体相关的个人数据；以及与生物大分子相互作用有关的数据。所述处理电路被配置为访问数据存储器并识别和检索与所述样本相关的数据；根据所检索到的数据来设置在所述设备中执行所述样本的定量分析的参数；使用通用模型执行分析，以创建来自所述设备的定量分析的预测结果；从所述设备接收所述样本的定量分析数据；将从设备接收的所述定量分析与预测结果进行比较；以及用所比较的输出和所接收的定量分析数据中的至少一种更新所述数据存储器。

Description

样本定量分析的改进或与样本定量分析相关的改进

技术领域

本发明涉及样本的定量分析，特别是涉及导致改进的实验设计的智能收集和知识处理的改进。

背景技术

诊断学在历史上基本上是一个二元领域，识别疾病的存在或不存在，免疫的存在或不存在等。然而，生物医学数据领域是多维的和复杂的，并且越来越多的情况是，二元输出不足以捕捉系统的复杂性和细微差别。

近年来，许多人研究了生物分子如蛋白质之间的相互作用，以帮助开发用于各种疾病的更复杂的诊断工具/医疗工具。蛋白质-蛋白质相互作用(Protein-proteininteractions，PPIs)形成了许多生物学和生理学相关过程的基础，包括：蛋白质自组装；蛋白质聚集；抗体-抗原识别；肌肉收缩和细胞通讯。然而，研究蛋白质-蛋白质相互作用，特别是在复杂介质的生理条件下，仍然具有挑战性。当前的技术，如酶联免疫吸附试验(enzyme-linked immunosorbent assay，ELISA)、多重微珠试验以及表面等离子体共振(surfaceplasmon resonance，SPR)光谱，这些技术依赖于固定一个结合搭档。这些技术包括潜在的与表面的非特异性相互作用，这可能导致假阳性结果，以及包括钩状效应/前带效应(Hook/Prozone effect)，这可能导致假阴性结果，因此这些技术只允许进行半定量分析。

目前，所有已知的用于临床蛋白质检测和定量的方法都涉及依赖于表面固定化或微珠固定化的试验，例如ELISA试验。虽然ELISA试验可以实现相对较高的灵敏度，但它们不能确定描述溶液中结合相互作用的生物物理参数，尽管生理学相关过程发生在溶液中。

已经出现了实现增强灵敏度的替代策略，该策略包括使用抗体对来检测蛋白质分子，以及使用为用于读出相对强度的流式细胞仪开发的仪器。然而，这些试验仍然在微珠的表面上进行，因此也存在上述基于表面的技术的通病。此外，这些技术通常很耗时。

机器学习算法最近被用于蛋白质-蛋白质相互作用的研究，特别是用于研究参与不同生物过程的蛋白质功能和途径，以及用于理解疾病的起因和发展。已经采用了一些实验技术来识别PPI，但是这些技术仅限于二元输出，并且在识别、分析和预测PPI的生物物理特性以为患者提供有意义的结果方面仍然存在差距。

因此，需要提供一种溶液内平台，基于公共可用的生物物理数据以及基于所测量的生物分子间相互作用(例如生物标志物及其在体液中的特定靶点)的生物物理性质，该平台可用于以完全定量的方式对患者的结果进行整理、分析并向患者推荐结果。

此外，了解可用生物医学数据的广度增加的细微差别，有助于对疾病发展和疾病监测采取更加个性化的方法，以便可以根据患者的个人生物医学数据定制治疗方案。

本发明就是在这种背景下产生的。

发明内容

本发明提供了一种用于改进样本的定量分析的系统。该系统包括：被配置为对流体样本进行溶液中生物-大分子相互作用的定量分析以提供定量分析数据的设备；数据存储器，用于存储与多个个体相关的个人数据和与生物-大分子相互作用相关的数据；以及处理电路。所述处理电路被配置为访问所述数据存储器并识别和检索与所述样本相关的数据；根据所检索到的数据来设置在所述设备中执行所述样本的定量分析的参数；使用通用模型执行分析，以创建来自设备的定量分析的预测结果；从所述设备接收所述样本的定量分析数据；将从设备接收的所述定量分析与预测结果进行比较；以及用所比较的输出和所接收的定量分析数据中的至少一种更新所述数据存储器。

从所述设备接收的所述定量分析和预测结果之间的比较的输出可能是对所述预测结果的验证。相反，从设备接收的定量分析和预测结果之间的比较的输出可能是与预测结果的偏差。

被配置为执行所述分析的电路可以包括机器学习算法。

相对于仅仅对指标的存在或不存在进行二元分类，样本的定量分析能够提供更大的洞察力。定量分析引入了一种能够诊断更加细微的差别的诊断工具，而不仅仅只是生物标志物的存在与否。

数据存储器是一个不断发展的信息库，其从各种来源提取信息，并涉及所有的智能循环。即使它仅从低置信度的实验数据开始，这也足以增加一些价值，并且当设备对样本进行定量分析时，从该分析中收集的额外数据用于扩充该知识库。

为了使系统运行以提供临床相关的输出，数据存储器中包括与多个个体相关的个人数据。该数据可能包括来自医疗记录的任何相关信息，包括药物治疗、病史、疾病状态和严重程度、年龄、性别和体重。当系统计算关于例如疾病状态的附加数据时，可以将它们添加到数据存储器中，从而使得能够随时间跟踪患者的疾病状态。

例如，通用模型涉及蛋白质-蛋白质相互作用本身。模型的来源可以包括来自系统本身、作为专有数据集或来自第三方库数据集的任何实验数据或患者数据。蛋白质-蛋白质相互作用本身通用模型的创建也使得能够通过现有数据的插值来预测缺失数据。内插数据点或预测数据点的准确度得分将反映这些数据点的性质。

在系统的以患者为中心的部署中，样本可以从个体获得，并且处理电路可以被配置为执行从所述设备接收的所述定量分析数据的进一步分析，以产生患者的临床相关数据。

临床相关数据或输出可以采取二元结果的形式，确认在所提供的流体样本中存在或不存在关键生物标志物(例如抗体)的阈值水平。此外，临床相关数据也可以提供样本中识别的生物标志物的量。

另外地或替代地，临床相关输出可涉及先前诊断的疾病状态的严重程度的增量变化。这可能包括有关疾病变化率的信息。关于疾病状态的该信息还可以与该个体的个人数据相结合，该个人数据包括关于药物的剂量方案的信息，以便基于所识别的疾病严重程度以推荐剂量修改的形式提供临床相关输出。

处理电路还可以被配置成更新与所分析的个体样本相关的个人数据。这在个体层面上提供了反馈回路的闭合。保存在数据存储器中的个体的个人数据通过新的样本定量分析得到增强。这些数据与个人记录一起存储，同时存储的还有经过处理的结果和从样本定量分析中获得的其他元数据。

关于与系统一起部署的数据源，与生物大分子相互作用相关的数据可以包括来自个人的匿名数据和实验数据。

在本发明的上下文中，术语“生物大分子相互作用”用于描述天然形式或其任何化学修饰衍生物的所有相互作用，包括蛋白质、多肽、适体、核酸和抗体之间的标记变体。每个相互作用可以是相同类型或不同类型的两个生物大分子之间的相互作用。蛋白质-蛋白质相互作用是生物大分子相互作用，蛋白质-多肽相互作用也是如此。大分子可以是天然的或合成的。大分子中的一种可以包含探针，其可以被标记。

数据存储器中的每个数据点可以具有相关联的准确度分数，并且更新数据存储器的步骤包括更新准确度分数。准确度分数将关于数据的来源的信息通知给算法，例如，数据是使用与系统中包括的设备类似的设备还是不同的设备获得的。准确性分数将进一步告知算法该数据是否与样本关于一个或多个因素(例如年龄、性别、体重、疾病状态、疾病严重程度)相关。

由系统生成的每个预测结果可以具有相关联的准确度分数。预测结果中的准确度分数考虑了与数据的准确度相关的基本或随机误差，还考虑了与新数据点与使用训练数据集开发的现有模型的接近程度相关的认知误差。

与生物大分子相互作用相关的数据可以包括基于相邻数据的预测数据。在数据子集的准确度分数足够高并且因此对该数据的准确度的置信度足够高的情况下，机器学习算法被配置为提供对位于数据空间中与具有高置信度的预先存在的数据点相邻的预期结果的预测。

个人数据可以包括以下一项或多项：医疗记录、年龄、性别、体重、疾病状态、疾病严重程度、处方药物的名称和相应的剂量方案。

可以包括在数据存储器中的先验信息越多，系统就可以更准确地分析来自个体的样本。一般来说，由于更准确的先验是可用的，因此为给定个体的分析提供的后续样本可以用更好的调整参数来评估。因此，机器学习算法可以从数据存储器中获取个人数据作为先验的一部分，例如，基于疾病状态和严重程度，较少依赖于被认为类似于实验数据的数据。

样本可以是细胞培养物。由于细胞培养样本不太复杂，因此，细胞培养样本对于提供通用模型的信息至关重要。由于它们可以被制备成仅包含感兴趣的试剂，因此定量分析不应该受到副反应或其他虚假信号的影响。

样本可以是体液。特别地，样本可以是血液或可以来源于血液，包括血清和血浆，或者样本可以是脑脊液(CSF)、唾液、汗液、粪便或尿液。

关于部署在系统内的模型，其中，机器学习算法可以包括与诸如疾病状态的临床相关输出相关的多个特定模型。这些模型可以实现多种输出，包括患者分层，并且能够预测疾病严重程度和疾病发展。这些模型还可以提供与特定疾病状态相关的个体风险的风险评估。

机器学习算法可以被配置为使得由设备执行的每个定量分析提供信息给特定模型和通用模型。这是反馈回路的结束，系统执行的每个定量分析都被反馈到数据存储器中，并告知特定和通用模型。例如，如果在特定个体的样本中进行了定量分析，分析的输出将被添加到该个体的个人数据中。此外，通过该疾病的改进的特定模型，可以访问该数据以告知给具有类似疾病状态或严重程度的其他个体相关的特定模型。此外，与蛋白质-蛋白质相互作用本身相关的数据将可用于通用模型。

关于在系统上进行的定量分析，样本的定量分析可以包括生物大分子相互作用的亲和力的测量。

另外地或替代地，所述样本的定量分析可包括样本内感兴趣的生物大分子的浓度的测量。

另外地或替代地，所述样本的定量分析包括对所述样本的异质性的分析。样本的异质性可以包括但不限于，异构体的存在和/或程度、翻译后修饰、不同的化学计量比、额外的结合搭档、剪接异构体。样本的定量分析还可以包括电荷、迁移率、流体动力学半径、蛋白质内的氨基酸含量、蛋白质荧光的分析。

关于由机器学习算法设置的参数，这些参数可以包括样本制备参数。样本制备参数可包括但不限于滴定浓度；缓冲液浓度和/或缓冲液成分，例如缓冲液的pH值；添加到反应混合物中的任何其它化学成分的特性和浓度，所述反应混合物包括但不限于盐、表面活性剂、共溶剂和有机分子；反应条件，例如时间和温度；对测试样本本身进行的任何制备，包括其新鲜或冷冻状态；进行的准备步骤包括但不限于过滤、离心、特定成分的耗尽中的一种或多种；对添加的标记成分进行的任何制备，包括但不限于纯化、规定储存条件中的一种或多种；以及样本的流速和/或缓冲液的流速。在一个实施例中，S1蛋白质与ACE2蛋白质形成复合物，可以将含有抗体的血清滴定添加到复合物中。在该示例中，可以由机器学习算法改变的参数包括：未标记的S1蛋白质的浓度；标记的ACE2蛋白质的浓度和浓度，即血清的滴定程度。参数是变化的，以确保实验在适合提供最丰富的数据输出的条件下进行。

替代地或附加地，由机器学习算法设置的参数可以包括设备条件。设备条件包括但不限于，进行试验的温度、施加的电压、进行观察的波长；以及可用于防止成分粘附到微流体设备的通道壁上的抗粘附物质。

替代地或附加地，由机器学习算法设置的参数可以包括但不限于标记的选择，例如所使用的荧光团的类型，以及因此对读出数据时的波长进行优化。此外，参数可以包括一种或多种添加剂，例如HSA。

可替换地或附加地，由机器学习算法设置的参数可以包括但不限于，设置对分析的输出的预期。预期值的设置基于来自数据存储器中的先验信息。预期的置信度将受到数据存储器中相关数据的准确度分数的影响。当设备随后进行定量分析时，分析结果可能验证预期，也可能偏离预期。在后一种情况下，如果分析结果偏离预期，这可能导致进行进一步的定量分析，并且能进一步通知系统开发的模型。

关于部署在系统内的设备，该设备可以包括微流控网络，该微流控网络被配置为能够组合和分配样本流体和辅助流体以产生分配样本，以及随后将所述分配样本分成两个或多个部分，并且测量所述两个或多个部分中的至少一个。

分配可以通过扩散、电泳或磁电泳、热电泳、色谱和等电聚焦中的一种或多种方式来产生。各种不同的色谱技术也可以适用，包括但不限于尺寸排阻色谱和反相色谱。

该设备可以被配置为将所述分配样本分成两个以上的部分，并且对每个分出的部分进行测量。

附图说明

现在仅以示例的方式参照附图描述本发明，其中：

图1是示出本发明的反馈工作流程的流程图，该反馈工作流程涉及改进的实验设计和数据存储器中增强的数据；

图1还示出了所述反馈工作流程在提供临床相关预测的方面的应用；

图2示出了图1中列出的系统的四个独立用例的情况；

图3是本发明系统内提供的微流体设备的示意图；

图4是SARS-CoV-2的示意图，其中，SARS-CoV-2是一种正义单链RNA病毒，主要由四种主要的结构蛋白组成：包膜(E)、膜(M)、核蛋白(N)和刺突(S)蛋白；

图5A示出了在含有0.05％吐温20的PBS缓冲液中，抗刺突S1抗体与20nM AlexaFluor 647标记的SARS-CoV-2RBD的平衡结合曲线；

图5B示出了人的血清中抗刺突S1抗体与20nM Alexa Fluor 647标记的SARS-CoV-2RBD的平衡结合曲线；

图6A示出了SARS-CoV-2RBD的不同变体与人的ACE2受体结合的解离常数K_D；

图6B示出了SARS-CoV-2RBD的不同变体与中和单克隆抗体结合的解离常数K_D；以及

图7示出了受体结合竞争试验的示意图。

具体实施方式

图1示出了在本发明的系统10上实现的工作流程。系统10包括数据存储器19，数据存储器19可包括专有知识数据库21、第三方数据库24，第三方数据库24包括与蛋白质-蛋白质相互作用有关的开源通用数据或其他相关生物大分子相互作用有关的开源通用数据。此外，数据存储器19包括在设备50(下面参照图3更详细地示出和描述设备50)上生成的内部数据26。数据存储器19可以是单个数据存储器，或者它可以包括多个子存储器，每个子存储器存储来自特定源的数据。这些子存储可以物理地与设备50位于同一位置，或者它们可以分布设置，特别是基于云分布设置。不管这些子存储器的物理位置如何，它们在功能上是链接的，因此通常被称为数据存储器19。

系统10还包括机器学习算法32，该机器学习算法32包括与生物大分子相互作用相关的至少一个通用模型34。机器学习算法32包括多个不同的算法，每个算法被选择以用于模型。存在与疾病状态相关的至少一个通用模型34和一个特定模型36。

当获得样本时，无论其来自细胞培养物、缓冲液中的抗体、体外或体内样本，即，无论其来源如何，与待分析的相互作用相关的蛋白质-蛋白质相互作用数据都从通用模型中获得。然后使用该通用模型数据来预测样本分析的定量结果，从而可以识别信息最丰富的区域。然后使用机器学习算法来向设备50提供关于样本制备的参数和/或实验条件的参数的指导，这些参数将允许在信息丰富的区域中进行定量分析。然后，设备50进行样本制备并使样本流过设备50，产生横向分布并获取定量读数，从而测量例如样本的亲和力、浓度或异质性。然后将测量的定量数据预测值进行比较，得出两种结果之一。

如果测量值与预测值非常接近，则模型得到验证，样本可以以高精度分数包含在专有数据库中。相反，如果测量与预测值有偏差或偏离预测值，则这可能表明需要进一步分析以了解为什么会出现偏离。这种迭代方法可以导致对同一样本进行进一步分析，以调查预测数据和测量数据之间的差异。

当获得患者样本时，除了访问与生物大分子相互作用有关的通用模型之外，机器学习算法32还访问数据存储器19以获得与患者相关的个人数据。该数据可以包括来自设备50的来自先前定量分析的先前定量数据。此外，个人数据可能包括患者数据，如患者的年龄、体重、性别、药物治疗方案和其他相关风险因素。此外，机器学习算法32将访问与疾病状态相关的特定模型36。机器学习算法32将使用这三个先验源来给出在样本内待研究的生物大分子相互作用的预测的定量测量。机器学习算法32还将开发和设计实验条件，在该实验条件下，设备50将运行以最好地观察预测的定量测量。

一旦设备50在算法32规定的条件下进行了实验，就参考患者数据和特定模型进一步分析定量数据，以给出患者的临床相关输出。该临床相关输出可以是患者疾病状态的总结，包括与先前数据的比较，以给出疾病的进展率。此外，临床相关输出可以包括与药物方案相关的建议，该建议包括改变现有药物的剂量或改变所使用的药物。

图2示出了系统10可以运行的一些不同模式。在初始的自我参考阶段，系统10可以使用样本来运行，从而仅访问通用模型并通过增加数据的准确性分数来优化内部数据存储器或专有数据存储器，该内部数据存储器或专有数据存储器与K_D、PPI网络信息、溶液中蛋白质的生物物理性质有关；以及优化流体动力学半径、电荷、剪接异构体或电荷异构体。由于本地生成的数据集的规模和可信度的增加，因此，这将使得对开放源PPI数据和公共数据库的依赖随着时间的推移而减少。

本发明的系统10可以运行的第二模式是引入特定模型并使用该系统作为生物标记评估的平台。设备50被配置成定量测量感兴趣的生物大分子相互作用的亲和力、浓度和/或电荷。这提供了对蛋白质-蛋白质相互作用和结合机制的特性的深入了解。这反过来使得蛋白质-蛋白质相互作用与临床结果相关联。这这使得能够对用于筛查疾病的特定PPI进行回溯性预测。此外，时间顺序取样为个别患者提供了早期诊断。

本发明的系统10可以运行的第三模式结合了蛋白质指纹方法，该方法将多个特定模型和其他探针辅助分析与无探针方法相结合，以确定生物大分子相互作用之间的生物物理性质。无假设数据采集模式，在该模式下对设备被配置为测量时的生物物理特性进行测量，并将该数据与患者数据结合，进而与临床结果相关联。

探针可用于在结合位点附着到特定序列上或附着到感兴趣的生物分子的特定表面上。探针可以被标记，例如用荧光团标记，以便使用户能够观察和检测待定量的生物大分子。合适的荧光团的示例是Alexa FluorTM、ATTO、DyLight或家族内的其他染料，但不限于单个染料，例如DyLight 350、ATTO 488、DY-489XL、Alexa FluorTM 647或Alexa FluorTM700。染料不局限于具有可见波长的荧光，并且可以在光谱的UV、可见区域或IR区域中具有活性。

具有标记(诸如荧光标记)的探针可能是期望的，因为它可以在选择标记的位置方面提供更大的灵活性，并且增强的荧光性质可以适用于更多用于定量分析感兴趣的生物分子的生物物理技术。因此，在本发明的系统内提供具有附着到探针的标记的探针可以是非常有利的，因为探针可以使用户能够准确和快速地确定生物大分子相互作用的一个或多个生物物理性质，例如感兴趣的生物大分子相互作用的亲和力、浓度和/或电荷。

在一些情况下，也可以使用无探针方法的示例。在无探针方法中，暴露在感兴趣的生物分子表面上的一个或多个残基的主要标记可以用于帮助确定生物大分子相互作用的一个或多个生物物理性质，例如亲和力、浓度和/或电荷。

替代地或附加地，无探针方法的另一个示例可以是利用生物分子的本征荧光，例如在特定波长下检测来自蛋白质芳香残基的本征荧光。利用生物分子的本征荧光性质可以提供生物大分子在其天然状态下相互作用的生物物理性质的信息，因此，这种无探针方法非常有利，因为其不需要探针，而探针经常会扭曲分子之间的天然结合或相互作用。

可以使用设备50测量的生物分子相互作用的生物物理性质的其他示例包括：流体动力学半径，从流体动力学半径可以推断出分子量(使用实验数据以进行该推断)；迁移率，从迁移率可以推断出电荷；疏水性，通过标记或本征荧光测量的酸含量，通过等电聚焦测量的pI，通过UV本征荧光测量的Trp和Tyr，或使用荧光团对特定的氨基酸残基(如Met残基、Lys残基和/或Cys残基)的标记。

机器学习算法

术语机器学习算法通常用于指许多不同算法的组合，每个算法被选择用于实验设计和/或临床输出方面的相应方面。不同的算法将适用于生物大分子相互作用的通用模型、疾病进展的特定模型和亲和力测量的特定模型。

例如，对于通用模型，可以部署全连接的深度神经网络、递归神经网络、卷积神经网络或基于自注意的架构，例如基于转换器(Transformer)的架构。表征学习可用于生成生物大分子的序列的嵌入和结构的嵌入。这些算法可以适当地与分类器系统或回归器系统相结合。适用于一般情况的分类器的示例包括随机森林、梯度增强机制、高斯过程或多层感知器。可以部署单个分类器。然而，在一些实施例中，可以实现分类器的堆叠。为了实现分类器的有效堆叠，可以训练分类器来预测输出的误差，而不是输出本身。在这种情况下，高斯过程和多层感知器的组合是有效的。

分类器的堆叠在这种情况下是有利的，因为生物大分子相互作用的领域是复杂的，并且数据集相对较小。

为了将数据引入机器学习算法，首先需要将感兴趣的生物大分子(例如蛋白质)向量化，以便蛋白质的复杂结构可以表示为数字向量。然后，该向量可以被输入到分类器中，并因此通过机器学习算法进行处理。这使得数据最初可用于训练机器学习算法，并与许多其他类似的向量化的生物大分子数据相结合，来开发该生物大分子相互作用的新的定量分析的预测。

可以部署与疾病进展和疾病状态的建模相关的特定模型、具有相关数据转换和算法编码的表格数据集。可以部署如上所述参考通用模型的类似的分类器或回归器。此外，还将通过来自通用模型的信息来通知特定模型。

图3示出了可以并入系统10中的设备50的示例。图3示出了被配置为提供异质样本中多种成分的分离和分析的设备50。该设备包括两个部分：毛细管电泳部分和H-过滤器18。尽管在图示的实施例中，毛细管电泳部分在H-过滤器之前，但是应该理解的是顺序可以被转换以使得H-过滤器被部署在前。在该设备的配置中，毛细管电泳模块可以应用于H-过滤器的每个输出，使得毛细管电泳模块的数量与H-过滤器的输出数量一样多。

所述成分可以是生物成分和/或化学成分，或者可以是生物分子。生物分子可以是但不限于蛋白质、肽、多糖、核酸(如DNA、RNA)、抗体或其抗体片段。

设备50包括H-过滤器18的组成部分，所述组成部分具有样本通道12和缓冲通道16，样本和缓冲液或辅助流体可以通过样本通道12和缓冲通道16引入。样本通道12和缓冲通道16终止于沿第一方向设置的细长的分配通道14。

由于通道的细长构造，当样本沿着样本通道12流入并穿过分配通道14时，成分将在基本垂直于第一方向的第二方向上分布。

设备50可以包括至少一个电源30，该电源30被配置为提供跨越H-过滤器18的分配通道14的电场，以便通过电泳驱动分配。

H-过滤器18具有两个出口20，并且分配通道14中的流体在两个出口之间分开。可以对在每个出口处收集的流体进行定量分析，并且可以比较两个出口20的数据。定量分析将与创建横向分布的方案相关联。因此，在图3所示的设备中，电源30在分配通道14上产生电场，从而通过电泳实现分配，那么定量分析就是对样本内成分上的电荷进行分析。

相反，如果图3中的电源30没有被激活，那么分配通道14中的分配将仅通过扩散产生，并且定量分析将与样本中成分的大小相关。

可选地或附加地，在分配通道中产生的分配可以通过毛细管电泳来实现。此外，横向分布可以通过扩散、电泳、扩散电泳、磁电泳或热电泳产生。

设备50被配置为使用毛细管电泳(CE)分离和扩散分级来分离和分析流体样本。如图3所示，设备50包括具有一个或多个延伸入口22的H-过滤器18。通过样本端口13将样本装载到分离通道12中，并且通过电渗透流(electro-osmotic flow，EOF)实现，或者是压力驱动的。一旦样本已经到达分离通道12，就在H-过滤器18的两端即入口22和出口20上施加电场，以使得通过电渗透驱动整个分配通道14。为了提供对供应到分离通道12的样本的控制，存在对应于样本入口13的样本废品口15。

如图3所示，提供了至少一个电源30，使得电压可以施加到分离通道12和辅助通道16。图3示出了可用于运行本发明的设备50的电压源30和电连接的示例性配置。电源30极性的适当选择将取决于样本成分上的预测电荷。

在图3所示的实施例中，分离通道12和辅助通道16具有相等的长度。分离通道12和辅助通道16也具有相等的横截面积。具有相等尺寸的分离通道和辅助通道简化了通过设备的电渗透流的控制，因为在分离通道12和辅助通道16上施加相同的电压，从而在分离通道12和辅助通道16中提供基本相等的电渗透流速。

此外，辅助通道16和分离通道12之间的对称性确保了进入分配通道14和/或贯穿整个H-过滤器18的流量相等。可以包括流量传感器或参考样本(附图中未显示)来确定体积流率。可以将参考样本引入分离通道或辅助通道。

此外，可以在分离通道12中通过CE分离样本，然后可以在H-过滤器18中对分离后的样本进行扩散分级。分离通道12和辅助通道16的对称性以及施加的横跨两个通道的恒定电场可提供明确定义的流速。在一些实施例中，辅助毛细管还可以包含用于样本装载的交叉通道(附图中未示出)，以增强对称性。

设备50还可以包括样本制备模块(附图中未示出)，在样本制备模块中，可以将样本准备好引入样本通道12。样本制备模块包括微量滴定器，以便能够控制样本的浓度。样本制备模块还包括温度和湿度控制的存储条件，使得样本制备模块可以在机器学习算法规定的条件下混合样本并且存储样本一段时间，该段时间由机器学习算法推荐。在样本制备模块中产生的混合物可包括三元或更高阶混合物。

一个示例性定量分析的详细描述

在复杂混合物(如血清)的生理相关条件下，亲和力(有时也称为解离常数或K_D)的定量测量可以提供对患者和接种个体的免疫反应和保护窗的有用的深入了解。

可以在图3的设备中通过使用微流体扩散分级来对血清中的SARS-CoV-2抗体进行准确的亲和力分析，从而通过测量其与血清中SARS-CoV-2刺突蛋白的受体结合区域(RBD)的结合亲和力来表征抗刺突S1抗体。

为了准确识别血清反应阳性的个体以及找到针对最近出现的冠状病毒SARS-CoV-2的最有效疫苗，在感染过程中或接种疫苗后彻底表征免疫反应是至关重要的。这既包括关于个体是否已经暴露于病毒的二元指示，也包括关于患者样本中存在的抗体水平的定量评估。特别地，免疫系统的病毒中和能力至关重要，准确测试以评估COVID-19新冠肺炎患者或接种个体血清样本中中和抗体(NAb)的亲和力和数量是关键。

如图4所示，SARS-CoV-2是一种正义单链RNA病毒，主要由四种主要结构蛋白组成：包膜(E)、膜(M)、核蛋白(N)和刺突(S)蛋白。刺突蛋白对病毒进入宿主细胞至关重要。刺突蛋白由两个子单元组成：与宿主细胞受体ACE2结合的S1；以及介导病毒随后与细胞膜融合的S2。

由于S1在介导病毒入侵宿主细胞的第一步中具有关键作用，因此，S1的受体结合区域(RBD)已被证明是针对冠状病毒家族其他病毒产生的中和抗体的靶标，并且是SARS-CoV-2的重要靶标。

图3所示的设备能够同时独立地测定抗体的浓度和亲和力。这有助于理解免疫反应。这反过来允许更好地理解抗体的成熟和免疫的持久性，并在未来有助于恢复期血浆疗法研究和疫苗设计。

测量人体样本中的抗体亲和力可以理想地利用未稀释的血清来最大化可用于产生平衡结合曲线的抗体浓度范围。然而，大多数已建立的测量蛋白质结合的技术依赖于结合搭档之一的表面固定。当处理复杂样本如血清时，这可能导致显著的困难，因为血清中的其他蛋白质与分析表面的非特异性结合，导致假阳性或者至少导致低信噪比。

在图3所示的设备中，微流体扩散分级用于直接测量血清中抗刺突S1抗体对荧光标记的SARS-CoV-2RBD的亲和力。这种溶液内技术能够通过测量标记抗原与抗体结合时流体动力学半径(Rh)的变化来检测抗原-抗体相互作用。因此，MDS允许直接准确地检测和表征血清中的抗体，从而消除了表面结合技术的限制。

示例

SARS-CoV-2RBD(40592-V08h，Sino Biological)在400μL无菌水中重组至0.25mg/mL的浓度。为了标记，将蛋白质稀释到标记缓冲液(0.2M NaHCO₃pH 8.3)中，并与AlexaFluor ^TM 647NHS酯(Thermo Fisher Scientific)混合，染料与蛋白质比例为10：1。在4℃下孵育一夜后，使用PBS(pH 7.4)的Superdex75Increase 10/300GL柱作为洗脱缓冲液，通过尺寸排阻色谱来纯化标记的RBD。

对于血清中的亲和力测量，将SARS-CoV-2(2019新型冠状病毒)刺突抗体(40150-R007，Sino Biological)在人血清(H 5667，Sigma)中进行稀释，以获得范围从490pM到1uM的两倍浓度系列。随后将抗体稀释液与40nM的Alexa Fluor 647标记的SARS-CoV-2RBD溶液以1：1的比例混合，以获得20nM的最终lRBD浓度。在测量前所有样本在4℃下孵育30分钟，并在整个实验中保持在4℃。

对于缓冲液中的亲和力测量，抗体和Alexa Fluor 647标记的蛋白质在含有0.05％吐温20的PBS中进行稀释而不是在血清中进行稀释。浓度和孵育时间与血清中的实验相同。

在图3的设备上使用1.5-8nm尺寸范围来测量样本。在室温下进行一式三份的测量。为了校正血清引起的背景荧光，对人血清进行了独立测量，并对血清中获得的各个数据点进行了背景减影。通过拟合公式1的非线性最小二乘法自动生成结合亲和力K_D。

公式1：

其中：

R是平衡时的流体动力学半径；

R_h，free是未结合蛋白质的流体动力学半径；

R_h，complex是蛋白质-配体复合物的流体动力学半径；

[L]_tot是标记物种的总浓度

[U]_tot是未标记物种的总浓度；

n是复合物的化学计量比(标记分子和未标记分子固定在0.5)；

K_D是解离常数；

由于绝对大小表明SARS-CoV-2RBD的两个分子与一个抗体结合，因此化学计量参数n被设置为0.5。

为了评估抗刺突S1抗体与SARS-CoV-2刺突蛋白的RBD的结合亲和力，将抗体与恒定浓度的20nM Alexa Fluor 647标记的重组表达的RBD进行滴定。作为对照，首先在缓冲液中进行滴定实验。图5A示出了在含有0.05％吐温20 的PBS中测量的亲和力结合曲线，产生的K_D为9.6±1.7nM。

对于人体血清中的测量，将相同的抗体浓度与20nM Alexa Fluor 647标记的RBD进行滴定，抗体在血清中被稀释。参见图5B，其示出了血清测量值，在使用上述公式1通过非线性最小二乘法拟合确定K_D之前，从原始数据中减去血清背景荧光。根据未标记的抗刺突S1抗体的稀释因子，各自的血清浓度范围为91-97％，尽管这些样本中的血清浓度很高，但为这种相互作用确定的K_D值与PBS中的K_D值相匹配。

该示例示出了在图3的设备上使用MDS进行的单一定量分析，以准确检测和表征人体血清中抗体与病毒蛋白的直接结合亲和力。因此，该技术可用于针对SARS-CoV-2的体液免疫反应的深入分析，以支持开发可靠的抗体检测和疫苗来对抗COVID-19新冠肺炎疫情。

然后，每个定量分析与患者的个人数据一起被添加到数据存储器中，个人数据包括相关的风险因素，例如患者体重、年龄、其他不相关的诊断，例如心脏病、哮喘等。随着收集更多的分析，系统能够基于迄今为止收集到的定量分析更准确地预测另一个患者的免疫反应。

在上述示例中，S1刺突蛋白有效地充当探针。然而，该系统也可以用作溶液中的无探针系统。无探针系统的示例可能需要对表面暴露的残基如赖氨酸残基进行批量标记，以识别和检测生物大分子相互作用。赖氨酸残基在蛋白质中非常常见，因此在蛋白质表面标记暴露的赖氨酸残基有助于检测和观察另一种生物分子在标记蛋白质表面的结合。然而，有可能特异性地靶向N-端α-氨基，这可能有助于在生物分子表面的特定但有限的位置上成功地进行标记。

在该示例中，标记不影响分离，不像例如使用磁性标记，之后将磁场施加到分配通道，使得在标记上预测分配。然而，探针可能有助于分配，这取决于产生分配的方案。例如，如果分配是通过扩散产生的，那么探针的质量将有助于生物大分子通过分配通道的扩散。类似地，如果分配是通过电泳产生的，那么探针的电荷将有助于分配的产生。

无探针方法的另一个示例需要检测和/或测量生物分子(例如氨基酸)的本征荧光性质。例如，感兴趣的生物分子的芳香族残基如色氨酸、苯丙氨酸和/或酪氨酸残基可以在特定波长下被激发，并且被激发的芳香残基可以在不同波长下发射荧光，这可以使用U.V/荧光光谱仪来检测。因此，基于其本征荧光性质，可以测量生物大分子相互作用之间的亲和力、浓度、分子量、氨基酸含量等生物物理性质。

基于探针的数据集和无探针的数据集可以组合成在蛋白质指纹中。蛋白质指纹结合了所有可能的可用数据，每个数据点都有自己的准确度分数，以便能够确定该数据点的置信度。数据从各种来源汇总得到，并随着时间的推移而增加，从而允许进行健康状况的演变或疾病状态的跟踪。此外，随着特定模型的进一步开发和新的特定模型的创建，蛋白质指纹内的数据可以被反复询问。这使得能够在预先存在的数据中得到新的发现。例如，基于先前获得的数据诊断新的病症。

本发明公开的系统可以在下面的另一个示例中详细说明。下面描述的示例旨在研究SARS-CoV-2变异体(如Alpha和Beta变异体)能够进行抗体逃逸的不同策略。能够进行抗体逃逸的变异体会导致更高的传播率和感染者的更多症状性疾病。

如本发明所用，除非另有说明，术语“抗体逃逸”是指可以随机发生的病毒突变引发病毒表面存在的抗原结构的变化，从而使抗原无法被针对同一病毒的未突变株的先前感染而开发的抗体识别。

如图1所示，专有知识数据库21，也称为PPI知识数据库，包含关于特定蛋白质-蛋白质相互作用的结合亲和力信息。例如，S1蛋白质的SARS-CoV-2受体结合区域(RBD)与有效的中和单克隆抗体SAD-S35和SARS-CoV-2S1RBD与人体ACE2受体。这些信息可以通过各种来源获得。在一示例中，可以参考外部开源数据库19、24以及通过结合亲和力26的内部确定来获得数据，可以在本发明公开的设备50上生成结合亲和力26。由外部开源数据库19、24获得的数据与由设备50通过内部26获得的数据之间的比较步骤表明它们是一致的。对于RBD-WT(野生型)，在x轴上的内部测量值以不确定度绘制在图6A和图6B中。

图6A和图6B示出了SARS-CoV-2RBD的不同变体与ACE2受体(图6A)结合以及与中和单克隆抗体(图6B)结合的解离常数K_D。对于不同浓度的荧光标记的RBD变体和未标记的ACE2或未标记的中和抗体(Nab)的平衡结合可以通过微流体扩散分级(MDS)来测量。K_D值可以从后验概率分布模式中确定，该后验概率分布模式通过描述结合相互作用的动力学平衡模型的贝叶斯推理获得的。如图6A和图6B所示，误差线是95％置信区间。

如图6A和图6B所示，结合亲和力指的是SARS-CoV-2的野生型。如图1所示，PPI知识数据库21包含关于SARS-CoV-2的关注变异体(Variants of Concern，VoCs)的进一步信息。基于该信息，可以使用一组突变体S1-RBD蛋白质并设置实验参数来确定这些突变体与ACE2受体以及与中和抗体SAD-S35的结合亲和力。

突变体S1-RBD蛋白与两个靶的结合亲和力可以使用本发明公开的设备50来测量。结果如图6所示。重要的是，RBD-alpha显示出对ACE2受体的亲和力增加(增加了10倍)，但其与中和抗体SAD-S35的亲和力基本上不受影响。相反，RBD-beta并不与中和抗体SAD-S35结合，而其对ACE2受体的亲和力保持不变。

此外，测量单个突变体可以辨别K417N作为导致抗体逃逸的突变的影响。单独引入K417N的效果证明了Beta变体实现抗体逃逸的机制。在Beta的几个突变中，K417N是负责重塑中和抗体识别的表位的突变。

通过在体外测量上述亲和力获得的结果被反馈到PPI知识数据库21中，然后被输入到机器学习算法32中以结合S1-RBD和抗体逃逸32、34，该机器学习算法用于ACE2和中和抗体之间的特定竞争系统。结合关于血清转化患者中针对SARS-CoV-2S1-RBD的抗体反应谱特性的先验知识，该系统可用于预测S1-RBD突变对从感染野生型毒株获得免疫力的患者对SARS-CoV-2S1-RBD的抗体谱的影响。具体来说，该系统预测对Alpha和Beta VoCs的病毒中和能力较低，尽管两种情况下的主要效果不同。

然后通过设备50上的溶液内受体结合竞争试验来证实预测，该试验通过将S1蛋白从ACE2受体上置换来测量患者血清抗体对S1蛋白的中和能力。试验结果如图7所示。

参考图7，其示出了溶液内受体结合竞争试验。如图7所示，该试验示出了SARS-CoV-2复合物的尺寸，在其中发现了标记的ACE2受体。如果该标记的ACE2受体与S1结合，则尺寸更大(Rh＝1，归一化)。如果抗体超过S1，则ACE2不含复合物，因此尺寸更小(Rh＝0，标准化)。因此，该试验可以显示中和是否发生。误差线是从三次测量中获得的标准差。

如图7所示，三名患者中的两名(3973和3707)对两种VoCs的中和能力低于野生型菌株，这证实了早期的预测。患者3541没有针对任何变异体的中和抗体。

通过使用PPI知识数据库21以及从设备50获得的数据，获得的结果提供了解释两种VoCs采用的不同抗体逃逸机制的机制假说。Alpha以更强的亲和力结合ACE2受体，使中和抗体更难取代它。相反，Beta中的K417N等突变重塑了针对野生型的中和抗体所使用的表位，并阻止了它们对抗原的识别和结合。在这两种情况下，这都会导致更高的感染几率。

总之，包括如图1所示的信息反馈回路的系统，结合使用设备50进行的测量，能够表征复杂的蛋白质-蛋白质相互作用，并做出机械可解释的和临床相关的预测，这可以在患者样本上得到验证。

鉴于本公开，本发明的各种其他方面和实施例对于本领域技术人员来说将是显而易见的。

此处使用的“和/或”将被视为具有或不具有另一个的两个指定特征或组件中的每一个的具体公开。例如，“A和/或B”将被视为(i)A、(ii)B和(iii)A和B中每一项的具体公开，就像每一项在此单独列出一样。

除非上下文另有指示，上述特征的描述和定义不限于本发明的任何特定方面或实施例，并且同等地应用于所描述的所有方面和实施例。

本领域技术人员将进一步理解，尽管已经参考几个实施例以示例的方式描述了本发明。但本发明不限于所公开的实施例，并且可以在不脱离所附权利要求中定义的本发明的范围的情况下构建替代性实施例。

Claims

1.一种用于改进样本的定量分析的系统，所述系统包括：

设备，配置为对流体样本进行溶液中生物大分子相互作用的定量分析以提供定量分析数据；

数据存储器，用于存储：

与多个个体相关的个人数据；以及

与生物大分子相互作用相关的数据；以及

处理电路，被配置为：

访问所述数据存储器并识别和检索与所述样本相关的数据；

根据所检索到的数据来设置在所述设备中执行所述样本的定量分析的参数；

使用通用模型执行分析，以创建来自所述设备的定量分析的预测结果；

从所述设备接收所述样本的定量分析数据；

将从所述设备接收的所述定量分析与所述预测结果进行比较；以及

用所比较的输出和所接收的定量分析数据中的至少一种更新所述数据存储器。

2.根据权利要求1所述的系统，其中，从所述设备接收的所述定量分析与所述预测结果之间的比较的输出是对所述预测结果的验证。

3.根据权利要求1所述的系统，其中，从所述设备接收的所述定量分析与所述预测结果之间的比较的输出是与所述预测结果的偏差。

4.根据权利要求1至3中任一项所述的系统，其中，被配置为执行所述分析的电路包括机器学习算法。

5.根据权利要求1至4中任一项所述的系统，其中，所述样本从个体获得，并且所述处理电路被配置为对从所述设备接收的所述定量分析数据执行进一步分析，以产生所述患者的临床相关数据。

6.根据权利要求5所述的系统，其中，所述处理电路还被配置为更新与所分析的个体样本相关的所述个人数据。

7.根据权利要求1至6中任一项所述的系统，其中，所述与生物大分子相互作用有关的数据包括来自个体的匿名数据和实验数据。

8.根据权利要求1至7中任一项所述的系统，其中，所述数据存储器中的每个数据点具有相关联的准确度分数，并且其中，更新所述数据存储器的步骤包括更新所述准确度分数。

9.根据权利要求1至8中任一项所述的系统，其中，由所述系统生成的每个预测结果具有相关联的准确度分数。

10.根据权利要求1至9中任一项所述的系统，其中，所述与生物大分子相互作用有关的数据包括基于相邻数据的预测数据。

11.根据权利要求1至10中任一项所述的系统，其中，所述个人数据包括以下一项或多项：医疗记录、年龄、性别、体重、疾病状态、疾病严重程度、处方药物名称和相应的剂量方案。

12.根据权利要求1至11中任一项所述的系统，其中，所述样本是细胞培养物。

13.根据权利要求1至12中任一项所述的系统，其中，所述样本是体液。

14.根据权利要求4至13中任一项所述的系统，其中，所述机器学习算法包括与临床相关输出相关的多个特定模型，所述临床相关输出诸如为疾病状态。

15.根据权利要求4至14中任一项所述的系统，其中，所述机器学习算法被配置为使得由所述设备执行的每个定量分析为特定模型和通用模型两者提供信息。

16.根据权利要求1至15中任一项所述的系统，其中，所述样本的定量分析包括生物大分子相互作用的亲和力的测量。

17.根据权利要求1至16中任一项所述的系统，其中，所述样本的定量分析包括所述样本内感兴趣的生物大分子的浓度的测量。

18.根据权利要求1至17中任一项所述的系统，其中，所述样本的定量分析包括对所述样本的异质性的分析。

19.根据权利要求4至18中任一项所述的系统，其中，由所述机器学习算法设置的参数包括样本制备参数。

20.根据权利要求4至19中任一项所述的系统，其中，由所述机器学习算法设置的参数包括设备条件。

21.根据权利要求4至20中任一项所述的系统，其中，由所述机器学习算法设置的所述参数包括设置对所述分析的结果的预期。

22.根据权利要求1至21中任一项所述的系统，其中，所述设备包括微流控网络，被配置为能够组合和分配样本流体和辅助流体以产生分配样本，并且随后将所述分配样本分成两个或多个部分，并且测量所述两个或多个部分中的至少一个。

23.根据权利要求1至22中任一项所述的系统，其中，所述分配通过扩散、电泳或磁电泳、热电泳、色谱和等电聚焦中的一种或多种方式产生。

24.根据权利要求1至23中任一项所述的系统，其中，所述设备被配置为将所述分配样本分成两个以上的部分，并且对每个分出的部分进行测量。