CN115398552A

CN115398552A - 遗传算法用于基于拉曼光谱识别样品特征的用途

Info

Publication number: CN115398552A
Application number: CN202180027383.XA
Authority: CN
Inventors: D·L·麦克丹尼尔; E·卡道布; 魏冰川; A·J·迈尔; G·E·马吉尔
Original assignee: Genentech Inc
Current assignee: Genentech Inc
Priority date: 2020-04-10
Filing date: 2021-04-06
Publication date: 2022-11-25
Also published as: WO2021207160A1; US20230009725A1; EP4133494A1; KR20230006814A; JP2023521757A

Abstract

本文公开了用于使用遗传算法来识别将光谱转换成可用于生成对应样品的预测特征的形式的处理管道的技术。所述遗传算法用于生成和评估指定多种预处理和机器学习处理配置的复数个候选解。所述处理管道是基于所述候选解定义的。

Description

遗传算法用于基于拉曼光谱识别样品特征的用途

相关申请的交叉引用

本申请要求2020年4月10日提交的题为“Use Of Genetic Algorithms ToIdentity Sample Properties Based On Raman Spectra”的美国临时申请号63/008,196的权益和优先权。出于所有目的，其全部内容通过引用整体并入本文。

背景技术

经常实施质量控制技术来监测同于新药和研究样品开发的属性，以确保整个开发和生产过程的一致性。即使是新药或研究样品的生产或分子结构的微小变化也可能导致治疗和实验结果二者的差异。出于这个原因，对于任何给定的生物制药药物或化合物样品，保持一组一致的属性和整体质量测量是很重要的。

将生物制药药物和/或材料的许多特征与参考指标进行比较可以表明样品的质量。例如，可以测量样品的pH以指示化合物或药物是否具有预期的酸性或碱性。作为另一个实例，可以测量样品的渗透浓度以指示样品溶液中的溶质浓度是否与高质量参考样品相关的目标渗透浓度相匹配。此类特征的测量可以揭示分子或化合物的纯度或稳定性，以及生物药物在分发给受试者之前大规模生产的准确性和/或一致性。

当前的数据处理和模型确定技术需要大量的计算和时间资源，因为该领域训练有素的专家手动选择一组技术来分析样品并定义样品属性的目标值和/或范围。

发明内容

使用利用光谱数据和串联机器学习模型来量化样品特征的自动化数据处理管道可以使用更少的资源(例如，减少计算时间和/或减少设计最佳机器学习模型的手动时间)，增加质量预测的准确性，并减少处理技术中用户之间的差异。

本公开的一些实施例包括计算机实现方法。可以访问数据集。数据集可以包括第一数据元素集，所述数据元素中的每一个包括对应于样品的光谱。光谱可能已经使用光谱法生成，因此它是基于样品与来自能量源的能量之间的相互作用。例如，光谱可能已经使用拉曼光谱法、红外光谱法、质谱法、液相色谱法或核磁共振(NMR)光谱法产生。

数据集可以包括对应的标签集，每个标签表示相关样品的已知特征。初始化候选解群体。每个候选解群体都由属性集定义，这些属性指示是否要执行特定类型的预处理；待使用的预处理技术的参数；使用哪种类型的机器学习模型；和/或应用哪个机器学习超参数。

可以通过过滤(同样地，从中选择)候选解群体来确定单个解。过滤可以包括通过根据属性集处理数据元素的光谱，为候选解群体中的每一个和数据集的至少一些输入数据元素中的每一个确定预测的样品特征。过滤还可以包括基于适应度度量选择候选解群体的不完整子集。可以通过更新候选解群体以包括使用候选解群体的所选不完整子集和一个或多个遗传算子识别的下一代解群体来执行一个或多个附加代迭代。一个或多个遗传算子可以包括选择技术和/或突变率。重复使用更新的候选解群体对候选解群体进行过滤，直到满足终止条件(例如，已完成预定代数的处理，或已检测到已确定估计误差低于预定阈值的解)。

在满足终止条件后，根据在最终代期间选择的不完整子集中特定候选解的属性集定义处理管道。因此，处理管道可以包括用于至少部分地基于该属性集的预处理和/或机器学习处理的配置信息。在一些情况下，可以访问对应于另一样品的另一光谱。根据来自处理管道的配置信息，通过处理(例如，其可以包括由机器学习模型执行的预处理和/或处理)另外的光谱来生成另外的样品的预测特征。输出另外的样品的预测特征(例如，呈现或传输到用户设备)。

在一些实施例中，提供了一种系统，其包括：一个或多个数据处理器；以及包含指令的非暂时性计算机可读存储介质，所述指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部。

已使用的术语和表述被用作描述性而非限制性的术语，并且在使用此类术语和表述时无意排除示出和描述的特征或其部分的任何等效物，但应认识到在要求保护的本发明的范围内可以进行各种修改。因此，应当理解，虽然通过实施例和任选特征具体公开了要求保护的本发明，但是本领域技术人员可以对本文公开的概念进行修改和变化，并且此类修改和变化被认为是在所附权利要求书所限定的本发明范围内。

附图说明

结合以下附图描述本公开：

图1示出了根据本发明的一些实施例的用于使用遗传算法来促进样品的质量控制处理的示例性交互系统。

图2图示了根据本发明的一些实施例的特征选择控制器112的实例，该特征选择控制器选择用于估计或预测样品特点的特征。

图3示出了根据本发明的一些实施例的用于使用遗传算法来促进样品的质量控制处理的示例性过程300。

图4示出了根据本发明的一些实施例的单代候选解群体的示例性候选解群体和其中每个候选解的对应属性。

图5A示出了根据本发明的一些实施例的乳酸浓度的测量标签值与由示例性第一代候选处理管道产生的乳酸浓度的预测标签值之间的示例性比较。

图5B示出了根据本发明的一些实施例的乳酸浓度的测量标签值与由选定的最后一代处理管道产生的乳酸浓度的预测标签值之间的示例性比较。

图6A示出了根据本发明的一些实施例的葡萄糖浓度的测量标签值与由示例性第一代候选处理管道产生的葡萄糖浓度的预测标签值之间的示例性比较。

图6B示出了根据本发明的一些实施例的葡萄糖浓度的测量标签值与由选定的最后一代处理管道产生的葡萄糖浓度的预测标签值之间的示例性比较。

图7A示出了根据本发明的一些实施例的pH的测量标签值与由示例性第一代候选处理管道产生的pH的预测标签值之间的示例性比较。

图7B示出了根据本发明的一些实施例的pH的测量标签值与由选定的最后一代处理管道产生的pH的预测标签值之间的示例性比较。

图8A示出了根据本发明的一些实施例的渗透浓度的测量标签值与由示例性第一代候选处理管道产生的渗透浓度的预测标签值之间的示例性比较。

图8B示出了根据本发明的一些实施例的渗透浓度的测量标签值与由选定的最后一代处理管道产生的渗透浓度的预测标签值之间的示例性比较。

图9A示出了根据本发明的一些实施例的抗体氧化的测量标签值与由示例性第一代候选处理管道产生的抗体氧化的预测标签值之间的示例性比较。

图9B示出了根据本发明的一些实施例的抗体氧化的测量标签值与由选定的最后一代处理管道产生的抗体氧化的预测标签值之间的示例性比较。

图10A示出了根据本发明的一些实施例的聚糖G0F-N的测量标签值与由示例性第一代候选处理管道产生的聚糖G0F-N的预测标签值之间的示例性比较。

图10B示出了根据本发明的一些实施例的聚糖G0F-N的测量标签值与由选定的最后一代处理管道产生的聚糖G0F-N的预测标签值之间的示例性比较。

图11A示出了根据本发明的一些实施例的HMWF总和的测量标签值与由示例性第一代候选处理管道产生的HMWF总和的预测标签值之间的示例性比较。

图11B示出了根据本发明的一些实施例的HMWF总和的测量标签值与由选定的最后一代处理管道产生的HMWF总和的预测标签值之间的示例性比较。

图12A示出了根据本发明的一些实施例的双特异性组装体的测量标签值与由示例性第一代候选处理管道产生的双特异性组装体的预测标签值之间的示例性比较。

图12B示出了根据本发明的一些实施例的双特异性组装体的测量标签值与由选定的最后一代处理管道产生的双特异性组装体的预测标签值之间的示例性比较。

图13A示出了根据本发明的一些实施例的活细胞丰度的测量标签值与由示例性第一代候选处理管道产生的活细胞丰度的预测标签值之间的示例性比较。

图13B示出了根据本发明的一些实施例的活细胞丰度的测量标签值与由选定的最后一代处理管道产生的活细胞丰度的预测标签值之间的示例性比较。

图14A示出了根据本发明的一些实施例的死细胞丰度的测量标签值与由示例性第一代候选处理管道产生的死细胞丰度的预测标签值之间的示例性比较。

图14B示出了根据本发明的一些实施例的死细胞丰度的测量标签值与由选定的最后一代处理管道产生的死细胞丰度的预测标签值之间的示例性比较。

图15A示出了根据本发明的一些实施例的残留水分含量的测量标签值与由示例性第一代候选处理管道产生的残留水分含量的预测标签值之间的示例性比较。

图15B示出了根据本发明的一些实施例的残留水分含量的测量标签值与由选定的最后一代处理管道产生的残留水分含量的预测标签值之间的示例性比较。

图16A示出了根据本发明的一些实施例的在光谱预处理之前的示例性光谱组。

图16B示出了根据本发明的一些实施例在根据使用pH标记和遗传算法定义的处理管道执行的光谱预处理之后的示例性光谱组。

图17A示出了根据本发明的一些实施例的在光谱预处理之前的示例性光谱组。

图17B示出了根据本发明的一些实施例在根据使用抗体氧化标记和遗传算法定义的处理管道执行的光谱预处理之后的示例性光谱组。

图18A示出了根据本发明的一些实施例的在光谱预处理之前的示例性光谱组。

图18B示出了根据本发明的一些实施例在根据使用双特异性组装体标记和遗传算法定义的处理管道执行的光谱预处理之后的示例性光谱组。

图19A示出了根据本发明的一些实施例的在光谱预处理之前的示例性光谱组。

图19B示出了根据本发明的一些实施例的在根据使用活细胞丰度标记和遗传算法定义的处理管道执行的光谱预处理之后的示例性光谱组。

图20A示出了根据本发明的一些实施例的在光谱预处理之前的示例性光谱组。

图20B示出了根据本发明的一些实施例的在根据使用死细胞丰度标记和遗传算法定义的处理管道执行的光谱预处理之后的示例性光谱组。

图21A示出了根据本发明的一些实施例的在光谱预处理之前的示例性光谱组。

图21B示出了根据本发明的一些实施例的在根据使用残留水分含量标记和遗传算法定义的处理管道执行的光谱预处理之后的示例性光谱组。

图22A示出了根据本发明的一些实施例的在光谱预处理之前的示例性光谱组。

图22B示出了根据本发明的一些实施例的根据处理管道的处理阶段的特征选择过程之后的示例性光谱组。

图23示出了根据本发明的一些实施例的特征选择过程的示例性迭代集合，以识别用于估计样品特征的特定简化特征集合。

图24A-24D图示了根据本发明的一些实施例对应于图23的示例性迭代组的图。

在附图中，相似部位和/或特征可具有相同的参考标号。此外，可通过在参考标号后面加上破折号和区分相似部位的第二标号来区分相同类型的各种部位。如果说明书中仅使用第一参考标号，则该描述适用于任何一个具有相同的第一参考标号的相似部位，而与第二参考标号无关。

具体实施方式

I.概述

遗传算法可用于定义可用于估计样品特征的数据处理管道。样品可以是(例如)生物制药产品或药物和/或可以包括小分子活性成分和/或大分子活性成分。特征可以包括(例如)一种或多种小分子分析物的浓度、溶剂的识别、溶剂的表征、一种或多种蛋白质变体的流行率、pH、渗透浓度、蛋白质同质性、蛋白质结构(例如，蛋白质高级结构)或样品的大分子杂质(例如，高浓度的宿主细胞蛋白质)。处理管道可以包括处理表示来自能量源的能量和样品之间的相互作用的结果的光谱。可以通过使用机器学习模型(例如，偏最小二乘模型、随机森林模型或支持向量机模型)来处理光谱。处理管道还可以包括预处理光谱(例如，去除基线、缩放光谱和/或平滑光谱)。

遗传算法可用于确定处理管道的属性集，包括是否要执行特定类型的预处理；待执行的预处理的参数；使用哪种类型的机器学习模型；和/或应用哪个机器学习超参数。例如，一种类型的预处理可以包括基线去除(例如，信号数据的线性或非线性减法以减少噪声和/或去除光谱内的荧光或其他光谱干扰)、缩放(例如，按比例转换光谱数据，以便能够从不同的背景进行比较)、异常值识别和/或去除，和/或平滑(例如，减少光谱数据中剩余的波动)。在一些情况下，参数可以指示是否要执行更具体类型的预处理或者要执行哪种具体类型的预处理。例如，参数可以包括选择以下技术之一以用于去除基线：不对称最小二乘法、自适应迭代重加权惩罚最小二乘法、全自动基线校正、Kajfosz-Kwiatek方法。要执行的预处理的参数可以包括(例如)衰减值、权重、惩罚或过滤器。要执行的预处理的参数可以包括(例如)缩放类型，例如逐行和/或逐列单位方差(例如，单位方差将每个变量(列)缩放为(值-均值)/标准差)。一种机器学习模型可以包括(例如)随机森林模型、支持向量模型、回归模型、神经网络(例如，特定类型的神经网络，例如递归神经网络、深度神经网络、和/或类似)或基于超过一种常见机器学习模型的组合的模型。机器学习超参数可以包括(例如)学习率、代数以及树和/或叶数，使得超参数基于所选择的机器学习模型的类型。例如，随机森林模型可能包括定义树数的超参数，而线性回归模型不一定包括树数的超参数。

遗传算法可以通过迭代地定义和评估候选解集来确定属性集。每个候选解可以包括定义要执行的预处理的类型(和/或其一个或多个参数)和/或用于处理(原始或预处理)光谱的机器学习模型的类型(和/或其一个或多个超参数)。更具体地，每次迭代可以被称为一代迭代并且可以包括对候选解群体的评估。评估可以包括为群体中的每个候选解生成适应度度量，该适应度度量指示配置有与候选解相关联的属性的处理管道相对于已知特征(例如，准确度度量、误差度量、灵敏度度量等)执行得有多好。例如，适应度度量可以是或包括均方误差(MAE)、均方根误差(RMSE)或对数双曲余弦误差(log(cosh))。然后可以基于适应度度量选择候选解群体的不完整子集(例如，以便识别与群体中最高适应度度量相关联的特定数量的候选解，或识别群体中与高于预定阈值的适应度度量相关联的每个候选解)。在一些情况下，候选解的群体按其相应的适应度度量进行排名。因此，当确定候选解的不完整子集时，遗传算法可以选择相对于群体内的其他候选解具有最高排名的几个候选解。然后可以将候选解的子集包括在用于下一代的新候选解群体中。

用于下一代的新候选解群体可以由确定的子集的选定候选解以及由遗传算法使用一组遗传算子(例如，突变率)生成的新候选解集组成。遗传算子可以被配置为基于常用的测量特征的方法(与随机生成相反)生成新的候选解。此外，对于每一新代，群体中候选解的数量可能保持不变。例如，如果遗传算法从20个候选解的总群体中选择2个候选解进行下一代，则遗传算法将为下一代中的总共20个候选解生成18个额外的候选解。下一代迭代可以确定候选解的新群体的排名并选择候选解的新子集。

在完成最后一代迭代后，遗传算法可以从候选解群体的不完整子集中识别单个解。在一些情况下，不完整子集具有单个解的大小，因此，识别的单个解可以是不完整子集的单个解。在一些情况下，不完整子集包括多个解，并且可以通过(例如)从多个解中选择与最高适应度度量相关联的解来识别单个解。

该单个解可用于定义处理管道，进而可以将各个光谱转换为对应于预测样品特征的预测标签。处理管道可以通过潜在地执行根据解的属性集配置的预处理并使用根据解的属性集的至少一些配置的机器学习模型执行处理来处理输入光谱集。处理管道可以通过使用根据解的属性集中的另外至少一些选择和/或至少部分配置的机器学习模型处理输入光谱集(例如，和/或其预处理版本)中的每个光谱来进一步或附加地处理输入光谱集。机器学习模型还可根据使用(例如)训练数据集确定和/或学习的一个或多个参数和/或变量来配置。

在一些情况下，处理管道增加了一个或多个附加处理步骤，这些处理步骤在估计样品的特征之前(例如，在用机器学习模型处理输入光谱之前等)执行。例如，可以执行特征选择过程以减少机器学习模型处理的特征的数量。执行特征选择过程的计算设备将输入光谱表示为波数集(例如，波的空间频率)，其中每个波数包括相应的强度(例如，特征)。然后，计算设备从强度中选择对应的一个或多个波数处的一个或多个强度，用于预测输入样品的特征。

例如，计算设备可以使用回归算法(例如，使用偏最小二乘法等)来分析波数集，以便为每个波数分配排名(例如，基于偏最小二乘回归的权重的相对排序)。该波数集可以根据分配给每个波数的排名来排序。然后，计算设备定义波数子集，其中第一子集包括每个波数(例如，完整的波数集)并且每个后续子集从前一个子集中排除一个或多个波数(例如，最低排名的波数、最高排名的波数、随机波数等)。

计算设备执行迭代子集分析，得出每个子集的分数以确定要用于估计样品特征的子集。每个分数代表包括子集中波数强度的处理光谱(根据处理管道)准确预测样品特征的程度。测试(例如，保留)或验证数据集可用于表征性能特征(例如，精确度、召回率、准确性等)

在第一次迭代期间，计算设备使用对应于包括波数集的子集的光谱从测试数据集或验证数据集导出基线分数(例如，使用交叉验证分析)。也就是说，使用定义的处理管道处理全光谱以预测样品特征，并将预测的样品特征与真实样品特征进行比较以生成基线分数。基线分数可用作参考数据点，以预测在给定波数处去除(从光谱中)强度可能对机器学习模型的准确性产生的影响，以估计样品的特征。

在第二次迭代期间，为下一个子集得出分数。该子集包括来自第一次迭代的波数(例如，波数集)，其中基于排名从波数集中去除了一个或多个波数(例如，最低排名的波数、最高排名的波数、随机采样或类似)。在一些情况下，计算设备可以从先前迭代中存在的波数中基于排名去除x百分比的波数(例如，5％、10％等)，可能向上取整。在其他情况下，计算设备可以去除预定数量的波数。被去除的波数百分比或预定数量可以是可配置的(例如，通过用户输入、通过机器学习模型、硬编码等)。

然后，计算设备将在第二次迭代期间得出的分数与基线分数进行比较。如果本次迭代的分数高于基线分数(例如，表明波数的减少改善了对特征的估计)，则本次迭代的分数成为新的基线分数，并且过程继续到下一次迭代。如果本次迭代的分数不高于基线分数，则该过程简单地继续而不更新基线分数。

在下一次迭代期间，为下一子集得出分数。该子集包括来自第二次迭代的子集的波数，其中去除了下一个最低排名的波数。可以将该分数与基线分数进行比较以确定该分数是否为新的基线分数。

在迭代子集分析结束后，确定哪个迭代与在与基线分数的阈值偏差内的分数相关联。具体地，计算设备识别其中与该迭代相关联的分数最接近或等于(但不超过)与基线分数的阈值偏差的迭代。通过选择用于预测特征的光谱(例如，对应于所选波数的)，可能会影响预测的准确性。例如，选择光谱的一小部分会减少可能有助于预测的信息(例如，降低预测的准确性)。阈值偏差能够选择用于预测特征的减少的光谱，同时确保结果预测的准确性。在一个示例中，如果基线分数是0.892并且阈值是0.020，则将选择具有最接近或等于0.872的分数的迭代。或者，计算设备识别其中与该迭代相关联的分数最接近与基线分数的阈值偏差的迭代。计算设备从识别的迭代的子集中选择波数的强度(例如，特征)作为机器学习模型的输入特征(例如，用于估计样品的特征)。

计算设备可以在处理管道的末端附近执行特征选择过程，例如在估计样品的特征之前(例如，使用机器学习模型等)。或者，特征选择过程可以由遗传算法包括和/或配置。在这种情况下，遗传算法可以定义一个或多个候选解，包括特征选择过程。然后，遗传算法确定是否要在处理管道中的一个阶段执行特征选择(例如，通过评估包含或不包含特征选择过程的候选解)以及特征选择过程的一个或多个参数，例如迭代的量、分数、每次迭代中要移除的特征的数量(例如，百分比、数量等)等。

新样品集的特征的后续估计可以利用处理管道来估计新样品集的每一个的特征和结果质量度量。在需要对样品集估计不同的感兴趣特征的情况下，遗传算法可以重复上述确定另一个解的技术，以便为不同的感兴趣特征生成另一个处理管道。

使用遗传算法定义的处理管道然后接收与特定样品相关联的输入光谱并输出特定样品的估计特征。应当理解，在定义处理管道之后，其可以在不进一步涉及和/或执行遗传算法的情况下实施。样品特征的估计可用于质量控制过程，以确定是否释放给定样品或样品批次以分配给一个或多个受试者的潜在给药或实际给药。例如，质量控制过程可以包括使用样品的估计特征来评估质量控制条件。质量控制条件可以被配置为(例如)当估计的特征匹配特定值、在预定义范围内、小于上限阈值和/或低于下限阈值时满足。在一些情况下，质量控制条件以批次级别进行评估，这可以包括基于样品批次的估计特征分布生成统计量(例如，平均值、中位数、标准差、范围、方差等)，并确定该统计量是否(例如)低于预定义的批次上限和/或高于预定义的批次下限。当确定满足质量控制条件时，可以对样品进行标记或批准分发(例如，装运)。当确定不满足质量控制条件时，可以阻止这种分发(例如，通过将样品标记为未经批准和/或将样品从生产线上撤出)。

在不满足质量控制条件的一些情况下，该样品批次的估计特征内的差异可能会决定用于未来的样品的产生(例如，这可能包括用于产生包括大分子在内的样品的生物过程)的生产和/或制造过程中的动态调整。例如，可以修改生产过程以包括分别响应于成分太低或太高的估计特征来添加或去除样品的成分。在另一示例中，响应于估计的特征不满足质量控制条件，可以添加、改变或移除一个或多个处理步骤(例如，添加额外的样品纯化、改变处理步骤的温度等)。在一些情况下，质量控制条件的评估结果会影响是否启动、重新启动和/或终止制造过程。例如，可以周期性地暂停制造过程以评估选择的样品并确定是否满足质量控制条件。如果满足，则可以重新启动该过程。如果不满足，则可以修改该过程的一个或多个方面。

II.示例性交互系统

图1示出了根据本发明的一些实施例的用于使用遗传算法来促进样品的质量控制处理的示例性交互系统。一个或多个样品生产系统101产生一组样品。样品组中的每个样品可以包括(例如)用于(例如)诊断和/或治疗目的的制药和/或药物样品。该组样品中的每个样品可以包括(例如)一种或多种活性成分，其包括小分子和/或大分子以及一种或多种非活性成分。样品生产系统101可以包括实验室。

至少一些样品通过一个或多个样品特征检测器102进行处理，该检测器识别样品的一种或多种特征。样品的一种或多种特征包括活性成分的特征、非活性成分的特征和/或样品整体的特征。小分子的示例性特征包括(但不限于)活性成分浓度、乳糖浓度或微晶纤维素浓度。大分子的示例性特征可以包括(但不限于)大分子内的任何杂质(例如，未反应元素的丰度、宿主细胞蛋白质的浓度和/或任何残留的不想要的蛋白质的浓度)。该特征还可以包括数字或分类特征。通过一个或多个样品特征检测器102处理的至少一些样品可以包括(例如)要在训练、验证或测试集中表示的样品。

光谱收集器103可以处理该样品组中的每个样品以生成光谱。光谱包括多个波数中的每一个的强度。该过程可以包括用来自能量源的能量为每个样品供能并检测随后的光谱。能量源可以包括(例如)发射光能的光源或发射物理能量的物理能量源。在一些情况下，以非破坏性方式收集光谱，使得样品不会由于光谱收集而被破坏和/或降解。该光谱可以通过执行(例如)拉曼光谱法、红外光谱法、质谱法、液相色谱法或NMR光谱法获得。示例性类型的红外光谱法可以包括近红外(NIR)、中红外(MIRA)、热红外(TIR)或傅里叶变换红外(FTIR)光谱法。

在一些情况下，可以使用单个样品收集多个光谱。因此，多个光谱中的每一个可以与相同的一个或多个样品特征(假设它们属于同一样品)相关联。多个光谱可以称为复制光谱。光谱之间的差异可能是由于(例如)样品容器在扫描过程中的轻微移动和/或光谱记录机器的不一致造成的。相同光谱样品之间的差异可以包括(例如)峰高、峰宽、峰位置和/或抖动的差异。这些差异可能相对较小，然而它们可能会影响训练和/或处理管道的质量。扩展的乘法散射校正算法可用于处理复制光谱以识别特异性误差。可以使用线性校正对单个光谱进行预处理以校正特异性误差，如Marterns,H.&Stark,E.(1991).Extendedmultiplicative signal correction and spectral interference subtraction:newpreprocessing methods for near infrared spectroscopy.Journal ofPharmaceutical and Biomedical Analysis,9(8),625-635中所述，其出于所有目的以引用方式整体并入本文。高阶多项式可用于根据任意选择的“基线”重复扫描拟合和/或校正重复光谱。

光谱和检测到的特征被传输到计算设备104。计算设备104被配置为使用遗传算法来识别将光谱转换为感兴趣的特征的处理管道，然后实施该处理管道。

更具体地，在识别新的训练实例(例如，与样品类型和感兴趣特征的特定组合相关联)时，遗传算法控制器105启动第一代的处理。每一代都与候选解群体相关联——每个候选解都与候选解属性集相关联。候选解属性集的每个属性都可以指定要执行的预处理或机器学习处理的特征。关于要识别哪些属性的定义可以由客户和/或开发人员设置。客户和/或开发人员可以进一步设置对属性的任何约束(例如，识别上限、下限、要从中选择属性的选项范围等)。在一些情况下，遗传算法控制器105还可以优化对属性的约束，以便识别上限和下限，而无需客户端和/或开发人员手动配置。一个或多个第一其他属性中的每一个可以是固定的(例如，并且由客户和/或开发人员设置)，并且一个或多个第二其他属性中的每一个可以被识别为在定义处理管道时要学习的属性。

与第一代相关联的候选解属性集可以随机地、手动地(例如，如客户或开发人员所定义的)或根据伪随机选择过程来选择。在一些情况下，根据旨在促进选择覆盖(或可能覆盖)价值空间到至少定义的程度和/或可能彼此不同到定义的程度的属性的技术来选择候选解属性集。可以进一步根据应用于一个或多个属性的一个或多个偏差来执行选择。在一些情况下，第一代的偏差设置为零。

存储在代数据存储器106中的代数据标识当前代、应用于候选解属性的选择的任何偏差、和/或包括在当前代中的候选解的数量(其可以等于客户和/或开发人员设置的预定数字)。候选解属性与将每个候选解属性集与候选解的标识符联系起来的关联一起存储在候选解属性数据存储器107中。

对于每个候选解，根据候选解的候选解属性，预处理控制器108配置预-处理，并且机器学习(ML)模型控制器109配置机器学习模型。这样的配置可以包括配置代码以便执行或不执行特定类型的预处理(例如，基线移除、缩放、过滤)；实现特定技术以用于某种类型的预处理；实现特定类型的机器学习模型；为预处理技术设置特定变量和/或为机器学习模型设置特定变量(例如，不学习的变量)。然后定义候选处理管道以包括配置的预处理机器学习模型。处理管道定义数据存储器110存储与候选解的标识符相关联的候选处理管道。

预处理控制器108和机器学习模型控制器109进一步使用训练数据集(包括样品特征的多个光谱和多个已知测量)来确定任何数据相关值(例如，学习机器学习值的参数)。然后使用处理管道和任何数据相关值处理验证或测试数据集中的其他光谱，以生成估计的样品特征。将估计的样品特征与来自验证或测试数据集的已知样品特征进行比较，以为候选解的各种适应度度量(例如，确定系数、均方误差的平方根、交叉熵等)生成适应度度量值。

包括对应于样品组的样品特征和光谱的数据集被分割为多个子集(包括训练子集、验证子集和/或测试子集)。分割可以对整个数据集执行一次，或者可以执行两次或更多次。例如，数据集可以为使用遗传算法评估的每一代单独分割；对于单代期间处理单个候选解分割多次(例如，用于k倍验证分析)；等等。

应当理解，可以针对给定样品收集多个数据观察结果。为了说明，对于给定的样品，样品特征和光谱可能已经收集了100次。然而，这100个观察结果不一定是独立的。相反，它们可能与重复的观察结果相关。例如，对于给定样品生产的10个不同批次中的每一个，观察结果可能包括10个重复观察结果。在这些情况下，一种方法是将100个观察结果视为足够独立的，以(例如)随机或伪随机地将观察结果分割为子集(例如，伪随机选择20个观察结果进行测试，并将剩余的80个观察结果用于训练)。另一种方法是对批次进行分割并对批次内的观察结果进行分组(例如，伪随机选择2个批次进行测试，然后使用与这2个批次相关的20个观察结果进行测试，同时使用剩余的观察结果进行训练)。后一种方法可以改进训练并产生更准确地预测处理将如何使用独立数据集执行的测试度量。

在一些情况下，计算设备104可以分析数据集(子集和/或批次)的光谱以确定光谱的一部分(例如，一个或多个波数的强度、光谱内的一个或多个光谱等)相对于光谱的其余部分是否是异常值。如果光谱的一部分被确定为异常值(例如，与光谱的其他部分的偏差超过阈值量)，则光谱(或其一部分)可以被丢弃(或以其他方式不用于定义处理管道)。异常值检测也可以在处理管道的执行过程中执行，以获得对样品特征的估计或预测准确性的置信度。例如，可以通过将处理管道产生的预测与处理管道的其他预测相比较来执行异常值检测。

异常值检测可以包括执行主成分分析(PCA)。具体地，分析多个光谱以确定主成分组。一个或多个光谱中的每一个(可能已经在用于确定主成分的多个光谱中或者可能是不同的光谱)然后可以沿着主成分投影(或重铸)以生成光谱的变换表示。对于一个或多个光谱中的每一个，可以基于将光谱的变换表示与一个或多个其他光谱中的每一个的变换表示分开的距离来计算距离度量。如果距离度量大于阈值，则可以将光谱归类为异常值。

在一些情况下，可以丢弃当前输入光谱并且可以获得新的输入光谱以用于定义处理管道。在其他情况下，异常值检测可以包括识别输入光谱内的一个或多个波数或一个或多个光谱是异常值，并从输入光谱中(分别)过滤一个或多个波数或一个或多个光谱。输入光谱中的剩余光谱将用于定义处理管道。

遗传算法控制器105然后更新代数据存储器106以将每个候选解标识符与适应度度量相关联。应当理解，可以并行或迭代地评估候选解。当已经为群体中的每个候选解确定了适应度度量时，遗传算法控制器105确定是否执行另一代迭代。例如，当当前代计数低于预定义的代处理量(例如，由客户或开发人员定义)时，当当前代的整个群体的最佳适应度度量不超过预定义的阈值(例如，当最低错误高于给定错误阈值时，或当最高R²值低于R²阈值时)，或当当前代的整个群体的最佳适应度度量相对于之前代的整个群体的最佳适应度度量没有改善至少预定量时，可以执行另一代迭代。

当要执行另一代迭代时，遗传算法控制器105使存储在代数据存储器106中的代计数增加并识别新的候选解属性集(每个集与新的候选解相关联)。新的候选解属性集是基于先前的候选解属性集和相应的适应度度量来确定的。例如，新的候选解属性集的选择可以偏向于与具有相对高适应度度量的先前候选解相关联的属性并且偏离与具有相对低适应度度量的先前候选解属性相关联的属性。通过修改突变率来调整候选群体中的进化选择以适应不同的场景。突变率包括预处理技术和机器学习参数的随机或伪随机排列。新的候选解如第一代候选解那样处理，并且迭代地产生和评估代，直到确定不执行另一代迭代。

如果不执行另一代，则选择单个候选解。单个候选解是(例如)与来自上一代和/或来自所有代的候选解的最佳适应度度量相关联的候选解。

单个候选解的处理管道可以经一个或多个附加处理阶段扩充。例如，可以使用特征选择控制器112来扩充处理管道，以从处理管道的特定阶段的输入光谱中选择用于估计或预测样品特征的特征。特征选择控制器112可以包括在计算设备104中(如图所示)或作为与计算设备104通信的单独的处理设备。

转到图2，其图示了根据本发明的一些实施例的特征选择控制器112的实例，其选择用于估计或预测样品特征的特征。特征选择控制器112可以在生成样品的估计或预测的阶段之前的处理管道的任何阶段实施特征选择过程。例如，特征选择控制器112可以在机器学习模型操作之前的阶段操作。输入光谱208被传递到特征选择控制器112。特征选择控制器112在212识别输入光谱中的波数集以及每个波数处的对应强度(例如，特征)。特征选择控制器112将波数和相关联的强度传递给波数排名处理器216，该处理器为波数集中的每个波数定义排名。

例如，波数排名处理器216使用偏最小二乘(PLS)回归来为每个波数分配排名。PLS输出描述波数与其他波数之间相关性的分量集(例如，指示改变波数的强度会改变其他波数的强度的程度)。基于偏最小二乘回归的分量的相对排序，为每个波数分配排名。

特征选择控制器112然后使用子集定义220来基于用于特征选择要评估的迭代的数量定义波数集的多个子集。在一些情况下，子集的数量等于要评估的迭代次数。特征选择控制器112通过根据排名对波数集进行排序(例如，从最高到最低或反之亦然)来定义子集。第一子集包括完整的波数集。每个后续子集包括来自先前子集的波数，并且基于排名排除了预定数量的波数(例如，最低排名的波数、最高排名的波数、波数的随机选择等)。预定数量可以是波数集中的波数数量的百分比(可能向上取整)、先前子集中的波数数量的百分比、整数等。

迭代控制器224使用交叉验证分析迭代地评估波数228的每个子集。交叉验证分析用于为每次迭代生成分数232。分数232表示使用对应于子集228中的波数的强度生成的样品特征的估计或预测是准确的置信度。可以将分数232与其他迭代的分数进行比较以确定使用不同子集生成的估计和/或预测的置信度的相对差异。。使用基于波数子集228中包含的波数定义的训练数据集和验证数据集导出分数232。训练数据集训练机器学习模型，该模型估计或预测验证数据集的样品特征(已知地面实况标签)。通过将处理验证数据集的输出与地面实况标签进行比较来得出分数。

迭代控制器224输出迭代，该迭代包括在与基线分数的阈值偏差内的分数(例如，包括波数集的子集的分数)。例如，如果阈值偏差是0.02，则迭代控制器224识别具有最接近基线分数的0.02的分数的迭代。所识别的波数子集236包括所识别的迭代的波数子集。然后将所识别的波数子集236的每个波数处的强度输出到处理管道208中的机器学习模型240以估计或预测样品特征。

返回图1，处理管道可用于处理其他光谱(例如，可能与管道估计的类型的已知特征无关的光谱)以生成估计的样品特征。可用的处理管道可以但不必包括基于训练数据确定的数据相关值(例如，除了配置有与单个候选解相关联的属性的预处理和机器学习模型之外)。使用处理管道可以包括将与处理管道相关联的代码和/或单个候选解的解属性传输到另一设备和/或本地处理另外的光谱。

处理管道可用于使用其他样品的光谱来估计或预测特征，例如为批释放制备的样品。这包括识别给定样品的估计特征的结果，该估计特征可以在本地呈现或传输到另一设备。在一些情况下，仅在不满足质量控制条件(使用估计的特征进行评估)时才呈现或传输结果。例如，当数字估计特征不在预定义的开放或封闭范围内或当数字估计特征超过特定阈值时，可以有条件地呈现结果。

结果也可以明确地定义估计的特征。示例性类别可包括基于是否满足质量控制条件将样品标记为“合格”或“不合格”。在一些情况下，类别本身可以指示或可以用于对应于一个或多个其他样品的一个或多个类别，以将样品批次分类为合格或不合格。批次可以对应于可以由用于制造样品的一些或所有机器的连续运行定义的一段时间和/或在用于制造样品的一些或所有机器保持通电的一段时间在单个设施中制造的一组样品。

可以进一步定义类别以识别样品的特征，特别是在其缺陷方面(例如，活性成分的高或低浓度、非活性成分的高或低浓度、高或低的pH值等)。可以基于客户和/或开发人员定义的预定阈值(例如，成分浓度和/或pH和/或任何其他合适的样品特征的一组下限或上限)将数字估计特征分类为定义的类别之一。可以将样品特征的估计的类别和/或分类呈现或传输到另一设备。与数字估计特征一样，仅当估计的特征已被分类为不合格或在一些方面存在不足时，才会显示结果。在一些情况下，结果可由数字估计特征和分类估计特征二者组成。在这种情况下，数字估计特征和分类估计特征二者可以被呈现或传输到另一设备。

估计的特征可用于确定是否允许、促进、抑制或阻止一个或多个样品分配系统111分配相应的样品。例如，当不满足质量控制条件时，可以将通信从计算设备104传输到样品分配系统111和/或相关联的用户设备，其识别样品并可能包括估计的特征和/或在分配之前收集样品(或从自动样品分配处理线中移除样品)的指令。在一些情况下，样品分配系统111和计算设备104容纳在同一设施中。计算设备104可以连接到样品将在分发之前经历的物理选通机构。物理选通机构可以被配置为选择性地使满足质量控制条件的样品通过。

在一些情况下，计算设备104包括用于超过一个估计的特征的一组质量控制条件。结果，遗传算法可以被配置为针对每个估计的特征进行单独的迭代。如果没有全部满足该组质量控制条件，则计算设备104可以与样品分配系统111和/或相关联的用户设备通信以便停止(例如，或在改变样品以满足质量控制条件的情况下延迟)样品的分配。如果满足全部该组质量控制条件，则计算设备104可以允许样品的分配。

在一些情况下，计算设备104可以进一步使用估计的特征以确定是否允许、促进、抑制或阻止样品分配系统111分配样品批次。例如，在样品批次中至少有一部分(例如，预定阈值或大多数)样品不满足质量控制条件的情况下，则该批样品可能被归类为“不合格”批次。计算设备104可以与样品分发系统111和/或相关联的用户设备通信，以便停止任何被认为“不合格”的样品批次的分配。在一些情况下，进一步改变“不合格”的样品批次以满足质量控制条件。在样品批次中至少有一部分(例如，预定阈值或大多数)样品满足质量控制条件的情况下，则该批样品可以归类为“合格”批次。在这样的情况下，计算设备104将仅停止“合格”批次内不满足质量控制条件的个别样品的分配。在另一些情况下，计算设备104允许分配不满足质量控制条件的样品批次中内的个别样品，只要该样品批次已被分类为“合格”即可。

此外，质量控制条件的满足或不满足可能决定未来样品生产过程中的调整。如果不满足质量控制条件，则可以改变样品生产系统，从而可以添加、修改或移除样品生产系统的组件(例如，添加化合物和/或百分比的溶质，去除化合物和/或百分比的溶质，样品生产机器的不同配置的使用)。例如，如果质量控制条件表明样品中溶质的浓度过高，则样品生产系统可以调整溶质的添加以降低浓度。在一些情况下，只有在特定数量(例如，可以是预定阈值)的样品不满足质量控制条件时，才可以调整样品生产系统。

III.示例性方法

图3示出了根据本发明的一些实施例的用于使用遗传算法来促进样品的质量控制处理的示例性过程300。计算设备(例如，诸如计算设备104)执行过程300。在框305，计算设备访问数据集。每个数据元素可以包括样品的光谱和已知特征(例如，已知的物理或化学特征)。

在框310，计算设备初始化候选解群体。每个候选解可以包括属性集，以指定用于预处理光谱和/或使用机器学习模型处理光谱(或其预处理版本)的类型、技术或变量。

在框315，计算设备通过根据与候选解相关联的属性集配置的任何预处理和机器学习模型转换数据元素的光谱来为群体中的每个候选解和数据元素集的至少一些中的每一个确定预测样品特征。例如，可以基于属性集中的至少一个和数据元素中的至少一部分来识别基线和/或过滤器，并且可以去除基线和/或可以使用基线和/或过滤器过滤光谱。作为另一个示例，可以根据候选解的属性集中的至少一些来选择和配置一种类型的机器学习模型，并且还可以使用数据元素中的至少一些来配置机器学习模型。然后可以使用配置的预处理和/或机器学习模型来处理各个光谱。在一些情况下，数据集的第一部分(例如，训练子集)用于确定或学习任何数据相关值，并且预处理和机器学习模型(用数据相关值和属性集配置)用于为数据集的一个或多个第二部分(例如，验证子集和/或测试子集)中的每个数据元素生成预测的样品特征。

在框320，计算设备基于预测的样品特征和已知的样品特征为每个候选解生成适应度度量。适应度度量可以包括(例如)误差度量、相关度量和/或成对显著性值。例如，适应度度量可以包括信噪比、均方根误差、R²值或使用配对分析生成的p值。在一些情况下，使用数据集的验证或测试子集生成适应度度量。在一些情况下，使用预测样品特征和已知样品特征的分类准确度值生成适应度度量(例如，如果计算的误差度量在预定上限和下限之间，则分配“合格”标签)。在一些情况下，适应度度量被配置为使得低值和/或“0”值表示与较高值相比，候选解在预测样品特征方面更好。在一些情况下，适应度度量被配置为使得高值和/或“1”值表示与较低值相比，候选解在预测样品特征方面更好。

在框325，计算设备基于适应度度量选择候选解群体的不完整子集。不完整子集可以包括预定义数量的候选解(例如，1或3个)、候选解群体的预定义百分比(例如，5％或10％)，或群体中与高于(或低于)预定义阈值的适应度度量相关联的每个候选解。可以选择不完整子集以包括(例如)与指示相对于不在子集中的其他候选解更好的预测性能的适应度度量相关联的候选解。例如，可以选择子集以包括来自群体的与群体中基于最低误差的适应度度量相关联或与群体中基于最高相关性的适应度度量相关联的两个候选解。

在框330，计算设备确定是否执行附加代迭代。例如，当当前代计数小于要评估的预定义代数时，可以确定执行附加代。

如果计算设备确定要执行附加代迭代，则过程300可以进行到框335，其中可以使用子集和一个或多个遗传算子来更新候选解群体。更新候选解群体可以包括用新的候选解群体替换候选解群体(例如，新群体中的每个候选解与新属性集相关联)。可以通过为属性集中的每一个选择值(例如，使用伪随机选择技术)来生成新的群体。选择可能偏向与不完整子集相关联的值。选择可以使用一种或多种遗传算子，例如变异算子、交叉算子和/或选择算子。过程300然后可以返回到框315以评估更新的候选解群体。

如果计算设备在框330确定不执行附加代迭代，则过程300可以进行到框340，其中基于子集中候选解的属性集来定义处理管道。处理管道可以识别要执行的预处理(如果有的话)的类型和要执行的机器学习模型处理的类型。在一些情况下，处理管道包括特定变量，例如由属性集中的属性定义的一个或多个未学习变量和/或基于训练数据定义的一个或多个学习参数。

在框345，计算设备在处理管道中执行特征选择过程。计算设备从处理管道的特定阶段的输入光谱(例如，预先预测样品的特征)中识别波数集和来自输入光谱的相应强度。特征选择过程包括从波数集中选择用于预测样品特征的一个或多个波数和相应的强度(例如，特征)。通过选择波数，计算设备可以减少来自输入光谱的用于预测特征的强度的数量。

特征选择过程包括为波数集中的每个波数生成排名。可以使用诸如偏最小二乘(PLS)回归的回归分析来生成排名。PLS输出描述波数与其他波数之间相关性的分量集(例如，指示改变波数的强度会改变其他波数的强度的程度)。基于偏最小二乘回归的分量的相对排序，为每个波数分配排名。排名表示波数对波数集的可变性的贡献。高排名的波数表明改变波数的强度会导致一个或多个其他波数的相应变化。低排名的波数表示改变波数将导致其他波数的强度变化很小或没有变化。光谱的波数按照每个波数的排名排序。例如，波数从具有最高排名的波数排序到具有最低排名的波数，反之亦然。

计算设备定义迭代集，其中每次迭代评估波数集的不同子集。第一次迭代的波数子集包括所有波数。每个后续迭代的波数子集包括来自先前迭代的波数减去基于排名的波数数量(例如，最低波数、最高波数、波数的随机采样等)。在一个示例中，如果光谱包括1500个波数，则第一次迭代的子集包括1500个波数，第二次迭代的子集包括来自第一次迭代的1500减去25％的具有低排名的波数(例如，留下1125个波数剩余)，第三次迭代的子集包括第一次迭代的1125减去具有低排名的那些波数的百分比(例如，留下825个波数剩余迭代)，依此类推。

计算设备通过基于交叉验证分析定义每次迭代的模型验证分数来评估迭代集合中的每次迭代，如先前在图2中描述的。每个分数代表包括子集中波数强度的处理光谱(根据处理管道)准确预测样品特征的程度。第一次迭代的模型验证分数(例如，包括波数集)是与后续模型验证分数进行比较的基线模型验证分数。将模型验证分数与基线模型验证分数进行比较提供了去除波数对预测样品特征的准确性的影响的指示。

然后，特征选择过程从预定数量的迭代中识别特定迭代，该迭代具有在与基线模型验证分数的阈值偏差内的模型验证分数。例如，阈值可以设置为0.020(例如，或基于遗传算法、用户输入、波数数量、基线模型验证分数、其组合等的任何预定量)。计算设备识别具有最接近与基线模型验证分数的阈值的模型验证分数的特定迭代。在一些示例中，特征选择过程识别具有最接近与基线模型验证分数的阈值但不超过阈值的模型验证分数的特定迭代。

在一些情况下，计算设备将针对每次迭代导出的模型验证分数与基线模型验证分数进行比较，然后再进行下一次迭代。在检测到具有大于阈值偏差的模型验证分数的迭代时，特征选择过程将先前的迭代(例如，具有大于与基线模型验证分数的阈值偏差的模型验证分数的迭代之前的迭代)识别为特定迭代。在那些情况下，特征选择过程被配置为执行预定数量的迭代，但是在识别特定迭代时提前终止以减少分析的迭代的数量。

对应于特定迭代的波数的强度可用于预测样品的特征。由于使用了更少的波数，因此可以降低预测器(例如，如前所述的机器学习模型等)的整体复杂性，而不会影响预测器的性能(例如，预测精度等)。

当处理后续光谱时，计算设备选择与特征选择过程识别的相同波数处的新光谱的强度以用于预测特征。与特征选择过程识别的波数不对应的波数和相应强度可以从处理管道的进一步处理中省略。替代地，与特征选择过程识别的波数不对应的波数和对应强度可以从新光谱中去除。框340中描述的特征选择过程可以执行一次以选择可以用于预测后续光谱中的特征的波数。

在一些情况下，计算设备为要预测其特征的每个新光谱执行特征选择过程。在这些情况下，新光谱的处理管道的每次执行都包括在预测特征之前发生的特征选择过程。

特征选择过程可以在生成特征预测之前作为处理管道的一个阶段来执行(例如，如框345中所述)。替代地，特征选择过程可以在遗传算法中执行(例如，作为跨代持续存在的基因)。在这些情况下，特征选择过程是在候选解群体的候选解中定义的。特征选择过程可以通过遗传算法改变，例如，通过在候选解中和/或跨代改变要由特征选择过程执行的迭代的预定数量，改变在每次迭代期间要去除的波数的预定数量，改变在每次迭代期间要去除的波数的百分比，改变与基线模型验证分数的阈值以识别候选中的特定迭代，其组合等。

例如，包括预定属性集的特征选择过程(例如，对应于迭代的数量、在每次迭代期间要去除的波数的百分比等)包含在一个或多个候选解中。在一些情况下，一些候选解中的特征选择过程可能与其他候选解中的特征选择过程不同。例如，一个或多个候选解中包括的特征选择过程可以包括12次迭代，并且一个或多个候选解中包括的特征选择过程可以包括9次迭代。遗传算法识别是否在候选解中包括特征选择过程，并且如果包括，则识别与改进的特征预测(例如，更准确等)相对应的属性集。

在框350，计算设备使用处理管道来处理与另一样品相关联的另一光谱以预测另外的样品的特征。另外的样品可能对应于在用于评估各种候选解的数据集中未表示的样品。在通过处理管道处理新光谱之后但在进行特征预测之前，选择波数用于预测特征。选择的波数对应于框340的特征选择过程识别的波数。未选择的波数从进一步处理中被忽略或以其他方式不用于预测特征。

在框355，计算设备输出预测的特征。例如，所预测的特征在本地呈现或被传输到另一设备。可以进一步与预测的特征相关联地输出另外的样品的标识符。

IV.实例

A.实例1–单代的候选解群体

图4示出了为单代生成的20个候选解的示例性群体。每个候选解都包含以下属性中每一种的值：

●是否进行不对称最小二乘基线去除，包括以下参数：

○用于不对称最小二乘基线去除的λ值；

○用于不对称最小二乘基线去除的p值；

●用于处理的机器学习模型的类型：偏最小二乘(例如，主成分分析、PLS判别分析等)、随机森林(例如，增强树模型，例如AdaBoost或XGBoost；分裂随机森林；等)或支持向量机(例如，C-SVM分类、nu-SVM分类、epsilon-SVM回归等)；

●机器学习模型的超参数，包括：

○如果模型类型是偏最小二乘模型：机器学习参数的数目(即要计算的主成分的数目)；

○如果模型类型是随机森林模型：作为叶节点所需的样品的最小数目；

○如果模型类型是随机森林模型：拆分内部节点所需的样品的最小数目；

○如果模型类型是支持向量机模型：正则化和核参数值；

●是否执行Savitzky-Golay(“savgol”)平滑；

●用于平滑预处理的窗口大小；

●平滑预处理的多项式阶数；

●用于平滑预处理的导数的阶；和

●预处理技术的选择，包括但不限于均值中心化和多种缩放策略，例如标准正态变量方法；使用最大强度值执行缩放；使用L1度量执行缩放；或不执行缩放。

此外，基于每个候选解可以如何准确地估计特征，每个候选解都被赋予了适应度度量值(例如，描绘为“适应度CV”列)。表现最好的候选解(例如，具有最低适应度度量值)按降序排名，其中候选解0最准确，并且候选解19最不准确。遗传算法可以选择任何顶级候选解(例如，候选解0和/或候选解1)以包含在下一代候选解的新群体中。

B.实例2–乳酸浓度标签

训练数据集被定义为包括5000个拉曼光谱(每个拉曼光谱使用并对应于单个样品收集)和5000个标签。每个标签都可以识别样品特征，在本实例中，该特征识别相应样品中的乳酸量。被监测的每个样品都包括真核细胞培养物。初始候选解集被定义为具有10个候选解，每个候选解都与来自实例1中候选解的每个相同属性的值相关联。

然后使用遗传算法来评估10个候选解中的每一个。训练数据集用于学习特定参数(例如，当候选解的属性集指示要执行基线去除时，使用不对称最小二乘技术识别要去除的特定基线)。对于每个候选解，根据候选解的属性集和任何学习参数定义候选处理管道。通过使用候选解的候选处理管道为验证数据集中的500个拉曼光谱中的每一个生成预测标签并将预测标签与已知标签进行比较来计算适应度度量。

图5A示出了乳酸浓度的测量标签值与通过示例性候选解的候选处理管道生成的乳酸浓度的预测标签值之间的比较。对于这个候选处理管道，R²值被确定为0.868，并且为测试数据集计算的均方根误差为0.069。

图5A涉及来自第一代的示例性候选解，包括以下配置：

●基线去除：无

●使用15的窗口大小、2的多项式阶数和1的导数阶数来执行Savitzky-Golay平滑。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有6个分量的偏最小二乘回归。

该代候选解的子集定义为包括10个候选解中与最高适应度度量相关的2个候选解。将子集中候选解的属性输入到变异算法中，然后定义第二代的10个新候选解中的每一个的属性集。以类似方式评估候选解并定义新一代，直到生成30代中的每一代的适应度度量。然后通过识别与第30代的最高适应度度量相关联的候选解，从第30代的候选解中选择单个候选解。

图5B示出了乳酸浓度的测量的标签值与通过第30代后单个候选解产生的乳酸浓度的预测的标签值之间的比较。示例性候选解具有以下配置：

●将执行不对称最小二乘基线去除，其中λ＝4并且p＝7。

●使用9的窗口大小、2的多项式阶数和0的导数阶数来执行Savitzky-Golay平滑。

●将根据标准正态变量方法执行缩放。

●要使用的机器学习模型是随机森林，其中作为叶节点的样品的最小数目为7，特征的最大数目为300，并且分割内部节点的样品的最小数目为5。随机森林包括100个估计量。

对于这个处理管道，R²值被确定为0.894，并且为测试数据集计算的均方根误差为0.061。因此，与来自第一代的示例性候选解的标签一致性相比，所选单个候选解(在30代后识别的)的预测标签和实际标签之间的一致性更高。此外，与第一代示例性候选解的误差相比，所选单个候选解(在30代后识别)的预测标签误差更低。

C.实例3–葡萄糖浓度标签

图6A和6B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的pH的测量标签值和葡萄糖浓度的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。标签识别样品中的葡萄糖量而不是样品中的乳酸量，并且正在监测真核细胞培养物。图6A和6B各自示出了实际标签和估计标签之间的比较。图6A涉及来自第一代的示例性候选解，并且图6B涉及单个候选解(在30代后识别)。

第一代示例性候选解的候选处理管道包括以下配置：

●不执行基线去除。

●使用15的窗口大小、2的多项式阶数和1的导数阶数来执行一阶导数的Savitzky-Golay平滑。

●将根据标准正态变量方法执行缩放。

●要使用的机器学习模型是具有8个主成分的偏最小二乘法。

30代之后选择的单个候选解的候选处理管道包括以下配置：

●将执行不对称最小二乘基线去除，其中λ＝4并且p＝7。

●使用13的窗口大小、2的多项式阶数和1的导数阶数来执行一阶导数的Savitzky-Golay平滑。

●不执行缩放。

●要使用的机器学习模型是具有9个主成分的偏最小二乘法。

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.958对比于R²＝0.944)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.039对比于RMSE＝0.045)。

值得注意的是，与本实例有关的所选单个候选解的一些属性不同于与实例2有关的所选单个候选解的相应属性。例如，本实例中选择的机器学习模型是偏最小二乘模型，而实例2中选择的机器学习模型是随机森林模型。这可能表明各种预处理和处理技术和/或配置对于预测标签的效果不同，这取决于被预测的标签的类型。

D.实例4–pH标签

图7A和7B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的pH的测量标签值与pH的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。实例4的标签识别样品的pH(例如，在本文中，制剂缓冲液中的生物药物材料)而不是真核细胞培养样品中的乳酸量。在该实例中，测量是一个质量属性，其可以决定样品向受试者的释放和分配。图7A和7B各自示出了实际标签和估计标签之间的比较。

图7A涉及来自第一代的示例性候选解，其包括以下配置：

●不执行基线去除。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有6个主成分的偏最小二乘法。

图7B涉及单个候选解(在30代后识别)，包括以下配置：

●将执行不对称最小二乘基线去除，其中λ＝6并且p＝3。

●使用5的窗口大小、3的多项式阶数和0的导数阶数来执行一阶导数的Savitzky-Golay平滑。

●不执行缩放。

●要使用的机器学习模型是具有20个主成分的偏最小二乘法。

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.916对比于R²＝0.500)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.022对比于RMSE＝0.054)。

E.实例5–渗透浓度标签

图8A和8B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的渗透浓度的测量标签值和渗透浓度的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。实例5标签的标签识别样品的渗透浓度(例如，在本文中，制剂缓冲液中生物药物材料的溶质浓度)。图8A和8B各自示出了实际标签和估计标签之间的比较。

图8A涉及来自第一代的示例性候选解，其包括以下配置：

●不执行基线去除。

●对一阶导数执行Savitzky-Golay平滑，其中窗口大小为15，多项式阶数为2，导数阶数为1。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有8个主成分的偏最小二乘法。

图8B涉及单个候选解(在30代后识别)，包括以下配置：

●将执行不对称最小二乘基线去除，其中λ＝4并且p＝7。

●对一阶导数执行Savitzky-Golay平滑，其中窗口大小为5，多项式阶数为3，导数阶数为0。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是支持向量机，其中C：2100，γ：0.01584.

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.918对比于R²＝0.685)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.073对比于RMSE＝0.144)。

F.实例6–抗体氧化标签

图9A和9B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的抗体氧化的测量标签值和抗体氧化的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。实例6的标签识别样品的估计的抗体氧化(例如，在本文中，治疗性抗体功能的估计)。图9A和9B各自示出了实际标签和估计标签之间的比较。

图9A涉及来自第一代的示例性候选解，其包括以下配置：

●不执行基线去除。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有5个主成分的偏最小二乘法。

图9B涉及单个候选解(在30代后识别)，包括以下配置：

●不执行基线去除。

●对一阶导数执行Savitzky-Golay平滑，其中窗口大小为5，多项式阶数为4，导数阶数为0。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有10个主成分的偏最小二乘回归。

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.789对比于R²＝0.578)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.074对比于RMSE＝0.105)。

G.实例7–聚糖G0F-N标签

图10A和10B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的聚糖G0F-N的测量标签值和聚糖G0F-N的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。实施例7的标签识别样品的估计的聚糖G0F-N。图10A和10B各自示出了实际标签和估计标签之间的比较。

图10A涉及来自第一代的示例性候选解，其包括以下配置：

●不执行基线去除。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有5个主成分的偏最小二乘法。

图10B涉及单个候选解(在30代后识别)，包括以下配置：

●将执行不对称最小二乘基线去除，其中λ＝6并且p＝9。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是支持向量机，其中C：2400，γ：0.0006.

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.814对比于R²＝0.710)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.044对比于RMSE＝0.055)。

H.实例8–HMWF标签

图11A和11B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的高分子量形式(HMWF)的测量标签值和HMWF的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。实施例8的标签识别样品的估计的HMWF。图11A和11B各自示出了实际标签和估计标签之间的比较。

图11A涉及来自第一代的示例性候选解，其包括以下配置：

●不执行基线去除。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有8个主成分的偏最小二乘法。

图11B涉及单个候选解(在30代后识别)，包括以下配置：

●将执行不对称最小二乘基线去除，其中λ＝7并且p＝3。

●对一阶导数执行Savitzky-Golay平滑，其中窗口大小为11，多项式阶数为3，导数阶数为0。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是支持向量机，其中C：2100，γ：0.1.

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.960对比于R²＝0.811)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.048对比于RMSE＝0.105)。

I.实例9–双特异性组装体标签

图12A和12B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的双特异性组装体的测量标签值和双特异性组装体的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。实例9的标签识别样品中抗体的双特异性组装体的估计值(例如，通过反相质谱法测量的作为十进制小数的组装的双特异性抗体的百分比)。图12A和12B各自示出了实际标签和估计标签之间的比较。

图12A涉及来自第一代的示例性候选解，其包括以下配置：

●不执行基线去除。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有6个主成分的偏最小二乘法。

图12B涉及单个候选解(在30代后识别)，包括以下配置：

●不执行基线去除。

●对一阶导数执行Savitzky-Golay平滑，其中窗口大小为13，多项式阶数为2，导数阶数为0。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有10个主成分的偏最小二乘法。

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.938对比于R²＝0.898)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.079对比于RMSE＝0.102)。

J.实例10–活细胞组装体标签的丰度

图13A和13B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的细胞活力的测量标签值和细胞活力的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。实例10的标签识别样品中活细胞丰度的估计值。图13A和13B各自示出了实际标签和估计标签之间的比较。

图13A涉及来自第一代的示例性候选解，其包括以下配置：

●不执行基线去除。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有11个主成分的偏最小二乘法。

图13B涉及单个候选解(在30代后识别)，包括以下配置：

●不执行基线去除。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是支持向量机，其中C：1550，γ：0.0016.

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.981对比于R²＝0.983)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.043对比于RMSE＝0.046)。

K.实例11–死细胞组装体标签的丰度

图14A和14B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的死细胞量的测量标签值和残留水分含量的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。实例11的标签识别样品中死细胞丰度的估计值。图14A和14B各自示出了实际标签和估计标签之间的比较。

图14A涉及来自第一代的示例性候选解，其包括以下配置：

●不执行基线去除。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有12个主成分的偏最小二乘法。

图14B涉及单个候选解(在30代后识别)，包括以下配置：

●不执行基线去除。

●将对一阶导数执行Savitzky-Golay平滑，窗口大小为13，多项式阶数为2，导数阶数为1。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有8个主成分的偏最小二乘法。

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.719对比于R²＝0.707)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.094对比于RMSE＝0.096)。

L.实例12–残留水分含量标签

图15A和15B示出了来自第一代的示例性候选解和来自第30代的示例性候选解的残留水分含量的测量标签值和残留水分含量残留水分含量的预测标签值之间的示例性比较。在该实例中执行与实例2中执行的类似处理。实施例12的标签识别样品残留水分含量的估计值。图15A和15B各自示出了实际标签和估计标签之间的比较。

图15A涉及来自第一代的示例性候选解，其包括以下配置：

●不执行基线去除。

●对一阶导数执行Savitzky-Golay平滑，其中窗口大小为11，多项式阶数为4，导数阶数为0。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是具有2个主成分的偏最小二乘法。

图15B涉及单个候选解(在30代后识别)，包括以下配置：

●将执行不对称最小二乘基线去除，其中λ＝5并且p＝9。

●对一阶导数执行Savitzky-Golay平滑，其中窗口大小为11，多项式阶数为4，导数阶数为1。

●根据标准正态变量逐行方法执行缩放。

●要使用的机器学习模型是支持向量机，其中C：2400，γ：0.005,ε＝0.066。

第30代后选择的单个候选解的R²值高于示例性第一代候选解的R²值(分别为R²＝0.992对比于R²＝0.983)。此外，第30代后选择的单个候选解的测试集误差低于示例性第一代候选解的测试集误差(分别为RMSE＝0.027对比于RMSE＝0.039)。

实例13–利用预处理操作原始光谱特征

图16A-21B示出了与预处理原始光谱数据以改进信号质量和机器学习预测有关的示例性数据。图16、17、18、19、20和21分别对应于图7、10、12、13、14和15对应的标签变量、监测和处理管道的类型。对于每个图，x和y坐标的范围相对于观察到的最大值的比例进行缩放(例如，在0和1之间)。每个“A”图示出了一组输入拉曼光谱。每个“B”图示出了通过应用(但不限于)本文公开的技术根据相应的处理管道产生的相应组的预处理光谱。值得注意的是，每种变量类型的特定应用技术是不同的，因为它是根据“A”图中描绘的特定光谱确定的。

可以看出，在图中,光谱预处理导致在许多但不是所有频率上跨光谱变异性降低。可能的是,跨光谱变异性保留的频率在标签变量的特定值方面可能是信息性的，而跨光谱变异性被移除的频率在这方面没有信息性。

N.实例14–利用特征选择操作原始光谱特征

图22A-22B示出了与预处理原始光谱数据以改进信号质量和机器学习预测有关的示例性数据。图22A中所示的原始输入光谱波数具有在0和2000之间的波数(例如，x轴)和相对于观察到的最大值的比例缩放的y范围(例如，在0和1之间)。图22B示出了在已经执行特征选择过程之后(例如，如图1-3中所描述的)的相应光谱集。特征选择过程在处理管道的阶段中执行(例如，在预处理和在输入到机器学习模型之前或在生成特征的估计或预测之前)。

如图22B所示，在执行图1-3的特征选择过程之后的减少了光谱集。从输入光谱中除去了对波数变化没有贡献的波数，因为这些波数的缺失对机器学习模型估计或预测特征的准确性没有影响或产生边际影响。如图所示，图22的波数中仅一部分有助于变异性，并在特征选择过程中被选择。

图23示出了特征选择过程的示例执行，该过程识别了用于估计样品特征的特定减少的特征集。为每个波数分配排名(例如，如图1-3中所述)。特征选择过程包括12次迭代，每次迭代从前一次迭代中包含的波数中去除固定数量的波数和相应的强度(例如，25％)。选择0.02的阈值偏差来识别具有所需波数选择的特定迭代。在第一次迭代之前，有1545个波数)。完整波数集的交叉验证系数为0.0892(例如，根据图2中描述的过程导出)，其对应于基线交叉验证系数,后续迭代将与其进行比较。

在迭代1中，去除底部25％特征(基于分配的排名)，剩下1159个特征。为减少的特征导出了交叉验证系数，该系数比基线交叉验证系数高(例如，0.001)。结果，迭代1的交叉验证系数成为新的基线交叉验证系数。在迭代2中，去除剩余特征的底部25％(例如，来自迭代1的1159个特征中的25％)，并且为减少的特征导出了0.887的交叉验证系数。

例如，转到图24A-24D，其示出了图1-3中描述的特征选择过程的图形表示。图24A图示了在图23的实例的第一次迭代期间根据分配的排名排序的波数的图。如图24A中所示，识别了底部25％的波数以从图中去除。图24B图示了在图23的实例的第二次迭代期间根据分配的排名排序的波数的图。在第二次迭代中，去除了从第一次迭代中识别的底部25％的波数。标记剩余波数的底部25％用于移除。图24C图示了在图22的实例的第二次迭代期间根据分配的排名排序的波数的另一图。如图24C中所示，去除的波数包括在第一次迭代中识别的底部25％的波数和在图24B中识别的底部25％的波数。

返回图23，在迭代8中，交叉验证系数为0.881，其与基线交叉验证系数(例如，在迭代3期间再次更新为0.895)相差0.014。在下一次迭代中，交叉验证系数为0.866，其与基线交叉验证系数相差0.029，并且超过了0.020的阈值。由于迭代8的交叉验证系数最接近阈值0.020而没有超过阈值，因此选择迭代8作为特定迭代。结果，选择了迭代8的特征用于生成样品的预测特征。

图24D图示了在图23的实例的第八次迭代期间根据分配的排名排序的波数的图。图24D将根据特征选择过程(例如，由第八次迭代识别)选择的波数与在先前迭代中省略的波数区分开来。如图所示，选择了全套波数的一小部分。

V.示例性实施例

A1.一种计算机实现方法，其包括：

访问包括多个数据元素的数据集，所述数据元素中的每一个包括：

基于多个样品中的一个与来自能量源的能量之间的相互作用生成的光谱；和

所述样品的已知特征；

初始化候选解群体，其中候选解中的每一个由包括以下的属性集定义：

待执行特定类型的预处理的指示；

待执行的预处理的参数；

待使用的机器学习模型的类型的标识；和/或

机器学习模型超参数；

通过以下方式过滤所述候选解群体：

通过用所述属性集处理所述数据元素的光谱，为所述候选解中的每一个和所述数据元素中的每一个确定预测的样品特征；

基于所述数据元素的预测的样品特征和已知特征，为所述候选解群体中的每一个候选解生成适应度度量；以及

基于所述适应度度量选择所述候选解群体的不完整子集；

通过以下方式执行一次或多次附加代迭代：

更新所述候选解群体，以包括使用所述候选解群体的不完整子集和一个或多个遗传算子识别的下一代解群体；和

使用更新的候选解群体重复所述候选解群体的过滤；以及基于在所述附加代迭代的最后一代迭代期间选择的所述候选解群体的不完整子集中的特定候选解的属性集生成处理管道。

A2.根据权利要求A1所述的计算机实现方法，其进一步包括：

访问对应于另一样品的另一光谱；

通过根据所述处理管道对另外的光谱进行处理，生成另外的样品的预测特征；以及

输出所述另外的样品的预测特征。

A3.根据权利要求A1至A2中任一项所述的计算机实现方法，其中，对于所述多个数据元素中的每个数据元素，所述光谱包括拉曼光谱或红外光谱。

A4.根据权利要求A1至A3中任一项所述的计算机实现方法，其中所述特定候选解的属性集包括用于特定类型的机器学习模型的超参数，所述特定类型的机器学习模型包括：

偏最小二乘；

随机森林；或

支持向量机。

A5.根据权利要求A1至A4中任一项所述的计算机实现方法，其中所述特定候选解的属性集包括特定类型的机器学习模型的选择或超参数，所述特定类型的机器学习模型被配置成生成分类输出或数值输出。

A6.根据权利要求A1至A5中任一项所述的计算机实现方法，其中所述另外的样品包括大分子。

A7.根据权利要求A1至A6中任一项所述的计算机实现方法，其中所述另外的样品包括小分子。

A8.根据权利要求A1至A7中任一项所述的计算机实现方法，其中所述另外的样品的预测特征的特征在于：

一种或多种小分子分析物的浓度；

溶剂；

一种或多种蛋白质变体的普遍存在；或

蛋白质高级结构；

大分子杂质。

A9.根据权利要求A1至A8中任一项所述的计算机实现方法，其中所述处理管道包括执行不对称最小二乘技术以减少或去除基线，并且其中所述特定候选解的属性集包括所述不对称最小二乘技术的至少一个参数。

A10.根据权利要求A1至A9中任一项所述的计算机实现方法，其中所述处理管道包括执行平滑技术以减少或去除基线，并且其中所述特定候选解的属性集包括所述平滑技术的至少一个参数。

A11.根据权利要求A1至A10中任一项所述的计算机实现方法，其中，对于所述多个样品中的至少一个样品，所述多个数据元素包括对应于所述样品的复数个数据元素，所述复数个数据元素包括使用所述样品生成的不同复制光谱。

A12.根据权利要求A1至A11中任一项所述的计算机实现方法，其进一步包括：

将所述多个数据元素分割为所述多个数据元素的训练子集和所述多个数据元素的测试子集；

其中为之确定了所述预测的样品特征的所述多个数据元素中的至少一些被定义为所述多个数据元素的测试子集；并且

其中过滤所述候选解群体进一步包括：

使用所述多个数据元素的测试子集学习一个或多个参数。

A13.根据权利要求A1至A12中任一项所述的计算机实现方法，其中所述多个样品中的每一个对应于相同的目标化学结构和相同的目标制剂，其中所述多个样品包括复数个批次特定子集，所述复数个批次特定子集中的每一个包括在单个批次期间制造的复数个样品，并且其中所述多个数据元素的分割包括：

将单独批次分割为训练子集和测试子集；以及

基于批次分割来分割所述多个数据元素。

A14.一种计算机实现方法，其包括：

使用成像设备收集另外的样品的另外的光谱；

以计算方式将所述另外的光谱提供给执行根据权利要求A1至A13中任一项所述的计算机实现方法的计算机系统；

从所述计算机系统接收预测特征；

基于所述预测特征确定是否满足质量控制条件；

当满足所述质量控制条件时，将该另外的样品分配为施用于受试者；

以及

当不满足所述质量控制条件时，阻止将另外的样品分配为用于受试者施用。

A15.根据权利要求A1至A14中任一项所述的计算机实现方法，其进一步包括：

当不满足所述质量控制条件时，动态调整与所述另外的样品的生产相关联的一个或多个参数。

A16.一种计算机实现方法，其包括：

提供另外的样品以收集另外的光谱；

以计算方式将所述另外的光谱提供给执行根据权利要求A11至A15中任一项所述的计算机实现方法的计算机系统；

从所述计算机系统接收预测特征；

基于所述预测特征确定是否满足质量控制条件；以及

当满足所述质量控制条件时，启动或完成被配置为制造额外样品的一个或多个制造过程；以及

当不满足所述质量控制条件时，终止或修改所述一个或制造过程。

A17.一种计算机实现方法，其包括：

在客户端装置处访问基于特定样品与来自能量源的能量之间的相互作用生成的特定光谱；

从所述客户端装置向远程计算系统发送对通过使用处理管道处理所述特定光谱生成的所述特定样品的预测特征的请求，其中所述处理管道由以下定义：

访问包括对应于多个样品的多个数据元素的数据集，所述特定样品不同于所述多个样品中的每一个，并且所述多个数据元素中的每个数据元素包括：

与所述多个样品中的样品相关联的光谱；和

所述样品的已知特征；

初始化候选解群体，其中所述候选解群体中的每一个由属性集定义，所述属性包括：

是否待执行特定类型的预处理；

待执行的预处理的参数；

使用哪种类型的机器学习模型；和/或

机器学习模型超参数；

通过以下方式过滤所述候选解群体：

通过根据所述属性集处理所述数据元素的光谱，为所述候选解群体中的每一个和所述多个数据元素中的至少一些数据元素中的每一个确定预测的样品特征；

基于所述多个数据元素中的至少一些数据元素的预测的样品特征和已知特征，为所述候选解群体中的每一个生成适应度度量；和

基于所述适应度度量选择所述候选解群体的不完整子集；

通过以下方式执行一次或多次附加代迭代：

更新所述候选解群体以包括使用所述候选解群体的所选不完整子集和一个或多个遗传算子识别的下一代解群体；以及

使用更新的候选解群体重复所述候选解群体的过滤；以及

基于在所述一个或多个附加代迭代的最后一代迭代期间选择的所述候选解群体的不完整子集中的特定候选解的属性集定义处理管道；以及

在所述客户端装置处并从所述远程计算系统接收所述特定样品的所述预测特征。

A18.根据权利要求A1至A17中任一项所述的计算机实现方法，其进一步包括：

使用光谱法启动发射来自所述能量源的所述能量，以收集所述特定光谱。

A19.根据权利要求A1至A18中任一项所述的计算机实现方法，其进一步包括：

修改所述处理管道以包括执行特征选择过程，该过程从所述光谱的强度集中选择一个或多个强度以用于生成预测样品的预测特征，其中所述特征选择过程在通过所述处理管道生成所述预测特征之前执行。

A209.根据权利要求A1至A19中任一项所述的计算机实现方法，其中所述特征选择过程包括：

从所述光谱中识别波数集，每个波数与强度值相关联；

使用回归分析为所述波数集中的每个波数定义分数；

根据所述波数集中的每个波数的分数对所述波数集进行排序；

执行一次或多次特征选择迭代，其中每次特征选择迭代包括：

通过去除所述光谱的具有最低分数的一个或多个波数来生成所述波数集的子集；以及

在机器学习模型上基于所述波数集的子集的交叉验证来生成模型验证分数；

从所述一次或多次特征选择迭代中选择所述一次或多次特征选择迭代中的包括最接近阈值的模型验证分数的特定特征选择迭代；以及

选择对应于所述特定特征选择迭代的所述波数集的子集的强度，用于由所述处理管道生成所述预测特征。

A21.一种系统，其包括：

一个或多个数据处理器；以及

非暂时性计算机可读存储介质，其包含指令，所述指令当在所述一个或多个数据处理器上被执行时，使所述一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。

A22.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品，其包括指令，所述指令被配置成使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。

V.附加考虑

本公开的一些实施例包括一种系统，该系统包括一个或多个数据处理器。在一些实施例中，该系统包括包含指令的非暂时性计算机可读存储介质，所述指令在所述一个或多个数据处理器上被执行时使所述一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品，其包括指令，所述指令被配置为使一个或多个数据处理器执行本文公开的一种或多种方法的部分或全部和/或本文公开的一种或多种过程的部分或全部。

本描述仅提供优选的示例性实施例，并且不旨在限制本公开的范围、适用性或配置。相反，优选示例性实施例的本描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解，在不脱离所附权利要求中阐述的精神和范围的情况下，可以对元件的功能和布置进行各种改变。

在本描述中给出具体细节以透彻地理解本实施例。然而，应当理解，可以在没有这些具体细节的情况下实践实施例。例如，电路、系统、网络、过程和其他部件可以展示为框图形式中的部件，以免不必要的细节使实施例晦涩难懂。在其他情况下，为了避免使实施例晦涩难懂，可以在没有不必要的细节的情况下示出公知的电路、过程、算法、结构和技术。

Claims

1.一种计算机实现方法，其包括：

基于多个样品中的一个样品与来自能量源的能量之间的相互作用生成的光谱；和

所述样品的已知特征；

待执行特定类型的预处理的指示；

待执行的预处理的参数；

待使用的机器学习模型的类型的标识；和/或

机器学习模型超参数；

通过以下方式过滤所述候选解群体：

基于所述数据元素的所述预测的样品特征和所述已知特征，为所述候选解群体中的每一个候选解生成适应度度量；以及

基于所述适应度度量选择所述候选解群体的不完整子集；

通过以下方式执行一次或多次附加代迭代：

更新所述候选解群体，以包括使用所述候选解群体的所述不完整子集和一个或多个遗传算子识别的下一代解群体；和

使用更新的候选解群体重复所述候选解群体的过滤；以及

基于在所述附加代迭代的最后一代迭代期间选择的所述候选解群体的所述不完整子集中的特定候选解的属性集生成处理管道。

2.根据权利要求1所述的计算机实现方法，其进一步包括：

访问对应于另一样品的另一光谱；

输出所述另外的样品的所述预测特征。

3.根据权利要求1所述的计算机实现方法，其中，对于所述多个数据元素中的每个数据元素，所述光谱包括拉曼光谱或红外光谱。

4.根据权利要求1所述的计算机实现方法，其中所述特定候选解的属性集包括用于特定类型的机器学习模型的超参数，所述特定类型的机器学习模型包括：

偏最小二乘；

随机森林；或

支持向量机。

5.根据权利要求1所述的计算机实现方法，其中所述特定候选解的所述属性集包括特定类型的机器学习模型的选择或超参数，所述特定类型的机器学习模型被配置成生成分类输出或数值输出。

6.根据权利要求1所述的计算机实现方法，其中所述另外的样品包括大分子。

7.根据权利要求1所述的计算机实现方法，其中所述另外的样品包括小分子。

8.根据权利要求1所述的计算机实现方法，其中所述另外的样品的所述预测特征表征：

一种或多种小分子分析物的浓度；

溶剂；

一种或多种蛋白质变体的普遍存在；

蛋白质高阶结构；或

大分子杂质。

9.根据权利要求1所述的计算机实现方法，其中所述处理管道包括执行不对称最小二乘技术以减小或去除基线，并且其中所述特定候选解的所述属性集包括所述不对称最小二乘技术的至少一个参数。

10.根据权利要求1所述的计算机实现方法，其中所述处理管道包括执行平滑技术以减小或去除基线，并且其中所述特定候选解的所述属性集包括所述平滑技术的至少一个参数。

11.根据权利要求1所述的计算机实现方法，其中，对于所述多个样品中的至少一个样品，所述多个数据元素包括对应于所述样品的复数个数据元素，所述复数个数据元素包括使用所述样品生成的不同复制光谱。

12.根据权利要求1所述的计算机实现方法，其进一步包括：

其中为之确定了所述预测的样品特征的所述多个数据元素中的至少一些被定义为所述多个数据元素的所述测试子集；并且

其中过滤所述候选解群体进一步包括：

使用所述多个数据元素的所述测试子集学习一个或多个参数。

13.根据权利要求12所述的计算机实现方法，其中所述多个样品中的每一个对应于相同的目标化学结构和相同的目标配制物，其中所述多个样品包括复数个批次特定子集，所述复数个批次特定子集中的每一个包括在单独批次期间制造的复数个样品，并且其中所述多个数据元素的所述分割包括：

将单独批次分割为所述训练子集和所述测试子集；以及

基于批次分割来分割所述多个数据元素。

14.根据权利要求1所述的计算机实现方法，其进一步包括：

访问对应于另一样品的另一光谱；

通过用所述处理管道对另外的光谱进行处理，生成另外的样品的预测特征；

基于所述预测特征确定是否满足质量控制条件；

当满足所述质量控制条件时，将所述另外的样品分配为施用于受试者；以及

当不满足所述质量控制条件时，阻止将所述另外的样品分配为用于受试者施用。

15.根据权利要求14所述的计算机实现方法，其进一步包括：

16.根据权利要求1所述的计算机实现方法，其进一步包括：

执行特征选择过程，所述特征选择过程从所述光谱的强度集中选择一个或多个强度以用于生成预测样品的所述预测特征，其中特征选择处理在通过所述处理管道生成所述预测特征之前执行。

17.根据权利要求16所述的计算机实现方法，其中所述特征选择过程包括：

从所述光谱中识别波数集，每个波数与强度值相关联；

使用回归分析为所述波数集中的每个波数定义分数；

根据所述波数集中的每个波数的所述分数对所述波数集进行排序；

在所述机器学习模型上基于所述波数集的子集的交叉验证来生成模型验证分数；

18.根据权利要求1所述的计算机实现方法，其进一步包括：

访问对应于另一样品的另一光谱；

通过根据所述处理管道对另外的光谱进行处理，生成另外的样品的预测特征；

接收所述预测特征；

基于所述预测特征确定是否满足质量控制条件；以及

当不满足所述质量控制条件时，终止或修改所述一个或多个制造过程。

19.一种计算机实现方法，其包括：

访问包括对应于多个样品的多个数据元素的数据集，所述特定样品不同于所述多个样品中的每一个，并且所述数据元素中的每一个包括：

与所述多个样品中的样品相关联的光谱；和

所述样品的已知特征；

是否待执行特定类型的预处理；

待执行的预处理的参数；

使用哪种类型的机器学习模型；和/或

机器学习模型超参数；

通过以下方式过滤所述候选解群体：

通过用所述属性集处理所述数据元素的光谱，为所述候选解中的每一个和所述多个数据元素中的每一个确定预测的样品特征；

基于所述适应度度量选择所述候选解群体的不完整子集；通过以下方式执行一次或多次附加代迭代：

使用更新的候选解群体重复所述候选解群体的过滤；以及

基于在所述附加代迭代的最后一代迭代期间选择的所述候选解群体的所述不完整子集中的特定候选解的属性集生成处理管道；以及

20.根据权利要求19所述的计算机实现方法，其进一步包括：

21.一种系统，其包括：

一个或多个数据处理器；以及

22.一种有形地体现在非暂时性机器可读存储介质中的计算机程序产品，其包括指令，所述指令被配置成使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。