CN118140234A

CN118140234A - 通过机器学习和数据库挖掘结合目标功能的经验测试识别和开发天然来源食品成分的系统

Info

Publication number: CN118140234A
Application number: CN202280037060.3A
Authority: CN
Inventors: 贾斯明·休姆; 杰弗罗伊·杜伯格-费隆诺; 阿凯米·库尼比; 埃亚尔·阿科瓦; 劳伦斯·李
Original assignee: Shi Rou Co
Current assignee: Shi Rou Co
Priority date: 2021-03-22
Filing date: 2022-03-22
Publication date: 2024-06-04
Also published as: US11805791B2; CA3213187A1; US20230123892A1; US11439159B2; WO2022204122A1; JP2024518021A; EP4315184A1; US20220104515A1

Abstract

本公开提供了一种用于工业化食品生产的替代蛋白质来源的开发技术。该技术通过部分计算机中完成的程序挖掘天然来源。机器学习和实现无需对庞大的化合物库进行取样和测试，而是根据已知的蛋白质结构进行预测建模，从而缩小了功能性候选物的范围。然后，通过重组表达和测试，以高通量方式生产和筛选通过这种分析筛选出的候选蛋白质，以确定它们是否具有目标功能。通过机器学习、数据库挖掘、表达和测试的多次循环，最终产生适合作为商业食品一部分进行评估的潜在成分。

Description

通过机器学习和数据库挖掘结合目标功能的经验测试识别和开发天然来源食品成分的系统

在先申请参考

本公开要求于2021年3月22日提交的美国专利申请No.63/163,949，以及于2021年11月5日提交的美国专利申请No.17/520,201的优先权。为所有目的，上述引用的优先权申请其全部内容都通过引用合并于此。

技术领域

下文公开和要求的技术一般涉及天然来源新食品成分的识别。它结合了生物分子结构和功能特性的计算机预测和学习、先前未定性蛋白质的快速通量生产以及与食品所需的蛋白质的理化和感官特性有关的检测等领域。

背景技术

农业对环境的影响巨大，在造成气候变化、水资源短缺、空气污染、土地退化和森林砍伐方面发挥着重要作用。全球粮食系统排放的温室气体约占37％。目前，全球7％的淡水用于农业。到2050年，全球人口预计将增长到97亿以上。没有足够的清洁水和耕地来满足全球人口日益增长的需求。

根据世界银行和联合国最近发布的一份权威报告，在2050年之前继续以这样的速度养活世界人口，将清除世界上剩余的大部分森林，导致成千上万的物种灭绝，并释放出足够的温室气体排放，超过《巴黎协定》中规定的1.5℃和2℃的最高升温目标-即使消除了所有其他人类活动的排放。我们迫切需要改变目前的农业和食品营销方式，强调既可持续又有营养的食品。

发明内容

本公开提供了一种用于工业化食品生产的替代蛋白质来源的开发技术。Shiru，Inc.的业务蒸蒸日上，其理念是目前用于商业食品的原料可以用具有已知结构、但以前不知道具有所需目标功能的蛋白质来替代。

几十年来，制药业已经在丰富的生物多样性环境(热带雨林树冠和海底)中发现了天然但以前未被发现的小分子，这些小分子可用作抗生素或具有其他治疗作用。这里介绍的技术也是建立在挖掘天然资源的前提下，只不过这种挖掘部分是计算机中进行的。

这项技术不是从遥远或广泛的环境中抽样和测试庞大的化合物库，而是通过从已知蛋白质结构中提取的预测功能模型来缩小功能候选物的范围。以这种方式选出的候选蛋白质可通过重组表达和经验测试进行快速筛选，以确定它们是否具有目标功能，是否适合作为食品成分进一步开发。

本公开中提出的技术的一些特点

本公开提供(除其他外)一种用于识别和开发用于制造组合产品的蛋白质的发现方法。

首先，对适应机器学习的计算机系统进行训练，以将相似的蛋白质分组和/或预测蛋白质是否具有预选的目标功能，其中目标功能是根据项目的工作领域选择的。计算机可根据蛋白质的一个或多个结构和/或功能特征(通常至少包括蛋白质的氨基酸序列)来预测特定蛋白质执行所需目标功能的能力。其他结构特征可包括从晶体学数据中获得的三维蛋白质结构，或根据蛋白质的氨基酸序列进行预测。其他功能特征可包括分子量、电荷、等电点、在水溶液中的溶解度、疏水性以及与其他蛋白质或蛋白质类别的结合亲和力。

计算机系统通过机器学习过程进行训练，该过程包括向计算机系统输入训练数据集，该数据集包含已知具有目标功能的多个蛋白质的所述特征，还包含已知不具有目标功能的多个蛋白质的所述特征。

训练完成后，计算机系统将应用于源数据集(例如由可能的候选者组成或包含候选者的数据库)。该数据库可能主要包含“天然存在的”蛋白质，即可以在自然界的生物资源中识别的蛋白质，或可以不通过DNA重组技术从生物资源中分离或以其他方式获得的蛋白质。数据库中包含每个蛋白质的结构和其他特征，至少包括每个蛋白质的氨基酸序列。

训练有素的计算机系统会评估数据库中的蛋白质，并编制一份列表，对预测(但通常尚未知晓)具有目标功能的候选蛋白质进行识别或排序。在步骤训练中分析的特征和/或在预测目标功能时包括的特征可包括以下结构特征中一个或多个任意组合的相似性同源比较：蛋白质氨基酸序列、蛋白质三维结构(从晶体学数据中获得或从蛋白质氨基酸序列中预测)、每个蛋白质中氨基酸和/或氨基酸组的物理化学和生物化学特性的矢量表示，可选择与蛋白质整体特性的矢量表示相结合。

接下来进行经验评估。以高通量方式重组表达和纯化计算机生成列表上的候选蛋白质。这可能包括用标签表达每种蛋白质，并使用标签与缀合物结合进行亲和纯化。然后对分离出的蛋白质进行检测，以确定或量化哪些表达的候选蛋白质真正具有目标功能。表达和纯化可重复进行一次或多次，以提高蛋白质的产量和/或质量。表达、纯化和检测通常以促进高通量筛选的方式进行。除了表达的蛋白质执行目标功能的能力外，经验评估还可包括确定或测量其他特征，如从热稳定性、缓冲能力、溶解性和电荷中选出的理化特性。

然后，从被确定具有高于某一阈值或令人满意的目标功能的候选表达蛋白中挑选出一个或多个，进行进一步的研究。这将包括额外的测试，以确定蛋白质在其预期用途中是否满足所需的性能要求。在工业生产中，蛋白质可以从天然或农业资源中分离出来，或者在与高通量评估所用工艺不同的系统中重组生产。

计算机预测和经验筛选可以迭代或循环方式进行，其中已测试候选蛋白质的结构数据和/或检测结果被添加到训练数据集中。可以再进行一次、两次或两次以上的预测、表达和测试循环，直到筛选出所需数量的蛋白质，这些蛋白质具有适合预期用途的特性。如果在一次预测、表达和测试中获得的潜在蛋白质数量足以满足用户的目的，那么就可以选择进行更多的迭代。一旦获得了用于预期目的的潜在成分数量，通常会在其预期环境或其代理环境中生产每种蛋白质，以确定其是否满足预期的性能要求。

根据用户的使用领域和目标，该技术可以选择在没有机器学习和/或没有重复的情况下实施。在某些情况下，也可以不使用氨基酸序列数据的同源性比较作为主要重点来实施技术。取而代之的是，使用三维蛋白质结构和/或单个氨基酸及其组的结构和三维特征的矢量表示，将数据库中的蛋白质与已知具有目标功能的蛋白质进行比较。这有助于识别因具有共同的核心结构而可能具有目标功能的候选蛋白质，即使它们与已知具有目标功能的蛋白质不具有序列同源性。

此外，或作为紧紧基于氨基酸分析的一种替代方法，数据库中的多个蛋白质被编码为氨基酸和氨基酸组的物理化学和生物化学性质的矢量表示(通常在适当编程的计算机中使用人工智能，结合用户的输入)。然后将数据库中蛋白质的矢量表示与已知具有所需目标功能的蛋白质的矢量表示进行比较。

本公开还提供了利用聚类分析选择蛋白质的方法。这通常从蛋白质数据库开始，其中每个蛋白质由蛋白质的结构特征和/或功能特性的矢量表示。另外，数据库中冗余的蛋白质或其他蛋白质的片段也会被删除。例如，通过对每个蛋白质的结构特征和/或功能特性的矢量表示进行成对比较，将剩余的蛋白质按相似性分组。这样就生成了一个序列空间，在这个空间中，每个群组中的蛋白质都具有相同程度的相似性矢量表示。可选地，用户可以重新运行聚类，调整用于定义聚类的相似度，直到获得用于测试的所需聚类数量(通常与测试能力相匹配)。

对于每个聚类，选择一个代表性蛋白质(例如，通过确定中心点)。然后，用户重组表达和纯化每个蛋白质代表，进行检测以确定或量化哪些表达的蛋白质代表具有目标功能，如果聚类的蛋白质代表具有高于所选阈值的目标功能，则选择一个或多个聚类作为包含潜在食品成分的聚类。通过表达、纯化和检测为表达目标功能而选择的每个聚类中的蛋白质，确定潜在的食品成分。然后对从这些群组中选出的潜在食品成分中的每一种进行测试，以确定其是否符合作为食品制备的一部分所需的性能要求。

聚类分析可以纳入上述迭代式机器学习过程，也可以作为一种独立的筛选方法。根据已公布的信息或预测模型，怀疑具有目标功能的蛋白质可作为分析的种子。用于分析的矢量表示可包括其氨基酸序列的表征和/或其他结构特征和/或功能特性，详见下文。

除非明确说明或另有要求，发现系统的各种程序和步骤不必按特定顺序进行。通常，经验评估的结果将用于帮助持续训练计算机系统，计算机系统将继续以持续的方式挖掘数据库，为预测具有目标功能的蛋白质列表提名更多的蛋白质。

利用该技术开发新型食品成分

这些计算机预测、表达和筛选的发现方法可用于确定具有所需特性的食品成分，目的是将该特性引入食品，或替代或补充传统上用于此类食品的另一种蛋白质(可能来自动物来源)。同样的发现方法也可应用于发现和开发用于其他制造领域的蛋白质，如以下描述所述。

蛋白质数据库中存在物种同源物可能会使计算机选择的候选蛋白质列表偏向于具有相对较多物种同源物的蛋白质类别，而不是其他候选蛋白质。为了编制初始列表，用户可以决定或以监督或无监督的方式，从候选蛋白质集合中删除或降级被识别为物种同源物和/或同工型的蛋白质。随后，为了细化选择，用户可决定将计算机选择标准集中在经验评估为有望进一步开发的蛋白质的同源物上，从而优化应将哪个同源物用于最终工作的选择。

在某些情况下，通过计算机分析预测存在于蛋白质中的功能在经验测试中可能并不明显。这意味着，该功能可能存在，但计量上或通过其他方法被“掩蔽”(隐藏)在蛋白质中。在这种情况下，候选蛋白质的开发、评估和最终选择可能包括对目标功能进行去掩蔽。去掩蔽可通过重组表达和纯化潜在去掩蔽型的蛋白质来完成，在重组表达和纯化过程中，蛋白质中被认为具有目标功能的部分被从蛋白质中被认为掩蔽了目标功能的其他部分中切除，然后进行其他检测以确定或测量潜在去掩蔽型的蛋白质是否具有目标功能。为测试而表达的蛋白质或最终为预期提议而选择的蛋白质可以是天然存在的蛋白质的截短版本，或含有天然存在的蛋白质或其截短版本的融合蛋白质。

该发现方法还可包括在计算机预测阶段选择蛋白质，或根据除蛋白质执行目标功能的能力外的其他理想特征进行经验评估后选择有希望的候选蛋白质。正面选择标准可包括可溶性、易表达性、易纯化性、储存稳定性和混合性。负面选择标准可包括潜在毒性和对环境的不利影响。这些标准可在候选物排序过程中通过计算机算法预测，和/或在经验评估中确定，可任意组合。

本公开的发现系统可用于为任何合适的目的确定潜在的食品成分。使用该系统的原因可能包括用合适的替代品取代动物或不可持续的食品成分来源，或赋予或增强特定的功能或特性以改善食品。

在开发食品的背景下，″目标功能″是指蛋白质在食品成分、添加剂和最终产品中使用时的功能、特性或所需的行为。目标功能可以在制造、储存、烹饪、食用或任何组合过程中表现出来。食品成分可能具有的目标功能包括抗微生物活性、凝胶化、咀嚼性、储存模量、水结合能力、水中膨胀率、粘附性、抗微生物活性、与其他食品成分相关的酶活性、保湿性、脂肪结构化、粘附性、纤维形成和特殊风味。对某一特定目标功能的选择和测试可依次进行，也可与对一个或多个其他目标功能的选择和测试同时进行。

在最终研究中使用的潜在食品成分的性能要求可能包括潜在食品成分在复配成食品时对目标功能具有足够的活性，以及食品符合法规要求。

本公开提供了一种制备食品的方法，该食品含有一种以前未用作食品成分的蛋白质，该蛋白质通过上述发现系统进行选择和评估。传统食品成分可以被发现系统识别的蛋白质取代，例如，通过识别要被取代的传统食品成分的一个或多个目标特性，然后制备食品，其中根据发现系统识别和开发的具有所述目标特性的食品成分取代了传统食品成分。本公开还提供了制备食品的方法，其中包含了通过上述发现系统选择和评估的蛋白质。

该技术在其他工业领域的应用

根据本公开内容，在迭代学习循环中结合使用计算机选择和经验测试的方法，经适当变通后，也适用于其他商业生产和经营环境。从蛋白质数据库中提取出具有适合其生产和使用的目标特性的蛋白质，并在其预定环境中进行经验测试。本公开中提出的蛋白质发现系统的工业应用解释如下。

这些应用包括生物燃料、化学聚合物、塑料、润滑剂、表面活性剂、增溶剂、分散增效剂、涂料、陶瓷、油墨、纺织品、医药产品成分、化妆品和农业饲料及其产品的生产、部署和使用。

本发明、其产品、其制造和使用的其他方面、实施例、特征和特性在以下各节、附图和所附权利要求中进行了描述。

附图说明

图1描述了可根据本公开用于识别具有目标功能100的新食品成分800的发现飞轮(flywheel)。该发现系统使用机器学习700的重复循环来挖掘蛋白质数据库200中预测具有目标功能的候选蛋白质300，然后生成400并经验性地表征500。测试结果600被用来提名有希望的候选蛋白质，作为食品成分800进行进一步测试。作为主动学习的一部分，这些数据也会反馈回来，以加强对蛋白质数据库200的挖掘，并在下一次循环迭代中预测功能蛋白质300。

图2显示了几种类型的蛋白质数据库201、202、203和204，可将其作为训练数据的来源以及发现和预测具有目标功能的新食品成分的资源。

图3显示了计算机系统如何使用编码数据301的预测建模302来识别和选择候选蛋白质303以进行实验表征。

图4A显示了计算机系统用于训练和分析的序列数据和蛋白质特征的编码。图4B是一张图表，显示了不同类型的计算机过程302a至302d，这些过程可用作预测蛋白质功能的机器学习的可选组件。

图5A至5D展示了如何通过聚类分析选择具有所需特性的蛋白质。数据库中的蛋白质通过标准相似性度量(如氨基酸序列同一性或矢量特征)进行聚类。对每个聚类中具有代表性的蛋白质进行测试，并在阳性聚类中寻找具有目标功能的其他蛋白质。

图6显示了候选蛋白质的来源404和纯化405以进行经验表征409的流程。

图7显示了通过分子检测501、功能检测504和食品科学检测506表征候选蛋白的后续步骤。

图8显示了测定结果601如何被提取602以添加到内部蛋白质数据库204并用于评估603候选蛋白质是否符合基准，使其有资格被提名为潜在食品成分800的细节。

图9显示了主动学习如何从蛋白质预测300、蛋白质生产400和表征检测500中提取数据，并将其反馈到内部数据库204中，以提高下一次迭代过程的预测建模能力。

图10显示了根据本公开的计算机系统的子系统架构，蛋白质选择、机器学习和数据计算可通过该系统实现。

具体实施方式

本公开中提供的食品成分发现过程使用计算机驱动的建模，根据蛋白质数据库中的结构信息预测蛋白质的功能。候选蛋白质通过高通量过程进行生产和经验测试，以确定它们是否具有目标功能和其他超过预期阈值或基准的理想特性。然后，有希望的候选蛋白质会被提名进一步开发，作为商业化食品中的替代或补充成分。

技术优势

食品工业对开发消耗资源少、对环境影响小的新食品来源相当感兴趣。目前正在广泛研究使用植物和细胞培养生产的配料。遗憾的是，与传统配料相比，植物基础产品并不受欢迎，因为它们的味道、感觉或行为都不像它们要替代的动物或化学产品。如果我们能够找到能够克服这些不足的天然存在的成分，或者找到比传统成分性能更好的优质产品，那么就可以在改善和丰富消费者用餐体验的同时实现环保目标。

与先前的方法相比，本公开中提出的成分发现和开发技术具有几大优势：

·天然食品成分的潜在来源不局限于特定的植物产品。由于任何蛋白质数据库都可以通过计算机进行初步筛选，因此潜在来源只受到结构表征蛋白质的公开知识范围的限制。

·蛋白质功能的预测不仅限于简单的序列比对。通过整合机器学习、蛋白质特征向量表示和实验室检测，该系统可以不断了解哪些特征对特定目标功能非常重要，从而提供大量合适的候选对象。

·将高通量表达和实验室分析作为学习过程的一部分，使搜索过程与实际效果紧密结合。这样，用户就可以广泛调查候选蛋白质，然后缩小候选蛋白质的范围，以便进行最终研究。因此，理想的食品成分得以确定并表征，以满足特定的目标。

·能够从广泛的数据库中反复寻找和测试蛋白质，并在每个循环中不断改进，这是一种从非动物来源中获取配料的卓越方法，这些配料能够模拟其所替代的动物来源配料的烹饪和感官特性。

目标蛋白质功能的迭代预测和测试

图1是一个流程图，表示根据本技术可以实现的程序和事件迭代系统的概述。

用户在一开始就为新的食品成分选择目标蛋白质功能100，以指导发现过程。目标蛋白质功能的选择可以受到一个或多个假说的启发，这些假说部分解释了蛋白质的理化性质如何影响蛋白质的功能。这些假设可用于指导数据的整理。

数据处理包括一个或多个数据库200的整理，这些数据库包含蛋白质结构和特征的相关信息，既可用于计算机培训，也可作为新原料的来源。这些数据库可包括来自公共蛋白质和基因组数据库的信息、通过与其他机构合作获得的元数据和/或内部或专有信息，例如可从先前的测试数据或蛋白质特性和性能预测中根据经验获得的信息。

预测一个或多个蛋白质功能300，并使用机器学习和传统生物信息分析相结合的方法选择候选功能。这一过程的输出结果是一组候选蛋白质，可根据目标功能的程度或理想特征的组合进行排序。所选蛋白质的数量通常受限于实验室在发现过程的每个周期中生产和表征候选蛋白质的能力。

筛选结束后，候选蛋白质将被生产400并纯化以备测试。为了快速筛选候选蛋白质，通常用编码每个候选蛋白质的多核苷酸转化或转染宿主细胞系或系统，通过重组表达生产所选蛋白质。然后，对预测具有目标功能并重组表达的蛋白质进行表征500，以确定其目标功能100以及其他可能的理化和/或功能特征。对表征蛋白质时进行的分析测量所产生的原始数据进行处理，提取重要特征600以帮助评估性能。

候选蛋白质执行目标功能100的能力评估可根据数据库中各种成分基准或其他已知功能蛋白质的性能进行。如果蛋白质未能达到预期的性能目标，其数据仍会被添加回内部蛋白质数据库以重新训练系统，从而在后续的主动机器学习发现中提高预测和挖掘具有目标功能100的功能蛋白质300的能力。如果蛋白质确实符合性能要求，就可以提名继续开发。被提名的蛋白质将作为试验食品800的成分进行测试，以确定是否可用于商业生产。

去掩蔽隐藏功能

本文所述的食品成分发现过程以新的方式利用了天然来源的蛋白质。本公开内容中提出的技术的强大之处主要在于它能够发现和开发已知蛋白质以前不为人知的特性。该技术的拥有者相信，有大量具有隐藏功能的蛋白质可以作为有用的食品成分，从而改造食品生产和销售业务。

由于以下原因，天然蛋白质的某些功能以前可能不为人知：

1.具有目标功能的蛋白质的天然来源可能不是传统上被视为食品成分来源的东西；

2.蛋白质在其天然来源中的浓度可能太低，在正常的食品开发过程中无法证明其特性；

3.蛋白质的功能可能被其他具有不同或更明显特性的成分所掩盖；或

4.具有目标功能的天然蛋白质的一部分可能被掩蔽在蛋白质其他部分的结构和功能中。

本公开中描述的技术适用于发现以前以上述任何一种方式隐藏的蛋白质功能。在图1中，使用蛋白质序列数据库200作为候选蛋白质的来源克服了前两个障碍，因为它超越了传统食品的来源，使任何被预测具有目标功能的蛋白质凸显出来，无论其天然来源和浓度如何。第三个障碍可在生产阶段400通过重组表达蛋白质以便进行特征描述500来克服。不需要从天然来源的其他成分中纯化有希望的候选蛋白，因为这些成分会影响测试。相反，候选蛋白只需从宿主细胞和培养液中的其他成分中分离出来，这对于大多数在既定培养条件下生产的候选蛋白来说是例行公事。

要解决第四个障碍，需要将复杂蛋白质的有希望部分与蛋白质的其他部分分离开来。当候选蛋白质在预测阶段300中得分很高，但在表征阶段500中显示的目标功能很低时，就会出现这种情况。对预测结果进行进一步分析，以确定蛋白质的哪一部分被认为具有目标功能。然后对表达载体进行调整，修剪编码蛋白质5′端和/或3′端的开放阅读框，使蛋白质的相关部分能够在没有其他部分阻止目标功能显现的情况下独立产生。分离出的蛋白质部分或片段将被生产和纯化400，并在表征阶段500重新检测目标功能和其他需要的特性。蛋白质的片段化和提取不仅仅是为了消除或增强目标功能，也是为了消除其他不需要的特性或功能，或者仅仅是为了减少蛋白质的体积。

如果在预期用途中可以接受，也允许对天然蛋白质的结构进行其他改变。除了蛋白质截短或缺失外，还可以通过改变一个或多个氨基酸来改造蛋白质，从而产生天然蛋白质或其片段的变体，从而增加所需的特性、去除不需要的特性或出于任何其他原因。与天然蛋白质或其片段相比，这些变体的氨基酸序列通常至少有95％、98％或99％相同。

或者，用户还可以使用重组技术将具有目标功能的候选蛋白、片段或变体构建成更大的融合蛋白或蛋白组合。在重组表达过程中，具有目标功能的片段与一个或多个其他蛋白质或片段结合或共表达。融合蛋白或蛋白组合物的其它成分可选自已知具有其它有益特性的蛋白，或通过使用本文所述技术寻找相同或不同的目标功能而发现的蛋白。此外，还可以采用其他技术来制造有用的片段，如酶消化、热改变、化学处理或化学交联来制造蛋白质聚集体。

食品工业的示例目标功能

本发明的技术可用于鉴别食品中由于某种原因更需要的替代成分，替代传统上用于食品配方或配制中但由于某种原因应该被替代的成分。例如，因为可以从更可持续或更环保的建筑或收获方式中获得，某些成分可能更受欢迎，因为它们的生产成本更低，或者因为它们具有其他有益的特性。一旦食品中的一种成分被选中进行替换，用户就会确定目标蛋白质功能100，它成为指导图1所示迭代过程的对象。

示例的目标功能包括以下内容：凝胶形成特性；发泡剂；香料、色素、维生素、卟啉、血红素或碳水化合物的载体；保湿性；抗微生物活性和其他防腐功能；脂肪结构化(例如，用于油凝胶的形成)；粘合剂和成膜剂；具有酶或激素功能的成分；乳化剂；营养补充(如酪蛋白)；粘度改变或保湿性；引起絮凝或粘附的物质；纤维；以及支撑支架的结构成分。

举例来说，本公开中提出的成分发现系统可以将凝胶化作为目标功能。其目标是找出一种类似于蛋清蛋白的高强度胶凝剂，这种胶凝剂不会引起过敏，可在低浓度下结合配料，并适合烹饪。在加工肉制品、烘焙食品和糖果等食品中，鸡蛋经常被用作粘合剂或胶凝剂，将其他配料粘合在一起。鸡蛋成分还被用于许多加工肉类的替代品中，包括香肠和肉饼的素食替代品。目前，鸡蛋成分的价格相对便宜，而促进凝胶化的植物蛋白在农产品中的含量相对较低，因此很难用作替代品，而且价格昂贵。要想在许多食品中替代鸡蛋，需要一种更容易获得且具有适当凝胶特性的蛋白质。找到一种易于纯化或重组生产的天然凝胶替代物，将改变许多此类食品的生产方式。

来源数据库

作为具有目标功能的蛋白质的潜在数据源的信息数据库200通常有两种形式：公共数据库，包括蛋白质氨基酸序列、三维结构等信息，可能还包括理化性质和天然来源等其他蛋白质特征。也可能有一个内部数据库，不仅收集有关蛋白质结构的信息，还收集作为蛋白质发现过程一部分进行测试或评估的物理化学和功能特性的信息。

图2显示了可用作蛋白质发现过程信息源的数据库排列。蛋白质序列数据库201通常包含与蛋白质氨基酸序列有关的信息，包括替代同工型和序列变体。序列数据库还可能包含有关蛋白质的功能注释，包括其主要功能、来源生物、细胞成分和代谢途径。示例性的蛋白质数据库有UniProt/SwissProt、UniProt/Trembl、PFAM(由多序列比对和隐马尔可夫模型曲线定义的蛋白质家族数据库)、ProteinNet、Uniparc和Uniref90。

蛋白质结构数据库202通常包含从X射线衍射、核磁共振和冷冻电镜等技术中收集的有关蛋白质三维构型的信息，这些信息定义了蛋白质的二级、三级和四级结构。详细信息可包括原子级坐标和氨基酸级组合。局部结构数据可包括α螺旋和β折叠等特征。典型的结构数据库包括蛋白质数据库(PDB)、蛋白质结构分类数据库(SCOP)、Pfam数据库和CATH蛋白质结构分类数据库。

基因组序列数据库203包含在生物体、染色体、基因和转录本水平上组织的核酸序列信息。除编码蛋白质外，基因组序列数据库还包含阅读框上游或下游以及内含子中的信息。基因组序列数据可用于计算，以推断同一蛋白质的多个开放阅读框或多种同工型。示例性基因组或核酸序列数据库包括JGIPhytozome、NCBI Refseq、NCBI Genome和植物基因组数据库(PGDB)。

内部蛋白质数据库204可包含蛋白质的结构数据，以及通过蛋白质选择、表达、纯化和表征实验生成的信息。

在根据本公开内容进行机器学习和数据挖掘的背景下，一般提及的蛋白质数据库或信息数据库可指这些数据库中的任意一个或其任意组合的一部分。

预测蛋白质功能

通过计算机分析从数据库中获取的蛋白质信息，以预测数据库中的每个蛋白质或其选择是否具有目标功能。

图3显示了预测和识别功能蛋白质300过程中通常使用的步骤。计算机系统执行数据编码301和预测建模302。这将产生一份候选蛋白质303列表，用于实验表征。

数据以向量或矩阵形式编码301，以便由机器学习模型处理。连续特征可以归一化和/或离散化。分类特征可采用一元编码、二元编码或哈希编码。可以对蛋白质氨基酸序列进行转换，以降低其所在空间的维度。不同长度的蛋白质序列和附加特征会被编码在一个固定大小的矩阵中。这可以通过词袋、自动编码器或编码器-解码器模型来实现，如Seq2seq(Sutskever et al.，arXiv：1409.3215，2014)或Transformers(Vaswani，et al.，arXiv：1706.03762，2017)。生成嵌入(代表序列或单个残基的固定大小向量)的模型是在大量无标记数据的基础上训练出来的。

用于预测建模的输入数据可包括每个蛋白质的一个、两个、三个或三个以上的以下特征，这些特征来自一个或多个数据库：

·氨基酸序列；

·三维结构，从晶体学数据中获得，根据蛋白质的氨基酸序列通过算法预测(例如，使用AlphaFold2.0^TM，AW Senior et al.，2020，Nature 577706-710)，或从三维数据库(如来自谷歌DeepMind和EMBL-EBI的AlphaFold^TM Protein Structure Database)中获得；

·残基水平特征，编码为单个氨基酸的物理化学和结构特征和/或在序列或三维空间中相互接近的两个或多个氨基酸组(即聚类)特征的一组向量表示，通常根据氨基酸序列预测；

·蛋白质水平特征，根据氨基酸序列、三维结构预测或根据经验确定的编码整个蛋白质的蛋白质级特征(如氨基酸长度、总电荷、疏水性、结构特征(如α螺旋和β折叠片)的存在以及蛋白质交联)；以及

·经验测定的结果，作为发现过程中高通量表达和筛选的一部分。

残基水平特征可通过AAindex数据库获取，这是一个代表氨基酸和氨基酸对的各种物理化学和生物化学性质的数字指数数据库。共有三个部分：AAindex1包含20个数值的氨基酸指数，AAindex2包含氨基酸突变矩阵，AAindex3包含统计蛋白质接触电位。所有数据均来自已发表的文献。S.Kawashima et al.，Nucleic Acids Res 2008；36：D202-5。

每个类别的输入数据可以是分类数据，也可以是连续数据。分类数据被定义为包含标签而非数值的变量。蛋白质分类数据的例子包括蛋白质家族、细胞位置和来源生物。根据目标功能或蛋白质特征的性质，可将特征编码为分类变量或连续变量。分类数据是指包含标签而非数值的变量。蛋白质分类数据的例子包括蛋白质家族、细胞位置和来源生物。连续或数值数据是由数字组成的数值。蛋白质连续数据的例子包括分子量、等电点和每种氨基酸类型的百分比。

图4A显示了一个合适的数据编码过程。序列、残基水平特征和蛋白质水平特征被合并和编码。编码器学习如何在压缩空间中表示蛋白质的特征，使其能够与其他蛋白质的数据进行重构和比较。对每个蛋白质的其他蛋白质特征进行归一化和离散化处理，并合并到编码数据中。

在大集合中只有少数数据点被标注的情况下，可以使用主动学习和/或再训练过程来驱动新数据的标注。给定预定义的查询策略和模型在标注数据上的行为，迭代地挑选新的数据点进行标注，并更新模型参数。在实践中，这意味着用在当前模型下不太可能表现良好的新蛋白质(例如，代表误分类较高或不确定性较高的组别)来增强当前数据集。

训练或测试数据集的构造如下：由于随机氨基酸变化的选择压力，蛋白质序列包含可变的保存区域。因此，它们的序列并非独立且同分布(IID)。由于IID是训练-测试拆分和交叉验证(CV)的要求，因此首先要根据蛋白质的序列或MSA相似性对其进行聚类。然后对聚类进行洗牌，并在聚类之间进行拆分。

图4B显示了可用于预测建模302的各种类型的机器学习。

机器学习(ML)302a是一种通过计算机自动构建分析模型的数据分析方法。它是人工智能的一个分支，其基础是系统可以从数据中学习、识别模式并在最少人工干预的情况下做出决策。T.Mitchell，Machine Learning.New York：McGraw Hill，1997。

机器学习模式302a包括两个阶段：训练阶段和推理阶段。在训练阶段，蛋白质序列、残基水平特征、蛋白质水平特征作为输入提供给模型。此外，蛋白质目标被提供给模型的预定义损耗模型。损耗函数计算优化器使用的损耗，迭代更新模型参数直至收敛。这一操作的结果就是推理时使用的一组固定参数。残基和蛋白质水平的序列和特征在推理时的生成方式与训练时相同。

对于分类蛋白质目标，预测任务是分类、分类损失(如交叉熵)和度量(如AUROC)。例如，如果目标功能是凝胶化，则可根据特定蛋白质是否凝胶化使用二元分类。对于连续的蛋白质目标(如抗微生物活性的程度或范围)，预测任务是计算回归损失(如MSE)和指标(如r²)。以凝胶化特性为例，可使用值x∈{0，1}来定义函数，其中x＝0表示没有任何凝胶化，而x＝1表示观察到的最高测量凝胶化值。回归任务是预测新蛋白质的连续x值。

深度学习(DL)302.b也可用于预测建模。深度学习是一类机器学习算法，它使用多层从原始输入中逐步提取更高层次的特征。每一层都会学习将其输入数据转换为稍微更抽象和复合的表示形式。Bengio et al.，IEEE Transactions 35∶1798-1828，2013；Deng etal.，Foundations and Trends in Signal Processing.7∶1-199，2014；Lecun et al.，Nature.521∶436-444，2015。DL是机器学习技术的子集，使用不同的架构、更多的模型参数，并允许使用非结构化输入数据。它依赖于对输入数据连续应用可微分变换。变换序列定义了DL模型的架构(例如，卷积、池化和整流是定义卷积神经网络(CNN)的变换)。

同源建模302.c利用生物信息学工具，可对基因、转录本和蛋白质进行比较，以识别可能具有共同功能特征的相似实体。具有相似序列、结构和族注释的蛋白质可被推断出在食品成分中具有相似的功能。其中一个例子是美国国家生物技术信息中心提供的BLAST(基本局部比对搜索工具)软件，它可以找到目标序列与查询序列数据库之间的核酸或氨基酸同源区域。由于同源建模方法不需要内部蛋白质数据库中生成的实验数据，因此这些分析工具可以在生产蛋白质进行经验测试之前应用。

这些机器学习和其他形式机器学习的组合在本公开中可称为混合或多模态机器学习。et al.，arXiv：1705.09406v2，2017。

集成过程302.d将其他模型(302.a、302.b、302.c)的预测作为输入。实际上，集成对以不同方式预测的蛋白质功能进行加权平均。权重集(用于平均)经过优化，以最小化一组未见数据点的预定损失函数。这些权重可以任意定义，以便根据专家的输入给每个使用的模型提供或多或少的预测能力。

预测建模302的输出是蛋白质列表303，该列表可能根据与目标蛋白质功能的相关性进行排序或分类，也可能受其他所需特征的影响。所选蛋白质或其子集随后通过在不同检测中测试的多个标准进行表征。每个标准都可被视为与目标蛋白质功能高度相关、中性相关或无关。高相关性标准可能会产生适合进一步研究的功能性蛋白质。中性和无相关性标准产生的数据可用于在进一步的主动学习循环中完善预测模型。机器学习可以将相似的蛋白质组合在一起；和/或根据结构和其他特征预测蛋白质的功能。

用于蛋白质选择的聚类分析

另一个可以帮助用户开发候选蛋白质进行表达和经验测试的工具是聚类。总体策略是按相似性对蛋白质进行分组，从每个聚类中选择一个代表性蛋白质，对每个代表性蛋白质进行测试，并(根据测试结果)选择感兴趣的聚类。然后可以对每个聚类的成员进行计算机分析和/或经验测试，以确定所选聚类中最有希望的候选者。

图5A至5D展示了一个说明性实例。该方法对于数据库或其子集效果更好，因为数据库中的冗余和其他蛋白质片段已被去除。然后根据氨基酸序列同一性或比特分数等标准相似性指标对蛋白质进行聚类，通过诸如Linclust(M.Steinegger et al.，NatCommun.2018Jun 29；9(1)：2542)或CD-HIT(L.Fu et al.，Bioinformatics 2012；28(23)：3150-2)的方法。

在所示示例中，″n″个蛋白质按″x″个百分序列同一性聚类以创建″y″个聚类，其中每个聚类包括彼此至少有x个百分同一性的蛋白质。对整个数据集的相似性进行成对比较(图5B)，然后以二维格式显示(图5A)。每个聚类在序列空间中的位置和每个聚类内蛋白质的位置是任意的，但每对蛋白质之间的距离反映了序列同一性的百分比。

图5C显示，可以通过改变成对比较中使用的最小序列同一性来调整聚类的数量。如果最小序列同一性设置为100％，则每个序列都是自己的聚类。随着最小序列同一性的降低，一些聚类会合并，导致平均规模较大的聚类数量减少。因此，用户可以控制所形成的聚类的数量，以匹配可用的筛选能力。

接下来，为每个聚类确定一个代表性蛋白质。在图5D中，通过确定中心点来确定代表性蛋白质。这可以通过算法完成，例如，通过间度中心性(NetworkX.org)。每个聚类中的代表性蛋白质会被表达出来，并进行理化性质和目标功能测试。具有所需特性的代表性蛋白质可确定聚类群，用户可根据经验挖掘出最有希望的候选聚类群。

与使用氨基酸序列作为聚类基础不同，数据库中的蛋白质可以使用其他特征进行聚类，例如特征向量表示的相似性或嵌入的相似性。例如，从计算和/或经验确定的标准中选择至少5、7或10个特征对每个蛋白质进行表征，这些标准包括序列长度、疏水氨基酸的数量、位于蛋白质表面的半胱氨酸残基的数量、长于5个氨基酸的无序区域的数量、结构域结构、α螺旋百分比、β折叠百分比、自然环境下的亚细胞定位、等电点、碳水化合物含量、结合活性和酶活性。每个蛋白质的综合特征决定了它的矢量表示。确定蛋白质嵌入的解释见G.Dubourg-Felonneau et al.，NeurIP S conference 2021；K Yang et al.，Bioinformatics 2018，34(15)，2642-2648；A.Villegas-Morcillo et al.，Bioinformatics 2021，37(2)，162-170。

聚类是通过成对比较矢量表示或嵌入的相似性(可选择结合氨基酸序列和/或三维结构)来创建的，例如，通过谱聚类。A.Paccanaroet al.，Nucl.Acids Res 2006；34(5)，1571-1580；B.Preim and C.Botha，Visual Computing for Medicine，2^nd ed.，2014。同样，每个聚类中的代表性蛋白质都会被识别和测试。检索出最佳聚类，然后通过测试所选聚类的其他成员来挖掘具有目标功能的候选蛋白。

蛋白质生产

图6是一个流程图，概述了从在计算机303中生成的列表中选出的蛋白质的生产过程，以便进行经验测试。401决定生产的来源和模式：从天然来源、通过重组表达或通过化学合成。如果蛋白质来自天然来源，则直接进入纯化步骤405，而重组蛋白质则在表达阶段402制造。如果蛋白质或肽的序列较短且不需要修饰，则可通过固相合成法生产蛋白质，然后直接进入表征步骤409。

在这些选择中，重组蛋白生产通常用于高通量筛选，可以同时以相同的方式对一系列蛋白进行评估。重组生产是通过对表达宿主402进行基因改造来实现的。细胞系(动物细胞培养物)、微生物(酵母、真菌或细菌)、植物(如藻类或小麦)或无细胞提取物(例如，包含从表达能力强的细胞中提取的材料)都可作为宿主。对宿主进行基因改造(通过感染、转化或转染)，使其整合DNA或携带质粒，以组成型或通过诱导表达所需的蛋白质。基因修饰还包括使用序列，通过添加编码肽或小型辅助蛋白质标签的DNA来修饰蛋白质。标签可用于下游纯化和表征。相关参考书包括Recombinant Gene Expression，A.Lorence ed.，2012；NewBioprocessing Strategies，B.Kiss et al.eds.，2018；and Cell-Free SyntheticBiology，S.Hong ed.，2020。

表1列出了用于候选蛋白质重组表达的合适生物。在选择宿主生物时要考虑到宿主大量表达可溶性蛋白的能力以及可能影响蛋白功能的翻译后修饰(如添加碳水化合物和/或链间交联)。

/>

真核表达系统的优势在于可以对候选蛋白质进行类似于自然界或工业生产中使用的翻译后处理，如糖基化和链间交联。原核表达系统的优点是易于实施，产量高。在开发过程中，可以使用多种系统：例如，在大肠杆菌中表达，用于进行筛选试验；在真核生物中表达，用于后期开发和测试。有些表达系统，如酵母，适合在这两个阶段使用。

对表达产物进行评估403，以确定蛋白质的可溶性和产量。蛋白质最好可溶于水或缓冲液，并以足够高的产量表达，以用于下游表征。特定蛋白质的溶解度和表达数据可用于评估蛋白质大量生成的潜力。凝胶电泳、毛细管电泳和酶联免疫吸附等技术可用于确定标记蛋白质的存在，检查蛋白质的分子量，并提供产量评估。蛋白质溶解度可通过过滤、重力或离心分离法进行检测，然后分析可溶性水相，以确定是否存在蛋白质。这一步骤所需的可溶性蛋白质量取决于生化和材料表征的要求，其中选择的具体检测方法取决于感兴趣的目标功能。如果蛋白质达到了可溶性和产量标准，就可以进行纯化。如果蛋白质表达不合格，数据将被收集到内部蛋白质数据库，用于预测其他候选蛋白质和表达潜力。如果候选蛋白因其他原因被认为有潜力表达，也可以测试其他表达系统，以提高产量。

用于重组纯化的材料来源于404使用标准发酵程序(如平板、烧瓶或生物反应器发酵)的宿主生物发酵。天然来源材料可从真菌或植物的整个或分离部分中获得。

如果表征测定不需要纯蛋白，则蛋白纯化405是可选的。例如，可使用蛋白质混合物评估蛋白质的酶活性，可能不需要纯化。纯化策略将根据蛋白来源(原生蛋白或重组蛋白)和表征测定所需的纯度水平而有所不同。重组蛋白和原生源蛋白都可以使用标准纯化程序进行纯化。重组蛋白和原生来源蛋白都可以使用包括干法和湿法在内的蛋白质分离方法。

常见的纯化方法包括离心、过滤、亲和层析、离子交换层析、尺寸排阻层析、疏水相互作用层析、亲和捕捉、等电沉淀、液相-液相分离(LLPS)、冻干和透析。其中一种方法可作为单一步骤使用，也可根据需要与其他方法结合使用，以达到所需的纯度水平。达到纯度后，蛋白质将通过标准方法处理成符合表征方法的最终状态。例如，某些检测方法可能需要粉末状蛋白质，而其他表征方法可能需要水溶液中的蛋白质。有关该主题的参考书包括Protein Purification，2nd Ed.，P.Bonner，2018和High-Throughput ProteinProduction and Purification，R.Vincentelli ed.，2019。

为了便于蛋白质纯化(特别是用于候选蛋白质的高通量经验测试)，重组蛋白可以用用于亲和结合的专属标签表达。在此背景下，″标签″是指在表达过程中添加到蛋白质中的任何特征，可用作使用缀合结合伴侣进行亲和纯化的把手。例子包括添加到天然蛋白质序列内部或两端的氨基酸序列以及碳水化合物。举例来说，可以在开放阅读框(通常在N端或C端)中加入额外的氨基酸序列(长度可能至少为5个氨基酸，或5至50个氨基酸，或8至25个氨基酸)，该序列可被结合伴侣(如缀合受体、抗体或其他结合蛋白)识别。另一个例子是嵌入的蛋白质序列，它可作为碳水化合物加载酶的识别位点，形成糖基化特征，可被凝集素等共轭结合分子捕获。

合适的蛋白质标签包括与镍、钴或锌等金属结合的聚组氨酸，与谷胱甘肽结合的GST蛋白，以及与抗c-myc抗体结合的c-myc蛋白。其他替代方法包括使用抗标识抗体捕获的标识标签(8个氨基酸序列DYKD后跟DDDK)，或与IM7树脂结合的CL7标签(可从TriAltusBiosciences购买)。标记的蛋白质固定在亲和表面后，发酵副产物可被洗去。根据所使用的标签，纯化的目标蛋白可通过竞争性结合或改变条件(如pH值)从树脂中洗脱出来。

为了初步筛选的目的，标签可以在纯化后留在蛋白质上，除非担心标签会干扰功能测试。对于后期状态测试或制备成品，开放阅读框可包括标签与蛋白质其余部分之间的特定蛋白水解裂解位点。可将裂解酶(如烟草蚀变病毒(TEV)蛋白酶)与蛋白质孵育以去除标签。然后可通过其他方法去除已裂解的标签、任何未裂解的重组蛋白和裂解酶，留下纯化的目标蛋白。对于消费者而言，表达的蛋白质不带标签，并通过其他方法纯化。

下一步406是评估是否需要进行化学修饰。纯化的蛋白质样品可针对某些感兴趣的目标功能进行化学修饰。修饰可包括水解产生蛋白质片段、蛋白质交联或其他酶处理。化学或酶修饰的结果是得到修饰的蛋白质样品407，然后对其进行目标指标评估，与未进行修饰的蛋白质类似。

蛋白质制剂的目标制剂408通常是与表征方法兼容的稳定制剂。例如，特定的生化表征方法可能需要具有目标溶液特性的溶液态蛋白质，而其他表征方法可能需要干燥态的蛋白质。此时可对制备物的蛋白质状态、纯度、浓度、溶解度和其他特征进行评估。门控指标通常是蛋白质纯度、蛋白质浓度和(在需要的情况下)蛋白质溶解度。如果达到目标制剂408，蛋白质样品就可以进行表征409。

蛋白质表征

根据需要生产、纯化和修饰的蛋白质制剂可进入表征阶段500。蛋白质表征通常包括分子、功能和食品科学检测。最初，可在这些检测中评估所有蛋白质，以调查候选蛋白质，获得一系列输出值。在发现周期的每个阶段，表征蛋白质的数量都会增加，因此可能需要重新设置阈值，以便只有极具潜力的蛋白质才能进入下一步表征。本节中的各个步骤会生成针对每种检测类型的数据和元数据，以存储在内部蛋白质数据库中。

图7展示了表征阶段。测试理化性质的分子测定501用于为感兴趣的蛋白质提供详细的生化和结构信息。表2中说明了在此阶段测试的有用性质。

分子检测501的数据通常存储在内部数据库中，用于重新训练预测模型，无论结果如何。可以设置最低标准来决定502哪些样本可以进入功能检测504。在蛋白质发现的第一轮，用户可以决定让所有蛋白质都进入功能检测，目的是在内部数据库204中建立用于训练的数据集。当模型对特定目标功能的预测能力增强时，可以提高最低标准502，只选择最有希望的蛋白质进入功能检测。表达蛋白质的性能还可以与市售成分基准503的性能进行比较，后者在功能检测504和某些情况下的食品科学检测506中进行评估。基准成分可包括动物来源成分以及含有蛋白质、淀粉或脂质成分的植物成分或合成成分。

对候选蛋白质进行的功能检测504包括目标功能检测。通常还包括附加检测，以其他方式表征候选蛋白质：如是否存在其他所需特性、是否不存在无需特性，以及其他可能与目标功能附带的、因此与预测建模相关的功能。表3列出了此类功能测定的示例。

表3：评估功能特性

表征过程中使用的检测方法可以是标准的，也可以是内部开发的。该项目可包括将检测方法调整为高通量格式，或调整典型的食品检测方法以探测感兴趣的特定功能。

对目标蛋白质的特性进行测量，并与选定的基准样品进行比较，以证明目标蛋白质相对于市售成分的性能。在此基础上，决定505哪些候选蛋白质进入食品科学检测506。有希望的候选蛋白质将在食品模型系统中进行测试，以验证目标蛋白质在简化食品配方中的性能。性能信息存储在内部蛋白质数据库204中，用于评估哪些蛋白质应开发成产品。

图8提供了提取特征和分析数据600的更详细说明。表征测定产生的原始数据可能因测定类型的不同而有很大差异。数据输出的一些常见示例包括端点数据、标量值、标量值序列/系列(例如时间或温度序列)或图像。对原始数据进行分析以提取有意义的趋势。

根据检测类型，候选蛋白质601的检测结果可以是表格形式的平面文件、图像文件或数值。数值按原样解释。对表格平面文件和图像文件进行处理，以提取数据特征602。输出可以是已表征蛋白质的一整套经验数据，用于评估蛋白质是否表现良好并输入蛋白质数据库。提取过程可包括计算汇总数值(如时间序列数据的平均值或中位数)或提取分类值(如图像的颜色或透明度)。

每个目标蛋白质功能100都与一组特定的功能特性604相关联，可用于确定候选蛋白质是否被提名为潜在的食品成分800。功能特异性604是生化和功能特性的子集，如表2和表3中列出的与目标蛋白功能和候选蛋白作为食品成分的用途相关的特性。例如，如果目标蛋白质功能100是发泡，那么通过溶解度、表面疏水性和通过成像测定的泡沫分析测量的特性可能与候选蛋白质的评估相关。将候选蛋白质的特定功能特性604与预先确定或在发现过程中开发的基准阈值603进行比较。比较值用于确定每个候选蛋白质是否具有足够的目标功能100和其他理想特性的水平或组合，使其值得被提名为功能性蛋白质成分800。

主动学习

图9说明了本公开的技术如何将迭代主动学习或再训练作为蛋白质筛选和表征过程的一部分。从候选蛋白质300的预测和选择、蛋白质的生产和纯化400以及生化和功能特性的表征500中获得的信息提供了有用的数据，这些数据可以被提取602并添加到内部蛋白质数据库204中，以用于计算机系统的进一步训练。

如果n是针对特定目标功能运行的迭代预测次数，那么在n＝{0，1}时，内部蛋白质数据库204将是空的。集合方法只能利用蛋白质序列、蛋白质结构和基因组序列数据库中的蛋白质数据。在所有n＞1的情况下，针对目标功能所选择和测试的候选蛋白质的额外信息都会被添加回内部蛋白质数据库294中。任何n>1次迭代的数据都将用于n+1次迭代的预测建模。由于内部蛋白质数据库在n+1次迭代中包含的信息会比n次多，因此n+1次的预测准确率通常会高于n次。

物种同源物和同工型

在植物学、动物学或微生物学中发挥重要功能作用的蛋白质通常在来源密切相关的物种中具有同源物。蛋白质也可能在物种内通过基因复制进化出不同的同工型。如果数据库中的蛋白质在该技术的计算机驱动预测阶段得分较高，那么物种同源物和同工型在预测阶段得分较高的可能性也会增加。

因此，在发现过程的初始迭代阶段筛选出同源物和同工型是有益的，这样可以调查更广泛的不相关结构。选择一个同源物或同工型进行测试，以代表该类结构。要做到这一点，可以通过操作员监督或计算机编程，从机器学习过程生成的候选列表中暂时删除同源物和同工型。一旦某个候选蛋白被经验性地表征为具有高水平的目标功能和其他优点，就可以回到计算机在同一类中识别出的同源物和同工型，分别对它们进行生产和表征，这样用户就可以优化最终被选为食品成分的蛋白质。

筛选附加功能和理化特性

本公开的迭代发现过程最佳包括评估候选蛋白质是否具有一种或多种额外的理想功能或特性，从而提高候选蛋白质的好感度一以及评估候选蛋白质是否具有一种或多种不需要的功能或特性，从而降低候选蛋白质的好感度或将其从竞争中剔除。举例说明，所需特性可包括以下一项或多项：易于表达、易于纯化、储存稳定性、可混合性以及一种或多种理想风味或感官特性。不良特性可包括以下一项或多项：过敏性或免疫原性、与其他食品成分不相容、不良生理效应和不良风味。

如果有针对此类性质的计算机预测算法，则可在蛋白质筛选和选择过程中，将评估作为初始候选物质选择过程的一部分。各属性的预测算法被用作每个候选者评分的一部分，并可选择性地用于机器学习功能。对于某些类别，如毒性、味道和口感，可在化验和经验测试阶段进行评估，或将其与机器学习相结合。

例如，过敏性可以按照以下方式预测：L.Zhang et al.，Bioinformatics 2012，28：2178-2179；L.Wang et al.，Foods 2021，10：809，doi.org/10.3390；和S.Saha et al.，Nucl.Acids Res.2006，34，doi∶10.1093。免疫原性可以按照以下方式预测：MHG bindingmotifs and T and B cell epitopes algorithmically in the manner of N.Doneva etal.，Symmetry 2021：13，388。毒性可以按照以下方式预测：S.S.Negi et al.，Sci.Reports2017：7，13957-1；and Y.Jin et al.，Food Chem.Toxicol.2017；109：81-89。风味的各个方面可以按照以下方式预测：P.Keska et al.，J.Sensory Studies 2017：e12301；F.Fritzet al.，Nucleic Acids Res.2021 Jul 2；49(W1)：W679-W684’和S.Ployon et al.，FoodChem.2018 Jul 1；253：79-87。

功能蛋白质作为食品成分的进一步开发和批准

通过采用该技术，用户可以获得分类明确、具有食品相关功能的功能性蛋白质配料目录。这项技术所确定的新成分可以通过重组表达的方式生产出来，或以与自然界中相同的形式，或只生产提供目标功能的蛋白质部分，将其纳入商业产品中。在这一发现过程中产生的关于原料来源、可扩展生产方法以及全套生化和功能特性的知识，是可用于在广泛的重要应用中将新发现的原料商业化的信息。

在根据本公开内容确定新的食品成分并将其配制成拟议的新产品之后，开发者将确保在商业销售国开始商业销售之前满足所有的监管要求。例如，在美国销售的新食品添加剂须经食品药品管理局(FDA)的上市前审批。如果有普遍可得和公认的科学数据、信息或方法表明新添加剂是安全的，并有可能得到未公布的科学数据的证实，那么这种新添加剂就是“公认安全的”(GRAS)。向食品及药物管理局食品添加剂安全办公室发出的审批通知包括对物质的简明描述(化学、毒理学和微生物学特征)、适用的使用条件以及GRAS认定的依据。然后，食品及药物管理局会评估所提交的通知是否为GRAS认定提供了充分的依据。

发现过程的其他实施方案

本公开中提出的飞轮或发现过程的一些实施方法是以下方法的组合：

·机器学习如何利用蛋白质的结构特征(如主要氨基酸序列、三维结构、矢量表示和已知理化性质)来预测先前未表征的蛋白质是否具有目标功能；

·基于计算机对大量序列、结构和功能数据库的挖掘，选择预测具有目标功能的候选蛋白质；

·高通量表达和经验测试候选蛋白质的目标功能和其他理想特性；

·重复学习、数据库搜索、表达和测试，以完善选择过程并选择更多候选蛋白。

在前面的讨论中，发现过程已通过选择和评估潜在的新食品成分来说明，以替代目前广泛使用和/或从动物来源获得的成分。该发现过程同样适用于确定可替代或增强其他工业产品和材料功能的蛋白质。发现过程的其他可能应用包括识别具有以下商业潜在用途的蛋白质：

·化妆品成分

·保湿结构

·染料粘合剂

·优化发酵以制造生物燃料

·高分子化学和塑料的起始材料

·润滑剂、表面活性剂、增溶剂和分散促进剂

·涂料、陶瓷、油墨和纺织品

·增加营养价值的农业饲料

·制药业产品的封装手段、赋形剂和稳定剂。

这些发现过程的替代实施方案代表了本公开中提出的本发明的替代和包含的实施例。它们可以作为本公开的附加或替代方面提出权利要求，方法是将上文的描述和/或下文的权利要求经适当变通后通用或根据所选或所需的实施方式进行调整。

计算机硬件和软件

一般而言，本公开中提及的计算机系统或微处理器是按照标准方法设计、制造、控制和编程的。

图10显示了计算机系统的一种布置方式，该计算机系统既可以是单个设备或组件，也可以是相互连接的多个设备或组件。计算机系统的子系统通常通过系统总线1012相互连接。子系统可包括打印机1004、键盘1008、固定磁盘1009和显示器1006，显示器1006可与显示适配器1005兼容连接。耦合到I/O控制器1001的外围设备和输入/输出设备可通过USB端口1007和/或外部接口1011等适当方式与计算机系统进行操作连接，外部接口1011还可将计算机系统连接到广域网(如互联网)。子系统通过系统总线1012相互连接，使中央处理器或微处理器1003能够与每个子系统通信，并控制来自系统存储器1002或其他存储手段(如固定磁盘1009)的指令的执行，以及子系统之间的信息交换。

包含有用信息(如蛋白质序列、结构和特征信息)的外部数据库可通过公共网络(如互联网)获取。内部信息数据库可以是计算机系统的一部分，也可以通过安全网络获取。在根据本公开内容进行计算、评估或机器学习的过程中获取信息时，信息可以来自外部和/或内部的一个或多个不同数据库的组合。计算机系统可以将信息或计算从一个组件传输到另一个组件，或将信息输出给用户，用户可以将信息或方向输入回计算机系统，进而输入到其组件。

本公开中提到的操作或功能可以作为软件代码来实现，由处理器来执行。机器学习语言包括Python、Pytorch、Scala、Java、R编程、Javascript、Lisp、SageMaker和C++。相关参考书包括Data-Driven Science and Engineering，S.L.Brunton，2019；MachineLearning对于(代理人和其他)Dummies，J.P.Meuller，2^nd Ed，2021；以及Deep Learning，I.Goodfellow et al.，2016。

软件代码可以作为一系列指令或命令存储在计算机可读介质上进行存储和/或传输，例如随机存取存储器(RAM)、只读存储器(ROM)、硬盘等磁性介质、DVD(数字多功能磁盘)等光学介质、闪存，或通过电子网络从供应商或来源下载的信息包中。本公开中提到的任何方法都可以完全或部分地通过计算机系统来执行，该计算机系统经过配置或编程，可以与用户的输入或监督相结合或独立于用户的输入或监督来执行方法的步骤。除非另有说明或要求，本公开中提及的全部或部分由计算机系统执行的方法步骤是可选的。

参考文献的并入

本公开中引用的每份出版物和专利文件均以引用的方式并入本文，其全部目的与每份此类出版物或文件以引用的方式并入本文的程度相同。

商标

通过计算机学习和/或处理以及候选表达和检测的多次迭代进行蛋白质鉴定、表征、发现和开发的方法和基础系统，如本公开所述，可称为Flywheel^TM或Flourish^TM技术。这些商标归Shiru，Inc所有。

解释和实施方式

尽管上述技术部分地通过某些概念、程序和信息进行了说明，但所要求的发明并不因此受到限制，明确提及或以其他方式要求的特征除外。本公开文件中提出的有关各种产品和组件的生产、作用和评估的基本模式的理论，是为了读者的兴趣和可能的启发而提供的，并不打算限制所要求的发明的实践。读者可将本公开中提出的技术用于任何适当的目的。

虽然本发明已参照具体实施例和插图进行了描述，但作为常规开发和优化事项，可以在本领域普通技术人员的权限范围内进行更改和替换，以适应特定环境或预期用途，从而在不偏离下述权利要求及其等同物的范围的情况下实现本发明的利益。

Claims

1.一种识别和开发天然来源食品成分的方法，包括

(a)训练计算机系统，以根据至少包括蛋白质的氨基酸序列的所述蛋白质的一个或多个结构和/或功能特征，预测所述蛋白质是否具有预选的目标功能，所述计算机系统通过机器学习过程进行训练，所述过程包括向所述计算机系统输入训练数据集，所述数据集包含已知具有所述目标功能的多个蛋白质和已知不具有所述目标功能的多个蛋白质的所述特征；(b)将在步骤(a)中经训练的所述计算机系统应用于源数据集，所述源数据集包含多个天然存在的蛋白质中的每一个的所述特征，对于所述蛋白质是否具有目标功能是未知的，从而预测所述源数据集中哪些所述天然存在的蛋白质具有所述目标功能；

(c)由所述计算机系统对步骤(b)中预测的将具有所述目标功能的所述蛋白质进行识别或排序，从而获得候选蛋白质集；

(d)重组表达和纯化每个所述候选蛋白质；

(e)进行检测，以确定或量化哪些经表达的候选蛋白质具有所述目标功能；

(f)将步骤(e)中经测试的所述候选蛋白质的结构数据和/或检测结果添加到所述训练数据集中；

(g)如果在步骤(e)中确定所述经表达的候选表达蛋白质具有高于所选阈值的所述目标功能，则选择步骤(e)中检测的一个或多个所述经表达的候选蛋白质作为潜在的食品成分；

(h)执行步骤(a)至(g)的附加循环，直到选择出所需数量的潜在食品成分，其具有高于所述阈值的所述目标功能；然后

(i)评估在步骤(g)中选出的所述潜在食品成分中的每一种，以确定其作为食品配制的一部分是否符合所需的性能要求。

2.前述权利要求所述的方法，其中所述目标功能选自抗微生物活性、凝胶化、保湿性、脂肪结构化、粘附性、纤维形成和特定风味。

3.前述任一权利要求所述的方法，其中所述机器学习包括深度学习和同源性比较。

4.前述任一权利要求所述的方法，其中在步骤(a)的所述训练和步骤(b)的所述应用中分析的所述特征包括蛋白质氨基酸序列的同源性比较。

5.前述任一权利要求所述的方法，其中步骤(a)中的所述训练和步骤(b)中的所述应用中分析的所述特征还包括蛋白质三维结构的同源性比较，所述蛋白质三维结构由晶体学数据获得或由蛋白质的氨基酸序列预测。

6.前述任一权利要求所述的方法，其中在步骤(a)中的所述训练和步骤(b)中的所述应用中分析的所述特征还包括每个蛋白质的氨基酸和氨基酸组的物理化学和生物化学特性的矢量表示的同源性比较。

7.前述任一权利要求所述的方法，其中步骤(c)中候选蛋白质的所述识别和/或步骤(g)中潜在食品成分的所述选择还包括评估所述候选蛋白质或食品成分是否具有或预测具有一种或多种额外的所需功能或特性。

8.根据权利要求7所述的方法，其中所述额外的所需功能或特性包括以下一项或多项：易于表达、易于纯化、储存稳定性、可混合性以及一种或多种理想风味或感官特性。

9.前述任一权利要求所述的方法，其中步骤(c)中的候选蛋白质的所述识别和/或步骤(g)中的潜在食品成分的所述选择还包括，如果蛋白质具有或预测具有一种或多种不需要的功能或特性，则去除蛋白质作为候选蛋白质或食品成分。

10.根据权利要求9所述的方法，其中所述不需要的功能或特性包括以下一项或多项：预测的过敏性或免疫原性、与其它食品成分的不相容性、不良生理效应和不良风味。

11.前述任一权利要求所述的方法，还包括在步骤(d)之前，从所述候选蛋白质集中选择并移除一个或多个被识别为物种同源物和/或同工型的蛋白质。

12.前述任一权利要求所述的方法，其中步骤(d)是一个高通量表达和纯化过程，其中步骤(c)中识别的多个候选蛋白质中的每一个都表达为还含有氨基酸标记序列的融合蛋白，并且在步骤(e)中进行所述检测之前，使用用于所述标记序列的缀合结合伴侣通过亲和分离纯化所述候选蛋白质。

13.根据权利要求12所述的方法，其中所述标签保留于候选蛋白质上从而进行步骤(e)中所述检测的至少一些，但从潜在的食品成分中去除，用于评估它们是否满足步骤(i)中所述的所需的性能要求。

14.前述任一权利要求所述的方法，其中步骤(d)中的所述表达和纯化以及步骤(e)中的所述检测重复一次或多次从而提高蛋白质产量和/或质量。

15.前述任一权利要求所述的方法，其中步骤(e)中的所述检测包括确定或测量所述候选蛋白质的一种或多种物理化学性质，该性质选自热稳定性、缓冲能力、溶解性和电荷。

16.前述任一权利要求所述的方法，其中步骤(e)中的所述检测包括确定或测量所述候选蛋白质的一种或多种功能特性，该特性选自乳化稳定性、泡沫稳定性、凝胶化、咀嚼性、储存模量、水结合能力、水中膨胀率、沉降率、粘附性、抗微生物活性和酶活性。

17.根据权利要求16所述的方法，其中在重复步骤(a)至(g)之前，将有关一种或多种所述候选蛋白质的所述功能特性的信息添加至所述训练数据集。

18.前述任一权利要求所述的方法，还包括去掩蔽和测试在步骤(c)中被所述计算机系统预测为具有所述目标功能但在步骤(e)中检测时被确定不具有所述目标功能的蛋白质，所述去掩蔽包括：

重组表达和纯化潜在去掩蔽型的所述蛋白质，其中预测具有所述目标功能的所述蛋白质的部分从被认为掩蔽所述目标功能的所述蛋白质的其他部分切除，然后

进行附加检测，以确定或测量所述潜在去掩蔽型的所述蛋白质是否具有所述目标功能。

19.前述任一权利要求所述的方法，其中步骤(i)中的所述评估是使用从天然或农业来源分离的潜在食品成分，而不是重组表达的。

20.前述任一权利要求所述的方法，其中步骤(i)中测试的所述性能要求包括所述潜在食品成分复合到食品中时具有足够的所述目标功能活性，以及所述食品符合法规要求。

21.一种识别和开发天然来源食品成分的方法，包括：

(1)使用计算机系统访问蛋白质数据库，其中每个蛋白质由所述蛋白质的结构特征和/或功能特性的矢量表示表征；

(2)从蛋白质的所述数据库中生成子集，其中删除所述数据库中其他蛋白质的冗余或片段的蛋白；

(3)通过对每个蛋白质的结构特征和/或功能特性的矢量表示进行成对比较将所述子集分组成聚类，其中每个聚类中的蛋白质包含相同的矢量表示最小相似度；

(4)调整用于定义步骤(3)中的所述聚类的相似度，直到获得经验测试所需的聚类的数量；

(5)在步骤(4)中获得的每个聚类中选择蛋白质作为该聚类的代表；

(6)重组表达和纯化每个蛋白质代表；

(7)进行检测，以确定或量化哪些表达的所述蛋白质代表具有所述目标功能；

(8)如果所述聚类的所述蛋白质代表具有的所述目标功能高于所选阈值，则选择所述聚类的一个或多个作为含有潜在食品成分；

(9)通过表达、纯化和检测步骤(8)中选择的所述聚类的每个中的多个蛋白质来识别潜在的食品成分，以确定或量化所述经选择的聚类中的所述多个蛋白质中哪些具有高于所选阈值的所述目标功能；

(10)评估步骤(9)中选择的多种潜在食品成分中的每一种，以确定其是否满足作为食品配制的一部分所需的性能要求。

22.根据权利要求1至20中任一项所述的方法，其中步骤(c)至(g)包括如下聚类分析：

(1)通过对每个蛋白质的结构特征和/或功能特性的矢量表示进行成对比较，将步骤(b)中预测的所述蛋白质分组成聚类，其中每个聚类中的蛋白质包含相同的矢量表示最小相似度；

(2)在步骤(1)中获得的每个聚类中选择蛋白质作为该聚类的代表；

(3)重组表达和纯化每个在步骤(2)中选择的蛋白质代表；

(4)进行检测以确定或量化哪些经表达的蛋白质代表具有所述目标功能；

(5)如果所述聚类的所述蛋白质代表具有的所述目标功能高于所选阈值，则选择所述聚类的一个或多个作为含有潜在的食品成分；以及

(6)通过表达、纯化和检测步骤(5)中选择的所述聚类的每一个中的多个蛋白质来识别潜在的食品成分，以确定或量化所选聚类中的所述多个蛋白质中哪些具有高于所选阈值的目标功能；

23.根据权利要求21或22所述的方法，其中每个蛋白质的所述矢量表示包括五个或更多特征，该特征选自序列长度、疏水氨基酸的数量、位于蛋白质表面的半胱氨酸残基的数量、长于五个氨基酸的无序区域的数量、结构域结构、α螺旋或β折叠的百分比、在其天然环境中的亚细胞定位、结合活性和酶活性。

24.根据权利要求21至23中任一项所述的方法，其中每个聚类的所述代表性蛋白质是通过确定所述聚类的中心点获得。

25.一种制备食品的方法，其中传统食品成分已被其替代物取代，该方法包括

识别要替代的所述传统食品成分的一个或多个目标功能，然后

使用根据前述任一权利要求所述的方法识别和开发的具有所述目标功能的食品成分以替代传统食品成分来制备食品。

26.根据权利要求25所述的方法制备的用于商业销售的食品。

27.根据权利要求1至24中任一项所述的方法识别的食品成分作为商业化生产的食品中的成分，以增加或提高所述商业化生产的食品中的所述目标功能的用途。

28.使用根据权利要求1至24中任一项所述的方法识别的食品成分替代商业化生产的食品中具有相同目标功能的成分的用途。

29.一种识别和开发具有所需目标功能的蛋白质以用于所选工业过程的方法，该方法包括：

(a)训练计算机系统，以根据至少包括蛋白质的氨基酸序列的蛋白质的一个或多个结构和/或功能特征，预测所述蛋白质是否具有预选的目标功能，所述计算机系统通过机器学习过程进行训练，该过程包括向所述计算机系统输入训练数据集，该数据集包含已知具有所述目标功能的多个蛋白质和已知不具有所述目标功能的多个蛋白质的特征；

(b)将在步骤(a)中经训练的所述计算机系统应用于源数据集，该源数据集包含多个天然存在的蛋白质中每一个的所述特征，对于所述蛋白质是否具有目标功能是未知的，从而预测所述源数据集中哪些所述天然存在的蛋白质具有所述目标功能；(c)由所述计算机系统对步骤(b)中预测为具有所述目标功能的所述天然蛋白质进行识别或排序，从而获得候选蛋白质集；

(d)重组表达和纯化每个所述候选蛋白质；

(e)进行检测，以确定或量化哪些经表达的所述候选蛋白质具有所述目标功能；

(f)将步骤(e)中测试的所述候选蛋白质的结构数据和/或检测结果添加至所述训练数据集；

(g)如果在步骤(e)中确定所述经表达的候选表达蛋白具有高于所选阈值的所述目标功能，则选择从步骤(e)中检测的所述经表达的候选表达蛋白的一个或多个作为具有在工业流程中使用的潜力；

(h)执行步骤(a)至(g)的附加循环，直到选择出所需数量的因为具有高于阈值的目标功能而有潜力用于所述工业过程的蛋白质；然后

(i)评估步骤(g)中选出的多种蛋白质中的每一种，以确定其是否符合所述工业过程中的所需性能要求。

30.根据权利要求29所述的方法，其中所述工业过程是制造产品，所述产品选自生物燃料、化学聚合物、塑料、润滑剂、表面活性剂、增溶剂、分散增强剂、涂料、陶瓷、墨水、纺织品、农业饲料、医药产品成分、化妆品和供人类消费的食品成分及其产品。