CN114913939A

CN114913939A - 高通量平台和机器学习优化的药物组合设计方法及装置

Info

Publication number: CN114913939A
Application number: CN202210845111.7A
Authority: CN
Inventors: 张达威; 杨景智; 马菱薇; 郝湘平; 钱鸿昌
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-08-16
Anticipated expiration: 2042-07-19
Also published as: CN114913939B; US20240028916A1

Abstract

本发明提出一种高通量平台和机器学习优化的药物组合设计方法及装置，涉及药物组合技术领域。包括：利用高通量平台构建机器学习初始数据集；将初始数据集输入到多种机器学习模型中，对多种回归模型分别进行训练；利用机器学习模型和全局优化算法对未知D‑氨基酸混合物进行预测；对候选混合物配方进行实验迭代反馈对机器学习优化后的D‑氨基酸混合物和多种抗生素的药物组合进行高通量的性能筛选，其中，筛选的性能为细菌对抗生素的耐药性，药物组合的抗菌效率和细胞毒性。本发明提供的技术方案解决了现有办法对药物组合性能筛选评价的局限性，显著提高了药物组合鉴定的规模，效率和可重复性，设计出解决细菌感染问题的低毒高效治疗方案。

Description

高通量平台和机器学习优化的药物组合设计方法及装置

技术领域

本发明涉及药物组合设计技术领域，特别是指一种高通量平台和机器学习优化的药物组合设计方法及装置。

背景技术

细菌感染是造成植入手术失败，医疗设备损坏，甚至患者死亡的最重要的原因。构筑具有杀菌或者抗细菌黏附功能的表面是解决细菌感染的最普遍的手段，然而，一旦有狡猾的细菌逃脱抗菌剂的攻击，并成功附着在表面，那么它们就会快速形成生物膜，大大减弱杀菌物质的作用，造成严重的感染。因此，生物膜的顽固性使其难以治疗和根除，传统的抗菌涂层设计思路无法有效对抗生物膜。能够直接抑制生物膜形成或是根除预先存在的生物膜的多重抗菌表面是对抗生物膜的有效手段，该手段首先保证了杀菌物质的长效性，降低了患者二次感染的风险；同时，它还可以降低杀菌物质的最小抑菌浓度，增强抗菌表面的生物相容性。

D型氨基酸被证明是一种生物相容性极佳的抗生物膜药物。研究表明，相比于单独使用某一种D-氨基酸，多种D-氨基酸的混合使用对细胞膜形成的抑制作用更加显著。然而，基于试错实验的传统办法受困于巨大的样本数量，难以对D-氨基酸混合物的抗生物性能进行优化。如何快速发现目标性能优异的D-氨基酸混合物是一个巨大的挑战。机器学习是一种主动学习方法，它从“一个小数据集”开始，并将实验结果动态地添加到训练数据中，以加速寻找潜在目标的解决方案。但在回归研究中，只利用模型的结果，而在不确定性最大的搜索空间中缺乏采样点，容易使预测值局限于局部极小值，导航潜在空间最优解的采集函数是回归研究的关键。

同时，D-氨基酸和抗生素的药物组合具备潜在的协同作用。研究人员声称，引入D-氨基酸，可以有效提高抗生素的抗菌效果，显著降低抗生素的细胞毒性。如何快速，精确，可重复地对药物组合进行筛选，释放D-氨基酸的抗生物膜潜能，赋予抗生素更广阔的应用前景，是目前面对的挑战。

发明内容

针对现有技术中在不确定性最大的搜索空间中缺乏采样点，容易使预测值局限于局部极小值，以及如何快速精确可重复地对药物组合进行筛选的问题，本发明提出了一种高通量平台和机器学习优化的药物组合设计方法及装置。

为解决上述技术问题，本发明提供如下技术方案：

一方面，提供了一种高通量平台和机器学习优化的药物组合设计方法，该方法应用于电子设备，包括以下步骤：

S1：构建用于机器学习的初始训练数据集，通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化，选取最优模型；

S2：基于最优模型，通过全局优化算法EGO，对候选混合物的抗生物膜性能进行预测，得到候选混合物的性能预测值和预期改善EI值；

S3：以预期改善EI值为标准，对所述候选混合物进行优化,得到目标性能优异的混合物配比，获得优化候选混合物；

S4：将优化候选混合物与抗生素进行药物组合，将组合后的药物进行高通量的性能筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计。

可选地，步骤S1中，构建用于机器学习的初始训练数据集，通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化，选取最优模型，包括：

S11：通过结晶紫染色法，对多个具有抗生物膜性能的D-氨基酸进行表征，筛选出表征性能结果前五的D-氨基酸；

S12：通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物，对D-氨基酸混合物的抗生物膜性能进行表征，构建为初始训练数据集，对所述初始训练数据集进行归一化处理；其中，将不同配比的D-氨基酸混合物定义为候选混合物；

S13：通过所述初始训练数据集对多个机器学习回归模型分别进行训练，得到每个机器学习回归模型的均方误差值；

S14：通过10倍交叉验证法对每个机器学习回归模型的超参数进行调优，选取均方误差值最小的机器学习回归模型作为最优模型。

可选地，所述初始训练数据集包括：输入数据集和输出数据集；所述输入数据集为候选混合物中各单元的配比，所述输出数据集为候选混合物的抗生物膜性能。

可选地，步骤S2还包括：

通过统计推断法对每一种候选混合物分别进行n次预测，其中，n≥1000，取预测均值作为性能预测值。

可选地，以预期改善EI值为标准，对所述候选混合物的混合物配比进行优化，获得优化候选混合物，包括：

S31：选取EI值最大的候选混合物的组合方式，作为实验迭代的候选配方，通过实验得到候选配方的真实值；

S32：将候选配方的真实值添加到初始训练数据集中，对初始训练数据集进行数据扩充；

S33：对扩充后的初始数据集重复执行S2-S32，直到候选配方满足预设要求，得到目标性能优异的混合物配比，获得优化候选混合物。

可选地，预设要求包括：D-氨基酸混合物的实验真实值低于初始训练数据集中的所有值。

可选地，步骤S4中，将优化候选混合物与抗生素进行药物组合，将组合后的药物进行高通量的性能筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计，包括：

S41：通过高通量平台，利用不同浓度的多种抗生素对细菌耐药性进行筛选，获得优化候选混合物与抗生素的药物组合；

S42：利用高通量平台对所述药物组合的抗菌性能以及细胞毒性进行筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计。

可选地，低毒高效的标准为：在24小时内，药物组合的抗菌效率大于90%，细胞存活率大于95%。

一方面，提供了一种高通量平台和机器学习优化的药物组合设计装置，该装置应用于电子设备，该装置包括：

模型训练模块，用于构建用于机器学习的初始训练数据集，通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化，选取最优模型；

性能预测模块，用于基于最优模型，通过全局优化算法EGO，对候选混合物的抗生物膜性能进行预测，得到候选混合物的性能预测值和预期改善EI值；

配比优化模块，用于以预期改善EI值为标准，对所述候选混合物进行优化,得到目标性能优异的混合物配比，获得优化候选混合物；

药物组合模块，用于将优化候选混合物与抗生素进行药物组合，将组合后的药物进行高通量的性能筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计。

可选地，模型训练模块，用于通过结晶紫染色法，对多个具有抗生物膜性能的D-氨基酸进行表征，筛选出表征性能结果前五的D-氨基酸；

通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物，对D-氨基酸混合物的抗生物膜性能进行表征，构建为初始训练数据集，对所述初始训练数据集进行归一化处理；其中，将不同配比的D-氨基酸混合物定义为候选混合物；

通过所述初始训练数据集对多个机器学习回归模型分别进行训练，得到每个机器学习回归模型的均方误差值；

通过10倍交叉验证对每个机器学习回归模型的超参数进行调优，选取均方误差值最小的机器学习回归模型作为最优模型。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述一种高通量平台和机器学习优化的药物组合设计方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述一种高通量平台和机器学习优化的药物组合设计方法。

本发明实施例的上述技术方案至少具有如下有益效果：

上述方案中，(1)本发明构建的高通量平台和机器学习策略相结合的设计方法，可以快速准确的创建机器学习原始数据集，并且通过贝叶斯优化算法，高效导航潜在空间的最优解，避免局部极值，在少量迭代次数的前提下，发现极佳的D-氨基酸复配方式。

(2) 使用高通量平台探索D-氨基酸-抗生素药物组合的联合治疗可行性，快速挖掘药物组合的联合行为(协同/拮抗)，全面表征药物组合的应用前景，显著提高开发效率，有效降低研发成本，提供对科研，应用等方面的技术指导，为低毒高效的药物组合开发提供新思路。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的流程图；

图2是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的流程图；

图3是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的抗生物膜性能OD570值机器学习模型预测值和实验值的拟合曲线图；

图4是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的基于贝叶斯优化算法的实验迭代反馈结果图；

图5是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的D-氨基酸混合物与抗生素联合行为的热图；

图6a是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的24h细胞毒性筛选结果图；

图6b是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的48h细胞毒性筛选结果图；

图7是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的对铜绿假单胞菌及其生物膜的生长抑制率图；

图8a是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的用荧光共聚焦显微镜表征的表面活细菌分布情况示意图；

图8b是本发明实施例提供的一种高通量平台和机器学习优化的药物组合设计方法的死细菌分布情况示意图；

图9是发明实施例提供的一种高通量平台和机器学习优化的药物组合设计装置框图；

图10本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种高通量平台和机器学习优化的药物组合设计方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图1所示的高通量平台和机器学习优化的药物组合设计方法流程图，该方法的处理流程可以包括如下的步骤：

S101：构建用于机器学习的初始训练数据集，通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化，选取最优模型；

S102：基于最优模型，通过EGO(Efficient Global Optimization,全局优化算法)，对候选混合物的抗生物膜性能进行预测，得到候选混合物的性能预测值和预期改善EI值；

S103：以预期改善EI值为标准，对所述候选混合物进行优化,得到目标性能优异的混合物配比，获得优化候选混合物；

S104：将优化候选混合物与抗生素进行药物组合，将组合后的药物进行高通量的性能筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计。

可选地，步骤S101中，构建用于机器学习的初始训练数据集，通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化，选取最优模型，包括：

S111：通过结晶紫染色法，对多个具有抗生物膜性能的D-氨基酸进行表征，筛选出表征性能结果前五的D-氨基酸；

S112：通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物，对D-氨基酸混合物的抗生物膜性能进行表征，构建为初始训练数据集，对所述初始训练数据集进行归一化处理；其中，将不同配比的D-氨基酸混合物定义为候选混合物；

S113：通过所述初始训练数据集对多个机器学习回归模型分别进行训练，得到每个机器学习回归模型的均方误差值；

S114：通过10倍交叉验证法对每个机器学习回归模型的超参数进行调优，选取均方误差值最小的机器学习回归模型作为最优模型。

可选地，步骤S102还包括：

S131：选取EI值最大的候选混合物的组合方式，作为实验迭代的候选配方，通过实验得到候选配方的真实值；

S132：将候选配方的真实值添加到初始训练数据集中，对初始训练数据集进行数据扩充；

S133：对扩充后的初始数据集重复执行S102-S132，直到候选配方满足预设要求，得到目标性能优异的混合物配比，获得优化候选混合物。

可选地，步骤S104中，将优化候选混合物与抗生素进行药物组合，将组合后的药物进行高通量的性能筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计，包括：

S141：通过高通量平台，利用不同浓度的多种抗生素对细菌耐药性进行筛选，获得优化候选混合物与抗生素的药物组合；

S142：利用高通量平台对所述药物组合的抗菌性能以及细胞毒性进行筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计。

本发明实施例中，提出了一种由高通量技术和机器学习算法相结合的创新方法，以快速和系统地识别治疗微生物感染的药物组合。在前人数据不足的情况下，利用高通量平台创建原始数据集，并通过机器学习模型和贝叶斯优化算法解锁药物复配比例-抗生物膜性能的复杂关系；此外，用高通量平台对药物组合的多项性能进行高效，低成本的筛选。本发明为高效低毒抗细菌感染的药物组合设计提供了新方法，显著提高了药物组合设计的效率，降低了开发成本。

本发明实施例提供了一种高通量平台和机器学习优化的药物组合设计方法，该方法可以由电子设备实现，该电子设备可以是终端或服务器。如图2所示的高通量平台和机器学习优化的药物组合设计方法流程图，该方法的处理流程可以包括如下的步骤：

S201：通过结晶紫染色法，对多个具有抗生物膜性能的D-氨基酸进行表征，筛选出表征性能结果前五的D-氨基酸；

一种可行的实施方式中，对十种已报道的具有抗生物膜性能的D-氨基酸进行表征，表征方法为结晶紫染色法，挑选出其中五种性能较好的。

S202：通过高通量平台将五种D-氨基酸按不同配比组成D-氨基酸混合物，对D-氨基酸混合物的抗生物膜性能进行表征，构建为初始训练数据集，对所述初始训练数据集进行归一化处理；其中，将不同配比的D-氨基酸混合物定义为候选混合物；

一种可行的实施方式中，高通量平台的主要装置为一台可以精确移液的多功能非接触式微阵列打印机。

一种可行的实施方式中，D-氨基酸混合物的复配方式包括一元，二元，三元，四元，五元。

S203：通过所述初始训练数据集对多个机器学习回归模型分别进行训练，得到每个机器学习回归模型的均方误差值；

S204：通过10倍交叉验证法对每个机器学习回归模型的超参数进行调优，选取均方误差值最小的机器学习回归模型作为最优模型。

一种可行的实施方式中，初始训练数据集包括：输入数据集和输出数据集；输入数据集为D-氨基酸混合物中各单元的配比，输出数据集为混合物的抗生物膜性能。

一种可行的实施方式中，设定的对模型进行训练的训练集和测试集的比例为4:1。

S205：基于最优模型，通过全局优化算法EGO，对候选混合物的抗生物膜性能进行预测，得到候选混合物的性能预测值和预期改善EI值。

一种可行的实施方式中，得到候选混合物的性能预测值包括：通过统计推断法对每一种候选混合物分别进行n次预测，其中，n≥1000，取预测均值作为性能预测值。

S206：选取EI值最大的候选混合物的组合方式，作为实验迭代的候选配方，通过实验得到候选配方的真实值；

S207：将候选配方的真实值添加到初始训练数据集中，对初始训练数据集进行数据扩充；

S208：对扩充后的初始数据集重复执行S205-S207，直到候选配方满足预设要求，得到目标性能优异的混合物配比，获得优化候选混合物。

一种可行的实施方式中，预设要求包括：D-氨基酸混合物的实验真实值低于初始训练数据集中的所有值，且真实值的变化趋势逐渐平缓，即前后两个真实值的差值缩短在10%以内。

本发明实施例中，探索发现了一系列D-氨基酸混合物的复配方式，并成功找到了抗生物膜性能优于目前所有文献报道的混合物复配方式。

S209：通过高通量平台，利用不同浓度的多种抗生素对细菌耐药性进行筛选，获得优化候选混合物与抗生素的药物组合；

S210：利用高通量平台对所述药物组合的抗菌性能以及细胞毒性进行筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计。

一种可行的实施方式中，低毒高效的标准为：在24小时内，抗菌效率大于90%，细胞存活率大于95%。

一种可行的实施方式中，药物组合是指D-氨基酸混合物和抗生素，耐药性筛选是为后续药物组合中，抗生素的浓度做参考，比如这个细菌耐药性很强，那么我们在药物组合中相应的就要提高抗生素的浓度，来保证有杀菌的效果。就是将药物组合的水溶液直接作用于细菌，如链球菌，金黄色葡萄球菌等革兰氏阳性菌，大肠杆菌，铜绿假单胞菌等革兰氏阴性菌。

下面通过四组实验数据对本申请的方案进行详细阐述：

实施例1

a.整理公开发表的文献资料，选定十种具有抗生物膜性能的D-氨基酸，通过高通量平台对这十种D-氨基酸在100μm浓度下对铜绿假单胞菌的抗生物膜性能进行快速的评估，筛选出其中五种性能较好的，对其进行一元，二元，三元，四元，五元混合，对混合物在最终浓度100μm的情况下的抗生物性能进行十轮高通量表征，得到约1000条数据。

本发明实施例中，高通量平台的主体框架为一台多功能非接触式微阵列打印机，由多功能工作台、吸液多孔板、压电移液针头、实时摄影机、清洗/干燥装置等模块构建而成。根据预设程序进行的工作方式可以简单的归纳为吸液、优化、移液、验证、清洗、干燥等步骤。微阵列打印机的压电移液针头可以将低至皮升的体积精确地分配到各种孔板以及材料表面，并提供移液的实时影像；实时摄影机可以对移液参数进行优化，并对针头的工作状态进行验证，确保移液的准确性和重复性。

b.对所有数据进行归一化处理，去除明显的偏移值，用剩余数据的平均值构建原始数据集。

c.建立复配方式→抗生物性能回归模型，将原始数据集中的混合物比例作为输入端，抗生物性能作为输出端，训练多种回归模型，通过10倍交叉验证对各模型的超参数进行调优，其中对模型进行训练的训练集和测试集的比例为4:1，训练集在回归模型训练时使用，测试集用于测试回归模型的精度，用均方误差来评价回归模型的精度。在实际应用中，交叉验证的倍数、超参数优化的手段以及模型精度的判别标准可以根据具体情况进行调整。

根据上述步骤得出的实验真实值和模型预测值绘制散点图，如图3所示，具体方法为：以高通量平台获得的实验数据为横坐标，以机器学习模型的预测值为纵坐标做散点图，当散点越靠近45°线时 ,说明实验值和预测值越接近，模型的精度越好，随机森林的模型精度最好，均方误差值为46.24。

d. 选取步骤c中的最优模型，结合统计推断和贝叶斯优化算法，获得大量D-氨基酸混合物的性能预测值和预期改善值(EI)，选取EI值最大的数据作为迭代候选。所有D-氨基酸的比例均在0-100%之间，步长设为5%，预测数据为10626个。用结晶紫染色法评价该复配方式的抗生物性能，并将结果添加到原始数据集中，重复此过程，直到发现具有优异目标性能且该性能在迭代过程中无显著变化的D-氨基酸混合物。

根据步骤d的方法进行实验迭代，共有4种氨基酸混合物的性能优于原始数据集中的所有样本，如图4，混合物的复配方式如表1所示。最终在循环5-3中，最优混合物被成功发现，它由15%的D-酪氨酸，15%的D-色氨酸，60%的D-亮氨酸，10%的D-苯丙氨酸和0%的D-脯氨酸混合而成，具有目前已报道的最佳抗生物膜效率。

表1 D-氨基酸混合物预测结果表

e.对288种机器学习优化后的D-氨基酸混合物-抗生素药物组合的联合治疗可行性进行高通量筛选，筛选的结果用热图的方式呈现，如图5。在对12种抗生素的筛选中，β内酰胺酶类，氨基糖苷类，四环素类，大环内酯类等四类抗生素和D-氨基酸混合物相互协同，具备联合治疗的潜力。

实施例2

在实施例2中与实施例1的不同之处在于：在步骤a中，还可以将D-氨基酸及其混合物的最终浓度设定为500μm；步骤c中，高斯回归的模型精度最好，均方误差值为42.62；步骤d中，最优混合物由15%的D-酪氨酸，15%的D-色氨酸，55%的D-亮氨酸，10%的D-苯丙氨酸和5%的D-脯氨酸混合而成，具有目前已报道的最佳抗生物膜效率。

对机器学习优化后的D-氨基酸混合物-抗生素药物组合的细胞毒性进行高通量筛选，如图6a以及图6b。在对8种抗生素的筛选中，D-氨基酸混合物-庆大霉素的细胞毒性最低，具备联合治疗的潜力。

实施例3：

不同之处在于：步骤a中，还可以将D-氨基酸及其混合物的最终浓度设定为200μm；步骤c中，高斯回归的模型精度最好，均方误差值为45.25；步骤d中，步长设为2%，预测数据为316251个。

对机器学习优化后的D-氨基酸混合物-抗生素药物组合对铜绿假单胞菌及其生物膜的生长抑制率进行高通量筛选，对其中最具应用潜力的D-氨基酸混合物-庆大霉素药物组合进行全面的表征，如图7。200μm的D-氨基酸混合物和4mg/l的庆大霉素联合用药，可以在24h内杀灭90%以上的铜绿假单胞菌，可以抑制96%的生物膜形成。机器学习优化的D-氨基酸混合物释放了D-氨基酸的抗生物膜潜能，为低毒高效的药物组合提供了新的治疗可能性。

实施例4：

不同之处在于：步骤a 中，对这十种D-氨基酸在200μm浓度下对金黄色葡萄球菌的抗生物膜性能进行快速的评估，筛选出其中六种性能较好的，对其进行一元，二元，三元，四元，五元，六元混合，对混合物在最终浓度200μm的情况下的抗生物性能进行十轮高通量表征，得到约1500条数据；步骤c中，高斯回归的模型精度最好，均方误差值为46.98；步骤d中，步长设为10%，预测数据为2082个。

对机器学习优化后的D-氨基酸混合物-羧苄青霉素药物组合对金黄色葡萄球菌抗菌性能进行评估，评估结果用荧光共聚焦活死染色呈现，如图8a,8b。当表面暴露于药物组合时，由于缺乏有组织的生物膜结构，细菌高度分散，且视野里，活细菌数量急剧减少，死细菌数量显著增多。这是由于D-氨基酸混合物的引入，极大的抑制了生物膜的形成，在没有生物膜保护的情况下，细菌对抗生素的抵抗力大大降低，少量的抗生素就可以对细菌造成极佳的杀灭能力。D-氨基酸混合物-羧苄青霉素药物组合在不牺牲羧苄青霉素优异抗菌效果的前提下，大大减少了它的用量要求，解决了羧苄青霉素的细胞毒性问题，显著抑制了金黄色葡萄球菌的生长和生物膜的形成。

本发明实施例中，由于D-氨基酸是一种应用前景极佳的抗生物膜药物，但其发展受限于难以找到D-氨基酸混合物的最佳复配比例，从而释放它真正的应用潜能。传统的实验试错法成本极高，且无法在短时间内对上万种复配方式进行表征。本发明构建的高通量平台和机器学习策略相结合的设计方法，可以快速准确的创建机器学习原始数据集，并且通过贝叶斯优化算法，高效导航潜在空间的最优解，避免局部极值，在少量迭代次数的前提下，发现极佳的D-氨基酸复配方式。

使用高通量平台探索D-氨基酸-抗生素药物组合的联合治疗可行性，快速挖掘药物组合的联合行为(协同/拮抗)，全面表征药物组合的应用前景，显著提高开发效率，有效降低研发成本，提供对科研，应用等方面的技术指导，为低毒高效的药物组合开发提供新思路。

图9据一示例性实施例示出的一种高通量平台和机器学习优化的药物组合设计装置框图。参照图9该装置300包括：

模型训练模块310，用于通过高通量平台构建机器学习初始训练数据集；通过训练数据集分别对预设的机器学习回归模型进行训练以及优化；

性能预测模块320，用于基于最优模型，通过全局优化算法EGO，对候选混合物的抗生物膜性能进行预测，得到候选混合物的性能预测值和预期改善EI值；

配比优化模块330，用于以预期改善EI值为标准，对候选混合物进行优化,得到目标性能优异的混合物配比；

药物组合模块340，用于对优化后的候选混合物与抗生素进行药物组合，将组合后的药物进行高通量的性能筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计。

可选地，模型训练模块310，用于通过结晶紫染色法，对现有的具有抗生物膜性能的D-氨基酸进行表征，筛选出表征性能前五的D-氨基酸；

通过高通量平台对这五种D-氨基酸按不同配比组成的混合物的抗生物膜性能进行表征，将表征结果构建为初始训练数据集，对初始训练数据集进行归一化处理；

将初始训练数据集分别输入至六种机器学习回归模型进行训练，得到每个机器学习回归模型的均方误差值；

选取均方误差值最小的机器学习回归模型进行优化。

可选地，初始训练数据集包括：输入数据集和输出数据集；输入数据集为D-氨基酸混合物中各单元的配比，输出数据集为混合物的抗生物膜性能。

可选地，性能预测模块320，还用于通过统计推断法对每一种D-氨基酸混合物分别进行1000次预测，取预测均值作为最终性能预测值。

可选地，配比优化模块330，用于选取EI值最大的D-氨基酸组合方式作为实验迭代的候选配方，用实验的方法得到这些候选配方的真实值；

将候选配方的真实值添加到初始训练数据集中，对初始训练数据集进行扩充；

对扩充后的初始数据集重复执行性能预测以及初始训练数据集扩充，直到候选配方满足预设要求，得到目标性能优异的混合物配比。

可选地，预设要求包括：D-氨基酸混合物的实验真实值低于初始训练数据集中的所有值，且真实值的变化趋势逐渐平缓。

可选地，药物组合模块340，用于利用高通量平台对铜绿假单胞菌的细菌耐药性进行筛选，筛选用到的不同浓度抗生素共有98种；

利用高通量平台对药物组合的抗菌性能进行筛选，筛选用到的药物组合方式共有288种；

利用高通量平台对药物组合的细胞毒性进行筛选，筛选用到的药物组合方式共有32种，最终筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计。

可选地，低毒高效的标准为：在24小时内，抗菌效率大于90%，细胞存活率大于95%。

图10本发明实施例提供的一种电子设备400的结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）401和一个或一个以上的存储器402，其中，存储器402中存储有至少一条指令，至少一条指令由处理器401加载并执行以实现下述高通量平台和机器学习优化的药物组合设计方法的步骤：

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述高通量平台和机器学习优化的药物组合设计方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高通量平台和机器学习优化的药物组合设计方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，构建用于机器学习的初始训练数据集，通过所述初始训练数据集分别对预设的多个机器学习回归模型进行训练以及优化，选取最优模型，包括：

3.根据权利要求2所述的方法，其特征在于，所述初始训练数据集包括：输入数据集和输出数据集；所述输入数据集为候选混合物中各单元的配比，所述输出数据集为候选混合物的抗生物膜性能。

4.根据权利要求2所述的方法，其特征在于，所述步骤S2还包括：

5.根据权利要求2所述的方法，其特征在于，所述步骤S3中，以预期改善EI值为标准，对所述候选混合物的混合物配比进行优化，获得优化候选混合物，包括：

6.根据权利要求5所述的方法，其特征在于，所述预设要求包括：候选混合物的实验真实值低于初始训练数据集中的所有值。

7.根据权利要求5所述的方法，其特征在于，所述步骤S4中，将优化候选混合物与抗生素进行药物组合，将组合后的药物进行高通量的性能筛选，筛选出低毒高效的组合方式，完成高通量平台和机器学习优化的药物组合设计，包括：

8.根据权利要求7所述的方法，其特征在于，所述步骤S42中，所述低毒高效的标准为：在24小时内，药物组合的抗菌效率大于90%，细胞存活率大于95%。

9.一种高通量平台和机器学习优化的药物组合设计装置，其特征在于，所述装置适用于权利要求1-8中任意一项所述的方法，装置包括：

性能预测模块，用于确定最优模型中的算法，通过所述算法对候选混合物的抗生物膜性能进行预测，获得预期改善EI值；

配比优化模块，用于基于最优模型，通过全局优化算法EGO，对候选混合物的抗生物膜性能进行预测，得到候选混合物的性能预测值和预期改善EI值；

10.根据权利要求9所述的装置，其特征在于，模型训练模块，用于通过结晶紫染色法，对多个具有抗生物膜性能的D-氨基酸进行表征，筛选出表征性能结果前五的D-氨基酸；