CN112331262A

CN112331262A - 亲和度预测方法及模型的训练方法、装置、设备及介质

Info

Publication number: CN112331262A
Application number: CN202110011160.6A
Authority: CN
Inventors: 王凡; 何径舟; 方晓敏; 张肖男; 吴华; 吴甜; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2021-02-05
Also published as: KR20220099504A; JP2022106287A; EP4027348A2; EP4027348A3; US20220215899A1

Abstract

本公开公开了一种亲和度预测方法及模型的训练方法、装置、设备及介质，涉及机器学习与智能医疗等人工智能技术领域。具体实现方案为：采集多条训练样本，各条训练样本中包括训练靶点的信息、训练药物的信息以及训练靶点对应的测试数据集；采用所述多条训练样本，对亲和度预测模型进行训练。另外，还公开了一种亲和度预测方法。根据本公开的技术，可以有效地提升训练的亲和度预测模型的准确性和训练效果。并在亲和度预测时，通过获取待检测靶点对应的测试数据集一起参与预测，可以使得预测的待检测靶点和待检测药物的亲和度的准确性更高。

Description

亲和度预测方法及模型的训练方法、装置、设备及介质

技术领域

本公开涉及计算机技术领域，具体涉及机器学习与智能医疗等人工智能技术领域，尤其涉及一种亲和度预测方法及模型的训练方法、装置、设备及介质。

背景技术

人类疾病的靶点通常是疾病发展中具有关键作用的蛋白质，亦可以称为蛋白质靶点。药物通过和靶点蛋白质的结合来使得对应的蛋白质丧失原有功能，从而实现疾病的抑制作用。在新药研发过程中，蛋白质靶点（Target）和化合物分子（Drug）的亲和度的预测是非常重要的环节。通过亲和度预测，寻找到和蛋白质靶点能够紧密结合的高活性的化合物分子，持续优化最终形成可以用于治疗的药物。

最传统的方法需要将最终形成的药物的化合物分子一一进行体外活性实验，以准确检测药物与蛋白质靶点的亲和度。尽管现在高通量实验能做到短时间进行几百上千次实验，但是这种实验成本依旧非常高，而且面对几乎无限大的化合物空间，上千万的化合物结构，这种实验方式仍然不可行。

发明内容

本公开提供了一种亲和度预测方法及模型的训练方法、装置、设备及介质。

根据本公开的一方面，提供了一种亲和度预测模型的训练方法，其中，所述方法包括：

采集多条训练样本，各条所述训练样本中包括训练靶点的信息、训练药物的信息以及训练靶点对应的测试数据集；

采用所述多条训练样本，对亲和度预测模型进行训练。

根据本公开的另一方面，提供了一种亲和度预测方法，其中，所述方法包括：

获取待检测靶点的信息、待检测药物的信息以及所述待检测靶点对应的测试数据集；

基于所述待检测靶点的信息、所述待检测药物的信息以及所述待检测靶点对应的测试数据集，采用预先训练的亲和度预测模型，预测所述待检测靶点与所述待检测药物的亲和度。

根据本公开的再一方面，提供了一种药物数据的筛选方法，其中，所述方法包括：

基于预设靶点对应的测试数据集，采用预先训练的亲和度预测模型，从预设的药物库中筛选与所述预设靶点的预测亲和度最高的数个药物的信息；

基于筛选的所述数个药物的信息，获取实验得出的所述数个药物中各所述药物与所述预设靶点的真实亲和度；

基于所述数个药物的信息以及各所述药物与所述预设靶点的真实亲和度，更新所述预设靶点对应的测试数据集。

根据本公开的又一方面，提供了一种亲和度预测模型的训练装置，其中，所述装置包括：

采集模块，用于采集多条训练样本，各条所述训练样本中包括训练靶点的信息、训练药物的信息以及训练靶点对应的测试数据集；

训练模块，用于采用所述多条训练样本，对亲和度预测模型进行训练。

根据本公开的再另一方面，提供了一种亲和度预测装置，其中，所述装置包括：

获取模块，用于获取待检测靶点的信息、待检测药物的信息以及所述待检测靶点对应的测试数据集；

预测模块，用于基于所述待检测靶点的信息、所述待检测药物的信息以及所述待检测靶点对应的测试数据集，采用预先训练的亲和度预测模型，预测所述待检测靶点与所述待检测药物的亲和度。

根据本公开的再又一方面，提供了一种药物数据的筛选装置，其中，所述装置包括：

筛选模块，用于基于预设靶点对应的测试数据集，采用预先训练的亲和度预测模型，从预设的药物库中筛选与所述预设靶点的预测亲和度最高的数个药物的信息；

获取模块，用于基于筛选的所述数个药物的信息，获取实验得出的所述数个药物中各所述药物与所述预设靶点的真实亲和度；

更新模块，用于基于所述数个药物的信息以及各所述药物与所述预设靶点的真实亲和度，更新所述预设靶点对应的测试数据集。

根据本公开的又另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的又再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的技术，在亲和度预测模型训练时，能够在各条训练样本中增加训练靶点对应的测试数据集，可以有效地提升训练的亲和度预测模型的准确性和训练效果。在亲和度预测时，通过获取待检测靶点对应的测试数据集一起参与预测，可以使得预测的待检测靶点和待检测药物的亲和度的准确性更高。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开第四实施例的示意图；

图5是根据本公开第五实施例的示意图；

图6是根据本公开第六实施例的示意图；

图7是根据本公开第七实施例的示意图；

图8是根据本公开第八实施例的示意图；

图9是根据本公开第九实施例的示意图；

图10是用来实施本公开的实施例的示例电子设备1000的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开第一实施例的示意图；如图1所示，本实施例提供一种亲和度预测模型的训练方法，具体可以包括如下步骤：

S101、采集多条训练样本，各条训练样本中包括训练靶点的信息、训练药物的信息以及训练靶点对应的测试数据集；

其中，各条训练样本中可以包括一个训练靶点的信息、一个训练药物的信息以及该训练靶点对应的测试数据集。

S102、采用多条训练样本，对亲和度预测模型进行训练。

本实施例的亲和度预测模型的训练方法的执行主体为亲和度预测模型的训练装置，该装置可以为电子实体，或者也可以为采用软件集成的应用。使用时，该亲和度预测模型可以基于预先采集的多条训练样本，对亲和度预测模型进行训练。

具体地，本实施例中采集的多条训练样本的数量可以达到百万级以上，采集的训练样本的数量越多，训练的亲和度预测模型的准确性便越高。

本实施例中采集的多条训练样本中涉及多个训练靶点的样本。可以理解为，多条训练样本中部分训练样本的训练靶点可以相同，也可以不同。例如，100万条训练样本中，可以涉及10万个训练靶点，这样，100万条训练样本中，必然存在训练靶点相同的训练样本，但是，这里所述的训练靶点相同的训练样本，仅指的是训练样本中的训练靶点相同，而训练样本中的训练药物并不相同。

与传统的模型训练的训练数据不同的是：本实施例的训练样本中，除了包括训练靶点的信息和训练药物的信息之外，还需要包括该训练靶点对应的测试数据集，以进一步提升亲和度预测模型的训练效果。例如，本实施例中的训练靶点对应的测试数据集中可以包括训练靶点与各测试药物的已知亲和度，以在亲和度预测模型训练中使用。其中训练样本中的训练靶点的信息可以为训练靶点的标识，用于唯一标识该训练靶点，或者也可以为该训练靶点的蛋白质的表达方式。训练样本中训练药物的信息可以为该训练药物的化合物分子式或者其他能够唯一标识该训练化合物的标识。

例如，本实施例的训练靶点对应的测试数据集中可以包括多条测试数据，每一条测试数据的表示形式可以为（训练靶点的信息、测试药物的信息、训练靶点与测试药物的亲和度）。对应于每个训练靶点，可以存在一个单独的测试数据集，以记录该训练靶点上的所有测试药物的信息。

每个训练靶点所对应的测试数据集，是一个特殊的已知数据集，其中所包括的该训练靶点分别与多个测试药物的亲和度，可以与该训练靶点的信息，以及该训练靶点所对应的一个训练药物的信息一起，组成一条训练样本，以在亲和度预测模型训练中使用。各条训练样本中可以包括一个训练靶点的信息、一个训练药物的信息以及该训练靶点对应的测试数据集。

最后基于上述方式得到的多条训练样本，对亲和度预测模型进行训练，使得亲和度预测模型。

本实施例的亲和度预测模型的训练方法，通过采集多条训练样本，各条训练样本中包括训练靶点的信息、训练药物的信息以及训练靶点对应的测试数据集；采用多条训练样本，对亲和度预测模型进行训练，由于本实施例的技术方案中，在各条训练样本中增加训练靶点对应的测试数据集，可以有效地提升训练的亲和度预测模型的准确性和训练效果。

图2是根据本公开第二实施例的示意图；如图2所示，本实施例的亲和度预测模型的训练方法，在上述图1所示实施例的技术方案的基础上，进一步更加详细地描述本公开的技术方案。如图2所示，本实施例的亲和度预测模型的训练方法，具体可以包括如下步骤：

S201、采集多条训练样本，各条训练样本中包括训练靶点的信息、训练药物的信息以及训练靶点对应的测试数据集；

例如，多条训练样本中涉及到多个训练靶点时，各训练靶点可以采用

表示，训练靶点

的测试数据集

可以表示为：

。

其中

、

各对应一条测试数据，

、

分别为测试药物的信息，用于标识相应的测试药物，

为训练靶点的信息，用于标识相应的训练靶点。

表示测试药物

和训练靶点

的已知亲和度，

表示测试药物

和训练靶点

的已知亲和度。本实施例的已知亲和度可以通过实验的方式检测得到。训练靶点

的测试数据集

中可以包括该训练靶点

对应的所有测试药物的测试数据。本实施例中训练样本中的训练药物的信息可以采用

表示。

S202、从多条训练样本中选取一组训练样本，得到训练样本组；

例如，实际应用中，可以从多条训练样本中随机选取一组训练样本作为训练样本组。具体地，该训练样本组中包括的训练样本的数量可以为一条、两条或者多条，在此不做限定。若训练样本组中包括的训练样本的数量为两条以上时，该训练样本组中的各条训练样本可以对应同一个训练靶点，或者也可以部分对应同一个训练靶点，而其他部分各自对应一个训练靶点。

S203、将选取的训练样本组输入至亲和度预测模型中，获取亲和度预测模型预测并输出的训练样本组中各训练样本对应的预测亲和度；

本实施例的亲和度预测模型可以表示为：

其中

表示训练靶点的信息，

表示训练药物的信息，

表示训练靶点

的测试数据集，

表示亲和度预测模型的参数，

表示亲和度预测模型，

表示亲和度预测模型预测的训练靶点

和训练药物

之间的亲和度。

对于训练样本组中的各条训练样本，均可以按照上述方式，获取亲和度预测模型预测并输出的该训练样本的预测亲和度。

S204、根据训练样本组中各训练样本对应的预测亲和度、以及对应的训练样本中训练靶点与训练药物的已知亲和度，构建损失函数；

例如，若训练样本组中仅包括一条训练样本时，直接取该训练样本对应的预测亲和度与对应的已知亲和度的均方误差。其中训练样本对应的预测亲和度，即表示将训练样本中的数据输入至亲和度预测模型中，由亲和度预测模型预测训练样本中的训练靶点

和训练药物

之间的亲和度。训练样本对应的已知亲和度，可以为该训练靶点对应的测试数据集中，该训练靶点与训练药物之间、实验得到的真实亲和度。

若训练样本组中包括多条训练样本时，可以取训练样本组中各训练样本对应的预测亲和度与对应的已知亲和度的均方误差之和，作为损失函数。本实施例的训练目的，便是要使得损失函数趋于收敛，达到最小值，例如，可以采用如下公式表示：

S205、检测损失函数是否收敛；若未收敛，执行步骤S206；若收敛，执行步骤S207；

S206、调整亲和度预测模型的参数，使得损失函数趋于收敛；返回步骤S202，选择下一组训练样本组，继续训练；

S207、检测在连续预设轮数的训练中损失函数是否始终收敛、或者训练轮数是否到达预设阈值；若是，确定亲和度预测模型的参数，进而确定亲和度预测模型，结束；否则返回步骤S202，选择下一组训练样本组，继续训练。

步骤S202-S206为亲和度预测模型的训练过程。步骤S207为亲和度预测模型的训练截止条件。本实施例中以训练截止条件包括两种情况为例，第一种训练截止条件中，在连续预设轮数的训练中损失函数是否始终收敛，若始终收敛，则可以认为该亲和度预测模型已经训练完毕。其中该连续预设轮数可以根据实际需求来设置，例如可以为连续80轮、100轮、200轮或者其他正整数，在此不做限定。第二种训练截止条件中，防止损失函数一直在趋于收敛，但是永远无法达到收敛的情况。此时，可以设置一个训练的最大轮数，在训练轮数达到最大训练轮数时，可以认为亲和度预测模型已经训练完毕。例如根据实际需求，预设阈值可以设置为百万级或者其他更大数量级的数值，在此不做限定。

本实施例中，随着各训练靶点上的测试数据集内包括的测试数据越来越多，亲和度预测模型能达到的预测效果越好。为了实现这一点，本公开中可以使用处理序列的Attention Layer模型来获得最佳效果。例如，模型的表示形式可以为如下：

将靶点可以表示标记为

,药物分子可以表示标记为

,并且将两种表示融合在一起可以标记为

。

用

，

,使得需要预测的Pair能够通过对该靶点的已有信息进行充分地提取。最终模型的预测的形式可以表示为：

其中

表示对

模型结构可以做调整。

另外，需要说明的是，本实施例的亲和度预测模型不限于采用上述AttentionLayer模型，还可以使用转换器（Transformer）模型或者卷积（Convolution）神经网络模型等等，在此不再一一举例赘述。

本实施例的亲和度预测模型的训练方法，通过在各条训练样本中增加训练靶点对应的测试数据集，可以有效地提升训练的亲和度预测模型的准确性和训练效果。

图3是根据本公开第三实施例的示意图；如图3所示，本实施例提供一种亲和度预测方法，具体可以包括如下步骤：

S301、获取待检测靶点的信息、待检测药物的信息以及待检测靶点对应的测试数据集；

本实施例的测试数据集中包括一个待检测靶点的信息、多个测试药物的信息、以及该待检测靶点与各测试药物的亲和度。详细可以参考上述图1或者图2所示实施例中的测试数据集。

S302、基于待检测靶点的信息、待检测药物的信息以及待检测靶点对应的测试数据集，采用预先训练的亲和度预测模型，预测待检测靶点与待检测药物的亲和度。

本实施例的亲和度预测方法的执行主体为亲和度预测装置，同理该亲和度预测装置可以为一电子实体，或者也可以为采用软件集成的应用。使用时，可以向该亲和度预测装置中输入待检测靶点、待检测药物以及待检测靶点对应的测试数据集，该亲和度预测装置可以基于输入的信息，预测并输出该待检测靶点与待检测药物之间的亲和度。

本实施例中，所采用的预先训练的亲和度预测模型可以采用上述图1或者图2所示实施例训练的亲和度预测模型，其训练的亲和预测模型，由于在训练过程中，在训练样本中增加训练靶点的测试数据集，可以使得训练的亲和度预测模型的精度更高、准确性更好。所以在采用如此方式训练的亲和度预测模型，在预测待检测靶点与待检测药物的亲和度时，能够有效地保证预测的待检测靶点与待检测药物的亲和度的精度非常高、准确性非常好。

本实施例中，预测的待检测靶点与待检测药物的亲和度越高，表示待检测靶点与待检测药物的结合能力越强，该待检测药物对该待检测靶点的抑制越强，该待检测药物越有可能成为该待检测靶点的有效的治疗药物。

本实施例的亲和度预测方法，通过获取待检测靶点、待检测药物以及待检测靶点对应的测试数据集；基于待检测靶点、待检测药物以及待检测靶点对应的测试数据集，采用预先训练的亲和度预测模型，预测待检测靶点与待检测药物的亲和度，由于预测时获取了待检测靶点对应的测试数据集一起参与预测，可以使得预测的待检测靶点和待检测药物的亲和度的准确性更高。

图4是根据本公开第四实施例的示意图；如图4所示，本实施例提供一种药物数据的筛选方法，具体可以包括如下步骤：

S401、基于预设靶点对应的测试数据集，采用预先训练的亲和度预测模型，从预设的药物库中筛选与预设靶点的预测亲和度最高的数个药物的信息；

S402、基于筛选的数个药物的信息，获取实验得出的数个药物中各药物与预设靶点的真实亲和度；

S403、基于数个药物的信息以及各药物与预设靶点的真实亲和度，更新预设靶点对应的测试数据集。

本实施例的药物数据的筛选方法的执行主体为药物数据的筛选装置，该药物数据的筛选装置，可以实现对每个预设靶点的预测亲和度最高的数个药物进行筛选，并更新至对应的测试数据集中。

本实施例中预先训练的亲和度预测模型可以采用上述图1或者图2所示实施例的训练方法训练的亲和度预测模型，即在训练过程中，在训练样本中增加训练靶点的测试数据集，可以使得训练的亲和度预测模型的精度更高、准确性更好。

本实施例中以筛选一个预设靶点的药物、更新该预设靶点的测试数据集为例，对于预设靶点，可以获取到该靶点的测试数据集，其中测试数据集中包括的数据可以参考上述实施例的相关记载，在此不再赘述。

本实施例中预设的药物库中可以包括成千上万甚至更多的未经实验验证的药物的信息，如药物的化合物分子或者药物的其他唯一标识信息。若直接采用实验方法来验证药物库中各药物与预设靶点的亲和度，会导致实验成本非常高。本实施例中，可以先基于预设靶点对应的测试数据集，采用预先训练的亲和度预测模型，从预设的药物库中筛选与预设靶点的预测亲和度最高的数个药物的信息；其中数个药物的数量可以根据实际需求来设置，例如可以为5个、8个、10个或者其他正整数个，在此不做限定。通过步骤S401的筛选，是通过亲和度预测模型筛选出来的，这些药物与预设靶点的预测亲和度较高，在训练好的亲和度预测模型预测较为精准的情况下，这些药物的可用性理论上也比较强。所以可以进一步采用实验的方式，来检测筛选的数个药物与预设靶点的已知亲和度。这样，可以避免将药物库中每一种药物都进行实验检测，能够降低实验成本，提高药物筛选效率。接下来将经过实验检测的数个药物的信息、以及各药物与预设靶点的真实亲和度，更新至预设靶点对应的测试数据集中，完成药物的一次筛选。

本实施例中，将数个药物的信息以及各药物与预设靶点的真实亲和度更新至该预设靶点对应的测试数据集中，可以丰富测试数据集中测试数据的内容，使得再次基于测试数据集进行筛选时，可以提高筛选效率。

本实施例的药物处理方法，通过采用上述方案，可以基于预设靶点对应的测试数据集，采用预先训练的亲和度预测模型，从预设的药物库中筛选与预设靶点的预测亲和度最高的数个药物的信息，进而仅对筛选的数个药物中各药物与预设靶点，采用实验的方法检测真实亲和度；并将数个药物的信息以及各药物与预设靶点的真实亲和度，更新至预设靶点对应的测试数据集中，能够有效地避免对所有药物都进行实验筛选，降低实验成本，提高药物筛选的效率。

图5是根据本公开第五实施例的示意图；如图5所示，本实施例的药物数据的筛选方法，在上述图4所示实施例的技术方案的基础上，进一步更加详细地介绍本申请的技术方案。本实施例的药物数据的筛选方法，具体可以包括如下步骤：

S501、基于预设靶点对应的测试数据集，采用预先训练的亲和度预测模型，预测预设的药物库中各药物与预设靶点的预测亲和度；

需要说明的时，首次预测时，该预设靶点对应的测试数据集也可以为空。例如，对于预设靶点t，药物库

，在当前步数s=1，即刚开始循环时，预设靶点对应的测试数据集

可以表示为

。当然，首次预测时，该预设靶点对应的测试数据集也可以不为空，其中包括该预设靶点、经过实验验证的药物的信息、以及预设靶点与药物的已知亲和度。此时，预设靶点对应的测试数据集中包括的药物相关信息的数量在此不做限定。

S502、基于预设的药物库中各药物与预设靶点的预测亲和度，从预设的药物库中筛选与预设靶点的预测亲和度最高的数个药物的信息；

步骤S501-S502为上述图4所示实施例的一种具体实现方式。也就是说，对于预设药物库中的每一种药物，将该药物的信息、预设靶点的信息以及该预设靶点的测试数据集一起输入至预先训练的亲和度预测模型中，该亲和度预测模型可以预测并输出该药物与该预设靶点的预测亲和度。按照这种方式，可以预测到药物库中每一种药物与预设靶点的预测亲和度。进而可以按照预测亲和度由高到低的顺序，对预设药物库的所有药物进行排序；并进一步从中筛选预测亲和度最高的数个药物。

S503、基于筛选的数个药物的信息，获取实验得出的数个药物中各药物与预设靶点的真实亲和度；

本实施例中，仅需要对步骤S502筛选的数个药物进行实验，获取数个药物中各药物与预设靶点的真实亲和度。例如可以采用

表示筛选的第i个药物的信息，

，K表示数个药物的数量。对应地，采用

表示筛选的第i个药物与预设靶点t的真实亲和度。

S504、基于数个药物的信息以及各药物与预设靶点的真实亲和度，更新预设靶点对应的测试数据集；

例如该更新过程可以采用如下公式表示：

。

S505、检测测试数据集的更新的药物的数量是否达到预设数量阈值；若未达到，返回步骤S501，以继续筛选药物；否则，若达到，结束。

需要说明的是，本实施例中，测试数据集的更新的药物的数量可以指的是经过实验获取已知亲和度的药物的数量。在第一次更新时，向测试数据集中更新的药物的数量可以为筛选的数个药物的全部。而在循环后其他轮的更新中，由于筛选的数个药物的信息可能与之前的存在重复，所以在测试数据集中更新的药物的数量可能小于筛选的数个。

本实施例中，若经过实验的药物的数量未达到预设数量阈值时，此时可以返回步骤S501，将当前步数s更新为s+1，继续进行筛选。虽然再次筛选的过程中，采用的预先训练好的亲和度预测模型相同，但是所采用的该预设靶点的测试数据集发生了更新，进而可以进一步提高药物库中各药物与预设靶点的亲和度的准确性。所以，基于更新后的预设靶点的测试数据集，再次执行筛选，从预设的药物库中筛选的与预设靶点的预测亲和度最高的数个药物的信息，可能与前一轮筛选的数个药物的结果完全不相同；或者也可能部分相同。需要说明的是，若部分相同，在执行步骤S503时，对于已经经过实验的药物，可以不再进行实验以获取与预设靶点的真实亲和度。仅将未被实验过的药物进行实验，以获取与预设靶点的真实亲和度，并在测试数据集中仅更新本次经实验获取到的药物及药物预设靶点的真实亲和度；依此类推，直至测试数据集的更新的药物的数量达到预设数量阈值，循环结束。此时测试数据集中的数据为均经过实验获取到与预设靶点的真实亲和度。后续，可以从该预设靶点的测试数据集中选出已知亲和度最高的一个或者数个药物的信息，作为先导的药物化合物进行后续验证。

本实施例中筛选得到的预设靶点对应的测试数据集也可以用于上述图1或者图2所示实施例中的亲和度预测模型的训练过程中，能够有效地保证训练样本中预设靶点的测试数据集的准确性，进而可以进一步提高训练的亲和度预测模型的精度。反过来，再采用图1或者图2所示实施例中的亲和度预测模型来实现图4或者图5所示实施例的药物数据的筛选，也能提高药物数据筛选的准确性和筛选效率。

或者本实施例筛选得到的预设靶点对应的测试数据集也可以不同于上述图1或者图2所示实施例中的训练样本中的测试数据集。本实施例中，由于先采用预先训练的亲和度预测模型筛选数个药物的信息，所以基于数个药物的信息，最终得到的测试数据集中该预设靶点与药物的亲和度都较高；而图1或者图2所示实施例中的训练样本中的测试数据集中训练靶点和测试药物的亲和度可以较低，只要是通过实验得到的即可。

本实施例的药物数据的筛选方法，通过采用上述方案，能够利用预先训练的亲和度检测模型，提供一种有效地药物筛选方案，避免对药物库中的所有药物都进行实验筛选，能够有效地降低实验成本，有效地提高药物筛选效率。

图6是根据本公开第六实施例的示意图；如图6所示，本实施例提供一种亲和度预测模型的训练装置600，包括：

采集模块601，用于采集多条训练样本，各条训练样本中包括训练靶点的信息、训练药物的信息以及训练靶点对应的测试数据集；

训练模块602，用于采用多条训练样本，对亲和度预测模型进行训练。

本实施例的亲和度预测模型的训练装置600，通过采用上述模块实现亲和度预测模型的训练的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图7是根据本公开第七实施例的示意图；如图7所示，本实施例的亲和度预测模型的训练装置600，在上述图6所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。

本实施例的亲和度预测模型的训练装置600中，采集模块601采集的多条训练样本中，各训练样本中的训练靶点对应的测试数据集中包括训练靶点与各测试药物的已知亲和度。

如图7所示，本实施例的亲和度预测模型的训练装置600中，训练模块602，包括：

选取单元6021，用于从多条训练样本中选取一组训练样本，得到训练样本组；

获取单元6022，用于将选取的训练样本组输入至亲和度预测模型中，获取亲和度预测模型预测并输出的训练样本组中各训练样本对应的预测亲和度；

构建单元6023，用于根据训练样本组中各训练样本对应的预测亲和度、以及对应的训练样本中训练靶点与训练药物的已知亲和度，构建损失函数；

检测单元6024，用于检测损失函数是否收敛；

调整单元6025，用于若未收敛，调整亲和度预测模型的参数，使得损失函数趋于收敛。

进一步可选地，构建单元6023，用于：

取训练样本组中各训练样本对应的预测亲和度与对应的已知亲和度的均方误差之和，作为损失函数。

图8是根据本公开第八实施例的示意图；如图8所示，本实施例提供一种亲和度预测装置800，包括：

获取模块801，用于获取待检测靶点的信息、待检测药物的信息以及待检测靶点对应的测试数据集；

预测模块802，用于基于待检测靶点的信息、待检测药物的信息以及待检测靶点对应的测试数据集，采用预先训练的亲和度预测模型，预测待检测靶点与待检测药物的亲和度。

本实施例的亲和度预测装置800，通过采用上述模块实现亲和度预测的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

图9是根据本公开第九实施例的示意图；如图9所示，本实施例提供一种药物数据的筛选装置900，包括：

筛选模块901，用于基于预设靶点对应的测试数据集，采用预先训练的亲和度预测模型，从预设的药物库中筛选与预设靶点的预测亲和度最高的数个药物的信息；

获取模块902，用于基于筛选的数个药物的信息，获取实验得出的数个药物中各药物与预设靶点的真实亲和度；

更新模块903，用于基于数个药物的信息以及各药物与预设靶点的真实亲和度，更新预设靶点对应的测试数据集。

本实施例的药物数据的筛选装置900，通过采用上述模块实现药物数据的筛选的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10是用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器（ROM）1002中的计算机程序或者从存储单元1008加载到随机访问存储器（RAM）1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如亲和度预测模型的训练方法、亲和度预测方法或者药物数据的筛选方法。例如，在一些实施例中，亲和度预测模型的训练方法、亲和度预测方法或者药物数据的筛选方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的亲和度预测模型的训练方法、亲和度预测方法或者药物数据的筛选方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行亲和度预测模型的训练方法、亲和度预测方法或者药物数据的筛选方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种亲和度预测模型的训练方法，其中，所述方法包括：

采用所述多条训练样本，对亲和度预测模型进行训练。

2.根据权利要求1所述的方法，其中，所述训练靶点对应的测试数据集中包括所述训练靶点与各测试药物的已知亲和度。

3.根据权利要求2所述的方法，其中，采用所述多条训练样本，对亲和度预测模型进行训练，包括：

从所述多条训练样本中选取一组训练样本，得到训练样本组；

将选取的所述训练样本组输入至所述亲和度预测模型中，获取所述亲和度预测模型预测并输出的所述训练样本组中各所述训练样本对应的预测亲和度；

根据所述训练样本组中各所述训练样本对应的预测亲和度、以及对应的所述训练样本中所述训练靶点与所述训练药物的已知亲和度，构建损失函数；

检测所述损失函数是否收敛；

若未收敛，调整所述亲和度预测模型的参数，使得所述损失函数趋于收敛。

4.根据权利要求3所述的方法，其中，根据所述训练样本组中各所述训练样本对应的预测亲和度、以及对应的所述训练样本中所述训练靶点与所述训练药物的已知亲和度，构建损失函数，包括：

取所述训练样本组中各所述训练样本对应的预测亲和度与对应的所述已知亲和度的均方误差之和，作为损失函数。

5.一种亲和度预测方法，其中，所述方法包括：

6.根据权利要求5所述的方法，其中，所述待检测靶点对应的测试数据集包括所述待检测靶点的信息、多个测试药物的信息、以及所述待检测靶点与所述多个测试药物中各所述测试药物的亲和度。

7.一种药物数据的筛选方法，其中，所述方法包括：

基于筛选的所述数个药物的信息，检测所述数个药物中各所述药物与所述预设靶点的真实亲和度；

8.根据权利要求7所述的方法，其中，所述预设靶点对应的测试数据集为空，或者包括药物的信息、以及所述药物与所述预设靶点的真实亲和度。

9.根据权利要求7或8所述的方法，其中，基于预设靶点对应的测试数据集，采用预先训练的亲和度预测模型，从预设的药物库中筛选与所述预设靶点的预测亲和度最高的数个药物的信息，包括：

基于所述预设靶点对应的测试数据集，采用预先训练的所述亲和度预测模型，预测所述预设的药物库中各所述药物与所述预设靶点的预测亲和度；

基于所述预设的药物库中各所述药物与所述预设靶点的预测亲和度，从所述预设的药物库中筛选与所述预设靶点的所述预测亲和度最高的所述数个药物的信息。

10.一种亲和度预测模型的训练装置，其中，所述装置包括：

11.根据权利要求10所述的装置，其中，所述训练靶点对应的测试数据集中包括所述训练靶点与各测试药物的已知亲和度。

12.根据权利要求11所述的装置，其中，所述训练模块，包括：

选取单元，用于从所述多条训练样本中选取一组训练样本，得到训练样本组；

获取单元，用于将选取的所述训练样本组输入至所述亲和度预测模型中，获取所述亲和度预测模型预测并输出的所述训练样本组中各所述训练样本对应的预测亲和度；

构建单元，用于根据所述训练样本组中各所述训练样本对应的预测亲和度、以及对应的所述训练样本中所述训练靶点与所述训练药物的已知亲和度，构建损失函数；

检测单元，用于检测所述损失函数是否收敛；

调整单元，用于若未收敛，调整所述亲和度预测模型的参数，使得所述损失函数趋于收敛。

13.根据权利要求12所述的装置，其中，所述构建单元，用于：

14.一种亲和度预测装置，其中，所述装置包括：

15.根据权利要求14所述的装置，其中，所述待检测靶点对应的测试数据集包括所述待检测靶点的信息、多个测试药物的信息、以及所述待检测靶点与所述多个测试药物中各所述测试药物的亲和度。

16.一种药物数据的筛选装置，其中，所述装置包括：

17.根据权利要求16所述的装置，其中，所述预设靶点对应的测试数据集为空，或者包括药物的信息、以及所述药物与所述预设靶点的真实亲和度。

18.根据权利要求16或者17所述的装置，其中，所述筛选模块，用于：

19.一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4、5-6或7-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-4、5-6或7-9中任一项所述的方法。