CN111477287B

CN111477287B - 一种药物靶点预测方法、装置、设备及介质

Info

Publication number: CN111477287B
Application number: CN202010594103.0A
Authority: CN
Inventors: 雷涛; 吕慧
Original assignee: Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Current assignee: Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-11-20
Anticipated expiration: 2040-06-28
Also published as: CN111477287A

Abstract

本公开实施例公开了一种药物靶点预测方法、装置、设备及介质，其中该方法包括：获取待预测药物配体分子；根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定待预测药物配体分子的特征数据；采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理，得到待预测药物配体分子的药物靶点，其中，药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。采用上述技术方案，特征数据的信息更加全面以及维度降低，并且由于药物靶点预测算法的样本数据库基于多个代表性配体分子特征得到，使得采用该药物靶点预测算法进行药物靶点预测时，准确率和效率更高。

Description

一种药物靶点预测方法、装置、设备及介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种药物靶点预测方法、装置、设备及介质。

背景技术

药物研究过程中一个重要的环节就是新药的筛选，而建立一个新药的筛选系统的关键就是寻找药物作用靶点来提供干预治疗。药物靶点是药物与机体生物大分子作用而产生药理学作用并达到防治疾病目的的由生物分子形成的特殊位点，是药物发挥作用的基础，在新药筛选中具有十分重要的意义。预测药物靶点不但对药物分子初期成药性的评价有着不可替代的作用，而且对药物成熟后老药新用等领域都有着重大的意义，但因为药物的通量、准确度、成本等限制，实验方法的应用难以广泛地展开。药物化合物的活性寻找是一件让人费心费力的事情，尤其天然产物研究更是困难重重。一种新的药物从筛选到上市成功，据统计，花费高达2.0-3.5亿美元，且平均需要历经10到14年的时间。目前，临床阶段候选药物的淘汰率高达90%。

作为一类低成本且快速的方法，利用计算机预测药物靶点的方法正受到越来越多的重视。药物靶点预测可以采用一定计算方法，对化合物的潜在作用靶点或药理作用进行预测。传统计算机药物靶点预测方法包括基于反向对接的药物靶点预测方法和单纯基于分子指纹相似度的药物靶点预测方法，但是反向对接技术依赖蛋白的晶体结构，并且打分函数对预测准确性的影响非常大；而基于分子指纹相似度的药物靶点预测方法的样本数据的准确性有待提高。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种药物靶点预测方法、装置、设备及介质，可以优化现有的药物靶点预测方案，提高准确性。

本公开实施例提供了一种药物靶点预测方法，包括：

获取待预测药物配体分子；

根据所述待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定所述待预测药物配体分子的特征数据；

采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理，得到所述待预测药物配体分子的药物靶点，其中，所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定。

本公开实施例还提供了一种药物靶点预测装置，包括：

待预测数据获取模块，用于获取待预测药物配体分子；

待预测特征确定模块，根据所述待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定所述待预测药物配体分子的特征数据；

数据处理模块，用于采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理，得到所述待预测药物配体分子的药物靶点，其中，所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定。

本公开实施例还提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如本公开实施例提供的药物靶点预测方法。

本公开实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行如本公开实施例提供的药物靶点预测方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：本公开实施例提供的药物靶点预测方案，获取待预测药物配体分子，根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定待预测药物配体分子的特征数据，采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理，得到待预测药物配体分子的药物靶点，其中，药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。采用上述技术方案，根据药物配体分子与代表性配体分子特征之间的三维指纹相似度关系确定特征数据，进而采用药物靶点预测算法进行数据处理得到药物靶点，特征数据的信息更加全面以及维度降低，并且由于药物靶点预测算法的样本数据库基于多个代表性配体分子特征得到，使得采用该药物靶点预测算法进行药物靶点预测时，准确率和效率更高。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种药物靶点预测方法的流程示意图；

图2为本公开实施例提供的另一种药物靶点预测方法的流程示意图；

图3为本公开实施例提供的一种药物靶点预测装置的结构示意图；

图4为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

图1为本公开实施例提供的一种药物靶点预测方法的流程示意图，该方法可以由药物靶点预测装置执行，其中该装置软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法包括：

步骤101、获取待预测药物配体分子。

待预测药物配体分子可以为需要进行药物靶点预测的药物配体分子。

示例性的，本公开实施例中的待预测药物配体分子可以来源于用户传输。

步骤102、根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定待预测药物配体分子的特征数据。

设定数量的代表性配体分子特征可以基于采用K均值聚类算法基于三维指纹对第一药物配体分子数据集中的各药物配体分子进行聚类之后，基于每一维上0和1的计数确定的。

本公开实施例中，确定待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度；基于三维指纹相似度构建多维相似度特征矩阵，将多维相似度特征矩阵确定为待预测药物配体分子的特征数据。该特征数据的维数是设定数量。

步骤103、采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理，得到待预测药物配体分子的药物靶点，其中，药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。

其中，药物靶点预测算法可以为基于深度学习的神经网络模型，即为药物靶点预测模型，该药物靶点预测模型可以包括药物靶点预测模型包括一个输入层、三个隐藏层和一个输出层。可选的，该药物靶点预测模型中预测指标的设置可以包括正确率（Accuracy）、准确率（Precision）、敏感度（Sensitivity）、特异度（Specificity）和各种系数F的设置。

药物靶点预测算法的损失函数采用Focal损失函数。药物靶点预测模型的损失函数主要考虑当前正样本和通过随机采样得到的部分负样本进行计算，即采用Focal损失函数。Focal损失函数主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题，该损失函数降低了大量简单负样本在训练中所占的权重，其计算方式为

，其中，

表示激活函数，本公开实施例中可以采用Sigmoid激活函数。

本公开实施例中，药物靶点预测算法的评价指标可以包括工作特征曲线下面积（Area Under Curve，AUC）、混淆矩阵、准确率和回归率中的至少一个。其中，AUC为工作特征曲线（Receiver Operating characteristic Curve，ROC）下与坐标轴围成的面积，AUC的取值范围在0.5和1之间，AUC越接近1.0，真实性越高。

本公开实施例提供的药物靶点预测方案，获取待预测药物配体分子，根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定待预测药物配体分子的特征数据，采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理，得到待预测药物配体分子的药物靶点，其中，药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。采用上述技术方案，根据药物配体分子与代表性配体分子特征之间的三维指纹相似度关系确定特征数据，进而采用药物靶点预测算法进行数据处理得到药物靶点，特征数据的信息更加全面以及维度降低，并且由于药物靶点预测算法的样本数据库基于多个代表性配体分子特征得到，使得采用该药物靶点预测算法进行药物靶点预测时，准确率和效率更高。

图2为本公开实施例提供的另一种药物靶点预测方法的流程示意图，本公开实施例在上述实施例的基础上，对确定药物靶点预测算法对应的样本数据库进行了具体说明。如图2所示，该方法包括：

步骤201、根据三维指纹对第一药物配体分子数据集进行聚类，确定设定数量的代表性配体分子特征。

其中，第一药物配体分子数据集可以为预先采集的多个药物配体分子的数据集，具体数量可以尽可能多，本公开实施例中不作限定。三维（3D）指纹是指扩展三维指纹（theExtended three dimensional FingerPrint，E3FP），是一种基于扩展连通指纹（ExtendedConnectivity FingerPrints，ECFP）扩展三维表示得到的分子指纹，可以采用该三维指纹表征化合物分子。本公开实施例中，三维指纹可以采用一串只包含0和1的数字向量来表示。代表性配体分子特征可以理解为聚类之后具有代表性簇中心药物配体分子的三维指纹。

本公开实施例中，根据三维指纹对第一药物配体分子数据集进行聚类，确定设定数量的代表性配体分子特征，可以包括：提取第一药物配体分子数据集中各药物配体分子的三维指纹；采用K均值聚类算法基于三维指纹对第一药物配体分子数据集中的各药物配体分子进行聚类，确定设定数量的代表性配体分子特征。其中，设定数量可以根据实际情况进行设定，例如设定数量可以设置为300。

可选的，提取第一药物配体分子数据集中各药物配体分子的三维指纹，包括：采用扩展三维指纹算法，根据分子力场对第一药物配体分子数据集中各药物配体分子的分子结构进行分析，生成三维指纹。第一药物配体分子数据集中各药物配体分子可以采用力场函数进行分子力场分析，并基于E3FP算法得到分子力场下的三维构象，即得到扩展三维指纹。分子力场可以包括独立能量项的键伸缩能、键角弯曲能和二面角扭曲能，以及非键相互作用的范德华力和静电相互作用等。本公开实施例中采用了三维指纹表征药物配体分子，弥补了二维指纹在3维空间上面的不足，提高了性能。

并且，上述K均值聚类算法为基于Tanimoto相似度的K均值聚类算法。示例性的，Tanimoto相似度计算如下，设药物配体分子A和B的三维指纹如表1所示。

表1 药物配体分子A和B的三维指纹

A	1	0	1	1	0	0	1
								B	1	0	0	0	1	1	0

药物配体分子A和B的Tanimoto相似度为

。

相较于现有的基于欧式距离的K均值聚类算法，本公开实施例中采用更适用于值均为0和1的Tanimoto相似度，提高了聚类的准确性。

针对第一药物配体分子数据集中的各药物配体分子，可以先随机确定设定数量的簇中心药物配体分子；计算剩余的药物配体分子与各簇中心药物配体分子的Tanimoto相似度，并基于该Tanimoto相似度对各药物配体分子进行聚类，得到设定数量的簇；对于每个簇重新确定其簇中心药物配体分子的三维指纹，即确定代表性配体分子特征。并且确定簇中心药物配体分子的三维指纹，具体是将簇中心药物配体分子的三维指纹确定为每一维上0和1中计数多的那一个值。示例性的，参见表2，表2为簇中心药物配体分子的三维指纹确定表。

表2 簇中心药物配体分子的三维指纹确定表

A	1	0	1	1	0	0	1
								B	1	0	0	0	1	1	0
C	1	1	1	0	0	0	0
								簇中心	1	0	1	0	0	0	0

表中所示的簇中包括三个药物配体分子A、B和C，每一列对应元素中1的数量较多，则簇中心药物配体分子相对应位置的元素设置为1，否则簇中心药物配体分子相应位置的元素设置为0。

步骤202、根据第二药物配体分子数据集中各药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定第二药物配体分子数据集中各药物配体分子的特征数据。

其中，第二药物配体分子数据集可以为预先采集的包括多个已知药物靶点的药物配体分子的数据集，具体数量可以尽可能多，本公开实施例中不作限定。本公开实施例中，第二药物配体分子数据集与上述第一药物配体分子数据集的数据是不同的。

本公开实施例中，根据第二药物配体分子数据集中各药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定第二药物配体分子数据集中各药物配体分子的特征数据，可以包括：确定第二药物配体分子数据集中每个药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度；基于三维指纹相似度构建多维相似度特征矩阵，将多维相似度特征矩阵确定为第二药物配体分子数据集中各药物配体分子的特征数据。

获取第二药物配体分子数据集之后，可以计算该第二药物配体分子数据集中每个药物配体分子与设定数量的代表性配体分子特征的三维指纹的相似度，将得到的设定数量的三维指纹相似度形成特征矩阵，得到多维相似度特征矩阵。每个药物配体分子的多维相似度特征矩阵即为对应的特征数据，该特征数据的维数是设定数量。

示例性的，假设药物配体分子为A，代表性配体分子特征的设定数量为N，A与N个代表性配体分子特征的三维指纹相似度可以分别用T1，T2，…，TN进行表示，则A的特征数据为{T1，T2，…，TN}，维度为N维。

步骤203、将第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为药物靶点预测算法的样本数据库。

其中，药物靶点是药物与机体生物大分子作用而产生药理学作用并达到防治疾病目的的由生物分子形成的特殊位点，药物靶点可以包括基因位点、受体、酶、离子通道、核酸等生物大分子。药物靶点是细胞信号传导中的重要蛋白质，在人类视觉、嗅觉、味觉以及神经传递等各项正常生理活动和疾病过程中都发挥着重要的作用，是药物发挥作用的基础，在新药筛选中具有十分重要的意义。

本公开实施例中，第二药物配体分子数据集中的各药物配体分子的药物靶点是预先确定的，在确定各药物配体分子的特征数据之后，可以将该二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为药物靶点预测算法的样本数据库，对药物靶点预测算法进行优化和学习，以得到记录了学习好的参数的药物靶点预测算法。

可选的，本公开实施例中的药物配体分子支持cdx、mol、sdf和smiles中的至少一种格式的文件。

步骤204、获取待预测药物配体分子。

步骤205、根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定待预测药物配体分子的特征数据。

步骤206、采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理，得到待预测药物配体分子的药物靶点。

其中，药物靶点预测算法为上述基于样本数据库学习好的参数的预测算法，即为已经训练好的药物靶点预测模型。

本公开实施例提供的药物靶点预测方案，根据三维指纹对第一药物配体分子数据集进行聚类，确定设定数量的代表性配体分子特征，根据第二药物配体分子数据集中各药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定第二药物配体分子数据集中各药物配体分子的特征数据，将第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为药物靶点预测算法的样本数据库，获取待预测药物配体分子，根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定待预测药物配体分子的特征数据，采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理，得到待预测药物配体分子的药物靶点。采用上述技术方案，根据三维指纹通过聚类可以确定多个代表性配体分子特征，进而可以基于多个代表性配体分子特征得到样本数据库中各药物配体分子的特征数据，使得样本数据库中的特征数据的信息更加全面以及维度降低，并且通过聚类降低了特征数据的维度，进而使得采用该特征数据得到的药物靶点预测算法更加准确，并且采用所得到的算法进行数据处理，进而实现药物靶点预测时，准确率和效率更高。

图3为本公开实施例提供的一种药物靶点预测装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中，可通过执行药物靶点预测方法来进行药物配体分析的靶点预测。如图3所示，该装置包括：

待预测数据获取模块301，用于获取待预测药物配体分子；

待预测特征确定模块302，根据所述待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定所述待预测药物配体分子的特征数据；

数据处理模块303，用于采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理，得到所述待预测药物配体分子的药物靶点，其中，所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定。

本公开实施例提供的药物靶点预测装置，获取待预测药物配体分子，根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定待预测药物配体分子的特征数据，采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理，得到待预测药物配体分子的药物靶点，其中，药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。采用上述技术方案，根据药物配体分子与代表性配体分子特征之间的三维指纹相似度关系确定特征数据，进而采用药物靶点预测算法进行数据处理得到药物靶点，特征数据的信息更加全面以及维度降低，并且由于药物靶点预测算法的样本数据库基于多个代表性配体分子特征得到，使得采用该药物靶点预测算法进行药物靶点预测时，准确率和效率更高。

可选的，所述数据处理模块303包括样本数据库确定单元，具体包括：

聚类子单元，用于根据三维指纹对第一药物配体分子数据集进行聚类，确定设定数量的代表性配体分子特征；

特征数据确定子单元，根据第二药物配体分子数据集中各药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定所述第二药物配体分子数据集中各药物配体分子的特征数据；

样本数据库子单元，用于将所述第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为所述药物靶点预测算法的样本数据库。

可选的，所述聚类子单元具体用于：

提取所述第一药物配体分子数据集中各药物配体分子的三维指纹；

采用K均值聚类算法基于三维指纹对所述第一药物配体分子数据集中的各药物配体分子进行聚类，确定设定数量的代表性配体分子特征。

可选的，所述K均值聚类算法为基于Tanimoto相似度的K均值聚类算法。

可选的，所述聚类子单元具体用于：

采用扩展三维指纹算法，根据分子力场对第一药物配体分子数据集中各药物配体分子的分子结构进行分析，生成三维指纹。

可选的，所述特征数据确定子单元具体用于：

确定所述第二药物配体分子数据集中每个药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度；

基于所述三维指纹相似度构建多维相似度特征矩阵，将所述多维相似度特征矩阵确定为所述第二药物配体分子数据集中各药物配体分子的特征数据。

可选的，所述药物靶点预测算法的损失函数采用Focal损失函数，所述药物靶点预测算法的评价指标包括工作特征曲线下面积、混淆矩阵、准确率和回归率中的至少一个。

本公开实施例所提供的药物靶点预测装置可执行本发明任意实施例所提供的药物靶点预测方法，具备执行方法相应的功能模块和有益效果。

图4为本公开实施例提供的一种电子设备的结构示意图。如图4所示，电子设备400包括一个或多个处理器401和存储器402。

处理器401可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备400中的其他组件以执行期望的功能。

存储器402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行所述程序指令，以实现上文所述的本公开的实施例的药物靶点预测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备400还可以包括：输入装置403和输出装置404，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

此外，该输入装置403还可以包括例如键盘、鼠标等等。

该输出装置404可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图4中仅示出了该电子设备400中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备400还可以包括任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的药物靶点预测方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的药物靶点预测方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种药物靶点预测方法，其特征在于，包括：

获取待预测药物配体分子；

采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理，得到所述待预测药物配体分子的药物靶点，其中，所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定；

确定所述药物靶点预测算法对应的样本数据库，包括：

根据三维指纹对第一药物配体分子数据集进行聚类，确定设定数量的代表性配体分子特征；

根据第二药物配体分子数据集中各药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定所述第二药物配体分子数据集中各药物配体分子的特征数据；

将所述第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为所述药物靶点预测算法的样本数据库。

2.根据权利要求1所述的药物靶点预测方法，其特征在于，所述根据三维指纹对第一药物配体分子数据集进行聚类，确定设定数量的代表性配体分子特征，包括：

3.根据权利要求2所述的药物靶点预测方法，其特征在于，所述K均值聚类算法为基于Tanimoto相似度的K均值聚类算法。

4.根据权利要求2所述的药物靶点预测方法，其特征在于，所述提取所述第一药物配体分子数据集中各药物配体分子的三维指纹，包括：

5.根据权利要求1所述的药物靶点预测方法，其特征在于，所述根据第二药物配体分子数据集中各药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定所述第二药物配体分子数据集中各药物配体分子的特征数据，包括：

6.根据权利要求1所述的药物靶点预测方法，其特征在于，所述药物靶点预测算法的损失函数采用Focal损失函数，所述药物靶点预测算法的评价指标包括工作特征曲线下面积、混淆矩阵、准确率和回归率中的至少一个。

7.一种药物靶点预测装置，其特征在于，包括：

待预测数据获取模块，用于获取待预测药物配体分子；

数据处理模块，用于采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理，得到所述待预测药物配体分子的药物靶点，其中，所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定；

所述数据处理模块包括样本数据库确定单元，具体包括：聚类子单元，用于根据三维指纹对第一药物配体分子数据集进行聚类，确定设定数量的代表性配体分子特征；特征数据确定子单元，根据第二药物配体分子数据集中各药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度关系，确定所述第二药物配体分子数据集中各药物配体分子的特征数据；样本数据库子单元，用于将所述第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为所述药物靶点预测算法的样本数据库。

8.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6中任一所述的药物靶点预测方法。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-6中任一所述的药物靶点预测方法。