CN111477287B - 一种药物靶点预测方法、装置、设备及介质 - Google Patents

一种药物靶点预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN111477287B
CN111477287B CN202010594103.0A CN202010594103A CN111477287B CN 111477287 B CN111477287 B CN 111477287B CN 202010594103 A CN202010594103 A CN 202010594103A CN 111477287 B CN111477287 B CN 111477287B
Authority
CN
China
Prior art keywords
drug
ligand molecule
predicted
target prediction
ligand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010594103.0A
Other languages
English (en)
Other versions
CN111477287A (zh
Inventor
雷涛
吕慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Original Assignee
Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyun Rongchuang Data Science & Technology Beijing Co ltd filed Critical Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority to CN202010594103.0A priority Critical patent/CN111477287B/zh
Publication of CN111477287A publication Critical patent/CN111477287A/zh
Application granted granted Critical
Publication of CN111477287B publication Critical patent/CN111477287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medicinal Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开实施例公开了一种药物靶点预测方法、装置、设备及介质,其中该方法包括:获取待预测药物配体分子;根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定待预测药物配体分子的特征数据;采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理,得到待预测药物配体分子的药物靶点,其中,药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。采用上述技术方案,特征数据的信息更加全面以及维度降低,并且由于药物靶点预测算法的样本数据库基于多个代表性配体分子特征得到,使得采用该药物靶点预测算法进行药物靶点预测时,准确率和效率更高。

Description

一种药物靶点预测方法、装置、设备及介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种药物靶点预测方法、装置、设备及介质。
背景技术
药物研究过程中一个重要的环节就是新药的筛选,而建立一个新药的筛选系统的关键就是寻找药物作用靶点来提供干预治疗。药物靶点是药物与机体生物大分子作用而产生药理学作用并达到防治疾病目的的由生物分子形成的特殊位点,是药物发挥作用的基础,在新药筛选中具有十分重要的意义。预测药物靶点不但对药物分子初期成药性的评价有着不可替代的作用,而且对药物成熟后老药新用等领域都有着重大的意义,但因为药物的通量、准确度、成本等限制,实验方法的应用难以广泛地展开。药物化合物的活性寻找是一件让人费心费力的事情,尤其天然产物研究更是困难重重。一种新的药物从筛选到上市成功,据统计,花费高达2.0-3.5亿美元,且平均需要历经10到14年的时间。目前,临床阶段候选药物的淘汰率高达90%。
作为一类低成本且快速的方法,利用计算机预测药物靶点的方法正受到越来越多的重视。药物靶点预测可以采用一定计算方法,对化合物的潜在作用靶点或药理作用进行预测。传统计算机药物靶点预测方法包括基于反向对接的药物靶点预测方法和单纯基于分子指纹相似度的药物靶点预测方法,但是反向对接技术依赖蛋白的晶体结构,并且打分函数对预测准确性的影响非常大;而基于分子指纹相似度的药物靶点预测方法的样本数据的准确性有待提高。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种药物靶点预测方法、装置、设备及介质,可以优化现有的药物靶点预测方案,提高准确性。
本公开实施例提供了一种药物靶点预测方法,包括:
获取待预测药物配体分子;
根据所述待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定所述待预测药物配体分子的特征数据;
采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理,得到所述待预测药物配体分子的药物靶点,其中,所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定。
本公开实施例还提供了一种药物靶点预测装置,包括:
待预测数据获取模块,用于获取待预测药物配体分子;
待预测特征确定模块,根据所述待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定所述待预测药物配体分子的特征数据;
数据处理模块,用于采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理,得到所述待预测药物配体分子的药物靶点,其中,所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定。
本公开实施例还提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开实施例提供的药物靶点预测方法。
本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的药物靶点预测方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:本公开实施例提供的药物靶点预测方案,获取待预测药物配体分子,根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定待预测药物配体分子的特征数据,采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理,得到待预测药物配体分子的药物靶点,其中,药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。采用上述技术方案,根据药物配体分子与代表性配体分子特征之间的三维指纹相似度关系确定特征数据,进而采用药物靶点预测算法进行数据处理得到药物靶点,特征数据的信息更加全面以及维度降低,并且由于药物靶点预测算法的样本数据库基于多个代表性配体分子特征得到,使得采用该药物靶点预测算法进行药物靶点预测时,准确率和效率更高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种药物靶点预测方法的流程示意图;
图2为本公开实施例提供的另一种药物靶点预测方法的流程示意图;
图3为本公开实施例提供的一种药物靶点预测装置的结构示意图;
图4为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例提供的一种药物靶点预测方法的流程示意图,该方法可以由药物靶点预测装置执行,其中该装置软件和/或硬件实现,一般可集成在电子设备中。如图1所示,该方法包括:
步骤101、获取待预测药物配体分子。
待预测药物配体分子可以为需要进行药物靶点预测的药物配体分子。
示例性的,本公开实施例中的待预测药物配体分子可以来源于用户传输。
步骤102、根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定待预测药物配体分子的特征数据。
设定数量的代表性配体分子特征可以基于采用K均值聚类算法基于三维指纹对第一药物配体分子数据集中的各药物配体分子进行聚类之后,基于每一维上0和1的计数确定的。
本公开实施例中,确定待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度;基于三维指纹相似度构建多维相似度特征矩阵,将多维相似度特征矩阵确定为待预测药物配体分子的特征数据。该特征数据的维数是设定数量。
步骤103、采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理,得到待预测药物配体分子的药物靶点,其中,药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。
其中,药物靶点预测算法可以为基于深度学习的神经网络模型,即为药物靶点预测模型,该药物靶点预测模型可以包括药物靶点预测模型包括一个输入层、三个隐藏层和一个输出层。可选的,该药物靶点预测模型中预测指标的设置可以包括正确率(Accuracy)、准确率(Precision)、敏感度(Sensitivity)、特异度(Specificity)和各种系数F的设置。
药物靶点预测算法的损失函数采用Focal损失函数。药物靶点预测模型的损失函数主要考虑当前正样本和通过随机采样得到的部分负样本进行计算,即采用Focal损失函数。Focal损失函数主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题,该损失函数降低了大量简单负样本在训练中所占的权重,其计算方式为
Figure 594052DEST_PATH_IMAGE001
,其中,
Figure 839088DEST_PATH_IMAGE002
表示激活函数,本公开实施例中可以采用Sigmoid激活函数。
本公开实施例中,药物靶点预测算法的评价指标可以包括工作特征曲线下面积(Area Under Curve,AUC)、混淆矩阵、准确率和回归率中的至少一个。其中,AUC为工作特征曲线(Receiver Operating characteristic Curve,ROC)下与坐标轴围成的面积,AUC的取值范围在0.5和1之间,AUC越接近1.0,真实性越高。
本公开实施例提供的药物靶点预测方案,获取待预测药物配体分子,根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定待预测药物配体分子的特征数据,采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理,得到待预测药物配体分子的药物靶点,其中,药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。采用上述技术方案,根据药物配体分子与代表性配体分子特征之间的三维指纹相似度关系确定特征数据,进而采用药物靶点预测算法进行数据处理得到药物靶点,特征数据的信息更加全面以及维度降低,并且由于药物靶点预测算法的样本数据库基于多个代表性配体分子特征得到,使得采用该药物靶点预测算法进行药物靶点预测时,准确率和效率更高。
图2为本公开实施例提供的另一种药物靶点预测方法的流程示意图,本公开实施例在上述实施例的基础上,对确定药物靶点预测算法对应的样本数据库进行了具体说明。如图2所示,该方法包括:
步骤201、根据三维指纹对第一药物配体分子数据集进行聚类,确定设定数量的代表性配体分子特征。
其中,第一药物配体分子数据集可以为预先采集的多个药物配体分子的数据集,具体数量可以尽可能多,本公开实施例中不作限定。三维(3D)指纹是指扩展三维指纹(theExtended three dimensional FingerPrint,E3FP),是一种基于扩展连通指纹(ExtendedConnectivity FingerPrints,ECFP)扩展三维表示得到的分子指纹,可以采用该三维指纹表征化合物分子。本公开实施例中,三维指纹可以采用一串只包含0和1的数字向量来表示。代表性配体分子特征可以理解为聚类之后具有代表性簇中心药物配体分子的三维指纹。
本公开实施例中,根据三维指纹对第一药物配体分子数据集进行聚类,确定设定数量的代表性配体分子特征,可以包括:提取第一药物配体分子数据集中各药物配体分子的三维指纹;采用K均值聚类算法基于三维指纹对第一药物配体分子数据集中的各药物配体分子进行聚类,确定设定数量的代表性配体分子特征。其中,设定数量可以根据实际情况进行设定,例如设定数量可以设置为300。
可选的,提取第一药物配体分子数据集中各药物配体分子的三维指纹,包括:采用扩展三维指纹算法,根据分子力场对第一药物配体分子数据集中各药物配体分子的分子结构进行分析,生成三维指纹。第一药物配体分子数据集中各药物配体分子可以采用力场函数进行分子力场分析,并基于E3FP算法得到分子力场下的三维构象,即得到扩展三维指纹。分子力场可以包括独立能量项的键伸缩能、键角弯曲能和二面角扭曲能,以及非键相互作用的范德华力和静电相互作用等。本公开实施例中采用了三维指纹表征药物配体分子,弥补了二维指纹在3维空间上面的不足,提高了性能。
并且,上述K均值聚类算法为基于Tanimoto相似度的K均值聚类算法。示例性的,Tanimoto相似度计算如下,设药物配体分子A和B的三维指纹如表1所示。
表1 药物配体分子A和B的三维指纹
A 1 0 1 1 0 0 1
B 1 0 0 0 1 1 0
药物配体分子A和B的Tanimoto相似度为
Figure 87667DEST_PATH_IMAGE003
相较于现有的基于欧式距离的K均值聚类算法,本公开实施例中采用更适用于值均为0和1的Tanimoto相似度,提高了聚类的准确性。
针对第一药物配体分子数据集中的各药物配体分子,可以先随机确定设定数量的簇中心药物配体分子;计算剩余的药物配体分子与各簇中心药物配体分子的Tanimoto相似度,并基于该Tanimoto相似度对各药物配体分子进行聚类,得到设定数量的簇;对于每个簇重新确定其簇中心药物配体分子的三维指纹,即确定代表性配体分子特征。并且确定簇中心药物配体分子的三维指纹,具体是将簇中心药物配体分子的三维指纹确定为每一维上0和1中计数多的那一个值。示例性的,参见表2,表2为簇中心药物配体分子的三维指纹确定表。
表2 簇中心药物配体分子的三维指纹确定表
A 1 0 1 1 0 0 1
B 1 0 0 0 1 1 0
C 1 1 1 0 0 0 0
簇中心 1 0 1 0 0 0 0
表中所示的簇中包括三个药物配体分子A、B和C,每一列对应元素中1的数量较多,则簇中心药物配体分子相对应位置的元素设置为1,否则簇中心药物配体分子相应位置的元素设置为0。
步骤202、根据第二药物配体分子数据集中各药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定第二药物配体分子数据集中各药物配体分子的特征数据。
其中,第二药物配体分子数据集可以为预先采集的包括多个已知药物靶点的药物配体分子的数据集,具体数量可以尽可能多,本公开实施例中不作限定。本公开实施例中,第二药物配体分子数据集与上述第一药物配体分子数据集的数据是不同的。
本公开实施例中,根据第二药物配体分子数据集中各药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定第二药物配体分子数据集中各药物配体分子的特征数据,可以包括:确定第二药物配体分子数据集中每个药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度;基于三维指纹相似度构建多维相似度特征矩阵,将多维相似度特征矩阵确定为第二药物配体分子数据集中各药物配体分子的特征数据。
获取第二药物配体分子数据集之后,可以计算该第二药物配体分子数据集中每个药物配体分子与设定数量的代表性配体分子特征的三维指纹的相似度,将得到的设定数量的三维指纹相似度形成特征矩阵,得到多维相似度特征矩阵。每个药物配体分子的多维相似度特征矩阵即为对应的特征数据,该特征数据的维数是设定数量。
示例性的,假设药物配体分子为A,代表性配体分子特征的设定数量为N,A与N个代表性配体分子特征的三维指纹相似度可以分别用T1,T2,…,TN进行表示,则A的特征数据为{T1,T2,…,TN},维度为N维。
步骤203、将第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为药物靶点预测算法的样本数据库。
其中,药物靶点是药物与机体生物大分子作用而产生药理学作用并达到防治疾病目的的由生物分子形成的特殊位点,药物靶点可以包括基因位点、受体、酶、离子通道、核酸等生物大分子。药物靶点是细胞信号传导中的重要蛋白质,在人类视觉、嗅觉、味觉以及神经传递等各项正常生理活动和疾病过程中都发挥着重要的作用,是药物发挥作用的基础,在新药筛选中具有十分重要的意义。
本公开实施例中,第二药物配体分子数据集中的各药物配体分子的药物靶点是预先确定的,在确定各药物配体分子的特征数据之后,可以将该二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为药物靶点预测算法的样本数据库,对药物靶点预测算法进行优化和学习,以得到记录了学习好的参数的药物靶点预测算法。
可选的,本公开实施例中的药物配体分子支持cdx、mol、sdf和smiles中的至少一种格式的文件。
步骤204、获取待预测药物配体分子。
步骤205、根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定待预测药物配体分子的特征数据。
步骤206、采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理,得到待预测药物配体分子的药物靶点。
其中,药物靶点预测算法为上述基于样本数据库学习好的参数的预测算法,即为已经训练好的药物靶点预测模型。
本公开实施例提供的药物靶点预测方案,根据三维指纹对第一药物配体分子数据集进行聚类,确定设定数量的代表性配体分子特征,根据第二药物配体分子数据集中各药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定第二药物配体分子数据集中各药物配体分子的特征数据,将第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为药物靶点预测算法的样本数据库,获取待预测药物配体分子,根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定待预测药物配体分子的特征数据,采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理,得到待预测药物配体分子的药物靶点。采用上述技术方案,根据三维指纹通过聚类可以确定多个代表性配体分子特征,进而可以基于多个代表性配体分子特征得到样本数据库中各药物配体分子的特征数据,使得样本数据库中的特征数据的信息更加全面以及维度降低,并且通过聚类降低了特征数据的维度,进而使得采用该特征数据得到的药物靶点预测算法更加准确,并且采用所得到的算法进行数据处理,进而实现药物靶点预测时,准确率和效率更高。
图3为本公开实施例提供的一种药物靶点预测装置的结构示意图,该装置可由软件和/或硬件实现,一般可集成在电子设备中,可通过执行药物靶点预测方法来进行药物配体分析的靶点预测。如图3所示,该装置包括:
待预测数据获取模块301,用于获取待预测药物配体分子;
待预测特征确定模块302,根据所述待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定所述待预测药物配体分子的特征数据;
数据处理模块303,用于采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理,得到所述待预测药物配体分子的药物靶点,其中,所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定。
本公开实施例提供的药物靶点预测装置,获取待预测药物配体分子,根据待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定待预测药物配体分子的特征数据,采用药物靶点预测算法对待预测药物配体分子的特征数据进行数据处理,得到待预测药物配体分子的药物靶点,其中,药物靶点预测算法对应的样本数据库基于药物配体分子与设定数量的代表性配体分子特征的三维指纹相似度确定。采用上述技术方案,根据药物配体分子与代表性配体分子特征之间的三维指纹相似度关系确定特征数据,进而采用药物靶点预测算法进行数据处理得到药物靶点,特征数据的信息更加全面以及维度降低,并且由于药物靶点预测算法的样本数据库基于多个代表性配体分子特征得到,使得采用该药物靶点预测算法进行药物靶点预测时,准确率和效率更高。
可选的,所述数据处理模块303包括样本数据库确定单元,具体包括:
聚类子单元,用于根据三维指纹对第一药物配体分子数据集进行聚类,确定设定数量的代表性配体分子特征;
特征数据确定子单元,根据第二药物配体分子数据集中各药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定所述第二药物配体分子数据集中各药物配体分子的特征数据;
样本数据库子单元,用于将所述第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为所述药物靶点预测算法的样本数据库。
可选的,所述聚类子单元具体用于:
提取所述第一药物配体分子数据集中各药物配体分子的三维指纹;
采用K均值聚类算法基于三维指纹对所述第一药物配体分子数据集中的各药物配体分子进行聚类,确定设定数量的代表性配体分子特征。
可选的,所述K均值聚类算法为基于Tanimoto相似度的K均值聚类算法。
可选的,所述聚类子单元具体用于:
采用扩展三维指纹算法,根据分子力场对第一药物配体分子数据集中各药物配体分子的分子结构进行分析,生成三维指纹。
可选的,所述特征数据确定子单元具体用于:
确定所述第二药物配体分子数据集中每个药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度;
基于所述三维指纹相似度构建多维相似度特征矩阵,将所述多维相似度特征矩阵确定为所述第二药物配体分子数据集中各药物配体分子的特征数据。
可选的,所述药物靶点预测算法的损失函数采用Focal损失函数,所述药物靶点预测算法的评价指标包括工作特征曲线下面积、混淆矩阵、准确率和回归率中的至少一个。
本公开实施例所提供的药物靶点预测装置可执行本发明任意实施例所提供的药物靶点预测方法,具备执行方法相应的功能模块和有益效果。
图4为本公开实施例提供的一种电子设备的结构示意图。如图4所示,电子设备400包括一个或多个处理器401和存储器402。
处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备400中的其他组件以执行期望的功能。
存储器402可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行所述程序指令,以实现上文所述的本公开的实施例的药物靶点预测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备400还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置403还可以包括例如键盘、鼠标等等。
该输出装置404可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备400中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备400还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的药物靶点预测方法。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的药物靶点预测方法。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种药物靶点预测方法,其特征在于,包括:
获取待预测药物配体分子;
根据所述待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定所述待预测药物配体分子的特征数据;
采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理,得到所述待预测药物配体分子的药物靶点,其中,所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定;
确定所述药物靶点预测算法对应的样本数据库,包括:
根据三维指纹对第一药物配体分子数据集进行聚类,确定设定数量的代表性配体分子特征;
根据第二药物配体分子数据集中各药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定所述第二药物配体分子数据集中各药物配体分子的特征数据;
将所述第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为所述药物靶点预测算法的样本数据库。
2.根据权利要求1所述的药物靶点预测方法,其特征在于,所述根据三维指纹对第一药物配体分子数据集进行聚类,确定设定数量的代表性配体分子特征,包括:
提取所述第一药物配体分子数据集中各药物配体分子的三维指纹;
采用K均值聚类算法基于三维指纹对所述第一药物配体分子数据集中的各药物配体分子进行聚类,确定设定数量的代表性配体分子特征。
3.根据权利要求2所述的药物靶点预测方法,其特征在于,所述K均值聚类算法为基于Tanimoto相似度的K均值聚类算法。
4.根据权利要求2所述的药物靶点预测方法,其特征在于,所述提取所述第一药物配体分子数据集中各药物配体分子的三维指纹,包括:
采用扩展三维指纹算法,根据分子力场对第一药物配体分子数据集中各药物配体分子的分子结构进行分析,生成三维指纹。
5.根据权利要求1所述的药物靶点预测方法,其特征在于,所述根据第二药物配体分子数据集中各药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定所述第二药物配体分子数据集中各药物配体分子的特征数据,包括:
确定所述第二药物配体分子数据集中每个药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度;
基于所述三维指纹相似度构建多维相似度特征矩阵,将所述多维相似度特征矩阵确定为所述第二药物配体分子数据集中各药物配体分子的特征数据。
6.根据权利要求1所述的药物靶点预测方法,其特征在于,所述药物靶点预测算法的损失函数采用Focal损失函数,所述药物靶点预测算法的评价指标包括工作特征曲线下面积、混淆矩阵、准确率和回归率中的至少一个。
7.一种药物靶点预测装置,其特征在于,包括:
待预测数据获取模块,用于获取待预测药物配体分子;
待预测特征确定模块,根据所述待预测药物配体分子与设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定所述待预测药物配体分子的特征数据;
数据处理模块,用于采用药物靶点预测算法对所述待预测药物配体分子的特征数据进行数据处理,得到所述待预测药物配体分子的药物靶点,其中,所述药物靶点预测算法对应的样本数据库基于药物配体分子与所述设定数量的代表性配体分子特征的三维指纹相似度确定;
所述数据处理模块包括样本数据库确定单元,具体包括:聚类子单元,用于根据三维指纹对第一药物配体分子数据集进行聚类,确定设定数量的代表性配体分子特征;特征数据确定子单元,根据第二药物配体分子数据集中各药物配体分子与所述设定数量的代表性配体分子特征之间的三维指纹相似度关系,确定所述第二药物配体分子数据集中各药物配体分子的特征数据;样本数据库子单元,用于将所述第二药物配体分子数据集中各药物配体分子的特征数据和药物靶点确定为所述药物靶点预测算法的样本数据库。
8.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-6中任一所述的药物靶点预测方法。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-6中任一所述的药物靶点预测方法。
CN202010594103.0A 2020-06-28 2020-06-28 一种药物靶点预测方法、装置、设备及介质 Active CN111477287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010594103.0A CN111477287B (zh) 2020-06-28 2020-06-28 一种药物靶点预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010594103.0A CN111477287B (zh) 2020-06-28 2020-06-28 一种药物靶点预测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN111477287A CN111477287A (zh) 2020-07-31
CN111477287B true CN111477287B (zh) 2020-11-20

Family

ID=71764012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010594103.0A Active CN111477287B (zh) 2020-06-28 2020-06-28 一种药物靶点预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111477287B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133367B (zh) * 2020-08-17 2024-07-12 中南大学 药物与靶点间的相互作用关系预测方法及装置
CN114388061B (zh) * 2022-01-13 2024-09-20 水木未来(北京)科技有限公司 靶点评估方法及装置、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663214B (zh) * 2012-05-09 2013-11-06 四川大学 一种集成药物靶标预测系统的构建和预测方法
US10262107B1 (en) * 2013-03-15 2019-04-16 Bao Tran Pharmacogenetic drug interaction management system
CN106777986B (zh) * 2016-12-19 2019-05-21 南京邮电大学 药物筛选中基于深度哈希的配体分子指纹生成方法
CN108399316A (zh) * 2018-03-02 2018-08-14 南京邮电大学 药物设计中配体分子特征筛选装置和筛选方法

Also Published As

Publication number Publication date
CN111477287A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
Karim et al. Drug-drug interaction prediction based on knowledge graph embeddings and convolutional-LSTM network
Kamal et al. A MapReduce approach to diminish imbalance parameters for big deoxyribonucleic acid dataset
Liao et al. Gene selection using locality sensitive Laplacian score
US20080195570A1 (en) System and Method for Collecting Evidence Pertaining to Relationships Between Biomolecules and Diseases
Gu et al. cola: an R/Bioconductor package for consensus partitioning through a general framework
CN109817339B (zh) 基于大数据的患者分组方法和装置
Shukla et al. Detecting biomarkers from microarray data using distributed correlation based gene selection
CN111477287B (zh) 一种药物靶点预测方法、装置、设备及介质
Chiu et al. Interpolation based consensus clustering for gene expression time series
Zhu et al. DGDFS: Dependence guided discriminative feature selection for predicting adverse drug-drug interaction
Hu et al. Learning from low-rank multimodal representations for predicting disease-drug associations
Vasighizaker et al. Discovering cell types using manifold learning and enhanced visualization of single-cell RNA-Seq data
Shen et al. A novel algorithm for detecting multiple covariance and clustering of biological sequences
CN112837743B (zh) 一种基于机器学习的药物重定位方法
Huang et al. Study on patient similarity measurement based on electronic medical records
CN112071439B (zh) 药物副作用关系预测方法、系统、计算机设备和存储介质
Hristozov et al. Ligand-based virtual screening by novelty detection with self-organizing maps
US20200301949A1 (en) System and method for determining data patterns using data mining
Acharya et al. Multi-factored gene-gene proximity measures exploiting biological knowledge extracted from gene ontology: application in gene clustering
Zhang et al. Landscape of big medical data: a pragmatic survey on prioritized tasks
Zeng et al. Dimension reduction with redundant gene elimination for tumor classification
Irigoien et al. Diagnosis using clinical/pathological and molecular information
Yuan et al. Partial mixture model for tight clustering of gene expression time-course
Serra et al. Data integration in genomics and systems biology
Tang et al. Discrimination of approved drugs from experimental drugs by learning methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Lei Tao

Inventor after: Qiao Wanglong

Inventor after: Lv Hui

Inventor before: Lei Tao

Inventor before: Lv Hui