CN110689919B - 一种基于结构和等级分类的药物蛋白结合率预测方法及系统 - Google Patents

一种基于结构和等级分类的药物蛋白结合率预测方法及系统 Download PDF

Info

Publication number
CN110689919B
CN110689919B CN201910742202.6A CN201910742202A CN110689919B CN 110689919 B CN110689919 B CN 110689919B CN 201910742202 A CN201910742202 A CN 201910742202A CN 110689919 B CN110689919 B CN 110689919B
Authority
CN
China
Prior art keywords
drug
binding rate
molecular
protein binding
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910742202.6A
Other languages
English (en)
Other versions
CN110689919A (zh
Inventor
相小强
袁雅文
张政
常硕
张彦春
李治纲
蔡卫民
田凌浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201910742202.6A priority Critical patent/CN110689919B/zh
Publication of CN110689919A publication Critical patent/CN110689919A/zh
Application granted granted Critical
Publication of CN110689919B publication Critical patent/CN110689919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medicinal Chemistry (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请涉及一种基于结构和等级分类的药物蛋白结合率预测方法及系统,包括:(1)数据收集,并对收集到PPB数据值进行处理,并去除重复的药物分子;(2)将药物分子的PPB值分为高结合药物、中结合药物、低结合药物三个等级的数据集;(3)计算分子描述符的数据值,并进行相关性筛选,选出与药物蛋白结合率最相关的一组分子描述符;(4)采用机器学习算法,分别建立三个等级的定量预测模型;(5)将药物分子的分子描述符代入对应等级的定量预测模型,对药物分子的蛋白结合率进行预测。本申请可提高高结合药物PPB预测的准确度,解决现有技术中高结合药物PPB预测准确度低的问题。

Description

一种基于结构和等级分类的药物蛋白结合率预测方法及系统
技术领域
本申请属于药物设计技术领域,具体涉及药物蛋白结合率的预测,尤其是涉及一种基于结构和等级分类的药物蛋白结合率预测方法及系统。
背景技术
药物从给药部位吸收进入血液后,一部分与血浆蛋白结合,成为结合型药物,一部分呈游离的分子状态,而药物只有为游离型时才能发挥药效
药物与血浆蛋白的结合不仅对药物在体内的吸收、分布、代谢、排泄过程均有影响,而且与药物的药理作用强度密切相关。因此,研究药物的血浆蛋白结合率不仅有利于知道药物的给药方案设计和安全性评价,而且对于火星成分成药性研究亦具有重要意义。
药物在血浆中不同程度地与血浆蛋白结合,其结合程度能够影响药物的体内过程(ADME),即机体对药物的处置过程,进而影响药物的药效学行为。因此,药物蛋白结合率(PPB)可以作为治疗药物监测及ADME评估的重要参数。
游离药物才能透过细胞膜并与靶点结合,药物与血浆蛋白的结合是一个可逆的过程,处于平衡状态。高血浆蛋白结合可能与药物安全性问题和一些不良反应相关,如低清除率,低脑渗透,药物-药物相互作用,功效丧失,同时通过体内立体选择性结合影响对映体和非对映异构体的命运。药物药代动性质是仅次于毒性导致候选药物临床试验失败的原因。在90年代末出现了基于药物相似性和基于性质的药物设计概念以期解决药代动挑战。因此,在整体药物设计方法中,认为药代性质与靶点亲和力同样重要,大量的研究聚焦于PPB预测。
随着信息技术的发展,很多文献报道了预测血浆蛋白结合率的方法,主要包括基于配体以及基于结构进行预测,采用单一机器学习算法进行预测,大部分方法在高结合药物部分准确度较低,相对低中结合而言,在体内易发生相互作用以及不良反应主要集中于高结合药物。
发明内容
本发明要解决的技术问题是:解决高结合药物预测准确度低的问题。
为解决该技术问题,本发明提供了一种基于结构和等级分类的药物蛋白结合率预测方法,可以提高高结合药物预测准确度,减少新药设计研发风险,增加预测方法应用性。
本发明解决其技术问题所采用的技术方案是:一种基于结构和等级分类的药物蛋白结合率预测方法,包括如下步骤:
(1)收集不同药物分子的蛋白结合率数据值以及相应的结构编码,并对收集的药物分子的蛋白结合率数据值进行处理,去除重复的药物分子;
(2)根据步骤(1)得到的药物分子的蛋白结合率数据值分为三个等级的数据集,即:高结合药物数据集、中结合药物数据集和低结合药物数据集,并将三个等级的数据集分别划分训练集和测试集;
(3)计算药物分子的分子描述符的数据值,用所述的分子描述符编码分子结构,同时对分子描述符进行相关性筛选,筛选出与药物蛋白结合率最相关的一组分子描述符;
(4)根据步骤(3)得到的分子描述符,采用机器学习算法,分别建立三个等级的定量预测模型;
(5)当对某一药物的药物蛋白结合率进行预测时,首先根据其分子描述符参数判断药物蛋白结合率等级,并将所述分子描述符参数代入对应等级的定量预测模型对药物蛋白结合率进行预测。
进一步优化地,根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法,步骤(2)中,当PPB≥0.8时,为高结合药物;当0.4≤PPB≤0.8时,为中结合药物;当PPB<0.4时,为低结合药物。
进一步优化地,根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法,步骤(3)中,采用PaDEL-Descriptor软件计算分子描述符。
进一步优化地,根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法,步骤(4)中,采用多种机器学习算法建立定量预测模型,同时对各定量预测模型的预测结果进行平均,得到平均共识模型。
进一步优化地,根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法,所述的机器学习算法包括随机森林、提升树,k-最近邻居,支持向量回归和梯度提升回归。
进一步优化地,根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法,步骤(4)中,将三个等级的数据集分别按8:2的比例划分为训练集以及测试集。
进一步优化地,根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法,步骤(1)中,对药物分子蛋白结合率数据值进行处理的方法为:
(a)对收集的药物分子的蛋白结合率数据值进行处理,对蛋白结合率数据值属于一个数值范围的药物分子,确定一个固定值的蛋白结合率;
(b)根据药物分子的命名,结构编码以及性质,对重复的药物分子进行排查;
(c)对药物分子结构进行简单的处理。
进一步优化地,根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法,(a)中,若收集的蛋白结合率数据值在一个数值区间内,则取该数值区间的均值作为药物分子的蛋白结合率数据值;
若收集的蛋白结合率大于或小于定值,如果有更可靠的数据来源,则选择更可靠来源的数据值作为药物分子的蛋白结合率数据值,如果没有,则取该定值。
进一步优化地,根据本发明提供的基于结构和等级分类的药物蛋白结合率预测方法,(b)中,对重复的药物分子进行排查的方法为:重复的药物分子中,PPB值相同的,去除重复的即可;PPB值不同的,进行比较后,取来源更可靠的。
本申请还提供了一种药物蛋白结合率预测系统,所述药物蛋白结合率预测系统包括:
数据处理模块,用于对收集得到的药物分子的蛋白结合率数据值进行处理,去除重复的药物分子;
等级划分模块,用于将药物分子的蛋白结合率数据值分为三个等级的数据集,即:高结合药物数据集、中结合药物数据集和低结合药物数据集;
分子描述符计算模块,用于计算分子描述符的数据值,并进行相关性筛选,选出与药物蛋白结合率最相关的一组分子描述符;
建模模块,用于采用机器学习算法,分别建立三个等级的定量预测模型;
预测模块,用于将药物分子的分子描述符代入对应等级的定量预测模型,对药物分子的蛋白结合率进行预测。
本发明的有益效果是:可以提高高结合药物预测准确度,减少新药设计研发风险,增加预测方法应用性。
附图说明
下面结合附图和实施例对本申请的技术方案进一步说明。
图1是本申请实施例预测方法流程图;
图2a、图2b和图2c分别是根据ADMET Predictor软件、PaDEL-Descriptor软件和Dragon软件计算的分子描述符进行PPB预测的标准误差分布图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本申请的技术方案。
实施例
本实施例提供一种基于结构和等级分类的药物蛋白结合率预测方法,如图1所示,包括:
步骤1,数据的收集和处理:
(1)通过查阅文献和数据库,共收集了12646个药物分子的蛋白结合率(PPB)数据值以及相应的结构编码。
(2)对收集数据进行处理:
若收集的PPB值在一个数值区间内(例如:0.96~0.97),则取该数值区间的均值作为药物分子的PPB值;若收集的PPB值大于或小于某一个定值(例如:>0.99),如果有更可靠的数据来源,则选择更可靠来源的PPB值作为药物分子的PPB值,如果没有,则取该定值0.99作为药物分子的PPB值。
根据药物分子的命名,结构编码以及性质,对重复的药物分子进行排查,重复的药物分子中,PPB值相同的,去除重复的即可;PPB值不同的,进行比较后,取来源更可靠的。
对药物分子结构进行简单的处理,例如:结构编码中包括盐的去除盐,保留母体化合物,同位素的保留母体化合物,最后,获得了6741个药物分子的PPB值。
步骤2,将PPB值划分等级:
将药物分子的蛋白结合率数据值分为三个等级的数据集,即:高结合药物数据集(H)、中结合药物数据集(M)和低结合药物数据集(L)。
当PPB≥0.8时,划分到高结合药物数据集;当0.4≤PPB≤0.8时,划分到中结合药物数据集;当PPB<0.4时,划分到低结合药物数据集。
将三个等级的数据集分别按8:2的比例划分为训练集和测试集。
步骤3,计算分子描述符
分子描述符是对分子的结构和物理化学属性的定量描述符号,用来表征分子化学结构信息,编码分子结构。
使用Open Babel软件将H、M、L三个等级的数据集的结构编码转化为sdf格式的3D结构集。使用免费软件PaDEL-Descriptor(PD)计算6741个药物分子的分子描述符的取值,共产生1876个分子描述符。
同时也使用了商用软件ADMET Predictor以及Dragon计算6741个药物分子的分子描述符的取值,相应分别产生448和5271个分子描述符。
步骤4,对分子描述符进行相关性分析和筛选:
在步骤5计算得到的分子描述符中,包含字符、数值、非数值、空值和无穷大。对于每个分子描述符,将字符、空值转换为非数值,将较大的数值(包括正无穷大)转换为1000000,将较小的数值(包括负无穷大)转换为-1000000。
计算每个分子描述符上非数值的数量M,如果M/6471>0.2,则认为该分子描述符信息缺失过多,将该分子描述符所有值转换为0;否则,认为该分子描述符缺失的信息是可以接受的,用剩余数值的平均值填充这些缺失的值。
在对血浆蛋白结合率预测时,常量或接近常量的分子描述符对预测没有影响,这些分子描述符是冗余的,将它们去除。对清理后的分子描述符数据产生一个副本集,对该副本集中的每个分子描述符进行归一化,然后计算每个分子描述符的方差V,如果V<0.005,则认为该分子描述符是冗余的,将其去除,最后,由ADMET Predictor软件、PaDEL-Descriptor软件和Dragon软件计算得到的分子描述符分别剩下218、862和2276个。
相关性筛选:在去除常量分子描述符后的数据集中选取20个与PPB预测最相关的分子描述符。这些分子描述符的选取是通过sklearn库的sklearn.feature_selection.f_regression检验函数选取的。
步骤5,去除潜在离群点:
在经过步骤4后,会有部分分子的特征十分相似甚至完全相等,而它们的PPB却相差很大,这显然与QSAR的假设不符。除了这些分子,还有可能有部分分子因为收集的PPB与实际PPB有较大差异,也会与QSAR的假设不符。显然这些分子是离群点,会对预测产生较不好的影响,将它们去除。
通常,这些离群点的预测会有较大误差,利用此特性去除它们。利用随机森林(RF)方法,通过10倍交叉验证,将预测的误差标准化,得到如图2a-图2c所示的标准误差分布,这些分布大致近似标准正态分布。将标准误差的绝对值在2.58以外(正态分布1%的数据)的值认为是离群点,将它们去除。由ADMET Predictor软件计算的描述符、PaDEL-Descriptor软件计算的描述符和Dragon软件计算的描述符构建的模型分别剩下6490、6529和6521个分子。
步骤6,模型建立:
根据步骤(3)得到的分子描述符参数,采用机器学习算法,对三个等级的数据集分别建立基于定量构效关系(Quantitative Structure-Activity,QSAR)的定量预测模型;
作为进一步地优化,为了克服单个模型的局限性,本实施例提出了聚合方案来构建共识模型,即平均共识。分别采用随机森林(RF)和增强树(BT),k-最近邻居(kNN),支持向量回归(SVR)和梯度提升回归(GBR)等机器学习算法建立单个定量预测模型,同时构建平均共识模型:不考虑各机器算法建立的单个定量预测模型的贡献差异,简单地平均单个定量预测模型进行预测,即:平均共识模型预测值=(kNN预测值+SVR预测值+RF预测值+BT预测值+GBR预测值)/5。
步骤7,模型评价
本实施例采用十倍交叉验证(10-CV)策略来校准定量预测模型。评估定量预测模型预测能力的三个参数为:可决系数R2、平均绝对误差MAE和均方根误差RMSE。其中,MAE、RMSE是误差指标,值越小说明预测误差越小,模型越好,R2为相关性指标,越接近1,模型拟合性越好。
R2:提供有关模型拟合优度,在回归中,是回归预测与实际数据点的近似程度的统计度量。描述实际值与预测值的相关性趋势,不是预测误差的直接描述,当数据存在非常大偏离分布时,只分析R2可能会导致模型评价错误。
Figure BDA0002164331470000071
MAE:用于评估预测值与实际值之间的距离。是预测误差的更简单以及更直接的描述。
Figure BDA0002164331470000072
RMSE:也称为预测误差的标准差,也可用于量化模型质量。预测误差直接描述,更关注不利预测,灵敏度高。
Figure BDA0002164331470000073
xi是实际值,yi是预测值,
Figure BDA0002164331470000074
是实际值的平均值,N是化合物的数量。
如表1所示,分别列举了根据PaDEL-Descriptor软件、ADMET Predictor软件、Dragon软件计算得到的描述符参数建立的单个定量预测模型以及平均共识模型的预测能力评价指标。
表1
Figure BDA0002164331470000075
Figure BDA0002164331470000081
步骤8,模型确定:
从表1可以看出,采用PaDEL-Descriptor软件计算的参数与采用ADMETPredictor、Dragon软件计算得到的参数分别建立的模型预测能力相当。由于PaDEL-Descriptor为免费软件,本实施例选择PaDEL–Descriptor计算得到的20个分子描述符。
根据该20个分子描述符,采用机器学习算法,得到三个等级的定量预测模型,分别对应为:高(PPB≥80%),中(40≤PPB<80),低(PPB<40)。
步骤9,药物蛋白结合率预测:
当对某一药物分子的药物蛋白结合率进行预测时,首先根据其分子描述符参数判断药物蛋白结合率等级,并将所述分子描述符参数代入步骤8中得到的对应等级的定量预测模型,对药物蛋白结合率进行预测。
预测系统实施例:
本实施例提供了一种药物蛋白结合率预测系统,所述药物蛋白结合率预测系统包括:
数据处理模块,用于对收集得到的药物分子的蛋白结合率数据值进行处理,去除重复的药物分子;
等级划分模块,用于将药物分子的蛋白结合率数据值分为三个等级的数据集,即:高结合药物数据集、中结合药物数据集和低结合药物数据集;
分子描述符计算模块,用于计算分子描述符的数据值,并进行相关性筛选,选出与药物蛋白结合率最相关的一组分子描述符;
建模模块,用于采用机器学习算法,分别建立三个等级的定量预测模型;
预测模块,用于将药物分子的分子描述符代入对应等级的定量预测模型,对药物分子的蛋白结合率进行预测。
以上述依据本申请的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项申请技术思想的范围内,进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (7)

1.一种基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,所述预测方法包括如下步骤:
(1)收集不同药物分子的蛋白结合率数据值以及相应的结构编码,并对收集的药物分子的蛋白结合率数据值进行处理,去除重复的药物分子;
(2)根据步骤(1)得到的药物分子的蛋白结合率数据值分为三个等级的数据集,即:高结合药物数据集、中结合药物数据集和低结合药物数据集,并将三个等级的数据集分别划分训练集和测试集;
(3)计算药物分子的分子描述符的数据值,用所述的分子描述符编码分子结构,同时对分子描述符进行相关性筛选,筛选出与药物蛋白结合率最相关的一组分子描述符;
(4)根据步骤(3)得到的分子描述符,采用机器学习算法,分别建立三个等级的定量预测模型;
(5)当对某一药物的药物蛋白结合率进行预测时,首先根据其分子描述符参数判断药物蛋白结合率等级,并将所述分子描述符参数代入对应等级的定量预测模型对药物蛋白结合率进行预测;
步骤(2)中,当PPB≥0.8时,划分到高结合药物数据集;当0.4≤PPB≤0.8时,划分到中结合药物数据集;当PPB<0.4时,划分到低结合药物数据集;
步骤(3)中,使用Open Babel软件将H、M、L三个等级的数据集的结构编码转化为sdf格式的3D结构集;
在步骤(3)计算得到的分子描述符中,包含字符、数值、非数值、空值和无穷大;对于每个分子描述符,将字符、空值转换为非数值,将较大的数值转换为1000000,将较小的数值转换为-1000000;
计算每个分子描述符上非数值的数量M,如果M/6471 > 0.2,则认为该分子描述符信息缺失过多,将该分子描述符所有值转换为0;否则,认为该分子描述符缺失的信息是可以接受的,用剩余数值的平均值填充这些缺失的值;
对清理后的分子描述符数据产生一个副本集,对该副本集中的每个分子描述符进行归一化,然后计算每个分子描述符的方差V,如果V < 0.005,则认为该分子描述符是冗余的,将其去除;
如有部分分子的特征相似或完全相等,而且PPB相差很大,则认定这部分分子是离群点,进行去除;
步骤(1)中,对药物分子的蛋白结合率数据值进行处理的方法为:
(a)对收集的药物分子的蛋白结合率数据值进行处理,对蛋白结合率数据值属于一个数值范围的药物分子,确定一个固定值的蛋白结合率;
(b)根据药物分子的命名,结构编码以及性质,对重复的药物分子进行排查;
(c)对药物分子结构进行简单的处理;
(a)中,若收集的蛋白结合率数据值在一个数值区间内,则取该数值区间的均值作为药物分子的蛋白结合率数据值;
若收集的蛋白结合率大于或小于定值,如果有更可靠的数据来源,则选择更可靠来源的数据值作为药物分子的蛋白结合率数据值,如果没有,则取该定值。
2.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,步骤(3)中,采用PaDEL-Descriptor软件计算分子描述符。
3.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,步骤(4)中,采用多种机器学习算法建立定量预测模型,同时对各定量预测模型的预测结果进行平均,得到平均共识模型。
4.根据权利要求3所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,所述的机器学习算法包括随机森林、提升树,k-最近邻居,支持向量回归和梯度提升回归。
5.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,步骤(2)中,将三个等级的数据集分别按8:2的比例划分为训练集以及测试集。
6.根据权利要求1所述的基于结构和等级分类的药物蛋白结合率预测方法,其特征在于,(b)中,对重复的药物分子进行排查的方法为:重复的药物分子中,PPB值相同的,去除重复的即可;PPB值不同的,进行比较后,取来源更可靠的。
7.一种药物蛋白结合率预测系统,其特征在于,能够执行如权利要求1-6任一项所述的基于结构和等级分类的药物蛋白结合率预测方法,
所述药物蛋白结合率预测系统包括:
数据处理模块,用于对收集得到的药物分子的蛋白结合率数据值进行处理,去除重复的药物分子;
等级划分模块,用于将药物分子的蛋白结合率数据值分为三个等级的数据集,即:高结合药物数据集、中结合药物数据集和低结合药物数据集;
分子描述符计算模块,用于计算分子描述符的数据值,并进行相关性筛选,选出与药物蛋白结合率最相关的一组分子描述符;
建模模块,用于采用机器学习算法,分别建立三个等级的定量预测模型;
预测模块,用于将药物分子的分子描述符代入对应等级的定量预测模型,对药物分子的蛋白结合率进行预测。
CN201910742202.6A 2019-08-13 2019-08-13 一种基于结构和等级分类的药物蛋白结合率预测方法及系统 Active CN110689919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910742202.6A CN110689919B (zh) 2019-08-13 2019-08-13 一种基于结构和等级分类的药物蛋白结合率预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910742202.6A CN110689919B (zh) 2019-08-13 2019-08-13 一种基于结构和等级分类的药物蛋白结合率预测方法及系统

Publications (2)

Publication Number Publication Date
CN110689919A CN110689919A (zh) 2020-01-14
CN110689919B true CN110689919B (zh) 2023-03-17

Family

ID=69108183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910742202.6A Active CN110689919B (zh) 2019-08-13 2019-08-13 一种基于结构和等级分类的药物蛋白结合率预测方法及系统

Country Status (1)

Country Link
CN (1) CN110689919B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628697A (zh) * 2021-07-28 2021-11-09 上海基绪康生物科技有限公司 一种针对分类不平衡数据优化的随机森林模型训练方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1939348A (zh) * 2006-09-22 2007-04-04 中国药科大学 一种中药有效成分的筛选方法
CN102930179A (zh) * 2012-11-07 2013-02-13 景德镇陶瓷学院 基于复杂度和分子指纹的药物-靶标结合预测方法
WO2015168774A1 (en) * 2014-05-05 2015-11-12 Chematria Inc. Binding affinity prediction system and method
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146278B2 (en) * 2001-07-31 2006-12-05 Accelrys Software Inc. Method of selecting marker molecules for prediction of molecular activity
US20050278124A1 (en) * 2004-06-14 2005-12-15 Duffy Nigel P Methods for molecular property modeling using virtual data
CN102930169B (zh) * 2012-11-07 2015-04-01 景德镇陶瓷学院 基于灰色理论和分子指纹的药物-靶标结合预测方法
CN103473416B (zh) * 2013-09-13 2016-06-29 中国人民解放军国防科学技术大学 蛋白质相互作用的模型建立方法和装置
US11932898B2 (en) * 2016-07-29 2024-03-19 University Of Miami Precision therapeutic biomarker screening for cancer
CN106709272B (zh) * 2016-12-26 2019-07-02 西安石油大学 基于决策模板预测药物靶蛋白相互作用关系的方法和系统
US10546237B2 (en) * 2017-03-30 2020-01-28 Atomwise Inc. Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel
CN106960131A (zh) * 2017-05-05 2017-07-18 华东师范大学 一种基于多特征融合的药物副作用预测方法
CN107481048A (zh) * 2017-08-08 2017-12-15 哈尔滨工业大学深圳研究生院 一种基于混合模型的金融品种价格预测方法及系统
CN109033738B (zh) * 2018-07-09 2022-01-11 湖南大学 一种基于深度学习的药物活性预测方法
CN109492709B (zh) * 2018-12-06 2020-11-06 新奥数能科技有限公司 基于混合模型的数据预测方法及装置
CN109887541A (zh) * 2019-02-15 2019-06-14 张海平 一种靶点蛋白质与小分子结合预测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1939348A (zh) * 2006-09-22 2007-04-04 中国药科大学 一种中药有效成分的筛选方法
CN102930179A (zh) * 2012-11-07 2013-02-13 景德镇陶瓷学院 基于复杂度和分子指纹的药物-靶标结合预测方法
WO2015168774A1 (en) * 2014-05-05 2015-11-12 Chematria Inc. Binding affinity prediction system and method
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法

Also Published As

Publication number Publication date
CN110689919A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
Blaschke et al. Memory-assisted reinforcement learning for diverse molecular de novo design
Li et al. Machine‐learning scoring functions for structure‐based drug lead optimization
Caudai et al. AI applications in functional genomics
CN109887540A (zh) 一种基于异构网络嵌入的药物靶标相互作用预测方法
Vlasblom et al. Markov clustering versus affinity propagation for the partitioning of protein interaction graphs
Li et al. Predicting protein-ligand interactions based on bow-pharmacological space and Bayesian additive regression trees
Lewis et al. Modern 2D QSAR for drug discovery
CN114333986A (zh) 模型训练、药物筛选和亲和力预测的方法与装置
US20240055071A1 (en) Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product
Lin et al. Clustering methods in protein-protein interaction network
CN114822717A (zh) 基于人工智能的药物分子处理方法、装置、设备及存储介质
CN113470741A (zh) 药物靶标关系预测方法、装置、计算机设备及存储介质
CN114187979A (zh) 数据处理、模型训练、分子预测和筛选方法及其装置
KR102228552B1 (ko) 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법
EP4035163A1 (en) Single cell rna-seq data processing
CN114187980A (zh) 模型训练方法、模型预测方法、分子筛选方法及其装置
CN110689919B (zh) 一种基于结构和等级分类的药物蛋白结合率预测方法及系统
Xu et al. A systematic review of computational methods for predicting long noncoding RNAs
KR101090892B1 (ko) 약물의 2차 대사반응의 효소 선택성 예측에 관한 정보제공방법
Zankov et al. Chemical complexity challenge: Is multi‐instance machine learning a solution?
Myatt et al. In silico solutions for predicting efficacy and toxicity
JP2023547571A (ja) アクティブラーニングによる薬剤の最適化
CN111383708B (zh) 基于化学基因组学的小分子靶标预测算法及其应用
Linghu et al. Construction of functional linkage gene networks by data integration
WO2024125564A1 (zh) 一种用于药敏预测模型样本构建的方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant