CN115240781A - 药物分子特征属性的预测方法及预测装置 - Google Patents
药物分子特征属性的预测方法及预测装置 Download PDFInfo
- Publication number
- CN115240781A CN115240781A CN202110442039.9A CN202110442039A CN115240781A CN 115240781 A CN115240781 A CN 115240781A CN 202110442039 A CN202110442039 A CN 202110442039A CN 115240781 A CN115240781 A CN 115240781A
- Authority
- CN
- China
- Prior art keywords
- prediction
- training
- final
- training sample
- molecular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 67
- 229940079593 drug Drugs 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 144
- 238000007781 pre-processing Methods 0.000 claims abstract description 26
- 238000010586 diagram Methods 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000011156 evaluation Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 6
- 230000009193 crawling Effects 0.000 description 5
- 238000009509 drug development Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 231100000419 toxicity Toxicity 0.000 description 4
- 230000001988 toxicity Effects 0.000 description 4
- 208000008964 Chemical and Drug Induced Liver Injury Diseases 0.000 description 3
- 206010072268 Drug-induced liver injury Diseases 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 238000009510 drug design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 150000003384 small molecules Chemical class 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 206010019851 Hepatotoxicity Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000029142 excretion Effects 0.000 description 2
- 231100000304 hepatotoxicity Toxicity 0.000 description 2
- 230000007686 hepatotoxicity Effects 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 230000004060 metabolic process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000035495 ADMET Effects 0.000 description 1
- 102000004506 Blood Proteins Human genes 0.000 description 1
- 108010017384 Blood Proteins Proteins 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 102000003886 Glycoproteins Human genes 0.000 description 1
- 108090000288 Glycoproteins Proteins 0.000 description 1
- 102000004895 Lipoproteins Human genes 0.000 description 1
- 108090001030 Lipoproteins Proteins 0.000 description 1
- 238000002902 MACCS key Methods 0.000 description 1
- 239000000370 acceptor Substances 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000007059 acute toxicity Effects 0.000 description 1
- 231100000403 acute toxicity Toxicity 0.000 description 1
- 238000010535 acyclic diene metathesis reaction Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008499 blood brain barrier function Effects 0.000 description 1
- 210000001218 blood-brain barrier Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 238000007877 drug screening Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
- 231100000048 toxicity data Toxicity 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/60—In silico combinatorial chemistry
- G16C20/64—Screening of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Medicinal Chemistry (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Pharmacology & Pharmacy (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种药物分子特征属性的预测方法及预测装置。所述预测方法包括:构建原始药物分子属性数据集;对原始药物分子属性数据集进行预处理,获得训练样本,训练样本包括分子指纹、分子图结构信息和分子特征属性值;以分子指纹和分子图结构信息作为输入,以分子特征属性作为输出,建立一个多输入预测模型,利用训练样本对预先构建的多输入预测模型进行训练,得到最终预测模型;将新获取的分子属性数据输入到最终预测模型,得到分子特征属性预测值。该训练样本充分考虑了药物小分子的空间几何特征和物理化学特征,该最终预测模型能有效地预测分子特征属性值,且具有较高的准确率。
Description
技术领域
本发明属于计算机在药物设计以及药物开发早期的应用技术领域,具体地讲,涉及一种药物分子特征属性的预测方法及预测装置、计算机可读存储介质、计算机设备。
背景技术
在药物发现中,临床候选化合物分子必须满足一组不同的标准。除了对生物靶标有效效力外,该化合物应对不针对的靶标具有相当的选择性,并且具有良好的物理化学和ADMET特性(吸收、分布、代谢、排泄和毒性特性)。因此,化合物优化是一个多维度的挑战。在药物设计以及药物开发早期就开展药物分子属性研究,有利于提高药物研发的成功率,降低新药开发的成本,有助于获得安全,有效的治疗药物。与传统药物筛选需要进行大量活体实验和检测相比,利用计算机模拟方法能够更加快速有效的对新的具有潜在药用价值的分子属性进行预测。
其中,一些机器学习技术已经被成功应用于药物分子设计领域,但是使用机器学习(尤其是深度学习)预测分子和材料的性质仍处于起步阶段,迄今为止,大多数将机器学习应用于化学任务的研究都围绕特征工程展开,并没有将深度学习技术应用在药物分子特征属性的预测领域上。
发明内容
(一)本发明所要解决的技术问题
本发明解决的技术问题是:如何利用深度学习技术提高药物分子特征属性的预测准确率,以节省药物研发的时间和经济成本。
(二)本发明所采用的技术方案
一种药物分子特征属性的预测方法,所述预测方法包括:
构建原始药物分子属性数据集;
对所述原始药物分子属性数据集进行预处理,获得训练样本,所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值;
利用训练样本对预先构建的多输入预测模型进行训练,得到最终预测模型;
将新获取的分子属性数据输入到所述最终预测模型,得到分子特征属性预测值。
优选地,所述原始药物分子属性数据集包括离散型数据集和连续型数据集,对所述原始药物分子属性数据集进行预处理,获得训练样本的方法包括:
对所述离散型数据集进行预处理,获得第一训练样本;
对所述连续型数据集进行预处理,获得第二训练样本,其中第一训练样本和第二训练样本均包括分子指纹、分子图结构信息和分子特征属性值。
优选地,预先构建的多输入预测模型包括分类预测子模型和回归预测子模型,利用训练样本对预先构建的多输入预测模型进行训练,得到最终预测模型的方法包括:
利用所述第一训练样本对所述分类预测子模型进行训练,得到最终的分类预测子模型,利用第二训练样本对所述回归预测子模型进行训练,得到最终的回归预测子模型,最终的分类预测子模型和最终的回归预测子模型构成最终预测模型。
优选地,所述分类预测子模型和所述回归预测子模型均包括序列预测网络、图神经网络、多层感知机,所述多层感知机连接所述序列预测网络和所述图神经网络,其中所述分子指纹用作序列预测网络的输入,所述分子图结构信息用作所述图神经网络的输入,所述分子特征属性值用作所述多输入预测模型的输出。
优选地,所述对所述离散型数据集进行预处理,获得第一训练样本的方法包括:
对离散型数据集进行聚类处理,对每种类别的样本进行筛选,获得均衡比例类别样本数组成第一训练样本。
优选地,所述分类预测子模型和所述回归预测子模型的数量均为多个,所述第一训练样本和所述第二训练样本的属性为多种,所述预测方法还包括:
利用不同属性的第一训练样本一一对应地分别训练不同的分类预测子模型,得到若干个最终的分类预测子模型;
利用不同属性的第二训练样本一一对应地分别训练不同的回归预测子模型,得到若干个最终的回归预测子模型,若干个最终的分类预测子模型和若干个最终的回归预测子模型构成最终预测模型。
优选地,所述预测方法还包括:
在利用每一种属性的第二训练样本对所述回归预测子模型进行训练,得到每个最终的回归预测子模型之后,判断所述最终的回归预测子模型的属性预测值是否达到预定值;
若是,则保留所述最终的回归预测子模型;若否,则删除所述最终的回归预测子模型,并且利用所述属性的第二训练样本对新的分类预测子模型进行训练,得到新的最终的分类预测模型。
优选地,所述序列预测网络的种类为多种,所述图神经网络的种类为多种,多输入预测模型的数量为多个,不同的多输入预测模型包括不同组合的序列预测网络和图神经网络,所述预测方法还包括:
利用训练样本对预先构建的多个不同的多输入预测模型进行训练,得到多个待评估的预测模型;
利用评估函数对多个待评估的预测模型进行评估,得到最终预测模型。
本申请还公开了一种药物分子特征属性的预测装置,所述预测装置包括:
构建单元,用于构建原始药物分子属性数据集;
预处理单元,用于对所述原始药物分子属性数据集进行预处理,获得训练样本,所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值;
训练单元,用于利用训练样本对预先构建的多输入预测模型进行训练,得到最终预测模型;
预测单元,用于将新获取的分子属性数据输入到所述最终预测模型,得到分子特征属性预测值。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有药物分子特征属性的预测程序,所述药物分子特征属性的预测程序被处理器执行时实现上述的药物分子特征属性的预测方法。
(三)有益效果
本发明公开了一种药物分子特征属性的预测方法,相对于传统的预测方法,具有如下技术效果:
通过对原始药物分子属性数据集进行处理,获得包含分子指纹、分子图结构信息和分子特征属性值的训练样本,该训练样本充分考虑了药物小分子的空间几何特征和物理化学特征,利用训练样本训练预测模型,得到最终预测模型,该最终预测模型能有效地预测分子特征属性值,且具有较高的准确率。
附图说明
图1为本发明的实施例一的药物分子特征属性的预测方法的流程图;
图2为本发明的实施例一的分类预测子模型和回归预测子模型的原理框图;
图3为本发明的实施例一的药物分子特征属性的预测装置示意图;
图4为本发明的实施例四的计算机设备示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在详细描述本申请的各个实施例之前,首先简单描述本申请的发明构思:现有技术中,并没有将深度学习应用于药物分子特征属性预测领域,并不能很好地提高预测准确率和节省研发成本,本申请提供了一种预测方法,对原始药物分子属性数据集进行预处理得到训练样本,利用训练样本对若干个预先构建的预测模型分别进行训练,得到最终预测模型,利用最终预测模型预测新获取的分子的分子特征属性预测值。其中,训练样本包括分子指纹、分子图结构信息,充分考虑了分子的空间几何特征和物理化学特征。
如图1所示,本实施例一的药物分子特征属性的预测方法包括如下步骤:
步骤S10:构建原始药物分子属性数据集;
步骤S20:对所述原始药物分子属性数据集进行预处理,获得训练样本,所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值;
步骤S30:利用训练样本对预先构建的多输入预测模型进行训练,最终预测模型;
步骤S40:将新获取的分子属性数据输入到所述最终预测模型,得到分子特征属性预测值。
具体地,步骤S10中构建原始药物分子属性数据集有两种途径,一种是从已有文献获取,另一种是从数据库爬取。示例性地,本实施例的药物分子特征属性为admet属性(药物的吸收、分配、代谢、排泄和毒性属性),admet属性包括:血脑屏障透过率(BBB)、突变型(AMES)、糖蛋白基质(Pgp-substrate)、人体清除率Human clearance、口服吸收度oralobsorption、水溶性(solubility)、hERG阻断剂、毒性(toxicity)、人类肝毒性(HumanHepatotoxicity)、急毒性LD50(LD50 of acute toxicity)、药物性肝损伤DILI(DrugInduced Liver Injury)、半衰期T 1/2(Half Life)、脂蛋白结合PPB(Plasma ProteinBinding)、口服利用度F(20%Bioavailability)、油水分布系数LogP(DistributionCoefficient P),PH=7.4时的油水分布系数LogD(Distribution Coefficient D at PH=7.4)。从化学数据库中爬取数据,针对ChemIDPlus数据库数据的爬取提出了一个新的爬取方法:下载ChemIDPlus数据库的ChemIDPlus.xml文件获取分子相关信息RN/CAS编号;根据毒性数据网页格式,爬取每个分子的json文档,利用爬取的json文档获取分子毒性信息,然后再利用分子RN/CAS编号爬取分子的SMILES信息,从而形成原始药物分子属性数据集。
进一步地,在步骤S20中,首先对原始药物分子属性数据集进行数据探索,针对分子特征属性值的不同,将原始药物分子属性数据集划分为离散型数据集和连续型数据集,对所述原始药物分子属性数据集进行预处理,获得训练样本的方法包括:对所述离散型数据集进行预处理,获得第一训练样本;对所述连续型数据集进行预处理,获得第二训练样本,其中第一训练样本和第二训练样本均包括分子指纹、分子图结构信息和分子特征属性值。
其中,预处理包括转换文件格式,将分子质量高的数据删除,保留500g/mol以下的数据。进一步地,利于rdkit、DGL等工具提取原始药物分子属性数据集中的分子指纹以及分子图结构信息,示例性地,分子指纹的类型包括PubChem、MACCS key、ECFP4、FCFP4等。根据提取到的原子的特征(原子的质量、极性表面积、分子油脂分配系数、类药性评估、氢键受体数量、氢键供体数量、电荷数、苯环、原子的类型和度数)、原子键之间的邻接矩阵、原子之间的三维距离矩阵,最终获得一个可被计算机处理的携带分子信息的分子图结构信息作为训练数据输入,充分考虑小分子的空间几何特征、物理化学特征、分子指纹信息。
在另一实施方式中,在对所述离散型数据集进行预处理时,对离散型数据集中各种类别的分子样本进行聚类处理,从不同类别的分子样本中筛选出相同数量的样本共同构成第一训练样本,这样同一属性的各个类别的分子样本量为1:1,以解决样本分类不均匀导致的模型拟合效果存在一定的偏向性,不具备泛化能力。
进一步地,在步骤S30中,每个预先构建的多输入预测模型包括分类预测子模型和回归预测子模型,利用训练样本对预先构建的多输入预测模型进行训练,得到最终预测模型的方法包括:利用所述第一训练样本对所述分类预测子模型进行训练,得到最终的分类预测子模型,利用第二训练样本对所述回归预测子模型进行训练,得到最终的回归预测子模型,最终的分类预测子模型和最终的回归预测子模型构成最终预测模型。其中,如图2所示,所述分类预测子模型和所述回归预测子模型均包括序列预测网络、图神经网络、多层感知机,所述多层感知机连接所述序列预测网络和所述图神经网络,所述分子指纹用作序列预测网络的输入,所述分子图结构信息用作所述图神经网络的输入,所述分子特征属性值用作整个入预测模型模型的输出。其中,分类预测子模型的损失函数为MSELoss,回归预测子模型的损失函数为SmoothL1Loss。分类预测子模型和回归预测子模型的训练过程均为现有技术,在此不进行赘述。其中,为了加快模型训练的效率以及模型的过拟合问题,在训练过程中,采用早停策略,即对某一属性类型的训练样本,如果训练过程中损失函数在30个epoch之内不再降低则停止训练,并保留最后20个训练模型,利用保留的最后20个训练多个模型的超参数加权平均值作为最终预测模型,可增强模型的鲁棒性和准确率。30个epoch和20个训练模型仅作为示例,具体的数量可根据实际情况进行调整。
在另一实施例中,所述分类预测子模型和所述回归预测子模型的数量均为多个,所述第一训练样本和所述第二训练样本的属性为多种,即每种属性类型的分子对应一种训练样本,每种属性类型的分子对应一个分类预测子模型或者回归预测子模型。利用不同属性的第一训练样本一一对应地分别训练不同的分类预测子模型,得到若干个最终的分类预测子模型;利用不同属性的第二训练样本一一对应地分别训练不同的回归预测子模型,得到若干个最终的回归预测子模型,若干个分类预测子模型和若干个回归预测子模型共同构成预测模型库,即最终预测模型。
作为优选实施例,所述预测方法还包括:在利用每一种属性的第二训练样本对所述回归预测子模型进行训练,得到每个最终的回归预测子模型之后,判断所述每个最终的回归预测子模型的属性预测值是否达到预定值;若是,则保留所述最终的回归预测子模型;若否,则删除所述最终的回归预测子模型,并且利用所述属性的第二训练样本对新的分类预测子模型进行训练,得到新的最终的分类预测模型。即将回归问题转化为了分类问题,由于数据其本身就存在一定的实验测量误差,并且在药物设计的分子初步筛选中种可能需要的只是属性的范围值。因此针对效果差的回归预测子模型,根据相关标准转化为分类问题,其中可利用中位数、平均值作为二分类的划分标准。即,对某一种连续型的属性值,当利用回归预测子模型对该属性预测值效果不好时,转用分类预测子模型进行训练。
在另一实施例中,序列预测网络和图神经网络的数量为多种,多输入预测模型的数量为多个,不同的多输入预测模型包括不同组合的序列预测网络和图神经网络。示例性地,序列预测网络为CNN、Resnet、BiLSTM中的任意一种和任意一种的各种变形,所述图神经网络为GCN、GAT、MPNN中的任意一种和任意一种的各种变形。即同一种训练样本对不同的多输入预测模型分别进行训练,训练完成之后,得到多个待评估的预测模型,利用评估函数对各个待评估的预测模型进行评估,根据评估结果选出最终预测模型。具体来说,针对分类预测子模型,评估标准为AUC(ROC曲线下与坐标轴围成的面积),AUC越接近1.0,检测方法真实性越高,等于0.5时,则真实性最低,无应用价值。针对回归预测子模型,评估标准为决定系数R2和均方根误差RMSE:决定系数(R2)越趋于1,均方根误差(RMSE)越趋于0,数据拟合效果越好,评估标准的具体值可根据要求进行设定,在此不进行限定。经过评估筛选,得到最终预测模型,最终预测模型包括多个分类预测子模型和多个回归预测子模型,每个子模型对应一种属性类型的分子。
在步骤S40中,将新获取的分子属性数据输入到最终预测模型,得到分子特征属性预测值。对于新获取的分子属性数据,首先判断属性类型,根据属性类型选择对应的分类预测子模型或者回归预测子模型。接着对新获取的分子属性数据进行预处理,得到分子指纹和分子图结构信息,输入该多输入预测模型中,其中分子指纹被作为序列预测网络的输入,分子图结构信息被作为图神经网络的输入,输出分子特征属性预测值。
本实施例一公开的药物分子特征属性的预测方法,通过对原始药物分子属性数据集进行处理,获得包含分子指纹、分子图结构信息和分子特征属性值的训练样本,该训练样本充分考虑了药物小分子的空间几何特征和物理化学特征,利用训练样本训练若干个预测模型,并经过评估筛选得到最终预测模型,该最终预测模型能有效地预测分子特征属性值,且具有较高的准确率。
进一步地,如图3所示,本实施例二还公开了一种药物分子特征属性的预测装置,所述预测装置包括构建单元100、预处理单元200、训练单元300、预测单元500。其中,构建单元100用于构建原始药物分子属性数据集;预处理单元200用于对所述原始药物分子属性数据集进行预处理,获得训练样本,所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值;训练单元300用于利用训练样本对若干个预先构建的预测模型进行训练,得到最终预测模型;预测单元500用于将新获取的分子属性数据输入到所述最终预测模型,得到分子特征属性预测值。
进一步地,原始药物分子属性数据集包括离散型数据集和连续型数据集,预处理单元200还用于对所述离散型数据集进行预处理,获得第一训练样本;对所述连续型数据集进行预处理,获得第二训练样本,其中第一训练样本和第二训练样本均包括分子指纹、分子图结构信息和分子特征属性值。在另一实施例中,预处理单元200还用于对离散型数据集中各种类别的分子样本进行聚类处理,从每种类别的分子样本中筛选出相同数量的样本共同构成第一训练样本。
进一步地,每个预先构建的预测模型包括分类预测子模型和回归预测子模型,训练单元300还用于利用所述第一训练样本对所述分类预测子模型进行训练,得到最终的分类预测子模型,利用第二训练样本对所述回归预测子模型进行训练,得到最终的回归预测子模型。
具体地,所述分类预测子模型和所述回归预测子模型的数量均为多个,所述第一训练样本和所述第二训练样本的属性为多种,训练单元300还用于利用不同属性的第一训练样本一一对应地分别训练不同的分类预测子模型,得到若干个最终的分类预测子模型;利用不同属性的第二训练样本一一对应地分别训练不同的回归预测子模型,得到若干个最终的回归预测子模型,若干个最终的分类预测子模型和若干个最终的回归预测子模型构成最终预测模型。
预测装置还包括评估单元400,评估单元400还用于在利用每一种属性的第二训练样本对所述回归预测子模型进行训练,得到最终的回归预测子模型之后,判断所述最终的回归预测子模型的属性预测值是否达到预定值;若是,则保留所述最终的回归预测子模型;若否,则删除所述最终的回归预测子模型,并且训练单元300还用于利用所述属性的第二训练样本对新的分类预测子模型进行训练,得到新的最终的分类预测模型。
进一步地,训练单元300利用训练样本对预先构建的多个不同的多输入预测模型进行训练,得到多个待评估的预测模型,评估单元400还用于利用评估函数对多个待评估的预测模型进行评估,得到最终预测模型。
其中,构建单元100、预处理单元200、训练单元300、评估单元400和预测单元500的更详细工作过程可参照实施例一的相关描述,在此不进行赘述。
本实施例三还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有药物分子特征属性的预测程序,所述药物分子特征属性的预测程序被处理器执行时实现上述的药物分子特征属性的预测方法。
本实施例四还公开了一种计算机设备,在硬件层面,如图4所示,该终端包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行,在逻辑层面上形成请求处理装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。所述计算机可读存储介质11上存储有药物分子特征属性的预测程序,所述药物分子特征属性的预测程序被处理器执行时实现上述的药物分子特征属性的预测方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上面对本发明的具体实施方式进行了详细描述,虽然已表示和描述了一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可以对这些实施例进行修改和完善,这些修改和完善也应在本发明的保护范围内。
Claims (10)
1.一种药物分子特征属性的预测方法,其特征在于,所述预测方法包括:
构建原始药物分子属性数据集;
对所述原始药物分子属性数据集进行预处理,获得训练样本,所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值;
利用训练样本对预先构建的多输入预测模型进行训练,得到最终预测模型;
将新获取的分子属性数据输入到所述最终预测模型,得到分子特征属性预测值。
2.根据权利要求1所述的药物分子特征属性的预测方法,其特征在于,所述原始药物分子属性数据集包括离散型数据集和连续型数据集,对所述原始药物分子属性数据集进行预处理,获得训练样本的方法包括:
对所述离散型数据集进行预处理,获得第一训练样本;
对所述连续型数据集进行预处理,获得第二训练样本,其中第一训练样本和第二训练样本均包括分子指纹、分子图结构信息和分子特征属性值。
3.根据权利要求2所述的药物分子特征属性的预测方法,其特征在于,预先构建的多输入预测模型包括分类预测子模型和回归预测子模型,利用训练样本对预先构建的多输入预测模型进行训练,得到最终预测模型的方法包括:
利用所述第一训练样本对所述分类预测子模型进行训练,得到最终的分类预测子模型,利用第二训练样本对所述回归预测子模型进行训练,得到最终的回归预测子模型,最终的分类预测子模型和最终的回归预测子模型构成最终预测模型。
4.根据权利要求3所述的药物分子特征属性的预测方法,其特征在于,所述分类预测子模型和所述回归预测子模型均包括序列预测网络、图神经网络、多层感知机,所述多层感知机连接所述序列预测网络和所述图神经网络,其中所述分子指纹用作序列预测网络的输入,所述分子图结构信息用作所述图神经网络的输入,所述分子特征属性值用作所述多输入预测模型的输出。
5.根据权利要求2所述的药物分子特征属性的预测方法,其特征在于,所述对所述离散型数据集进行预处理,获得第一训练样本的方法包括:
对离散型数据集进行聚类处理,对每种类别的样本进行筛选,获得均衡比例类别样本数组成第一训练样本。
6.根据权利要求3所述的药物分子特征属性的预测方法,其特征在于,所述分类预测子模型和所述回归预测子模型的数量均为多个,所述第一训练样本和所述第二训练样本的属性为多种,所述预测方法还包括:
利用不同属性的第一训练样本一一对应地分别训练不同的分类预测子模型,得到若干个最终的分类预测子模型;
利用不同属性的第二训练样本一一对应地分别训练不同的回归预测子模型,得到若干个最终的回归预测子模型,若干个最终的分类预测子模型和若干个最终的回归预测子模型构成最终预测模型。
7.根据权利要求6所述的药物分子特征属性的预测方法,其特征在于,所述预测方法还包括:
在利用每一种属性的第二训练样本对所述回归预测子模型进行训练,得到每个最终的回归预测子模型之后,判断所述最终的回归预测子模型的属性预测值是否达到预定值;
若是,则保留所述最终的回归预测子模型;若否,则删除所述最终的回归预测子模型,并且利用所述属性的第二训练样本对新的分类预测子模型进行训练,得到新的最终的分类预测模型。
8.根据权利要求6所述的药物分子特征属性的预测方法,其特征在于,所述序列预测网络的种类为多种,所述图神经网络的种类为多种,多输入预测模型的数量为多个,不同的多输入预测模型包括不同组合的序列预测网络和图神经网络,所述预测方法还包括:
利用训练样本对预先构建的多个不同的多输入预测模型进行训练,得到多个待评估的预测模型;
利用评估函数对多个待评估的预测模型进行评估,得到最终预测模型。
9.一种药物分子特征属性的预测装置,其特征在于,所述预测装置包括:
构建单元,用于构建原始药物分子属性数据集;
预处理单元,用于对所述原始药物分子属性数据集进行预处理,获得训练样本,所述训练样本要包括分子指纹、分子图结构信息和分子特征属性值;
训练单元,用于利用训练样本对预先构建的多输入预测模型进行训练,得到最终预测模型;
预测单元,用于将新获取的分子属性数据输入到所述最终预测模型,得到分子特征属性预测值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有药物分子特征属性的预测程序,所述药物分子特征属性的预测程序被处理器执行时实现权利要求1至8任一项所述的药物分子特征属性的预测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110442039.9A CN115240781A (zh) | 2021-04-23 | 2021-04-23 | 药物分子特征属性的预测方法及预测装置 |
PCT/CN2021/137630 WO2022222492A1 (zh) | 2021-04-23 | 2021-12-13 | 药物分子特征属性的预测方法及预测装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110442039.9A CN115240781A (zh) | 2021-04-23 | 2021-04-23 | 药物分子特征属性的预测方法及预测装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115240781A true CN115240781A (zh) | 2022-10-25 |
Family
ID=83665957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110442039.9A Pending CN115240781A (zh) | 2021-04-23 | 2021-04-23 | 药物分子特征属性的预测方法及预测装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115240781A (zh) |
WO (1) | WO2022222492A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023168810A1 (zh) * | 2022-03-09 | 2023-09-14 | 平安科技(深圳)有限公司 | 药物分子的性质预测方法、装置、存储介质及计算机设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110459274B (zh) * | 2019-08-01 | 2022-08-26 | 南京邮电大学 | 一种基于深度迁移学习的小分子药物虚拟筛选方法及其应用 |
CN111724867B (zh) * | 2020-06-24 | 2022-09-09 | 中国科学技术大学 | 分子属性测定方法、装置、电子设备及存储介质 |
CN111916143B (zh) * | 2020-07-27 | 2023-07-28 | 西安电子科技大学 | 基于多样子结构特征融合的分子活性预测方法 |
CN112102899A (zh) * | 2020-09-15 | 2020-12-18 | 北京晶派科技有限公司 | 一种分子预测模型的构建方法和计算设备 |
CN112634992A (zh) * | 2020-12-29 | 2021-04-09 | 上海商汤智能科技有限公司 | 分子性质预测方法及其模型的训练方法及相关装置、设备 |
-
2021
- 2021-04-23 CN CN202110442039.9A patent/CN115240781A/zh active Pending
- 2021-12-13 WO PCT/CN2021/137630 patent/WO2022222492A1/zh active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023168810A1 (zh) * | 2022-03-09 | 2023-09-14 | 平安科技(深圳)有限公司 | 药物分子的性质预测方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2022222492A1 (zh) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | Convolutional neural network‐based data anomaly detection method using multiple information for structural health monitoring | |
Belhadi et al. | Deep learning for pedestrian collective behavior analysis in smart cities: A model of group trajectory outlier detection | |
US6813615B1 (en) | Method and system for interpreting and validating experimental data with automated reasoning | |
CN114333986A (zh) | 模型训练、药物筛选和亲和力预测的方法与装置 | |
Cho et al. | Layer-wise relevance propagation of InteractionNet explains protein–ligand interactions at the atom level | |
Evans et al. | Enabling spatial big data via CyberGIS: Challenges and opportunities | |
Hoang et al. | Fast local Laplacian‐based steerable and Sobel filters integrated with adaptive boosting classification tree for automatic recognition of asphalt pavement cracks | |
CN114822683A (zh) | 药物与靶标的相互作用预测方法、装置、设备及存储介质 | |
WO2022166689A1 (zh) | 信息检索方法及相关系统、存储介质 | |
CN114067928B (zh) | 分子属性预测方法及系统、装置、存储介质和处理器 | |
CN115240781A (zh) | 药物分子特征属性的预测方法及预测装置 | |
Rajita et al. | Spark-based parallel method for prediction of events | |
US11562184B2 (en) | Image-based vehicle classification | |
Tang et al. | Physics-informed neural networks to solve lumped kinetic model for chromatography process | |
CN111488479A (zh) | 超图构建方法、装置以及计算机系统和介质 | |
CN117457064A (zh) | 基于图结构自适应的药物-药物相互作用预测方法及装置 | |
CN114649053A (zh) | 基于人工智能的蛋白质配体结合原子的识别方法、装置 | |
Mancebo et al. | Efficient cross-correlation filtering of one-and two-color single molecule localization microscopy data | |
CN114420221B (zh) | 一种基于知识图谱辅助的多任务药物筛选方法和系统 | |
CN116977265A (zh) | 缺陷检测模型的训练方法、装置、计算机设备和存储介质 | |
Liu et al. | HMMF: a hybrid multi-modal fusion framework for predicting drug side effect frequencies | |
US11676391B2 (en) | Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames | |
CN115148279A (zh) | 蛋白质与配体分子的亲和力预测方法及装置 | |
CN114708929A (zh) | 药物与药物相互作用预测模型及其训练方法 | |
CN113192085A (zh) | 三维器官图像分割方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |