CN114067928A - 分子属性预测方法及系统、装置、存储介质和处理器 - Google Patents

分子属性预测方法及系统、装置、存储介质和处理器 Download PDF

Info

Publication number
CN114067928A
CN114067928A CN202210024373.7A CN202210024373A CN114067928A CN 114067928 A CN114067928 A CN 114067928A CN 202210024373 A CN202210024373 A CN 202210024373A CN 114067928 A CN114067928 A CN 114067928A
Authority
CN
China
Prior art keywords
molecular
data set
training
prediction
molecular data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210024373.7A
Other languages
English (en)
Other versions
CN114067928B (zh
Inventor
翟珂
张博文
吴桢钦
顾耀文
李远鹏
王天元
马松龄
王纵虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingtai Technology Co ltd
Original Assignee
Beijing Jingtai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingtai Technology Co ltd filed Critical Beijing Jingtai Technology Co ltd
Priority to CN202210024373.7A priority Critical patent/CN114067928B/zh
Publication of CN114067928A publication Critical patent/CN114067928A/zh
Application granted granted Critical
Publication of CN114067928B publication Critical patent/CN114067928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种分子属性预测方法及系统、装置、存储介质和处理器。该方法包括:获取待处理的分子数据集;判别待处理的分子数据集为无标签的分子数据集;若待处理的分子数据集为无标签的分子数据集,则采用调整后的分子模型对无标签的分子数据进行分子属性预测。通过本申请,解决了相关技术中对分子属性预测的效率、精度或效果不佳的问题。

Description

分子属性预测方法及系统、装置、存储介质和处理器
技术领域
本申请涉及分子属性预测技术领域,具体而言,涉及一种分子属性预测方法及系统、装置、存储介质和处理器。
背景技术
传统医药研发的特点为漫长和失败率高,将近四分之三的药物都会因功效或安全原因导致失败。人工智能的引入可以将传统的基于症状的循证医疗向着基于算法的个性化医疗推进,从而提高药物研发的成功率和针对性。相比于计算机辅助药物设计等传统方法,AIDD方法近年来逐渐受到认可和应用。目前行业内对分子属性预测等业务需求的AI解决方案大多为基于传统机器学习或者较早期的图神经网络技术,并未发挥深度学习大数据方法的优势。
在这样的背景下,数据成为AIDD发展的瓶颈。尽管这个领域有大量的无标注数据,比如仅有分子序列或结构,没有性质;但有标注数据却非常少,难以支撑高质量的人工智能模型,使得能够得到的人工智能模型在对分子属性预测的效率、精度或效果不佳,无法起到较好的辅助筛选设计的作用。针对上述的全部或部分问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种分子属性预测方法及系统、装置、存储介质和处理器,以解决相关技术中对分子属性预测的效率、精度或效果不佳的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种分子属性预测系统。该系统包括:预训练模块,用于采用第一方式和/或第二方式得到多个分子预训练模型,其中,所述第一方式是采用无标签的分子数据集对第一图神经网络进行自监督学习训练,所述第二方式是采用目标参数对所述第一图神经网络进行赋值;调整模块,用于采用有标签的分子数据集对所述预训练模块中的一个或多个分子预训练模型的参数进行调整,得一个或多个调整后的分子模型;预测模块,用于采用调整后的分子模型对无标签的分子数据进行分子属性预测。
进一步地,所述系统还包括:特征提取模块,用于对目标对象进行特征提取,其中,所述目标对象为以下至少之一:分子预训练模型的参数,所述调整后的分子模型的参数,无标签的分子数据集,有标签的分子数据集。
进一步地,所述特征提取模块对所述分子预训练模型进行特征提取的方式是:提取所述分子预训练模型的末层隐变量并进行全局池化,其中,所述全局池化为以下之一:全局平均池化或全局最大池化。
进一步地,所述预测模块还用于根据预设评价指标,对有标签的分子数据进行评价。
进一步地,所述预设评价指标包括以下至少之一:评价指标决定系数,ROC曲线下面积,准确率,召回率,敏感度,特异性,均方根误差,平均绝对误差。
进一步地,所述目标参数通过以下至少之一方法获得:获取分子图自监督训练的基线模型中配置的参数,得到第一目标参数;获取已有的可用于分子属性预测的图神经网络模型中配置的参数,得到第二目标参数,其中,所述预训练模块还用于基于所述第一目标参数对所述第一图神经网络进行赋值得到第一分子预训练模型,基于所述第二目标参数对所述第一图神经网络进行赋值得到第二分子预训练模型。
进一步地,所述第一图神经网络的架构为如下至少之一:图同构网络、图注意力网络、图聚合网络、图卷积网络。
进一步地,所述调整模块用于在所述预训练模块中的一个或多个分子预训练模型的基础上添加线性分类器或者多层感知器,得一个或多个待调整的预训练模型,然后采用有标签的分子数据集分别对一个或多个待调整的预训练模型的参数进行调整,得一个或多个调整后的分子模型。
进一步地,在采用所述第一方式得到分子预训练模型的过程中,至少加入了以下训练任务:上下文预测、属性屏蔽、图级别motif预测。
为了实现上述目的,根据本申请的一个方面,提供了一种分子属性预测方法。该方法包括:获取待处理的分子数据集;判别所述待处理的分子数据集为无标签的分子数据集;若所述待处理的分子数据集为无标签的分子数据集,则采用所述调整后的分子模型对无标签的分子数据进行分子属性预测。
进一步地,所述方法还包括:若所述待处理的分子数据集为有标签的分子数据集,根据预设评价指标,对有标签的分子数据进行评价。
进一步地,所述方法还包括:采用所述分子属性预测系统中的特征提取模块对待处理的分子数据集进行特征提取;依据提取的特征,对所述待处理的分子数据集中的分子数据进行聚类。
为了实现上述目的,根据本申请的另一方面,提供了一种分子属性预测装置。该装置包括:获取单元,用于获取待处理的分子数据集;判别单元,用于判别所述待处理的分子数据集为无标签的分子数据集还是有标签的分子数据集;预测单元,用于若所述待处理的分子数据集为无标签的分子数据集,则采用所述调整后的分子模型对无标签的分子数据进行分子属性预测。
进一步地,所述装置还包括:评价单元,用于若所述待处理的分子数据集为有标签的分子数据集,根据预设评价指标,对有标签的分子数据进行评价。
进一步地,所述装置还包括:提取单元,用于采用所述分子属性预测系统中的特征提取模块对待处理的分子数据集进行特征提取;聚类单元,用于依据提取的特征,对所述待处理的分子数据集中的分子数据进行聚类。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的分子属性预测方法。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述的分子属性预测方法。
本申请的分子属性预测系统,通过互相配合的预训练模块、调整模块和预测模块,能够在保证分子属性预测的精度的同时提高分子属性预测的效率,提升了对分子属性预测的效果,进而起到辅助筛选设计作用,提高药物研发的成功率和针对性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的分子属性预测系统的示意图;
图2是根据本申请实施例提供的分子属性预测系统框架的示意图;
图3是根据本申请实施例提供的分子属性预测方法的示意图;
图4是根据本申请实施例提供的分子属性预测方法的流程图;
图5是根据本申请实施例提供的分子属性预测装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种分子属性预测系统。
图1是根据本申请实施例提供的分子属性预测系统的示意图。如图1所示,该系统包括:预训练模块101,用于采用第一方式和/或第二方式得到多个分子预训练模型,其中,第一方式是采用无标签的分子数据集对第一图神经网络进行自监督学习训练,第二方式是采用目标参数对第一图神经网络进行赋值;调整模块102,用于采用有标签的分子数据集对预训练模块中的一个或多个分子预训练模型的参数进行调整,得一个或多个调整后的分子模型;预测模块103,用于采用调整后的分子模型对无标签的分子数据进行分子属性预测。
在上述的第一方式中,采用无标签的分子数据集对第一图神经网络进行自监督学习训练,无标签的分子数据集可以通过多种途径获得,例如:可为通过公开途径免费获得的所有分子数据集的集合,也可为通过商业购买获得的小分子化合物数据的集合,例如,可商业购买的ZINC15数据集(约含两千万的小分子化合物数据),还可为前述两种集合的集合;所述类药小分子数据同样可以通过多种途径获得;例如:可为通过公开途径免费获得的所有类药小分子数据的集合,更具体可为含约45.6万的具备生物活性的类药小分子数据的CHEMBL数据集。
在采用无标签的分子数据集对第一图神经网络进行自监督学习训练的过程中,至少可以加入了以下训练任务:上下文预测、属性屏蔽、图级别motif预测。
上述的第一图神经网络的架构可以为如下至少之一:图同构网络GIN、图注意力网络GAT、图聚合网络GraphSage、图卷积网络GCN。
在分子属性预测系统中,通过采用第一方式和/或第二方式构建分子预训练模型,将分子预训练模型进行调整,采用调整后的分子模型对无标签的分子数据进行分子属性预测,保证了对分子属性预测的精度及效率,进而提升了对分子属性预测效果,进而起到辅助筛选设计作用,提高药物研发的成功率和针对性。
可选地,在本申请实施例提供的分子属性预测系统中,该系统还包括:特征提取模块,用于对目标对象进行特征提取,其中,目标对象为以下至少之一:分子预训练模型的参数,调整后的分子模型的参数,无标签的分子数据集,有标签的分子数据集。
本申请实施例提供的特征提取模块可以对分子预训练模型的参数,调整后的分子模型的参数,无标签的分子数据集,有标签的分子数据集等进行特征提取,其中,上述的特征提取模块对分子预训练模型进行特征提取的方式是:提取分子预训练模型的末层隐变量并进行全局池化,其中,全局池化为以下之一:全局平均池化或全局最大池化。
可选地,在本申请实施例提供的分子属性预测系统中,预测模块还用于根据预设评价指标,对有标签的分子数据进行评价。
上述的预设评价指标可以包括以下至少之一:评价指标决定系数,ROC曲线下面积,准确率,召回率,敏感度,特异性,均方根误差,平均绝对误差。
上述的有标签的分子数据可为MoleculeNet数据集、ADMET数据集,其中,MoleculeNet数据集可以选择包括7个生理,生化,生物物理等场景的数据集。所述7个数据集可以选自:ESOL数据集、FreeSolv数据集、Lipophilicity数据集、BBBP数据集、ClinTox数据集、Tox21数据集和HIV数据集。具体地,1、ESOL数据集,包含常见的有机小分子的水溶性数据(例如:对数溶解度,摩尔/升);2、FreeSolv数据集,包含小分子在水中的水化自由能的实验值,这些数值可以是通过分子动力学模拟得到的;3、Lipophilicity数据集,包含已知分子的辛醇或水分配系数的实验结果,辛醇或水分配系数反映了分子的溶解度;4、BBBP数据集,包含测得的穿透血脑屏障的分子的数据集;5、ClinTox数据集,包括由FDA批准的药物和那些由于毒性原因导致临床试验失败的药物的数据;6、Tox21数据集,包括已测量过的化合物对12个不同目标的毒性的数据,包括核受体和应激反应途径的实验测量结果;7、HIV数据集,包括为实验测定的具有抑制HIV复制能力的小分子的数据。在一具体实施例中,Moleculenet数据集中的具体细节,如下表1所示。
表1
Figure 440049DEST_PATH_IMAGE001
其中,R2为评价指标决定系数,往往用来评价回归模型效果,计算公式如下,其中
Figure 244057DEST_PATH_IMAGE002
为预测值,
Figure 940356DEST_PATH_IMAGE003
为真实值,
Figure 753591DEST_PATH_IMAGE004
为预测值均值。
Figure 720410DEST_PATH_IMAGE005
ROC-AUC为ROC曲线下面积,其中ROC为以伪阳性率(FPR)为横轴,真阳性率(TPR)为纵轴所画出的曲线,往往用于评价分类模型的效果,相关公式如下:
TPR = TP/P = TP/(TP+FN) 即真阳性除以真阳性和假阴性的和。
FPR = FP/N = FP/(FP + TN) 即假阳性除以假阳性和真阴性的和。
其中,ADMET数据集可以为采集的药物吸收分布代谢排泄毒性相关的数据集,在本申请中可用于评价分子属性预测系统的性能。ADMET数据集主要包括:Caco2数据集、Solubility数据集、P_gly_sub数据集、P_gly_inhibit数据集、logP数据集、BBB数据集和Ames数据集。具体地,1、Caco2数据集包括约10k的细胞通透性预测数据,包括a-b和b-a两种不同的方向,可用于评估分子在人类肠道渗透性;2、Solubility数据集,包括用于衡量溶解度的2984个分子的数据;3、P_gly_sub数据集,包括用于衡量分子是P型糖蛋白底物概率的2015个分子的数据;4、P_gly_inhibit数据集,包括用于衡量分子是P型糖蛋白抑制剂概率的418个分子的数据;5、logP数据集,包括用于预测油水分配系数任务的2015个分子的数据;6、BBB数据集,包括用于预测穿透血脑屏障任务的500个分子的数据;7、Ames数据集,包括Ames突变实验任务中的512个分子的数据,用于评估分子潜在致畸性和毒性。
可选地,在本申请实施例提供的分子属性预测系统中,目标参数通过以下至少之一方法获得:获取分子图自监督训练的基线模型中配置的参数,得到第一目标参数;获取已有的可用于分子属性预测的图神经网络模型中配置的参数,得到第二目标参数;预训练模块还用于基于第一目标参数对第一图神经网络进行赋值得到第一分子预训练模型,基于第二目标参数对第一图神经网络进行赋值得到第二分子预训练模型。
上述的基线模型可以为Contextpred模型,上述的已有的可用于分子属性预测的图神经网络模型可以为GROVER模型,对Contextpred模型添加包括上下文预测和属性屏蔽两个自监督任务,也即,预测中心节点周围一定范围内的相邻节点和预测被随机屏蔽的节点/边。对GROVER模型添加包括上下文预测和图级别motif(小分子中重要的功能片段)预测两个无监督任务,即输入目标原子/键预测相邻原子/键信息和预测Rdkit(全称为RationalDiscovery Kit)检测出的motif是否出现。通过预训练自监督学习,使得Contextpred模型和GROVER模型对分子空间全局特征有所掌握。采用从Contextpred模型获得的第一目标参数和从GROVER模型获得的第二目标参数分别对第一图神经网络进行赋值,可以得到第一分子预训练模型和第二分子预训练模型。
可选地,在本申请实施例提供的分子属性预测系统中,调整模块还用于在预训练模块中的一个或多个分子预训练模型的基础上添加线性分类器或者多层感知器,得一个或多个待调整的预训练模型,然后采用有标签的分子数据集分别对一个或多个待调整的预训练模型的参数进行调整,得一个或多个调整后的分子模型。
可选地,在本申请实施例提供的分子属性预测系统中的组成模块图以及各模块之间的连接关系可以如图2所示。分子属性可为分子基于数据的结构功能分数,在本申请中预测的分子属性可以为7个诸如水溶性的分子生理,生化,生物物理性质。在本申请进行分子属性预测的流程可以如图3所示,在属性预测流程中,需要一个已经微调好的模型,该模型的训练数据可以是来源于和需要进行属性预测分子相似功能的标签数据。然后将分子数据输入到经过微调的模型中,可以获得分子的属性预测。在预测过程中,在本申请中可以将数据随机或按分子骨架分为用于微调的训练验证集和测试集,所有报告的结果均为对测试集的预测分数。
综上,本申请实施例提供的分子属性预测系统相对于现有技术,实现了如下技术效果:
1. 本申请实施例提供的分子属性预测系统具有了更方便适用于流程化的数据模块,可自选数据切分方式或者预先切分,所有中间数据都可以被分子属性预测系统的工作流记录。
2. 对预训练模型库进行了整理,原开源模型提供了多个预训练模型,在本申请的一个具体实施例,从预训练模型库中挑出2个代表性的预训练模型contextpred,nodemasking作为起始预训练架构,并基于比较后的效果,默认选择contextpred,提升了工作流清晰度。需要说明的是,在本申请实施例提供的分子属性预测系统中选择的预训练模型不局限于contextpred。
3. 添加自由组网的功能,如预训练模块中所述,默认使用GIN。同时也可以选择更复杂的下游微调网络等网络配置,更为灵活且可提高预测效果,在本申请中不作限定。
4. 添加特征提取模块作为分子特征提取器,实现了对分子预训练模型的参数,调整后的分子模型的参数,无标签的分子数据集,有标签的分子数据集等进行特征提取。
5. 在原有的预训练微调学习模式外加入新模式,舍弃预训练模型只进行监督式学习的非预训练监督式学习模式和提取预训练模块的隐变量的嵌入监督式学习模式。两者均可在损失一部分精度的情况下提升任务运行效率,其中模型的嵌入也可用于作为分子的特征用于其他任务中。
6. 添加集成功能,将多个模型的预测结果通过投票等方式汇总,以提升分子属性预测的效果。
最后,为了证明本申请实施例提供的分子属性预测系统的效果,本申请测试了该系统以及其他机器学习模型在基准数据集Moleculenet和其他ADMET数据集上的效果。针对性地进行了如下4个测试实验,分别囊括了数据切分方式,图网络架构的影响,预训练模式的影响和微调模式的影响,证明了本框架通过适当组网和集成,可以对性能有所提升同时也提升了使用时的清晰度。
实验一,关于不同数据切分方式的结果,在本申请中只测试了部分来自Moleculenet的数据,Random即将数据随机划分,Scaffold即将数据集按照分子骨架进行划分保持训练集和测试集的差异性。可以看到由于任务难度普遍来说随机划分比基于骨架划分效果要好,但是该差距在回归任务上差距较大。由于随机划分数据集得到的测试集与训练验证集的分布差异比起按骨架划分要小,从表2中结果可判断在模型预测分布外测试集的泛化能力评价上,分类问题较好而回归问题受到了测试集差异分布的影响,这说明本系统在处理与训练集分布不同的回归问题时效果可能较差,在其他的场景上均具备较好的适配性。表中的分数为对应任务的指标,esol、freesolv和lipophilicity为R2±标准差,其余任务为ROC-AUC±标准差。
表2
Figure 164161DEST_PATH_IMAGE006
实验二,关于图网络的架构对比实验,比较了各种图网络架构中的GAT架构和GIN架构的效果。还补充了使用GAT模型进行非预训练监督式学习的方法,该方法与使用GIN模型进行非预训练监督式学习的方法相同。如下表3所示,结果显示GIN架构的效果最为稳定,故在选择图网络架构时默认选择GIN。表中的分数为对应任务的指标,esol、freesolv、lipophilicity、caco2、admet_bbb、admet_logP、admet_solubility为R2±标准差,其余任务为ROC-AUC±标准差。
表3
Figure 583641DEST_PATH_IMAGE007
实验三,关于预训练方式以及基线方法的比较,包括Nodemasking,Contextpred,GROVER3种不同的预训练模型,预训练模型集成,机器学习基线模型和未整合的Contextpred模型的结果。如表4所示,本申请的系统的图神经网络预训练算法优于机器学习算法和未优化的预训练模型,且模型集成会使预测效果进一步提升。表4中的分数为对应任务的指标,esol、freesolv、lipophilicity、caco2、admet_bbb、admet_logP、admet_solubility为R2±标准差,其余任务为ROC-AUC±标准差。
表4
Figure 934988DEST_PATH_IMAGE008
实验四,关于微调模式的对比实验,包括非预训练监督式学习,预训练微调,嵌入微调建模3种模式。各种任务呈现3类趋势,大部分任务Non-pretrain和Embedding结果均较好,说明在这些任务上非监督部分的信息和监督部分信息类似,效果相似,这时微调能使预测结果提升。在clintox,p_gly,非监督部分较之监督部分更重要,在此类场景上只使用预训练模型隐变量可得到较优效果。在esol,freesolv,lipo,logp,caco2等回归任务上,监督部分较之非监督部分更重要。在实际使用中可根据具体任务进行选择。表5中的分数为对应任务的指标,esol、freesolv、lipophilicity、caco2、admet_bbb、admet_logP、admet_solubility为R2±标准差,其余任务为ROC-AUC±标准差。
表5
Figure 756313DEST_PATH_IMAGE009
基于上述数据可知,本申请的系统中使用的预训练加微调技术在Moleculenet和ADMET的数据上预测效果较好,具备对药物活性,毒性等性质预测的潜力,可以用于根据分子性质进行大批量筛选。其次,在本申请中进行的Embedding(嵌入)测试也说明了其中的隐向量也可作为分子特征使用,在其他诸如DTI(药物-靶点关系预测)预测中起到分子表征的作用。最后,本申请的系统中还可添加对预测结果进行解释的部分,增强对药物设计的指导作用。
下面结合优选的实施步骤对本发明进行说明,图4是根据本申请实施例提供的分子属性预测方法的流程图,该方法可以应用在上述实施例提供的分子属性预测系统中, 如图4所示,该方法包括如下步骤:
步骤S401,获取待处理的分子数据集;
步骤S402,判别待处理的分子数据集为无标签的分子数据集;
步骤S403,若待处理的分子数据集为无标签的分子数据集,则采用调整后的分子模型对无标签的分子数据进行分子属性预测。
由于该分子属性预测方法应用在分子属性预测系统中,在分子属性预测系统中,通过构建分子预训练模型,将分子预训练模型进行调整,采用调整后的分子模型对无标签的分子数据进行分子属性预测,保证了对分子属性预测的精度及效率,进而提升了对分子属性预测效果,进而起到辅助筛选设计作用,提高药物研发的成功率和针对性。
可选地,在本申请实施例提供的分子属性预测方法中,该方法还包括:若待处理的分子数据集为有标签的分子数据集,根据预设评价指标,对有标签的分子数据进行评价。
上述的预设评价指标可以包括以下至少之一:评价指标决定系数,ROC曲线下面积,准确率,召回率,敏感度,特异性,均方根误差,平均绝对误差。
上述的有标签的分子数据可为MoleculeNet数据集、ADMET数据集。关于MoleculeNet数据集、ADMET数据集的内容在本申请实施例提供的分子属性预测系统中作了详细阐述,在此不再赘述。
可选地,在本申请实施例提供的分子属性预测方法中,该方法还包括:采用分子属性预测系统中的特征提取模块对待处理的分子数据集进行特征提取;依据提取的特征,对待处理的分子数据集中的分子数据进行聚类。
通过特征提取模块对待处理的分子数据集可以进行特征提取,从而对待处理的分子数据集中的分子数据进行聚类,以后续对聚类后的分子数据用于下游任务。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种分子属性预测装置,需要说明的是,本申请实施例的分子属性预测装置可以用于执行本申请实施例所提供的用于分子属性预测方法。以下对本申请实施例提供的分子属性预测装置进行介绍。
图5是根据本申请实施例的分子属性预测装置的示意图。该装置可以应用在上述实施例提供的分子属性预测系统中,如图5所示,该装置包括:获取单元501、判别单元502和预测单元503。
具体地,获取单元501,用于获取待处理的分子数据集;
判别单元502,用于判别待处理的分子数据集为无标签的分子数据集还是有标签的分子数据集;
预测单元503,用于若待处理的分子数据集为无标签的分子数据集,则采用调整后的分子模型对无标签的分子数据进行分子属性预测。
综上,本申请实施例提供的分子属性预测装置,通过获取单元501获取待处理的分子数据集;判别单元502判别待处理的分子数据集为无标签的分子数据集还是有标签的分子数据集;预测单元503若待处理的分子数据集为无标签的分子数据集,则采用调整后的分子模型对无标签的分子数据进行分子属性预测,解决了相关技术中对分子属性预测的效率、精度或效果不佳的问题,在保证对分子属性预测的精度的同时提高分子属性预测的效率,提升了对分子属性预测的效果,进而起到辅助筛选设计作用,提高药物研发的成功率和针对性。
可选地,在本申请实施例提供的分子属性预测装置中,该装置还包括:评价单元,用于若待处理的分子数据集为有标签的分子数据集,根据预设评价指标,对有标签的分子数据进行评价。
可选地,在本申请实施例提供的分子属性预测装置中,该装置还包括:提取单元,用于采用分子属性预测系统中的特征提取模块对待处理的分子数据集进行特征提取;聚类单元,用于依据提取的特征,对待处理的分子数据集中的分子数据进行聚类。
所述分子属性预测装置包括处理器和存储器,上述获取单元501、判别单元502和预测单元503等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来预测分子属性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行上述的分子属性预测方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述分子属性预测方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取待处理的分子数据集;判别所述待处理的分子数据集为无标签的分子数据集;若所述待处理的分子数据集为无标签的分子数据集,则采用所述调整后的分子模型对无标签的分子数据进行分子属性预测。
处理器执行程序时还实现以下步骤:若所述待处理的分子数据集为有标签的分子数据集,根据预设评价指标,对有标签的分子数据进行评价。
处理器执行程序时还实现以下步骤:采用所述分子属性预测系统中的特征提取模块对待处理的分子数据集进行特征提取;依据提取的特征,对所述待处理的分子数据集中的分子数据进行聚类。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取待处理的分子数据集;判别所述待处理的分子数据集为无标签的分子数据集;若所述待处理的分子数据集为无标签的分子数据集,则采用所述调整后的分子模型对无标签的分子数据进行分子属性预测。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:若所述待处理的分子数据集为有标签的分子数据集,根据预设评价指标,对有标签的分子数据进行评价。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:采用所述分子属性预测系统中的特征提取模块对待处理的分子数据集进行特征提取;依据提取的特征,对所述待处理的分子数据集中的分子数据进行聚类。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (15)

1.一种分子属性预测系统,其特征在于,包括:
预训练模块,用于采用第一方式和/或第二方式得到多个分子预训练模型,其中,所述第一方式是采用无标签的分子数据集对第一图神经网络进行自监督学习训练,所述第二方式是采用目标参数对所述第一图神经网络进行赋值;
调整模块,用于采用有标签的分子数据集对所述预训练模块中的一个或多个分子预训练模型的参数进行调整,得一个或多个调整后的分子模型;
预测模块,用于采用调整后的分子模型对无标签的分子数据进行分子属性预测。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括:
特征提取模块,用于对目标对象进行特征提取,其中,所述目标对象为以下至少之一:分子预训练模型的参数,所述调整后的分子模型的参数,无标签的分子数据集,有标签的分子数据集。
3.根据权利要求2所述的系统,其特征在于,所述特征提取模块对所述分子预训练模型进行特征提取的方式是:提取所述分子预训练模型的末层隐变量并进行全局池化,其中,所述全局池化为以下之一:全局平均池化或全局最大池化。
4.根据权利要求1所述的系统,其特征在于,所述预测模块还用于根据预设评价指标,对有标签的分子数据进行评价。
5.根据权利要求4所述的系统,其特征在于,所述预设评价指标包括以下至少之一:评价指标决定系数,ROC曲线下面积,准确率,召回率,敏感度,特异性,均方根误差,平均绝对误差。
6.根据权利要求1所述的系统,其特征在于,所述目标参数通过以下至少之一方法获得:
获取分子图自监督训练的基线模型中配置的参数,得到第一目标参数;
获取已有的可用于分子属性预测的图神经网络模型中配置的参数,得到第二目标参数,其中,所述预训练模块还用于基于所述第一目标参数对所述第一图神经网络进行赋值得到第一分子预训练模型,基于所述第二目标参数对所述第一图神经网络进行赋值得到第二分子预训练模型。
7.根据权利要求1所述的系统,其特征在于,所述第一图神经网络的架构为如下至少之一:图同构网络、图注意力网络、图聚合网络、图卷积网络。
8.根据权利要求1所述的系统,其特征在于,所述调整模块用于在所述预训练模块中的一个或多个分子预训练模型的基础上添加线性分类器或者多层感知器,得一个或多个待调整的预训练模型,然后采用有标签的分子数据集分别对一个或多个待调整的预训练模型的参数进行调整,得一个或多个调整后的分子模型。
9.根据权利要求1所述的系统,其特征在于,在采用所述第一方式得到分子预训练模型的过程中,至少加入了以下训练任务:上下文预测、属性屏蔽、图级别motif预测。
10.一种分子属性预测方法,其特征在于,所述分子属性预测方法应用于权利要求1至9中任意一项所述的分子属性预测系统,包括:获取待处理的分子数据集;
判别所述待处理的分子数据集为无标签的分子数据集;
若所述待处理的分子数据集为无标签的分子数据集,则采用所述调整后的分子模型对无标签的分子数据进行分子属性预测。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
若所述待处理的分子数据集为有标签的分子数据集,根据预设评价指标,对有标签的分子数据进行评价。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
采用所述分子属性预测系统中的特征提取模块对待处理的分子数据集进行特征提取;
依据提取的特征,对所述待处理的分子数据集中的分子数据进行聚类。
13.一种分子属性预测装置,其特征在于,所述分子属性预测装置应用于权利要求1至9中任意一项所述的分子属性预测系统,包括:获取单元,用于获取待处理的分子数据集;
判别单元,用于判别所述待处理的分子数据集为无标签的分子数据集还是有标签的分子数据集;
预测单元,用于若所述待处理的分子数据集为无标签的分子数据集,则采用所述调整后的分子模型对无标签的分子数据进行分子属性预测。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求10所述分子属性预测方法。
15.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求10所述分子属性预测方法。
CN202210024373.7A 2022-01-10 2022-01-10 分子属性预测方法及系统、装置、存储介质和处理器 Active CN114067928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210024373.7A CN114067928B (zh) 2022-01-10 2022-01-10 分子属性预测方法及系统、装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210024373.7A CN114067928B (zh) 2022-01-10 2022-01-10 分子属性预测方法及系统、装置、存储介质和处理器

Publications (2)

Publication Number Publication Date
CN114067928A true CN114067928A (zh) 2022-02-18
CN114067928B CN114067928B (zh) 2022-06-17

Family

ID=80230725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210024373.7A Active CN114067928B (zh) 2022-01-10 2022-01-10 分子属性预测方法及系统、装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN114067928B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842925A (zh) * 2022-05-10 2022-08-02 北京晶泰科技有限公司 数据处理方法、装置和模型训练方法、装置和电子设备
CN115132295A (zh) * 2022-04-21 2022-09-30 腾讯科技(深圳)有限公司 分子分类方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354850A1 (en) * 2018-05-17 2019-11-21 International Business Machines Corporation Identifying transfer models for machine learning tasks
CN111724867A (zh) * 2020-06-24 2020-09-29 中国科学技术大学 分子属性测定方法、装置、电子设备及存储介质
CN113160894A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN113707235A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备
CN113780342A (zh) * 2021-08-04 2021-12-10 杭州国辰机器人科技有限公司 一种基于自监督预训练的智能检测方法、装置及机器人

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190354850A1 (en) * 2018-05-17 2019-11-21 International Business Machines Corporation Identifying transfer models for machine learning tasks
CN111724867A (zh) * 2020-06-24 2020-09-29 中国科学技术大学 分子属性测定方法、装置、电子设备及存储介质
CN113160894A (zh) * 2021-04-23 2021-07-23 平安科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN113780342A (zh) * 2021-08-04 2021-12-10 杭州国辰机器人科技有限公司 一种基于自监督预训练的智能检测方法、装置及机器人
CN113707235A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132295A (zh) * 2022-04-21 2022-09-30 腾讯科技(深圳)有限公司 分子分类方法、装置、设备及计算机可读存储介质
CN115132295B (zh) * 2022-04-21 2024-05-24 腾讯科技(深圳)有限公司 分子分类方法、装置、设备及计算机可读存储介质
CN114842925A (zh) * 2022-05-10 2022-08-02 北京晶泰科技有限公司 数据处理方法、装置和模型训练方法、装置和电子设备

Also Published As

Publication number Publication date
CN114067928B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN114067928B (zh) 分子属性预测方法及系统、装置、存储介质和处理器
Syed et al. Comparative analysis of CNN and RNN for voice pathology detection
D’Arrigo et al. Methods to Analyse Time‐to‐Event Data: The Kaplan‐Meier Survival Curve
US11429899B2 (en) Data model processing in machine learning using a reduced set of features
US20220367051A1 (en) Methods and systems for estimating causal effects from knowledge graphs
Elgammal et al. A new strategy for the early detection of alzheimer disease stages using multifractal geometry analysis based on K-Nearest Neighbor algorithm
CN114187979A (zh) 数据处理、模型训练、分子预测和筛选方法及其装置
CN112732690A (zh) 一种用于慢病检测及风险评估的稳定系统及方法
Shankar et al. A novel discriminant feature selection–based mutual information extraction from MR brain images for Alzheimer's stages detection and prediction
Clark et al. Sets2Networks: network inference from repeated observations of sets
Nebli et al. Quantifying the reproducibility of graph neural networks using multigraph data representation
Datta et al. An adoptive heart disease prediction model using machine learning approach
Rui et al. Research on textile defects detection based on improved generative adversarial network
Akgün et al. A transfer learning-based deep learning approach for automated Covid-19diagnosis with audio data
Rao et al. Oversampling method via adaptive double weights and Gaussian kernel function for the transformation of unbalanced data in risk assessment of cardiovascular disease
Osuwa et al. Importance of continuous improvement of machine learning algorithms from a health care management and management information systems perspective
CN111512381A (zh) 用于癌症概率的库筛选
Diep et al. Crossmixed convolutional neural network for digital speech recognition
Wang et al. Accurate estimation of biological age and its application in disease prediction using a multimodal image Transformer system
Yong et al. Prediction of problematic complexes from PPI networks: sparse, embedded, and small complexes
JP2024537883A (ja) 血液細胞の形態学的特徴および細胞質の複雑度に影響を及ぼす疾患を判定するためのコンピュータ実装方法およびシステム
Balasubramanian et al. Prediction of neuro-degenerative disorders using sunflower optimisation algorithm and Kernel extreme learning machine: A case-study with Parkinson’s and Alzheimer’s disease
Liu et al. Large margin and local structure preservation sparse representation classifier for Alzheimer’s magnetic resonance imaging classification
Vishniakou et al. Voice Detection Using Convolutional Neural Network
CN112053741A (zh) 荧光酶抑制剂筛选模型构建方法及荧光酶抑制剂筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant