CN115719622A - 一种化学分子性质预测的方法、系统及介质 - Google Patents

一种化学分子性质预测的方法、系统及介质 Download PDF

Info

Publication number
CN115719622A
CN115719622A CN202211498572.8A CN202211498572A CN115719622A CN 115719622 A CN115719622 A CN 115719622A CN 202211498572 A CN202211498572 A CN 202211498572A CN 115719622 A CN115719622 A CN 115719622A
Authority
CN
China
Prior art keywords
molecular
graph
training
target data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211498572.8A
Other languages
English (en)
Inventor
柳彦宏
戴开洋
宋召青
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yantai Guogong Intelligent Technology Co ltd
Original Assignee
Yantai Guogong Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yantai Guogong Intelligent Technology Co ltd filed Critical Yantai Guogong Intelligent Technology Co ltd
Priority to CN202211498572.8A priority Critical patent/CN115719622A/zh
Publication of CN115719622A publication Critical patent/CN115719622A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明为一种化学分子性质预测的方法、系统及介质,通过图卷积神经网络学习化学分子的表示,建立分子图与分子性质之间的关系模型预测分子的性质,构建多任务迁移学习框架,通过样本量较多的训练任务,训练通用参数θ,然后基于参数θ来应用到数据量较小的预测任务,该方法包括:数据集的获取以及实验数据预处理;利用图卷积神经网络学习化学分子表示,并得到分子图的图嵌入向量;搭建图卷积神经网络模型结构,利用不同预测任务目标数据集中的样本进行多任务训练得到参数θ;基于参数θ训练小样本数据预测目标,得到最终的参数θ,最后应用图卷积神经网络模型及参数θ对候选分子进行预测,从而帮助研究人员从候选分子中筛选出具有相似性质的分子。

Description

一种化学分子性质预测的方法、系统及介质
技术领域
本发明涉及化学分子的性质预测和深度学习技术领域,具体是一种化学分子性质预测的方法、系统及介质。
背景技术
无论是在药物还是在材料研发的过程中,不可避免的是大量测试分子的活性、毒性等分子的相关特性,通过测试来筛选出符合预期的分子作为候选分子。但是这需要研发人员经过大量实验进行验证。这就导致了大量的人力物力的成本付出。除此之外,查阅相关文献,相似反应的经验积累、以及对反应物的化学机理的理解都可以在分子性质预测中发挥重要作用,但是这也对相关实验人员提出了非常高的专业素养。
随着深度学习技术的快速发展,以及相关方向的数据不断地积累,通过数据挖掘的方式来对未知分子的性质进行预测变为可能。很多化学专家都选择借助深度学习技术作为辅助技术,其效果在化工领域都得到验证。但分子的性质预测对数据集样本量具有非常高的要求,故而本发明基于图卷积神经网络构建了一个小样本分子性质预测的框架,提高分子性质预测的准确性,以辅助研发人员快速找到合适性质的分子。
发明内容
本发明的目的在于提供一种化学分子性质预测的方法、系统及介质,用以帮助研发人员快速明确候选分子的性质,解决背景技术中所提及的技术问题。
本发明的第一方面提出来一种技术方案是:一种化学分子性质预测的方法,该方法包括以下步骤:
S100.获取终端收集实验数据集并对数据预处理;
S200.提取分子特征信息;
S300.获取化学分子图的图嵌入向量;
S400.搭建图卷积神经网络模型结构,利用实验数据集中的目标数据进行训练;
S500.利用目标图卷积神经网络模型对预测分子进行分子性质预测。
作为本发明的优选技术方案,获取实验数据集的具体步骤包括:
获取终端发送指令至数据集,并读取目标数据至获取终端。
作为本发明的优选技术方案,数据预处理的具体步骤包括:
标识单元对获取终端读取的目标数据进行标识,并输出表达式标识;
转化单元依据所述目标数据的表达式标识输出分子图标识。
作为本发明的优选技术方案,提取分子特征信息的具体步骤包括:
依据分子图标识中的邻居节点及信息采用邻居聚合算法进行连接,并输出节点向量信息;
将节点向量信息进行组合,用以表示分子图。
作为本发明的优选技术方案,获取化学分子图的图嵌入向量的步骤包括:
依据节点向量信息输出图嵌入向量。
作为本发明的优选技术方案,搭建图卷积神经网络模型结构,利用实验数据集中的目标数据进行训练的具体操作包括:
搭建模型框架,依据该模型框架对多个目标数据进行训练任务,通过不同的目标数据训练任务的样本数据多次迭代更新参数,并输出模型参数θ,该参数将被用来对小样本任务进行迁移训练,实现在该性质上的预测;
对模型参数θ进行初始化设置;
更新模型参数θ,对所有目标数据执行训练任务;
该模型框架采用的是损失函数为分子性质预测损失函数,并且采用交叉熵公式进行具体计算。公式如下:
Figure BDA0003965839770000021
其中,k代表的是数据集中的任务数量,yi,
Figure BDA0003965839770000022
分别代表的是真实值与模型的预测值。
作为本发明的优选技术方案,所述训练任务包括训练training和测试testing。
作为本发明的优选技术方案所述训练training的操作步骤包括:
对目标数据进行随机抽样,并输出n个support集,以及m个query测试集;且n与m的和为目标数据的总数。
第二方面,本发明提供一种化学分子性质预测的系统,用于执行如上述第一方面所述的预测方法;该系统包括:
至少一个存在一个中央处理器,以及一个与中央处理器进行通信连接的存储器,
所述存储器,可以存储被中央处理器调用执行的程序指令,以及相关参数模型。
第三方面,本发明提供一种非暂态计算机可读存储介质,用于存储计算机指令,所述计算机指令使所述计算机执行上述第一方面所述的预测方法。
本发明通过改进在此提供一种化学分子性质预测的方法、系统及介质,与现有技术相比,具有如下改进及优点:
本发明通过图卷积神经网络的迁移学习模型框架,通过多个不同的任务来优化模型参数,以弥补单一任务的训练数据量不足问题,同时该模型能在上述的多个任务中都有不俗的表现,从而能够解决小数据量的问题,由此,能更方便地帮助研究人员从大量的候选的分子中筛选出具有相似性质的分子。
附图说明
下面结合附图和实施例对本发明作进一步解释:
图1为本发明具体实施分子性质预测的流程图;
图2为本发明具体模型参数训练及应用示意图;
具体实施方式
本发明的核心是提供一种化学分子性质预测的方法、系统及介质,以解决背景技术中所提及的问题。
下面将结合附图1至图2对本发明进行详细说明,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所使用的“第一”“第二”等描述仅用于描述目的,不应当理解为其指示或隐含指示所限定的技术特征的数量,由此,本说明书各实施例中限定有“第一”“第二”的特征可以表明包括至少一个该被限定的技术特征。
本说明书中所记载的本发明的各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为该技术方案的结合不存在。
第一方面,如图1-2所示,本发明为一种化学分子性质预测的方法,该方法包括以下步骤:
S100.获取终端获取实验数据集并对数据预处理;
S200.提取分子特征信息;
S300.获取化学分子图的图嵌入向量;
S400.搭建图卷积神经网络模型结构,利用实验数据集中的目标数据进行训练;
S500.利用目标图卷积神经网络模型对待预测分子进行分子性质预测。
在本发明的一个实施例中,获取化学分子数据构建数据集,该化学分子数据为分子的SMILES表达式;通过Rdkit工具将分子的SMILES表达式转换成分子图,并通过图嵌入的表示方法得到分子图的图嵌入向量,基于该分子图的图嵌入向量构建训练样本;基于图卷积神经图卷积神经网络模型构建预测模型,该预测模型以分子图的图嵌入向量为输入,以分子性质为输出;基于上述训练样本,对构建的预测模型进行预测,优化预测模型中参数θ,得到最终预测模型;对于预测的分子,通过Rdkit工具将分子的SMILES表达式转换成分子图,并通过图嵌入的表示方法得到分子图的图嵌入向量;将上述图嵌入向量输入最终预测模型进行预测,输出分子性质。
本发明通过图卷积神经网络的迁移学习模型框架,通过多个不同的任务来优化模型参数,以弥补单一任务的训练数据量不足问题,同时该模型能在上述的多个任务中都有不俗的表现,从而能够解决小数据量的问题,由此,可以更方便地帮助研究人员从大量的候选的分子中筛选出具有相似性质的分子。
其中,需要说明的是,所述实验数据集的来源主要是数据集tox21与sider,但本发明可用数据集并不限于以上两类。
在本发明的一个实施例中,获取实验数据集的具体步骤包括:
获取终端发送指令至数据集tox21和/或者数据集sider,并读取目标数据至获取终端。
在本发明的一个实施例中,数据预处理的具体步骤包括:
标识单元对获取终端读取的目标数据进行标识,并输出一表达式标识;
转化单元依据所述目标数据的表达式标识输出一分子图标识。
进一步的,标识单元通过SMILES表达式对分子数据进行描述,然后通过Rdkit工具将分子的SMILES表达式转换成分子图,该分子图主要包含了分子的重要节点及化学键特征,例如原子类型、原子手性标签、苯环类型等。需要说明的是,在分子图中,每个节点都代表一个原子,而每一条边都代表一个化学键。
在本发明的一个实施例中,提取分子特征信息的具体步骤包括:
依据分子图标识中的邻居节点及信息采用邻居聚合算法进行连接,并输出节点向量信息;
将节点向量信息进行组合,用以表示分子图。
在本发明的一个实施例中,获取化学分子图的图嵌入向量的步骤包括:
依据节点向量信息输出图嵌入向量。
更进一步,首先,初始化:针对单一的分子图使用节点和边在分子图中的属性来初始化这两个节点和边的表示;
之后采用邻居聚合算法,将当前节点周围的邻居节点及信息进行连接;经过几轮算法迭代,当前节点就可拥有周边的节点的向量信息表示,并将其组合作为分子图的表示;
最后,采用分子图最后一层的节点向量均值作为整个分子图的图嵌入向量,作为模型的输入向量。
在本发明的一个实施例中,搭建图卷积神经网络模型结构,利用实验数据集中的目标数据进行训练的具体操作包括:
搭建模型框架,依据该模型框架对多个目标数据进行训练任务,通过不同的目标数据训练任务的样本数据多次迭代更新参数,并输出模型参数θ,该参数将被用来对小样本任务进行迁移训练,实现在该性质上的预测;
对模型参数θ进行初始化设置;
更新模型参数θ,对所有目标数据执行训练任务。
进一步的,具体参照图2搭建模型框架,该模型框架通过同时训练多个任务,通过不同任务的样本数据多次迭代更新参数,最终会得到一个具有较好性能的模型参数θ。面对数据量较小的任务时,基于该模型参数再次进行训练,新训练的模型也可以拥有较好的模型预测性能。该框架的训练主要分为两部分训练training与测试testing。
需要说明的是,多个任务可以是预测分子的亲水性、预测分子的活性等;数据量较小的任务,包括但不限于一个新的预测任务,预测分子的毒性。
首先,采用随机初始化的方法为图卷积神经网络的参数θ,进行初始化设置。
在训练training部分,其主要目的是更新目标模型的参数θ,对所有的训练任务执行如下操作,参数更新参照图2实施:
首先对该批次的训练样本进行随机抽样,分成n份作support集,每个support集都代表一个预测任务,m份作query测试集。取其中一个训练任务为例进行参数更新描述。
本发明在此举例说明:首先取support集中的任务样本a,任务a拥有少量的训练数据。将上一步中得到的分子图向量表示输入到图卷积神经网络中,由图卷积神经网络进行训练,计算损失L,采用梯度下降算法将图卷积神经网络的模型的参数θ更新为θ′。
然后将任务a中的query测试集中的数据输入到θ′参数化的图卷积神经网络中进行测试,同时计算损失值L′,并将结果反馈到图卷积神经网络中。需要说明的是,其他的任务中同步进行上述操作。
最后,对所有任务的损失值L′进行求和,并利用其对图卷积神经网络模型参数进行更新。
在测试testing部分,对所有的测试任务执行如下操作:
对新一批测试任务进行抽样,用t个作support集,s个作query测试集。取单一任务e为例进行描述。取support集中任务e的分子图向量描述数据输入到图卷积神经网络模型利用training部分优化后的模型参数作为初始化参数θ进行学习训练,计算损失值并将θ更新为θ′,然后取query测试集中任务e的测试数据对更新参数后的模型进行测试,得到模型在该任务e中的性能表现结果。
当表现结果符合研究人员的精度要求,则将该模型应用到实际场景中进行预测,预测过程如图1所示:研究人员将新化合物A的SMILES表达式,然后用Rdkit工具将SMILES表达式转换成一个分子图的向量表示,然后由小样本迁移训练后的模型中进行预测,得到化合物A在目标性质下具体的数值。以此来辅助研究人员的研发工作。
需要说明的是t与s的和为其中一个目标数据的抽样总数,且n与m的和为另一个目标数据的抽样总数。
第二方面,本发明提供一种化学分子性质预测的系统,用于执行如上述第一方面所述的预测方法;该系统包括:
至少一个存在一个中央处理器,以及一个与中央处理器进行通信连接的存储器。
所述存储器,可以存储被中央处理器调用执行的程序指令,以及相关参数模型。
第三方面,本发明提供一种非暂态计算机可读存储介质,用于存储计算机指令,所述计算机指令使所述计算机执行上述第一方面所述的预测方法。
以上所述仅为本发明的较佳实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种化学分子性质预测的方法,其特征在于,该方法包括以下步骤:
获取终端收集实验数据集并对数据预处理;
提取分子特征信息;
获取化学分子图的图嵌入向量;
搭建图卷积神经网络模型结构,利用实验数据集中的目标数据进行训练;
利用目标图卷积神经网络模型对预测分子进行分子性质预测。
2.根据权利要求1所述的一种化学分子性质预测的方法,其特征在于:获取实验数据集的具体步骤包括:
获取终端发送指令至数据集,并读取目标数据至获取终端。
3.根据权利要求2所述的一种化学分子性质预测的方法,其特征在于:数据预处理的具体步骤包括:
标识单元对获取终端读取的目标数据进行标识,并输出表达式标识;
转化单元依据所述目标数据的表达式标识输出分子图标识。
4.根据权利要求1所述的一种化学分子性质预测的方法,其特征在于:提取分子特征信息的具体步骤包括:
依据分子图标识中的邻居节点及信息采用邻居聚合算法进行连接,并输出节点向量信息;
将节点向量信息进行组合,用以表示分子图。
5.根据权利要求4所述的一种化学分子性质预测的方法,其特征在于:获取化学分子图的图嵌入向量的步骤包括:
依据节点向量信息输出图嵌入向量。
6.根据权利要求1所述的一种化学分子性质预测的方法,其特征在于,搭建图卷积神经网络模型结构,利用实验数据集中的目标数据进行训练的具体操作包括:
搭建模型框架,依据该模型框架对多个目标数据进行训练任务,通过不同的目标数据训练任务的样本数据多次迭代更新参数,并输出模型参数θ,该参数将被用来对小样本任务进行迁移训练,实现在该性质上的预测;
对模型参数θ进行初始化设置;
更新模型参数θ,对所有目标数据执行训练任务;
该模型框架采用的是损失函数为分子性质预测损失函数,并且采用交叉熵公式进行具体计算。公式如下:
Figure FDA0003965839760000021
其中,k代表的是数据集中的任务数量,yi,
Figure FDA0003965839760000022
分别代表的是真实值与模型的预测值。
7.根据权利要求6所述的一种化学分子性质预测的方法,其特征在于:所述训练任务包括训练training和测试testing。
8.根据权利要求7所述的一种化学分子性质预测的方法,其特征在于:所述训练training的操作步骤包括:
对目标数据进行随机抽样,并输出n个support集,以及m个query测试集;且n与m的和为目标数据的总数。
9.一种化学分子性质预测的系统,其特征在于,用于执行如权利要求1-8任一项所述的预测方法;该系统包括:
至少存在一个中央处理器,以及一个与中央处理器进行通信连接的存储器,
所述存储器,可以存储被中央处理器调用执行的程序指令,以及相关参数模型。
10.一种非暂态计算机可读存储介质,其特征在于:所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行权利要求1至8任一项所述的预测方法。
CN202211498572.8A 2022-11-28 2022-11-28 一种化学分子性质预测的方法、系统及介质 Pending CN115719622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211498572.8A CN115719622A (zh) 2022-11-28 2022-11-28 一种化学分子性质预测的方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211498572.8A CN115719622A (zh) 2022-11-28 2022-11-28 一种化学分子性质预测的方法、系统及介质

Publications (1)

Publication Number Publication Date
CN115719622A true CN115719622A (zh) 2023-02-28

Family

ID=85256720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211498572.8A Pending CN115719622A (zh) 2022-11-28 2022-11-28 一种化学分子性质预测的方法、系统及介质

Country Status (1)

Country Link
CN (1) CN115719622A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189804A (zh) * 2023-04-17 2023-05-30 烟台国工智能科技有限公司 基于图卷积神经网络的反应条件预测方法及系统
CN117153294A (zh) * 2023-10-31 2023-12-01 烟台国工智能科技有限公司 一种单一体系的分子生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210065913A1 (en) * 2019-09-04 2021-03-04 University Of Central Florida Research Foundation, Inc. Artificial intelligence-based methods for early drug discovery and related training methods
CN113707235A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备
CN114141317A (zh) * 2021-12-07 2022-03-04 北京百度网讯科技有限公司 化合物性质预测模型训练方法、装置、设备以及存储介质
CN115101145A (zh) * 2022-06-27 2022-09-23 暨南大学 一种基于自适应元学习的药物虚拟筛选方法
CN115148302A (zh) * 2022-05-18 2022-10-04 上海天鹜科技有限公司 一种基于图神经网络与多任务学习的化合物性质预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210065913A1 (en) * 2019-09-04 2021-03-04 University Of Central Florida Research Foundation, Inc. Artificial intelligence-based methods for early drug discovery and related training methods
CN113707235A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 基于自监督学习的药物小分子性质预测方法、装置及设备
CN114141317A (zh) * 2021-12-07 2022-03-04 北京百度网讯科技有限公司 化合物性质预测模型训练方法、装置、设备以及存储介质
CN115148302A (zh) * 2022-05-18 2022-10-04 上海天鹜科技有限公司 一种基于图神经网络与多任务学习的化合物性质预测方法
CN115101145A (zh) * 2022-06-27 2022-09-23 暨南大学 一种基于自适应元学习的药物虚拟筛选方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189804A (zh) * 2023-04-17 2023-05-30 烟台国工智能科技有限公司 基于图卷积神经网络的反应条件预测方法及系统
CN117153294A (zh) * 2023-10-31 2023-12-01 烟台国工智能科技有限公司 一种单一体系的分子生成方法
CN117153294B (zh) * 2023-10-31 2024-01-26 烟台国工智能科技有限公司 一种单一体系的分子生成方法

Similar Documents

Publication Publication Date Title
CN115719622A (zh) 一种化学分子性质预测的方法、系统及介质
Zheng et al. SinNLRR: a robust subspace clustering method for cell type detection by non-negative and low-rank representation
CN107862173B (zh) 一种先导化合物虚拟筛选方法和装置
Fraser et al. A probabilistic view of gene function
CN112434462A (zh) 一种模型的获取方法及设备
Jiang et al. Predicting protein function by multi-label correlated semi-supervised learning
CN111488211A (zh) 基于深度学习框架的任务处理方法、装置、设备及介质
US11748615B1 (en) Hardware-aware efficient neural network design system having differentiable neural architecture search
CN111951946B (zh) 基于深度学习的手术排班系统、方法、存储介质和终端
Guzzi et al. Biological network analysis: Trends, approaches, graph theory, and algorithms
CN112101550A (zh) 分诊融合模型训练方法、分诊方法、装置、设备及介质
US20240055071A1 (en) Artificial intelligence-based compound processing method and apparatus, device, storage medium, and computer program product
CN115148302A (zh) 一种基于图神经网络与多任务学习的化合物性质预测方法
CN111627494A (zh) 基于多维特征的蛋白质性质预测方法、装置和计算设备
Manubens-Gil et al. BigNeuron: a resource to benchmark and predict performance of algorithms for automated tracing of neurons in light microscopy datasets
KR20220069871A (ko) 인공지능 모델의 학습을 위한 정형화된 연구 기록 데이터 자동생성 방법, 장치 및 컴퓨터프로그램
CN115526246A (zh) 一种基于深度学习模型的自监督分子分类方法
CN115116539A (zh) 对象确定方法、装置、计算机设备和存储介质
CN116978464A (zh) 数据处理方法、装置、设备以及介质
James et al. Knowledge graphs and their applications in drug discovery
Wang et al. Learning dynamics by computational integration of single cell genomic and lineage information
KR101849879B1 (ko) 유전체 염기서열 분석 파이프라인 처리시스템 및 방법
López-Fernández et al. The artificial intelligence workbench: a retrospective review
Fattore et al. Measuring structural dissimilarity between finite partial orders
KR20190010404A (ko) 유전체 염기서열 분석 파이프라인 처리시스템 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20230228