CN115148302A

CN115148302A - 一种基于图神经网络与多任务学习的化合物性质预测方法

Info

Publication number: CN115148302A
Application number: CN202210538525.5A
Authority: CN
Inventors: 柯颂; 杨晨星; 陈俊; 郭谦
Original assignee: Shanghai Tiandu Technology Co ltd
Current assignee: Tianzhi Yaocheng Technology (Chongqing) Co.,Ltd.
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-10-04

Abstract

本发明公开了一种基于图神经网络与多任务学习的化合物性质预测方法，结合图神经网络编码化合物的结构信息，具体包括根据化合物SMILES生成的化学结构图和计算得到的分子指纹；化学结构图包括原子对应的节点以及化学键对应的边；构建节点的原始节点特征和边的原始边特征；通过图神经网络的消息传播和聚合可以获得化学架构图的图嵌入表示；通过结合图嵌入和分子指纹，再经过多层感知机输出目标化合物的性质预测结果；同时该模型还可以结合多任务学习，同时对目标化合物的多个性质进行学习预测，并可以提高预测精度。本发明适用于单任务也可以适用于多任务，多任务的多轮消息传播模型共享，并且多层感知机的输入是图嵌入和分子指纹拼接而成的向量。

Description

一种基于图神经网络与多任务学习的化合物性质预测方法

技术领域

本发明属于人工智能技术和药物研发技术领域，具体涉及一种基于图神经网络与多任务学习的化合物性质预测方法。

背景技术

在药物分析中，如何根据化合物的结构判断或预测物质的一些性质如化学、生物性质，例如ADMET性质(化合物的吸收、分配、代谢、排泄和毒性)等等，是一件非常重要的任务。

目前的化合物性质预测方式是采用人工智能(AI，Artificial Intelligence)来实现。比如，可以将性质预测这类任务建模成AI深度学习中的回归或分类问题。具体地，可以通过表示学习的方式，将化合物的结构式从非欧式空间中转化为欧式空间中的向量，然后通过深度神经网络对其进行回归或分类预测，进而判断或预测物质的性质如化学/生物性质。但是大部分AI深度学习所使用的源数据较为单一，预测准确率比较低。

发明内容

针对上述现有技术中描述的不足，本发明提供一种基于图神经网络与多任务学习的化合物性质预测方法。本发明使用自定义的图卷积分子特征提取器提取分子的结构特征，然后使用多轮消息传播模型获取其图嵌入，并将得到的图嵌入与分子指纹结合后使用多层感知机进行预测，同时本发明使用多任务学习来提高性质预测的准确率。

本发明所采用的技术方案为：

一种基于图神经网络与多任务学习的化合物性质预测方法，包括：

获取任务目标化合物的化学结构信息：化学结构信息包括原子和化学键；

根据任务目标化合物化学结构信息计算任务目标化合物的分子指纹：

根据任务目标化合物的化学结构信息获得任务目标化合物的化学结构信息的图嵌入；

特征拼接：

将任务目标化合物的分子指纹和图嵌入拼接作为任务目标化合物的最终特征向量；

性能预测：

任务目标化合物的最终特征向量输入到多层感知机中得到并输出任务目标化合物的理化性质或生物性质的预测结果。所述的多层感知机由多层全连接层组成，其中除了最后一层每一层的输出大小都是隐藏层的大小，最后一层全连接层的输入大小是隐藏层的输出大小，输出大小则是1，层数设置为3或4。

作为本发明的一种优选方案，对于一个任务时，所述任务目标化合物图嵌入的获取包括：

根据任务目标化合物的化学结构信息生成对应的化学结构图；所述化学结构图包括所述原子对应的节点以及所述化学键对应的边；

构建所述节点的原始节点特征和所述边的原始边特征；

获得节点多轮消息传播后的传播状态信息；

根据各节点的原始节点特征和边的原始边特征，在各所述节点上于多轮消息传播模型中依次进行多轮消息传播，获得各所述节点经过多轮消息传播后的传播状态信息；

获得化学结构图的图嵌入；

通过各节点多轮消息传播后的传播状态信息获得各节点的目标节点特征；

对所有节点的目标节点特征进行聚合或池化得到所述化学结构图的图嵌入。

具体是可以将同一化学结构图的所有节点的目标节点特征的均值作为整个化学结构图的图嵌入，并且都是以向量形式表现。

作为本发明的一种优选方案，当任务为至少两个时，各任务目标化合物图嵌入的获取包括：

根据各任务目标化合物的化学结构信息生成各任务目标化合物对应的化学结构图；每个所述化学结构图包括所述原子对应的节点以及所述化学键对应的边；

对每个任务分别构建所述节点的原始节点特征和所述边的原始边特征；

各任务共享多轮消息传播模型，并按序获得各任务中每个节点多轮消息传播后的传播状态信息；

每个任务根据各节点的原始节点特征和边的原始边特征，按序在各所述节点上于共享的多轮消息传播模型中进行多轮消息传播，获得每个任务中各所述节点经过多轮消息传播后的传播状态信息；

获得各任务化学结构图的图嵌入：

通过每个任务中各节点经过多轮消息传播后的传播状态信息获得每个任务中各节点的目标节点特征；所述的目标节点特征可以直接将节点的当前传播状态信息作为节点的目标节点特征。

对每个任务中所有节点的目标节点特征进行聚合或池化得到每个任务的化学结构图的图嵌入。具体是可以将同一化学结构图的所有节点的目标节点特征的均值作为整个化学结构图的图嵌入，并且都是以向量形式表现。

并且对于多任务的预测，是将各任务的目标化合物的分子指纹和对应的图嵌入拼接作为各任务目标化合物的最终特征向量；

各任务的最终特征向量输入到各自对应的多层感知机中得到并输出各任务目标化合物的理化性质或生物性质的预测结果。

在进行实际预测前，必然需要对各模型进行训练，对于至少两个任务的训练过程为：

分别获得各任务样本化合物的样本化学结构信息；

获得各任务样本化合物的样本分子指纹；

根据各样本化学结构信息获得各任务的样本化学结构图；

构建各任务的样本节点的原始节点特征和样本边的原始边特征并集合在各任务的样本输入集中；

将各任务的样本输入集按批次输入到多轮消息传播模型，多轮消息传播模型先对一个任务的一个批次数据进行训练，将得到的预测结果与实际结果对比更新多轮消息传播模型的参数，然后更新后的多轮消息传播模型对另一个任务的一个批次数据进行训练并更新多轮消息传播模型的参数，直至多轮消息传播模型对每个任务的样本输入集都训练一批数据；然后进行各样本输入集下一批次的训练，直至各任务中样本输入集中最大样本输入集中数据都被训练一次，则完成当前轮Epoch训练；

对于同一轮Epoch训练，小样本输入集在完成自身1轮Epoch训练后会进行自身下一轮Epoch训练直至大样本输入集完成当前轮Epoch训练；

各任务的样本输入集经过多轮消息传播模型后得到各任务中各样本节点的传播状态信息，然后获得各任务中各样本节点的目标节点特征；

对各任务的所有样本节点的目标节点特征聚合或池化得到各任务样本化学结构图的样本图嵌入；

将各任务的样本图嵌入与对应的样本分子指纹拼接得到各任务的最终特征向量；

将各任务的最终特征向量输入到对应的多层感知机中进行训练得到各任务样本化合物的理化性质或生物性质的预测结果。

作为本发明的一种优选方案，所述多轮消息传播模型为图神经网络模型，并且多层感知机的隐藏层大小与图神经网络模型的隐藏层大小相同。

作为本发明的一种优选方案，所述化合物的理化性质或生物性质的预测结果为分类任务的0或1或回归任务的预测线性值。对于分类任务则使用分类任务的样本数据进行训练，对于回归任务的预测线性值，则使用回归任务的样本数据进行训练。

作为本发明的一种优选方案，在构建节点的原始节点特征和边的原始边特征时，基于DeepChem的分子图卷积特征提取器自定义一个新的特征提取器ConvMolFeaturer，该特征提取器可以提取原子的属性信息作为原子在图结构中作为节点的原始特征，也可以提取化学键的属性信息作为化学键在图结构中作为边的原始特征。

该特征提取器ConvMolFeaturer提取原子的属性信息构建节点的原始节点特征，该原始节点特征为向量，且维度为75。

特征提取器提取的所述原子的属性信息，包括原子名称，原子连接数、原子隐藏化合价、原子形式电荷，原子杂化方式，是否为芳香键等；

并且对各原子属性的编码方法为：

原子名称编码为在允许在化合物分子中出现的元素列表中的位置，其中允许的元素由44种，该列表中同时使用‘unknown’字符串来代替那些不允许出现的元素；

原子连接数、原子隐藏化合价和原子形式电荷编码为该数字本身；

原子杂化方式编码为对应杂化方式在杂化方式列表中的位置，其中杂化方式列表包括5种杂化方式SP、SP2、SP3、SP3D、SP3D2；

根据该原子是否为芳香键编码为0或1，是为1，否为0。

特征提取器提取的所述化学键的属性信息包括化学键种类，化学键价态、是否成环。其中化学键类型包括单键，双键，三键以及方向键、共轭键。并根据是否成环编码为0或1，是为1，否为0。

本发明中是在节点上进行消息传播，并且边的特征信息共享于各轮消息传播，具体是将化学结构图上的每个节点作为一个实体，节点上的信息通过每个节点的公共边进行传播，通过多轮迭代消息传播，对节点的相关节点的信息进行聚合，构建出节点的特征信息，从而提升性质预测的准确性。本发明适用于单任务也可以适用于多任务，多任务的多轮消息传播模型共享，并且多层感知机的输入是图嵌入和分子指纹拼接而成的向量。并且单任务与多任务的模型设置参数可以相同也可以不同。同时针对不同的多任务组合，可以选择不同的模型设置参数。各个任务的多层感知机是具有相同结构的，但是参数是独立的，互不影响的，这样可以在进行多任务训练之后，使得模型参数针对下游任务进一步调整和优化，从而使得每个任务可以借助其他任务的标注数据集对模型进行优化并提供模型效果。通过图神经网络的消息传播和聚合可以获得化学架构图的图嵌入表示；通过结合图嵌入表示和分子指纹，再经过多层感知机输出目标化合物的理化性质或生物性质的预测结果；同时该模型还可以结合多任务学习，同时对目标化合物的多个性质进行学习预测，并可以提高预测精度。该方法可以帮助药物化学等从事药物发现人员针对自己的潜在化合物进行快速性质预测，筛选目标化合物，加快药物发现。本发明使用自定义的特征提取器提取分子的结构特征，然后使用多轮消息传播模型获取其图嵌入，并将得到的图嵌入与分子指纹结合后使用多层感知机进行预测，同时本发明使用多任务学习来提高性质预测的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的场景示意图。

图2是本发明单任务预测的流程图。

图3是本发明多任务预测的流程图。

图4是本发明多任务的训练及属性预测任务示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于图神经网络与单任务学习的化合物性质预测方法，如图1和2所示，包括：

获取任务目标化合物的化学结构信息：化学结构信息包括原子和化学键，可以是化合物的SMILES；

可以利用Chem工具包计算多种分子指纹，例如MACCS，RDKFingerprint，AvalonFP，Morgan等等，并将使用上述工具计算得到的分子指纹进行向量拼接，构建目标化合物的最终分子指纹，本申请实例中，采用上述4种工具计算得到的分子指纹向量拼接后得到目标化合物的最终分子指纹，向量维度为2727。

所述任务目标化合物图嵌入的获取包括：

构建所述节点的原始节点特征和所述边的原始边特征；具体构建时：

基于DeepChem的分子图卷积特征提取器自定义一个新的特征提取器ConvMolFeaturer，该特征提取器ConvMolFeaturer可以提取原子的属性信息作为原子在图结构中作为节点的原始特征，也可以提取化学键的属性信息作为化学键在图结构中作为边的原始特征。该原始节点特征和原始边特征均为向量，且维度为75。

并且该特征提取器ConvMolFeaturer提取的所述原子的属性信息，包括原子名称，原子连接数、原子隐藏化合价、原子形式电荷，原子杂化方式，是否为芳香键等；

对各原子属性的编码方法为：

根据该原子是否为芳香键编码为0或1，是为1，否为0。

获得节点多轮消息传播后的传播状态信息；

根据各节点的原始节点特征和边的原始边特征，在各所述节点上于多轮消息传播模型中依次进行多轮消息传播，获得各所述节点经过多轮消息传播后的传播状态信息；多轮消息传播模型采用图神经网络，并且在多轮传播时，边的特征信息共享与各轮消息传播。

获得化学结构图的图嵌入；

通过各节点多轮消息传播后的传播状态信息获得各节点的目标节点特征；所述的目标节点特征可以直接用当前传播状态信息，并且以向量形式表现。

特征拼接：

性能预测：

任务目标化合物的最终特征向量输入到多层感知机中得到并输出任务目标化合物的性能预测结果。所述的多层感知机由多层全连接层组成，其中除了最后一层每一层的输出大小都是隐藏层的大小，最后一层全连接层的输入大小是隐藏层的输出大小，输出大小则是1，层数设置为3或4，并且隐含层的维度一般为128维或256维。

所输出的理化性质或生物性质的预测结果可以是分类任务的0或者1如有无毒性等等，也可以是回归任务的预测线性值如LogP、LogS等等。

在预测之前，需要对模型进行训练，通过收集样本数据，并将样本数据划分为训练集、验证集和测试集，对于数据按上述过程进行处理对多轮消息传播模型和多层感知机进行训练。

下面以Pgp-inhibitor分类任务为例，对训练以及预测过程进行说明：

收集Pgp-inhibitor有标注的数据集，其中数据集有2210条数据，具体数据包括分子的SMILES与对应的标签(0或1)；

将Pgp-inhibitor数据集按照8：1：1划分为训练集，验证集，测试集；

将以上三个数据集分别使用特征提取器ConvMolFeaturer提取数据集中所有分子的原子特征、化学键特征和邻接矩阵并将其存储为对应的文件，其中原子与分子特征维度均为75；

计算分子的分子指纹，特征维度为2727；

读取以上文件，将训练集、验证集、测试集分别转为对应Dataset对象，然后转为Dataloader对象便于模型训练；

模型载入，本任务中使用图同构网络神经模型(GIN)作为训练模型，其中消息传播轮数设置为3，MLP单元使用3层全连接层；

由于Pgp-inhibitor是分类任务，使用BCELoss作为损失函数，AUC作为评判指标(Metric)；优化器使用Adam，学习率为0.001。

按照批次依次训练，直至达到最大训练Epoch，其中在本任务中最大Epoch数设置为500，Batch Size设置为256。

模型在训练中保存在验证集预测效果最好的时候的模型作为最后训练完成的模型。

本申请还对BBBPenetration、CYP1A2inhibitor分别进行了训练预测，预测结果如表1所示，在Pgp-inhibitor验证集和Pgp-inhibitor测试集的预测结果的AUC分别为0.901，0.928。

表1

任务名称	指标	任务模型	训练集指标	验证集指标	测试集指标
						Pgp-inhibitor	AUC	单任务	0.999	0.901	0.928
BBBPenetration	AUC	单任务	0.999	0.943	0.89
						CYP1A2inhibitor	AUC	单任务	0.986	0.96	0.943

对于两个及两个以上的多任务预测时，如图3和4所示，所使用的预测方法为：

获取各任务目标化合物的化学结构信息：化学结构信息包括原子和化学键；可以输入或从公开数据库中获取；

根据各任务目标化合物化学结构信息计算任务目标化合物的分子指纹：

根据各任务目标化合物的化学结构信息获得任务目标化合物的化学结构信息的图嵌入；

各任务目标化合物图嵌入的获取包括：

获得各任务化学结构图的图嵌入：

将各任务的目标化合物的分子指纹和对应的图嵌入拼接作为各任务目标化合物的最终特征向量；

每个任务共用一个多轮消息传播模型但是都具有各自的多层感知机，在对多任务预测进行训练时：

分别获得各任务样本化合物的样本化学结构信息；

获得各任务样本化合物的的样本分子指纹；

根据各样本化学结构信息获得各任务的样本化学结构图；

将各任务的最终特征向量输入到对应的多层感知机中进行训练得到各任务样本化合物的理化性质或生物性质预测结果。

下面以LogS和LogP任务为例对多任务训练以及预测过程进行说明：

收集LogS和LogP的有标注的数据集，其中LogS数据集有4801条数据，LogP数据集有12696条数据；具体数据包括分子的SMILES与对应的标签(连续值空间)；

将LogS数据集和LogP数据中分别按照8：1：1划分为训练集，验证集，测试集；

将训练集、验证集和测试集分别使用特征提取器ConvMolFeaturer提取各数据集中所有分子的原子特征、化学键特征和邻接矩阵并将其存储为对应的文件，其中原子与分子特征维度均为75；

计算各任务的分子指纹，特征维度为2727；

读取以上保存的特征文件，将LogS和LogP的训练集、验证集、测试集分别转为对应Dataset对象，然后转为Dataloader对象便于训练；

模型载入，本任务中使用图同构网络神经模型(GIN)作为训练模型，该GIN单元在训练中LogS和LogP任务训练中是共享的，其中消息传播轮数设置为3，LogS和LogP任务的MLP单元是相同的，均由3层全连接层构成，但是参数不共享；

由于LogS和LogP都是回归预测任务，使用RegLoss作为损失函数，R2作为评判指标(Metric)；优化器使用Adam，学习率为0.001。

模型具体训练流程：先取LogS的一个批次的数据进行模型训练，计算损失函数，梯度回传，更新LogS的多层感知机和共享的GIN网络参数，然后取LogP的一个批次数据继续进行训练，计算损失函数，梯度回传，更新LogP的多层感知机和共享的GIN网络参数。

如此往复，直至这两个任务中最大训练集一轮数据训练完成则完成了1个Epoch训练，其中大训练集未完成1轮Epoch，而小数据集率先完成1轮Epoch，则小的训练集会重新进行一轮Epoch训练直至最大的训练集完成该轮Epoch训练。

按照上述流程训练，直至达到最大训练Epoch，其中在本任务中最大Epoch数设置为100，Batch Size设置为512。

模型在训练中保存在验证集预测效果最好的时候的模型作为最后训练完成的模型，其中验证集预测效果最好的时候指的是在所有任务中都达到最好的时候。

最后模型的预测结果如表2所示，LogS在验证集和测试集的预测决定系数R2分别为0.859和0.865，LogP在验证集和测试集的预测决定系数R2分别为0.946，0.946。

表2

任务名称	指标	任务模型	训练集指标	验证集指标	测试集指标
						LogS	R2	多任务	0.993	0.859	0.865
LogP	R2	多任务	0.989	0.946	0.946

本发明结合图神经网络编码化合物的结构信息，具体包括根据化合物SMILES生成的化学结构图和计算得到的分子指纹；化学结构图包括原子对应的节点以及化学键对应的边；构建节点的原始节点特征和边的原始边特征；通过图神经网络的消息传播和聚合可以获得化学架构图的图嵌入表示；通过结合图嵌入和分子指纹，再经过多层感知机输出目标化合物的性质预测结果；同时该模型还可以结合多任务学习，同时对目标化合物的多个性质进行学习预测，并可以提高预测精度。该方法可以帮助药物化学等从事药物发现人员针对自己的潜在化合物进行快速性质预测，筛选目标化合物，加快药物发现。

本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图神经网络与多任务学习的化合物性质预测方法，其特征在于，包括：

特征拼接：

性能预测：

任务目标化合物的最终特征向量输入到多层感知机中得到并输出任务目标化合物的理化性质或生物性质的预测结果。

2.根据权利要求1所述的基于图神经网络与多任务学习的化合物性质预测方法，其特征在于：一个任务时，所述任务目标化合物图嵌入的获取包括：

构建所述节点的原始节点特征和所述边的原始边特征；

获得节点多轮消息传播后的传播状态信息；

获得化学结构图的图嵌入；

通过各节点多轮消息传播后的传播状态信息获得各节点的目标节点特征；对所有节点的目标节点特征进行聚合或池化得到所述化学结构图的图嵌入。

3.根据权利要求1所述的基于图神经网络与多任务学习的化合物性质预测方法，其特征在于：当任务为至少两个时，各任务目标化合物图嵌入的获取包括：

获得各任务化学结构图的图嵌入：

通过每个任务中各节点经过多轮消息传播后的传播状态信息获得每个任务中各节点的目标节点特征；

对每个任务中所有节点的目标节点特征进行聚合或池化得到每个任务的化学结构图的图嵌入。

4.根据权利要求3所述的基于图神经网络与多任务学习的化合物性质预测方法，其特征在于：当任务为至少两个时，将各任务的目标化合物的分子指纹和对应的图嵌入拼接作为各任务目标化合物的最终特征向量；

5.根据权利要求3所述的基于图神经网络与多任务学习的化合物性质预测方法，其特征在于，对于至少两个任务的训练过程为：

分别获得各任务样本化合物的样本化学结构信息；

获得各任务样本化合物的样本分子指纹；

根据各样本化学结构信息获得各任务的样本化学结构图；

将各任务的样本输入集按批次输入到多轮消息传播模型，多轮消息传播模型先对一个任务的一个批次数据进行训练并更新多轮消息传播模型的参数，然后更新后的多轮消息传播模型对另一个任务的一个批次数据进行训练并更新多轮消息传播模型的参数，直至多轮消息传播模型对每个任务的样本输入集都训练一批数据；然后进行各样本输入集下一批次的训练，直至各任务中样本输入集中最大样本输入集中数据都被训练一次，则完成当前轮Epoch训练；

6.根据权利要求1-5中任一所述的基于图神经网络与多任务学习的化合物性质预测方法，其特征在于，节点的目标节点特征为当前传播状态信息。

7.根据权利要求1-5中任一所述的基于图神经网络与多任务学习的化合物性质预测方法，其特征在于，所述多轮消息传播模型为图神经网络模型，并且多层感知机的隐藏层大小与图神经网络模型的隐藏层大小相同。

8.根据权利要求7所述的基于图神经网络与多任务学习的化合物性质预测方法，其特征在于，所述化合物的理化性质或生物性质的预测结果为分类任务的0或1或回归任务的预测线性值。

9.根据权利要求7所述的基于图神经网络与多任务学习的化合物性质预测方法，其特征在于：根据原子的属性信息构建节点的原始节点特征；所述原子的属性信息，包括原子名称，原子连接数、原子隐藏化合价、原子形式电荷，原子杂化方式，是否为芳香键中的一种或多种；

根据化学键的属性信息构建边的原始边特征；所述化学键的属性信息包括化学键种类，化学键价态、是否成环。