CN114550847B

CN114550847B - 基于图卷积神经网络的药物口服利用度及毒性预测方法

Info

Publication number: CN114550847B
Application number: CN202210107731.0A
Authority: CN
Inventors: 李星辰; 李桥; 王宇涛; 姚雯; 周炜恩
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2024-04-16
Anticipated expiration: 2042-01-28
Also published as: CN114550847A

Abstract

本发明公开了一种基于图卷积神经网络的药物口服利用度及毒性预测方法，包括：S1，准备初始训练集；S2，建立药物的图模型，获取训练集；S3，利用训练集训练图卷积神经网络和全连接神经网络，拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系；S4，分别对训练数据中的每个分子描述符特征进行数值修改，利用神经网络对修改后的训练数据进行预测，确定对应的预测值误差；S5，对药物的所有分子描述符特征进行排序，标定位于前序的分子描述符特征，删除未被标定的药物的分子描述符特征，对训练数据进行更新；S6，重新训练步骤S3构建的图卷积神经网络和全连接神经网络。本发明能够得到具有高预测精度的药物口服利用度及毒性预测模型。

Description

基于图卷积神经网络的药物口服利用度及毒性预测方法

技术领域

本发明涉及计算机辅助药物设计技术领域，具体涉及一种基于图卷积神经网络的药物口服利用度及毒性预测方法。

背景技术

在药物筛选阶段，获得具有特定药理性质的药物后，需要对其有效性和安全性做出评价。传统方法通过临床药理学的手段，开展新药的动物试验以及Ⅰ、II、Ⅲ期临床试验，评价其安全性和有效性，并在药物上市后的应用阶段开展Ⅳ期临床试验，考察药物疗效和不良反应。由于参与临床试验的患者数量有限，而每年却有大量的新药投入临床试验中，使得一款新药从研发到问世需要耗费大量的人力物力以及时间成本。此外，虽然对先导化合物的有效筛选可以获得治疗作用很好的药物，但药物的人体口服利用度以及药物对心脏和遗传的毒性却是未知的，即便通过动物试验，也不能保证后续投入临床试验时不会产生任何风险。

随着计算机技术和机器学习技术的发展，使用深度学习网络进行药物的药代动力学性质和毒性预测为药物研发提供了一种新策略。然而，现有的使用深度学习网络的预测方法中，仅考虑了药物的分子描述符或者分子指纹特征，在将特征输入后续的预测模型时缺少分子的结构信息，并且分子描述符特征未进行筛选，当采用全部的分子描述符特征时，会导致对药物利用度及毒性的预测精度降低。

发明内容

为解决上述现有技术中存在的部分或全部技术问题，本发明提供一种基于图卷积神经网络的药物口服利用度及毒性预测方法。

本发明的技术方案如下：

提供了一种基于图卷积神经网络的药物口服利用度及毒性预测方法，所述方法包括以下步骤：

S1，准备初始训练集，其中，初始训练集包括多个初始训练数据，初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性；

S2，根据药物的SMILES表达式，建立药物的图模型，获取训练集，其中，训练集包括多个训练数据，训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性；

S3，构建图卷积神经网络和全连接神经网络，利用训练集训练图卷积神经网络和全连接神经网络，以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系，其中，图卷积神经网络的输入为药物的图模型，全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出，输出为药物的口服利用度及毒性的预测值；

S4，针对药物的每一个分子描述符特征，对每个训练数据中对应的分子描述符特征进行数值修改，利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测，确定当前修改的分子描述符特征所对应的预测值误差；

S5，按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序，标定位于前序的预设数量的药物的分子描述符特征，删除每个训练数据中未被标定的药物的分子描述符特征，对训练数据进行更新；

S6，利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络，利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。

在一些可能的实施方式中，所述药物的毒性包括：心脏毒性和遗传毒性。

在一些可能的实施方式中，所述根据药物的SMILES表达式，建立药物的图模型，包括：

根据药物的SMILES表达式，采用节点表示原子或离子，采用边表示原子和/或离子之间的化学键，采用边的权重表示化学键类型，建立药物的SMILES表达式对应的药物的图模型。

在一些可能的实施方式中，所述图卷积神经网络为多层图卷积神经网络。

在一些可能的实施方式中，多层图卷积神经网络为残差图卷积神经网络、稠密图卷积神经网络、或U型图神经网络。

在一些可能的实施方式中，步骤S3中，在利用训练集训练图卷积神经网络和全连接神经网络时，在图卷积神经网络的输出层在特征维度进行平均池化处理，对训练数据中的药物的分子描述符进行归一化处理，将将归一化处理后的分子描述符和池化处理后的图卷积神经网络的输出进行特征合并，作为全连接神经网络的输入。

在一些可能的实施方式中，利用以下公式进行分子描述符的归一化处理；

其中，表示归一化后的分子描述符，x^d表示分子描述符的原始值，/>表示分子描述符的最大值，/>表示分子描述符的最小值。

在一些可能的实施方式中，步骤S3中，在利用训练集训练图卷积神经网络和全连接神经网络时，采用绝对值误差作为损失函数。

在一些可能的实施方式中，利用以下公式计算当前修改的分子描述符特征所对应的预测值误差；

其中，Err(j)表示预测值误差，N表示训练数据数量，表示对归一化处理后的第i个训练数据中的药物的分子描述符第j维特征进行数值修改后的分子描述符数据，m表示分子描述符的特征维数，/>表示第i个训练数据中的药物的SMILES表达式对应的图模型，θ表示图卷积神经网络和全连接神经网络的参数，f(·)表示神经网络的映射关系，y_i表示第i个训练数据中的药物口服利用度及毒性数据。

本发明技术方案的主要优点如下：

本发明的基于图卷积神经网络的药物口服利用度及毒性预测方法通过利用图卷积神经网络提取药物分子结构特征，利用重要性排序思想对药物的分子描述符特征进行排序和筛选，基于图卷积神经网络提取的药物分子结构特征和筛选后的药物的分子描述符训练全连接神经网络，能够获得具有高预测精度的药物口服利用度及毒性预测模型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例的基于图卷积神经网络的药物口服利用度及毒性预测方法的流程图；

图2为本发明一实施例的基于图卷积神经网络的药物口服利用度及毒性预测方法的数据处理过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明实施例提供的技术方案。

参见图1和图2，本发明一实施例提供了一种基于图卷积神经网络的药物口服利用度及毒性预测方法，该方法包括以下步骤：

本发明一实施例提供的基于图卷积神经网络的药物口服利用度及毒性预测方法通过利用图卷积神经网络提取药物分子结构特征，利用重要性排序思想对药物的分子描述符特征进行排序和筛选，基于图卷积神经网络提取的药物分子结构特征和筛选后的药物的分子描述符训练全连接神经网络，能够获得具有高预测精度的药物口服利用度及毒性预测模型。

以下对本发明一实施例提供的基于图卷积神经网络的药物口服利用度及毒性预测方法的步骤及原理进行具体说明。

步骤S1，准备初始训练集，其中，初始训练集包括多个初始训练数据，初始训练数据包括药物的分子描述符和SMILES表达式、以及药物的口服利用度和毒性。

具体地，可以通过各种途径收集N个已知药物的口服利用度和毒性数据，以及N个已知药物的分子描述符和SMILES表达式数据，得到N个初始训练数据作为初始训练集。其中，/>表示第i个已知药物的分子描述符，/>表示第i个已知药物的SMILES表达式，y_i表示第i个已知药物的口服利用度和毒性。

初始训练数据的数量N可以根据训练效率要求和代理模型的初始精度要求进行确定。

本发明一实施例中，药物的毒性可以包括：心脏毒性和遗传毒性。

步骤S2，根据药物的SMILES表达式，建立药物的图模型，获取训练集，其中，训练集包括多个训练数据，训练数据包括药物的分子描述符和药物的图模型、以及药物的口服利用度和毒性。

图是一种类似于图像的数据结构，但是与图像不同的是图不规则，能够存储与处理非规则化、非区域化的数据，而药物分子是不同原子通过不同的化学键进行连接。为此，本发明一实施例中，根据药物的SMILES表达式，建立相应的药物的图模型，以便于后续进行药物分子结构特征的提取。

定义图的关键是图中节点和边的建立，针对图G＝(V,E)，建立药物的图模型过程就是根据药物分子的结构信息，用原子或原子建立节点，用原子和/或离子之间的化学键构建边的过程。

由于，药物分子的原子或离子种类不同，之间的化学键类型也不同，本发明一实施例中，根据药物的SMILES表达式，建立药物的图模型，包括：

具体地，可以利用开源的化学信息软件包对药物的SMILES表达式进行处理，以建立对应的药物的图模型。

步骤S3，构建图卷积神经网络和全连接神经网络，利用训练集训练图卷积神经网络和全连接神经网络，以拟合药物的分子描述符及图模型与药物的口服利用度及毒性的映射关系，其中，图卷积神经网络的输入为药物的图模型，全连接神经网络的输入为药物的分子描述符和图卷积神经网络的输出，输出为药物的口服利用度及毒性的预测值。

图卷积神经网络的图卷积操作是类似于图像处理中卷积操作的层，能够提取节点的邻域信息并通过可以学习的参数向下一层进行传递。其中，图卷积操作可以分为两个步骤，包括聚合和传递，具体可以表示为：

H^l＝AH^l

f^l(H^l,θ^l)＝σ(H^lθ^l)

其中，A表示邻接矩阵，H^l表示图卷积神经网络第l层的特征，θ^l表示图卷积神经网络第l层的参数，σ(·)表示非线性激活函数，f^l(·)表示图卷积神经网络第l层的映射关系。

邻接矩阵A与特征H^l相乘的作用是使节点的邻接节点值求和聚集到该节点上，为了不丢失节点自身的信息，解决节点自身的信息需要向下传递的问题，邻接矩阵加入了自循环，具体表示为：

其中，表示加入自循环的邻接矩阵，I_N表示单位矩阵

进一步地，为避免每经过一次相乘节点特征的尺度就会变大，利用度矩阵对邻域矩阵进行归一化处理，实现图卷积层对节点信息的聚合与传递。具体地，在归一化处理后，邻域信息提取的公式可以改写为：

其中，表示加入自循环的度矩阵。

本发明一实施例中，为了对药物分子的结构特征信息进行充分提取，图卷积神经网络为多层图卷积神经网络。其中，多层图卷积神经网络可以为残差图卷积神经网络(Residual Graph Convolutional Network，ResGCN)、稠密图卷积神经网络(Dense GraphConvolutional Network，DenseGCN)、或U型图神经网络(Graph U-Net)。

本发明一实施例中，为提取显著特征的同时降低模型的参数，降低模型的过拟合，在图卷积神经网络的输出层在特征维度进行平均池化，得到一个多维向量，以作为药物分子结构特征，进行后续的全连接神经网络的训练。

进一步地，可利用开源的深度学习框架建立全连接神经网络，全连接神经网络能够通过参数学习得到合适的模型，从而实现对指定的性质指标进行预测。

为了避免不同维度之间的特征因为数值量级问题影响相同作用的权重，本发明一实施例中，在利用训练集对神经网络进行训练之前，对训练数据中的药物的分子描述符进行归一化处理，以将分子描述符的数值限制在[0,1]区间。具体地，利用以下公式进行分子描述符的归一化处理；

本发明一实施例中，将归一化处理后的分子描述符和图卷积神经网络输出的药物分子结构特征进行特征合并，以作为全连接神经网络的输入。具体地，设定图卷积神经网络输出的药物分子结构特征为n维特征，归一化处理后的分子描述符为m维特征，采用首尾连接方式进行特征合并得到n+m维特征，作为全连接神经网络的输入，其中，前n维为药物分子结构，后m维为药物的分子描述符。

进一步地，当药物的毒性包括心脏毒性和遗传毒性时，全连接神经网络的输出为三维，包括药物口服利用度、心脏毒性和遗传毒性。

神经网络作为数据驱动的一项技术，需要通过训练数据对神经网络的参数进行更新，以保证在预测的时候神经网络能够具有较高的预测精度。

本发明一实施例中，神经网络的输入为药物的图模型和归一化处理后的药物的分子描述符，神经网络的最终输出为药物口服利用度及毒性的预测值。具体地，药物口服利用度及毒性的预测值可以表示为：

其中，表示第i个训练数据对应的药物口服利用度及毒性的预测值，f(·)表示神经网络的映射关系，/>表示归一化处理后的第i个训练数据中的药物的分子描述符，/>表示第i个训练数据中的药物的SMILES表达式对应的图模型，θ表示图卷积神经网络和全连接神经网络的参数。

进一步地，本发明一实施例中，在进行神经网络训练时，采用绝对值误差作为损失函数。具体地，损失函数表示为：

神经网络训练的过程本质是一个优化问题，希望在决策空间中找到全局最优解，使得损失函数达到最小值。具体地，在神经网络的训练过程中，采用梯度下降的思想进行更新，首先通过链式法则求得参数梯度，然后对参数进行更新。

具体地，参数的更新过程可表述为：

其中，γ表示学习率，用于调节参数θ的更新速度。

步骤S4，针对药物的每一个分子描述符特征，对每个训练数据中对应的分子描述符特征进行数值修改，利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测，确定当前修改的分子描述符特征所对应的预测值误差。

由于药物的分子描述符特征数量众多，而部分分子描述符特征对预测结果没有影响，有的甚至会产生相反的作用。为此，本发明一实施例中，在进行神经网络的训练过程中，对药物的分子描述符特征进行筛选，删除训练数据中对预测结果没有影响、影响较低或者有负影响的部分分子描述符特征，基于删除处理后的训练数据对神经网络重新进行训练，以提高最终训练得到的神经网络的预测精度。

本发明一实施例中，利用重要性排序思想对药物的分子描述符特征进行排序和筛选。具体地，针对药物的每一个分子描述符特征，对每个训练数据中对应的分子描述符特征进行数值修改，利用当前训练后的图卷积神经网络和全连接神经网络对修改后的训练数据进行预测，确定当前修改的分子描述符特征所对应的预测值误差。其中，可以将分子描述符特征修改为设定值。

具体地，利用以下公式计算当前修改的分子描述符特征所对应的预测值误差；

其中，Err(j)表示预测值误差，N表示训练数据数量，表示对归一化处理后的第i个训练数据中的药物的分子描述符第j维特征进行数值修改后的分子描述符数据，m表示分子描述符的特征维数，/>表示第i个训练数据中的药物的SMILES表达式对应的图模型，θ表示图卷积神经网络和全连接神经网络的参数，f(·)表示神经网络的映射关系。

步骤S5，按照预测值误差从小到大的顺序依次对药物的所有分子描述符特征进行排序，标定位于前序的预设数量的药物的分子描述符特征，删除每个训练数据中未被标定的药物的分子描述符特征，对训练数据进行更新。

具体地，根据所有分子描述符特征对应的预测值误差，按照从小到大的顺序依次对药物的所有分子描述符特征进行排序，标定位于前序的预设数量的药物的分子描述符特征，删除每个训练数据中未被标定的药物的分子描述符特征，对训练数据进行更新。

其中，预设数量可以实际的药物的分子描述符特征种类和/或每个分子描述符特征对应的预测误差值确定。例如，可以设置一个预测值误差阈值，保留预测值误差不超过预测值误差阈值对应的分子描述符特征，删除预测值误差大于预测值误差阈值对应的分子描述符特征。

步骤S6，利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络，利用训练后的图卷积神经网络和全连接神经网络进行药物口服利用度及毒性预测。

具体地，由于更新后的训练数据中已删除可能对预测结果没有影响、影响较低或者有负影响的部分分子描述符特征，利用更新后的训练数据重新训练步骤S3构建的图卷积神经网络和全连接神经网络，能够显著提高训练后的神经网络的预测精度。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，本文中“前”、“后”、“左”、“右”、“上”、“下”均以附图中表示的放置状态为参照。

最后应说明的是：以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于图卷积神经网络的药物口服利用度及毒性预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图卷积神经网络的药物口服利用度及毒性预测方法，其特征在于，所述药物的毒性包括：心脏毒性和遗传毒性。

3.根据权利要求1所述的基于图卷积神经网络的药物口服利用度及毒性预测方法，其特征在于，所述根据药物的SMILES表达式，建立药物的图模型，包括：

4.根据权利要求1所述的基于图卷积神经网络的药物口服利用度及毒性预测方法，其特征在于，所述图卷积神经网络为多层图卷积神经网络。

5.根据权利要求4所述的基于图卷积神经网络的药物口服利用度及毒性预测方法，其特征在于，多层图卷积神经网络为残差图卷积神经网络、稠密图卷积神经网络、或U型图神经网络。

6.根据权利要求1至5中任一项所述的基于图卷积神经网络的药物口服利用度及毒性预测方法，其特征在于，步骤S3中，在利用训练集训练图卷积神经网络和全连接神经网络时，在图卷积神经网络的输出层在特征维度进行平均池化处理，对训练数据中的药物的分子描述符进行归一化处理，将将归一化处理后的分子描述符和池化处理后的图卷积神经网络的输出进行特征合并，作为全连接神经网络的输入。

7.根据权利要求6所述的基于图卷积神经网络的药物口服利用度及毒性预测方法，其特征在于，利用以下公式进行分子描述符的归一化处理；

8.根据权利要求1至7中任一项所述的基于图卷积神经网络的药物口服利用度及毒性预测方法，其特征在于，步骤S3中，在利用训练集训练图卷积神经网络和全连接神经网络时，采用绝对值误差作为损失函数。

9.根据权利要求1至8中任一项所述的基于图卷积神经网络的药物口服利用度及毒性预测方法，其特征在于，利用以下公式计算当前修改的分子描述符特征所对应的预测值误差；