CN113192571B

CN113192571B - 一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置

Info

Publication number: CN113192571B
Application number: CN202110477984.2A
Authority: CN
Inventors: 吴建盛; 朱阳; 胡海峰; 朱燕翔
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-08-23
Anticipated expiration: 2041-04-29
Also published as: CN113192571A

Abstract

本发明揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置，该方法包括以下步骤：S1：数据集预处理，将待检测的类药化合物通过分子指纹生成软件生成指纹序列；S2：通过S1步骤生成的指纹序列得到原子及化学键特征，将原子及化学键特征构建分子图及图特征；S3：通过图注意力机制对S2步骤得到的分子图进行处理，生成分子中每个原子特征向量；S4：通过图注意力机制及每个原子的特征生成分子特征向量。该方法基于图注意力机制对分子图结构进行处理，有效获取对预测属性值贡献大的子结构，基于迁移学习对源域和目标域数据集进行处理，有效解决样本量不足的问题。

Description

一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置

技术领域

本发明涉及一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置，可用于人工智能药物设计技术领域。

背景技术

小分子药物毒性是毒理学研究中的一种，在药物研发过程中，与药物代谢动力学研究、药效学研究处于同等重要的地位，都是导致药物研发失败的主要原因之一。将小分子药物毒性评价置于新药研发的早期阶段有助于缩短研发周期，降低研发成本，可见对小分子药物毒性评估是十分有必要的。

传统的基于生物实验的毒性检测是针对小分子化合物进行毒性评估的常用方法，尽管基于生物实验方法进行化合物毒性评估经过了长期应用，也有很好的技术支持，但是生物实验存在周期较长、成本高、检测结果受模型动物、实验技术、环境等各个方面因素的影响等问题，使得生物实验方法已经难以满足日益增长的现实社会需求。随着机器学习的快速发展，通过构建模型学习小分子结构中包含的信息与其毒性的关系，来预测小分子药物毒性的方法，已被广泛用于药物研发中的药物毒性评价。

hERG是小分子毒性预测中的一项重要指标，hERG阻滞可能引起长QT综合症，从而导致心悸，昏厥，甚至猝死。一般的机器学习方法在构建模型时，需要收集大量样本数据，但是由于hERG实验要求很高，hERG样本数据量很少，导致很难构建出好的预测hERG指标的模型。

目前需要本领域技术人员迫切解决的技术问题就是：

(1)小分子药物均可用分子图结构来表示，如何构建分子图中的节点及边的特征；

(2)如何解决hERG样本量不足问题；

(3)如何找到一个模型能够通过分子图结构找出影响hERG指标的关键子结构，从而提高预测的准确度。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提出一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置。

本发明的目的将通过以下技术方案得以实现：一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法，该方法包括以下步骤：

S1：数据集预处理，将待检测的类药化合物通过分子指纹生成软件生成指纹序列；

S2：通过所述S1步骤生成的指纹序列得到原子及化学键特征，将原子及化学键特征构建分子图及图特征；

S3：通过图注意力机制对所述S2步骤得到的分子图进行处理，生成分子中每个原子特征向量；

S4：通过图注意力机制及每个原子的特征生成分子特征向量；

S5：参数迁移及属性预测，将源域生成的分子特征向量对应的权重矩阵W迁移到目标域中，协助目标域权重矩阵W的生成，最终生成信息聚合的特征向量并预测属性值。

优选地，所述S1步骤包括以下步骤：

S11：输入过氧化物酶体增殖剂激活受体γ(PPAR-γ)数据集作为源域数据集，hERG数据集作为目标域数据集；

S12：将S11步骤中的所述数据集中的所有小分子药物用SMILES格式表示；

S13：对所有小分子药物做标准化处理，统一分子SMILES表达式中的原子、键、连接关系的编码方式和顺序；

S14：对统一的SMILES表达式去重复化处理。

优选地，所述S2步骤包括以下步骤：

S21：根据源域中分子的SMILES表达式通过分子图生成软件生成分子二维图；

S22：根据所述S21步骤中分子二维图图中节点的特征生成，将每个原子看作一个节点生成节点的特征向量，原子的特征包括：原子符号、共价键数目、电荷、自由基电子数、芳香性、连氢的数目、手性、手性类型；

S23：根据所述S21步骤中分子二维图图中边的特征生成，将连接原子的键看作一条边生成边的特征，边的特征包括：键的类型、成环性、共轭性、立体性。

优选地，所述S3步骤包括以下步骤：

S31：将每个原子嵌入一个关注层，每个原子作为中心节点，使原子聚合与之相邻的化学键以及原子所包含的“消息”，为每个原子生成一个新的特征向量；

S32：S31步骤中得到的新的特征向量包含了中心原子以及相邻化学键和相邻原子的“消息”，将它们看作一个“大原子”嵌入下一个关注层，继续聚合与“大原子”相邻的化学键以及原子所包含的“消息”，直至特征向量经过多层关注层后，包含了所有原子的“消息”。

优选地，在所述S4步骤中，将整个分子视为连接分子中所有原子的超虚拟节点，并使用相同的原子嵌入注意机制嵌入，最终生成整个分子的特征向量。

优选地，所述S5步骤包括以下步骤：

S51：在源域分子特征向量生成过程中，得到对预测PPAR-γ属性有贡献的各个子结构及其权重矩阵W；

S52：将所述S51步骤中得到的子结构及其权重矩阵W迁移到目标域中，作为目标域中相同子结构对应的权重矩阵W的初始值；

S53：对目标域hERG数据集进行S1步骤到S4步骤的操作，生成分子的特征向量，最后通过一个全连接层进行属性值的预测。

本发明还揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置，该装置包括基于图注意机制的毒性预测模块，用于构建毒性预测的模型；特征迁移模块，用于学习PPAR-γ数据集和hERG数据集中分子的共同特征，并进行参数迁移；小分子化合物毒性预测与性能评价模块，用于预测小分子化合物的毒性和评价模型性能；

由图注意机制的毒性预测模块得到源域数据对预测毒性有用的子结构(分子特征向量中体现)的及对应权重矩阵W，然后给特征迁移模块进行权重举证W的迁移，W迁移给目标域数据集后，进入小分子化合物毒性预测与性能评价模块进行预测。

优选地，所述图注意机制的毒性预测模块具体包括：初始模块，用于从数据库获取包含smiles和对应毒性的初始的数据集；分子图构建模块，用于根据分子smiles表达式，通过编码生成每一个分子的分子图以及图中特征；原子特征生成模块，用于聚合所有原子及其领域信息；分子特征生成模块，用于生成整个分子特征和相应权重值，最后构建分子毒性预测模型。

优选地，所述特征迁移模块具体包括：有毒特征学习模块，用于学习PPAR-γ数据集和hERG数据集中有毒分子的共有特征；无毒特征学习模块，用于学习PPAR-γ数据集和hERG数据集中无毒分子的共有特征；特征筛选模块，用于筛选出既是PPAR-γ数据集和hERG数据集共有特征，也是PPAR-γ数据集中对PPAR-γ毒性预测贡献高的特征；参数迁移模块，用于将筛选出的PPAR-γ数据集中特征的权重值迁移给hERG数据集。

优选地，所述小分子化合物毒性预测与性能评价模块具体包括：预测模块，用于预测小分子的毒性；评价模块，用于得到评价模型性能的指标。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：该方法基于图注意力机制对分子图结构进行处理，有效获取对预测属性值贡献大的子结构，提高模型性能，提高预测准确性，基于迁移学习对源域和目标域数据集进行处理，有效解决样本量不足的问题。

附图说明

图1是本发明的一个目标原子及其邻居原子的选取示意图

图2是本发明中一个原子的嵌入层示意图。

图3是本发明中一个参数迁移过程的示意图。

图4是本发明中一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置实施例的结构框图。

图5是本发明装置中实施例的毒性预测模块401的结构示意图。

图6是本发明装置中实施例的特征迁移模块模块402的结构示意图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

本发明揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法和装置，该基于图注意机制迁移学习的小分子药物hERG毒性预测方法，首先通过图注意机制能构有效获取分子图结构中对hERG毒性预测有高贡献的子结构，提高预测准确性，其次通过迁移学习来解决hERG样本数据量不足问题。该基于图注意机制迁移学习的小分子药物hERG毒性预测装置，用以保证上述方法在实际中的实现及应用。

本发明揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法，如图1、图2和图3所示，该方法包括以下步骤：

所述S1步骤包括以下步骤：

S14：对统一的SMILES表达式去重复化处理。

所述S2步骤包括以下步骤：S21：根据源域中分子的SMILES表达式通过分子图生成软件生成分子二维图；S22：根据所述S21步骤中分子二维图图中节点的特征生成，将每个原子看作一个节点生成节点的特征向量，原子的特征包括：原子符号、共价键数目、电荷、自由基电子数、芳香性、连氢的数目、手性、手性类型；S23：根据所述S21步骤中分子二维图图中边的特征生成，将连接原子的键看作一条边生成边的特征，边的特征包括：键的类型、成环性、共轭性、立体性。

所述S3步骤包括以下步骤：S31：将每个原子嵌入一个关注层，每个原子作为中心节点，使原子聚合与之相邻的化学键以及原子所包含的“消息”，为每个原子生成一个新的特征向量；S32：S31步骤中得到的新的特征向量包含了中心原子以及相邻化学键和相邻原子的“消息”，将它们看作一个“大原子”嵌入下一个关注层，继续聚合与“大原子”相邻的化学键以及原子所包含的“消息”，直至特征向量经过多层关注层后，包含了所有原子的“消息”。

在所述S4步骤中，将整个分子视为连接分子中所有原子的超虚拟节点，并使用相同的原子嵌入注意机制嵌入，最终生成整个分子的特征向量。所述S5步骤包括以下步骤：S51：在源域分子特征向量生成过程中，得到对预测PPAR-γ属性有贡献的各个子结构及其权重矩阵W；S52：将所述S51步骤中得到的子结构及其权重矩阵W迁移到目标域中，作为目标域中相同子结构对应的权重矩阵W的初始值；S53：对目标域hERG数据集进行S1步骤到S4步骤的操作，生成分子的特征向量，最后通过一个全连接层进行属性值的预测。第五步即把一个数据集经过前四步生成的参数给另外一个数据集做参数初始化

本发明还揭示了一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置，如图4、图5和图6所示，该装置包括基于图注意机制的毒性预测模块，用于构建毒性预测的模型；特征迁移模块，用于学习PPAR-γ数据集和hERG数据集中分子的共同特征，并进行参数迁移；小分子化合物毒性预测与性能评价模块，用于预测小分子化合物的毒性和评价模型性能；

所述图注意机制的毒性预测模块具体包括：初始模块，用于从数据库获取包含smiles和对应毒性的初始的数据集；分子图构建模块，用于根据分子smiles表达式，通过编码生成每一个分子的分子图以及图中特征；原子特征生成模块，用于聚合所有原子及其领域信息；分子特征生成模块，用于生成整个分子特征和相应权重值，最后构建分子毒性预测模型。

所述特征迁移模块具体包括：有毒特征学习模块，用于学习PPAR-γ数据集和hERG数据集中有毒分子的共有特征；无毒特征学习模块，用于学习PPAR-γ数据集和hERG数据集中无毒分子的共有特征；特征筛选模块，用于筛选出既是PPAR-γ数据集和hERG数据集共有特征，也是PPAR-γ数据集中对PPAR-γ毒性预测贡献高的特征；参数迁移模块，用于将筛选出的PPAR-γ数据集中特征的权重值迁移给hERG数据集。

所述小分子化合物毒性预测与性能评价模块具体包括：预测模块，用于预测小分子的毒性；评价模块，用于得到评价模型性能的指标。

如图1、图2和图3所示，一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法，包括以下步骤：

第一步，数据集预处理

输入过氧化物酶体增殖剂激活受体γ(PPAR-γ)数据集作为源域数据集，PPAR-γ数据集共包括11764个化合物小分子，其中对PPAR-γ有毒性的小分子作为正样本，无毒性的小分子作为负样本，正负样本比例为4.7。

输入hERG数据集作为目标域数据集，其中对hERG有阻滞效果的小分子作为正样本，正样本个数为451，无阻滞效果的小分子作为负样本，负样本个数为204。对于源域与目标域数据集都要用SMILES格式统一表示，并目进行去重复化处理，主要是去除SMILES表达式相同但属性不同的小分子。

第二步，通过原子及化学键特征构建分子图及生成图中特征，包括以下过程：

(1)根据源域中分子的SMILES表达式通过分子图生成软件生成分子二维图；

(2)图中节点的特征生成，将每个原子看作一个节点生成节点的特征向量，原子的特征包括：原子符号、共价键数目、电荷、自由基电子数、芳香性、连氢的数目、手性(空间的螺旋特性)、手性类型；

(3)图中边的特征生成，将连接原子的键看作一条边生成边的特征，边的特征包括：键的类型、成环性、共轭性、立体性；

第三步，生成原子特征向量，如图1所示，随机选取一个原子为目标原子，进行原子嵌入，在此选择5号原子为目标原子v，则4、6、7号原子为邻居原子u，为获得5号原子的上下文向量包括以下步骤：

(1)对齐

b_vu＝relu(W^a1[h_v，h_u])

其中，h_v是目标原子的特征，h_u是邻居原子特征和邻居原子与目标原子之间化学键特征的级联。

(2)加权

其中，N(v)是目标原子的邻居原子的集合。

(3)计算上下文信息

C_V＝elu(∑_ueN(v)a_vu·W^a2·h_u)

得到上下文向量之后，如图2所示，通过k个嵌入层使目标原子包含所有其他原子的信息，包括以下步骤：

(1)上下文信息的迭代

(2)原子特征的更新

其中GRU是一个门控循环单元，具体的GRU公式如下：

第四步，将整个分子视为链接所有原子的超节点S，将超节点S带入嵌入层，最终得到分子的特征向量。其中：

(1)超级节点S的初始特征表示为：

其中N(s)是该分子中所有原子的集合。

(2)超级节点S的邻居原子为该原子中包含的所有原子。

第五步，如图3所示，在源域分子特征向量生成过程中，得到的了对预测PPAR-γ属性有贡献的各个子结构及其权重矩阵W，将其迁移到目标域hERG中，作为目标域中相同子结构对应的权重矩阵W的初始值，然后对目标域进行上述的第一步到第四步的操作，生成分子的特征向量，最后通过一个全连接层进行属性值的预测。

与上述发明的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法相对应，参见图4，本发明还提供了一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置，在本实施例中，该装置包括：基于图注意机制的毒性预测模块401，用于构建毒性预测的模型；图5为所述基于图注意机制的毒性预测模块的结构示意图，具体包括：

(1)初始模块501，用于从数据库获取包含smiles和对应毒性的初始的数据集；

(2)分子图构建模块502，用于根据分子smiles表达式，通过编码生成每一个分子的分子图以及图中特征；

(3)原子特征生成模块503，用于聚合所有原子及其领域信息；

(4)分子特征生成模块504，用于生成整个分子特征和相应权重值，最后构建分子毒性预测模型。

特征迁移模块402，用于学习PPAR-γ数据集和hERG数据集中分子的共同特征，并进行参数迁移；图6为所述特征迁移模块402的结构示意图，具体包括：

(1)有毒特征学习模块601，用于学习PPAR-γ数据集和hERG数据集中有毒分子的共有特征；

(2)无毒特征学习模块602，用于学习PPAR-γ数据集和hERG数据集中无毒分子的共有特征；

(3)特征筛选模块603，用于筛选出既是PPAR-γ数据集和hERG数据集共有特征，也是PPAR-γ数据集中对PPAR-γ毒性预测贡献高的特征。

(4)参数迁移模块604，用于将筛选出的PPAR-γ数据集中特征的权重值迁移给hERG数据集。

小分子化合物毒性预测与性能评价模块403，用于预测小分子化合物的毒性和评价模型性能。

本发明提供了一种新的基于图注意机制迁移学习的小分子药物hERG毒性预测方法及装置。hERG毒性是一种有关心脏毒性的评价指标，hERG阻滞会导致长QT综合症，易产生心律不齐、心脏骤停、昏厥甚至猝死等心脏不良事件。本发明技术方案包含四步：第一步，特征提取，将待检测的类药化合物通过分子指纹生成软件生成指纹序列；第二步，通过原子及化学键特征构建分子图并生成图中特征；第三步，通过注意力机制生成分子特征向量；第四步，将源域生成的权重矩阵W迁移到目标域中，协助目标域权重矩阵W的生成，最终生成信息聚合的特征向量并预测属性值。本发明使用注意力机制，能够有效找到对预测属性值贡献大的子结构，并通过参数迁移能够有效解决hERG样本量不足的问题，提高模型性能。

本发明使用注意力机制，能够有效找到对预测属性值贡献大的子结构，并通过参数迁移能够有效解决hERG样本量不足的问题，提高模型性能。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法，其特征在于：所述S1步骤包括以下步骤：

S11：输入过氧化物酶体增殖剂激活受体γ，PPAR-γ数据集作为源域数据集，hERG数据集作为目标域数据集；

S14：对统一的SMILES表达式去重复化处理。

3.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法，其特征在于：所述S2步骤包括以下步骤：

4.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法，其特征在于：所述S3步骤包括以下步骤：

5.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法，其特征在于：在所述S4步骤中，将整个分子视为连接分子中所有原子的超虚拟节点，并使用相同的原子嵌入注意机制嵌入，最终生成整个分子的特征向量。

6.根据权利要求1所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测方法，其特征在于：所述S5步骤包括以下步骤：

7.一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置，其特征在于：该装置包括基于图注意机制的毒性预测模块，用于构建毒性预测的模型；特征迁移模块，用于学习PPAR-γ数据集和hERG数据集中分子的共同特征，并进行参数迁移；小分子化合物毒性预测与性能评价模块，用于预测小分子化合物的毒性和评价模型性能；

由图注意机制的毒性预测模块得到源域数据对预测毒性有用的子结构，所述子结构在分子特征向量中体现，及子结构对应的权重矩阵W，然后给特征迁移模块进行权重矩阵W的迁移，W迁移给目标域数据集后，进入小分子化合物毒性预测与性能评价模块进行预测。

8.根据权利要求7所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置，其特征在于：所述图注意机制的毒性预测模块具体包括：初始模块，用于从数据库获取包含smiles和对应毒性的初始的数据集；分子图构建模块，用于根据分子smiles表达式，通过编码生成每一个分子的分子图以及图中特征；原子特征生成模块，用于聚合所有原子及其领域信息；分子特征生成模块，用于生成整个分子特征和相应权重值，最后构建分子毒性预测模型。

9.根据权利要求7所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置，其特征在于：所述特征迁移模块具体包括：有毒特征学习模块，用于学习PPAR-γ数据集和hERG数据集中有毒分子的共有特征；无毒特征学习模块，用于学习PPAR-γ数据集和hERG数据集中无毒分子的共有特征；特征筛选模块，用于筛选出既是PPAR-γ数据集和hERG数据集共有特征，也是PPAR-γ数据集中对PPAR-γ毒性预测贡献高的特征；参数迁移模块，用于将筛选出的PPAR-γ数据集中特征的权重值迁移给hERG数据集。

10.根据权利要求7所述的一种基于图注意机制迁移学习的小分子药物hERG毒性预测装置，其特征在于：所述小分子化合物毒性预测与性能评价模块具体包括：预测模块，用于预测小分子的毒性；评价模块，用于得到评价模型性能的指标。