CN115662509A

CN115662509A - 基于图神经网的表观遗传靶点预测的分类方法及装置

Info

Publication number: CN115662509A
Application number: CN202211227289.1A
Authority: CN
Inventors: 王艺舒; 艾冬梅
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-01-31
Anticipated expiration: 2042-10-09
Also published as: CN115662509B

Abstract

本发明公开了一种基于图神经网的表观遗传靶点预测的分类方法及装置，应用于表观遗传分析。具体包括：构建蛋白质‑化合物活性关联信息配对表，蛋白质‑化合物活性关联信息配对表的基本信息包括化合物分子的简化分子线性输入规范信息；将化合物分子的简化分子线性输入规范信息转化为化合物的分子图；通过门控神经网络对分子图进行特征提取；通过机器学习模型对提取到的特征进行分类；利用评分函数对分类结果进行准确性评估。图神经网模型对化合物分子信息的特征提取，特征提取充分，有利于验证影响机器学习模型的预测效果。

Description

基于图神经网的表观遗传靶点预测的分类方法及装置

技术领域

本发明涉及表观遗传分析技术领域，特别涉及一种基于图神经网的表观遗传靶点预测方法及装置。

背景技术

表观遗传型用来定义表型改变而不改变基因型的现象，以解释发育的各个方面。大约四分之三世纪后，发现基因表达模式的表观遗传机制不是通过DNA序列的变化传递的，而是通过染色质状态的变化传递的，这也是遗传信息的生理形式。除了DNA，表观遗传机制也稳定基因表达程序，以确定细胞类型。如今，表观遗传学是一个广泛的研究领域，涉及形态发生、细胞遗传、跨代表观遗传和进化方法。

目前深度学习模型在表观遗传靶点预测中还尚未应用，最新的研究为2021年Noberto S.C.等人整合了26318个化合物以及55个具有表观遗传活性的蛋白靶点利用机器学习模型进行生物活性分析并进行表观遗传靶点预测。首先建立表观遗传靶点预测模型，使用如图1所示的两种验证策略：第一种是单目标验证，比较15种不同机器学习模型在10折交叉验证上的分类效果，最终选出一种表现最好的集成算法模型；第二个策略是多目标验证，通过将单目标机器学习模型合并构建成多目标分类模型验证在每10种化合物上的预测效果，同样进行10折交叉验证对预测目标进行评定。最终这些结果表明，Morgan和RDK指纹以及SVM算法是为当前研究的表观遗传目标集推导二元分类器的最佳组合。这项工作中选取的15个二分类机器学习模型是由三种分子指纹提取算法(Molecular ACCess System(MACCS)，Morgan，RDK)与五种机器学习分类算法(k紧邻(k-NearestNeighbor，knn)，支持向量机(Support Vector Machine，SVM)，梯度提升树(Gradient Boosting Decision Tree，GBDT)，随机森林(Random Forest，RF)，前馈神经网(feed forward neural network，FFNN))组合构成。

然而该方法由于只用到机器学习算法的分类功能，在提取分子性质时仍然采用传统的分子指纹方法，造成了一定信息量的浪费。事实上，由于深度学习使用抽象的概念来进行特征的提取，更加贴合模型训练从而获得更高的预测准确率。

发明内容

本发明实施例提供了一种基于图神经网的表观遗传靶点预测的分类方法及装置，针对目前表观遗传靶点预测的技术中分子特征提取不充分、无法建立深度学习模型等问题，提出：采用门控图神经网络(Gating graph neural network，GGNN)化合物分子的特征进行特征提取，通过机器学习算法建立监督学习模型对表观遗传靶点进行预测。技术方案如下：

本发明提供了一种基于图神经网的表观遗传靶点预测的分类方法，包括下述步骤：

S1、构建蛋白质-化合物活性关联信息配对表，所述蛋白质-化合物活性关联信息配对表的基本信息包括化合物分子的简化分子线性输入规范信息；

S2、将化合物分子的简化分子线性输入规范信息转化为化合物的分子图；

S3、通过门控神经网络对所述分子图进行特征提取；

S4、通过机器学习模型对提取到的特征进行分类；

S5、利用评分函数对分类结果进行准确性评估。

优选地，所述蛋白质-化合物活性关联信息配对表的基本信息还包括：基因名称和活性信息；

其中，所述活性信息包括：化合物分子与基因之间无活性关系的参数值和化合物分子与基因之间呈活性关系的参数值。

优选地，所述活性信息的参数值设置规则为：

将所述化合物分子与基因之间无活性关系的参数值设置为0，将所述化合物分子与基因之间呈活性关系的参数值设置为1。

优选地，所述步骤S2包括：

将所述化合物分子的简化分子线性输入规范信息输入至RDKit分析包；

通过所述RDKit分析包将输入的化合物分子的简化分子线性输入规范信息转化为分子图。

优选地，所述通过机器学习模型对提取到的特征进行分类包括：

通过机器学习模型对提取到的特征进行分类，得到分类结果，所述分类结果包括0和1。

优选地，所述S4中的提取到的特征为固定长度的向量。

优选地，所述步骤S5中的评分函数为十折交叉验证函数。

本发明提供一种基于图神经网的表观遗传靶点预测的分类装置，包括：

配对表生成模块：所述配对表生成模块用于构建蛋白质-化合物活性关联信息配对表，所述蛋白质-化合物活性关联信息配对表的基本信息包括化合物分子的简化分子线性输入规范信息；

转换模块：所述转换模块将所述配对表生成模块输出的化合物分子的简化分子线性输入规范信息转化为化合物的分子图；

提取模块：所述提取模块通过门控神经网络对所述转换模块输出的分子图进行特征提取；

分类模块：所述分类模块用于对所述提取模块输出的特征进行分类；

评估模块：所述评估模块用于对所述分类模块的分类结果与实际类别进行对比，评估所述分类模块的准确性。

其中，所述活性信息包括：化合物分子与基因之间无活性关系的参数值和化合物分子与基因之间呈活性关系的参数值；

其中，所述活性信息的参数值设置规则为：将所述化合物分子与基因之间无活性关系的参数值设置为0，将所述化合物分子与基因之间呈活性关系的参数值设置为1。

优选地，所述转换模块通过RDKit分析包将所述化合物分子的简化分子线性输入规范信息转化为化合物的分子图。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，本发明将深度学习模型与机器学习模型的分类算法相融合，利用门控图神经网深度学习模型对化合物分子进行特征提取，然后利用机器学习算法的良好分类效果，将深度学习模型最后一层输出层替换为机器学习算法的分类任务。

本发明利用深度学习模型提取化合物分子特征并进行表观遗传靶点预测。若没有图神经网模型对化合物分子信息的特征提取，依赖手工特征输入和选择有极大的主观性，并且特征提取不充分验证影响机器学习模型的预测效果。

图神经网模型对化合物分子信息的提取不仅能够将所有原子名称、化合价、氢键个数等特征提取完整，而且能够存储原子位置信息等空间特征，有效地提升了特征质量，为后续机器学习模型的分类算法提供有力基础。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术的方法路线图；

图2是本发明SMILLE信息转换为分子图的流程；

图3是本发明实施例提供的一种基于图神经网的表观遗传靶点预测的分类方法流程图；

图4是本发明实施例提供的一种基于图神经网的表观遗传靶点预测的分类装置框图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明针对目前表观遗传靶点预测的技术中分子特征提取不充分，无法建立深度学习模型等问题提出一种基于图神经网的表观遗传靶点预测的分类方法及装置。重点解决在化合物分子预测中，化合物分子信息提取不充分、以及无法将传统分子指纹信息应用到深度学习模型中等问题。

由于图神经网络模型通过谱图卷积的局部一阶近似来激励卷积结构的选择。模型在图边的数量上线性伸缩，并学习对局部图的结构和节点特征进行编码的隐藏层表示。在对化合物分子表示的数据集上，相较于其他相关方法有很大的优势。而门控图神经网(Gating graph neural network，GGNN)由于其基于门控循环单元(Gate Recurrent Unit，GRU)而实现消息传递，该模型提出了与长短期记忆模型类似的遗忘重置机制，并将遗忘重置机制嵌入图神经网络，防止了梯度的弥散甚至消失。

本发明利用源自ChEMBL 27以及PubChem中经Noberto S.C.等人的工作筛选之后的蛋白-化合物结构活性关联信息，划分为55个靶点蛋白与化合物分子之间的结构活性的数据集。通过对化合物分子的图表示将分子利用深度学习中的门控图神经网络进行特征抽取，最终利用机器学习的方式通过对化合物分子抽取的特征进行与蛋白靶点之间的活性预测，具体方法如下：

如图3所示，提供了一种基于图神经网的表观遗传靶点预测的分类方法，包括下述步骤：

S1、构建蛋白质-化合物活性关联信息配对表，蛋白质-化合物活性关联信息配对表的基本信息包括化合物分子的简化分子线性输入规范信息。

为便于使用深度学习算法，首先构建蛋白质-化合物活性关联信息配对表，其基本信息由化合物分子的简化分子线性输入规范信息(Simplified molecular input lineentry system，SMILES)、基因名称、以及活性信息0，1。

其中，0代表化合物分子与基因之间无活性关系，1表示化合物分子与基因之间呈活性关系组成。

化合物的简化分子线性规范信息由一系列ASCII编码组成的字符串表示，其代表了一个分子的结构，由Python中的RDKit包进行分析处理。简化分子线性输入规范信息(SMILES)的表示规则有：

(1)原子由各自的原子符号表示；

(2)省略不必要的氢原子连接；

(3)相邻的原子表示原子之间存在连接；

(4)双键用ASCII字符“＝”表示、三键用ASCII字符“#”表示；

(5)单键以及芳香键可以省略；

(6)出现分支连接使用ASCII字符“()”包裹并分隔；

(7)用分配的数字表示环上相互连接的原子；

(8)环裂解为链结构，并且裂解位点用数字表示。

S2、将化合物分子的简化分子线性输入规范信息转化为化合物的分子图。

由于使用深度学习中的图神经网络进行特征的抽取，因此化合物的简化分子线性输入规范信息(SMILES)不能直接输入模型进行处理。因此需要将化合物分子的简化分子线性输入规范信息(SMILES)利用量化的方式进行表示。考虑到选择门控图神经网络GGNN进行特征抽取过程，而门控图神经网络(GGNN)接受图的信息表示，因此需要将化合物分子的简化分子线性输入规范信息(SMILES)转化为化合物的分子图表示。

如图2，步骤S2包括：

将化合物分子的简化分子线性输入规范信息输入至RDKit分析包；

RDKit分析包对输进的信息转化为分子图。RDKit分析包对输进的信息转化为分子图包括：提取原子信息、拼接原子和获取连接矩阵。

针对RDKit分析包对输的化合物分子的简化分子线性输入规范信息(SMILES)的转化为分子图的过程，为现有技术，本发明不做具体说明。

S3、通过门控神经网络对所述分子图进行特征提取，提取到的特征为固定长度的向量，以一个固定长度的向量表示分子的特征。这里针对门控图神经网络(GGNN)对分子图进行特征的具体操作本领域技术人员的惯用技术手段。

门控图神经网络(GGNN)是基于门控循环单元(GRU)的一种消息传递模型。该模型接受一个图表示作为参数，其中任意一个节点存储一个维度为的向量，边长存储一个维的方阵，描述节点之间的边连接关系。门控图神经网络(GGNN)通过不断学习节点的表达方式最终利用学习到的节点信息表示图的所有信息。

S4、通过机器学习模型对提取到的特征进行分类；通过机器学习模型对提取特征进行分类的技术手段为本领域技术人员的惯用技术手段。

S5、利用评分函数对分类结果进行准确性评估，对比分类结果和实际分类。步骤S5中的评分函数为十折交叉验证函数。根据十折交叉验证函数验证步骤S4的分类结果和实际的结果的区别，评估分类的准确性。

经实验：本发明利用门控图神经网深度学习模型对化合物分子进行特征提取，然后利用机器学习算法的良好分类效果，将深度学习模型最后一层输出层替换为机器学习算法的分类任务。本发明比较了四种机器学习算法在表观遗传靶点预测任务上的分类效果，最终选出门控神经网(GGNN)与极端梯度增强(XGBoost)相融合的集成算法为本发明所采用的技术方案，结果如下表1-表3所示：

表1

表2

表3

其中，表1为55个表观遗传靶点预测效果，表2为蛋白靶点JAK2预测效果，表3为蛋白靶点HDAC8预测效果。

经表1-表3可以看出，本发明方案的准确率平均值(ACC)达到0.816，在某些靶点上准确率可达0.95以上。

化学学科通常利用原子名称、原子化合价信息来表示一个原子处于分子中的状态，如氧气分子(O₂)中的氧原子名称为O，化合价信息为0，而水分子的氧原子名称为O，化合价信息为-2，表明氧气分子中的氧原子虽然与水分子中的氧原子名称相同，但在分子中的状态是不同的，氧气分子(O₂)表现为氧原子通过双键连接，而水分子(H₂O)中表现为氧原子通过单键链接。通过原子名称以及化合价信息可以获取并且简单地区分该原子在分子中的状态信息。对于无机物上述信息可能是必要的，但是对于有机物可能并非如此。在有机化学中，一个分子中的原子氢连接个数、是否成环(芳香烃)、以及其与其它原子之间的连接个数对于部分反应而言是重要的，因此保留上述信息也是必要的。同时，原子与原子之间的位置信息不可或缺。化学学科中由原子位置信息决定部分性质例如手性，即分子的镜像结构与原始结构不同的一种性质。原子的排列顺序也影响了分子的组成结构，即使相同的分子式也可能呈现出不同化合物，化学学科的同分异构体即为此类情况，因此保留分子内原子的位置信息也是十分重要的。

因此，图神经网模型对化合物分子信息的提取不仅能够将所有原子名称、化合价、氢键个数等特征提取完整，而且能够存储原子位置信息等空间特征，有效地提升了特征质量，为后续机器学习模型的分类算法提供有力基础。

如图4，本发明提供了一种基于图神经网的表观遗传靶点预测的分类装置，包括：配对表生成模块310、转换模块320、提取模块330、分类模块340和评估模块350，具体如下：

配对表生成模块310：配对表生成模块310用于构建蛋白质-化合物活性关联信息配对表，蛋白质-化合物活性关联信息配对表的基本信息包括化合物分子的简化分子线性输入规范信息；

为便于使用深度学习算法，首先构建蛋白质-化合物活性关联信息配对表，其基本信息由化合物分子的简化分子线性输入规范信息(SMILES)、基因名称、以及活性信息0，1。

(1)原子由各自的原子符号表示；

(2)省略不必要的氢原子连接；

(3)相邻的原子表示原子之间存在连接；

(4)双键用ASCII字符“＝”表示、三键用ASCII字符“#”表示；

(5)单键以及芳香键可以省略；

(6)出现分支连接使用ASCII字符“()”包裹并分隔；

(7)用分配的数字表示环上相互连接的原子；

(8)环裂解为链结构，并且裂解位点用数字表示。

转换模块320：转换模块320将配对表生成模块输出的化合物分子的简化分子线性输入规范信息转化为化合物的分子图。

如图2，步骤S2包括：

提取模块330：提取模块330通过门控神经网络对转换模块320输出的分子图进行特征提取。

将分子图信息输入门控图神经网络(GGNN)进行特征的提取过程，以一个固定长度的向量表示分子的特征。这里针对门控图神经网络(GGNN)对分子图进行特征的具体操作本本领域技术人员的惯用技术手段。

分类模块340：分类模块340用于对提取模块输出的特征进行分类。

评估模块350：评估模块350用于对分类模块的分类结果与实际类别进行对比，评估分类模块340的准确性。评分函数为十折交叉验证。根据十折交叉验证方法验证步骤S4的分类结果和实际的结果的区别，评估分类的准确性。

图5是本发明实施例提供的一种电子设备400的结构示意图，该电子设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)401和一个或一个以上的存储器402，其中，存储器402中存储有至少一条指令，至少一条指令由处理器401加载并执行以实现上述一种冲击地压危险静动态耦合评价方法的步骤。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述一种冲击地压危险静动态耦合评价方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

以上实施例不局限于该实施例自身的技术方案，实施例之间可以相互结合成新的实施例。以上实施例仅用以说明本发明的技术方案而并非对其进行限制，凡未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明技术方案的范围内。

Claims

1.一种基于图神经网的表观遗传靶点预测的分类方法，其特征在于，包括下述步骤：

S3、通过门控神经网络对所述分子图进行特征提取；

S4、通过机器学习模型对提取到的特征进行分类；

S5、利用评分函数对分类结果进行准确性评估。

2.根据权利要求1所述的基于图神经网的表观遗传靶点预测的分类方法，其特征在于，所述蛋白质-化合物活性关联信息配对表的基本信息还包括：基因名称和活性信息；

3.根据权利要求2所述的基于图神经网的表观遗传靶点预测的分类方法，其特征在于，所述活性信息的参数值设置规则为：

4.根据权利要求1所述的基于图神经网的表观遗传靶点预测的分类方法，其特征在于，所述步骤S2包括：

5.根据权利要求3所述的基于图神经网的表观遗传靶点预测的分类方法，其特征在于，所述通过机器学习模型对提取到的特征进行分类包括：

6.根据权利要求1所述的基于图神经网的表观遗传靶点预测的分类方法，其特征在于，所述S4中的提取到的特征为固定长度的向量。

7.根据权利要求1所述的基于图神经网的表观遗传靶点预测的分类方法，其特征在于，所述步骤S5中的评分函数为十折交叉验证函数。

8.一种基于图神经网的表观遗传靶点预测的分类装置，其特征在于，包括：

9.根据权利要求8所述的基于图神经网的表观遗传靶点预测的分类装置，其特征在于，所述蛋白质-化合物活性关联信息配对表的基本信息还包括：基因名称和活性信息。

10.根据权利要求8所述的基于图神经网的表观遗传靶点预测的分类装置，其特征在于，所述转换模块通过RDKit分析包将所述化合物分子的简化分子线性输入规范信息转化为化合物的分子图。