CN113590843B

CN113590843B - 一种融合分子结构特征的知识表示学习方法

Info

Publication number: CN113590843B
Application number: CN202110903382.9A
Authority: CN
Inventors: 刘昊; 闫金盟; 魏志强
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-06-23
Anticipated expiration: 2041-08-06
Also published as: CN113590843A

Abstract

本发明涉及一种融合分子结构特征的知识表示学习方法，属于知识图谱领域，将小分子结构特征与知识图谱三元组特征同时进行学习的方法，完成融合了小分子结构信息的知识表示学习过程，并最终形成隐含结构信息以及知识图谱关联信息的新型特征表示。它的成功将会明显提高生物医学领域知识图谱的相关应用的准确性。从而更好地服务于基于机器学习或深度学习的生物医学知识图谱中的药物挖掘的相关应用。

Description

一种融合分子结构特征的知识表示学习方法

技术领域

本发明属于知识图谱领域，特别涉及一种融合分子结构特征的知识表示方法

背景技术

目前，知识表示学习(Knowledge Representation Learning)的相关研究中，正面临的一个重要挑战：如何实现多源信息融合。现有的知识表示学习模型，仅利用知识图谱的三元组结构信息进行知识表示学习，尚有大量与知识有关的其他信息，如实体与关系的描述信息、类别信息等，而这些文本信息、类别信息、视觉信息等丰富的多源异质信息可以帮助改善数据稀疏问题，提高知识表示的区分能力，如何充分融合这种跨模态信息，实现知识表示学习，具有重要意义。然而，知识表示学习中的多源信息融合的相关研究尚不够成熟和完善。

文本和分子结构信息等多源信息对于知识表示具有重要意义。为了利用丰富的文本信息，可以将实体和单词投影到具有对齐模型的联合向量空间中。从实体描述中直接构建实体表示，能够对新实体进行建模。然而，分子信息尚未用于知识表示。同时，在计算机辅助药物设计领域的相关研究已经证明，配体分子的化学结构信息在药物设计与研发过程中十分重要，是发现药物先导化合物的关键因素之一。

发明内容

本发明要解决的技术问题在于提供一种融合分子结构特征的知识表示学习方法，将药物分子的结构特征融入其知识图谱的表示学习中去，从而更好地服务于基于机器学习或深度学习的生物医学知识图谱中的药物挖掘的相关应用。

本发明是通过如下技术方案来实现的：

一种融合分子结构特征的知识表示学习方法，融合分子结构特征的知识表示学习方法简称为MSKRL，所述方法具体如下：

(1)获取知识图谱构建数据集，然后将小分子实体转换成mol₂格式，方便小分子编码器识别；

(2)使用分子结构信息编码器为所有的小分子实体构建初步的表示，分子结构信息编码器由小分子结构特征表示模块和小分子投影模块两部分组成，小分子结构特征表示模块采用现有技术，将小分子结构信息转换成一种低维向量表示，小分子投影模块将这种低维向量投影到相应实体空间；每个实体分子提供重要的小分子结构信息，将每个实体分子作为输入，分子编码器旨在从分子结构中提取信息特征并在实体空间中构建小分子结构信息表示；

(3)构建MSKRL方法的整体得分函数，从而完成知识表示的学习过程，最终得到同时包含分子结构信息与知识图谱三元组信息的表示。具体如下：

经过分子编码器处理后的小分子结构信息与知识图谱三元组特征同时进行学习，给定一个三元组(h,r,t)∈T，所述三元组由两个实体h、t和关系r组成，其中h，t∈E，r∈R，T代表整个三元组训练集，E代表实体的集合，R代表关系的集合；

将每个小分子实体提出两种表示，一种是使用h_S、t_S设置为头部和尾部实体的基于图谱结构的表示，另外一种新型的知识表示h_M、t_M作为头部和尾部实体基于小分子结构信息的表示；

在知识表示学习模型中利用结构化知识信息和小分子结构信息，将MSKRL方法的整体得分函数定义如下：

E(h,r,t)＝E_SS+E_SM+E_MS+E_MM

其中E_SS＝||h_S+r-t_S||，E_SS是能量函数，只取决于基于图谱结构的表征；

E_MM＝||h_M+r–t_M||，是能量函数，其中h_M、t_M都是基于小分子结构信息的表征而且是从其对应的小分子特征中学习的。

E_SM＝||h_S+r–t_M||，E_MS＝||h_M+r–t_S||，以确保基于图谱结构的表征和基于小分子结构信息的表征都被学习到同一个向量空间。

本发明与现有技术相比的有益效果：

本发明提出了一种新颖的小分子结构信息体现知识表示学习方法，大多数传统方法仅从结构化三元组中学习知识表示，而忽略了从小分子结构信息中提取分丰富的分子结构信息，这是第一次提出融合分子结构特征的知识表示学习方法。融合分子结构特征的知识表示学习方法可以更好的为基于机器学习或深度学习的生物医学知识图谱中的药物挖掘的相关应用服务，并且将会明显提高生物医学领域知识图谱的相关应用的准确性。

附图说明

图1为小分子结构信息编码器；

图2为本发明MSKRL方法总体架构。

具体实施方式

下面将结合本发明的具体实施例对本发明作进一步的说明，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

一种融合分子结构特征的知识表示学习方法(MSKRL)，MSKRL方法的整体架构如图2所示。每个小分子实体提供重要的分子结构信息。本实施例设计了一个分子结构编码器，分子编码器旨在从分子结构中提取信息特征并在实体空间中构建分子结构表示。编码器将每个实体分子作为输入，通过小分子结构特征表示模块和小分子投影模块将向量投影到相应的实体空间中去。

具体步骤如下：

从已有医药领域知识图谱中选取部分数据构建三元组数据集，并分为训练集与测试集两部分。然后将小分子实体转换成mol₂格式方便小分子编码器识别。

使用分子结构信息编码器为所有的小分子实体构建初步的表示，其中的分子结构信息编码器部分，如图1所示：拟分为小分子结构特征表示模块和小分子投影模块两部分，小分子结构特征表示模块采用现有技术，将小分子的结构特征转换成一种低维向量表示，小分子投影模块将这种低维向量投影到相应实体空间。

(3)构建MSKRL方法的整体得分函数，通过得分函数完成知识表示学习的具体过程。

经过分子结构信息编码器处理后的小分子结构信息与知识图谱三元组特征同时进行学习，给定一个三元组(h,r,t)∈T，它由两个实体h、t和关系r组成，其中h，t∈E，r∈R，T代表整个三元组训练集，E代表实体的集合，R代表关系的集合。

为了在知识表示学习(KRL)中引入小分子结构信息，对每个小分子实体提出两种表示。将h_S,t_S设置为头部和尾部实体的基于图谱结构的表示,是由传统KRL模型学习的分布式表示。另一种新型的知识表示h_M,t_M作为基于小分子结构信息的表示，它们包含了头部或尾部实体小分子的结构信息。

本实施例在模型中利用结构化知识信息和小分子结构信息。将MSKRL方法整体得分函数定义如下：

E(h,r,t)＝E_SS+E_SM+E_MS+E_MM

其中

E_SS＝||h_S+r-t_S||，E_SS是能量函数，只取决于基于图谱结构的表征。

E_MM＝||h_M+r–t_M||，是能量函数，其中头部和尾部实体都是基于小分子结构信息的表征而且是从其对应的小分子特征中学习的。

E_SM＝||h_S+r–t_M||，E_MS＝||h_M+r–t_S||以确保基于结构的表征和基于小分子结构信息的表征都被学习到同一个向量空间。

评估标准：

这里我们用的是知识图谱表示学习领域的通用评测任务之一：三元组分类。构建包含同等数量正例和负例三元组数据集作二分类。根据准确率来作为评估标准。具体的评估流程：

从数据集中对每个三元组，通过替换头实体或尾实体构建一个不存在于知识图谱中的三元组，作为负例，原三元组则是正例。这样就得到了一个包含同等数量正例和负例的数据集，对这个数据集中的三元组作二分类，计算其分类的准确率。通过表1显示，MSKRL方法的准确率高于传统的模型。对于本实施例将小分子结构特征与知识图谱三元组特征同时进行学习的有效方法MSKRL拥有良好的性能。

表1.评估结果

Claims

1.一种融合分子结构特征的知识表示学习方法，融合分子结构特征的知识表示学习方法简称为MSKRL，其特征在于所述方法具体如下：

（1）获取知识图谱构建数据集，然后将小分子实体转换成mol₂格式，方便小分子编码器识别；

（2）使用分子结构信息编码器为所有的小分子实体构建初步的表示，分子结构信息编码器由小分子结构特征表示模块和小分子投影模块两部分组成，小分子结构特征表示模块将小分子结构信息转换成一种低维向量表示，小分子投影模块将这种低维向量投影到相应实体空间；每个实体分子提供小分子结构信息，将每个实体分子作为输入，分子编码器旨在从分子结构中提取信息特征并在实体空间中构建小分子结构信息表示；

（3）构建MSKRL方法的整体得分函数，从而完成知识表示的学习过程，最终得到同时包含分子结构信息与知识图谱三元组信息的表示，具体如下：

经过分子编码器处理后的小分子结构信息与知识图谱三元组特征同时进行学习，给定一个三元组(h,r,t) ∈ T，所述三元组由两个实体h、t和关系r组成，其中h，t∈ E，r∈ R，T代表整个三元组训练集，E代表实体的集合，R代表关系的集合；

将每个小分子实体提出两种表示，一种是将h_S、t_S设置为头部和尾部实体的基于图谱结构的表示，另外一种知识表示是使用h_M、t_M作为头部和尾部的实体基于小分子结构信息的表示；

E(h,r,t) = E_SS+ E_SM+ E_MS+ E_MM

其中E_SS = || h_S + r − t_S || ，E_SS是能量函数，只取决于基于图谱结构的表征；

E_MM = || h_M + r – t_M ||，是能量函数，其中h_M、t_M都是基于小分子结构信息的表征而且是从其对应的小分子特征中学习的；

E_SM = || h_S + r – t_M ||，E_MS = || h_M + r – t_S ||，以确保基于图谱结构的表征和基于小分子结构信息的表征都被学习到同一个向量空间。