CN113361279A

CN113361279A - 一种基于双邻域图神经网络的医疗实体对齐方法及系统

Info

Publication number: CN113361279A
Application number: CN202110709149.7A
Authority: CN
Inventors: 史新晨; 章永龙; 李斌
Original assignee: Yangzhou University
Current assignee: Yangzhou University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-07
Anticipated expiration: 2041-06-25
Also published as: CN113361279B

Abstract

本发明公开了一种基于双邻域图神经网络的医疗实体对齐方法及系统，属于自然语言处理中的知识图谱融合领域。本发明首先抽取医疗实体对及相应的关系和属性，预处理后构建实体对齐数据集；然后通过双邻域特征聚合生成实体邻域和属性邻域的节点特征，并通过串联操作和跳跃连接生成全局感知的实体表示；最后进行实体相似度计算与训练，并用训练完的模型预测源实体的目标实体。本发明提出的方法将医疗知识图谱中的相关属性视为一类特殊的节点，从而将实体和属性建模在统一的网络中，并使用双邻域图神经网络对图中的节点进行嵌入，这样可以同时捕获实体邻域和属性邻域中的结构相似性，最终生成语义丰富的实体表示，达到提高医疗实体对齐准确性的目的。

Description

一种基于双邻域图神经网络的医疗实体对齐方法及系统

技术领域

本发明属于自然语言处理中的知识图谱融合领域，特别涉及一种基于双邻域图神经网络的医疗实体对齐方法及系统。

背景技术

随着数据挖掘的繁荣发展，众多领域都产生了相应的知识图谱。在医疗领域，医疗知识图谱中知识来源的多样性导致了知识重复、知识质量良莠不齐、知识间关联不够明确等问题。例如阿奇霉素在百度百科中被称为希舒美，在A+医学百科中别名有阿齐霉素、阿奇红霉素、叠氮红霉素等，商品名有泰力特、希舒美、舒美特等。实体对齐可以自动识别不同医疗知识图谱中的等价实体，是医学知识融合中非常重要的一步。

目前，基于嵌入的实体对齐是实体对齐任务中的主流方法，它的关键思想是将知识图谱中的元素(如实体和关系)表示为低维向量(称为嵌入)，使得实体的语义相关性被嵌入空间的几何结构捕获。根据嵌入模型的不同，基于嵌入的实体对齐可以分为两大类，即基于翻译的实体对齐和基于图神经网络的实体对齐。第一类方法使用TransE及其变体建模知识图谱的结构，它们将关系解释为从其头部实体到其尾部实体的翻译。第二类方法使用图神经网络对知识图谱进行嵌入，因为图神经网络对于建模图结构的数据有很好的效果。此外，除了关系三元组，还有一些方法引入实体属性、文本描述等了额外的信息来提高实体对齐的结果。但是现有的方法对于属性三元组的利用仍然存在两个缺陷。首先，这些方法都是在分开的网络中建模关系三元组和属性三元组，来自实体邻域和属性邻域的对齐信号仅仅被保留在他们自身的网络之中，而不能跨网络进行传播。其次，有些方法使用了预训练的词向量或者机器翻译等外部工具，这不仅使得最终的实体对齐结果依赖于工具本身的质量，还会增加模型的复杂度和训练开销。

发明内容

发明目的：针对上述现有方法存在的技术问题，本发明的目的在于提供一种基于双邻域图神经网络的医疗实体对齐方法及系统，能够有效利用属性信息，生成语义更加丰富的实体表示，并具有参数少、训练开销小、对齐结果准确性高等特点。

技术方案：为实现上述发明目的，本发明采用的技术方案为：

一种基于双邻域图神经网络的医疗实体对齐方法，包括以下步骤：

步骤1，从链接开放数据项目所存储的医疗知识图谱中，抽取医疗领域对齐的实体对以及相应的关系和属性，并对得到的数据进行预处理；

步骤2，将实体和属性建模在统一的网络中，通过关系三元组定义实体和实体之间的拓扑连接，属性三元组定义实体和属性之间的拓扑连接，使用图神经网络分别在实体邻域和属性邻域进行特征聚合，生成实体邻域特征和属性邻域特征，并使用门控机制进行特征整合以保持实体嵌入的维度不变；

步骤3，通过串联操作得到每一层的双邻域特征，并通过跳跃连接输出，生成全局感知的实体表示；

步骤4，根据两个实体在嵌入空间的距离计算相似度，对网络模型进行训练，并用训练完的模型预测源实体的目标实体。

进一步地，步骤1中具体过程包括：

步骤1-1，随机抽取不同医疗知识图谱中对齐的医疗实体对；

步骤1-2，抽取步骤1-1获得的实体的关系和属性信息，以关系三元组和属性三元组的方式存储；

步骤1-3，对获得的数据进行预处理，将实体、关系和属性进行编号，只保留属性类型而舍弃具体的属性值，并过滤掉仅出现过一次的属性。

进一步地，步骤2中使用图注意力网络进行双邻域特征聚合，具体为：

使用图注意力网络GAT1在实体邻域进行特征聚合，通过聚合实体ei邻居实体的表示，从而更新实体e_i的实体邻域特征

表示实体e_i在图注意力网络GAT1第l层的实体邻域特征；

使用图注意力网络GAT2在属性邻域进行特征聚合，通过聚合实体ei拥有的属性的表示，从而更新实体e_i的属性邻域特征

通过聚合属性a所属的实体表示，从而更新属性a的特征

表示实体e_i在图注意力网络GAT2第l层的属性邻域特征，，

表示属性a第l层的特征，作为下一层神经网络输入的属性表示。

进一步地，步骤2中使用Highway gate的门控机制，将实体邻域特征和属性邻域特征进行整合：

其中，ReLU表示激活函数，σ是非线性激活函数tanh，M和b是各层共享的权重矩阵和偏置向量，

表示实体e_i第l层的特征，作为下一层神经网络的输入的实体表示。

进一步地，步骤3中具体过程包括：

步骤3-1，将步骤2中的实体邻域特征和属性邻域特征进行串联得到双邻域实体特征：

其中，||表示串联操作；

步骤3-2，将图神经网络每一层的双邻域特征通过跳跃连接输出并串联在一起，生成全局感知的实体表示：

其中，L表示神经网络的层数。

进一步地，步骤4中具体过程包括：

步骤4-1，根据实体嵌入之间的曼哈顿距离来判断两个实体是否对齐，两个实体在嵌入空间中的曼哈顿距离越小，他们的相似度就越大，也就越可能对齐：

其中，

表示曼哈顿距离，

分别表示实体e₁、e₂全局感知的实体表示；

步骤4-2，模型训练，采用误差逆传播算法，最小化损失函数，不断优化模型中的参数，损失函数定义如下：

其中，γ＞0是一个间隔超参数，S是预对齐的实体对集合，S′是负样本的集合，在训练模型时，采用“早停”策略防止过拟合。

步骤4-3，用训练完的模型预测源实体的目标实体，并输出实体对齐的结果。

进一步地，使用最邻近采样算法进行负采样，得到负样本集合。

基于相同的发明构思，本发明提供的一种基于双邻域图神经网络的医疗实体对齐系统，包括：

数据集构建模块，用于从链接开放数据项目所存储的医疗知识图谱中，抽取医疗领域对齐的实体对以及相应的关系和属性，并对得到的数据进行预处理；

双邻域图神经网络模块，用于将实体和属性建模在统一的网络中，通过关系三元组定义实体和实体之间的拓扑连接，属性三元组定义实体和属性之间的拓扑连接，使用图神经网络分别在实体邻域和属性邻域进行特征聚合，生成实体邻域特征和属性邻域特征，并使用门控机制进行特征整合以保持实体嵌入的维度不变；用于通过串联操作得到每一层的双邻域特征，并通过跳跃连接输出，生成全局感知的实体表示；

以及模型训练与预测模块，用于根据两个实体在嵌入空间的距离计算相似度，对网络模型进行训练，并用训练完的模型预测源实体的目标实体。

基于相同的发明构思，本发明提供的一种基于双邻域图神经网络的医疗实体对齐系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于双邻域图神经网络的医疗实体对齐方法。

有益效果：本发明将医疗知识图谱中的相关属性视为一类特殊的节点，从而将实体和属性建模在统一的网络中，并使用双邻域图神经网络对图中的节点进行嵌入，这样可以同时捕获实体邻域和属性邻域中的结构相似性，最终生成语义丰富的实体表示，达到提高医疗实体对齐准确性的目的。与现有技术相比，其显著优点为：1)本发明除了使用关系三元组，还引入了属性三元组，这样可以得到语义更加丰富的实体表示，进一步提高实体对齐的结果；2)本发明将实体和属性建模在统一的网络之中，这样做使得训练集里的对齐信号可以更有效地传播，实体邻域和属性邻域的信息可以交互并且得到增强；3)本发明提出的双邻域图神经网络模型本质上是图注意力网络的一种变体，它不仅可以通过显示地聚合邻居节点来更新中心节点的表示，还可以为不同的邻居训练出不同的注意力系数；4)本发明没有使用预训练的词向量或机器翻译等外部工具，模型简单，训练时空开销小，并且可以得到比较准确的实体对齐结果。

附图说明

图1为本发明实施例的流程示意图。

图2为本发明实施例的双邻域特征聚合示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。应当理解，此处描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例一

结合图1本发明实施例一的流程示意图，本发明提出了一种基于双邻域图神经网络的医疗实体对齐方法，包括以下步骤：

步骤1，医疗实体对齐数据集构建，从链接开放数据项目(LOD)所存储的医疗知识图谱中，抽取医疗领域对齐的实体对以及相应的关系和属性，并对得到的数据进行预处理；

步骤2，双邻域特征聚合，将实体和属性建模在统一的网络中，通过关系三元组定义实体和实体之间的拓扑连接，属性三元组定义实体和属性之间的拓扑连接，使用图神经网络分别在实体邻域和属性邻域进行特征聚合，生成实体邻域特征和属性邻域特征，并使用门控机制进行特征整合以保持实体嵌入的维度不变；

步骤3，生成实体表示，通过串联操作得到每一层的双邻域特征，并通过跳跃连接输出，生成全局感知的实体表示；

步骤4，相似度计算与训练，根据两个实体在嵌入空间的距离计算相似度，对网络模型进行训练，并用训练完的模型预测源实体的目标实体。

进一步地，在实施例一中，步骤1中所述医疗实体对齐数据集构建，具体过程包括：

步骤1-1，LOD项目存储了众多的医疗知识图谱，利用inter-language links(ILLs)随机抽取不同知识图谱中一定数量的对齐的医疗实体对；

步骤1-3，对获得的数据进行预处理，将实体、关系和属性进行编号，只保留属性类型而舍弃具体的属性值，并过滤掉那些仅出现过一次的“独有”属性；

步骤1-4，随机选取数据集中70％的预对齐的实体对作为训练数据，剩下的30％作为测试数据。

采用本实施例的方案，我们从DBpedia和YAGO中抽取医疗相关的实体、关系和属性，构建了一个医疗实体对齐数据集，该数据集包含5000组预对齐的实体对。采用真实世界的数据集，可以对方法的性能进行充分的测试。

进一步地，在实施例一中，步骤2中所述双邻域特征聚合，具体过程包括：

步骤2-1，构建实体-属性图，将知识图谱中的实体和属性建模在统一的网络中，关系三元组定义实体和实体之间的拓扑连接，属性三元组定义实体和属性之间的拓扑连接；

步骤2-2，使用图注意力网络(Graph attention networks，GAT)GAT1在实体邻域进行特征聚合，通过聚合实体e_i邻居实体的表示，从而获得实体e_i的实体邻域特征

表示实体e_i在图注意力网络GAT1第l层的实体邻域特征；

步骤2-3，使用GAT2在属性邻域进行特征聚合，通过聚合实体e_i拥有的属性的表示，从而更新实体e_i的属性邻域特征

通过聚合属性a所属的实体表示，从而更新属性a的特征

表示实体e_i在图注意力网络GAT2第l层的属性邻域特征，

步骤2-4，使用Highway gate的门控机制，将实体邻域特征和属性邻域特征进行整合，以融合多方面的实体语义信息并保持实体嵌入的维度不变：

其中，ReLU表示激活函数，σ是非线性激活函数tanh，M和b是各层共享的权重矩阵和偏置向量。

图2即为实施例一中双邻域特征聚合的示意图，实心节点表示医疗实体，空心节点表示医疗实体的属性。采用本实施例的方案，将实体和属性建模在统一的网络之中，这样做使得训练集里的对齐信号可以更有效地传播，实体邻域和属性邻域的信息可以交互并且得到增强。此外，通过Highway gate可以分配实体邻域特征和属性邻域特征自适应的权重系数，使融合得到的实体特征更具表达力。

进一步地，在实施例一中，步骤3所述生成实体表示，具体过程包括：

步骤3-1，将步骤2中的实体邻域特征和属性邻域特征进行串联得到双邻域实体特征，串联操作可以尽量保持实体特征的语义：

步骤3-2，将图神经网络每一层的双邻域特征通过跳跃连接输出并串联在一起，生成全局感知的实体表示，它包含了实体的高层语义信息：

其中，L表示神经网络的层数。

采用本实施例的方案，我们将实体邻域特征和属性邻域特征进行串联，这样可以尽量保持实体特征的语义。由于图神经网络每一层中的实体嵌入都代表不同的语义，将每一层的双邻域特征串联在一起作为最终的实体表示，可以获取实体的高层语义信息。

进一步地，在实施例一中，步骤4所述相似度计算与训练，具体过程包括：

步骤4-1，我们根据实体嵌入之间的距离来判断两个实体是否对齐，两个实体在嵌入空间中的曼哈顿距离越小，他们的相似度就越大，也就越可能对齐：

步骤4-2，模型训练，采用误差逆传播算法，最小化损失函数，不断优化模型中的参数。基于双邻域图神经网络的实体对齐方法，损失函数定义如下：

其中，γ＞0是一个间隔超参数，S是预对齐的实体对集合，S′是负样本的集合。具体来说，我们使用最邻近采样算法进行负采样，这样可以获得比较有挑战性的负样本，从而增强模型的健壮性。最小化上面的损失函数，可以使正样本之间的距离尽量小，而负样本之间的距离尽量大。此外，在训练模型时，我们采用“早停”策略防止过拟合。

采用本实施例的方案，图神经网络的层数为2，实体和属性嵌入的维度为100，每对正样本采样30对负样本，每训练10轮采样一次，γ＝1。

实施例二

基于相同的发明构思，本实施例提供的一种基于双邻域图神经网络的医疗实体对齐系统，包括：数据集构建模块，用于从链接开放数据项目所存储的医疗知识图谱中，抽取医疗领域对齐的实体对以及相应的关系和属性，并对得到的数据进行预处理；双邻域图神经网络模块，用于将实体和属性建模在统一的网络中，通过关系三元组定义实体和实体之间的拓扑连接，属性三元组定义实体和属性之间的拓扑连接，使用图神经网络分别在实体邻域和属性邻域进行特征聚合，生成实体邻域特征和属性邻域特征，并使用门控机制进行特征整合以保持实体嵌入的维度不变；用于通过串联操作得到每一层的双邻域特征，并通过跳跃连接输出，生成全局感知的实体表示；以及模型训练与预测模块，用于根据两个实体在嵌入空间的距离计算相似度，对网络模型进行训练，并用训练完的模型预测源实体的目标实体。各模块的详细实施步骤参见上述实施例一，此处不再赘述。

实施例三

基于相同的发明构思，本实施例提供的一种基于双邻域图神经网络的医疗实体对齐系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现实施例一中的基于双邻域图神经网络的医疗实体对齐方法。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。