CN114328474A

CN114328474A - 一种基于关系交互的块分解的智能搜索补全方法

Info

Publication number: CN114328474A
Application number: CN202111154785.4A
Authority: CN
Inventors: 喻梅; 郭九江; 许林英
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-04-12

Abstract

一种基于关系交互的块分解的智能搜索补全方法，包括：将需要补全的数据集按照8：2的比例分为训练集和测试集；对数据集依次进行实体抽取、关系抽取、实体统一、指代消解的结构化处理；对结构化处理后的数据进行编码；建立关系交互块分解模型，包括得分函数和损失函数；给关系交互块分解设置模型超参数；使用训练集训练关系交互块分解模型，直至该模型的损失函数收敛；使用训练好的关系交互块分解模型对测试集进行补全；通过试验评估对训练好的关系交互块分解模型进行验证。本发明能够以更高的效率以及可解释性去合理补全或预测事实。

Description

一种基于关系交互的块分解的智能搜索补全方法

技术领域

本发明涉及一种智能搜索补全方法。特别是涉及一种基于关系交互的块分解方法的智能搜索补全方法。

背景技术

对于智能搜索系统，我们可以理解为基于现有的事实去预测未知事实从而完善知识图谱的任务。因此，知识图谱作为真实世界三元组的结构化表示，能够为搜索、推荐系统、自然语言处理、问题问答等许多领域提供帮助。

一般地，三元组形式为：头实体、关系、尾实体。当前，现有的知识图库已经容纳了非常复杂的信息，例如：天猫，百度数据，YAGO，DBpedia，WordNet，FreeBase等。然而，大多数数据库中仍然存在信息缺失严重，亟待进行信息的完善。例如在FreeBase数据库中，有71％的人没有确切的出生日期，75％的人没有国籍信息，这些都对数据准确性有着严重制约作用。过去，大多数方法依靠人工手工搜索并补全的方式。然而，受到成本以及准确性的严重制约。因此，将算法应用于智能搜索补全就显得非常必要了。

对于智能搜索补全来说，其主要的任务主要聚焦在三元组(头实体、关系、尾实体)及四元组(头实体、关系、尾实体、时间)缺失情况下的补全，即(头实体、关系、？)和(？、关系、尾实体)等缺失情况的补全。随着互联网技术的不断发展，通过Python及PyTorch的结合，配合Html5进行可视化管理。现有技术中，已经有许多方法被应用于智能搜索系统。如线性模型以及一些张量分解模型。除此之外，有一些学者将张量分解扩展至复数域从而更好地去解决这个问题。近年来，随着神经网络的发展，一些神经网络的方法也渐渐应用于智能搜索引擎行业，并取得了一定的发展。

发明内容

本发明所要解决的技术问题是，提供一种以更有效率以及透明的方式去更准确地解决搜索问题的基于关系交互的块分解的智能搜索补全方法。

本发明所采用的技术方案是：一种基于关系交互的块分解的智能搜索补全方法，其特征在于，包括如下步骤：

1)将需要补全的数据集按照8：2的比例分为训练集T和测试集S；

2)对数据集进行结构化处理，具体是使用语言技术平台(LTP)对数据集依次进行实体抽取、关系抽取、实体统一、指代消解；

3)对结构化处理后的数据进行编码，是采用独热编码对于结构化处理后的数据集中的数据进行编码；

4)建立关系交互块分解模型，所述的关系交互块分解模型包括得分函数和损失函数；

5)给关系交互块分解设置模型超参数，包括：学习率、批尺寸、实体嵌入向量维度、关系嵌入向量维度和最大迭代次数；

6)使用训练集T训练关系交互块分解模型，直至该模型的损失函数收敛；

7)使用训练好的关系交互块分解模型对测试集S进行补全；

8)通过试验评估对训练好的关系交互块分解模型进行验证。

本发明的一种基于关系交互的块分解的智能搜索补全方法，可以进行数据库实时智能补全，能够通过智能推测未来事实，能够通过Web可视化地将结果呈现出来；相比于别的方法，本发明能够以更高的效率以及可解释性去合理补全或预测事实；本发明将数学模型引入系统应用中，以黑盒的方式呈现出来，系统界面简单，对操作人员没有技术要求。

附图说明

图1是本发明的一种基于关系交互的块分解的智能搜索补全方法的架构图；

图2是本发明的一种基于关系较的块分解的智能搜索补全方法模块图。

具体实施方式

下面结合实施例和附图对本发明的一种基于关系交互的块分解的智能搜索补全方法做出详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1、图2所示，本发明的一种基于关系交互的块分解的智能搜索补全方法，包括如下步骤：

2)对数据集进行结构化处理，具体是使用语言技术平台(LTP)对数据集依次进行实体抽取、关系抽取、实体统一、指代消解；其中，

所述的实体抽取，就是实体的识别，包括实体的检测及分类；

所述的关系抽取，为三元组抽取，即一个数据集被表示为：头实体、关系和尾实体的集合；

所述的实体统一，是将实体进行统一；

所述的指代消解，是将代表同一实体(Entity)的不同指称(Mention)划分到一个等价集合(指代链，Coreference Chain)的过程。

3)对结构化处理后的数据进行编码，是采用独热编码(one-hot编码)对于结构化处理后的数据集中的数据进行编码；包括：将数据集中的每个实体e_i被表示通过f维的独热编码二值向量，让头实体

的第i个元素和尾实体

的第i个元素等于1，其他元素置为0；对于数据集中的关系r被表示通过l维的独热编码二值向量，将正关系

和逆关系

的第j个元素置为1，其余元素置为0；则编码过程结束。

4)建立关系交互块分解模型(BDRI)，所述的关系交互块分解模型包括得分函数和损失函数；其中：

所述的得分函数

表达式如下：

其中，

是主语头实体矩阵的行向量；

是宾语头实体嵌入矩阵的行向量；

是主语尾实体矩阵的行向量，

是宾语尾实体嵌入矩阵的行向量；

分别是关系嵌入矩阵和逆关系嵌入矩阵的行向量；

和

分别为正关系核心张量和逆关系核心张量；f₁,f₂分别为两个权重系数目的是去确定正逆关系所占的权重；

所述的损失函数L(p,y)表达式如下：

其中，

为关系交互块分解模型预测的概率向量；

为标签向量，标签向量对于真三元组置1，对于假三元组置0，L(p,y)为损失函数。

5)给关系交互块分解模型(BDRI)设置模型超参数，包括：

学习率(Learningrate)：是监督学习以及深度学习中重要的超参数，其决定着模型得分函数能否收敛到局部最小值以及何时收敛至最小值。合适的学习率能够使得分函数在合适的时间内收敛到局部最小值。

批尺寸(batchsize)：批尺寸的大小影响模型的优化程度和速度。

实体嵌入向量维度(ent_vec_dim)

关系嵌入向量维度(rel_vec_dim)

最大迭代次数。

6)使用训练集T训练关系交互块分解模型，直至该模型的损失函数收敛，具体：是将训练集T中的数据分别代入损失函数L(p,y)表达式，反复进行损失计算，直至关系交互块分解模型的损失函数收敛，则模型训练完成。

7)使用训练好的关系交互块分解模型对测试集S进行补全，具体：是使用训练好的关系交互块分解模型中的得分函数对给定的测试集S中的每个三元组进行计算，计算得分最高的数据自动认定为补全数据，遍历测试集S中的所有三元组，完成测试集S补全。

8)通过试验评估对训练好的关系交互块分解模型进行验证，包括：将实验评估指标MRR、Hit@1、Hit@3和Hit@10的相关系数分别代入训练好的关系交互块分解模型进行计算，采用将计算结果相互对比的方式对计算结果进行评估和验证，从而实现对该模型的评估。

下面给出一具体实例。本实例步骤包括S1-S8：

S1、将数据集FB15k-237按照8：2的比例分为训练集T和测试集S

S2、使用语言技术平台(LTP)对FB15k-237依次进行实体抽取、关系抽取、实体统一、指代消解来对数据集进行结构化处理；

S3、对结构化处理后的数据进行编码，是采用独热编码(one-hot编码)对于结构化处理后的数据集中的数据进行编码；

S4、建立关系交互块分解(BDRI)模型，所述的关系交互块分解模型包括得分函数和损失函数；

S5、给关系交互块分解(BDRI)设置模型超参数包括设置学习率为0.003，关系嵌入维度200，实体嵌入向量维度(ent_vec_dim)，批尺寸(batchsize)为256。

S6、使用FB15K-237数据集中测试集代入损失函数L(p,y)表达式开始训练关系交互块分解模型，反复迭代计算损失200次后，该模型的损失函数开始收敛，继续迭代50次后，该模型完全收敛，完成训练。

S7、使用训练好的关系交互块分解模型中的得分函数对FB15K237的测试集S中的每个三元组进行计算，计算得分最高的数据自动认定为补全数据，遍历测试集S中的所有三元组，完成测试集S补全。

S8、将实验评估指标MRR、Hit@1、Hit@3和Hit@10的相关系数分别代入训练好的关系交互块分解模型进行计算，并最终得到MRR为0.369，Hit@1为0.267，Hit@3为0.403，Hit@10为0.553的优异结果，详细结果如表1所示。

表1试验评价指标汇总表(以FB15k-237为例)

Claims

1.一种基于关系交互的块分解的智能搜索补全方法，其特征在于，包括如下步骤：

5)给关系交互块分解模型设置模型超参数，包括：学习率、批尺寸、实体嵌入向量维度、关系嵌入向量维度和最大迭代次数；

7)使用训练好的关系交互块分解模型对测试集S进行补全；

8)通过试验评估对训练好的关系交互块分解模型进行验证。

2.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法，其特征在于，步骤2)中，

所述的实体统一，是将实体进行统一；

所述的指代消解，是将代表同一实体的不同指称划分到一个等价集合的过程。

3.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法，其特征在于，步骤3)包括：将数据集中的每个实体e_i被表示通过f维的独热编码二值向量，让头实体

的第i个元素和尾实体

和逆关系

的第j个元素置为1，其余元素置为0；则编码过程结束。

4.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法，其特征在于，步骤4)中所述的：

得分函数

表达式如下：

其中，

是主语头实体矩阵的行向量；

是宾语头实体嵌入矩阵的行向量；

是主语尾实体矩阵的行向量，

是宾语尾实体嵌入矩阵的行向量；

分别是关系嵌入矩阵和逆关系嵌入矩阵的行向量；

和

损失函数L(p,y)表达式如下：

其中，

为关系交互块分解模型预测的概率向量；

5.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法，其特征在于，步骤6)包括：将训练集T中的数据分别代入损失函数L(p,y)表达式，反复进行损失计算，直至关系交互块分解模型的损失函数收敛，则模型训练完成。

6.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法，其特征在于，步骤7)包括：

使用训练好的关系交互块分解模型中的得分函数对给定的测试集S中的每个三元组进行计算，计算得分最高的数据自动认定为补全数据，遍历测试集S中的所有三元组，完成测试集S补全。

7.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法，其特征在于，步骤8)包括：将实验评估指标MRR、Hit@1、Hit@3和Hit@10的相关系数分别代入训练好的关系交互块分解模型进行计算，采用将计算结果相互对比的方式对计算结果进行评估和验证，从而实现对该模型的评估。