CN114328474A - 一种基于关系交互的块分解的智能搜索补全方法 - Google Patents

一种基于关系交互的块分解的智能搜索补全方法 Download PDF

Info

Publication number
CN114328474A
CN114328474A CN202111154785.4A CN202111154785A CN114328474A CN 114328474 A CN114328474 A CN 114328474A CN 202111154785 A CN202111154785 A CN 202111154785A CN 114328474 A CN114328474 A CN 114328474A
Authority
CN
China
Prior art keywords
block decomposition
relational
entity
model
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111154785.4A
Other languages
English (en)
Inventor
喻梅
郭九江
许林英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111154785.4A priority Critical patent/CN114328474A/zh
Publication of CN114328474A publication Critical patent/CN114328474A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于关系交互的块分解的智能搜索补全方法,包括:将需要补全的数据集按照8:2的比例分为训练集和测试集;对数据集依次进行实体抽取、关系抽取、实体统一、指代消解的结构化处理;对结构化处理后的数据进行编码;建立关系交互块分解模型,包括得分函数和损失函数;给关系交互块分解设置模型超参数;使用训练集训练关系交互块分解模型,直至该模型的损失函数收敛;使用训练好的关系交互块分解模型对测试集进行补全;通过试验评估对训练好的关系交互块分解模型进行验证。本发明能够以更高的效率以及可解释性去合理补全或预测事实。

Description

一种基于关系交互的块分解的智能搜索补全方法
技术领域
本发明涉及一种智能搜索补全方法。特别是涉及一种基于关系交互的块分解方法的智能搜索补全方法。
背景技术
对于智能搜索系统,我们可以理解为基于现有的事实去预测未知事实从而完善知识图谱的任务。因此,知识图谱作为真实世界三元组的结构化表示,能够为搜索、推荐系统、自然语言处理、问题问答等许多领域提供帮助。
一般地,三元组形式为:头实体、关系、尾实体。当前,现有的知识图库已经容纳了非常复杂的信息,例如:天猫,百度数据,YAGO,DBpedia,WordNet,FreeBase等。然而,大多数数据库中仍然存在信息缺失严重,亟待进行信息的完善。例如在FreeBase数据库中,有71%的人没有确切的出生日期,75%的人没有国籍信息,这些都对数据准确性有着严重制约作用。过去,大多数方法依靠人工手工搜索并补全的方式。然而,受到成本以及准确性的严重制约。因此,将算法应用于智能搜索补全就显得非常必要了。
对于智能搜索补全来说,其主要的任务主要聚焦在三元组(头实体、关系、尾实体)及四元组(头实体、关系、尾实体、时间)缺失情况下的补全,即(头实体、关系、?)和(?、关系、尾实体)等缺失情况的补全。随着互联网技术的不断发展,通过Python及PyTorch的结合,配合Html5进行可视化管理。现有技术中,已经有许多方法被应用于智能搜索系统。如线性模型以及一些张量分解模型。除此之外,有一些学者将张量分解扩展至复数域从而更好地去解决这个问题。近年来,随着神经网络的发展,一些神经网络的方法也渐渐应用于智能搜索引擎行业,并取得了一定的发展。
发明内容
本发明所要解决的技术问题是,提供一种以更有效率以及透明的方式去更准确地解决搜索问题的基于关系交互的块分解的智能搜索补全方法。
本发明所采用的技术方案是:一种基于关系交互的块分解的智能搜索补全方法,其特征在于,包括如下步骤:
1)将需要补全的数据集按照8:2的比例分为训练集T和测试集S;
2)对数据集进行结构化处理,具体是使用语言技术平台(LTP)对数据集依次进行实体抽取、关系抽取、实体统一、指代消解;
3)对结构化处理后的数据进行编码,是采用独热编码对于结构化处理后的数据集中的数据进行编码;
4)建立关系交互块分解模型,所述的关系交互块分解模型包括得分函数和损失函数;
5)给关系交互块分解设置模型超参数,包括:学习率、批尺寸、实体嵌入向量维度、关系嵌入向量维度和最大迭代次数;
6)使用训练集T训练关系交互块分解模型,直至该模型的损失函数收敛;
7)使用训练好的关系交互块分解模型对测试集S进行补全;
8)通过试验评估对训练好的关系交互块分解模型进行验证。
本发明的一种基于关系交互的块分解的智能搜索补全方法,可以进行数据库实时智能补全,能够通过智能推测未来事实,能够通过Web可视化地将结果呈现出来;相比于别的方法,本发明能够以更高的效率以及可解释性去合理补全或预测事实;本发明将数学模型引入系统应用中,以黑盒的方式呈现出来,系统界面简单,对操作人员没有技术要求。
附图说明
图1是本发明的一种基于关系交互的块分解的智能搜索补全方法的架构图;
图2是本发明的一种基于关系较的块分解的智能搜索补全方法模块图。
具体实施方式
下面结合实施例和附图对本发明的一种基于关系交互的块分解的智能搜索补全方法做出详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1、图2所示,本发明的一种基于关系交互的块分解的智能搜索补全方法,包括如下步骤:
1)将需要补全的数据集按照8:2的比例分为训练集T和测试集S;
2)对数据集进行结构化处理,具体是使用语言技术平台(LTP)对数据集依次进行实体抽取、关系抽取、实体统一、指代消解;其中,
所述的实体抽取,就是实体的识别,包括实体的检测及分类;
所述的关系抽取,为三元组抽取,即一个数据集被表示为:头实体、关系和尾实体的集合;
所述的实体统一,是将实体进行统一;
所述的指代消解,是将代表同一实体(Entity)的不同指称(Mention)划分到一个等价集合(指代链,Coreference Chain)的过程。
3)对结构化处理后的数据进行编码,是采用独热编码(one-hot编码)对于结构化处理后的数据集中的数据进行编码;包括:将数据集中的每个实体ei被表示通过f维的独热编码二值向量,让头实体
Figure BDA0003288176210000021
的第i个元素和尾实体
Figure BDA0003288176210000022
的第i个元素等于1,其他元素置为0;对于数据集中的关系r被表示通过l维的独热编码二值向量,将正关系
Figure BDA0003288176210000023
和逆关系
Figure BDA0003288176210000024
的第j个元素置为1,其余元素置为0;则编码过程结束。
4)建立关系交互块分解模型(BDRI),所述的关系交互块分解模型包括得分函数和损失函数;其中:
所述的得分函数
Figure BDA0003288176210000025
表达式如下:
Figure BDA0003288176210000026
Figure BDA0003288176210000031
其中,
Figure BDA0003288176210000032
是主语头实体矩阵的行向量;
Figure BDA0003288176210000033
是宾语头实体嵌入矩阵的行向量;
Figure BDA0003288176210000034
是主语尾实体矩阵的行向量,
Figure BDA0003288176210000035
是宾语尾实体嵌入矩阵的行向量;
Figure BDA0003288176210000036
分别是关系嵌入矩阵和逆关系嵌入矩阵的行向量;
Figure BDA0003288176210000037
Figure BDA0003288176210000038
分别为正关系核心张量和逆关系核心张量;f1,f2分别为两个权重系数目的是去确定正逆关系所占的权重;
所述的损失函数L(p,y)表达式如下:
Figure BDA0003288176210000039
其中,
Figure BDA00032881762100000310
为关系交互块分解模型预测的概率向量;
Figure BDA00032881762100000311
为标签向量,标签向量对于真三元组置1,对于假三元组置0,L(p,y)为损失函数。
5)给关系交互块分解模型(BDRI)设置模型超参数,包括:
学习率(Learningrate):是监督学习以及深度学习中重要的超参数,其决定着模型得分函数能否收敛到局部最小值以及何时收敛至最小值。合适的学习率能够使得分函数在合适的时间内收敛到局部最小值。
批尺寸(batchsize):批尺寸的大小影响模型的优化程度和速度。
实体嵌入向量维度(ent_vec_dim)
关系嵌入向量维度(rel_vec_dim)
最大迭代次数。
6)使用训练集T训练关系交互块分解模型,直至该模型的损失函数收敛,具体:是将训练集T中的数据分别代入损失函数L(p,y)表达式,反复进行损失计算,直至关系交互块分解模型的损失函数收敛,则模型训练完成。
7)使用训练好的关系交互块分解模型对测试集S进行补全,具体:是使用训练好的关系交互块分解模型中的得分函数对给定的测试集S中的每个三元组进行计算,计算得分最高的数据自动认定为补全数据,遍历测试集S中的所有三元组,完成测试集S补全。
8)通过试验评估对训练好的关系交互块分解模型进行验证,包括:将实验评估指标MRR、Hit@1、Hit@3和Hit@10的相关系数分别代入训练好的关系交互块分解模型进行计算,采用将计算结果相互对比的方式对计算结果进行评估和验证,从而实现对该模型的评估。
下面给出一具体实例。本实例步骤包括S1-S8:
S1、将数据集FB15k-237按照8:2的比例分为训练集T和测试集S
S2、使用语言技术平台(LTP)对FB15k-237依次进行实体抽取、关系抽取、实体统一、指代消解来对数据集进行结构化处理;
S3、对结构化处理后的数据进行编码,是采用独热编码(one-hot编码)对于结构化处理后的数据集中的数据进行编码;
S4、建立关系交互块分解(BDRI)模型,所述的关系交互块分解模型包括得分函数和损失函数;
S5、给关系交互块分解(BDRI)设置模型超参数包括设置学习率为0.003,关系嵌入维度200,实体嵌入向量维度(ent_vec_dim),批尺寸(batchsize)为256。
S6、使用FB15K-237数据集中测试集代入损失函数L(p,y)表达式开始训练关系交互块分解模型,反复迭代计算损失200次后,该模型的损失函数开始收敛,继续迭代50次后,该模型完全收敛,完成训练。
S7、使用训练好的关系交互块分解模型中的得分函数对FB15K237的测试集S中的每个三元组进行计算,计算得分最高的数据自动认定为补全数据,遍历测试集S中的所有三元组,完成测试集S补全。
S8、将实验评估指标MRR、Hit@1、Hit@3和Hit@10的相关系数分别代入训练好的关系交互块分解模型进行计算,并最终得到MRR为0.369,Hit@1为0.267,Hit@3为0.403,Hit@10为0.553的优异结果,详细结果如表1所示。
表1试验评价指标汇总表(以FB15k-237为例)
Figure BDA0003288176210000041

Claims (7)

1.一种基于关系交互的块分解的智能搜索补全方法,其特征在于,包括如下步骤:
1)将需要补全的数据集按照8:2的比例分为训练集T和测试集S;
2)对数据集进行结构化处理,具体是使用语言技术平台(LTP)对数据集依次进行实体抽取、关系抽取、实体统一、指代消解;
3)对结构化处理后的数据进行编码,是采用独热编码对于结构化处理后的数据集中的数据进行编码;
4)建立关系交互块分解模型,所述的关系交互块分解模型包括得分函数和损失函数;
5)给关系交互块分解模型设置模型超参数,包括:学习率、批尺寸、实体嵌入向量维度、关系嵌入向量维度和最大迭代次数;
6)使用训练集T训练关系交互块分解模型,直至该模型的损失函数收敛;
7)使用训练好的关系交互块分解模型对测试集S进行补全;
8)通过试验评估对训练好的关系交互块分解模型进行验证。
2.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法,其特征在于,步骤2)中,
所述的实体抽取,就是实体的识别,包括实体的检测及分类;
所述的关系抽取,为三元组抽取,即一个数据集被表示为:头实体、关系和尾实体的集合;
所述的实体统一,是将实体进行统一;
所述的指代消解,是将代表同一实体的不同指称划分到一个等价集合的过程。
3.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法,其特征在于,步骤3)包括:将数据集中的每个实体ei被表示通过f维的独热编码二值向量,让头实体
Figure FDA0003288176200000011
的第i个元素和尾实体
Figure FDA0003288176200000012
的第i个元素等于1,其他元素置为0;对于数据集中的关系r被表示通过l维的独热编码二值向量,将正关系
Figure FDA0003288176200000013
和逆关系
Figure FDA0003288176200000014
的第j个元素置为1,其余元素置为0;则编码过程结束。
4.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法,其特征在于,步骤4)中所述的:
得分函数
Figure FDA0003288176200000015
表达式如下:
Figure FDA0003288176200000016
其中,
Figure FDA0003288176200000017
是主语头实体矩阵的行向量;
Figure FDA0003288176200000018
是宾语头实体嵌入矩阵的行向量;
Figure FDA0003288176200000019
是主语尾实体矩阵的行向量,
Figure FDA00032881762000000110
是宾语尾实体嵌入矩阵的行向量;
Figure FDA00032881762000000111
分别是关系嵌入矩阵和逆关系嵌入矩阵的行向量;
Figure FDA00032881762000000112
Figure FDA00032881762000000113
分别为正关系核心张量和逆关系核心张量;f1,f2分别为两个权重系数目的是去确定正逆关系所占的权重;
损失函数L(p,y)表达式如下:
Figure FDA0003288176200000021
其中,
Figure FDA0003288176200000022
为关系交互块分解模型预测的概率向量;
Figure FDA0003288176200000023
为标签向量,标签向量对于真三元组置1,对于假三元组置0,L(p,y)为损失函数。
5.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法,其特征在于,步骤6)包括:将训练集T中的数据分别代入损失函数L(p,y)表达式,反复进行损失计算,直至关系交互块分解模型的损失函数收敛,则模型训练完成。
6.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法,其特征在于,步骤7)包括:
使用训练好的关系交互块分解模型中的得分函数对给定的测试集S中的每个三元组进行计算,计算得分最高的数据自动认定为补全数据,遍历测试集S中的所有三元组,完成测试集S补全。
7.根据权利要求1所述的一种基于关系交互的块分解的智能搜索补全方法,其特征在于,步骤8)包括:将实验评估指标MRR、Hit@1、Hit@3和Hit@10的相关系数分别代入训练好的关系交互块分解模型进行计算,采用将计算结果相互对比的方式对计算结果进行评估和验证,从而实现对该模型的评估。
CN202111154785.4A 2021-09-29 2021-09-29 一种基于关系交互的块分解的智能搜索补全方法 Pending CN114328474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111154785.4A CN114328474A (zh) 2021-09-29 2021-09-29 一种基于关系交互的块分解的智能搜索补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111154785.4A CN114328474A (zh) 2021-09-29 2021-09-29 一种基于关系交互的块分解的智能搜索补全方法

Publications (1)

Publication Number Publication Date
CN114328474A true CN114328474A (zh) 2022-04-12

Family

ID=81045477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111154785.4A Pending CN114328474A (zh) 2021-09-29 2021-09-29 一种基于关系交互的块分解的智能搜索补全方法

Country Status (1)

Country Link
CN (1) CN114328474A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114860955A (zh) * 2022-05-21 2022-08-05 大连海洋大学 水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114860955A (zh) * 2022-05-21 2022-08-05 大连海洋大学 水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备
CN114860955B (zh) * 2022-05-21 2023-10-03 大连海洋大学 水产医学知识图谱补全方法、混合卷积模型及其训练方法和设备

Similar Documents

Publication Publication Date Title
CN111241837B (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN111079985B (zh) 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法
CN110263323A (zh) 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN112749562A (zh) 命名实体识别方法、装置、存储介质及电子设备
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN109241199B (zh) 一种面向金融知识图谱发现的方法
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及系统
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN114756686A (zh) 一种基于知识图谱的知识推理和故障诊断方法
CN115422944A (zh) 语义识别方法、装置、设备及存储介质
CN112434514B (zh) 基于多粒度多通道的神经网络的语义匹配方法、装置及计算机设备
CN112800203A (zh) 一种融合文本和知识表征的问答匹配方法及系统
CN116383399A (zh) 一种事件舆情风险预测方法及系统
CN116205482A (zh) 重点人员风险等级评估方法及相关设备
CN115221387A (zh) 一种基于深度神经网络的企业信息整合方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
Wang et al. A Deep‐Learning‐Inspired Person‐Job Matching Model Based on Sentence Vectors and Subject‐Term Graphs
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN114328474A (zh) 一种基于关系交互的块分解的智能搜索补全方法
CN114662652A (zh) 一种基于多模态信息学习的专家推荐方法
CN117390198A (zh) 构建电力领域科技知识图谱的方法、装置、设备及介质
CN117151222A (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法
CN114595693A (zh) 一种基于深度学习的文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination