CN115422369A - 基于改进TextRank的知识图谱补全方法和装置 - Google Patents

基于改进TextRank的知识图谱补全方法和装置 Download PDF

Info

Publication number
CN115422369A
CN115422369A CN202211052681.7A CN202211052681A CN115422369A CN 115422369 A CN115422369 A CN 115422369A CN 202211052681 A CN202211052681 A CN 202211052681A CN 115422369 A CN115422369 A CN 115422369A
Authority
CN
China
Prior art keywords
sentence
entity
matrix
task
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211052681.7A
Other languages
English (en)
Other versions
CN115422369B (zh
Inventor
张骁雄
田昊
丁鲲
刘茗
杨琴琴
刘姗姗
蒋国权
刘浏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211052681.7A priority Critical patent/CN115422369B/zh
Publication of CN115422369A publication Critical patent/CN115422369A/zh
Application granted granted Critical
Publication of CN115422369B publication Critical patent/CN115422369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及知识图谱技术领域一种基于改进TextRank的知识图谱补全方法和装置。该方法通过获取知识问答系统知识图谱中三元组的头尾实体的文本描述信息,及实体关系文本;采用替换法构造负样本,将三元组和负样本作为样本集;采用改进TextRank提取样本集中三元组的头尾实体的描述摘要,将描述摘要和实体关系文本拼接后输入ALBERT编码器,并将得到的具有上下位语义特征的特征矩阵经过平均池化和BiGRU层进行特征增强,根据增强特征矩阵采用多任务学习方式,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。采用本方法对智能问答系统知识图谱进行补全,可提高智能问答系统搜索结果精准度,实现所答即所问。

Description

基于改进TextRank的知识图谱补全方法和装置
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种基于改进TextRank的知识图谱补全方法和装置。
背景技术
随着人工智能和大数据技术的发展,知识图谱已经因为其良好的搜索性能和较高的存储质量,成为了数据的主流存储方式,知识图谱往往用三元组(头实体、关系、尾实体)(即(h,r,t))来表示现实世界的事物,结构性好,直观性强。知识图谱作为结构化的显性知识,在语义表示、语义理解、语义推理、智能问答等语义计算任务中发挥着越来越重要的作用。虽然目前知识图谱中实体的数量可达到数十亿的水平,但大多知识图谱仍然相对稀疏,这影响了知识图谱的数据质量和整体结构性,降低知识图谱的应用效率。为了缓和这个问题,知识补全技术成为研究热点。
智能问答系统就是基于大量语料数据组成的知识图谱,通过数学模型,通过相关编程语言实现的一个能够和人类进行对话,解决问题的一个软件系统。智能问题系统要求有较高的搜索精度,实现真正的所答即所问。
现有知识补全模型欠缺关系和相似实体学习能力、难以处理冗余实体描述信息等问题,导致智能问答过程中搜索结果不够精准,可能会返回一堆相似的页面,还需要搜索者进行筛选,不能很好的实现所答即所问。
发明内容
基于此,有必要针对上述问题,提供一种基于改进TextRank的知识图谱补全方法和装置。
一种基于改进TextRank的知识图谱补全方法,所述方法包括:
获取智能问答系统知识图谱中多个三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本。
将多个所述三元组作为正样本集,并根据所述正样本采用替换法构造负样本,得到负样本集;将所述正样本集和所述负样本集作为样本集。
将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进TextRank方式,利用实体名的覆盖率、句子位置以及句子相似度对句子权重进行调整,根据得到的最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列。
将所述输入序列输入到序列编码层中,采用ALBERT编码器对所述输入序列进行特征提取和特征编码,得到具有上下位语义特征的特征矩阵。
将所述特征矩阵输入到特征增强层,采用平均池化层和BiGRU层对所述特征矩阵进行特征增强,得到增强特征矩阵。
将所述增强特征矩阵输入到所述多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统的知识图谱补全任务。
一种基于改进TextRank的知识图谱补全装置,所述装置包括:
数据获取模块,用于获取智能问答系统知识图谱中多个三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本;将多个所述三元组作为正样本集,并根据所述正样本采用替换法构造负样本,得到负样本集;将所述正样本集和所述负样本集作为样本集。
头实体和尾实体的描述摘要抽取模块,用于将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进TextRank方式,利用实体名的覆盖率、句子位置以及句子相似度对句子权重进行调整,根据得到的最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列。
特征提取模块,用于将所述输入序列输入到序列编码层中,采用ALBERT编码器对所述输入序列进行特征提取和特征编码,得到具有上下位语义特征的特征矩阵;将所述特征矩阵输入到特征增强层,采用平均池化层和BiGRU层对所述特征矩阵进行特征增强,得到增强特征矩阵。
知识图谱补全模块,将所述增强特征矩阵输入到所述多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统的知识图谱补全任务。
上述基于改进TextRank的知识图谱补全方法和装置,所述方法包括:获取知识问答系统知识图谱中三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本;将三元组作为正样本集,根据正样本集采用替换法构造负样本,将所述正样本集和所述负样本集作为样本集,采用改进TextRank方式提取样本集中三元组的头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要和实体关系文本拼接后,输入到ALBERT编码器中进行特征提取,得到具有上下位语义特征的特征矩阵;将特征矩阵输入到特征增强层,采用平均池化层和BiGRU层进行特征增强,得到增强特征矩阵;根据增强特征矩阵采用多任务学习方式,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。采用本方法对智能问答系统知识图谱进行补全,提高了智能问答过程中搜索结果的精准,实现所答即所问。
附图说明
图1为一个实施例中基于改进TextRank的知识图谱补全方法的流程图;
图2为另一个实施例中基于改进TextRank的知识图谱补全方法的网络模型图;
图3为另一个实施例中采用改进TextRank进行摘要提取步骤的流程图;
图4为一个实施例中基于改进TextRank的知识图谱补全装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
基于改进TextRank的知识图谱补全方法:Multi-task-learning and ImprovedTextRank for Knowledge Graph Completion,简称:MIT-KGC模型。
在一个实施例中,如图1所示,提供了一种基于改进TextRank的知识图谱补全方法,该方法包括以下步骤:
步骤100:获取智能问答系统知识图谱中多个三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本;将多个三元组作为正样本集,并根据正样本采用替换法构造负样本,得到负样本集;将正样本集和负样本集作为样本集。
具体的,智能问答系统知识图谱时根据智能问答系统中大量语料数据组成的知识图谱。智能问答系统可以是但不限于旅游景点问答系统、线上医疗问答系统、知识问答系统等。
步骤102:将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进TextRank方式,利用实体名的覆盖率、句子位置以及句子相似度对句子权重进行调整,根据得到的最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列。
具体的,文本摘要层目的是解决实体描述冗余且大段落的问题,获取精简的关键描述信息。输入序列由特殊标记[CLS]和[SEP]隔开,作为序列编码层的ALBERT器的输入。
实体名的覆盖率计算公式为:
Figure BDA0003824318920000041
其中,We(i)为句子i的实体名的覆盖率,|entityname(Seqi)|为句子i所包含的实体名称数量,|Seqi|为句子i的单词数。
句子位置计算公式为:
Figure BDA0003824318920000042
其中,Wp(i)为句子位置,i为句子的位置,n为句子数量。
将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进TextRank方式,并综合考虑句子位置、句子的相似度、实体的覆盖率等的因素,从而优化最终句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到头实体和尾实体的描述摘要。
基于改进TextRank的知识图谱补全的网络模型如图2所示。
步骤104:将输入序列输入到序列编码层中,采用ALBERT编码器对输入序列进行特征提取和特征编码,得到具有上下位语义特征的特征矩阵。
具体的,方案中采用ALBERT编码器目的是从三元组文本提取特征值,编码成具有上下文语义特征的向量矩阵。
ALBERT编码器可用于自监督的语言表示学习。ALBERT编码器是在BERT模型基础上开发的一种轻量化语言模型,其核心架构与BERT相似,但有三点改进:词向量参数分解、跨层参数共享和用SOP任务替换NSP任务。本发明使用的ALBERT-xlarge参数量为59M,远小于BERT-base的108M,实现了模型的瘦身。在相同的实验上,ALBERT编码器取得了与BERT相似的实验效果,不过减少了BERT的参数量,提升了模型运行效率,缩短了运行时间。
步骤106:将特征矩阵输入到特征增强层,采用平均池化层和BiGRU层对特征矩阵进行特征增强,得到增强特征矩阵。
具体的,平均池化层的输入为ALBERT编码器输出的具有上下位语义特征的特征矩阵,该层目的在于缓解特征重叠堆积的问题,融合[CLS]标签值和其余单词的特征值,计算特征均值,提高编码器的表示能力。
BiGRU由前后两层GRU组成,目的是提高模型学习位置关系的能力。
步骤108:将增强特征矩阵输入到多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。
具体的,多任务微调层以多任务学习框架(Multi-task Learning in DeepNeural Networks,简称MTL-DNN)为基础构架的。
将BiGRU输出的增强特征矩阵作为多任务微调层的共享隐层值,同时训练链接预测任务、关系预测任务和相关度排序任务,融合关系与相似实体特征,训练时,先从每个epoch选择minibatch,分别为每种任务计算损失函数,再根据minibatch的随机梯度下降算法优化各个损失函数,达到优化模型的目的,预测缺失的三元组,完成智能问答系统的知识图谱补全任务。
上述基于改进TextRank的知识图谱补全方法中,所述方法包括:获取知识问答系统知识图谱中三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本;将三元组作为正样本集,根据正样本集采用替换法构造负样本,将所述正样本集和所述负样本集作为样本集,采用改进TextRank方式提取样本集中三元组的头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要和实体关系文本拼接后,输入到ALBERT编码器中进行特征提取,得到具有上下位语义特征的特征矩阵;将特征矩阵输入到特征增强层,采用平均池化层和BiGRU层进行特征增强,得到增强特征矩阵;根据增强特征矩阵采用多任务学习方式,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。采用本方法对智能问答系统知识图谱进行补全,提高了智能问答过程中搜索结果的精准,实现所答即所问。。
本方法可以克服现有知识补全模型欠缺关系和相似实体学习能力、难以处理冗余实体描述信息等问题。
在其中一个实施例中,如图3所示,步骤102包括如下步骤:
步骤300:对头实体的文本描述进行分词预处理,得到头实体的多个句子。
具体的,首先对文本进行预处理分词,识别n个文本单元(句子)并构成集合,再将文本单元作为图顶点,并且计算句子与句子的相似度作为图的边,构造TextRank图模型。
步骤302:将头实体的多个句子作为图顶点,并计算不同图顶点之间的相似度,得到相似度矩阵。
具体的,文本单元(句子)作为图顶点,并且计算句子与句子的相似度作为图的边,构造TextRank图模型。
对每个文本单元(句子)进行等同的初始化,之后进行相似度计算。
步骤304:根据图顶点和相似度矩阵,构造TextRank图模型。
步骤306:根据相似度矩阵和TextRank图模型,得到句子权重矩阵。
步骤308:根据每个句子包含的实体名数量、句子的单词数,得到句子的实体覆盖率矩阵;根据原本实体描述文本段所包含的句子数量和当前句子在段落中的索引,得到句子位置矩阵;根据预设权重值、归一化处理后的实体覆盖率矩阵和句子位置矩阵对所述句子权重矩阵进行修正,得到最终句子权重矩阵。
具体的,传统TextRank算法只是简单地计算句子间相同单词覆盖率作为边,有如下缺点:1)忽略了实体名的重要性,而我们想要的实体描述往往包含实体名(例如“洛杉矶是美国西部最大城市,坐落于加利福尼亚南部”);2)忽略句子位置的重要性,在一段冗余的实体描述中,往往越靠前的句子越有可能是总结性的描述文本。因此,本发明改进了传统TextRank算法,以满足抽取精炼实体描述的需求,利用实体名的覆盖率(计算公式如式(1))和句子位置(计算公式如式(2))对最终的句子权重进行调整。
通过实体覆盖率、句子位置计算,得到对应的两个特征矩阵
Figure BDA0003824318920000071
Figure BDA0003824318920000072
我们分别归一化得到We和Wp,并用We和Wp来调整句子权重矩阵Bf,最终句子权重矩阵计算公式如式(3)所示。
B=Bf·(αWe+βWp)T (3)
其中,B为最终句子权重矩阵,Bf为句子权重矩阵·表示矩阵点乘,α,β分别为两种特征矩阵的权重,且α+β=1,B维度为1×n。
步骤310:根据最终句子权重矩阵对句子进行排序,权重较高的预设数量个句子作为头实体的摘要描述。
具体的,根据句子权重排序,权重较高的x个句子形成摘要,作为优选x=1。
步骤312:对尾实体的文本描述信息输入到文本摘要层中,得到尾实体的摘要描述。
步骤314:将头实体的摘要描述、尾实体的摘要描述以及头实体与尾实体之间的关系文本进行拼接,得到输入序列。
在其中一个实施例中,步骤306包括:设置每个句子的权重初始值为相同的数,其中所有句子的权重之和为1;根据每个句子的权重初始值、相似度矩阵以及TextRank图模型,得到句子权重矩阵;句子权重矩阵的元素计算公式为:
Figure BDA0003824318920000081
其中,TR(Xi)为第i句的权重值,wji∈SD为第j个顶点到第i个顶点之间的相似度,SD为相似度矩阵,In(X)表示指向句子X的句子集合,Out(X)为句子X指向的句子集合,d为阻尼系数。阻尼系数表示某一节点跳转到别的节点的概率,作为优选,阻尼系数为0.85。
具体的,相似度矩阵
Figure BDA0003824318920000082
(对称矩阵,由n×n个wab组成)。然后,初始化句子权重值为B0=[1/n,1/n,...,1/n],再根据公式(4)进行权重值的迭代,得到句子权重矩阵Bf=[TR(X1),TR(X2),...,TR(Xn)]。
在其中一个实施例中,步骤302中不同图顶点之间的相似度的表达式为:
Figure BDA0003824318920000083
其中,wab为句子a对应的顶点与句子b对应的顶点之间的相似度,Seqa和Seqb分别代表句子a和句子b,|Seqa|、|Seqb|分别为句子a和句子b包含的单词数,tk为句子a和句子b中重叠的词汇。
在其中一个实施例中,步骤306中最终句子权重矩阵的表达式为:
B=Bf·(αWe+βWp)T (6)
其中,B为最终句子权重矩阵,B的维度为1×n,Bf为句子权重矩阵,·表示矩阵点乘,α,β分别为两种特征矩阵的权重,且α+β=1,We为归一化的实体覆盖率矩阵,Wp为归一化的句子位置矩阵。
在其中一个实施例中,特征增强层包括:平均池化层和BiGRU层;BiGRU是在隐层同时有一个正向GRU和反向GRU,正向GRU用于捕获上文的特征信息,反向GRU用于捕获下文的特征信息;步骤106包括:将特征矩阵输入到特征增强层的平均池化层中,得到池化特征矩阵;将池化特征矩阵输入到BiGRU层中,利用正向GRU捕获上文的特征信息,利用反向GRU捕获下文的特征信息,得到增强特征矩阵。
具体的,传统BERT以[CLS]标签表征序列的思路为:设特征矩阵Z在每个维度i(i=1,2,3,...,H)的第一个位置的隐层值h(i,0)为[CLS]标签值,并以各个维度的[CLS]标签值拼接为序列表征向量E'=(h(1,0),h(2,0),...,h(H,0))。本文采用的平均池化策略主要思路为:设特征矩阵Z在维度i(i=1,2,3,...,H i=1,2,3,..,H)的隐层值为hi,j(j=1,2,3,...,L),计算hi,j的均值
Figure BDA0003824318920000091
拼接每个维度的
Figure BDA0003824318920000092
组成新特征矩阵
Figure BDA0003824318920000093
Figure BDA0003824318920000094
计算如式(7)所示,新特征矩阵
Figure BDA0003824318920000095
如式(8)所示。
Figure BDA0003824318920000096
Figure BDA0003824318920000097
BiGRU由前后两层GRU组成,目的是提高模型学习位置关系的能力。GRU利用更新门控制当前时刻t对前一时刻t-1的信息接收程度,并通过重置门控制对前一时刻t-1的信息忽略程度。BiGRU的输入是平均池化层的输出特征向量
Figure BDA0003824318920000098
在每个t位置的分量et,在t时刻的主要工作流程如下:1)首先拼接et和上一个GRU网络的隐层值ht-1,计算重置门系数rt∈[0,1],选择性地遗忘上一个GRU网络的隐层值ht-1,更新到候选隐层值
Figure BDA0003824318920000099
中,如式(9)和(10)所示;2)再计算更新门系数zt∈[0,1],选择et和ht-1的重要信息,利用zt有选择地更新隐层值ht,如式(11)和(12)所示;3)经过对隐层值的更新,最终得到特征增强层的输出,即维度为L×H的增强特征矩阵
Figure BDA00038243189200000910
如式(13)所示。
rt=σ(ht-1Wr+etWr+br) (9)
Figure BDA00038243189200000911
zt=σ(ht-1Wz+etWz+bz) (11)
Figure BDA00038243189200000912
E=(h1,h2,...,ht,...,hH) (13)
其中Wr
Figure BDA00038243189200000913
Wz为权重矩阵,br
Figure BDA00038243189200000914
bz为偏置向量,⊙表示矩阵元素相乘。
在其中一个实施例中,链接预测任务包括全连接层和Softmax激活函数、关系预测任务包括全连接层和Softmax激活函数;相关性排序任务包括全连接层和sigmoid激活函数;步骤108包括:将性增强特征矩阵输入到链接预测任务的全连接层中,将得到的输出结果采用Softmax函数激活后,得到链接预测得分,根据链接预测得分采用二进制交叉熵损失函数计算链接预测任务的损失函数,通过梯度下降算法优化链接预测任务的参数,得到最优链接预测结果;将性增强特征矩阵输入到关系预测任务的全连接层中,将得到的输出结果采用Softmax函数激活后,得到关系预测得分,根据关系预测得分采用交叉熵损失函数,确定关系预测任务的损失函数,通过梯度下降算法优化关系预测任务的参数,得到最优关系预测结果;将性增强特征矩阵输入到相关性排序任务的全连接层中,将得到的输出结果采用sigmoid函数激活后,得到相关性排序任务得分,根据关系预测得分采用边际损失函数,确定相关性排序任务的损失函数,通过梯度下降算法优化相关性排序任务的参数,得到最优相关性排序结果;根据最优链接预测结果、最优关系预测结果以及最优相关性排序结果,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。
具体的,本发明将链接预测任务看作二分类任务,合理正确的三元组得分应较高。链接预测任务目的是给定一个实体和关系(h,r,?)或(?,r,t),预测缺失的另一实体。模型得分函数设置为SLP,如式(14)所示,然后通过梯度下降算法优化模型的链接预测参数。由于数据集中的三元组都是事实,这些事实组成真样本集
Figure BDA0003824318920000101
因此需要采用替换法构造负样本
Figure BDA0003824318920000102
如公式(15)所示。从而给定正负样本集
Figure BDA0003824318920000103
Figure BDA0003824318920000104
计算链接预测任务的二进制交叉熵损失函数
Figure BDA0003824318920000105
如式(16)所示。
SLP=softmax(EWLP) (14)
Figure BDA0003824318920000106
Figure BDA0003824318920000107
其中,
Figure BDA0003824318920000108
是链接预测分类层参数矩阵,SLP是一个二维向量,由两部分SLP1,SLP2∈[0,1]组成,代表三元组T属于两种标签的概率得分,且SLP1+SLP2=1,yT∈{0,1}为三元组T的标签(负样本或正样本)。
关系预测任务目的是给定两个实体(h,?,t),预测缺失的关系,从而融入关系信息。关系预测遮盖关系,训练模型依据实体预测遮盖的关系的能力,以此来学习关系特征。关系预测实质为分类任务,正确的关系得分较高,并优化交叉熵损失函数。关系预测得分函数SRP如式(17)所示,损失函数
Figure BDA0003824318920000115
如式(18)所示。
SRP=softmax(EWRP) (17)
Figure BDA0003824318920000111
其中
Figure BDA0003824318920000112
是关系预测分类层参数矩阵,R是数据集中关系的个数,yR为关系标签。
负样本由手工替代正样本实体得到,因此得分应比正样本低,相关性排名目的是给予正确实体更高的得分,训练模型区分合理实体和非合理实体,从而克服相似实体带来的影响。相关性排序任务得分函数SRR使用sigmoid函数,如式(19)所示,使用的损失函数不同于以上两个任务,为了优化不同实体的距离采用边际损失函数(margin ranking loss),如式(20)所示。
SRR=sigmoid(EWRR) (19)
Figure BDA0003824318920000113
其中,
Figure BDA0003824318920000114
是相关性排序任务参数矩阵,SRR′代表负样本得分函数,λ是损失函数中的边际。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个验证性实施例中,本实施例中所用数据集是FB15k-237和WN18RR,这两个数据集是现在最流行的两个知识补全数据集。WN18RR是来自于WordNet的子集,包含英文的三元组数据和实体描述信息。FB15k-237是FreeBase的子集,它包含的英文实体关系以及描述文本比WN18RR更加复杂。表1为数据集的统计信息。
表2数据集统计信息
Figure BDA0003824318920000121
(1)基线模型
本实施例中基线模型包括:基于预训练语言模型的知识补全模型和传统知识补全模型两大类,基于预训练语言模型的知识补全模型包括:基于多任务学习双向语言编码器的知识补全模型(MTLBERT)、基于自回归语言理解方法的知识补全模型(KG-XLNet)、基于双向语言编码器的知识表示模型(KG-BERT),传统知识补全模型包括:基于距离嵌入的知识表示模型(DensE)、关系图卷积神经网络(R-GCN)、基于关系旋转的知识嵌入模型(RotatE)、基于卷积神经网络的知识嵌入模型(ConvE)、基于复空间的知识嵌入模型(ComplEx)、基于双线性方法的知识嵌入模型(DistMult)、基于翻译的知识嵌入模型(TransE)。
(2)实验设置
本实施例选用ALBERT-xlarge作为编码器,FB15k-237最大句子长度为128,WN18RR最大句子长度为76,minibatch大小设置为32,优化器选用Adam,训练epoch为5,学习率为5e-5,相关性排序任务损失函数的margin设置为0.1。
(3)实验任务与评估指标
本实验任务为链接预测,链接预测的主要评估指标为平均排名(Mean Rank,MR)和前k命中率(Hit@k)。MR指目标三元组的平均排名,此指标越小代表模型性能越好;Hit@k指目标三元组排名在前k名的比率,此指标越大代表模型性能越好。实验排除了替换后的其余正确三元组对目标三元组排名的影响,使用Filtered Mean Rank和Filtered Hits@k指标,分别表示删去了其他正确三元组后目标三元组的平均排名和删去了其他正确三元组后目标三元组在前k个三元组中出现的概率。
(4)链接预测实验
模型在数据集FB15k-237以及WN18RR上的链接预测实验如表2所示。
表2链接预测实验结果
Figure BDA0003824318920000131
实验结果表明,MIT-KGC模型在大多数指标上有所改善。在FB15k-237数据集上,MR、Hit@10、Hit@3分别提升31、1.2%、0.7%,其中MR提升明显,原因可能在于FB15k-237关系多且复杂,多任务学习可以有效学习这些关系,而且FB15k-237实体描述文本较长,摘要技术会避免冗余的描述文本,提升了模型预测正确实体的能力;在WN18RR数据集上,MR、Hit@10、Hit@3分别提升37、14.2%、3.7%,其中Hit@10提升明显,可能是因为WN18RR实体较多,伴随着相似实体也较多,多任务学习可以加强模型分辨相似实体的能力,提高正确实体得分。虽然Hit@1指标没有达到最优,原因可能是预训练语言模型主要从语义层面建模,缺乏三元组的结构性特征,相比传统知识补全模型,难以将正确目标预测为第一名,但总体而言,MIT-KGC取得了进步。
(5)消融实验
1)训练任务组合策略实验
为了分析多任务学习框架中每个训练任务的影响,我们设置了不同训练任务组合的消融实验。实验结果如表4所示。
表4不同训练任务实验结果
Figure BDA0003824318920000141
链接预测任务:LP;关系预测任务:RP;相关性排序任务:RR。
从实验结果可知,本文采用的“LP+RP+RR”任务策略取得的效果最好。在数据集WN18RR上,“LP+RP+RR”任务策略相比单独的LP训练,MR、Hit@10、Hit@3、Hit@1上分别提升34.9、10.9%、10%、9.4%,说明加多任务学习策略对实验结果有益,提升了总体模型性能。而从“LP+RP”和“LP+RR”任务策略的实验结果分析,前者相比于LP任务提升8.2、2.5%、5.7%、4.1%,后者提升31.1、9.5%、9.2%、7.2%,说明加入的RR和RP是有效的,并且我们可以发现RR任务带来的提升更加明显,说明原本的训练模式存在无法分辨相似实体的情况,造成正确实体得分较低,而RR任务可以有效缓解这种问题,提升了预测的准确性。
2)编码器分析实验
为了对比不同编码器的实验效果和运行效率,设计了以BERT为编码器的另一种模型,具体来说是bert-xlarge和bert-large,并且将这两种编码器与albert-xlarge和albert-large对比,几种编码器的主要参数如表5所示。在数据集WN18RR上,链接预测实验结果与运行速度如表6所示,其中运行速度通过训练时间的倒数计算,以bert-xlarge为基准。
表5不同编码器参数
Figure BDA0003824318920000151
表6不同编码器实验结果
Figure BDA0003824318920000152
从实验结果可知,albert-xlarge在MR、Hit@10、Hit@3、Hit@1上分别提升12.8、6.4%、2.9%、2.1%,并且速度达到bert-xlarge的2.1倍。得益于词向量参数分解以及层级参数共享,albert-xlarge减少了模型参数,增加了数据吞吐量,因此获得了速度的提升;同时,在相同隐层大小情况下,albert-xlarge通过词向量参数分解保持嵌入大小不变,从而提升模型预测性能。从模型速度看,albert-large的运行速度最快,但测试结果不是最佳,甚至比bert-large差,而albert-xlarge虽然速度不是最快,但是性能提升明显,综合考虑时间成本和预测准确率,本文采用的albert-xlarge兼顾了实验结果与运行速度,是合理有效的。
3)文本摘要分析实验
从实验结果、摘要示例和文本长度变化三个方面完成了对改进TextRank的分析实验。
首先,如表7所示,MIT-KGC在没有改进TextRank的时候,在MR、Hit@10、Hit@3、Hit@1指标上分别下降了12.7、3.7%、0.2%、5.9%,表明了改进TextRank对实验效果是正相关的,文本摘要技术的丢失会对模式预测能力造成负面影响。
表8展示了使用改进TextRank之后实体描述的长度变化。我们分别分析了两个数据集的文本描述长度变化,FB15k-237数据集在经历改进TextRank算法处理后,实体描述的平均长度(字符数)下降692.3(80.1%),而WN18RR下降25.1(28.0%),说明了文本摘要算法大幅度降低了描述文本的冗余性,提高了实体描述质量,而FB15k-237由于其更复杂更冗余的文本描述,因此长度下降更加明显。
表7改进TextRank消融实验
Figure BDA0003824318920000161
表8改进TextRank对描述文本长度的影响
Figure BDA0003824318920000162
4)特征增强组件分析实验
除了上述实验,本实施例还对MIT-KGC的特征增强组件(BiGRU、(平均池化)Mean-pooling)进行了消融实验,来探索特征增强对模型的作用,如表9所示。
表9特征增强组件实验结果
Figure BDA0003824318920000163
观察每个组件去除后的实验结果变化,判断每个组件对整个模型的影响。消除BiGRU后,模型在MR、Hit@10、Hit@3、Hit@1指标上下降了31.1、5.2%、7.3%、4.4%;消除Mean-pooling后,指标下降39.3、9.7%、12.2%、12.3%。我们发现,BiGRU和Mean-pooling的消除,对模型都产生了负面影响,也就是说,特征增强层是有一定效果的。其中,消除BiGRU后影响较小,而消除Mean-pooling后影响较大,说明Mean-pooling增强了编码特征,改善了ALBERT的编码能力,对模型的帮助更加明显。
在一个实施例中,如图4所示,提供了一种基于改进TextRank的知识图谱补全装置,包括:数据获取模块、头实体和尾实体的描述摘要抽取模块、特征提取模块和知识图谱补全模块,其中:
数据获取模块,用于获取智能问答系统知识图谱中多个三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本;将多个三元组作为正样本集,并根据正样本采用替换法构造负样本,得到负样本集;将正样本集和负样本集作为样本集。
头实体和尾实体的描述摘要抽取模块,用于将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进TextRank方式,利用实体名的覆盖率和句子位置对最终句子权重进行调整,根据最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列。
特征提取模块,用于将输入序列输入到序列编码层中,采用ALBERT编码器对输入序列进行特征提取和特征编码,得到具有上下位语义特征的特征矩阵;将特征矩阵输入到特征增强层,采用平均池化层和BiGRU层对特征矩阵进行特征增强,得到增强特征矩阵。
具体的,ALBERT编码器主要组成部分是Transformer中的Encoder,采用多个相同的网络层结构堆叠而成,每个网络层由多头自注意力机制层和前馈网络层两个子网络层组成,两者采用残差网络模块进行连接。其中,多头自注意力机制层计算字词的相互关系,前馈网络层融合字词的位置信息,Add&Norm层将该网络层的输入和输出相加并进行归一化处理。多头自注意力机制是其中最重要的组成模块,输入的文本序列中每个词的query、key和value组成输入向量Q、K、V,利用多头注意力机制将多个网络层的输出矩阵拼接成一大的词向量矩阵。
Figure BDA0003824318920000171
headt=A(QWt Q,KWt K,VWt V),t∈(1,2,3,...,h) (22)
MultiHead(Q,K,V)=Concat(head1,head2,...,headh)WM (23)
其中,Wt Q、Wt K、Wt V为权重矩阵,dt为QKV维度,WM为附加权重矩阵。
通过注意力机制,ALBERT编码器计算每个字词与所有字词的相互关系,并调整每个字词在句子中的权重,根据权重获得新的向量表达,从而得到融合上下文语义特征的特征矩阵,再将计算得到的特征矩阵传递到下一层中。
知识图谱补全模块,将增强特征矩阵输入到多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。
在其中一个实施例中,头实体和尾实体的描述摘要抽取模块,还用于对头实体的文本描述进行分词预处理,得到头实体的多个句子;将头实体的多个句子作为图顶点,并计算不同图顶点之间的相似度,得到相似度矩阵;根据图顶点和相似度矩阵,构造TextRank图模型;根据相似度矩阵和TextRank图模型,得到句子权重矩阵;根据每个句子包含的实体名数量、句子的单词数,得到句子的实体覆盖率矩阵;根据原本实体描述文本段所包含的句子数量和当前句子在段落中的索引,得到句子位置矩阵;根据预设权重值、归一化处理后的实体覆盖率矩阵和句子位置矩阵对所述句子权重矩阵进行修正,得到最终句子权重矩阵;根据最终句子权重矩阵对句子进行排序,权重较高的预设数量个句子作为头实体的摘要描述;对尾实体的文本描述信息输入到文本摘要层中,得到尾实体的摘要描述;将头实体的摘要描述、尾实体的摘要描述以及头实体与尾实体之间的关系文本进行拼接,得到输入序列。
在其中一个实施例中,头实体和尾实体的描述摘要抽取模块,还用于设置每个句子的权重初始值为相同的数,其中所有句子的权重之和为1;根据每个句子的权重初始值、相似度矩阵以及TextRank图模型,得到句子权重矩阵;句子权重矩阵的元素计算公式如式(4)所示
在其中一个实施例中,头实体和尾实体的描述摘要抽取模块中不同图顶点之间的相似度的表达式如式(5)所示。
在其中一个实施例中,头实体和尾实体的描述摘要抽取模块中最终句子权重矩阵的表达式如式(6)所示。
在其中一个实施例中,特征增强层包括:平均池化层和BiGRU层;BiGRU是在隐层同时有一个正向GRU和反向GRU,正向GRU用于捕获上文的特征信息,反向GRU用于捕获下文的特征信息;特征提取模块,还用于将特征矩阵输入到特征增强层的平均池化层中,得到池化特征矩阵;将池化特征矩阵输入到BiGRU层中,利用正向GRU捕获上文的特征信息,利用反向GRU捕获下文的特征信息,得到增强特征矩阵。
在其中一个实施例中,链接预测任务包括全连接层和Softmax激活函数、关系预测任务包括全连接层和Softmax激活函数;相关性排序任务包括全连接层和sigmoid激活函数;知识图谱补全模块,还用于将性增强特征矩阵输入到链接预测任务的全连接层中,将得到的输出结果采用Softmax函数激活后,得到链接预测得分,根据链接预测得分采用二进制交叉熵损失函数计算链接预测任务的损失函数,通过梯度下降算法优化链接预测任务的参数,得到最优链接预测结果;将性增强特征矩阵输入到关系预测任务的全连接层中,将得到的输出结果采用Softmax函数激活后,得到关系预测得分,根据关系预测得分采用交叉熵损失函数,确定关系预测任务的损失函数,通过梯度下降算法优化关系预测任务的参数,得到最优关系预测结果;将性增强特征矩阵输入到相关性排序任务的全连接层中,将得到的输出结果采用sigmoid函数激活后,得到相关性排序任务得分,根据关系预测得分采用边际损失函数,确定相关性排序任务的损失函数,通过梯度下降算法优化相关性排序任务的参数,得到最优相关性排序结果;根据最优链接预测结果、最优关系预测结果以及最优相关性排序结果,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。
关于基于改进TextRank的知识图谱补全装置的具体限定可以参见上文中对于基于改进TextRank的知识图谱补全方法的限定,在此不再赘述。上述基于改进TextRank的知识图谱补全装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于改进TextRank的知识图谱补全方法,其特征在于,所述方法包括:
获取智能问答系统知识图谱中多个三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本;
将多个所述三元组作为正样本集,并根据所述正样本采用替换法构造负样本,得到负样本集;将所述正样本集和所述负样本集作为样本集;
将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进TextRank方式,利用实体名的覆盖率、句子位置以及句子相似度对句子权重进行调整,根据得到的最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列;
将所述输入序列输入到序列编码层中,采用ALBERT编码器对所述输入序列进行特征提取和特征编码,得到具有上下位语义特征的特征矩阵;
将所述特征矩阵输入到特征增强层,采用平均池化层和BiGRU层对所述特征矩阵进行特征增强,得到增强特征矩阵;
将所述增强特征矩阵输入到所述多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统知识图谱补全任务。
2.根据权利要求1所述的方法,其特征在于,将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进TextRank方式,利用实体名的覆盖率、句子位置以及句子相似度对句子权重进行调整,根据得到的最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列,包括:
对头实体的文本描述进行分词预处理,得到头实体的多个句子;
将所述头实体的多个句子作为图顶点,并计算不同图顶点之间的相似度,得到相似度矩阵;
根据所述图顶点和所述相似度矩阵,构造TextRank图模型;
根据所述相似度矩阵和所述TextRank图模型,得到句子权重矩阵;
根据每个句子包含的实体名数量、句子的单词数,得到句子的实体覆盖率矩阵;
根据原本实体描述文本段所包含的句子数量和当前句子在段落中的索引,得到句子位置矩阵;
对所述实体覆盖率矩阵和所述句子位置矩阵进行归一化处理;
根据预设权重值、归一化处理后的实体覆盖率矩阵和句子位置矩阵对所述句子权重矩阵进行修正,得到最终句子权重矩阵;
根据所述最终句子权重矩阵对句子进行排序,权重较高的预设数量个句子作为头实体的摘要描述;
对尾实体的文本描述信息输入到文本摘要层中,得到尾实体的摘要描述;
将所述头实体的摘要描述、所述尾实体的摘要描述以及头实体与尾实体之间的关系文本进行拼接,得到输入序列。
3.根据权利要求2所述的方法,其特征在于,根据所述相似度矩阵和所述TextRank图模型,得到句子权重矩阵,包括:
设置每个句子的权重初始值为相同的数,其中所有句子的权重之和为1;
根据每个句子的权重初始值、所述相似度矩阵以及所述TextRank图模型,得到句子权重矩阵;句子权重计算公式为:
Figure FDA0003824318910000021
其中,TR(Xi)为第i句的权重值,wji∈SD为第j个顶点到第i个顶点之间的相似度,SD为相似度矩阵;In(X)表示指向句子X的句子集合,Out(X)为句子X指向的句子集合,d为阻尼系数。
4.根据权利要求2所述的方法,其特征在于,将所述头实体的多个句子作为图顶点,并计算不同图顶点之间的相似度,得到相似度矩阵,步骤中不同图顶点之间的相似度的表达式为:
Figure FDA0003824318910000022
其中,wab为句子a对应的顶点与句子b对应的顶点之间的相似度,Seqa和Seqb分别代表句子a和句子b,|Seqa|、|Seqb|分别为句子a和句子b包含的单词数,tk为句子a和句子b中重叠的词汇。
5.根据权利要求2所述的方法,其特征在于,根据预设权重值、归一化处理后的实体覆盖率矩阵和句子位置矩阵对所述句子权重矩阵进行修正,得到最终句子权重矩阵,得到最终句子权重矩阵,步骤中所述最终句子权重矩阵的表达式为:
B=Bf·(αWe+βWp)T
其中,B为最终句子权重矩阵,B的维度为1×n,Bf为句子权重矩阵,·表示矩阵点乘,α,β分别为两种特征矩阵的权重,且α+β=1,We为归一化的实体覆盖率矩阵,Wp为归一化的句子位置矩阵。
6.根据权利要求1所述的方法,其特征在于,特征增强层包括:平均池化层和BiGRU层;BiGRU是在隐层同时有一个正向GRU和反向GRU,所述正向GRU用于捕获上文的特征信息,所述反向GRU用于捕获下文的特征信息;
将所述特征矩阵输入到特征增强层,采用平均池化层和BiGRU层对所述特征矩阵进行特征增强,得到增强特征矩阵,包括:
将所述特征矩阵输入到特征增强层的平均池化层中,得到池化特征矩阵;
将所述池化特征矩阵输入到所述BiGRU层中,利用正向GRU捕获上文的特征信息,利用反向GRU捕获下文的特征信息,得到增强特征矩阵。
7.根据权利要求1所述的方法,其特征在于,链接预测任务包括全连接层和Softmax激活函数、关系预测任务包括全连接层和Softmax激活函数;相关性排序任务包括全连接层和sigmoid激活函数;
将所述增强特征矩阵输入到所述多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统的问答任务,包括:
将所述性增强特征矩阵输入到所述链接预测任务的全连接层中,将得到的输出结果采用Softmax函数激活后,得到链接预测得分,根据所述链接预测得分采用二进制交叉熵损失函数计算链接预测任务的损失函数,通过梯度下降算法优化链接预测任务的参数,得到最优链接预测结果;
将所述性增强特征矩阵输入到所述关系预测任务的全连接层中,将得到的输出结果采用Softmax函数激活后,得到关系预测得分,根据所述关系预测得分采用交叉熵损失函数,确定关系预测任务的损失函数,通过梯度下降算法优化关系预测任务的参数,得到最优关系预测结果;
将所述性增强特征矩阵输入到所述相关性排序任务的全连接层中,将得到的输出结果采用sigmoid函数激活后,得到相关性排序任务得分,根据所述关系预测得分采用边际损失函数,确定相关性排序任务的损失函数,通过梯度下降算法优化相关性排序任务的参数,得到最优相关性排序结果;
根据所述最优链接预测结果、所述最优关系预测结果以及所述最优相关性排序结果,确定三元组中缺失的另一实体,完成智能问答系统的问答任务。
8.一种基于改进TextRank的知识图谱补全装置,其特征在于,所述装置包括:
数据获取模块,用于获取智能问答系统知识图谱中多个三元组的头实体和尾实体的文本描述信息,以及头实体与尾实体之间的关系文本;将多个所述三元组作为正样本集,并根据所述正样本采用替换法构造负样本,得到负样本集;将所述正样本集和所述负样本集作为样本集;
头实体和尾实体的描述摘要抽取模块,用于将样本集中三元组的头实体和尾实体的文本描述信息分别输入到文本摘要层,采用改进TextRank方式,利用实体名的覆盖率、句子位置以及句子相似度对句子权重进行调整,根据得到的最终句子权重确定头实体和尾实体的描述摘要,将头实体和尾实体的描述摘要与头实体与尾实体之间的关系文本进行拼接,得到输入序列;
特征提取模块,用于将所述输入序列输入到序列编码层中,采用ALBERT编码器对所述输入序列进行特征提取和特征编码,得到具有上下位语义特征的特征矩阵;将所述特征矩阵输入到特征增强层,采用平均池化层和BiGRU层对所述特征矩阵进行特征增强,得到增强特征矩阵;
知识图谱补全模块,将所述增强特征矩阵输入到所述多任务微调层中,以链接预测任务为预测任务、将关系预测任务和相关性排序任务作为训练任务,确定三元组中缺失的另一实体,完成智能问答系统的问答任务。
9.根据权利要求8所述的装置,其特征在于,头实体和尾实体的描述摘要抽取模块,还用于对头实体的文本描述进行分词预处理,得到头实体的多个句子;将所述头实体的多个句子作为图顶点,并计算不同图顶点之间的相似度,得到相似度矩阵;根据所述图顶点和所述相似度矩阵,构造TextRank图模型;根据所述相似度矩阵和所述TextRank图模型,得到句子权重矩阵;根据每个句子包含的实体名数量、句子的单词数,得到句子的实体覆盖率矩阵;根据原本实体描述文本段所包含的句子数量和当前句子在段落中的索引,得到句子位置矩阵;根据预设权重值、归一化处理后的实体覆盖率矩阵和句子位置矩阵对所述句子权重矩阵进行修正,得到最终句子权重矩阵;根据最终句子权重矩阵对句子进行排序,权重较高的预设数量个句子作为头实体的摘要描述;对尾实体的文本描述信息输入到文本摘要层中,得到尾实体的摘要描述;将头实体的摘要描述、尾实体的摘要描述以及头实体与尾实体之间的关系文本进行拼接,得到输入序列。
10.根据权利要求8所述的装置,其特征在于,头实体和尾实体的描述摘要抽取模块,还用于设置每个句子的权重初始值为相同的数,其中所有句子的权重之和为1;根据每个句子的权重初始值、所述相似度矩阵以及所述TextRank图模型,得到句子权重矩阵;句子权重矩阵的元素计算公式为
Figure FDA0003824318910000051
其中,TR(Xi)为第i句的权重值,wji∈SD为第j个顶点到第i个顶点之间的相似度,SD为相似度矩阵;In(X)表示指向句子X的句子集合,Out(X)为句子X指向的句子集合,d为阻尼系数。
CN202211052681.7A 2022-08-30 2022-08-30 基于改进TextRank的知识图谱补全方法和装置 Active CN115422369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211052681.7A CN115422369B (zh) 2022-08-30 2022-08-30 基于改进TextRank的知识图谱补全方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211052681.7A CN115422369B (zh) 2022-08-30 2022-08-30 基于改进TextRank的知识图谱补全方法和装置

Publications (2)

Publication Number Publication Date
CN115422369A true CN115422369A (zh) 2022-12-02
CN115422369B CN115422369B (zh) 2023-11-03

Family

ID=84201285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211052681.7A Active CN115422369B (zh) 2022-08-30 2022-08-30 基于改进TextRank的知识图谱补全方法和装置

Country Status (1)

Country Link
CN (1) CN115422369B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881471B (zh) * 2023-07-07 2024-06-04 深圳智现未来工业软件有限公司 一种基于知识图谱的大语言模型微调方法及装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN111428047A (zh) * 2020-03-19 2020-07-17 东南大学 一种基于ucl语义标引的知识图谱构建方法及装置
CN112395428A (zh) * 2020-12-01 2021-02-23 中国科学技术大学 一种基于集合补全知识图谱实体摘要的方法及系统
CN112668719A (zh) * 2020-11-06 2021-04-16 北京工业大学 基于工程能力提升的知识图谱构建方法
CN113051904A (zh) * 2021-04-21 2021-06-29 东南大学 一种面向小规模知识图谱的链接预测方法
CN113239210A (zh) * 2021-05-25 2021-08-10 河海大学 基于自动化补全知识图谱的水利文献推荐方法及系统
CN113268612A (zh) * 2021-06-25 2021-08-17 中国人民解放军国防科技大学 基于均值融合的异构信息网知识图谱补全方法和装置
CN113420163A (zh) * 2021-06-25 2021-09-21 中国人民解放军国防科技大学 基于矩阵融合的异构信息网知识图谱补全方法和装置
CN113535972A (zh) * 2021-06-07 2021-10-22 吉林大学 一种融合上下文语义的知识图谱链路预测模型、方法及装置
US20210397980A1 (en) * 2020-06-22 2021-12-23 Beijing Baidu Netcom Science Technology Co., Ltd. Information recommendation method and apparatus, electronic device, and readable storage medium
CN114117075A (zh) * 2021-11-30 2022-03-01 中山大学 基于语义对齐及对称结构编码的知识图谱补全方法及装置
CN114547347A (zh) * 2022-04-27 2022-05-27 中国人民解放军国防科技大学 基于卷积神经网络的时序知识图谱补全方法、装置及设备
CN114741530A (zh) * 2022-04-14 2022-07-12 大连理工大学 基于对比学习的知识图谱嵌入模型训练方法
CN114780748A (zh) * 2022-04-25 2022-07-22 天津大学 基于先验权重增强的知识图谱的补全方法
CN114943230A (zh) * 2022-04-17 2022-08-26 西北工业大学 一种融合常识知识的中文特定领域实体链接方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN111428047A (zh) * 2020-03-19 2020-07-17 东南大学 一种基于ucl语义标引的知识图谱构建方法及装置
US20210397980A1 (en) * 2020-06-22 2021-12-23 Beijing Baidu Netcom Science Technology Co., Ltd. Information recommendation method and apparatus, electronic device, and readable storage medium
CN112668719A (zh) * 2020-11-06 2021-04-16 北京工业大学 基于工程能力提升的知识图谱构建方法
CN112395428A (zh) * 2020-12-01 2021-02-23 中国科学技术大学 一种基于集合补全知识图谱实体摘要的方法及系统
CN113051904A (zh) * 2021-04-21 2021-06-29 东南大学 一种面向小规模知识图谱的链接预测方法
CN113239210A (zh) * 2021-05-25 2021-08-10 河海大学 基于自动化补全知识图谱的水利文献推荐方法及系统
CN113535972A (zh) * 2021-06-07 2021-10-22 吉林大学 一种融合上下文语义的知识图谱链路预测模型、方法及装置
CN113268612A (zh) * 2021-06-25 2021-08-17 中国人民解放军国防科技大学 基于均值融合的异构信息网知识图谱补全方法和装置
CN113420163A (zh) * 2021-06-25 2021-09-21 中国人民解放军国防科技大学 基于矩阵融合的异构信息网知识图谱补全方法和装置
CN114117075A (zh) * 2021-11-30 2022-03-01 中山大学 基于语义对齐及对称结构编码的知识图谱补全方法及装置
CN114741530A (zh) * 2022-04-14 2022-07-12 大连理工大学 基于对比学习的知识图谱嵌入模型训练方法
CN114943230A (zh) * 2022-04-17 2022-08-26 西北工业大学 一种融合常识知识的中文特定领域实体链接方法
CN114780748A (zh) * 2022-04-25 2022-07-22 天津大学 基于先验权重增强的知识图谱的补全方法
CN114547347A (zh) * 2022-04-27 2022-05-27 中国人民解放军国防科技大学 基于卷积神经网络的时序知识图谱补全方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
H TIAN等: "Multi-task learning and improved TextRank for knowledge graph completion", 《ENTROPY》, pages 1 - 18 *
詹飞;朱艳辉;梁文桐;冀相冰;: "基于BERT和TextRank关键词提取的实体链接方法", 湖南工业大学学报, no. 04, pages 68 - 75 *
陈恒;李冠宇;祁瑞华;朱毅;郭旭;: "改进的Tucker分解知识图谱补全算法", 数学的实践与认识, no. 16, pages 166 - 178 *
鲍开放;顾君忠;杨静;: "基于结构与文本联合表示的知识图谱补全方法", 计算机工程, no. 07, pages 211 - 217 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881471B (zh) * 2023-07-07 2024-06-04 深圳智现未来工业软件有限公司 一种基于知识图谱的大语言模型微调方法及装置

Also Published As

Publication number Publication date
CN115422369B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN109783817B (zh) 一种基于深度强化学习的文本语义相似计算模型
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN112100346B (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN111611361A (zh) 抽取式机器智能阅读理解问答系统
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111581973A (zh) 一种实体消歧方法及系统
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN111241303A (zh) 一种大规模非结构化文本数据的远程监督关系抽取方法
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN113157919B (zh) 语句文本方面级情感分类方法及系统
CN115222998B (zh) 一种图像分类方法
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN115145551A (zh) 一种面向机器学习应用低代码开发的智能辅助系统
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN111368197A (zh) 一种基于深度学习的评论推荐系统及方法
CN114429122A (zh) 一种基于循环注意力的方面级情感分析系统和方法
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
CN111680529A (zh) 一种基于层聚合的机器翻译算法及装置
EP4298556A1 (en) Granular neural network architecture search over low-level primitives
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN116956228A (zh) 一种技术交易平台的文本挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant