CN113190684B

CN113190684B - 一种基于路径质量判别的强化学习知识图谱推理方法

Info

Publication number: CN113190684B
Application number: CN202110308273.2A
Authority: CN
Inventors: 贾海涛; 罗林洁; 李嘉豪; 任利; 许文波; 周焕来; 贾宇明
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-06-17
Anticipated expiration: 2041-03-23
Also published as: CN113190684A

Abstract

本发明提出一种基于路径质量评估的知识图谱推理算法RLKGR‑PQD。该算法包括：改进基准算法加入路径质量评估模块并给出相应的总体框架图，然后在两组公开数据集(FB15K‑237和NELL‑995)上对基准模型和改进后的RLKGR‑PQD模型进行实验，最后实验分析验证了RLKGR‑PQD算法的有效性，实验结果表明改进算法有效地提升了查询问答中的MRR指标。

Description

一种基于路径质量判别的强化学习知识图谱推理方法

技术领域

本发明属于自然语言处理领域。

背景技术

知识图谱推理的主流方法是从构造的知识图中推断出新的事实，基于强化学习的知识图谱推理方法MINERVA、MultiHop-KG以及RLKGR-CL方法均没有对路径质量进行度量。基于强化学习来对知识图谱进行建模的推理方法均存在虚假路径问题，即没有切实有依据的高质量路径进行训练，模型可能被虚假路径误导的问题。Multihop-KG提出动作丢弃(Action Drop)方法通过在采用动作集合时掩盖掉一部分出边，避免智能体被最初找到的路径误导，强制智能体充分探索所有可能路径。基于课程学习的强化学习知识图谱推理方法(RLKGR-CL)，在使用强化学习建模知识图谱查询问答的基础上融合课程学习方法：由于简单样本中虚假路径比例更低，RLKGR-CL假定虚假路径比例更低的样本为高质量的，换句话说智能体从简单样本开始学习能学到有用信息，逐步深入到复杂样本时这些信息能帮助智能体决策。但是Multihop-KG和RLKGR-CL这两个方法都避开了对路径的质量进行评估，因此自始至终无法得知用于训练的样本的质量高低。

发明内容

本发明提出一种基于路径质量评估的知识图谱推理方法RLKGR-PQD。该方法步骤如下：

(1)首先给出基准方法和改进方法RLKGR-PQD，并给出相应总体框架图。

(2)然后在两组公开数据集(FB15K-237和NELL-995)上，对基准模型和改进后的RLKGR-PQD模型进行实验。

(3)最后，实验分析验证了RLKGR-PQD方法的有效性，实验结果表明RLKGR-PQD方法有效地提升了查询问答结果的MRR指标。

附图和附表说明

图1为本发明的方法整体框图。

图2为本发明的模型在FB15K237下的学习曲线。

图3为本发明的模型在NELL995下的学习曲线。

图4为本发明实体与对应实体类别信息提取结果。

图5为本发明NELL995数据集中关系与对应类别信息提取结果。

图6为本发明FB15数据集中关系与对应类别信息提取结果。

图7为本发明的实验数据集。

图8为本发明的模型超参数。

图9为本发明的模型改进前后的查询结果。

图10为本发明的模型改进前后每轮迭代时间。

具体实施方式

下面将会描述该方法的思路，并给出方法的具体步骤。

首先简要分析了基于RL的知识图谱推理方法和RLKGR-CL方法的建模方法中未完全解决的问题，据此提出解决方案并介绍RLKGR-PQD方法的设计框架(见图1所示)；然后是对RLKGR-PQD的详细描述，包括路径评估模块输入的处理、基于文本相似度的评估以及将模块输出融入强化学习建模的方法；最后，在两组公开数据集(FB15K-237和NELL-995)上，对基准模型和改进后的RLKGR-PQD模型进行实验与结果分析，具体地在MRR、收敛速度、每轮训练时间等三个方面进行比较。实验分析验证了RLKGR-PQD方法的有效性，实验结果表明RLKGR-PQD方法有效地提升了查询问答结果的MRR指标。

在图1中，基于路径质量判别的强化学习知识图谱推理方法(RLKGR-PQD)根据额外信息(实体描述文本和数据集中包含的类别信息)并采用语义相似度的度量方式来对智能体到达目标节点后所经过路径的质量进行评估，如果在对某个训练样本进行路径探索时，最终智能体到底目标节点那么将路径和路径相关额外信息作为路径质量评估模块的输入，再将路径质量评估模块的输出作为智能体获得的奖励，否则智能体将不会获得任何奖励。

具体步骤如下：

步骤一：实体描述关键信息提取

实体描述集合Descriptions即为本方法的语料库，每一个实体对应的描述文本为一篇文档。首先TF-IDF方法计算某个词语word在某篇文档description中的词频(TermFrequency,TF)，词语word在描述文本description中出现次数越多，那么该词语word可能越能反应description的主题，具有更重要的意义。为防止统计词频时结果偏向总字数多的描述文本(长描述文本中单词出现次数可能比短描述文本中的多)，将最终的统计结果进行归一化，word的重要程度使用式1表示

其中，|Descriptions|表示语料库Descriptions的描述文本总数，分母表示包含词语word的语料库中描述文本数量。避免出现word不在描述文本集中而使被除数为零的情况，在分母加上一个较小值1。

最后计算某个词语word在某篇文档description中的词频-逆向文件频率(TF-IDF)，得到某个文档中各个词语TF-IDF后进行降序排序即可得到重要程度排名高的词语集合作为该篇描述文本的关键词组(也叫主题词组)。其中词语word在某篇描述文本的TF-IDF值就是其TF值tf_{word,description}和IDF值idf_{word,description}的乘积，表示为式2：

tf·idf_{word,description}＝tf_{word,description}*idf_{word,description} (2)

完成计算流程后即可得到每篇描述文本的关键词组，例如，数据集中实体“Crustaceans”(甲壳类)对应的维基百科词条页的相关描述文本中，“animals”，“arthropod”，“hexapods”(“动物”，“节肢动物”，“六足动物”)这类词语在文档中的出现频率较高，且在所有描述文本集合中，这些词语较少出现，因此可以将“animals”，“arthropod”，“hexapods”这几个词语作为描述文本中的关键词，因此得到实体“Crustaceans”对应的关键词组{“animals”，“arthropod”，“hexapods”}。

步骤二：类别信息提取

由各类百科作为结构化数据来源的知识图谱的实体本身带有分类相关信息，这类方法本身可能具有一定局限性，需在建立图谱时收集相关类别或路径才能在路径评估模块中使用。本节以NELL-995中部分实体为例，观察可得到其实体格式均为“concept_”加之“类别词_”加之下划线相连接的实体名，其中concept表示该词组为一个概念(实体)。因此本小节使用形式为“concept_*_”的正则过滤出模型需要的类别相关词，截取部分得出的结果如图4所示。

接下来提取关系对应的类别信息，来源于各类百科的知识图谱中的关系也有可作为分类依据的前缀描述或详细分级路径。以NELL-995为例，数据集中关系有类别词相关的前缀描述，其关系格式为“关系名”或“关系名_inv”，其中后缀“inv”表示为逆向关系。观察到类别词主要为关系名中介词前后内容，使用词性标注后抽取出介词前后重要内容，再对抽取出的数据进行人工调整，部分结果如图5所示。

再以FB15K237为例，其中关系有详细的分级路径信息，具体格式为“/一级分类/二级分类/…/n级分类/实体名”，本小节按“/*/”的正则格式对每个关系对应的分类路径进行抽取以获得其一级分类，部分结果如图6所示。

步骤三：基于文本相似度的路径质量评估

直接对词语之间的语义相似度进行计算是无法做到语义级别(识别近义词)以及准确定量(相似程度)。合理且广泛使用的方法是将计算词语之间的语义相似程度转换为基于语料集将词语表示为向量后根据向量计算词语之间的距离。典型分布式表示模型Word2Vec使用语料集将词语转换成稠密向量空间中的向量，结合深度学习以无监督的形式训练模型，它能够理解文本中的上下文之间的关系且无需先验信息。Word2Vec转化的分布式表示存在如“中国-北京＝法国–巴黎＝首都”的线性关系。本节就是采用此方式将词组中的词语、类别和查询中关系转换为低维空间中的向量表示，再计算词语之间的距离后进行归一化。

在向量空间中度量词语之间的距离，使用两个向量之间的cosine距离(夹角的余弦值)，word₁和word₂分别对应两个词语的分布式表示向量，符号·表示向量间内积，|x|表示向量x的模体，具体如式3：

计算出的cos(word₁,word₂)值域为[-1,1]，值越靠近1表示两个向量夹角越小，词语间语义相似程度越高，值越靠近-1表示两个向量方向相反，在语义上是相反的即相似程度低。比如实体“book”(书)和“magazine”(杂志)同属于书籍类，它们之间的余弦值明显高于“book”(书)和“airport”(机场)、“mountain”(山)等地点类实体。

智能体通过路径path＝(e_h,r₁,e₁,r₂,e₂,…,r_m,e_m,r_m+1,e_target)从头实体e_h到达目标尾实体e_target，对应的路径实体集合即智能体到达尾实体前经过的实体，具体为entities＝{e₁,e₂,…,e_m}。提取出查询中头实体的描述信息的关键词，如4.1所述从维基百科爬取实体描述信息，并基于TF-IDF进行关键词提取，关键词集合具体为words＝{word₁,word₂,…,word_n}。

得到了路径实体集合与头实体描述信息关键词集合之后，我们需要计算两者之间的语义相似度。针对两个词语集合，我们以Word2Vec作为文本表示模型，以cosine距离为相似度度量方法，计算出词组之间的相似度矩阵。

路径实体集合所包含的实体个数为m，头实体描述信息的关键词集合所包含的实体个数为n，两个词组之间的相似度可由一个m×n维的相似度矩阵X(i＝1,2,…,m；j＝1,2,…,n)表示，矩阵中的元素X_ij为路径实体集合中的实体e_i和头实体描述信息的关键词集合中的实体关系word_j的语义相似度，以矩阵中的第一行即e₁与特征向量数组words的相似度计算和矩阵中的第三行即e₃与特征向量数组words的相似度计算为示例。

其中每个实体或关键词的词向量e_i(i＝1,2,…,m),word_j(j＝1,2,…,n),为1×k维的向量，k为向量指定的维数，每个词即w_z(z＝1,2,3,…,l)的词向量是由训练好的Word2Vec模型提供的。

实体e_i和关键词word_j之间的相似度由他们的词向量的余弦距离决定，就是求式4：

求得句向量的余弦距离即实体e_i和关键词word_j的相似度的值cos(θ)∈(0,1)，cos(θ)越接近1则实体和关键词之间相似程度越大，cos(θ)越接近0则实体和关键词之间相似程度越小。

路径实体集合与头实体描述信息关键词集合的语义相似度SIM(entities,words)是由集合中各个实体和关键词的语义相似度得到的，具体地由m×n维的相似度矩阵X_ij(i＝1,2,…,m；j＝1,2,…,n)得到集合间语义相似度SIM(entities,words)，如式5：

智能体从从头实体e_h出发，经过多次跳转经过多个实体与关系边到达尾实体e_target，其中经过的实体集合为entities＝{e₁,e₂,…,e_m}。通过4.2.1中所述方式提取实体集合中各个元素的类别信息，得到路径实体类别集合classes＝{class₁,class₂,…,class_m}。再通过4.2.2中所属方式得到查询q＝(e_h,r)中的关系r对应的类别信息class_relation。

得到路径实体类别集合和查询中关系的类别之后，我们需要以数值的方式衡量两者之间的语义相似度，我们同样使用Word2Vec作为文本表示模型，以cosine距离为相似度度量方法，计算出词组与关系之间的相似度矩阵。

路径实体类别集合所包含的实体类别个数为m，查询中关系的类别所包含的类别词个数为1，词组与关系之间的相似度可由一个m×1维的相似度矩阵Y(i＝1,2,…,m)表示，矩阵中的元素Y_i为路径实体类别集合中的实体类别class_i和查询中关系的类别词class_relation的语义相似度。

其中实体类别或关系类别的词向量class_i(i＝1,2,…,m),class_relation为1×k维的向量，k为向量指定的维数，每个词语的词向量是由训练好的Word2Vec模型提供的。实体类别class_i和关系类别class_relation之间的相似度由他们的词向量的余弦距离决定，就是求式6：

求得词向量的余弦距离即实体类别class_i和关系类别class_relation的相似度的值cos(θ)∈(0,1)，cos(θ)越接近1则表示实体类别和关系类别之间相似程度越大，cos(θ)越接近0则表示实体类别和关系类别之间相似程度越小。

路径实体类别集合和查询中关系的类别合的语义相似度SIM(classes,class_relation)是由集合中各个实体和关键词的语义相似度得到的，具体地由m×1维的相似度矩阵Y(i＝1,2,…,m)得到集合间语义相似度SIM(classes,class_relation)，如式7：

步骤四：实验结果与分析

(1)实验数据集

为了验证本章所提出方法的有效性，我们使用了关系推理领域研究者广泛使用的通用标准数据集FB15K237和NELL-995。数据集的具体信息如图7所示。

(2)评价指标

我们使用知识图谱表示学习研究常用的指标MRR、hit@1和hit@10，它们都是链接预测任务的标准指标。MRR和hit@N等指标均为值越高表示预测效果越好。其中MRR表示对一系列查询Q，正确实体得分排名取倒数的平均值，如式8。

hit@N表示测试集中正确实体在得分排名前N实体中所占的比率如式9，hit@1中统计得分排名第一，hit@10中统计得分排名前十

其中II相当于一个二值过滤器，如果查询q_i答案实体排名在前N，即rank_i≤N，那么II_x≤N(rank_i)＝1，否则查询q_i答案实体排名大于N，即rank_i>N,那么II_x≤N(rank_i)＝0。

(3)参数设置

在参数选择方面，基于路径质量评估的强化学习知识图谱推理方法在质量评估模块方面需要确定的超参数主要包括路径实体集合与头实体描述信息关键词集合的语义相似度SIM(entities,words)的阈值α和路径实体类别集合和查询中关系的类别合的语义相似度SIM(classes,class_relation)的阈值β并且α,β∈(0,1)。本文遵循相关工作中的参数选择方法，使用网格搜索法对以上参数进行确定。选取搜索范围后，设置参数α的选取范围为{0.2,0.3,0.4}，参数β的范围为{0.10,0.15,0.20}。

对于基于路径质量评估的强化学习知识图谱推理模型来说，SIM(entities,words)的阈值α和SIM(classes,class_relation)的阈值β在各个数据集上最佳参数如图8所示，超参数实体和关系嵌入尺寸的大小设置为200。3层LSTM的隐藏大小为200，β表示熵正则化常数，值在0-0.1之内。我们使用Adam优化器。

(4)结果分析

我们在标准数据集FB15K-237和NELL-995上进行实验，完成MINERVA模型和改进后加入路径评估模块的模型的方法训练和结果测试，得到的实验结果如图9所示。

图9列出了MINERVA模型和加入路径评估模型上的查询结果。列出了用于MultihopKG模型的查询答案的结果，顶部三项模型显示基于嵌入的模型，底部显示使用ComplEx/Conve作为预训练奖励形状模型的基于路径的模型和多跳推理方法。该表不包括NeuralLP在NELL-995上的结果，因为它无法放缩至该大小。

与基础的MINERVA模型相比，我们的改进方法在FB15K-237上，Hit@1，Hit@10，MRR分别增加2.2％，6.8％，4.8％；在NELL-995上，Hit@1，Hit@10，MRR分别增加了0.6％，2.8％，1.7％。与使用了课程学习的MINERVA(Ours-CL)模型相比，我们的改进方法在FB15K-237上，Hit@1，Hit@10，MRR分别增加3.7％，7.5％，5.9％；在NELL-995上，Hit@1，Hit@10，MRR的结果不如融入课程学习时结果，分别减少了1.3％，0.6％，1.1％。与MultiKG(ComplEx)和MultiKG(Conve)相比，MINERVA(Ours-路径评估)在FB15K-237上的结果较差，而在NELL-995上有所提升。

我们检查了路径质量评估模块对收敛速度的影响。图2和图3绘制了MINERVA模型和改进后路径质量评估模型在验证集上相对于训练时期的MRR得分。改进后的路径质量评估模型会提升模型收敛到的最终分数。在FB15K-237上，验证集上MRR最终比改进前模型提高。在NELL-995上，验证集上MRR最终比改进前模型提高模型在FB15K-237上收敛速度有所减慢，而在NELL-995数据集上的收敛速度与改进前模型基本一致。

在使用路径评估模块前，我们需要做的工作是根据输入数据集

中的实体集ε内容爬取维基百科相应页面，获得相应实体描述，接下来根据获得语料训练Word2Vec模型以便后续在基于文本相似度的路径质量评估模块中使用。

在MINERVA模型中，样本生成本身就是随机的，原本的RL方法中生成一组长度为n随机数，再根据随机数分别取出对应样本进行训练。在每一个样本的训练过程中，记录智能体游走的路径，如果智能体最终到达目标实体，将路径中实体集合、路径实体类别和查询中的关系输入到路径评估模块。在路径评估模块中计算智能体最后得到的奖励，额外的时间主要在于实体、实体类别、关系类别等的词向量转换、路径实体与头实体描述信息关键词相似度计算和路径实体类别与查询中关系类别相似度计算。我们对训练时的额外时间进行统计，我们对每轮迭代开始记录时间戳，对每轮迭代结束记录时间戳，取得每轮迭代时间平均值如图10所示所示。

在加入-CL即课程学习方法后，模型训练时间略微增加，每一轮次FB15K-237所需时间增加2.358s，NELL-995所需时间增加0.924s。在加入路径质量评估模块后，每一轮次FB15K-237所需时间增加9.281s，NELL-995所需时间增加2.809s。在FB15K-237上训练时，batch size参数值为256；在NELL-995上训练时，batch size参数值为64。可见在质量评估模块中，每轮模型训练训练增加时间主要与该数据集上的每轮样本训练量有关系即batchsize。每轮训练样本量越多，智能体越有可能达到正确尾节点，引入对根据路径和实体的奖励计算，所需时间越多。

Claims

1.一种基于路径质量判别的强化学习知识图谱推理方法，该方法包括以下步骤：

步骤1：实体描述关键信息提取

实体描述集合Descriptions即为本方法的语料库，每一个实体对应的描述文本为一篇文档；首先TF-IDF算法计算某个词语word在某篇文档description中的词频(TermFrequency，TF)，词语word在描述文本description中出现次数越多，那么该词语word可能越能反应description的主题，具有更重要的意义；为防止统计词频时结果偏向总字数多的描述文本，将最终的统计结果进行归一化；最后计算某个词语word在某篇文档description中的词频-逆向文件频率(TF-IDF)，得到某个文档中各个词语TF-IDF后进行降序排序即可得到重要程度排名高的词语集合作为该篇描述文本的关键词组；其中词语word在某篇描述文本的TF-IDF值就是其TF值tf_{word，description}和IDF值idf_{word，description}的乘积；完成计算流程后即可得到每篇描述文本的关键词组；

步骤2：类别信息提取

由各类百科作为结构化数据来源的知识图谱的实体本身带有分类相关信息，在NELL-995中，观察可得到其实体格式均为“concept_”加之“类别词_”加之下划线相连接的实体名，其中concept表示该词组为一个概念；使用形式为“concept_*_”的正则过滤出模型需要的类别相关词；接下来提取关系对应的类别信息，来源于各类百科的知识图谱中的关系也有可作为分类依据的前缀描述或详细分级路径；在NELL-995中，数据集中关系有类别词相关的前缀描述，其关系格式为“关系名”或“关系名_inv”，其中后缀“inv”表示为逆向关系；观察到类别词主要为关系名中介词前后内容，使用词性标注后抽取出介词前后重要内容，再对抽取出的数据进行人工调整；

步骤3：基于文本相似度的路径质量评估

智能体通过路径path＝(e_h，r₁，e₁，r₂，e₂，...，r_m，e_m，r_m+1，e_target)从头实体e_h到达目标尾实体e_target，对应的路径实体集合即智能体到达尾实体前经过的实体，具体为entities＝{e₁，e₂，...，e_m}；提取出查询中头实体的描述信息的关键词，从维基百科爬取实体描述信息，并基于TF-IDF进行关键词提取，关键词集合具体为words＝{word₁，word₂，...，word_n}；得到了路径实体集合与头实体描述信息关键词集合之后，我们需要计算两者之间的语义相似度；针对两个词语集合，我们以Word2Vec作为文本表示模型，以cosine距离为相似度度量方法，计算出词组之间的相似度矩阵；路径实体集合所包含的实体个数为m，头实体描述信息的关键词集合所包含的实体个数为n，两个词组之间的相似度可由一个m×n维的相似度矩阵X_{i＝1，2，...，m；j＝1，2，...，n}表示，矩阵中的元素X_ij为路径实体集合中的实体e_i和头实体描述信息的关键词集合中的实体关系word_j的语义相似度；路径实体集合与头实体描述信息关键词集合的语义相似度SIM(entities，words)是由集合中各个实体和关键词的语义相似度得到的，具体地由m×n维的相似度矩阵X_{i＝1，2，...，m；j＝1，2，...，n}得到集合间语义相似度SIM(entities，words)；智能体从头实体e_h出发，经过多次跳转经过多个实体与关系边到达尾实体e_target，其中经过的实体集合为entities＝{e₁，e₂，...，e_m}；通过提取实体集合中各个元素的类别信息，得到路径实体类别集合classes＝{class₁，class₂，...，class_m}；再通过用样的方式得到查询q＝(e_h，r)中的关系r对应的类别信息class_relation；得到路径实体类别集合和查询中关系的类别之后，我们需要以数值的方式衡量两者之间的语义相似度，我们同样使用Word2Vec作为文本表示模型，以cosine距离为相似度度量方法，计算出词组与关系之间的相似度矩阵；路径实体类别集合所包含的实体类别个数为m，查询中关系的类别所包含的类别词个数为1，词组与关系之间的相似度可由一个m×1维的相似度矩阵X_{i＝1，2，...，m}表示，矩阵中的元素Y_i为路径实体类别集合中的实体类别class_i和查询中关系的类别词class_relation的语义相似度；路径实体类别集合和查询中关系的类别合的语义相似度SIM(classes，class_relation)是由集合中各个实体和关键词的语义相似度得到的，具体地由m×1维的相似度矩阵X_{i＝1，2，...，m}得到集合间语义相似度SIM(classes，class_relation)；

步骤4：参数设置

在参数选择方面，基于路径质量评估的强化学习知识图谱推理算法在质量评估模块方面需要确定的超参数主要包括路径实体集合与头实体描述信息关键词集合的语义相似度SIM(entities，words)的阈值α和路径实体类别集合和查询中关系的类别合的语义相似度SIM(classes，class_relation)的阈值β并且α，β∈(0，1)；本文遵循相关工作中的参数选择方法，使用网格搜索法对以上参数进行确定；选取搜索范围后，设置参数α的选取范围为{0.2，0.3，0.4}，参数β的范围为{0.10，0.15，0.20}；对于基于路径质量评估的强化学习知识图谱推理模型来说，实体和关系嵌入尺寸的大小设置为200；3层LSTM的隐藏大小为200，β表示熵正则化常数，值在0-0.1之内；我们使用Adam优化器。

2.如权利要求1所述方法，其特征在于，步骤1使用TF-IDF方法提取实体描述文本中关键词。

3.如权利要求1所述方法，其特征在于，步骤3中使用基于文本相似度计算、Word2Vec模型完成对智能体游走过程得到的路径的质量评估。