CN112115687A

CN112115687A - 一种结合知识库中的三元组和实体类型的生成问题方法

Info

Publication number: CN112115687A
Application number: CN202010872496.7A
Authority: CN
Inventors: 蔡毅; 徐静云
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-12-22
Anticipated expiration: 2040-08-26
Also published as: CN112115687B; WO2022041294A1

Abstract

本发明公开了一种结合知识库中的三元组和实体类型的生成问题方法，所述方法一种基于注意力机制的神经网络模型：所述神经网络模型的输入为表示重构过的三元组的词向量序列，输出是通过处理词向量序列得到的一组用来表示问题的词向量序列。首先，利用三元组中的头实体和尾实体对应的实体类型对三元组进行重构，然后利用预训练好的Glove词嵌入获得表示重构得到的新三元组的词向量序列，之后利用一个基于注意力机制的门机制循环神经网络编码输入的词向量序列，再利用另一个基于注意力机制的门机制循环神经网络解码通过编码器得到的三元组的表示，最后处理解码器输出的词向量序列得到生成的问题。本发明结合了知识库中的三元组及三元组中的头实体和尾实体对应的实体类型的信息，通过一种基于注意力机制的神经网络模型得到一个语法上更流畅、与输入的三元组更相关的问题。

Description

一种结合知识库中的三元组和实体类型的生成问题方法

技术领域

本发明涉及自然语言处理技术中自然语言文本生成领域，具体涉及一种结合知识库中的三元组和实体类型的生成问题方法。

背景技术

问题生成是自然语言处理领域极一项重要的任务，近年来关于文本生成中的问题生成的的研究越来越多，根据数据源的不同，现有的方法可以分为基于知识库的问题生成，基于文本的问题生成，基于图像和文本的问题生成。

目前长短时记忆网络模型(Serban I V,Garcia-Duran A,Gulcehre C,etal.Generating Factoid Questions With Recurrent Neural Networks:The 30MFactoid Question-Answer Corpus[C]//Proceedings of the 54th Annual Meeting ofthe Association for Computational Linguistics(Volume 1:Long Papers).2016:588-598.)和注意力机制模型(Liu C,Liu K,He S,et al.Generating Questions forKnowledge Bases via Incorporating Diversified Contexts and Answer-Aware Loss[C]//Proceedings of the 2019Conference on Empirical Methods in NaturalLanguage Processing and the 9th International Joint Conference on NaturalLanguage Processing(EMNLP-IJCNLP).2019:2431-2441.)也在广泛使用。使用在自然语言文本生成的神经模型是基于序列到序列(seq2seq)模型，大部分研究也都是基于seq2seq模型进行修改。其主要思路是利用序列到序列模型来捕捉上下文的情节走向，对上下文的内容进行建模，在对上下文建模时会加入额外的知识信息来捕捉一些隐藏的有用信息，以期能够生成符合上下文情节的问题。Serban等人首次提出利用循环神经网络来生成事实性的问题(Serban I V,Garcia-Duran A,Gulcehre C,et al.Generating Factoid QuestionsWith Recurrent Neural Networks:The 30M Factoid Question-Answer Corpus[C]//Proceedings of the 54th Annual Meeting of the Association for ComputationalLinguistics(Volume 1:Long Papers).2016:588-598.),基于此，Indurthi等人提出利用循环神经网络来生成问题-答案对(Indurthi S R,Raghu D,Khapra M M,etal.Generating natural language question-answer pairs from a knowledge graphusing a RNN based question generation model[C]//Proceedings of the 15thConference of the European Chapter of the Association for ComputationalLinguistics:Volume 1,Long Papers.2017:376-385.),Liu等人提出了现有的基于知识库的问题生成领域(Liu C,Liu K,He S,et al.Generating Questions for KnowledgeBases via Incorporating Diversified Contexts and Answer-Aware Loss[C]//Proceedings of the 2019Conference on Empirical Methods in Natural LanguageProcessing and the 9th International Joint Conference on Natural LanguageProcessing(EMNLP-IJCNLP).2019:2431-2441.)。

然而，现有现有技术都没有考虑捕捉概念层面的信息，比如说《卧虎藏龙》和《踏雪寻梅》这2部都是电影，虽然模型没有见过《踏雪寻梅》这个词语，但是因为捕捉到《卧虎藏龙》和《踏雪寻梅》都是电影的信息。模型如果能够捕捉到概念层面的信息，就可能可以通过电影这个实体类型，正确地生成和《踏雪寻梅》相关的问题，而本发明方法首次提出通过考虑输入的三元组中的实体类型的信息来辅助模型进行问题生成任务。

发明内容

本发明的目的是针对现有技术的不足，考虑通过词性标注的方法对每个上下文进行词性标注，从而得到每个上下文中包含的实体词，然后对于上下文的词通过ConceptNet网获得每个词的三元组信息，然后通过预训练好的Glove词嵌入方法将上下文词，上下文实体词和知识进行词的预序列得到对应的词向量。在编码一段上下文的时候先对第一句和其对应的知识进行编码，输出得到隐藏状态信息，将这个输出作为输入加入到第二局和气对应的知识编码中，得到这一时刻的隐藏状态信息，以此类推以这种累计式增强的方法直到编码完所有的上下文信息，输出得到最后的隐藏状态信息，最后再和通过词性标注得到的实体词进行拼接，从而得到输出最终的隐藏状态信息，将这个拼接好的隐藏状态信息输入到所述的增强型注意力序列到序列的模型中，最后再通过解码得到合乎上下文一组序列。

本发明至少通过如下技术方案之一实现。

一种结合知识库中的三元组和实体类型的生成问题方法，所述方法包括以下步骤：

1)、利用三元组中头实体和尾实体对应的实体类型重构三元组模型：所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型，输出是一组基于实体类型的新三元组；

2)、利用预训练好的词向量Glove分别获得表示新三元组中每个元素的词向量以及表示训练集中三元组所对应的问题的词向量；训练集可采用公开的问题生成数据集，如SQuAD数据集；

3)、通过一个由基于注意力机制的门控制循环神经单元构成的编码器编码新三元组的表示；

4)、通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码，得到的新的表示新三元组的词向量序列，从而得到一组表示生成的问题的词向量序列；

5)、利用步骤4)中得到的词向量序列获得向量表示的词语，词向量序列是1个矩阵，这个矩阵中的每一列是1个向量，每个向量表示1个词语，每一个向量的长度等于整个词汇表中的词语个数，向量中最大维度对应的词语就是该向量表示的词语，最终将所有对应的词语组合起来就是生成的问题，将在生成的问题中出现的实体类型用对应的输入中的三元组中具体的实体替换掉，最终得到一个新的问题作为输出。

进一步地，所述步骤1)重构三元组模型的步骤包括：

1.1)、设原始的输入数据为E＝{E₁,E₂,E₃,E₄,E₅}序列，其中E₁和E₃分别表示某个三元组中的头实体和尾实体，E₂则表示E₁和E₃之间的定义的关系，E₄和E₅分别表示E₁和E₃所对应的的实体类型；

1.2)、将实体E1和E2组成二元组实体对(E1,E2),E1和E2表示数据集中每一条标注好的实体，用E1和E2所对应的实体类型进行替换，获得新三元组e＝{e₁,e₂,e₃},其中e₁＝E₄,e₂＝E₂,e₃＝E₅,

1.3)、在原始的输入数据中迭代执行步骤1.1)和步骤1.2)，获得由三元组重构之后的新三元组组成的新数据集，最终按比例分为新的训练集、测试集、验证集。

进一步地，所述步骤2)包括：

2.1)、设输入到词向量模型的每条数据包括重构之后的新三元组e＝{e₁,e₂,e₃}、重构之后的新三元组所对应的问题以及预训练好的词向量Glove；三元组所对应的问题为X＝{X₁,X₂,…,X_i}序列，其中X_i表示问题的第i个词；

2.2)、在词向量Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示，将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组，将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。

进一步地，所述步骤3)包括：

3.1)、给定一个三元组，问题是和三元组中的头实体和关系相关的，而问题的答案是三元组中的尾实体，将该三元组的向量输入到注意力机制网络中，通过注意力机制网络计算出三个权重分别表示三元组中头实体、头实体和尾实体的关系、尾实体的重要性，三元组中的元素获得的权重越大表示生成该词语的时候更应该关注该元素；

3.2)、通过对得到的三元组中每个元素的权重和每个元素的向量进行加权求和，在生成问题的每个时刻都获得一个新的三元组的表示：

v_s,t＝α_s,tv_e1+α_p,tv_e2+α_o,tv_e3

其中v_e1、v_e2、v_e3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体，α_s,t、α_p,t、α_o,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重，这三个数值是通过注意力机制网络计算得到的。

进一步地，当生成问题中每一个词语时，基于生成的前一个词语的表示，利用注意力机制网络获得输入的三元组中实体、头实体和尾实体的关系、尾实体的权重，具体包括：

S1)、在生成问题中当前词语的t时刻，将所述的头实体或尾实体或头实体和尾实体的关系结合生成的问题前一时刻的词语的表示，得到新的考虑了前一时刻生成的词语的新的头实体、或尾实体、或关系的向量表示:

其中s_t-1表示的是在t-1时刻生成的词语的表示，v_a、W_a、U_a分别表示在生成注意力机制网络中可训练的权重矩阵；其中v_e1、v_e2、v_e3分别表示的是每个三元组中的头实体、头实体和尾实体的关系、尾实体，h_p,t表示新的表示关系的向量，h_s,t表示新的表示头实体的向量，h_o,t表示新的表示尾实体的向量；

S2)、在生成问题中当前词语的t时刻，基于得到的新的表示头实体、尾实体或头实体和

其中α_s,t、α_p,t、α_o,t分别表示在生成问题的t时刻头实体、头实体和尾实体的关系、尾实体的权重，这三个数值是通过注意力机制网络计算得到的。

进一步地，所述步骤4)包括：

4.1)、在生成问题中的每一个词语的t时刻，将t-1时刻的词语的表示结合t时刻的三元组的表示，从而得到输出的词语的表示:

其中

和z_t分别表示t时刻将三元组的表示结合t-1时刻得到的词语的词向量word embedding表示和独热编码one-hot向量表示通过全连接网络得到的向量，s_t表示t时刻生成的问题中的词语；

4.2)、在生成问题中的每一个词语的t时刻，将t-1时刻的词语的表示结合t时刻的三元组的表示，通过门机制循环神经网络得到输出的词语的表示:

z_t＝σ(w_zE_wy_t-1+U_zs_t-1+A_zv_s,t)

r_t＝σ(w_rE_wy_t-1+U_rs_t-1+A_rv_s,t)

其中W、E_w、U、r_t、A、[r_t,s_t-1]、v_s,t、σ、w_z、U_z、A_z、w_r、U_r、A_r都表示门机制循环神经网络通过训练获得的参数，y_t-1则是指上时刻输出的词语对应的向量表示。

进一步地，所述步骤5)包括：

5.1)、设得到的问题为Y＝{Y₁,Y₂,Y₃,...,Y_t}序列，Y_t表示问题中的每一个词语，三元组E₁和E₃分别表示某个三元组中的头实体和尾实体，E₂则表示E₁和E₃之间的关系，E₄和E₅分别表示E₁和E₃所对应的的实体类型；

5.2)、将所述问题Y中出现的实体类型词，即E₄或E₅分别用E₁和E₃替换，得到新的问题Y’作为最终的输出

本发明与现有技术相比，具有如下优点和有益效果：

本发明不仅仅是考虑了单方面的信息，我们同时考虑了三方面的重要信息：上下文内容；上下文实体词和每个词对应得三元组知识信息。并且通过一种合理的累计式的编码方式将这三者信息进行结合。其有益效果：相较于现有的技术得到的结果，本发明能够生成更加符合上下文情节趋势的结局语句。

附图说明

图1为本发明实施例一种结合上下文实体词和知识的故事结局生成的方法的流程图；

图2为本发明实施例采用整体模型设计图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例提供的一种结合知识库中的三元组和实体类型的生成问题方法，模型图如图2所示，包括以下步骤：

1)、构建增强型注意力序列到序列的重构三元组模型，利用三元组中头实体和尾实体对应的实体类型重构三元组模型，所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型，输出是一组基于实体类型的新三元组；

重构三元组模型的步骤包括：

11)、设原始的输入数据为E＝{E₁,E₂,E₃,E₄,E₅}序列，其中E₁和E₃分别表示某个三元组中的头实体和尾实体，E₂则表示E₁和E₃之间的定义的关系，E₄和E₅分别表示E₁和E₃所对应的的实体类型；

12)、将实体E1和E2组成二元组实体对(E1,E2),E1和E2表示数据集中每一条标注好的实体，用E1和E2所对应的实体类型进行替换，获得新三元组e＝{e₁,e₂,e₃},其中e₁＝E₄,e₂＝E₂,e₃＝E₅,

13)、在原始的输入数据中迭代执行步骤11)和步骤12)，获得由三元组重构之后的新三元组组成的新数据集，最终按比例分为新的训练集、测试集、验证集。

所述深度学习联合模型的输入是由分别表示上下文，实体词和常识知识的向量拼接在一起的词向量，输出是与上下文的有关的一组序列，构建深度学习联合模型的具体步骤包括：

1.1)、设上下文为X＝{X₁,X₂,…,X_i}的序列，其中

表示第i个句子的第l_i个词，通过词性标注得到上下文实体词C_context和通过知识库得到的知识K_g，图2中的X_t表示句子中第t个词语)

1.2)、将所述上下文词、上下文实体词和知识K_g进行词嵌入预处理，有一个原始的向量表，里面存储了所有词语的表示，预处理即是从向量表中获得上下文词、上下文实体词和知识K_g对应的向量表示，得到相对应的词向量；

1.3)、将步骤1.2)得到的词向量以逐步迭代增强的方式输入长短时记忆网络模型；

1.4)、将所述长短时记忆网络模型的输出向量输入所述注意力机制模型；

1.5)、将所述注意力机制模型的输出参数与上下文实体词向量进行比较，例如当模型的输入是三元组(奥巴马，妻子，米歇尔)，以及实体奥巴马和米歇尔，模型的输出的问题为奥巴马的妻子是谁？，假设语料库中的词语有奥、巴、马、妻、子、米、歇、尔、的、是、谁，那么奥字对应的词向量应该是[1,0,0,0,0,0,0,0,0,0,0],巴字对应的词向量应该是[0,1,0,0,0,0,0,0,0,0,0],而假设模型输出的结果中，奥字对应的词向量为[0.2,0.5,0.9,0,0,0,0,0,0,0,0]等，模型就会基于奥字应该对应的词向量[1,0,0,0,0,0,0,0,0,0,0]调整，根据比较结果调整，所述长短时记忆网络模型和所述注意力机制模型的参数，使奥字对应的词向量接近[1,0,0,0,0,0,0,0,0,0,0]；

1.6)、迭代执行步骤1.5)，当长短时记忆网络模型和所述注意力机制模型参数的准确度的差值稳定，即波动范围小于某个范围时(一般为一个很小的值，如10e-5)，得到最终的注意力序列到序列的深度学习联合模型。

2)、对上下文的词进行词性标注，得到相应的词性词，本实施例主要筛选出的是名词和名词复数，具体步骤为：

2.1)、利用词性标注工具将上下文的词进行词性分类，得到其中所包含的名词和名词复数词；

2.2)、将得到的这些名词在输入到长短时记忆网络模型时，与当前的输入向量进行拼接得到新的拼接向量，因为模型在生成问题的时候，由于一些副词的、地出现的次数比较多，模型会倾向于生成这些比较宽泛的词语，而忽略了更具信息含量的一些名词，通过拼接表示词语的词性的向量，能够在一定程度上引导模型捕捉到词语的词性，有望提高模型对名词的关注度，从而在生成问题时生成一些更具信息含量的名词；

3)、通过常识知识获取概念图谱(Speer R,Chin J,Havasi C.Conceptnet 5.5:Anopen multilingual graph of general knowledge[C]//Thirty-First AAAI Conferenceon Artificial Intelligence.2017.)上得到每一个词三元组的常识知识信息，用知识图的形式进行表示具体步骤为：

3.1)、将上下文的词输入到ConceptNet知识库网上，得到每个词对应的三元组信息，并且通过知识图的表示方法得到对应的知识图向量；

3.2)、将得到的知识图向量结合上下文实体词通过注意力机制模型选择比较重要的词的三元组的信息，选择具体过程为：

其中g(x)表示的是知识图向量，h_i、r_i、t_i分别表示的是每个词的头实体、关系、尾实体，

表示的是三元组的权重，用于区别哪些三元组权重更大，W_r,W_h,W_t表示的是可学习的用于训练关系实体、头实体、尾实体的参数，tanh是作为激活函数的双曲正切函数，β_Ri指的是头实体、尾实体、关系实体的表示，

等是通过归一化的方式得到新的表示。

4)、通过预训练好的Glove词嵌入方法(Pennington,Jeffrey,Richard Socher,and Christopher D.Manning."Glove:Global vectors for word representation."Proceedings of the 2014conference on empirical methods in natural languageprocessing(EMNLP).2014.)将步骤2)和步骤3)中得到词和上下文中的词进行词向量的表示，同时将这三者通过一个由基于注意力机制的门控制循环神经单元构成的编码器得到其隐含的状态信息，具体步骤为：

4.1)、将上下文的名词实体词，三元组，通过预训练Glove词嵌入方法得到对应的词向量表示，具体如下：

a)、设输入到词向量模型的每条数据包括重构之后的新三元组e＝{e₁,e₂,e₃}、重构之后的新三元组所对应的问题以及预训练好的词向量Glove；三元组所对应的问题为X＝{X₁,X₂,…,X_i}序列，其中X_i表示问题的第i个词；

b)、在词向量Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示，将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组，将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。

4.2)、将上下文通过一种逐步增强的的编码方式进行编码，将第一句的输出当作是第二句的输入，以此类推直到最后一句结束，最后模型输出的隐藏层状态向量涵盖所有上下文的信息。其中在编码每一句时利用基于注意力机制的门机制循环神经网络来学习上下文的能力，最终模型输出上下文隐藏隐藏层状态向量，将上下文隐藏层状态向量和上下文名词实体词的词向量进行拼接得到最终的输入向量，具体如下：

给定一个三元组，问题是和三元组中的头实体和关系相关的，而问题的答案是三元组中的尾实体，将该三元组的向量输入到注意力机制网络中，通过注意力机制网络计算出三个权重分别表示三元组中头实体、头实体和尾实体的关系、尾实体的重要性，三元组中的元素获得的权重越大表示生成该词语的时候更应该关注该元素；

通过对得到的三元组中每个元素的权重和每个元素的向量进行加权求和，在生成问题的每个时刻都获得一个新的三元组的表示：

v_s,t＝α_s,tv_e1+α_p,tv_e2+α_o,tv_e3

通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码，得到的新的表示新三元组的词向量序列，从而得到一组表示生成的问题的词向量序列，具体包括：

在生成问题中的每一个词语的t时刻，将t-1时刻的词语的表示结合t时刻的三元组的表示，从而得到输出的词语的表示:

其中

在生成问题中的每一个词语的t时刻，将t-1时刻的词语的表示结合t时刻的三元组的表示，通过门机制循环神经网络得到输出的词语的表示:

z_t＝σ(w_zE_wy_t-1+U_zs_t-1+A_zv_s,t)

r_t＝σ(w_rE_wy_t-1+U_rs_t-1+A_rv_s,t)

5)、将步骤4)中的隐藏层状态向量输入到基于注意力机制的门机制循环神经网络中，并通过负对数似然作为损失函数对编码解码阶段进行跟踪，从而最终得到的输出是一组合乎上下文的序列，步骤5)包括以下步骤：

5.1)、将最终的输入向量输入到注意力序列到序列的深度学力联合模型中；

5.2)、分别输出每1次所述注意力序列到序列深度学习联合模型的输出；

5.3)、把负对数似然作为损失函数，当Φ＝Φ_en+Φ_de最小时(Φ_en表示把编码器的输出作为损失函数的输入得到的值，Φ_de表示把解码器的输出作为损失函数的输入得到的值)，将当前的注意力序列到序列深度学习联合模型作为最佳的注意力序列到序列深度学习联合模型，其具体公式为：

其中

表示的是t时刻,第i个句子中第j个词语的表示,而

表示的是t时刻标签的表示，X表示句子。

5.4)、通过最佳的注意力序列到序列深度学习联合模型得到符合上下文的一组序列语句。

设得到的问题为Y＝{Y₁,Y₂,Y₃,...,Y_t}序列，Y_t表示问题中的每一个词语，三元组E₁和E₃分别表示某个三元组中的头实体和尾实体，E₂则表示E₁和E₃之间的关系，E₄和E₅分别表示E₁和E₃所对应的的实体类型；

将所述问题Y中出现的实体类型词，即E₄或E₅分别用E₁和E₃替换，得到新的问题Y’作为最终的输出。

以上所述，仅为本发明较佳的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种结合知识库中的三元组和实体类型的生成问题方法，其特征在于，所述方法包括以下步骤：

2)、利用预训练好的词向量Glove分别获得表示新三元组中每个元素的词向量以及表示训练集中三元组所对应的问题的词向量；

2.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法，其特征在于，所述步骤1)重构三元组模型的步骤包括：

3.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法，其特征在于，所述步骤2)具体的步骤包括：

4.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法，其特征在于，所述步骤3)包括：

v_s,t＝α_s,tv_e1+α_p,tv_e2+α_o,tv_e3

5.根据权利要求4所述的结合知识库中的三元组和实体类型的生成问题方法，其特征在于，当生成问题中每一个词语时，基于生成的前一个词语的表示，利用注意力机制网络获得输入的三元组中实体、头实体和尾实体的关系、尾实体的权重，具体包括：

S2)、在生成问题中当前词语的t时刻，基于得到的新的表示头实体、尾实体或头实体和尾实体关系的向量，注意力机制网络计算出三个标量权重分别表示头实体、尾实体和关系的重要性：

6.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法，其特征在于，所述步骤4)包括：

其中

和z_t分别表示t时刻将三元组的表示结合t-1时刻得到的词语的词向量wordembedding表示和独热编码one-hot向量表示通过全连接网络得到的向量，s_t表示t时刻生成的问题中的词语；

z_t＝σ(w_zE_wy_t-1+U_zs_t-1+A_zv_s,t)

r_t＝σ(w_rE_wy_t-1+U_rs_t-1+A_rv_s,t)

其中W、E_w、U、r_t、A、[r_t,s_t-1]、v_s,t、σ、w_z、U_z、A_z、w_r、U_r、A_r都表示门机制循环神经网络通过训练获得的参数(要具体说明每个参数对应的含义，否则无法不知道具体是什么参数，y_t-1则是指上时刻输出的词语对应的向量表示。

7.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法，其特征在于，所述步骤5)包括：

5.2)、将所述问题Y中出现的实体类型词，即E₄或E₅分别用E₁和E₃替换，得到新的问题Y’作为最终的输出。