CN112445899B

CN112445899B - 一种基于神经网络的知识库问答中的属性匹配方法

Info

Publication number: CN112445899B
Application number: CN201910808206.XA
Authority: CN
Inventors: 张玲玲; 程龚; 瞿裕忠
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2024-05-03
Anticipated expiration: 2039-08-29
Also published as: CN112445899A

Abstract

一种基于神经网络的知识库问答中的属性匹配方法，包含以下步骤：替换问句中的实体并根据实体生成候选属性，将其分词送入神经网络中的词嵌入层；利用双向LSTM学习上下问语义表示；根据问句和属性的词向量表示计算得到词义相似度矩阵，同理根据语义表示得到语义相似度矩阵；分别从问句方向和属性方向取两个相似度矩阵的最大值得到四个向量后，通过全联接层得到问句和属性的相似度；选择最高相似度及其对应的属性，若该相似度大于阈值，则加入属性，并替换问句中的文本进行下一轮属性匹配。本发明结合考虑问句和属性的上下文语义表示和词义表示来计算最终的相似度，提高了属性匹配的准确性；可以定位到问句中对应的谓词文本，迭代的处理多跳问题。

Description

一种基于神经网络的知识库问答中的属性匹配方法

技术领域

本发明属于计算机技术领域，涉及知识库问答中的属性匹配技术，为一种基于神经网络模型的知识库问答中属性匹配方法。

技术背景

随着信息社会的飞速发展，每天都有海量数据的产生，人们如何从大量数据中获得所需信息称为一个难题。知识库问答应运而生，将大量数据表示成实体之间用属性作为桥梁的三元关系组，从而构建成知识图谱，建立基于知识图谱的问答系统来支持用户交互，让用户获得准确简洁的答案。知识库问答系统的主要工作是对进行问句理解，做实体的识别与链接，问句中谓词与知识库中属性的匹配。

属性匹配的作用是确定问句问的是实体所连接的哪个属性。属性匹配需要解决问句中谓词与知识库属性之间的语义鸿沟，比如问句“嘉手纳基地的负责人”需要将问句中的谓词映射上知识库中“嘉手纳基地”实体所连接的属性“指挥官”。现在的问题不仅仅是上述的单属性简单问题，如何处理复杂多跳问题的多属性匹配更难，比如“嘉手纳基地的负责人怎么样”需要先后映射上知识库中的属性指挥官和简介才能获得最终的答案。

现有的属性匹配方法主要可以分为两大类，传统方法和基于神经网络的方法。传统方法可以分为以下几种，通过问句与知识库中属性的词距离做映射，中国专利申请CN109522394A《知识库问答装置及建立方法》，采用预定义的句向量编码器得到向量，从而计算距离得到最相近的属性；利用一些同义词表和常识知识库(如《知网》)等做映射；利用规则或者模板匹配，比如“在哪里”映射“地点”属性；中国专利申请CN109670024A《逻辑表达式确定方法、装置、设备和介质》，综合利用了规则模板及词表信息完成了属性匹配。传统方法易解释，可以得到知识库属性和问题谓词的对应位置，可以通过替换问题中已识别的实体和属性进行下一个属性识别直至无法识别新的属性，从而处理多跳问题；但是这类方法需要利用大量外部信息，人工构造模板，领域迁移受到了限制。因此，基于神经网络模型的属性匹配方法近几年被提出，一些模型仅能处理限定个数的属性匹配，中国专利申请CN109408627A《一种融合卷积神经网络和循环神经网络的问答方法及系统》，将卷积网络和循环网络相结合，但只能处理单属性匹配；公开号为CN109271506A的《一种基于深度学习的电力通信领域知识图谱问答系统的构建方法》，提出了多重卷积神经网络MCCNNs，限定处理两跳之内的属性匹配。另外还有一些模型虽然可以处理多跳问题的属性匹配，但它们往往需要比较准确的语法结构信息，这类模型目前大多用于英文领域，且效果较差，更无法落地于有着分词问题和更为复杂的语法结构的中文属性匹配中。因此，如何利用神经网络模型处理多跳问题中的属性匹配仍然是一个问题。

发明内容

本发明要解决的问题是：如何利用神经网络模型处理多跳问题中的属性匹配，针对属性匹配问题提出一种基于神经网络模型的解决方案，旨在进一步提升属性匹配的精准度以及处理多跳问题中的属性匹配。

本发明的技术方案为：一种基于神经网络的知识库问答中的属性匹配方法，基于神经网络模型，首先替换问句中的实体并根据实体生成候选属性，将问句和候选属性分词送入神经网络中的词嵌入层，利用双向LSTM学习上下问语义表示；根据问句和候选属性的词向量表示计算得到词义相似度矩阵，同理根据语义表示得到语义相似度矩阵；分别从问句方向和属性方向取两个相似度矩阵的最大值得到四个向量后，通过全联接层得到问句和候选属性的相似度；选择最高相似度及其对应的候选属性，若该相似度大于阈值，则加入该候选属性，并替换问句中的文本进行下一轮属性匹配。

进一步的，本发明具体包括以下步骤：

步骤一：根据识别的问句中的实体查询知识库生成其候选属性，并将问句中对应实体的文本用一个标签替代，然后将问句分词，同时将候选属性分词，送入词嵌入层，得到问句词向量和候选属性词向量；

步骤二：将问句的词向量和候选属性的词向量分别通过一个双向的LSTM网络学习上下文信息得到对应的语义向量；

步骤三：计算步骤一问句和候选属性中的各个词分别对应的词向量的余弦相似度得到词义相似度矩阵；同时计算步骤二问句和候选属性各个词融入上下文信息后的语义向量的余弦相似度得到语义相似度矩阵；

步骤四：利用步骤三中的词义相似度矩阵，对候选属性的每个词取问句方向上的最大相似度值，从而得到候选属性对应的最大词义相似度向量，同理得到问句对应的最大词义相似度向量；对语义相似度矩阵同理可得候选属性对应的最大语义相似度向量和问句对应的最大语义相似度向量；

步骤五：将步骤四得到的四个向量分别送入四个线性层，得到属性词义相似度、问句词义相似度、属性语义相似度和问句语义相似度四个值，将这四个相似度拼接成向量通过神经网络的最后一层线性层，即输出层，得到问句和属性的相似度；

步骤六：得到问句和所有候选属性的相似度后，选择最高相似度的属性，如果该相似度超过设定阈值，将该候选属性加入结果中；根据候选属性对应的最大词义相似度向量和最大语义相似度向量来确定候选属性中的词和问句词的对应关系，从而确定问句中谓词的位置；然后将目前实体和该候选属性组成查询得到结果实体，将问句中目前实体和候选属性所在的文本替换成结果实体，并转到步骤一，继续属性匹配；否则结束，返回已经映射上的属性结果。

本发明的有益效果是：(1)通过双向LSTM考虑问句和属性的上下文信息，获得各自的语义向量；结合考虑问句和属性的上下文语义表示和词义表示来计算最终的相似度，提高了属性匹配的准确性。(2)在找到最大相似度的属性的同时通过网络内部信息可以定位到问句中对应的谓词，可以通过迭代的替换处理多跳问题。

附图说明

图1是本发明的整体处理流程及实例图。

图2是本发明的神经网络模型示意图。

具体实施方式

本发明提出一种神经网络模型在匹配上知识库中属性的同时定位问题中的谓词，将目前问题中实体和谓词替换为其组装成查询后得到的实体，进行迭代的属性匹配，直至属性匹配度低于一个阈值，包含以下步骤：

步骤一：根据已识别的实体查询知识库生成其候选属性，并将问句中对应实体的文本用一个标签替代，然后将问句分词，同时将候选属性分词，这里可以采用结巴分词，得到问句输入Q＝[q₁,q₂,…,q_n]以及候选属性输入P＝[p₁,p₂,…,p_m]，q_n指问句分词后的第n个词，p_m指属性分词后第m个词，将它们送入词嵌入层，得到问句Q对应词向量LRQ＝{lrq₁,lrq₂,…,lrq_n,}，lrq_t对应第t个问句词的词义表示向量，候选属性P对应词向量LRP＝{lrp₁,lrp₂,..,lrp_m}，lrp_t对应第t个属性词的词义表示向量。其中，词嵌入层采取预训练的词向量表，如百度百科用word2vec预训练的词向量表，也可以将百度百科换成维基百科，也可以把word2vec换成glove。若某个词不在表中，采取高斯分布随机化向量，若词的个数不够，则利用预定义的填充向量进行填充。

步骤二：将问句的分词向量和属性的分词向量分别通过一个双向的LSTM网络学习上下文信息得到对应的语义向量SRQ和SRP，问句语义向量SRQ＝{srq₁,srq₂,…,srq_n}，候选属性语义向量SRP＝{srp₁,srp₂,…,srp_m}，n表示问句分词个数，m表示属性分词个数，srq_n和srp_m分别为两个方向LSTM的输出表示的拼接。

步骤三：计算步骤一问句和属性中的各个词分别对应的词向量的余弦相似度得到词义相似度矩阵LSM；同时计算步骤二问句和属性各个词融入上下文信息后的语义向量的余弦相似度得到语义相似度矩阵SSM。词义相似度矩阵LSM＝[lsm_ij]_n*m，语义相似度矩阵SSM＝[ssm_ij]_n*m，其中lsm_ij＝lrq_i⊙lrp_j，ssm_ij＝srq_i⊙srp_j，lrq_i表示问句词向量的元素，lrp_j表示候选属性词向量的元素，srq_i表示问句语义向量的元素，srp_j表示候选属性语义向量的元素，1≤i≤n，1≤j≤m，“⊙”表示计算方式为余弦相似度。

步骤四：利用步骤三中的词义相似度矩阵对属性的每个词取问句方向上的最大相似度值从而得到属性对应的最大词义相似度向量，同理可以得到问句对应的最大词义相似度向量；对语义相似度矩阵同理可得属性对应的最大语义相似度向量和问句对应的最大语义相似度向量。从而得到四个最大相似度向量：问句对应的词义相似度最大值向量y_lq，属性对应的词义相似度最大值向量y_lp，问句对应的语义相似度最大值向量y_lp，属性对应的语义相似度最大值向量y_sp：

y_lq＝[y_lq1,y_lq2,…,y_lqi,…,y_lqn]，y_lp＝[y_lp1,y_lp2,…,y_lpj,…,y_lpm]，

y_sq＝[y_sq1,y_sq2,…,y_sqi,…,y_sqn]，y_sp＝[y_sp1,y_sp2,…,y_spj,…,y_spm]，

其中，y_lqi表示第i个属性词在问句方向上挑出的最大相似度，即max_1≤k≤mlsm_ki，其他同理。

步骤五：将步骤四得到的四个向量分别送入四个线性层，得到属性词义相似度、问句词义相似度、属性语义相似度和问句语义相似度四个值，即z_lq＝w_lq*y_lq+b_lq，z_lp＝w_lp*y_lp+b_lp，z_sq＝w_sq*y_sq+b_sq，z_sp＝w_sp*y_sp+b_sp；然后将其拼接成向量z＝[z_lq,z_lp,z_sq,z_sp]，通过最后一步的线性层，即神经网络的输出层得到问句和属性的相似度sim(Q,P)＝w*z+b。

步骤六：得到问句和所有候选属性的相似度后，选择最高相似度的属性。如果该相似度超过设定阈值，将该属性加入结果中；根据属性对应的最大词义相似度向量和最大语义相似度向量来确定属性中的词和问句词的对应关系，从而确定问句中属性的位置；然后将目前实体和该属性组成查询得到结果实体，将问句中目前实体和属性所在的文本替换成结果实体，并转到步骤一，继续属性匹配。否则结束，返回已经映射上的属性结果。

下面结合实施例及附图对本发明作进一步详细的描述，以令本领域技术人员参照说明书文字能够据以实施。

本发明的实施先根据识别好的实体生成候选属性，并将实体对应的问句中的文本替换成标签，然后将候选属性和问句送入神经网络模型中得到相似度，选出最高相似度及其对应的属性和问句中的位置，如果该相似度大于阈值，则将属性加入属性结果列表中，根据当前的实体和属性构成查询得到结果，如果该结果是个实体则重复之前的步骤继续映射属性。如图1实例所示，“嘉手纳基地的负责人怎么样”实体为嘉手纳基地，将嘉手纳基地替换成标签<e>，问句变成“<e>的负责人怎么样”，同时生成嘉手纳基地的候选属性“指挥官、占地面积、驻军数量”等，然后问句和每个属性通过神经网络模型计算相似度，得出相似度最高的是指挥官，且该相似度大于阈值，则查询知识库中嘉手纳基地的指挥官得到“阿西莫将军”实体，将问句中“<e>的负责人”替换成“阿西莫将军”，构成问句“阿西莫将军怎么样”，继续之前的步骤映射上属性“简介”，查询知识库阿西莫将军的简介得到的文本不是实体，所以结束，返回指挥官和简介两个属性。

接下来具体介绍一下属性匹配的神经网络模型，如图2所示：

根据已识别的实体查询知识库生成其候选属性，并将问句中对应实体的文本用一个标签替代，然后将问句分词，同时将候选属性分词，分词工具采用结巴分词，分别得到问句输入Q＝[q₁,q₂,…,q_n]以及属性输入P＝[p₁,p₂,…,p_m]。

接下来，通过词嵌入层将问句中的词和属性中的词根据预训练词向量表转成各自的词义表示向量，如问句Q对应词向量LRQ＝{lrq₁,lrq₂,…,lrq_n,}，候选属性P对应词向量LRP＝{lrp₁,lrp₂,..,lrp_m}。

将问句和属性的词义表示向量LRQ和LRP分别通过双向LSTM，得到对应的上下文语义表示向量SRQ和SRP，SRQ＝{srq₁,srq₂,…,srq_n}，SRP＝{srp₁,srp₂,…,srp_m}。LSTM(longshort-term memory)是长短期记忆网络，是一种特殊的时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件，它是为了解决RNN的长依赖问题而提出的。本次发明使用的LSTM包含输入门、输出门、遗忘门。其中细胞状态的更新使用到了输入门和遗忘门的信息，其实现如下：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i),(输入门)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f),(遗忘门)

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_xcx_t+W_hch_t-1+b_c),(细胞状态)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o),(输出门)

h_t＝o_t⊙tanh(c_t),(输出)

其中，σ指sigmoid函数，⊙是元素点积操作，W是权重矩阵，b是偏置系数。

在本发明中，我们使用了两个双向LSTM模型，输入x_t分别为问句词义表示向量和候选属性词义表述向量，一个LSTM计算从左到右的第t个词表示相似的，另一个LSTM计算从右到左的第t个词表示/>我们将前者称为前向LSTM，后者称为后向LSTM，最终的第t个词的上下文表示由两者连接而成，即/>对应得到问句和候选属性对应的上下文语义表示向量SRQ和SRP。

接下来，对问句Q和候选属性P的词义表示向量和上下文语义表示向量分别计算词义相似度矩阵LSM和语义相似度矩阵SSM：

LSM＝[lsm_ij]_n*m

SSM＝[ssm_ij]_n*m

通过余弦相似度计算两个词的相似度：

lsm_ij＝lrq_i⊙lrp_j

ssm_ij＝srq_i⊙srp_j

对两个相似度矩阵从垂直方向和水平方向即问句方向和属性方向分别计算最大值，从而得到属性和问句对应的词义最大值向量和语义最大值向量y_lq，y_lp，y_sq，y_sp：

y_lq＝[y_lq1,y_lq2,…,y_lqn]

y_lp＝[y_lp1,y_lp2,…,y_lpm]

y_sq＝[y_sq1,y_sq2,…,y_sqn]

y_sp＝[y_sp1,y_sp2,…,y_spm]。

将以上四个向量分别送入四个线性层得到四个相似度值：

z_lq＝w_lq*y_lq+b_lq

z_lp＝w_lp*y_lp+b_lp

z_sq＝w_sq*y_sq+b_sq

z_sp＝w_sp*y_sp+b_sp

将四个相似度值组成向量z＝[z_lq,z_lp,z_sq,z_sp]，将向量z送入最终的线性层得到最终相似度：sim(Q,P)＝w*z+b。

在上述基础上，本发明的神经网络训练的时候通过最小化合页损失(hinge loss)函数：

loss＝max{0,1-sim(Q,P⁺)+S(Q,P^-)}

设置的批大小为32，并且选择了学习率为0.001的Adam优化器。

预测的时候取最大相似度的属性，根据中间属性对应的词义最大相似度和语义最大相似度向量确定问句中对应的谓词文本。

本发明通过双向LSTM考虑问句和属性的上下文信息，获得各自的语义向量；结合考虑问句和属性的上下文语义表示和词义表示来计算最终的相似度，提高了属性匹配的准确性。而且本发明的模型可以在找到最大相似度的属性的同时通过网络内部信息定位到问句中对应的谓词，从而迭代的替换处理多跳问题。

Claims

1.一种基于神经网络的知识库问答中的属性匹配方法，其特征是基于神经网络模型，首先替换问句中的实体并根据实体生成候选属性，将问句和候选属性分词送入神经网络中的词嵌入层，利用双向LSTM学习上下文语义表示；根据问句和候选属性的词向量表示计算得到词义相似度矩阵，同理根据语义表示得到语义相似度矩阵；分别从问句方向和属性方向取两个相似度矩阵的最大值得到四个向量后，通过全联接层得到问句和候选属性的相似度；选择最高相似度及其对应的候选属性，若该相似度大于阈值，则加入该候选属性，并替换问句中的文本进行下一轮属性匹配；

具体包括以下步骤：

2.根据权利要求1所述的一种基于神经网络的知识库问答中的属性匹配方法，其特征是步骤一中，分词方式利用结巴分词，得到问句Q＝[q₁,q₂,…,q_n]以及候选属性P＝[p₁,p₂,…,p_m]，q_n指问句分词后的第n个词，p_m指属性分词后第m个词，词嵌入层采取预训练的词向量表，采取的百度百科预训练的词向量表，若某个词不在表中，采取高斯分布随机化向量，若词的个数不够，则利用预定义的填充向量进行填充，得到问句Q对应词向量LRQ＝{lrq₁,lrq₂,…,lrq_n,}，lrq_n对应第n个问句词的词义表示向量，候选属性P对应词向量LRP＝{lrp₁,lrp₂,..,lrp_m}，lrp_m对应第m个属性词的词义表示向量。

3.根据权利要求1所述的一种基于神经网络的知识库问答中的属性匹配方法，其特征是所述步骤二的语义向量是用的每个时序前向LSTM层的隐向量和后向LSTM层隐向量的拼接，得到问句和候选属性对应的上下文语义表示向量SRQ和SRP，问句语义向量SRQ＝{srq₁,srq₂,…,srq_n}，候选属性语义向量SRP＝{srp₁,srp₂,…,srp_m}，n表示问句分词个数，m表示属性分词个数，srq_n和srp_m分别为两个方向LSTM的输出表示的拼接。

4.根据权利要求1所述的一种基于神经网络的知识库问答中的属性匹配方法，其特征是所述步骤三具体为：对问句Q和候选属性P的词义表示向量和上下文语义表示向量分别计算词义相似度矩阵LSM和语义相似度矩阵SSM：LSM＝[lsm_ij]_n*m，SSM＝[ssm_ij]_n*m，其中lsm_ij＝lrq_i⊙lrp_j，ssm_ij＝srq_i⊙srp_j，n表示问句分词个数，m表示属性分词个数，lrq_i表示问句词向量的元素，lrp_j表示候选属性词向量的元素，srq_i表示问句语义向量的元素，srp_j表示候选属性语义向量的元素，1≤i≤n，1≤j≤m，“⊙”表示计算方式为余弦相似度。

5.根据权利要求1所述的一种基于神经网络的知识库问答中的属性匹配方法，其特征是所述步骤四具体为：对两个相似度矩阵从垂直方向和水平方向，即问句方向和候选属性方向分别计算最大值，得到问句对应的词义相似度最大值向量y_lq，属性对应的词义相似度最大值向量y_lp，问句对应的语义相似度最大值向量y_lp，属性对应的语义相似度最大值向量y_sp：

其中，y_lqi表示第i个属性词在问句方向上挑出的最大相似度，其他同理。

6.根据权利要求1所述的一种基于神经网络的知识库问答中的属性匹配方法，其特征是所述步骤五具体为：将步骤四得到的四个最大值向量分别送入四个线性层得到四个相似度值：z_lq＝w_lq*y_lq+b_lq，z_lp＝w_lp*y_lp+b_lp，z_sq＝w_sq*y_sq+b_sq，z_sp＝w_sp*y_sp+b_sp；然后将四个相似度值组成向量z＝[z_lq,z_lp,z_sq,z_sp]，将向量z送入神经网络最终的线性层得到最终相似度：sim(Q,P)＝w*z+b。