CN111897944A

CN111897944A - 基于语义空间共享的知识图谱问答系统

Info

Publication number: CN111897944A
Application number: CN202010827800.6A
Authority: CN
Inventors: 朱聪慧; 徐冰; 杨沐昀; 曹海龙; 赵铁军
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-06
Anticipated expiration: 2040-08-17
Also published as: CN111897944B

Abstract

基于语义空间共享的知识图谱问答系统，它属于中文知识图谱问答技术领域。本发明解决了现有知识图谱问答系统中各模块之间信息共享不足，导致获得的答案实体的准确率有限的问题。本发明利用问句主实体识别子模块，实体链接子模块和关系预测子模块的训练数据来联合训练BERT预训练语言模型，通过将联合训练好的模型嵌入各子模块，以实现语义空间的信息共享。通过本发明方法可以确保问句主实体识别子模块能够且只能从自然语言问句中识别出一个主实体，通过各子模块之间的语义信息共享，可以有效提高获得的答案实体的准确率。通过实验证明，采用本发明方法获得的答案实体的准确率可以达到86.64％。本发明可以应用于知识图谱问答。

Description

基于语义空间共享的知识图谱问答系统

技术领域

本发明属于中文知识图谱问答技术领域，具体涉及一种基于语义空间共享的知识图谱问答系统。

背景技术

知识图谱问答技术是一种特殊的自动问答技术，其目标是以知识图谱作为知识来源，在给定一个自然语言问句时自动给出正确的答案。该技术提供了一种自然直接的方法访问海量知识图谱信息。目前有多种不同的知识图谱问答模型，这些模型主要可以分为两大类。

第一类模型基于语义分析。这类模型通过对自然语言问句进行细致的语义分析将问句转换为SPARQL等结构化逻辑表示，在知识图谱上执行相应的查询来直接获得答案。传统的语义分析方法依赖人工标注的逻辑表达式作为监督信息，因此该方法被局限在标注数据所能覆盖的少数几种关系谓词上。模式匹配可以用来扩大语义分析模型的应用范围，利用外部资源进行弱监督学习来实现同样的目的。

第二类模型基于信息检索技术。该类模型首先从知识图谱中获取所有可能的候选三元组(头实体，关系，尾实体)，然后通过机器学习或深度学习方法对候选三元组进行排序。排名最高的三元组即为预测结果。此类方法一般不需要人工设计规则或特征，因此具有更好的泛化能力，更加适合应用在大规模知识图谱上。

预训练语言模型：预训练语言模型是一类通过在大规模语料上进行预训练，以获取通用语言表示，并借此提升其他自然语言处理任务性能的模型。随着深度学习技术的发展，多种深度神经网络都在自然语言处理领域得到了成功应用，但和计算机视觉领域的一些大规模深度神经网络相比，自然语言处理领域使用的深度学习模型规模相对更小。导致这一现象的重要原因是自然语言处理领域的任务一般没有大规模训练数据。学术界对如何在自然语言处理领域通过较大规模的预训练引入更多额外的先验知识十分关注。

随着TPU等新硬件带来的算力提升和更加复杂的网络结构的出现，学术界出现了一系列深层预训练语言模型。这些模型的相同之处在于，其都是通过设计特殊的训练目标在大规模无标注语料上对足够复杂的神经网络模型进行预训练以得到性能优秀的通用语言表示，并通过特定的迁移学习技术来利用这一语言表示帮助提升其他自然语言处理任务的性能，但是其模型结构，预训练目标和迁移方式都各有不同。在这些模型中BERT是影响力最大的一个。

BERT是Bidirectional Encoder Representation from Transformer的缩写，是在NLP领域取得杰出效果的预训练语言模型，其通过联合调节所有层中的双向Transformer来训练深度双向表示。

在BERT被提出之前将预训练语言表示应用到下游任务主要有两种方式，一种是feature-based，例如ELMo，将经过预训练的表示作为特征引入到下游任务的网络中；另一种是fine-tuning，例如OpenAI GPT，它在预训练阶段训练一个完整的神经语言模型，在fine-tuning阶段在该模型的基础上添加面向任务的参数并微调整个网络的全部参数。feature-based方法得到的语言表示是固定的，而基于fine-tuning的方法能够优化整个预训练语言模型的参数来提升其在目标任务上的性能，因此模型的表达能力更强。学术界的研究也表明第二种方法的性能更好。BERT认为上述两种模型有一个共同的限制，它们的架构是单向的。ELMo虽然使用的是双向LSTM，但实际上它是将从左到右的表示和从右到左的表示拼接起来，这被认为是一种浅层连接而不是真正意义的深度双向表示。而OpenAI GPT采用的是Transformer decoder的结构，当前词只能看到其左侧的信息，因此也是单向的架构。BERT使用masked LM和NSP两个训练任务使得模型能够学到深度双向的语言表示。其中masked LM使用上下文信息来预测被遮盖掉的当前词，使模型能够获得双向信息；NSP任务预测句对顺序，使模型能够更好的理解句对概念，关注其中的语义关系。BERT模型刷新了十一项自然语言处理任务的性能，是一个里程碑式的工作。

目前学术界已经提出了种类众多的预训练语言模型。虽然这些模型在技术方案上各有优势，但总体上来说这些预训练语言模型的核心贡献是通过非常复杂的神经网络从大规模无标注文本中为自然语言学习到性能优秀的向量表示。神经网络模型的复杂程度为预训练语言模型的表达能力提供有力支持，如目前GLUE性能最好的T5模型参数量达到了110亿；超大规模的训练数据则为模型提供了海量的自然语言信息，对常见语言现象达到了较为充分的覆盖，如T5模型使用了750GB的训练数据。预训练语言模型和此前的方法，如词向量，或有监督神经网络相比，其能够有效利用的语料规模大大增加，模型表达能力随之提高，因此在多种自然语言处理任务上获得了性能提升。

综上所述，虽然现有方法在知识图谱问答技术领域已经取得了一定的成就，但是由于现有知识图谱问答系统中各模块之间的语义信息共享不足，导致获得的答案实体的准确率有限的问题。

发明内容

本发明的目的是为解决现有知识图谱问答系统中各模块之间信息共享不足，导致获得的答案实体的准确率有限的问题，而提出了一种基于语义空间共享的知识图谱问答系统。

本发明为解决上述技术问题采取的技术方案是：

一种基于语义空间共享的知识图谱问答系统，所述系统包括问句主实体识别子模块，实体链接子模块和关系预测子模块，其中：

所述问句主实体识别子模块，实体链接子模块和关系预测子模块内部均嵌入有BERT预训练语言模型；所述BERT预训练语言模型是通过三个子模块的联合训练获得的；

问句主实体识别子模块用于对输入的自然语言问句进行编码，分别获得自然语言问句中每个字符的向量表示，并根据每个字符的向量表示确定主实体的开始位置和结束位置，得到输入的自然语言问句中的主实体；

实体链接子模块用于预测输入的自然语言问句中主实体在知识图谱中的实体名；

关系预测子模块用于预测输入的自然语言问句中关系谓词在知识图谱中的关系名；

在知识图谱中，预测出的实体名通过预测出的关系谓词连接到的尾实体为答案实体。

本发明的有益效果是：本发明提出了一种基于语义空间共享的知识图谱问答系统，本发明利用问句主实体识别子模块，实体链接子模块和关系预测子模块的训练数据来联合训练BERT预训练语言模型，通过将联合训练好的模型嵌入各子模块，以实现语义空间的信息共享。通过本发明方法可以确保问句主实体识别子模块能够且只能从自然语言问句中识别出一个主实体，通过各子模块之间的语义信息共享，可以有效提高获得的答案实体的准确率。通过实验证明，采用本发明方法获得的答案实体的准确率可以达到86.64％。

附图说明

图1是本发明基于语义空间共享的知识图谱问答系统的示意图。

具体实施方式

具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于语义空间共享的知识图谱问答系统，所述系统包括问句主实体识别子模块，实体链接子模块和关系预测子模块，其中：

联合训练：多任务联合训练指的是使用多个任务的训练数据和相应训练目标来优化同一个规模较大的共享模型。通过联合优化多个训练目标，多任务联合训练避免了对某一特定任务的过拟合，可以提高模型在参与训练的每个任务上的泛化能力。该方法在人工智能技术的多个领域，如自然语言处理、计算机视觉、语音识别等均有广泛的应用。

深度学习的多任务联合训练主要有两种实现方式。第一种方式在所有任务间共享同一个模型结构和大部分模型参数。不同的任务之间共享神经网络隐层，而每个任务可以保留一定的独占输出层。在多个训练任务间共享隐藏层可以大大降低神经网络过拟合的程度。直观上来说，多任务共享隐藏层需要学习可以适用于全部任务的通用样本表示，因此不会过拟合某一任务的训练数据。

第二种联合训练方式为每个任务单独维护一组神经网络参数，但通过添加一定的正则项使任意两个任务的参数之间差异不会过大。可以使用L2正则，矩阵的迹等来维护不同任务间参数的相似性。

自然语言处理领域的深度学习模型同样可以按照上述方法进行联合训练。在此基础上，学术界还根据自然语言处理任务的特点提出了较为独特的方法。例如自然语言处理领域的不同任务之间存在较为明显的层次关系，词性标注、命名实体识别等任务通常被用在自然语言处理的数据预处理阶段，只需要模型对自然语言进行较为浅层的分析；而文本蕴含、机器翻译、阅读理解等任务一般被认为需要模型对自然语言文本有着更深的理解。因此在一些情况下，浅层任务应当依赖神经网络模型较浅的隐层输出，而对语义理解要求较高的任务应当依赖神经网络模型深层隐层的输出。

为了实现高性能，覆盖广的语义计算，本发明应用预训练语言模型作为一项基本语义计算技术，并发明了预训练语言模型的联合精调技术在知识图谱问答的多个子任务上共享信息改善知识图谱问答的效果。

具体实施方式二、本实施方式与具体实施方式一不同的是：所述BERT预训练语言模型是通过三个子模块的联合训练获得的，问句主实体识别子模块的训练数据是自然语言问句和自然语言问句中的主实体；实体链接子模块的训练数据是自然语言问句、正确和错误主实体在知识图谱中的实体名，将正确主实体在知识图谱中的实体名作为正样本，错误主实体在知识图谱中的实体名作为负样本；关系预测子模块的训练数据是自然语言问句、正确和错误关系谓词在知识图谱中的关系名，将正确关系谓词在知识图谱中的关系名作为正样本，将错误关系谓词在知识图谱中的关系名作为负样本。

具体实施方式三、本实施方式与具体实施方式二不同的是：所述问句主实体识别子模块，实体链接子模块和关系预测子模块中的BERT预训练语言模型共享BERT网络参数，不共享输出层参数。

问句主实体识别子模块中嵌入的BERT预训练语言模型的输出层参数是利用问句主实体识别子模块的训练数据进行训练获得的，实体链接子模块中嵌入的BERT预训练语言模型的输出层参数是利用实体链接子模块的训练数据进行训练获得的，关系预测子模块中嵌入的BERT预训练语言模型的输出层参数是利用关系预测子模块的训练数据进行训练获得的。

BERT网络参数是通过三个部分的训练数据进行联合训练获得的。利用自然语言问句和人工标注的答案三元组构造三个部分的训练数据。

具体实施方式四、本实施方式与具体实施方式一不同的是：所述BERT预训练语言模型使用交叉熵损失函数进行训练。

具体实施方式五、本实施方式与具体实施方式一不同的是：所述问句主实体识别子模块利用BERT预训练语言模型对自然语言问句进行编码，分别获得自然语言问句中每个字符的向量，根据获得的向量计算每个字符作为主实体的开始字符和结束字符的概率；

其中，c_i代表自然语言问句c中的第i个字符，p_s(c_i)代表第i个字符作为主实体开始字符的概率，e代表自然对数的底数，

代表第i个字符的向量表示，

代表第k个字符的向量表示，w_s是开始位置判别向量，用来给每个字符是主实体的开始位置的可能性进行打分，k代表自然语言问句c中的第k个字符，k＝0,1，…，L-1，L代表自然语言问句c中的字符总个数；

p_e(c_i)代表第i个字符作为主实体结束字符的概率，w_e是结束位置判别向量，用来给每个字符是实体的结束位置的可能性进行打分；

将自然语言问句中作为主实体开始字符的概率最大的字符作为主实体的开始，在自然语言问句的主实体的开始字符后面的字符中，选取作为结束位置概率最大的字符作为问句主实体的结束字符。

把向量w_s和w_e与问句中每个字符向量的内积作为每个字符的开始和结束得分。该得分通过softmax函数进行归一化，得到每个字符是主实体开始和结束位置的概率。问句中每个字符通过该方法预测得到的开始和结束概率之和为1，构成了一个合法的概率分布。

具体实施方式六、本实施方式与具体实施方式一不同的是：所述实体链接子模块用于预测输入的自然语言问句中主实体在知识图谱中的实体名，预测方法为：

使用实体链接子模块预测输入的自然语言问句和全部候选实体名组成文本对的正确概率，选取正确概率最高的候选实体名作为预测出的实体名。

获取候选实体名的方式是使用预构造的实体链接表，实体链接表中包含全部的候选实体名。

具体实施方式七、本实施方式与具体实施方式一不同的是：所述关系预测子模块用于预测输入的自然语言问句中关系谓词在知识图谱中的关系名，预测方法为：

使用关系预测子模块预测输入的自然语言问句和每个候选关系谓词构成文本对的正确概率，选取正确概率最高的关系谓词作为预测出的关系谓词。

获取候选关系谓词的方式是使用预测实体在知识图谱中的全部关系谓词作为候选谓词。

本发明使用NLPCC-ICCPOL 2016公开数据集进行了训练和测试。数据集中包含一个大规模开放领域知识图谱和问答对构成的训练和测试。知识图谱规模统计如下表1所示。

表1 NLPCC-ICCPOL 2016知识图谱规模

问答对包含三个部分，问题原句、所涉及三元组和问题答案，其规模如下表2所示。本发明在该数据集上测试了各个子模块和整体的性能，如下表3所示。

表2 NLPCC-ICCPOL 2016问答对规模

表3各模块和整体实验结果(％)

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.基于语义空间共享的知识图谱问答系统，其特征在于，所述系统包括问句主实体识别子模块，实体链接子模块和关系预测子模块，其中：

2.根据权利要求1所述的基于语义空间共享的知识图谱问答系统，其特征在于，所述BERT预训练语言模型是通过三个子模块的联合训练获得的，问句主实体识别子模块的训练数据是自然语言问句和自然语言问句中的主实体；实体链接子模块的训练数据是自然语言问句、正确和错误主实体在知识图谱中的实体名，将正确主实体在知识图谱中的实体名作为正样本，错误主实体在知识图谱中的实体名作为负样本；关系预测子模块的训练数据是自然语言问句、正确和错误关系谓词在知识图谱中的关系名，将正确关系谓词在知识图谱中的关系名作为正样本，将错误关系谓词在知识图谱中的关系名作为负样本。

3.根据权利要求2所述的基于语义空间共享的知识图谱问答系统，其特征在于，所述问句主实体识别子模块，实体链接子模块和关系预测子模块中的BERT预训练语言模型共享BERT网络参数，不共享输出层参数。

4.根据权利要求1所述的基于语义空间共享的知识图谱问答系统，其特征在于，所述BERT预训练语言模型使用交叉熵损失函数进行训练。

5.根据权利要求1所述的基于语义空间共享的知识图谱问答系统，其特征在于，所述问句主实体识别子模块利用BERT预训练语言模型对自然语言问句进行编码，分别获得自然语言问句中每个字符的向量，根据获得的向量计算每个字符作为主实体的开始字符和结束字符的概率；

代表第i个字符的向量表示，w_s是开始位置判别向量，k代表自然语言问句c中的第k个字符，

代表第k个字符的向量表示，k＝0,1，…，L-1，L代表自然语言问句c中的字符总个数；

p_e(c_i)代表第i个字符作为主实体结束字符的概率，w_e是结束位置判别向量；

6.根据权利要求1所述的基于语义空间共享的知识图谱问答系统，其特征在于，所述实体链接子模块用于预测输入的自然语言问句中主实体在知识图谱中的实体名，预测方法为：

7.根据权利要求1所述的基于语义空间共享的知识图谱问答系统，其特征在于，所述关系预测子模块用于预测输入的自然语言问句中关系谓词在知识图谱中的关系名，预测方法为：