CN116383352A

CN116383352A - 一种基于知识图谱的零样本构建领域智能问答系统的方法

Info

Publication number: CN116383352A
Application number: CN202310229049.3A
Authority: CN
Inventors: 王东升; 邓翰; 路曼; 李佳伟; 钟家国
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-07-04

Abstract

本发明公开了一种基于知识图谱的零样本构建领域智能问答系统的方法，其特征在于，包括如下步骤：步骤1：构建某一领域知识库的本体层；步骤2：利用GPT3模型从本体层中生成训练数据；步骤3：用训练数据训练深度学习模型；步骤4：通过训练后的深度学习模型识别问题的意图与实体；步骤5：通过识别出来的意图与实体，在知识库中检索出实体或实体属性，将实体或实体属性作为问题的答案进行返回。本发明采用单模型输出意图识别和槽位填充结果的方法，降低了系统的实现复杂度。并且模型可以考虑更多的上下文信息，使得系统准确率更高。

Description

一种基于知识图谱的零样本构建领域智能问答系统的方法

技术领域

本发明涉及知识图谱问答系统技术领域，具体涉及一种基于知识图谱的零样本构建领域智能问答系统的方法。

背景技术

知识图谱是一种结构化的知识表示方式，它将数据以结点和边的形式展示出来，使得信息更易于理解和检索。基于知识图谱的问答系统可以解决船舶领域、航天领域、医疗领域等信息的系统化、准确化、高效快捷的信息获取问题。基于知识图谱的问答系统引起了许多研究人员的关注，如以SPARQL查询模板为代表的基于模板的方法，以基于问题和候选答案向量为代表的信息检索的方法，以句法依存分析方法为代表的语义解析的方法，以端到端的神经网络模型为代表的深度学习的方法。然而，由于一些特殊领域知识图谱具有特定的领域特点，仅仅使用传统的方法来构建知识图谱问答系统可能会遇到一些难以解决的问题。

以船舶领域为例，中国船舶制造业取得了长足发展，已经成为全球重要的船舶生产基地之一。船舶行业经济活动日益增加，科学技术研究也日益繁荣。随之而来的是大量信息，从海量数据中快速准确地获取所需信息变得越来越困难。船舶领域技术发展较快，新技术和新知识点不断涌现，这导致知识图谱本体层需要经常进行变更。相对应的知识图谱问答系统的需求也会发生变化。例如，随着中国航空母舰技术的发展，本体层新增了一个“舰载机容量”的属性，也同时需要支持“辽宁舰的能装载多少架舰载机”等问题。此时，就会需要重新标注数据，以支持新的需求，这样会消耗大量的人工成本和时间成本。

发明内容

本发明提供了一种基于知识图谱的零样本构建领域智能问答系统的方法，以解决现有技术中训练过程依赖于人工标注、准确率不高、模型复杂度高的问题。

本发明提供了一种基于知识图谱的零样本构建领域智能问答系统的方法，包括如下步骤：

步骤1：构建某一领域知识库的本体层；

步骤2：利用GPT3模型从本体层中生成训练数据；

步骤3：用训练数据训练深度学习模型；

步骤4：通过训练后的深度学习模型识别问题的意图与实体；

步骤5：通过识别出来的意图与实体，在知识库中检索出实体或实体属性，将实体或实体属性作为问题的答案进行返回。

进一步地，所述领域知识库包括：船舶领域知识库。

进一步地，将本体层中的三元组信息、生成文本生成的引导语，作为GPT3的输入参数；训练数据包括：意图识别与槽位填充，即意图与实体。

进一步地，所述步骤2中还包括对训练数据进行增强，具体包括：

通过随机增加、删除文本方式和/或语言翻译方式和/或同义句改写方式，对训练数据进行增强。

进一步地，所述深度学习模型包括：文本预处理层、编码层、意图识别层和槽位填充层；

其中，文本预处理层使用WordPiece将自然语言文本转化为标识，并在句首添加特殊标注；

编码层中使用双向Transformer网络模拟上下文信息的表达；

意图识别层利用BERT模型的[CLS]位置特征向量及全连接层进行意图分类；

槽位填充层使用全局指针结构。

进一步地，深度学习模型利用全局指针预测与问题相关的实体。

进一步地，所述步骤5中，将意图与实体拼接后，在知识库中检索出实体或实体属性。

本发明的有益效果：

常规深度学习解决知识图谱问答的方案中，通常串联使用意图识别和槽位填充两个模型，进行知识问答。这种串联双模型方案，需要更多的计算资源，涉及重复计算，有更低的语义理解能力。本发明采用单模型输出意图识别和槽位填充结果的方法，降低了系统的实现复杂度。并且模型可以考虑更多的上下文信息，使得系统准确率更高；

常规深度学习解决知识图谱问答的方案中，需要大量人工标注数据进行模型训练。本发明训练过程不依赖于人工标注，只需传入知识图谱本体层设计，无需任何人工标注数据，即可适配本体层进行自训练；

传统的知识图谱问答深度学习解决方案中，数据标注需要标注人员具有高度的专业知识。GPT3模型通过使用更大的语料库，能够生成保持专业标准的同时更加多样化的标注数据，从而提高数据质量。该技术利用大规模语言模型的优势，提供了一种创新的方法来改善知识图谱问答的性能。

本发明针对构建知识问答系统，通过某一领域专家构建知识库本体层，用于描述某一领域的实体、属性和关系；通过GPT3模型生成大量的训练数据；通过TFGP模型识别问题的意图及问题所涉及的实体，通过构造知识库查询语句查询返回结果。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明具体实施例的方法框架图；

图2为本发明具体实施例的TFGP模型框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明具体实施例以船舶领域为例，如图1所示，本发明提供了一种基于知识图谱的零样本构建领域智能问答系统的方法，包括如下步骤：

步骤1：通过船舶领域专家构建一个船舶领域知识库的本体层；

由领域专家或开发人员，根据需求，进行领域分析，整理出相关的船舶领域的知识、术语、概念和关系。这包括船舶的结构、船舶的性能和特性、船舶的分类和用途、船舶的维护和修理等。基于领域分析，识别出知识图谱中需要包含的实体，并为每个实体定义其特征和属性。这些实体包括船舶、船舶部件、船舶系统、船舶运营和维护等。可以定义实体的名称、描述、类型、类别、属性和关系等。确定实体之间的关系以及这些关系的属性。关系可以是简单的二元关系，也可以是复杂的多元关系。这些关系可以描述实体之间的层次结构、依赖关系、关联关系、属性等。例如，船舶部件可以包含其他部件，船舶系统可以包含多个部件，船舶运营和维护可以涉及多个系统和部件。根据领域分析、实体抽象和关系建模结果，设计本体层的结构和内容。本体层的目的是提供一种通用的知识表示方式，可以用于推理、查询和其他操作。

步骤2：利用GPT3模型从本体层中生成大量的训练数据；

GPT-3(Generative Pre-training Transformer 3)是一个大型的自然语言生成模型，能够生成高质量的自然语言文本。它可以用来生成各种类型的文本，包括新闻文章、博客文章、对话、问答等。GPT-3可以通过输入一些文本作为提示，来生成与提示相关的文本。因此，本方案中利用GPT-3来生成意图识别和槽位填充训练数据。从而避免引入大量人工标注而产生的人力成本与时间成本。

在知识图谱本体层设计中，通常使用“主语-谓语-宾语”(Subject-Predicate-Object)的三元组来表示。例如：主语(Subject)：辽宁号；谓语(Predicate)：具有MMSI号(hasIMO)；宾语(Object)：9796222。

在船舶垂直领域的问答场景中，为了训练一个意图识别和槽位填充模型，通常需要收集大量的输入-输出对，其中输入是用户的自然语言输入，输出是对应的意图和槽位填充。例如：

输入:"请问江科大号长度是多少米？"

输出:意图:"查询游艇的长度"槽位填充:"船型号:江科大号"

输入:"请问军舰有哪些型号？"

输出:意图:"查询军舰型号"槽位填充:"船类型:军舰"

从知识图谱本体层生成问答系统训练数据，具体细节如下所示：

(1)定义船舶领域知识图谱本体层，格式如下：

(2)使用特定的模版，将提示文本输入GPT-3，GPT-3会根据提示文本生成一段文本。这段文本，就是对应实体的问句，其中部分示例模板与问句结构如下

表1所示：

表1

(3)提取输入-输出对。从GPT-3生成的文本中，提取出输入和输出。输入即为用户的自然语言，输出就是文本对应的意图以及槽位的位置。

(4)将训练文本按照json格式存入，其中json格式如下所示。

text：GPT-3生成的文本，即用户的问句。intent：文本对应的意图，通常是对用户问题的分类。annotation即文本中涉及的所有实体的标注信息，是一个列表，包含多个字典。每个字典表示一个实体的标注信息，其中包括以下字段：type，即实体类型；text，即文本中提取出的实体名。start，即实体在文本中的开始索引下标。end，即实体在文本中的结束索引下标。answer，即知识图谱实体查询的结果，可以是实体的属性值、关系等信息。intent_label，即意图的标签，通常是对意图进行编码的数字或字符串，方便后续处理。

本发明在生成过程中对数据进行增强，增加数据集的多样性，提高模型的泛化能力以及防止模型在训练过程中出现过拟合。数据增强方法如下所示：

方法1(随机增加或删除文本)：在原文本基础上，随机选择一些单词增加或删除来生成新的文本。这种方法有效的环节训练过程中产生的过拟合现象。

由于文本内容需要满足“意图识别”与“槽位填充”两部分任务的训练要求。因此删除或增加的文本不能太多，否则会使句子内容大幅改变，导致原标签不再适用。因此做了以下两点约束

1.标注为“槽位填充”的文本范围，不应被改变。

2.p_add和p_delete分别表示增加或删除文本的概率，调整这两个参数的值可以控制增加或删除文本的数量。例如，若将p_add和p_delete设为0.1，则平均每个文本只会增加或删除一个单词。而若将p_add和p_delete设为0.5，则平均每个文本会增加或删除一半的单词。本发明选择p_add和p_delete分别为0.05。

方法2(语言翻译)：翻译模型是指能够将文本从一种语言翻译成另一种语言的模型。在自然语言处理任务中，可以利用翻译模型进行数据增强。使用翻译模型将文本从中文翻译成其他语言，然后再翻译回中文。该方法，有效的保证语义不变的情况下，改变了文本的表述，从而提升模型的泛化能力。在本任务中，我们选用百度翻译api，作为我们的翻译模型。

方法3(GPT-3同义句改写)：改写的基本步骤如下。

1.将需要改写的句子作为GPT-3的输入，并加入一些特殊符号来表示改写的目标。例如，可以在句子前面加上"<|synonym|>"表示需要进行同义句改写。

2.将准备好的输入传递给GPT-3的API调用接口。

3.GPT-3会生成一个新的句子，作为同义句改写的结果。

4.去掉句子开头的特殊符号：例如，可以去掉"<|synonym|>"等特殊符号；去掉多余的空格：GPT-3生成的句子可能会包含多余的空格，可以去掉这些空格。

步骤3：训练一个基于Transformer、全局指针(Global Pointer)和全连接层(Fullconnected layer)的深度学习模型TFGP，如图2所示。

TFGP模型包括文本预处理层、编码层、意图识别层和槽位填充层。

其中所述文本预处理层使用WordPiece将自然语言文本转化为标识，并在句首添加特殊标注"[CLS]"，表示该文本的整体意义。此外，每个标识的隐层输出作为实体提取的特征层，可用于实体标记与提取任务。"[CLS]"的隐层输出作为意图识别的特征向量，用于对问句进行意图分类。

其中所述编码层采用BERT作为理解上下文信息的嵌入机制，通过预训练的方式获取标识之间的特征交互信息，并使用双向Transformer网络模拟上下文信息的表达，最终得到网络层的输出表示C。为了得到更加有效的上下文表征，我们使用BERT中的self-attention机制对输入的上下文信息进行编码，计算每个标识与整个上下文之间的依赖关系和权重大小，最终得到上下文的加权表示H，如下所示：

C＝BERT(D)

H＝∑αiCi

其中，C表示输入文本D的BERT编码，n表示文本中的标识数量，αi表示第i个标识的权重，Ci表示第i个标识的BERT编码。通过使用BERT和self-attention机制，可以得到更加准确的上下文表征。最终，BERT可以将整个文本编码成一个向量序列，其中每个向量都表示文本中的一个标识。这些向量可以用作后续网络的输入，即下游意图识别网络和槽位填充网络。

其中，所述意图识别层使用BERT模型的[CLS]位置特征向量作为意图识别模块的特征，将其输入到多个全连接层中进行非线性变换，最后使用softmax函数进行意图分类。

首先，获取编码层的[CLS]位置的输出向量C，该向量可以视为问句的特征表示。然后将输出向量C输入到多个全连接层中进行非线性变换。假设有n个全连接层，第1个全连接层的计算可以表示为：

Z_l＝W_l*A_{l-1}+b_l

A_l＝ReLU(Z_l)

其中，W_1和b_1表示第1个全连接层的权重和偏置项，A_{l-1}表示前一层的输出。第1层的输入为输出向量C。

为了获得船舶领域中的意图分类概率分布，使用softmax函数将从全局特征提取层中获取的特征向量O_k映射到分类空间。具体地表示P(D)，其中P(D)表示输入船舶领域问句D的预测概率分布。

Z_L＝W_L*A_{L-1}+b_L

其中，W_L和b_L表示最后一层全连接层的权重和偏置项，softmax函数将Z_L转换为概率分布，可以用于计算交叉熵损失。将A_L的输出作为意图分类的输入，对其进行预测。根据预定义的意图集合，可以使用交叉熵损失来训练模型。

其中，所述槽位填充层采用全局指针(Global Pointer)结构，该结构能够从全局的视角考虑实体的起始和终止位置，从而解决了传统实体识别方法中实体重叠的问题。全局指针结构设计了两个模块来识别实体的头尾位置，分别为起始指针和终止指针。这两个模块能够通过全局信息的交互来增强对实体位置的判定，并在训练和推理过程中保证了一致性和稳定性。此外，全局指针结构还可以与其他模型结构进行融合，以实现更加精准的实体识别，然后填充到意图识别中需要的槽位信息，从而获得实体。

步骤4：通过训练后的TFGP模型识别问题的意图和槽位填充信息；

步骤3中所述意图识别层使用BERT模型的[CLS]位置特征向量作为意图识别模块的特征，并将其输入到多个全连接层中进行非线性变换，最后使用softmax函数进行意图分类，通过训练后的TFGP模型获得意图识别层的意图分类输出，输出概率最大的意图即为问题的意图。

步骤3中所述槽位填充层使用Global Pointer结构识别问题中需要的槽位信息，即实体信息，通过训练后的TFGP模型获得槽位填充层的中起始指针和终止指针的位置，即指向问题中实体名的起始和终止位置，输出问题相关的实体。

步骤5：通过识别出来的意图与实体，在知识库中检索出实体或实体属性，将实体或实体属性作为返回结果；

{

"query":"辽宁舰的排水量是多少？",

"entity":"辽宁舰",

"property":"排水量",

"answer":"55000吨"

}

在上述示例中，query字段表示用户的查询问题，entity字段表示查询的实体，property字段表示查询的实体属性，answer字段表示查询结果，即辽宁舰的排水量为55000吨。

为了说明本发明的实际效果，采用本发明的方法做了大量实验。首先，我们与船舶领域专家合作构建了一个知识库，该知识库包含三种实体类型，分别为船舶、公司和港口，如表2所示：

类名	属性数	属性举例
			船舶	45	例如：名称、类型、吃水、型宽等
公司	15	例如：名称、规模、注册时间等
			港口	24	例如：名称、所在地、吞吐量等

表2

使用这些实体和属性来搭建知识图谱的本体层，并且在数据层的构造中导入12482条真实船舶知识三元组，作为问答系统所需要基于的知识库。

为了对模型性能进行评估，编写1200个自然语言问题及其对应的答案。这些问题涵盖各种类型的船舶知识，包括船舶属性、船舶关系和船舶历史事件等。由于本发明的船舶知识图谱问答系统的训练仅需要本体层信息，因此1200个问题全部用于测试集。

探究每种数据增强方法的效果，我们进行了一系列消融实验。具体地，我们逐一排除了数据增强方法，以评估每种数据增强方法对船舶知识图谱问答系统性能的影响。表3是该实验的结果：

方法	召回率	精确率	F1得分
				原始数据	0.815	0.865	0.840
随机增加或删除文本	0.821	0.876	0.848
				语言翻译	0.866	0.881	0.876
同义句改写	0.832	0.886	0.859
				多方法融合方案	0.91	0.936	0.923

表3

通过实验可以得出如下结论：本发明所提出的船舶知识图谱问答系统可以有效地回答各种类型的船舶知识问题，并具有较高的准确率和召回率，随机增加或删除文本、语言翻译和同义句改写三种数据增强方法都对船舶知识图谱问答系统的性能有着显著的提升。其中，同义句改写的效果最好，F1得分提高了1.9个百分点，说明同义句改写对于增强模型的泛化能力有着显著的贡献。同时，随机增加或删除文本和语言翻译也都能够有效地提升模型的性能。因此，在实际应用中，可以根据数据的特点和需求，选择合适的数据增强方法进行数据增强，以提升模型的性能。本发明的平均精确率达0.91，召回率达0.936，F1达0.923，适用范围广，可以很好弥补船舶知识图谱问答系统以往构建生成方法的缺陷。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于知识图谱的零样本构建领域智能问答系统的方法，其特征在于，包括如下步骤：

步骤1：构建某一领域知识库的本体层；

步骤2：利用GPT3模型从本体层中生成训练数据；

步骤3：用训练数据训练深度学习模型；

步骤4：通过训练后的深度学习模型识别问题的意图与实体；

2.如权利要求1所述的基于知识图谱的零样本构建领域智能问答系统的方法，其特征在于，所述领域知识库包括：船舶领域知识库。

3.如权利要求1所述的基于知识图谱的零样本构建领域智能问答系统的方法，其特征在于，将本体层中的三元组信息、生成文本生成的引导语，作为GPT3的输入参数；训练数据包括：意图识别与槽位填充，即意图与实体。

4.如权利要求1或3所述的基于知识图谱的零样本构建领域智能问答系统的方法，其特征在于，所述步骤2中还包括对训练数据进行增强，具体包括：

5.如权利要求1所述的基于知识图谱的零样本构建领域智能问答系统的方法，其特征在于，所述深度学习模型包括：文本预处理层、编码层、意图识别层和槽位填充层；

编码层中使用双向Transformer网络模拟上下文信息的表达；

槽位填充层使用全局指针结构。

6.如权利要求1或5所述的基于知识图谱的零样本构建领域智能问答系统的方法，其特征在于，深度学习模型利用全局指针预测与问题相关的实体。

7.如权利要求1所述的基于知识图谱的零样本构建领域智能问答系统的方法，其特征在于，所述步骤5中，将意图与实体拼接后，在知识库中检索出实体或实体属性。