CN115599902A

CN115599902A - 一种基于知识图谱的油气百科问答方法及系统

Info

Publication number: CN115599902A
Application number: CN202211612085.XA
Authority: CN
Inventors: 王欣; 何红莲; 张望; 刁泳清; 谢文波
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-01-13
Anticipated expiration: 2042-12-15
Also published as: CN115599902B

Abstract

本发明公开了一种基于知识图谱的油气百科问答方法及系统，属于知识图谱问答领域。包括：a)离线构建油气领域知识图谱；b)在线获取问题并规范化，通过常见问答对获取答案或者利用词典匹配、实体跨度检测模型和多轮问答实体选择模型获取实体，再结合查询图和关系选择增强模型获取关系，接着从知识图谱中获取会话问题的答案；c)在问答过程中支持用户交互地澄清实体和关系，收集用户问答数据，定期提升上述模型性能。本发明系统地归纳和存储了油气领域百科知识，通过人机交互式会话问答，提升用户体验感，能够实现高效准确地问答。

Description

一种基于知识图谱的油气百科问答方法及系统

技术领域

本发明涉及知识图谱问答领域，具体来说涉及一种基于知识图谱的油气百科问答方法及系统。

背景技术

随着互联网的发展以及数字信息爆炸式增长，如何提高信息检索的高效性和准确性成为一个研究热点。传统的搜索引擎通过对互联网中的数据进行全文索引，采用关键词匹配的方式进行信息检索。这种检索方式不能准确理解用户的需求，同时返回数据可能是超链接、广告或大段文字，用户需要花费大量的时间与精力去甄别选择。

知识图谱是一种由语义网络演变过来的数据表示，其特点是以一种强结构化的方式描述事物、概念和关系，可以将各种知识以图的形式组织起来，从而有效地组织和管理知识。在知识图谱问答系统中，知识图谱作为底层数据来源，以三元组的方式将分散的知识紧密联系，为问答服务提供精确的知识检索，相比搜索引擎返回的结果更加精确，更符合用户的需求。

在石油与天然气工程(以下简称油气)领域，由于其极强的专业性，对于普通的用户群体，很难在海量的网页信息中甄别、选择和获取到正确的油气知识。即使是油气领域的学者，也需要耗费大量时间精力去筛选获取知识。此外，现阶段的知识图谱问答研究多集中在通用领域，针对油气领域问答的研究较少。起初他们依赖手工制作的模板进行问答匹配，其局限在于面对日益增多的知识数据，需要耗费大量的人力物力去构建模板库，灵活性较低。接着，采用基于特征的监督学习方法，从问句中进行语义解析获取实体和关系。对于实体识别，他们多采用自定义词典的方式，该方法存在一定的局限性，如词典不完整或当用户的输入比较少见时难以进行准确的语义理解；对于关系预测，目前油气领域的问答数据极其少有，很难采用深度学习模型来实现，他们多采用人工总结、自定义关系模板的方式来进行分类实现关系预测，其局限性依然是模板语料不够丰富。当出现模板以外的问题时便难以得到准确的关系从而无法准确回答用户的问题。

基于上述情况，亟需一种能够高效精确识别用户意图的基于知识图谱的油气百科问答方法及系统。

发明内容

针对上述背景技术中提出的问题，本发明的目的在于准确高效地获取油气领域的百科知识。

为了实现上述目的，第一方面，本发明提供了一种基于知识图谱的油气百科问答方法，包括：

S1、获取油气领域的百科知识，用于构建油气领域的百科知识图谱，并将其存储于Neo4j数据库中；

S2、获取会话中用户提出的问题，将其处理为规范化的问句，首先从常见问答对中匹配问句，若相似度pairScore大于阈值则直接反馈答案给用户；否则依次利用词典匹配、实体跨度检测模型和多轮问答实体选择模型获取主题实体，然后利用查询图结合关系选择增强模型获取关系；如果主题实体的entityScore或关系的relScore低于阈值时，与用户交互，请用户进行澄清，选定最终的主题实体和关系；最后获取答案并反馈给用户，同时将问答解析过程中生成的问答数据存储于MySQL数据库中；

S3、定期地，从MySQL中提取问答解析过程中生成的问答数据用于生成大规模训练集，训练步骤S2中问题解析所需的实体跨度检测模型、多轮问答实体选择模型和关系选择增强模型；在各自的测试集上使用F1分数评估上述三个新训练模型的性能，若新模型的F1值大于旧模型的F1值，则将旧模型替换为新模型，在步骤S2中继续应用。

优选地，所述步骤S2包括：

S21、获取会话中用户提出的问题，将其预处理为规范化的问句，具体地，若用户使用语音提出问题则将其转化为文本；然后对文本中的拼音、特殊字符和标点符号进行清理；接着将预处理后的问句利用停用词表和同义词表进行规范化处理；

S22、从常见问答对中匹配问句，如果问句命中常见问答对则直接反馈答案给用户，具体地，衡量规范化后的问句与常见问答对之间的相似度pairScore，即将问句与常见问句通过预训练语言模型进行向量化，比较二者的余弦相似度；若相似度pairScore大于阈值，则直接获取常见问答对的答案，进入步骤S25；若相似度pairScore小于阈值，则进入步骤S23；

S23、对问句进行实体识别，获取问句的主题实体，具体地，首先对问句分词，进行词典匹配；若能匹配出实体提及，则进入实体链接算法，否则进入实体跨度检测模型；通过实体跨度检测模型预测出实体提及，再使用实体链接算法将实体提及链接到知识图谱中的节点上，获得主题实体及其ID；若该问句是会话中的非首轮问答，如若在对问句进行词典匹配和实体跨度检测之后仍然未能获取实体提及，就判定问句存在主语缺失的情况；将问句输入到多轮问答实体选择模型中，使其对历史会话中的所有主题实体进行打分，获得候选实体得分entityScore，选择entityScore最高的历史主题实体作为当前问句的主题实体；如果首轮会话问句在词典匹配和实体跨度检测中均未获得实体提及，或非首轮会话问句在词典匹配、实体跨度检测模型和多轮问答实体选择模型中均未获得主题实体，则直接反馈异常给用户，结束该轮问答；

S24、对查询问句进行关系预测，获取问句的关系，具体地，根据步骤S23获取的问句主题实体，在知识图谱中以主题实体为中心节点检索其一跳内的子图作为查询图；对查询图的边进行剪枝，选取前k条边作为候选关系；将候选关系输入关系选择增强模型中，得到各候选关系的概率得分relScore，选取relScore最高的候选关系作为问句的关系；在获取主题实体和关系之后，若主题实体的entityScore或关系的relScore低于阈值时，与用户进行交互，选择得分最高的k个用户主题实体和关系组织成自然语言向用户提出疑问，让用户对主题实体和关系进行确认；

S25、获取答案并反馈给用户，同时将问题解析过程中产生的数据存储于MySQL数据库中，具体地，根据主题实体和关系使用步骤S24中的查询图获取答案，最终将答案进行自然语言处理，反馈给用户；同时将用户提出的问题、规范化后的问句、问句的轮次、实体提及、主题实体、候选关系、关系、答案和是否被澄清的信息存储于MySQL数据库中，以供步骤S3使用。

优选地，所述步骤S3包括：

定期地从MySQL中提取问答解析过程中生成的问答数据用于生成大规模训练集，训练步骤S2中问题解析所需的实体跨度检测模型、多轮问答实体选择模型和关系选择增强模型；在各自的测试集上使用F1分数评估上述三个新训练的模型，若新模型的F1值大于旧模型的F1值，则将旧模型替换为新模型，在步骤S2中继续应用；具体地，选择被澄清之后的问句和实体提及生成训练实体跨度检测模型所需的训练集，训练新的实体跨度检测模型，在实体跨度检测模型的测试集上使用F1分数评估新训练的实体跨度检测模型，若新实体跨度检测模型的F1值大于旧实体跨度检测模型的F1值，则将旧实体跨度检测模型替换为新实体跨度检测模型，在步骤S23中继续应用；选择问句、问句的轮次和主题实体生成训练多轮问答实体选择模型所需的训练集，训练新的多轮问答实体选择模型，在多轮问答实体选择模型的测试集上使用F1分数评估新训练的多轮问答实体选择模型，若新多轮问答实体选择模型的F1值大于旧多轮问答实体选择模型的F1值，则将旧的多轮问答实体选择模型替换为新的多轮问答实体选择模型，在步骤S23中继续应用；选择被澄清之后的问句、实体提及、候选关系和关系生成训练关系选择增强模型所需的训练集，训练新的关系选择增强模型，在关系选择增强模型的测试集上使用F1分数评估新训练的关系选择增强模型，若新关系选择增强模型的F1值大于旧关系选择增强模型的F1值，则将旧的关系选择增强模型替换为新的关系选择增强模型，在步骤S24中继续应用。

第二方面，本发明提供了一种基于知识图谱的油气百科问答系统，其特征在于，基于上述的一种基于知识图谱的油气百科问答方法的实现，包括如下：

1)离线知识图谱构建模块：获取油气领域的百科知识，用于构建油气领域的百科知识图谱，并将其存储于Neo4j数据库中；

2)在线问答模块：获取会话中用户提出的问题，将其处理为规范化的问句，首先从常见问答对中匹配问句，若相似度pairScore大于阈值则直接反馈答案给用户；否则依次利用词典匹配、实体跨度检测模型和多轮问答实体选择模型获取主题实体，然后利用查询图结合关系选择增强模型获取关系；如果主题实体的entityScore或关系的relScore低于阈值时，与用户交互，请用户进行澄清，选定最终的主题实体和关系；最后获取答案并反馈给用户，同时将问答解析过程中生成的问答数据存储于MySQL数据库中；

3)模型优化模块：定期地，从MySQL中提取问答解析过程中生成的问答数据用于生成大规模训练集，训练在线问答模块中问题解析所需的实体跨度检测模型、多轮问答实体选择模型和关系选择增强模型；在各自的测试集上使用F1分数评估上述三个新训练模型的性能，若新模型的F1值大于旧模型的F1值，则将旧模型替换为新模型，继续应用于在线问答模块中。

在上述对本发明的描述可知，本发明提供了一种基于知识图谱的油气百科问答方法与系统，具有以下有益的效果：1、本发明构建了一个油气领域的百科知识图谱，对网页及纸质文献的油气领域知识进行了系统地整理归纳和存储；2、本发明提供了一种基于知识图谱的油气百科问答方法及系统，为油气领域提供了方便快捷的知识检索途径，用户可以避开网页搜索和查阅大量文献资料，通过对系统的提问，快速地获取相关知识，提高工作效率；3、本发明提供了一种基于知识图谱的油气百科问答方法及系统，通过与用户进行多轮的交互，支持对用户进行问询，使得用户对问题进行澄清；通过这种人机交互的方式使得问答的准确率更高，用户体验感更好；4、本发明收集问答流程中产生的数据，生成训练模型所需的训练集，在减少人工标注训练集成本的同时又定期提升了模型的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见，下面描述中的附图说明仅仅是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于知识图谱的油气百科问答方法及系统所述的方法流程图；

图2为本发明的一种基于知识图谱的油气百科问答方法及系统所述的离线知识图谱构建流程图；

图3为本发明的一种基于知识图谱的油气百科问答方法及系统所述的在线问答流程图；

图4为本发明的一种基于知识图谱的油气百科问答方法及系统所述的问答界面示例图；

图5为本发明的一种基于知识图谱的油气百科问答方法及系统所述的模型优化流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细说明，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部实施例。

一方面，本发明实施例中提供了一种基于知识图谱的油气百科问答方法，如图1所示，包括：

S1、获取油气领域的百科知识，用于构建油气领域的百科知识图谱，并将其存储于Neo4j数据库中，如图2所示，包括：

S11、获取油气领域百科知识。针对网页数据，通过Python爬虫技术从网页爬取油气领域的半结构化百科数据。具体地，利用Python爬虫技术在《中国大百科全书》第三版网络版、百度百科和石油百科网页获取石油与天然气工程大类下的所有知识，例如名称、英文名、原因、意义、背景、简介和影响。然后存储为json格式的数据；针对纸质文献，通过OCR识别获取油气领域的非结构化文档数据。具体地，利用OCR识别将《中国石油勘探开发百科全书》和《油气简史》纸质书籍文献转化为非结构化的文本数据；

S12、将获取到的数据进行预处理，再抽取为结构化的三元组数据存储于Neo4j数据库中。具体地，对数据进行简单的清洗，包括去除空格、编码错误和特殊字符。然后对于非结构化文本采用模板匹配抽取出三元组数据；对于json格式的数据直接根据键值对转化为三元组数据；接着将获取到的三元组数据导入Neo4j数据库中进行存储。

S2、获取会话中用户提出的问题，将其处理为规范化的问句，首先从常见问答对中匹配问句，若相似度pairScore大于阈值则直接反馈答案给用户；否则依次利用词典匹配、实体跨度检测模型和多轮问答实体选择模型获取主题实体，然后利用查询图结合关系选择增强模型获取关系；如果主题实体的entityScore或关系的relScore低于阈值时，与用户交互，请用户进行澄清，选定最终的主题实体和关系；最后获取答案并反馈给用户，同时将问答解析过程中生成的问答数据存储于MySQL数据库中，如图3所示，包括：

S21、获取会话中用户提出的问题，将其预处理为规范化的问句，具体地，若用户使用语音提出问题则将其转化为文本；然后对文本中的拼音、特殊字符和标点符号进行清理；然后将预处理后的问句利用停用词表和同义词表进行规范化处理。其中同义词表主要是替换掉“是什么”、“为什么”这类词语。例如用户提出问题为“石油是什么”，经过规范化后的问句为“石油定义”。

S22、从常见问答对中匹配问句，如果问句命中常见问答对则直接反馈答案给用户，具体地，衡量规范化后的问句与常见问答对之间的相似度pairScore，即将问句与常见问句通过预训练语言模型进行向量化，比较二者的余弦相似度；若相似度pairScore大于阈值，则直接获取常见问答对的答案，进入步骤S25；若相似度pairScore小于阈值，则进入步骤S23。在实际操作中，初始化收集了油气领域的常见的简单问题及答案，构建了油气领域的常见问答对。将问句通过预训练语言模型进行向量表征，相似度分数pairScore计算方法为：

式中：A为规范化后的问句的向量表征，B为常见问答对中问句的向量表征，n为预训练语言模型向量表征的维度。

选择出pairScore最高的常见问答对中的问句，若pairScore大于阈值，则认为预处理后的问句与该常见问答对中的问句高度相似，直接检索该常见问答对中的问句所对应的答案作为用户提出问题的答案，反馈给用户，进入步骤S25；若最大的pairScore都小于阈值，则判定为预处理后的问句与常见问答对中的问句均不相似，进入步骤S23。

S23、对问句进行实体识别，获取问句的主题实体，具体地，首先对问句分词，进行词典匹配；若能匹配出实体提及，则进入实体链接算法，否则进入实体跨度检测模型；通过实体跨度检测模型预测出实体提及，再使用实体链接算法将实体提及链接到知识图谱中的节点上，获得主题实体及其ID；若该问句是会话中的非首轮问答，如若在对问句进行词典匹配和实体跨度检测之后仍然未能获取实体提及，就判定问句存在主语缺失的情况；将问句输入到多轮问答实体选择模型中，使其对历史会话中的所有主题实体进行打分，获得候选实体得分entityScore，选择entityScore最高的历史主题实体作为当前问句的主题实体；如果首轮会话问句在词典匹配和实体跨度检测中均未获得实体提及，或非首轮会话问句在词典匹配、实体跨度检测模型和多轮问答实体选择模型中均未获得主题实体，则直接反馈异常给用户，结束该轮问答。具体步骤为：

首先从油气领域的百科知识图谱中导出所有的实体名称和别名构建油气领域的词典。将该词典导入到jieba分词的自定义词典中，其中所有自定义词典中的词语的词性均设置为“Entity”。将问句用jieba分词进行切分和词性标注。选择词性为“Entity”的词语作为问句的主题实体。例如：问句为“玉门油矿的建成时间是什么时候”，jieba词性标注结果为“玉门油矿/Entity 的/uj 建成/v 时间/n 是/v 什么/r 时候/n”，那么该问句中提及到的实体（也称为实体提及）则选为“玉门油矿”。

若词性标注之后未切分出含自定义词性“Entity”的词语，则词典匹配失败。接着将问句输入到实体跨度检测模型中检测问句中提及到的实体。在实际操作中使用BIO标注法对问句标注足够的训练样本数据，训练了一个初始的BERT+BiLSTM+CRF的实体跨度检测模型。针对实体跨度检测模型，其第一层使用预训练的BERT模型（一个预训练的语言表征模型）来初始化文本信息的词向量，得到的词向量可以通过词之间的关系来提取文本的主要特征；第二层是双向长短期记忆神经网络BiLSTM（由前向LSTM和后向LSTM构成，能够关注到文本的前后信息，避免重要信息丢失），将第一层得到的词向量作为双向长短期记忆神经网络BiLSTM每个时间步的输入，通过BiLSTM模型学习上下文特征信息，进行实体识别，预测出每个字属于不同标签的概率；第三层，由于BiLSTM预测出的标签概率没有考虑标签之间的实际关系，因此，BiLSTM输出序列必须经过CRF处理，并结合标签之间的关系即状态转移矩阵（如I标签不可能出现在B标签之前），计算最优的实体提及。实体跨度检测模型的损失函数entityLoss为：

式中：p代表训练样本中问句的BIO标注的真实分布，而q代表实体跨度检测模型预测出的问句的BIO的分布，n为问句表征的维度。

例如：问句为“玉门油矿的建成时间是什么时候”，实体跨度检测模型的预测结果为“玉/B 门/I 油/I 矿/I 的/O 建/O 成/O 时/O 间/O 是/O 什/O 么/O 时/O 候/O”。其中B表示实体提及的开始，提取出以B开始之后的所有I标注的词，得到实体提及“玉门油矿”。

根据词典匹配和实体跨度检测模型获得实体提及后，采用实体链接算法将实体提及链接到油气领域百科知识图谱中的实体节点上。具体地，首先根据油气领域的百科知识图谱构建倒排索引，它由一组键值对<key，value>组成，其中key指的是知识图谱中实体的名称或别名，而value是其实体的唯一标识符ID。对于同名的实体而言，倒排索引中相同key的value的排序是按照知识图谱中节点的出度与入度之和降序排列。我们启发式地认为出度和入度更大的实体更可能会被提问到。实体链接算法的具体细节如下，使用字符级别的n元语法模型生成实体提及的子字符串集，其中n从1增长到实体提及的长度，在生成的子字符串集中按照子字符串的长度降序排列，设置相似度阈值，对比字符串集中的子字符串与倒排索引的key之间的相似性分数linkScore，当相似性分数linkScore大于相似度阈值时，该字符串则作为候选实体。如此，迭代地生成候选实体集，最终选择linkScore最高的候选实体作为问句的主题实体，当出现linkScore相同时，优先选择字符串长度更长的实体作为主题实体。其中linkScore的计算方式如下：

式中：a为n元语法模型生成的实体提及的子字符串集中的子字符串，b为倒排索引的key，Lev_a,b(i,j)表示字符串a的前i个字符到字符串b的前j个字符之间的的莱文斯坦距离。

若问句是用户此轮会话中的非首轮的问答，则问句可能存在主题实体省略或者指代的情况。当经过词典匹配和实体跨度检测模型之后仍然未能从问句中获取实体提及时，则判定问句存在主语缺失的情况，需要从以往轮次的会话中获取该问题的实体提及。即将历史实体输入到训练好的多轮问答实体选择模型中从而得到概率最大的历史实体作为本轮问答的主题实体。具体地，以往的方法多是对历史会话中的问答数据全部进行建模，而在此启发式地认为缺失的主语可能是历史问答轮次中问句的主题实体和答案实体，因此仅仅选择历史问答轮次中问句的主题实体和答案实体进行显式建模，以此来构建实体状态转换图。然后在每轮问答中更新实体状态转换图。其中图的节点是会话历史中的实体，边是实体之间的转换过程。随后，将实体状态转换图用于训练多轮问答实体选择模型。其中多轮问答实体选择模型的核心思想是动态图卷积网络（Dynamic GCN）。由于需要监督多轮问答实体选择模型的训练，但是却没有关于主题实体分布的任何基本事实，所以生成以下伪事实：

如果存在可以生成至少一个查询图并获得正确答案的实体，便将其视为问题的正确主题实体，并将该实体在分布中分配为1，否则保持0；损失函数Loss的优化目标是最小化主题实体分布的伪事实与模型预测的主题实体分布之间的KL散度，计算公式如下：

式中：p(x)为主题实体分布的伪事实，q(x)为多轮问答实体选择模型预测出的主题实体分布。

动态图卷积网络能够动态演化实体之间随着时间动态转化的过程，它更加关注时间的影响。因此动态图卷积网络能在会话的每一轮为实体状态转移图中的每个实体导出概率分布graphScore，最终选择graphScore最大的实体作为该主语缺失问句的主题实体，特别需要注意的是，在此的主题实体已是历史轮次中进行实体链接之后的主题实体，所以多轮问答实体选择模型中选择的主题实体，无需再进行实体链接。

S24、对查询问句进行关系预测，获取问句的关系，具体地，根据步骤S23获取的问句主题实体，在知识图谱中以主题实体为中心节点检索其一跳内的子图作为查询图；对查询图的边进行剪枝，选取前k条边作为候选关系；将候选关系输入关系选择增强模型中，得到各候选关系的概率得分relScore，选取relScore最高的候选关系作为问句的关系。具体地，根据实体链接之后获取的主题实体ID，构建cypher查询语句，查询实体一跳内的查询图。cypher构建语句为：

通过该cypher直接查询出候选关系和候选答案。当关系确定时，答案也随之确定。这样做的好处是无需在关系确定后再构建cypher查询语言从庞大的知识库中检索答案。

获取查询图中的候选关系后，将去除实体提及的问句作为新的问句，通过步骤S23中实体链接算法所提到的相似度分数计算方法计算出新问句与查询图边之间的相似度分数relScore，选择相似的前k条查询图的边作为候选关系。给定候选关系，利用关系选择增强模型去选择最优的关系。该模型的核心思想是利用对比学习去缩小正确关系与问句之间的距离，扩大问句与错误关系之间的距离，以此来选择出最优的关系。关系选择增强模型由一个BERT作为基础层，一个平均池化层、一个对比学习损失层和一个softmax层组成。BERT层将句子编码为词向量，平均池化层对词向量进行归一化，对比学习损失层通过对比学习去增强正确关系与问句之间的联系，最后由softmax层输出候选关系的概率。其中损失函数ContrastiveLoss为：

式中：Sim(Q,r)代表Q与r的点积，Q代表去除实体提及的新问句，r代表候选关系，r⁺代表正确的关系。k是所有候选关系的数量，包括正确关系。其中，对于τ是对比学习的温度参数，在实际操作中τ设置为0.05。

在获取主题实体和关系之后，若主题实体的entityScore或关系的relScore低于阈值时，与用户进行交互，选择entityScore和relScore最高的前k个主题实体和关系组织成自然语言向用户提出疑问，让用户对主题实体和关系进行确认。在实际操作中，我们选择k等于3，即返回最相似的前三个主题实体和关系让用户进行选择澄清。

S25、获取答案并反馈给用户，同时将问题解析过程中产生的数据存储于MySQL数据库中，具体地，根据主题实体和关系使用步骤S24中的查询图获取答案，最终将答案进行自然语言处理，反馈给用户；将用户提出的问题、规范化后的问句、问句的轮次、实体提及、主题实体、候选关系、关系、答案和是否被澄清的信息存储于MySQL数据库中，以供步骤S3使用。

如图4所示，当用户提问“API水泥是什么东西”，在步骤S24中的候选关系的relScore均低于阈值，则返回“‘API水泥的分类及应用’，‘API水泥的发展简史’，‘API水泥的定义’”三个选项，让用户进行选择澄清。若用户选择关系为“API水泥的定义”，则查询出答案“2646.97平方公里”。最终反馈给用户自然语言组织后的答案：“API水泥的定义如下：按美国石油协会标准（API 10A）生产的，用于油气井固井及其他井下作业的水泥。”。需要特别注意的是，在实际操作中S2中所有的阈值均设置为0.75。

针对问答过程中产生的数据，利用MySQL数据库对其进行存储。具体包括存储用户提出的问题、规范化后的问句、问句的轮次、实体提及、主题实体、候选关系、关系、答案和是否被澄清。

S3、如图5所示，定期地，从MySQL中提取问答解析过程中生成的问答数据用于生成大规模训练集，训练步骤S2中问题解析所需的实体跨度检测模型、多轮问答实体选择模型和关系选择增强模型。在各自的测试集上使用F1分数评估上述三个新训练模型的性能，若新模型的F1值大于旧模型的F1值，则将旧模型替换为新模型，在步骤S2中继续应用。

S31、标注实体跨度检测模型训练集，训练实体跨度检测模型。具体地，从MySQL查询出规范化后的问句、主题实体用于标注训练集。具体为将问句中包含主题实体的子串使用BIO标注法标注出主题实体的跨度。训练实体跨度检测模型。例如问句为“大庆油区的含油面积是多少”，主题实体为“大庆油区”，则该条训练样本标注为“大/B 庆/I 油/I 区/I的/O 含/O 油/O 面/O 积/O 是/O 多/O 少/O”。将大量的已标注训练样本用于训练新的实体跨度检测模型。在实体跨度检测模型的测试集上使用F1分数评估新训练的实体跨度检测模型，若新实体跨度检测模型的F1值大于旧实体跨度检测模型的F1值，则将旧实体跨度检测模型替换为新实体跨度检测模型，在步骤S23中继续应用；

S32、标注多轮问答实体选择模型所需训练集，训练多轮问答实体选择模型。具体地，从MySQL查询出规范化后的问句、主题实体、答案、会话轮次用于标注训练集。即为每一轮次会话构建多轮问答中主题实体的状态转换图，用于训练多轮问答实体选择模型。在多轮问答实体选择模型的测试集上使用F1分数评估新训练的多轮问答实体选择模型，若新多轮问答实体选择模型的F1值大于旧多轮问答实体选择模型的F1值，则将旧多轮问答实体选择模型替换为新多轮问答实体选择模型，在步骤S23中继续应用；

S33、标注关系选择增强模型所需的训练集，训练关系选择增强模型。具体地，从MySQL查询出规范化后的问句、候选关系、关系用于标注训练集。即标注出关系选择增强模型所需的正样本关系和负样本关系，然后训练关系选择增强模型。在关系选择增强模型的测试集上使用F1分数评估新训练的关系选择增强模型，若新关系选择增强模型的F1值大于旧关系选择增强模型的F1值，则将旧关系选择增强模型替换为新关系选择增强模型，在步骤S24中继续应用。

另一方面，本发明实施例中提供了一种基于知识图谱的油气百科问答系统，具体包括：

2)在线问答模块：获取会话中用户提出的问题，将其预处理为规范化的问句，首先从常见问答对中匹配问句，若相似度pairScore大于阈值则直接反馈答案给用户；否则依次利用词典匹配、实体跨度检测模型和多轮问答实体选择模型获取主题实体，然后利用查询图结合关系选择增强模型获取关系；其中如果主题实体的entityScore或关系的relScore低于阈值时，与用户交互，请用户进行澄清，选定最终的主题实体和关系；最后获取答案并反馈给用户，同时将问答解析过程中生成的问答数据存储于MySQL数据库中；

a)规范化单元：获取会话中用户提出的问题，将其预处理为规范化的问句，具体地，若用户使用语音提出问题则将其转化为文本；然后对文本中的拼音、特殊字符和标点符号进行清理；接着将预处理后的问句利用停用词表和同义词表进行规范化处理。

b)常见问答对匹配单元：从从常见问答对中匹配问句，如果问句命中常见问答对则直接反馈答案给用户，具体地，衡量规范化后的问句与常见问答对之间的相似度pairScore，即将问句与常见问句通过预训练语言模型进行向量化，比较二者的余弦相似度；若相似度pairScore大于阈值，则直接获取常见问答对的答案，进入步骤S25；若相似度pairScore小于阈值，则进入步骤S23。

c)实体识别单元：对问句进行实体识别，获取问句的主题实体，具体地，首先对问句分词，进行词典匹配；若能匹配出实体提及，则进入实体链接算法，否则进入实体跨度检测模型；通过实体跨度检测模型预测出实体提及，再使用实体链接算法将实体提及链接到知识图谱中的节点上，获得主题实体及其ID；若该问句是会话中的非首轮问答，如若在对问句进行词典匹配和实体跨度检测之后仍然未能获取实体提及，就判定问句存在主语缺失的情况；将问句输入到多轮问答实体选择模型中，使其对历史会话中的所有主题实体进行打分，获得候选实体得分entityScore，选择entityScore最高的历史主题实体作为当前问句的主题实体；如果首轮会话问句在词典匹配和实体跨度检测中均未获得实体提及，或非首轮会话问句在词典匹配、实体跨度检测模型和多轮问答实体选择模型中均未获得主题实体，则直接反馈异常给用户，结束该轮问答。

d)关系预测单元：对查询问句进行关系预测，获取问句的关系，具体地，根据步骤S23获取的问句主题实体，在知识图谱中以主题实体为中心节点检索其一跳内的子图作为查询图；对查询图的边进行剪枝，选取前k条边作为候选关系；将候选关系输入关系选择增强模型中，得到各候选关系的概率得分relScore，选取relScore最高的候选关系作为问句的关系；在获取主题实体和关系之后，若主题实体的entityScore或关系的relScore低于阈值时，与用户进行交互，选择得分最高的k个用户主题实体和关系组织成自然语言向用户提出疑问，让用户对主题实体和关系进行确认。

e)答案生成及信息存储单元：获取答案并反馈给用户，同时将问题解析过程中产生的数据存储于MySQL数据库中，具体地，根据主题实体和关系使用步骤S24中的查询图获取答案，最终将答案进行自然语言处理，反馈给用户；同时将用户提出的问题、规范化后的问句、问句的轮次、实体提及、主题实体、候选关系、关系、答案和是否被澄清的信息存储于MySQL数据库中，以供步骤S3使用。

3)模型优化模块：定期地从MySQL中提取问答解析过程中生成的问答数据用于生成大规模训练集，训练步骤S2中问题解析所需的实体跨度检测模型、多轮问答实体选择模型和关系选择增强模型。在各自的测试集上使用F1分数评估上述三个新训练的模型，若新模型的F1值大于旧模型的F1值，则将旧模型替换为新模型，继续应用于在线问答模块。

综上所述，与现有技术相比，本发明公开的一种基于知识图谱的油气百科问答方法与系统，具有以下有益效果：1、本发明构建了一个油气领域的百科知识图谱，对网页及纸质文献的油气领域知识进行了系统地整理归纳和存储；2、本发明提供了一种基于知识图谱的油气百科问答方法及系统，为油气领域提供了方便快捷的知识检索途径，用户可以避免网页搜索和查阅大量文献资料，通过对系统的提问，快速地获取相关知识，提高工作效率；3、本发明提供了一种基于知识图谱的油气百科问答方法及系统，通过与用户进行多轮的交互，支持对用户进行问询，使得用户对问题进行澄清；通过这种人机交互的方式使得问答的准确率更高，用户体验感更好；4、本发明收集问答流程中产生的数据，生成训练模型所需的训练集，在减少人工标注训练集成本的同时又定期提升了模型的性能。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见技术部分说明即可。

文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制，本发明的范围由所附权利要求限定。

Claims

1.一种基于知识图谱的油气百科问答方法，其特征在于，包括：

2.根据权利要求1所述的一种基于知识图谱的油气百科问答方法，其特征在于，所述S2的具体步骤包括：

3.根据权利要求2所述的一种基于知识图谱的油气百科问答方法，其特征在于，所述步骤S23中的多轮问答实体选择模型具体细节为：对历史问答中问句的主题实体和答案实体进行显式建模，以此来构建实体状态转换图；然后在每轮问答中更新实体状态转换图；其中图的节点是会话历史中的实体，边是实体之间的转换过程；随后，将实体状态转换图用于训练多轮问答实体选择模型；其中多轮问答实体选择模型的核心思想是动态图卷积网络；由于需要监督多轮问答实体选择模型的训练，但是却没有关于主题实体分布的任何基本事实，所以生成以下伪事实：如果存在可以生成至少一个查询图并获得正确答案的实体，便将其视为问题的正确主题实体，并将该实体在分布中分配为1，否则保持0；最后损失函数优化的目标是最小化主题实体分布的伪事实与模型预测的主题实体分布之间的KL散度。

4.根据权利要求2所述的一种基于知识图谱的油气百科问答方法，其特征在于，所述步骤S24中的关系选择增强模型具体细节为：关系选择增强模型由一个BERT作为基础层，一个平均池化层、一个对比学习损失层和一个softmax层组成；BERT层将句子编码为词向量，平均池化层对词向量进行归一化，对比学习损失层通过对比学习去拉近正确关系与问句之间的距离，拉远错误关系与问句之间的距离，最后由softmax层输出候选关系的概率分布。

5.根据权利要求1所述的一种基于知识图谱的油气百科问答方法，其特征在于，所述S3的具体步骤包括：定期地从MySQL中提取问答解析过程中生成的问答数据用于生成大规模训练集，训练步骤S2中问题解析所需的实体跨度检测模型、多轮问答实体选择模型和关系选择增强模型；在各自的测试集上使用F1分数评估上述三个新训练的模型，若新模型的F1值大于旧模型的F1值，则将旧模型替换为新模型，在步骤S2中继续应用；具体地，选择被澄清之后的问句和实体提及生成训练实体跨度检测模型所需的训练集，训练新的实体跨度检测模型，在实体跨度检测模型的测试集上使用F1分数评估新训练的实体跨度检测模型，若新实体跨度检测模型的F1值大于旧实体跨度检测模型的F1值，则将旧实体跨度检测模型替换为新实体跨度检测模型，在步骤S23中继续应用；选择问句、问句的轮次和主题实体生成训练多轮问答实体选择模型所需的训练集，训练新的多轮问答实体选择模型，在多轮问答实体选择模型的测试集上使用F1分数评估新训练的多轮问答实体选择模型，若新多轮问答实体选择模型的F1值大于旧多轮问答实体选择模型的F1值，则将旧的多轮问答实体选择模型替换为新的多轮问答实体选择模型，在步骤S23中继续应用；选择被澄清之后的问句、实体提及、候选关系和关系生成训练关系选择增强模型所需的训练集，训练新的关系选择增强模型，在关系选择增强模型的测试集上使用F1分数评估新训练的关系选择增强模型，若新关系选择增强模型的F1值大于旧关系选择增强模型的F1值，则将旧的关系选择增强模型替换为新的关系选择增强模型，在步骤S24中继续应用。

6.基于知识图谱的油气百科问答系统，其特征在于，包括：

离线知识图谱构建模块：获取油气领域的百科知识，用于构建油气领域的百科知识图谱，并将其存储于Neo4j数据库中；

在线问答模块：获取会话中用户提出的问题，将其处理为规范化的问句，首先从常见问答对中匹配问句，若相似度pairScore大于阈值则直接反馈答案给用户；否则依次利用词典匹配、实体跨度检测模型和多轮问答实体选择模型获取主题实体，然后利用查询图结合关系选择增强模型获取关系；如果主题实体的entityScore或关系的relScore低于阈值时，与用户交互，请用户进行澄清，选定最终的主题实体和关系；最后获取答案并反馈给用户，同时将问答解析过程中生成的问答数据存储于MySQL数据库中；

模型优化模块：定期地，从MySQL中提取问答解析过程中生成的问答数据用于生成大规模训练集，训练在线问答模块中问题解析所需的实体跨度检测模型、多轮问答实体选择模型和关系选择增强模型；在各自的测试集上使用F1分数评估上述三个新训练模型的性能，若新模型的F1值大于旧模型的F1值，则将旧模型替换为新模型，继续应用于在线问答模块中。