CN114117069A

CN114117069A - 一种用于知识图谱智能问答的语义理解方法及系统

Info

Publication number: CN114117069A
Application number: CN202111399271.5A
Authority: CN
Inventors: 兰飞; 覃勋辉
Original assignee: Chongqing College of Electronic Engineering
Current assignee: Chongqing College of Electronic Engineering
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-03-01
Anticipated expiration: 2041-11-19

Abstract

本发明涉及语义理解技术领域，公开了一种用于知识图谱智能问答的语义理解方法及系统，包括以下步骤：步骤1：采集用户问题；步骤2：判定用户问题，得出标准化文本和非标准化文本；对非标准化文本执行改写操作，转换为新标准化文本；步骤3：提取标准化文本和新标准化文本中的意图和词槽；提取时依据文法规则和基于BERT的意图分类和词槽提取联合模型进行提取；步骤4：依据意图和词槽生成标准用户问句；步骤5：生成知识图谱问句；步骤6：计算标准用户问句与知识图谱问句的语义相似度值并得出综合匹配率；依据综合匹配率按照答案返回规则，返回答案信息。本发明能够达到提升语义理解效率、提升语义处理完善度的效果。

Description

一种用于知识图谱智能问答的语义理解方法及系统

技术领域

本发明涉及语义理解技术领域，具体涉及一种用于知识图谱智能问答的语义理解方法及系统。

背景技术

自然语言理解技术是人机对话产品中的重要一环，是指机器能够执行人类所期望的某些语言功能，换句话说就是人与机器交流的桥梁。而在自然语言理解技术中，语义识别是核心问题，只有完成该项工作，计算机系统才能有效的识别自然语言输入中的信息，让计算机真正理解文本，进而得出用户真正想要表述的信息。同时，近年来知识图谱概念迅速发展普及，通过知识图谱的输入，获取正确匹配的语义理解信息，对知识图谱进行进一步深入了解，是未来互联网阅读发展的一种新型模式。而基于知识图谱的搜索则是基于语义理解分析的，因而搜索更加精确。

但是，目前基于知识图谱进行语义理解的技术方案，由于知识图谱的本身特性，尤其是对于农业领域的知识图谱而言，其中涵盖的实体名词多且复杂，其对应的用户在提问时存在使用方言、俗语等情况，基于这类知识图谱的语义理解较为复杂，语义理解的准确率偏低，没有一种简便的系统能准确理解用户问题，常出现无法找出对应知识图谱解答内容或是找错内容的情况，难以满足广大用户对图谱语义理解的需要。此外，现有的一种语义理解系统，采用常规的意图—语义槽提取模型，例如基本的RNN模型、CNN模型等，但是这类模型在文本分词后表现不佳，各自存在一定的缺陷，整体提取效率不高，以致于语义理解效率较低，影响用户体验。

发明内容

本发明意在提供一种用于知识图谱智能问答的语义理解方法及系统，以达到提升语义理解效率、提升语义处理完善度的效果。

为达到以上目的，提供如下方案：

方案一：

本发明提供的基础方案为：一种用于知识图谱智能问答的语义理解方法，包括以下步骤：

步骤1：采集用户问题；

步骤2：判定用户问题，得出标准化文本和非标准化文本；对非标准化文本执行改写操作，转换为新标准化文本；

步骤3：提取标准化文本和新标准化文本中的意图和词槽；提取时依据文法规则和基于BERT的意图分类和词槽提取联合模型进行提取；

步骤4：依据意图和词槽生成标准用户问句；

步骤5：生成知识图谱问句；

步骤6：计算标准用户问句与知识图谱问句的语义相似度值并得出综合匹配率；依据综合匹配率按照答案返回规则，返回答案信息。

本方案的效果及优点在于：第一，提取时依据文法规则进行提取，提取速率较高，提取计算量小，并且文法规则自身能够针对一些突发情况进行快速迭代修改，以保证提取有效；第二，提取时还依据基于BERT的意图分类和词槽提取联合模型进行提取，针对实体名词较多、实体名词较复杂的应用场景，单凭文法规则进行提取则反而需要耗费较多的提取时间，故采用基于BERT的意图分类和词槽提取联合模型，能够通过一次编码完成提取，提取效率较高，整体语义理解效率较高。同时，本方案中的模型，相比于基本的BERT模型则做了改进，仅采用BERT模型的基础结构，克服了BERT模型本身处理数据时，收敛较慢，计算繁杂，整体计算时间耗费较多的问题，本方案的模型工作过程简洁，工作效率更高。

进一步，在步骤3中，所述基于BERT的意图分类和词槽提取联合模型包含以下任务：意图分类任务、基于滑动窗口的意图词槽分类任务、基于意图和意图词槽的二分类任务和联合训练多任务。

这样设置，基于多项任务进行意图分类和词槽提取操作，能够有效提升模型的泛化能力，模型的运作可靠，提取效果较好，提取效率高。

进一步，所述基于BERT的意图分类和词槽提取联合模型还计算联合概率值，所述联合概率值用于显示提取意图和词槽时的各类结果概率值。

这样设置，在提取意图和词槽时，联合模型还计算各种可能的提取结果的联合概率值，通过该联合概率值能够确定可能性较高的几组提取结果，相比于常规设置中，武断地返回可能性最高的提取结果或者无提取结果返回，本方案对于提取结果的处理更为细致完善，得到的提取结果量相对更多，进而，在匹配知识图谱时得到的匹配信息也更多，知识图谱搜索的召回率较高，对于用户问题的答复程度更高。

进一步，所述相似度计算步骤采用集成模型进行计算。

这样设置，能够通过模型准确得出整体标准用户问句与知识图谱问句的语义相似度值，判定可靠。

进一步，在步骤6中，所述综合匹配率的计算公式为：综合匹配率＝联合概率值×语义相似度值。

这样设置，将联合概率值和语义相似度值统筹考虑，保证对于用户问题的语义理解准确度的同时，保证了对应语义的回复的答案的准确度。

进一步，在步骤6中，所述答案返回规则为综合匹配率大于等于0.5的情况下，返回知识图谱内答案；综合匹配率小于0.5的情况下，不采用知识图谱内答案，返回网络答案。

这样设置，能够尽可能完善地理解及处理用户问题，并保证用户问题有适合的回应。

方案二：

本发明还提供一种用于知识图谱智能问答的语义理解系统，包括采集模块、转化模块、抽取模块、问句生成模块和答案返回模块；

所述采集模块用于采集用户问题；

所述转化模块用于判定用户问题，若判定为非标准化文本，则执行改写操作，转换为标准化文本；

所述抽取模块用于提取标准化文本中的意图和词槽；提取时依据文法规则和基于BERT的意图分类和词槽提取联合模型进行提取；

所述问句生成模块用于依据意图和词槽生成标准用户问句；以及，生成知识图谱问句；

所述答案返回模块用于计算标准用户问句与知识图谱问句的语义相似度值并得出综合匹配率；并依据综合匹配率按照答案返回规则，返回答案信息。

本方案的效果及优点在于：转化模块能够改写转换用户问句，使之成为更便于识别的标准化文本数据，抽取模块则依据文法规则和基于BERT的意图分类和词槽提取联合模型，对标准化文本数据进行提取，其中，文法规则和联合模型配合执行提取操作，提取操作的细致度和完善度较高，并且提取效率较高，整体的语义识别效率较高。

附图说明

图1为本发明实施例的一种用于知识图谱智能问答的语义理解方法的流程图。

图2为本发明实施例的一种用于知识图谱智能问答的语义理解方法中的意图分类任务图。

图3为本发明实施例的一种用于知识图谱智能问答的语义理解方法中的基于滑动窗口的意图词槽分类任务图。

图4为本发明实施例的一种用于知识图谱智能问答的语义理解方法中的基于意图和意图词槽的二分类任务图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例基本如附图1所示：一种用于知识图谱智能问答的语义理解方法，包括以下步骤：

步骤1：采集用户问题。

具体地，采集对象可为用户输入的文本信息或者语音信息，当用户输入的信息是语音时，需要执行转换操作，将语音信息转换为文本信息。

步骤2：判定用户问题，得出标准化文本和非标准化文本；对非标准化文本执行改写操作，转换为新标准化文本。

具体地，判定用户问题时，首先对所有用户问题文本进行文本分词处理，然后根据分词置信度判定；分词置信度大于阈值的用户问题，判定为标准化文本，分词置信度小于阈值的用户问题，判定为非标准化文本。这样设置，能够合理划分用户问题类型，选出真正需要改写、转换的用户问题，而不是将所有的用户问题均纳入到改写、转化步骤中，能够节约计算资源，对于用户问题的处理效率更高。本实施例中采用的文本分词系统为LTP(语言技术平台)系统，LTP系统能够提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等自然语言处理技术。

对非标准化文本执行的改写操作包括以下步骤：

子步骤1：将非标准化文本转写为拼音。

子步骤2：对比方言知识库，双向匹配方言拼音与转写得到的拼音；然后确认非标准化文本实际对应的方言文本，进而通过方言文本确定非标准化文本实际对应的普通话文本。

子步骤3：将非标准化文本用其所对应的普通话文本进行替换，形成新标准化文本。

子步骤4：对新标准化文本进行文本分词处理，所述文本分词即为将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

子步骤5：判定新标准化文本的分词置信度，若分词置信度小于新阈值，输出新标准化文本，若分词置信度大于新阈值，则重复执行子步骤2-5，直至分词置信度小于新阈值。

这样设置，对用户输入的信息做了充分的预处理，便于后续理解语义，能够提高整体的语义理解准确度。

步骤3：提取标准化文本和新标准化文本中的意图和词槽；提取时依据文法规则和基于BERT的意图分类和词槽提取联合模型进行提取。

具体地，提取时依据文法规则进行提取，本实施例中基于农业领域的知识图谱执行语义理解操作，由于农业领域中涵盖的实体名词较多，常规的文法统计方法并不能够取得很好的结果。故，本方案仅采用少量高频的文法模板进行提取，以提高提取效率。

同时，还依据基于BERT的意图分类和词槽提取联合模型进行提取。所述基于BERT的意图分类和词槽提取联合模型包含以下任务：意图分类任务、基于滑动窗口的意图词槽分类任务、基于意图和意图词槽的二分类任务和联合训练多任务。

具体地：

(1)意图分类任务：如附图2所示，对用户问题进行意图分类，针对BERT模型中输出的[CLS]token级向量，采用“全连接+softmax+cross entropy”的方式构建意图分类器，并输出对应的意图。

本实施例中，结合知识图谱的数据结构，将意图类别设为6种，包括1-5类意图和无意图类。结合表1说明本实施例的具体意图分类类型：

表1

(2)基于滑动窗口的意图词槽分类任务：如附图3所示，词槽的类型有节点、属性、属性值、关系及无意图类。本实施例中，将滑动窗口的宽度设为1～8，采用sliding window(滑动窗口)的方法遍历BERT的输出序列，对滑动窗口内所有的输出向量采用max pooling(最大池化)压缩成固定的向量维度，再用“全连接+softmax+cross entropy”的方式构建词槽分类器，以使网络能够在一次BERT编码的基础上，标注出所有可能的词槽。

(3)基于意图和意图词槽的二分类任务：如附图4所示，在意图分类任务中，假设用户问题Query被分类到意图A，同时有一组意图词槽为词槽B，模型需要判定意图A和词槽B是否互为pair。将词槽向量JV和XV，以及[CLS]全句的向量表达CV，拼接后用“全连接+softmax+cross entropy”的方式构建意图及词槽的分类器YC pair分类器，若意图A和词槽B互为pair，则输出为1，否则为0。另，本实施例中JV、XV、CV等均为本方案定义的变量名称，以便于描述。

(4)联合训练多任务：采用两种训练模式进行交叉训练，包括有teacher模式和无teacher模式。其中无teacher模式指将任务(1)的输出作为任务(2)的输入，任务(2)的输出作为任务(3)的输入；有teacher模式指采用各任务单独构造训练集的正负样本进行训练，使得任务间没有直接联系。

这样设置，相比于常规的非联合模型中用BERT做意图分类，然后再用BERT做词槽提取的方法，流程中会涉及到两次BERT编码。其中，BERT编码需要花费整个流程的绝大部分时间，提取效率较低；而本方案的联合模型，采用同一次BERT编码的结果，再完成后续意图分类和词槽提取任务，花费时间为非联合模型的约50％，数据处理效率较高，同时，相关任务学习更能够让模型减小过拟合风险，泛化能力更好，同时训练数据增加。即本方案的模型能够通过一次编码完成意图分类及词槽提取操作，提取效率较高，整体语义理解效率较高；模型的运作可靠，提取效果较好。

BERT模型作为目前最新的语义方面的预训练模型，在机器阅读理解方面的表现较佳，拥有强大的语言表征能力和特征提取能力，阅读理解的准确度高，BERT模型的高准确度主要是基于其深达12层的模型深度和庞大的训练数据量，相应地，BERT模型在训练过程中，因为每个batch_size中的数据只有15％能参与预测，即一次训练所选取的样本数中的数据只有15％能参与预测，模型收敛较慢，需要强大的算力去支撑，计算量大，整体计算时间耗费较多，计算耗能也较多。

现有技术中均直接采用BERT模型本身进行语义识别辅助操作，其中原因概为：一是为了追求较高的准确率，二是BERT模型本身的可复现性差，对于BERT模型的修改难度较高。目前，由于计算机技术的快速发展，计算机的计算能力能够承担起较高的计算量，故而，大家在执行数据处理操作时，常忽略了计算量大小的问题，而一味追求准确度，而实际上，强大的算力和较多的计算量都会直接导致计算机的耗能较多，数据处理成本较大，处理效率也较低。

同时，超高的准确度也不是所有情况下的语义数据处理都一定要求达到的，绝大多数情况下，99.9％的准确度指向的答案，同99％的准确度指向的答案，甚至是98％、97％的准确度指向的答案其实是一致的，BERT模型所达到的基于99％准确度上的进一步的0.9％的准确度，对于普通用户而言，其实是不必要的。用户在提问时，更需要得到一个相对准确的及时的答案反馈，对于该答案反馈对应的准确度是99％或是99.9％其实并不在意。故而，这进一步的0.9％的准确度对应的计算量是庞大且多余的，现有技术在设计时对于准确率的极度偏执也是相对多余的。

本方案则对基于原本的BERT模型作了进一步设计，设计了多个任务，克服了BERT模型复现性差的技术性修改难度和苛求极值的技术偏见，通过多任务联合，利用BERT的基本结构，采用同一次BERT编码的结果，再完成后续意图分类和词槽提取任务，消解了BERT模型多余的计算量，能够成倍提升数据处理效率，包括提取效率。整体运行逻辑简洁，极大节约了计算量，对于算力的要求相对较小，能够有效减少耗能，降低数据处理成本。同时，相关任务学习还能够让模型减小过拟合风险，泛化能力更好，能够保证足够的数据处理准确度，能够反馈出足够准确的答案。

所述基于BERT的意图分类和词槽提取联合模型还计算联合概率值，所述联合概率值用于显示提取意图和词槽时的各类结果概率值。

具体地，模型在执行任务(1)时得出意图分类概率值，在执行任务(2)时得出意图词槽概率值，在执行任务(3)时得出意图和词槽的匹配概率值，联合概率值则由上述概率值联合计算获得，具体计算公式为：联合概率值＝意图分类概率值×意图词槽概率值×意图和词槽的匹配概率值。此外，在任务(1)至任务(3)中采用Beam search机制，本实施例中，将概率最大的答案数量设定为5个，最终可得出0～5组表现为<意图，意图词槽，联合概率>的结果输出值。Beam search机制即为Beam search算法，为一种常规的用于选择较优的结果的算法。这样设置，能够有计划地提取出概率相对较高的几组结果输出值，而不是单一的提取出概率最高的结果或是不提取，提取操作更为细致，提取结果量较多，对应的，知识图谱搜索的召回率较高。

步骤4：依据意图和词槽生成标准用户问句。

具体地，将步骤3提取得到的结果输出值，按照步骤3中表1的问句重述方法将用户问句重述，进而生成标准用户问句，便于进一步判断用户问句是否和知识图谱中的内容匹配。

步骤5：生成知识图谱问句。

具体地，针对用户问句意图属于问属性值的用户问句，将其属性值用同义词词典进行扩展和属性标准化，若标准化的属性值在知识图谱内，则按照问句重述生成方式中的规则对知识图谱问句进行生成。针对用户问句意图属于问节点的用户问句，将其节点名用同义词词典进行扩展和节点名标准化，若标准化后的节点名在知识图谱内，则将该节点对应的所有的该意图的可能性进行知识图谱问句生成。

计算标准用户问句与知识图谱问句的语义相似度值时包括精确特征计算步骤和相似度计算步骤；所述精确特征计算步骤采用对齐特征算法进行计算；该对齐特征算法包括以下步骤：

S1：对标准用户问句和知识图谱问句进行分词和词性标注；

S2：计算分词之间的同义词关系，得到同义词矩阵；

S3：确认是否所有词性均执行完毕，若是则根据文本相似度判断标准用户语句和知识图谱语句是否相似；若否则执行S4-S7；

S4：从标准用户问句中提取当前词性对应的分词，得到第一分词序列；从知识图谱问句中提取当前词性对应的分词，得到第二分词序列；

S5：根据同义词矩阵判断第一分词序列的各个分词与第二分词序列的各个分词之间的对应关系，根据对应关系得到当前词性下标准用户问句和知识图谱问句的对齐结果；

S6：根据对齐结果统计当前词性的对齐特征；

S7：根据统计的对齐特征，按照预设公式计算文本相似度；预设公式为：

式中：k的取值方法为：当p_i[in]≥0时，k＝1；当p_i[in]＜0时，k＝p_i[in]，其中p_i[in]表示第i个词性的对齐程度。

s代表相似度，n为不为空的词性个数，p_i[t]表示第i个词性的对其总数，p_i[r]表示第i个词性的词性权重。

S8：返回S3。

这样设置，通过精确特征计算，能够确定标准用户问句与知识图谱问句的精确特征相似性，同时，采用对齐特征算法，相比常规采用的非监督算法，准确率有明显的提高，逼近于采用了大数据训练的基于深度神经网络算法；同时，相比于深度神经网络算法，本方案采用的对齐特征算法计算过程简单、不需要大数据训练、跨场景稳定性高，整体计算效率较高。

同时，计算标准用户问句与知识图谱问句的语义相似度值时还综合采用现有的WMD、SIF、PWIM、ELMO、BERT等算法，以进一步保证语义相似度计算的准确性。

所述相似度计算步骤采用集成模型进行计算。本实施例中采用现有的XGBoost分类模型，通过对齐特征算法得到精确特征相似性后，采用XGBoost分类模型判断用户问题和知识图谱问题是否匹配，分类器输入精确特征，输出置信度反映文本语义相似度，本实施例中，该语义相似度值为0～1。

所述综合匹配率的计算公式为：综合匹配率＝联合概率值×语义相似度值。

依据综合匹配率按照答案返回规则，返回答案信息，所述答案返回规则具体为：

规则1：当综合匹配率＞0.8时，标记为shot，视为精确匹配，即用户问题精确匹配上知识图谱内的知识内容，直接返回用户问题所对应的知识图谱内答案。

规则2：当综合匹配率在0.5～0.8时，标记为top3，视为模糊匹配，返回上述综合匹配率值最高的前3组知识图谱内答案。

规则3：当综合匹配率＜0.5时，标记为UNKNOWN，即认为用户所提问题和知识图谱中的知识内容相似性很小，不采用知识图谱回答，将通过网络回答或其他方式回答。

这样设置，能够尽可能完善地理解用户问题，并保证用户问题有所回应。

本实施例还提供一种用于知识图谱智能问答的语义理解系统，包括采集模块、转化模块、抽取模块、问句生成模块和答案返回模块；

所述采集模块用于采集用户问题；

本实施例提供的一种用于知识图谱智能问答的语义理解方法及系统，能够准确理解用户问题并能够按照一定的答案返回规则，保证每个用户问题都能得到相应的答复，且答复不局限于知识图谱内容。同时，采用了基于BERT的意图分类和词槽提取联合模型进行意图分类和词槽提取，提取效率高，提取准确率高；采用了对齐特征算法计算标准用户问句与知识图谱问句的精确特征的相似度的准确度较高，且计算过程简单，整体计算效率较高。整体方法的语义理解准确度较高。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种用于知识图谱智能问答的语义理解方法，其特征在于，包括以下步骤：

步骤1：采集用户问题；

步骤4：依据意图和词槽生成标准用户问句；

步骤5：生成知识图谱问句；

2.根据权利要求1所述的一种用于知识图谱智能问答的语义理解方法，其特征在于，在步骤3中，所述基于BERT的意图分类和词槽提取联合模型包含以下任务：意图分类任务、基于滑动窗口的意图词槽分类任务、基于意图和意图词槽的二分类任务和联合训练多任务。

3.根据权利要求2所述的一种用于知识图谱智能问答的语义理解方法，其特征在于，所述基于BERT的意图分类和词槽提取联合模型还计算联合概率值，所述联合概率值用于显示提取意图和词槽时的各类结果概率值。

4.根据权利要求3所述的一种用于知识图谱智能问答的语义理解方法，其特征在于，所述相似度计算步骤采用集成模型进行计算。

5.根据权利要求3所述的一种用于知识图谱智能问答的语义理解方法，其特征在于，在步骤6中，所述综合匹配率的计算公式为：综合匹配率＝联合概率值×语义相似度值。

6.根据权利要求5所述的一种用于知识图谱智能问答的语义理解方法，其特征在于，在步骤6中，所述答案返回规则为综合匹配率大于等于0.5的情况下，返回知识图谱内答案；综合匹配率小于0.5的情况下，不采用知识图谱内答案，返回网络答案。

7.一种用于知识图谱智能问答的语义理解系统，其特征在于，包括采集模块、转化模块、抽取模块、问句生成模块和答案返回模块；

所述采集模块用于采集用户问题；