CN112749567A

CN112749567A - 一种基于现实信息环境知识图谱的问答系统

Info

Publication number: CN112749567A
Application number: CN202110225051.4A
Authority: CN
Inventors: 黄金杰; 于纪洋
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-05-04

Abstract

本发明公开了一种基于现实信息环境知识图谱的问答系统，涉及问答系统技术领域；它的问答系统方法为：一、搭建基于现实信息环境知识图谱，建立实体以及实体与实体之间的关系；二、研究基于现实信息环境知识图谱问答系统中的语音信号处理；三、基于实体识别的结果，通过对文本特征的提取，利用词义相似度辨识来识别同义词的方法，研究一种新的语义理解方法；四、研究在主题目标实体的相邻范围内，实现知识图谱中关系路径与用户问题的匹配；本发明能够搭建基于现实信息环境知识图谱，实现系统对自然语言问句的语义理解以及系统对关系链接的预测；能够实现信号的处理以及文本的转换，使用方便，能够节省时间。

Description

一种基于现实信息环境知识图谱的问答系统

技术领域

本发明属于问答系统技术领域，具体涉及一种基于现实信息环境知识图谱的问答系统。

背景技术

拥有一个虚拟助理或一个拥有足够智能的聊天伙伴系统似乎是虚幻的，而且可能只在科幻电影中存在很长一段时间。近年来，人机对话因其潜在的潜力和诱人的商业价值而受到越来越多研究者的关注。随着大数据和深度学习技术的发展，创建一个自动的人机对话系统作为我们的私人助理或聊天伙伴，将不再是一个幻想。

当前，对话系统在各个领域越来越引起人们的重视，深度学习技术的不断进步极大地推动了对话系统的发展。对于对话系统，深度学习技术可以利用大量的数据来学习特征表示和回复生成策略，这其中仅需要少量的手工操作。现如今，我们可以很容易地访问网络上对话的“大数据”，我们也许能够学习如何回复，以及如何回复几乎任何的输入，这将极大地允许我们在人类和计算机之间建立数据驱动的、开放的对话系统。另一方面，深度学习技术已经被证明是有效的，可以在大数据中捕获复杂的模式，并拥有大量的研究领域，如计算机视觉、自然语言处理和推荐系统等；但是现有的问答系统不健全，稳定性差。

发明内容

为解决背景技术中问题；本发明的目的在于提供一种基于现实信息环境知识图谱的问答系统。

本发明的一种基于现实信息环境知识图谱的问答系统，它的问答系统方法为：

一、搭建基于现实信息环境知识图谱，建立实体以及实体与实体之间的关系；

二、研究基于现实信息环境知识图谱问答系统中的语音信号处理；

三、基于实体识别的结果，通过对文本特征的提取，利用词义相似度辨识来识别同义词的方法，研究一种新的语义理解方法；

四、研究在主题目标实体的相邻范围内，实现知识图谱中关系路径与用户问题的匹配；

五、以实验室迎宾系统为验证系统，设计并实现一个基于现实信息环境知识图谱的问答系统，对所提方法进行验证。

与现有技术相比，本发明的有益效果为：

一、能够搭建基于现实信息环境知识图谱，实现系统对自然语言问句的语义理解以及系统对关系链接的预测。

二、能够实现信号的处理以及文本的转换，使用方便，能够节省时间。

附图说明

为了易于说明，本发明由下述的具体实施及附图作以详细描述。

图1为本发明的整体流程图；

图2为本发明中声音波形的示意图；

图3为本发明中分帧操作的示意图；

图4为传统TTS系统的结构示意图；

图5为本发明中实体识别模型的示意图；

图6为本发明中文本特征提取模型的示意图；

图7为本发明中意图识别流程图；

图8为本发明中模型结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本具体实施方式采用以下技术方案：

本具体实施方式具体的实施方法如下：

一、系统整体方案设计：

基于现实信息领域知识图谱问答系统的研究从整体上分四部分，如图1所示。

1.1、搭建基于现实信息环境知识图谱。建立实体的信息和实体间的关系，构成完整的系统知识图谱，并把此知识图谱为数据库，基于数据库中的信息来完成问答过程。

1.2、实现系统对自然语言问句的语义理解。研究基于序列标注的思想并考虑上下文全局特征，实现Bert-BiLstm-CRF网络模型来抽取实体提及；研究基于滑动窗口与带有注意力机制的CNN相结合的文本特征提取方法；研究基于语义相似度计算的语义相似度识别；研究基于BiLSTM-Att-CNN的意图分类方法。

1.3、实现系统对关系链接的预测。研究使用树形LSTM句式关联信息结合注意力机制实现问句信息与关系的匹配。

1.4、把实验室迎宾系统作为验证系统，设计并实现一个基于现实信息环境知识图谱的问答系统，对所提方法进行实际验证。

二、现实信息环境知识图谱的搭建：

知识图谱搭建的目的是构建出知识图谱中事实三元组（主体，关系，客体），从而使知识图谱变得更加完整。本系统中对于知识图谱的补全主要是为了在接下来的实验研究中会用到各种实体以及实体间的关系，这些关系最后会形成知识网络，最后被当作系统的数据库，用户提出的问题会在知识图谱中按照实体间关系的路径进行检索，找到头实体，并根据自然语言问句匹配检索路径，最后找到与问句相匹配的答案作为回答。

三、问答系统的语音信号处理：

3.1、语音对文本间的转换：

声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。如图2所示；

在开始语音识别之前，有时需要把首尾端的静音切除，降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD，需要用到信号处理的一些技术。要对声音进行分析，需要对声音分帧，也就是把声音切开成一小段一小段，每小段称为一帧。分帧操作一般不是简单的切开，而是使用移动窗函数来实现，帧与帧之间一般是有交叠的，如图3所示，图中，每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息，这个过程叫做声学特征提取。

至此，声音就成了一个M行（假设声学特征是M维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。语音识别的过程就是把帧识别成状态，把状态组合成音素，把音素组合成单词，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。

3.2、文本对语音间的转换：

语音合成是一种可以将任意输入文本转换成相应语音的技术，是人机语音交互中不可或缺的模块之一。如果说语音识别技术是为了让机器能够“听懂”人说话，那么语音合成技术则让机器能够跟人“说话”。传统语音合成系统通常包含前端和后端两个模块，如图4所示。

前端模块主要是对输入文本进行分析，提取语言学信息。对中文语音合成系统来说，前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果，通过一定的方法生成语音波形。后端模块一般分为基于统计参数建模的语音合成，以及基于单元挑选和波形拼接的语音合成两条技术主线。为了解决传统TTS的弊端，端到端语音合成出现了，研究者希望TTS合成系统应该尽量的简化，尽量减少人工干预和对语言学相关背景知识的要求。所谓“端到端”就是直接从字符文本合成语音，整个合成过程对于用户来说就是黑盒，前端的概念被弱化，输入文本直接输出语音。对于语言学的依赖降低了，不依赖任何发音理论模型，最后出来的音质细节十分丰富，基本达到了与原始语音类似的音质水准。

端到端TTS可以方便地在不同语种上复制，批量实现几十种甚至更多语种的合成系统。借助于深度学习模型的强表达能力，端到端TTS系统表现出令人惊艳的合成效果和强大丰富的发音风格与韵律表现力。

四、文本数据的语义理解：

语义理解的目标是赋予机器阅读、消化和理解人类语言的能力，是人工智能数十年致力完成的使命之一，也是自然语言处理研究者长期以来努力攻克的重点和难点之一。一个好的自然语言理解模块能够提升一个问答系统工作的准确率。

相比于通用领域的问答系统的自然语言理解部分，本系统要处理的自然语言文本多为短文本，短文本的自然语言理解一直是一项难题，因短文本的特征稀疏、字数少但包含信息量大，在分类问题中难以提取其有效特征，如何让机器快速准确地理解用户的问题，并迅速匹配到相关动作成为课题需要研究的重点。研究通过实体识别、文本特征提取、词义相似度辨识相结合的方法解决问答系统对自然语言问句理解的问题。

4.1、基于BiLSTM-CRF的实体识别：

实体识别也称为实体的抽取，实现从文本中抽取出实体。高精准度的实体在很大程度上保障了所构建知识图谱的适用性，当问题出现多实体，实体模糊的情况下抽取出单一准确实体至关重要。

处理实体识别的任务考虑到处理问句序列标注引入长短时记忆网络，在特定领域中问答数据由于没有公开的数据集，所有训练由人工标注，模型很难应用在特定领域少量标注数据的序列标注任务中，所以对问题出现多个实体情况下抽取出最优实体略显困难。

实体识别模块中要提取问句特征的同时并考虑过去和未来的特征，探讨使用双向输入序列的BiLSTM-CRF方法来做命名实体识别。模型加入Attention机制，让经过上一层BiLSTM网络处理输出的词向量获得相应的权重，并识别权重分配比重较大的实体提及。同时在BiLSTM不能预测真正正确的实体标签的基础上，加入CRF层，得到实体标签的得分。在预训练模型上，探讨使用bert词向量训练的方法，增强信息表达和预测能力，提高模型命名识别效果。基于Attention机制的Bert-BiLSTM-CRF模型抽取出待链接的实体提及，如图5所示。

4.2、语言模型结合CNN的文本特征提取：

特征抽取与特征提取都属于文本降维技术,其中特征抽取是从高维向量投影到低维空间的过程。特征提取有别于特征抽取,特征提取可实现文本向量空间从高维映射到低维的有效降维,且效果明显,并将代表类别的特征项筛选出来。

短文本的文本分类问题一直是一项难题,因短文本的特征稀疏、字数少但包含信息量大，在分类问题中难以提取其有效特征。随着深度学习的快速发展，神经网络已广泛应用于自然语言处理任务，并取得了良好的效果。由于卷积神经网络可以获得更好地表示文本语义信息的高级特征，因此使用卷积神经网络和卷积递归神经网络建立特征提取模型来提取文本特征。此部分的任务是提取文本特征。此方法借鉴语言模型(LM)的思想，通过提取n个相邻词来提取局部特征，从而捕捉上下文匹配词的语义信息和整个文本的语义。研究基于n-gram的方法，改变窗口字长n多次提取语义信息(n=1，2，3...)。

假设文本中字数为l，滑动窗口的大小设置为n*m，n是窗口中的字数，m是单词向量维数。通过滑动窗口扫描短文本原始特征后，将生成n*m维的(l-n+1)个特征向量，将这些特征向量组合起来形成特征向量图输入到带有注意力机制的卷积神经网络中进行局部特征提取，提高特征抽取的准确率。整体结构如图6所示。

4.3、问答系统中的词义相似度辨识：

词语相似度计算方法在信息检索、词义消歧、机器翻译等自然语言处理领域有着广泛的应用。现有的词语相似度计算方法分为基于统计和基于语义资源两类的方法，前者是从大规模的语料中统计与词语共现的上下文信息以计算其相似度，而后者利用人工构建的词义词典或语义网络计算相似度。

传统的词义相似度计算的算法在语义词典的基础上，基于语义计算词语的相似度，并根据词语在语义向量空间的距离来做基于词相似度计算句子相似度，最后将语义距离与词林相集合，找出文本中相似度最高的一个词语。

4.4、文本的意图分类：

在意图识别的方法中，由于要对文本进行特征提取以获取文本中的语义信息，基于滑动窗口的特征表示方法被广泛采用。

相比于长文本来说，短文本中包含的语义信息较少，且关键词词频较小，如何在语义信息少的情况下快速准确地提取到正确的语义信息称为课题需要研究的问题。探究基于Bert-BiLSTM-CNN的方法，用BiLSTM对上下文信息的提取实现语义的深层理解，用CNN外接Softmax的方法来解决短文本分类问题。如图7、图8所示。

在通过特征提取得到文本的语义信息后，我们要将文本训练集输入到训练好的分类器中训练，输出该数据属于的类别。这需要训练的文本与分类器中类别标签具有相似的特征，分类器根据特征将数据分别归为不同的类。

传统的基于文本特征的意图分类算法是通过对每一个特征赋予一个得分，然后将句子中每一个字的特征得分进行相加，这样就可以得到句子在某一个类别下，特征的总得分，之后选择得分最高的类别就是这个文本对应的意图。

五、关系预测的分析和研究：

对于确定复杂问句中隐含多关系的情况，对实体链接后得到的主题实体2-step范围内的关系路径进行预测，并将关系路径中的实体作为候选实体答案。基于树形LSTM结合注意力机制对关系名称建模，在提取知识图谱中关系类型特征的基础上，将主题实体2-sep范围内关系的特征考虑进来。同时丰富匹配时候选关系的表示，得出问题和候选关系之间的匹配得分。将得分作为参考，匹配得分越高，关系路径作为目标关系的概率就越大。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于现实信息环境知识图谱的问答系统，其特征在于：它的问答系统方法为：