CN111046133B

CN111046133B - 基于图谱化知识库的问答方法、设备、存储介质及装置

Info

Publication number: CN111046133B
Application number: CN201911041316.4A
Authority: CN
Inventors: 余文礼; 杨坤; 许开河; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-07-25
Anticipated expiration: 2039-10-29
Also published as: WO2021082982A1; CN111046133A

Abstract

本发明公开了一种基于图谱化知识库的问答方法、设备、存储介质及装置，该方法通过进行语音检测，在检测到用户的提问语音时，对所述提问语音进行语音识别，获得提问文本信息，基于人工智能，通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素，获取预设图谱化知识库中多个存储问题的知识要素，将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配，若匹配成功，则将匹配成功的存储问题对应的答案进行展示，基于要素匹配，提高问题匹配的准确性，从而提高智能问答的准确率和效率。

Description

基于图谱化知识库的问答方法、设备、存储介质及装置

技术领域

本发明涉及人工智能的技术领域，尤其涉及一种基于图谱化知识库的问答方法、设备、存储介质及装置。

背景技术

现有技术中的智能问答系统，主要是采用以下两种方法：

（1）通过序列到序列模型（seq2seq），在对话过程中生成合适的回复，但它的缺点是需要大规模的训练语料，对模型精度要求较高，经常生成一些没有意义的回复，导致智能问答准确率低且效率低，用户问答体验差；

（2）通过从事先定义好的问答库中通过索引搜索，从问答库中已有对话中选择合适的回复，但它的缺点是过于依赖数据库中已有数据的质量和检索算法，需要大量的人工标注，如果选用的数据质量欠佳，则无法搜索到正确地回复对用户问题进行回答，导致智能问答准确率低且效率低。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种基于图谱化知识库的问答方法、设备、存储介质及装置，旨在解决现有技术中智能问答准确率低且效率低的技术问题。

为实现上述目的，本发明提供一种基于图谱化知识库的问答方法，所述基于图谱化知识库的问答方法包括以下步骤：

进行语音检测，在检测到用户的提问语音时，对所述提问语音进行语音识别，获得提问文本信息；

通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素；

获取预设图谱化知识库中多个存储问题的知识要素；

将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配；

若匹配成功，则将匹配成功的存储问题对应的答案进行展示。

优选地，所述将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配之后，所述基于图谱化知识库的问答方法还包括：

若匹配失败，则计算所述提问文本信息的提问要素与各存储问题的知识要素之间的相似度；

获取所述相似度最高的存储问题作为最接近问题；

根据所述最接近问题生成追问信息，并将所述追问信息进行展示。

优选地，所述根据所述最接近问题生成追问信息，并将所述追问信息进行展示之后，所述基于图谱化知识库的问答方法还包括：

进行语音检测，在检测到所述用户基于所述追问信息的回复语音信息时，对所述回复语音信息进行语音识别，获得回复文本信息；

根据所述回复文本信息判断所述最接近问题是否与所述提问文本信息匹配；

若所述最接近问题与所述提问文本信息匹配成功，则获取所述最接近问题对应的答案进行展示。

优选地，所述根据所述最接近问题生成追问信息，包括：

将所述最接近问题中各要素与所述提问文本信息中各要素按照要素类型分别进行匹配，匹配失败的要素作为差异内容；

根据所述差异内容生成追问信息。

优选地，所述获取预设图谱化知识库中多个存储问题的知识要素之前，所述基于图谱化知识库的问答方法还包括：

获取现有问答对，根据预设分类算法对所述现有问答对进行分类，获得预设类型的类型问答对；

通过预设要素识别模型对各类型问答对进行要素识别，获得各类型问答对的样本要素，并根据所述样本要素建立所述预设图谱化知识库。

优选地，所述获取现有问答对，根据预设分类算法对所述现有问答对进行分类，获得预设类型的类型问答对，包括：

获取现有问答对，对所述现有问答对进行定长处理，获得定长问答对；

对所述定长问答对进行独热编码，获得向量化的问答对；

所述向量化的问答对依次经过卷积神经网络文本分类算法的输入层、卷积层、池化层和全连接层，获得预设类型的类型问答对。

优选地，所述通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素，包括：

通过预设要素识别模型的表示层将所述提问文本信息表示为词向量和字向量；

所述词向量和字向量经过所述预设要素识别模型的双向长短时记忆层，获得所述提问文本信息的每个词的所有标签的各自得分；

所述提问文本信息的每个词的所有标签的各自得分经过所述预设要素识别模型的条件随机场层，获得标签序列的概率，并将概率最高的标签作为对应的提问要素，获得所述提问文本信息对应的提问要素。

此外，为实现上述目的，本发明还提出一种基于图谱化知识库的问答设备，所述基于图谱化知识库的问答设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于图谱化知识库的问答程序，所述基于图谱化知识库的问答程序配置为实现如上文所述的基于图谱化知识库的问答方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于图谱化知识库的问答程序，所述基于图谱化知识库的问答程序被处理器执行时实现如上文所述的基于图谱化知识库的问答方法的步骤。

此外，为实现上述目的，本发明还提出一种基于图谱化知识库的问答装置，所述基于图谱化知识库的问答装置包括：

语音识别模块，用于进行语音检测，在检测到用户的提问语音时，对所述提问语音进行语音识别，获得提问文本信息；

要素识别模块，用于通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素；

获取模块，用于获取预设图谱化知识库中多个存储问题的知识要素；

匹配模块，用于将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配；

展示模块，用于若匹配成功，则将匹配成功的存储问题对应的答案进行展示。

本发明中，通过进行语音检测，在检测到用户的提问语音时，对所述提问语音进行语音识别，获得提问文本信息，基于人工智能，通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素，获取预设图谱化知识库中多个存储问题的知识要素，将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配，若匹配成功，则将匹配成功的存储问题对应的答案进行展示，通过将句子划分为各要素，各要素之间进行匹配，提高句子之间的匹配准确性，从而更准确地从预设图谱化知识库中搜索到对应的答案，提高智能问答的准确率和效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的基于图谱化知识库的问答设备的结构示意图；

图2为本发明基于图谱化知识库的问答方法第一实施例的流程示意图；

图3为本发明基于图谱化知识库的问答方法第二实施例的流程示意图；

图4为本发明基于图谱化知识库的问答方法第三实施例的流程示意图；

图5为本发明基于图谱化知识库的问答装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于图谱化知识库的问答设备结构示意图。

如图1所示，该基于图谱化知识库的问答设备可以包括：处理器1001，例如中央处理器（Central Processing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display），可选用户接口1003还可以包括标准的有线接口、无线接口，对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（Random Access Memory，RAM）存储器，也可以是稳定的存储器（Non-volatileMemory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于图谱化知识库的问答设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于图谱化知识库的问答程序。

在图1所示的基于图谱化知识库的问答设备中，网络接口1004主要用于连接后台服务器，与所述后台服务器进行数据通信；用户接口1003主要用于连接用户设备；所述基于图谱化知识库的问答设备通过处理器1001调用存储器1005中存储的基于图谱化知识库的问答程序，并执行本发明实施例提供的基于图谱化知识库的问答方法。

基于上述硬件结构，提出本发明基于图谱化知识库的问答方法的实施例。

参照图2，图2为本发明基于图谱化知识库的问答方法第一实施例的流程示意图，提出本发明基于图谱化知识库的问答方法第一实施例。

在第一实施例中，所述基于图谱化知识库的问答方法包括以下步骤：

步骤S10：进行语音检测，在检测到用户的提问语音时，对所述提问语音进行语音识别，获得提问文本信息。

应理解的是，本实施例的执行主体是所述基于图谱化知识库的问答设备，其中，所述基于图谱化知识库的问答设备可为智能手机、个人电脑或服务器等电子设备，本实施例对此不加以限制。所述基于图谱化知识库的问答设备中的智能问答系统，可通过麦克风从扬声器获取语音信号。数字信号处理将会首先检测是否有语音存在于麦克风所捕获的音频信号中，随后对该音频信号进行分析以预测接收到的音频信号中所说的文字是什么。可采用语音活动检测（Voice Activity Detection，缩写VAD）方式进行语音检测。

首先对检测到用户的提问语音进行预处理，然后提取语音的特征，获取预先建立的语音识别模板。计算机在识别过程中根据语音识别模型，将计算机中存放的语音模板与输入的所述提问语音的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表获得计算机的识别结果。

对所述提问语音进行分析，需要对所述提问语音分帧，也就是把所述提问语音切开一小段一小段，每小段称为一帧。分帧后，所述提问语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征。声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵，称之为观察序列，这里N为总帧数。通过声学模型，字典以及语言模型对提取特征后的音频数据进行文字输出，获得所述提问文本信息。

步骤S20：通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素。

可理解的是，长短期记忆网络（Long short-term memory，缩写LSTM）主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。使用条件随机场（ConditionalRandom Fields，缩写CRF）有效利用了句子级别的标记信息，CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。首先获取大量的样本问答对及对应的样本要素，建立基础长短期记忆网络LSTM-CRF模型，根据所述样本问答对及对应的所述样本要素对所述基础LSTM-CRF模型进行训练，获得所述预设要素识别模型。

在具体实现中，使用LSTM解决提取序列特征的问题，在LSTM-CRF模型下，输出的是最佳的标签序列。针对疑问句设计QEAC要素体系，即所述提问要素包括QEAC要素中的至少一项，其中要素Q表示主体疑问词，要素C表示疑问词直接作用的目标，要素E表示主体疑问句的中心，要素A表示修饰或者属性的成分，可以用来修饰E也可以用来修饰另外一个A。例如对于“理财产品的购买渠道有哪些”这句话，要素体系标注结果为“理财产品#A#的购买#渠道#E#有#C#哪些#Q#”。通过预设要素识别模型对所述提问文本信息中各词语中满足各要素特征的词语进行标注，从而获得所述提问文本信息对应的QEAC提问要素。

步骤S30：获取预设图谱化知识库中多个存储问题的知识要素。

需要说明的是，所述预设图谱化知识库为根据大量的现有问答对预先建立的，获取现有问答对，根据预设分类算法对所述现有问答对进行分类，获得预设类型的类型问答对，通过预设要素识别模型对各类型问答对进行要素识别，获得各类型问答对的样本要素，并根据所述样本要素建立所述预设图谱化知识库，即所述预设图谱化知识库中存储有大量的存储问题及对应的答案。可通过计算所述提问文本信息的提问要素与预设图谱化知识库中的各存储问题的知识要素之间的相似度，在相似度超过预设阈值时，认定匹配成功。

步骤S40：将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配。

应理解的是，首先将所述提问要素和预设图谱化知识库中的各知识要素以向量形式进行表示，可采用词频（Term Frequency，缩写TF）或者词频-逆文档频率（TermFrequency–Inverse Document Frequency，缩写TF-IDF）将提问要素和预设图谱化知识库中的各知识要素转换成向量形式。计算向量形式的提问要素与预设图谱化知识库中的各知识要素之间的余弦距离，将所述余弦距离作为相似度，在所述相似度超过预设阈值时，认定匹配成功。所述预设阈值可设置为90%等，根据经验值设置。

步骤S50：若匹配成功，则将匹配成功的存储问题对应的答案进行展示。

可理解的是，若在预设图谱化知识库中检索到相似度超过预设阈值的知识要素，将该知识要素认定为匹配成功的知识要素，所述预设图谱化知识库中包括各要素组成的问题对应的答案，则获取匹配成功的知识要素对应的答案，并将该答案进行展示，展示的方式包括将该答案进行语音播放和在所述基于图谱化知识库的问答设备的显示节面进行显示中的至少一种。

本实施例中，通过进行语音检测，在检测到用户的提问语音时，对所述提问语音进行语音识别，获得提问文本信息，基于人工智能，通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素，获取预设图谱化知识库中多个存储问题的知识要素，将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配，若匹配成功，则将匹配成功的存储问题对应的答案进行展示，通过将句子划分为各要素，各要素之间进行匹配，提高句子之间的匹配准确性，从而更准确地从预设图谱化知识库中搜索到对应的答案，提高智能问答的准确率和效率。

参照图3，图3为本发明基于图谱化知识库的问答方法第二实施例的流程示意图，基于上述图2所示的第一实施例，提出本发明基于图谱化知识库的问答方法的第二实施例。

在第二实施例中，所述步骤S40之后，还包括：

步骤S401：若匹配失败，则计算所述提问文本信息的提问要素与各存储问题的知识要素之间的相似度。

应理解的是，若所述提问文本信息的提问要素与各所述存储问题的知识要素之间的相似度均小于所述预设阈值时，认定所述提问文本信息的提问要素与各所述存储问题的知识要素匹配失败，说明所述预设图谱化知识库中未能搜索到对应的答案，则可通过将所述提问文本信息的提问要素和所述预设图谱化知识库中各存储问题的知识要素以向量形式进行表示，可采用TF或者TF-IDF将所述提问要素和预设图谱化知识库中的各所述知识要素转换成向量形式。计算向量形式的提问要素与预设图谱化知识库中的各所述知识要素之间的余弦距离，将所述余弦距离作为所述提问要素与预设图谱化知识库中的各所述知识要素之间的相似度。

步骤S402：获取所述相似度最高的存储问题作为最接近问题。

可理解的是，获取所述提问要素与预设图谱化知识库中的各所述知识要素之间的相似度，将所述相似度最高的存储问题认定为与所述提问文本信息最接近的所述最接近问题。

步骤S403：根据所述最接近问题生成追问信息，并将所述追问信息进行展示。

需要说明的是，将所述最接近问题与所述提问文本信息进行比较，获得差异内容，根据所述差异内容生成追问信息。将所述最接近问题的各要素与所述提问文本信息的提问要素在上下文语境（context）中匹配，即将所述最接近问题中各要素与所述提问文本信息中各要素按照要素类型进行分别匹配，匹配成功的是所述最接近问题与所述提问文本信息中相同的要素内容，匹配失败的要素即为所述差异内容。本实施例中，所述根据所述最接近问题生成追问信息，包括：将所述最接近问题中各要素与所述提问文本信息中各要素按照要素类型分别进行匹配，匹配失败的要素作为差异内容；根据所述差异内容生成追问信息。

在具体实现中，也可将所述最接近问题与所述提问文本信息分别进行分词处理，获得所述最接近问题的所有第一词语与所述提问文本信息的所有第二词语，将所述第一词语与所述第二词语进行匹配，匹配成功的词语为所述最接近问题与所述提问文本信息中相同的内容，匹配失败的词语为所述差异内容。

可理解的是，根据用户的所述提问文本信息和所述预设图谱化知识库中存储问题，针对用户有歧义不能回答的问题进行追问。比如用户在问收益规则是什么的时候，通过检索所述预设图谱化知识库，发现所述预设图谱化知识库里面有转入收益规则和转出收益规则，从而对用户进行追问是转入收益规则还是转出收益规则。

在本实施例中，所述步骤S403之后，还包括：

步骤S404：进行语音检测，在检测到所述用户基于所述追问信息的回复语音信息时，对所述回复语音信息进行语音识别，获得回复文本信息。

应理解的是，通过麦克风从扬声器获取语音信号，数字信号处理将会首先检测是否有语音存在于麦克风所捕获的音频信号中，随后对该音频信号进行分析以预测接收到的音频信号中的文字信息，从而获得所述回复文本信息。

步骤S405：根据所述回复文本信息判断所述最接近问题是否与所述提问文本信息匹配。

需要说明的是，获取所述最接近问题与所述提问文本信息之间的差异内容，将所述回复文本信息与所述差异内容进行匹配，可通过将所述回复文本信息与所述差异内容以向量形式进行表示，可采用TF或者TF-IDF将所述回复文本信息与所述差异内容转换成向量形式。计算向量形式的所述回复文本信息与所述差异内容之间的余弦距离，将所述余弦距离作为所述回复文本信息与所述差异内容之间的相似度，在所述回复文本信息与所述差异内容之间的相似度超过预设相似度阈值时，认定所述回复文本信息与所述差异内容匹配成功。所述预设相似度阈值可设置为80%等，根据经验值设置。

步骤S406：若所述最接近问题与所述提问文本信息匹配，则获取所述最接近问题对应的答案进行展示。

在具体实现中，若所述最接近问题与所述提问文本信息匹配成功，则认定所述最接近问题与所述提问文本信息匹配，则可获取所述最接近问题对应的答案进行展示，可将该答案进行语音播放。若匹配失败，则认定所述最接近问题与所述提问文本信息不匹配，此时可将未匹配的提问文本信息进行记录，以进行预设图谱化知识库中存储问题及对应答案的补充更新。

在本实施例中，所述提问文本信息的提问要素与各所述存储问题的知识要素匹配失败时，生成追问信息，根据所述用户基于所述追问信息的回复语音信息，判断最接近问题是否为与所述提问文本信息匹配，从而更加准确地从预设图谱化知识库中查找对应的问答对，提升用户体验。

参照图4，图4为本发明基于图谱化知识库的问答方法第三实施例的流程示意图，基于上述第一实施例或第二实施例，提出本发明基于图谱化知识库的问答方法的第三实施例。本实施例基于上述第一实施例进行说明。

在第三实施例中，所述步骤S30之前，还包括：

步骤S201：获取现有问答对，根据预设分类算法对所述现有问答对进行分类，获得预设类型的类型问答对。

应理解的是，所述预设类型包括4类：特指问句、是非问句、Why类型句子和选择疑问句，对大量的用户所提的所述现有问答对进行总结分析，根据预设分类算法对所述现有问答对进行分类，所述预设分类算法可以是利用卷积神经网络对文本进行分类的算法（Text Convolutional Neural Networks，缩写TextCNN）。

进一步地，所述步骤S201，包括：

对所述定长问答对进行独热编码，获得向量化的问答对；

可理解的是，首先，对现有问答对进行定长处理，比如定长为n，n为大于等于1的正整数，超过n的截断，不足n的补0，从而获得所述定长问答对。补充的0对后面的结果没有影响，因为后面的最大池化层（max-pooling）只会输出最大值，补零的项会被过滤掉。通过一个隐藏层，将所述定长问答需进行独热（one-hot）编码，投影到一个低维空间中，在指定维度中编码语义特征，获得向量化的问答对。为不同尺寸的过滤器（filter）都建立一个卷积层，所以会有多个图像特征（feature map），图像是像素点组成的二维数据，它们的卷积核至少是二维的。max-pooling只会输出最大值，对输入中的补0 做过滤。最后接一层全连接的归一化指数（softmax）函数层，输出每个类别的概率，从而获得预设类型对应的现有问答对。

步骤S202：通过预设要素识别模型对各类型问答对进行要素识别，获得各类型问答对的样本要素，并根据所述样本要素建立所述预设图谱化知识库。

需要说明的是，使用LSTM解决提取序列特征的问题，在LSTM-CRF模型下，输出的是最佳的标签序列，通过预设要素识别模型对各类型问答中满足各要素特征的词语进行标注，从而获得各类型问答对对应的QEAC样本要素。根据疑问句设计QEAC要素体系，即所述提问要素包括QEAC要素中的至少一项，提取要素建立所述图谱化知识库，要素提取遵循简练原则，提取能够表明句意的要素，根据所述样本要素建立所述预设图谱化知识库。

在本实施例中，所述步骤S20，包括：

在具体实现中，可将疑问句设计QEAC要素体系中各个要素作为标签，所有标签也即所有要素，所述提问要素包括QEAC要素中的至少一项，其中要素Q表示主体疑问词，要素C表示疑问词直接作用的目标，要素E表示主体疑问句的中心，要素A表示修饰或者属性的成分，可以用来修饰E也可以用来修饰另外一个A。通过LSTM网络的处理，相当于得到了一个比较好的对所述提问文本信息的表示方法，LSTM单元最终输出的向量即可以看成是所述提问文本信息的一种表示形式，最终在打标签阶段，一般都采用softmax函数进行处理，不过这种方法在处理输出标签直接有强烈关系的数据时，效果还是有限的。特别是在实际的序列标注任务时，由于神经网络结构对数据的依赖很大，数据量的大小和质量也会严重影响模型训练的效果，故而出现了将现有的线性统计模型与神经网络结构相结合的方法，效果较好的有LSTM与CRF的结合。就是在输出端将softmax函数与CRF结合起来，使用LSTM解决提取序列特征的问题，使用CRF有效利用了句子级别的标记信息。

应理解的是，第一层：表示层。通过词转化成向量word2vector的方式将每个句子表示为词向量和字向量。

第二层：双向长短时记忆（Bi-directionalLong Short-Term Memory，缩写BiLSTM）层。输入词向量和字向量到模型中的BiLSTM层，该层的输出是句子的每个词的所有标签的各自得分。此处的标签的各自得分充当的是CRF模型中的非归一化的发射概率。

第三层：条件随机场（Conditional Random Fields，缩写CRF）层。该层使用BiLSTM层的输出为每个词的所有标签的各自得分，即（发射概率矩阵）以及转移概率矩阵，作为原始CRF模型的参数，最终获得标签序列的概率。

对于输入：X=(x1,x2,...,xn)，可以定义LSTM的输出概率矩阵为：P_{n*k}，其中k是输出标签的个数P{i,j}是指第i个字被标记为第j个标签的概率。对于待预测的标签序列：y=(y1,y2,...,yn)，可以有如下定义：

s(X,y)=∑n_{i=0}A_{y_i,y_{i+1}}+∑n_{i=0}P_{i,y_i}；

其中A是状态转移矩阵，Ai,j代表从第i个标签tag转移到第j个标签tag的概率。通过求得最大的s(X,y)，即可得到最佳的输出标签序列。引入的CRF，是对输出标签二元组进行了建模，然后使用动态规划进行计算，最终根据得到的最优路径进行标注，即对所述提问文本信息中各词语中满足各要素特征的词语进行标注，标注出所述提问文本信息中各词语属于各要素的概率，则概率最高的标签作为对应的提问要素，从而获得所述提问文本信息对应的QEAC提问要素。

本实施例中，获取现有问答对，根据预设分类算法对所述现有问答对进行分类，获得预设类型的类型问答对，通过预设要素识别模型对各类型问答对进行要素识别，获得各类型问答对的样本要素，并根据所述样本要素建立所述预设图谱化知识库，以要素体系建立的预设图谱化知识库，提问文本信息可通过要素识别从预设图谱化知识库更加准确地搜索到对应的答案，提升用户体验。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于图谱化知识库的问答程序，所述基于图谱化知识库的问答程序被处理器执行时实现如上文所述的基于图谱化知识库的问答方法的步骤。

此外，参照图5，本发明实施例还提出一种基于图谱化知识库的问答装置，所述基于图谱化知识库的问答装置包括：

语音识别模块10，用于进行语音检测，在检测到用户的提问语音时，对所述提问语音进行语音识别，获得提问文本信息。

应理解的是，可通过麦克风从扬声器获取语音信号。数字信号处理将会首先检测是否有语音存在于麦克风所捕获的音频信号中，随后对该音频信号进行分析以预测接收到的音频信号中所说的文字是什么。可采用语音活动检测（Voice Activity Detection，缩写VAD）方式进行语音检测。

要素识别模块20，用于通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素。

可理解的是，长短期记忆网络（Long short-term memory，缩写LSTM）是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。使用条件随机场（Conditional Random Fields，缩写CRF）有效利用了句子级别的标记信息，CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。首先获取大量的样本问答对及对应的样本要素，建立基础长短期记忆网络LSTM-CRF模型，根据所述样本问答对及对应的所述样本要素对所述基础LSTM-CRF模型进行训练，获得所述预设要素识别模型。

获取模块30，用于获取预设图谱化知识库中多个存储问题的知识要素。

匹配模块40，用于将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配。

展示模块50，用于若匹配成功，则将匹配成功的存储问题对应的答案进行展示。

在一实施例中，所述基于图谱化知识库的问答装置还包括：

计算模块，用于若匹配失败，则计算所述提问文本信息的提问要素与各存储问题的知识要素之间的相似度；

所述获取模块30，还用于获取所述相似度最高的存储问题作为最接近问题；

生成模块，用于根据所述最接近问题生成追问信息，并将所述追问信息进行展示。

在一实施例中，所述语音识别模块10，还用于进行语音检测，在检测到所述用户基于所述追问信息的回复语音信息时，对所述回复语音信息进行语音识别，获得回复文本信息；

所述匹配模块40，还用于根据所述回复文本信息判断所述最接近问题是否与所述提问文本信息匹配；

所述展示模块50，还用于若所述最接近问题与所述提问文本信息匹配成功，则获取所述最接近问题对应的答案进行展示。

在一实施例中，所述匹配模块40，还用于将所述最接近问题中各要素与所述提问文本信息中各要素按照要素类型分别进行匹配，匹配失败的要素作为差异内容；

所述生成模块，还用于根据所述差异内容生成追问信息。

在一实施例中，所述基于图谱化知识库的问答装置还包括：

分类模块，用于获取现有问答对，根据预设分类算法对所述现有问答对进行分类，获得预设类型的类型问答对；

建立模块，用于通过预设要素识别模型对各类型问答对进行要素识别，获得各类型问答对的样本要素，并根据所述样本要素建立所述预设图谱化知识库。

在一实施例中，所述基于图谱化知识库的问答装置还包括：

定长处理模块，用于获取现有问答对，对所述现有问答对进行定长处理，获得定长问答对；

编码模块，用于对所述定长问答对进行独热编码，获得向量化的问答对；

所述分类模块，还用于所述向量化的问答对依次经过卷积神经网络文本分类算法的输入层、卷积层、池化层和全连接层，获得预设类型的类型问答对。

在一实施例中，所述要素识别模块20，还用于通过预设要素识别模型的表示层将所述提问文本信息表示为词向量和字向量；所述词向量和字向量经过所述预设要素识别模型的双向长短时记忆层，获得所述提问文本信息的每个词的所有标签的各自得分；所述提问文本信息的每个词的所有标签的各自得分经过所述预设要素识别模型的条件随机场层，获得标签序列的概率，并将概率最高的标签作为对应的提问要素，获得所述提问文本信息对应的提问要素。

本发明所述基于图谱化知识库的问答装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器镜像（Read Only Memory image，ROM）/随机存取存储器（Random AccessMemory，RAM）、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于图谱化知识库的问答方法，其特征在于，所述基于图谱化知识库的问答方法包括以下步骤：

获取预设图谱化知识库中多个存储问题的知识要素；

若匹配成功，则将匹配成功的存储问题对应的答案进行展示；

其中，所述对所述提问语音进行语音识别，获得提问文本信息包括：

对所述提问语音进行分帧得到语音分帧波形，通过提取所述语音分帧波形的MFCC特征获得音频观察序列，通过声学模型、字典以及语言模型对所述音频观察序列进行文字输出，获得所述提问文本信息；

所述通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素的步骤之前，还包括：

获取大量的样本问答对及对应的样本要素，建立基础长短期记忆网络LSTM-CRF模型，根据所述样本问答对及对应的所述样本要素对所述基础LSTM-CRF模型进行训练，获得所述预设要素识别模型；

所述将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配的步骤包括：

通过采用词频（Term Frequency，缩写TF）或者词频-逆文档频率（Term Frequency–Inverse Document Frequency，缩写TF-IDF）将所述提问要素和所述预设图谱化知识库中的各知识要素转换成向量形式，计算所述向量形式的提问要素与预设图谱化知识库中的各知识要素之间的余弦距离，将所述余弦距离作为相似度，在所述相似度超过预设阈值时，认定匹配成功。

2.如权利要求1所述的基于图谱化知识库的问答方法，其特征在于，所述将所述提问文本信息的提问要素与各所述存储问题的知识要素进行匹配之后，所述基于图谱化知识库的问答方法还包括：

获取所述相似度最高的存储问题作为最接近问题；

3.如权利要求2所述的基于图谱化知识库的问答方法，其特征在于，所述根据所述最接近问题生成追问信息，并将所述追问信息进行展示之后，所述基于图谱化知识库的问答方法还包括：

4.如权利要求2所述的基于图谱化知识库的问答方法，其特征在于，所述根据所述最接近问题生成追问信息，包括：

根据所述差异内容生成追问信息。

5.如权利要求1所述的基于图谱化知识库的问答方法，其特征在于，所述获取预设图谱化知识库中多个存储问题的知识要素之前，所述基于图谱化知识库的问答方法还包括：

6.如权利要求5所述的基于图谱化知识库的问答方法，其特征在于，所述获取现有问答对，根据预设分类算法对所述现有问答对进行分类，获得预设类型的类型问答对，包括：

对所述定长问答对进行独热编码，获得向量化的问答对；

7.如权利要求1-6中任一项所述的基于图谱化知识库的问答方法，其特征在于，所述通过预设要素识别模型对所述提问文本信息进行要素识别，获得所述提问文本信息对应的提问要素，包括：

8.一种基于图谱化知识库的问答设备，其特征在于，所述基于图谱化知识库的问答设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于图谱化知识库的问答程序，所述基于图谱化知识库的问答程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于图谱化知识库的问答方法的步骤。

9.一种存储介质，其特征在于，所述存储介质上存储有基于图谱化知识库的问答程序，所述基于图谱化知识库的问答程序被处理器执行时实现如权利要求1至7中任一项所述的基于图谱化知识库的问答方法的步骤。

10.一种基于图谱化知识库的问答装置，其特征在于，所述基于图谱化知识库的问答装置包括：

展示模块，用于若匹配成功，则将匹配成功的存储问题对应的答案进行展示；

其中，所述语音识别模块，具体用于对所述提问语音进行分帧得到语音分帧波形，通过提取所述语音分帧波形的MFCC特征获得音频观察序列，通过声学模型、字典以及语言模型对所述音频观察序列进行文字输出，获得所述提问文本信息；

所述要素识别模块，还用于获取大量的样本问答对及对应的样本要素，建立基础长短期记忆网络LSTM-CRF模型，根据所述样本问答对及对应的所述样本要素对所述基础LSTM-CRF模型进行训练，获得所述预设要素识别模型；

所述匹配模块，具体用于通过采用词频（Term Frequency，缩写TF）或者词频-逆文档频率（Term Frequency–Inverse Document Frequency，缩写TF-IDF）将所述提问要素和所述预设图谱化知识库中的各知识要素转换成向量形式，计算所述向量形式的提问要素与预设图谱化知识库中的各知识要素之间的余弦距离，将所述余弦距离作为相似度，在所述相似度超过预设阈值时，认定匹配成功。