CN110825860B

CN110825860B - 知识库问答抽取方法、系统、移动终端及存储介质

Info

Publication number: CN110825860B
Application number: CN201911018835.9A
Authority: CN
Inventors: 詹威; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 王静
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2022-08-23
Anticipated expiration: 2039-10-24
Also published as: CN110825860A

Abstract

本发明适用于知识库技术领域，提供了一种知识库问答抽取方法、系统、移动终端及存储介质，该方法包括：获取人工问答数据，并对人工问答数据进行问句识别，以获取客户提问句；根据客户提问句在人工问答数据中进行回应查询，以获取客服回答信息，客服回答信息中存储有多个客服回答句；分别计算客户提问句与客服回答句之间的问答匹配度，并将问答匹配度中最大值对应的客服回答句与客户提问句设置为问答对；将问答对抽取存储至问答知识库。本发明通过基于客户提问句和客服回答句的自动获取，及客户提问句与对应客服回答句之间问答匹配度的计算设计，以便自动的从真实的人工问答数据中抽取出高质量的问答对，提高了问答对的抽取效率。

Description

知识库问答抽取方法、系统、移动终端及存储介质

技术领域

本发明属于知识库技术领域，尤其涉及一种知识库问答抽取方法、系统、移动终端及存储介质。

背景技术

随着人工智能的发展和普及，智能客服机器人在各个行业的应用也越来越多了，对于所有领域的智能客服机器人来说，知识问答库似乎是不可或缺的，知识问答库即给出了很多的问答对，如何根据真实的人工客服聊天记录提取出高质量的问答对，自动构建出客服机器人的知识库，是FAQ机器人的研究热点和难点。

由于现有的FAQ自动抽取算法还不成熟，很多都是采用人工的方式从真实的对话中提取出高质量的问答对，这需要很大的人力成本。好一点的抽取问答对的方法是将问句的下一句作为答案，然后再人工清洗数据，判断该问答对是否需要删除，这也是效率非常低下，也很耗费人工的方法。

发明内容

本发明实施例要解决的技术问题是，由于采用人工的方式从真实的对话中提取出高质量的问答对所导致的问答抽取效率低下的问题。

本发明实施例是这样实现的，一种知识库问答抽取方法，所述方法包括：

获取人工问答数据，并对所述人工问答数据进行问句识别，以获取客户提问句；

根据所述客户提问句在所述人工问答数据中进行回应查询，以获取客服回答信息，所述客服回答信息中存储有多个客服回答句；

分别计算所述客户提问句与所述客服回答句之间的问答匹配度，并将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对；

将所述问答对抽取存储至问答知识库。

更进一步的，所述对所述人工问答数据进行问句识别的步骤包括：

将所述人工问答数据输入至问句识别模型，并控制所述问句识别模型进行问句分析；

根据所述问句识别模型的分析结果依序对所述人工问答数据中的语句进行问句判定，以得到所述客户提问句。

更进一步的，所述分别计算所述客户提问句与所述客服回答句之间的问答匹配度的步骤之前，所述方法还包括：

获取问答匹配度数据集，所述问答匹配度数据集中存储有多个样本信息，所述样本信息包括样本问句、样本答句和样本匹配度；

根据所述问答匹配度数据集采用伪孪生神经网络的方式训练孪生神经网络，以得到孪生网络模型。

更进一步的，所述分别计算所述客户提问句与所述客服回答句之间的问答匹配度的步骤包括：

将所述客户提问句和所述客服回答句输入至所述孪生网络模型；

控制所述孪生网络模型通过嵌入层分别对所述客户提问句和所述客服回答句进行词向量的嵌入；

控制所述孪生网络模型对嵌入后的所述客户提问句和所述客服回答句进行文本特征提取，以得到提问特征向量和回答特征向量；

将所述提问特征向量和所述回答特征向量进行拼接，并采用全连接层对拼接后的特征向量进行匹配计算，以得到所述问答匹配度。

更进一步的，所述将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对的步骤之前，所述方法还包括：

判断最大值对应的所述问答匹配度是否大于匹配度阈值；

若否，则对对应所述客户提问句发出抽取错误提示。

更进一步的，所述根据所述客户提问句在所述人工问答数据中进行回应查询的步骤包括：

获取所述客户提问句的提问编号，并根据所述提问编号计算回应编号范围；

根据所述回应编号范围获取所述人工问答数据中对应编号范围内的回应句，以得到所述客服回答信息。

当判断到所述问答匹配度中存储有相同最大值时，将所述相同最大值对应的所述客服回答句进行语句拼接；

将拼接后的所述客服回答句与所述客户提问句设置为问答对。

本发明实施例的另一目的在于提供一种知识库问答抽取系统，所述系统包括：

问句识别模块，用于获取人工问答数据，并对所述人工问答数据进行问句识别，以获取客户提问句；

回应查询模块，用于根据所述客户提问句在所述人工问答数据中进行回应查询，以获取客服回答信息，所述客服回答信息中存储有多个客服回答句；

匹配度计算模块，用于分别计算所述客户提问句与所述客服回答句之间的问答匹配度，并将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对；

存储模块，用于将所述问答对抽取存储至问答知识库。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的知识库问答抽取方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的知识库问答抽取方法的步骤。

本发明实施例，通过基于客户提问句和客服回答句的自动获取，及客户提问句与对应客服回答句之间问答匹配度的计算设计，以便自动的从真实的人工问答数据中抽取出高质量的问答对，提高了问答对的抽取效率，并通过将该问答对自动存储至问答知识库，有效的提高了后续机器人应答回复的准确性。

附图说明

图1是本发明第一实施例提供的知识库问答抽取方法的流程图；

图2是本发明第二实施例提供的知识库问答抽取方法的流程图；

图3是本发明第三实施例提供的知识库问答抽取系统的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的知识库问答抽取方法的流程图，包括步骤：

步骤S10，获取人工问答数据，并对所述人工问答数据进行问句识别，以获取客户提问句；

其中，该人工问答数据为不同人工客服与客户之间的问答信息，该问句识别用于获取该人工问答数据中用户所提出的疑问句，优选的，该问句识别可以采用语义判断、特征词判断或标点判断等方式进行语句的判定和获取；

具体的，当采用语义的方式进行问句判断时，通过依序分析该人工问答数据中用户端的问答句的语义，以判断对应的问答句是否为提问句；

当采用特征词的方式进行问句判断时，将本地预设的提问特征词与该人工问答数据中用户端的问答句进行词语匹配，以判断对应的问答句是否为提问句；

当采用标点的方式进行问句判断时，通过依序该人工问答数据中用户端的问答句的标点是否为“问号”，以判断对应的问答句是否为提问句；

步骤S20，根据所述客户提问句在所述人工问答数据中进行回应查询，以获取客服回答信息；

其中，所述客服回答信息中存储有多个客服回答句，该步骤用于选取该客户提问句后续若干句客服给出的回应，以得到该客服回答信息；具体的，该步骤中可以基于语句序号或客服应答时间等方式，以进行该客服回答信息的获取；

步骤S30，分别计算所述客户提问句与所述客服回答句之间的问答匹配度，并将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对；

其中，该步骤可以基于神经网络模型的方式以进行该问答匹配度的计算，当该问答匹配度越大时，则证明该客户提问句与当前获取到的客服回答句越适配，进而使得后续机器人的自动应答回复越准确；；

例如客户提问句A：我想大腿脱毛，有什么推荐的方法吗？

第一客服回答句B：脱毛是我们医院的重点项目。

第二客服回答句C：我们推荐的脱毛方式有冰点脱毛、离子脱毛等。

其中，计算得到的问句A与答句B之间的问答匹配度为0.23，问句A与答句C之间的问答匹配度为0.92，因此，该步骤将问句A与答句C设置为问答句；

步骤S40，将所述问答对抽取存储至问答知识库；

本实施例，通过基于客户提问句和客服回答句的自动获取，及客户提问句与对应客服回答句之间问答匹配度的计算设计，以便自动的从真实的人工问答数据中抽取出高质量的问答对，提高了问答对的抽取效率，并通过将该问答对自动存储至问答知识库，有效的提高了后续机器人应答回复的准确性。

实施例二

请参阅图2，是本发明第二实施例提供的知识库问答抽取方法的流程图，包括步骤：

步骤S11，获取人工问答数据，将所述人工问答数据输入至问句识别模型，并控制所述问句识别模型进行问句分析；

其中，该问句识别模型用于进行文本的分类，可以采用二分类的方式对一个语句进行特征标记，可以将问句表示为1，非问句表示为0，以构建出训练数据集，并可采用机器学习或者深度学习模型以训练出该问句识别模型；具体的，将该人工问答数据输入至训练后的问句识别模型，以得到问句分析结果；

优选的，所述控制所述问句识别模型进行问句分析的步骤之前，所述方法还包括：

控制所述问句识别模型对所述人工问答数据进行分类，以得到客服语句数据和客户语句数据，并该步骤中，该问句识别模型只针对客户语句数据中的语句进行问句分析；

步骤S21，根据所述问句识别模型的分析结果依序对所述人工问答数据中的语句进行问句判定，以得到所述客户提问句；

例如，当客户语句数据中的语句为“美国有引进东北虎吗”时，则该问句识别模型的识别结果为1，则表述该语句是客户提问句；

当客户语句数据中的语句为“只有北极采用北极熊”则该问句识别模型的识别结果为0，则表述该语句不是客户提问句；

步骤S31，获取所述客户提问句的提问编号，并根据所述提问编号计算回应编号范围；

其中，该人工问答数据中每个语句均对应一个编号，因此，该步骤通过基于该提问编号与预设编号值之间的计算，以得到该回应编号范围，进而有效的方便了后续客服回答信息的获取；

例如，当获取到的提问编号为100、预设编号值为10时，则计算得到的回应编号范围为101至110；

优选的，该步骤中还可以基于应答时间的方式以进行回应时间范围的计算，即在该人工问答数据中每个语句均对应一个语句时间，该步骤中通过根据该语句时间与预设应答间隔时间，以计算该回应时间范围；

例如，当获取到的应答时间为11点30、预设应答间隔时间为30分钟时，则计算得到的回应时间范围为11点30至12点；

步骤S41，根据所述回应编号范围获取所述人工问答数据中对应编号范围内的回应句，以得到所述客服回答信息；

其中，所述客服回答信息中存储有多个客服回答句，即该步骤通过获取该人工问答数据的客服语句数据中标号为101至110的语句，以得到该客服回答信息；

优选的，该步骤还可以通过获取该客服语句数据中语句时间在11点30至12点之间的语句，以得到该客服回答信息；

步骤S51，获取问答匹配度数据集，根据所述问答匹配度数据集采用伪孪生神经网络的方式训练孪生神经网络，以得到孪生网络模型；

其中，所述问答匹配度数据集中存储有多个样本信息，所述样本信息包括样本问句、样本答句和样本匹配度；

具体的，孪生神经网络用于处理两个输入"比较类似"的情况。伪孪生神经网络适用于处理两个输入"有一定差别"的情况。比如，我们要计算两个句子或者词汇的语义相似度，使用siamese network比较适合；如果验证标题与正文的描述是否一致(标题和正文长度差别很大)，或者文字是否描述了一幅图片(一个是图片，一个是文字)，就应该使用pseudo-siamese network。此处的业务是判断客户的问题和客服的答案是否匹配，因此选用pseudo-siamese network；

步骤S61，分别将所述客户提问句和对应所述客服回答句输入至所述孪生网络模型；

例如客户提问句A：我想大腿脱毛，有什么推荐的方法吗？

第一客服回答句B：脱毛是我们医院的重点项目；

第二客服回答句C：我们推荐的脱毛方式有冰点脱毛、离子脱毛等；

其中，将问句A、答句B和答句C对应输入至该孪生网络模型；

步骤S71，控制所述孪生网络模型通过嵌入层分别对所述客户提问句和所述客服回答句进行词向量的嵌入；

步骤S81，控制所述孪生网络模型对嵌入后的所述客户提问句和所述客服回答句进行文本特征提取，以得到提问特征向量和回答特征向量；

步骤S91，将所述提问特征向量和所述回答特征向量进行拼接，并采用全连接层对拼接后的特征向量进行匹配计算，以得到所述问答匹配度；

步骤S101，将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对；

优选的，将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对的步骤之前，所述方法还包括：

判断最大值对应的所述问答匹配度是否大于匹配度阈值，其中，该匹配度阈值可以根据用户需求进行设置；

若否，则对对应所述客户提问句发出抽取错误提示；

更进一步的，该步骤中，将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对的步骤之前，所述方法还包括：

将拼接后的所述客服回答句与所述客户提问句设置为问答对；

具体的，该语句拼接可以采用直接连接的方式进行拼接；

例如，第三客服回答句D：冰点脱毛总共大概需要做三次，一个月之后需要来一次，然后再过三个月之后应该还需要做最后一次就能达到终生脱毛；

第四客服回答句E：冰点脱毛总共需要2千多元，总共大概需要来院做三次；

当判断到答句D和答句E对应的问答匹配度最大且相同时，则拼接后的语句F为：冰点脱毛总共大概需要做三次，一个月之后需要来一次，然后再过三个月之后应该还需要做最后一次就能达到终生脱毛。冰点脱毛总共需要2千多元，总共大概需要来院做三次。

优选的，本实施例中还可以采用备注的方式进行语句拼接，即拼接后的语句F为：冰点脱毛总共大概需要做三次，一个月之后需要来一次，然后再过三个月之后应该还需要做最后一次就能达到终生脱毛(冰点脱毛总共需要2千多元，总共大概需要来院做三次)。

此外，本实施例中，当完成语句的拼接时，还可以采用去重优化的方式对拼接后的语句进行优化，即优化后的语句F为：冰点脱毛总共大概需要做三次，一个月之后需要来一次，然后再过三个月之后应该还需要做最后一次就能达到终生脱毛(冰点脱毛总共需要2千多元)；

步骤S111，将所述问答对抽取存储至问答知识库；

实施例三

请参阅图3，是本发明第三实施例提供的知识库问答抽取系统100的结构示意图，包括：问句识别模块10、回应查询模块11、匹配度计算模块12和存储模块13，其中：

问句识别模块10，用于获取人工问答数据，并对所述人工问答数据进行问句识别，以获取客户提问句。

其中，所述问句识别模块10还用于：将所述人工问答数据输入至问句识别模型，并控制所述问句识别模型进行问句分析；根据所述问句识别模型的分析结果依序对所述人工问答数据中的语句进行问句判定，以得到所述客户提问句。

回应查询模块11，用于根据所述客户提问句在所述人工问答数据中进行回应查询，以获取客服回答信息，所述客服回答信息中存储有多个客服回答句。

其中，所述回应查询模块11还用于：获取所述客户提问句的提问编号，并根据所述提问编号计算回应编号范围；根据所述回应编号范围获取所述人工问答数据中对应编号范围内的回应句，以得到所述客服回答信息。

匹配度计算模块12，用于分别计算所述客户提问句与所述客服回答句之间的问答匹配度，并将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对。

优选的，所述匹配度计算模块12还用于：当判断到所述问答匹配度中存储有相同最大值时，将所述相同最大值对应的所述客服回答句进行语句拼接；将拼接后的所述客服回答句与所述客户提问句设置为问答对。

存储模块13，用于将所述问答对抽取存储至问答知识库。

此外，所述知识库问答抽取系统100还包括：

模型建立模块14，用于获取问答匹配度数据集，所述问答匹配度数据集中存储有多个样本信息，所述样本信息包括样本问句、样本答句和样本匹配度；根据所述问答匹配度数据集采用伪孪生神经网络的方式训练孪生神经网络，以得到孪生网络模型。

本实施例中，所述匹配度计算模块12还用于：将所述客户提问句和所述客服回答句输入至所述孪生网络模型；控制所述孪生网络模型通过嵌入层分别对所述客户提问句和所述客服回答句进行词向量的嵌入；控制所述孪生网络模型对嵌入后的所述客户提问句和所述客服回答句进行文本特征提取，以得到提问特征向量和回答特征向量；将所述提问特征向量和所述回答特征向量进行拼接，并采用全连接层对拼接后的特征向量进行匹配计算，以得到所述问答匹配度。

更进一步的，所述知识库问答抽取系统100还包括：

提示模块15，用于判断最大值对应的所述问答匹配度是否大于匹配度阈值；若否，则对对应所述客户提问句发出抽取错误提示。

本实施例，通过基于客户提问句和客服回答句的自动获取，及客户提问句与对应客服回答句之间问答匹配度的计算设计，以使自动的从真实的人工问答数据中抽取出高质量的问答对，提高了问答对的抽取效率，并通过将该问答对自动存储至问答知识库，有效的提高了后续机器人应答回复的准确性。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的知识库问答抽取方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

将所述问答对抽取存储至问答知识库。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的知识库问答抽取系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的知识库问答抽取方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标知识库问答抽取系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标知识库问答抽取系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种知识库问答抽取方法，其特征在于，所述方法包括：

将所述问答对抽取存储至问答知识库；

所述对所述人工问答数据进行问句识别的步骤包括：

根据所述问句识别模型的分析结果依序对所述人工问答数据中的语句进行问句判定，以得到所述客户提问句；

所述分别计算所述客户提问句与所述客服回答句之间的问答匹配度的步骤之前，所述方法还包括：

根据所述问答匹配度数据集采用伪孪生神经网络的方式训练孪生神经网络，以得到孪生网络模型；

所述分别计算所述客户提问句与所述客服回答句之间的问答匹配度的步骤包括：

2.如权利要求1所述的知识库问答抽取方法，其特征在于，所述将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对的步骤之前，所述方法还包括：

判断最大值对应的所述问答匹配度是否大于匹配度阈值；

若否，则对对应所述客户提问句发出抽取错误提示。

3.如权利要求1所述的知识库问答抽取方法，其特征在于，所述根据所述客户提问句在所述人工问答数据中进行回应查询的步骤包括：

4.如权利要求1所述的知识库问答抽取方法，其特征在于，所述将所述问答匹配度中最大值对应的所述客服回答句与所述客户提问句设置为问答对的步骤之前，所述方法还包括：

5.一种知识库问答抽取系统，其特征在于，所述系统包括：

存储模块，用于将所述问答对抽取存储至问答知识库；

所述问句识别模块还用于：将所述人工问答数据输入至问句识别模型，并控制所述问句识别模型进行问句分析；根据所述问句识别模型的分析结果依序对所述人工问答数据中的语句进行问句判定，以得到所述客户提问句；

模型建立模块，用于获取问答匹配度数据集，所述问答匹配度数据集中存储有多个样本信息，所述样本信息包括样本问句、样本答句和样本匹配度；根据所述问答匹配度数据集采用伪孪生神经网络的方式训练孪生神经网络，以得到孪生网络模型；

所述匹配度计算模块还用于：将所述客户提问句和所述客服回答句输入至所述孪生网络模型；控制所述孪生网络模型通过嵌入层分别对所述客户提问句和所述客服回答句进行词向量的嵌入；控制所述孪生网络模型对嵌入后的所述客户提问句和所述客服回答句进行文本特征提取，以得到提问特征向量和回答特征向量；将所述提问特征向量和所述回答特征向量进行拼接，并采用全连接层对拼接后的特征向量进行匹配计算，以得到所述问答匹配度。

6.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至4任一项所述的知识库问答抽取方法。

7.一种存储介质，其特征在于，其存储有权利要求6所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至4任一项所述的知识库问答抽取方法的步骤。