CN109858626B

CN109858626B - 一种知识库构建方法及装置

Info

Publication number: CN109858626B
Application number: CN201910065035.6A
Authority: CN
Inventors: 王卓然; 亓超; 马宇驰; 郭伟; 陈华荣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2021-08-03
Anticipated expiration: 2039-01-23
Also published as: CN109858626A

Abstract

本发明实施例公开了一种知识库构建方法及装置，涉及数据处理技术领域，主要目的在于构建高质量高覆盖的行业知识库；主要技术方案包括：基于素材文本形成待建知识库的备选答案；收集所述待建知识库的至少一个问题；对所述至少一个问题进行预处理，依据预处理后的问题，在所述备选答案中获取所述预处理后的问题的答案；基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。

Description

一种知识库构建方法及装置

技术领域

本发明实施例涉及数据处理技术领域，特别是涉及一种知识库构建方法及装置。

背景技术

随着计算机技术的飞速发展，各个行业为了更好的为客户提供服务，智能客服系统越来越广泛的应用在各行业中。智能客服系统通常基于知识库回答用户的问题。为了能够为用户反馈准确性较高的答案，需要构建高质量的知识库。

目前，发明人在实现本发明实施例的过程中发现，智能客服系统的知识库在构建时，通常需要人工手动从人工客服的历史服务记录中收集整理知识点(问题和答案组合成的问题答案对)。但是，这种人工手动收集的方式构建知识库需要耗费大量的人力物力，整理周期较长耗时较多，而且收集整理知识点时仅依据人工客服的历史服务记录，整理出的知识库内容不够完备，导致智能客服系统对有些问题不能进行准确反馈。

发明内容

有鉴于此，本发明实施例提出了一种知识库构建方法及装置，主要目的在于构建高质量高覆盖的知识库。

第一方面，本发明实施例提供了一种知识库构建方法，该方法包括：

基于素材文本形成待建知识库的备选答案；

收集所述待建知识库的至少一个问题；

对所述至少一个问题进行预处理，依据预处理后的问题，在所述备选答案中获取所述预处理后的问题的答案；

基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。

第二方面，本发明实施例提供了一种知识库构建装置，该装置包括：

形成模块，用于基于素材文本形成待建知识库的备选答案；

收集模块，用于收集所述待建知识库的至少一个问题；

获取模块，用于对所述至少一个问题进行预处理，依据预处理后的问题，在所述备选答案中获取所述预处理后的问题的答案；

构建模块，用于基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。

第三方面，本发明实施例提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如上述中任意一项所述的知识库构建方法。

第四方面，本发明实施例提供了一种电子设备，所述电子设备包括：存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如上述中任意一项所述的知识库构建方法。

借由上述技术方案，本发明实施例提供的知识库构建方法及装置，首先基于素材文本形成待建知识库的备选答案，并收集待建知识库的问题。在对收集的问题进行预处理后，依据预处理后的问题在备选答案中获取预处理后的问题的答案。最后基于预处理后的问题以及与预处理后的问题的答案构建知识库。通过上述可知，本发明实施例提供的方案中问题的答案基于素材文本得到，而素材文本中覆盖有大量的有价值的信息。基于素材文本得到的答案便涵盖了这些有价值的信息，因此基于问题以及问题的答案便可以构建出高质量高覆盖的知识库。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

为了更清楚地说明本发明实施例实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例一个实施例提供的一种知识库构建方法的流程图；

图2示出了本发明实施例另一个实施例提供的一种知识库构建方法的流程图；

图3示出了本发明实施例一个实施例提供的一种知识库构建装置的结构示意图；

图4示出了本发明实施例另一个实施例提供的一种知识库构建装置的结构示意图。

具体实施方式

下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明实施例实施例提供了一种知识库构建方法，该方法主要包括：

101、基于素材文本形成待建知识库的备选答案。

具体的，本步骤中所涉及的待建知识库可以是服务于任意一种行业的知识库，而素材文本应是待建知识库所服务的行业所涉及到的素材文本。举例说明：待建知识库为服务于基金行业的知识库时，素材文本就为基金行业所涉及到的公开的法律法规、从业资格考试教材、各种说明书等文档中收集到的文本。

在实际应用中，收集素材文本的方式至少包括如下两种：

第一种，从公开发行的法律法规、说明书、教材等文档中收集素材文本。采用此种方式收集素材文本时，如果文档不是预设的格式则需要将文档转化为预设格式，以方便后续从该预设格式的素材文本中得到待建知识库的备选答案。举例说明：预设格式为txt格式，在文档不是txt格式时则可以通过OCR(光学字符识别)等工具将文档转为txt格式。

第二种，从设定网站发布的内容中爬取素材文本。设定网站可以是行业中较为权威的培训网站或官方网站，这些网站中会发布大量与行业相关的权威信息。采用此种方式收集素材文本时，需要将从设定网站中爬取到内容转换为预设格式，以方便后续从该预设格式的素材文本中得到待建知识库的备选答案。该预设格式可以为txt格式。

需要说明的是，无论是法律法规、说明书、教材还是设定网站中发布的内容均会随着时间的变动进行版本更新，在版本更新之后旧版本中的内容将会过期或失效，如果再利用这些旧版本中的内容构建知识库，则知识库提供准确答案的概率将降低。因此为了保证后续的待建知识库构建完成后可以推送出准确度较高的答案，那么在收集素材文本时仅收集设定时间区间(该时间区间中的时间临近待构建知识库的构建时间)内的法律法规、说明书、教材或设定网站中发布的内容中收集素材。这样不仅在待建知识库构建完成后推送出准确度较高的答案，而且也降低了收集素材文本时的数据处理量。

具体的，在收集到素材文本后从素材文本中提取出待建知识库的备选答案，该基于素材文本形成待建知识库的备选答案的过程可以包括：对素材文本进行断句处理将素材文本拆散成多个短句，然后基于多个短句的语义对多个短句进行合并处理，从而形成待建知识库的备选答案。

102、收集所述待建知识库的至少一个问题。

具体的，收集待建知识库的至少一个问题的方法至少包括如下两种：

第一种，获取针对待建知识库的人工客服历史聊天记录，从该人工客服历史聊天记录中收集待建知识库的至少一个问题。由于人工客服历史聊天记录是用户与客服沟通的记录，因此获取到的问题更能反应出用户的需求。

第二种，接收外部输入的针对待建知识库的至少一个问题，这里所述的问题是构建知识库的业务人员根据用户的需求人为统计的问题。由于问题是由业务人员指定的，因此不仅可以省略复杂的问题整理工作，而且收集问题的概率较高，且问题存在无用内容(比如闲聊词语)的概率较低。

103、对所述至少一个问题进行预处理，依据预处理后的问题，在所述备选答案中获取所述预处理后的问题的答案。

具体的，对至少一个问题进行预处理的方法包括如下方法中的至少一种：

第一种，针对每一个问题均执行：检测该问题中是否包括错别字，若是，对该问题进行错别字纠错处理。检测问题中是否包括错别字的方法包括：对问题进行分词，将分词中与错别词库中的错别词中相同的分词确定为目标词，并基于错别词确定出目标词中的错别字。错别词库中包括多个错别词，每一个错别词中均对错别字进行标识。举例说明：确定分词“金天”与错别词“金天”(金天中的错别字“金”被标识)相同，则将分词“金天”确定为目标词，并基于错别词“金天”被标识的错别字“金”确定出目标词“金天”中的“金”为错别字。

另外，此种方法中错别字纠错处理的方法包括如下两种：一种是，将该问题展示给业务人员，并提醒业务人员该问题中存在错别字。在业务人员错别字修改完毕后保存该问题。另一种，在预设的错别字纠错库中查询该错别字所在词对应的样本词，基于样本词修改该错别字。其中，错别字纠错库中包括多个已验证无错别的样本词。举例说明：检测出存在错别字“金”，且错别字所在词为“金天”。则在错别字纠错库中查询“金天”对应的样本词为“今天”，则将问题中的“金”修改为“今”。

第二种，检测至少一个问题中是否存在语义相似的问题，若存在，则合并语义相似的问题。相似问题合并不仅可以减少问题数量，而且避免出现问题重复。该方法中，语义相似的确定的方法至少包括如下两种：第一种，余弦相似度方法。该方法的过程为：确定两个文本分别对应的向量；判断两个文本的向量之间的余弦值是否小于设定的余弦阈值，若是，确定两个文本语义相似。其中，两个文本的型式可以根据业务要求确定，在本步骤中为两个问题。第二种，标签相似度方法。该方法的过程为：针对每一个文本均执行：从该文本中提取关键词；将关键字确定为该文本的标签；将多个文本中标签相同的文本确定为语义相似的文本。其中，文本的型式可以根据业务要求确定，在本步骤中为问题。

具体的，在备选答案中获取预处理后的问题的答案包括：将备选答案中与预处理后的问题语义相似的备选答案，确定为预处理后的问题的答案。其中，语义相似的确定的方法可以为上述中的余弦相似度方法或标签相似度方法。

104、基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。

具体的，基于预处理后的问题以及与所述预处理后的问题的答案构建知识库的过程可以包括：针对每一个预处理后的问题均执行：将该预处理后的问题与该问题的答案映射，形成该问题对应的问题答案对。基于问题答案对构建知识库。

在实际应用中，待建知识库存在两种：第一种，待建知识库为首次构建的知识库；第二种，待建知识库为已存在但是需要更新的知识库。因此针对上述的两种待建知识库，基于问题答案对构建知识库的过程包括如下两种：第一种，待建知识库为首次构建的知识库，则将问题答案对添加到待建知识库对应的预设知识库架构中，形成待建知识库。第二种，待建知识库为已存在但是需要更新的知识库，则将问题答案对中与待建知识库的已有问题答案对语义不相似的问题答案对，添加到待建知识库中。

本发明实施例实施例提供的知识库构建方法，首先基于素材文本形成待建知识库的备选答案，并收集待建知识库的问题。在对收集的问题进行预处理后，依据预处理后的问题在备选答案中获取预处理后的问题的答案。最后基于预处理后的问题以及与预处理后的问题的答案构建知识库。通过上述可知，本发明实施例实施例提供的方案中问题的答案基于素材文本得到，而素材文本中覆盖有大量的有价值的信息。基于素材文本得到的答案便涵盖了这些有价值的信息，因此基于问题以及问题的答案便可以构建出高质量高覆盖的知识库。

本发明实施例提供的进一步的，根据图1所示的方法，本发明实施例的另一个实施例还提供了一种方法，如图2所示，所述方法主要包括：

201、将所述素材文本拆分成多个短句。

具体的，使用标点符号规则将素材文本拆分成多个短句。其中，标点符号规则至少存在如下两种：

第一种，识别预设的标点符号，在预设的标点符号处对素材文本进行拆分。该预设的标点符号可以根据业务要求确定，可选的，预设的标点符号可以包括但不限于逗号、句号、分号、感叹号中的至少一种。举例说明：预设的标点符号为逗号和句号，则在拆分素材文本时，仅在逗号和句号处对素材文本进行拆分。由于仅在预设的标点符号处对素材文本进行拆分，因此预设的标点符号可以选用不影响短句语义的标点符号，从而保证拆分出的短句的语义完整性。

第二种，识别素材文本中的所有的标点符号，在每一个标点符号处对素材文本进行拆分。所有的标点符号是指素材文本中目前公知的所有的标点符号。由于所有的标点符号处均对素材文本进行了拆分，因此拆分出大量的短句，从而加大备选答案的选择基数。

202、基于所述多个短句的语义对所述多个短句进行合并处理形成待建知识库的备选答案。

具体的，基于所述多个短句的语义对所述多个短句进行合并处理形成待建知识库的备选答案的具体过程包括：确定所述多个短句中语义相似的短句；合并语义相似的短句形成所述备选答案。

具体的，确定多个短句中语义相似的短句的方法至少包括如下三种：

第一种，确定多个短句中语义相似的短句包括：采用上述的余弦相似度方法。确定每一个短句的句子向量；将句子向量之间余弦值小于设定的余弦阈值的短句确定为语义相似的短句。其中，短句的句子向量的确定方法为：对短句进行分词；基于分词后的短句利用Word2Vector词向量加权平均求得句子向量。

第二种，确定多个短句中语义相似的短句包括：采用上述的余弦相似度方法。针对任意两个短句均执行：对两个短句分别进行分词处理，基于分词处理的两个短句得到两个短句分别对应的词频向量；判断两个短句的词频向量之间余弦值是否小于预设的余弦值阈值，若是，确定两个短句语义相似。下面以实例对两个短句分别进行分词处理，基于分词处理的两个短句得到两个短句分别对应的词频向量进行说明：对短句1分词处理后的短句1为：公司A/卖/产品B；对短句2分词处理后的短句2为：公司A/在北京/卖/产品B。短句1和短句2包括的所有分词为：公司A、卖、产品B、在北京。则短句1的词频向量为：(1，1，1，0)，短句2的词频向量为(1，1，1，1)。

第三种，确定多个短句中语义相似的短句包括：采用上述的标签相似度方法。针对每一个短句均执行：从短句中提取关键词；将关键字确定为所述短句的标签；将所述多个短句中标签相同的短句确定为语义相似的短句。其中，从短句提取关键字时可以采用预设的左右信息熵方法从短句中提取关键字。在采用预设的左右信息熵方法从短句中提取关键词时可以基于如下原则进行提取：从短句中提取待建知识库所服务行业中相关的专业词汇。比如，在待建知识库服务于基金行业时，提取的关键词可以为开户或购买等该行业领域的相关词汇。

另外，在采用第三种方式时除了将短句中包括的关键词作为短句的标签外，还可以将不包括在短句中的词作为短句的标签，因此从短句中提取关键词之前，该方法还可以包括：判断所述多个短句中是否存在已具有标签短句；若存在，将与所述短句语义相似的已具有标签短句的标签确定为所述短句的标签。

203、收集所述待建知识库的至少一个问题。

具体的，至少通过如下两种方法收集待建知识库的至少一个问题：

第一种，收集所述待建知识库的至少一个问题包括：获取针对所述待建知识库的人工客服历史聊天记录；利用预设的分类模型从所述人工客服历史聊天记录中提取业务文本；基于预设的聚类算法从所述业务文本提取所述至少一个问题。

此种方法中获取的人工客服历史聊天记录会包括一些与业务无关的闲聊等无用内容(比如，你好、谢谢、请问之类的词语)，而这些无用内容并不是有效的问题应予以剔除。因此利用预设的分类模型从人工客服历史聊天记录中提取业务文本，而忽略人工客服历史聊天记录中的无用内容。这里所述的分类模型可以将人工客服历史聊天记录中的每一个用户问题进行二分类，分成闲聊文本和业务文本。在识别出闲聊文本时则将闲聊文本剔除，在识别出业务文本时则提取业务文本。分类模型的具体型式可以根据业务要求确定，可选的，分类模型可以包括但不限于SVM(Support Vector Machine)、决策树以及CNN(Convolutional Neural Networks，卷积神经网络)中的任意一种。

需要说明的是，在提取的业务文本中可能包括有垃圾业务问题，这部分垃圾业务问题无用，且会扰乱待构建知识库中的问题，因此需要剔除。为了剔除垃圾业务问题，在基于预设的聚类算法从所述业务文本提取所述至少一个问题之前，该方法还包括：检测所述业务文本中是否存在与预设的垃圾文本库中的垃圾文本语义相似的业务文本；若存在，剔除。这里所述的垃圾文本库中包括已验证的垃圾文本。检测业务文本中是否存在与预设的垃圾文本库中的垃圾文本语义相似的业务文本过程包括：针对每一个业务文本均执行：确定该业务文本与垃圾文本库中每一个垃圾文本的语义相似度，如果垃圾文本库中存在与该业务文本语义相似度小于设定阈值的垃圾文本，则确定该业务文本为垃圾文本，需剔除该业务文本。同时，可以将剔除的业务文本添加到垃圾文本库中，从而不断的丰富垃圾文本库，以使从业务文本中去除垃圾文本的操作越来越精准。需要说明的是，语义相似的确定的方法可以为上述中的余弦相似度方法或标签相似度方法。

此种方法中的基于预设的聚类算法从所述业务文本提取所述至少一个问题可以包括：将业务文本进行聚类，并将语义相似的业务文本聚到一个簇，然后提取每个簇的中心点作为该簇对应的有效业务文本，将该有效业务文本确定为待建知识库的问题。聚类的算法可以包括但不限于K-Means、KNN和BIRCH算法等。

第二种，接收外部输入的针对待建知识库的至少一个问题，这里所述的问题是用户根据自己的需求人为统计的问题。由于问题是由业务人员指定的，因此不仅可以省略复杂的问题整理工作，提高收集问题的概率较高，且问题存在无用内容(比如闲聊词语)的概率较低。

204、对所述至少一个问题进行预处理。

具体的，本步骤中对至少一个问题进行预处理的方法与上述中步骤103中的方法基本相同，因此这里将不再赘述。

205、依据预处理后的问题，将所述备选答案中与所述预处理后的问题语义相似的备选答案，确定为所述预处理后的问题的答案。

具体的，从备选答案中提取与所述预处理后的问题语义相似的备选答案的过程可以包括如下三种方法：

第一种，确定每一个备选答案的第一向量；确定每一个预处理后的问题的第二向量；将第一向量与第二向量之间余弦值小于预设余弦阈值的答案与问题对应标记；将与预处理后的问题存在对应标记关系的答案确定为该预处理后的问题的答案。

第二种，确定每一个备选答案的第一标签以及确定每一个预处理后的问题的第二标签；第一标签和第二标签的数量均为至少一个；针对每一个预处理后的问题均执行：在备选答案中选取第一标签与该问题的第二标签相同的备选答案，并将相同标签数量最多的备选答案确定为该问题的答案。举例说明：预处理后的问题1存在标签1A、1B以及1C。经过确定备选答案中的备选答案2的标签2A与问题1的标签1A相同。备选答案3的标签3A与问题1的标签1A相同。备选答案3的标签3B与问题1的标签1B相同。可见备选答案3中有两个标签与问题1中的两个标签相同，标签相同数量多于备选答案2，因此将备选答案3确定为问题1的答案。

第三种，确定每一个所述备选答案的标签以及每一个所述预处理后的问题的标签；针对每一个所述预处理后的问题均执行：确定所述预处理后的问题的标签针对每一个所述备选答案的标签的词频；确定所述预处理后的问题的标签针对所有所述备选答案的标签的逆向文件频率；基于所述词频和所述逆向文件频率确定所述预处理后的问题的标签针对每一个所述备选答案的分值；将最高分值对应的备选答案确定为所述预处理后的问题对应的备选答案。

具体的，第三种方法中所涉及的预处理后的问题的标签针对每一个备选答案的标签的词频(用TF表征)，实际上就是该问题的标签在每一个备选答案的标签中出现的次数。

具体的，第三种方法中所涉及的确定预处理后的问题的标签针对所有备选答案的标签的逆向文件频率(用IDF表征)的确定过程为：确定备选答案的总数；确定目标备选答案的总量，其中，目标备选答案的标签中包括有该问题的标签；采用如下公式计算逆向文件频率：逆文档频率(IDF)＝log(备选答案的总数/(目标备选答案的总量+1)。

具体的，基于所述词频和所述逆向文件频率确定所述预处理后的问题的标签针对每一个所述备选答案的分值(TF-IDF)的过程为：(TF-IDF)＝TF×IDF。分值越高说明问题与备选答案的语义相似度越高，因此将最高分值对应的备选答案确定为预处理后的问题对应的答案。

206、校验所述预处理后的问题以及与所述预处理后的问题的答案形成至少一个问题答案对。

具体的，校验所述预处理后的问题以及与所述预处理后的问题的答案形成至少一个问题答案对的过程包括：

针对每一个预处理后的问题均执行：将预处理后的问题以及预处理后的问题的答案对应的展示给校核人员，以便校核人员对展示答案进行筛选；在接收到针对该预处理后的问题的核验通过通知时，将该预处理后的问题与核验通过通知标识的答案配置为一个问题答案对；该核验通过通知用于标识出预处理后的问题对应的答案中的至少一个答案。

在将预处理后的问题以及预处理后的问题的答案对应的展示给校核人员时，可以基于web页面的方式或窗口程序的方式展示。校验人员在确定答案中存在可以入库的答案时，标记该可入库的答案，该可入库的答案标记在核验通过通知中。校核人员在确定答案中无可用答案时，则可以剔除该问题以及该问题对应的答案。当然，校验人员在校验时可以根据需求编辑展示出的问题或答案。比如，在问题或答案中存在错别字或无用内容时，或，问题与答案不匹配时，可以对问题或答案进行编辑。在校验人员编辑完之后，及时对编辑后的问题与答案进行保存。

另外，需要说明的是，问题答案对存在如下两种型式。第一种，一个问题答案对中包括一个问题以及一个答案；第二种，一个问题答案对中包括一个问题以及至少两个答案。

具体的，由于一个问题可以对应至少两个，因此校验所述预处理后的问题以及与所述预处理后的问题的答案形成至少一个问题答案对，可以包括：针对每一个所述预处理后的问题均执行：对所述预处理后的问题的答案进行校验处理，并判断所述校验处理后的答案是否多于一个；若多于，则对所述校验处理后的答案进行优先级排序，将优先级排序后的答案与所述预处理的问题确定为一个问题答案对。其中，答案的优先级排序的原则可以为：与问题语义相似度高的答案优先级高。

举例说明：采用余弦相似度方法确定问题与答案之间的余弦值，则余弦值越小问题与答案之间的语义相似度越高，则该答案在各个答案中的语义优先级越高。

需要说明的是，在一个问题的答案为多个时，各个答案进行优先级排序，从而在知识库向用户推送问题的答案时，可以按照答案的优先级向用户推动答案，以使用户可以尽快的得到最优答案。

207、将所述至少一个问题答案对添加到所述待建知识库对应的预设知识库架构中，形成所述待建知识库。

具体的，待建知识库存在两种：第一种，待建知识库为首次构建的知识库；第二种，待建知识库为已存在但是需要更新的知识库。因此在将所述至少一个问题答案对添加到所述待建知识库对应的预设知识库架构中，形成所述待建知识库之前，还可以包括如下步骤：判断是否已具有所述待建知识库；若已具有，则将所述至少一个问题答案对中与所述待建知识库的已有问题答案对语义不相似的问题答案对，添加到所述待建知识库中；否则，执行所述将所述至少一个问题答案对添加到所述待建知识库对应的预设知识库架构中，形成所述待建知识库。可见，在判断出已具有待建知识库时，仅将问题答案对中与待建知识库的已有问题答案对语义不相似的问题答案对添加到待建知识库中，而将问题答案对中与待建知识库中的已有问题答案对语义相似的问题答案剔除，从而保证知识库中知识点的唯一性，避免知识库中的知识点出现混乱。

具体的，语义相似的确定方法可以采用上述中的中的余弦相似度方法或标签相似度方法。知识库框架限定了问题答案对的存储格式，问题答案对应按照存储格式添加到知识库框架中。

另外，需要说明的是，当一个问题对应多个答案时，则多个答案标识出各个答案的优先级顺序，以便在推送该问题对应的答案时可以按照优先级顺序推送多个答案。该多个答案在推动时，可以存在两种推送方式，一种是，同时推送多个答案，但是多个答案以优先级顺序排序。另一种，先推送优先级最高的答案，在该答案不被用户接受时推送下一个优先级的答案，直到用户停止问题或推送到优先级最低的答案为止。

进一步的，依据上述方法实施例，本发明实施例的另一个实施例还提供了一种知识库构建装置，如图3所示，所述装置包括：

形成模块31，用于基于素材文本形成待建知识库的备选答案；

收集模块32，用于收集所述待建知识库的至少一个问题；

获取模块33，用于对所述至少一个问题进行预处理，依据预处理后的问题，在所述备选答案中获取所述预处理后的问题的答案；

构建模块34，用于基于预处理后的问题以及与所述预处理后的问题的答案构建知识库。

本发明实施例实施例提供的知识库构建装置中问题的答案基于素材文本得到，而素材文本中覆盖有大量的有价值的信息。基于素材文本得到的答案便涵盖了这些有价值的信息，因此基于问题以及问题的答案便可以构建出高质量高覆盖的知识库。

可选的，如图4所示，所述形成模块31包括：

拆分子模块311，用于将所述素材文本拆分成多个短句；

形成子模块312，用于基于所述多个短句的语义对所述多个短句进行合并处理形成待建知识库的备选答案。

可选的，如图4所示，所述形成子模块312包括：

第一确定单元3121，用于确定所述多个短句中语义相似的短句；

第一形成单元3122，用于合并语义相似的短句形成所述备选答案。

可选的，如图4所示，所述第一确定单元3121包括：

第一确定子单元31211，用于针对每一个所述短句均执行：利用预设的左右信息熵方法从所述短句中提取关键字；将所述关键字确定为所述短句的标签；

第二确定子单元31212，用于将所述多个短句中标签相同的短句确定为语义相似的短句。

可选的，如图4所示，所述第一确定单元3121还包括：

判断子单元31213，用于判断所述多个短句中是否存在已具有标签短句；若存在，触发第三确定子单元31214；

所述第三确定子单元31214，用于在所述判断子单元31213的触发下，将与所述短句语义相似的已具有标签短句的标签确定为所述短句的标签。

可选的，如图4所示，所述收集模块32包括：

获取子模块321，用于获取针对所述待建知识库的人工客服历史聊天记录；

第一提取子模块322，用于利用预设的分类模型从所述人工客服历史聊天记录中提取业务文本；

第二提取子模块323，用于基于预设的聚类算法从所述业务文本提取所述至少一个问题。

可选的，如图4所示，所述收集模块32还包括：

剔除子模块324，用于检测所述业务文本中是否存在与预设的垃圾文本库中的垃圾文本语义相似的业务文本；若存在，剔除。

可选的，如图4所示，所述获取模块33，用于将所述备选答案中与所述预处理后的问题语义相似的备选答案，确定为所述预处理后的问题的答案。

可选的，如图4所示，所述获取模块33包括：

确定子模块331，用于确定每一个所述备选答案的标签以及每一个所述预处理后的问题的标签；

获取子模块332，用于针对每一个所述预处理后的问题均执行：确定所述预处理后的问题的标签针对每一个所述备选答案的标签的词频；确定所述预处理后的问题的标签针对所有所述备选答案的标签的逆向文件频率；基于所述词频和所述逆向文件频率确定所述预处理后的问题的标签针对每一个所述备选答案的分值；将最高分值对应的备选答案确定为所述预处理后的问题对应的备选答案。

可选的，如图4所示，所述构建模块34包括：

检验子模块341，用于校验所述预处理后的问题以及与所述预处理后的问题的答案形成至少一个问题答案对；

第一构建子模块342，用于将所述至少一个问题答案对添加到所述待建知识库对应的预设知识库架构中，形成所述待建知识库。

可选的，如图4所示，所述构建模块34还包括：

判断子模块343，用于判断是否已具有所述待建知识库；若已具有，触发第二构建子模块344；否则，触发所述第一构建子模块342；

所述第二构建子模块344，用于在所述判断子模块343的触发下，将所述至少一个问题答案对中与所述待建知识库的已有问题答案对语义不相似的问题答案对，添加到所述待建知识库中。

可选的，如图4所示，所述检验子模块341，用于针对每一个所述预处理后的问题均执行：对所述预处理后的问题的答案进行校验处理，并判断所述校验处理后的答案是否多于一个；若多于，则对所述校验处理后的答案进行优先级排序，将优先级排序后的答案与所述预处理的问题确定为一个问题答案对。

本发明实施例实施例提供的装置中，各个功能模块运行过程中所采用的方法详解可以参见图1、图2方法实施例的对应方法详解，在此不再赘述。

进一步的，依据上述实施例，本发明实施例的另一个实施例还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如上所述的知识库构建方法。

进一步的，依据上述实施例，本发明实施例的另一个实施例还提供了一种电子设备，所述电子设备包括：存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如上所述的知识库构建方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明实施例的内容，并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明实施例的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明实施例的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明实施例的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明实施例的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明实施例的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例实施例的深度神经网络模型的运行方法、装置及框架中的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明实施例进行说明而不是对本发明实施例进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种知识库构建方法，其特征在于，包括：

将素材文本拆分成多个短句，所述素材文本是待建知识库所服务的行业所涉及到的素材文本；

针对任意两个短句均执行对两个短句分别进行分词处理，基于分词处理的两个短句得到两个短句分别对应的词频向量；判断两个短句的词频向量之间余弦值是否小于预设的余弦值阈值，若是，确定两个短句语义相似的操作，得到多个短句中语义相似的短句；

合并语义相似的短句形成备选答案；

收集所述待建知识库的至少一个问题；

对所述至少一个问题进行预处理；

依据预处理后的问题，确定每一个备选答案的第一标签以及确定每一个预处理后的问题的第二标签；第一标签和第二标签的数量均为至少一个；针对每一个预处理后的问题均执行在备选答案中选取第一标签与该问题的第二标签相同的备选答案，并将相同标签数量最多的备选答案确定为与所述预处理后的问题语义相似的备选答案，得到所述预处理后的问题的答案；

基于所述预处理后的问题以及所述预处理后的问题的答案，得到至少一个问题答案对；

判断是否已具有所述待建知识库；若已具有，则将所述至少一个问题答案对中与所述待建知识库的已有问题答案对语义不相似的问题答案对，添加到所述待建知识库中；否则，将所述至少一个问题答案对添加到所述待建知识库对应的预设知识库架构中，形成所述待建知识库。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对每一个所述短句均执行：利用预设的左右信息熵方法从所述短句中提取关键字；将所述关键字确定为所述短句的标签；

将所述多个短句中标签相同的短句确定为语义相似的短句。

3.根据权利要求2所述的方法，其特征在于，在所述利用预设的左右信息熵方法从所述短句中提取关键字之前，该方法还包括：

判断所述多个短句中是否存在已具有标签短句；

若存在，将与所述短句语义相似的已具有标签短句的标签确定为所述短句的标签。

4.根据权利要求1所述的方法，其特征在于，所述收集所述待建知识库的至少一个问题，包括：

获取针对所述待建知识库的人工客服历史聊天记录；

利用预设的分类模型从所述人工客服历史聊天记录中提取业务文本；

基于预设的聚类算法从所述业务文本提取所述至少一个问题。

5.根据权利要求4所述的方法，其特征在于，在所述基于预设的聚类算法从所述业务文本提取所述至少一个问题之前，该方法还包括：

检测所述业务文本中是否存在与预设的垃圾文本库中的垃圾文本语义相似的业务文本；若存在，剔除。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述备选答案中与所述预处理后的问题语义相似的备选答案，确定为所述预处理后的问题的答案。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定每一个所述备选答案的标签以及每一个所述预处理后的问题的标签；

针对每一个所述预处理后的问题均执行：确定所述预处理后的问题的标签针对每一个所述备选答案的标签的词频；确定所述预处理后的问题的标签针对所有所述备选答案的标签的逆向文件频率；基于所述词频和所述逆向文件频率确定所述预处理后的问题的标签针对每一个所述备选答案的分值；将最高分值对应的备选答案确定为所述预处理后的问题对应的备选答案。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

校验所述预处理后的问题以及与所述预处理后的问题的答案形成至少一个问题答案对；

将所述至少一个问题答案对添加到所述待建知识库对应的预设知识库架构中，形成所述待建知识库。

9.根据权利要求8所述的方法，其特征在于，所述校验所述预处理后的问题以及与所述预处理后的问题的答案形成至少一个问题答案对，包括：

针对每一个所述预处理后的问题均执行：

对所述预处理后的问题的答案进行校验处理，并判断所述校验处理后的答案是否多于一个；

若多于，则对所述校验处理后的答案进行优先级排序，将优先级排序后的答案与所述预处理的问题确定为一个问题答案对。

10.一种知识库构建装置，其特征在于，包括：

形成模块，用于将素材文本拆分成多个短句，所述素材文本是待建知识库所服务的行业所涉及到的素材文本；针对任意两个短句均执行对两个短句分别进行分词处理，基于分词处理的两个短句得到两个短句分别对应的词频向量；判断两个短句的词频向量之间余弦值是否小于预设的余弦值阈值，若是，确定两个短句语义相似的操作，得到多个短句中语义相似的短句；合并语义相似的短句形成备选答案；

收集模块，用于收集所述待建知识库的至少一个问题；

获取模块，用于对所述至少一个问题进行预处理，依据预处理后的问题，确定每一个备选答案的第一标签以及确定每一个预处理后的问题的第二标签；第一标签和第二标签的数量均为至少一个；针对每一个预处理后的问题均执行在备选答案中选取第一标签与该问题的第二标签相同的备选答案，并将相同标签数量最多的备选答案确定为与所述预处理后的问题语义相似的备选答案，得到所述预处理后的问题的答案；基于所述预处理后的问题以及所述预处理后的问题的答案，得到至少一个问题答案对；

构建模块，用于判断是否已具有所述待建知识库；若已具有，则将所述至少一个问题答案对中与所述待建知识库的已有问题答案对语义不相似的问题答案对，添加到所述待建知识库中；否则，将所述至少一个问题答案对添加到所述待建知识库对应的预设知识库架构中，形成所述待建知识库。

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

第一确定子单元，用于针对每一个所述短句均执行：利用预设的左右信息熵方法从所述短句中提取关键字；将所述关键字确定为所述短句的标签；

第二确定子单元，用于将所述多个短句中标签相同的短句确定为语义相似的短句。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

判断子单元，用于判断所述多个短句中是否存在已具有标签短句；若存在，触发第三确定子单元；

所述第三确定子单元，用于在所述判断子单元的触发下，将与所述短句语义相似的已具有标签短句的标签确定为所述短句的标签。

13.根据权利要求10所述的装置，其特征在于，所述收集模块包括：

获取子模块，用于获取针对所述待建知识库的人工客服历史聊天记录；

第一提取子模块，用于利用预设的分类模型从所述人工客服历史聊天记录中提取业务文本；

第二提取子模块，用于基于预设的聚类算法从所述业务文本提取所述至少一个问题。

14.根据权利要求13所述的装置，其特征在于，所述收集模块还包括：

剔除子模块，用于检测所述业务文本中是否存在与预设的垃圾文本库中的垃圾文本语义相似的业务文本；若存在，剔除。

15.根据权利要求10所述的装置，其特征在于，所述获取模块，还用于将所述备选答案中与所述预处理后的问题语义相似的备选答案，确定为所述预处理后的问题的答案。

16.根据权利要求15所述的装置，其特征在于，所述获取模块还包括：

确定子模块，用于确定每一个所述备选答案的标签以及每一个所述预处理后的问题的标签；

获取子模块，用于针对每一个所述预处理后的问题均执行：确定所述预处理后的问题的标签针对每一个所述备选答案的标签的词频；确定所述预处理后的问题的标签针对所有所述备选答案的标签的逆向文件频率；基于所述词频和所述逆向文件频率确定所述预处理后的问题的标签针对每一个所述备选答案的分值；将最高分值对应的备选答案确定为所述预处理后的问题对应的备选答案。

17.根据权利要求10所述的装置，其特征在于，所述构建模块还包括：

检验子模块，用于校验所述预处理后的问题以及与所述预处理后的问题的答案形成至少一个问题答案对；

第一构建子模块，用于将所述至少一个问题答案对添加到所述待建知识库对应的预设知识库架构中，形成所述待建知识库。

18.根据权利要求17所述的装置，其特征在于，所述检验子模块，用于针对每一个所述预处理后的问题均执行：对所述预处理后的问题的答案进行校验处理，并判断所述校验处理后的答案是否多于一个；若多于，则对所述校验处理后的答案进行优先级排序，将优先级排序后的答案与所述预处理的问题确定为一个问题答案对。

19.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行如权利要求1至9中任意一项所述的知识库构建方法。

20.一种电子设备，其特征在于，所述电子设备包括：存储介质和处理器；

所述处理器，适于实现各指令；

所述存储介质，适于存储多条指令；

所述指令适于由所述处理器加载并执行如权利要求1至9中任意一项所述的知识库构建方法。