CN111382235A

CN111382235A - 一种问答知识库的优化方法及其装置

Info

Publication number: CN111382235A
Application number: CN201811611035.3A
Authority: CN
Inventors: 李波; 姚贡之; 姜中秋; 朱频频
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2020-07-07

Abstract

本发明提供了一种问答知识库的优化方法，用于基于交互日志优化问答知识库，所述问答知识库包括多个知识点，每个知识点对应于一标准问，所述标准问关联有多个扩展问以及一个答案，所述优化方法包括：获取关于问答知识库的所有交互日志中的所有未回答问题；将所有未回答问题进行分类和/或聚类以获得至少一个分类问题集合和/或至少一个聚类问题集合；以及基于所述至少一个分类问题集合和/或所述至少一个聚类问题集合生成优化数据以优化所述问答知识库。

Description

一种问答知识库的优化方法及其装置

技术领域

本发明涉及智能问答领域，尤其涉及一种问答知识库的优化方法及其装置。

背景技术

人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器，也可以是计算机化的系统和软件。例如，通过人机交互可以实现各种人工智能系统，例如，智能客服系统、语音控制系统等等。

智能问答系统是人机交互的一种典型应用，其中当用户提出问题后，智能问答系统给出该问题的答案。为此，智能问答系统中有一套知识库，里面有大量的问题和与每个问题相对应的答案。智能问答系统首先需要识别用户所提出的问题，即从知识库中找到与该用户问题所对应的问题，然后找出与该问题相匹配的答案。

在某些情况下，由于用户的表达习惯与知识库中的问题的表述方式差异很大，智能问答系统无法将用户的问题与知识库中的问题进行匹配，从而无法找出对应的答案。还有一些情况下，由于知识库的限制，用户可能会产生一些知识库中不存在的问题，智能问答系统亦无法找出该些问题对应的答案。

上述情况下，用户会产生不良的使用体验，因此需要基于该些未回答的问题持续改进智能问答系统，以防止其它用户产生相同的不良体验。现有技术中，需要运营人员对该智能问答系统的交互日志进行统计和分析，再根据分析结果优化智能问答系统，费时费力。

因此，本发明旨在提供一种能够半自动辅助运营人员快速优化智能问答系统的方法。

发明内容

为了克服上述缺陷，本发明旨在提供一种问答知识库的优化方法。

根据本发明的一方面，提供了一种优化方法，用于基于交互日志优化问答知识库，所述问答知识库包括多个知识点，每个知识点对应于一标准问，所述标准问关联有多个扩展问以及一个答案，所述优化方法包括：获取关于问答知识库的所有交互日志中的所有未回答问题；将所有未回答问题进行分类和/或聚类以获得至少一个分类问题集合和/或至少一个聚类问题集合；以及基于所述至少一个分类问题集合和/或所述至少一个聚类问题集合生成优化数据以优化所述问答知识库。

更进一步地，所述获得至少一个分类问题集合和/或至少一个聚类问题集合包括：利用深度学习模型将所有未回答问题与所述问答知识库中的所有标准问及其扩展问进行匹配；以及响应于任一未回答问题与任一标准问或任一扩展问匹配成功，将所述未回答问题分类至与所述标准问或所述扩展问关联的标准问对应的分类问题集合；和/或响应于任一未回答问题与所述问答知识库中的所有标准问及其扩展问匹配失败，将所述未回答问题聚类至与其语义相似的聚类问题集合。

更进一步地，所述优化方法还包括：基于所述优化数据训练所述深度学习模型以优化所述深度学习模型。

更进一步地，所述生成优化数据包括：基于人工确认结果判断每一分类问题集合及其对应的标准问是否匹配正确；以及响应于一分类问题集合及其对应的标准问匹配正确，将所述分类问题集合中的所有问题设定为优化数据；和/或基于人工确认结果判断是否基于每一聚类问题集合生成新的知识点；响应于确认基于一聚类问题集合生成新的知识点，将所述聚类问题集合中的一个未回答问题设为所述新的知识点的标准问，将所述聚类问题集合中的其余未回答问题设为所述新的知识点的扩展问，并将人工标注的答案作为所述新的知识点的标准问关联的答案；以及将所述新的知识点设定为优化数据。

更进一步地，所述优化问答知识库包括：将基于分类问题集合生成的优化数据中的所有未回答问题设为其对应的标准问的扩展问；和/或将基于聚类问题集合生成的优化数据中的每一新的知识点设为所述问答知识库中的一个知识点，所述新的知识点对应的标准问及其关联的扩展问和答案为所述知识点对应的标准问及其关联的扩展问和答案。

更进一步地，所述优化方法还包括：获取关于问答知识库的所有交互日志中的所有已回答问题及其对应的标准问A；将每一已回答问题输入所述深度学习模型以获得与所述已回答问题匹配的标准问B；基于所述每一已回答问题对应的标准问A和标准问B对所述已回答问题进行质检。

更进一步地，所述质检包括：响应于所述标准问A和标准问B相同，判断所述已回答问题质检通过；响应于所述标准问A和标准问B不同，分别计算每一已回答问题与标准问A和标准问B的相似度；响应于所述已回答问题与标准问A和标准问B的相似度差值小于预设阈值，将所述已回答问题设为待质检问题；以及响应于所述已回答问题与标准问A和标准问B的相似度差值大于预设阈值，判断所述已回答问题质检通过。

更进一步地，所述质检还包括：输出所述待质检问题以供人工确认。

更进一步地，所述质检基于热点知识或预设知识进行。

根据本发明的另一个方面，提供了一种问答知识库的优化装置，用于基于交互日志优化问答知识库，所述问答知识库包括多个知识点，每个知识点对应于一标准问，所述标准问关联有多个扩展问以及一个答案，所述优化装置包括：获取模块，用于获取关于问答知识库的所有交互日志中的所有未回答问题；问题集合生成模块，与所述获取模块耦接并接收所述获取模块获取的所有未回答问题，所述问题集合生成模块还用于将所有未回答问题进行分类和/或聚类以获得至少一个分类问题集合和/或至少一个聚类问题集合；以及优化模块，与所述问题集合生成模块耦接并基于所述至少一个分类问题集合和/或所述至少一个聚类问题集合生成优化数据以优化所述问答知识库。

根据本发明的另一个方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器上的计算机程序，其特征在于，所述处理器被用于执行存储在所述存储器上的计算机程序时实现如上述任一项所述的优化方法的步骤。

根据本发明的另一个方面，提供了一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如上述任一项所述优化方法的步骤。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，更能够更好地理解本发明的上述特征和优点。

图1A是根据本发明的一个方面绘示的一实施例的优化方法流程图；

图1B是根据本发明的一个方面绘示的一实施例的质检过程流程图；

图2A是根据本发明的另一个方面绘示的一实施例的硬件框图；

图2B是根据本发明的另一个方面绘示的另一实施例的硬件框图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

问答知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ，一般的形式是“问-答”对。在本发明中，“标准问”是用来表示某个知识点的文字，主要目标是表达清晰，便于维护。例如，“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”，而应广义地来理解一“输入”，该“输入”具有对应的“输出”。例如，对于用于控制系统的语义识别而言，用户的一个指令，例如“打开收音机”也应可以被理解为是一个“问”，此时对应的“答”可以是用于执行相应控制的控制程序的调用。

用户在向机器输入时，最理想的情况是使用标准问，则机器的智能语义识别系统马上能够理解用户的意思。然而，用户往往并非使用的是标准问，而是标准问的一些变形的形式。例如，若对于收音机的电台切换的标准问形式是“换一个电台”，那么用户可能使用的命令是“切换一个电台”，机器也需要能够识别用户表达的是同一个意思。因此，对于智能语义识别而言，问答知识库里需要有标准问的相似问，该相似问与标准问表达形式有略微差异，但是表达相同的含义，该相似问在本领域中对应的专有名词为“扩展问”。

基于上述简单介绍可知，问答知识库包括多个知识点，每个知识点对应于一标准问，每个标准问关联有多个扩展问以及一个答案。

为辅助运营人员优化智能问答系统，需要一种能够基于智能问答系统未回答的问题自动产生一优化智能问答系统的推荐方案的方法。

为解决上述问题，根据本发明的一个方面，提供一种问答知识库的优化方法。

在一实施例中，如图1A所示，优化方法100包括：

S110：获取关于问答知识库的所有交互日志中的所有未回答问题。

在智能问答系统与用户交互的过程中，智能问答系统通过在问答知识库中找到用户提出的问题对应的标准问，并将该标准问对应的答案反馈给用户，从而形成一次交互。同时智能问答系统会记录与用户的所有交互内容，包括用户的问题和智能问答系统产生的答案，该些记录称之为交互日志。

通过识别交互日志中的每一问题是否产生了对应的答案可获得所有智能问答系统未能为用户提供答案的未回答问题。

S120：将所有未回答问题进行分类和/或聚类以获得至少一个分类问题集合和/或至少一个聚类问题集合。

可以理解，由于未回答问题是很多使用智能问答系统的不同用户提出的问题，因此可能会存在相同或相似的问题，所谓“相同或相似”是指两个问题的语义相似，该些语义相似的问题的标准是对应于同一答案。对该些问题进行分类和/或聚类可得到至少一个分类问题集合和/或至少一个聚类问题集合。可以想象，当存在多个分类问题集合和/或多个聚类问题集合时，每一分类问题集合或每一聚类问题集合中的问题的语义是相同或相似的，而该多个分类问题集合和/或多个聚类问题集合中的问题是不同的，即分别对应于不同的答案。

在一些实施例中，可基于分类问题集合或聚类问题集合中的未回答问题的数量来判断是否需要基于该分类问题集合或聚类问题集合对问答知识库进行优化。可以理解，出现频率高的未回答问题在一定程度上表明用户对该问题的渴求度，因此基于出现频率高的未回答问题对问答知识库进行优化的迫切度更高。

S130：基于该至少一个分类问题集合和/或至少一个聚类问题集合生成优化数据以优化问答知识库。

进一步地，步骤S120可包括：

S121：利用深度学习模型将所有未回答问题与问答知识库中的所有标准问及其扩展问进行匹配；

一般地，在智能问答系统为用户提出的问题匹配标准问时采用的是相似度计算方法或其它方法，本发明采用不同于智能问答系统在回答用户问题时采用的方法即通过深度学习模型来将未回答问题与问答知识库中的所有标准问及其扩展问进行匹配，从而可能获得不同于智能问答系统的匹配方法的结果。

具体地，该深度学习模型可分为深度学习分类模型和深度学习聚类模型。其中，深度学习分类模型用于将未回答问题与问答知识库中的标准问及其扩展问进行匹配。该深度学习分类模型通过大量的问题及其正确匹配的标准问或扩展问进行基于深度学习算法的训练以得到该深度学习分类模型。将所有未回答问题输入该深度学习分类模型以获得每个未回答问题的分类信息。

S122：响应于满足条件1：任一未回答问题与任一标准问或任一扩展问匹配成功，将该未回答问题分类至与该标准问或该扩展问关联的标准问对应的分类问题集合。

可以理解，可通过每个未回答问题的分类信息判断该未回答问题是否与一标准问或一扩展问匹配成功，并基于与每一未回答问题匹配成功的标准问或匹配成功的扩展问关联的标准问对该未回答问题进行分类。与同一标准问匹配成功的未回答问题或匹配的扩展问关联的标准问相同的未回答问题归为相同或相似问题，分在同一分类问题集合中。

S123：响应于满足条件2：任一未回答问题与问答知识库中的所有标准问及其扩展问匹配失败，将该未回答问题聚类至与其语义相似的聚类问题集合。

可以理解，深度学习分类模型匹配未回答问题与标准问或扩展问时具有一定的标准，当存在未回答问题无法与所有标准问及扩展问匹配成功时，则需要深度学习聚类模型对该些问题进行处理。该深度学习聚类模型对该些无法匹配问答知识库中的标准问或扩展问的未回答问题进行聚类，从而将相同或相似的未回答问题聚类至一个聚类问题集合。

通过大量的聚类问题集合进行基于深度学习算法的训练以获得该深度学习聚类模型，每一个聚类问题集合中包括大量相同或相似的问题。

可以理解，在一些具体的优化过程中，步骤S123并非是必然执行的，仅仅当存在无法分类的未回答问题时才执行。

进一步地，该步骤S130可包括：

S131：基于人工确认结果判断每一分类问题集合及其对应的标准问是否匹配正确。

可以理解，深度学习分类模型的分类结果需要经过人工确认，即需要人工确认每一分类问题集合中的所有未回答问题是否语义相似且与同一标准问匹配。该过程是对深度学习分类模型的分类结果的检查确认，可以理解，当深度学习分类模型的分类结果准确度达到一定标准后，可省略该过程，直接默认经过深度学习分类模型的分类结果是正确的。

S132：响应于一分类问题集合及其对应的标准问匹配正确，将该分类问题集合中的所有问题设定为优化数据。

“优化数据”为可增加至问答知识库的数据或可替换问答知识库中的已有数据的数据。

可以理解，经过人工确认后的分类问题集合及其对应的标准问是准确对应的，即对应于一标准问的分类问题集合中的任一未回答问题均可用来表示该标准问。因此具有匹配成功的标准问的分类问题集合中的所有问题均是可增加至问答知识库中的数据，即优化数据。

基于步骤S123获得的聚类问题集合，该步骤S130还可包括：

S133：基于人工确认结果判断是否基于每一聚类问题集合生成新的知识点；

可以理解，对于步骤S123获得的聚类问题集合进行人工确认，人工确认的主要内容为：每一聚类问题集合中的所有问题是否都是相同或相似问题；以及所有问题对应的答案是否需要新增，可以理解，当且仅当某问题的答案需要新增时，该问题是无法与问答知识库中的某标准问匹配成功的，若某问题的答案是问答知识库中包括的答案，则该问题实际上应该分类至基于该答案关联的标准问的分类问题集合。

对于一聚类问题集合，人工确认该聚类问题集合中的所有未回答问题都是相同或相似问题且该些相同或相似问题对应的答案需要进行新增，则判断需要基于该聚类问题集合生成新的知识点。

S134：响应于确认基于一聚类问题集合生成新的知识点，并将该新的知识点设定为优化数据。其中，将该聚类问题集合中的一个未回答问题设为该新的知识点的标准问，将该聚类问题集合中的其余未回答问题设为该新的知识点的扩展问，并将人工标注的答案作为该新的知识点的标准问关联的答案；

其中，将该聚类问题集合中的一个未回答问题设为该新的知识点的标准问可以通过预设规则来直接设定，比如将每一聚类问题的聚类中心作为该聚类问题集合的标准问或者将每一聚类问题集合中字数最少的问题作为该聚类问题的标准问等等。

可以理解，由于所有经过人工确认的聚类问题集合中的问题对应的答案是需要新增的，因此需要人工为该些聚类问题集合中的问题标注答案。

更进一步地，该优化方法100还包括：

S140：基于优化数据优化该问答知识库。

具体地，对于基于分类问题集合生成的优化数据，可将其中的所有未回答问题设为其对应的标准问的扩展问；对于基于聚类问题集合生成的优化数据，可将基于每一聚类问题集合生成的新的知识点设为问答知识库中的一个知识点，步骤S134中确定的标准问及其关联的扩展问和答案为该知识点对应的标准问及其关联的扩展问和答案。

同时，该优化方法100还可以包括：

S150：基于该些优化数据来训练深度学习模型以优化深度学习模型。具体地，基于分类问题集合生成的优化数据用于训练深度学习分类模型；基于聚类问题集合生成的优化数据用于训练深度学习聚类模型。

更优地，该优化方法100还包括质检过程，如图1B所示，具体的质检过程包括：

S160：获取关于问答知识库的所有交互日志中的所有已回答问题及其对应的标准问A；由于智能问答系统在与用户交互时会记录所有的交互内容，因此交互日志中会存在用户提出的问题及智能问答系统反馈的答案的记录，通过对该些记录进行分析可获得所有的已回答问题及其对应的标准问。

其中，智能问答系统在为用户反馈答案时是通过将用户提出的问题与问答知识库中的标准问或扩展问进行匹配，匹配成功的标准问或扩展问关联的标准问即作为用户提出的问题对应的标准问，而用户提出的问题对应的标准问关联的答案即作为该用户提出的问题的反馈答案。因此，智能问答系统还可以在交互日志中为每一已回答问题记录智能问答系统为其匹配的标准问，或者通过智能问答系统再次为该已回答问题匹配标准问，甚至可以通过在问答知识库中搜索交互日志中记录的该已回答问题的反馈答案，问答知识库中与该反馈答案关联的标准问即是智能问答系统为该已回答问题匹配的标准问。

S170：将每一已回答问题输入深度学习分类模型以获得与该已回答问题匹配的标准问B；

可以理解，标准问A实际上是用于泛指所有通过智能问答系统为用户提出的问题匹配的标准问，仅用于区别通过深度学习分类模型为已回答问题匹配的标准问B。对于每一已回答问题，智能问答系统为该已回答问题匹配的标准问即为标准问A，深度学习模型为该已回答问题匹配的标准问即为标准问B。

S180：基于每一已回答问题对应的标准问A和标准问B对该已回答问题进行质检。

更进一步地，该步骤S180可包括：

S181：响应于满足条件3：一已回答问题对应的标准问A和标准问B相同，判断该已回答问题质检通过；可以理解，当通过不同方法为一问题匹配的标准问相同时，则两种方法实际上相互验证了另一种方法的准确性。

S182：响应于满足条件4：一回答问题对应的标准问A和标准问B不同，分别计算每一已回答问题与标准问A和标准问B的相似度；

具体的相似度计算方法可以采用以下一种或多种方式的结合：基于空间向量空间模型(Vector Space Model，VSM)的计算方法、基于隐形语义索引模型(Latent SemanticIndexing，LSI)的计算方法、基于属性论的语义相似度计算方法或基于汉明距离的语义相似度计算方法。本领域的技术人员可以理解，该相似度计算方法还可以是其它语义相似度计算方法或与其它语义相似度计算方法的结合。

S183：响应于满足条件5：该已回答问题与标准问A和标准问B的相似度差值小于预设阈值，将该已回答问题设为待质检问题；可以理解，当通过两种方法为一问题匹配的标准问不同，且基于该两种方法匹配的标准问与该问题的相似度较为接近时，则该问题实际上匹配的标准问可能是该两种方法中的任意一种为该问题匹配的标准问，因此显然该问题实际应该对应于哪一标准问需要人工进行确认，即该问题的答案需要进行质检。

S184：响应于满足条件6：该已回答问题与标准问A和标准问B的相似度差值大于预设阈值，判断该已回答问题质检通过。

可以理解，在智能问答系统为该已回答问题匹配标准问A时，是基于一定的标准来匹配的，即该标准问A与该已回答问题的语义一般是较为相似的，其相似度值亦是较高的，因此，深度学习模型为该已回答问题匹配的标准问B与该已回答问题的相似度一般不太可能比该标准问A与该已回答问题的相似度大很多，即不可能超出该预设阈值。因此在该已回答问题与标准问A和标准问B的相似度差值大于预设阈值时，很可能是该已回答问题与标准问A的相似度远大于该已回答问题与标准问B的相似度，此时，该已回答问题实际匹配的标准问很可能就是智能问答系统为该已回答问题匹配的标准问A，因此可判断该已回答问题质检通过。

更进一步地，对于步骤S163中产生的待质检问题可进行输出以供人工确认。可以理解，运营人员可通过实际阅读该已回答问题以及标准问A和标准问B，从而为该已回答问题标注其真正匹配的标准问。

更优地，在一些实施例中，上述质检过程可基于热点知识或预设知识进行。可以理解，用户对于不同领域的问题的关心程度是不一样的，有些领域的问题可能是用户常问到的，有些可能是用户很少关心的。而对于用户常问到的热点知识进行质检以保证这些常问到的热点知识的答案的准确性对于提升用户的使用体验是较为有效的方法。而对于希望通过智能问答系统来帮助客户解决其所属领域的问题时，客户仅仅需要该智能问答系统能够准确回答其所属领域的问题，因此可基于客户所属的领域或关注的领域来设置预设知识，并基于该预设知识进行质检。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

根据本发明的另一个方面，提供一种问答知识库的优化装置，用于基于交互日志优化问答知识库。

在一实施例中，如图2A所示，优化装置200包括：

获取模块210，用于获取关于问答知识库的所有交互日志中的所有未回答问题。

获取模块210可通过识别交互日志中的每一问题是否产生了对应的答案来识别该问题是否是未回答问题，从而将所有智能问答系统未能为用户提供答案的未回答问题获取出来。

问题集合生成模块220，与获取模块210耦接，用于将获取模块210获取的所有未回答问题进行分类和/或聚类以获得至少一个分类问题集合和/或至少一个聚类问题集合。

可以理解，由于未回答问题是很多使用智能问答系统的不同用户提出的问题，因此可能会存在相同或相似的问题，所谓“相同或相似”是指两个问题的语义相似，该些语义相似的问题的标准是对应于同一答案。对该些问题进行分类和/或聚类可得到至少一个分类问题集合和/或至少一个聚类问题集合。可以想象，当存在多个分类问题集合和/或多个聚类问题集合时，每一分类问题集合或每一聚类问题集合中的问题的语义是相同或相似的，而不同的分类问题集合和/或不同的聚类问题集合中的问题的语义之间是不同的，即分别对应于不同的答案。

优化模块230，与该问题集和生成模块220耦接，用于基于问题集和生成模块220生成的至少一个分类问题集合和/或至少一个聚类问题集合生成优化数据以优化问答知识库。

进一步地，问题集和生成模块220包括匹配单元221、分类单元222以及聚类单元223。

匹配单元221利用深度学习模型将所有未回答问题与问答知识库中的所有标准问及其扩展问进行匹配；

分类单元222与匹配单元221耦接，响应于匹配单元221判断任一未回答问题与任一标准问或任一扩展问匹配成功，分类单元222将该未回答问题分类至与该标准问或该扩展问关联的标准问对应的分类问题集合；

可以理解，分类单元222可通过每个未回答问题的分类信息判断该未回答问题是否与一标准问或一扩展问匹配成功，并基于与每一未回答问题匹配成功的标准问或匹配成功的扩展问关联的标准问对该未回答问题进行分类。与同一标准问匹配成功的未回答问题或匹配的扩展问关联的标准问相同的未回答问题归为相同或相似问题，分在同一分类问题集合中。

聚类单元223与该匹配单元221耦接，响应于匹配单元221判断任一未回答问题与问答知识库中的所有标准问及其扩展问匹配失败，聚类单元223将该未回答问题聚类至与其语义相似的聚类问题集合。

可以理解，在一些具体的优化过程中，聚类模块223并非是必然运行的，仅仅当存在无法分类的未回答问题时才运行。

进一步地，优化模块230可包括：

识别单元231，用于基于人工确认结果判断每一分类问题集合及其对应的标准问是否匹配正确。

优化数据生成单元232，与该识别单元231耦接，响应于识别单元231判断一分类问题集合及其对应的标准问匹配正确，优化数据生成单元232将该分类问题集合中的所有问题设定为优化数据。

基于聚类单元223获得的聚类问题集合，该识别单元231基于人工确认结果判断是否基于每一聚类问题集合生成新的知识点；

可以理解，对于聚类单元223获得的聚类问题集合进行人工确认，人工确认的主要内容为：每一聚类问题集合中的所有问题是否都是相同或相似问题；以及所有问题对应的答案是否需要新增，可以理解，当且仅当某问题的答案需要新增时，该问题是无法与问答知识库中的某标准问匹配成功的，若某问题的答案是问答知识库中包括的答案，则该问题实际上应该分类至基于该答案关联的标准问的分类问题集合。

对于一聚类问题集合，人工确认该聚类问题集合中的所有未回答问题都是相同或相似问题且该些相同或相似问题对应的答案需要进行新增，则聚类单元223判断需要基于该聚类问题集合生成新的知识点。

优化数据生成单元232响应于确认基于一聚类问题集合生成新的知识点，将该聚类问题集合中的一个未回答问题设为该新的知识点的标准问，将该聚类问题集合中的其余未回答问题设为该新的知识点的扩展问，并将人工标注的答案作为该新的知识点的标准问关联的答案；

优化数据生成单元232将该新的知识点设定为优化数据。

更进一步地，该优化装置200还可以包括优化执行单元233。优化执行单元233与该优化数据生成单元232耦接并基于优化数据生成单元232生成的优化数据优化问答知识库。

具体地，对于基于分类问题集合生成的优化数据，优化执行单元233可将其中的所有未回答问题设为其对应的标准问的扩展问；对于基于聚类问题集合生成的优化数据，优化执行单元233可将基于每一聚类问题集合生成的新的知识点设为问答知识库中的一个知识点，优化数据生成单元232确定的标准问及其关联的扩展问和答案为该知识点对应的标准问及其关联的扩展问和答案。

同时，该优化装置200还可以包括训练模块240。训练模块240与该优化模块230耦接，可基于该优化模块230生成的优化数据来训练深度学习模型以优化深度学习模型。具体地，基于分类问题集合生成的优化数据用于训练深度学习分类模型；基于聚类问题集合生成的优化数据用于训练深度学习聚类模型。

在一更优实施例中，如图2B所示，该优化装置还包括质检模块250，具体的质检模块250包括获取单元251、匹配单元252、判断单元253以及相似度计算单元254。

获取单元251获取关于问答知识库的所有交互日志中的所有已回答问题及其对应的标准问A；由于智能问答系统在与用户交互时会记录所有的交互内容，因此交互日志中会存在用户提出的问题及智能问答系统反馈的答案的记录，通过对该些记录进行分析可获得所有的已回答问题及其对应的标准问。

匹配单元252与获取单元251耦接，用于将每一获取单元251获取的已回答问题输入深度学习分类模型以获得与该已回答问题匹配的标准问B。

判断单元253与匹配单元252耦接，基于每一已回答问题对应的标准问A和标准问B对该已回答问题进行质检。

更进一步地，判断单元253响应于一已回答问题对应的标准问A和标准问B相同，判断该已回答问题质检通过；可以理解，当通过不同方法为一问题匹配的标准问相同时，则两种方法实际上相互验证了另一种方法的准确性。

判断单元253响应于一回答问题对应的标准问A和标准问B不同，通过相似度计算单元254计算该已回答问题与标准问A和标准问B的相似度。

判断单元253接收相似度计算单元254计算出的相似度值，响应于该已回答问题与标准问A和标准问B的相似度差值小于预设阈值，判断单元253将该已回答问题设为待质检问题；可以理解，当通过两种方法为一问题匹配的标准问不同，且基于该两种方法匹配的标准问与该问题的相似度较为接近时，则该问题实际上匹配的标准问可能是该两种方法中的任意一种为该问题匹配的标准问，因此显然该问题实际应该对应于哪一标准问需要人工进行确认，即该问题的答案需要进行质检。

响应于该已回答问题与标准问A和标准问B的相似度差值大于预设阈值，判断单元253判断该已回答问题质检通过。

更进一步地，对于质检模块250产生的待质检问题可进行输出以供人工确认。可以理解，运营人员可通过实际阅读该已回答问题以及标准问A和标准问B，从而为该已回答问题标注其真正匹配的标准问。

更优地，在一些实施例中，质检模块250可基于热点知识或预设知识进行。可以理解，用户对于不同领域的问题的关心程度是不一样的，有些领域的问题可能是用户常问到的，有些可能是用户很少关心的。而对于用户常问到的热点知识进行质检以保证这些常问到的热点知识的答案的准确性对于提升用户的使用体验是较为有效的方法。而对于希望通过智能问答系统来帮助客户解决其所属领域的问题时，客户仅仅需要该智能问答系统能够准确回答其所属领域的问题，因此可基于客户所属的领域或关注的领域来设置预设知识，并基于该预设知识进行质检。

通过上述对质检模块250的描述可知，质检模块250的部分功能与获取模块210以及优化模块220的部分功能重叠，因此在本案的其它实施例中，质检模块的部分功能可由前述的获取模块210以及优化模块220进行。比如，质检模块250的获取单元251的功能由获取模块210执行，匹配单元252的功能由优化模块220执行。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

根据本发明的另一个方面，提供一种电子设备，该电子设备包括存储器、处理器以及存储在存储器上的计算机程序，该处理器被用于执行存储在存储器上的计算机程序时实现如优化方法100的任一实施例阐述的优化方法的步骤。

根据本发明的另一个方面，提供一种计算机存储介质，其上存储有计算机程序，该计算机程序被执行时实现如优化方法100的任一实施例阐述的优化方法的步骤。

本领域技术人员将可理解，信息、信号和数据可使用各种不同技术和技艺中的任何技术和技艺来表示。例如，以上描述通篇引述的数据、指令、命令、信息、信号、位(比特)、码元、和码片可由电压、电流、电磁波、磁场或磁粒子、光场或光学粒子、或其任何组合来表示。

结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供之前的描述是为了使本领域中的任何技术人员均能够实践本文中所描述的各种方面。但是应该理解，本发明的保护范围应当以所附权利要求书为准，而不应被限定于以上所解说实施例的具体结构和组件。本领域技术人员在本发明的精神和范围内，可以对各实施例进行各种变动和修改，这些变动和修改也落在本发明的保护范围之内。

Claims

1.一种问答知识库的优化方法，用于基于交互日志优化问答知识库，所述问答知识库包括多个知识点，每个知识点对应于一标准问，所述标准问关联有多个扩展问以及一个答案，所述优化方法包括：

获取关于问答知识库的所有交互日志中的所有未回答问题；

将所有未回答问题进行分类和/或聚类以获得至少一个分类问题集合和/或至少一个聚类问题集合；以及

基于所述至少一个分类问题集合和/或所述至少一个聚类问题集合生成优化数据以优化所述问答知识库。

2.如权利要求1所述的优化方法，其特征在于，所述获得至少一个分类问题集合和/或至少一个聚类问题集合包括：

利用深度学习模型将所有未回答问题与所述问答知识库中的所有标准问及其扩展问进行匹配；以及

响应于任一未回答问题与任一标准问或任一扩展问匹配成功，将所述未回答问题分类至与所述标准问或所述扩展问关联的标准问对应的分类问题集合；和/或

响应于任一未回答问题与所述问答知识库中的所有标准问及其扩展问匹配失败，将所述未回答问题聚类至与其语义相似的聚类问题集合。

3.如权利要求2所述的优化方法，其特征在于，还包括：

基于所述优化数据训练所述深度学习模型以优化所述深度学习模型。

4.如权利要求1所述的优化方法，其特征在于，所述生成优化数据包括：

基于人工确认结果判断每一分类问题集合及其对应的标准问是否匹配正确；以及

响应于一分类问题集合及其对应的标准问匹配正确，将所述分类问题集合中的所有问题设定为优化数据；和/或

基于人工确认结果判断是否基于每一聚类问题集合生成新的知识点；

响应于确认基于一聚类问题集合生成新的知识点，将所述聚类问题集合中的一个未回答问题设为所述新的知识点的标准问，将所述聚类问题集合中的其余未回答问题设为所述新的知识点的扩展问，并将人工标注的答案作为所述新的知识点的标准问关联的答案；以及

将所述新的知识点设定为优化数据。

5.如权利要求4所述的优化方法，其特征在于，所述优化问答知识库包括：

将基于分类问题集合生成的优化数据中的所有未回答问题设为其对应的标准问的扩展问；和/或

将基于聚类问题集合生成的优化数据中的每一新的知识点设为所述问答知识库中的一个知识点，所述新的知识点对应的标准问及其关联的扩展问和答案为所述知识点对应的标准问及其关联的扩展问和答案。

6.如权利要求2所述的优化方法，其特征在于，还包括：

获取关于问答知识库的所有交互日志中的所有已回答问题及其对应的标准问A；

将每一已回答问题输入所述深度学习模型以获得与所述已回答问题匹配的标准问B；

基于所述每一已回答问题对应的标准问A和标准问B对所述已回答问题进行质检。

7.如权利要求6所述的优化方法，其特征在于，所述质检包括：

响应于所述标准问A和标准问B相同，判断所述已回答问题质检通过；

响应于所述标准问A和标准问B不同，分别计算每一已回答问题与标准问A和标准问B的相似度；

响应于所述已回答问题与标准问A和标准问B的相似度差值小于预设阈值，将所述已回答问题设为待质检问题；以及

响应于所述已回答问题与标准问A和标准问B的相似度差值大于预设阈值，判断所述已回答问题质检通过。

8.如权利要求7所述的优化方法，其特征在于，所述质检还包括：

输出所述待质检问题以供人工确认。

9.如权利要求6所述的优化方法，其特征在于，所述质检基于热点知识或预设知识进行。

10.一种问答知识库的优化装置，用于基于交互日志优化问答知识库，所述问答知识库包括多个知识点，每个知识点对应于一标准问，所述标准问关联有多个扩展问以及一个答案，所述优化装置包括：

获取模块，用于获取关于问答知识库的所有交互日志中的所有未回答问题；

问题集合生成模块，与所述获取模块耦接并接收所述获取模块获取的所有未回答问题，所述问题集合生成模块还用于将所有未回答问题进行分类和/或聚类以获得至少一个分类问题集合和/或至少一个聚类问题集合；以及

优化模块，与所述问题集合生成模块耦接并基于所述至少一个分类问题集合和/或所述至少一个聚类问题集合生成优化数据以优化所述问答知识库。

11.一种电子设备，包括存储器、处理器以及存储在存储器上的计算机程序，其特征在于，所述处理器被用于执行存储在所述存储器上的计算机程序时实现如权利要求1～9中任一项所述的优化方法的步骤。

12.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1-9中任一项所述优化方法的步骤。