CN115114415A

CN115114415A - 问答知识库更新方法、装置、计算机设备和存储介质

Info

Publication number: CN115114415A
Application number: CN202110306863.1A
Authority: CN
Inventors: 王鹏
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shiyuan Artificial Intelligence Innovation Research Institute Co Ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-09-27

Abstract

本申请涉及一种问答知识库更新方法、装置、计算机设备和存储介质，方法包括：获取问题；对所述问题进行特征抽象化处理，得到所述问题的抽象化特征；基于所述抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出所述预设问答知识库没有对应答案的待回答问题；获取针对所述待回答问题对应的回答，将所述待回答问题对应的答案更新至所述预设问答知识库。上述方法利用抽象化特征筛选了预设问答知识库不能回答的问题，仅仅只需要对筛选出的待回答问题获取对应的回答进行更新，减少了更新预设问答知识库的工作量，缩短了更新过程所需时间，减少了人力成本和时间成本。

Description

问答知识库更新方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种问答知识库更新方法、装置、计算机设备和存储介质。

背景技术

智能客服系统知识库中所包含的一种重要的知识形式是“问题-答案”对，特定领域的专业人员通过手工录入的方式把这种形式的知识录入智能客服知识库中；当有用户向智能客服提问和知识库中问题比较相似的问题时，智能客服就会返回相应的答案给用户。

如果有用户问到知识库中未收录回答的问题，智能客服就无法回答用户的问题；随着时间的推移，知识库中的“问题-答案”对也需要不断的更新，以使智能客服能够回答更多用户提出的问题。传统方法中大多是利用人工将“问题-答案”录入知识库中，如此费时费力。

发明内容

基于此，有必要针对上述技术问题，提供一种人工的问答知识库更新方法、装置、计算机设备和存储介质，能够减少人工成本和时间成本。

一种问答知识库更新方法，所述方法包括：

获取问题；

对所述问题进行特征抽象化处理，得到所述问题的抽象化特征；

基于所述抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出所述预设问答知识库没有对应答案的待回答问题；

获取针对所述待回答问题对应的回答，将所述待回答问题对应的答案更新至所述预设问答知识库。

一种问答知识库更新装置，所述装置包括：

问题获取模块，用于获取问题；

抽象化处理模块，用于对所述问题进行特征抽象化处理，得到所述问题的抽象化特征；

匹配模块，用于基于所述抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出所述预设问答知识库没有对应答案的待回答问题；

更新模块，用于获取针对所述待回答问题对应的回答，将所述待回答问题对应的答案更新至所述预设问答知识库。

在其中的一个实施例中，所述装置还包括：

聚类模块，用于将所述待回答问题划分为不同的待回答问题集合，每一个所述待回答问题集合中包含的待回答问题属于同一类别；

删除模块，用于删除包含待回答问题的数量小于预设数量阈值的所述待回答问题集合，得到最终待回答问题集合；

所述更新模块还用于：获取所述待回答问题集合对应的回答，将所述待回答问题集合对应的回答更新至所述预设问答知识库。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取问题；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取问题；

上述问答知识库更新方法、装置、计算机设备和存储介质，在获取到用户提出的问题之后，通过对问题进行抽象化处理，得到问题对应的抽象化特征；基于得到的问题的抽象化特征，将问题的抽象化特征与预设问答知识库中的已有数据进行匹配，从而筛选出用户提出的问题中预设问答知识库没有匹配的回答的待回答问题；获取待回答问题的回答，将该回答更新到预设问答知识库，完成预设问答知识库的更新。上述方法通过对问题提取抽象化特征后，利用问题的抽象化特征与预设问答知识库中匹配，筛选出预设问答知识库中没有匹配回答的待回答问题，获取到待回答问题的回答之后，更新到预设问答知识库，由于已经利用抽象化特征筛选了预设问答知识库不能回答的问题，仅仅只需要对筛选出的待回答问题获取对应的回答进行更新，减少了更新预设问答知识库的工作量，缩短了更新过程所需时间，减少了人力成本和时间成本。

附图说明

图1为一个实施例中问答知识库更新方法的应用环境图；

图2为一个实施例中问答知识库更新方法的流程示意图；

图3为一个实施例中对问题进行特征抽象化处理，得到问题的抽象化特征的流程示意图；

图4为一个实施例中基于问题的各预设相似度算法对应的相似度分值，确定问题的抽象化特征的流程示意图；

图5为一个实施例中基于抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出预设问答知识库没有对应答案的待回答问题的流程示意图；

图6为另一个实施例中问答知识库更新方法的流程示意图；

图7为一个具体实施例中问答知识库更新方法的流程示意图；

图8为一个具体实施例中对待回答问题进行聚类，得到聚类结果的流程示意图；

图9为一个实施例中问答知识库更新装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的问答知识库更新方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。

在一些实施例中，终端102在获取到用户提出的问题之后，通过对问题进行抽象化处理，得到问题对应的抽象化特征；基于得到的问题的抽象化特征，将问题的抽象化特征发送至服务器104，与存储在服务器104中的预设问答知识库中的已有数据进行匹配，从而筛选出用户提出的问题中预设问答知识库没有匹配的回答的待回答问题；获取待回答问题的回答，将该回答更新到预设问答知识库，完成预设问答知识库的更新。

在另一些实施例中，也可以仅由终端102获取问题，将问题发送至服务器104，由服务器104对用户提出的问题进行抽象化特征，并根据抽象化特征在预设问答知识库中进行匹配回答，筛选出没有对应回答的待回答问题，获取待回答问题的回答更新到预设问答知识库中。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种问答知识库更新方法，以该方法应用于图1中的终端为例进行说明，包括步骤S210至步骤S240。

步骤S210，获取问题。

在一个实施例中，问题为用户提出的问题；用户提出的问题可以是历史对话中用户提出的问题。进一步地，在一个实施例中，用户提出的问题为向服务器发送的问题；不同的应用程序、不同的应用场景中，用户向服务器提出的问题通常具有关联关系，均与所对应的应用程序或者所在场景所属的领域相关，例如在医疗相关的应用程序中，用户提出的问题均与医疗相关；而在历史相关领域的应用程序中，用户提出的问题大多与历史相关，等等。

在一个实施例中，用户提出的问题可以从历史数据库中获取，历史数据库中存储了大量历史上用户向服务器提出的问题。在其他实施例中，获取问题也可以通过其他任意一种方式实现。

步骤S220，对问题进行特征抽象化处理，得到问题的抽象化特征。

特征抽象是针对有序和无序的文本分类型特征，采用不同的方法进行处理，将其类别属性数值化的过程。对问题进行特征抽象化处理得到问题对应的特征在本实施例中记为问题的抽象化特征；对问题进行特征抽象化处理的具体过程将在后续实施例中详细描述，在此不再赘述。

步骤S230，基于抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出预设问答知识库没有对应答案的待回答问题。

其中，预设问答知识库是指存储了大量“问题-答案”对的数据库。当前很多应用程序设置了智能客服，用户向智能客服发送问题，基于该预设问答知识库，智能客服可以针对用户提出的问题从其中搜索是否存在匹配的回答，若存在，则可以由智能客服自动为用户做出回答，无需人工客服介入，即可为用户提供解答服务。预设问答知识库通常是根据大量的历史问答对话数据积累得到，随着时间的变化，用户提出的问题可能发生变化，因此需及时对预设问答知识库进行更新，以使得预设问答知识库不断更新，保持预设问答知识库中的“问题-答案”对的丰富性，可以自动为更多的问题给出相应回答。本申请提供的问答知识库更新方法即是对预设问答知识库中的“问题-答案”对进行更新。在一个实施例中，预设问答知识库中的已有数据包括预设问答知识库中的已有问题和/或已有回答。

预设问答知识库中的已有数据与问题一一对应，可以为该相应的部分问题作出回答；在本实施例中，利用获取的问题抽象化得到的抽象化特征在预设问答知识库中进行匹配，确定获取的问题在预设问答知识库中是否存在匹配的回答，若是则表示预设问答知识库可以针对问题给出对应的回答，可以理解地，这一部分问题不再需要更新回答。而在预设问答知识库中不存在匹配的回答的问题，在本实施例中将这部分问题记为待回答问题，针对待回答问题，需要在预设问答知识库中更新匹配的回答，保证智能客服可以针对用户提出这些问题时基于预设问答知识库自动给出匹配的回答。

在本实施例中，根据从问题中抽象化处理得到的抽象化特征在预设问答知识库中进行匹配，查找出预设问答知识库中是否存在与问题匹配的回答。其中，基于抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出预设问答知识库没有对应答案的待回答问题的具体过程将在后续实施例中详细描述，在此不再赘述。

步骤S240，获取针对待回答问题对应的回答，将待回答问题对应的答案更新至预设问答知识库。

在确定预设问答知识库中不存在匹配的回答的待回答问题之后，需获取该部分待回答问题对应的回答，并更新到预设问答知识库。

在一个实施例中，获取针对待回答问题对应的回答，可以是获取人工输入的针对待回答问题的回答；例如在一个具体实施例中，在筛选出待回答问题之后，将待回答问题统一发送至相关人员，获取相关人员对待回答问题输入的针对待回答问题的回答。在另一个实施例中，也可以从其他渠道获取待回答问题对应的回答，将其更新至预设问答知识库中；例如从其它数据库查找并获取待回答问题对应的回答等等。

在一个实施例中，将待回答问题对应的答案更新至预设问答知识库中，包括：将待回答问题与对应的答案作为一组“问题-答案”对，更新至预设问答知识库中。进一步地，在一个实施例中，在预设问答知识库中对于已收录对应回答的问题进行了分类，在将待回答问题对应的答案更新至预设问答知识库中时，待回答问题对应的答案更新至预设问答知识库中待回答问题所属的类别下。其中，确定待回答问题所属的类别可以通过任意一种方式实现，例如可以通过提取待回答问题中的关键词进行确定该待回答问题所属的类别。

上述问答知识库更新方法，在获取到用户提出的问题之后，通过对问题进行抽象化处理，得到问题对应的抽象化特征；基于得到的问题的抽象化特征，将问题的抽象化特征与预设问答知识库中的已有数据进行匹配，从而筛选出用户提出的问题中预设问答知识库没有匹配的回答的待回答问题；获取待回答问题的回答，将该回答更新到预设问答知识库，完成预设问答知识库的更新。上述方法通过对问题提取抽象化特征后，利用问题的抽象化特征与预设问答知识库中匹配，筛选出预设问答知识库中没有匹配回答的待回答问题，获取到待回答问题的回答之后，更新到预设问答知识库，由于已经利用抽象化特征筛选了预设问答知识库不能回答的问题，仅仅只需要对筛选出的待回答问题获取对应的回答进行更新，减少了更新预设问答知识库的工作量，缩短了更新过程所需时间，减少了人力成本和时间成本。

在一个实施例中，如图3所示，对问题进行特征抽象化处理，得到问题的抽象化特征包括步骤S221至步骤S223。

步骤S221，读取预设相似度算法。

预设相似度算法是预先设定的计算相似度的算法，可以根据实际情况进行设定；预设相似度算法可以包括一种算法或多种算法。常见的相似度算法包括：余弦相似度(Cosine Similarity)以及调整余弦相似度(Adjusted Cosine Similarity)、皮尔森相关系数(Pearson Correlation Coefficient)、Jaccard相似系数(Jaccard Coefficient)、Tanimoto系数(广义Jaccard相似系数)、对数似然相似度/对数似然相似率、互信息/信息增益，相对熵/KL散度、信息检索时常用的词频-逆文档频率(TF-IDF)，以及基于词向量相似度算法，基于句向量相似度算法等等。在一个实施例中，预设相似度算法可以存储在预设路径，在对获取的问题进行抽象化之前，从预设路径中读取预设相似度算法。

步骤S222，基于各预设相似度算法对问题和预设问答知识库中的已有数据计算相似度分值。

本步骤中，分别以每一种预设相似度算法分别对问题和预设问答知识库中的已有数据计算相似度分值，得到每一种算法下，问题和预设问答知识库中的已有数据的相似度分值。进一步地，计算问题和预设问答知识库中的已有数据的相似度分值时，需要分别计算问题与预设问答知识库中的每一条已有数据计算相似度分值。

步骤S223，基于问题的各预设相似度算法对应的相似度分值，确定问题的抽象化特征。

在本实施例中，以问题与预设问答知识库中的已有数据的相似度分值中部分相似度分值作为该问题的抽象化特征。在一个实施例中，每一种预设相似度算法对应得到问题与各已有数据的相似度分值，即每一种预设相似度算法可以计算得到一组相似度分值；在本实施例中，分别从每一种预设相似度算法对应的相似度分值组中选取部分符合筛选要求的目标相似度分值，作为问题的抽象化特征。

其中，筛选要求可以根据实际情况进行设置；例如按照相似度分值大小筛选符合要求的相似度分值，可以是取相似度分值为某一个或多个固定值的相似度分值，也可以是按照分值从大到小取固定顺序位置对应的相似度分值。

进一步地，在一个实施例中，如图4所示，基于问题的各预设相似度算法对应的相似度分值，确定问题的抽象化特征包括步骤S2231至步骤S2233。

步骤S2231，针对任意一个预设相似度算法，将问题与预设问答知识库中的已有数据的相似度分值按照分数值大小进行排序，得到相似度排序结果。

可以理解地，基于相似度分值的分值大小进行排序，可以是由大到小进行排序或者由小到大进行排序，等等。

步骤S2232，按照分值从大到小，依次读取相似度排序结果中的最高相似度分值至预设顺序位置内的各目标相似度分值。

步骤S2233，计算各目标相似度分值的平均分值，确定为问题的抽象化特征。

预设顺序位置可以预先根据实际情况进行设置；预设顺序位置可以包括一个或者多个；在一个具体实施例中，预设顺序位置包括从大到小的第1位(即最高分)、从大到小的第3位、从大到小的第10位和从大到小的第100位。在本实施例中，依次读取相似度排序结果中的最高相似度分值至预设顺序位置内的各目标相似度分值包括：读取从大到小的第1位(最高分)、第1-3位(前3高分)、第1-10位(前10高分)和第1-100位(前100高分)的相似度分值。可以理解地，在其它实施例中，也可以选择其它顺序位置对应的相似度分值作为目标相似度分值，以计算平均分值作为问题的抽象化特征。进一步地，对最高分至从大到小的第3位对应的相似度分值，即从大到小的前3个相似度分值计算平均分值；对最高分至从大到小的第10位对应的相似度分值，即从大到小的前10个相似度分值计算平均分值；…；以此类推，本实施例中计算得到4个分值：最高分、从大到小前3平均分值、从大到小前10平均分值，以及从大到小前100平均分值，作为问题的抽象化特征。

进一步地，若预设相似度算法包括多种算法，在确定抽象化特征时，分别从每一种预设相似度算法对应的相似度排序结果中读取目标相似度分值，计算平均分值，以各预设相似度算法对应的各平均分值作为问题的抽象化特征。

以预设相似度分值包括BM25，TFIDF两种算法为例，首先基于BM25计算问题与预设问答知识库中的已有数据计算相似度分值，取其中分值排序从大到小的最高分、从大到小前3平均分值、从大到小前10平均分值和从大到小前100平均分值的相似度分值，分别以BM25_top1、BM25_average_top3、BM25_average_top10和BM25_average_top100表示；同样地，基于TFIDF计算得到TFIDF_top1、TFIDF_average_top3、TFIDF_average_top10和TFIDF_average_top100；则在本实施例中，该问题的抽象化特征包括：BM25_top1、BM25_average_top3、BM25_average_top10、BM25_average_top100、TFIDF_top1、TFIDF_average_top3、TFIDF_average_top10和TFIDF_average_top100。

更进一步地，在一个实施例中，如图5所示，基于抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出预设问答知识库没有对应答案的待回答问题，包括步骤S231至步骤S233。

步骤S231，基于抽象化特征进行二分类，得到问题的二分类值。

其中，二分类是分类算法中的一种，分类算法是机器学习的任务之一；分类算法是有监督算法，需要有标注的数据才能训练。在本实施例中，利用问题的抽象化特征进行二分类，以根据得到的二分类值确定获取的问题在预设问答知识库中是否存在匹配的回答。其中，基于抽象化特征进行二分类得到二分类值可以通过任意一种方式实现，例如sigmoid函数(一种激活函数)或者softmax函数(又称归一化指数函数)。

在一个具体实施例中，二分类算法采用sigmoid函数，仍以预设相似度分值包括BM25，TFIDF两种算法为例，基于抽象化特征进行二分类得到二分类值可以表示为：

y＝sigmoid([BM25_top1,BM25_average_top3,BM25_average_top10,BM25_average_top100,TFIDF_top1,TFIDF_average_top3,TFIDF_average_top1,TFIDF_average_top100]).

步骤S232，根据二分类值确定问题在预设问答知识库中是否存在对应的答案。

基于问题的抽象化特征进行二分类，得到的二分类值可以确定该问题在预设问答知识库中是否存在匹配的答案。

步骤S233，将在预设问答知识库中不存在对应答案的问题确定为待回答问题。

根据二分类值确定每一个问题在预设问答知识库中是否存在匹配回答，进而可以筛选得到在预设问答知识库中不存在匹配回答的问题，即本实施例中的待回答问题。

上述实施例中，通过计算问题与预设问答知识库中的已有数据计算得到的相似度分值中的部分满足筛选条件的相似度分值，作为该问题的抽象化特征，而不是问题本身的特征(如词汇，句法等特征)，然后利用抽象化特征进行二分类运算，从而使得二分类算法中使用的标注数据可以应用于不同领域的问答知识库的更新，实现一次标注，多次使用；由于问题本身的特征与问题相关，不同领域之间涉及到的问题通常是具有较大的区别的，不同领域对应的问答知识库包含的数据也不相同，因此若采用问题本身的特征进行二分类，二分类所使用的标注数据在不同领域的问答知识库中不能服用，导致标注成本高，而本实施例中采用问题的抽象化特征进行二分类，来确定问题在预设问答知识库中是否存在匹配的回答，这一方法中所使用的二分类标注数据可以在不同领域中复用，降低了标注成本。

在一个实施例中，如图6所示，获取针对待回答问题对应的回答，将待回答问题对应的答案更新至预设问答知识库之前，还包括：

步骤S610，将待回答问题划分为不同的待回答问题集合，每一个待回答问题集合中包含的待回答问题属于同一类别。

对待回答问题进行划分不同类别的集合，可以通过任意一种方式实现。在一个实施例中，通过计算待回答问题之间的相似度，将相似度较大的待回答问题划分至同一个集合。

进一步地，在一个实施例中，将待回答问题划分为不同的待回答问题集合，每一个待回答问题集合中包含的待回答问题属于同一类别，包括：将一个待回答问题初始化为一个初始待回答问题集合；分别计算两两初始待回答问题集合之间的集合相似度，将集合相似度满足合并条件的初始待回答问题集合合并，得到待回答问题集合。

本实施例中，在对待回答问题进行划分时，首先将每一个待回答问题作为一个类别，即初始待回答问题集合，然后依次计算初始待回答问题集合之间的集合相似度，基于集合相似度进行集合之间的合并，将集合相似度满足合并条件的集合合并。在一个实施例中，计算待回答问题集合之间的集合相似度包括：计算待回答问题集合中各待回答问题之间的相似度；进一步地，在一个具体实施例中，在判断是否满足合并条件时，取其中相似度的最小值和相似度的平均值代表该两个集合之间的相似度。其中，合并条件可以根据实际情况进行设置；在一个具体实施例中，合并条件包括集合相似度中的最小值处于最小值阈值范围内，且集合相似度中的平均值处于平均值阈值范围内。其中，最小值阈值范围与平均值阈值范围可以根据实际情况进行设置。

可以理解地，集合相似度较大的问题集合中所包含的待回答问题很有可能是相同或相似的，将这部分待回答问题合并至同一个待回答问题集合之后，只需获取待回答问题集合对应的回答，减少计算量和工作量，可以降低计算成本和时间成本。

步骤S620，删除包含待回答问题的数量小于预设数量阈值的待回答问题集合，得到最终待回答问题集合。

在将属于同一类别的待回答问题划分到相同的划分待回答问题集合的过程完成之后，将其中包含的待回答问题数量较小的待回答问题集合删除；进一步地，在一个实施例中，在划分集合之前将各待回答问题均初始化为一个初始待回答问题集合，在依次计算两两初始待回答问题集合的集合相似度，并基于集合相似度满足合并条件的集合合并之后，对合并完成之后得到的待回答问题集合进行删除操作，即将集合中待回答问题的数量小于预设数量阈值的集合删除，得到最终待回答问题集合。在本实施例中将问题数量小于预设数量阈值的待回答问题集合删除，删除完成后保留下来的集合记为最终待回答问题集合。其中，预设数量阈值可以根据实际情况进行设置，例如设置为集合中问题数量小于3个问题或者5个问题，即判定为满足条件，需删除该待回答问题集合；进一步地可以结合获取的问题数量来设定预设数量阈值。

在对待回答问题基于类别划分集合完成之后，所获得的集合中包含的问题数量较少的问题集合，可能属于不常被用户问到的问题，有可能属于非相关问题，例如用户在生物相关领域的智能客服中提问“今天天气如何”，这类问题则与智能客服关联性不强，没有收录到预设问答知识库的必要，因此在本实施例中将这类问题所在的集合删除，从而减少不必要的工作量。

进一步地，在一个实施例中，在删除包含待回答问题的数量小于预设数量阈值的待回答问题集合之前，也可以筛选出包含待回答问题的数量小于预设数量阈值的待回答问题集合，记为目标待回答问题集合，将目标待回答问题集合发送至相关运维人员，获取运维人员对目标待回答问题集合的反馈信息；若根据反馈信息确定需删除目标待回答问题集合，则进入删除包含待回答问题的数量小于预设数量阈值的待回答问题集合的步骤。本实施例中，通过人工二次确认包含问题数量较少的待回答问题集合是否需删除，减少误判，以使预设问答知识库的更新过程尽可能更新更多用户可能问到的相关问题。

进一步地，在本实施例中，获取针对待回答问题对应的回答，将待回答问题对应的答案更新至预设问答知识库，包括步骤S630：获取待回答问题集合对应的回答，将待回答问题集合对应的回答更新至预设问答知识库。

上述实施例中，在获取待回答问题对应的回答之前，先对待回答问题基于类别进行集合的划分，也即聚类，删除划分得到的集合中包含问题的数量较少的集合，然后获取保留的待回答问题集合的回答，仅需获取剩余待回答问题集合对应的回答，相较于获取单个待回答问题的回答的方式而言，减少计算量和工作量，可以降低计算成本和时间成本。

在一个具体实施例中，将上述问答知识库更新方法应用于智能客服的问答知识库中，如图7所示为本实施例的流程示意图，包括以下步骤：

1、获取用户与智能客服的聊天日志，即用户提出的问题。

2、基于二分类算法清洗出智能客服无法回答的待回答问题，即在预设问答数据库中不存在匹配的回答的问题。

其中，二分类算法用于从用户和智能客服的聊天日志中分离出智能客服无法回答的问题。二分类算法是数学表达式如下：y＝f(x)；

其中，x：表示用户问题，y取1或0，表示能否回答。

分类算法是有监督算法，需要有标注的数据才能训练，有两个问题需要解决：

(1)标注成本高，不同的智能客服包含不同的知识库，同一个用户问题，有的智能客服可以回答，有的不能回答，不同智能客服如何复用同一份标注数据；(2)同一个智能客服，随着知识库的丰富，原来不能回答的问题变为可回答的问题了。

为了解决上述问题，在进行二分类时的特征选取上采用了抽象的特征来取代用户问题本身特征，即将y＝f(用户问题)，变成y＝f(用户问题的抽象化特征)。

进一步地，确定问题的抽象化问题，采用基于用户问题对问答知识库进行检索所使用的预设相似度算法，例如可以选择BM25，TFIDF，基于词向量相似度算法，基于句向量相似度算法等等。

读取预设相似度算法，对于每一个相似度算法，选取用户问题和问答知识库比较时得到的从大到小的最高得分、前3平均分值，前10平均分值，前100平均分值等数值特征，作为用户问题的抽象化特征。二分类算法采用sigmoid，(在其它实施例中也可以采用其它二分类算法)。二分类算法模型表示如下：

y＝sigmoid(

[

BM25_top1，

BM25_average_top3，

BM25_average_top10，

BM25_average_top100，

TFIDF_top1，

TFIDF_average_top3

……

]

)

由于不是没有使用问题本身作为分类特征，而是使用了用户问题和问答知识库的相似度分值作为抽象化特征，而这种相似度分值特征，在不同的问答知识库中表现出较强的一致性，可以实现一次标注，多次使用。

3、对待回答问题进行聚类，得到聚类结果，并删除聚类结果中包含待回答问题的数量较少的集合。具体步骤如图8所示，将每一个待回答问题初始化为一个初始待回答问题集合，分别计算两两初始待回答问题集合之间的集合相似度，将集合相似度满足合并条件的集合合并到一起，得到合并后的待回答问题集合，并将包含待回答问题的数量小于预设数量阈值的集合删除，得到最终的聚类结果，即最终的待回答问题集合。

图8中所示的，clusters.length表示待回答问题集合的数量；“计算聚类i和聚类j之间的相似度”使用的是两个待回答问题集合之间两两句子相似度的最小值以及平均值；“相似度在阈值范围内”表示上一步计算出的两两句子相似度的最小值以及平均值要在一定的阈值内，此阈值可根据具体情况而定；“删除clusters中元素数量小于一定值的聚类”：聚类之后，有的类别包含的用户问题特别少，此类别所包含的为题即被认为是不被经常问到的问题，需要从聚类结果中剔除。

4、获取最终的待回答问题集合对应的回答，将回答更新至预设问答知识库。在本实施例中，将得到的最终的待回答问题集合发送至运维人员，由运维人员最待回答问题集合做出相应的回答，并将回答更新至预设问答知识库。

聚类算法要解决的是把不能回答的问题集合聚成多个类别，使同一个意思的问题聚在一起，方便运维人员的二次确认。通过上述聚类算法不仅可以把用户经常提问的意思相同问题聚在一起，而且可以剔除用户不经常问到的较稀疏的问题，因为不经常问到的问题没有必要录入知识库中。

由于“二分类算法”和“聚类算法”并不能保证结果的100％准确性，二次确认可以在少量人工参与的情况下，保证智能客服知识库的质量；聚类所得到的结果是用户问题的集合，需要运维人员结合自己的专业知识为这些经常被问到的问题添加答案，并录入知识库。

上述问答知识库更新方法提供了一个系统的解决半自动化丰富智能客服“问题-答案”对方案；解决了智能客服知识库维护的难题，已在具体场景中验证了其有效性。提供以一个可在不同知识库中迁移的二分类算法，通过使用相似度抽象特征，实现了一次标注，多次使用；解决了标注成本高的难题；以及随着知识库“问题-答案”对的增加，有些问题从不能回答变为可以回答的难题。最后，提供了一个可以剔除稀疏问题的问题聚类方法，不仅可以把经常问到的同一个意思的问题聚在一起，而且可以剔除较为稀疏的不经常问到的问题。

应该理解的是，虽然上述实施例中所涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例中所涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种问答知识库更新装置，包括：问题获取模块910、抽象化处理模块920、匹配模块930和更新模块940，其中：

问题获取模块910，用于获取问题；

抽象化处理模块920，用于对问题进行特征抽象化处理，得到问题的抽象化特征；

匹配模块930，用于基于抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出预设问答知识库没有对应答案的待回答问题；

更新模块940，用于获取针对待回答问题对应的回答，将待回答问题对应的答案更新至预设问答知识库。

上述问答知识库更新装置，在获取到用户提出的问题之后，通过对问题进行抽象化处理，得到问题对应的抽象化特征；基于得到的问题的抽象化特征，将问题的抽象化特征与预设问答知识库中的已有数据进行匹配，从而筛选出用户提出的问题中预设问答知识库没有匹配的回答的待回答问题；获取待回答问题的回答，将该回答更新到预设问答知识库，完成预设问答知识库的更新。上述装置通过对问题提取抽象化特征后，利用问题的抽象化特征与预设问答知识库中匹配，筛选出预设问答知识库中没有匹配回答的待回答问题，获取到待回答问题的回答之后，更新到预设问答知识库，由于已经利用抽象化特征筛选了预设问答知识库不能回答的问题，仅仅只需要对筛选出的待回答问题获取对应的回答进行更新，减少了更新预设问答知识库的工作量，缩短了更新过程所需时间，减少了人力成本和时间成本。

在一个实施例中，上述装置的抽象化处理模块920包括：算法读取单元，用于读取预设相似度算法；相似度计算单元，用于基于各预设相似度算法对问题和预设问答知识库中的已有数据计算相似度分值；抽象化特征确定单元还用于基于问题的各预设相似度算法对应的相似度分值，确定问题的抽象化特征。

进一步地，在一个实施例中，上述抽象化特征确定单元包括：排序子单元，用于排序针对任意一个预设相似度算法，将问题与预设问答知识库中的已有数据的相似度分值按照分数值大小进行排序，得到相似度排序结果；分值读取子单元，用于按照分值从大到小，依次读取相似度排序结果中的最高相似度分值至预设顺序位置内的各目标相似度分值；平均值计算子单元，用于计算各目标相似度分值的平均分值，确定为问题的抽象化特征。

在一个实施例中，上述装置的匹配模块930，包括：二分类单元，用于基于抽象化特征进行二分类，得到问题的二分类值；匹配单元，用于根据二分类值确定问题在预设问答知识库中是否存在对应的答案；待回答问题确定单元，用于将在预设问答知识库中不存在对应答案的问题确定为待回答问题。

在一个实施例中，上述装置还包括：分类模块，用于将待回答问题划分为不同的待回答问题集合，每一个待回答问题集合中包含的待回答问题属于同一类别；删除模块，用于删除包含待回答问题的数量小于预设数量阈值的待回答问题集合，得到最终待回答问题集合；在本实施例中，更新模块940用于获取待回答问题集合对应的回答，将待回答问题集合对应的回答更新至预设问答知识库。

在一个实施例中，上述装置的分类模块包括：初始化单元，用于将一个待回答问题初始化为一个初始待回答问题集合；相似度计算模块，用于分别计算两两初始待回答问题集合之间的集合相似度，将集合相似度满足合并条件的初始待回答问题集合合并，得到待回答问题集合。

关于问答知识库更新装置的具体限定可以参见上文中对于问答知识库更新方法的限定，在此不再赘述。上述问答知识库更新装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种问答知识库更新方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取问题；对问题进行特征抽象化处理，得到问题的抽象化特征；基于抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出预设问答知识库没有对应答案的待回答问题；获取针对待回答问题对应的回答，将待回答问题对应的答案更新至预设问答知识库。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：读取预设相似度算法；基于各预设相似度算法对问题和预设问答知识库中的已有数据计算相似度分值；基于问题的各预设相似度算法对应的相似度分值，确定问题的抽象化特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：针对任意一个预设相似度算法，将问题与预设问答知识库中的已有数据的相似度分值按照分数值大小进行排序，得到相似度排序结果；按照分值从大到小，依次读取相似度排序结果中的最高相似度分值至预设顺序位置内的各目标相似度分值；计算各目标相似度分值的平均分值，确定为问题的抽象化特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于抽象化特征进行二分类，得到问题的二分类值；根据二分类值确定问题在预设问答知识库中是否存在对应的答案；将在预设问答知识库中不存在对应答案的问题确定为待回答问题。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将待回答问题划分为不同的待回答问题集合，每一个待回答问题集合中包含的待回答问题属于同一类别；删除包含待回答问题的数量小于预设数量阈值的待回答问题集合，得到最终待回答问题集合；获取待回答问题集合对应的回答，将待回答问题集合对应的回答更新至预设问答知识库。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将一个待回答问题初始化为一个初始待回答问题集合；分别计算两两初始待回答问题集合之间的集合相似度，将集合相似度满足合并条件的初始待回答问题集合合并，得到待回答问题集合。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：读取预设相似度算法；基于各预设相似度算法对问题和预设问答知识库中的已有数据计算相似度分值；基于问题的各预设相似度算法对应的相似度分值，确定问题的抽象化特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：针对任意一个预设相似度算法，将问题与预设问答知识库中的已有数据的相似度分值按照分数值大小进行排序，得到相似度排序结果；按照分值从大到小，依次读取相似度排序结果中的最高相似度分值至预设顺序位置内的各目标相似度分值；计算各目标相似度分值的平均分值，确定为问题的抽象化特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于抽象化特征进行二分类，得到问题的二分类值；根据二分类值确定问题在预设问答知识库中是否存在对应的答案；将在预设问答知识库中不存在对应答案的问题确定为待回答问题。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将待回答问题划分为不同的待回答问题集合，每一个待回答问题集合中包含的待回答问题属于同一类别；删除包含待回答问题的数量小于预设数量阈值的待回答问题集合，得到最终待回答问题集合；获取待回答问题集合对应的回答，将待回答问题集合对应的回答更新至预设问答知识库。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将一个待回答问题初始化为一个初始待回答问题集合；分别计算两两初始待回答问题集合之间的集合相似度，将集合相似度满足合并条件的初始待回答问题集合合并，得到待回答问题集合。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种问答知识库更新方法，其特征在于，所述方法包括：

获取问题；

2.根据权利要求1所述的方法，其特征在于，所述对所述问题进行特征抽象化处理，得到所述问题的抽象化特征包括：

读取预设相似度算法；

基于各预设相似度算法对所述问题和所述预设问答知识库中的已有数据计算相似度分值；

基于所述问题的各预设相似度算法对应的相似度分值，确定所述问题的抽象化特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述问题的各预设相似度算法对应的相似度分值，确定所述问题的抽象化特征包括：

针对任意一个预设相似度算法，将所述问题与所述预设问答知识库中的已有数据的相似度分值按照分数值大小进行排序，得到相似度排序结果；

按照分值从大到小，依次读取所述相似度排序结果中的最高相似度分值至预设顺序位置内的各目标相似度分值；

计算各所述目标相似度分值的平均分值，确定为所述问题的抽象化特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述抽象化特征与预设问答知识库中的已有数据进行匹配，筛选出所述预设问答知识库没有对应答案的待回答问题，包括：

基于所述抽象化特征进行二分类，得到所述问题的二分类值；

根据所述二分类值确定所述问题在所述预设问答知识库中是否存在对应的答案；

将在所述预设问答知识库中不存在对应答案的问题确定为所述待回答问题。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述获取针对所述待回答问题对应的回答，将所述待回答问题对应的答案更新至所述预设问答知识库之前，还包括：

将所述待回答问题划分为不同的待回答问题集合，每一个所述待回答问题集合中包含的待回答问题属于同一类别；

删除包含待回答问题的数量小于预设数量阈值的所述待回答问题集合，得到最终待回答问题集合；

所述获取针对所述待回答问题对应的回答，将所述待回答问题对应的答案更新至所述预设问答知识库，包括：获取所述待回答问题集合对应的回答，将所述待回答问题集合对应的回答更新至所述预设问答知识库。

6.根据权利要求5所述的方法，其特征在于，所述将所述待回答问题划分为不同的待回答问题集合，每一个所述待回答问题集合中包含的待回答问题属于同一类别，包括：

将一个待回答问题初始化为一个初始待回答问题集合；

分别计算两两所述初始待回答问题集合之间的集合相似度，将集合相似度满足合并条件的所述初始待回答问题集合合并，得到所述待回答问题集合。

7.一种问答知识库更新装置，其特征在于，所述装置包括：

问题获取模块，用于获取问题；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。