CN111414463A

CN111414463A - 一种知识库更新方法、设备及存储介质

Info

Publication number: CN111414463A
Application number: CN202010122353.4A
Authority: CN
Inventors: 白洪波
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-07-14

Abstract

本申请公开了一种知识库更新方法、设备及存储介质，其中方法包括：读取缓存队列中排列在首位的问题作为目标问题，然后清除缓存队列中与目标问题的问题类型相同的问题，并将目标问题的问题类型作为目标类型，再然后获取问答系统上针对目标类型的问题的反馈数据，最后根据反馈数据确定目标类型的问题与知识库的匹配度，并根据目标类型的问题与知识库的匹配度更新知识库。本申请通过快速确定目类型的问题与知识库的匹配度，并根据该匹配度对知识库进行更新，从而提供一种实时且高效的知识库更新方法。

Description

一种知识库更新方法、设备及存储介质

技术领域

本申请涉及数据库领域，尤其涉及一种知识库更新方法、设备及存储介质。

背景技术

问答系统是一个交互式的系统，并配备有专门用于存放包括有问题和答复的知识库。问答系统可以接收用户输入的问题，并基于配备的知识库为用户输入的问题匹配出对应的答复。可以看出，知识库是问答系统的基础单元，知识库的好坏直接影响问答的效果。

通过对知识库进行更新可以提高问答系统的问答准确度。目前一般通过定期的对知识库进行更新来实现对知识库的更新。但是这种方法的效率以及实时性都不高，因此还缺少一种高效的知识库更新方法。

发明内容

本申请实施例提供一种知识库更新方法，可以实时且高效的对知识库进行更新。

第一方面，本申请实施例提供了一种知识库更新方法，该方法包括：

读取缓存队列中排列在首位的问题作为目标问题，所述缓存队列中存储有问答系统上接收到的至少一个问题，所述问答系统用于基于知识库对接收到的问题匹配出回复；

清除所述缓存队列中与所述目标问题的问题类型相同的问题，并将所述目标问题的问题类型作为目标类型；

获取所述问答系统上针对所述目标类型的问题的反馈数据，所述目标类型的问题的反馈数据用于指示用户对于所述目标类型的问题的答复的反馈情况；

根据所述反馈数据确定所述目标类型的问题与所述知识库的匹配度；

根据所述目标类型的问题与所述知识库的匹配度更新所述知识库。

第二方面，本申请实施例提供了一种知识库更新设备，该知识库更新设备包括用于执行上述第一方面的知识库更新方法的单元，该知识库更新设备包括：

读取单元，用于读取缓存队列中排列在首位的问题作为目标问题，所述缓存队列中存储有问答系统上接收到的至少一个问题，所述问答系统用于基于知识库对接收到的问题匹配出回复；

清除单元，用于清除所述缓存队列中与所述目标问题的问题类型相同的问题，并将所述目标问题的问题类型作为目标类型；

获取单元，用于获取所述问答系统上针对所述目标类型的问题的反馈数据，所述目标类型的问题的反馈数据用于指示用户对于所述目标类型的问题的答复的反馈情况；

匹配单元，用于根据所述反馈数据确定所述目标类型的问题与所述知识库的匹配度；

更新单元，用于根据所述目标类型的问题与所述知识库的匹配度更新所述知识库。

第三方面，本申请实施例提供了一种知识库更新设备，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用以执行如第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以执行如第一方面所述的方法。

在本申请中，知识库更新设备先读取缓存队列中位于首位的问题作为目标问题，其中，缓存队列中存储的问题来源于问答系统。问答系统上接收到的用户的问题都可以缓存到该缓存队列中，以便于本端设备可以实时读取到。知识库更新设备在读取到目标问题的同时，还将缓存队列中与目标问题的问题类型相同的问题清除，并将目标问题的问题类型作为目标类型。再然后在问答系统上获取针对目标类型的问题的反馈数据。由于问答系统是基于知识库来匹配出用户的问题的答案，于是利用上述获取得到的反馈数据来确定目标类型的问题与知识库的匹配度。最后根据该匹配度对知识库进行更新，使得问答系统基于该问答系统能进行更准确的答复。总的来说，本申请通过快速确定目类型的问题与知识库的匹配度，并根据该匹配度对知识库进行更新，从而提供一种实时且高效的知识库更新方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种知识库更新系统示意图；

图2是本申请实施例提供的一种知识库更新方法的示意流程图；

图3是本申请另一实施例提供的一种知识库更新方法的示意流程图；

图4是本申请实施例提供的一种知识库更新设备的示意性框图；

图5是本申请实施例提供的一种知识库更新设备的结构性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请主要应用于知识库更新设备，该知识库更新设备可以是传统知识库更新设备、终端设备、服务器或者本申请第三实施例和第四实施例所描述的知识库更新设备，本申请对此不做限制。当知识库更新设备与其他设备进行数据交互的时候，知识库更新设备和其他设备都按照预设格式进行对数据的特性进行记录并传送，并能对接收到的预设格式的数据进行相应的处理和解析等，其中，数据的特性包括时间、地点、类型等。

问答系统是一个交互式的系统，可以接收用户输入的问题，并基于知识库对该问题匹配出对应的答复。因此知识库的好坏直接影响问答的效果。为了提高问答系统的准确度，可以定期对知识库进行更新，将问答系统中到未匹配到答复的问题收录到知识库。但该种更新方法效率和实时性较低。

为此解决上述问题，本申请实施例提供一种知识库更新方法，可以实时且高效的对知识库进行更新。在详细说明本申请的方案之前，需要说明的是，知识库更新设备可以在本机上直接访问问答系统，也可以通过通信网络在云端服务器等其他设备上访问问答系统。因此知识库更新设备在获取问答系统上的问题时，可以直接在本地存储介质上直接读取，也可以通过有线或者无线的通信方式在其他服务器等设备上读取，本申请对此不做限定。接下来不再赘述。

为了便于理解，接下来本申请将结合图1，以知识库更新设备从云端服务器上访问问答系统为例，来对应用本发明实施例的方法进行介绍，本发明实施例可以应用于知识库更新的场景中。

首先，知识库更新设备对问答系统上接收到的问题进行监听。将监听到所有问题都存储到缓存队列中；或者将监听到的未匹配到答复的问题存储到缓存队列中。具体的，若监听到问答系统上接收到的问题，或者监听到问答系统上接收到的未匹配到答复的问题，则识别出该监听到的问题的问题类型，并将该监听到的问题与识别得到的对应的问题类型相关联，最后存到缓存队列中。

然后，知识库更新设备读取缓存队列中排列在首位的问题作为目标问题，并清除缓存队列中与该目标问题的问题类型相同的问题，然后将目标问题的问题类型作为目标类型。需要注意的是，读取操作和清除操作是成对执行的，即每进行一次读取操作，便进行一次清除操作。这样做是为了提高后续知识库更新的效率。因为知识库更新设备每读取得到一个目标问题，便启动一次对知识库中的与目标问题类型相同的问题的更新。为了避免过于频繁更新知识库从而浪费系统资源，因此成对采用了读取操作和清除操作。但如果后续产生了与目标问题的类型相同的问题，不会影响该问题存储到缓存队列中，清除操作只作用于当前缓存队列中所存储的问题。尤其是，当缓存队列中存储的是未匹配到答复的问题时，可以更进一步的提高效率。

再然后，知识库更新设备获取问答系统上针对目标类型的问题的反馈数据。目标类型的问题的反馈数据用于指示用户对于目标类型的问题的答复的反馈情况。在获取反馈数据时，可以在已经获取得到历史反馈数据的基础上以增量的方式获取得到上述目标类型的问题的反馈数据；还可以只获取预设时间段内的反馈数据作为上述目标类型的问题的反馈数据。在一种方式中，知识库更新设备先在本地数据库中获取目标类型的问题的历史反馈数据，然后在云端数据库中获取目标类型的问题的新的反馈数据，最后将上述历史反馈数据和新的反馈数据整合为目标类型的问题的反馈数据。在后一种方式中，知识库更新设备先获取在读取到目标问题之前的预设时长内，问答系统针对目标类型的问题生成的反馈数据(记为D1)；若D1的数据量大于等于预设数据量，则将D1作为目标类型的问题的反馈数据；反之，若D1的数据量小于预设数据量，则以预设倍数延长预设时长得到新的预设时长，并获取在读取到目标问题之前的新的预设时长内，问答系统针对目标类型的问题生成的反馈数据(记为D2)；若D2的数据量还是小于预设数据量，则再次以新的预设倍数继续延长上述新的预设时长，直到最终获得反馈数据的数据量大于等于预设数据量。其中，用于延长上述预设时长的预设倍数，和上述用于延长新的预设时长的新的预设倍数，两者可以一致，也可以不一致。一般来说，可以将后者设置的小于前者，基于此，预设时长可以以减速增长的形式延长。

再然后，知识库更新设备根据反馈数据确定目标类型的问题与知识库的匹配度。具体的，由于反馈数据可以为任意形式表达的可以用于指示反馈情况的数据，因此反馈数据可以是数字、字符和文字等。为了方便计算处理，需要先对反馈数据进行数字特征化，使得反馈数据可以以方便计算的数字形式表示。数字特征化后的反馈数据包括目标类别的问题对应的问题数量、用户数、转人工数和差评数中的至少一种。数字特征化之后，将上述数字特征化后的反馈数据中的任意一个数据作为目标类型的问题与知识库的匹配度；或者，将上述数字特征化后的反馈数据中的任意一个数据与上述问题数量的比值作为目标类型的问题与知识库的匹配度。

最后，知识库更新设备根据目标类型的问题与知识库的匹配度更新知识库。对知识库进行更新实质指的就是对知识库中的目标类型的问题进行更新。具体的，可以在知识库中扩充目标类型的问题；还可以对知识库中原本已存储的目标类型的问题进行删减。在前种方式中，知识库更新设备先确定目标类型的问题与知识库的匹配度小于对应的预设值，然后利用爬虫技术等在知识库中扩充目标类型的问题及对应的答复。在后种方式中，知识库更新设备按照扩充前已存储在知识库中的目标类型下的各个问题的优先级递减的顺序，依次扩充前已存储在知识库中的目标类型下的至少一个问题进行删减，以保证删减后的知识库中的目标类型的问题的总数小于等于预设阈值。其中，问题的优先级根据优先级指标(包括访问频率，最近访问时间，是否为基础问题以及生成时间中的至少一个)来确定。上述两种方式可以都执行，但需要注意的是，扩充后的知识库中包括的目标类型的问题的总数本身已经小于等于预设阈值，则不执行上述后种方法。

可见，通过实施本申请的方案可以实时的对目标问题以及反馈数据进行监控，每当监控到目标问题，就评估一次目标类型的问题与知识库的匹配程度，若匹配度低则对知识库进行更新。然后基于更新后的知识库，在问答系统上可以为用户提供更好的知识问答服务。因此本申请可以达到一种实时更新知识库的效果。此外，本申请是从宏观的角度来对知识库进行扩充，不局限于某个未匹配到答复的问题，而是以问题类型为单位，评估知识库是否能够满足问答系统的需求，若不满足则对知识库进行该类问题和答案的扩充。因此总的来说，本申请的知识库更新方法效率更高，扩充的内容也更具普适性，适用于解决大部分用户的问题。

需要说明的是，图1中所示内容为一种举例，并不构成对本发明实施例的限定。因为在本申请中，知识库更新设备可以从任意数量的其他设备中获取任意数量的问题和反馈数据。

参见图2，是本申请实施例提供一种知识库更新方法的示意流程图，如图2所示知识库更新方法可包括：

201：读取缓存队列中排列在首位的问题作为目标问题。

在本申请实施例中，知识库更新设备将缓存队列中位于首位的问题读取出来作为目标问题。其中，缓存队列中存储有至少一个问题，该至少一个问题来自于问答系统。缓存队列中的问题可以是问答系统的任意问题，也可以是问答系统上未匹配出答复的问题。

需要说明的是，问答系统是一种基于知识库可以对用户的问题匹配出答复的交互系统。接下来将简单说明问答系统的工作原理：问答系统通过交互界面接收用户输入的问题，然后采用深度学习等技术在知识库中为用户的问题匹配出对应的答复，并在交互界面上显示该答复，最后用户可以在问答系统上对该答复的精确度进行直接或间接的反馈。直接的反馈指的是用户通过评分等明确的给出反馈，间接的反馈指的是通过转人工等方式隐含的给出反馈。直接反馈数据和间接反馈数据都需要进一步数字特征化，用以便于计算的数字形式来表达，详细的数字特征化的过程将会在后续计算目标类型的问题与知识库的匹配度时进行说明。

在一种可实施的方式中，上述缓存队列中的问题是在问答系统中未匹配到答复的问题。上述读取缓存队列中排列在首位的问题作为目标问题之前，对问答系统上接收到的问题进行监听；若监听到未匹配到答复的问题，则识别出未匹配到答复的问题的问题类型；将未匹配到答复的问题与识别得到的对应的问题类型相关联，并将该未匹配到答复的问题加入上述缓存队列。

在本申请实施例中，知识库更新设备可以对问答系统上接收到的问题进行监听，若监听到未匹配到答复的问题时，便对该未匹配到答复的问题进行识别，以识别出该未匹配到答复的问题的问题类型。然后将该未匹配到答复的问题与其对应的问题类型进行绑定，使得知识库更新设备可以读取到问题的同时快速查询到该问题的问题类型。最后，将上述未匹配到答复的问题加入上述缓存队列。可见，上述缓存队列中存储的都是未匹配到答复的问题，于是本申请的知识库更新方法只会在问答系统基于知识库没有匹配到答复时，才会启动对知识库的更新，而不是每次监听到问答系统接收到的问题都启动更新，从而大大的调高了更新的实时性。其中，监听指的是，知识库更新设备时刻准备着接收问答系统反馈的信息，从而以最快的速度响应和处理来自于问答系统的消息。

需要说明的是，识别的方法包括但不限于计算目标问题与已采集到的问题集合的聚类中心的相似距离，然后将目标问题分类到相似距离最短的目标问题集合，并将目标问题集合的类型作为目标问题的类型。相似距离可以为欧氏距离、汉明距离和余弦相似度中的任意一种。还需要注意的是，若没有已分类好的问题集合，还可以采用K均值聚类算法来确定目标问题的类型。

在一种可实施的方式中，知识库更新设备可以采用基于深度学习的分类模型对目标问题进行识别。其中，分类模型可以是基于长短期记忆网络(LSTM，Long Short-TermMemory)和注意力机制(Attention)的深度学习模型。服务器采集到目标问题之后，通过将目标问题输入到分类模型中，可以直接输出得到目标问题的问题类型。

202：清除上述缓存队列中与目标问题的问题类型相同的问题，并将目标问题的问题类型作为目标类型。

本申请实施例中，在读取了上述缓存队列中位于首位的问题作为目标问题之后，在启动对知识库中的目标类型的问题的更新之前，将缓存队列中与该目标问题的问题类型相同的问题都清除，以减少对知识库中的目标类型的问题的重复处理，以减少不必要的计算开销，以加快对知识库的更新进程，避免造成阻塞，使得知识库更新设备也可以尽快对知识库下的其他问题类型下的问题进行更新，从而提高效率，使得知识库更新设备的处理速度可以跟上缓存队列增长的速度，以进一步提升实时性。

需要说明的是，本申请由于是以问题类型为单位进行的，每读取到一个问题，便以该读取到的问题的问题类型作为目标问题，并对该目标类型下的所有问题与知识库的匹配度进行评估，于是每当进行一次读取操作，相当于触发一次对在读取到上述目标问题的时间点对所有该目标类型的问题的评估，于是缓存队列中的目标类型下的其他问题都可以清除，该缓存队列中的目标类型下的其他问题为在读取到上述目标问题之前的生成的，以免减少不必要的重复评估。

203：获取问答系统上针对上述目标类型的问题的反馈数据。

在本申请实施例中，获取知识库更新设备在读取到上述目标问题之前，问答系统上针对上述目标类型产生的反馈数据。其中，目标类型的问题的反馈数据用于指示用户对于目标类型的问题的答复的反馈情况。举例来说，反馈数据可以包括目标类型的用户提问数据、答复评分数据和转人工数据中的至少一种。

在一种可实施的方式中，可以通过以下方式来获取目标类型的问题的反馈数据：在本地数据库中获取目标类型的问题的历史反馈数据；在云端数据库中获取目标类型的问题的新的反馈数据；将上述历史反馈数据和新的反馈数据整合为目标类型的问题的反馈数据。

本申请实施例是不断的对知识库进行更新，于是在每次更新时可以调取上次更新过程中缓存的反馈数据，并将该缓存的反馈数据作为历史反馈数据，并在该历史反馈数据的基础上以增量的方式增加新的反馈数据，从而减少获取反馈数据的工作量，提高工作效率。具体的，在获取目标类型的问题的反馈数据时，在本地存储中获取最近一次缓存的目标类型的问题的反馈数据作为历史反馈数据，并确定自历史反馈数据生成的时间点起，至知识库更新设备读取到目标问题的时间点为止的目标时间段，再在问答系统上获取该目标时间段间产生的反馈数据作为新的反馈数据。最后，将历史反馈数据与新反馈数据整合在一起，得到目标类型的问题最终的反馈数据。

在一种可实施的方式中，可以通过另一种方式来获取目标类型的问题的反馈数据：获取在读取到目标问题之前的预设时长内，问答系统针对目标类型的问题生成的反馈数据；若上述在读取到目标问题之前的预设时长内，问答系统针对目标类型的问题生成的反馈数据的数据量小于预设数据量，则以预设倍数延长上述预设时长得到新的预设时长；获取在读取到目标问题之前的新的预设时长内，问答系统针述目标类型的问题生成的反馈数据，使得获取得到的目标类型的问题的反馈数据的数据量大于等于预设数据量。

在本申请实施例中，获取知识库更新设备在读取到上述目标问题之前的预设时长内，问答系统上针对上述目标类型产生的反馈数据，记该反馈数据为D1。若D1的数据量大于等于预设数据量，则将D1作为此次更新所需的目标类型的问题的反馈数据；若D1的数据量小于预设数据量，则以预设倍数延长上述预设时长得到新的预设时长。然后获取知识库更新设备在读取到上述目标问题之前的新的预设时长内，问答系统上针对上述目标类型产生的反馈数据，记该反馈数据为D2。若D2的数据量大于等于预设数据量，则将D2作为此次更新所需的目标类型的问题的反馈数据；若D2的数据量小于预设数据量，则继续对上述新的预设时长进行延长，并重复上述获取反馈数据的步骤，直到最终获取得到的反馈数据的数据量大于等于预设数据量。最后将该最终获取得到的反馈数据作为目标类型的问题的反馈数据。

需要说明是，在前一次的反馈数据的数据量小于预设数据量的情况下，延长预设时长，通过延长预设时长来拓宽获取反馈数据的时间范围，并重新按照新的预设时长来获取反馈数据，从而获取足量(大于等于预设数据量)的数据量，从而便于后续的匹配度的计算。可见，本申请提供了一种灵活的反馈数据获取方式，保证了匹配度的计算精准度。

204：根据上述反馈数据确定目标类型的问题与知识库的匹配度。

在本申实施例中，根据上述反馈数据来确定目标类型的问题与知识库的匹配度。接下来将对确定匹配度的过程进行详细说明：如上文描述的，由于反馈数据可以包括目标类型的用户提问数据、答复评分数据和转人工数据中的至少一种，于是反馈数据可能通过数字、文字和字符等进行表示。为了更好的进行处理，知识库更新设备先将反馈数据进行数字特征化，统一转换为便于计算的数字表达形式。数字特征化后的反馈数据包括目标类别的问题对应的问题数量、用户数、转人工数和差评数中的至少一种。在将反馈数据数字特征化之后，将该数字特征化后的反馈数据中的任意一个数据作为目标类型的问题与知识库的匹配度；或者，将数字特征化后的反馈数据中的任意一个数据与问题数量的比值作为目标类型的问题与知识库的匹配度。

举例来说，在对反馈数据进行数字特征化时，若反馈数据为用户提问数据，则根据该用户提问数据统计出提出目标类型的问题的用户的用户数，用户所提出的目标类型的问题的问题数量；若反馈数据为答复评分数据或转人工数据，则分别根据答复评分数据和转人工数据，统计出目标类型的问题的转人工数和差评数。然后根据数字特征化后的反馈数据计算得到目标类型的问题与知识库的匹配度。可以直接将目标类别的问题对应的问题数量、用户数、转人工数和差评数中的一个或多个，作为目标类型的问题与知识库的匹配度；也可以将目标类别的问题对应的用户数、转人工数和差评数分别与问题数量的比值中一个或多个，作为目标类型的问题与知识库的匹配度。

205：根据上述目标类型的问题与知识库的匹配度更新知识库。

在本申请实施例中，若上述目标类型的问题与知识库的匹配度小于预设值，则确定需要对知识库中的目标类型下的问题进行更新；反之，若上述目标类型的问题与知识库的匹配度大于等于预设值，则说明目标类型的问题得到满意答案的人比较多，知识库中目标类型的问题的数量以及质量都很高，能很好的覆盖到用户的问题，因此不需要对知识库进行更新。需要注意的是，如果目标类型的问题与知识库的匹配度有不止一个，则在确定该不止一个的匹配度中每个匹配度都分别大于等于对应的预设值时，才不启动对知识库的更新；反之，当上述不止一个的匹配度中存在任意一个匹配度小于对应的预设值，则启动对知识库的更新。

在进行更新时，可以通过两方面对知识库进行更新。一方面，在知识库中扩充问题类型为目标类型的问题：可以通过爬虫技术、搜索引擎技术或同义句生成技术等在互联网上采集更多的目标类型的问题及对应的答复添加到知识库中，以扩充知识库，使得问答系统可以基于该扩充后的知识库匹配出更准确的答复。另一方面，按照优先级对知识库中原本已存储的目标类型的问题进行删减：按照扩充前已存储在知识库中的目标类型下的各个问题的优先级，对扩充前已存储在知识库中的目标类型下的至少一个问题进行删减，以保证删减后的知识库中的目标类型的问题的总数小于等于预设阈值。其中，预设阈值可以是任意设定的数值，本申请实施例对此不做限定。

更具体的，在按照优先级对目标类型的问题进行删减时，先根据优先级指标来确定知识库中的目标类型下的各个问题的优先级，优先级指标包括访问频率，最近访问时间，是否为基础问题以及生成时间中的至少一个；然后按照问题的优先级递减的顺序，依次对知识库中的目标类型下的至少一个问题进行删减，直到删减后的知识库中的目标类型的问题的总数小于等于上述预设阈值。

在本申请实施例中，上述按照优先级指标来确定问题的优先级指的是，将目标类型下的各个问题按照优先级指标中的访问频率由小到大的顺序进行排序；对于访问频率一致的问题，按照优先级指标中的最近访问时间由长到短进行顺序更新；对于访问频率以及最近访问时间都一致的问题，按照优先级指标中的是否为基础问题再次进行顺序更新(非基础问题排在基础问题之前)；对于访问频率，最近访问时间以及是否为基础问题的问题，按照优先级指标中的生成再次由早到晚进行顺序更新。可见，本申请通过几级指标来确定问题的优先级。排序越靠前的问题，优先级越高。具体的，访问频率越少的问题优先级越高，排序越靠前；访问频率相同的情况下，最近访问时间越长的问题优先级越高，排序越靠前；访问频率相同且最近访问时间相同的情况下，非基础问题相比基础问题的优先级更高，排序越靠前；访问频率、最近访问时间以及是否为基础问题都相同的问题，生成时间越早优先级越高，排序越靠前；访问频率、最近访问时间、是否为基础问题以及生成时间都相同的问题，优先级一致，先后顺序随机。

由上述描述可以看出，按照优先级指标进行排序之后的问题的优先级体现在其排列顺序，排序越靠前的问题优先级越高，排序越靠后的问题优先级越低。于是知识库更新设备在后续对知识库中的目标类型下的问题进行删减时，按照上述确定的问题的顺序对问题进行删减，即可以实现按照优先级的递减顺序对问题进行删减。且直到目标类型的问题的总数小于等于预设阈值之后，停止删减。但需要注意的是，若如上所描述的，知识库中的目标类型下的问题在被扩充之后的总数已经小于等于上述预设阈值，则不对知识库中的目标类型下的问题进行删减。即表示，在对知识库进行更新的的时候删减操作不是必要步骤，可以只在知识库中的目标类型下的问题的总数大于预设阈值的情况下执行。

本申请实施例提供了一种知识库的更新方法。先通过缓存队列的方式实时监控并采集问答系统上的问题。然后按照采集到得到的问题的目标类别，在问答系统上进一步采集得到目标类别的问题的反馈数据。再然后利用该反馈数据计算知识库中该目标类别下的问题与知识库的匹配度。最后根据该匹配度对知识库进行更新，使得使得问答系统基于该问答系统能进行更准确的答复。总的来说，本申请实施例提供了一种高效的知识库自动化更新方法。

通过以上描述可以看出，本申请实施例可以从几个方面来提高知识库的更新效率。第一方面，本申请实施例是以问题类型为单位对知识库进行更新。因此本申请实施例可以实现对知识库中的目标类型下的各个问题进行更新，而不是针对某个用户的某个问题对知识库进行扩充。这样做的好处是，更新之后的内容更具普适性，适用于解决大部分用户的问题。第二方面，本申请实施例的方案具有很强的实时性。先实时监控用户的问题和反馈数据，然后根据问题和反馈数据对知识库进行更新，使得问答系统基于更新之后的知识库能够匹配出更加准确的答复。总的来说，由于在不同时间目标类型的问题的反馈数据都有很大的变化，因此本申请的方案对实时性有所要求。本申请实施例通过结合上述第一方面和第二方面，可以进一步提高知识库的更新效率。

参见图3，是本申请实施例提供另一种知识库更新方法的示意流程图，如图3所示知识库更新方法可包括：

301：对问答系统上接收到的问题进行监听。

在本申请实施例中，知识库更新设备通过有线或者无线的通信方式，时刻准备着接收问答系统反馈的信息，从而以最快的速度响应和处理来自于问答系统的消息。因此，每当问答系统上接收到新的问题，总是能够第一时间监听到。其中，问答系统用于基于知识库对接收到的问题匹配出回复。知识库用于存储问题与对应的答复。

302：若监听到未匹配到答复的问题，则识别出该未匹配到答复的问题的问题类型。

在本申请实施例中，若知识库更新设备监听到问答系统反馈的未匹配到答复的问题，则利用基于相似距离的分类算法或者基于深度学习的分类模型对目标问题进行识别。其中，分类模型可以是基于长短期记忆网络(LSTM，Long Short-Term Memory)和注意力机制(Attention)的深度学习模型。服务器采集到目标问题之后，通过将目标问题输入到分类模型中，可以直接输出得到目标问题的问题类型。

303：将上述未匹配到答复的问题与识别得到的对应的问题类型相关联，并将该未匹配到答复的问题加入缓存队列。

在本申请实施例中，知识库更新设备将上述未匹配到答复的问题与其对应的问题类型进行绑定，使得知识库更新设备可以读取到问题的同时快速查询到该问题的问题类型。然后将绑定后的问题存储到缓存队列中。其中，缓存队列可以存储至少一个问题。

304：读取缓存队列中排列在首位的问题作为目标问题。

在本申请实施例中，缓存队列在逻辑上是一个呈线性的顺序队列。存储时，问题从缓存队列的队尾存储到缓存队列中；取出时，问题从缓存队列的首部开始取出。也即是说，问题按照存入到缓存队列中的时间点从早到晚的顺序，可以被知识库更新设备依次取出。因此在本步骤中，知识库更新设备可以取出在缓存队列中位于首位的问题，并将该问题作为目标问题。

305：清除缓存队列中与目标问题的问题类型相同的问题，并将目标问题的问题类型作为目标类型。

在本申请实施例中，在取出上述目标问题之后，清除缓存队列中与目标问题的问题类型相同的问题，以避免过于频繁的启动对知识库的更新。然后由于目标问题绑定有对应的问题类型，因此知识库更新设备可以快速查询到该目标问题的问题类型，并将该目标问题的问题类型作为目标类型。

306：获取问答系统上针对目标类型的问题的反馈数据。

在本申请实施例中，在问答系统上获取目标类型的问题的反馈数据，目标类型的问题的反馈数据用于指示用户对于目标类型的问题的答复的反馈情况。

在一种可实施的方式中，在获取目标类型的问题的反馈数据时，可以先在本地数据库中获取目标类型的问题的历史反馈数据；然后在云端数据库中获取目标类型的问题的新的反馈数据；最后将历史反馈数据和新的反馈数据整合为目标类型的问题的反馈数据。

在一种可实施的方式中，在获取目标类型的问题的反馈数据时，还可以先获取在读取到上述目标问题之前的预设时长内，问答系统针对目标类型的问题生成的反馈数据；然后若上述在读取到目标问题之前的预设时长内，问答系统针对目标类型的问题生成的反馈数据的数据量小于预设数据量，则以预设倍数延长预设时长得到新的预设时长；最后获取在读取到目标问题之前的新的预设时长内，问答系统针对目标类型的问题生成的反馈数据，使得获取得到的目标类型的问题的反馈数据的数据量大于等于预设数据量。

307：根据上述反馈数据确定目标类型的问题与知识库的匹配度。

在本申请实施例中，根据上述反馈数据确定目标类型的问题与知识库的匹配度。具体的，在计算匹配度时，知识库更新设备先对反馈数据进行数字特征化，数字特征化后的反馈数据包括目标类别的问题对应的问题数量、用户数、转人工数和差评数中的至少一种；然后将数字特征化后的反馈数据中的任意一个数据作为目标类型的问题与知识库的匹配度；或者，将数字特征化后的反馈数据中的任意一个数据与上述问题数量的比值作为目标类型的问题与知识库的匹配度。

308：根据目标类型的问题与知识库的匹配度更新知识库。

在本申请实施例中，根据目标类型的问题与知识库的匹配度更新知识库。具体的，在对知识库进行更新时，知识库更新设备先确定目标类型的问题与知识库的匹配度小于对应的预设值；然后利用爬虫技术在上述知识库中扩充目标类型的问题及对应的答复；按照扩充前已存储在知识库中的目标类型下的各个问题的优先级，对扩充前已存储在上述知识库中的目标类型下的至少一个问题进行删减，以保证删减后的知识库中的目标类型的问题的总数小于等于预设阈值。

更具体的，上述在根据问题的优先级对问题进行删减时，知识库更新设备先根据优先级指标来确定知识库中的上述目标类型下的各个问题的优先级，优先级指标包括访问频率，最近访问时间，是否为基础问题以及生成时间中的至少一个；然后按照优先级递减的顺序，依次对知识库中的目标类型下的至少一个问题进行删减，直到删减后的知识库中的目标类型的问题的总数小于等于预设阈值。

本申请实施例在第一实施例中的基础上，更加详细的本申请中的知识库更新方法的实现过程。需要说明的是，上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

本申请实施例还提供一种知识库更新设备，该知识库更新设备包含用于执行前述任一项的知识库更新方法的单元。具体地，参见图4，是本申请实施例提供的一种知识库更新设备的示意框图。本实施例的知识库更新设备包括：读取单元410、清除单元420、获取单元430、匹配单元440以及更新单元450。具体的：

读取单元410，用于读取缓存队列中排列在首位的问题作为目标问题，上述缓存队列中存储有问答系统上接收到的至少一个问题，上述问答系统用于基于知识库对接收到的问题匹配出回复；

清除单元420，用于清除上述缓存队列中与上述目标问题的问题类型相同的问题，并将上述目标问题的问题类型作为目标类型；

获取单元430，用于获取上述问答系统上针对上述目标类型的问题的反馈数据，上述目标类型的问题的反馈数据用于指示用户对于上述目标类型的问题的答复的反馈情况；

匹配单元440，用于根据上述反馈数据确定上述目标类型的问题与上述知识库的匹配度；

更新单元450，用于根据上述目标类型的问题与上述知识库的匹配度更新上述知识库。

在一种可实施的方式中，上述知识库更新设备还包括监听单元460，该监听单元460用于：对上述问答系统上接收到的问题进行监听；若监听到未匹配到答复的问题，则识别出上述未匹配到答复的问题的问题类型；将上述未匹配到答复的问题与识别得到的对应的问题类型相关联，并将上述未匹配到答复的问题加入上述缓存队列。

在一种可实施的方式中，上述获取单元430，具体用于：在本地数据库中获取上述目标类型的问题的历史反馈数据；在云端数据库中获取上述目标类型的问题的新的反馈数据；将上述历史反馈数据和上述新的反馈数据整合为上述目标类型的问题的反馈数据。

在一种可实施的方式中，上述获取单元430，具体用于：获取在读取到上述目标问题之前的预设时长内，上述问答系统针对上述目标类型的问题生成的反馈数据；若在读取到上述目标问题之前的预设时长内，上述问答系统针对上述目标类型的问题生成的反馈数据的数据量小于预设数据量，则以预设倍数延长上述预设时长得到新的预设时长；获取在读取到上述目标问题之前的新的预设时长内，上述问答系统针对上述目标类型的问题生成的反馈数据，使得获取得到的上述目标类型的问题的反馈数据的数据量大于等于上述预设数据量。

在一种可实施的方式中，上述匹配单元440，具体用于：对上述反馈数据进行数字特征化，数字特征化后的反馈数据包括上述目标类别的问题对应的问题数量、用户数、转人工数和差评数中的至少一种；将上述数字特征化后的反馈数据中的任意一个数据作为上述目标类型的问题与知识库的匹配度；或者，将上述数字特征化后的反馈数据中的任意一个数据与上述问题数量的比值作为上述目标类型的问题与知识库的匹配度。

在一种可实施的方式中，上述知识库更新设备还包括扩充单元470，用于确定上述目标类型的问题与上述知识库的匹配度小于对应的预设值；利用爬虫技术在上述知识库中扩充上述目标类型的问题及对应的答复。上述知识库更新设备还包括删减单元480，用于按照扩充前已存储在上述知识库中的目标类型下的各个问题的优先级，对上述扩充前已存储在上述知识库中的目标类型下的至少一个问题进行删减，以保证删减后的知识库中的目标类型的问题的总数小于等于预设阈值。

在一种可实施的方式中，上述删减单元480，具体用于根据优先级指标来确定上述知识库中的上述目标类型下的各个问题的优先级，上述优先级指标包括访问频率，最近访问时间，是否为基础问题以及生成时间中的至少一个；按照上述优先级递减的顺序，依次对上述知识库中的上述目标类型下的至少一个问题进行删减，直到删减后的知识库中的目标类型的问题的总数小于等于上述预设阈值。

本申请实施例提供了一种知识库的更新方法。读取单元和清除单元先通过缓存队列的方式实时监控并采集问答系统上的问题。然后获取单元按照采集到得到的问题的目标类别，在问答系统上进一步采集得到目标类别的问题的反馈数据。再然后匹配单元利用该反馈数据计算知识库中该目标类别下的问题与知识库的匹配度。最后更新单元根据该匹配度对知识库进行更新，使得使得问答系统基于该问答系统能进行更准确的答复。总的来说，本申请实施例提供了一种高效的知识库自动化更新方法。

参见图5，是本申请另一实施例提供的一种知识库更新设备示意框图。如图所示的本实施例中的知识库更新设备可以包括：处理器510和存储器520。上述处理器510和存储器520通过总线530连接。具体的：

处理器510，用于执行读取单元410的功能，用于读取缓存队列中排列在首位的问题作为目标问题，上述缓存队列中存储有问答系统上接收到的至少一个问题，上述问答系统用于基于知识库对接收到的问题匹配出回复；还用于执行清除单元420的功能，用于清除上述缓存队列中与上述目标问题的问题类型相同的问题，并将上述目标问题的问题类型作为目标类型；还用于执行获取单元430的功能，用于获取上述问答系统上针对上述目标类型的问题的反馈数据，上述目标类型的问题的反馈数据用于指示用户对于上述目标类型的问题的答复的反馈情况；还用于执行匹配单元440的功能，用于根据上述反馈数据确定上述目标类型的问题与上述知识库的匹配度；还用于执行更新单元450的功能，用于根据上述目标类型的问题与上述知识库的匹配度更新上述知识库。

在一种可实施的方式中，上述处理器510还用于执行监听单元460的功能，用于对上述问答系统上接收到的问题进行监听；若监听到未匹配到答复的问题，则识别出上述未匹配到答复的问题的问题类型；将上述未匹配到答复的问题与识别得到的对应的问题类型相关联，并将上述未匹配到答复的问题加入上述缓存队列。

在一种可实施的方式中，上述处理器510具体用于：在本地数据库中获取上述目标类型的问题的历史反馈数据；在云端数据库中获取上述目标类型的问题的新的反馈数据；将上述历史反馈数据和上述新的反馈数据整合为上述目标类型的问题的反馈数据。

在一种可实施的方式中，上述处理器510，具体用于：获取在读取到上述目标问题之前的预设时长内，上述问答系统针对上述目标类型的问题生成的反馈数据；若在读取到上述目标问题之前的预设时长内，上述问答系统针对上述目标类型的问题生成的反馈数据的数据量小于预设数据量，则以预设倍数延长上述预设时长得到新的预设时长；获取在读取到上述目标问题之前的新的预设时长内，上述问答系统针对上述目标类型的问题生成的反馈数据，使得获取得到的上述目标类型的问题的反馈数据的数据量大于等于上述预设数据量。

在一种可实施的方式中，上述处理器510，具体用于：对上述反馈数据进行数字特征化，数字特征化后的反馈数据包括上述目标类别的问题对应的问题数量、用户数、转人工数和差评数中的至少一种；将上述数字特征化后的反馈数据中的任意一个数据作为上述目标类型的问题与知识库的匹配度；或者，将上述数字特征化后的反馈数据中的任意一个数据与上述问题数量的比值作为上述目标类型的问题与知识库的匹配度。

在一种可实施的方式中，上述处理器510还用于执行扩充单元470的功能，用于确定上述目标类型的问题与上述知识库的匹配度小于对应的预设值；利用爬虫技术在上述知识库中扩充上述目标类型的问题及对应的答复。上述处理器510还用于执行删减单元480的功能，用于按照扩充前已存储在上述知识库中的目标类型下的各个问题的优先级，对上述扩充前已存储在上述知识库中的目标类型下的至少一个问题进行删减，以保证删减后的知识库中的目标类型的问题的总数小于等于预设阈值。

在一种可实施的方式中，上述处理器510，具体用于根据优先级指标来确定上述知识库中的上述目标类型下的各个问题的优先级，上述优先级指标包括访问频率，最近访问时间，是否为基础问题以及生成时间中的至少一个；按照上述优先级递减的顺序，依次对上述知识库中的上述目标类型下的至少一个问题进行删减，直到删减后的知识库中的目标类型的问题的总数小于等于上述预设阈值。

应当理解，在本申请实施例中，所称处理器510可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器510还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器520可以包括只读存储器和随机存取存储器，并向处理器510提供指令和数据。存储器520的一部分还可以包括非易失性随机存取存储器。例如，存储器520还可以存储设备类型的信息。

计算机可读存储介质可以是前述任一实施例的知识库更新设备的内部存储单元，例如知识库更新设备的硬盘或内存。计算机可读存储介质也可以是知识库更新设备的外部存储设备，例如知识库更新设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，计算机可读存储介质还可以既包括知识库更新设备的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及知识库更新设备所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

具体实现中，本申请实施例中所描述的处理器510可执行本申请实施例提供的知识库更新方法的第二实施例和第三实施例中所描述的实现方式，也可执行本申请实施例所描述的知识库更新设备的实现方式，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同知识库更新方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的知识库更新设备和单元的具体工作过程，可以参考前述知识库更新方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的知识库更新设备和知识库更新方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，知识库更新设备，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种知识库更新方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述读取缓存队列中排列在首位的问题作为目标问题之前，还包括：

对所述问答系统上接收到的问题进行监听；

若监听到未匹配到答复的问题，则识别出所述未匹配到答复的问题的问题类型；

将所述未匹配到答复的问题与识别得到的对应的问题类型相关联，并将所述未匹配到答复的问题加入所述缓存队列。

3.根据权利要求1所述的方法，其特征在于，所述获取所述问答系统上针对所述目标类型的问题的反馈数据，包括：

在本地数据库中获取所述目标类型的问题的历史反馈数据；

在云端数据库中获取所述目标类型的问题的新的反馈数据；

将所述历史反馈数据和所述新的反馈数据整合为所述目标类型的问题的反馈数据。

4.根据权利要求1所述的方法，其特征在于，所述获取所述问答系统上针对所述目标类型的问题的反馈数据，包括：

获取在读取到所述目标问题之前的预设时长内，所述问答系统针对所述目标类型的问题生成的反馈数据；

若在读取到所述目标问题之前的预设时长内，所述问答系统针对所述目标类型的问题生成的反馈数据的数据量小于预设数据量，则以预设倍数延长所述预设时长得到新的预设时长；

获取在读取到所述目标问题之前的新的预设时长内，所述问答系统针对所述目标类型的问题生成的反馈数据，使得获取得到的所述目标类型的问题的反馈数据的数据量大于等于所述预设数据量。

5.根据权利要求1所述的方法，其特征在于，所述根据所述反馈数据确定所述目标类型的问题与所述知识库的匹配度，包括：

对所述反馈数据进行数字特征化，数字特征化后的反馈数据包括所述目标类别的问题对应的问题数量、用户数、转人工数和差评数中的至少一种；

将所述数字特征化后的反馈数据中的任意一个数据作为所述目标类型的问题与知识库的匹配度；

或者，将所述数字特征化后的反馈数据中的任意一个数据与所述问题数量的比值作为所述目标类型的问题与知识库的匹配度。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标类型的问题与所述知识库的匹配度更新所述知识库，包括：

确定所述目标类型的问题与所述知识库的匹配度小于对应的预设值；

利用爬虫技术在所述知识库中扩充所述目标类型的问题及对应的答复；

按照扩充前已存储在所述知识库中的目标类型下的各个问题的优先级，对所述扩充前已存储在所述知识库中的目标类型下的至少一个问题进行删减，以保证删减后的知识库中的目标类型的问题的总数小于等于预设阈值。

7.根据权利要求6所述的方法，其特征在于，所述按照扩充前已存储在所述知识库中的目标类型下的各个问题的优先级，对所述扩充前已存储在所述知识库中的目标类型下的至少一个问题进行删减，以保证删减后的知识库中的目标类型的问题的总数小于等于预设阈值，包括：

根据优先级指标来确定所述知识库中的所述目标类型下的各个问题的优先级，所述优先级指标包括访问频率，最近访问时间，是否为基础问题以及生成时间中的至少一个；

按照所述优先级递减的顺序，依次对所述知识库中的所述目标类型下的至少一个问题进行删减，直到删减后的知识库中的目标类型的问题的总数小于等于所述预设阈值。

8.一种知识库更新设备，其特征在于，包括：

9.一种知识库更新设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，用以执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行，用以执行如权利要求1-7任一项所述的方法。