CN109189912A

CN109189912A - 用户咨询语句库的更新方法及装置

Info

Publication number: CN109189912A
Application number: CN201811174601.9A
Authority: CN
Inventors: 陈晓军; 温祖杰; 赖晓虎; 吴岳灏; 崔恒斌; 张家兴
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2019-01-11

Abstract

本说明书实施例提供一种用户咨询语句库的更新方法，其中用户咨询语句库中包括标准咨询语句和对应的多个衍生咨询语句，且该方法包括：首先，接收用户输入的当前咨询语句；接着，基于预定匹配算法，从用户咨询语句库中确定与当前咨询语句对应的当前标准咨询语句；然后，向用户展示当前标准咨询语句，以使用户确认当前标准咨询语句是否正确，以及，在用户确认当前标准咨询语句正确的情况下，将当前咨询语句添加至与当前标准咨询语句对应的多个衍生咨询语句中。

Description

用户咨询语句库的更新方法及装置

技术领域

本说明书实施例涉及自然语言处理领域，具体地，涉及一种用户咨询语句库的更新方法及装置。

背景技术

目前，客服服务系统中的一个重要组件就是“意图识别”，当向用户提供客服服务时，需要识别出用户会话所包含的意图，例如，对应的标准咨询语句，然后再根据识别出的意图对用户会话进行相应的回复，例如，根据识别出的标准咨询语句，从客服服务系统包括的标准答案系统中查找对应的标准答案，以对用户进行回复。

然而，“意图识别”中用于匹配用户意图的数据，例如，标准咨询语句等通常缺乏多样性。因此，需要提供一种合理的方案，可以丰富用于匹配用户意图的数据的多样性，以提高意图识别的准确度。

发明内容

本说明书描述了一种用户咨询语句库的更新方法，通过线上与用户进行交互，让用户确认基于用户咨询语句识别出的标准咨询语句是否正确，从而实现对用户咨询语句库的扩充。

根据第一方面，提供一种用户咨询语句库的更新方法，所述用户咨询语句库中包括标准咨询语句和对应的多个衍生咨询语句，所述方法包括：接收用户输入的当前咨询语句；基于预定匹配算法，从所述用户咨询语句库中确定与所述当前咨询语句对应的当前标准咨询语句；向用户展示所述当前标准咨询语句，以使所述用户确认所述当前标准咨询语句是否正确；在所述用户确认所述当前标准咨询语句正确的情况下，将所述当前咨询语句添加至与所述当前标准咨询语句对应的多个衍生咨询语句中。

在一个实施例中，其中从所述用户咨询语句库中确定与所述当前咨询语句对应的当前标准咨询语句，包括：确定所述当前咨询语句与所述用户咨询语句库中各个衍生咨询语句的相似度，并将所述相似度中的最大值所对应的衍生咨询语句作为与所述当前咨询语句匹配的当前衍生咨询语句；基于标准咨询语句与衍生咨询语句之间的映射关系，确定与所述当前衍生咨询语句对应的当前标准咨询语句。

进一步地，在一个具体的实施例中，其中将所述当前咨询语句添加至与所述当前标准咨询语句对应的多个衍生咨询语句中，包括：确定所述相似度中的最大值是否小于第一预设阈值；若所述相似度中的最大值小于所述第一预设阈值，则将所述当前咨询语句添加至与所述当前衍生咨询语句对应的多个衍生咨询语句中。

在一个实施例中，其中将所述当前咨询语句添加至与所述当前衍生咨询语句对应的多个衍生咨询语句中，包括：向工作人员展示所述当前咨询语句和所述当前标准咨询语句；在所述工作人员确认所述当前咨询语句与所述当前标准咨询语句相匹配的情况下，将所述当前咨询语句添加至与所述当前标准咨询语句对应的多个衍生咨询语句中。

在一个实施例中，其中在向用户展示所述当前标准咨询语句之后，还包括：在所述用户确认所述当前标准咨询语句不正确的情况下，将所述当前咨询语句归为待处理咨询语句。

进一步地，在一个具体的实施例中，还包括：获取多条待处理咨询语句；对所述多条待处理咨询语句进行聚类处理，得到多个类簇；确定与所述多个类簇对应的多个标准咨询语句；基于所述用户咨询语句库中包括的标准咨询语句，对所述多个标准咨询语句进行去重处理，得到新建标准咨询语句；将所述新建标准咨询语句添加至所述用户咨询语句库中，以及将与新建标准咨询语句对应的类簇中包括的待处理咨询语句作为对应的衍生咨询语句，添加至所述用户咨询语句库中。

更进一步地，在一个例子中，其中确定与所述多个类簇对应的多个标准咨询语句包括：确定所述多个类簇对应的多个类簇中心；将所述多个类簇中心中各个类簇中心对应的待处理咨询语句作为该类簇对应的标准咨询语句。

在另一个例子中，其中所述多个标准咨询语句中包括第一标准咨询语句，所述对所述多个标准咨询语句进行去重处理，包括：确定所述第一标准咨询语句与所述用户咨询语句库中包括的标准咨询语句的多个相似度；在所述多个相似度中的最大值低于第二预设阈值的情况下，保留所述第一标准咨询语句。

根据第二方面，提供一种用户咨询语句库的更新装置，所述用户咨询语句库中包括标准咨询语句和对应的多个衍生咨询语句，所述装置包括：接收单元，用于接收用户输入的当前咨询语句；确定单元，用于基于预定匹配算法，从所述用户咨询语句库中确定与所述当前咨询语句对应的当前标准咨询语句；展示单元，用于向用户展示所述当前标准咨询语句，以使所述用户确认所述当前标准咨询语句是否正确；添加单元，用于在所述用户确认所述当前标准咨询语句正确的情况下，将所述当前咨询语句添加至与所述当前标准咨询语句对应的多个衍生咨询语句中。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

在本说明书实施例披露的用户咨询语句库的更新方法中，通过线上与用户进行交互，让用户确定根据其描述定位出的标准咨询语句是否正确。在用户判断定位正确的情况下，将对应的用户描述作为挂到对应的标准咨询语句之下，而在用户判断定位错误的情况下，将对应的用户描述进行留存，然后将留存的多个用户描述进行聚类，进而确定出新的标准咨询语句和对应的衍生咨询语句。如此，则实现了对用户咨询语句库的扩充。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书实施例披露的应用场景示意图；

图2示出根据一个实施例的用户咨询语句库的更新方法流程图；

图3示出根据一个实施例的用户端的在线客服窗口的界面示意图；

图4示出根据一个实施例的基于待处理咨询语句更新用户咨询语句库的方法流程图；

图5示出根据一个实施例的用户咨询语句库的更新过程框图；

图6示出根据一个实施例的用户咨询语句库的更新装置结构图。

具体实施方式

下面结合附图，对本说明书披露的多个实施例进行描述。

本说明书实施例提供一种用户咨询语句库的更新方法，下面，首先对所述方法的应用场景和发明构思进行介绍。

图1为本说明书实施例披露的应用场景示意图。如图1所示，用户可以通过终端(如，手机、电脑)等，使用客服中心(如，包括客服人员和客服系统)提供的客服服务，客服服务基于客服人员可以划分为电子客服服务和人工客服服务，或者基于服务渠道可以划分为电话热线服务和在线服务。

通常情况下，客服系统中包括标准答案系统，且标准答案系统中包括多个标准问题，以及与各个标准问题对应的标准答案。由此，在向用户提供客服服务的过程中，可以根据用户发送的会话信息，定位出会话信息对应的用户问题，也就是从多个标准问题中确定出一个与会话信息相匹配的标准问题，然后根据此标准问题确定出对应的标准答案，以使电子客服或者人工客服据此确定出发送至用户的答复内容。

以上，在确定出与用户会话信息对应的标准问题的过程中，标问问法，即标准问题衍生或扩充出来的各种问法，是会话信息到标准问题的非常重要的中间桥梁，例如，标准问题是“支付宝无法登录”，则对应的标问问法可以包括“支付宝咋不能登录了呢”。可以理解，如果没有标问问法，由于标准问题的官方性以及用户会话信息的口语性，会导致匹配识别出用户问题的难度大大增加。同时，为了提高匹配的准确度和命中率，一方面，标问问法的设置应该尽可能接近用户描述。另一方面，应该尽可能丰富标问问法的多样性。

然而，现有的标问问法的扩充方法不够理想，通常是由工作人员基于标准问题进行编辑设置，由此设置的标问问法通常比较常规，而实际上，对应于同一个标准问题的标问问法可以完全不同，这就导致扩充的标问问法缺乏多样性。另一方面，由此扩充的对应于同一标准问题的标问问法中，可能存在较多相似度极高的标问问法，导致标问问法之间的区分度低，进而占用过多不必要的存储空间，以及在后续匹配等计算过程中，造成计算资源的浪费。

基于以上观察和统计，本说明书实施例提供一种用户咨询语句库的更新方法，其中用户咨询语句库中包括标准咨询语句(等同于前述的标准问题)和对应的多个衍生咨询语句(等同于前述的标问问法)。具体地，通过线上与用户进行交互，让用户确定根据其描述定位出的标准咨询语句是否正确。进一步地，在一种实施方式中，在用户判断定位正确的情况下，将对应的用户描述作为挂到对应的标准咨询语句之下，而在用户判断定位错误的情况下，将对应的用户描述进行留存，然后将留存的多个用户描述进行聚类，进而确定出新的标准咨询语句和对应的衍生咨询语句。如此，则实现了对用户咨询语句库的扩充。下面，描述以上过程的具体实施步骤。

图2示出根据一个实施例的用户咨询语句库的更新方法流程图，所述方法的执行主体可以为具有处理能力的设备：服务器或者系统或者装置，例如，图1中示出的客服系统。如图2所示，该方法流程包括以下步骤：步骤S210，接收用户输入的当前咨询语句；步骤S220，基于预定匹配算法，从用户咨询语句库中确定与当前咨询语句对应的当前标准咨询语句；步骤S230，向用户展示当前标准咨询语句，以使用户确认所述当前标准咨询语句是否正确；步骤S240，在用户确认当前标准咨询语句正确的情况下，将当前咨询语句添加至与当前标准咨询语句对应的多个衍生咨询语句中。

首先，在步骤S210，接收用户输入的当前咨询语句。

在一个实施例中，接收的当前咨询语句为语音格式的数据，相应地，可以将其转换为文本格式的数据，并基于转换后的文本数据进行后续处理。其中将语音数据转换为文本数据可以通过现有技术实现，在此不作限定。在一个例子中，用户通过拨打客服热线的方式使用客服服务，由此接收到的咨询语句为语音消息。在另一个例子中，用户通过在线客服的窗口中提供的发送语音信息的方式进行咨询，由此接收到的咨询语句也为语音数据。在另一个实施例中，接收的当前咨询语句为文本格式的数据。在一个例子中，用户使用在线客服服务，并在相应窗口中输入文字咨询信息，由此接收到的咨询语句为文本数据。

进一步地，在一个具体的实施例中，可以对文本格式的当前咨询语句进行预处理。在一个例子中，预处理可以包括：去除停用词、标点符号、特殊符号和主干内容的提取。

根据一个具体的例子，接收到的当前咨询语句可以为“问个事儿，支付宝咋不能登录了呢？”对此进行预处理后，可以得到对应的文本“支付宝咋不能登录了呢”。

以上，可以接收当前咨询语句，并将其处理成适用于后续处理流程的文本数据。接着，在步骤S220，基于预定匹配算法，从用户咨询语句库中确定与当前咨询语句对应的当前标准咨询语句。

根据一个实施例，首先，确定当前咨询语句与用户咨询语句库中各个衍生咨询语句的相似度，并将相似度中的最大值所对应的衍生咨询语句作为与当前咨询语句匹配的当前衍生咨询语句；然后，基于标准咨询语句与衍生咨询语句之间的映射关系，确定与当前衍生咨询语句对应的当前标准咨询语句。

需要说明的是，其中相似度的计算可以采用多种方式实现。在一个例子中，可以计算当前咨询语句与各个衍生咨询语句之间的编辑距离，再基于编辑距离确定相似度，通常，编辑距离越小，相似度越大。在另一个例子中，可以先确定分别确定当前咨询语句与各个衍生咨询语句的文本向量，然后再计算文本向量之间的余弦相似度。此外，所述映射关系可以为预先人工建立，或者，通过其他途径而获得并存储。

在一个例子中，用户咨询语句库中包括多个衍生咨询语句，例如，“支付宝登录不了”、“蚂蚁花呗开通失败”、“蚂蚁花呗无法使用”等，计算当前咨询语句“支付宝咋不能登录了呢”与其中各个衍生咨询语句的相似度，以及确定计算出的相似度中的最大值所对应的衍生咨询语句为“支付宝登录不了”，进而基于标准咨询语句与衍生咨询语句之间的映射关系，确定出与对应的当前标准咨询语句为“支付宝无法登录”。

在另一个例子中，计算当前咨询语句“通过蚂蚁花呗支付失败”与其中各个衍生咨询语句的相似度，以及确定计算出的相似度中的最大值所对应的衍生咨询语句为“蚂蚁花呗开通失败”，进而基于标准咨询语句与衍生咨询语句之间的映射关系，确定出与对应的当前标准咨询语句为“蚂蚁花呗无法开通”。

根据另一个实施例，用户咨询语句库中包括多个标准咨询语句，由此可以从多个标准咨询语句中直接确定出与当前咨询语句匹配的当前标准咨询语句。在一个具体的实施例中，其中可以采用文本关键字匹配算法，或者是文本相似度算法，确定出匹配的当前标准咨询语句。

以上，可以从用户咨询语句库中确定与当前咨询语句对应的当前标准咨询语句。然后，在步骤S230，向用户展示当前标准咨询语句，以使用户确认所述当前标准咨询语句是否正确。以及，在步骤S240，在用户确认当前标准咨询语句正确的情况下，将当前咨询语句添加至与当前标准咨询语句对应的多个衍生咨询语句中。

在一个实施例中，可以根据实际的客服场景，以语音或者文本的形式向用户展示当前标准咨询语句。在一个例子中，针对电话客服的场景，可以采用语音播报的方式，告知用户当前标准咨询语句的内容，以使用户确认，例如，播报的内容可以包括：尊敬的客户，请问您想咨询的问题是“支付宝无法登录”吗，如果是，请在拨号键盘中输入1，如果不是，请在拨号键盘中输入2。在另一个例子中，针对在线客服的场景，可以直接在用户端客服窗口中展示当前标准咨询语句的内容，如图3所示，并使用户通过点击“是”和“否”对应的按钮，来确认当前标准咨询语句是否正确。

以上，在向用户展示当前标准咨询语句后，一方面，在用户确认当前标准咨询语句正确的情况下，则将当前咨询语句添加至与当前标准咨询语句对应的多个衍生咨询语句中。

在一个实施例中，经由用户确认后的当前咨询语句与当前标准咨询语句匹配的可能性较高，因此可以直接将其添加至与当前标准咨询语句对应的多个衍生咨询语句中。如此，则实现了衍生咨询语句的扩充，丰富了衍生咨询语句的多样性。

进一步地，在用户确认当前标准咨询语句正确的情况下，还可以将当前标准咨询语句展示给工作人员，以使工作人员确认当前咨询语句是否与当前标准咨询语句相匹配，从而进一步提高判断的准确性。在一个实施例中，可以将经过用户确认的当前咨询语句和对应的当前标准咨询语句推送给工作人员，由工作人员判断是否需要对当前咨询语句进行添加。进一步地，在工作人员确认当前咨询语句与当前标准咨询语句相匹配的情况下，将当前咨询语句添加至与当前标准咨询语句对应的多个衍生咨询语句中。

此外，考虑到以上由用户确认或者由用户、工作人员双重确认后的直接添加，都很有可能会导致同一标准咨询语句对应的衍生咨询语句的数量过多，且区分性不大。由此，可以在进一步确定出当前咨询语句与用户咨询语句库中原有的与当前标准咨询语句对应的衍生咨询语句的区分度足够大的情况下，再针对当前咨询语句进行添加操作，否则对当前咨询语句进行抛弃处理。

具体地，在一个实施例中，基于前述确定出的当前咨询语句和与之匹配的当前衍生咨询语句的相似度，判定此相似度是否小于第一预设阈值，若小于，则说明区分度达到了预设标准，并将当前咨询语句添加至与当前标准咨询语句对应的多个衍生咨询语句中。另一方面，若大于，则说明区分度未达到预设标准，因此不进行添加操作。需要说明的是，其中第一预设阈值可以由工作人员根据实际经验进行设定，还可以根据后续的反馈数据进行调整。

根据一个具体的例子，用户对图3中示出的“是”按钮进行点击，也就是确认了当前标准咨询语句“支付宝无法登录”是正确的，然后，假定第一预设阈值为0.85，且假定当前衍生咨询语句“支付宝登录不了”与“支付宝咋不能登录了呢”的相似度为0.7(＜0.85)，据此可以将“支付宝咋不能登录了呢”添加至与“支付宝无法登录”对应的多个衍生咨询语句中。

以上，实现了在用户确认当前标准咨询语句正确的情况下，基于对应的当前咨询语句，对与当前标准咨询语句对应的多个衍生咨询语句进行扩充。

另一方面，在向用户展示当前标准咨询语句之后，在用户确认当前标准咨询语句不正确的情况下，在一个实施例中，可以直接将对应的由用户发送的当前咨询语句进行抛弃处理。在另一个实施例中，可以将对应的当前咨询语句进行存储，以用于更新用户咨询语句库。

具体地，根据一个实施例，在用户确认当前标准咨询语句不正确的情况下，将当前咨询语句归为待处理咨询语句。下面，结合图4，对根据待处理咨询语句，对用户咨询语句库进行更新的方法进行介绍。

图4示出根据一个实施例的基于待处理咨询语句更新用户咨询语句库的方法流程图。如图4所示，该方法流程包括以下步骤：步骤S41，获取多条待处理咨询语句；步骤S42，对多条待处理咨询语句进行聚类处理，得到多个类簇；步骤S43，确定与多个类簇对应的多个标准咨询语句；步骤S44，基于用户咨询语句库中包括的标准咨询语句，对多个标准咨询语句进行去重处理，得到新建标准咨询语句；步骤S45，将新建标准咨询语句添加至用户咨询语句库中，以及将新建标准咨询语句对应的类簇中包括的待处理咨询语句作为对应的衍生咨询语句，添加至用户咨询语句库中。

首先，在步骤S41，获取多条待处理咨询语句。

接着，在步骤S42，对多条待处理咨询语句进行聚类处理，得到多个类簇。

在一个实施例中，可以确定多条待处理咨询语句对应的多个句向量，然后再对多个句向量进行聚类处理。需要说明的是，可以采用现有技术中提供的多种方法，确定待处理咨询语句所对应的句向量，在此不作限定。另外，关于聚类处理：

在一个具体的实施例中，可以采用K-Means算法，对多个句向量进行聚类处理。其中，K-Means算法是一种基于划分的聚类算法。在一个例子中，具体的实现过程可以包括以下步骤：

1)、在聚类开始时根据人工预设的类簇数目k随机地在句向量集当中选择k个对象，将这些对象作为k个初始类簇的均值(也就是中心对象)；

2)、对于句向量集中剩余的每个对象，根据该对象到每一个类簇中心的欧几里得距离，划分到最近的类簇中；

3)、全部分配完之后，重新计算每个类簇的均值，再计算每篇文本距离这些新的类簇平均值或中心的距离，将文本重新归入目前最近的类簇中；

4)、不断重复上述步骤2)和3)，直到所有的样本都不能再重新分配为止。

需要说明的是，对于类簇数目k的设定，可以由相关的业务人员根据多个文本语句的数量以及业务经验进行设定。

在另一个具体的实施例中，可以采用DBSCAN算法，对多个句向量进行聚类处理。其中，DBSCAN算法是一种基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。具体而言，在DBSCAN算法中，首先将所有位置点标记为核心点、边界点或噪声点，删除其中的噪声点。然后为距离在预设参数(也就是邻域半径ε)之内的所有核心点之间赋予一条边，每组连通的核心点形成一个簇，将每个边界点指派到一个与之关联的核心点的簇中，由此完成位置点的聚类，其中预设参数越大，聚类得到的类簇数量越小，反之，得到的类簇数量越大。

可以理解，本步骤中还可以采用现有技术中的其他多种聚类算法，对多条待处理咨询语句对应的多个句向量进行聚类处理。其中多种聚类算法可以包括：K-MEDOIDS算法、CLARANS算法等划分聚类算法；BIRCH算法、CURE算法、CHAMELEON算法等层次聚类算法；以及OPTICS算法、DENCLUE算法等密度聚类算法。

以上，通过对多条待处理咨询语句对应的多个句向量进行聚类处理，可以得到对应的多个类簇。然后，在步骤S43，确定与多个类簇对应的多个标准咨询语句。

在一个实施例中，可以先确定多个类簇对应的多个类簇中心；然后将多个类簇中心中各个类簇中心对应的待处理咨询语句作为该类簇对应的标准咨询语句。在另一个实施例中，可以从各个类簇对应的待处理咨询语句中，随机抽取一条待处理咨询语句，作为该类簇对应的标准咨询语句。

接着，在步骤S44，基于用户咨询语句库中包括的标准咨询语句，对多个标准咨询语句进行去重处理，得到新建标准咨询语句。以及，在步骤S45，将新建标准咨询语句添加至用户咨询语句库中，以及将与新建标准咨询语句对应的类簇中包括的待处理咨询语句作为对应的衍生咨询语句，添加至用户咨询语句库中。

具体地，在一个实施例中，对于多个标准咨询语句中包括的任意一个标准咨询语句A₁(以下称为第一标准咨询语句)，首先，确定第一标准咨询语句A₁与用户咨询语句库中包括的各个标准咨询语句的多个相似度；然后，在多个相似度中的最大值低于第二预设阈值的情况下，将第一标准咨询语句归为新建标准咨询语句。

需要说明的是，其中关于相似度的计算，可以参见前述实施例中的描述，在此不作赘述。此外，第二预设阈值可以由工作人员根据经验进行设定，或者，还可以根据后续的反馈结果不断进行调整。

另一方面，如果第一标准咨询语句A₁与用户咨询语句库中原有的标准咨询语句A₀之间的相似度高于上述第二预设阈值，则说明语句A₁与原有语句A₀太过相似，两者重复，因此将标准咨询语句A₁进行去除，同时，与之对应的类簇中的其他待处理咨询语句a也随之去除。此处，不将对应的其他待处理咨询语句a挂到用户咨询语句库中对应的原有的标准咨询语句A₀下，主要是出于防挂错的考虑，因为一般来说，在处理咨询语句a时，在步骤S220中往往会确定出与a对应的A₀，用户已经确定A₀不正确，这就说明，即使a与A₀的相似度较高，但很有可能a与A₀描述的不是同一个问题，因此两者并不匹配的风险极高，所以优选不将a挂在A₀下，作为A₀的衍生咨询语句。

进一步地，将去重处理后保留的标准咨询语句，也就是新建标准咨询语句，添加至用户咨询语句库中，以及将新建标准咨询语句对应的类簇中包括的待处理咨询语句作为对应的衍生咨询语句，添加至用户咨询语句库中。如此，实现了对用户咨询语句库中的标准咨询语句和对应的衍生咨询语句的扩充。

综上可知，采用本说明书实施例提供的用户咨询语句库的更新方法，通过线上与用户进行交互，让用户确定根据其描述定位出的标准咨询语句是否正确。在用户判断定位正确的情况下，将对应的用户描述作为挂到对应的标准咨询语句之下，而在用户判断定位错误的情况下，将对应的用户描述进行留存，然后将留存的多个用户描述进行聚类，进而确定出新的标准咨询语句和对应的衍生咨询语句。如此，则实现了对用户咨询语句库的扩充。

接下来，根据一个具体的例子，对所述方法进行进一步说明。如图5所示，所述方法包括以下流程：首先，接收用户输入的当前咨询语句；接着，采用文本匹配模块，从用户咨询语句库中确定与当前咨询语句对应的当前标准咨询语句；然后，将标准咨询语句提供给用户进行确认；接着，一方面，在用户确认标准咨询语句正确的情况下，基于用户咨询语句库中与当前标准咨询语句对应的衍生咨询语句，对当前咨询语句进行去重处理，对于保留下来的当前咨询语句，交由人工审核，并在人工审核通过后，将当前咨询语句作为与当前标准咨询语句对应的衍生咨询语句，添加至用户咨询语句库中，另一方面，在用户确认标准咨询语句不正确的情况下，将当前咨询语句归为待处理咨询语句，再对多条待处理咨询语句进行聚类，并得到多个类簇，以及确定与多个类簇对应的多个标准咨询语句，再基于用户咨询语句库中包括的标准咨询语句，对与多个类簇对应的多个标准咨询语句进行去重处理，并将去重处理后保留下来的标准咨询语句和对应的类簇中的其他待处理咨询语句交由人工审核，进一步地，在人工审核通过的情况下，将审核通过的标准咨询语句添加到用户咨询语句库中，并将与标准咨询语句对应的待处理咨询语句作为其对应的衍生咨询语句添加到用户咨询语句库中。

以上，实现了根据线上用户的交互数据，对用户咨询语句库的更新处理。

根据另一方面的实施例，还提供一种用户咨询语句库的更新装置，所述用户咨询语句库中包括标准咨询语句和对应的多个衍生咨询语句。图6示出根据一个实施例的用户咨询语句库的更新装置结构图。如图6所示，该装置600包括：

接收单元610，用于接收用户输入的当前咨询语句；

确定单元620，用于基于预定匹配算法，从所述用户咨询语句库中确定与所述当前咨询语句对应的当前标准咨询语句；

展示单元630，用于向用户展示所述当前标准咨询语句，以使所述用户确认所述当前标准咨询语句是否正确；

添加单元640，用于在所述用户确认所述当前标准咨询语句正确的情况下，将所述当前咨询语句添加至与所述当前标准咨询语句对应的多个衍生咨询语句中。

在一个实施例中，其中确定单元620具体用于：

确定所述当前咨询语句与所述用户咨询语句库中各个衍生咨询语句的相似度，并将所述相似度中的最大值所对应的衍生咨询语句作为与所述当前咨询语句匹配的当前衍生咨询语句；

基于标准咨询语句与衍生咨询语句之间的映射关系，确定与所述当前衍生咨询语句对应的当前标准咨询语句。

进一步地，在一个具体的实施例中，其中添加单元640具体用于：

确定所述相似度中的最大值是否小于第一预设阈值；

若所述相似度中的最大值小于所述第一预设阈值，则将所述当前咨询语句添加至与所述当前衍生咨询语句对应的多个衍生咨询语句中。

在一个实施例中，其中添加单元640具体用于：

向工作人员展示所述当前咨询语句和所述当前标准咨询语句；

在所述工作人员确认所述当前咨询语句与所述当前标准咨询语句相匹配的情况下，将所述当前咨询语句添加至与所述当前标准咨询语句对应的多个衍生咨询语句中。

在一个实施例中，还包括：

归集单元650，用于在所述用户确认所述当前标准咨询语句不正确的情况下，将所述当前咨询语句归为待处理咨询语句。

进一步地，在一个具体的实施例中，还包括处理单元660，具体包括：

获取子单元661，用于获取多条待处理咨询语句；

聚类子单元662，用于对所述多条待处理咨询语句进行聚类处理，得到多个类簇；

确定子单元663，用于确定与所述多个类簇对应的多个标准咨询语句；

去重子单元664，用于基于所述用户咨询语句库中包括的标准咨询语句，对所述多个标准咨询语句进行去重处理，得到新建标准咨询语句；

添加子单元665，用于将所述新建标准咨询语句添加至所述用户咨询语句库中，以及将与新建标准咨询语句对应的类簇中包括的待处理咨询语句作为对应的衍生咨询语句，添加至所述用户咨询语句库中。

更进一步地，在一个例子中，其中确定子单元663具体用于：

确定所述多个类簇对应的多个类簇中心；

将所述多个类簇中心中各个类簇中心对应的待处理咨询语句作为该类簇对应的标准咨询语句。

另一方面，在一个例子中，其中所述多个标准咨询语句中包括第一标准咨询语句，所述去重子单元664具体用于：

确定所述第一标准咨询语句与所述用户咨询语句库中包括的标准咨询语句的多个相似度；

在所述多个相似度中的最大值低于第二预设阈值的情况下，保留所述第一标准咨询语句。

总之，采用本说明书实施例提供的用户咨询语句库的更新装置，通过线上与用户进行交互，让用户确定根据其描述定位出的标准咨询语句是否正确。在用户判断定位正确的情况下，将对应的用户描述作为挂到对应的标准咨询语句之下，而在用户判断定位错误的情况下，将对应的用户描述进行留存，然后将留存的多个用户描述进行聚类，进而确定出新的标准咨询语句和对应的衍生咨询语句。如此，则实现了对用户咨询语句库的扩充。

如上，根据再一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图4所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图4所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种用户咨询语句库的更新方法，所述用户咨询语句库中包括标准咨询语句和对应的多个衍生咨询语句，所述方法包括：

接收用户输入的当前咨询语句；

基于预定匹配算法，从所述用户咨询语句库中确定与所述当前咨询语句对应的当前标准咨询语句；

向用户展示所述当前标准咨询语句，以使所述用户确认所述当前标准咨询语句是否正确；

在所述用户确认所述当前标准咨询语句正确的情况下，将所述当前咨询语句添加至与所述当前标准咨询语句对应的多个衍生咨询语句中。

2.根据权利要求1所述的方法，其中从所述用户咨询语句库中确定与所述当前咨询语句对应的当前标准咨询语句，包括：

3.根据权利要求2所述的方法，其中将所述当前咨询语句添加至与所述当前标准咨询语句对应的多个衍生咨询语句中，包括：

确定所述相似度中的最大值是否小于第一预设阈值；

4.根据权利要求1所述的方法，其中将所述当前咨询语句添加至与所述当前衍生咨询语句对应的多个衍生咨询语句中，包括：

5.根据权利要求1所述的方法，其中在向用户展示所述当前标准咨询语句之后，还包括：

在所述用户确认所述当前标准咨询语句不正确的情况下，将所述当前咨询语句归为待处理咨询语句。

6.根据权利要求5所述的方法，还包括：

获取多条待处理咨询语句；

对所述多条待处理咨询语句进行聚类处理，得到多个类簇；

确定与所述多个类簇对应的多个标准咨询语句；

基于所述用户咨询语句库中包括的标准咨询语句，对所述多个标准咨询语句进行去重处理，得到新建标准咨询语句；

将所述新建标准咨询语句添加至所述用户咨询语句库中，以及将与新建标准咨询语句对应的类簇中包括的待处理咨询语句作为对应的衍生咨询语句，添加至所述用户咨询语句库中。

7.根据权利要求6所述的方法，其中确定与所述多个类簇对应的多个标准咨询语句包括：

确定所述多个类簇对应的多个类簇中心；

8.根据权利要求6所述的方法，其中所述多个标准咨询语句中包括第一标准咨询语句，所述对所述多个标准咨询语句进行去重处理，包括：

9.一种用户咨询语句库的更新装置，所述用户咨询语句库中包括标准咨询语句和对应的多个衍生咨询语句，所述装置包括：

接收单元，用于接收用户输入的当前咨询语句；

确定单元，用于基于预定匹配算法，从所述用户咨询语句库中确定与所述当前咨询语句对应的当前标准咨询语句；

展示单元，用于向用户展示所述当前标准咨询语句，以使所述用户确认所述当前标准咨询语句是否正确；

添加单元，用于在所述用户确认所述当前标准咨询语句正确的情况下，将所述当前咨询语句添加至与所述当前标准咨询语句对应的多个衍生咨询语句中。

10.根据权利要求9所述的装置，其中确定单元具体用于：

11.根据权利要求10所述的装置，其中添加单元具体用于：

确定所述相似度中的最大值是否小于第一预设阈值；

12.根据权利要求9所述的装置，其中添加单元具体用于：

13.根据权利要求9所述的装置，还包括：

归集单元，用于在所述用户确认所述当前标准咨询语句不正确的情况下，将所述当前咨询语句归为待处理咨询语句。

14.根据权利要求13所述的装置，还包括处理单元，具体包括：

获取子单元，用于获取多条待处理咨询语句；

聚类子单元，用于对所述多条待处理咨询语句进行聚类处理，得到多个类簇；

确定子单元，用于确定与所述多个类簇对应的多个标准咨询语句；

去重子单元，用于基于所述用户咨询语句库中包括的标准咨询语句，对所述多个标准咨询语句进行去重处理，得到新建标准咨询语句；

添加子单元，用于将所述新建标准咨询语句添加至所述用户咨询语句库中，以及将与新建标准咨询语句对应的类簇中包括的待处理咨询语句作为对应的衍生咨询语句，添加至所述用户咨询语句库中。

15.根据权利要求14所述的装置，其中确定子单元具体用于：

确定所述多个类簇对应的多个类簇中心；

16.根据权利要求14所述的装置，其中所述多个标准咨询语句中包括第一标准咨询语句，所述去重子单元具体用于：

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。