CN111008263A

CN111008263A - 问答匹配模型的更新方法和装置

Info

Publication number: CN111008263A
Application number: CN201911203440.6A
Authority: CN
Inventors: 张望舒; 温祖杰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-14
Anticipated expiration: 2039-11-29
Also published as: CN111008263B

Abstract

本说明书实施例提供一种问答匹配模型的更新方法和装置，方法包括：获取第一训练样本，包括第一候选知识点、第一样本问句及对应的第一匹配标签；利用第一训练样本，离线训练目标评分引擎，用已训练的线下版本更新对应的线下测试版本；当得到多个评分引擎分别对应的线下测试版本时，获取第二训练样本，包括第二样本问句、第一候选知识点集合，及对应的第一排序标签；利用第二训练样本，基于多个评分引擎的线下测试版本，离线训练决策引擎，以得到已训练的线下版本的决策引擎；将线上版本的各评分引擎更新为对应的线下测试版本，并将线上版本的决策引擎更新为已训练的线下版本的决策引擎。更新效率高。

Description

问答匹配模型的更新方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及问答匹配模型的更新方法和装置。

背景技术

在智能客服中，通过问答匹配模型确定与用户问句匹配的知识点。客户在与机器人交互过程中用户语言口语化、简略化，或者，用户的问题描述不清晰不准确或者描述冗杂，快速的业务逻辑迭代也带来了许多新的用户问题，这些都使得问答匹配模型需要快速更新。

随着业务类型日趋复杂，问答匹配模型通常需要引入越来越多的算法引擎(即算法模型)回答日趋复杂的用户问题，这些算法引擎在线上越积累越多，维护管理成本日益繁重，并且模型更新的效率低。

因此，希望能有改进的方案，能够提高问答匹配模型的更新效率。

发明内容

本说明书一个或多个实施例描述了一种问答匹配模型的更新方法和装置，能够提高问答匹配模型的更新效率。

第一方面，提供了一种问答匹配模型的更新方法，所述问答匹配模型包括多个评分引擎和决策引擎，所述评分引擎用于接收针对用户问句召回的多个候选知识点，输出各所述候选知识点分别与所述用户问句的匹配分数；所述评分引擎具有线上版本和线下版本；所述决策引擎用于根据所述多个评分引擎分别输出的各匹配分数，综合确定所述多个候选知识点与所述用户问句的匹配排序；所述决策引擎具有线上版本和线下版本；方法包括：

获取第一训练样本，所述第一训练样本包括针对第一样本问句的第一候选知识点，以及所述第一候选知识点与所述第一样本问句对应的第一匹配标签；

针对所述多个评分引擎中任意的目标评分引擎，利用所述第一训练样本，离线训练所述目标评分引擎，用已训练的线下版本更新所述目标评分引擎的线下测试版本；

当得到所述多个评分引擎分别对应的线下测试版本时，获取第二训练样本，所述第二训练样本包括针对第二样本问句的第一候选知识点集合，以及所述第一候选知识点集合对应的各候选知识点的第一排序标签；

将所述第一候选知识点集合中的各候选知识点分别输入各评分引擎的线下测试版本，将各评分引擎的输出作为线下版本的所述决策引擎的输入，得到针对所述第一候选知识点集合的第一排序预测；根据所述第一排序预测，所述第一排序标签，训练所述决策引擎，以得到已训练的线下版本的决策引擎；

将线上版本的各评分引擎更新为对应的线下测试版本，并将线上版本的决策引擎更新为已训练的线下版本的决策引擎。

在一种可能的实施方式中，所述线上版本包括第一线上版本和第二线上版本，所述第一线上版本承担第一比例的线上流量，所述第二线上版本承担第二比例的线上流量，所述第一比例大于所述第二比例；

所述将线上版本的各评分引擎更新为对应的线下测试版本，并将线上版本的决策引擎更新为已训练的线下版本的决策引擎，包括：

将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎。

在一种可能的实施方式中，所述第一训练样本为基于用户反馈数据打标生成；和/或，

所述第二训练样本为基于用户反馈数据打标生成。

在一种可能的实施方式中，所述将所述第一候选知识点集合中的各候选知识点分别输入各评分引擎的线下测试版本之前，所述方法还包括：

确定各评分引擎的线下测试版本更新为已训练的线下版本。

在一种可能的实施方式中，所述将线上版本的各评分引擎更新为对应的线下测试版本，并将线上版本的决策引擎更新为已训练的线下版本的决策引擎之前，所述方法还包括：

对线下测试版本的各评分引擎和/或已训练的线下版本的决策引擎进行线下测试，并确定测试结果符合评估标准。

进一步地，所述将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎之后，所述方法还包括：

分别获取所述第一线上版本和所述第二线上版本的效果评估参数值；

当根据所述效果评估参数值确定所述第二线上版本的效果优于所述第一线上版本时，将所述第一线上版本的各评分引擎更新为所述第二线上版本的各评分引擎，并将所述第一线上版本的决策引擎更新为所述第二线上版本的决策引擎。

当根据所述效果评估参数值确定所述第二线上版本的效果差于所述第一线上版本时，重新训练各所述评分引擎。

进一步地，所述效果评估参数值包括在线转人工率。

第二方面，提供了一种问答匹配模型的更新装置，所述问答匹配模型包括多个评分引擎和决策引擎，所述评分引擎用于接收针对用户问句召回的多个候选知识点，输出各所述候选知识点分别与所述用户问句的匹配分数；所述评分引擎具有线上版本和线下版本；所述决策引擎用于根据所述多个评分引擎分别输出的各匹配分数，综合确定所述多个候选知识点与所述用户问句的匹配排序；所述决策引擎具有线上版本和线下版本；装置包括：

第一获取单元，用于获取第一训练样本，所述第一训练样本包括针对第一样本问句的第一候选知识点，以及所述第一候选知识点与所述第一样本问句对应的第一匹配标签；

第一训练单元，用于针对所述多个评分引擎中任意的目标评分引擎，利用所述第一获取单元获取的第一训练样本，离线训练所述目标评分引擎，用已训练的线下版本更新所述目标评分引擎的线下测试版本；

第二获取单元，用于当得到所述多个评分引擎分别对应的线下测试版本时，获取第二训练样本，所述第二训练样本包括针对第二样本问句的第一候选知识点集合，以及所述第一候选知识点集合对应的各候选知识点的第一排序标签；

第二训练单元，用于将所述第二获取单元获取的第一候选知识点集合中的各候选知识点分别输入各评分引擎的线下测试版本，将各评分引擎的输出作为线下版本的所述决策引擎的输入，得到针对所述第一候选知识点集合的第一排序预测；根据所述第一排序预测，所述第一排序标签，训练所述决策引擎，以得到已训练的线下版本的决策引擎；

更新单元，用于将线上版本的各评分引擎更新为对应的所述第一训练单元得到的线下测试版本，并将线上版本的决策引擎更新为所述第二训练单元得到的已训练的线下版本的决策引擎。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，对问答匹配模型包括的各算法引擎分别设置了线上版本和线下版本；在更新各算法引擎的线上版本之前，先对各算法引擎的线下版本进行训练，在确定各算法引擎的线下版本均训练完成后，再用各算法引擎的已训练的线下版本更新对应的线上版本，这种更新问答匹配模型的方式可以减少人工干预和人工成本，并提高更新效率。此外，各算法引擎实行分层次训练，先训练各评分引擎，在各评分引擎训练完成后，再基于已训练的评分引擎训练决策引擎，可以得到很好的训练效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的问答匹配模型的更新方法流程图；

图3为本说明书实施例提供的一种问答匹配模型数据闭环逻辑示意图；

图4为本说明书实施例提供的一种基于用户反馈的模型闭环更新方法流程图；

图5为本说明书实施例提供的一种数据闭环线上AB切换方法流程图；

图6示出根据一个实施例的问答匹配模型的更新装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及问答匹配模型的更新。参照图1，所述问答匹配模型包括多个评分引擎和决策引擎，所述评分引擎用于接收针对用户问句召回的多个候选知识点，输出各所述候选知识点分别与所述用户问句的匹配分数；所述决策引擎用于根据所述多个评分引擎分别输出的各匹配分数，综合确定所述多个候选知识点与所述用户问句的匹配排序，进而还可以根据该匹配排序从所述多个候选知识点中选出与用户问句最为匹配的知识点。

其中，所述问答匹配模型还可以包括多个召回引擎，所述召回引擎用于针对用户问句召回多个候选知识点。可以理解的是，评分引擎和召回引擎可以为两个独立的模型引擎，或者一个模型引擎的两个接口。例如，各模型引擎(Engine)分为召回(recall)和算分(score)两个接口，首先用户问句会被分发给每个引擎的召回接口，用来收集候选知识点，收集的候选知识点经过归并、去重之后会被分发到各模型引擎的算分接口，各模型引擎会对每一对(用户问句,候选知识点)进行打分或计算特征值，然后，所有的打分会经过归并，拼接成一个特征值，输入到决策模型(例如，xgboost模型或lambdaMart模型)里，最终计算出排序后的各候选知识点，输出给用户最相关的一个候选知识点。

本说明书实施例，对问答匹配模型的更新主要涉及对各评分引擎和决策引擎的更新。对问答匹配模型包括的各算法引擎分别设置了线上版本和线下版本；在更新各算法引擎的线上版本之前，先对各算法引擎的线下版本进行训练，在确定各算法引擎的线下版本均训练完成后，再用各算法引擎的已训练的线下版本更新对应的线上版本，这种更新问答匹配模型的方式可以减少人工干预和人工成本，并提高更新效率。此外，各算法引擎实行分层次训练，先训练各评分引擎，在各评分引擎训练完成后，再基于已训练的评分引擎训练决策引擎，可以得到很好的训练效果。

图2示出根据一个实施例的问答匹配模型的更新方法流程图，该方法可以基于图1所示的实施场景，所述问答匹配模型包括多个评分引擎和决策引擎，所述评分引擎用于接收针对用户问句召回的多个候选知识点，输出各所述候选知识点分别与所述用户问句的匹配分数；所述评分引擎具有线上版本和线下版本；所述决策引擎用于根据所述多个评分引擎分别输出的各匹配分数，综合确定所述多个候选知识点与所述用户问句的匹配排序；所述决策引擎具有线上版本和线下版本。如图2所示，该实施例中问答匹配模型的更新方法包括以下步骤：步骤21，获取第一训练样本，所述第一训练样本包括针对第一样本问句的第一候选知识点，以及所述第一候选知识点与所述第一样本问句对应的第一匹配标签；步骤22，针对所述多个评分引擎中任意的目标评分引擎，利用所述第一训练样本，离线训练所述目标评分引擎，用已训练的线下版本更新所述目标评分引擎的线下测试版本；步骤23，当得到所述多个评分引擎分别对应的线下测试版本时，获取第二训练样本，所述第二训练样本包括针对第二样本问句的第一候选知识点集合，以及所述第一候选知识点集合对应的各候选知识点的第一排序标签；步骤24，将所述第一候选知识点集合中的各候选知识点分别输入各评分引擎的线下测试版本，将各评分引擎的输出作为线下版本的所述决策引擎的输入，得到针对所述第一候选知识点集合的第一排序预测；根据所述第一排序预测，所述第一排序标签，训练所述决策引擎，以得到已训练的线下版本的决策引擎；步骤25，将线上版本的各评分引擎更新为对应的线下测试版本，并将线上版本的决策引擎更新为已训练的线下版本的决策引擎。下面描述以上各个步骤的具体执行方式。

首先在步骤21，获取第一训练样本，所述第一训练样本包括针对第一样本问句的第一候选知识点，以及所述第一候选知识点与所述第一样本问句对应的第一匹配标签。可以理解的是，该第一训练样本用于训练各评分模型，该第一匹配标签用于指示第一候选知识点与第一样本问句是否匹配。

表一为本说明书实施例提供的一种第一训练样本中知识点、问句与标签的对应关系表。

表一

在一个示例中，所述第一训练样本为基于用户反馈数据生成。例如，在用户与机器人客服的对话过程中，用户输出用户问句1，机器人客服针对该用户问句1输出知识点1，用户反馈知识点1与用户问句1相匹配，则通过获取用户反馈数据可以得到一组第一训练样本，该组第一训练样本对应的第一匹配标签为匹配。

在另一个示例中，所述第一训练样本为基于用户反馈数据打标生成。可以理解的是，在获取用户反馈数据后，可以基于用户反馈数据人工确定对应的第一匹配标签。

然后在步骤22，针对所述多个评分引擎中任意的目标评分引擎，利用所述第一训练样本，离线训练所述目标评分引擎，用已训练的线下版本更新所述目标评分引擎的线下测试版本。本说明书实施例，在离线训练所述目标评分引擎后，还可以对已训练的线下版本进行线下测试，和/或，进一步离线训练决策引擎。

在一个示例中，将第一样本问句和第一候选知识点输入目标评分引擎，通过目标评分引擎输出评分预测，根据该评分预测以及所述第一候选知识点与所述第一样本问句对应的第一匹配标签，离线训练所述目标评分引擎。

接着在步骤23，当得到所述多个评分引擎分别对应的线下测试版本时，获取第二训练样本，所述第二训练样本包括针对第二样本问句的第一候选知识点集合，以及所述第一候选知识点集合对应的各候选知识点的第一排序标签。可以理解的是，该第二训练样本用于训练决策模型，该第一排序标签用于指示各候选知识点与第二样本问句的匹配排序。

表二为本说明书实施例提供的一种第二训练样本中各知识点、问句与标签的对应关系表。

表二

参见表二，第一排序标签可以用于指示各知识点的排序位置，例如，知识点1排在第2位，知识点2排在第1位，知识点3排在第3位。

在一个示例中，所述第一训练样本为基于用户反馈数据打标生成。例如，在用户与机器人客服的一次对话过程中，用户输出用户问句1，机器人客服针对该用户问句1输出知识点1，用户反馈知识点1与用户问句1相匹配；在用户与机器人客服的另一次对话过程中，用户输出用户问句1，机器人客服针对该用户问句1输出知识点2，用户反馈知识点2与用户问句1相匹配；在用户与机器人客服的另一次对话过程中，用户输出用户问句1，机器人客服针对该用户问句1输出知识点3，用户反馈知识点3与用户问句1相匹配；则通过获取用户反馈数据可以得到一组第二训练样本，该组第二训练样本对应的第一排序标签通过打标生成。

再在步骤24，将所述第一候选知识点集合中的各候选知识点分别输入各评分引擎的线下测试版本，将各评分引擎的输出作为线下版本的所述决策引擎的输入，得到针对所述第一候选知识点集合的第一排序预测；根据所述第一排序预测，所述第一排序标签，训练所述决策引擎，以得到已训练的线下版本的决策引擎。可以理解的是，决策模型的输出结果要依赖于各评分引擎的输出结果，因此本说明书实施例先对各评分引擎进行训练，然后再训练决策模型。

在一个示例中，步骤24之前，确定各评分引擎的线下测试版本更新为已训练的线下版本。也就是说，确保各评分引擎均训练完成后，再训练决策模型。

最后在步骤25，将线上版本的各评分引擎更新为对应的线下测试版本，并将线上版本的决策引擎更新为已训练的线下版本的决策引擎。可以理解的是，在各评分引擎和决策引擎都离线训练完成后，统一更新线上版本为已训练的线下版本，从而实现问答匹配模型的自动更新迭代。

在一个示例中，所述线上版本包括第一线上版本和第二线上版本，所述第一线上版本承担第一比例的线上流量，所述第二线上版本承担第二比例的线上流量，所述第一比例大于所述第二比例；步骤25具体为将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎。

在一个示例中，步骤25之前，还可以对线下测试版本的各评分引擎和/或已训练的线下版本的决策引擎进行线下测试，并确定测试结果符合评估标准。

进一步地，所述将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎之后，可以分别获取所述第一线上版本和所述第二线上版本的效果评估参数值；当根据所述效果评估参数值确定所述第二线上版本的效果优于所述第一线上版本时，将所述第一线上版本的各评分引擎更新为所述第二线上版本的各评分引擎，并将所述第一线上版本的决策引擎更新为所述第二线上版本的决策引擎；当根据所述效果评估参数值确定所述第二线上版本的效果差于所述第一线上版本时，重新训练各所述评分引擎。

进一步地，所述效果评估参数值包括在线转人工率。

本说明书实施例，为了让问答匹配模型能够自动训练迭代，对目前的线上链路进行改造和迭代，将线上链路和线下链路联系在一起。如图3所示为本说明书实施例提供的一种问答匹配模型数据闭环逻辑示意图，参照图3，问答匹配模型包括的决策引擎和各评分引擎分别进行流量分桶，其中，评分引擎分为三个桶，分别称为A、B、T桶，A、B桶为线上服务桶，承载着线上的流量，例如分别分流80％和20％，用于线上的对照组合实验组，T桶为训练测试桶，只离线进行训练测试，不对用户端开放。决策引擎的A桶版本对应着各评分引擎的A桶服务，同理，决策引擎的B桶版本对应着各评分引擎的B桶服务。

对于各评分引擎，将其拆分成预测器(predictor)和训练器(trainer)两部分，其中，预测器提供模型算分服务，并同时存在A、B、T三个版本对应三个桶，训练器进行模型的增量或全量更新，并将更新好的版本发布至预测器的T桶进行实验测试。在各评分引擎的训练器训练完毕成功更新至T桶之后，启动决策引擎的训练，并利用各评分引擎更新好的T桶进行训练测试，在训练评估满足要求之后，进行问答匹配模型的更新迭代。

可以理解的是，图3中A桶可以对应于图2所示实施例中的第一线上版本，图3中B桶可以对应于图2所示实施例中的第二线上版本，图3中T桶可以对应于图2所示实施例中的线下测试版本。

本说明书实施例，模型更新迭代的数据源可以为用户反馈数据以及部分打标数据，如图4所示为本说明书实施例提供的一种基于用户反馈的模型闭环更新方法流程图，方法包括：首先收集用户反馈数据和全量数据抽样，进行数据预处理，将处理后的数据发包至打标平台进行打标；经过例如大约1周的时间，打标完毕，打标数据回收、处理至统一的引擎训练数据，分发给各评分引擎的训练器，进行新版本的训练，训练完毕之后将新版本自动发包至T桶，以便以后测试；在各评分引擎全部训练和发布至T桶完毕之后，利用各评分引擎的T桶链路，启动决策引擎的训练，并进行问答匹配模型的整体效果评估；在整体效果评估达到一定要求之后，启动模型线上滚桶迭代，将各评分引擎的T桶版本发布至B桶，同时将对应的新版决策引擎发布至B桶，后续进行B桶的整体自动上线AB测试。

如图5所示为本说明书实施例提供的一种数据闭环线上AB切换方法流程图，参照图5，在模型自动发布A桶版本和B桶版本一段时间(如5日)之后，可以自动启动AB自动评测链路，回收线上AB桶流量各自的实验效果。由于B桶对应的是新版本的实验模型，所以B桶是实验桶，A桶是对照桶。当B桶5日线上效果的平均值优于A桶(例如B桶线上在线转人工率低于A桶)，则认为B桶为一次有效的AB测试迭代，相对应的，会启动线上B桶至A桶的滚桶操作，将各评分引擎的A桶替换为和B桶一致的模型版本，同时决策引擎的A桶也替换为和B桶一致的版本，进行B桶到A桶的全量线上迭代。如果B桶的线上效果差于A桶，则不进行AB滚桶操作。同时，再次启动新一轮的训练，替换线上B桶再次开始下一个周期的AB测试实验。经实际效果验证，从闭环的开始到线上AB自动滚桶直至触发下一次训练，整体流程可以控制在仅仅两周之内，同时大量节省了人力维护模型的成本，既加快了迭代效率又节约了人力。

根据另一方面的实施例，还提供一种问答匹配模型的更新装置，该装置用于执行本说明书实施例提供的问答匹配模型的更新方法。所述问答匹配模型包括多个评分引擎和决策引擎，所述评分引擎用于接收针对用户问句召回的多个候选知识点，输出各所述候选知识点分别与所述用户问句的匹配分数；所述评分引擎具有线上版本和线下版本；所述决策引擎用于根据所述多个评分引擎分别输出的各匹配分数，综合确定所述多个候选知识点与所述用户问句的匹配排序；所述决策引擎具有线上版本和线下版本。图6示出根据一个实施例的问答匹配模型的更新装置的示意性框图。如图6所示，该装置600包括：

第一获取单元61，用于获取第一训练样本，所述第一训练样本包括针对第一样本问句的第一候选知识点，以及所述第一候选知识点与所述第一样本问句对应的第一匹配标签；

第一训练单元62，用于针对所述多个评分引擎中任意的目标评分引擎，利用所述第一获取单元61获取的第一训练样本，离线训练所述目标评分引擎，用已训练的线下版本更新所述目标评分引擎的线下测试版本；

第二获取单元63，用于当得到所述多个评分引擎分别对应的线下测试版本时，获取第二训练样本，所述第二训练样本包括针对第二样本问句的第一候选知识点集合，以及所述第一候选知识点集合对应的各候选知识点的第一排序标签；

第二训练单元64，用于将所述第二获取单元63获取的第一候选知识点集合中的各候选知识点分别输入各评分引擎的线下测试版本，将各评分引擎的输出作为线下版本的所述决策引擎的输入，得到针对所述第一候选知识点集合的第一排序预测；根据所述第一排序预测，所述第一排序标签，训练所述决策引擎，以得到已训练的线下版本的决策引擎；

更新单元65，用于将线上版本的各评分引擎更新为对应的所述第一训练单元62得到的线下测试版本，并将线上版本的决策引擎更新为所述第二训练单元64得到的已训练的线下版本的决策引擎。

可选地，作为一个实施例，所述线上版本包括第一线上版本和第二线上版本，所述第一线上版本承担第一比例的线上流量，所述第二线上版本承担第二比例的线上流量，所述第一比例大于所述第二比例；

所述更新单元65，具体用于将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎。

可选地，作为一个实施例，所述第一训练样本为基于用户反馈数据打标生成；和/或，

所述第二训练样本为基于用户反馈数据打标生成。

可选地，作为一个实施例，所述装置还包括：

确定单元，用于在所述第二训练单元64将所述第一候选知识点集合中的各候选知识点分别输入各评分引擎的线下测试版本之前，确定各评分引擎的线下测试版本更新为已训练的线下版本。

可选地，作为一个实施例，所述装置还包括：

测试单元，用于在所述更新单元65将线上版本的各评分引擎更新为对应的线下测试版本，并将线上版本的决策引擎更新为已训练的线下版本的决策引擎之前，对线下测试版本的各评分引擎和/或已训练的线下版本的决策引擎进行线下测试，并确定测试结果符合评估标准。

进一步地，所述装置还包括：

第三获取单元，用于在所述更新单元65将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎之后，分别获取所述第一线上版本和所述第二线上版本的效果评估参数值；

所述更新单元65，还用于当根据所述第三获取单元获取的效果评估参数值确定所述第二线上版本的效果优于所述第一线上版本时，将所述第一线上版本的各评分引擎更新为所述第二线上版本的各评分引擎，并将所述第一线上版本的决策引擎更新为所述第二线上版本的决策引擎；

或者，所述更新单元65，还用于当根据所述第三获取单元获取的效果评估参数值确定所述第二线上版本的效果差于所述第一线上版本时，重新训练各所述评分引擎。

进一步地，所述效果评估参数值包括在线转人工率。

通过本说明书实施例提供的装置，对问答匹配模型包括的各算法引擎分别设置了线上版本和线下版本；在更新单元65更新各算法引擎的线上版本之前，先由第一训练单元62和第二训练单元64对各算法引擎的线下版本进行训练，在确定各算法引擎的线下版本均训练完成后，再用各算法引擎的已训练的线下版本更新对应的线上版本，这种更新问答匹配模型的方式可以减少人工干预和人工成本，并提高更新效率。此外，各算法引擎实行分层次训练，先由第一训练单元62训练各评分引擎，在各评分引擎训练完成后，再由第二训练单元64基于已训练的评分引擎训练决策引擎，可以得到很好的训练效果。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2、图4和图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2、图4和图5所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种问答匹配模型的更新方法，所述问答匹配模型包括多个评分引擎和决策引擎，所述评分引擎用于接收针对用户问句召回的多个候选知识点，输出各所述候选知识点分别与所述用户问句的匹配分数；所述评分引擎具有线上版本和线下版本；所述决策引擎用于根据所述多个评分引擎分别输出的各匹配分数，综合确定所述多个候选知识点与所述用户问句的匹配排序；所述决策引擎具有线上版本和线下版本；所述方法包括：

2.如权利要求1所述的方法，其中，所述线上版本包括第一线上版本和第二线上版本，所述第一线上版本承担第一比例的线上流量，所述第二线上版本承担第二比例的线上流量，所述第一比例大于所述第二比例；

3.如权利要求1所述的方法，其中，所述第一训练样本为基于用户反馈数据打标生成；和/或，

所述第二训练样本为基于用户反馈数据打标生成。

4.如权利要求1所述的方法，其中，所述将所述第一候选知识点集合中的各候选知识点分别输入各评分引擎的线下测试版本之前，所述方法还包括：

确定各评分引擎的线下测试版本更新为已训练的线下版本。

5.如权利要求1所述的方法，其中，所述将线上版本的各评分引擎更新为对应的线下测试版本，并将线上版本的决策引擎更新为已训练的线下版本的决策引擎之前，所述方法还包括：

6.如权利要求2所述的方法，其中，所述将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎之后，所述方法还包括：

7.如权利要求2所述的方法，其中，所述将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎之后，所述方法还包括：

8.如权利要求6或7所述的方法，其中，所述效果评估参数值包括在线转人工率。

9.一种问答匹配模型的更新装置，所述问答匹配模型包括多个评分引擎和决策引擎，所述评分引擎用于接收针对用户问句召回的多个候选知识点，输出各所述候选知识点分别与所述用户问句的匹配分数；所述评分引擎具有线上版本和线下版本；所述决策引擎用于根据所述多个评分引擎分别输出的各匹配分数，综合确定所述多个候选知识点与所述用户问句的匹配排序；所述决策引擎具有线上版本和线下版本；所述装置包括：

10.如权利要求9所述的装置，其中，所述线上版本包括第一线上版本和第二线上版本，所述第一线上版本承担第一比例的线上流量，所述第二线上版本承担第二比例的线上流量，所述第一比例大于所述第二比例；

所述更新单元，具体用于将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎。

11.如权利要求9所述的装置，其中，所述第一训练样本为基于用户反馈数据打标生成；和/或，

所述第二训练样本为基于用户反馈数据打标生成。

12.如权利要求9所述的装置，其中，所述装置还包括：

确定单元，用于在所述第二训练单元将所述第一候选知识点集合中的各候选知识点分别输入各评分引擎的线下测试版本之前，确定各评分引擎的线下测试版本更新为已训练的线下版本。

13.如权利要求9所述的装置，其中，所述装置还包括：

测试单元，用于在所述更新单元将线上版本的各评分引擎更新为对应的线下测试版本，并将线上版本的决策引擎更新为已训练的线下版本的决策引擎之前，对线下测试版本的各评分引擎和/或已训练的线下版本的决策引擎进行线下测试，并确定测试结果符合评估标准。

14.如权利要求10所述的装置，其中，所述装置还包括：

第三获取单元，用于在所述更新单元将所述第二线上版本的各评分引擎更新为对应的线下测试版本，并将所述第二线上版本的决策引擎更新为已训练的线下版本的决策引擎之后，分别获取所述第一线上版本和所述第二线上版本的效果评估参数值；

所述更新单元，还用于当根据所述第三获取单元获取的效果评估参数值确定所述第二线上版本的效果优于所述第一线上版本时，将所述第一线上版本的各评分引擎更新为所述第二线上版本的各评分引擎，并将所述第一线上版本的决策引擎更新为所述第二线上版本的决策引擎。

15.如权利要求10所述的装置，其中，所述装置还包括：

所述更新单元，还用于当根据所述第三获取单元获取的效果评估参数值确定所述第二线上版本的效果差于所述第一线上版本时，重新训练各所述评分引擎。

16.如权利要求14或15所述的装置，其中，所述效果评估参数值包括在线转人工率。

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项的所述的方法。