CN110909146B

CN110909146B - 用于推送反问标签的标签推送模型训练方法、装置及设备

Info

Publication number: CN110909146B
Application number: CN201911203510.8A
Authority: CN
Inventors: 胡翔; 温祖杰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-09-09
Anticipated expiration: 2039-11-29
Also published as: CN110909146A

Abstract

本说明书实施例提供一种用于推送反问标签的标签推送模型训练方法、装置及设备，在训练方法中，获取用户问句。将用户问句输入预先训练的分类模型，以得到用户问句对应于各标准问句的匹配概率。在标签推荐树中，从当前选中节点出发，基于各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对标签推荐树进行N次模拟访问，以得到当前选中节点的子节点集合中各子节点的访问次数。基于各子节点的访问次数，选取目标子节点。将子节点集合对应的子标签集合作为第一状态，将目标子节点对应的句子标签作为第一动作，将第一状态和所述第一动作添加到训练样本序列中，该训练样本序列用于训练标签推送模型。标签推送模型用于根据用户问句向用户推送反问标签。

Description

用于推送反问标签的标签推送模型训练方法、装置及设备

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种用于推送反问标签的标签推送模型训练方法、装置及设备。

背景技术

在客服场景下，用户的问题通常会有意图歧义。比如，当用户的问题为：“如何还款”时，用户可能是询问花呗如何还款，也可能询问借呗如何还款。再比如，当用户的问题为：”奶嘴坏了”时，用户可能是要换货，也可能是要退货，还可能是要质量投诉等等。在没有明确用户意图之前，客服系统通常不能准确回答用户疑问。因此在遇到这类问题时，需要通过某些方式与用户交互从而明确用户意图。比如，在确定用户的问题属于模糊问题后，通过提供选项的方式与用户明确其意图。如，当用户的问题为：“如何还款”时，由于该问题意图不明确，因此可以向用户提供选项:花呗，借呗，备用金，信用卡等。这里的每一个选项可以称为一个反问标签。之后，基于用户的点击指令，来进一步明确用户意图。

传统技术中，通常会基于有监督学习的方式来训练模型。之后，在接收到用户的模糊问题时，通过训练后的模型来向用户提供与其问题相匹配的反问标签。然而，该种方式通常需要标注人员预先标注大量样本。通过人工的方式标准样本时，需要花费极大的时间和精力，且容易出现误判或者遗漏等问题。因此需要提供一种更有效地模型训练方法。

发明内容

本说明书一个或多个实施例描述了一种用于推送反问标签的标签推送模型训练方法、装置及设备，可以大大提升标签推送模型训练的准确度和效率。

第一方面，提供了一种用于推送反问标签的标签推送模型训练方法，包括：

获取用户问句；

将所述用户问句输入预先训练的分类模型，以得到所述用户问句对应于各标准问句的匹配概率，所述各标准问句中的每个标准问句具有对应的句子标签；各标准问句分别对应的句子标签构成标签集合；

在基于所述标签集合生成的标签推荐树中，从当前选中节点出发，基于所述各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对所述标签推荐树进行N次模拟访问，以得到所述当前选中节点的子节点集合中各子节点的访问次数；所述标签推荐树包括多个节点，所述多个节点中的每个节点与所述标签集合中的一个句子标签相对应；所述当前选中节点的子节点集合对应于子标签集合，所述子标签集合包含所述标签集合中除已选中节点对应的已选中标签之外的句子标签；

基于所述各子节点的访问次数，从所述多个子节点中选取目标子节点作为下一选中节点；

将所述子标签集合作为第一状态，将所述目标子节点对应的句子标签作为第一动作，将所述第一状态和所述第一动作构成的第一状态动作对作为一组训练样本，添加到训练样本序列中，该训练样本序列用于训练标签推送模型；所述标签推送模型用于根据用户问句向用户推送反问标签。

第二方面，提供了一种用于推送反问标签的标签推送模型训练装置，包括：

获取单元，用于获取用户问句；

输入单元，用于将所述获取单元获取的所述用户问句输入预先训练的分类模型，以得到所述用户问句对应于各标准问句的匹配概率，所述各标准问句中的每个标准问句具有对应的句子标签；各标准问句分别对应的句子标签构成标签集合；

访问单元，用于在基于所述标签集合生成的标签推荐树中，从当前选中节点出发，基于所述各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对所述标签推荐树进行N次模拟访问，以得到所述当前选中节点的子节点集合中各子节点的访问次数；所述标签推荐树包括多个节点，所述多个节点中的每个节点与所述标签集合中的一个句子标签相对应；所述当前选中节点的子节点集合对应于子标签集合，所述子标签集合包含所述标签集合中除已选中节点对应的已选中标签之外的句子标签；

选取单元，用于基于所述各子节点的访问次数，从所述多个子节点中选取目标子节点作为下一选中节点；

添加单元，用于将所述子标签集合作为第一状态，将所述目标子节点对应的句子标签作为第一动作，将所述第一状态和所述第一动作构成的第一状态动作对作为一组训练样本，添加到训练样本序列中，该训练样本序列用于训练标签推送模型；所述标签推送模型用于根据用户问句向用户推送反问标签。

第三方面，提供了一种用于推送反问标签的标签推送模型训练设备，包括：

存储器；

一个或多个处理器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序被所述处理器执行时实现以下步骤：

获取用户问句；

本说明书一个或多个实施例提供的用于推送反问标签的标签推送模型训练方法、装置及设备，在获取到用户问句之后，先基于预先训练的分类模型，获得该用户问句对应于各标准问句的匹配概率。之后，基于获得的匹配概率，采用蒙特卡洛树搜索算法，对标签推荐树进行模拟访问，并获得访问结果。最后基于访问结果，来确定用于训练标签推送模型的训练样本序列。由此，可以提升标签推送模型的训练样本的获取效率和准确性，进而可以提升反问标签推送的有效性和准确性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书提供的用于推送反问标签的标签推送模型训练方法应用场景示意图；

图2为本说明书一个实施例提供的用于推送反问标签的标签推送模型训练方法流程图；

图3为本说明书提供的句子标签与标准问句之间的关系示意图；

图4为本说明书提供的访问路径示意图；

图5为本说明书一个实施例提供的用于推送反问标签的标签推送模型训练装置示意图；

图6为本说明书一个实施例提供的用于推送反问标签的标签推送模型训练设备示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在描述本说明书提供的方案之前，先对本方案的发明构思作以下说明。

在本说明书中，在明确用户意图的过程中，为避免在通过有监督学习的方式向用户推送反问标签时，需要大量人工标注样本的问题，本方案通过强化学习的方式，向用户推送反问标签。其具体实现过程如下：

首先，对于任意的用户问句，将该用户问句输入预先训练的分类模型，该分类模型用于预测用户问句与预定义的各标准问句的匹配概率，其可以是基于由用户问句与标准问句构成的问句对训练得到。这里，与用户问句对应的标准问句可以是基于用户的行为数据确定的。举例来说，用户在搜索场景输入用户问句“怎么邀请新人”，之后用户点了标准问句“邀请新人的方式”。从而基于用户上述的行为数据，最终得到的问句对可以为：“怎么邀请新人”和“邀请新人的方式”。应理解，上述确定用户问句对应的标准问句的过程也可以理解为是样本标注的过程。

需要说明的是，本方案基于用户的行为数据，获取分类模型的训练样本(即用户问句与标准问句构成的问句对)的方式，可以避免通过人工的方式标注样本时，极大地耗费时间和精力的问题。

在获取到当前的用户问句与各标准问句的匹配概率之后，在基于标签集合生成的标签推荐树中，从当前选中节点出发，基于各标准问句的匹配概率，采用蒙特卡洛树搜索(Monte Carlo tree search，MCTS)算法，对标签推荐树进行N次模拟访问，以得到对应的访问结果。这里的标签集合可以包含多个句子标签，句子标签可以是指从标准问句中提取的关键词，其与标准问句之间是多对多的关系。

需要说明的是，在执行上述N次模拟访问的过程中，在每次访问结束之后，可以基于当前访问过程所覆盖的各句子标签对应的标准问句的匹配概率与未覆盖句子标签对应的标准问句的匹配概率，计算该次访问的访问路径对应的奖励分数。这里的未覆盖句子标签为子标签集合中除当前访问过程所覆盖的句子标签之外的句子标签。之后，基于奖励分数，调整所覆盖的各句子标签对应的节点的分数值。至少基于调整后各个节点的分数值，执行下一次访问。

最后，基于N次模拟访问对应的访问结果，确定N组状态动作对。该N组状态动作也可以称为训练样本序列，其可以用于训练标签推送模型，标签推送模型用于根据用户问句向用户推送反问标签。

还需要说明的是，本方案基于MCTS算法的访问结果，获取标签推送模型的训练样本的方式，可以很好的解决在根据用户问句向用户推送反问标签时，所推送标签的排序和多样性问题。

以上就是本说明书提供的发明构思，基于该发明构思就可以得到本方案，以下对本方案进行详细阐述。

图1为本说明书提供的用于推送反问标签的标签推送模型训练方法应用场景示意图。图1中，客服系统可以接收用户问句。之后，可以将该用户问句输入标签推送模型，以预测与用户问句相匹配的反问标签，并向用户推送预测得到的反问标签。最后，基于用户针对反问标签的选择指令，对用户的用户问句进行回复。这里的标签推送模型可以是基于MCTS算法和强化学习的方式训练得到，其训练过程后续说明。

图2为本说明书一个实施例提供的用于推送反问标签的标签推送模型训练方法流程图。所述方法的执行主体可以为具有处理能力的设备：服务器或者系统或者装置，如，可以为图1中的客服系统。如图2所示，所述方法具体可以包括：

步骤202，获取用户问句。

这里的用户问句可以是预先收集的若干具有意图歧义的用户问句中任一用户问句，其也可以称为用户的模糊问题。

步骤204，将用户问句输入预先训练的分类模型，以得到用户问句对应于各标准问句的匹配概率。

如前所述，这里的分类模型可以是基于由用户问句与标准问句构成的问句对训练得到，且与用户问句对应的标准问句可以是基于用户的行为数据确定。

此外，上述各标准问句可以是预先设定好的，其可以具有相应的句子标签。在一个示例中，与某标准问句对应的句子标签可以是该标准问句中的关键词。在另一个示例中，与某标准问句对应的句子标签也可以是能表达该标准问句的关键信息的词语，其不一定包含在标准问句中。应理解，标准问句与句子标签之间可以是多对多的关系，即一个句子标签可以对应多个标准问句，一个标准问句也可以对应多个句子标签。举例来说，假设标准问句为：“花呗还款问题”，那么与其对应的句子标签可以为：“花呗”以及“还款”等。再假设标准问句为：“借呗还款问题”，那么与其对应的句子标签可以为：“借呗”以及“还款”等。由上述两个例子可以看出，一个标准问句可以对应多个句子标签。此外，句子标签：“还款”同时与上述两个标准问句相对应，因此，一个句子标签可以对应多个标准问句。

在本说明书中，与各标准问句分别对应的句子标签就可以构成标签集合。在一个例子中，该标签集合可以表示为：l＝{l₁,l₂,…,l_m}，其中，m为句子标签的个数。此外，以l_i为例来说，其中，1≤i≤m，与其对应的多个标准问句可以构成标准问句集合。该标准问句集合可以表示为：L_i＝{q₁,q₂,…,q_j}，其中，j为与句子标签l_i对应的标准问句的个数，每个q表示一个标准问句。

图3为本说明书提供的句子标签与标准问句之间的关系示意图。图3中，l₁-l_d为d个句子标签，L₁为句子标签l₁对应的标准问句集合，q₁,q₂,…,q_j为L₁中的各标准问句。E1为句子标签l₁的信息熵，其基于对应的标准问句集合L1中的各标准问句的匹配概率计算得到。E2为句子标签l₂的信息熵，其基于对应的标准问句集合L2中的各标准问句的匹配概率计算得到。依次类推。H为基于句子标签l₁-l_d确定的访问路径的信息熵。Lu为未覆盖句子标签的概率和。上述信息熵以及概率和的计算公式后续说明。

步骤206，在基于标签集合生成的标签推荐树中，从当前选中节点出发，基于各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对标签推荐树进行N次模拟访问，以得到当前选中节点的子节点集合中各子节点的访问次数。

这里的标签推荐树可以包括多个节点，多个节点中的每个节点与标签集合中的一个句子标签相对应，根节点除外。当前选中节点的子节点集合对应于子标签集合，子标签集合包含标签集合中除已选中节点对应的已选中标签之外的句子标签。

具体地，在上述N次模拟访问过程中，在每次访问结束之后，可以得到一条从当前选中节点开始的访问路径，该访问路径覆盖d个节点。上述N为正整数，1≤d≤m。

在一个例子中，第I(1≤I≤N)次访问的访问路径可以如图4所示。图4中，标签推荐树可以包括根节点和若干其它节点。该若干其它节点分别位于d层。其中，第1层节点的个数可以为m个，每个节点与标签集合l中的一个句子标签相对应。第2层节点的个数可以为m-1个，每个节点与标签集合l中除第1层已选中标签外的句子标签相对应。以此类推，第d层的节点的个数可以为m-(d-1)个，每个节点与标签集合l中除前d-1层已选中标签外的句子标签相对应。

以下对图4所示的第I次访问的访问路径的获得过程进行说明。

首先，将图4中的root节点(根节点)作为待处理节点。之后执行以下步骤d次：确定待处理节点的各子节点，判断各子节点的分数值(确定过程后续说明)是否相等。如果是，则从各子节点中随机选取一个子节点(如，选取该层最左侧子节点)。如果否，则从各子节点中选取分数值最大的子节点。将选取的子节点对应的句子标签作为第I次访问的访问路径的1个句子标签，并将选取的子节点更新为待处理节点。

可以理解的是，在执行以上步骤d次之后，就可以选取到d个节点。将该d个节点按照先后顺序相连接，就可以得到如图4所示的访问路径。

需要说明的是，在执行完成第I次访问之后，也即在得到第I次访问的访问路径之后，可以计算第I次访问的访问路径的信息熵。之后，基于第I次访问的访问路径的信息熵与未覆盖句子标签的概率和，确定信息熵增益，并将该信息熵增益作为第I次访问的访问路径的奖励分数。上述未覆盖句子标签为子标签集合中除d个节点对应的d个句子标签外的句子标签。

以下分别对第I次访问的访问路径的信息熵、未覆盖句子标签的概率和以及信息熵增益的计算过程进行说明。

对于第I次访问的访问路径的信息熵，其计算过程可以为：基于第I次访问的访问路径所覆盖的d个节点，确定对应的d个句子标签；对于确定的d个句子标签中的每个句子标签，基于对应的标准问句的匹配概率，确定该句子标签对应的信息熵。对确定的d个句子标签各自对应的信息熵进行加权求和，以得到第I次访问的访问路径的信息熵。其中，对于上述确定的d个句子标签中任意的第一句子标签，该第一句子标签对应的信息熵的加权系数基于第一句子标签对应的标准问句的个数确定。

在一个例子中，句子标签对应的信息熵的计算公式如下：

其中，l_i为第i个句子标签，u为用户问句，L_i为l_i对应的标准问句的集合，q_j为L_i中的某个标准问句，E(l_i)为第i个句子标签对应的信息熵，P(q_j|u)为用户问句对应于标准问句q_j的匹配概率。

在一个例子中，第I次访问的访问路径的信息熵的计算公式如下：

其中，l_i为第i个句子标签，|L_i|为l_i对应的标准问句的个数，E(l_i)为第i个句子标签对应的信息熵，T为超参数，d为句子标签的个数，H为第I词访问的访问路径的信息熵。

对于未覆盖句子标签的概率和，其计算过程可以如下：对未覆盖句子标签对应的标准问句的匹配概率求和，以得到未覆盖句子标签的概率和。

在一个例子中，未覆盖句子标签的概率和的计算公式如下：

L_u＝∑_qi∈Up(q_i|u) (公式3)

其中，u为用户问句，U为未覆盖句子标签对应的标准问句集合，q_i为U中某个标准问句，P(q_i|u)为用户问句对应于标准问句q_i的匹配概率，L_u为未覆盖句子标签的概率和。

对于信息熵增益，其确定公式可以如下：

其中，Q_path为信息熵增益，H为第I次访问的访问路径的信息熵，L_u为未覆盖句子标签的概率和。

可以理解的是，在得到第I次访问的访问路径的奖励分数之后，就可以对第I次访问的访问路径所覆盖的d个节点的分数值S进行调整了。在本说明书中，节点的分数值S可以基于节点的累积奖赏Q和访问次数V确定(具体计算公式参见公式6)。上述调整过程具体可以如下：

更新d个节点的访问次数V。如，将d个节点各自对应的访问次数V加1。基于第I次访问的访问路径的奖励分数，更新d个节点的累积奖赏Q。基于更新后的累积奖赏Q和访问次数V，调整d个节点的分数值S。

在一个示例中，基于第I次访问的访问路径的奖励分数，更新d个节点的累积奖赏的过程可以为：对于d个节点中任意的第一节点，获取第一节点的累积奖赏。将累积奖赏和奖励分数求平均，以得到求平均结果。将求平均结果作为第一节点更新后的累积奖赏。

对于句子标签对应的累积奖赏Q，其调整公式可以如下：

其中，Q_pathi为第I次访问的访问路径的信息熵增益，S为N次访问的访问路径集合，Q_node为句子标签对应的累积奖赏。

此外，节点的分数值S的计算公式可以如下：

其中，S_node为节点的分数值，Q_node为节点的累积奖赏，V_node为节点的访问次数，V_pnode为当前选中节点的访问次数。

可以理解的是，在调整d个节点的分数值S之后，第I+1次访问可以基于各个节点调整后的分数值S执行，其具体访问过程同第I次访问类似，在此不复赘述。

步骤208，基于各子节点的访问次数，从多个子节点中选取目标子节点作为下一选中节点。

在一个示例中，上述选取目标子节点的过程具体可以为：对于各子节点中任意的第一子节点，基于第一子节点的访问次数以及各子节点的访问次数，确定第一子节点的选择概率。采用狄利克雷噪音算法，对各子节点的选择概率进行相应的调整，以使得调整后的各子节点的选择概率满足预定分布。基于调整后的各子节点的选择概率，从多个子节点中选取目标子节点。

在一个示例中，假设当前选中节点的子节点的个数为n个，且各子节点的访问次数分别为：[V₁,V₂,…,V_n]。那么每个子节点的选择概率可以根据如下公式计算。

其中，V_i为第i个子节点，1≤i≤n，T为超参数，一般取1。

之后，可以采用狄利克雷噪音算法，对各子节点的选择概率进行相应的调整。如，调整公式可以为：pi＝0.75πi+0.25Dirichlet(0.03)，其中，pi为第i个子节点调整后的选择概率。

在一种实现方式中，基于调整后的各子节点的选择概率，采用轮盘赌算法，从多个子节点中选取目标子节点。当然，在实际应用，也可以基于选择概率的大小，从多个子节点中选取目标子节点，本说明书对此不作限定。

步骤210，将子标签集合作为第一状态，将目标子节点对应的句子标签作为第一动作，将第一状态和第一动作构成的第一状态动作对作为一组训练样本，添加到训练样本序列中。

该训练样本序列用于训练标签推送模型，该标签推送模型用于根据用户问句向用户推送反问标签。

应理解，在实际应用中，上述步骤206-步骤210可以是循环执行的，如可以循环执行d次。如，在执行上述步骤210之后，即可进入下一轮循环，在下一轮循环中，具体可以执行如下步骤：

确定下一选中节点的子节点集合对应的下一子标签集合，并将下一子标签集合作为第二状态。在标签推荐树中，从下一选中节点出发，基于各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对标签推荐树进行N次模拟访问，以确定对应于第二状态的第二动作。将第二状态和第二动作构成的第二状态动作对作为下一组训练样本，添加到训练样本序列中。

在对步骤206-步骤210循环执行d次之后，可以得到如下的训练样本序列：[s0,a0；s1,a1；…；sd,ad]，其中，S0为第一状态，a0为第一动作；依次类推。之后，就可以基于训练样本序列，训练上述标签推送模型。在一个例子中，可以结合如下如下的loss函数，来训练标签推送模型：

其中，Si为第i个状态，1≤i≤d，π为Si状态下所选择节点的选择概率，其计算公式如前述公式7。P_action为强化学习中的策略网络，其可以包括多个网络层，且不同的网络层对应不同的处理操作。

在具体实现中，可以通过梯度下降法来最小化上述loss函数。通过最小化如上的loss函数，可以使得Paction在任意状态Si下行为的概率分布与Si状态下进行采样得到的分布pi的KL散度最小化。

综上，在本说明书实施例中，通过将每次访问的路径的信息熵作为奖励分数，可以避免向用户推送重复标签的问题。因为重复的标签对各标准问句的区分度很小，其信息熵增益不会高。此外，Lu又可以保证正确标问的覆盖，因此，本方案在保证了覆盖率的同时可以解决标签重复的问题。

此外，基于本说明书实施例训练得到的标签推送模型向用户推送的反问标签具有如下特点：

a.可以与用户问句可以形成互补，不与用户问句重复。举例来说，假设用户问句为：如何还款，那么本方案所推送的反问标签则不再包含“还款”标签，而可以包含“花呗”等标签。

b.与用户问句相关的反问标签排在前面。

c.具有多样性。举例来说，假设用户问句为：我遇到花呗问题，那么本方案所推送的反问标签可以为：“还款”，“开通”，“借款”,“额度”。

总之，基于本说明书实施例训练得到的标签推送模型，可以避免用户问句与推送标签重复问题，此外，还可以解决所推送标签的排序和多样性问题。

与上述用于推送反问标签的标签推送模型训练方法对应地，本说明书一个实施例还提供的一种用于推送反问标签的标签推送模型训练装置，如图5所示，该装置可以包括：

获取单元502，用于获取用户问句。

输入单元504，用于将获取单元502获取的用户问句输入预先训练的分类模型，以得到用户问句对应于各标准问句的匹配概率，各标准问句中的每个标准问句具有对应的句子标签，各标准问句分别对应的句子标签构成标签集合。

访问单元506，用于在基于标签集合生成的标签推荐树中，从当前选中节点出发，基于各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对标签推荐树进行N次模拟访问，以得到当前选中节点的子节点集合中各子节点的访问次数。标签推荐树包括多个节点，多个节点中的每个节点与标签集合中的一个句子标签相对应。当前选中节点的子节点集合对应于子标签集合，子标签集合包含标签集合中除已选中节点对应的已选中标签之外的句子标签。

选取单元508，用于基于各子节点的访问次数，从多个子节点中选取目标子节点作为下一选中节点。

添加单元510，用于将子标签集合作为第一状态，将目标子节点对应的句子标签作为第一动作，将第一状态和第一动作构成的第一状态动作对作为一组训练样本，添加到训练样本序列中，该训练样本序列用于训练标签推送模型。标签推送模型用于根据用户问句向用户推送反问标签。

访问单元506具体可以用于：

基于第i-1次访问的访问路径所覆盖的d个节点，确定对应的d个句子标签。

基于确定的d个句子标签对应的标准语句的匹配概率以及未覆盖句子标签对应的标准问句的匹配概率，确定第i-1次访问的访问路径对应的奖励分数。未覆盖句子标签为子标签集合中除d个句子标签外的句子标签。

基于奖励分数，调整d个节点的分数值。

至少基于调整后各个节点的分数值，执行第i次访问。

访问单元506还具体可以用于：

对于确定的d个句子标签中的每个句子标签，基于对应的标准问句的匹配概率，确定该句子标签对应的信息熵。

对未覆盖句子标签对应的标准问句的匹配概率求和，以得到概率和。

基于d个句子标签各自对应的信息熵以及概率和，确定第i-1次访问的访问路径对应的奖励分数。

访问单元506还具体可以用于：

对确定的d个句子标签各自对应的信息熵进行加权求和，以得到第i-1次访问的访问路径的信息熵。

基于第i-1次访问的访问路径的信息熵以及概率和，确定第i-1次访问的访问路径对应的奖励分数。

对于d个句子标签中任意的第一句子标签，第一句子标签对应的信息熵的加权系数基于第一句子标签对应的标准问句的个数确定。

可选地，标签推荐树的多个节点中各个节点具有对应的累积奖赏和访问次数。

访问单元506还具体可以用于：

更新d个节点的访问次数。

基于奖励分数，更新d个节点的累积奖赏。

基于更新后的累积奖赏和访问次数，调整d个节点的分数值。

访问单元506还具体可以用于：

对于d个节点中任意的第一节点，获取第一节点的累积奖赏。

将累积奖赏和奖励分数求平均，以得到求平均结果。

将求平均结果作为第一节点更新后的累积奖赏。

访问单元506还具体可以用于：

将d个节点各自对应的访问次数加1。

选取单元508具体可以用于：

对于各子节点中任意的第一子节点，基于第一子节点的访问次数以及各子节点的访问次数，确定第一子节点的选择概率。

采用狄利克雷噪音算法，对各子节点的选择概率进行相应的调整，以使得调整后的各子节点的选择概率满足预定分布。

基于调整后的各子节点的选择概率，从多个子节点中选取目标子节点。

选取单元508还具体可以用于：

基于调整后的各子节点的选择概率，采用轮盘赌算法，从多个子节点中选取目标子节点。

可选地，该装置还可以包括：

确定单元(图中未示出)，用于确定下一选中节点的子节点集合对应的下一子标签集合，并将下一子标签集合作为第二状态。

访问单元506，还用于在标签推荐树中，从下一选中节点出发，基于各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对标签推荐树进行N次模拟访问，以确定对应于第二状态的第二动作。

添加单元510，还用于将第二状态和第二动作构成的第二状态动作对作为下一组训练样本，添加到训练样本序列中。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的用于推送反问标签的标签推送模型训练装置，可以提升标签推送模型的训练样本的获取效率和准确性，进而可以提升反问标签推送的有效性和准确性。

本说明书一个实施例提供的用于推送反问标签的标签推送模型训练装置可以为图1中客服系统的一个模块或者单元。

与上述用于推送反问标签的标签推送模型训练方法对应地，本说明书实施例还提供了一种用于推送反问标签的标签推送模型训练设备，如图6所示，该设备可以包括：存储器602、一个或多个处理器604以及一个或多个程序。其中，该一个或多个程序存储在存储器602中，并且被配置成由一个或多个处理器604执行，该程序被处理器604执行时实现以下步骤：

获取用户问句。

将用户问句输入预先训练的分类模型，以得到用户问句对应于各标准问句的匹配概率，各标准问句中的每个标准问句具有对应的句子标签。各标准问句分别对应的句子标签构成标签集合。

在基于标签集合生成的标签推荐树中，从当前选中节点出发，基于各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对标签推荐树进行N次模拟访问，以得到当前选中节点的子节点集合中各子节点的访问次数。标签推荐树包括多个节点，多个节点中的每个节点与标签集合中的一个句子标签相对应。当前选中节点的子节点集合对应于子标签集合，子标签集合包含标签集合中除已选中节点对应的已选中标签之外的句子标签。

基于各子节点的访问次数，从多个子节点中选取目标子节点作为下一选中节点。

将子标签集合作为第一状态，将目标子节点对应的句子标签作为第一动作，将第一状态和第一动作构成的第一状态动作对作为一组训练样本，添加到训练样本序列中，该训练样本序列用于训练标签推送模型。标签推送模型用于根据用户问句向用户推送反问标签。

本说明书一个实施例提供的用于推送反问标签的标签推送模型训练设备，可以提升标签推送模型的训练样本的获取效率和准确性，进而可以提升反问标签推送的有效性和准确性。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种用于推送反问标签的标签推送模型训练方法，包括：

获取用户问句；

基于所述各子节点的访问次数，从所述各子节点中选取目标子节点作为下一选中节点；

2.根据权利要求1所述的方法，其中，所述N次模拟访问中的第i次访问，具体包括：

基于第i-1次访问的访问路径所覆盖的d个节点，确定对应的d个句子标签；

基于确定的d个句子标签对应的标准语句的匹配概率以及未覆盖句子标签对应的标准问句的匹配概率，确定第i-1次访问的访问路径对应的奖励分数；所述未覆盖句子标签为所述子标签集合中除所述d个句子标签外的句子标签；

基于所述奖励分数，调整所述d个节点的分数值；

至少基于调整后各个节点的分数值，执行第i次访问。

3.根据权利要求2所述的方法，所述基于确定的d个句子标签对应的标准语句的匹配概率以及未覆盖句子标签对应的标准问句的匹配概率，确定第i-1次访问的访问路径对应的奖励分数，包括：

对于所述确定的d个句子标签中的每个句子标签，基于对应的标准问句的匹配概率，确定该句子标签对应的信息熵；

对所述未覆盖句子标签对应的标准问句的匹配概率求和，以得到概率和；

基于所述d个句子标签各自对应的信息熵以及所述概率和，确定第i-1次访问的访问路径对应的奖励分数。

4.根据权利要求3所述的方法，所述基于所述d个句子标签各自对应的信息熵以及所述概率和，确定第i-1次访问的访问路径对应的奖励分数，包括：

对所述确定的d个句子标签各自对应的信息熵进行加权求和，以得到第i-1次访问的访问路径的信息熵；

基于所述第i-1次访问的访问路径的信息熵以及所述概率和，确定第i-1次访问的访问路径对应的奖励分数；

对于所述d个句子标签中任意的第一句子标签，所述第一句子标签对应的信息熵的加权系数基于所述第一句子标签对应的标准问句的个数确定。

5.根据权利要求2所述的方法，所述多个节点中各个节点具有对应的累积奖赏和访问次数；

所述基于所述奖励分数，调整所述d个节点的分数值，包括：

更新所述d个节点的访问次数；

基于所述奖励分数，更新所述d个节点的累积奖赏；

基于更新后的累积奖赏和访问次数，调整所述d个节点的分数值。

6.根据权利要求5所述的方法，所述基于所述奖励分数，更新所述d个节点的累积奖赏，包括：

对于所述d个节点中任意的第一节点，获取所述第一节点的累积奖赏；

将所述累积奖赏和所述奖励分数求平均，以得到求平均结果；

将所述求平均结果作为所述第一节点更新后的累积奖赏。

7.根据权利要求5所述的方法，所述更新所述d个节点的访问次数，包括：

将所述d个节点各自对应的访问次数加1。

8.根据权利要求1所述的方法，所述基于所述各子节点的访问次数，从所述各子节点中选取目标子节点，包括：

对于所述各子节点中任意的第一子节点，基于所述第一子节点的访问次数以及所述各子节点的访问次数，确定所述第一子节点的选择概率；

采用狄利克雷噪音算法，对所述各子节点的选择概率进行相应的调整，以使得调整后的各子节点的选择概率满足预定分布；

基于调整后的各子节点的选择概率，从所述各子节点中选取目标子节点。

9.根据权利要求8所述的方法，所述基于调整后的各子节点的选择概率，从所述各子节点中选取目标子节点，包括：

基于调整后的各子节点的选择概率，采用轮盘赌算法，从所述各子节点中选取目标子节点。

10.根据权利要求1所述的方法，还包括：

确定下一选中节点的子节点集合对应的下一子标签集合，并将所述下一子标签集合作为第二状态；

在所述标签推荐树中，从下一选中节点出发，基于所述各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对所述标签推荐树进行N次模拟访问，以确定对应于第二状态的第二动作；

将所述第二状态和所述第二动作构成的第二状态动作对作为下一组训练样本，添加到所述训练样本序列中。

11.一种用于推送反问标签的标签推送模型训练装置，包括：

获取单元，用于获取用户问句；

选取单元，用于基于所述各子节点的访问次数，从所述各子节点中选取目标子节点作为下一选中节点；

12.根据权利要求11所述的装置，所述访问单元具体用于：

基于所述奖励分数，调整所述d个节点的分数值；

至少基于调整后各个节点的分数值，执行第i次访问。

13.根据权利要求12所述的装置，所述访问单元还具体用于：

14.根据权利要求13所述的装置，所述访问单元还具体用于：

15.根据权利要求12所述的装置，所述多个节点中各个节点具有对应的累积奖赏和访问次数；

所述访问单元还具体用于：

更新所述d个节点的访问次数；

基于所述奖励分数，更新所述d个节点的累积奖赏；

16.根据权利要求15所述的装置，所述访问单元还具体用于：

将所述求平均结果作为所述第一节点更新后的累积奖赏。

17.根据权利要求15所述的装置，所述访问单元还具体用于：

将所述d个节点各自对应的访问次数加1。

18.根据权利要求11所述的装置，所述选取单元具体用于：

19.根据权利要求18所述的装置，所述选取单元还具体用于：

20.根据权利要求11所述的装置，还包括：

确定单元，用于确定下一选中节点的子节点集合对应的下一子标签集合，并将所述下一子标签集合作为第二状态；

所述访问单元，还用于在所述标签推荐树中，从下一选中节点出发，基于所述各标准问句的匹配概率，采用蒙特卡洛树搜索算法，对所述标签推荐树进行N次模拟访问，以确定对应于第二状态的第二动作；

所述添加单元，还用于将所述第二状态和所述第二动作构成的第二状态动作对作为下一组训练样本，添加到所述训练样本序列中。

21.一种用于推送反问标签的标签推送模型训练设备，包括：

存储器；

一个或多个处理器；以及

获取用户问句；