CN111309914A

CN111309914A - 基于多个模型结果对多轮对话的分类方法和装置

Info

Publication number: CN111309914A
Application number: CN202010138218.9A
Authority: CN
Inventors: 王雅芳; 孔心宇
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2020-06-19
Anticipated expiration: 2040-03-03
Also published as: CN111309914B

Abstract

本说明书实施例提供一种基于多个模型结果对多轮对话的分类方法和装置，方法包括：针对目标用户与机器人客服的多轮对话，提取各单轮用户文本；将各单轮用户文本和对应的第一组预测结果输入第一融合模型，得到多轮对话对应的第一融合结果，第一组预测结果通过若干分类模型和若干匹配模型得到，第一组预测结果和第一融合结果属于第一候选标签集合；获取对第二组预测结果进行融合处理得到的第二融合结果，第二组预测结果通过若干匹配模型得到；第二组预测结果和第二融合结果属于第二候选标签集合；根据第一融合结果和第二融合结果，综合确定多轮对话对应的目标分类。能够保证基于多个模型结果对多轮对话的分类效果。

Description

基于多个模型结果对多轮对话的分类方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及基于多个模型结果对多轮对话的分类方法和装置。

背景技术

当前，在神经网络模型的应用中常常会涉及对多轮对话的分类问题。由于一个模型很难全面保证整体效果，所以通常会基于多个模型结果对多轮对话进行分类。

现有技术中，在基于多个模型结果对多轮对话进行分类时，通常依靠规则对多个模型结果进行融合，需要不断调试规则，效果很难保证。

因此，希望能有改进的方案，能够保证基于多个模型结果对多轮对话的分类效果。

发明内容

本说明书一个或多个实施例描述了一种基于多个模型结果对多轮对话的分类方法和装置，能够保证基于多个模型结果对多轮对话的分类效果。

第一方面，提供了一种基于多个模型结果对多轮对话的分类方法，方法包括：

针对目标用户与机器人客服的多轮对话，提取所述多轮对话中各轮对话的单轮用户文本；

将各轮对话的单轮用户文本和对应的第一组预测结果输入第一融合模型，由所述第一融合模型进行融合处理，得到所述多轮对话对应的第一融合结果，所述第一组预测结果通过将所述单轮用户文本输入第一组模型而得到，所述第一组模型包括若干分类模型和若干匹配模型，所述第一组预测结果和所述第一融合结果属于第一候选标签集合中的标签指示的分类；

将所述多轮对话对应的第二组预测结果输入第二融合模型，由所述第二融合模型进行融合处理，得到所述多轮对话对应的第二融合结果，所述第二组预测结果通过将所述多轮对话输入第二组模型而得到，所述第二组模型包括所述若干匹配模型；所述第二组预测结果和所述第二融合结果属于第二候选标签集合中标签指示的分类；

根据所述第一融合结果和所述第二融合结果，综合确定所述多轮对话对应的目标分类，所述目标分类属于所述第一候选标签集合或所述第二候选标签集合。

在一种可能的实施方式中，所述方法还包括：

将所述目标用户的预设历史行为的行为特征输入所述第一融合模型；和/或，

将用于指示所述目标用户的行为轨迹的序列数据输入所述第一融合模型；和/或，

将用于指示所述目标用户的服务轨迹的序列数据输入所述第一融合模型。

在一种可能的实施方式中，所述方法还包括：

将所述第一融合模型的各输入作为状态，将所述目标分类作为动作，至少根据所述目标分类确定该状态动作对对应的奖励；

根据所述奖励，基于强化学习的方法更新所述第一融合模型。

进一步地，所述至少根据所述目标分类确定该状态动作对对应的奖励，包括：

若所述目标分类属于所述第二候选标签集合且不属于所述第一候选标签集合，则确定该状态动作对对应的奖励为0。

若所述目标分类属于所述第一候选标签集合，则根据所述目标用户对所述目标分类的反馈，确定该状态动作对对应的奖励。

进一步地，所述根据所述目标用户对所述目标分类的反馈，确定该状态动作对对应的奖励，包括：

若所述目标用户对所述目标分类的反馈为正反馈，则确定该状态动作对对应的奖励为第一奖励分数；

若所述目标用户对所述目标分类的反馈为负反馈，则确定该状态动作对对应的奖励为第二奖励分数；所述第一奖励分数大于0，所述第二奖励分数小于0。

在一种可能的实施方式中，所述第二候选标签集合与所述第一候选标签集合存在交集。

在一种可能的实施方式中，所述标签指示的分类包括：

所述多轮对话对应的标准问句，或，所述多轮对话对应的人工客服技能组。

第二方面，提供了一种基于多个模型结果对多轮对话的分类装置，装置包括：

提取单元，用于针对目标用户与机器人客服的多轮对话，提取所述多轮对话中各轮对话的单轮用户文本；

第一融合单元，用于将所述提取单元提取的各轮对话的单轮用户文本和对应的第一组预测结果输入第一融合模型，由所述第一融合模型进行融合处理，得到所述多轮对话对应的第一融合结果，所述第一组预测结果通过将所述单轮用户文本输入第一组模型而得到，所述第一组模型包括若干分类模型和若干匹配模型，所述第一组预测结果和所述第一融合结果属于第一候选标签集合中的标签指示的分类；

第二融合单元，用于将所述多轮对话对应的第二组预测结果输入第二融合模型，由所述第二融合模型进行融合处理，得到所述多轮对话对应的第二融合结果，所述第二组预测结果通过将所述多轮对话输入第二组模型而得到，所述第二组模型包括所述若干匹配模型；所述第二组预测结果和所述第二融合结果属于第二候选标签集合中标签指示的分类；

综合确定单元，用于根据所述第一融合单元得到的第一融合结果和所述第二融合单元得到的第二融合结果，综合确定所述多轮对话对应的目标分类，所述目标分类属于所述第一候选标签集合或所述第二候选标签集合。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，首先针对目标用户与机器人客服的多轮对话，提取所述多轮对话中各轮对话的单轮用户文本；然后将各轮对话的单轮用户文本和对应的第一组预测结果，通过第一融合模型进行融合处理，所述第一组预测结果为第一组模型的预测结果，第一融合模型可以学习各轮对话之间的关系，并且融合第一组模型的预测结果；以及将所述多轮对话对应的第二组预测结果输入第二融合模型，由所述第二融合模型进行融合处理，所述第二组预测结果为第二组模型的预测结果；最后根据所述第一融合结果和所述第二融合结果，综合确定所述多轮对话对应的目标分类。由上可见，本说明书实施例，不是通过规则融合多个模型的结果，而是通过模型学习各轮对话之间的关系，并且融合第一组模型的预测结果，能够保证基于多个模型结果对多轮对话的分类效果。

此外，还考虑到匹配模型返回的可以是随时更换的标签，而分类模型无法实时更新标签，在标签不一致的情况下，通过第一融合模型和第二融合模型分别实现对旧标签和新标签的融合处理，从而实现对分类模型和匹配模型的结果进行融合。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的针对用户问句的处理方法流程图；

图3示出根据一个实施例的基于多个模型结果对多轮对话的分类方法流程图；

图4为本说明书实施例提供的一种第一融合模型的示意图；

图5示出根据一个实施例的融合框架示意图；

图6示出根据一个实施例的基于多个模型结果对多轮对话的分类装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及基于多个模型结果对多轮对话的分类，可以理解的是，该多轮对话可以为智能客服中用户与机器人客服的多轮对话。上述分类即确定多轮对话归属的类别，上述类别可以但不限于包括多轮对话对应的标准问句，或者，多轮对话对应的人工客服技能组。参照图1，第一阶段，进行的是用户跟机器对话，也就是说，由机器人客服回答用户问题。第二阶段，进行的是用户跟小二对话，可以理解的是，小二即人工客服，也就是说，由人工客服回答用户问题。在第一阶段，机器无法回答用户问题时，会进入第二阶段，由人工客服回答用户问题。

图2示出根据一个实施例的针对用户问句的处理方法流程图，该方法涵盖了图1所示的第一阶段和第二阶段的处理过程。在第一阶段，引导用户说出需求，机器跟用户对话，详细分析用户需求，进行问题识别，也就是识别用户问句对应的标准问句，可以理解的是，当用户与机器之间进行了多轮对话时，进行问题识别，也就是识别多轮对话对应的标准问句。当问题识别不成功时，进入第二阶段，智能派单，小二跟用户对话并且标注用户问题，其中，智能派单即确定用户问句对应的人工客服技能组，或者说是确定多轮对话对应的人工客服技能组，标注用户问题即标注用户问句对应的标准问句，或者说是标注多轮对话对应的标准问句。

在一个示例中，机器在接收到用户问句后，针对用户问句，确定该用户问句对应的标准问句，并将确定的标准问句展示给用户，由用户确认该标准问句是否满足其述求，如果用户确认该标准问句不满足其述求，则由用户补充部分描述，机器会针对该用户问句，再次确定该用户问句对应的标准问句。当确定标准问句的次数达到预定次数，并且仍然不满足用户述求时，确定多轮对话对应的人工客服技能组，由人工客服跟用户对话并且标注多轮对话对应的标准问句。

图3示出根据一个实施例的基于多个模型结果对多轮对话的分类方法流程图，该方法可以基于图1所示的实施场景。如图3所示，该实施例中多个模型结果的融合方法包括以下步骤：

首先在步骤31，针对目标用户与机器人客服的多轮对话，提取所述多轮对话中各轮对话的单轮用户文本。可以理解的是，上述分类即确定多轮对话归属的类别，上述类别可以但不限于包括多轮对话对应的标准问句，或者，多轮对话对应的人工客服技能组。

本说明书实施例中，各轮对话的单轮用户文本可以为各轮对话的用户问句，例如，图1所示场景中的各轮对话的单轮用户文本分别为“用户问句1”，“否，补充信息1”，“否，补充信息2”，“否”。

然后在步骤32，将各轮对话的单轮用户文本和对应的第一组预测结果输入第一融合模型，由所述第一融合模型进行融合处理，得到所述多轮对话对应的第一融合结果。

所述第一组预测结果通过将所述单轮用户文本输入第一组模型而得到，所述第一组模型包括若干分类模型和若干匹配模型，所述第一组预测结果和所述第一融合结果属于第一候选标签集合中的标签指示的分类。可以理解的是，匹配模型返回的可以是随时更换的标签，而分类模型无法实时更新标签，在标签不一致的情况下，通过第一融合模型实现对旧标签的融合处理，第一候选标签集合中的标签即为旧标签。

本说明书实施例，第一融合模型进行融合处理，不是通过规则融合多个模型的结果，而是通过模型学习各轮对话之间的关系，并且融合第一组模型的预测结果，能够保证基于多个模型结果对多轮对话的分类效果。

图4为本说明书实施例提供的一种第一融合模型的示意图。参照图4，单轮用户文本1、单轮用户文本2和单轮用户文本3是一个多轮对话中包括的各单轮用户文本，可以理解的是，在用户与机器人客服的多轮对话过程中，对话轮数依次增加，多轮对话可能包括一个单轮用户文本，或者包括两个单轮用户文本，或者三个单轮用户文本，图中示出三个单轮用户文本仅为示意。双向门控循环单元(bidirectional Gated Recurrent Unit，BiGRU)网络用于对各单轮用户文本进行特征提取，并经过注意力层(masked self attention)得到初步特征提取向量。模型A、模型B和模型C构成第一组模型，第一组模型包括的模型可以为分类模型或匹配模型，其中，模型A、模型B和模型C仅是作为第一组模型的示意，第一组模型针对各单轮用户文本得到第一组预测结果。将针对各单轮用户文本分别得到的第一组预测结果经过多层感知器MLP后，与初步特征提取向量进行拼接，经过一层前馈网络和SoftmaxCross Entropy损失函数的处理得到各分类标签对应的类别概率，即O1、O2…Om。其中，上述拼接时还可以引入附加特征提取向量，该附加特征提取向量可以根据目标用户的预设历史行为的行为特征、目标用户的行为轨迹的序列数据和目标用户的服务轨迹的序列数据中的一项或多项得到。

在一个示例中，所述方法还包括：

上述第一融合模型，将所有的旧标签融合起来，并且同时也是一个问题识别监督学习模型。输入中有多轮对话的每一轮的对话、因子等，同时还包括了其他模型的结果。

在一个示例中，所述标签指示的分类包括：

接着在步骤33，将所述多轮对话对应的第二组预测结果输入第二融合模型，由所述第二融合模型进行融合处理，得到所述多轮对话对应的第二融合结果。

所述第二组预测结果通过将所述多轮对话输入第二组模型而得到，所述第二组模型包括所述若干匹配模型；所述第二组预测结果和所述第二融合结果属于第二候选标签集合中标签指示的分类。可以理解的是，还考虑到匹配模型返回的可以是随时更换的标签，而分类模型无法实时更新标签，在标签不一致的情况下，通过第二融合模型实现对新标签的融合处理，第二候选标签集合中的标签即为新标签。

本说明书实施例，第二融合模型可以是任何分类模型，比如极端梯度提升(extreme gradient boosting，xgboost)模型、深度神经网络(deep neural networks，dnn)模型等。

在一个示例中，所述第二候选标签集合与所述第一候选标签集合存在交集。例如，第一候选标签集合包括分类标签1、分类标签2、分类标签3和分类标签4，第二候选标签集合包括分类标签1、分类标签2、分类标签3、分类标签4、分类标签5和分类标签6，此时二者的交集包括分类标签1、分类标签2、分类标签3和分类标签4，即第二候选标签集合相对于第一候选标签集合添加了新的标签。可以理解的是，可能的情况还包括第二候选标签集合相对于第一候选标签集合删除了部分旧的标签。第二候选标签集合相对于第一候选标签集合删除了部分旧的标签，并且添加了新的标签。

最后在步骤34，根据所述第一融合结果和所述第二融合结果，综合确定所述多轮对话对应的目标分类。

所述目标分类属于所述第一候选标签集合或所述第二候选标签集合。可以理解是，该过程也为融合处理，具体可以采用规则或优化模型进行融合处理。

图5示出根据一个实施例的融合框架示意图，其中涉及分类模型a、分类模型b、分类模型c、分类模型d、匹配模型a、匹配模型b、匹配模型c的结果进行融合。其中，第一候选标签集合是旧标签集合，第二候选标签集合是新标签集合，第一融合模型是融合分类模型和匹配模型的旧标签的结果，即融合第一候选标签集合的结果，第二融合模型是融合匹配模型的新标签的结果，即融合第二候选标签集合的结果。第二融合模型输出的融合结果再与第一融合模型输出的融合结果，经过新老标签融合模型输出最终融合结果，基于该最终融合结果可以得到目标分类。

在一个示例中，所述方法还包括：

进一步地，若所述目标分类属于所述第二候选标签集合且不属于所述第一候选标签集合，则确定该状态动作对对应的奖励为0。

进一步地，若所述目标分类属于所述第一候选标签集合，则根据所述目标用户对所述目标分类的反馈，确定该状态动作对对应的奖励。

例如，若所述目标用户对所述目标分类的反馈为正反馈，则确定该状态动作对对应的奖励为第一奖励分数；

可以理解的是，当机器人客服输出目标分类时，若目标用户回答“是”，则为正反馈，该目标分类可以作为正例；当机器人客服输出目标分类时，若目标用户回答“否”，则为负反馈，该目标分类可以作为负例。

本说明说明书实施例中，奖励分数(reward)作为参数是可调节的，试验证明通过对奖励分数的修正，强化学习在正负例上的效果是可控的，具体可以参照表一所示的奖励分数与效果对应关系表。

表一：奖励分数与效果对应关系表

参照表一，P-ACC为正例命中准确率，N-ACC为负例命中准确率，通过强化学习中对奖励分数的修正，可以提升正例命中准确率，降低负例命中准确率，从而获得较佳的分类效果。

其中，奖励分数(reward)的设计目标是为了让系统尽快猜对用户的问题，对话轮数越少越好。这样就用强化学习框架将前后对话关联起来，状态之间有前后关系。由于标问有接近5000个，是离散的，因此可以采用策略梯度的算法(policy gradient)。

本说明书实施例提供的方法，通过将多轮对话问题识别用强化学习框架建模，将对话之间的关系，以及其他模型输出结果的融合也建模进去。之前的深度学习分类模型，仅仅输入时将前几轮对话拼接起来。并且线上各个模型靠规则融合，业务方需要不断调试规则，效果很难保证。现在再加上强化学习框架，可以充分结合了用户的肯定和否定回答。让模型尽可能早地猜出用户问题。

根据另一方面的实施例，还提供一种基于多个模型结果对多轮对话的分类装置，该装置用于执行本说明书实施例提供的基于多个模型结果对多轮对话的分类方法。图6示出根据一个实施例的基于多个模型结果对多轮对话的分类装置的示意性框图。如图6所示，该装置600包括：

提取单元61，用于针对目标用户与机器人客服的多轮对话，提取所述多轮对话中各轮对话的单轮用户文本；

第一融合单元62，用于将所述提取单元61提取的各轮对话的单轮用户文本和对应的第一组预测结果输入第一融合模型，由所述第一融合模型进行融合处理，得到所述多轮对话对应的第一融合结果，所述第一组预测结果通过将所述单轮用户文本输入第一组模型而得到，所述第一组模型包括若干分类模型和若干匹配模型，所述第一组预测结果和所述第一融合结果属于第一候选标签集合中的标签指示的分类；

第二融合单元63，用于将所述多轮对话对应的第二组预测结果输入第二融合模型，由所述第二融合模型进行融合处理，得到所述多轮对话对应的第二融合结果，所述第二组预测结果通过将所述多轮对话输入第二组模型而得到，所述第二组模型包括所述若干匹配模型；所述第二组预测结果和所述第二融合结果属于第二候选标签集合中标签指示的分类；

综合确定单元64，用于根据所述第一融合单元62得到的第一融合结果和所述第二融合单元63得到的第二融合结果，综合确定所述多轮对话对应的目标分类，所述目标分类属于所述第一候选标签集合或所述第二候选标签集合。

可选地，作为一个实施例，所述第一融合单元62还用于：

可选地，作为一个实施例，所述装置还包括：

奖励确定单元，用于将所述第一融合模型62的各输入作为状态，将所述目标分类作为动作，至少根据所述目标分类确定该状态动作对对应的奖励；

更新单元，用于根据所述奖励确定单元确定的奖励，基于强化学习的方法更新所述第一融合模型。

进一步地，所述奖励确定单元，具体用于若所述综合确定单元64确定的目标分类属于所述第二候选标签集合且不属于所述第一候选标签集合，则确定该状态动作对对应的奖励为0。

进一步地，所述奖励确定单元，具体用于若所述综合确定单元64确定的目标分类属于所述第一候选标签集合，则根据所述目标用户对所述目标分类的反馈，确定该状态动作对对应的奖励。

进一步地，所述奖励确定单元，具体用于：

可选地，作为一个实施例，所述第二候选标签集合与所述第一候选标签集合存在交集。

可选地，作为一个实施例，所述标签指示的分类包括：

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于多个模型结果对多轮对话的分类方法，所述方法包括：

2.如权利要求1所述的方法，其中，所述方法还包括：

3.如权利要求1所述的方法，其中，所述方法还包括：

4.如权利要求3所述的方法，其中，所述至少根据所述目标分类确定该状态动作对对应的奖励，包括：

5.如权利要求3所述的方法，其中，所述至少根据所述目标分类确定该状态动作对对应的奖励，包括：

6.如权利要求5所述的方法，其中，所述根据所述目标用户对所述目标分类的反馈，确定该状态动作对对应的奖励，包括：

7.如权利要求1所述的方法，其中，所述第二候选标签集合与所述第一候选标签集合存在交集。

8.如权利要求1所述的方法，其中，所述标签指示的分类包括：

9.一种基于多个模型结果对多轮对话的分类装置，所述装置包括：

10.如权利要求9所述的装置，其中，所述第一融合单元还用于：

11.如权利要求9所述的装置，其中，所述装置还包括：

奖励确定单元，用于将所述第一融合模型的各输入作为状态，将所述目标分类作为动作，至少根据所述目标分类确定该状态动作对对应的奖励；

12.如权利要求11所述的装置，其中，所述奖励确定单元，具体用于若所述综合确定单元确定的目标分类属于所述第二候选标签集合且不属于所述第一候选标签集合，则确定该状态动作对对应的奖励为0。

13.如权利要求11所述的装置，其中，所述奖励确定单元，具体用于若所述综合确定单元确定的目标分类属于所述第一候选标签集合，则根据所述目标用户对所述目标分类的反馈，确定该状态动作对对应的奖励。

14.如权利要求13所述的装置，其中，所述奖励确定单元，具体用于：

15.如权利要求9所述的装置，其中，所述第二候选标签集合与所述第一候选标签集合存在交集。

16.如权利要求9所述的装置，其中，所述标签指示的分类包括：

17.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项的所述的方法。

18.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项的所述的方法。