CN110909145A

CN110909145A - 针对多任务模型的训练方法及装置

Info

Publication number: CN110909145A
Application number: CN201911203428.5A
Authority: CN
Inventors: 张望舒; 温祖杰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-24
Anticipated expiration: 2039-11-29
Also published as: CN110909145B

Abstract

本说明书实施例提供一种针对多任务模型的训练方法，其中多任务模型包括语义编码层，针对搜索交互场景的搜索输出层以及针对问答交互场景的问答输出层，其中训练方法包括：首先，获取搜索交互场景和问答交互场景下采集的多个训练样本；然后，对于其中任意的第一样本，至少将其中的用户输入文本输入语义编码层，得到语义向量，并且，将语义向量分别输入搜索输出层和问答输出层；进一步地，根据第一样本所对应的采集场景，从对应场景的输出层获取预测结果，并结合第一样本中的样本标签，确定所述第一样本对应的预测损失；最后，基于多个训练样本各自对应的预测损失之和，调整所述多任务模型的参数。

Description

针对多任务模型的训练方法及装置

技术领域

本说明书实施例涉及自然语言处理技术领域，具体地，涉及一种针对多任务模型的训练方法及装置。

背景技术

目前，有些智能客服系统包括问答系统和搜索系统。其中问答系统用于为用户提供问答式服务，比如说，用户可以在与机器人客服的会话界面中，针对其遇到的业务问题输入描述语句，然后机器人客服根据描述语句确定对应的标准问题，并将确定出的标准问题和对应的解答方案提供给用户。其中搜索系统用于为用户提供搜索式服务，比如说，用户可以在搜索框中输入一些关键词，然后搜索系统根据这些关键词匹配出一些可能的标准问题，并以列表的形式提供给用户，在用户对其中某个标准问题进行确认的情况下，再将该某个标准问题对应的解答方案展示给用户。

由上可知，对于问答系统和搜索系统而言，为将符合用户需要的解答方案提供给用户，精准确定用户意图，即用户想要咨询的标准问题十分重要。随着机器学习的兴起，可以通过建立机器学习模型实现对用户意图的确定。这就对问答系统和搜索系统中各自部署的机器学习模型的模型性能均提出了较高要求。

因此，迫切需要一种合理的方案，可以提高机器学习模型预测用户意图的准确度，同时，降低训练机器学习模型时占用的训练资源。

发明内容

本说明书一个或多个实施例描述一种针对多任务模型的训练方法及装置,可以实现不同任务中训练数据的复用，同时降低模型训练的成本和开销。

根据第一方面，本说明实施例提供一种针对多任务模型的训练方法，所述多任务模型包括语义编码层，针对搜索交互场景的搜索分类层，以及针对问答交互场景的问答分类层，所述方法包括：获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括用户输入文本和对应的标准文本类别标签；对于所述多个训练样本中任意的第一样本，至少将其中的用户输入文本输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索分类层和所述问答分类层；当所述第一样本属于所述若干搜索训练样本时，基于所述搜索分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失；当所述第一样本属于所述若干问答训练样本时，基于所述问答分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失；基于所述多个训练样本各自对应的预测损失之和，调整所述多任务模型的参数。

在一个实施例中，每个训练样本中还包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务；所述至少将其中的用户输入文本输入所述语义编码层，包括：将所述用户输入文本和所述业务代码进行拼接后，输入所述语义编码层。

根据第二方面，本说明书实施例提供一种针对多任务模型的训练方法，所述多任务模型包括语义编码层，针对搜索交互场景的搜索关联度预测层，以及针对问答交互场景的问答关联度预测层，所述方法包括：获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括历史文本对和对应的文本关联标签，所述历史文本对包括用户输入文本和对应的标准文本；对于所述多个训练样本中任意的第一样本，至少将其中的历史文本对输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索关联度预测层和所述问答关联度预测层；当所述第一样本属于所述若干搜索训练样本时，至少基于所述搜索关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定与所述第一样本相关的预测损失；当所述第一样本属于所述若干问答训练样本时，基于所述问答关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定所述第一样本相关的预测损失；基于所述多个训练样本各自相关的预测损失之和，调整多任务模型的参数。

在一个实施例中，每个训练样本中还包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务；所述至少将其中的历史文本对输入所述语义编码层，包括：至少将所述历史文本对和所述业务代码组成的第一输入序列，输入所述语义编码层。

在一个具体的实施例中，至少将所述历史文本对和所述业务代码组成的第一输入序列，输入所述语义编码层，包括：基于预先设定的用于区分用户输入文本、标准文本和业务代码的三种字符，确定与所述第一输入序列对应的第二输入序列；将所述第一输入序列和所述第二输入序列共同输入所述语义编码层。

在一个实施例中，所述文本关联标签指示对应的用户输入文本和标准文本之间是否相关联。

在一个实施例中，所述文本关联标签指示对应的用户输入文本和标准文本之间的关联等级；所述若干搜索训练样本为多个，其中包括第一搜索训练样本和第二搜索训练样本，所述第一搜索训练样本中包括第一文本对和第一关联标签，所述第二搜索训练样本中包括第二文本对和第二关联标签，所述第一文本对包括某一历史文本和第一标准文本，所述第二文本对包括同一历史文本和第二标准文本；其中，当所述第一样本属于所述若干搜索训练样本时，至少基于所述搜索关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定所述第一样本对应的预测损失，包括：当第一样本为所述第一搜索训练样本时，基于所述搜索关联度预测层针对所述第一文本对和第二文本对分别输出的第一预测结果和第二预测结果，确定针对所述同一历史搜索文本，所述第一标准文本排在第二标准文本之前的预测概率；基于所述第一关联标签和所述第二关联标签，确定针对所述同一历史搜索文本，所述第一标准文本排在第二标准文本之前的真实概率；基于所述预测概率和所述真实概率，确定所述第一搜索训练样本和第二搜索训练样本对应的预测损失。

根据第三方面，本说明书实施例披露一种针对多任务模型的训练装置，所述多任务模型包括语义编码层，针对搜索交互场景的搜索分类层，以及针对问答交互场景的问答分类层，所述装置包括：样本获取单元，配置为获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括用户输入文本和对应的标准文本类别标签；样本输入单元，配置为对于所述多个训练样本中任意的第一样本，至少将其中的用户输入文本输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索分类层和所述问答分类层；搜索损失确定单元，配置为当所述第一样本属于所述若干搜索训练样本时，基于所述搜索分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失；问答损失确定单元，配置为当所述第一样本属于所述若干问答训练样本时，基于所述问答分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失；调参单元，配置为基于所述多个训练样本各自对应的预测损失之和，调整所述多任务模型的参数。

根据第四方面，本说明书实施例披露一种针对多任务模型的训练装置，所述多任务模型包括语义编码层，针对搜索交互场景的搜索关联度预测层，以及针对问答交互场景的问答关联度预测层，所述装置包括：样本获取单元，配置为获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括历史文本对和对应的文本关联标签，所述历史文本对包括用户输入文本和对应的标准文本；样本输入单元，配置为对于所述多个训练样本中任意的第一样本，至少将其中的历史文本对输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索关联度预测层和所述问答关联度预测层；搜索损失确定单元，配置为当所述第一样本属于所述若干搜索训练样本时，至少基于所述搜索关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定与所述第一样本相关的预测损失；问答损失确定单元，配置为当所述第一样本属于所述若干问答训练样本时，基于所述问答关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定所述第一样本相关的预测损失；调参单元，配置为基于所述多个训练样本各自相关的预测损失之和，调整所述多任务模型的参数。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面所描述的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面所描述的方法。

采用本说明书实施例披露的上述训练方法及装置，一方面，能够充分利用到搜索任务和问答任务的训练数据，因二者通过语义编码者进行语义理解的部分是一致的，两个任务的训练相辅相成。并且，通常训练数据越丰富，训练出来的模型效果越好，由此复用两个任务的训练数据，能够同时提高针对两个任务的预测结果的准确度。另一方面，可以节省训练成本和开销，同时训练两个任务，相比两个任务各自单独训练，在训练、模型部署方面的开销都会小。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的终端中我的客服页面的示意图；

图2示出根据一个实施例的多任务模型的架构图；

图3示出根据一个实施例的针对多任务模型的训练方法流程图；

图4示出根据另一个实施例的多任务模型的架构图；

图5示出根据另一个实施例的针对多任务模型的训练方法流程图；

图6示出根据一个实施例的针对多任务模型的训练装置结构图；

图7示出根据另一个实施例的针对多任务模型的训练装置结构图。

具体实施方式

下面结合附图，对本说明书披露的多个实施例进行描述。

如前所述，智能客服系统可以向用户提供问答式服务和搜索式服务(可分别参见图1中示出的在线咨询入口110和搜索答案入口120)。问答和搜索的目标都是让用户找到其想要咨询的问题的答案，这两者的交互略有不同。问答式交互是采用一问一答的方式解决用户问题，在用户描述不清晰不明确时，可能会采用反问等多轮交互方式确认用户缺失的信息，此种交互方式比较复杂，成本也较高。搜索式交互相对来说简洁一些，根据用户当前的问题或者关键词给出相关标准问题的列表即可，列表的排序是标准问题与用户问题的相关度。

在不考虑问答式交互中存在多轮交互的情况下，问答和搜索是两个比较相似的任务，二者对用户问题的语义理解也是类似的，甚至用户对一些答案的偏好也是类似的。不同的是，搜索的交互逻辑中，用户问句会更加简练一些，甚至用户会只输入几个关键词，得到的是根据相关性排序的列表。而问答的交互逻辑中，用户的表述有时候会很冗长，其得到的一般也是一个最相关的答案。

基于两个任务的相似性，发明人提出设计一种多任务模型，同时实现搜索场景下标准问题的确定和问答场景下标准问题的确定这两个任务(以下或简称搜索任务和问答任务)。由此，在对此多任务模型进行训练的过程中，可以同时实现对上述两个任务的训练，在复用训练数据的同时，节省了算法投入成本。具体地，在多任务模型中包括针对搜索任务和问答任务公用的语义编码层，以及针对所述搜索任务和问答任务分别设置的输出层。

在一个实施例中，图2示出根据一个实施例的多任务模型的架构图。如图2所示，多任务模型中包括语义编码层，以及针对问答任务和搜索任务的两个输出层，这两个输出层均输出分类结果。进一步，在一个具体的实施例中，在模型的使用过程中，用户输入文本被输入多任务模型后，先经过语义编码层得到语义向量，语义向量再分别经过搜索分类输出层和问答分类输出层输出对应的搜索分类结果和问答分类结果。基于此，可以根据用户输入文本所对应的任务，从两个分类结果中选取对应的分类结果，用于向用户展示。

下面结合具体的实施例，描述本说明书披露的针对多任务模型的训练方法。具体地，图3示出根据一个实施例的针对多任务模型的训练方法流程图，其中多任务模型的架构可以参见图2，所述方法的执行主体可以为任何具有计算、处理能力的装置或系统或服务器或平台等。

如图3所示，所述方法可以包括以下步骤：

步骤S310，获取多个训练样本，其中包括搜索交互场景下采集的若干搜索训练样本和问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括用户输入文本和对应的标准文本类别标签。步骤S320，对于所述多个训练样本中任意的第一样本，至少将其中的用户输入文本输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索分类层和所述问答分类层。进一步地，当所述第一样本属于所述若干搜索训练样本时，执行步骤S330，基于所述搜索分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失；而当所述第一样本属于所述若干问答训练样本时，执行步骤S340，基于所述问答分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失。步骤S350，基于所述多个训练样本各自对应的预测损失之和，调整所述多任务模型的参数。

需要说明的是，上述步骤中提及的第一样本中的“第一”，以及后文中提到的“第一”、“第二”等类似用语，仅用于区分同类事物，不具有其他限定作用。

以上步骤具体如下：

首先，在步骤S310，获取多个训练样本，其中包括搜索交互场景下采集的若干搜索训练样本和问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括用户输入文本和对应的标准文本类别标签。

在一个实施例中，搜索训练样本中的用户输入文本(以下或将搜索训练样本中的用户输入文本简称为搜索文本)可以包括用户在搜索框中输入的内容。在一个具体的实施例中，可以采集用户在搜索框中输入的原始内容，再对原始内容进行预处理(如去除停用词、去除空格等)，并将预处理后得到的内容作为搜索文本。在一个例子中，可能存在某个搜索文本为“花呗还款”。此外，搜索训练样本中的标准文本类别标签，用于唯一标识对应的标准文本，在一个具体的实施例中，可以由打标人员对搜索文本进行打标而得到。在另一个具体的实施例中，可以在与用户的搜索交互过程中采集而得到，具体地，根据用户在搜索框中输入的某一搜索文本，可以向用户返回对应的标准文本列表，进一步地，可以将用户在标准文本列表中点击的标准文本(如，花呗如何还款)，确定为该某一搜索文本所对应的标准文本，由此得到该某一搜索文本对应的标准文本类别标签。如此，可以采集到上述若干搜索训练样本。

在一个实施例中，问答训练样本中的用户输入文本(以下或将问答训练样本中的用户输入文本简称为问答文本)可以包括用户在与客服交互的过程中输入的会话内容。在一个具体的实施例中，可以为多轮交互中的某一轮交互(如首轮)过程中输入的会话内容。在一个例子中，可能存在某个问答文本为“花呗还不上也得还是吧，但还没闹明白咋还”。此外，问答训练样本中的标准文本类别标签，用于唯一标识对应的标准文本。在一个具体的实施例中，可以由打标人员对问答文本进行打标而得到。在另一个具体的实施例中，可以在与用户的问答交互过程中采集而得到，具体地，根据用户在客服会话界面中输入的某一问答文本，可以向用户返回对应标准文本以供用户确认，进一步地，在用户确认该标准文本符合其咨询意图的情况下，将该标准文本确定为该某一问答文本所对应的标准文本，由此得到该某一问答文本对应的标准文本类别标签。需要说明的是，问答交互场景对应的标准文本集合与搜索交互场景对应的标准文本集合中可以完全相同，也可以完全不同，还可以部分相同，基于实际需要而定。如此可以采集到上述若干问答训练样本。

另一方面，在一个实施例中，上述多个训练样本中每个训练样本还可以包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务。在一个具体的实施例中，业务代码指示用户从哪个业务产品的产品页进入我的客服帮助页面(例如，可参见图1)。比如说，从余额宝页面进入，业务代码就是余额宝的代码(如app_yeb_a)。业务代码对用户要咨询的问题会有补充说明的作用，比如，用户从花呗的产品页面进入我的客服帮助页面，输入文本“怎么还款”，则用户想要咨询的问题是花呗怎么还款而不是借呗怎么还款。如此，采集业务代码作为用户输入文本的补充，可以提高后续确定出的标准文本的准确性。

以上，可以获取包括若干搜索训练样本和若干问答训练样本的多个训练样本。

接着，在步骤S320，对于所述多个训练样本中任意的第一样本，至少将其中的用户输入文本输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索分类层和所述问答分类层。

在一个实施例中，其中语义编码层可以采用Transformer、DNN(Deep NeuralNetwork，深度神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)等实现。

优选地，可以采用Bert(Bidirectional Encoder Representations fromTransformers)模型实现，以优化多任务模型的预测结果的准确度。需要说明的是，Bert模型由Google在2018年推出，是目前最好的深度语义理解模型。在一个具体的实施例中，可以先用大量通用语料训练出Bert基础模型，再用采集的一些用户输入文本对Bert基础模型进行微调(fine tune)，得到上述语义编码层。

基于此，在一个实施例中，可以将第一样本中的用户输入文本输入上述语义编码层，得到语义向量。在另一个实施例中，在第一样本中还包括业务代码的情况下，可以将第一样本中的用户输入文本和业务代码进行拼接，再将拼接后的内容输入上述语义编码层，得到语义向量。

如此，可以得到语义向量，并将所述语义向量分别输入所述搜索分类层和所述问答分类层。在一个实施例中，其中搜索分类层和问答分类层的实现可以基于：神经网络、决策梯度树、支持向量机或贝叶斯分类算法等。

进一步地，一方面，当上述第一样本属于上述若干搜索训练样本时，执行步骤S330，基于搜索分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失。在一个实施例中，可以将其中的分类结果和标准文本类别标签输入交叉熵损失函数中，得到第一样本对应的预测损失。

另一方面，当上述第一样本属于上述若干问答训练样本时，执行步骤S340，基于问答分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失。在一个实施例中，可以将其中的分类结果和标准文本类别标签输入交叉熵损失函数中，得到第一样本对应的预测损失。

以上，通过执行步骤S330可以得到多个训练样本中若干搜索训练样本对应的预测损失，通过执行步骤S340可以得到多个训练样本中若干问答训练样本对应的预测损失。基于此，在步骤S350，基于所述多个训练样本各自对应的预测损失之和，调整多任务模型的参数。

在一个实施例中，多个训练样本对应的总的训练损失L为：

L＝L_{searc h}+L_QA (1)

公式(1)中，L_{searc h}表示上述若干搜索训练样本对应的交叉熵损失，L_QA表示上述若干问答训练样本对应的交叉熵损失。

在一个实施例中，可以采用反向传播法，实现对多任务模型参数的调整。

如此，可以实现对搜索任务和分类任务的联合训练。

综上，采用本说明书实施例披露的针对多任务模型的训练方法，具有以下优势：1)能够充分利用到搜索任务和问答任务的训练数据，因二者通过语义编码者进行语义理解的部分是一致的，两个任务的训练相辅相成。并且，通常训练数据越丰富，训练出来的模型效果越好，由此复用两个任务的训练数据，能够同时提高针对两个任务的预测结果的准确度。2)节省训练成本和开销，同时训练两个任务，相比两个任务各自单独训练，在训练、模型部署方面的开销都会小。

需要说明的是，在图2示出的多任务模型中，两个输出层输出的是分类结果。根据另一方面的实施例，两个输出层还可以用于输出连续性的打分结果。具体地，图4示出根据另一个实施例的多任务模型的架构图，如图4所示，多任务模型中包括语义编码层，以及针对问答任务和搜索任务的两个输出层，用于预测输入的用户描述文本和召回文本之间的关联度。进一步地，在一个具体的实施例中，在模型的使用过程中，用户输入文本和若干召回文本中的某一个被输入多任务模型后，先经过语义编码层得到语义向量，语义向量再分别经过搜索关联度预测层和问答关联度预测层输出对应的搜索预测结果和问答预测结果。基于此，可以根据用户输入文本所对应的任务，从两个关联度预测结果中选取对应的预测结果，进而得到上述若干召回文本对应的若干预测结果，从若干召回文本中确定一个或多个召回文本，组成向用户展示的标准文本列表。

下面结合具体的实施例，描述本说明书披露的针对多任务模型的训练方法。具体地，图5示出根据另一个实施例的针对多任务模型的训练方法流程图，其中多任务模型的架构可以参见图4，所述方法的执行主体可以为任何具有计算、处理能力的装置或系统或服务器或平台等。

如图5所示，所述方法可以包括以下步骤：

步骤S510，获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括历史文本对和对应的文本关联标签，所述历史文本对包括用户输入文本和对应的标准文本。步骤S520，对于所述多个训练样本中任意的第一样本，至少将其中的历史文本对输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索关联度预测层和所述问答关联度预测层。进一步地，一方面，当所述第一样本属于所述若干搜索训练样本时，执行步骤S530，至少基于所述搜索关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定与所述第一样本相关的预测损失；另一方面，当所述第一样本属于所述若干问答训练样本时，执行步骤S540，基于所述问答关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定与所述第一样本相关的预测损失。步骤S550，基于所述多个训练样本各自相关的预测损失之和，调整所述多任务模型的参数。

以上步骤具体如下：

首先，在步骤S510，获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括历史文本对和对应的文本关联标签，所述历史文本对包括用户输入文本和对应的标准文本。

在一个实施例中，搜索训练样本中的用户输入文本(或称搜索文本)可以包括用户在搜索框中输入的内容。在一个例子中，可能存在某个搜索文本为“花呗还款”。对于搜索训练样本中的标准文本，在一个具体的实施例中，可以在与用户的搜索交互过程中采集而得到，具体地，根据用户在搜索框中输入的某一搜索文本，可以向用户返回对应的标准文本列表，进一步地，可以将标准文本列表中的多个标准文本分别与该某一搜索文本组成历史文本对，得到多个历史文本对。此外，对于其中多个历史文本对所对应的多个文本关联标签，在一个具体的实施例中，可以由打标人员打标而得到。在另一个具体的实施例中，可以根据用户对标准文本列表中各标准文本的点击顺序进行确定。在一个例子中，搜索训练样本中的文本关联标签指示文本对中两个文本之间的关联等级，如强相关、弱相关、不相关等。如此，可以采集到上述若干搜索训练样本。

在一个实施例中，问答训练样本中的用户输入文本(或称问答文本)可以包括用户在与客服交互的过程中输入的会话内容。在一个具体的实施例中，可以为多轮交互中的某一轮交互(如首轮)过程中输入的会话内容。在一个例子中，可能存在某个问答文本为“花呗还不上也得还是吧，但还没闹明白咋还”。在一个实施例中，问答训练样本中的文本关联标签可以指示对应历史文本对中的两个文本之间是否相关联。对于问答训练样本中的标准文本和文本关联标签，在一个具体的实施例中，可以在与用户的问答交互过程中采集而得到，具体地，根据用户在客服会话界面中输入的某一问答文本，可以向用户返回对应标准文本以供用户确认，由此可以将该某一问答文本和该标准文本组成问答训练样本中的历史文本对，进一步地，在用户确认该标准文本符合其咨询意图的情况下，将文本关联标签确定为关联，而在用户表示该标准文本不符合其咨询意图的情况下，将文本关联标签确定为无关联。如此可以采集到上述若干问答训练样本。

另一方面，在一个实施例中，上述多个训练样本中每个训练样本还可以包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务。需要说明的是，对业务代码的描述还可以参见前述实施例中的相关描述，在此不作赘述。

接着，在步骤S520，对于所述多个训练样本中任意的第一样本，至少将其中的历史文本对输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索关联度预测层和所述问答关联度预测层。

需要说明的是，对本步骤中语义编码层的描述，可以参见前述实施例中的相关描述，在此不作赘述。

在一个实施例中，可以将第一样本中的历史文本对输入所述语义编码层，得到语义向量。在另一个实施例中，在第一样本中还包括业务代码的情况下，可以将其中历史文本对和业务代码组成的第一输入序列，输入上述语义编码层。在又一个实施例中，为了对第一输入序列中的用户输入文本、标准文本和业务代码进行区分标识，还可以基于预先设定的三种字符，确定与第一输入序列对应的第二输入序列，并将第一输入序列和第二输入序列共同输入上述语义编码层。在一个具体的实施例中，其中三种字符可以分别为0、1和2。在一个例子中，假定第一样本中包括的用户输入文本为“花呗还款”、标准文本为“花呗如何还款”、业务代码为“hb2”,由此可以组成第一输入序列“花呗还款花呗如何还款hb”，并确定对应的第二输入序列为“(0，0，0，0，1，1，1，1，1，2，2)”，进而将第一输入序列和第二输入序列输入语义编码层，得到对应的语义向量。

如此，可以得到语义向量，并将语义向量分别输入所述搜索关联度预测层和所述问答关联度预测层。在一个实施例中，搜索关联度预测层和问答关联度预测层基于DNN或ResNet。

进一步地，一方面，当所述第一样本属于所述若干搜索训练样本时，执行步骤S530，至少基于所述搜索关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定与所述第一样本相关的预测损失。

在一个实施例中，可以考虑引入针对一个用户输入文本，不同的标准文本之间的排序关系，对关联度预测层进行训练。如此，可以提高模型训练的收敛速度，并优化模型性能。

具体地，搜索训练样本中的文本关联标签指示对应的用户输入文本和标准文本之间的关联等级。上述若干搜索训练样本为多个，其中包括第一搜索训练样本和第二搜索训练样本，所述第一搜索训练样本中包括第一文本对和第一关联标签，所述第二搜索训练样本中包括第二文本对和第二关联标签，所述第一文本对包括某一历史文本和第一标准文本，所述第二文本对包括同一历史文本和第二标准文本。

基于此，当所述第一样本为所述第一搜索训练样本时，确定所述第一样本对应的预测损失，可以包括：

1)基于所述搜索关联度预测层针对所述第一文本对和第二文本对分别输出的第一预测结果和第二预测结果，确定针对所述同一历史搜索文本，所述第一标准文本排在第二标准文本之前的预测概率。

在一个具体的实施例中，可以通过以下公式确定上述预测概率：

式(2)中，P_ij表示针对相同的用户输入文本，标准文本i排在标准文本j之前的概率，s_i表示该相同的用户输入文本与标准文本i之间的关联度，s_j表示该相同的用户输入文本与标准文本j之间的关联度。σ可以为超参。

2)基于所述第一关联标签和所述第二关联标签，确定针对所述同一历史搜索文本，所述第一标准文本排在第二标准文本之前的真实概率。

在一个具体的实施例中，可以通过以下公式确定上述真实概率：

式(3)中，对于相同的用户输入文本，如果标准文本i比标准文本j更相关，那么s_ij＝1；如果标准文本i不如标准文本j相关，那么s_ij＝-1；如果标准文本i与标准文本j的相关程度相同，那么s_ij＝0。

在一个例子中，假定第一关联标签为强相关，第二关联标签为弱相关，由此可以判定第一标准文本比第二标准文本更相关，则基于式(3)得到的真实概率为1。在另一个例子中，假定第一关联标签为弱相关，第二关联标签为中相关，由此可以判定第一标准文本不如第二标准文本相关，则基于式(3)得到的真实概率为0。在又一个例子中，假定第一关联标签为弱相关，第二关联标签为弱相关，由此可以判定第一标准文本与第二标准文的相关程度相同，则基于式(3)得到的真实概率为1/2。

3)基于所述预测概率和所述真实概率，确定所述第一搜索训练样本和第二搜索训练样本对应的预测损失。

在一个具体的实施例中，可以使用交叉熵度量预测损失，公式如下：

如此，可以确定出预测损失。以上通过引入针对一个用户输入文本，不同的标准文本之间的排序关系，可以提高对搜索关联度预测层进行训练的收敛速度，优化搜索关联度预测层的性能，进而提高多任务模型的训练收敛速度，优化多任务模型的模型性能。

另一方面，当所述第一样本属于所述若干问答训练样本时，执行步骤S540，基于所述问答关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定与所述第一样本相关的预测损失。在一个实施例中，问答训练样本中的文本关联标签指示对应文本对之间的两个文本是否相关联。在一个具体的实施例中，可以将其中的预测结果和文本关联标签输入交叉熵损失函数中，得到第一样本对应的预测损失。

以上，通过执行步骤S530可以得到多个训练样本中若干搜索训练样本对应的预测损失，通过执行步骤S540可以得到多个训练样本中若干问答训练样本对应的预测损失。基于此，在步骤S550，基于所述多个训练样本各自对应的预测损失之和，调整多任务模型的参数。

在一个实施例中，多个训练样本对应的总的训练损失L为：

L＝L_{searc h}+L_QA (5)

在一个具体的实施例中，可以采用反向传播法训练多任务模型。在一个例子中，在调整搜索关联度预测层中的模型参数时，可以使用以下求导公式：

其中，Δ_NDCG表示交换标准文本i和标准文本j的位置进行交换后得到的NDCG(Normalized Discounted cumulative gain，归一化折损累计增益)变化值。

如此，可以实现对搜索任务和分类任务的联合训练。

与上述训练方法相对应的，本说明书实施例还披露一种训练装置。具体地，图6示出根据一个实施例的针对多任务模型的训练装置结构图，其中多任务模型包括语义编码层，针对搜索交互场景的搜索分类层，以及针对问答交互场景的问答分类层。如图6所示，所述装置600可以包括：

样本获取单元610，配置为获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括用户输入文本和对应的标准文本类别标签。样本输入单元620，配置为对于所述多个训练样本中任意的第一样本，至少将其中的用户输入文本输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索分类层和所述问答分类层。搜索损失确定单元630，配置为当所述第一样本属于所述若干搜索训练样本时，基于所述搜索分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失。问答损失确定单元640，配置为当所述第一样本属于所述若干问答训练样本时，基于所述问答分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失。调参单元650，配置为基于所述多个训练样本各自对应的预测损失之和，调整所述多任务模型的参数。

在一个实施例中，每个训练样本中还包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务；所述样本输入单元620具体配置为：将所述用户输入文本和所述业务代码进行拼接后，输入所述语义编码层。

具体地，图7示出根据另一个实施例的针对多任务模型的训练装置结构图，其中多任务模型包括语义编码层，针对搜索交互场景的搜索关联度预测层，以及针对问答交互场景的问答关联度预测层。如图7所示，所述装置700可以包括：

样本获取单元710，配置为获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括历史文本对和对应的文本关联标签，所述历史文本对包括用户输入文本和对应的标准文本。样本输入单元720，配置为对于所述多个训练样本中任意的第一样本，至少将其中的历史文本对输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索关联度预测层和所述问答关联度预测层。搜索损失确定单元730，配置为当所述第一样本属于所述若干搜索训练样本时，至少基于所述搜索关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定与所述第一样本相关的预测损失。问答损失确定单元740，配置为当所述第一样本属于所述若干问答训练样本时，基于所述问答关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定所述第一样本相关的预测损失。调参单元750，配置为基于所述多个训练样本各自相关的预测损失之和，调整所述多任务模型的参数。

在一个实施例中，每个训练样本中还包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务；其中样本输入单元720具体配置为：至少将所述历史文本对和所述业务代码组成的第一输入序列，输入所述语义编码层。

在一个具体的实施例中，样本输入单元720具体配置为：基于预先设定的用于区分用户输入文本、标准文本和业务代码的三种字符，确定与所述第一输入序列对应的第二输入序列；将所述第一输入序列和所述第二输入序列共同输入所述语义编码层。

在一个实施例中，所述文本关联标签指示对应的用户输入文本和标准文本之间的关联等级；所述若干搜索训练样本为多个，其中包括第一搜索训练样本和第二搜索训练样本，所述第一搜索训练样本中包括第一文本对和第一关联标签，所述第二搜索训练样本中包括第二文本对和第二关联标签，所述第一文本对包括某一历史文本和第一标准文本，所述第二文本对包括同一历史文本和第二标准文本；其中搜索损失确定单元730具体配置为：当所述第一样本为所述第一搜索训练样本时，基于所述搜索关联度预测层针对所述第一文本对和第二文本对分别输出的第一预测结果和第二预测结果，确定针对所述同一历史搜索文本，所述第一标准文本排在第二标准文本之前的预测概率；基于所述第一关联标签和所述第二关联标签，确定针对所述同一历史搜索文本，所述第一标准文本排在第二标准文本之前的真实概率；基于所述预测概率和所述真实概率，确定所述第一搜索训练样本和第二搜索训练样本对应的预测损失。

综上，采用本说明书实施例披露的针对多任务模型的训练装置，具有以下优势：1)能够充分利用到搜索任务和问答任务的训练数据，因二者通过语义编码者进行语义理解的部分是一致的，两个任务的训练相辅相成。并且，通常训练数据越丰富，训练出来的模型效果越好，由此复用两个任务的训练数据，能够同时提高针对两个任务的预测结果的准确度。2)节省训练成本和开销，同时训练两个任务，相比两个任务各自单独训练，在训练、模型部署方面的开销都会小。

如上，根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图3或图5所描述的方法。

根据又一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图3或图5所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种针对多任务模型的训练方法，所述多任务模型包括语义编码层，针对搜索交互场景的搜索分类层，以及针对问答交互场景的问答分类层，所述方法包括：

获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括用户输入文本和对应的标准文本类别标签；

对于所述多个训练样本中任意的第一样本，至少将其中的用户输入文本输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索分类层和所述问答分类层；

当所述第一样本属于所述若干搜索训练样本时，基于所述搜索分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失；

当所述第一样本属于所述若干问答训练样本时，基于所述问答分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失；

基于所述多个训练样本各自对应的预测损失之和，调整所述多任务模型的参数。

2.根据权利要求1所述的方法，其中，每个训练样本中还包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务；所述至少将其中的用户输入文本输入所述语义编码层，包括：

将所述用户输入文本和所述业务代码进行拼接后，输入所述语义编码层。

3.一种针对多任务模型的训练方法，所述多任务模型包括语义编码层，针对搜索交互场景的搜索关联度预测层，以及针对问答交互场景的问答关联度预测层，所述方法包括：

获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括历史文本对和对应的文本关联标签，所述历史文本对包括用户输入文本和对应的标准文本；

对于所述多个训练样本中任意的第一样本，至少将其中的历史文本对输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索关联度预测层和所述问答关联度预测层；

当所述第一样本属于所述若干搜索训练样本时，至少基于所述搜索关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定与所述第一样本相关的预测损失；

当所述第一样本属于所述若干问答训练样本时，基于所述问答关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定所述第一样本相关的预测损失；

基于所述多个训练样本各自相关的预测损失之和，调整所述多任务模型的参数。

4.根据权利要求3所述的方法，其中，每个训练样本中还包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务；所述至少将其中的历史文本对输入所述语义编码层，包括：

至少将所述历史文本对和所述业务代码组成的第一输入序列，输入所述语义编码层。

5.根据权利要求4所述的方法，其中，至少将所述历史文本对和所述业务代码组成的第一输入序列，输入所述语义编码层，包括：

基于预先设定的用于区分用户输入文本、标准文本和业务代码的三种字符，确定与所述第一输入序列对应的第二输入序列；

将所述第一输入序列和所述第二输入序列共同输入所述语义编码层。

6.根据权利要求3所述的方法，其中，所述文本关联标签指示对应的用户输入文本和标准文本之间是否相关联。

7.根据权利要求3所述的方法，其中，所述文本关联标签指示对应的用户输入文本和标准文本之间的关联等级；所述若干搜索训练样本为多个，其中包括第一搜索训练样本和第二搜索训练样本，所述第一搜索训练样本中包括第一文本对和第一关联标签，所述第二搜索训练样本中包括第二文本对和第二关联标签，所述第一文本对包括某一历史文本和第一标准文本，所述第二文本对包括同一历史文本和第二标准文本；

其中，当所述第一样本属于所述若干搜索训练样本时，至少基于所述搜索关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定所述第一样本对应的预测损失，包括：

当所述第一样本为所述第一搜索训练样本时，基于所述搜索关联度预测层针对所述第一文本对和第二文本对分别输出的第一预测结果和第二预测结果，确定针对所述同一历史搜索文本，所述第一标准文本排在第二标准文本之前的预测概率；

基于所述第一关联标签和所述第二关联标签，确定针对所述同一历史搜索文本，所述第一标准文本排在第二标准文本之前的真实概率；

基于所述预测概率和所述真实概率，确定所述第一搜索训练样本和第二搜索训练样本对应的预测损失。

8.一种针对多任务模型的训练装置，所述多任务模型包括语义编码层，针对搜索交互场景的搜索分类层，以及针对问答交互场景的问答分类层，所述装置包括：

样本获取单元，配置为获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括用户输入文本和对应的标准文本类别标签；

样本输入单元，配置为对于所述多个训练样本中任意的第一样本，至少将其中的用户输入文本输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索分类层和所述问答分类层；

搜索损失确定单元，配置为当所述第一样本属于所述若干搜索训练样本时，基于所述搜索分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失；

问答损失确定单元，配置为当所述第一样本属于所述若干问答训练样本时，基于所述问答分类层输出的分类结果和所述第一样本中的标准文本类别标签，确定所述第一样本对应的预测损失；

调参单元，配置为基于所述多个训练样本各自对应的预测损失之和，调整所述多任务模型的参数。

9.根据权利要求8所述的装置，其中，每个训练样本中还包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务；所述样本输入单元具体配置为：

10.一种针对多任务模型的训练装置，所述多任务模型包括语义编码层，针对搜索交互场景的搜索关联度预测层，以及针对问答交互场景的问答关联度预测层，所述装置包括：

样本获取单元，配置为获取多个训练样本，其中包括所述搜索交互场景下采集的若干搜索训练样本和所述问答交互场景下采集的若干问答训练样本，所述多个训练样本中每个训练样本至少包括历史文本对和对应的文本关联标签，所述历史文本对包括用户输入文本和对应的标准文本；

样本输入单元，配置为对于所述多个训练样本中任意的第一样本，至少将其中的历史文本对输入所述语义编码层，得到语义向量，并且，将所述语义向量分别输入所述搜索关联度预测层和所述问答关联度预测层；

搜索损失确定单元，配置为当所述第一样本属于所述若干搜索训练样本时，至少基于所述搜索关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定与所述第一样本相关的预测损失；

问答损失确定单元，配置为当所述第一样本属于所述若干问答训练样本时，基于所述问答关联度预测层输出的预测结果和所述第一样本中的文本关联标签，确定所述第一样本相关的预测损失；

调参单元，配置为基于所述多个训练样本各自相关的预测损失之和，调整所述多任务模型的参数。

11.根据权利要求10所述的装置，其中，每个训练样本中还包括业务代码，用于指示在跳转至用户输入文本的输入界面之前显示的界面所对应的业务；其中样本输入单元具体配置为：

12.根据权利要求11所述的装置，其中，样本输入单元具体配置为：

13.根据权利要求10所述的装置，其中，所述文本关联标签指示对应的用户输入文本和标准文本之间是否相关联。

14.根据权利要求10所述的装置，其中，所述文本关联标签指示对应的用户输入文本和标准文本之间的关联等级；所述若干搜索训练样本为多个，其中包括第一搜索训练样本和第二搜索训练样本，所述第一搜索训练样本中包括第一文本对和第一关联标签，所述第二搜索训练样本中包括第二文本对和第二关联标签，所述第一文本对包括某一历史文本和第一标准文本，所述第二文本对包括同一历史文本和第二标准文本；

其中搜索损失确定单元具体配置为：

15.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项的所述的方法。

16.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的方法。