CN111340233A

CN111340233A - 机器学习模型的训练方法及装置、样本处理方法及装置

Info

Publication number: CN111340233A
Application number: CN202010104680.7A
Authority: CN
Inventors: 张望舒; 温祖杰
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-02-20
Filing date: 2020-02-20
Publication date: 2020-06-26
Anticipated expiration: 2040-02-20
Also published as: CN111340233B

Abstract

本说明书实施例提供一种机器学习模型的训练方法，该方法包括：基于获取的原始样本集，对执行相同任务的多个预测模型进行多轮训练，得到多个训练后模型。其中任一轮训练具体包括：先对原始样本集进行采样，得到若干原始样本，其中包括任意的第一原始样本，此样本中包括第一样本特征和第一样本标签；接着将第一样本特征分别输入多个预测模型中，得到多个第一预测结果；然后至少基于多个第一预测结果和第一样本标签，确定出现频次最高的第一最高频结果；进一步地，在第一最高频结果唯一的情况下，利用该结果对所述第一样本标签进行修正，得到第一修正样本；再接着利用根据所述若干原始样本得到的若干修正样本，分别训练所述多个预测模型。

Description

机器学习模型的训练方法及装置、样本处理方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种机器学习模型的训练方法及装置，以及一种样本处理方法及装置。

背景技术

随着机器学习的兴起，许多领域尝试训练机器学习模型，以完成特定任务。比如说，在图片处理领域，通过训练图片识别模型，来识别图片中包含的目标对象。又比如说，在客服领域，通过训练标问预测模型，来确定用户会话对应的标准问题。

目前，对于训练得到的机器学习模型，其预测性能很大程度上依赖训练样本的质量和数量。通常，训练样本的质量越高、数量越多，训练所得模型的预测性能越优。然而，实际出于多种原因，获取足够数量的高质量训练样本十分困难，并且获取的训练样本中或多或少存在标注不准确或错误的样本。

因此，迫切需要一种合理、可靠的方案，可以利用存在低质量训练样本的训练样本集，训练出性能较优的机器学习模型。

发明内容

本说明书一个或多个实施例描述了一种机器学习模型的训练方法及装置，相较于直接利用原始样本集训练机器学习模型，通过对原始样本集中的样本进行去噪、优化处理，可以进一步提高机器学习模型的预测性能。

根据第一方面，提供一种机器学习模型的训练方法，该方法包括：获取原始样本集和用于执行相同任务的多个预测模型；基于原始样本集，对所述多个预测模型进行多轮训练，得到多个训练后模型；其中，所述多轮训练中的任一轮训练具体包括：对所述原始样本集进行采样，得到若干原始样本，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果；至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果；在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一样本标签进行修正，得到第一修正样本；利用根据所述若干原始样本得到的若干修正样本，分别训练多个预测模型。

在一个实施例中，所述原始样本集为图片样本集，所述相同任务为图片处理任务，所述多个预测模型为多个图片处理模型；或，所述原始样本集为文本样本集，所述相同任务为文本处理任务，所述多个预测模型为多个文本处理模型；或，所述原始样本集为音频样本集，所述相同任务为音频处理任务，所述多个预测模型为多个音频处理模型。

在一个实施例中，所述第一原始样本为客服场景下的第一用户会话样本，所述第一样本特征包括第一用户会话特征，所述第一样本标签指示第一用户标准问题，所述相同任务为确定用户会话对应的标准问题，所述多个预测模型为多个标问预测模型。

在一个实施例中，获取的多个预测模型为N个预训练模型，所述N个预训练模型基于以下步骤而得到：将所述将原始样本集分割为N个样本集，其中包括第i个样本集；获取参数初始化的N个初始模型，其中包括第i个初始模型；利用所述第i个样本集训练第i个初始模型，得到第i个预训练模型，归入所述N个预训练模型；其中，i和N为正整数，并且N≥2，i≤N。

在一个具体的实施例中，所述N个初始模型对应N套初始化模型参数，所述N套初始化模型参数中任意的两套模型参数不完全相同。

在一个更具体的实施例中，获取参数初始化的N个初始模型，包括：设定互不相同的N个随机种子；基于随机算法，利用所述N个随机种子对应生成N套随机数，作为所述N套初始化模型参数。

在一个实施例中，所述若干原始样本为多个原始样本，其中至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果，包括：确定所述多个原始样本中与所述第一原始样本具有相同样本特征的若干其他样本，所述若干其他样本中对应包括若干其他标签；基于所述多个第一预测结果、所述第一样本标签和所述若干其他标签，确定所述第一最高频结果。

在一个实施例中，在确定出现频次最高的第一最高频结果之后，以及在分别训练所述多个预测模型之前，所述方法还包括：在所述第一最高频结果不唯一的情况下，舍弃所述第一原始样本。

在一个实施例中，在得到多个训练后模型之后，所述方法还包括：利用测试样本集，分别对所述多个训练后模型进行性能测试；基于所述性能测试的结果，从所述多个训练后模型中选取性能最优的训练后模型作为针对所述相同任务的最终使用模型。

根据第二方面，提供一种样本处理方法，该方法包括：获取原始样本集，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；获取用于执行相同任务的多个预测模型；将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果；至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果；在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一原始样本中的第一样本标签进行修正，得到第一修正样本。

在一个具体的实施例中，所述第一原始样本为图片样本，所述相同任务为图片处理任务，所述多个预测模型为多个图片处理模型；或，所述第一原始样本为文本样本，所述相同任务为文本处理任务，所述多个预测模型为多个文本处理模型；或，所述第一原始样本为音频样本，所述相同任务为音频处理任务，所述多个预测模型为多个音频处理模型。

在一个具体的实施例中，在确定出现频次最高的第一最高频结果之后，所述方法还包括：在所述第一最高频结果为多个的情况下，舍弃所述第一原始样本。

根据第三方面，提供一种机器学习模型的训练装置，该装置包括：获取单元，配置为获取原始样本集和用于执行相同任务的多个预测模型；训练单元，配置为基于所述原始样本集，对所述多个预测模型进行多轮训练，得到多个训练后模型。其中，所述训练单元用于通过以下子单元执行所述多轮训练中的任一轮训练，具体包括：采样子单元，配置为对所述原始样本集进行采样，得到若干原始样本，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；预测子单元，配置为将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果；确定子单元，配置为至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果；修正子单元，配置为在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一样本标签进行修正，得到第一修正样本；训练子单元，配置为利用根据所述若干原始样本得到的若干修正样本，分别训练所述多个预测模型。

根据第四方面，提供一种样本处理装置，该装置包括：样本获取单元，配置为获取原始样本集，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；模型获取单元，配置为获取用于执行相同任务的多个预测模型；结果预测单元，配置为将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果；结果投票单元，配置为至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果；样本修正单元，配置为在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一原始样本中的第一样本标签进行修正，得到第一修正样本。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面的方法。

综上，在本说明书实施例披露的上述训练方法及装置中，通过对原始训练样本集进行去噪，提高样本数据的准确度，再利用去噪后的样本对模型进行训练，可以有效提高模型性能，从而提高预测结果的准确度、可信度和可用性。

此外，采用本说明书实施例披露的上述样本处理方法及装置，可以实现对原始训练样本集的去噪，从而得到质量更高的训练样本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的对原始样本集去噪的训练流程框图；

图2示出根据一个实施例的机器学习模型的训练方法流程图；

图3示出根据一个实施例的模型预训练的方法流程图；

图4示出根据一个实施例的基于弱监督数据的多模型训练示意图；

图5示出根据一个实施例的样本处理方法流程图；

图6示出根据一个实施例的机器学习模型的训练装置结构图；

图7示出根据一个实施例的样本处理装置结构图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

如前所述，获取的训练样本中或多或少存在标注不准确或错误的样本，也就是说，获取的训练数据中通常存在噪声。出现这种情况的原因有很多，如标注人员自身水平有限、标注过程粗心、标注难度较大等。

结合应用场景举例来说，在客服场景下，训练标问预测模型进行需要大量的训练数据，这些训练数据通常来源于人工标注或者线上用户的点击反馈。其中，收集标注准确的数据十分昂贵、耗时，所以经常采用众包标注等方式，将需要标注的数据分发给专业知识不是十分完备的云标注人员进行标注，由此会引入一定量的噪声。另外，对于线上用户点击反馈的这部分数据，由于用户对业务产品的了解并不专业，所以用户的反馈也是充满噪声的。因此，对于客服场景下获取的训练样本，其标签不总是真值，这些训练样本是不准确、充满噪声的，是一种弱监督的数据。

若直接采用以上不准确的、充满噪声的原始训练样本集，训练机器学习模型，将导致训练出的模型预测性能较差，包括预测结果的准确度低，可信度低、可用性差等。

基于此，本说明书实施例披露一种机器学习模型的训练方法，通过对原始训练样本集进行去噪、优化处理，可以提高训练出的机器学习模型的预测性能，从而提高预测结果的准确度、可信度和可用性。

在一个实施例中，图1示出根据一个实施例的对原始样本集去噪的训练流程框图。如图1所示，首先，从原始训练样本集中选取一个批次的样本；接着，对于这一批次样本中的每一个样本，将其分别输入执行相同任务(如文本分类或目标识别等)的多个预测模型中，得到对应的多个预测结果；然后，针对每个样本进行投票，包括利用每个样本对应的多个预测结果和样本标签进行投票，进一步地，一方面，在票数最多的结果不唯一的情况下，将对应的样本进行丢弃，另一方面，在票数最多的结果唯一的情况下，利用该结果修正对应样本；再接着，利用修正后的批次样本对上述多个预测模型进行训练。基于图1中示出的步骤进行多轮迭代训练(或称多轮迭代、多轮训练)，可以得到最终训练好的多个训练后模型。如此，通过对原始训练样本集进行去噪，提高样本数据的准确度，再利用去噪后的样本对模型进行训练，可以有效提高模型性能。

下面，结合具体的实施例，描述上述训练方法的实施步骤。

具体地，图2示出根据一个实施例的机器学习模型的训练方法流程图，所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图2所示，所述方法包括以下步骤：

步骤S210，获取原始样本集和用于执行相同任务的多个预测模型。步骤S220，基于所述原始样本集，对执行相同任务的多个预测模型进行多轮训练，得到多个训练后模型。其中，所述多轮训练中的任一轮训练具体包括：步骤S221，对所述原始样本集进行采样，得到若干原始样本，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；步骤S222，将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果；步骤S223，至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果；步骤S224，在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一原始样本中的第一样本标签进行修正，得到第一修正样本；步骤S225，利用根据所述若干原始样本得到的若干修正样本，分别训练所述多个预测模型。

以上步骤具体如下：

首先，在步骤S210，获取原始样本集和多个预测模型，其中多个预测模型用于执行相同的预定任务。

在一个实施例中，原始样本集可以为图片样本集，相应地，上述预定任务可以为图像处理任务，并且，上述多个预测模型可以为多个图像处理模型。在一个具体的实施例中，图片样本集中可以包括多张车辆损伤图像，相应地，其中图像处理任务可以为部件识别任务或损伤识别任务，并且，其中多个图像处理预测模型可以为多个部件识别模型或损伤识别模型。在另一个具体的实施例中，图片样本集中的图片可以为菌类显微镜图像，相应地，其中图像处理任务可以为菌种识别任务，并且，其中多个图像处理模型可以为多个菌种识别模型。

在一个实施例中，原始样本集可以为文本样本集，相应地，上述预定任务可以为文本处理任务，并且，上述多个预测模型可以为多个文本处理模型。在一个具体的实施例中，文本样本集中可以包括多篇新闻文本，相应地，其中文本处理任务可以为新闻分类任务，并且，其中多个文本处理模型可以为多个新闻分类模型。在另一个具体的实施例中，文本样本集中可以包括客服场景下的多个用户咨询文本，相应地，其中文本处理任务可以为确定用户标准问题，并且，其中多个文本处理模型可以为多个标问预测模型。

在一个实施例中，原始样本集可以为音频样本集，相应地，上述预定任务可以为音频处理任务，并且，上述多个预测模型可以为多个音频处理模型。在一个具体的实施例中，音频样本集中可以包括客服场景下的多个用户咨询录音，相应地，其中音频处理任务可以为确定用户标准问题，并且，其中多个文本处理模型可以为多个标问预测模型。

另一方面，上述原始样本集中的每个原始样本包括对应的样本特征和样本标签。针对其中的样本特征，在一个具体的实施例中，上述原始样本集可为图片样本集，相应地，其中每个图片样本的样本特征可以包括图片的颜色特征、纹理特征、形状特征和空间关系特征。在另一个具体的实施例中，原始样本集可以为文本样本集，相应地，其中每个文本样本的样本特征可以包括文本特征向量。在又一个具体的实施例中，原始样本集可以为音频样本集，相应地，其中每个音频样本的样本特征可以包括对应音频的声学特征。针对其中的样本标签，其与上述预定任务相关联。在一个具体的实施例中，上述预定任务为确定用户标准问题，则样本标签用于指示用户咨询文本或用户咨询语音所对应的标准问题。在一个例子中，具体可以为标准问题标识，例如系统为不同标准问题分类的唯一编号。

又一方面，上述多个预测模型互相之间不完全相同。针对上述多个预测模型中任意的两个预测模型，在一个实施例中，这两个预测模型所基于的算法类型不同。在一个具体的实施例中，其中一个基于决策树算法，另一个基于贝叶斯分类算法。在另一个实施例中，这两个预测模型所基于的神经网络类型不同。在一个具体的实施例中，其中一个基于CNN(Convolutional Neural Networks,卷积神经网络)，另一个基于DNN(Deep ConvolutionalNeural Networks,深度神经网络)。在又一个实施例中，这两个预测模型所基于的神经网络类型相同，但是采用的网络结构不同。在一个具体的实施例中，这两个预测模型均基于DNN网络，但是，其中一个采用的隐层数量为6，另一个采用的隐层数量为8。

再一方面，上述多个预测模型可以具有多种来源。在一个实施例中，多个数据方(如多个企业或多个服务平台)之间针对相同任务，提供各自的预测模型，如此得到多个预测模型，以实现模型共享。当然，可以通过一些安全保护技术，如MPC(Secure Multi-PartyComputation，安全多方计算)技术，实现模型共享。在另一个实施例中，可以利用上述原始样本集进行预训练，并将得到多个预训练模型作为上述获取的多个预测模型，也就是后续步骤S220中进行第一轮迭代训练时所使用的多个预测模型。具体地，为便于描述，设定多个预测模型具体为N个，也就是预训练模型为N个，其中N为大于1的整数，如2或3等。在一个具体的实施例中，图3示出根据一个实施例的模型预训练的方法流程图，如图3所示，N个预训练模型可以基于以下步骤而得到：

步骤S31，将上述原始样本集分割为N个样本集，其中包括第i个样本集，其中i为不大于N的正整数。需要说明的是，对原始样本集进行分割，是为了使得N个样本集中各个样本集不会互相重叠，也就是不存在交集，以使后续训练得到的N个预训练模型具有不同的模型能力，进而使得后续利用N个预训练模型对原始样本集去噪的效果更好，再训练得到的模型性能更优。在一个例子中，假定N为5，原始样本集中包括5000个样本，则在均分的情况下，5个样本集中的每个样本集中可以包括1000个样本，而在另一种分割方式下，5个样本集中第1个样本集至第5个样本集可以分别包括800、900、1000、1100和1200个样本。如此可以得到N个样本集。

步骤S32，获取参数初始化的N个初始模型，其中包括第i个初始模型。在一个实施例中，考虑到上述N个样本集之间互不相同，此处的N个初始模型及时都相同，可以在一定程度上保证后续训练得到的N个预训练模型存在能力差异。在另一个实施例中，为了进一步保证N个预训练模型存在能力差异，可以使得N个初始模型之间的模型参数互不相同。具体地，N个初始模型对应N套初始化模型参数，所述N套初始化模型参数中任意的两套模型参数不完全相同。在一个具体的实施例中，可以选取N种不同的网络结构，作为所述N个初始模型的模型结构，如此N个初始模型的模型参数必然不同。在另一个具体的实施例中，可以设定互不相同的N个随机种子；再基于随机算法，利用N个随机种子对应生成N套随机数，作为所述N套初始化模型参数。需要理解，随机种子不同，生成的随机数必然不同。如此，可以获取N个初始模型。

需要说明的是，上述步骤S31可以在步骤S32之前、之后或同时执行，对此不作限定。

以上在步骤S31和步骤S32可以分别获取N个样本集和N个初始模型，其中分别包括第i个样本集和第i个初始模型。基于此，可以在步骤S33，利用所述第i个样本集训练所述第i个初始模型，得到第i个预训练模型，归入所述N个预训练模型。

具体地，可以对第i个样本集进行多次采样，以对第i个初始模型进行多轮迭代训练，并将最后一次迭代训练得到的模型作为第i个预训练模型。在一个例子中，对第i个初始模型进行多轮迭代训练的次数可以由人工预先设定。在另一个例子中，可以对第i个初始模型进行多轮迭代训练直至预测损失小于预定阈值，其中预定阈值可以由工作人员根据实际经验设定。如此可以得到第i个预训练模型，依次类推可以得到N个预训练模型，作为上述获取的多个预测模型。

以上在步骤S210，可以获取原始样本集和多个预测模型。

接着，在步骤S220，基于所述原始样本集，对所述多个预测模型进行多轮训练，得到多个训练后模型。

具体地，所述多轮训练中的任一轮训练具体包括：

首先，步骤S221，对原始样本集进行采样，得到若干原始样本，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签。

在一个实施例中，对原始样本集进行采样的方式有多种，包括分层采样法或自助采样法等，具体可参见相关现有技术，在此不作赘述。可以理解，上述若干原始样本为一个或多个。

在一个实施例中，所述第一原始样本为客服场景下的第一用户会话样本，所述第一样本特征包括第一用户会话特征，所述第一样本标签指示第一用户标准问题。在一个具体的实施例中，第一用户会话样本为用户咨询文本；第一用户会话特征为用户咨询文本对应的文本特征，如通过词嵌入确定的文本特征向量；假定第一用户标准问题为“如何开通花呗”，且用户标准问题共有30类，则第一样本标签可以为其指示问题的编号，如18。需要说明的是，对第一原始样本的描述，还可以参见步骤S210中对原始样本集的相关描述。

以上，通过对原始样本集进行采样，可以得到一批次的若干原始样本。然后，在步骤S222，将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果。并且，在步骤S223，至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果。

在一个具体的实施例中，多个预测模型为多个标问预测模型，由此，可以将第一用户会话特征分别输入多个标问预测模型中，得到多个第一预测结果。需要说明的是，因多个预测模型互相之间不完全相同，存在能力的差异，因此多个第一预测结果中任意两个第一预测结果可能相同，也可能不相同。并且，多个第一预测结果中任意的第一预测结果可能与第一样本标签相同，也可能与第一样本标签不同。

以上可以得到多个第一预测结果。进一步地，可以基于得到的多个第一预测结果和第一样本标签，进行投票。在一个例子中，假定多个第一预测结果中包括a、a和b，第一样本标签为a，则可以确定出其中出现频次最高的第一高频结果为a。在另一个例子中，假定多个第一预测结果中包括a、a和b，第一样本标签为b，则可以确定出其中的第一高频结果为a和b。在又一个例子中，假定第一预测结果中包括a、b、b和b，第一样本标签为a，则可以确定出其中出现其中的第一高频结果为b。

此外，考虑到原始样本集为弱监督数据，其中可能存在两个或两个以上的样本，它们具有相同的样本特征，但是样本标签不一致。因此，在投票时，还可以让采样得到的若干原始样本中，与第一原始样本具有相同样本特征的其他原始样本参与投票。

在一个具体的实施例中，若干原始样本为多个原始样本，基于此，步骤S223中可以包括：确定所述多个原始样本中与所述第一原始样本具有相同样本特征的若干其他样本，所述若干其他样本中对应包括若干其他标签；基于所述多个第一预测结果、所述第一样本标签和所述若干其他标签，确定所述第一最高频结果。在一个例子中，假定多个第一预测结果中包括a、a和b，第一样本标签为b，若干其他标签包括b，则可以确定出其中出现频次最高的第一高频结果为b。

以上可以确定出第一最高频结果。进一步地，一方面，在所述第一最高频结果唯一的情况下，执行步骤S224，利用所述第一最高频结果对所述第一原始样本中的第一样本标签进行修正，得到第一修正样本。

需要说明的是，在第一最高频结果唯一的情况下，说明参与投票的预测结果和样本标签中，只有一个结果获得了最高票，这意味着这个获得最高票的结果可靠性较高。因此，可以利用这个最高票结果修正第一样本标签，以使第一样本标签在于最高票结果不一致时，被修正。

在一个实施例中，可以直接利用第一最高频结果更新第一样本标签，以得到第一修正样本。在另一个实施例中，可以先比对第一最高频结果和原始的第一样本标签，在二者不一致的情况下，再将第一样本标签修正为第一最高频结果，以得到第一修正样本；而在二者一致的情况下，可以直接将第一原始样本作为第一修正样本。如此可以得到第一修正样本。

另一方面，在所述第一最高频结果不唯一的情况下，舍弃所述第一原始样本。需要理解，其中第一最高频结果不唯一，是指存在多个第一最高频结果，这些第一最高频结果的出现频次并列最高，但是结果本身互不相同。此时，说明第一原始样本的标签结果存在较大争议，因此在本轮迭代训练中，不对其进行修正，而是直接抛弃掉该数据点。

根据一个具体的例子，可能存在如下情况：若干原始样本为30个，其中有2个原始样本因争议较大被舍弃，其余28个样本被修正而得到28个修正样本，也就是上述若干修正样本。

以上，根据若干原始样本可以得到若干修正样本。基于此，在步骤S225，利用所述若干修正样本，分别训练所述多个预测模型。需要理解，对于多个预测模型中的每一个，都用若干修正样本进行训练。

以上，通过步骤S221-步骤S225，可以完成一轮针对多个预测模型的迭代训练。如此，在步骤S220中，重复步骤S221-步骤S220，可以实现对多个预测模型的多轮迭代训练。需要理解，在每轮迭代训练中都会对原始样本进行去噪，因此多个预测模型在循环迭代训练中性能不断提升，对原始样本的去噪效果也随之提升，如此形成良性循环，使得最终训练好的多个训练后模型性能优异。

需要说明的是，在步骤S220之后，所述训练方法还可以包括：利用测试样本集，分别对所述多个训练后模型进行性能测试；基于所述性能测试的结果，从所述多个训练后模型中选取性能最优的训练后模型作为针对所述相同任务的最终使用模型。

在一个实施例中，上述测试集可以为一定数量的高质量样本。在一个具体的实施例中，可以由专业人员对标注样本或其他方式获得的样本进行筛选得到。在一个例子中，对于客服场景下搜集的用户反馈样本，专业人员可以从中筛选出部分标签正确的样本作为测试样本集。

在一个实施例中，上述性能测试包括，将测试样本集中的测试样本分别输入多个训练后模型中，得到多个预测结果，然后基于这些预测结果和测试样本的样本标签，计算各个训练后模型针对预定性能指标的指标值，再基于指标值确定出性能最优的训练后模型，作为上述最终使用模型。在一个具体的实施例中，其中预定性能指标可以包括错误率、精度、查全率和查准率等。在一个例子中，可以计算各个训练后模型的精度，并将精度最高的训练后模型，确定为上述最终使用模型。

如此，可以从多个训练后模型中选取出最终使用模型，用于在实际应用中执行上述相同任务。例如，执行确定用户标准问题的任务。

综上，采用本说明书实施例披露的训练方法，通过对原始训练样本集进行去噪，提高样本数据的准确度，再利用去噪后的样本对模型进行训练，可以有效提高模型性能。

下面，结合一个具体的例子，对本说明书实施例披露的训练方法进行更加详细的说明。图4示出根据一个实施例的基于弱监督数据的多个模型训练示意图。需要理解，其中多模型是指多个机器学习模型，图4中仅示出2个模型作为示例。结合图4，对多模型的训练包括以下步骤：

第一步，对两个模型进行预训练，具体包括：

1)对弱监督数据随机切分两等份。需要说明，对弱监督数据的描述可以参见前述对原始训练数据集的描述，不作赘述；

2)随机初始化两个模型，两个模型的随机初始参数不同；

3)使用两等份中的一份数据对两个模型中的一个进行迭代训练，迭代达到一定轮次后输出一个预训练模型；

4)使用另一份数据对另一个模型进行迭代训练，迭代达到一定轮次后输出另一个预训练模型。

以上通过预训练，得到两个预训练的模型，这两个模型都能够完成相同的预定任务，但是由于初始化起点不同，训练数据不同导致能力上有些差别。

第二步，弱监督数据去噪训练，具体包括：

1)从总体原始的弱监督数据采样一个批次(batch)；

2)使用两个模型对该批次数据进行预测，得到预测结果；

3)将两个模型得到的预测结果与该批次数据中的数据结果(或称样本标签、弱监督结果)放在一起进行结果投票；

4)统计的票最多的结果。针对某条数据(或称某个原始训练样本)，如果前两名的票数一样多，则认为对该条数据争议较大，该条数据是噪声的可能性较大，并在本轮迭代训练中抛弃掉该条数据；

5)利用得到票最多的结果，对该批次数据进行修正；

6)利用修正后的数据迭代训练两个模型；

7)重复以上第二中的1)-6)，迭代训练至模型收敛；

8)输出在测试数据集上效果最好的模型，作为最终的模型。

需要理解，在以上第二步中，使用预训练模型的能力判别训练数据的有效性，实现只用可靠的数据进行迭代训练，从而保证了模型效果。

以上，主要对本说明书实施例披露的模型训练方法进行说明。根据另一方面的实施例，本说明书还提供一种样本处理方法，实现对弱监督数据的去噪。具体地，图5示出根据一个实施例的样本处理方法流程图，所述方法的执行主体可以为任何具有计算、处理能力的装置、设备、平台、设备集群。如图5所示，所述方法包括以下步骤：

步骤S510，获取原始样本集，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；步骤S520，获取用于执行相同任务的多个预测模型；步骤S530，将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果；步骤S540，至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果；步骤S550，在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一原始样本中的第一样本标签进行修正，得到第一修正样本。

针对以上步骤，在一个实施例中，上述多个预测模型可以是多个数据方各自提供的训练好的模型。在一个具体的实施例中，在使用时可以采用MPC技术实现模型的安全共享。

在一个实施例中，所述第一原始样本为图片样本，所述相同任务为图片处理任务，所述多个预测模型为多个图片处理模型。在另一个实施例中，所述第一原始样本为文本样本，所述相同任务为文本处理任务，所述多个预测模型为多个文本处理模型。在又一个实施例中，所述第一原始样本为音频样本，所述相同任务为音频处理任务，所述多个预测模型为多个音频处理模型。

在一个实施例中，在上述步骤S540之后，所述方法还可以包括：在所述第一最高频结果为多个的情况下，舍弃所述第一原始样本。

需要说明的是，对图5中示出的方法步骤的描述，还可以参见前述实施例中的相关描述。

综上，采用本说明书实施例披露的样本处理方法，可以实现对原始训练样本集的去噪，从而得到质量更高的训练样本。

与上述模型训练方法、样本处理方法相对应的，本说明书实施例还披露一种模型训练装置和一种样本处理装置。具体如下：

图6示出根据一个实施例的机器学习模型的训练装置结构图。如图6所示，所述装置600包括：

获取单元610，配置为获取原始样本集和用于执行相同任务的多个预测模型。训练单元620，配置为基于所述原始样本集，对所述多个预测模型进行多轮训练，得到多个训练后模型。其中，所述训练单元620用于通过以下子单元执行所述多轮训练中的任一轮训练，具体包括：

采样子单元621，配置为对所述原始样本集进行采样，得到若干原始样本，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签。预测子单元622，配置为将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果。确定子单元623，配置为至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果。修正子单元624，配置为在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一样本标签进行修正，得到第一修正样本。训练子单元625，配置为利用根据所述若干原始样本得到的若干修正样本，分别训练所述多个预测模型。

在一个实施例中，获取的多个预测模型为N个预训练模型，所述N个预训练模型通过预训练单元得到，所述预训练单元具体包括：分割模块，配置为将所述将原始样本集分割为N个样本集，其中包括第i个样本集；获取模块，配置为获取参数初始化的N个初始模型，其中包括第i个初始模型；训练模块，配置为利用所述第i个样本集训练所述第i个初始模型，得到第i个预训练模型，归入所述N个预训练模型；其中，i和N为正整数，并且N≥2，i≤N。

在一个更具体的实施例中，其中获取模块具体配置为：设定互不相同的N个随机种子；基于随机算法，利用所述N个随机种子对应生成N套随机数，作为所述N套初始化模型参数。

在一个实施例中，所述若干原始样本为多个原始样本，所述确定子单元623具体配置为：确定所述多个原始样本中与所述第一原始样本具有相同样本特征的若干其他样本，所述若干其他样本中对应包括若干其他标签；基于所述多个第一预测结果、所述第一样本标签和所述若干其他标签，确定所述第一最高频结果。

在一个实施例中，所述装置600还包括：舍弃单元630，配置为在所述第一最高频结果不唯一的情况下，舍弃所述第一原始样本。

在一个实施例中，所述装置600还包括：测试单元640，配置为利用测试样本集，分别对所述多个训练后模型进行性能测试；选取单元650，配置为基于所述性能测试的结果，从所述多个训练后模型中选取性能最优的训练后模型作为针对所述相同任务的最终使用模型。

综上，采用本说明书实施例披露的训练装置，通过对原始训练样本集进行去噪，提高样本数据的准确度，再利用去噪后的样本对模型进行训练，可以有效提高模型性能。

图7示出根据一个实施例的样本处理装置结构图。如图7所示，所述装置700包括：

样本获取单元710，配置为获取原始样本集，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签。模型获取单元720，配置为获取用于执行相同任务的多个预测模型。结果预测单元730，配置为将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果。结果投票单元740，配置为至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果。样本修正单元750，配置为在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一原始样本中的第一样本标签进行修正，得到第一修正样本。

在一个实施例中，所述第一原始样本为图片样本，所述相同任务为图片处理任务，所述多个预测模型为多个图片处理模型；或，所述第一原始样本为文本样本，所述相同任务为文本处理任务，所述多个预测模型为多个文本处理模型；或，所述第一原始样本为音频样本，所述相同任务为音频处理任务，所述多个预测模型为多个音频处理模型。

在一个实施例中，所述若干原始样本为多个原始样本，其中结果投票单元740具体配置为：确定所述多个原始样本中与所述第一原始样本具有相同样本特征的若干其他样本，所述若干其他样本中对应包括若干其他标签；基于所述多个第一预测结果、所述第一样本标签和所述若干其他标签，确定所述第一最高频结果。

在一个实施例中，所述装置700还包括：样本舍弃单元760，配置为在所述第一最高频结果为多个的情况下，舍弃所述第一原始样本。

综上，采用本说明书实施例披露的样本处理装置，可以实现对原始训练样本集的去噪，从而得到质量更高的训练样本。

根据又一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2或图3或图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2或图3或图5所述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种机器学习模型的训练方法，包括：

获取原始样本集和用于执行相同任务的多个预测模型；

基于所述原始样本集，对所述多个预测模型进行多轮训练，得到多个训练后模型；其中，所述多轮训练中的任一轮训练具体包括：

对所述原始样本集进行采样，得到若干原始样本，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；

将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果；

至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果；

在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一样本标签进行修正，得到第一修正样本；

利用根据所述若干原始样本得到的若干修正样本，分别训练所述多个预测模型。

2.根据权利要求1所述的方法，其中，

所述原始样本集为图片样本集，所述相同任务为图片处理任务，所述多个预测模型为多个图片处理模型；或，

所述原始样本集为文本样本集，所述相同任务为文本处理任务，所述多个预测模型为多个文本处理模型；或，

所述原始样本集为音频样本集，所述相同任务为音频处理任务，所述多个预测模型为多个音频处理模型。

3.根据权利要求1所述的方法，其中，所述第一原始样本为客服场景下的第一用户会话样本，所述第一样本特征包括第一用户会话特征，所述第一样本标签指示第一用户标准问题，所述相同任务为确定用户会话对应的标准问题，所述多个预测模型为多个标问预测模型。

4.根据权利要求1所述的方法，其中，获取的多个预测模型为N个预训练模型，所述N个预训练模型基于以下步骤而得到：

将所述将原始样本集分割为N个样本集，其中包括第i个样本集；

获取参数初始化的N个初始模型，其中包括第i个初始模型；

利用所述第i个样本集训练所述第i个初始模型，得到第i个预训练模型，归入所述N个预训练模型；

其中，i和N为正整数，并且N≥2，i≤N。

5.根据权利要求4所述的方法，其中，所述N个初始模型对应N套初始化模型参数，所述N套初始化模型参数中任意的两套模型参数不完全相同。

6.根据权利要求5所述的方法，其中，获取参数初始化的N个初始模型，包括：

设定互不相同的N个随机种子；

基于随机算法，利用所述N个随机种子对应生成N套随机数，作为所述N套初始化模型参数。

7.根据权利要求1所述的方法，其中，所述若干原始样本为多个原始样本，其中至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果，包括：

确定所述多个原始样本中与所述第一原始样本具有相同样本特征的若干其他样本，所述若干其他样本中对应包括若干其他标签；

基于所述多个第一预测结果、所述第一样本标签和所述若干其他标签，确定所述第一最高频结果。

8.根据权利要求1所述的方法，其中，在确定出现频次最高的第一最高频结果之后，以及在分别训练所述多个预测模型之前，所述方法还包括：

在所述第一最高频结果不唯一的情况下，舍弃所述第一原始样本。

9.根据权利要求1所述的方法，其中，在得到多个训练后模型之后，所述方法还包括：

利用测试样本集，分别对所述多个训练后模型进行性能测试；

基于所述性能测试的结果，从所述多个训练后模型中选取性能最优的训练后模型作为针对所述相同任务的最终使用模型。

10.一种样本处理方法，包括：

获取原始样本集，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；

获取用于执行相同任务的多个预测模型；

在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一原始样本中的第一样本标签进行修正，得到第一修正样本。

11.根据权利要求10所述的方法，其中，

所述第一原始样本为图片样本，所述相同任务为图片处理任务，所述多个预测模型为多个图片处理模型；或，

所述第一原始样本为文本样本，所述相同任务为文本处理任务，所述多个预测模型为多个文本处理模型；或，

所述第一原始样本为音频样本，所述相同任务为音频处理任务，所述多个预测模型为多个音频处理模型。

12.根据权利要求10所述的方法，其中，在确定出现频次最高的第一最高频结果之后，所述方法还包括：

在所述第一最高频结果为多个的情况下，舍弃所述第一原始样本。

13.一种机器学习模型的训练装置，包括：

获取单元，配置为获取原始样本集和用于执行相同任务的多个预测模型；

训练单元，配置为基于所述原始样本集，对所述多个预测模型进行多轮训练，得到多个训练后模型；

其中，所述训练单元用于通过以下子单元执行所述多轮训练中的任一轮训练，具体包括：

采样子单元，配置为对所述原始样本集进行采样，得到若干原始样本，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；

预测子单元，配置为将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果；

确定子单元，配置为至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果；

修正子单元，配置为在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一样本标签进行修正，得到第一修正样本；

训练子单元，配置为利用根据所述若干原始样本得到的若干修正样本，分别训练所述多个预测模型。

14.根据权利要求13所述的装置，其中，

15.根据权利要求13所述的装置，其中，所述第一原始样本为客服场景下的第一用户会话样本，所述第一样本特征包括第一用户会话特征，所述第一样本标签指示第一用户标准问题，所述相同任务为确定用户会话对应的标准问题，所述多个预测模型为多个标问预测模型。

16.根据权利要求13所述的装置，其中，获取的多个预测模型为N个预训练模型，所述N个预训练模型通过预训练单元得到，所述预训练单元具体配置为：

获取参数初始化的N个初始模型，其中包括第i个初始模型；

其中，i和N为正整数，并且N≥2，i≤N。

17.根据权利要求13所述的装置，其中，所述若干原始样本为多个原始样本，所述确定子单元具体配置为：

18.根据权利要求13所述的装置，其中，所述装置还包括：

舍弃单元，配置为在所述第一最高频结果不唯一的情况下，舍弃所述第一原始样本。

19.根据权利要求13所述的装置，其中，所述装置还包括：

测试单元，配置为利用测试样本集，分别对所述多个训练后模型进行性能测试；

选取单元，配置为基于所述性能测试的结果，从所述多个训练后模型中选取性能最优的训练后模型作为针对所述相同任务的最终使用模型。

20.一种样本处理装置，包括：

样本获取单元，配置为获取原始样本集，其中包括任意的第一原始样本，所述第一原始样本中包括第一样本特征和第一样本标签；

模型获取单元，配置为获取用于执行相同任务的多个预测模型；

结果预测单元，配置为将所述第一样本特征分别输入所述多个预测模型中，得到多个第一预测结果；

结果投票单元，配置为至少基于所述多个第一预测结果和所述第一样本标签，确定出现频次最高的第一最高频结果；

样本修正单元，配置为在所述第一最高频结果唯一的情况下，利用所述第一最高频结果对所述第一原始样本中的第一样本标签进行修正，得到第一修正样本。

21.根据权利要求20所述的装置，其中，

22.根据权利要求20所述的装置，其中，所述装置还包括：

样本舍弃单元，配置为在所述第一最高频结果为多个的情况下，舍弃所述第一原始样本。

23.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-12中任一项的所述的方法。

24.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-12中任一项所述的方法。