CN115546576A

CN115546576A - 建立预测模型的方法及装置

Info

Publication number: CN115546576A
Application number: CN202211050874.9A
Authority: CN
Inventors: 于开丞; 卿泉; 陈鹏
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-12-30

Abstract

本申请实施例公开了一种建立预测模型的方法及装置，应用于深度学习技术领域。主要技术方案包括：获取训练数据集，训练数据集包括C个类别的样本数据以及样本数据对应的标签；将样本数据作为第一预测模型的输入，将样本数据对应的标签作为第一预测模型的目标输出，训练第一预测模型，第一预测模型包括特征提取网络和预测网络，特征提取网络用以利用样本数据提取特征表示，预测网络用以利用特征表示得到针对样本数据的预测结果；在训练中采用动量梯度下降的方式对第一预测模型进行参数更新，其中动量在参数更新中的权重依据训练数据集的长尾数据分布与均匀分布的差异程度确定。本申请能够降低陷入局部最优的可能性，提高预测效果。

Description

建立预测模型的方法及装置

技术领域

本申请涉及深度学习技术领域，特别是涉及一种建立预测模型的方法及装置。

背景技术

自然界收集的样本通常呈长尾分布，即很少一部分类别(即头部类别)收集到绝大多数样本，而大多数类别即尾部类别却只能收集到很少量的样本。以图像分类为例，对于动物识别任务的训练集，猫狗等常见动物可以轻轻松松地采集数以百万张的图像，但对于雪豹等罕见动物，则采集到的图像数量很有限，越是稀有的动物越难采集到图像。这造成收集到的数据集存在着严重的类别不平衡问题，从而使得基于深度神经网络训练得到的预测模型过拟合于头部类别，严重地影响模型效果。因此，亟需一种建立预测模型的方法，以减轻长尾数据带来的过拟合于头部类别的问题，提高预测效果。

发明内容

有鉴于此，本申请提供了一种建立预测模型的方法及装置，用以减轻长尾数据带来的过拟合于头部类别的问题，提高预测效果。

本申请提供了如下方案：

第一方面，提供了一种建立预测模型的方法，所述方法包括：

获取训练数据集，所述训练数据集包括C个类别的样本数据以及样本数据对应的标签，所述C为大于1的正整数；

将样本数据作为第一预测模型的输入，将样本数据对应的标签作为第一预测模型的目标输出，训练所述第一预测模型，所述第一预测模型包括特征提取网络和预测网络，所述特征提取网络用以利用样本数据提取特征表示，所述预测网络用以利用所述特征表示得到针对样本数据的预测结果；

在所述训练中采用动量梯度下降的方式对所述第一预测模型进行参数更新，其中动量在所述参数更新中的权重依据所述训练数据集的长尾数据分布与均匀分布的差异程度确定。

根据本申请实施例中一可实现的方式，所述采用动量梯度下降的方式对所述第一预测模型进行参数更新包括：

在所述训练的每一次迭代中，将上一次迭代更新后的第一预测模型的参数和本次迭代的动量进行加权处理以更新所述第一预测模型的参数，本次迭代的动量是依据上一次迭代采用的动量和损失函数的梯度确定的，参数更新的方向与本次迭代的动量方向相反，本次迭代的动量方向与上一次参数更新的方向相同且与损失函数的梯度方向相同。

根据本申请实施例中一可实现的方式，所述动量在所述参数更新中的权重绝对值大于或等于1，所述训练数据集的长尾数据分布与均匀分布的差异程度包括所述训练数据集的长尾数据分布与均匀分布的KL散度值。

根据本申请实施例中一可实现的方式，所述动量在所述参数更新中的权重取值为：散度计算值乘以log₂ C得到的值与1中的较大值，所述散度计算值为所述训练数据集的长尾数据分布与均匀分布的KL散度值。

根据本申请实施例中一可实现的方式，所述第一预测模型为N个，所述N为大于1的正整数；所述方法还包括：采用自举法Bootstrap对所述训练数据集进行N次重采样，得到N个数据集分别用以训练N个所述第一预测模型；

训练结束后，利用训练得到的N个所述第一预测模型得到第二预测模型，所述第二预测模型用以在输入待预测数据后，整合N个预测网络输出的预测结果以确定所述待预测数据的预测结果。

根据本申请实施例中一可实现的方式，所述整合N个预测网络输出的预测结果以确定所述待预测数据的类别包括：

对所述N个预测网络输出的预测结果进行表决，依据表决结果确定所述待预测数据的类别。

根据本申请实施例中一可实现的方式，所述方法还包括：

利用所述训练数据集进一步训练所述第二预测模型，训练目标为最小化第二预测模型输出的预测结果与对应标签的差异；在所述第二预测模型的训练过程中，保持各第一预测模型的参数不变，学习N个预测结果在所述表决中对应的权重。

根据本申请实施例中一可实现的方式，所述样本数据为图像样本；

所述利用样本数据提取特征表示包括：从图像样本中提取颜色特征、纹理特征、形状特征、空间关系特征和频率特征中的一种或任意组合并进行编码得到特征表示；

所述预测结果为图像类别、图像分割区域或图像的目标检测结果。

第二方面，提供了一种建立预测模型的装置，该装置包括：

样本获取单元，被配置为获取训练数据集，所述训练数据集包括C个类别的样本数据以及样本数据对应的标签，所述C为大于1的正整数；

模型训练单元，被配置为将样本数据作为第一预测模型的输入，将样本数据对应的标签作为第一预测模型的目标输出，训练所述第一预测模型，所述第一预测模型包括特征提取网络和预测网络，所述特征提取网络用以利用样本数据提取特征表示，所述预测网络用以利用所述特征表示得到针对样本数据的预测结果；

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

根据第四方面，提供了一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面中任一项所述的方法的步骤。

根据本申请提供的具体实施例，本申请可以具备以下技术效果：

1)本申请在预测模型的训练中引入动量，采用动量梯度下降的方式进行模型参数的更新，并且能够根据不同的长尾数据分布自适应地确定动量在参数更新中的权重，增加模型对于尾部类别的关注，提高特征表示的多样性，降低陷入局部最优的可能性，从而提高预测效果。

2)本申请中动量在参数更新中权重参数的设置方式，一方面能够削弱之前迭代中长尾分布对动量影响，对梯度进行平衡，增加模型对于尾部类别的关注，使得学习到的特征表示在保持类内紧密性的同时更具多样性。另一方面，可以自适应调整步长，从而更好地使模型获得最优解。

3)本申请中采用Booststrap对训练数据集进行N次重采样得到N个数据集，分别用以训练N个第一预测模型，然后通过多个第一预测模型的集成得到第二预测模型。这种多专家网络的方式可以学习到更加多样化的特征表示，且有效降低模型的方差，从而更进一步提高模型的稳定性和准确性。

4)本申请中各第一预测模型的预测结果可以采用表决的方式用以确定第二预测模型的预测结果，这种方式更能够更进一步提高模型预测的准确性。

5)本申请中可以利用训练数据集进一步训练第二预测模型，保持各第一预测模型的参数不变，学习N个预测网络在表决中对应的权重，这种在多个预测网络上重加权的方式能够更进一步提高模型预测的准确性。

6)本申请所提供的方式能够广泛应用于对图像的类别预测、分割区域预测或目标检测等应用场景，即便图像样本在显示场景中更容易出现长尾现象，通过在训练过程中引入动量也能够使得从图像中获取的颜色特征、纹理特征、形状特征、空间关系特征中的一种或任意组合中提取的特征表示更加多样化，降低陷入局部最优的可能性，使得模型对于图像的类别预测、分割区域预测或目标检测等更加准确。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本申请实施例的示例性系统架构图；

图2为本申请实施例提供的建立预测模型的方法的流程图；

图3为本申请实施例提供的训练第二预测模型的原理性示意图；

图4为本申请实施例提供的第二预测模型进行预测的原理性示意图；

图5为本申请实施例提供的建立预测模型的装置示意性框图；

图6为本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

目前解决长尾分布的方法主要包括重采样(Re-Sampling)以及重加权(Re-Weighting)。重采样是对训练集中不同类别的训练样本数目进行调整，从而保证各类别样本数目平衡。重加权主要是在损失函数上针对尾部类别的训练数据施加较大惩罚。这些方法的核心目的是为了让数据集能够重新平衡。但会造成以下两点问题：

1)分类器会倾向于正确分类尾部类别样本，即模型对尾部类别过拟合以及对头部类别欠拟合，导致预测模型不准确。

2)会显著的促进分类器的学习，但却会意外地损害学习到的深度特征的表示能力。学到的模型虽然能够有效地将头尾样本分开，但是学到的类内的特征表示比较分散，同样影响预测模型的准确性。

有鉴于此，本申请采用了一种全新的思路，在预测模型的训练过程中进入动量来学习更多样化的特征表示。为了方便对本申请的理解，首先对本申请所适用的系统架构进行简单描述。图1示出了可以应用本申请实施例的示例性系统架构，如图1中所示，该系统架构包括采用离线方式建立预测模型的模型建立装置，以及在线对待预测数据进行预测的预测装置。

其中，模型建立装置在获取训练数据后，可以采用本申请实施例提供的方法进行模型训练，得到预测模型。

预测装置利用已经建立的预测模型，对待预测数据进行预测。例如对图像数据进行预测，得到图像类别。

模型建立装置和预测装置可以分别设置为独立的服务器，也可以设置于同一个服务器或服务器群组，还可以设置于独立的或者同一云服务器。云服务器又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPs，Virtual Private Server)服务中存在的管理难度大，服务扩展性弱的缺陷。模型训练装置和预测装置还可以设置于具有较强计算能力的计算机终端。

应该理解，图1中的模型训练装置、预测装置以及预测模型的数目仅仅是示意性的。根据实现需要，可以具有任意数目的模型训练装置、预测装置以及预测模型。

图2为本申请实施例提供的建立预测模型的方法的流程图，该方法可以由图1所示系统中的模型建立装置执行。如图2中所示，该方法可以包括以下步骤：

步骤202：获取训练数据集，训练数据集包括C个类别的样本数据以及样本数据对应的标签，C为大于1的正整数。

步骤204：将样本数据作为第一预测模型的输入，将样本数据对应的标签作为第一预测模型的目标输出，训练第一预测模型，第一预测模型包括特征提取网络和预测网络，特征提取网络用以利用样本数据提取特征表示，预测网络用以利用特征表示得到针对样本数据的预测结果；在训练中采用动量梯度下降的方式对第一预测模型进行参数更新，其中动量在参数更新中的权重依据训练数据集的长尾数据分布与均匀分布的差异程度确定。

由上述流程可以看出，本申请在预测模型的训练中引入动量，采用动量梯度下降的方式进行模型参数的更新，并且能够根据不同的长尾数据分布自适应地确定动量在参数更新中的权重，提高特征表示的多样性，降低陷入局部最优的可能性，从而提高预测效果。

在上述步骤202中获取的训练数据集可以是图像数据集、文本数据集等等。以图像数据集为例，根据实际的预测场景可以获取C个类别的图像样本以及各图像样本的标签。其中，标注的标签根据具体的预测任务来进行设置。例如若预测任务为图像分类任务，对应的预测结果为图像类别，那么标注的标签为图像样本的类别。再例如若预测任务为图像分割任务，对应的预测结果为图像分割区域，那么标注的标签为图像样本包含的各区域标签。再例如若预测任务为目标检测任务，对应的预测结果为图像中的目标类型和位置，那么标注的标签为图像样本中图像的目标类型和位置标签。

下面结合实施例重点对上述流程中的步骤204进行详细描述。预测模型通常从整体的功能架构上可以划分为特征提取网络和预测网络。其中特征提取网络用以从输入数据中提取特征表示，预测网络用以利用该特征表示得到针对输入数据的预测结果。

其中，特征提取网络可以基于卷积神经网络、Transformer网络等实现，作用是从待预测数据中提取特征表示。以待预测数据是图像为例，可以提取诸如颜色特征、纹理特征、形状特征、空间关系特征、频率特征等中的一种或任意组合并进行编码得到特征表示。特征提取网络对图像特征的提取可以是从图像整体上进行的全局特征的提取，也可以是对图像首先进行切分后得到的各图像块分别进行的特征提取。

预测网络可以是分类网络、回归网络等，作用是将特征表示映射到预测结果上。

需要说明的是，本申请实施例中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分，例如“第一预测模型”和“第二预测模型”用以在名称上区分两个预测模型。

在步骤204中首先将动量引入第一预测模型的训练。第一预测模型包括特征提取网络和预测网络，特征提取网络利用样本数据提取特征表示，预测网络利用该特征表示得到针对样本数据的预测结果。在训练第一预测模型时，样本数据作为第一预测模型的输入，该样本数据对应的标签作为第一预测模型的目标输出。训练中采用动量梯度下降的方式对第一预测模型进行参数更新。

为了方便理解，首先对动量梯度下降的概念进行简单说明。所谓动量梯度下降法就是在梯度下降中，每一次迭代中参数更新的方向与本次迭代采用的动量的方向相反，本次迭代的动量方向与上一次参数更新的方向相同且与损失函数的梯度方向相同。也可以认为每一次迭代中参数更新的方向是当前梯度的反方向与上一次参数更新方向加权组合而成。也就是说，参数更新的方向不只取决于当前梯度的方向，还取决于过去的参数更新方向。每一轮迭代的公式可以如下所示：

θ_t＝θ_t-1-m_t (1)

其中，θ_t为第t次迭代的模型参数，θ_t-1为第t-1次迭代的模型参数，η为学习率，μ为动量衰减比，

为计算梯度的函数，m_t和m_t-1为第t次和第t-1次迭代的动量。

应用于本申请实施例中，在每一次迭代中，依据上一次迭代更新后的第一预测模型的参数和本次迭代的动量进行第一预测模型的参数更新，本次迭代的动量是依据上一次迭代采用的动量和损失函数的梯度确定的。

上述的学习率和动量衰减比可以根据经验或实验进行设置。作为其中一种可实现的方式，学习率η可以初始化为一个值，例如0.1，到一定训练阶段后降低学习率，例如训练到80％时降低为0.01，训练到90％时降低为0.0001。动量衰减比可以设置为一个固定值，例如0.9。学习率和动量衰减比可以根据不同的训练数据集进行设置。

上述动量梯度更新的原理就是在梯度更新的时候，额外给予某个方向上的梯度，使得当损失函数达到局部最优的时候，有能力跳出这个局部最优值。例如

达到局部最优时，值为0，但动量m_t-1大概率不为0，因此，θ_t仍能得到更新从而跳出局部最优。在长尾数据集中，各类别对动量和当前梯度的贡献是不平衡的，因此模型仍将严重偏向于头部类别，并收敛到局部最优。

因此，在本申请实施例中针对动量引入了一个权重参数β来对动量进行调整。机器学习处理的标准数据通常有一个基本假设，即数据集各类别对应的样本数量是近似服从均匀分布的，即类别平衡。因此，训练数据集的长尾分布与均匀分布的差异程度体现的就是训练数据集的不平衡度。训练数据集越不平衡，预测模型就越有可能偏向头部类别。因此，在训练的每一次迭代中，将上一次迭代更新后的第一预测模型的参数和本次迭代的动量进行加权处理以更新第一预测模型的参数。在本申请实施例中，动量在参数更新中的权重β可以依据训练数据集的长尾分布与均匀分布的差异程度确定。引入该权重参数后，上述公式(1)和(2)改进为：

θ_t＝θ_t-1-βm_t (3)

其中β>1。作为其中一种可实现的方式，可以采用如下公式确定：

β＝max((I_KL·log₂C),1) (5)

其中，I_KL为训练数据集的长尾分布P与均匀分布Q的KL(Kullback-LeiblerDivergence)散度，KL散度用于度量两个概率分布函数之间的“距离”，其体现的是训练数据集的长尾分布与均匀分布的差异程度，也可以采用其他指标来体现。I_KL可以采用如下公式：

C表示类别的数量，p_i表示训练数据集第i个类别的出现概率，可以统计得到。q表示均匀分布的概率，可以取

需要说明的是，公式(4)中

是其中一种设置，也可以设置为与

相关的其他值，例如

等。

一方面，权重参数β能够削弱之前迭代中长尾分布对动量影响，对梯度进行平衡，增加模型对于尾部类别的关注，使得学习到的特征表示在保持类内紧密性的同时更具多样性，降低陷入局部最优的可能性。另一方面，可以自适应调整步长，从而更好地使模型获得最优解。

另外，上述训练的训练目标是最小化第一预测模型的输出结果与训练数据对应的标签之间的差异。具体可以依据上述训练目标构造损失函数，在每一轮迭代中利用损失函数的取值，采用上述动量梯度下降等方式更新上述第一预测模型的模型参数，直至满足预设的训练结束条件。其中训练结束条件可以包括诸如损失函数的取值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值等。

作为其中一种可实现的方式，训练结束后，可以利用训练得到的上述第一预测模型对待预测数据进行预测。即将待预测数据输入第一预测模型，获取第一预测模型针对该待预测数据输出的预测结果。

但作为另一种更优的实现方式，可以采用多专家网络的方式来实现预测模型的构建。本申请实施例中，可以采用Bagging(Bootstrap aggregating，引导聚集)的方式实现多专家网络。所谓Bagging算法，又称装袋算法，是机器学习领域的一种团体学习算法。Bagging是通过结合几个模型降低泛化误差的技术。主要想法是分别训练多个并行的基模型，然后将多个基模型的预测结果进行整合，得到最终的结果。

也就是说，可以利用图2中所述的流程分别训练N个第一预测模型，N为大于1的正整数。为了增加N个第一预测模型的多样性，可以采用Bootstrap(自举法)对训练数据集进行N次重采样，得到N个数据集；然后用这N个数据集分别用以按照图2所示的方式训练得到N个第一预测模型。

所谓Bootstrap就是对给定数据集进行有放回的重抽样以创建多个新的数据集，采样大小和原数据集大小相同。若本申请实施例中的训练数据集的容量为n个数据样本，则从这一训练数据集按放回抽样的方法抽取一个容量为n的数据集，重复这样的采样方式N次，就得到N个新的数据集。所谓放回抽样指的是，每次从数据集中采样一个或多个样本后，将采样的样本放回数据集，再接着进行后续采样，这样采样得到的新的数据集相互之间是不同的，使得训练出的N个第一预测模型更多样化。

如图3所示，采用一个新的数据集训练一个第一预测模型，N个新的数据集训练得到N个第一预测模型。每一个第一预测模型的训练是独立的，训练过程中均采用动量梯度下降的方式进行参数更新。例如，第一预测模型1的动量表示为M¹，梯度表示为

第一预测模型1的动量表示为M²，梯度表示为

…；第一预测模型N的动量表示为M^N，梯度表示为

分别训练完成后，第二预测模型可以由该N个第一预测模型并列构成，第二预测模型用以在输入待预测数据后，整合N个预测网络输出的预测结果以确定待预测数据最终的预测结果。如图4中所示，第二预测模型还可以进一步包括一个表决模块。第二预测模型用以对待预测数据进行预测时，每一个第一预测模型均会针对该待预测数据输出预测结果，由表决模块完成预测结果的整合。作为其中一种可实现的方式，表决模块可以对N个预测网络针对待预测数据输出的预测结果进行表决，依据表决结果确定待预测数据的预测结果。

所谓表决是一种遵循少数服从多数原则的集成学习方式，通过多个模型(本申请中为第一预测模型)的集成降低方差，从而提高模型的鲁棒性和泛化能力。

在进行表决时，可以采用硬表决方式，也可以采用软表决方式。所谓硬表决方式是依据N个第一预测模型的预测结果中出现次数最多的预测结果确定最终的预测结果。其中可以给各第一预测模型设置表决权重，依据各第一预测模型的权重对预测结果的出现次数进行加权处理。

所谓软表决方式是依据各第一预测模型的权重对各预测结果的概率进行加权求和，最终选取概率之和最大的预测结果。软表决考虑到了概率这一额外的信息，因此可以得出比硬表决更加准确的结果。例如，将各第一预测模型输出的待预测数据在类别1上的概率进行加权求和，得到待预测数据最终在类别1上的概率。分别针对各类别均进行如此处理，就能够得到待预测数据最终在各类别上的概率，然后将最大概率的类别确定为待预测数据的预测结果。

作为其中一种可实现的方式，各第一预测模型在表决中对应的权重可以作为超参数，采用经验值或者实验值进行设置。

作为另一种可实现的方式，可以进一步利用训练数据集训练第二预测模型。同样地，将样本数据作为输入，将样本数据对应的标签作为第二预测模型的目标输出，即训练目标为最小化第二预测模型输出的预测结果与对应标签的差异。在本次训练过程中，预测网络的参数保持不变，仅学习N个预测网络在表决中对应的权重，即仅更新表决模块的参数。

这种多专家网络的方式能够产生更丰富的数据集，学习到的各专家网络(即各第一预测模型)更具多样性且具有较小的方差。表示如下：

Var(X_i)＝σ²,i＝1,2,…,N (7)

其中，X_i为第i个第一预测模型的预测结果。假设每个第一预测模型的方差Var(X_i)是相同的，均为σ²，最终得到的第二预测模型的方差

为每一个第一预测模型的方差的

显然方差可以显著得减少，说明模型稳定性得到了显著提升。

一方面，在训练过程中增加动量来摆脱局部最优，并且学习更多样化的特征表示，减轻长尾数据带来的过拟合于头部类别的问题。另一方面，通过多专家网络可以学习到更加多样化的特征表示，且基于多样化的特征表示，有效降低模型的方差，从而更进一步提高模型的稳定性和准确性。这种动量结合多专家网络的实现方式，使得模型简单有效，且不需要复杂的超参数进行调优。

本申请实施例提供的上述方法可以应用于多种应用场景，包括但不限于：

应用场景1：应用于对图像类别的识别任务。

以识别图像的动物类别为例，训练数据集中可以包括各类别动物的图像样本以及图像样本的类别标签。在现实生活中对于猫、狗、鸡、鸭等常见动物的图像是很容易获取的，属于头部类别。而雪豹、狮虎兽、穿山甲、燕隼、鹰鸮、白鳍豚等动物的图像是很难获取的，获取成本高，数量少，属于尾部类别。这就造成了训练数据集的样本呈长尾分布。为了减轻预测模型(本应用中为图像类别识别模型)过拟合于头部类别而造成预测不准确的问题，可以采用本申请实施例中的方式来建立预测模型。

采用Bootstrap方法对训练数据集进行N次重采样，得到N个数据集分别用以训练N个第一预测模型。每个第一预测模型的训练均是独立进行的。在训练每个第一预测模型的过程中引入动量，采用动量梯度下降的方式对第一预测模型进行参数更新，其中动量在参数更新中的权重依据训练数据集的长尾数据分布与均匀分布的差异程度确定。训练目标为：最小化第一预测模型输出的预测结果与图像样本的标签之间的差异。

训练得到N个第一预测模型后，利用N个第一预测模型和表决模块构成第二预测模型，还可以进一步利用训练数据集进行第二预测模型的训练，训练目标为最小化第二预测模型输出的预测结果与图像样本对应标签之间的差异；在第二预测模型的训练过程中，保持各第一预测模型的参数不变，仅学习N个第一预测模型的N个预测结果在表决中对应的权重，即表决模块的参数。

最终训练得到的第二预测模型用以在线上或者线下进行图像类别的识别。第二预测模型对输入的待识别图像进行关于图像类别的预测。其中，第二预测模型中的各第一预测模型分别针对待识别图像得到图像类别的预测结果，再由表决模块利用各第一预测模型的预测结果进行表决，根据表决结果输出待识别图像的图像类别。

经过试验后证实，采用该方式能够显著提高图像类别的识别准确率和稳定性。

应用场景2：应用于对图像分割任务。

图像分割(Image Segmentation)是指将图像分成若干具有相似特征且不相交的区域。例如进行场景和物体的分割，进行人体与背景的分割，进行人脸和人体的分割，等等。

图像分割在自动驾驶领域存在广泛应用，以自动驾驶领域中进行场景和物体分割为例，训练数据集中可以包括在各种场景下通过采集车(可以是专用的采集车辆，也可以是普通车辆，也可以是自动驾驶车辆等)采集到的图像样本以及对图像样本中场景区域和物体区域标注的标签。在现实生活中，正常场景下采集到图像样本是很多的，例如正常天气下正常路口、正常障碍物、正常停止线等，属于头部类别。而暴雪、暴雨等极端天气下的图像样本是很少的，属于尾部类别。这也造成了训练数据集的样本呈长尾分布。为了减轻预测模型(本应用中为图像分割模型)过拟合于头部类别而造成预测不准确的问题，可以采用本申请实施例中的方式来建立预测模型。

采用Bootstrap方法对训练数据集进行N次重采样，得到N个数据集分别用以训练N个第一预测模型。每个第一预测模型的训练均是独立进行的。在训练每个第一预测模型的过程中引入动量，采用动量梯度下降的方式对第一预测模型进行参数更新，其中动量在参数更新中的权重依据训练数据集的长尾数据分布与均匀分布的差异程度确定。训练目标为：最小化第一预测模型输出的图像分割结果与图像样本的标签之间的差异。

训练得到N个第一预测模型后，利用N个第一预测模型和表决模块构成第二预测模型，还可以进一步利用训练数据集进行第二预测模型的训练，训练目标为最小化第二预测模型输出的图像分割结果与图像样本对应标签之间的差异；在第二预测模型的训练过程中，保持各第一预测模型的参数不变，仅学习N个第一预测模型的N个预测结果在表决中对应的权重，即表决模块的参数。

最终训练得到的第二预测模型用以在线上或者线下进行图像中场景区域和物体区域的分割。第二预测模型对输入的待分割图像进行关于图像中场景区域和物体区域的预测。其中，第二预测模型中的各第一预测模型分别针对待分割图像得到分割结果，再由表决模块利用各第一预测模型的分割结果进行表决，根据表决结果输出待分割图像中场景区域和物体区域的分割结果。

经过试验后证实，采用该方式能够显著提高图像分割的识别准确率和稳定性。

应用场景3：应用于对图像进行目标检测的任务。

目标检测同样在自动驾驶领域存在广泛应用，需要从自动驾驶车辆采集到的图像中准确识别出诸如障碍物、交通设施等目标类型及其位置信息。以自动驾驶领域中进行目标检测为例，训练数据集中可以包括图像样本以及对图像样本中目标的类型和位置信息标注的标签。同样在现实生活中，对于正常的交通设施、障碍物采集到的图像样本是很多的，例如正常的交通灯、行人、车辆等，属于头部类别。而一些异形路口、异形车辆、特殊姿态的行人等的图像样本是很少的，属于尾部类别。这也造成了训练数据集的样本呈长尾分布。为了减轻预测模型(本应用中为目标检测模型)过拟合于头部类别而造成预测不准确的问题，可以采用本申请实施例中的方式来建立预测模型。

采用Bootstrap方法对训练数据集进行N次重采样，得到N个数据集分别用以训练N个第一预测模型。每个第一预测模型的训练均是独立进行的。在训练每个第一预测模型的过程中引入动量，采用动量梯度下降的方式对第一预测模型进行参数更新，其中动量在参数更新中的权重依据训练数据集的长尾数据分布与均匀分布的差异程度确定。训练目标为：最小化第一预测模型输出的预测结果(包括目标类型和位置信息)与图像样本的标签之间的差异。

最终训练得到的第二预测模型用以在线上或者线下进行图像的目标检测。第二预测模型对输入的待检测图像进行关于图像所包含目标的类型和位置信息的预测。其中，第二预测模型中的各第一预测模型分别针对待检测图像得目标类型和位置信息的预测结果，再由表决模块利用各第一预测模型的预测结果进行表决，根据表决结果输出待检测图像的目标检测结果。

经过试验后证实，采用该方式能够显著提高图像目标检测的准确率和稳定性。

除了上述应用场景之外，还可以存在其他应用场景，在此不做一一列举。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种建立预测模型的装置。图5示出根据一个实施例的该建立预测模型的装置的示意性框图，该装置设置于图1所示架构中的模型建立装置。如图5所示，该装置500可以包括：样本获取单元501和模型训练单元502。

样本获取单元501，被配置为获取训练数据集，训练数据集包括C个类别的样本数据以及样本数据对应的标签，C为大于1的正整数。

模型训练单元502，被配置为将样本数据作为第一预测模型的输入，将样本数据对应的标签作为第一预测模型的目标输出，训练第一预测模型，第一预测模型包括特征提取网络和预测网络，特征提取网络用以利用样本数据提取特征表示，预测网络用以利用特征表示得到针对样本数据的预测结果。在训练中采用动量梯度下降的方式对第一预测模型进行参数更新，其中动量在参数更新中的权重依据训练数据集的长尾数据分布与均匀分布的差异程度确定。

其中，第一预测模型可以是卷积神经网络、Transformer网络等，作用是从待预测数据中提取特征表示，以待预测数据是图像为例，可以提取诸如颜色特征、纹理特征、形状特征、空间关系特征等中的一种或任意组合。预测网络可以是分类网络、回归网络等，作用是将特征表示映射到预测结果上。

作为其中一种可实现的方式，模型训练单元502在采用动量梯度下降的方式对第一预测模型进行参数更新时，可以执行：

在训练的每一次迭代中，将上一次迭代更新后的第一预测模型的参数和本次迭代的动量进行加权处理以更新第一预测模型的参数，本次迭代的动量是依据上一次迭代采用的动量和损失函数的梯度确定的，参数更新的方向与本次迭代的动量方向相反，本次迭代的动量方向与上一次参数更新的方向相同且与损失函数的梯度方向相同。具体表示可以参见方法实施例中公式(3)和(4)的记载。

作为其中一种可实现的方式，动量在所述参数更新中的权重绝对值大于或等于1，训练数据集的长尾数据分布与均匀分布的差异程度包括训练数据集的长尾数据分布与均匀分布的KL散度值。

作为其中一种优选的方式，动量在参数更新中的权重取值为：散度计算值乘以log₂ C得到的值与1中的较大值，散度计算值为训练数据集的长尾数据分布与均匀分布的KL散度值。具体表示可以参见方法实施例中公式(5)和(6)的记载。

作为其中一种可实现的方式，训练结束后，可以利用训练得到的上述第一预测模型对待预测数据进行预测。即将待预测数据输入第一预测模型，获取第一预测模型针对该待预测数据的预测结果。

但作为另一种更优的实现方式，可以采用多专家网络的方式来实现预测模型的构建。即第一预测模型为N个，N为大于1的正整数；方法还包括：采用Bootstrap对训练数据集进行N次重采样，得到N个数据集分别用以训练N个第一预测模型。

训练结束后，利用训练得到的N个第一预测模型构成第二预测模型，第二预测模型用以在输入待预测数据后，整合N个预测网络输出的预测结果以确定待预测数据的预测结果。

例如，第二预测模型还可以进一步包括一个表决模块。第二预测模型用以对待预测数据进行预测时，每一个第一预测模型均会针对该待预测数据输出预测结果，由表决模块完成预测结果的整合。作为其中一种可实现的方式，表决模块可以对N个预测网络针对待预测数据输出的预测结果进行表决，依据表决结果确定待预测数据的预测结果。

所谓软表决方式是依据各第一预测模型的权重对各预测结果的概率进行加权求和，最终选取概率之和最大的预测结果。软表决考虑到了概率这一额外的信息，因此可以得出比硬表决更加准确的结果。

作为另一种可实现的方式，上述模型训练单元502，还可以利用训练数据集进一步训练第二预测模型，训练目标为最小化第二预测模型输出的预测结果与对应标签的差异；在第二预测模型的训练过程中，保持各预测网络的参数不变，学习N个预测网络在表决中对应的权重。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

本申请还提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

其中，图6示例性的展示出了电子设备的架构，具体可以包括处理器610，视频显示适配器611，磁盘驱动器612，输入/输出接口613，网络接口614，以及存储器620。上述处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614，与存储器620之间可以通过通信总线630进行通信连接。

其中，处理器610可以采用通用的CPU、微处理器、应用专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器620可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器620可以存储用于控制电子设备600运行的操作系统621，用于控制电子设备600的低级别操作的基本输入输出系统(BIOS)622。另外，还可以存储网页浏览器623，数据存储管理系统624，以及建立预测模型的装置625等等。上述建立预测模型的装置625就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器620中，并由处理器610来调用执行。

输入/输出接口613用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口614用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线630包括一通路，在设备的各个组件(例如处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614，与存储器620)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614，存储器620，总线630等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序产品的形式体现出来，该计算机程序产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种建立预测模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采用动量梯度下降的方式对所述第一预测模型进行参数更新包括：

3.根据权利要求1所述的方法，其特征在于，所述动量在所述参数更新中的权重绝对值大于或等于1，所述训练数据集的长尾数据分布与均匀分布的差异程度包括所述训练数据集的长尾数据分布与均匀分布的KL散度值。

4.根据权利要求3所述的方法，其特征在于，所述动量在所述参数更新中的权重取值为：散度计算值乘以log₂ C得到的值与1中的较大值，所述散度计算值为所述训练数据集的长尾数据分布与均匀分布的KL散度值。

5.根据权利要求1所述的方法，其特征在于，所述第一预测模型为N个，所述N为大于1的正整数；所述方法还包括：采用自举法Bootstrap对所述训练数据集进行N次重采样，得到N个数据集分别用以训练N个所述第一预测模型；

6.根据权利要求5所述的方法，其特征在于，所述整合N个预测网络输出的预测结果以确定所述待预测数据的类别包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述样本数据为图像样本；

9.一种建立预测模型的装置，其特征在于，该装置包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8任一项所述的方法的步骤。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至8任一项所述的方法的步骤。