CN111882061A

CN111882061A - 一种基于分层随机梯度下降的卷积神经网络训练方法

Info

Publication number: CN111882061A
Application number: CN202010722584.9A
Authority: CN
Inventors: 邓嘉新; 王亚强; 刘魁
Original assignee: Chengdu Cheng Xin High Tech Information Technology Co ltd; Chengdu University of Information Technology
Current assignee: Chengdu Cheng Xin High Tech Information Technology Co ltd; Chengdu University of Information Technology
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-03
Anticipated expiration: 2040-07-24
Also published as: CN111882061B

Abstract

本发明公开了一种基于分层随机梯度下降的卷积神经网络训练方法，包括：采用图像数据集分类划分方法，对图像数据集进行分类划分；统计各个类别下的样本数量，计算出与所有样本数量的比重作为权重，按照各个分类的权重，乘以批样本数量的大小，作为从各类别中抽取与批样本数量相同的样本；按照正常的梯度下降法对模型进行训练，并按照变换后的模型参数公式更新模型参数。本发明提出基于分层随机采样，进行数据集的采样，并结合随机梯度下降法进行卷积神经网络的训练，以解决简单随机采样过程中抽样误差的问题，增强模型泛化能力。

Description

一种基于分层随机梯度下降的卷积神经网络训练方法

技术领域

本发明涉及深度学习与训练优化领域领域，尤其涉及一种基于分层随机梯度下降的卷积神经网络训练方法。

背景技术

在卷积神经网络的训练过程中，尤其是数据量过少不能反映真实世界的数据分布的情况下，常常会存在模型泛化能力低的情况。原因在于神经网络的训练是使用样本统计值来推断总体参数，当使用简单随机采样的方式采样数据时，由于样本数量过少，无法通过样本各单位的结构反映总体各单位的结构，从而造成样本统计值与总体参数之间出现较大偏差，致使模型的泛化能力不足。虽然可以通过增大批样本数量的大小来减小偏差，但会使得硬件资源更为紧张。而分层随机采样与简单随机采样相比，在样本数量相同时，它的抽样误差较小；在抽样误差的要求相同时，它所需的样本数量较少。目前采用的简单随机采样由于未考虑数据集中不同类别所占的比例，因此存在抽样误差的问题，存在偶然因素使得样本各单位结构不足以代表总体各单位结构，造成模型训练后的泛化能力不强。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于分层随机梯度下降的卷积神经网络训练方法，使用分层随机采样替代简单随机采样进行卷积神经网络的训练。

本发明的目的是通过以下技术方案来实现的：

一种基于分层随机梯度下降的卷积神经网络训练方法，方法包括以下步骤：

S1，采用图像数据集分类划分方法，对图像数据集进行分类划分；

S2，统计各个类别下的样本数量，计算出与所有样本数量的比重作为权重，按照各个分类的权重，乘以批样本数量的大小，作为从各类别中抽取与批样本数量相同的样本；

S3，按照正常的梯度下降法对模型进行训练，设训练模型的损失函数为j_θ(x,y)，其中θ为模型的参数，x为样本，y为真实标签，并按照变换后的模型参数公式更新模型参数。

具体的，所述步骤S1中对图像数据集分类划分过程具体包括：

S101，首先使用预训练的ResNet50模型提取图像数据集的图像特征，生成特征向量x；

S102，对生成的每一个特征向量x，使用公式对其进行L2正则化，将特征向量缩放为高维球形空间中的单位向量；

S103，随机生成多个投影矩阵，将每个特征向量与其对应的投影矩阵进行矩阵乘法，得到结果向量并取结果向量中最大数值所对应的索引作为特征向量的哈希值；

S104，组合多个哈希值，将具有相同哈希值的图像归为一类。

具体的，所述L2正则化公式如下式所示

其中xi表示x向量中的第i个特征。

具体的，所述投影矩阵的尺寸大小为2048×B，其中B为设定的哈希桶大小。

具体的，所述步骤S3中变换后的模型参数公式如下式所示：

其中，ɑ为学习步长，用于控制学习速率；表示当前这批样本中的第i个样本。

本发明的有益效果：本发明提出基于分层随机采样，进行数据集的采样，并结合随机梯度下降法进行卷积神经网络的训练，以解决简单随机采样过程中抽样误差的问题，增强模型泛化能力。

附图说明

图1是本发明的方法流程图。

图2是本发明的预训练ResNet50模型结构图。

图3是本发明的图像划分算法示意图。

图4是本发明的分层抽样算法示意图。

图5是本发明的随机梯度下降训练算法示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，如图1所示，一种基于分层随机梯度下降的卷积神经网络训练方法，方法主要包括以下步骤：

步骤1，对图像数据集进行分类划分：

首先将图像数据集进行分类划分，分类的结果必须严格是每一个单位都归属于某一类，而不允许即可属于这一类、又可属于另一类或有所遗漏。如将图像分类为人、猫、狗、桌子等，每一类中的图像都严格属于该类，而不属于其它类，且所有类别的图像数量之和等于总体图像的总和。

对于已有分类标记的图像，可直接对其进行划分，本发明主要针对无分类标记图像提出一种划分方法。

对于图像，首先使用预训练的ResNet50模型提取图像特征，ResNet50是由一系列卷积层堆叠而成的神经网络，其结构如图2所示，除[3x3maxpool,64]表示最大池化层外，其余各层都表示一个卷积层，如[7x7,64/2]所代表的卷积层表示卷积核大小为7x7，通道数为64，步长为2的卷积层，除特别说明，其余各层步长为1，共50层。

对于每张图片，输入前被缩放至224x224,经过特征提取后，将生成2048维的特征向量。之后，对于每一个特征向量x，使用L2正则化，公式如下：

其中xi表示x向量中的第i个特征，经过L2正则化后，特征向量将被缩放为高维球形空间中的单位向量。

然后，随机生成一个尺寸为2048xB的投影矩阵，其中B为设定的哈希桶的大小。该投影矩阵全局唯一，然后将特征向量与该矩阵进行矩阵乘法，得到1xB的结果向量，最后，取结果向量中最大数值所对应的索引作为特征向量的哈希值。

为了减少哈希碰撞的概率，可使用多个投影矩阵进行投影，得到一组哈希值，持相同哈希的特征向量将被归为一类。该过程采用如图3所示的算法进行，最后得到各个类别的图像样本。

步骤2，基于分层随机采样抽取样本：

统计各个类别下的样本数量，计算出与所有样本数量的比重，作为当前类的权重。当需要从所有样本中抽样一批样本时。按照各个分类的权重，乘以批样本数量的大小，作为从各类别中抽取样本的数量，最终从各类抽取的样本数量之和应与批样本数量大小相同，该过程采用如图4所示的算法进行，最后将从所有分类中抽取的样本集合在一起作为抽取的一批样本。

步骤3，基于随机梯度下降进行训练：

在完成数据集的采样后，即可按照正常的梯度下降法进行模型的训练，设训练的模型的损失函数为j_θ(x,y)，其中θ为模型的参数，x为样本，y为真实标签。对于每一批样本，按照如下公式更新模型参数：

其中，ɑ为学习步长，用于控制学习速率；表示当前这批样本中的第i个样本。整个训练过程采用如图5所示的算法进行，将随机抽取的样本按照公式更新模型参数，完成神经网络训练。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于分层随机梯度下降的卷积神经网络训练方法，其特征在于，方法包括以下步骤：

2.根据权利要求1所述的一种基于分层随机梯度下降的卷积神经网络训练方法，其特征在于，所述步骤S1中对图像数据集分类划分过程具体包括：

S104，组合多个哈希值，将具有相同哈希值的图像归为一类。

3.根据权利要求2所述的一种基于分层随机梯度下降的卷积神经网络训练方法，其特征在于，所述L2正则化公式如下式所示

其中xi表示x向量中的第i个特征。

4.根据权利要求2所述的一种基于分层随机梯度下降的卷积神经网络训练方法，其特征在于，所述投影矩阵的尺寸大小为2048×B，其中B为设定的哈希桶大小。

5.根据权利要求1所述的一种基于分层随机梯度下降的卷积神经网络训练方法，其特征在于，所述步骤S3中变换后的模型参数公式如下式所示：