CN114330712B

CN114330712B - 一种神经网络的训练方法、系统、设备以及介质

Info

Publication number: CN114330712B
Application number: CN202111675585.3A
Authority: CN
Inventors: 孙红岩
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-01-12
Anticipated expiration: 2041-12-31
Also published as: CN114330712A

Abstract

本发明公开了一种神经网络的训练方法，包括以下步骤：创建结构相同的第一神经网络和第二神经网络；每次对第一神经网络和第二神经网络训练时，随机将训练batch中的若干个图像输入到第一神经网络，并将剩余数据输入到第二神经网络中；根据第一神经网络和第二神经网络的逻辑回归层的输出计算损失值；根据损失值，利用反向传播更新第二神经网络中编码器和多层感知器的网络参数并利用第二神经网络中编码器和多层感知器的网络参数的均值更新第一神经网络中编码器和多层感知器的网络参数，以再次训练，或者结束训练并利用第二神经网络中的编码器和逻辑回归层进行推理。本发明还公开了一种系统、计算机设备以及可读存储介质。

Description

一种神经网络的训练方法、系统、设备以及介质

技术领域

本发明涉及神经网络领域，具体涉及一种神经网络的训练方法、系统、设备以及存储介质。

背景技术

对于给定任务，使用足够的数据标签，监督学习可以很好地解决问题。要想实现良好的性能，通常需要相当数量的数据标记，但是收集手工标记数据的成本很高(如ImageNet)，并且难以扩展，因此，自监督学习为解决数据标签不足带来的一种解决方案为监督学习方式提供了巨大的机会，可以更好地利用未标记的数据来进行预训练。

目前自监督网络实现主要有两种方式，一种是通过对比学习的方式，经典算法包括MoCo系列，第二种是通过BYOL这种蒸馏学习方式来进行自监督，二者的网络结构形式非常相似，同样是双路网络结构，同样是对于最终的双路网络输出计算loss。不同的是，蒸馏学习往往是固定一个teacher网络，student网络规模要小于teacher，对比学习中，两个网络结构常常一致，并且是共同更新网络参数，而在蒸馏学习中teacher网络的参数固定。当然还有输入、loss、参数更新等不同，但蒸馏网络提供给了理解对比学习架构的另一种思考方式。在对比学习中常用的momentum update(动量更新)的更新方法和stop gradient(在网络训练中梯度停止)技巧，可以理解成蒸馏学习的缓慢更新teacher版本和变体，由此可以将对比网络理解成双路网络互相学习，左右互搏。

在整个蒸馏方式实现的自监督网络中，模型坍缩问题成为实现自监督网络首先要考虑的问题，模型坍缩是指映射函数将特征映射到单位超球面时，无论是正例还是负例，都无差别的映射到球面上的一个点。

一个好的自监督网络需要通过Uniformity和Alignment来防止模型坍缩，Alignment是指使特征相近的物体尽量保持距离相近，而Uniformity指特征不相近物体尽量保持远距离且均匀分布在单位超球面。

目前常用的自监督网络防止模型坍缩的手段主要有通过对比loss函数、增加Predictor、增加centering(通过移动平均保留静态统计量以此来保留更多信息)等手段来实现Uniformity和Alignment而防止模型坍缩，这些方法虽然能够防止模型坍缩，但存在各种各样的问题，例如对比loss函数需要手动分来正例和负例，增加centering需要调节参数等，而且没有完全实现防止模型坍缩的效果，当自监督训练的样本数不平衡时，自监督模型的精度会受到损失。

现有的技术方案通过各种各样的方法来防止模型坍缩，SimCLR通过对比loss函数来将相同特征拉近(Alignment)、不同特征推远(Uniformity)的方式来实现防止模型坍缩，BYOL通过增加Predictor使得模型分支不对称以此来防止模型坍缩，DINO通过增加centering以及对蒸馏温度的调节来实现Uniformity和Alignment以此来防止模型坍缩。

SimCLR这种通过对比loss函数方式实现的自监督算法需要大的batch size并且需要大量的负例才能够达到很好的预防模型退化的效果，而BYOL和DINO虽然能够解决不使用负例就能够达到防止模型退化的目的，但以上自监督算法没有考虑到样本数不均衡条件下的模型退化情况，当训练的样本数不平衡时，以上模型由于可能存在的模型坍缩现象会导致自监督算法训练的模型精度不高。

发明内容

有鉴于此，为了克服上述问题的至少一个方面，本发明实施例提出一种神经网络的训练方法，包括以下步骤：

创建结构相同的第一神经网络和第二神经网络，其中所述第一神经网络和所述第二神经网络均包括编码器、多层感知器以及逻辑回归层；

每次对所述第一神经网络和所述第二神经网络训练时，随机将训练batch中的若干个图像输入到第一神经网络，并将剩余数据输入到所述第二神经网络中；

根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值；

响应于所述损失值不符合预设要求，利用反向传播更新所述第二神经网络中编码器和多层感知器的网络参数并利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数，以再次训练；

响应于所述损失值达到预设值，结束训练并利用所述第二神经网络中的编码器和逻辑回归层进行推理。

在一些实施例中，还包括：

创建训练数据集并将训练数据集分为多个batch；

对每一个batch中的若干个图像数据进行预处理。

在一些实施例中，对每一个batch中的若干个数据进行预处理，进一步包括：

对若干个图像数据进行随机裁剪并resize、进行随机水平翻转、进行对比度和饱和度的修改、进行高斯模糊以及进行正则化中一个或多个处理。

在一些实施例中，利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数，进一步包括通过下式更新所述第一神经网络中的编码器和多层感知器的网络参数：

g_r,t＝m_tg_r,t-1+(1-m_t)g_l

其中，矩阵g_r,t为第一神经网络的编码器或多层感知器当前次训练时的网络参数；矩阵g_r,t-1为第一神经网络的编码器或多层感知器前一次训练时的网络参数；矩阵g_l为第二神经网络对应的编码器或多层感知器当前次训练时的网络参数；m_t和m_t-1分别为当前次训练时的权重和前一次训练时的权重，初始值为预设值；G_l,ii为对角矩阵，其中元素(i，i)为矩阵g_l对应的第i行的梯度平方和。

在一些实施例中，根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值，进一步包括：

对所述第一神经网络的逻辑回归层的输出进行Qz函数变换后与所述第二神经网络的逻辑回归层的输出计算损失值。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种神经网络的训练系统，包括：

创建模块，配置为创建结构相同的第一神经网络和第二神经网络，其中所述第一神经网络和所述第二神经网络均包括编码器、多层感知器以及逻辑回归层；

输入模块，配置为每次对所述第一神经网络和所述第二神经网络训练时，随机将训练batch中的若干个图像输入到第一神经网络，并将剩余数据输入到所述第二神经网络中；

计算模块，配置为根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值；

更新模块，配置为利用反向传播更新所述第二神经网络中编码器和多层感知器的网络参数并利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数；

推理模块，配置为响应于所述损失值达到预设值，结束训练并利用所述第二神经网络中的编码器和逻辑回归层进行推理。

在一些实施例中，还包括训练集模块，配置为：

创建训练数据集并将训练数据集分为多个batch；

对每一个batch中的若干个图像数据进行预处理。

在一些实施例中，训练集模块还配置为：

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如上所述的任一种神经网络的训练方法的步骤。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行如上所述的任一种神经网络的训练方法的步骤。

本发明具有以下有益技术效果之一：本发明提出的方案能够解决自监督网络在训练时可能存在的模型坍缩而导致自监督网络的模型精度不高的问题，从而让自监督网络可以无需考虑在样本不平衡情况下模型退化现象，提高自监督网络的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明的实施例提供的神经网络的训练方法的流程示意图；

图2为本发明的实施例提供的神经网络的结构示意图；

图3为本发明的实施例提供的多层感知器的结构示意图；

图4为本发明的实施例提供的神经网络的训练系统的结构示意图；

图5为本发明的实施例提供的计算机设备的结构示意图；

图6为本发明的实施例提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

根据本发明的一个方面，本发明的实施例提出一种神经网络的训练方法，如图1所示，其可以包括步骤：

S1，创建结构相同的第一神经网络和第二神经网络，其中所述第一神经网络和所述第二神经网络均包括编码器、多层感知器以及逻辑回归层；

S2，每次对所述第一神经网络和所述第二神经网络训练时，随机将训练batch中的若干个图像输入到第一神经网络，并将剩余数据输入到所述第二神经网络中；

S3，根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值；

S4，响应于所述损失值不符合预设要求，利用反向传播更新所述第二神经网络中编码器和多层感知器的网络参数并利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数，以再次训练；

S5，响应于所述损失值达到预设值，结束训练并利用所述第二神经网络中的编码器和逻辑回归层进行推理。

本发明提出的方案能够解决自监督网络在训练时可能存在的模型坍缩而导致自监督网络的模型精度不高的问题，从而让自监督网络可以无需考虑在样本不平衡情况下模型退化现象，提高自监督网络的精度。

在一些实施例中，步骤S1中，创建结构相同的第一神经网络和第二神经网络，其中所述第一神经网络和所述第二神经网络均包括编码器、多层感知器以及逻辑回归层，具体的，如图2所示，图2中左侧的神经网络为第一神经网络，右侧的神经网络为第二神经网络，两个神经网络的结构相同，均包括编码器(encoder)，多层感知器(projector)以及逻辑回归层(softmax)，其中编码器可以使用resnet-50网络，而projector结构可以如图3所示，分别由3层MLP和l2 normalization和一层线性层组成。

需要说明的是，在训练过程中，两个编码器网络会分别为相应数据生成低维表示。然后使用多层感知器(Projector)预测目标网络的输出，Projector在网络中主要起到保留图像转换信息的作用，可以识别出数据转换并预测目标隐向量，这样避免了权重趋零，能够学习更恰当的数据表示。

在一些实施例中，还包括：

创建训练数据集并将训练数据集分为多个batch；

对每一个batch中的若干个图像数据进行预处理。

具体的，可以对每一个batch中的若干个图像作预处理，其余图像保持原始状态，预处理可以包括：随机裁剪图片并进行resize到224*224大小、进行随机水平翻转、进行对比度和饱和度的修改、进行高斯模糊、最后正则化后输入到网络中进行训练。

这样，在训练时可以取每个batch的随机两张图片作为第一神经网络(图2示出的右侧网络)的输入，其他图片作为左侧网络的输入，进行训练，训练过程中左侧网络进行反向传播，右侧网络不进行反向传播并使用Adagrad方式更新右侧网络，网络训练稳定后即完成训练。

g_r,t＝m_tg_r,t-1+(1-m_t)g_l

具体的，在进行Projector之后分别进行softmax输出概率即p(x⁽ⁱ⁾,z⁽ⁱ⁾；θ)(x⁽ⁱ⁾表示第i个样本，z⁽ⁱ⁾表示第i个样本的类别，θ为网络参数)，而在右侧网络中需要进行一次Qz函数的变换即：

Qz＝mQz+(1-m)Q_i(z⁽ⁱ⁾)

其中实际上这步主要是计算模型的后验概率(给定样本和模型参数情况下判定模型属于哪类)。在自监督模型中，对于每个样本所属每个类别实际上是不确定的，在这里假设每个样本在给定θ参数情况下的类别服从一定分布，即可以通过Qz计算出分布并在loss function中体现，其中m为保留以往模型信息。

如图2所示，然后利用进行Qz函数变换后的数据q₁与所述第二神经网络的逻辑回归层的输出p₂计算损失值，即loss＝q₁*logp₁/q₁。

最后，在完成整个网络的训练后，保留左侧网络(保留encoder和softmax，去掉projector)，将图片输入到左侧网络后即可推理。

现有技术中，在采用蒸馏方式进行自监督时，自监督可转换成如下数学问题：给定数据集X＝{x₁,...,x_m}，包含m个独立的样本，每个样本x_i对应的类别z_i未知，因此需要估计模型的参数θ，即找到合适的θ和z使得L(θ)最大，其中L(θ)为似然函数，在实际应用中通常使用对数似然函数logL(θ)得到如下式：

对上式应用Jensen不等式，可得

当Jensen不等式成立时，(c为常数)。

由此可得

由此可见，整个蒸馏方式的自监督学习算法可以使用EM(最大期望算法来进行求解)，分别是E步和M步，自监督训练算法流程如下：

E步：

即网络模型右侧Qz，给出当前样本的后验概率(其中模型参数由左侧模型经过EMA给出)。

M步：

即网络模型左侧，网络的反向传播过程。

通过公式可以看出，网络右侧完全变成Mean Teacher也即E步，所采用的移动平均更新权重相当于对前n次训练(采取EMA方法更新teacher权重，相当于做次移动平均)进行最大期望的求解，但当网络中的样本数不均衡时，单纯的使用同一个m对参数进行平均显然是不够公平的，因此为了解决这个问题，在本发明的实施例中，可以将左侧网络看成给右侧网络Mean Teacher提供梯度数据，可以使用Adagrad解决参数不平衡时的更新问题，即通过将EMA更新teacher的方式改成Adagrad对teacher网络权重进行更新，解决了自监督学习在样本失衡情况下的模型退化现象，进而提高自监督网络的精度。

基于同一发明构思，根据本发明的另一个方面，本发明的实施例还提供了一种神经网络的训练系统400，如图4所示，包括：

创建模块401，配置为创建结构相同的第一神经网络和第二神经网络，其中所述第一神经网络和所述第二神经网络均包括编码器、多层感知器以及逻辑回归层；

输入模块402，配置为每次对所述第一神经网络和所述第二神经网络训练时，随机将训练batch中的若干个图像输入到第一神经网络，并将剩余数据输入到所述第二神经网络中；

计算模块403，配置为根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值；

更新模块404，配置为利用反向传播更新所述第二神经网络中编码器和多层感知器的网络参数并利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数；

推理模块405，配置为响应于所述损失值达到预设值，结束训练并利用所述第二神经网络中的编码器和逻辑回归层进行推理。

在一些实施例中，还包括训练集模块，配置为：

创建训练数据集并将训练数据集分为多个batch；

对每一个batch中的若干个图像数据进行预处理。

在一些实施例中，训练集模块还配置为：

在一些实施例中，更新模块404还配置为通过下式更新所述第一神经网络中的编码器和多层感知器的网络参数：

g_r,t＝m_tg_r,t-1+(1-m_t)g_l

在一些实施例中，计算模块403还配置为：

基于同一发明构思，根据本发明的另一个方面，如图5所示，本发明的实施例还提供了一种计算机设备501，包括：

至少一个处理器520；以及

存储器510，存储器510存储有可在处理器上运行的计算机程序511，处理器520执行程序时执行如上的任一种神经网络的训练方法的步骤。

基于同一发明构思，根据本发明的另一个方面，如图6所示，本发明的实施例还提供了一种计算机可读存储介质601，计算机可读存储介质601存储有计算机程序指令610，计算机程序指令610被处理器执行时执行如上的任一种神经网络的训练方法的步骤。

最后需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。

此外，应该明白的是，本文的计算机可读存储介质(例如，存储器)可以是易失性存储器或非易失性存储器，或者可以包括易失性存储器和非易失性存储器两者。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种神经网络的训练方法，其特征在于，包括以下步骤：

响应于所述损失值达到预设值，结束训练并利用所述第二神经网络中的编码器和逻辑回归层进行推理；

利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数，进一步包括通过下式更新所述第一神经网络中的编码器和多层感知器的网络参数：

其中，矩阵为第一神经网络的编码器或多层感知器当前次训练时的网络参数；矩阵/>为第一神经网络的编码器或多层感知器前一次训练时的网络参数；矩阵/>为第二神经网络对应的编码器或多层感知器当前次训练时的网络参数；/>和/>分别为当前次训练时的权重和前一次训练时的权重，初始值为预设值；/>为对角矩阵，其中元素（i，i）为矩阵/>对应的第i行的梯度平方和。

2.如权利要求1所述的方法，其特征在于，还包括：

创建训练数据集并将训练数据集分为多个batch；

对每一个batch中的若干个图像数据进行预处理。

3.如权利要求2所述的方法，其特征在于，对每一个batch中的若干个数据进行预处理，进一步包括：

4.如权利要求1所述的方法，其特征在于，根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值，进一步包括：

5.一种神经网络的训练系统，其特征在于，包括：

推理模块，配置为响应于所述损失值达到预设值，结束训练并利用所述第二神经网络中的编码器和逻辑回归层进行推理；

更新模块还配置为通过下式更新所述第一神经网络中的编码器和多层感知器的网络参数：

6.如权利要求5所述的系统，其特征在于，还包括训练集模块，配置为：

创建训练数据集并将训练数据集分为多个batch；

对每一个batch中的若干个图像数据进行预处理。

7.如权利要求5所述的系统，其特征在于，训练集模块还配置为：

8.一种计算机设备，包括：

至少一个处理器；以及

存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1-4任意一项所述的方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1-4任意一项所述的方法的步骤。