CN114462597A

CN114462597A - 快速训练深度神经网络的方法、装置、设备和存储介质

Info

Publication number: CN114462597A
Application number: CN202210131124.8A
Authority: CN
Inventors: 郭平; 杨栋
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2022-02-13
Filing date: 2022-02-13
Publication date: 2022-05-10

Abstract

本发明涉及一种快速训练深度神经网络的方法、装置、电子设备和计算机可读存储介质。其中方法包括：获取训练数据集，训练数据集包括多个图像训练样本；针对每个图像训练样本，提取图像特征；由多个图像训练样本的图像特征构成深度神经网络的输入矩阵；深度神经网络由多层构成，沿着网络正向传播样本；计算l层到l+1层的连接权重；使用l层到l+1层的连接权重，乘以第l层的神经元输出矩阵，并应用激活函数，可以得到第l+1层的输出矩阵；调节正则化参数以控制重构误差的大小；获取深度神经网络的输出矩阵；将深度神经网络的输出矩阵，输入感知机，进行图像分类。

Description

快速训练深度神经网络的方法、装置、设备和存储介质

技术领域

本发明涉及人工智能领域，特别涉及一种深度神经网络训练方法。

背景技术

目前，以深度学习为代表的人工智能技术中，通常采用的是有监督学习方式，往往需要大量的标注好的数据来训练深度网络模型，然而在实际应用中获取的数据绝大部分属于无标注数据，如果对大量无标注数据进行人工标注则需要很高的人力和时间成本。因此，采用无监督学习的技术和方法，直接在无标注数据上进行表示学习，充分利用大量的无标注数据是人工智能技术发展的趋势。

自编码器是一种常用的深度学习基本模型，其基本思想是网络的输出与输入相等，训练过程中不需要标记数据，可以以无监督的方式直接从原始数据中进行特征学习。

现有技术中，以单隐层前馈神经网络作为基本模型构建多个自编码器，采用伪逆学习算法训练每一个自编码器，得到第i层自编码器的连接权重；将训练完成的前一层自编码器的隐层输出作为后一层自编码器的输入，重复步骤一，训练新的自编码器；训练完成后，所有自编码器去掉解码器后堆叠为一个深度神经网络结构，直至深度网络的层数达到预先设计的层数为止。

发明内容

本发明的目的在于克服现有的深度神经网络训练算法的不足。本发明为解决其技术问题采用的技术方案如下：

一种快速训练深度神经网络的方法，包括：

步骤S01：获取训练数据集，训练数据集包括多个图像训练样本；

步骤S02：针对每个图像训练样本，提取图像特征；由多个图像训练样本的图像特征构成深度神经网络的输入矩阵X；

具体地，输入矩阵X包括由N个d维的图像训练样本的图像特征；其中x_i代表第i个训练样本；其中i为图像训练样本的编号；

步骤S03：深度神经网络由多层构成，沿着网络正向传播样本；计算l层到l+1层的连接权重W^l；其中l为深度神经网络的层编号；

具体地，步骤S03包括：

步骤S0301：第l层的输入数据矩阵为X^l，对X^l进行奇异值分解，得到矩阵U、Σ、V，使得X^l＝UΣV^T；

步骤S0302：计算X^l的伪逆矩阵Y＝VΣ’U^T；其中，Σ’为Σ中奇异值的倒数组成的对角矩阵；

步骤S0304：对矩阵V进行截断，保留V矩阵的前p行，得到截断后的矩阵V’。计算近似的伪逆矩阵X’表示为X’＝V’Σ’U^T；

步骤S0305：将X’作为第l层到第l+1层的连接权值W^l的初始值；

由于上述步骤，本发明能够直接计算优化目标的解析解，无需迭代优化的过程，而且无需繁琐的调节超参数过程，因此学习效率较之于误差反向传播等其它基于梯度下降算法的效率更高；

步骤S04：使用l层到l+1层的连接权重W^l，乘以第l层的神经元输出矩阵Y^l，并应用激活函数，可以得到第l+1层的输出矩阵Y^l+1；

具体地，激活函数可以采用阶跃激活函数，即如果x>δ_max,f(x)＝1,如果x≤δ_max,f(x)＝0；δ_max是一个较小的正数，与具体的数据有关；

由于上述步骤，本发明的网络优化目标可以转换为找到这样的投影算子，使得输出误差最小；

步骤S05：调节正则化参数以控制重构误差的大小；

步骤S06：获取深度神经网络的输出矩阵Y；

步骤S07：将深度神经网络的输出矩阵Y，输入感知机，进行图像分类。本发明还提供了一种快速训练深度神经网络的装置，包括：

训练数据集获取模块：获取训练数据集，训练数据集包括多个图像训练样本；

输入矩阵计算模块：针对每个图像训练样本，提取图像特征；由多个图像训练样本的图像特征构成深度神经网络的输入矩阵X；

深度神经网络构建模块：深度神经网络由多层构成，沿着网络正向传播样本；计算l层到l+1层的连接权重W^l；其中l为深度神经网络的层编号；

使用l层到l+1层的连接权重W^l，乘以第l层的神经元输出矩阵Y^l，并应用激活函数，可以得到下一层的输出矩阵Y^l+1；

深度神经网络调节模块：调节正则化参数以控制重构误差的大小；

深度神经网络输出模块：获取深度神经网络的输出矩阵Y；

图像分类模块：将深度神经网络的输出矩阵Y，输入感知机，进行图像分类。

本发明还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的方法。

本发明还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行所述的方法。

具体地，在分类或预测问题中，可选择深度神经网络输出的特征作为分类器或预测模型的输入，使用带有类别标签的训练样本，对分类器或预测模型进行微调，最终得到用于具体学习任务的深度神经网络。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。本发明的其它特征、目的和优点从说明书、附图以及权利要求书中可以得出。

附图说明

附图1是一种深度神经网络快速训练方法的基本流程图。

具体实施方式

本发明为克服现有对现有神经网络训练算法的不足，提供一种快速训练深度神经网络的方法。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施例及附图1对该方法作进一步详细描述。应当理解，此处的具体实施例的描述仅用以解释本发明，并不用于限定本发明。

具体地，请参阅图1，是本发明实施例的一种快速训练深度神经网络的方法流程图。

本发明实施例的一种深度神经网络的快速训练方法包括：

具体地，步骤S03包括：

步骤S0305：将X’作为第l层到第l+1层的连接权值W^l的初始值；

步骤S05：调节正则化参数以控制重构误差的大小；

步骤S06：获取深度神经网络的输出矩阵Y；

步骤S07：将深度神经网络的输出矩阵Y，输入感知机，进行图像分类。

由于上述步骤，本发明的训练过程不需要进行基于梯度下降算法的迭代优化过程，直接通过基本的线性代数运算求解连接权重，因此计算速度较快。而从原始数据中学习特征，因此训练时不必对数据进行精确重构。不需要设置太多的控制参数，因此本发明中的训练方法易用性强。

对所公开的实施例的上述说明，使熟悉本领域的专业技术人员能够实现或使用本发明。对实施例的修改对本领域的专业技术人员来说将是显而易见的。本专利中所定义的一般原理可以在不脱离本发明的基本思想或适用范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，凡是利用本发明的设计思路，做一些简单变化的方案，都应计入本发明的保护范围之内。

Claims

1.一种快速训练深度神经网络的方法，其特征在于：

步骤S05：调节正则化参数以控制重构误差的大小；

步骤S06：获取深度神经网络的输出矩阵Y；

2.根据权利要求1所述的一种快速训练深度神经网络的方法，其特征在于，步骤S01中，输入矩阵X包括由N个d维的图像训练样本的图像特征；其中x_i代表第i个训练样本；其中i为图像训练样本的编号。

3.根据权利要求1所述的一种快速训练深度神经网络的方法，其特征在于，步骤S03包括，

步骤S0305：将X’作为第l层到第l+1层的连接权值W^l的初始值。

4.根据权利要求1所述的一种快速训练深度神经网络的方法，其特征在于，步骤S04包括，

激活函数可以采用阶跃激活函数，即如果x>δ_max,f(x)＝1,如果x≤δ_max,f(x)＝0；δmax是一个较小的正数，与具体的数据有关。

5.根据权利要求1所述的一种快速训练深度神经网络的方法，其特征在于，步骤S07中，图像分类时，选择深度神经网络输出的特征作为分类器的输入，使用带有类别标签的训练样本，对分类器进行微调，最终得到用于图像分类任务的深度神经网络。

6.一种快速训练深度神经网络的装置，包括：

深度神经网络输出模块：获取深度神经网络的输出矩阵Y；

7.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。