CN114462597A - 快速训练深度神经网络的方法、装置、设备和存储介质 - Google Patents

快速训练深度神经网络的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114462597A
CN114462597A CN202210131124.8A CN202210131124A CN114462597A CN 114462597 A CN114462597 A CN 114462597A CN 202210131124 A CN202210131124 A CN 202210131124A CN 114462597 A CN114462597 A CN 114462597A
Authority
CN
China
Prior art keywords
neural network
deep neural
layer
matrix
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210131124.8A
Other languages
English (en)
Inventor
郭平
杨栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Normal University
Original Assignee
Beijing Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Normal University filed Critical Beijing Normal University
Priority to CN202210131124.8A priority Critical patent/CN114462597A/zh
Publication of CN114462597A publication Critical patent/CN114462597A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种快速训练深度神经网络的方法、装置、电子设备和计算机可读存储介质。其中方法包括:获取训练数据集,训练数据集包括多个图像训练样本;针对每个图像训练样本,提取图像特征;由多个图像训练样本的图像特征构成深度神经网络的输入矩阵;深度神经网络由多层构成,沿着网络正向传播样本;计算l层到l+1层的连接权重;使用l层到l+1层的连接权重,乘以第l层的神经元输出矩阵,并应用激活函数,可以得到第l+1层的输出矩阵;调节正则化参数以控制重构误差的大小;获取深度神经网络的输出矩阵;将深度神经网络的输出矩阵,输入感知机,进行图像分类。

Description

快速训练深度神经网络的方法、装置、设备和存储介质
技术领域
本发明涉及人工智能领域,特别涉及一种深度神经网络训练方法。
背景技术
目前,以深度学习为代表的人工智能技术中,通常采用的是有监督学习方式,往往需要大量的标注好的数据来训练深度网络模型,然而在实际应用中获取的数据绝大部分属于无标注数据,如果对大量无标注数据进行人工标注则需要很高的人力和时间成本。因此,采用无监督学习的技术和方法,直接在无标注数据上进行表示学习,充分利用大量的无标注数据是人工智能技术发展的趋势。
自编码器是一种常用的深度学习基本模型,其基本思想是网络的输出与输入相等,训练过程中不需要标记数据,可以以无监督的方式直接从原始数据中进行特征学习。
现有技术中,以单隐层前馈神经网络作为基本模型构建多个自编码器,采用伪逆学习算法训练每一个自编码器,得到第i层自编码器的连接权重;将训练完成的前一层自编码器的隐层输出作为后一层自编码器的输入,重复步骤一,训练新的自编码器;训练完成后,所有自编码器去掉解码器后堆叠为一个深度神经网络结构,直至深度网络的层数达到预先设计的层数为止。
发明内容
本发明的目的在于克服现有的深度神经网络训练算法的不足。本发明为解决其技术问题采用的技术方案如下:
一种快速训练深度神经网络的方法,包括:
步骤S01:获取训练数据集,训练数据集包括多个图像训练样本;
步骤S02:针对每个图像训练样本,提取图像特征;由多个图像训练样本的图像特征构成深度神经网络的输入矩阵X;
具体地,输入矩阵X包括由N个d维的图像训练样本的图像特征;其中xi代表第i个训练样本;其中i为图像训练样本的编号;
步骤S03:深度神经网络由多层构成,沿着网络正向传播样本;计算l层到l+1层的连接权重Wl;其中l为深度神经网络的层编号;
具体地,步骤S03包括:
步骤S0301:第l层的输入数据矩阵为Xl,对Xl进行奇异值分解,得到矩阵U、Σ、V,使得Xl=UΣVT
步骤S0302:计算Xl的伪逆矩阵Y=VΣ’UT;其中,Σ’为Σ中奇异值的倒数组成的对角矩阵;
步骤S0304:对矩阵V进行截断,保留V矩阵的前p行,得到截断后的矩阵V’。计算近似的伪逆矩阵X’表示为X’=V’Σ’UT
步骤S0305:将X’作为第l层到第l+1层的连接权值Wl的初始值;
由于上述步骤,本发明能够直接计算优化目标的解析解,无需迭代优化的过程,而且无需繁琐的调节超参数过程,因此学习效率较之于误差反向传播等其它基于梯度下降算法的效率更高;
步骤S04:使用l层到l+1层的连接权重Wl,乘以第l层的神经元输出矩阵Yl,并应用激活函数,可以得到第l+1层的输出矩阵Yl+1
具体地,激活函数可以采用阶跃激活函数,即如果x>δmax,f(x)=1,如果x≤δmax,f(x)=0;δmax是一个较小的正数,与具体的数据有关;
由于上述步骤,本发明的网络优化目标可以转换为找到这样的投影算子,使得输出误差最小;
步骤S05:调节正则化参数以控制重构误差的大小;
步骤S06:获取深度神经网络的输出矩阵Y;
步骤S07:将深度神经网络的输出矩阵Y,输入感知机,进行图像分类。本发明还提供了一种快速训练深度神经网络的装置,包括:
训练数据集获取模块:获取训练数据集,训练数据集包括多个图像训练样本;
输入矩阵计算模块:针对每个图像训练样本,提取图像特征;由多个图像训练样本的图像特征构成深度神经网络的输入矩阵X;
深度神经网络构建模块:深度神经网络由多层构成,沿着网络正向传播样本;计算l层到l+1层的连接权重Wl;其中l为深度神经网络的层编号;
使用l层到l+1层的连接权重Wl,乘以第l层的神经元输出矩阵Yl,并应用激活函数,可以得到下一层的输出矩阵Yl+1
深度神经网络调节模块:调节正则化参数以控制重构误差的大小;
深度神经网络输出模块:获取深度神经网络的输出矩阵Y;
图像分类模块:将深度神经网络的输出矩阵Y,输入感知机,进行图像分类。
本发明还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的方法。
本发明还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述的方法。
具体地,在分类或预测问题中,可选择深度神经网络输出的特征作为分类器或预测模型的输入,使用带有类别标签的训练样本,对分类器或预测模型进行微调,最终得到用于具体学习任务的深度神经网络。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。本发明的其它特征、目的和优点从说明书、附图以及权利要求书中可以得出。
附图说明
附图1是一种深度神经网络快速训练方法的基本流程图。
具体实施方式
本发明为克服现有对现有神经网络训练算法的不足,提供一种快速训练深度神经网络的方法。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例及附图1对该方法作进一步详细描述。应当理解,此处的具体实施例的描述仅用以解释本发明,并不用于限定本发明。
具体地,请参阅图1,是本发明实施例的一种快速训练深度神经网络的方法流程图。
本发明实施例的一种深度神经网络的快速训练方法包括:
步骤S01:获取训练数据集,训练数据集包括多个图像训练样本;
步骤S02:针对每个图像训练样本,提取图像特征;由多个图像训练样本的图像特征构成深度神经网络的输入矩阵X;
具体地,输入矩阵X包括由N个d维的图像训练样本的图像特征;其中xi代表第i个训练样本;其中i为图像训练样本的编号;
步骤S03:深度神经网络由多层构成,沿着网络正向传播样本;计算l层到l+1层的连接权重Wl;其中l为深度神经网络的层编号;
具体地,步骤S03包括:
步骤S0301:第l层的输入数据矩阵为Xl,对Xl进行奇异值分解,得到矩阵U、Σ、V,使得Xl=UΣVT
步骤S0302:计算Xl的伪逆矩阵Y=VΣ’UT;其中,Σ’为Σ中奇异值的倒数组成的对角矩阵;
步骤S0304:对矩阵V进行截断,保留V矩阵的前p行,得到截断后的矩阵V’。计算近似的伪逆矩阵X’表示为X’=V’Σ’UT
步骤S0305:将X’作为第l层到第l+1层的连接权值Wl的初始值;
由于上述步骤,本发明能够直接计算优化目标的解析解,无需迭代优化的过程,而且无需繁琐的调节超参数过程,因此学习效率较之于误差反向传播等其它基于梯度下降算法的效率更高;
步骤S04:使用l层到l+1层的连接权重Wl,乘以第l层的神经元输出矩阵Yl,并应用激活函数,可以得到第l+1层的输出矩阵Yl+1
具体地,激活函数可以采用阶跃激活函数,即如果x>δmax,f(x)=1,如果x≤δmax,f(x)=0;δmax是一个较小的正数,与具体的数据有关;
由于上述步骤,本发明的网络优化目标可以转换为找到这样的投影算子,使得输出误差最小;
步骤S05:调节正则化参数以控制重构误差的大小;
步骤S06:获取深度神经网络的输出矩阵Y;
步骤S07:将深度神经网络的输出矩阵Y,输入感知机,进行图像分类。
具体地,在分类或预测问题中,可选择深度神经网络输出的特征作为分类器或预测模型的输入,使用带有类别标签的训练样本,对分类器或预测模型进行微调,最终得到用于具体学习任务的深度神经网络。
由于上述步骤,本发明的训练过程不需要进行基于梯度下降算法的迭代优化过程,直接通过基本的线性代数运算求解连接权重,因此计算速度较快。而从原始数据中学习特征,因此训练时不必对数据进行精确重构。不需要设置太多的控制参数,因此本发明中的训练方法易用性强。
对所公开的实施例的上述说明,使熟悉本领域的专业技术人员能够实现或使用本发明。对实施例的修改对本领域的专业技术人员来说将是显而易见的。本专利中所定义的一般原理可以在不脱离本发明的基本思想或适用范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的实施例,凡是利用本发明的设计思路,做一些简单变化的方案,都应计入本发明的保护范围之内。

Claims (8)

1.一种快速训练深度神经网络的方法,其特征在于:
步骤S01:获取训练数据集,训练数据集包括多个图像训练样本;
步骤S02:针对每个图像训练样本,提取图像特征;由多个图像训练样本的图像特征构成深度神经网络的输入矩阵X;
步骤S03:深度神经网络由多层构成,沿着网络正向传播样本;计算l层到l+1层的连接权重Wl;其中l为深度神经网络的层编号;
步骤S04:使用l层到l+1层的连接权重Wl,乘以第l层的神经元输出矩阵Yl,并应用激活函数,可以得到第l+1层的输出矩阵Yl+1
步骤S05:调节正则化参数以控制重构误差的大小;
步骤S06:获取深度神经网络的输出矩阵Y;
步骤S07:将深度神经网络的输出矩阵Y,输入感知机,进行图像分类。
2.根据权利要求1所述的一种快速训练深度神经网络的方法,其特征在于,步骤S01中,输入矩阵X包括由N个d维的图像训练样本的图像特征;其中xi代表第i个训练样本;其中i为图像训练样本的编号。
3.根据权利要求1所述的一种快速训练深度神经网络的方法,其特征在于,步骤S03包括,
步骤S0301:第l层的输入数据矩阵为Xl,对Xl进行奇异值分解,得到矩阵U、Σ、V,使得Xl=UΣVT
步骤S0302:计算Xl的伪逆矩阵Y=VΣ’UT;其中,Σ’为Σ中奇异值的倒数组成的对角矩阵;
步骤S0304:对矩阵V进行截断,保留V矩阵的前p行,得到截断后的矩阵V’。计算近似的伪逆矩阵X’表示为X’=V’Σ’UT
步骤S0305:将X’作为第l层到第l+1层的连接权值Wl的初始值。
4.根据权利要求1所述的一种快速训练深度神经网络的方法,其特征在于,步骤S04包括,
激活函数可以采用阶跃激活函数,即如果x>δmax,f(x)=1,如果x≤δmax,f(x)=0;δmax是一个较小的正数,与具体的数据有关。
5.根据权利要求1所述的一种快速训练深度神经网络的方法,其特征在于,步骤S07中,图像分类时,选择深度神经网络输出的特征作为分类器的输入,使用带有类别标签的训练样本,对分类器进行微调,最终得到用于图像分类任务的深度神经网络。
6.一种快速训练深度神经网络的装置,包括:
训练数据集获取模块:获取训练数据集,训练数据集包括多个图像训练样本;
输入矩阵计算模块:针对每个图像训练样本,提取图像特征;由多个图像训练样本的图像特征构成深度神经网络的输入矩阵X;
深度神经网络构建模块:深度神经网络由多层构成,沿着网络正向传播样本;计算l层到l+1层的连接权重Wl;其中l为深度神经网络的层编号;
使用l层到l+1层的连接权重Wl,乘以第l层的神经元输出矩阵Yl,并应用激活函数,可以得到下一层的输出矩阵Yl+1
深度神经网络调节模块:调节正则化参数以控制重构误差的大小;
深度神经网络输出模块:获取深度神经网络的输出矩阵Y;
图像分类模块:将深度神经网络的输出矩阵Y,输入感知机,进行图像分类。
7.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
CN202210131124.8A 2022-02-13 2022-02-13 快速训练深度神经网络的方法、装置、设备和存储介质 Pending CN114462597A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210131124.8A CN114462597A (zh) 2022-02-13 2022-02-13 快速训练深度神经网络的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210131124.8A CN114462597A (zh) 2022-02-13 2022-02-13 快速训练深度神经网络的方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114462597A true CN114462597A (zh) 2022-05-10

Family

ID=81414126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210131124.8A Pending CN114462597A (zh) 2022-02-13 2022-02-13 快速训练深度神经网络的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114462597A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933499A (zh) * 2024-03-22 2024-04-26 中国铁建电气化局集团有限公司 高速铁路接触网的入侵风险预测方法、装置和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446766A (zh) * 2018-03-21 2018-08-24 北京理工大学 一种快速训练堆栈自编码深度神经网络的方法
CN109034387A (zh) * 2018-06-29 2018-12-18 北京师范大学 一种基于伪逆学习快速训练自编码器的近似方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446766A (zh) * 2018-03-21 2018-08-24 北京理工大学 一种快速训练堆栈自编码深度神经网络的方法
CN109034387A (zh) * 2018-06-29 2018-12-18 北京师范大学 一种基于伪逆学习快速训练自编码器的近似方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117933499A (zh) * 2024-03-22 2024-04-26 中国铁建电气化局集团有限公司 高速铁路接触网的入侵风险预测方法、装置和存储介质
CN117933499B (zh) * 2024-03-22 2024-09-06 中国铁建电气化局集团有限公司 高速铁路接触网的入侵风险预测方法、装置和存储介质

Similar Documents

Publication Publication Date Title
US11403486B2 (en) Methods and systems for training convolutional neural network using built-in attention
CN108491765B (zh) 一种蔬菜图像的分类识别方法及系统
US10296804B2 (en) Image recognizing apparatus, computer-readable recording medium, image recognizing method, and recognition apparatus
CN109784153B (zh) 情绪识别方法、装置、计算机设备及存储介质
US20210089925A1 (en) Training method for quantizing the weights and inputs of a neural network
CN109711426B (zh) 一种基于gan和迁移学习的病理图片分类装置及方法
CN109919183B (zh) 一种基于小样本的图像识别方法、装置、设备及存储介质
Khaw et al. Image noise types recognition using convolutional neural network with principal components analysis
CN112069903B (zh) 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN108921220A (zh) 图像复原模型训练方法、装置及图像复原方法和装置
CN110298394B (zh) 一种图像识别方法和相关装置
CN108985442B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN114462597A (zh) 快速训练深度神经网络的方法、装置、设备和存储介质
CN113128455A (zh) 一种细胞图像重构模型训练方法和系统
CN112598062A (zh) 一种图像识别方法和装置
Tao et al. Efficient incremental training for deep convolutional neural networks
EP3910549A1 (en) System and method for few-shot learning
CN114463591A (zh) 深度神经网络图像分类方法、装置、设备和存储介质
CN112270404A (zh) 一种基于ResNet64网络的紧固件产品鼓包缺陷的检测结构及其方法
CN114463599A (zh) 对抗生成网络快速训练方法、装置、设备和存储介质
CN115063374A (zh) 模型训练、人脸图像质量评分方法、电子设备及存储介质
CN114548289A (zh) 自监督学习模型在细胞图像分类过程中的应用方法及系统
Montavon et al. Layer-wise analysis of deep networks with Gaussian kernels
KR20190078710A (ko) 이미지 분류 시스템 및 방법
CN108460401B (zh) 基于非负特征融合的场景图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination