CN108776835A - 一种深度神经网络训练方法 - Google Patents

一种深度神经网络训练方法 Download PDF

Info

Publication number
CN108776835A
CN108776835A CN201810520330.1A CN201810520330A CN108776835A CN 108776835 A CN108776835 A CN 108776835A CN 201810520330 A CN201810520330 A CN 201810520330A CN 108776835 A CN108776835 A CN 108776835A
Authority
CN
China
Prior art keywords
loss
network
quote
center
functions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810520330.1A
Other languages
English (en)
Inventor
吕岳
吕淑静
张茹玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiaxing San Suo Intelligent Technology Co Ltd
Original Assignee
Jiaxing San Suo Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiaxing San Suo Intelligent Technology Co Ltd filed Critical Jiaxing San Suo Intelligent Technology Co Ltd
Priority to CN201810520330.1A priority Critical patent/CN108776835A/zh
Publication of CN108776835A publication Critical patent/CN108776835A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种深度卷积网络训练方法。该训练方法中,将Softmax Loss损失函数和基于余弦距离的Center Loss损失函数相结合作为误差损失函数,更新网络中的参数,对深度网络进行训练。Softmax Loss损失函数是一个比较通用的用于深度网络全连接层的损失函数,可以有效实现多类分类问题,但它容易丢失样本图像的类内距和类间距信息,有一定的局限性。基于余弦距离的Center Loss度量学习模块,通过计算每个样本和对应类中心之间的余弦距离作为损失函数,考虑到了输入特征图的方向信息,同类样本之间相互靠近,网络输出的特征具有明显的判别性,可以提高网络最终的识别结果。

Description

一种深度神经网络训练方法
技术领域
本发明提出了一种深度神经网络的训练方法,属于机器学习领域。
背景技术
近年来,随着深度学习的发展,各种深度学习网络模型交替出现,为图像分类带来了新的解决方案。为了提升深度学习网络的分类性能,一方面可以通过改变网络结构,还可以通过训练方法的改进,本发明正是提出了一种新的训练方法对深度神经网络进行训练,从而实现图像的分类问题。
通常深度学习卷积网络一般使用Softmax函数实现分类功能,但是这种网络很容易丢失输入样本图像的类内距和类间距信息。将度量学习融入深度卷积网络的学习过程中,可以有效地捕捉到输入样本的类内距和类间距信息,扩大不同类样本之间的距离,减小同类样本之间的距离,有效地提高网络最终的识别结果。
发明内容
本发明的目的是提供一种深度神经网络训练方法,神经网络经过不断的前向传播和反向传播来调整网络中的权值矩阵,使网络的损失函数降到最低,并保持稳定范围之内,最终完成训练。
本发明解决其技术问题所采用的技术方案是:
卷积神经网络,主要包括输入层、卷积层、降采样层和全连接层组成。输入层是待处理的输入数据或图像,卷积层和降采样层交替出现实现自动提取特征信息,全连接层实现图像分类功能,全连接层的最后一层是输出层。卷积神经网络的学习过程是一种有监督学习,本质上是输入到输出的映射,它的训练样本集是包含的是一系列向量对(X, Y p ),其中X表示输入向量,Y p 表示是理想输出向量。卷积神经网络可以自主地学习到图像中的特征,找到输出到输出之间的映射关系,而不需要提前设计出输入到输出之间的计算公式。卷积神经网络训练之前,需要初始化网络中的权值。一般使用不同的小随机数初始化权值,不同的初始值可以保证网络中的每个权值的更新过程都是不同的,而小的随机数能避免网络由于初始权值过大引起网络训练失败。
网络的训练过程包括两个阶段:
1.前向传播阶段
前向传播的过程是从样本集中选择一个样本,将样本送入网络,然后得到网络的实际输出值。在这个过程中,网络首先通过数据层读取样本的输入数据,然后经过网络各个层级进行数据处理,网络会在输出层得到实际输出结果。包括如下步骤:
(1) 计算每个输入图像的特征和对应类中心特征之间的余弦距离作为损失函数,即基于余弦距离的Center Loss;
(2) 计算Softmax Loss损失函数。
2.反向传播阶段
反向传播的过程是为了调整权值矩阵,根据网络实际输出值和理想输出值之间的误差,利用极小值误差反向传播到输入层,调整网络每层的权值矩阵W。包括如下步骤:
(a) 根据Softmax Loss损失函数,分别计算出该损失函数对输出层的参数 QUOTE 的偏导数,和对网络中参数 QUOTE 的偏导数;
(b) 根据基于余弦距的Center Loss损失函数,分别计算出该损失函数对每个类的中心特征的 QUOTE 的偏导数,和网络中参数 QUOTE 的偏导数;
(c) 根据Softmax Loss损失函数和基于余弦距离的Center Loss损失函数计算出的偏导数,更新网络中的参数 QUOTE
本发明和现有技术相比,具有以下优点和效果:神经网络经过不断的前向传播和反向传播来调整网络中的权值矩阵,使网络的损失函数降到最低,并保持稳定范围之内,最终完成训练。基于余弦距离的Center Loss度量学习模块,通过计算每个样本和对应类中心之间的余弦距离作为损失函数,考虑到了输入特征图的方向信息,同类样本之间相互靠近,网络输出的特征具有明显的判别性,可以提高网络最终的识别结果。
附图说明
图1为本发明卷积神经网络结构。
图2为本发明网络训练流程。
具体实施方式
下面结合附图并通过实施例对本发明作进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
1.损失函数计算:
训练时,将基于Softmax Loss和基于余弦距离的Center Loss相结合,对应的损失函数如下:
QUOTE (1)
其中, QUOTE 表示输出层的softmax Loss, QUOTE 表示基于余弦距的Center Loss,超参数 QUOTE 用于调节Softmax Loss和基于余弦距的CenterLoss的权重。
网络中 QUOTE 的主要作用是对输入图像进行分类, QUOTE 的表达式为(2)式所示:
QUOTE (2)
其中, QUOTE 表示网络中最后一层(输出层)的参数, QUOTE 是示性函数,T是输出层节点个数,N是输入一批样本中三元组的数量,每一组输入的样本数据表示为QUOTE , QUOTE 是表示网络最后的隐层输出的第i个样本的特征, QUOTE 是与 QUOTE 相对应的真实标签。
网络中 QUOTE 的主要作用是计算每个输入样本和对应类中心之间的余弦距离,将这个余弦距离作为损失函数调整网络中的参数,使得同一类样本之间的距离比较小,计算公式如式(3)所示:
QUOTE (3)
其中, QUOTE 是网络最后的隐层输出的第i个样本的特征, QUOTE 表示第i个样本对应的类中心特征,N表示输入一批样本的数量。
2.参数更新:
卷积神经网络的参数在更新时,使用随机梯度下降法。我们将网络中的参数分为三部分,分别是输出层的参数 QUOTE ,每个类的类中心特征 QUOTE ,网络中的其他参数 QUOTE 。输出层的参数 QUOTE 只依赖于Softmax Loss,每个类的类中心特征QUOTE 只依赖于基于余弦距的Center Loss,网络中的其他参数 QUOTE 的更新取决于Softmax Loss和基于余弦距的Center Loss。
在卷积神经网络和基于余弦距的Center Loss相结合的网络中,输出层的参数QUOTE 的更新公式如式(4)所示。
QUOTE (4)
QUOTE (5)
其中, QUOTE 表示Softmax Loss, QUOTE 表示最后隐层输出的特征经过输出层计算得到的概率。公式中Softmax Loss损失函数对 QUOTE 求偏导的计算公式如下所示:
QUOTE (6)
在(6)式中, QUOTE 表示第i个样本属于第t类的概率, QUOTE 表示从网络最后隐层得到的第i个样本的特征。
网络中每个类的中心特征的 QUOTE 初始化为随机数值,在网络更新时QUOTE 的计算公式如下式所示:
QUOTE (7)
QUOTE (8)
其中, QUOTE 是第j类的中心特征, QUOTE 表示从网络最后隐层输出的第i个样本的特征, QUOTE 是输入样本i对应的真实的标签值,N是输入样本的数量。QUOTE 是示性函数,如果第i个样本计算出的类别和给出的真实标签值相同,示性函数 QUOTE ,否则 QUOTE
网络中其他层参数 QUOTE 的更新计算公式如下:
QUOTE (9)
QUOTE (10)
其中, QUOTE 表示Softmax Loss, QUOTE 表示基于余弦距的Center Loss,超参数 QUOTE 用于调节两个损失函数的权重, QUOTE 表示网络最后的隐含层的输出。公式(10)中Softmax Loss损失函数 QUOTE 对 QUOTE 的偏导数的计算公式如式(11)所示:
QUOTE (11)
其中, QUOTE 表示网络最后的隐含层的输出, QUOTE 表示最后隐层输出的特征经过Softmax层计算得到的概率。公式(10)中基于余弦距的Center Loss损失函数对 QUOTE 偏导数的计算公式如式(12)所示:
QUOTE (12)
其中, QUOTE 表示网络最后的隐含层的输出, QUOTE 是第i个样本对应的类中心的特征。
训练流程如图2所示。
本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (3)

1.一种深度神经网络的训练方法,其特征在于,
将Softmax Loss损失函数和基于余弦距离的Center Loss损失函数相结合作为误差损失函数,用于反向传播过程中更新网络中的参数,对深度网络进行训练。
2.根据权利要求1所述的一种深度神经网络的训练方法,其特征在于,损失函数的计算包括:
(1) 计算每个输入图像的特征和对应类中心特征之间的余弦距离作为损失函数,即基于余弦距的Center Loss;
(2) 计算Softmax Loss损失函数。
3.根据权利要求1所述的一种深度神经网络的训练方法,其特征在于,反向更新过程,包括如下步骤:
(a) 根据Softmax Loss损失函数,分别计算出该损失函数输出层的参数的偏导数,和对网络中其他层参数的偏导数;
(b) 根据基于余弦距的Center Loss损失函数,分别计算出该损失函数对每个类的中心特征的偏导数,和网络中参数的偏导数;
(c) 根据Softmax Loss损失函数和基于余弦距的Center Loss损失函数计算出的偏导数,更新网络中的参数。
CN201810520330.1A 2018-05-28 2018-05-28 一种深度神经网络训练方法 Pending CN108776835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810520330.1A CN108776835A (zh) 2018-05-28 2018-05-28 一种深度神经网络训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810520330.1A CN108776835A (zh) 2018-05-28 2018-05-28 一种深度神经网络训练方法

Publications (1)

Publication Number Publication Date
CN108776835A true CN108776835A (zh) 2018-11-09

Family

ID=64027773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810520330.1A Pending CN108776835A (zh) 2018-05-28 2018-05-28 一种深度神经网络训练方法

Country Status (1)

Country Link
CN (1) CN108776835A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109375186A (zh) * 2018-11-22 2019-02-22 中国人民解放军海军航空大学 基于深度残差多尺度一维卷积神经网络的雷达目标识别方法
CN109816001A (zh) * 2019-01-10 2019-05-28 高新兴科技集团股份有限公司 一种基于深度学习的车辆多属性识别方法、装置和设备
CN109859743A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN109948478A (zh) * 2019-03-06 2019-06-28 中国科学院自动化研究所 基于神经网络的大规模非均衡数据的人脸识别方法、系统
CN111597882A (zh) * 2020-04-03 2020-08-28 云知声智能科技股份有限公司 一种损失函数计算方法及装置
CN112992119A (zh) * 2021-01-14 2021-06-18 安徽大学 基于深度神经网络的口音分类方法及其模型
CN114822874A (zh) * 2022-05-25 2022-07-29 湖南中医药大学 一种基于特征偏差对齐的方剂功效分类方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109375186B (zh) * 2018-11-22 2022-05-31 中国人民解放军海军航空大学 基于深度残差多尺度一维卷积神经网络的雷达目标识别方法
CN109375186A (zh) * 2018-11-22 2019-02-22 中国人民解放军海军航空大学 基于深度残差多尺度一维卷积神经网络的雷达目标识别方法
CN109816001A (zh) * 2019-01-10 2019-05-28 高新兴科技集团股份有限公司 一种基于深度学习的车辆多属性识别方法、装置和设备
CN109859743A (zh) * 2019-01-29 2019-06-07 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN109859743B (zh) * 2019-01-29 2023-12-08 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN109948478A (zh) * 2019-03-06 2019-06-28 中国科学院自动化研究所 基于神经网络的大规模非均衡数据的人脸识别方法、系统
CN109948478B (zh) * 2019-03-06 2021-05-11 中国科学院自动化研究所 基于神经网络的大规模非均衡数据的人脸识别方法、系统
CN111597882B (zh) * 2020-04-03 2022-10-14 云知声智能科技股份有限公司 一种损失函数计算方法及装置
CN111597882A (zh) * 2020-04-03 2020-08-28 云知声智能科技股份有限公司 一种损失函数计算方法及装置
CN112992119A (zh) * 2021-01-14 2021-06-18 安徽大学 基于深度神经网络的口音分类方法及其模型
CN112992119B (zh) * 2021-01-14 2024-05-03 安徽大学 基于深度神经网络的口音分类方法及其模型
CN114822874A (zh) * 2022-05-25 2022-07-29 湖南中医药大学 一种基于特征偏差对齐的方剂功效分类方法
CN114822874B (zh) * 2022-05-25 2023-10-10 湖南中医药大学 一种基于特征偏差对齐的方剂功效分类方法

Similar Documents

Publication Publication Date Title
CN108776835A (zh) 一种深度神经网络训练方法
CN109816012B (zh) 一种融合上下文信息的多尺度目标检测方法
CN107145908B (zh) 一种基于r-fcn的小目标检测方法
CN107123088B (zh) 一种自动更换证件照背景颜色的方法
CN108288035A (zh) 基于深度学习的多通道图像特征融合的人体动作识别方法
CN108399428A (zh) 一种基于迹比准则的三元组损失函数设计方法
CN105787948B (zh) 一种基于多变形分辨率的快速图像分割方法
CN106919897A (zh) 一种基于三级残差网络的人脸图像年龄估计方法
CN110619059B (zh) 一种基于迁移学习的建筑物标定方法
CN108021947A (zh) 一种基于视觉的分层极限学习机目标识别方法
CN106803063A (zh) 一种行人重识别的度量学习方法
CN105678248A (zh) 基于深度学习的人脸关键点对齐算法
CN107590518A (zh) 一种多特征学习的对抗网络训练方法
CN112836139B (zh) 融合用户特征和嵌入学习的跨社交网络用户身份关联方法
CN109960755B (zh) 一种基于动态迭代快速梯度的用户隐私保护方法
CN108153984A (zh) 一种基于流场密度阶跃的高精度间断迦辽金人工粘性激波捕捉方法
CN112800770A (zh) 一种基于异构图注意力网络的实体对齐方法
CN108256630A (zh) 一种基于低维流形正则化神经网络的过拟合解决方法
CN113988203A (zh) 一种基于深度学习的轨迹序列聚类方法
CN109754122A (zh) 一种基于随机森林特征提取的bp神经网络的数值预测方法
CN107392251A (zh) 一种使用分类图片提升目标检测网络性能的方法
CN115331069A (zh) 一种基于联邦学习的个性化图像分类模型训练方法
CN110909172A (zh) 一种基于实体距离的知识表示学习方法
CN109360191A (zh) 一种基于变分自编码器的图像显著性检测方法
CN111582373A (zh) 一种基于加权迁移极限学习机算法的辐射源识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181109