CN115761448B - 神经网络的训练方法、训练装置和可读存储介质 - Google Patents

神经网络的训练方法、训练装置和可读存储介质 Download PDF

Info

Publication number
CN115761448B
CN115761448B CN202211537757.5A CN202211537757A CN115761448B CN 115761448 B CN115761448 B CN 115761448B CN 202211537757 A CN202211537757 A CN 202211537757A CN 115761448 B CN115761448 B CN 115761448B
Authority
CN
China
Prior art keywords
gradient
image
training
neural network
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211537757.5A
Other languages
English (en)
Other versions
CN115761448A (zh
Inventor
祝毅晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Midea Group Co Ltd
Midea Group Shanghai Co Ltd
Original Assignee
Midea Group Co Ltd
Midea Group Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Midea Group Co Ltd, Midea Group Shanghai Co Ltd filed Critical Midea Group Co Ltd
Priority to CN202211537757.5A priority Critical patent/CN115761448B/zh
Publication of CN115761448A publication Critical patent/CN115761448A/zh
Application granted granted Critical
Publication of CN115761448B publication Critical patent/CN115761448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提出了一种神经网络的训练方法、训练装置和可读存储介质,神经网络的训练方法包括:获取第一图像和第二图像;根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;根据第一梯度和第二梯度确定训练梯度;根据训练梯度更新神经网络的参数;其中,第一图像和第二图像的显示内容相同,且第二图像的分辨率大于第一图像的分辨率。

Description

神经网络的训练方法、训练装置和可读存储介质
技术领域
本申请涉及机器人技术领域,具体而言,涉及一种神经网络的训练方法、训练装置和可读存储介质。
背景技术
相关技术中,用于图像预测的神经网络在运行过程中,当输入的图像的分辨率较小时,神经网络的预测准确率较差,无法满足用户需求。因此,如何提升神经网络在输入较小分辨率的图像时的预测准确率,成为了亟待解决的技术问题。
发明内容
本申请旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本申请的第一方面提出了一种神经网络的训练方法。
本申请的第二方面提出了一种神经网络的训练装置。
本申请的第三方面提出了一种神经网络的训练装置。
本申请的第四方面提出了一种可读存储介质。
本申请的第五方面提出了一种电子设备。
本申请的第六方面提出了一种计算机程序产品。
有鉴于此,本申请的第一方面,提出了一种神经网络的训练方法,包括:获取第一图像和第二图像;根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;根据第一梯度和第二梯度确定训练梯度;根据训练梯度更新神经网络的参数;其中,第一图像和第二图像的显示内容相同,且第二图像的分辨率大于第一图像的分辨率。
本申请提供的神经网络的训练方法,其中,该神经网络可以用于图像的预测。具体的,首先,获取第一图像和第二图像。可以理解的是,第一图像和第二图像即为对神经网络进行训练所需要的训练样本。也即通过训练样本对神经网络进行训练,以提高训练后的神经网络对于图像的预测准确率,达到神经网络的训练目的。
具体的,第一图像和第二图像所显示的内容相同,但是,第一图像的分辨率小于第二图像的分辨率。也就是说,在对神经网络进行训练时,对于同一个图像内容的训练样本,提供了两种不同分辨率的第一图像和第二图像,从而可以在训练过程中,神经网络既能够观察到大分辨率的图像的特征,又能够观察到小分辨率的图像特征。
进一步地,分别将第一图像和第二图像输入神经网络中进行训练,在每轮训练之后,生成第一图像对应的第一梯度和第二图像对应的第二梯度。具体的,在将第一图像和第二图像输入神经网络之后,经过神经网络的预测,生成第一图像对应的第一预测数据,以及第二图像的第二预测数据,然后将第一预测数据和第二预测数据分别与第一图像和第二图像的原始数据进行对比,进而分别生成第一图像对应的第一梯度和第二图像对应的第二梯度。也就是,第一梯度和第二梯度分别反映了神经网络对于第一图像的预测数据与第一图像的原始数据之间的差异,以及神经网络对于第二图像的预测数据与第二图像的原始数据之间的差异。
进一步地,在得到了第一图像对应的第一梯度以及第二图像对应的第二梯度之后,可以根据第一梯度和第二梯度获取神经网络训练过程中的整体的训练梯度,也就是将第一梯度和第二梯度相结合,确定整体的训练梯度,从而使得神经网络在根据整体的训练梯度进行参数更新时,能够同时观察到大分辨率图像的特征以及小分辨率图像的特征,进而使得神经网络能够将同一个图像内容的大分辨率特征和相应的小分辨率特征相关联,然后进行参数的更新,这样,在神经网络训练完成之后,在当输入小分辨率的图像时,神经网络能够根据输入的小分辨率的图像的特征,确定该图像内容相应的大分辨率图像的特征,在大分辨率的图像特征下,图像的预测准确率会得到提升。也就是提高了神经网络对于小分辨率图像数据的预测性能。
在相关技术中,在针对用于图像预测的神经网络进行训练时,如果使用较大分辨率的图像进行训练,则需要消耗较大的计算资源、计算机内存以及大量的时间,实现起来相对困难。而如果使用较小分辨率的图像进行训练,由于在训练时所输入的图像的分辨率较小,因此,即使经过训练之后,神经网络只能根据小分辨率的图像特征进行预测,仅仅是小分辨率的图像特征,对于图像的预测的准确率的提升仍然十分有限。从而使得神经网络在针对小分辨率的图像输入时的预测性能较差,无法保证准确率。
本申请提供的神经网络的训练方法,在获取样本数据时,针对同一个图像内容的样本,同时获取一个分辨率较小的第一图像以及一个分辨率较大的第二图像,进而将第一图像和第二图像同时输入到神经网络中进行训练,以得到小分辨率的第一图像对应的第一梯度,以及大分辨率的第二图像对应的第二梯度,进而根据第一梯度和第二梯度确定训练的整体训练梯度,然后根据整体的训练梯度进行神经网络的参数的更新。由于训练梯度是第一梯度和第二梯度的结合,因此神经网络在根据整体的训练梯度进行参数更新时,能够同时观察到大分辨率图像的特征以及小分辨率图像的特征,进而使得神经网络能够将同一个图像内容的大分辨率特征和相应的小分辨率特征相关联,然后进行参数的更新,这样,神经网络能够根据输入的小分辨率的图像的特征,确定该图像内容相应的大分辨率图像的特征,提高了神经网络对于小分辨率图像数据的预测性能。
本申请的第二方面,提出了一种神经网络的训练装置,包括:获取单元,用于获取第一图像和第二图像;训练单元,用于根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;确定单元,用于根据第一梯度和第二梯度确定训练梯度;更新单元,用于根据训练梯度更新神经网络的参数;其中,第一图像和第二图像的显示内容相同,且第二图像的分辨率大于第一图像的分辨率。
本申请的第三方面,提出了一种神经网络的训练装置,包括:处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如下步骤:获取第一图像和第二图像;根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;根据第一梯度和第二梯度确定训练梯度;根据训练梯度更新神经网络的参数;其中,第一图像和第二图像的显示内容相同,且第二图像的分辨率大于第一图像的分辨率。
本申请的第四方面,提出了一种读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如下步骤:获取第一图像和第二图像;根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;根据第一梯度和第二梯度确定训练梯度;根据训练梯度更新神经网络的参数;其中,第一图像和第二图像的显示内容相同,且第二图像的分辨率大于第一图像的分辨率。
本申请的第五方面,提出了一种电子设备,包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如下步骤:获取第一图像和第二图像;根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;根据第一梯度和第二梯度确定训练梯度;根据训练梯度更新神经网络的参数;其中,第一图像和第二图像的显示内容相同,且第二图像的分辨率大于第一图像的分辨率。
本申请的第六方面,提出了一种计算机程序产品,包括计算机程序或指令,计算机程序或指令被处理器执行时实现如下步骤:获取第一图像和第二图像;根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;根据第一梯度和第二梯度确定训练梯度;根据训练梯度更新神经网络的参数;其中,第一图像和第二图像的显示内容相同,且第二图像的分辨率大于第一图像的分辨率。
本申请的附加方面和优点将在下面的描述部分中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本申请一个实施例提供的神经网络的训练方法的流程示意图;
图2示出了本申请又一个实施例提供的神经网络的训练方法的流程示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步地详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不限于下面公开的具体实施例的限制。
下面参照图1和图2描述根据本申请一些实施例的提供的神经网络的训练方法、神经网络的训练装置、可读存储介质、电子设备和计算机程序产品。
实施例:
如图1所示,根据本申请的一个实施例,提出了一种神经网络的训练方法,包括:
S102,获取第一图像和第二图像;
S104,根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;
S106,根据第一梯度和第二梯度确定训练梯度;
S108,根据训练梯度更新神经网络的参数。
本申请提供的神经网络的训练方法,其中,该神经网络可以用于图像的预测。具体的,首先,获取第一图像和第二图像。可以理解的是,第一图像和第二图像即为对神经网络进行训练所需要的训练样本。也即通过训练样本对神经网络进行训练,以提高训练后的神经网络对于图像的预测准确率,达到神经网络的训练目的。
具体的,第一图像和第二图像所显示的内容相同,但是,第一图像的分辨率小于第二图像的分辨率。也就是说,在对神经网络进行训练时,对于同一个图像内容的训练样本,提供了两种不同分辨率的第一图像和第二图像,从而可以在训练过程中,神经网络既能够观察到大分辨率的图像的特征,又能够观察到小分辨率的图像特征。
进一步地,分别将第一图像和第二图像输入神经网络中进行训练,在每轮训练之后,生成第一图像对应的第一梯度和第二图像对应的第二梯度。具体的,在将第一图像和第二图像输入神经网络之后,经过神经网络的预测,生成第一图像对应的第一预测数据,以及第二图像的第二预测数据,然后将第一预测数据和第二预测数据分别与第一图像和第二图像的原始数据进行对比,进而分别生成第一图像对应的第一梯度和第二图像对应的第二梯度。也就是,第一梯度和第二梯度分别反映了神经网络对于第一图像的预测数据与第一图像的原始数据之间的差异,以及神经网络对于第二图像的预测数据与第二图像的原始数据之间的差异。
进一步地,在得到了第一图像对应的第一梯度以及第二图像对应的第二梯度之后,可以根据第一梯度和第二梯度获取神经网络训练过程中的整体的训练梯度,也就是将第一梯度和第二梯度相结合,确定整体的训练梯度,从而使得神经网络在根据整体的训练梯度进行参数更新时,能够同时观察到大分辨率图像的特征以及小分辨率图像的特征,进而使得神经网络能够将同一个图像内容的大分辨率特征和相应的小分辨率特征相关联,然后进行参数的更新,这样,在神经网络训练完成之后,在当输入小分辨率的图像时,神经网络能够根据输入的小分辨率的图像的特征,确定该图像内容相应的大分辨率图像的特征,在大分辨率的图像特征下,图像的预测准确率会得到提升。也就是提高了神经网络对于小分辨率图像数据的预测性能。
在相关技术中,在针对用于图像预测的神经网络进行训练时,如果使用较大分辨率的图像进行训练,则需要消耗较大的计算资源、计算机内存以及大量的时间,实现起来相对困难。而如果使用较小分辨率的图像进行训练,由于在训练时所输入的图像的分辨率较小,因此,即使经过训练之后,神经网络只能根据小分辨率的图像特征进行预测,仅仅是小分辨率的图像特征,对于图像的预测的准确率的提升仍然十分有限。从而使得神经网络在针对小分辨率的图像输入时的预测性能较差,无法保证准确率。
本申请提供的神经网络的训练方法,在获取样本数据时,针对同一个图像内容的样本,同时获取一个分辨率较小的第一图像以及一个分辨率较大的第二图像,进而将第一图像和第二图像同时输入到神经网络中进行训练,以得到小分辨率的第一图像对应的第一梯度,以及大分辨率的第二图像对应的第二梯度,进而根据第一梯度和第二梯度确定训练的整体训练梯度,然后根据整体的训练梯度进行神经网络的参数的更新。由于训练梯度是第一梯度和第二梯度的结合,因此神经网络在根据整体的训练梯度进行参数更新时,能够同时观察到大分辨率图像的特征以及小分辨率图像的特征,进而使得神经网络能够将同一个图像内容的大分辨率特征和相应的小分辨率特征相关联,然后进行参数的更新,这样,神经网络能够根据输入的小分辨率的图像的特征,确定该图像内容相应的大分辨率图像的特征,提高了神经网络对于小分辨率图像数据的预测性能。
在上述实施例中,进一步地,根据第一梯度和第二梯度确定训练梯度的步骤包括:根据第一梯度和第二梯度,确定梯度差值;在梯度差值大于或等于0的情况下,将第一梯度和第二梯度相加,生成训练梯度。
在该实施例中,根据第一梯度和第二梯度确定训练的整体训练梯度的过程中,首先,需要根据第一梯度和第二梯度确定在将第一梯度和第二梯度进行累加时是否会发生梯度混乱。
可以理解的是,在根据第一梯度和第二梯度确定训练的整体梯度时,可以直接将第一梯度和第二梯度进行累加,进而得到整体的训练梯度,然而,根据第一梯度和第二梯度的实际情况,在累加的过程中,可能出现梯度混乱,在发生梯度混乱的情况下,直接第一梯度和第二梯度进行累加,则会导致更新神经网络的参数时出现误差,进而导致神经网络的训练效果下降。因此,首先根据第一梯度和第二梯度确定梯度差值,从而根据梯度差确定第一梯度和第二梯度在累加时是否会发生梯度混乱,进而在确定不会发生梯度混乱的情况下,再将第一梯度和第二梯度支架累加,得到整体的训练梯度,进而根据训练梯度更新神经网络的参数,完成神经网络的训练过程。
具体的,当梯度差值大于或等于零的情况下,则可以确定第一梯度和第二梯度在累加的过程中不会出现梯度混乱,从而可以直接将第一梯度和第二梯度相加,得到整体的训练梯度。
在上述实施例中,进一步地,根据第一梯度和第二梯度确定训练梯度的步骤还包括:在梯度差值小于0的情况下,根据第一预设公式:g=g1+g2–(g2 T×g1×g1)/‖g22,确定训练梯度;其中,g为训练梯度,g1为第一梯度,g2为第二梯度,g2 T为第二梯度的矩阵转置。
在该实施例中,根据第一梯度和第二梯度确定训练的整体训练梯度的过程中,首先,需要根据第一梯度和第二梯度确定在将第一梯度和第二梯度进行累加时是否会发生梯度混乱。
具体的,在根据第一梯度和第二梯度确定训练的整体梯度时,可以直接将第一梯度和第二梯度进行累加,进而得到整体的训练梯度,然而,根据第一梯度和第二梯度的实际情况,在累加的过程中,可能出现梯度混乱,在发生梯度混乱的情况下,直接第一梯度和第二梯度进行累加,则会导致更新神经网络的参数时出现误差,进而导致神经网络的训练效果下降。因此,在梯度差值小于0的情况下,则可以确定第一梯度和第二梯度在直接进行累加的过程中会发生梯度混乱,因此,在确定整体的训练梯度时,需要进行梯度修正,进而保证整体的训练梯度确定的准确性,进而保证神经网络的训练效果。
具体的,当梯度差值小于零时,可以根据第一预设公式:g=g1+g2–(g2 T×g1×g1)/‖g22,确定整体的训练梯度。其中,g为训练梯度,g1为第一梯度,g2为第二梯度,g2 T为第二梯度的矩阵转置。
也就是,在将第一梯度和第二梯度直接累加之后,还需要进行梯度修正,将第一梯度和第二梯度的累加值减去修正值,其中,修正值即为(g2 T×g1×g1)/‖g22,具体的,‖g2‖表示第二梯度的L1范数。
在上述实施例中,进一步地,根据第一梯度和第二梯度,确定梯度差值的步骤,包括:根据第二预设公式:Cos(φ)=(g2×g1)/||g2||||g1||,确定梯度差值;其中,Cos(φ)为梯度差值,g1为第一梯度,g2为第二梯度。
在该实施例中,限定了如何根据第一梯度和第二梯度确定梯度差值,进而可以根据梯度差值确定在将第一梯度和第二梯度进行累加以得到整体的训练梯度的过程中,是否需要进行梯度修正,以保证神经网络的训练效果。
具体的,可以根据第二预设公式:Cos(φ)=(g2×g1)/||g2||||g1||,确定梯度差值,其中,Cos(φ)为梯度差值,g1为第一梯度,g2为第二梯度,||g1||为第一梯度的L1范数,||g2||为第二梯度的L1范数,g2×g1为第一梯度和第二梯度的点积。
根据本申请的一个实施例,如图2所示,提出了一种神经网络的训练方法,包括:
S202,获取第一图像和第二图像;
S204,根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;
S206,根据第一梯度和第二梯度确定训练梯度;
S208,根据训练梯度更新神经网络的参数;
S210,在神经网络的参数的更新次数达到预设次数的情况下,根据第一图像对神经网络进行训练,生成第一图像对应的第一梯度;
S212,根据第一梯度更新神经网络的归一化层的参数。
其中,神经网络为卷积神经网络。
在该实施例中,神经网络可以为卷积神经网络,针对卷积神经网络,在训练的过程中,其中的归一化层需要累加统计数据,但是,由于在训练过程中输入的分辨率较小的第一图像和分辨率较大的第二图像,因此,第一图像和第二图像的特征同时存在时,会造成统计数据的混乱,进而影响神经网络的训练效果。因此,在训练完成之后,还需要对归一化层进行梯度矫正,从而避免数据混乱,保证训练效果。
具体的,在根据训练梯度对卷积神经网络的参数更新次数达到预设次数的情况下,可以确定训练完成,此时,可以仅将分辨率较小的第一图像输入值卷积神经网络中进行训练,并生成第一图像对应的第一梯度,然后根据第一梯度更新卷积神经网络的归一化层的参数,从而了在卷积神经网络的归一化层上进行梯度矫正,避免小分辨率的第一图像和大分辨率的第二图像同时存在的情况下导致归一化层的数据发生混乱,保证了卷积神经网络对于小分辨率的图像的预测效果。
进一步地,训练方法还包括:将神经网络中除归一化层之外的其他层的参数进行固定。
具体地,卷积神经网络出了归一化层之外,还包括多个其他层,例如输入层、卷积层和全连接层等,而在训练过程中,除归一化层之外的其它层并不会出现数据的混乱的现象,因此,通过将除归一化层之外的其他层的参数进行固定,保证在参数更行的过程中只更新归一化层的参数,而不对其它层的参数造成影响,在实现了对归一化层进行矫正的基础上,保证神经网络的其它层的数据稳定,进而保证了训练效果。
根据本申请的第二方面,提出了一种神经网络的训练装置,包括:获取单元,用于获取第一图像和第二图像;训练单元,用于根据第一图像和第二图像对神经网络进行训练,生成第一图像对应的第一梯度和第二图像对应的第二梯度;确定单元,用于根据第一梯度和第二梯度确定训练梯度;更新单元,用于根据训练梯度更新神经网络的参数;其中,第一图像和第二图像的显示内容相同,且第二图像的分辨率大于第一图像的分辨率。
本申请提供的神经网络的训练法装置,其中,该神经网络可以用于图像的预测。具体的,训练装置包括获取单元,首先,通过获取单元获取第一图像和第二图像。可以理解的时,第一图像和第二图像即为对神经网络进行训练所需要的训练样本。也即通过训练样本对神经网络进行训练,以提高训练后的神经网络对于图像的预测准确率,达到神经网络的训练目的。
具体的,第一图像和第二图像所显示的内容相同,但是,第一图像的分辨率小于第二图像的分辨率。也就是说,在对神经网络进行训练时,对于同一个图像内容的训练样本,提供了两种不同分辨率的第一图像和第二图像,从而可以在训练过程中,神经网络既能够观察到大分辨率的图像的特征,又能够观察到小分辨率的图像特征。
进一步地,训练单元分别将第一图像和第二图像输入神经网络中进行训练,在每轮训练之后,生成第一图像对应的第一梯度和第二图像对应的第二梯度。具体的,在将第一图像和第二图像输入神经网络之后,经过神经网络的预测,生成第一图像对应的第一预测数据,以及第二图像的第二预测数据,然后将第一预测数据和第二预测数据分别与第一图像和第二图像的原始数据进行对比,进而分别生成第一图像对应的第一梯度和第二图像对应的第二梯度。也就是,第一梯度和第二梯度分别反映了神经网络对于第一图像的预测数据与第一图像的原始数据之间的差异,以及神经网络对于第二图像的预测数据与第二图像的原始数据之间的差异。
进一步地,在得到了第一图像对应的第一梯度以及第二图像对应的第二梯度之后,确定单元可以根据第一梯度和第二梯度获取神经网络训练过程中的整体的训练梯度,也就是将第一梯度和第二梯度相结合,确定整体的训练梯度,从而使得更新单元根据整体的训练梯度进行参数更新时,能够同时观察到大分辨率图像的特征以及小分辨率图像的特征,进而使得神经网络能够将同一个图像内容的大分辨率特征和相应的小分辨率特征相关联,然后进行参数的更新,这样,在神经网络训练完成之后,在当输入小分辨率的图像时,神经网络能够根据输入的小分辨率的图像的特征,确定该图像内容相应的大分辨率图像的特征,在大分辨率的图像特征下,图像的预测准确率会得到提升。也就是提高了神经网络对于小分辨率图像数据的预测性能。
在相关技术中,在针对用于图像预测的神经网络进行训练时,如果使用较大分辨率的图像进行训练,则需要消耗较大的计算资源、计算机内存以及大量的时间,实现起来相对困难。而如果使用较小分辨率的图像进行训练,由于在训练时所输入的图像的分辨率较小,因此,即使经过训练之后,神经网络只能根据小分辨率的图像特征进行预测,仅仅是小分辨率的图像特征,对于图像的预测的准确率的提升仍然十分有限。从而使得神经网络在针对小分辨率的图像输入时的预测性能较差,无法保证准确率。
本申请提供的神经网络的训练装置,在获取样本数据时,针对同一个图像内容的样本,同时获取一个分辨率较小的第一图像以及一个分辨率较大的第二图像,进而将第一图像和第二图像同时输入到神经网络中进行训练,以得到小分辨率的第一图像对应的第一梯度,以及大分辨率的第二图像对应的第二梯度,进而根据第一梯度和第二梯度确定训练的整体训练梯度,然后根据整体的训练梯度进行神经网络的参数的更新。由于训练梯度是第一梯度和第二梯度的结合,因此神经网络在根据整体的训练梯度进行参数更新时,能够同时观察到大分辨率图像的特征以及小分辨率图像的特征,进而使得神经网络能够将同一个图像内容的大分辨率特征和相应的小分辨率特征相关联,然后进行参数的更新,这样,神经网络能够根据输入的小分辨率的图像的特征,确定该图像内容相应的大分辨率图像的特征,提高了神经网络对于小分辨率图像数据的预测性能。
在上述实施例中,进一步地,确定单元具体用于:根据第一梯度和第二梯度,确定梯度差值;在梯度差值大于或等于0的情况下,将第一梯度和第二梯度相加,生成训练梯度。
在该实施例中,根据第一梯度和第二梯度确定训练的整体训练梯度的过程中,首先,确定单元需要根据第一梯度和第二梯度确定在将第一梯度和第二梯度进行累加时是否会发生梯度混乱。
可以理解的是,在根据第一梯度和第二梯度确定训练的整体梯度时,可以直接将第一梯度和第二梯度进行累加,进而得到整体的训练梯度,然而,根据第一梯度和第二梯度的实际情况,在累加的过程中,可能出现梯度混乱,在发生梯度混乱的情况下,直接第一梯度和第二梯度进行累加,则会导致更新神经网络的参数时出现误差,进而导致神经网络的训练效果下降。因此,首先根据第一梯度和第二梯度确定梯度差值,从而根据梯度差确定第一梯度和第二梯度在累加时是否会发生梯度混乱,进而在确定不会发生梯度混乱的情况下,再将第一梯度和第二梯度支架累加,得到整体的训练梯度,进而根据训练梯度更新神经网络的参数,完成神经网络的训练过程。
具体的,当梯度差值大于或等于零的情况下,则可以确定第一梯度和第二梯度在累加的过程中不会出现梯度混乱,从而可以直接将第一梯度和第二梯度相加,得到整体的训练梯度。
在上述任一实施例中,进一步地,在梯度差值小于0的情况下,确定单元具体用于:根据预设公式:g=g1+g2–(g2 T×g1×g1)/‖g22,确定训练梯度;其中,g为训练梯度,g1为第一梯度,g2为第二梯度,g2 T为第二梯度的矩阵转置。
在该实施例中,在梯度差值小于0的情况下,确定单元具体用于:根据预设公式:g=g1+g2–(g2 T×g1×g1)/‖g22,确定训练梯度;其中,g为训练梯度,g1为第一梯度,g2为第二梯度,g2 T为第二梯度的矩阵转置。
在上述任一实施例中,进一步地,确定单元具体还用于:根据第二预设公式:Cos(φ)=(g2×g1)/||g2||||g1||,确定梯度差值;其中,Cos(φ)为梯度差值,g1为第一梯度,g2为第二梯度。
在该实施例中,限定了确定单元如何根据第一梯度和第二梯度确定梯度差值,进而可以根据梯度差值确定在将第一梯度和第二梯度进行累加以得到整体的训练梯度的过程中,是否需要进行梯度修正,以保证神经网络的训练效果。
具体的,确定单元可以根据第二预设公式:Cos(φ)=(g2×g1)/||g2||||g1||,确定梯度差值,其中,Cos(φ)为梯度差值,g1为第一梯度,g2为第二梯度,||g1||为第一梯度的L1范数,||g2||为第二梯度的L1范数。
在上述任一实施例中,神经网络为卷积神经网络,训练单元还用于:在神经网络的参数的更新次数达到预设次数的情况下,根据第一图像对神经网络进行训练,生成第一图像对应的第一梯度;更新单元还用于:根据第一梯度更新卷积神经网络的归一化层的参数。
在该实施例中,神经网络可以为卷积神经网络,针对卷积神经网络,在训练的过程中,其中的归一化层需要累加统计数据,但是,由于在训练过程中输入的分辨率较小的第一图像和分辨率较大的第二图像,因此,第一图像和第二图像的特征同时存在时,会造成统计数据的混乱,进而影响神经网络的训练效果。因此,在训练完成之后,还需要对归一化层进行梯度矫正,从而避免数据混乱,保证训练效果。
具体的,在根据训练梯度对卷积神经网络的参数更新次数达到预设次数的情况下,可以确定训练完成,此时,训练单元可以仅将分辨率较小的第一图像输入值卷积神经网络中进行训练,并生成第一图像对应的第一梯度,然后更新单元根据第一梯度更新卷积神经网络的归一化层的参数,从而了在卷积神经网络的归一化层上进行梯度矫正,避免小分辨率的第一图像和大分辨率的第二图像同时存在的情况下导致归一化层的数据发生混乱,保证了卷积神经网络对于小分辨率的图像的预测效果。
根据本申请的第三方面,提出了一种神经网络的训练装置,包括:处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如上述技术方案中任一项的神经网络的训练方法的步骤。
本申请提供的神经网络的训练装置,包括存储器和处理器,还包括存储在存储器上的程序或指令,该程序或指令被处理器执行时,能够实现上述技术方案中任一项的神经网络的训练方法的步骤,因此该神经网络的训练方法具备上述神经网络的训练方法的全部有益效果,在此不再赘述。
根据本申请的第四方面,提出了一种可读存储介质,其上存储有程序或指令,程序或指令被处理器执行时实现如上述技术方案中任一项的神经网络的训练方法。
本申请提供的可读存储介质,其上存储有程序或指令,因该程序或指令被处理器执行时,能够实现如上述技术方案中任一项的神经网络的训练方法,因此该存储介质具备上述神经网络的训练方法的全部有益效果,在此不再赘述。
根据本申请的第五方面,提出了一种电子设备,包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如上述技术方案中任一项神经网络的训练方法的步骤。
本申请提供的模型的电子设备,包括存储器和处理器,还包括存储在存储器上的程序或指令,该程序或指令被处理器执行时,能够实现上述技术方案中任一项的神经网络的训练方法的步骤,因此该电子设备具备上述神经网络的训练方法的全部有益效果,在此不再赘述。
根据本申请的第六方面,提出了一种计算机程序产品,包括计算机程序或指令,计算机程序或指令被处理器执行时实现上述实施例中任一项的神经网络的训练方法的步骤。因此该计算机程序产品具备上述神经网络的训练方法的全部有益效果,在此不再赘述。
在本说明书的描述中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,除非另有明确的规定和限定;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种神经网络的训练方法,其特征在于,包括:
获取第一图像和第二图像;
根据所述第一图像和所述第二图像对所述神经网络进行训练,生成所述第一图像对应的第一梯度和所述第二图像对应的第二梯度;
根据所述第一梯度和所述第二梯度确定训练梯度;
根据所述训练梯度更新所述神经网络的参数;
其中,所述第一图像和所述第二图像的显示内容相同,且所述第二图像的分辨率大于所述第一图像的分辨率,所述第一梯度和所述第二梯度分别表示所述神经网络对于所述第一图像的预测数据与所述第一图像的原始数据之间的差异,以及所述神经网络对于所述第二图像的预测数据与所述第二图像的原始数据之间的差异;
所述根据所述第一梯度和所述第二梯度确定训练梯度的步骤包括:
根据所述第一梯度和所述第二梯度,确定梯度差值;
在所述梯度差值小于0的情况下,根据预设公式:g=g1+g2–(g2 T×g1×g1)/‖g22,确定所述训练梯度;
所述根据所述第一梯度和所述第二梯度,确定梯度差值的步骤,包括:
根据第二预设公式:Cos(φ)=(g2×g1)/||g2||×||g1||,确定所述梯度差值;
其中,g为所述训练梯度,g1为所述第一梯度,g2为所述第二梯度,g2 T为所述第二梯度的矩阵转置,||g1||为所述第一梯度的L1范数,||g2||为所述第二梯度的L1范数,Cos(φ)为所述梯度差值。
2.根据权利要求1所述的训练方法,其特征在于,所述根据所述第一梯度和所述第二梯度确定训练梯度的步骤还包括:
在所述梯度差值大于或等于0的情况下,将所述第一梯度和所述第二梯度相加,生成所述训练梯度。
3.根据权利要求1或2所述的训练方法,其特征在于,所述神经网络为卷积神经网络,所述训练方法还包括:
在所述神经网络的参数的更新次数达到预设次数的情况下,根据所述第一图像对所述神经网络进行训练,生成所述第一图像对应的所述第一梯度;
根据所述第一梯度更新所述神经网络的归一化层的参数。
4.根据权利要求3所述的训练方法,其特征在于,所述训练方法还包括:
将所述神经网络中除所述归一化层之外的其他层的参数进行固定。
5.一种神经网络的训练装置,其特征在于,包括:
获取单元,用于获取第一图像和第二图像;
训练单元,用于根据所述第一图像和所述第二图像对所述神经网络进行训练,生成所述第一图像对应的第一梯度和所述第二图像对应的第二梯度;
确定单元,用于根据所述第一梯度和所述第二梯度确定训练梯度;
更新单元,用于根据所述训练梯度更新所述神经网络的参数;
其中,所述第一图像和所述第二图像的显示内容相同,且所述第二图像的分辨率大于所述第一图像的分辨率,所述第一梯度和所述第二梯度分别表示所述神经网络对于所述第一图像的预测数据与所述第一图像的原始数据之间的差异,以及所述神经网络对于所述第二图像的预测数据与所述第二图像的原始数据之间的差异;
确定单元具体还用于:
根据第二预设公式:Cos(φ)=(g2×g1)/||g2||×||g1||,确定梯度差值;
在所述梯度差值小于0的情况下,根据预设公式:g=g1+g2–(g2 T×g1×g1)/‖g22,确定所述训练梯度;
其中,g为所述训练梯度,g1为所述第一梯度,g2为所述第二梯度,g2 T为所述第二梯度的矩阵转置,||g1||为所述第一梯度的L1范数,||g2||为所述第二梯度的L1范数,Cos(φ)为所述梯度差值。
6.一种神经网络的训练装置,其特征在于,包括:
处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至4中任一项所述的神经网络的训练方法的步骤。
7.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至4中任一项所述的神经网络的训练方法的步骤。
8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至4中任一项所述的神经网络的训练方法的步骤。
9.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现如权利要求1至4中任一项所述的神经网络的训练方法的步骤。
CN202211537757.5A 2022-12-02 2022-12-02 神经网络的训练方法、训练装置和可读存储介质 Active CN115761448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211537757.5A CN115761448B (zh) 2022-12-02 2022-12-02 神经网络的训练方法、训练装置和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211537757.5A CN115761448B (zh) 2022-12-02 2022-12-02 神经网络的训练方法、训练装置和可读存储介质

Publications (2)

Publication Number Publication Date
CN115761448A CN115761448A (zh) 2023-03-07
CN115761448B true CN115761448B (zh) 2024-03-01

Family

ID=85342645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211537757.5A Active CN115761448B (zh) 2022-12-02 2022-12-02 神经网络的训练方法、训练装置和可读存储介质

Country Status (1)

Country Link
CN (1) CN115761448B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250931A (zh) * 2016-08-03 2016-12-21 武汉大学 一种基于随机卷积神经网络的高分辨率图像场景分类方法
CN107578453A (zh) * 2017-10-18 2018-01-12 北京旷视科技有限公司 压缩图像处理方法、装置、电子设备及计算机可读介质
CN107622274A (zh) * 2016-07-15 2018-01-23 北京市商汤科技开发有限公司 用于图像处理的神经网络训练方法、装置以及计算机设备
CN108898560A (zh) * 2018-06-21 2018-11-27 四川大学 基于三维卷积神经网络的岩心ct图像超分辨率重建方法
CN111583305A (zh) * 2020-05-11 2020-08-25 北京市商汤科技开发有限公司 神经网络训练及运动轨迹确定方法、装置、设备和介质
WO2020248495A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 模型训练方法、装置及计算机可读存储介质
WO2021022685A1 (zh) * 2019-08-08 2021-02-11 合肥图鸭信息科技有限公司 一种神经网络训练方法、装置及终端设备
CN113096023A (zh) * 2020-01-08 2021-07-09 字节跳动有限公司 神经网络的训练方法、图像处理方法及装置、存储介质
CN113449840A (zh) * 2020-03-27 2021-09-28 南京人工智能高等研究院有限公司 神经网络训练方法及装置、图像分类的方法及装置
CN113887699A (zh) * 2021-09-02 2022-01-04 美的集团(上海)有限公司 知识蒸馏方法及电子设备、存储介质
CN115205094A (zh) * 2022-05-31 2022-10-18 浙江大华技术股份有限公司 一种神经网络训练方法、图像检测方法及其设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10540749B2 (en) * 2018-03-29 2020-01-21 Mitsubishi Electric Research Laboratories, Inc. System and method for learning-based image super-resolution
CN110428378B (zh) * 2019-07-26 2022-02-08 北京小米移动软件有限公司 图像的处理方法、装置及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107622274A (zh) * 2016-07-15 2018-01-23 北京市商汤科技开发有限公司 用于图像处理的神经网络训练方法、装置以及计算机设备
CN106250931A (zh) * 2016-08-03 2016-12-21 武汉大学 一种基于随机卷积神经网络的高分辨率图像场景分类方法
CN107578453A (zh) * 2017-10-18 2018-01-12 北京旷视科技有限公司 压缩图像处理方法、装置、电子设备及计算机可读介质
CN108898560A (zh) * 2018-06-21 2018-11-27 四川大学 基于三维卷积神经网络的岩心ct图像超分辨率重建方法
WO2020248495A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 模型训练方法、装置及计算机可读存储介质
WO2021022685A1 (zh) * 2019-08-08 2021-02-11 合肥图鸭信息科技有限公司 一种神经网络训练方法、装置及终端设备
CN113096023A (zh) * 2020-01-08 2021-07-09 字节跳动有限公司 神经网络的训练方法、图像处理方法及装置、存储介质
CN113449840A (zh) * 2020-03-27 2021-09-28 南京人工智能高等研究院有限公司 神经网络训练方法及装置、图像分类的方法及装置
CN111583305A (zh) * 2020-05-11 2020-08-25 北京市商汤科技开发有限公司 神经网络训练及运动轨迹确定方法、装置、设备和介质
CN113887699A (zh) * 2021-09-02 2022-01-04 美的集团(上海)有限公司 知识蒸馏方法及电子设备、存储介质
CN115205094A (zh) * 2022-05-31 2022-10-18 浙江大华技术股份有限公司 一种神经网络训练方法、图像检测方法及其设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Yinggan Tang等.Single image super-resolution using Wasserstein generative adversarial network with gradient penalty.《Pattern Recognition Letters》.2022,全文. *
岳林蔚等.基于双边结构张量的局部自适应图像超分辨率重建.《武汉大学学报(信息科学版)》.2015,第40卷(第4期),全文. *
王爱丽 ; 张小妹 ; 韩闯 ; 刘源 ; .基于深度卷积神经网络的遥感图像超分辨率重建.黑龙江大学自然科学学报.2018,(第01期),全文. *
罗梦贞等.深度学习网络的毫米波全息成像图像重建.《激光杂志》.2021,第42卷(第6期),全文. *

Also Published As

Publication number Publication date
CN115761448A (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
CN107480028B (zh) 磁盘可使用的剩余时长的获取方法及装置
US20180182285A1 (en) Method and apparatus for establishing luminance compensation model, method and apparatus for compensating for luminance of display screen, and display device
US8606035B2 (en) Image processing apparatus and image processing method
JP5096194B2 (ja) データ処理装置、プログラムおよびデータ処理方法
JP2008154418A (ja) 配電系統の状態推定装置、状態推定方法及びそのプログラム
JP6237138B2 (ja) 情報処理装置、画像形成装置、および、プログラム
CN108320026B (zh) 机器学习模型训练方法和装置
CN115761448B (zh) 神经网络的训练方法、训练装置和可读存储介质
JP7214417B2 (ja) データ処理方法およびデータ処理プログラム
JP2019028538A (ja) オートスケール処理装置、オートスケール方法及びプログラム
CN115357740A (zh) 大规模数据的可视化方法、装置和电子装置
US20210021757A1 (en) Arithmetic device, arithmetic method, and program
CN109426599A (zh) 功率估算方法与功率估算装置
JP5153448B2 (ja) プロジェクト管理装置及びプロジェクト管理装置のプロジェクト管理方法及びプロジェクト管理装置のプロジェクト管理プログラム
US8627472B2 (en) Determining heavy distinct hitters in a data stream
JP2020047847A (ja) データ処理方法、データ処理装置、およびデータ処理プログラム
JP5636922B2 (ja) 性能予測装置、性能予測方法およびプログラム
JP2010160721A (ja) 画像処理装置および方法、並びにプログラム
US6925117B2 (en) Data transmission apparatus, method and program, data reception apparatus and method, and data transmission and reception system, using differential data
JP2004139464A (ja) 画像処理装置、画像処理方法、プログラム及び記録媒体
US20140136463A1 (en) Mode determination for multivariate time series data
JP2010170182A (ja) データ表示装置及びデータ表示システム
JP7384081B2 (ja) 情報処理装置、データ分解方法、及びデータ分解プログラム
CN115077566B (zh) 惯性导航系统解算方法
JP6215187B2 (ja) 情報処理システム、サーバ及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant