CN112580689A - 神经网络模型的训练方法、应用方法、装置和电子设备 - Google Patents
神经网络模型的训练方法、应用方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112580689A CN112580689A CN202011324872.5A CN202011324872A CN112580689A CN 112580689 A CN112580689 A CN 112580689A CN 202011324872 A CN202011324872 A CN 202011324872A CN 112580689 A CN112580689 A CN 112580689A
- Authority
- CN
- China
- Prior art keywords
- data enhancement
- enhancement operation
- training
- set table
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 264
- 238000003062 neural network model Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000005070 sampling Methods 0.000 claims abstract description 112
- 238000005259 measurement Methods 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims description 21
- 230000002708 enhancing effect Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005314 correlation function Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 21
- 230000000875 corresponding effect Effects 0.000 description 103
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种神经网络模型的训练方法、应用方法、装置和电子设备,其中,通过基于每个新样本训练后的损失值确定出当前训练周期每个数据增强操作的损失值均值,进而更新集合表中的损失衡量参数,使集合表中各个数据增强操作的损失衡量参数为多个训练周期累积出的损失结果,而基于集合表中多个训练周期累积出的损失衡量参数更新对应的采样概率参数,能够使更新后的采样概率参数也与多个训练周期累积出的损失结果有关,进而影响后续基于集合表中的采样概率参数选择数据增强操作的选择,使选择出的数据增强操作更合理,有效提升了神经网络模型的训练速度和训练效果。
Description
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种神经网络模型的训练方法、应用方法、装置和电子设备。
背景技术
在基于神经网络的图像分类任务中,数据增强(也称数据增广)是一种广泛使用的用以提升分类效果的技巧。数据增强通过改变图片的某些属性达到扩充数据集的效果,例如:对图片进行水平或垂直翻转,亦或是改变图片的颜色等等。数据增强的算法比较多,有些算法适用的图片有一定的局限性,例如,对一张数字6的图片进行垂直翻转,就会变成数字9,这种数据增强算法改变了图片的本质。
为了得到比较好的模型训练效果,在进行数据增加过程中,可以借助一些搜索算法,在一个给定的数据增强操作集上搜索能够最大化模型效果的数据增强策略(其中,策略是指多个数据增强操作的合集,例如,水平翻转和改变颜色可以组合成一个数据增强策略)。在目标模型训练的过程中,通常使用一个代理模型验证数据增强策略的效果。例如,在一种数据增强策略下,训练并更新代理模型,然后再将代理模型在验证集上的效果当作这个数据增强策略的得分。因为代理模型与实际需要训练的目标模型不同,因此代理模型上的训练效果并不能直接代表在目标模型的训练效果;另外,代理模型的训练和更新比较耗费时间,也影响了目标模型的训练效率。
发明内容
有鉴于此,本发明的目的在于提供一种神经网络模型的训练方法、应用方法、装置和电子设备,以提升神经网络模型训练效率。
第一方面,本发明实施例提供了一种神经网络模型的训练方法,其中,该方法应用于电子设备,电子设备预存有集合表,集合表包括多个数据增强操作,以及数据增强操作对应的采样概率参数和损失衡量参数,包括:对于每个训练周期,均从训练样本集合中选择当前训练周期的样本组;基于集合表中的采样概率参数,随机应用集合表中的数据增强操作对样本组中的样本进行增强,得到新样本组,记录新样本组中的新样本与数据增强操作的对应关系;应用新样本组训练神经网络模型,基于每个新样本的损失值和对应关系,计算选择的数据增强操作在当前训练周期的损失值均值;对于每个选择的数据增强操作,均基于该数据增强操作的损失值均值和上一训练周期集合表中该数据增强操作对应的损失衡量参数,更新当前训练周期集合表中该数据增强操作对应的损失衡量参数;继续执行下一个训练周期的训练,直到本轮训练周期的次数达到预设值,应用集合表中的损失衡量参数更新集合表中的采样概率参数,继续后续训练,直到训练完成。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,数据增强操作对应的采样概率参数的初始值为1/m,其中,m为集合表包括的数据增强操作的个数;损失衡量参数的初始值为0。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,基于集合表中的采样概率参数,随机应用集合表中的数据增强操作对样本组中的样本进行增强的步骤,包括:分别将样本组中的样本作为目标样本,对于每一个目标样本,均执行以下操作:基于集合表中的采样概率参数随机从集合表中选择数据增强操作;应用选择的数据增强操作对目标样本进行增强,得到新样本。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,基于集合表中的采样概率参数随机从集合表中选择数据增强操作的步骤,包括:生成0至1之间的随机数x;如果x小于集合表中首个数据增强操作的采样概率参数,选择首个数据增强操作;如果x大于首个数据增强操作的采样概率参数,执行以下计算操作:从集合表中首个数据增强操作开始,计算当前数据增强操作的采样概率参数与当前数据增强操作之前的所有数据增强操作的采样概率参数之和,得到和值;如果x大于和值,继续执行计算操作,直到x小于或等于和值,并选择x小于或等于和值对应的当前数据增强操作。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,基于集合表中的采样概率参数,随机应用集合表中的数据增强操作对样本组中的样本进行增强的步骤,包括:对于样本组中的每个样本,均执行以下操作:基于集合表中的采样概率参数,随机从集合表中选择两个不同的数据增强操作;应用选择的两个不同的数据增强操作分别对样本进行增强,得到新样本。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,基于每个新样本的损失值和对应关系,计算选择的数据增强操作在当前训练周期的损失值均值的步骤,包括:将每个选择的数据增强操作作为目标数据增强操作,对于每个目标数据增强操作均执行以下操作:根据对应关系确定目标数据增强操作对应的目标新样本集合;计算目标新样本集合中的新样本的损失值的均值;将均值作为目标数据增强操作在当前训练周期的损失值均值。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,基于该数据增强操作的损失值均值和上一训练周期集合表中该数据增强操作对应的损失衡量参数,更新当前训练周期集合表中该数据增强操作对应的损失衡量参数的步骤,包括:通过以下公式更新当前训练周期集合表中该数据增强操作对应的损失衡量参数:Avgi=K1·Avgi-1+K2·Mean;其中,Avgi为当前训练周期集合表中该数据增强操作对应的损失衡量参数;i为周期标识;K1和K2为预设的0至1之间的权重系数,其中,K1+K2=1,且K1大于K2;Mean为当前训练周期该数据增强操作的损失值均值。
结合第一方面,本发明实施例提供了第一方面的第七种可能的实施方式,其中,应用集合表中的损失衡量参数更新集合表中的采样概率参数的步骤,包括:对于集合表中的每个数据增强操作,均将该数据增强操作对应的损失衡量参数代入预设的正相关函数,得到该数据增强操作对应的采样概率参数。
第二方面,本发明实施例还提供一种神经网络模型的应用方法,上述方法应用于电子设备,上述方法包括:基于当前任务获取待处理的目标图像;其中,当前任务包括针对目标对象的检测任务、识别任务或跟踪任务;目标对象包括以下之一:行人、人体部位、车辆或车牌;将目标图像输入预先训练好的神经网络模型,得到神经网络模型输出的目标图像对应的结果;其中,神经网络模型为应用上述训练方法训练得到的模型。
第三方面,本发明实施例还提供一种神经网络模型的训练装置,其中,上述装置应用于电子设备,电子设备预存有集合表,集合表包括多个数据增强操作,以及数据增强操作对应的采样概率参数和损失衡量参数,上述装置包括:选择模块,用于对于每个训练周期,均从训练样本集合中选择当前训练周期的样本组;增强模块,用于基于集合表中的采样概率参数,随机应用集合表中的数据增强操作对样本组中的样本进行增强,得到新样本组,记录新样本组中的新样本与数据增强操作的对应关系;计算模块,用于应用新样本组训练神经网络模型,基于每个新样本的损失值和对应关系,计算选择的数据增强操作在当前训练周期的损失值均值;更新模块,用于对于每个选择的数据增强操作,均基于该数据增强操作的损失值均值和上一训练周期集合表中该数据增强操作对应的损失衡量参数,更新当前训练周期集合表中该数据增强操作对应的损失衡量参数;训练模块,用于继续执行下一个训练周期的训练,直到本轮训练周期的次数达到预设值,应用集合表中的损失衡量参数更新集合表中的采样概率参数,继续后续训练,直到训练完成。
第四方面,本发明实施例还提供一种神经网络模型的应用装置,上述装置应用于电子设备,该装置包括:目标图像获取模块,用于基于当前任务获取待处理的目标图像;其中,当前任务包括针对目标对象的检测任务、识别任务或跟踪任务;目标对象包括以下之一:行人、人体部位、车辆或车牌;模型处理模块,用于将目标图像输入预先训练好的神经网络模型,得到神经网络模型输出的目标图像对应的结果;其中,神经网络模型为应用上述训练方法训练得到的模型。
第五方面,本发明实施例还提供一种电子设备,其中,电子设备包括:图像采集设备、处理设备和存储装置;图像采集设备,用于获取待检测图像;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述的神经网络模型的训练方法或应用方法。
第六方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其中,计算机程序被处理设备运行时执行如上述的神经网络模型的训练方法或应用方法的步骤。
本发明实施例带来了以下有益效果:
本申请实施例提供一种神经网络模型的训练方法、应用方法、装置和电子设备,其中,通过基于每个新样本训练后的损失值确定出当前训练周期每个数据增强操作的损失值均值,进而更新集合表中的损失衡量参数,使集合表中各个数据增强操作的损失衡量参数为多个训练周期累积出的损失结果,而基于集合表中多个训练周期累积出的损失衡量参数更新对应的采样概率参数,能够使更新后的采样概率参数也与多个训练周期累积出的损失结果有关,进而影响后续基于集合表中的采样概率参数选择数据增强操作的选择,使选择出的数据增强操作更合理,有效提升了神经网络模型的训练速度和训练效果,进而保障了模型使用过程中的准确度。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子设备的结构示意图;
图2为本发明实施例提供的一种神经网络模型的训练方法的流程图;
图3为本发明实施例提供的另一种神经网络模型的训练方法的流程图;
图4为本发明实施例提供的另一种神经网络模型的训练方法的流程图;
图5为本发明实施例提供的一种神经网络模型的训练装置的结构示意图;
图6为本发明实施例提供的一种神经网络模型的应用方法的流程图;
图7为本发明实施例提供的一种神经网络模型的应用装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,基于不同的计算机视觉任务,选择该任务适合的神经网络模型和该任务适合的一系列数据增强操作(也称数据增广操作),这些数据增强操作可以组成一个集合或者存放于一个列表中。本发明实施例中的数据增强操作包括但不限于:水平翻转、垂直翻转、旋转、调整图像对比度、反色转换、直方图均衡化、色调分离、调整图像的饱和度、调整图像的亮度、调整图像锐度、对图像进行随机遮挡等。
使用过程中可以从上述集合或列表中选取一个或多个数据增强操作,将选取的数据增强操作组成数据增强策略,将不同的数据增强策略应用于训练样本(例如:图像样本),可以变换出更多的训练样本,进而达到扩展训练样本的目的,基于这些训练样本训练神经网络模型。为了提升模型的训练速度和训练效果,本发明实施例提供的一种神经网络模型的训练方法、应用方法、装置和电子设备,通过结合数据增强操作在多个样本上累积出的损失衡量参数,确定该数据增强操作的采样概率参数,基于各个数据增强操作对应的采样概率参数选择数据增强操作,可以使选择出的数据增强操作更合理,进而能够有效提升神经网络模型的训练速度和训练效果,进而提升模型应用的可靠性。下面通过实施例进行描述。
本发明实施例中的神经网络模型可以应用于目标检测、目标识别等多种应用场景中,例如应用神经网络模型进行行人或车辆的识别、应用神经网络模型进行行人或车辆的跟踪、应用神经网络模型进行人体部位或车辆部件(如车牌或车标)的识别等。在此不对神经网络模型的应用场景进行限定。
如图1所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,电子设备也可以具有其他组件和结构。
处理设备102可以为服务器、智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子设备100中的其它组件的数据进行处理,还可以控制电子设备100中的其它组件以执行神经网络模型训练或应用的功能。
存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
图像采集设备110可以获取训练样本或目标图像,并且将采集到的训练样本或目标图像存储在存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的神经网络模型的训练方法、应用方法、装置和电子设备中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到训练样本或目标图像的指定位置。当上述电子设备中的各器件集成设置时,该电子设备可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。
基于上述电子设备,本实施例提供了一种神经网络模型的训练方法,该方法应用于上述电子设备,该电子设备预存有集合表,该集合表包括多个数据增强操作,以及各个数据增强操作对应的采样概率参数和损失衡量参数。其中,采样概率参数用于指示数据增强操作被选中的可能性大小,损失衡量参数用于表征数据增强操作在神经网络模型训练过程中的损失影响。为了便于说明,表1示出了一种集合表:
表1
数据增强操作 | 采样概率参数 | 损失衡量参数 |
数据增强操作o<sub>1</sub> | A1 | B1 |
数据增强操作o<sub>2</sub> | A2 | B2 |
数据增强操作o<sub>3</sub> | A3 | B3 |
… | … | … |
数据增强操作o<sub>m</sub> | Am | Bm |
在表1中示出了m个互不相同的数据增强操作,每个数据增强操作均对应一采样概率参数和一损失衡量参数,为了保证初次选择增强操作时的随机性,在本实施例中,将每个数据增强操作对应的采样概率参数的初始值设为1/m,其中,m个数据增强操作的采样概率参数的值相加为1;本实施例中将每个数据增强操作对应的损失衡量参数的初始值设为0。
基于上述描述,参见图2所示的一种神经网络模型的训练方法的流程图,该方法具体包括如下步骤:
步骤S202,对于每个训练周期,均从训练样本集合中选择当前训练周期的样本组;
训练样本集合中的样本可以是利用上述电子设备预先采集到的,也可以是上述电子设备从第三方设备中得到。在进行每个每次训练时,可以将整个训练样本集合中的样本作为本次训练周期的样本组,或者,随机选取训练样本集合中的部分样本作为本次训练周期的样本组,其中,当前训练周期的样本组的样本数量可以根据实际需要进行选取,在此不进行限定。
步骤S204,基于集合表中的采样概率参数,随机应用集合表中的数据增强操作对样本组中的样本进行增强,得到新样本组,记录新样本组中的新样本与数据增强操作的对应关系;
其中,本实施例集合表中的采样概率参数可以每隔一段时间或者一定的训练次数更新,采样概率参数的具体更新方式可以基于损失衡量参数进行。
本实施例中,对于还未进行采样概率参数更新时的训练样本,由于集合表中各个数据增强操作对应的采样概率参数均为初始值,即此时各个数据增强操作对应的采样概率参数相等,所以对于这些样本,随机应用集合表中的数据增强操作对该样本进行增强中的随机指可以从集合表中选择任意一个或多个数据增强操作应用于该样本上,而选择是随机性的。以集合表中有4个数据增强操作为例,其采样概率参数的初始值均为0.25(即1/4)。集合表如表2所示:
表2
数据增强操作 | 采样概率参数 | 损失衡量参数 |
数据增强操作1 | 0.25 | 0 |
数据增强操作2 | 0.25 | 0 |
数据增强操作3 | 0.25 | 0 |
数据增强操作4 | 0.25 | 0 |
对于第一个样本,为了保证选择的随机性,生成0至1之间的随机数,假设该随机数为0.3,而0.3介于0.25和0.5之间,因此为第一个样本选择数据增强操作2。对于第二个样本,假设生成0至1之间的随机数为0.8,而0.8介于0.75和1之间,因此为第二个样本选择数据增强操作4。
而对于已进行采样概率参数更新后的训练样本,由于集合表中各个数据增强操作对应的采样概率参数为更新后的值,即此时各个数据增强操作对应的采样概率参数可能不相等,因此基于集合表中的采样概率参数,机应用集合表中的数据增强操作对样本组中的样本进行增强中的随机会受采样概率参数的影响,进而导致不同数据增强操作被选中的可能性大小会有所不同。
在选择数据增强操作时,至少为上述样本组中的每个样本选择一个数据增强操作。在本实施例中,不对样本组中每个样本选择数据增强操作的个数进行限定,当一个样本选择多个数据增强操作时,为了避免选择相同的数据增强操作,可以在选择数据增强操作时进行标记或者从集合表中取出该数据增强操作,例如:对于一个样本,当从集合表中选择第二个数据增强操作时,可以将集合表中第二个数据增强操作设置为灰色或其它颜色,以表明该第二个数据增强操作当前为不可选状态,这样在为该样本选择下一个数据增强操作时,将不会选中该第二个数据增强操作。当为下一个样本选择数据增强操作时,将集合表中的数据增强操作均恢复为默认颜色,以为下一个样本选择数据增强操作。
在实际使用时,为了评价数据增强操作的训练效果,在对样本进行数据增强操作后,可以记录新样本组中的新样本与数据增强操作的对应关系,如表3所示的一个样本对应一个数据增强操作的对应关系示例。
表3
样本标识 | 数据增强操作标识 |
新样本1 | 数据增强操作1 |
新样本2 | 数据增强操作2 |
新样本3 | 数据增强操作3 |
新样本4 | 数据增强操作4 |
如表4所示的一个样本对应两个数据增强操作的对应关系示例。
表4
通过上述对应关系能够明确每个新样本是通过哪些数据增强操作得到的。对应关系除了上述表3和表4之外的形式之外,如果对原样本可以依次进行两种不同的数据增强操作,该对应关系可以记录使用数据增强操作的先后顺利。比如,对应关系为(新样本1,o1,o3,o4),则表示新样本1是通过对原样本1依次进行数据增强操作o1、数据增强操作o3和数据增强操作o4得到的;对应关系为(新样本3,o6,o3),则表示新样本3是通过对原样本3依次进行数据增强操作o6和数据增强操作o3得到的。
步骤S206,应用新样本组训练神经网络模型,基于每个新样本的损失值和上述对应关系,计算选择的数据增强操作在当前训练周期的损失值均值;
将新样本组中的每个新样本分别输入至神经网络模型中,得到每个新样本的损失值,该损失值可以为交叉熵损失,也可以是均方误差,在此不进行限定;
基于新样本与数据增强操作的上述对应关系,找出选择的每个数据增强操作对应的新样本有哪些,则将这些新样本分别对应的损失值进行均值运算,以得到每个数据增强操作在当前训练周期的损失值均值。比如,对于上述数据增强操作o3对应的新样本为新样本1和新样本3,其中,新样本1的均方误差为0.01,新样本3的均方误差为0.03,则数据增强操作o3在当前训练周期的损失值均值则为0.02。
步骤S208,对于每个选择的数据增强操作,均基于该数据增强操作的损失值均值和上一训练周期集合表中该数据增强操作对应的损失衡量参数,更新当前训练周期集合表中该数据增强操作对应的损失衡量参数;
本实施例中,可以每次完成一个周期的样本训练,更新一次集合表中的损失衡量参数。每个选择的数据增强操作可基于当前训练周期得到的损失值均值和上一训练周期得到的损失衡量参数计算当前训练周期数据增强操作对应的损失衡量参数,该计算过程可以采用多种函数实现,这些函数只需体现出数据增强操作对应的损失衡量参数表征该数据增强操作对应的累积损失影响的大小即可。得到当前训练周期数据增强操作对应的损失衡量参数后,利用当前训练周期数据增强操作对应的损失衡量参数更新集合表中上一训练周期得到的数据增强操作对应损失衡量参数。
步骤S210,继续执行下一个训练周期的训练,直到本轮训练周期的次数达到预设值,应用集合表中的损失衡量参数更新集合表中的采样概率参数,继续后续训练,直到训练完成。
在实际应用时,可循环执行步骤S202至步骤S208的过程,直至循环的次数达到预设值时,利用集合表中的损失衡量参数对集合表中的采样概率参数进行更新,即集合表中的采样概率参数的更新频率低于集合表中的损失衡量参数的更新频率。例如:集合表中的损失衡量参数在每个训练周期更新一次,而集合表中的采样概率参数则可以每10个或50个训练周期更新一次。
在对神经网络模型进行训练的过程中,可基于更新后的集合表中的采样概率参数,选择数据增强操作。而采样概率参数是应用集合表中的损失衡量参数进行更新的,为了使选择的数据增强操作更合理,本实施例的损失衡量参数与采样概率参数正相关,即,损失衡量参数越大,采样概率参数越大。而损失衡量参数越大,说明在这个数据增强操作下,神经网络模型的训练效果较差,也就是神经网络模型更加需要在这个数据增强操作下训练以便取得更好的效果。
本申请实施例提供的上述神经网络模型的训练方法,通过基于每个新样本训练后的损失值确定出当前训练周期每个数据增强操作的损失值均值,进而更新集合表中的损失衡量参数,使集合表中各个数据增强操作的损失衡量参数为多个训练周期累积出的损失结果,而基于集合表中多个训练周期累积出的损失衡量参数更新对应的采样概率参数,能够使更新后的采样概率参数也与多个训练周期累积出的损失结果有关,进而影响后续基于集合表中的采样概率参数选择数据增强操作的选择,使选择出的数据增强操作更合理,有效提升了神经网络模型的训练速度和训练效果。
本实施例提供了另一种神经网络模型的训练方法,该方法在上述实施例的基础上实现;本实施例重点描述对样本组中的样本进行增强的具体实施方式。如图3所示的另一种神经网络模型的训练方法的流程图,本实施例中的网络模型训练方法包括如下步骤:
步骤S302,对于每个训练周期,均从训练样本集合中选择当前训练周期的样本组;
步骤S304,分别将样本组中的样本作为目标样本,对于每一个目标样本,均执行以下步骤S306-步骤S308的操作:
步骤S306,基于集合表中的采样概率参数随机从集合表中选择数据增强操作;
其中,步骤S306具体可由步骤A1至步骤A3实现:
步骤A1,生成0至1之间的随机数x;
在实际使用时,针对样本组中的每个目标样本可利用随机生成器在每个训练周期生成一个0至1之间的随机数x。
步骤A2,如果x小于集合表中首个数据增强操作的采样概率参数,选择首个数据增强操作;
继续以表1为例,表1中首个数据增强操作为数据增强操作o1,如果目标样本对应的随机数x小于数据增强操作o1的采样概率参数A1,则为目标样本选择数据增强操作o1。
步骤A3,如果x大于首个数据增强操作的采样概率参数,执行以下计算操作:(1)从集合表中首个数据增强操作开始,计算当前数据增强操作的采样概率参数与当前数据增强操作之前的所有数据增强操作的采样概率参数之和,得到和值;
以表1中数据增强操作o1至数据增强操作om的顺序为例,如果x大于首个数据增强操作的采样概率参数,则从数据增强操作o1开始,先以数据增强操作o2作为当前数据增强操作,计算A1+A2,得到和值。
(2)如果x大于和值,继续执行上述(1)的计算操作,直到x小于计算得到的和值,并选择x小于或等于上述和值对应的当前数据增强操作。
如果上述x小于或等于A1+A2的和值,则为目标样本选择数据增强操作o2。
如果上述x大于A1+A2的和值,则继续执行上述(1),以数据增强操作o3作为当前数据增强操作,计算A1+A2+A3的和值,若此时x小于或等于A1+A2+A3的和值,则为目标样本选择数据增强操作o3。否则,以此类推,直至x小于计算出的和值为止,在此不进行赘述。
这种以随机数为基础选择数据增强操作的方式,可以保证数据增强操作选择的随机性,避免人为主观因素干扰数据增强操作的选择,进而能保证新样本的多样性,利于模型训练。
步骤S308,应用选择的数据增强操作对目标样本进行增强,得到新样本,记录新样本组中的新样本与数据增强操作的对应关系;
如果利用上述步骤S306选择出的数据增强操作的数量为一个,则利用该数据增强操作对目标样本进行增强;如果选择出的数据增强操作的数量为多个,则可以按照预设增强顺序依次对目标样本进行增强,或者,可以按照应用多个数据增强操作分别对目标样本进行增强,在此不进行限定。
在本实施例中,除了可以利用随机数x的方法进行数据增强操作选取对目标样本进行增强得到新样本之外,还可以对样本组中的每个样本,基于集合表中的采样概率参数,随机从集合表中选择两个不同的数据增强操作;应用选择的两个不同的数据增强操作分别对样本进行增强,得到新样本。
对于样本组中的每个样本均可以随机的在从集合表中选择两个不同的数据增强操作对样本进行增强,具体地,可以根据选取数据增强操作的顺序对样本进行增强,以得到新样本;或者,可以应用两个数据增强操作分别对样本进行增强,以得到两个新样本,在此不进行限定。
步骤S310,应用新样本组训练神经网络模型,基于每个新样本的损失值和对应关系,计算选择的数据增强操作在当前训练周期的损失值均值;
步骤S312,对于每个选择的数据增强操作,均基于该数据增强操作的损失值均值和上一训练周期集合表中该数据增强操作对应的损失衡量参数,更新当前训练周期集合表中该数据增强操作对应的损失衡量参数;
步骤S314,继续执行下一个训练周期的训练,直到本轮训练周期的次数达到预设值,应用集合表中的损失衡量参数更新集合表中的采样概率参数,继续后续训练,直到训练完成。
本发明实施例提供的上述神经网络模型的训练方法,能够利用随机数x与数据增强操作的采样概率参数之间的大小关系选取样本的数据增强操作,以对样本进行增强操作得到新样本,进而通过新样本的损失值确定出当前训练周期每个数据增强操作的损失值均值,更新集合表中的损失衡量参数,再此基础上,根据多个训练周期累积出的损失衡量参数更新对应的采样概率参数,使基于集合表中的采样概率参数选择的数据增强操作更合理,有效提升了神经网络模型的训练速度和训练效果。
本实施例提供了另一种神经网络模型的训练方法,该方法在上述实施例的基础上实现;本实施例重点描述计算当前训练周期的损失值均值的具体实施方式。如图4所示的另一种神经网络模型的训练方法的流程图,本实施例中的网络模型训练方法包括如下步骤:
步骤S402,对于每个训练周期,均从训练样本集合中选择当前训练周期的样本组;
步骤S404,基于集合表中的采样概率参数,随机应用集合表中的数据增强操作对样本组中的样本进行增强,得到新样本组,记录新样本组中的新样本与数据增强操作的对应关系;
步骤S406,应用新样本组训练神经网络模型,将每个选择的数据增强操作作为目标数据增强操作,对于每个目标数据增强操作均执行步骤S408-步骤S410的操作:
步骤S408,根据上述对应关系确定目标数据增强操作对应的目标新样本集合;
在本实施例中,新样本组中的每个新样本均是利用通过步骤S404选取出的数据增强操作对样本进行增强得到的,因此,对应关系中记录了新样本与数据增强操作间的对应关系,基于该对应关系,找出每个目标数据增强操作对应的目标新样本有哪些,比如,对于上述实施例中的目标数据增强操作o3对应的目标新样本为新样本1和新样本3,对于目标数据增强操作o1对应的目标新样本为新样本1,对于目标数据增强操作o4对应的目标新样本为新样本1,对于目标数据增强操作o6对应的目标新样本为新样本3。
步骤S410,计算目标新样本集合中的新样本的损失值的均值,并将该均值作为目标数据增强操作在当前训练周期的损失值均值;
上述新样本的损失值是将新样本输入至神经网络模型中得到的,在本实施例中,将每个目标数据增强操作对应的目标新样本集合中的新样本损失值的进行求和在进行均值运算,得到目标数据增强操作在当前训练周期的损失值均值。比如,对于目标数据增强操作o3,由于新样本1的均方误差为0.01,新样本3的均方误差为0.03,则目标数据增强操作o3在当前训练周期的损失值均值则为0.02;而对于目标数据增强操作o1在当前训练周期的损失值均值则为0.01。
步骤S412,对于每个选择的数据增强操作,均基于该数据增强操作的损失值均值和上一训练周期集合表中该数据增强操作对应的损失衡量参数,更新当前训练周期集合表中该数据增强操作对应的损失衡量参数;
具体实现时,通过以下公式更新当前训练周期集合表中该数据增强操作对应的损失衡量参数:Avgi=K1·Avgi-1+K2·Mean;其中,Avgi为当前训练周期集合表中该数据增强操作对应的损失衡量参数;i为周期标识;K1和K2为预设的0至1之间的权重系数,其中,K1+K2=1,且K1大于K2;Mean为当前训练周期该数据增强操作的损失值均值。
其中,Avgi-1为上一训练周期集合表中该数据增强操作对应的损失衡量参数,利用带有权重系数K1的Avgi-1与Avgi-1的Mean的和值,更新当前训练周期集合表中该数据增强操作对应的损失衡量参数Avgi。
上述公式Avgi=K1·Avgi-1+K2·Mean仅作为一种实现方式,实际应用中,可以有多种变形方式计算Avgi,本发明实施例对此不进行限定。
步骤S414,继续执行下一个训练周期的训练,直到本轮训练周期的次数达到预设值,应用集合表中的损失衡量参数更新集合表中的采样概率参数,继续后续训练,直到训练完成。
对于集合表中的每个数据增强操作,均将该数据增强操作对应的损失衡量参数代入预设的正相关函数,得到该数据增强操作对应的采样概率参数。
本发明实施例提供的上述神经网络模型的训练方法,能够在基于集合表中的数据增强操作对样本组中的样本进行增强,得到新样本组后,根据对应关系确定目标数据增强操作对应的目标新样本集合,并将计算出的目标新样本集合中的新样本的损失值的均值作为目标数据增强操作在当前训练周期的损失值均值,根据损失值均值更新集合表中的损失衡量参数,进而确定出集合表中各个数据增强操作的采样概率参数,基于集合表中更新后的采样概率参数进行数据增强操作的选择,使选择出的数据增强操作更合理,有效提升神经网络模型的训练效率。
基于上述实施例,下面以目标任务为人脸识别为例,描述人脸识别神经网络模型的训练过程:
第一步:初始化一个人脸识别神经网络模型,构建一个包含适于人脸识别增强操作的操作列表{oi,i=1,....,m},列表中的元素是预先定义好的数据增强操作,及其被采样的概率和这个数据增强操作对应的训练损失的损失衡量参数(也称:训练损失移动平均值)。假设共有m个数据增强操作,初始化每个数据增强操作对应的被采样概率以及初始化每个数据增强操作对应的训练损失移动平均值Avgi=0,i=1,....,m。本实施例引入训练损失移动平均值能够一定程度上降低随机性带来的影响,其次这个训练损失移动平均值主要是作为之后更新采样概率的依据。
第二步:在每一次模型训练更新中,从人脸样本集中采样一批样本(个数假设为n){xj,j=1,....,n}。分别对这n个样本进行下列操作:从操作列表中依据采样概率,先后无放回采样两个数据增强操作,然后将这两个数据增强操作先后应用到这个样本上,同时记这个样本所应用的数据增强操作为g(xj)={ot,ok|t,k∈{1,....,m}}。
第三步:将第二步中经过数据增强操作处理后得到的一批样本输入到人脸识别神经网络模型中进行训练,将得到每个样本产生的训练损失(可以是交叉熵损失,也可以是均方误差)记为lj,j=1,....,n。然后更新操作列表中数据增强操作对应的训练损失移动平均值,如下式:
Avgi=0.9Avgi-1+0.1Mean;
该公式的实际含义就是,将这一批样本中,所有用到第i个数据增强操作的样本产生的损失都更新到第i个数据增强操作的训练损失移动平均值中。这里的Mean是指,所有采用了第i个数据增强操作的样本带来的损失的均值。假如对于第1个数据增强操作,这一批样本中有10个样本采用了这个操作,那么就把这10个样本对应的损失值求个平均值。
第四步:训练损失移动平均值更新了一定次数之后(假如更新了1000次),可以更新数据增强操作对应的采样概率pi,如下式:
重复第二、三、四步直至训练完成。
通过以上人脸识别神经网络模型的训练方法,能够直接应用模型训练过程的训练损失评判数据增强操作的效果,并基于该训练损失更新集合表中的损失衡量参数,进而确定出集合表中各个数据增强操作的采样概率参数,基于集合表中更新后的采样概率参数进行数据增强操作的选择,使选择出的数据增强操作更合理,有效提升人脸识别神经网络模型的训练效率。
对应于上述神经网络模型的训练方法实施例,本发明实施例提供了一种神经网络模型的训练装置,其中,上述装置应用于电子设备,电子设备预存有集合表,集合表包括多个数据增强操作,以及数据增强操作对应的采样概率参数和损失衡量参数,图5示出了一种神经网络模型的训练装置的结构示意图,如图5所示,该装置包括:
选择模块502,用于对于每个训练周期,均从训练样本集合中选择当前训练周期的样本组;
增强模块504,用于基于集合表中的采样概率参数,随机应用集合表中的数据增强操作对样本组中的样本进行增强,得到新样本组,记录新样本组中的新样本与数据增强操作的对应关系;
计算模块506,用于应用新样本组训练神经网络模型,基于每个新样本的损失值和对应关系,计算选择的数据增强操作在当前训练周期的损失值均值;
更新模块508,用于对于每个选择的数据增强操作,均基于该数据增强操作的损失值均值和上一训练周期集合表中该数据增强操作对应的损失衡量参数,更新当前训练周期集合表中该数据增强操作对应的损失衡量参数;
训练模块510,用于继续执行下一个训练周期的训练,直到本轮训练周期的次数达到预设值,应用集合表中的损失衡量参数更新集合表中的采样概率参数,继续后续训练,直到训练完成。
本申请实施例提供一种神经网络模型的训练装置,其中,通过基于每个新样本训练后的损失值确定出当前训练周期每个数据增强操作的损失值均值,进而更新集合表中的损失衡量参数,使集合表中各个数据增强操作的损失衡量参数为多个训练周期累积出的损失结果,而基于集合表中多个训练周期累积出的损失衡量参数更新对应的采样概率参数,能够使更新后的采样概率参数也与多个训练周期累积出的损失结果有关,进而影响后续基于集合表中的采样概率参数选择数据增强操作的选择,使选择出的数据增强操作更合理,有效提升了神经网络模型的训练速度和训练效果。
其中,数据增强操作对应的采样概率参数的初始值为1/m,其中,m为集合表包括的数据增强操作的个数;损失衡量参数的初始值为0。
上述增强模块504还用于,分别将样本组中的样本作为目标样本,对于每一个目标样本,均执行以下操作:基于集合表中的采样概率参数随机从集合表中选择数据增强操作;应用选择的数据增强操作对目标样本进行增强,得到新样本。
上述增强模块504还用于,生成0至1之间的随机数x;如果x小于集合表中首个数据增强操作的采样概率参数,选择首个数据增强操作;如果x大于首个数据增强操作的采样概率参数,执行以下计算操作:从集合表中首个数据增强操作开始,计算当前数据增强操作的采样概率参数与当前数据增强操作之前的所有数据增强操作的采样概率参数之和,得到和值;如果x大于和值,继续执行计算操作,直到x小于或等于和值,并选择x小于或等于和值对应的当前数据增强操作。
上述增强模块504还用于,对于样本组中的每个样本,均执行以下操作:基于集合表中的采样概率参数,随机从集合表中选择两个不同的数据增强操作;应用选择的两个不同的数据增强操作分别对样本进行增强,得到新样本。
上述计算模块506还用于,将每个选择的数据增强操作作为目标数据增强操作,对于每个目标数据增强操作均执行以下操作:根据对应关系确定目标数据增强操作对应的目标新样本集合;计算目标新样本集合中的新样本的损失值的均值;将均值作为目标数据增强操作在当前训练周期的损失值均值。
上述更新模块508还用于,通过以下公式更新当前训练周期集合表中该数据增强操作对应的损失衡量参数:Avgi=K1·Avgi-1+K2·Mean;其中,Avgi为当前训练周期集合表中该数据增强操作对应的损失衡量参数;i为周期标识;K1和K2为预设的0至1之间的权重系数,其中,K1+K2=1,且K1大于K2;Mean为当前训练周期该数据增强操作的损失值均值。
上述训练模块510还用于,对于集合表中的每个数据增强操作,均将该数据增强操作对应的损失衡量参数代入预设的正相关函数,得到该数据增强操作对应的采样概率参数。
本发明实施例提供的神经网络模型的训练装置,与上述实施例提供的神经网络模型的训练方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
对应于上述神经网络模型的训练方法实施例,本发明实施例提供了一种神经网络模型的应用方法,该方法应用于上述电子设备,参见图6所示的一种神经网络模型的应用方法的流程图,该方法具体包括如下步骤:
步骤S602,基于当前任务获取待处理的目标图像;其中,当前任务包括针对目标对象的检测任务、识别任务或跟踪任务;目标对象包括以下之一:行人、人体部位、车辆或车牌;
上述目标图像可以是利用电子设备预先采集到的,也可以是上述电子设备从第三方设备中得到的包含有目标对象的图像。
步骤S604,将目标图像输入预先训练好的神经网络模型,得到神经网络模型输出的目标图像对应的结果;
其中,神经网络模型为应用上述神经网络模型的训练方法训练得到的模型。利用上述训练方法有效提升了神经网络模型的训练速度和训练效果,进而保障了模型使用过程中对目标图像进行预测时的准确度。
对应于上述神经网络模型的应用方法实施例,本发明实施例还提供一种神经网络模型的应用装置,上述装置应用于电子设备,图7示出了一种神经网络模型的应用装置的结构示意图,如图7所示,该装置包括:
目标图像获取模块702,用于基于当前任务获取待处理的目标图像;其中,当前任务包括针对目标对象的检测任务、识别任务或跟踪任务;目标对象包括以下之一:行人、人体部位、车辆或车牌;
模型处理模块704,用于将目标图像输入预先训练好的神经网络模型,得到神经网络模型输出的目标图像对应的结果;其中,神经网络模型为应用上述训练方法训练得到的模型。
本实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行上述网络模型训练方法或者执行上述神经网络模型的应用方法,或者执行上述方法中的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的电子设备、装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例所提供的一种神经网络模型的训练方法、应用方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (13)
1.一种神经网络模型的训练方法,其特征在于,所述方法应用于电子设备,所述电子设备预存有集合表,所述集合表包括多个数据增强操作,以及所述数据增强操作对应的采样概率参数和损失衡量参数,包括:
对于每个训练周期,均从训练样本集合中选择当前训练周期的样本组;
基于所述集合表中的采样概率参数,随机应用所述集合表中的数据增强操作对所述样本组中的样本进行增强,得到新样本组,记录所述新样本组中的新样本与数据增强操作的对应关系;
应用所述新样本组训练神经网络模型,基于每个所述新样本的损失值和所述对应关系,计算选择的所述数据增强操作在所述当前训练周期的损失值均值;
对于每个选择的所述数据增强操作,均基于该数据增强操作的损失值均值和上一训练周期所述集合表中该数据增强操作对应的损失衡量参数,更新所述当前训练周期所述集合表中该数据增强操作对应的损失衡量参数;
继续执行下一个训练周期的训练,直到本轮训练周期的次数达到预设值,应用所述集合表中的损失衡量参数更新所述集合表中的采样概率参数,继续后续训练,直到训练完成。
2.根据权利要求1所述的方法,其特征在于,所述数据增强操作对应的采样概率参数的初始值为1/m,其中,m为所述集合表包括的数据增强操作的个数;所述损失衡量参数的初始值为0。
3.根据权利要求1所述的方法,其特征在于,基于所述集合表中的采样概率参数,随机应用所述集合表中的数据增强操作对所述样本组中的样本进行增强的步骤,包括:
分别将所述样本组中的样本作为目标样本,对于每一个所述目标样本,均执行以下操作:
基于所述集合表中的采样概率参数随机从所述集合表中选择数据增强操作;
应用选择的所述数据增强操作对所述目标样本进行增强,得到新样本。
4.根据权利要求3所述的方法,其特征在于,基于所述集合表中的采样概率参数随机从所述集合表中选择数据增强操作的步骤,包括:
生成0至1之间的随机数x;
如果x小于所述集合表中首个数据增强操作的采样概率参数,选择所述首个数据增强操作;
如果x大于所述首个数据增强操作的采样概率参数,执行以下计算操作:
从所述集合表中首个数据增强操作开始,计算当前数据增强操作的采样概率参数与所述当前数据增强操作之前的所有数据增强操作的采样概率参数之和,得到和值;
如果x大于所述和值,继续执行所述计算操作,直到x小于或等于所述和值,并选择x小于或等于所述和值对应的所述当前数据增强操作。
5.根据权利要求1所述的方法,其特征在于,基于所述集合表中的采样概率参数,随机应用所述集合表中的数据增强操作对所述样本组中的样本进行增强的步骤,包括:
对于所述样本组中的每个样本,均执行以下操作:
基于所述集合表中的采样概率参数,随机从所述集合表中选择两个不同的数据增强操作;
应用选择的两个不同的所述数据增强操作分别对所述样本进行增强,得到新样本。
6.根据权利要求1所述的方法,其特征在于,基于每个所述新样本的损失值和所述对应关系,计算选择的所述数据增强操作在所述当前训练周期的损失值均值的步骤,包括:
将每个选择的所述数据增强操作作为目标数据增强操作,对于每个所述目标数据增强操作均执行以下操作:
根据所述对应关系确定所述目标数据增强操作对应的目标新样本集合;
计算所述目标新样本集合中的新样本的损失值的均值;
将所述均值作为所述目标数据增强操作在所述当前训练周期的损失值均值。
7.根据权利要求1所述的方法,其特征在于,基于该数据增强操作的损失值均值和上一训练周期所述集合表中该数据增强操作对应的损失衡量参数,更新所述当前训练周期所述集合表中该数据增强操作对应的损失衡量参数的步骤,包括:
通过以下公式更新所述当前训练周期所述集合表中该数据增强操作对应的损失衡量参数:
Avgi=K1·Avgi-1+K2·Mean;
其中,Avgi为当前训练周期所述集合表中该数据增强操作对应的损失衡量参数;i为周期标识;K1和K2为预设的0至1之间的权重系数,其中,K1+K2=1,且K1大于K2;Mean为当前训练周期该数据增强操作的损失值均值。
8.根据权利要求1所述的方法,其特征在于,应用所述集合表中的损失衡量参数更新所述集合表中的采样概率参数的步骤,包括:
对于所述集合表中的每个数据增强操作,均将该数据增强操作对应的损失衡量参数代入预设的正相关函数,得到该数据增强操作对应的采样概率参数。
9.一种神经网络模型的应用方法,其特征在于,所述方法应用于电子设备,所述方法包括:
基于当前任务获取待处理的目标图像;其中,所述当前任务包括针对目标对象的检测任务、识别任务或跟踪任务;所述目标对象包括以下之一:行人、人体部位、车辆或车牌;
将所述目标图像输入预先训练好的神经网络模型,得到所述神经网络模型输出的所述目标图像对应的结果;其中,所述神经网络模型为应用权利要求1-8任一项所述训练方法训练得到的模型。
10.一种神经网络模型的训练装置,其特征在于,所述装置应用于电子设备,所述电子设备预存有集合表,所述集合表包括多个数据增强操作,以及所述数据增强操作对应的采样概率参数和损失衡量参数,所述装置包括:
选择模块,用于对于每个训练周期,均从训练样本集合中选择当前训练周期的样本组;
增强模块,用于基于所述集合表中的采样概率参数,随机应用所述集合表中的数据增强操作对所述样本组中的样本进行增强,得到新样本组,记录所述新样本组中的新样本与数据增强操作的对应关系;
计算模块,用于应用所述新样本组训练神经网络模型,基于每个所述新样本的损失值和所述对应关系,计算选择的所述数据增强操作在所述当前训练周期的损失值均值;
更新模块,用于对于每个选择的所述数据增强操作,均基于该数据增强操作的损失值均值和上一训练周期所述集合表中该数据增强操作对应的损失衡量参数,更新所述当前训练周期所述集合表中该数据增强操作对应的损失衡量参数;
训练模块,用于继续执行下一个训练周期的训练,直到本轮训练周期的次数达到预设值,应用所述集合表中的损失衡量参数更新所述集合表中的采样概率参数,继续后续训练,直到训练完成。
11.一种神经网络模型的应用装置,其特征在于,所述装置应用于电子设备,所述装置包括:
目标图像获取模块,用于基于当前任务获取待处理的目标图像;其中,所述当前任务包括针对目标对象的检测任务、识别任务或跟踪任务;所述目标对象包括以下之一:行人、人体部位、车辆或车牌;
模型处理模块,用于将所述目标图像输入预先训练好的神经网络模型,得到所述神经网络模型输出的所述目标图像对应的结果;其中,所述神经网络模型为应用权利要求1-8任一项所述训练方法训练得到的模型。
12.一种电子设备,其特征在于,所述电子设备包括:图像采集设备、处理设备和存储装置;
所述图像采集设备,用于获取待检测图像;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至8任一项所述的神经网络模型的训练方法或者权利要求9所述的神经网络模型的应用方法。
13.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行如权利要求1至8任一项所述的神经网络模型的训练方法的步骤或者权利要求9所述的神经网络模型的应用方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011324872.5A CN112580689A (zh) | 2020-11-23 | 2020-11-23 | 神经网络模型的训练方法、应用方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011324872.5A CN112580689A (zh) | 2020-11-23 | 2020-11-23 | 神经网络模型的训练方法、应用方法、装置和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112580689A true CN112580689A (zh) | 2021-03-30 |
Family
ID=75123750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011324872.5A Pending CN112580689A (zh) | 2020-11-23 | 2020-11-23 | 神经网络模型的训练方法、应用方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580689A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420792A (zh) * | 2021-06-03 | 2021-09-21 | 阿波罗智联(北京)科技有限公司 | 图像模型的训练方法、电子设备、路侧设备及云控平台 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180211164A1 (en) * | 2017-01-23 | 2018-07-26 | Fotonation Limited | Method of training a neural network |
CN108446667A (zh) * | 2018-04-04 | 2018-08-24 | 北京航空航天大学 | 基于生成对抗网络数据增强的人脸表情识别方法和装置 |
CN110555526A (zh) * | 2019-08-20 | 2019-12-10 | 北京迈格威科技有限公司 | 神经网络模型训练方法、图像识别方法和装置 |
CN110796248A (zh) * | 2019-08-27 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 数据增强的方法、装置、设备及存储介质 |
WO2020037960A1 (zh) * | 2018-08-21 | 2020-02-27 | 深圳大学 | 一种sar目标识别方法、装置、计算机设备及存储介质 |
CN110852425A (zh) * | 2019-11-15 | 2020-02-28 | 北京迈格威科技有限公司 | 基于优化的神经网络的处理方法、装置和电子系统 |
US20200110994A1 (en) * | 2018-10-04 | 2020-04-09 | International Business Machines Corporation | Neural networks using intra-loop data augmentation during network training |
CN110991652A (zh) * | 2019-12-02 | 2020-04-10 | 北京迈格威科技有限公司 | 神经网络模型训练方法、装置及电子设备 |
CN111126478A (zh) * | 2019-12-19 | 2020-05-08 | 北京迈格威科技有限公司 | 卷积神经网络训练方法、装置和电子系统 |
CN111310905A (zh) * | 2020-05-11 | 2020-06-19 | 创新奇智(南京)科技有限公司 | 神经网络模型训练方法、装置及暖通系统能效优化方法 |
CN111401521A (zh) * | 2020-03-11 | 2020-07-10 | 北京迈格威科技有限公司 | 神经网络模型训练方法及装置、图像识别方法及装置 |
CN111507155A (zh) * | 2020-01-17 | 2020-08-07 | 长江大学 | 联合U-Net++和UDA的微地震有效信号初至拾取方法及装置 |
-
2020
- 2020-11-23 CN CN202011324872.5A patent/CN112580689A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180211164A1 (en) * | 2017-01-23 | 2018-07-26 | Fotonation Limited | Method of training a neural network |
CN108446667A (zh) * | 2018-04-04 | 2018-08-24 | 北京航空航天大学 | 基于生成对抗网络数据增强的人脸表情识别方法和装置 |
WO2020037960A1 (zh) * | 2018-08-21 | 2020-02-27 | 深圳大学 | 一种sar目标识别方法、装置、计算机设备及存储介质 |
US20200110994A1 (en) * | 2018-10-04 | 2020-04-09 | International Business Machines Corporation | Neural networks using intra-loop data augmentation during network training |
CN110555526A (zh) * | 2019-08-20 | 2019-12-10 | 北京迈格威科技有限公司 | 神经网络模型训练方法、图像识别方法和装置 |
CN110796248A (zh) * | 2019-08-27 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 数据增强的方法、装置、设备及存储介质 |
CN110852425A (zh) * | 2019-11-15 | 2020-02-28 | 北京迈格威科技有限公司 | 基于优化的神经网络的处理方法、装置和电子系统 |
CN110991652A (zh) * | 2019-12-02 | 2020-04-10 | 北京迈格威科技有限公司 | 神经网络模型训练方法、装置及电子设备 |
CN111126478A (zh) * | 2019-12-19 | 2020-05-08 | 北京迈格威科技有限公司 | 卷积神经网络训练方法、装置和电子系统 |
CN111507155A (zh) * | 2020-01-17 | 2020-08-07 | 长江大学 | 联合U-Net++和UDA的微地震有效信号初至拾取方法及装置 |
CN111401521A (zh) * | 2020-03-11 | 2020-07-10 | 北京迈格威科技有限公司 | 神经网络模型训练方法及装置、图像识别方法及装置 |
CN111310905A (zh) * | 2020-05-11 | 2020-06-19 | 创新奇智(南京)科技有限公司 | 神经网络模型训练方法、装置及暖通系统能效优化方法 |
Non-Patent Citations (1)
Title |
---|
王信;汪友生;: "基于深度学习与传统机器学习的人脸表情识别综述", 应用科技, no. 01, 26 October 2017 (2017-10-26) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420792A (zh) * | 2021-06-03 | 2021-09-21 | 阿波罗智联(北京)科技有限公司 | 图像模型的训练方法、电子设备、路侧设备及云控平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108710847B (zh) | 场景识别方法、装置及电子设备 | |
CN108694401B (zh) | 目标检测方法、装置及系统 | |
CN108805047B (zh) | 一种活体检测方法、装置、电子设备和计算机可读介质 | |
CN108875931B (zh) | 神经网络训练及图像处理方法、装置、系统 | |
CN109063776B (zh) | 图像再识别网络训练方法、装置和图像再识别方法及装置 | |
CN109360166B (zh) | 一种图像处理方法、装置、电子设备和计算机可读介质 | |
CN110738103A (zh) | 活体检测方法、装置、计算机设备和存储介质 | |
CN111291817A (zh) | 图像识别方法、装置、电子设备和计算机可读介质 | |
CN110852425A (zh) | 基于优化的神经网络的处理方法、装置和电子系统 | |
CN111401238B (zh) | 一种视频中人物特写片段的检测方法及装置 | |
CN111783997B (zh) | 一种数据处理方法、装置及设备 | |
CN111639521A (zh) | 指纹合成方法、装置、电子设备及计算机可读存储介质 | |
CN112232506A (zh) | 网络模型训练方法、图像目标识别方法、装置和电子设备 | |
CN111414803A (zh) | 人脸识别方法、装置、电子设备 | |
CN108875502B (zh) | 人脸识别方法和装置 | |
CN111639667A (zh) | 图像识别方法、装置、电子设备及计算机可读存储介质 | |
CN109977815A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN114429641A (zh) | 一种时序动作检测方法、装置、存储介质及终端 | |
CN114724218A (zh) | 视频检测方法、装置、设备及介质 | |
CN109961103B (zh) | 特征提取模型的训练方法、图像特征的提取方法及装置 | |
CN111382791A (zh) | 深度学习任务处理方法、图像识别任务处理方法和装置 | |
CN112580689A (zh) | 神经网络模型的训练方法、应用方法、装置和电子设备 | |
CN111445021A (zh) | 学习方法、学习设备和计算机可读记录介质 | |
CN114511702A (zh) | 一种基于多尺度分权注意力的遥感图像分割方法和系统 | |
CN111353526A (zh) | 一种图像匹配方法、装置以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |