CN116108893A - 卷积神经网络的自适应微调方法、装置、设备及存储介质 - Google Patents

卷积神经网络的自适应微调方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116108893A
CN116108893A CN202310139025.9A CN202310139025A CN116108893A CN 116108893 A CN116108893 A CN 116108893A CN 202310139025 A CN202310139025 A CN 202310139025A CN 116108893 A CN116108893 A CN 116108893A
Authority
CN
China
Prior art keywords
neural network
block
convolutional neural
standard value
target domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310139025.9A
Other languages
English (en)
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Biren Intelligent Technology Co Ltd
Original Assignee
Shanghai Biren Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Biren Intelligent Technology Co Ltd filed Critical Shanghai Biren Intelligent Technology Co Ltd
Priority to CN202310139025.9A priority Critical patent/CN116108893A/zh
Publication of CN116108893A publication Critical patent/CN116108893A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种卷积神经网络的自适应微调方法、装置、设备及存储介质,涉及模型微调技术领域,该方法包括:获取用于图像分类的卷积神经网络;倒序遍历卷积神经网络中的各个层,将卷积神经网络中的各个层划分为多个块;至少一个块包括:相邻的多个相关联的层;将目标域图像数据集输入卷积神经网络中,针对每个目标域图像数据,分别计算每个块的标准值,并基于每个块的标准值对卷积神经网络的各模型参数进行微调。本发明充分考虑了卷积神经网络不同层之间的关系,可以提升卷积神经网络的模型精度。

Description

卷积神经网络的自适应微调方法、装置、设备及存储介质
技术领域
本发明涉及模型微调技术领域,尤其涉及一种卷积神经网络的自适应微调方法、装置、设备及存储介质。
背景技术
模型微调(fine-tuning)是模型落地过程中的一个关键环节。通常使用大量数据训练的神经网络模型具有很高的精度。然而,在很多应用场景中很难获取到足够多的数据,所以常见的模型落地模式是以大量公共数据(即源域数据,source data)预训练的模型为起点,收集少量实际应用数据(即目标域数据,target data)对模型参数进行微调,以快速地获取到高精度的模型。
对于图像分类任务,现有的卷积神经网络微调方案通常是固定特征提取层的模型参数,仅更新模型最后的全连接层的参数。然而。越来越多的研究表明:仅调整全连接层的参数无法在目标域数据上得到较高的精度。
为了解决上述问题,现有技术提供一种新的卷积神经网络微调方案:获取通过源域图像数据集预训练得到的用于图像分类的卷积神经网络;将目标域图像数据集输入卷积神经网络中,针对每个目标域图像数据,分别计算每层的标准值,并基于每层的标准值对卷积神经网络的各模型参数进行微调,可以针对性地调整模型部分层的参数。
然而,现有技术未考虑卷积神经网络中不同层之间的关系,会导致一些层更新量不足,影响卷积神经网络的模型精度。
发明内容
本发明提供一种卷积神经网络的自适应微调方法、装置、设备及存储介质,用以解决现有技术中未考虑卷积神经网络中不同层之间的关系,会导致一些层更新量不足,影响卷积神经网络的模型精度的缺陷,实现充分考虑卷积神经网络不同层之间的关系,提升卷积神经网络的模型精度的目的。
本发明提供一种卷积神经网络的自适应微调方法,包括:
获取用于图像分类的卷积神经网络;
倒序遍历所述卷积神经网络中的各个层,将所述卷积神经网络中的各个层划分为多个块;至少一个所述块包括:相邻的多个相关联的所述层;
将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调。
根据本发明提供的一种卷积神经网络的自适应微调方法,所述将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调,包括:
将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,得到每个所述块的标准值;
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调。
根据本发明提供的一种卷积神经网络的自适应微调方法,所述将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调,包括:
在第一个训练周期内,将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,得到每个所述块的标准值;
统计所述第一个训练周期内获得的每个所述块的多个标准值,并计算每个所述块的多个标准值的平均值,得到每个所述块的平均标准值;
在后续训练周期内,将所述目标域图像数据集重新输入所述卷积神经网络中,针对每个目标域图像数据,基于每个所述块的平均标准值对所述卷积神经网络的各模型参数进行微调。
根据本发明提供的一种卷积神经网络的自适应微调方法,在第一个训练周期内,在得到每个所述块的标准值之后,在统计所述第一个训练周期内获得的每个所述块的多个标准值之前,所述方法还包括:
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调。
根据本发明提供的一种卷积神经网络的自适应微调方法,所述将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调,包括:
将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的二范数与第一变量的历史值之间的乘积,计算所述块的模型参数的梯度的二范数与所述乘积之间的比值,计算所述比值与预设值中最小的值,得到每个所述块的标准值;
基于每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,与第二变量的历史值中的最大值,更新所述第二变量的当前值;
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调;
基于所述第二变量的当前值,更新所述第一变量的当前值。
根据本发明提供的一种卷积神经网络的自适应微调方法,所述将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调,包括:
在第一个训练周期内,将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的二范数与第一变量的历史值之间的乘积,计算所述块的模型参数的梯度的二范数与所述乘积之间的比值,计算所述比值与预设值中最小的值,得到每个所述块的标准值;
基于每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,与第二变量的历史值中的最大值,更新所述第二变量的当前值;
统计所述第一个训练周期内获得的每个所述块的多个标准值,并计算每个所述块的多个标准值的平均值,得到每个所述块的平均标准值;
在后续训练周期内,将所述目标域图像数据集重新输入所述卷积神经网络中,针对每个目标域图像数据,基于每个所述块的平均标准值对所述卷积神经网络的各模型参数进行微调。
根据本发明提供的一种卷积神经网络的自适应微调方法,在第一个训练周期内,在更新所述第二变量的当前值之后,在统计所述第一个训练周期内获得的每个所述块的多个标准值之前,所述方法还包括:
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调。
根据本发明提供的一种卷积神经网络的自适应微调方法,所述块包括全连接块和卷积块;
所述将所述卷积神经网络中的各个层划分为多个块,包括:
将所述卷积神经网络中的全连接层划分为所述全连接块;
将所述卷积神经网络中相邻的卷积层和批归一化层划分为所述卷积块。
根据本发明提供的一种卷积神经网络的自适应微调方法,所述全连接块的标准值为所述全连接层的权重的标准值,所述卷积块的标准值为所述卷积层的权重的标准值。
本发明还提供一种卷积神经网络的自适应微调装置,包括:
获取模块,用于获取用于图像分类的卷积神经网络;
划分模块,用于倒序遍历所述卷积神经网络中的各个层,将所述卷积神经网络中的各个层划分为多个块;至少一个所述块包括:相邻的多个相关联的所述层;
微调模块,用于将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的卷积神经网络的自适应微调方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的卷积神经网络的自适应微调方法的步骤。
本发明提供的卷积神经网络的自适应微调方法、装置、设备及存储介质,首先,获取用于图像分类的卷积神经网络;而后,倒序遍历卷积神经网络中的各个层,将卷积神经网络中的各个层划分为多个块,至少一个块包括:相邻的多个相关联的层;也即,可以将相邻的多个相关联的层划分为一个块,充分考虑了卷积神经网络不同层之间的关系;最后,将目标域图像数据集输入卷积神经网络中,针对每个目标域图像数据,分别计算每个块的标准值,并基于每个块的标准值对卷积神经网络的各模型参数进行微调;由于模型微调是基于每个块的标准值进行的,而块的划分充分考虑了卷积神经网络不同层之间的关系,可以提升卷积神经网络的模型精度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术提供的卷积神经网络的预训练原理示意图;
图2是现有技术提供的卷积神经网络的微调原理示意图;
图3是现有技术提供的卷积神经网络在不同偏移情况下的测试结果示意图;
图4是本发明提供的卷积神经网络的自适应微调方法的流程示意图;
图5是本发明提供的卷积神经网络的微调原理示意图;
图6是本发明提供的块模式下步骤103的具体流程示意图;
图7是本发明提供的预热模式下步骤103的具体流程示意图;
图8是本发明提供的预热微调模式下步骤103的具体流程示意图;
图9是本发明提供的历史归一化模式下步骤103的具体流程示意图;
图10是本发明提供的预热-历史归一化模式下步骤103的具体流程示意图;
图11是本发明提供的预热微调-历史归一化模式下步骤103的具体流程示意图;
图12是本发明提供的CIFAR-C数据集对应的模型精度示意图;
图13是本发明提供的Living-17数据集对应的模型精度示意图;
图14是本发明提供的CIFAR-10F数据集对应的模型精度示意图;
图15是本发明提供的卷积神经网络的自适应微调装置的结构示意图;
图16是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
卷积神经网络中不同深度的层在应对源域数据和目标域数据之间不同类型的偏移时效率不同。比如:靠前的层在应对输入图像外观偏移(同一场景季节变换、发生形变、加入噪声等情况)的时效率更高,靠后的层在应对图像标注偏移(分类标准改变、类别号改变等情况)的时效率更高,中间的层在应对特征偏移(同一类的不同子类,比如:源域数据都是木制家具,目标域数据都是塑料家具)的时效率更高。
基于此,现有技术提供了一种卷积神经网络的微调方法。其中,模型微调是模型落地过程中的一个关键环节。神经网络模型落地模式通常是:先使用大规模的源域数据对神经网络模型进行预训练,然后根据具体应用场景收集目标域数据,对预训练的神经网络模型的模型参数进行微调。
如图1和图2所示,现有技术提供的卷积神经网络的预训练和微调方法的具体步骤可以包括:
步骤1、将源域数据输入卷积神经网络中,得到预训练后的卷积神经网络;将预训练后的卷积神经网络作为初始模型Φsrc,其所包含的参数为Θ={θ01,…,θn};
步骤2、输入目标域数据集,完成模型前向和反向过程,得到所有参数对应的梯度g0,g1,…,gn
步骤3、计算每层的标准值:
Figure BDA0004087064350000081
步骤4、使用η01,…,ηn中的最大值ηmax=max(η01,…,ηn)对criteria值进行归一化:
Figure BDA0004087064350000082
步骤5、使用标准值调整每个参数的梯度:对于第i层参数,梯度gi调整为ηi×gi
步骤6、使用优化器根据调整后的梯度对模型参数进行更新;
步骤7、重复步骤2到步骤6,遍历目标域数据对模型参数进行微调。
然而,上述现有技术提供的卷积神经网络的自适应微调方法(也称baseline模式)存在以下缺点:
1)现有技术未考虑卷积神经网络中不同层之间的关系,会导致一些层更新量不足,影响卷积神经网络的模型精度;
2)现有技术未充分利用不同数据之间的信息;
3)现有技术需要对模型参数进行二次遍历,无法很好地配合异步更新等技术。
示例性地,如图3所示,纵轴表示微调后模型的相对精度,正值表示仅调整模型部分参数的效果更好,负值表示调整全部参数的效果更好。横轴表示不同的数据集,第一部分层(Block 1)表示最靠前的一些层,第二/三/四部分层(Block 2/3/4)表示靠中间的层,最后一层(Last Layer)表示最后一个全连接层。图像外观偏移(Input-level shifts)所对应的数据集包含:第一数据集(CIFAR-C)和第二数据集(ImageNet-C)。特征偏移(Feature-level shifts)所对应的数据集包含:第三数据集(Living-17)和第四数据集(Entity-30)。图像标注偏移(Output-level shifts)包含:第五数据集(CIFAR-Flip)、第六数据集(Waterbirds)和第七数据集(CelebA)。其中,偏移指的是:预训练使用的源数据集与目标数据集之间的偏移。
从图3中可以看出,对于卷积神经网络在不同偏移情况下的测试结果,每组测试分别只更新一个Block或Last Layer的模型参数,调整不同的超参记录模型精度,可以看到所更新的模型参数能够正确反映数据偏移时,模型精度较高。
然而,该方案需要人工判断源域数据和目标域数据的偏移情况,且需要通过多次测试来确认更新哪些层效果最优。本发明实施例通过统计模型微调过程中的信息来自动评估需要更新的模型参数。
下面结合图4至图14,通过一些实施例及其应用场景对本发明实施例提供的卷积神经网络的自适应微调方法进行详细地说明。
请参照图4,图4是本发明提供的卷积神经网络的自适应微调方法的流程示意图。如图4所示,该方法可以包括以下步骤:
步骤101、获取用于图像分类的卷积神经网络;
步骤102、倒序遍历卷积神经网络中的各个层,将卷积神经网络中的各个层划分为多个块;至少一个块包括:相邻的多个相关联的层;
步骤103、将目标域图像数据集输入卷积神经网络中,针对每个目标域图像数据,分别计算每个块的标准值,并基于每个块的标准值对卷积神经网络的各模型参数进行微调。
在步骤101中,示例性地,获取通过源域图像数据集预训练得到的用于图像分类的卷积神经网络,作为初始模型Φsrc,Φsrc所包含的参数为Θ={θ01,…,θn},不同层的参数倒序排列,θ0表示倒数第一个参数。
在步骤102中,倒序遍历卷积神经网络中的各个层,如果存在功能独立的层,将功能独立的层划分为一个块;如果存在相邻的功能相关联的层,将相邻的多个相关联的层划分为一个块,可以充分考虑卷积神经网络不同层之间的关系。
示例性地,块可以包括全连接块和卷积块,将卷积神经网络中的全连接层划分为全连接块(也称FC块),将卷积神经网络中相邻的卷积层和批归一化层划分为卷积块(也称CONV块)。
其中,图像分类任务所采用的卷积神经网络中,包含参数的层为全连接层、卷积层、批归一化层,每种层的参数又分为权重(weight)和偏置(bias)两种。
卷积层用于提取图像特征,而批归一化层主要作用是调整相邻的卷积层的输出分布,以提升训练效率。可以看出,相邻的卷积层和批归一化层为相邻的功能相关联的层,故将相邻的卷积层和批归一化层划分为一个块,即卷积块。
而全连接层主要用于将图像特征映射为图像分类结果,即全连接层的功能独立,故从功能的角度将其划分为一个块,即全连接块。
在步骤103中,将目标域图像数据集输入卷积神经网络中,遍历目标域图像数据集中的各目标域图像数据,对于每个目标域图像数据,分别计算每个块的标准值,对卷积神经网络的各模型参数进行微调。由于模型微调是基于每个块的标准值进行的,而块的划分充分考虑了卷积神经网络不同层之间的关系,可以提升卷积神经网络的模型精度。
示例性地,对于全连接块,全连接块的标准值为全连接层的权重的标准值。对于卷积块,卷积块的标准值为卷积层的权重的标准值。
本实施例提供的卷积神经网络的自适应微调方法,首先,获取用于图像分类的卷积神经网络;而后,倒序遍历卷积神经网络中的各个层,将卷积神经网络中的各个层划分为多个块,至少一个块包括:相邻的多个相关联的层;也即,可以将相邻的多个相关联的层划分为一个块,充分考虑了卷积神经网络不同层之间的关系;最后,将目标域图像数据集输入卷积神经网络中,针对每个目标域图像数据,分别计算每个块的标准值,并基于每个块的标准值对卷积神经网络的各模型参数进行微调;由于模型微调是基于每个块的标准值进行的,而块的划分充分考虑了卷积神经网络不同层之间的关系,可以提升卷积神经网络的模型精度。
在一实施例中,请参照图6,图6是本发明提供的块模式下步骤103的具体流程示意图。如图5和图6所示,上述步骤103可以包括:
步骤201、将目标域图像数据集输入卷积神经网络中;
步骤202、针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度;
步骤203、计算每个块的模型参数的梯度的二范数与块的模型参数的二范数之间的比值,得到每个块的标准值;
步骤204、基于每个块的标准值,调整块的模型参数的梯度;
步骤205、利用优化器根据调整后的各个块的模型参数的梯度,对卷积神经网络的各模型参数进行微调。
在步骤202中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
在步骤203中,可以通过以下表达式(1)计算每个块的标准(criteria)值:
Figure BDA0004087064350000121
其中,η表示每个块的标准值,θ表示每个块的一个模型参数,g表示θ的梯度。
示例性地,对于全连接块,全连接块的标准值为全连接层的权重的标准值。对于卷积块,卷积块的标准值为卷积层的权重的标准值。
在步骤204中,每种层中权重对于数据信息更为敏感,故基于每个块的标准值(一般为权重的标准值)调整每个块的模型参数的梯度。
示例性地,对于第i层参数,基于第i层参数对应的块的标准值
Figure BDA0004087064350000122
将第i层参数的梯度gi调整为
Figure BDA0004087064350000123
在本实施例中,由于模型微调是基于调整后的各个块的模型参数的梯度进行的,而每个块的模型参数的梯度是基于每个块的标准值调整的,而块的划分充分考虑了卷积神经网络不同层之间的关系,在特征偏移和图像标注偏移的情况下,可以提升卷积神经网络的模型精度。
在一实施例中,请参照图7,图7是本发明提供的预热模式下步骤103的具体流程示意图。如图5和图7所示,上述步骤103可以包括:
步骤301、在第一个训练周期内,将目标域图像数据集输入卷积神经网络中;
步骤302、针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度;
步骤303、计算每个块的模型参数的梯度的二范数与块的模型参数的二范数之间的比值,得到每个块的标准值;
步骤304、统计第一个训练周期内获得的每个块的多个标准值,并计算每个块的多个标准值的平均值,得到每个块的平均标准值;
步骤305、在后续训练周期内,将目标域图像数据集重新输入卷积神经网络中,针对每个目标域图像数据,基于每个块的平均标准值对卷积神经网络的各模型参数进行微调。
模型微调通常需要多次遍历目标域图像数据集,在步骤301中,一次完整的遍历称为一个训练周期。
在步骤302中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
在步骤303中,可以通过以下表达式(2)计算每个块的标准(criteria)值:
Figure BDA0004087064350000131
其中,η表示每个块的标准值,θ表示每个块的一个模型参数,g表示θ的梯度。
通过上述表达式(2)可以计算出卷积神经网络的各个块的标准值,即η01,…,ηb
在步骤304中,遍历完目标域图像数据集,统计第一个训练周期内获得的多个η01,…,ηb,并计算各个块的平均标准值
Figure BDA0004087064350000132
在步骤305中,在后续训练周期内,将目标域图像数据集重新输入卷积神经网络中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
基于每个块的平均标准值调整每个块的模型参数的梯度。
示例性地,对于第i层参数,基于第i层参数对应的块的平均标准值
Figure BDA0004087064350000133
将第i层参数的梯度gi调整为
Figure BDA0004087064350000134
利用优化器根据调整后的各个块的模型参数的梯度,对卷积神经网络的各模型参数进行微调。
在本实施例中,在第一个训练周期,不对模型参数进行微调,仅统计每个块的多个标准值。在后续训练周期,不需要计算每个块的标准值。使用每个块的平均标准值对模型微调所使用的梯度进行调整,可以融合第一个训练周期统计的每个块的多个标准值,即融合不同数据之间的信息,可以提升卷积神经网络的模型精度。
在一实施例中,请参照图8,图8是本发明提供的预热微调模式下步骤103的具体流程示意图。如图5和图8所示,上述步骤103可以包括:
步骤401、在第一个训练周期内,将目标域图像数据集输入卷积神经网络中;
步骤402、针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度;
步骤403、计算每个块的模型参数的梯度的二范数与块的模型参数的二范数之间的比值,得到每个块的标准值;
步骤404、基于每个块的标准值,调整块的模型参数的梯度;
步骤405、利用优化器根据调整后的各个块的模型参数的梯度,对卷积神经网络的各模型参数进行微调;
步骤406、统计第一个训练周期内获得的每个块的多个标准值,并计算每个块的多个标准值的平均值,得到每个块的平均标准值;
步骤407、在后续训练周期内,将目标域图像数据集重新输入卷积神经网络中,针对每个目标域图像数据,基于每个块的平均标准值对卷积神经网络的各模型参数进行微调。
在步骤401中,模型微调通常需要多次遍历目标域图像数据集,一次完整的遍历称为一个训练周期。
在步骤402中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
在步骤403中,可以通过以下表达式(3)计算每个块的标准(criteria)值:
Figure BDA0004087064350000151
其中,η表示每个块的标准值,θ表示每个块的一个模型参数,g表示θ的梯度。
在步骤404中,示例性地,对于第i层参数,基于第i层参数对应的块的标准值
Figure BDA0004087064350000152
将第i层参数的梯度gi调整为
Figure BDA0004087064350000153
在步骤405中,利用优化器根据调整后的各个块的模型参数的梯度,对卷积神经网络的各模型参数进行微调。对于下一个目标域图像数据,使用的卷积神经网络为利用优化器微调后的卷积神经网络。
在步骤406中,遍历完目标域图像数据集,统计第一个训练周期内获得的多个η01,…,ηb,并计算各个块的平均标准值
Figure BDA0004087064350000154
在步骤407中,在后续训练周期内,将目标域图像数据集重新输入卷积神经网络中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
基于每个块的平均标准值调整每个块的模型参数的梯度。
示例性地,对于第i层参数,基于第i层参数对应的块的平均标准值
Figure BDA0004087064350000155
将第i层参数的梯度gi调整为
Figure BDA0004087064350000156
利用优化器根据调整后的各个块的模型参数的梯度,对卷积神经网络的各模型参数进行微调。
在本实施例中,与预热模式相比,在第一个训练周期还对模型参数进行了微调,避免浪费一个训练周期;并且,可以动态融合第一个训练周期统计的每个块的多个标准值,即动态融合不同数据之间的信息,在图像标注偏移的情况下,可以明显提升卷积神经网络的模型精度。
在一实施例中,请参照图9,图9是本发明提供的历史归一化模式下步骤103的具体流程示意图。如图5和图9所示,上述步骤103可以包括:
步骤501、将目标域图像数据集输入卷积神经网络中;
步骤502、针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度;
步骤503、计算每个块的模型参数的二范数与第一变量的历史值之间的乘积,计算块的模型参数的梯度的二范数与乘积之间的比值,计算比值与预设值中最小的值,得到每个块的标准值;
步骤504、基于每个块的模型参数的梯度的二范数与块的模型参数的二范数之间的比值,与第二变量的历史值中的最大值,更新第二变量的当前值;
步骤505、基于每个块的标准值,调整块的模型参数的梯度;
步骤506、利用优化器根据调整后的各个块的模型参数的梯度,对卷积神经网络的各模型参数进行微调;
步骤507、基于第二变量的当前值,更新第一变量的当前值。
在步骤501之前,使用第一变量current_max来记录当前归一化操作所使用的最大值,使用第二变量running_max来跟踪历史最大值,这两个变量初始化为:running_max=0.0,current_max=1.0。
在步骤502中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
在步骤503中,预设值可以为1.0,通过以下表达式(4)计算每个块的标准值:
Figure BDA0004087064350000161
其中,η表示每个块的标准值,θ表示每个块的一个模型参数,g表示θ的梯度,current_max为上一次得到的current_max。
在步骤504中,通过以下表达式(5)更新running_max:
Figure BDA0004087064350000171
基于上一running_max与
Figure BDA0004087064350000172
中的最大值更新当前running_max,可以跟踪running_max的历史最大值。
在步骤507中,更新current_max值:current_max:=running_max。
在本实施例中,块模式为了避免对模型参数进行二次遍历,未使用归一化操作,但不使用归一化操作可能导致模型训练的不稳定。历史归一化模式是使用历史最大值来实现归一化操作,既可以避免对模型参数进行二次遍历,即可以减少模型参数的遍历次数,可以更好地配合异步更新等技术,还可以避免模型训练的不稳定。
在一实施例中,请参照图10,图10是本发明提供的预热-历史归一化模式下步骤103的具体流程示意图。如图10所示,上述步骤103可以包括:
步骤601、在第一个训练周期内,将目标域图像数据集输入卷积神经网络中;
步骤602、针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度;
步骤603、计算每个块的模型参数的二范数与第一变量的历史值之间的乘积,计算块的模型参数的梯度的二范数与乘积之间的比值,计算比值与预设值中最小的值,得到每个块的标准值;
步骤604、基于每个块的模型参数的梯度的二范数与块的模型参数的二范数之间的比值,与第二变量的历史值中的最大值,更新第二变量的当前值;
步骤605、统计第一个训练周期内获得的每个块的多个标准值,并计算每个块的多个标准值的平均值,得到每个块的平均标准值;
步骤606、在后续训练周期内,将目标域图像数据集重新输入卷积神经网络中,针对每个目标域图像数据,基于每个块的平均标准值对卷积神经网络的各模型参数进行微调。
在步骤601之前,在第一个训练周期内,使用第一变量current_max来记录当前归一化操作所使用的最大值,使用第二变量running_max来跟踪历史最大值,这两个变量初始化为:running_max=0.0,current_max=1.0。
在步骤602中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
在步骤603中,预设值可以为1.0,通过以下表达式(6)计算每个块的标准值:
Figure BDA0004087064350000181
其中,η表示每个块的标准值,θ表示每个块的一个模型参数,g表示θ的梯度,current_max为上一次得到的current_max。
在步骤604中,通过以下表达式(7)更新running_max:
Figure BDA0004087064350000182
基于上一running_max与
Figure BDA0004087064350000183
中的最大值更新当前running_max,可以跟踪running_max的历史最大值。
在步骤605中,遍历完目标域图像数据集,统计第一个训练周期内获得的多个η01,…,ηb,并计算各个块的平均标准值
Figure BDA0004087064350000184
在步骤606中,在后续训练周期内,将目标域图像数据集重新输入卷积神经网络中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
基于每个块的平均标准值调整每个块的模型参数的梯度。
示例性地,对于第i层参数,基于第i层参数对应的块的平均标准值
Figure BDA0004087064350000191
将第i层参数的梯度gi调整为
Figure BDA0004087064350000192
利用优化器根据调整后的各个块的模型参数的梯度,对卷积神经网络的各模型参数进行微调。
在本实施例中,采用预热-历史归一化模式进行微调,不仅可以融合第一个训练周期统计的每个块的多个标准值,即融合不同数据之间的信息,还可以避免对模型参数进行二次遍历,即可以减少模型参数的遍历次数,可以更好地配合异步更新等技术。
在一实施例中,请参照图11,图11是本发明提供的预热微调-历史归一化模式下步骤103的具体流程示意图。如图11所示,上述步骤103可以包括:
步骤701、在第一个训练周期内,将目标域图像数据集输入卷积神经网络中;
步骤702、针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度;
步骤703、计算每个块的模型参数的二范数与第一变量的历史值之间的乘积,计算块的模型参数的梯度的二范数与乘积之间的比值,计算比值与预设值中最小的值,得到每个块的标准值;
步骤704、基于每个块的模型参数的梯度的二范数与块的模型参数的二范数之间的比值,与第二变量的历史值中的最大值,更新第二变量的当前值;
步骤705、基于每个块的标准值,调整块的模型参数的梯度;
步骤706、利用优化器根据调整后的各个块的模型参数的梯度,对卷积神经网络的各模型参数进行微调;
步骤707、统计第一个训练周期内获得的每个块的多个标准值,并计算每个块的多个标准值的平均值,得到每个块的平均标准值;
步骤708、在后续训练周期内,将目标域图像数据集重新输入卷积神经网络中,针对每个目标域图像数据,基于每个块的平均标准值对卷积神经网络的各模型参数进行微调。
在步骤701之前,在第一个训练周期内,使用第一变量current_max来记录当前归一化操作所使用的最大值,使用第二变量running_max来跟踪历史最大值,这两个变量初始化为:running_max=0.0,current_max=1.0。
在步骤702中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
在步骤703中,预设值可以为1.0,通过以下表达式(8)计算每个块的标准值:
Figure BDA0004087064350000201
其中,η表示每个块的标准值,θ表示每个块的一个模型参数,g表示θ的梯度,current_max为上一次得到的current_max。
在步骤704中,通过以下表达式(9)更新running_max:
Figure BDA0004087064350000202
基于上一running_max与
Figure BDA0004087064350000203
中的最大值更新当前running_max,可以跟踪running_max的历史最大值。
在步骤707中,遍历完目标域图像数据集,统计第一个训练周期内获得的多个η01,…,ηb,并计算各个块的平均标准值
Figure BDA0004087064350000204
在步骤708中,在后续训练周期内,将目标域图像数据集重新输入卷积神经网络中,针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到卷积神经网络的各个块的模型参数的梯度,即所有参数对应的梯度g0,g1,…,gn
基于每个块的平均标准值调整每个块的模型参数的梯度。
示例性地,对于第i层参数,基于第i层参数对应的块的平均标准值
Figure BDA0004087064350000211
将第i层参数的梯度gi调整为
Figure BDA0004087064350000212
利用优化器根据调整后的各个块的模型参数的梯度,对卷积神经网络的各模型参数进行微调。
在本实施例中,第一方面,与预热-历史归一化模式相比,预热微调-历史归一化模式的方案,在第一个训练周期还对模型参数进行了微调,避免浪费一个训练周期;第二方面,可以动态融合第一个训练周期统计的每个块的多个标准值,即动态融合不同数据之间的信息;第三方面,可以避免对模型参数进行二次遍历,即可以减少模型参数的遍历次数,可以更好地配合异步更新等技术;在特征偏移和图像标注偏移的情况下,均可以明显提升卷积神经网络的模型精度。
下面对上述各实施例的方法进行了如下测试:
图12-图14分别示出了在图像外观偏移(CIFAR-C数据集)、特征偏移(Living-17数据集)和图像标注偏移(CIFAR-10F数据集)的情况下,现有技术(基础模式,baseline模式)、块模式(baseline-block)、预热模式(baseline-warmup)、预热微调模式(baseline-warmupft)、历史归一化模式(baseline-lastnorm)、块-预热模式(baselin e-block-warmup)、块-预热微调模式(baseline-block-warmupft)、块-预热-历史归一化模式(baseline-block-warmup-lastnorm)以及块-预热微调-历史归一化模式(baseline-block-warmupft-lastnorm)的测试结果。
测试结果如下,横轴为不同的微调模式,纵轴为模型精度(Acc uracy)。
1)块模式,充分考虑卷积神经网络不同层之间的关系,对于图像外观偏移的情况,与基础模式效果相同,在特征偏移和图像标注偏移的情况下略优于基础模式。
2)预热模式,融合了不同数据之间的信息,单独使用时效果不明显,配合块-历史归一化模式略优于基础模式。
3)预热微调模式,动态融合不同数据之间的信息,单独使用时在图像标注偏移的情况下相较于基础模式有明显提升,配合块-历史归一化模式在特征偏移和图像标注偏移的情况下均有明显提升。
4)历史归一化模式,减少了模型参数的遍历次数,可以更好地配合异步更新等技术,单独使用时,相对于基础模式的全局归一化可以基本保持相近的精度,配合块及预热模式/预热微调模式可以显著提升模型精度。
下面对本发明提供的卷积神经网络的自适应微调装置进行描述,下文描述的卷积神经网络的自适应微调装置与上文描述的卷积神经网络的自适应微调方法可相互对应参照。
请参照图15,图15是本发明提供的卷积神经网络的自适应微调装置的结构示意图。如图15所示,该装置可以包括:
获取模块10,用于获取用于图像分类的卷积神经网络;
划分模块20,用于倒序遍历所述卷积神经网络中的各个层,将所述卷积神经网络中的各个层划分为多个块;至少一个所述块包括:相邻的多个相关联的所述层;
微调模块30,用于将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调。
可选地,微调模块30具体用于:
将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,得到每个所述块的标准值;
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调。
可选地,微调模块30具体用于:
在第一个训练周期内,将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,得到每个所述块的标准值;
统计所述第一个训练周期内获得的每个所述块的多个标准值,并计算每个所述块的多个标准值的平均值,得到每个所述块的平均标准值;
在后续训练周期内,将所述目标域图像数据集重新输入所述卷积神经网络中,针对每个目标域图像数据,基于每个所述块的平均标准值对所述卷积神经网络的各模型参数进行微调。
可选地,微调模块30还用于:
在第一个训练周期内,在得到每个所述块的标准值之后,在统计所述第一个训练周期内获得的每个所述块的多个标准值之前,基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调。
可选地,微调模块30具体用于:
将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的二范数与第一变量的历史值之间的乘积,计算所述块的模型参数的梯度的二范数与所述乘积之间的比值,计算所述比值与预设值中最小的值,得到每个所述块的标准值;
基于每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,与第二变量的历史值中的最大值,更新所述第二变量的当前值;
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调;
基于所述第二变量的当前值,更新所述第一变量的当前值。
可选地,微调模块30具体用于:
在第一个训练周期内,将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的二范数与第一变量的历史值之间的乘积,计算所述块的模型参数的梯度的二范数与所述乘积之间的比值,计算所述比值与预设值中最小的值,得到每个所述块的标准值;
基于每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,与第二变量的历史值中的最大值,更新所述第二变量的当前值;
统计所述第一个训练周期内获得的每个所述块的多个标准值,并计算每个所述块的多个标准值的平均值,得到每个所述块的平均标准值;
在后续训练周期内,将所述目标域图像数据集重新输入所述卷积神经网络中,针对每个目标域图像数据,基于每个所述块的平均标准值对所述卷积神经网络的各模型参数进行微调。
可选地,微调模块30还用于:
在第一个训练周期内,在更新所述第二变量的当前值之后,在统计所述第一个训练周期内获得的每个所述块的多个标准值之前,基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调。
可选地,块包括全连接块和卷积块,划分模块20具体用于:
将所述卷积神经网络中的全连接层划分为所述全连接块;
将所述卷积神经网络中相邻的卷积层和批归一化层划分为所述卷积块。
可选地,所述全连接块的标准值为所述全连接层的权重的标准值,所述卷积块的标准值为所述卷积层的权重的标准值。
图16示例了本发明提供的电子设备的结构示意图,如图16所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行卷积神经网络的自适应微调方法,该方法包括:
获取用于图像分类的卷积神经网络;
倒序遍历所述卷积神经网络中的各个层,将所述卷积神经网络中的各个层划分为多个块;至少一个所述块包括:相邻的多个相关联的所述层;
将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的卷积神经网络的自适应微调方法,该方法包括:
获取用于图像分类的卷积神经网络;
倒序遍历所述卷积神经网络中的各个层,将所述卷积神经网络中的各个层划分为多个块;至少一个所述块包括:相邻的多个相关联的所述层;
将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的卷积神经网络的自适应微调方法,该方法包括:
获取用于图像分类的卷积神经网络;
倒序遍历所述卷积神经网络中的各个层,将所述卷积神经网络中的各个层划分为多个块;至少一个所述块包括:相邻的多个相关联的所述层;
将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种卷积神经网络的自适应微调方法,其特征在于,包括:
获取用于图像分类的卷积神经网络;
倒序遍历所述卷积神经网络中的各个层,将所述卷积神经网络中的各个层划分为多个块;至少一个所述块包括:相邻的多个相关联的所述层;
将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调。
2.根据权利要求1所述的卷积神经网络的自适应微调方法,其特征在于,所述将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调,包括:
将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,得到每个所述块的标准值;
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调。
3.根据权利要求1所述的卷积神经网络的自适应微调方法,其特征在于,所述将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调,包括:
在第一个训练周期内,将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,得到每个所述块的标准值;
统计所述第一个训练周期内获得的每个所述块的多个标准值,并计算每个所述块的多个标准值的平均值,得到每个所述块的平均标准值;
在后续训练周期内,将所述目标域图像数据集重新输入所述卷积神经网络中,针对每个目标域图像数据,基于每个所述块的平均标准值对所述卷积神经网络的各模型参数进行微调。
4.根据权利要求3所述的卷积神经网络的自适应微调方法,其特征在于,在第一个训练周期内,在得到每个所述块的标准值之后,在统计所述第一个训练周期内获得的每个所述块的多个标准值之前,所述方法还包括:
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调。
5.根据权利要求1所述的卷积神经网络的自适应微调方法,其特征在于,所述将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调,包括:
将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的二范数与第一变量的历史值之间的乘积,计算所述块的模型参数的梯度的二范数与所述乘积之间的比值,计算所述比值与预设值中最小的值,得到每个所述块的标准值;
基于每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,与第二变量的历史值中的最大值,更新所述第二变量的当前值;
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调;
基于所述第二变量的当前值,更新所述第一变量的当前值。
6.根据权利要求1所述的卷积神经网络的自适应微调方法,其特征在于,所述将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调,包括:
在第一个训练周期内,将目标域图像数据集输入所述卷积神经网络中;
针对每个目标域图像数据,进行前向传播计算和反向传播计算,得到所述卷积神经网络的各所述块的模型参数的梯度;
计算每个所述块的模型参数的二范数与第一变量的历史值之间的乘积,计算所述块的模型参数的梯度的二范数与所述乘积之间的比值,计算所述比值与预设值中最小的值,得到每个所述块的标准值;
基于每个所述块的模型参数的梯度的二范数与所述块的模型参数的二范数之间的比值,与第二变量的历史值中的最大值,更新所述第二变量的当前值;
统计所述第一个训练周期内获得的每个所述块的多个标准值,并计算每个所述块的多个标准值的平均值,得到每个所述块的平均标准值;
在后续训练周期内,将所述目标域图像数据集重新输入所述卷积神经网络中,针对每个目标域图像数据,基于每个所述块的平均标准值对所述卷积神经网络的各模型参数进行微调。
7.根据权利要求6所述的卷积神经网络的自适应微调方法,其特征在于,在第一个训练周期内,在更新所述第二变量的当前值之后,在统计所述第一个训练周期内获得的每个所述块的多个标准值之前,所述方法还包括:
基于每个所述块的标准值,调整所述块的模型参数的梯度;
利用优化器根据调整后的各所述块的模型参数的梯度,对所述卷积神经网络的各模型参数进行微调。
8.根据权利要求1至7任一项所述的卷积神经网络的自适应微调方法,其特征在于,所述块包括全连接块和卷积块;
所述将所述卷积神经网络中的各个层划分为多个块,包括:
将所述卷积神经网络中的全连接层划分为所述全连接块;
将所述卷积神经网络中相邻的卷积层和批归一化层划分为所述卷积块。
9.根据权利要求8所述的卷积神经网络的自适应微调方法,其特征在于,所述全连接块的标准值为所述全连接层的权重的标准值,所述卷积块的标准值为所述卷积层的权重的标准值。
10.一种卷积神经网络的自适应微调装置,其特征在于,包括:
获取模块,用于获取用于图像分类的卷积神经网络;
划分模块,用于倒序遍历所述卷积神经网络中的各个层,将所述卷积神经网络中的各个层划分为多个块;至少一个所述块包括:相邻的多个相关联的所述层;
微调模块,用于将目标域图像数据集输入所述卷积神经网络中,针对每个目标域图像数据,分别计算每个所述块的标准值,并基于每个所述块的标准值对所述卷积神经网络的各模型参数进行微调。
11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至9任一项所述的卷积神经网络的自适应微调方法的步骤。
12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的卷积神经网络的自适应微调方法的步骤。
CN202310139025.9A 2023-02-20 2023-02-20 卷积神经网络的自适应微调方法、装置、设备及存储介质 Pending CN116108893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310139025.9A CN116108893A (zh) 2023-02-20 2023-02-20 卷积神经网络的自适应微调方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310139025.9A CN116108893A (zh) 2023-02-20 2023-02-20 卷积神经网络的自适应微调方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116108893A true CN116108893A (zh) 2023-05-12

Family

ID=86267125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310139025.9A Pending CN116108893A (zh) 2023-02-20 2023-02-20 卷积神经网络的自适应微调方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116108893A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117217288A (zh) * 2023-09-21 2023-12-12 摩尔线程智能科技(北京)有限责任公司 大模型的微调方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117217288A (zh) * 2023-09-21 2023-12-12 摩尔线程智能科技(北京)有限责任公司 大模型的微调方法、装置、电子设备和存储介质
CN117217288B (zh) * 2023-09-21 2024-04-05 摩尔线程智能科技(北京)有限责任公司 大模型的微调方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Song et al. Efficient residual dense block search for image super-resolution
US9053540B2 (en) Stereo matching by census transform and support weight cost aggregation
CN106845529B (zh) 基于多视野卷积神经网络的影像特征识别方法
KR102445468B1 (ko) 부스트 풀링 뉴럴 네트워크 기반의 데이터 분류 장치 및 그 데이터 분류 장치를 위한 뉴럴 네트워크 학습 방법
CN109271958B (zh) 人脸年龄识别方法及装置
CN111079899A (zh) 神经网络模型压缩方法、系统、设备及介质
JP2008542911A (ja) メトリック埋め込みによる画像比較
CN116108893A (zh) 卷积神经网络的自适应微调方法、装置、设备及存储介质
CN111695624B (zh) 数据增强策略的更新方法、装置、设备及存储介质
CN113228096A (zh) 通过机器学习进行光学矫正
WO2016095068A1 (en) Pedestrian detection apparatus and method
CN112785496A (zh) 处理影像超分辨率的装置及方法
CN111179333B (zh) 一种基于双目立体视觉的散焦模糊核估计方法
KR101914244B1 (ko) 이중 사전 학습을 이용한 영상 분할 장치 및 방법
CN116246126A (zh) 迭代无监督域自适应方法和装置
US20230281981A1 (en) Methods, devices, and computer readable media for training a keypoint estimation network using cgan-based data augmentation
CN110942102B (zh) 一种概率松弛核线匹配方法及系统
CN116778133A (zh) 用于点云分类的微调方法及装置
CN115170902B (zh) 图像处理模型的训练方法
JP6950701B2 (ja) モデル推定装置、モデル推定方法およびモデル推定プログラム
CN116010832A (zh) 联邦聚类方法、装置、中心服务器、系统和电子设备
CN113326832B (zh) 模型训练、图像处理方法、电子设备及存储介质
KR20190134865A (ko) 학습을 이용한 얼굴 특징점 검출 방법 및 장치
CN113656628B (zh) 一种基于注意力机制和特征融合的起重机图像检索方法
Samii et al. Iterative learning: Leveraging the computer as an on-demand expert artist

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai

Applicant after: Shanghai Bi Ren Technology Co.,Ltd.

Address before: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai

Applicant before: Shanghai Bilin Intelligent Technology Co.,Ltd.

Country or region before: China

CB02 Change of applicant information