CN117576519B - 图像识别模型训练优化方法、装置、电子设备及存储介质 - Google Patents

图像识别模型训练优化方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117576519B
CN117576519B CN202410052667.XA CN202410052667A CN117576519B CN 117576519 B CN117576519 B CN 117576519B CN 202410052667 A CN202410052667 A CN 202410052667A CN 117576519 B CN117576519 B CN 117576519B
Authority
CN
China
Prior art keywords
training
image
recognition model
training image
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410052667.XA
Other languages
English (en)
Other versions
CN117576519A (zh
Inventor
陈国强
叶飞
程文明
张国财
麻斌鑫
陈文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Aerospace Runbo Measurement And Control Technology Co ltd
Original Assignee
Zhejiang Aerospace Runbo Measurement And Control Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Aerospace Runbo Measurement And Control Technology Co ltd filed Critical Zhejiang Aerospace Runbo Measurement And Control Technology Co ltd
Priority to CN202410052667.XA priority Critical patent/CN117576519B/zh
Publication of CN117576519A publication Critical patent/CN117576519A/zh
Application granted granted Critical
Publication of CN117576519B publication Critical patent/CN117576519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像识别模型训练优化方法、装置、电子设备及存储介质,方法包括:获取至少一个新增训练图像和历史训练图像;分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像;根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化。本发明实现了一种通过对历史训练图像进行压缩得到的压缩训练图像和新增训练图像,对图像识别模型进行迭代优化的方案,以提高迭代优化得到的图像识别模型的预测准确性。

Description

图像识别模型训练优化方法、装置、电子设备及存储介质
技术领域
本发明涉及图像识别技术领域,尤其涉及一种图像识别模型训练优化方法、装置、电子设备及存储介质。
背景技术
神经网络模型已广泛应用于图像识别领域,而大多神经网络模型以封闭数据集进行训练,如此训练得到的神经网络模型的泛化性较低,因此,增量学习应运而生。
目前,通常将新数据和旧数据共同作为图像识别模型进行增量学习的训练依据,但是,进行模型训练的设备的存储空间有限,使得其存储的旧数据较少(也即,优化图像识别模型时用到的旧数据也较少),导致迭代优化得到的图像识别模型的预测准确性较低。
发明内容
本发明的主要目的在于提供一种图像识别模型训练优化方法、装置、电子设备及存储介质,旨在提供一种通过对历史训练图像(旧数据)进行压缩得到的压缩训练图像和新增训练图像(新数据),对图像识别模型进行迭代优化的方案,以提高迭代优化得到的图像识别模型的预测准确性。
为实现上述目的,本发明提供一种图像识别模型训练优化方法,所述图像识别模型训练优化方法包括以下步骤:
获取至少一个新增训练图像和历史训练图像;
分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像;
根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化。
为实现上述目的,本发明还提供一种图像识别模型训练优化装置,所述图像识别模型训练优化装置包括:
获取模块,用于获取至少一个新增训练图像和历史训练图像;
压缩模块,用于分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像;
优化模块,用于根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化。
为实现上述目的,本发明还提供一种图像识别模型训练优化设备,所述图像识别模型训练优化设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像识别模型训练优化程序,所述图像识别模型训练优化程序被所述处理器执行时实现如上所述的图像识别模型训练优化方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有图像识别模型训练优化程序,所述图像识别模型训练优化程序被处理器执行时实现如上所述的图像识别模型训练优化方法的步骤。
本发明中,获取至少一个新增训练图像和历史训练图像,从而分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像,以实现对历史训练图像的压缩,进而根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化,使得有限存储空间的进行模型训练的设备可存储更多的历史训练图像,增加了其存储的历史训练图像的数量,也即,增加了对图像识别模型进行优化时用到的历史训练图像的数量,所以,使得图像识别模型进行迭代的依据更丰富,从而提高了迭代优化得到的图像识别模型的预测准确性。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明图像识别模型训练优化方法第一实施例的流程示意图;
图3为本发明实施例涉及的特征提取模块的一种结构示意图;
图4为本发明实施例涉及的特征提取模型的一种数据处理流程示意图;
图5本发明图像识别模型训练优化方法第二实施例的流程示意图;
图6为本发明图像识别模型训练优化装置较佳实施例的功能模块示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
需要说明的是,本发明实施例图像识别模型训练优化设备,所述图像识别模型训练优化设备可以是智能手机、个人计算机、服务器等设备,在此不做具体限制。
如图1所示,该图像识别模型训练优化设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对图像识别模型训练优化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图像识别模型训练优化程序。操作系统是管理和控制设备硬件和软件资源的程序,支持图像识别模型训练优化程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的图像识别模型训练优化程序,并执行以下操作:
获取至少一个新增训练图像和历史训练图像;
分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像;
根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化。
进一步地,所述分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像的操作包括:
获取图像识别模型,其中,所述图像识别模型包括特征提取模块和识别分类模块;
通过所述特征提取模块分别对所述历史训练图像进行特征提取,得到各个特征图像,以及,通过所述识别分类模块对各所述特征图像进行分类,得到各个分类标签;
根据各所述特征图像和各所述分类标签,计算得到各所述历史训练图像对应的各个激活值;
根据各所述激活值确定各所述压缩训练图像。
进一步地,所述根据各所述激活值确定各所述压缩训练图像的操作包括:
分别生成各所述历史训练图像对应的各个边界框,并根据各所述激活值确定各个边界框坐标;
基于各所述边界框坐标,分别生成各所述历史训练图像对应的各个二进制掩码;
根据各所述二进制掩码和各所述特征图像,分别生成各所述压缩训练图像。
进一步地,所述图像识别模型包括特征提取模块和识别分类模块,所述特征提取模块包括至少一个卷积提取层,所述卷积提取层包括至少一个倍频程卷积瓶颈,所述通过所述特征提取模块分别对所述历史训练图像进行特征提取,得到各个特征图像的操作包括:
通过各所述卷积提取层中的各个倍频程卷积瓶颈,分别对各所述历史训练图像进行特征提取,得到各个高频特征,作为各所述特征图像。
进一步地,所述分别对各所述历史训练图像进行掩码压缩,得到压缩训练图像的操作包括:
获取掩码压缩模型,其中,所述掩码压缩模型由多条训练样本训练得到,一条所述训练样本由一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据为训练图像,所述真实标签为所述训练图像对应的压缩训练图像;
根据所述掩码压缩模型将所述历史训练图像映射为压缩训练图像。
进一步地,在所述获取掩码压缩模型的操作之前,处理器1001还可以用于调用存储器1005中存储的图像识别模型训练优化程序,执行以下操作:
将各所述历史训练图像作为所述输入特征数据,将各所述历史训练图像对应掩码压缩得到的压缩训练图像作为所述真实标签,生成多条训练样本,以根据多条所述训练样本训练得到掩码压缩模型。
进一步地,在所述获取掩码压缩模型的操作之前,处理器1001还可以用于调用存储器1005中存储的图像识别模型训练优化程序,执行以下操作:
获取所述输入特征数据对应的第一分类信息,以及所述真实标签对应的第二分类信息;
基于所述第一分类信息和所述第二分类信息,对待训练掩码压缩模型进行迭代优化,得到所述掩码优化模型。
基于上述的结构,提出图像识别模型训练优化方法的各个实施例。
参照图2,图2为本发明图像识别模型训练优化方法第一实施例的流程示意图。
本发明实施例提供了图像识别模型训练优化方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,图像识别模型训练优化方法的执行主体可以是个人电脑、智能手机、服务器等设备,在本实施例中并不做限制,以下为便于描述,省略执行主体进行各实施例的阐述。在本实施例中,所述图像识别模型训练优化方法包括:
步骤S10,获取至少一个新增训练图像和历史训练图像;
在本实施例中,需要说明的是,所述新增训练图像为新增的未用于图像识别模型训练的训练图像。所述历史训练图像为已用于图像识别模型训练的训练图像。
在一可行实施例中,从进行图像识别模型的模型训练的设备中获取至少一个新增训练图像和历史训练图像。
在另一可行实施例中,从服务器拉取至少一个新增训练图像和历史训练图像。
步骤S20,分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像;
示例性地,分别生成各所述历史训练图像对应的各个掩码信息,根据各所述掩码信息,分别对各所述历史训练图像进行压缩,得到各个压缩训练图像。
其中,在步骤S20中,所述分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像的步骤包括:
步骤S21,获取图像识别模型,其中,所述图像识别模型包括特征提取模块和识别分类模块;
在本实施例中,需要说明的是,所述特征提取模块用于对图像进行特征提取,得到图像特征,所述识别分类模型用于基于所述图像特征,对所述图像进行分类。
在本实施例中,需要说明的是,所述图像识别模型用于对遥感数据进行识别,而遥感数据的获取速度和数量较高,所以在训练得到图像识别模型时需要海量的训练样本。其中,所述遥感数据可以为机载光电侦察图像,用于城市规划、军事侦察、资源勘探和环境监测等领域。
步骤S22,通过所述特征提取模块分别对所述历史训练图像进行特征提取,得到各个特征图像,以及,通过所述识别分类模块对各所述特征图像进行分类,得到各个分类标签;
示例性地,通过分别将各个所述历史训练图像输入至所述特征提取模块,通过所述特征提取模块分别输出得到各个特征图像;通过分别将各个所述特征图像输入至所述识别分类模块,通过所述识别分类模块分别将各所述特征图像映射为各个分类标签。
其中,在步骤S22中,所述图像识别模型包括特征提取模块和识别分类模块,所述特征提取模块包括至少一个卷积提取层,所述卷积提取层包括至少一个倍频程卷积瓶颈,
所述通过所述特征提取模块分别对所述历史训练图像进行特征提取,得到各个特征图像的步骤包括:
步骤S223,通过各所述卷积提取层中的各个倍频程卷积瓶颈,分别对各所述历史训练图像进行特征提取,得到各个高频特征,作为各所述特征图像。
在本实施例中,需要说明的是,在对历史训练图像进行特征提取时,可提取到高频特征和低频特征,其中,所述低频特征包含全局特征信息,所述高频特征包含细节特征信息。
在本实施例中,需要说明的是,所述倍频程卷积瓶颈包括但不限于位于前端的第一倍频程卷积瓶颈、位于中间位置的第二倍频程卷积瓶颈和位于尾端的第三倍频程卷积瓶颈。
可选地,参照图3,所述特征提取模块包括四个阶段(图示的Stage1、2、3、4),其中,第一阶段(图示的Stage1)包括一个第一倍频程卷积瓶颈(图示的Oct(F)x1)和两个第二倍频程卷积瓶颈(图示的Oct(M)x2),第二阶段(图示的Stage2)包括四个第二倍频程卷积瓶颈(图示的Oct(M)x4),第三阶段(图示的Stage3)包括六个第二倍频程卷积瓶颈(图示的Oct(M)x6),第四阶段(图示的Stage4)包括两个第二倍频程卷积瓶颈(图示的Oct(M)x2)和一个第三倍频程卷积瓶颈(图示的Oct(L)x1)。
可选地,在上述实施例中,当特征输入所述第三倍频程卷积瓶颈时,所述第三倍频程卷积瓶颈仅保留高频特征。
可以理解的是,当保留低频特征时,也即,保留全局特征信息时,由于全局特征信息可能存在包含对于图像分类无作用的特征信息的情况,也可能存在包含对于图像分类有作用的特征信息的信息量不够的情况,从而导致降低了图像分类的准确性,以及,占了多余的存储空间,如此,仅保留了高频特征,也即,保留了对于图像分类有作用的特征信息,使得不仅提高了图像分类的准确性,还使得有限存储空间的进行模型训练的设备可存储更多的历史训练图像,增加了其存储的历史训练图像的数量。
可选地,所述第一倍频程卷积瓶颈包括一个第一倍频程卷积、一个第二倍频程和一个第三倍频程卷积,所述第二倍频程卷积瓶颈包括一个第四倍频程卷积、一个第五倍频程和一个第六倍频程卷积,所述第三倍频程卷积瓶颈包括一个第七倍频程卷积、一个第八倍频程和一个第九倍频程卷积。第一特征输入至所述第一倍频程卷积瓶颈时,通过所述第一倍频程卷积对所述第一特征进行处理,并将对应的处理结果输入至所述第二倍频程卷积,通过所述第二倍频程卷积对所述第一倍频程卷积对应的处理结果进行处理,并将对应的处理结果输入至所述第三倍频程卷积,通过所述第三倍频程卷积对所述第二倍频程卷积对应的处理结果进行处理,得到第二特征,所述第二特征包括第一处理子特征和第二处理子特征,所述第一处理子特征由所述第三倍频程卷积对应的处理结果和所述第一特征点乘计算得到,所述第二处理子特征由所述第三倍频程卷积对应的处理结果点乘计算得到。通过将第三特征和第四特征分别输入至所述第二倍频程卷积瓶颈,通过所述第四倍频程卷积分别对所述第三特征和所述第四特征进行处理,并将对应的处理结果分别输入至所述第五倍频程卷积,通过所述第五倍频程卷积分别对所述第四倍频程卷积对应的处理结果进行处理,并将对应的处理结果分别输入至所述第六倍频程卷积,通过所述第六倍频程卷积对所述第五倍频程卷积对应的处理结果进行处理得到第五特征,其中,所述第五特征包括第三处理子特征和第四处理子特征,所述第三处理子特征由所述第六倍频程卷积对应的处理结果与所述第三特征点乘计算得到,所述第四处理子特征由所述第六倍频程卷积对应的处理结果与所述第四特征点乘得到。通过将第六特征和第七特征分别输入至所述第三倍频程卷积瓶颈,通过所述第七倍频程卷积分别对所述第六特征和所述第七特征进行处理,并将对应的处理结果输入至所述第八倍频程卷积,通过所述第八倍频程卷积将所述第七倍频程卷积对应的处理结果分别进行处理,并将对应的处理结果输入至所述第九倍频程卷积,通过所述第九倍频程卷积将所述第八倍频程卷积对应的处理结果进行处理,并将所述第九倍频程卷积对应的处理结果与所述第六特征进行点乘计算得到第八特征。
可选地,参照图4,图4包括:第一倍频程卷积瓶颈(图示的Oct(F))、第二倍频程卷积瓶颈(图示的Oct(M))、第三倍频程卷积瓶颈(图示的Oct(L))、第一特征(图示的FF1)、第一处理子特征(图示的HFFo)、第二处理子特征(图示的LFFo)、第三特征(图示的HMMi)、第四特征(图示的LMMi)、第三处理子特征(图示的HFMo)、第四处理子特征(图示的LFMo)、第六特征(图示的HMLi)、第七特征(图示的LMLi)、第八特征(图示的FLo),其中,所述第一倍频程卷积瓶颈包括第一倍频程卷积(图示第一排最左端的OctConv 1×1)、第二倍频程卷积(图示第一排的Oct Conv3×3)和第三倍频程卷积(图示第一排最右端的OctConv 1×1),所述第二倍频程卷积瓶颈包括第四倍频程卷积(图示第二排最左端的OctConv 1×1)、第五倍频程卷积(图示第二排的Oct Conv3×3)和第六倍频程卷积(图示第二排最右端的OctConv 1×1),所述第三倍频程卷积包括第七倍频程卷积(图示第三排最左端的OctConv 1×1)、第八倍频程卷积(图示第三排的Oct Conv3×3)和第九倍频程卷积(图示第三排最右端的OctConv 1×1)。通过将所述第一特征输入至所述第一倍频程卷积瓶颈,通过所述第一倍频程卷积瓶颈对所述第一特征进行处理,得到所述第一处理子特征和所述第二处理子特征。通过将所述第三特征和所述第四特征输入至所述第二倍频程卷积瓶颈,通过所述第二倍频程卷积瓶颈对所述第三特征和所述第四特征进行处理,得到所述第三处理子特征和所述第四处理子特征。通过将所述第六特征和所述第七特征输入至所述第三倍频程卷积瓶颈,通过所述第三倍频程卷积瓶颈对所述第六特征和所述第七特征进行处理,得到所述第八特征。
步骤S23,根据各所述特征图像和各所述分类标签,计算得到各所述历史训练图像对应的各个激活值;
示例性地,获取所述识别分类模块分别对于各种分类标签的各个权重,基于各所述特征图像和各所述权重,计算各个激活参数;通过对所述激活参数进行归一化处理,得到归一化参数,所述归一化参数包括最小归一化参数和最大归一化参数;根据所述激活参数、所述最小归一化参数和所述最大归一化参数,计算得到各所述历史训练图像对应的各个激活值。
可选地,在一可行实施例中,将通过各所述卷积提取层中的各个倍频程卷积瓶颈,分别对各所述历史训练图像进行特征提取,得到的各个高频特征,作为所述特征图像。
如此,可进一步地降低特征图像的维度,从而使得有限存储空间的进行模型训练的设备可存储更多的历史训练图像。
可选地,所述基于各所述特征图像和各所述权重,计算各个激活参数的步骤具体可以包括:
其中,为激活参数,/>为所述识别分类标签对于标签y的权重,/>为所述特征图像。
可选地,所述根据所述激活参数、所述最小归一化参数和所述最大归一化参数,计算得到各所述历史训练图像对应的各个激活值的步骤具体可以包括:
其中,为激活值,/>为最小归一化参数,/>为最大归一化参数。
步骤S24,根据各所述激活值确定各所述压缩训练图像。
示例性地,将各所述激活值拼接为各所述压缩训练图像。
可以理解的是,由于历史训练图像可能存在形状不规则的区域,当直接将激活值拼接为压缩训练图像时,可能存在拼接得到的压缩训练图像不符合实际的不规则区域的情况,从而导致图像识别的准确度较低。
为克服上述缺陷,其中,在步骤S24中,所述根据各所述激活值确定各所述压缩训练图像的步骤包括:
步骤A10,分别生成各所述历史训练图像对应的各个边界框,并根据各所述激活值确定各个边界框坐标;
示例性地,确定各所述历史训练图像的各个垂直区域范围和水平区域范围,其中,所述垂直区域范围由垂直区域最大值和垂直区域最小值组成,所述水平区域范围由水平区域最大值和水平区域最小值组成,根据各所述垂直区域范围和水平区域范围分别生成各所述历史训练图像对应的各个边界框。
可选地,所述根据各所述垂直区域范围和水平区域范围分别生成各所述历史训练图像对应的各个边界框的步骤包括:
其中,为边界框,/>为垂直区域范围,/>为水平区域范围。
步骤A20,基于各所述边界框坐标,分别生成各所述历史训练图像对应的各个二进制掩码;
步骤A30,根据各所述二进制掩码和各所述特征图像,分别生成各所述压缩训练图像。
示例性地,获取预设下采样率,并以所述预设下采样率,对各所述特征图像进行下采样,得到各个下采样图像;根据各所述二进制掩码、各所述下采样图像和各所述特征图像,分别生成各所述压缩训练图像。
可选地,所述根据各所述二进制掩码、各所述下采样图像和各所述特征图像,分别生成各所述压缩训练图像的步骤具体可以包括:
其中,为压缩训练图像,/>为二进制掩码,/>为预设下采样率/>对应的下采样图像,/>为特征图像。
此时,压缩训练图像所需的内存具体可以包括:
其中,为压缩训练图像所需的内存,/>为边界框的宽度,/>为边界框的高度,为特征图像的宽度,/>为特征图像的高度。
由上式可知,特征图像经由压缩得到压缩训练图像后,占用的内存减少了,因此,使得有限存储空间的进行模型训练的设备可存储更多的历史训练图像,增加了其存储的历史训练图像的数量。
步骤S30,根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化。
示例性地,获取各所述压缩训练图像和各所述新增训练图像各自对应的真实标签;根据各所述压缩训练图像、各所述新增训练图像及其各自对应的真实标签,对图像识别模型进行迭代优化。
本发明实施例中,获取至少一个新增训练图像和历史训练图像,从而分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像,以实现对历史训练图像的压缩,进而根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化,使得有限存储空间的进行模型训练的设备可存储更多的历史训练图像,增加了其存储的历史训练图像的数量,也即,增加了对图像识别模型进行优化时用到的历史训练图像的数量,所以,使得图像识别模型进行迭代的依据更丰富,从而提高了迭代优化得到的图像识别模型的预测准确性。
进一步地,基于上述第一实施例,提出本发明图像识别模型训练优化方法第二实施例,在本实施例中,参照图5,在步骤S20中,所述分别对各所述历史训练图像进行掩码压缩,得到压缩训练图像的步骤包括:
步骤B10,获取掩码压缩模型,其中,所述掩码压缩模型由多条训练样本训练得到,一条所述训练样本由一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据为训练图像,所述真实标签为所述训练图像对应的压缩训练图像;
在本实施例中,需要说明的是,所述掩码压缩模型用于对历史训练图像进行掩码压缩。
其中,在步骤B10中,在所述获取掩码压缩模型的步骤之前,还包括:
步骤B01,将各所述历史训练图像作为所述输入特征数据,将各所述历史训练图像对应掩码压缩得到的压缩训练图像作为所述真实标签,生成多条训练样本,以根据多条所述训练样本训练得到掩码压缩模型。
在本实施例中,需要说明的是,所述历史训练图像对应掩码压缩得到的压缩训练图像对应的分类信息,与所述历史训练图像对应的分类信息一致。
可选地,所述历史训练图像对应掩码压缩得到的压缩训练图像可以为使得对应的所述分类信息,与所述历史训练图像对应的分类信息一致的情况下,满足预设压缩内存量范围的压缩训练图像。
可选地,所述历史训练图像对应掩码压缩得到的压缩训练图像可以为使得对应的所述分类信息,与所述历史训练图像对应的分类信息一致的情况下,对应预设压缩内存量最大的压缩训练图像。
其中,在步骤B10中,在所述获取掩码压缩模型的步骤之前,还包括:
步骤B02,获取所述输入特征数据对应的第一分类信息,以及所述真实标签对应的第二分类信息;
示例性地,获取待训练掩码压缩模型,将所述输入特征数据输入至所述待训练掩码压缩模型,通过所述待训练掩码压缩模型将所述输入特征数据映射为所述输入特征数据对应的训练掩码数据;获取所述训练掩码数据对应的分类信息,作为所述第一分类信息。
可选地,在一可行实施例中,获取用户标注的所述训练掩码数据对应的分类信息。
可选地,在另一可行实施例中,将所述训练掩码数据输入至图像识别模型,通过所述图像识别模型将所述训练掩码数据映射为所述第一分类信息。
可选地,在一可行实施例中,获取用户标注的所述真实标签对应的第二分类信息。
可选地,在另一可行实施例中,将所述真实标签输入至图像识别模型,通过所述图像识别模型将所述真实标签映射为所述第二分类信息。
步骤B03,基于所述第一分类信息和所述第二分类信息,对待训练掩码压缩模型进行迭代优化,得到所述掩码优化模型。
示例性地,获取所述第一分类信息和所述第二分类信息之间的差异度,基于所述差异度,计算所述待训练掩码优化模型的损失,基于所述损失判断此轮所述待训练掩码优化模型是否收敛,若此轮所述待训练掩码优化模型收敛,则将此轮的待训练掩码优化模型作为所述掩码优化模型;若此轮所述待训练掩码优化模型未收敛,则基于所述待训练掩码优化模型损失计算的梯度,通过预设模型更新方法更新所述待训练掩码优化模型,并返回至所述获取所述第一分类信息和所述第二分类信息之间的差异的步骤以及后续步骤,直至所述待训练掩码优化模型收敛,其中,所述预设模型更新方法包括梯度上升法或梯度下降法。
如此,将第一分类信息和第二分类信息之间的差异度作为计算待训练掩码优化模型损失的依据,使得由第一分类信息和第二分类信息之间的差异度计算得到的待训练掩码优化模型损失,训练得到的掩码压缩模型对历史训练图像压缩为压缩训练图像时,不影响压缩训练图像的图像识别准确性,所以,在保证历史训练图像对应压缩训练图像的图像识别准确性的情况下,使得有限存储空间的进行模型训练的设备可存储更多的历史训练图像,增加了其存储的历史训练图像的数量。
步骤B20,根据所述掩码压缩模型将所述历史训练图像映射为压缩训练图像。
示例性地,将所述历史训练图像输入至所述掩码压缩模型,通过所述掩码压缩模型将所述历史训练图像映射为压缩训练图像。
本发明中,获取掩码压缩模型,其中,所述掩码压缩模型由多条训练样本训练得到,一条所述训练样本由一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据为训练图像,所述真实标签为所述训练图像对应的压缩训练图像;根据所述掩码压缩模型将所述历史训练图像映射为压缩训练图像,通过训练好的掩码压缩模型对历史训练图像进行压缩得到压缩训练图像,使得有限存储空间的进行模型训练的设备可存储更多的历史训练图像,增加了其存储的历史训练图像的数量,也即,增加了对图像识别模型进行优化时用到的历史训练图像的数量,所以,使得图像识别模型进行迭代的依据更丰富,从而提高了迭代优化得到的图像识别模型的预测准确性。
此外,本发明实施例还提出一种图像识别模型训练优化装置,参照图6,所述图像识别模型训练优化装置包括:
获取模块10,用于获取至少一个新增训练图像和历史训练图像;
压缩模块20,用于分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像;
优化模块30,用于根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化。
进一步地,所述压缩模块20还用于:
获取图像识别模型,其中,所述图像识别模型包括特征提取模块和识别分类模块;
通过所述特征提取模块分别对所述历史训练图像进行特征提取,得到各个特征图像,以及,通过所述识别分类模块对各所述特征图像进行分类,得到各个分类标签;
根据各所述特征图像和各所述分类标签,计算得到各所述历史训练图像对应的各个激活值;
根据各所述激活值确定各所述压缩训练图像。
进一步地,所述压缩模块20还用于:
分别生成各所述历史训练图像对应的各个边界框,并根据各所述激活值确定各个边界框坐标;
基于各所述边界框坐标,分别生成各所述历史训练图像对应的各个二进制掩码;
根据各所述二进制掩码和各所述特征图像,分别生成各所述压缩训练图像。
进一步地,所述图像识别模型包括特征提取模块和识别分类模块,所述特征提取模块包括至少一个卷积提取层,所述卷积提取层包括至少一个倍频程卷积瓶颈,所述压缩模块20还用于:
通过各所述卷积提取层中的各个倍频程卷积瓶颈,分别对各所述历史训练图像进行特征提取,得到各个高频特征,作为各所述特征图像。
进一步地,所述压缩模块20还用于:
获取掩码压缩模型,其中,所述掩码压缩模型由多条训练样本训练得到,一条所述训练样本由一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据为训练图像,所述真实标签为所述训练图像对应的压缩训练图像;
根据所述掩码压缩模型将所述历史训练图像映射为压缩训练图像。
进一步地,在所述获取掩码压缩模型的步骤之前,所述图像识别模型训练优化装置还包括:
将各所述历史训练图像作为所述输入特征数据,将各所述历史训练图像对应掩码压缩得到的压缩训练图像作为所述真实标签,生成多条训练样本,以根据多条所述训练样本训练得到掩码压缩模型。
进一步地,在所述获取掩码压缩模型的步骤之前,所述图像识别模型训练优化装置还包括:
获取所述输入特征数据对应的第一分类信息,以及所述真实标签对应的第二分类信息;
基于所述第一分类信息和所述第二分类信息,对待训练掩码压缩模型进行迭代优化,得到所述掩码优化模型。
本发明图像识别模型训练优化装置各实施例,均可参照本发明图像识别模型训练优化方法各个实施例,此处不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有图像识别模型训练优化程序,所述图像识别模型训练优化程序被处理器执行时实现如下所述的图像识别模型训练优化方法的步骤。
本发明图像识别模型训练优化设备和计算机可读存储介质各实施例,均可参照本发明图像识别模型训练优化方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种图像识别模型训练优化方法,其特征在于,所述图像识别模型训练优化方法包括以下步骤:
获取至少一个新增训练图像和历史训练图像;
分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像;
根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化;
所述分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像的步骤包括:
获取图像识别模型,其中,所述图像识别模型包括特征提取模块和识别分类模块;
通过所述特征提取模块分别对所述历史训练图像进行特征提取,得到各个特征图像,以及,通过所述识别分类模块对各所述特征图像进行分类,得到各个分类标签;
根据各所述特征图像和各所述分类标签,计算得到各所述历史训练图像对应的各个激活值;
根据各所述激活值确定各所述压缩训练图像;
所述根据各所述激活值确定各所述压缩训练图像的步骤包括:
分别生成各所述历史训练图像对应的各个边界框,并根据各所述激活值确定各个边界框坐标;
基于各所述边界框坐标,分别生成各所述历史训练图像对应的各个二进制掩码;
根据各所述二进制掩码和各所述特征图像,分别生成各所述压缩训练图像;
所述图像识别模型包括特征提取模块和识别分类模块,所述特征提取模块包括至少一个卷积提取层,所述卷积提取层包括至少一个倍频程卷积瓶颈;
所述通过所述特征提取模块分别对所述历史训练图像进行特征提取,得到各个特征图像的步骤包括:
通过各所述卷积提取层中的各个倍频程卷积瓶颈,分别对各所述历史训练图像进行特征提取,得到各个高频特征,作为各所述特征图像,其中,所述倍频程卷积瓶颈包括位于前端的第一倍频程卷积瓶颈、位于中间位置的第二倍频程卷积瓶颈和位于尾端的第三倍频程卷积瓶颈,所述第三倍频程卷积瓶颈仅保留高频特征。
2.如权利要求1所述的图像识别模型训练优化方法,其特征在于,所述分别对各所述历史训练图像进行掩码压缩,得到压缩训练图像的步骤包括:
获取掩码压缩模型,其中,所述掩码压缩模型由多条训练样本训练得到,一条所述训练样本由一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据为训练图像,所述真实标签为所述训练图像对应的压缩训练图像;
根据所述掩码压缩模型将所述历史训练图像映射为压缩训练图像。
3.如权利要求2所述的图像识别模型训练优化方法,其特征在于,在所述获取掩码压缩模型的步骤之前,还包括:
将各所述历史训练图像作为所述输入特征数据,将各所述历史训练图像对应掩码压缩得到的压缩训练图像作为所述真实标签,生成多条训练样本,以根据多条所述训练样本训练得到掩码压缩模型。
4.如权利要求2所述的图像识别模型训练优化方法,其特征在于,在所述获取掩码压缩模型的步骤之前,还包括:
获取所述输入特征数据对应的第一分类信息,以及所述真实标签对应的第二分类信息;
基于所述第一分类信息和所述第二分类信息,对待训练掩码压缩模型进行迭代优化,得到掩码压缩模型。
5.一种图像识别模型训练优化装置,其特征在于,所述图像识别模型训练优化装置包括:
获取模块,用于获取至少一个新增训练图像和历史训练图像;
压缩模块,用于分别对各所述历史训练图像进行掩码压缩,得到各个压缩训练图像;
优化模块,用于根据各所述压缩训练图像和各所述新增训练图像,对图像识别模型进行迭代优化;
其中,所述压缩模块,还用于:
获取图像识别模型,其中,所述图像识别模型包括特征提取模块和识别分类模块;
通过所述特征提取模块分别对所述历史训练图像进行特征提取,得到各个特征图像,以及,通过所述识别分类模块对各所述特征图像进行分类,得到各个分类标签;
根据各所述特征图像和各所述分类标签,计算得到各所述历史训练图像对应的各个激活值;
根据各所述激活值确定各所述压缩训练图像;
分别生成各所述历史训练图像对应的各个边界框,并根据各所述激活值确定各个边界框坐标;
基于各所述边界框坐标,分别生成各所述历史训练图像对应的各个二进制掩码;
根据各所述二进制掩码和各所述特征图像,分别生成各所述压缩训练图像;
所述图像识别模型包括特征提取模块和识别分类模块,所述特征提取模块包括至少一个卷积提取层,所述卷积提取层包括至少一个倍频程卷积瓶颈;
通过各所述卷积提取层中的各个倍频程卷积瓶颈,分别对各所述历史训练图像进行特征提取,得到各个高频特征,作为各所述特征图像,其中,所述倍频程卷积瓶颈包括位于前端的第一倍频程卷积瓶颈、位于中间位置的第二倍频程卷积瓶颈和位于尾端的第三倍频程卷积瓶颈,所述第三倍频程卷积瓶颈仅保留高频特征。
6.一种图像识别模型训练优化设备,其特征在于,所述图像识别模型训练优化设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的图像识别模型训练优化程序,所述图像识别模型训练优化程序被所述处理器执行时实现如权利要求1至4中任一项所述的图像识别模型训练优化方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像识别模型训练优化程序,所述图像识别模型训练优化程序被处理器执行时实现如权利要求1至4中任一项所述的图像识别模型训练优化方法的步骤。
CN202410052667.XA 2024-01-15 2024-01-15 图像识别模型训练优化方法、装置、电子设备及存储介质 Active CN117576519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410052667.XA CN117576519B (zh) 2024-01-15 2024-01-15 图像识别模型训练优化方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410052667.XA CN117576519B (zh) 2024-01-15 2024-01-15 图像识别模型训练优化方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117576519A CN117576519A (zh) 2024-02-20
CN117576519B true CN117576519B (zh) 2024-04-09

Family

ID=89864651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410052667.XA Active CN117576519B (zh) 2024-01-15 2024-01-15 图像识别模型训练优化方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117576519B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766048A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 图像内容识别方法、装置、计算机设备和存储介质
CN111046971A (zh) * 2019-12-24 2020-04-21 上海眼控科技股份有限公司 图像识别方法、装置、设备及计算机可读存储介质
CN111126123A (zh) * 2019-08-29 2020-05-08 西安理工大学 一种基于压缩的增量核零空间变换行人再识别方法
CN111444765A (zh) * 2020-02-24 2020-07-24 北京市商汤科技开发有限公司 图像重识别方法及相关模型的训练方法及相关装置、设备
CN113139563A (zh) * 2020-01-19 2021-07-20 深圳云天励飞技术有限公司 一种图像分类模型的优化方法及装置
JP2022101645A (ja) * 2021-09-17 2022-07-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 暗号化マスク確定方法、画像認識方法、モデルトレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN114881968A (zh) * 2022-05-07 2022-08-09 中南大学 基于深度卷积神经网络的octa图像血管分割方法、设备及介质
CN115035281A (zh) * 2022-05-27 2022-09-09 哈尔滨工程大学 一种快速的红外全景图像拼接方法
CN115035328A (zh) * 2022-04-25 2022-09-09 上海大学 转炉图像增量自动机器学习系统及其建立训练方法
CN115908599A (zh) * 2022-09-05 2023-04-04 中南林业科技大学 一种主动脉夹层术后影像的生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022072000A1 (en) * 2020-09-30 2022-04-07 Google Llc Enhanced photo relighting based on machine learning models

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126123A (zh) * 2019-08-29 2020-05-08 西安理工大学 一种基于压缩的增量核零空间变换行人再识别方法
CN110766048A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 图像内容识别方法、装置、计算机设备和存储介质
CN111046971A (zh) * 2019-12-24 2020-04-21 上海眼控科技股份有限公司 图像识别方法、装置、设备及计算机可读存储介质
CN113139563A (zh) * 2020-01-19 2021-07-20 深圳云天励飞技术有限公司 一种图像分类模型的优化方法及装置
CN111444765A (zh) * 2020-02-24 2020-07-24 北京市商汤科技开发有限公司 图像重识别方法及相关模型的训练方法及相关装置、设备
JP2022101645A (ja) * 2021-09-17 2022-07-06 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 暗号化マスク確定方法、画像認識方法、モデルトレーニング方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN115035328A (zh) * 2022-04-25 2022-09-09 上海大学 转炉图像增量自动机器学习系统及其建立训练方法
CN114881968A (zh) * 2022-05-07 2022-08-09 中南大学 基于深度卷积神经网络的octa图像血管分割方法、设备及介质
CN115035281A (zh) * 2022-05-27 2022-09-09 哈尔滨工程大学 一种快速的红外全景图像拼接方法
CN115908599A (zh) * 2022-09-05 2023-04-04 中南林业科技大学 一种主动脉夹层术后影像的生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Browser Fingerprinting Identification Using Incremental Clustering Algorithm Based on Autoencoder;Futai Zou;《IEEE》;20211231;全文 *
基于改进的卷积神经网络图像识别方法;张珂;侯捷;;科学技术与工程;20200108(01);全文 *
基于迁移学习和显著性检测的盲道识别;李林;李小舜;吴少智;;计算机工程与应用;20180531(11);全文 *

Also Published As

Publication number Publication date
CN117576519A (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
US11416672B2 (en) Object recognition and tagging based on fusion deep learning models
CN108229341B (zh) 分类方法和装置、电子设备、计算机存储介质
CN111126258A (zh) 图像识别方法及相关装置
CN106709475B (zh) 障碍物识别方法及装置、计算机设备及可读存储介质
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN110780965B (zh) 基于视觉的流程自动化方法、设备及可读存储介质
CN113537070B (zh) 一种检测方法、装置、电子设备及存储介质
CN110287888A (zh) 一种台标识别方法及系统
CN113850838A (zh) 船舶航行意图获取方法、装置、计算机设备及存储介质
CN111783997A (zh) 一种数据处理方法、装置及设备
CN115512238A (zh) 病害区域的确定方法、装置、存储介质及电子装置
CN108615006A (zh) 用于输出信息的方法和装置
CN111242183A (zh) 基于注意力机制的图像识别分类方法及装置
CN117576519B (zh) 图像识别模型训练优化方法、装置、电子设备及存储介质
CN113361384A (zh) 人脸识别模型压缩方法、设备、介质及计算机程序产品
CN112801489A (zh) 诉讼案件风险检测方法、装置、设备和可读存储介质
CN112613496A (zh) 一种行人重识别方法、装置、电子设备及存储介质
CN111476144A (zh) 行人属性识别模型确定方法、装置及计算机可读存储介质
CN114494441B (zh) 基于深度学习的葡萄及其采摘点同步识别定位方法、装置
CN115731451A (zh) 模型训练方法、装置、电子设备及存储介质
CN115424250A (zh) 一种车牌识别方法及装置
CN114078204A (zh) 目标检测方法、装置、电子设备及存储介质
CN117058498B (zh) 分割图评估模型的训练方法、分割图的评估方法及装置
CN117390515B (zh) 基于深度学习和SimHash的数据分类方法及系统
CN116226260B (zh) 一种大数据决策方法、系统及云端服务中心

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant