CN116912604B - 模型训练方法、图像识别方法、装置以及计算机存储介质 - Google Patents
模型训练方法、图像识别方法、装置以及计算机存储介质 Download PDFInfo
- Publication number
- CN116912604B CN116912604B CN202311168445.6A CN202311168445A CN116912604B CN 116912604 B CN116912604 B CN 116912604B CN 202311168445 A CN202311168445 A CN 202311168445A CN 116912604 B CN116912604 B CN 116912604B
- Authority
- CN
- China
- Prior art keywords
- image
- trained
- resolution
- image recognition
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000002372 labelling Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种模型训练方法、图像识别方法、装置以及计算机存储介质。所述模型训练方法包括:获取待训练图像;将待训练图像从第一分辨率缩小至第二分辨率;获取待训练的图像识别模型预设的第三分辨率,第三分辨率为待训练的图像识别模型中输入网络的图像大小;将第二分辨率的待训练图像放大为第三分辨率的小目标特征图像;利用第三分辨率的小目标特征图像对图像识别模型进行训练。通过上述方式,本申请能够通过将包含有大目标的待训练图像的分辨率进行缩小,从而实现使用基于已有的大目标标注的数据得到的更加具有小目标特征的样本对图像识别模型进行训练,在不影响大目标识别的基础上提高模型对于小目标样本的识别能力。
Description
技术领域
本申请涉及计算机图像处理领域,特别是涉及一种模型训练方法、图像识别方法、图像识别装置以及计算机存储介质。
背景技术
随着计算机图像处理技术的不断发展,图像应用领域也越来越广泛,涉及生物医学、军事、机器视觉等多个应用领域。图像处理技术是用计算机对图像信息进行处理的技术,主要包括图像增强和复原,图像识别,图像分割、图像编码、模板匹配等。
图像识别是也称为图像分类,是一种计算机视觉技术,是人工智能的一个重要领域。允许机器识别和分类数字图像或视频中的对象。该技术使用人工智能和机器学习算法来学习图像中的模式和特征,以准确识别它们。该技术在各个行业都有广泛的应用,包括制造业、医疗保健、零售业、农业和安全。
图像识别的目的是通过识别和分类图像中的对象,使机器能够像人类一样解释视觉数据。图像识别算法使用深度学习和神经网络来处理数字图像并识别图像中的模式和特征。这些算法在大型图像数据集上进行训练,以学习不同对象的模式和特征。然后使用经过训练的模型将新图像准确地分类为不同的类别。
图像识别在对目标进行检测时,由于小目标的尺寸过小,在图像中占的像素点数量也少,因此难以提取到小尺寸目标的特征,从而图像识别模型通常更侧重于学习到大尺寸目标的特征,从而影响了对于小尺寸目标的图像识别准确率。
发明内容
本申请主要解决的技术问题是如何提高图像识别模型对于小目标样本的识别准确率,对此,本申请提供一种模型训练方法、图像识别方法、图像识别装置以及计算机可读存储介质。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种模型训练方法,该方法包括:获取待训练图像;将待训练图像从第一分辨率缩小至第二分辨率;获取待训练的图像识别模型预设的第三分辨率,第三分辨率为待训练的图像识别模型中输入网络的图像大小;将第二分辨率的待训练图像放大为第三分辨率的小目标特征图像;利用第三分辨率的小目标特征图像对图像识别模型进行训练。
其中,将待训练图像从第一分辨率缩小至第二分辨率,包括:获取每一待训练图像的随机概率,并与预设概率进行比较;若随机概率小于预设概率,则将对应的待训练图像从第一分辨率缩小至第二分辨率。
其中,利用第三分辨率的小目标特征图像对图像识别模型进行训练,包括:将未缩小的第一分辨率的待训练图像缩放至第三分辨率得到第一训练图像;利用第三分辨率的小目标特征图像与第一训练图像对图像识别模型进行训练。
其中,第一分辨率包括待训练图像的长与宽;基于待训练图像中最小的长与宽得到第二分辨率。
其中,基于待训练图像中最小的长与宽得到第二分辨率,包括:
获取待训练图像中最小的长与宽两者之间的最大值作为初始长与初始宽;基于初始长和第一随机数得到预设长;基于初始宽和第二随机数得到预设宽;基于预设长与预设宽得到第二分辨率。
其中,在利用第三分辨率的小目标特征图像对图像识别模型进行训练之后,还包括:判断训练次数是否满足预设次数;若不满足,则继续获取待训练图像对图像识别模型进行训练。
其中,在获取若干待训练图像之后,还包括:对待训练图像进行数据增强。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种图像识别方法,该方法包括:获取待识别图像;将待识别图像输入预先训练的图像识别模型,其中图像识别模型使用上述的模型训练方法训练所得;获取图像识别模型输出的图像类别。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种图像识别装置,该图像识别装置包括处理器和存储器,存储器与处理器耦接,存储器存储有程序数据,处理器用于执行程序数据以实现如上述的模型训练方法,和/或图像识别方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质存储有程序数据,程序数据在被执行时,用于实现上述的模型训练方法,和/或图像识别方法。
本申请的有益效果是:区别于现有技术的情况,本发明提供的模型训练方法应用于图像识别装置,图像识别装置获取待训练图像;将待训练图像从第一分辨率缩小至第二分辨率;获取待训练的图像识别模型预设的第三分辨率,第三分辨率为待训练的图像识别模型中输入网络的图像大小;将第二分辨率的待训练图像放大为第三分辨率的小目标特征图像;利用第三分辨率的小目标特征图像对图像识别模型进行训练。通过上述方式,与常规的图像识别方法相比,本申请采用的在图像识别装置中对待训练图像进行分辨率缩小,再放大到图像识别模型所需的分辨率的方式,能够在第一次缩小时使得大目标图像更加具有小目标特征,从而在不改变图像识别模型的结构的情况下使得图像识别模型能够在识别图像时提升识别小目标样本的精确度。同时本申请基于已有的大目标样本得到的小目标样本对图像识别模型进行训练,可以减少直接采集并标注小目标样本的数据采集标注成本,且不需要改变图像识别模型的推理和部署方式,无需从头训练样本,从而减少了模型训练的成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的模型训练方法第一实施例的流程示意图;
图2是本申请提供的模型训练方法的整体流程示意图;
图3是本申请提供的模型训练方法第二实施例的流程示意图;
图4是本申请提供的图像识别方法一实施例的流程示意图;
图5是本申请提供的图像识别方法一实施例中对各个像素范围的图像进行识别的效果对比示意图;
图6是本申请提供的图像识别装置第一实施例的结构示意图;
图7是本申请提供的图像识别装置第二实施例的结构示意图;
图8是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
图像识别装置和图像识别模型均可以作为为本申请实施例中提供的图像识别方法和/或模型训练方法的执行主体,图像识别模型可以搭载在图像识别装置上,为其中的核心部分。
本申请提供的模型训练方法主要应用于一种图像识别装置,其中,本申请的图像识别装置可以为服务器,也可以为由服务器和终端设备相互配合的系统。相应地,图像识别装置包括的各个部分,例如各个单元、子单元、模块、子模块可以全部设置于服务器中,也可以分别设置于服务器和终端设备中。
进一步地,上述服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块,例如用来提供分布式服务器的软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。在一些可能的实现方式中,本申请实施例的模型训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
本申请提供的模型训练方法主要应用于人工智能的小目标识别中。小目标是指图像中覆盖区域较小的一类目标。与常规目标相比,小目标信息量少,训练数据难以标记,这导致通用的目标检测方法对小目标的检测效果不好,而专门为小目标设计的检测方法往往复杂度过高或不具有通用性。
现有技术中通常采用修改图像识别模型的网络结构,使得网络可以同时适应大目标和小目标的特征进行多尺度的图像识别。但是修改网络结构会使得需要对整个模型重新训练,增加了模型训练的成本。
因此,本申请提供一种模型训练方法,通过对已有的标注过的大目标数据进行处理,再将处理后的图像用于训练图像识别模型。具体实施方法如下所述。
参阅图1至图2,图1是本申请提供的模型训练方法第一实施例的流程示意图;图2是本申请提供的模型训练方法的整体流程示意图。
步骤11:获取待训练图像。
具体地,待训练图像为包括有已有标注的大目标样本的图像,获取待训练图像的方式可以是通过用户输入或导入的方式实现或从数据库中提取得到。示例性地,待训练图像可以是预先存储在数据库中的,图像识别装置通过调用该数据库就能够获取待训练图像。当然,待训练图像还可以是用户导入的,用户可以预先收集待训练图像,然后导入至图像识别装置中。因此,关于具体如何获取待训练图像的方式有很多,此处不做具体限定。
步骤12:将待训练图像从第一分辨率缩小至第二分辨率。
在本申请一实施例中,图像识别装置在将待训练图像从第一分辨率缩小至第二分辨率之前,可以获取每一待训练图像的随机概率,并与预设概率p进行比较;若随机概率小于预设概率p,则将对应的待训练图像从第一分辨率缩小至第二分辨率。
具体地,在将待训练图像从第一分辨率缩小至第二分辨率之前,图像识别装置还会使用数据增强算法对原始的待训练图像进行数据增强。通过数据增强的手段,可以避免待训练图像中的图像数据过拟合,即避免基于待训练图像数据训练的图像识别模型在训练集上表现的很好,但是在实际图像识别上表现一般,就是说图像识别模型对未知样本的预测表现一般,泛化能力较差。此外,还能增加训练出的图像识别模型对待训练图像的敏感度,提升模型的鲁棒性。
具体地,图像增强包括图像识别装置对待训练图像进行随机旋转,随机翻转,随机噪声,颜色偏移,运动模糊,调节亮度,饱和度,直方图均衡化,调整白平衡等操作,在此不做限定。
可选地,随机概率可以通过随机数函数rand()获得,用户可以基于需求自行设定随机数的随机范围,通常,图像识别装置采用的随机范围为(0,1)时,即获取0至1之间一个数作为随机概率。
可选地,预设概率p由图像识别装置根据随机概率的随机范围确定,即当随机概率的随机范围为(0,1)时,预设概率p也从(0,1)中确定。
在本申请一实施例中,取预设概率为0.5,此时根据随机概率可得,图像识别装置会获取所有待训练图像中一半数量的图像,将其对应的第一分辨率缩小至第二分辨率,另一半图像分辨率保持不变。
在本申请一实施例中,对待训练图像的选取还可以根据预设比例,对预设比例的待训练图像进行第一分辨率缩小至第二分辨率的操作,使得部分待训练图像更加具有小目标样本的特征。预设比例以及预设概率的值可以由用户根据需求自行设定,在此不做限定。例如,当待训练图像一共100张,预设比例为40%时,则将所有待训练图像中随机40张的待训练图像的第一分辨率缩小至第二分辨率。
具体地,第一分辨率为待训练图像的原始分辨率,可以记为长宽(W1,H1),表示待训练图像包括W1×H1个像素点。第二分辨率为图像识别装置将待训练图像缩放的分辨率。
在本申请一实施例中,图像识别装置可以基于所有待训练图像中最小的长与宽得到第二分辨率,参阅图3,图3是本申请提供的模型训练方法第二实施例的流程示意图。
步骤31:获取待训练图像中最小的长与宽两者之间的最大值作为初始长与初始宽。
在本申请一实施例中,图像识别装置可以获取所有待训练图像对应的分辨率大小,经过比较后将其中分辨率最小的图像的像素大小对应的长与宽记作Wmin和Hmin。图像识别装置再获取Wmin和Hmin中的最大值作为初始长与初始宽,即W=H=max(Wmin, Hmin)。
步骤32:基于初始长和第一随机数得到预设长。
具体地,图像识别装置通过随机数数函数rand()获得第一随机数,第一随机数的取值范围为(a,b),且a,b满足(0<a<b<1),即第一随机数r1= rand(a,b)。在得到第一随机数后,与初始长相乘得到预设长。即W2= r1* W。
步骤33:基于初始宽和第二随机数得到预设宽。
具体地,图像识别装置通过随机数数函数rand()获得第二随机数,第二随机数的取值范围为(a,b),且a,b满足(0<a<b<1),即第二随机数r2= rand(a,b)。在得到第一随机数后,与初始宽相乘得到预设宽。即H2= r2* H。
步骤34:基于预设长与预设宽得到第二分辨率。
具体地,图像识别装置以预设长和预设宽作为待训练图像所要缩小至的第二分辨率。即第二分辨率为(W2,H2)。
具体地,图像识别装置随机选择一种图像缩放算法库中的图像缩放算法将待训练图像的分辨率缩小至第二分辨率。其中,图形缩放算法包括:最近邻插值、双线性插值、双三次插值、区域关系重采样、Lanczos插值等,在此不做限定。
以最近邻插值为例,最近邻插值法是最简单的灰度值插值。也称作零阶插值,就是令变换后像素的灰度值等于距它最近的输入像素的灰度值。
最近邻插值法坐标变换计算公式:
srcX=dstX*(srcWidth/dstWidth),srcY=dstY*(srcHeight/dstHeight)
上式中,dstX与dstY为目标图像的某个像素的横纵坐标,dstWidth与dstHeight为目标图像的长与宽;srcWidth与srcHeight为原(source)图像的宽度与高度。srcX,srcY为目标图像在该点(dstX,dstY)对应的原图像的坐标。如果是放大图像,那么srcWidth/dstWidth)值小于1,如果是缩小图像,那么srcWidth/dstWidth值大于1,如果srcWidth/dstWidth=1,就相当于复制了图像。
以4×4的初始图像为例,缩放后的图像大小为2×2,计算缩放后的图像中坐标点(1,1)对应的初始图像中的坐标点:
srcX=dstX*(srcWidth/dstWidth)=1*(4/2)=2,
srcY=dstY*(srcHeight/dstHeight)=1*(4/2)=2,故(1,1)的像素值应为原图像中(2,2)像素的值。以此方法计算缩放后图像中每个像素点的像素值从而得到缩放后的图像。
具体地,在将待训练图像从第一分辨率缩小至第二分辨率之后,图像识别装置还会使用数据增强算法对第二分辨率的待训练图像进行数据增强。图像增强包括图像识别装置对待训练图像进行随机旋转,随机翻转,随机噪声,颜色偏移,运动模糊,调节亮度,饱和度,直方图均衡化,调整白平衡等操作,在此不做限定。通过数据增强的手段可以进一步增强小目标样本的特征。
步骤13:获取待训练的图像识别模型预设的第三分辨率,第三分辨率为待训练的图像识别模型中输入网络的图像大小。
具体地,在图像识别装置将待训练图像的第一分辨率缩小至第二分辨率之后,还包括获取到待训练的图像识别模型所要输入的图像对应的第三分辨率。
步骤14:将第二分辨率的待训练图像放大为第三分辨率的小目标特征图像。
具体地,图像识别装置将已经缩小至第二分辨率的待训练图像和未缩小的第一分辨率的待训练图像一起放大/缩小至第三分辨率,使得得到的待训练图像满足图像识别模型网络输入大小。
具体地,图像识别装置随机选择一种图像缩放算法库中的图像缩放算法将第一分辨率的待训练图像和第二分辨率的待训练图像的分辨率放大/缩小至第三分辨率。其中,图形缩放算法包括:最近邻插值、双线性插值、双三次插值、区域关系重采样、Lanczos插值等,在此不做限定。
步骤15:利用第三分辨率的小目标特征图像对图像识别模型进行训练。
具体地,图像识别装置将未缩小的第一分辨率的待训练图像缩放至第三分辨率得到第一训练图像,利用第三分辨率的待训练图像中的小目标特征图像与第一训练图像对图像识别模型进行训练。
具体地,在图像识别装置使用第一训练图像以及第三分辨率的待训练图像中的小目标特征图像之前,还包括对第一训练图像以及小目标特征图像进行特征提取,其中特征提取的方式在此不做限定。图像识别装置利用提取到的图像特征对图像识别模型进行训练。
可选地,图像识别模型可以是由用户输入或导入的方式实现或从数据库中提取得到的已经训练好的现有的图像识别模型,也可以是未训练过的。即可以对已有的图像识别模型进行训练,也可以基于待训练图像从头开始训练一个新的模型。其中,模型的结构包括但不限于CNN,RNN,Transformer等。
请继续参阅图2,在本申请一实施例中,在图像识别装置利用第三分辨率的小目标特征图像对图像识别模型进行训练之后,还包括:判断训练次数是否满足预设次数;若不满足,则继续获取待训练图像对图像识别模型进行训练。
在得到训练好的图像识别模型后,图像识别装置还可以对未标注的图像进行识别,得到图像中样本的种类。参阅图4,图4是本申请提供的图像识别方法一实施例的流程示意图。
步骤41:获取待识别图像。
具体地,待识别图像为未识别图像中样本种类的图像,获取待识别图像的方式可以是通过用户输入或导入的方式实现或从数据库中提取得到。示例性地,待识别图像可以是预先存储在数据库中的,图像识别装置通过调用该数据库就能够获取待识别图像。当然,待识别图像还可以是用户导入的,用户可以预先收集待识别图像,然后导入至图像识别装置中。因此,关于具体如何获取待识别图像的方式有很多,此处不做具体限定。
步骤42:将待识别图像输入预先训练的图像识别模型,其中图像识别模型使用如上述的模型训练方法训练所得。
具体地,图像识别装置按照步骤11~步骤15所述的模型训练方法训练得到图像识别模型。
步骤43:获取图像识别模型输出的图像类别。
具体地,图像识别装置会基于图像识别模型输出待识别图像中类别。
在本申请一实施例中,使用包含有已标注大目标样本的待训练图像训练得到图像识别模型。其中,待训练图像中包括人、机动车、非机动车、动物、虚影目标五个种类,最小图像分辨率为32×32。使用待识别图像集对训练好的图像识别模型进行测试,其中待识别图像集中包括包含有大目标和小于32×32的小目标的图像。
设置a=0.25,b=1.0,W=H=32,实验结果如图5所示,图5是本申请提供的图像识别方法一实施例中对各个像素范围的图像进行识别的效果对比示意图。可以看出原始模型对小于32*32像素的图像识别精度较差,而使用本申请后图像识别模型对小于32*32的小目标图像识别精度有较大幅度的提高,且对大于32*32像素的图像识别精度并未出现下降。
区别于现有技术的情况,本发明提供的模型训练方法应用于图像识别装置,图像识别装置获取待训练图像;将待训练图像从第一分辨率缩小至第二分辨率;获取待训练的图像识别模型预设的第三分辨率,第三分辨率为待训练的图像识别模型中输入网络的图像大小;将第二分辨率的待训练图像放大为第三分辨率的小目标特征图像;利用第三分辨率的小目标特征图像对图像识别模型进行训练。通过上述方式,与常规的图像识别方法相比,本申请采用的在图像识别装置中对待训练图像进行分辨率缩小,再放大到图像识别模型所需的分辨率的方式,能够在第一次缩小时使得大目标图像更加具有小目标特征,从而在不改变图像识别模型的结构的情况下使得图像识别模型能够在识别图像时提升识别小目标样本的精确度。同时本申请基于已有的大目标样本得到的小目标样本对图像识别模型进行训练,可以减少直接采集并标注小目标样本的数据采集标注成本,且不需要改变图像识别模型的推理和部署方式,无需从头训练样本,从而减少了模型训练的成本。
上述实施例的方法,可以利用一图像识别装置来实现,下面结合图6进行描述,图6是本申请提供的图像识别装置第一实施例的结构示意图。
如图6所示,本申请实施例的图像识别装置60包括获取模块61、缩小模块62、放大模块63、训练模块64。
其中,获取模块61,用于获取待训练样本。
缩小模块62,用于将待训练图像从第一分辨率缩小至第二分辨率。
放大模块63,用于获取待训练的图像识别模型预设的第三分辨率;将第二分辨率的待训练图像放大为第三分辨率的小目标特征图像。
训练模块64,用于利用第三分辨率的小目标特征图像对图像识别模型进行训练。
上述实施例的方法,可以利用一图像识别装置来实现,下面结合图7,图7是本申请提供的图像识别装置第二实施例的结构示意图,该图像识别装置70包括存储器71和处理器72,存储器71用于存储程序数据,处理器72用于执行程序数据以实现如下的方法:
获取待训练图像;将待训练图像从第一分辨率缩小至第二分辨率;获取待训练的图像识别模型预设的第三分辨率,第三分辨率为待训练的图像识别模型中输入网络的图像大小;将第二分辨率的待训练图像放大为第三分辨率的小目标特征图像;利用第三分辨率的小目标特征图像对图像识别模型进行训练。
参阅图8,图8是本申请提供的计算机可读存储介质一实施例的结构示意图,该计算机可读存储介质80存储有程序数据81,程序数据81在被处理器执行时,用于实现如下的方法:
获取待训练图像;将待训练图像从第一分辨率缩小至第二分辨率;获取待训练的图像识别模型预设的第三分辨率,第三分辨率为待训练的图像识别模型中输入网络的图像大小;将第二分辨率的待训练图像放大为第三分辨率的小目标特征图像;利用第三分辨率的小目标特征图像对图像识别模型进行训练。
本申请的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于图像识别的模型训练方法,其特征在于,所述模型训练方法包括:
获取待训练图像;
将所述待训练图像从第一分辨率缩小至第二分辨率;
获取待训练的图像识别模型预设的第三分辨率;
将所述第二分辨率的所述待训练图像放大至所述第三分辨率;
利用所述第三分辨率的所述待训练图像中的小目标特征对所述图像识别模型进行训练。
2.根据权利要求1所述的模型训练方法,其特征在于,
所述将所述待训练图像从第一分辨率缩小至第二分辨率,包括:
获取每一所述待训练图像的随机概率,并与预设概率进行比较;
将所述随机概率小于所述预设概率的所述待训练图像从所述第一分辨率缩小至所述第二分辨率。
3.根据权利要求2所述的模型训练方法,其特征在于,
所述利用所述第三分辨率的所述待训练图像中的小目标特征对所述图像识别模型进行训练,包括:
利用所述第三分辨率的所述待训练图像中的小目标特征与所述随机概率大于等于所述预设概率的所述待训练图像对所述图像识别模型进行训练。
4.根据权利要求1所述的模型训练方法,其特征在于,
所述第一分辨率包括所述待训练图像的长与宽;
基于所述待训练图像中最小的所述长与所述宽得到所述第二分辨率。
5.根据权利要求4所述的模型训练方法,其特征在于,
所述基于所述待训练图像中最小的所述长与所述宽得到所述第二分辨率,包括:
获取所述待训练图像中最小的所述长与所述宽两者之间的最大值作为初始长与初始宽;
基于所述初始长和第一随机数得到预设长;
基于所述初始宽和第二随机数得到预设宽;
基于所述预设长与所述预设宽得到所述第二分辨率。
6.根据权利要求1所述的模型训练方法,其特征在于,
在利用所述第三分辨率的所述待训练图像中的小目标特征对所述图像识别模型进行训练之后,还包括:
判断训练次数是否满足预设次数;
若不满足,则继续获取所述待训练图像对所述图像识别模型进行训练。
7.根据权利要求1所述的模型训练方法,其特征在于,
在所述获取若干待训练图像之后,还包括:
对所述待训练图像进行数据增强。
8.一种图像识别方法,其特征在于,所述图像识别方法包括:
获取待识别图像;
将所述待识别图像输入预先训练的图像识别模型,其中所述图像识别模型使用如权利要求1至7任一项所述的模型训练方法训练所得;
获取所述图像识别模型输出的图像类别。
9.一种图像识别装置,其特征在于,所述图像识别装置包括存储器以及与所述存储器耦接的处理器;
其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1至7任一项所述的模型训练方法,和/或权利要求8所述的图像识别方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如权利要求1至7任一项所述的模型训练方法,和/或权利要求8所述的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168445.6A CN116912604B (zh) | 2023-09-12 | 2023-09-12 | 模型训练方法、图像识别方法、装置以及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311168445.6A CN116912604B (zh) | 2023-09-12 | 2023-09-12 | 模型训练方法、图像识别方法、装置以及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912604A CN116912604A (zh) | 2023-10-20 |
CN116912604B true CN116912604B (zh) | 2024-01-16 |
Family
ID=88358715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311168445.6A Active CN116912604B (zh) | 2023-09-12 | 2023-09-12 | 模型训练方法、图像识别方法、装置以及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912604B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236247B (zh) * | 2023-11-16 | 2024-01-23 | 零壹半导体技术(常州)有限公司 | 一种用于芯片测试的信号屏蔽线生成方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163237A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 模型训练及图像处理方法、装置、介质、电子设备 |
CN111104967A (zh) * | 2019-12-02 | 2020-05-05 | 精锐视觉智能科技(上海)有限公司 | 图像识别网络训练方法、图像识别方法、装置及终端设备 |
CN111626208A (zh) * | 2020-05-27 | 2020-09-04 | 北京百度网讯科技有限公司 | 用于检测小目标的方法和装置 |
CN111898668A (zh) * | 2020-07-24 | 2020-11-06 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于深度学习的小目标物体检测方法 |
CN112149756A (zh) * | 2020-10-14 | 2020-12-29 | 深圳前海微众银行股份有限公司 | 模型训练方法、图像识别方法、装置、设备及存储介质 |
CN112149741A (zh) * | 2020-09-25 | 2020-12-29 | 北京百度网讯科技有限公司 | 图像识别模型的训练方法、装置、电子设备及存储介质 |
WO2022005611A1 (en) * | 2020-06-30 | 2022-01-06 | Microsoft Technology Licensing, Llc | Image super-resolution reconstructing |
EP3937120A1 (en) * | 2020-07-08 | 2022-01-12 | Sartorius Stedim Data Analytics AB | Computer-implemented method, computer program product and system for processing images |
CN114266697A (zh) * | 2020-09-16 | 2022-04-01 | 广州虎牙科技有限公司 | 图像处理和模型训练方法、装置、电子设备及存储介质 |
CN115496664A (zh) * | 2022-10-14 | 2022-12-20 | 维沃移动通信有限公司 | 一种模型训练方法、装置、电子设备及可读存储介质 |
CN115937794A (zh) * | 2023-03-08 | 2023-04-07 | 北京龙智数科科技服务有限公司 | 小目标对象检测方法、装置、电子设备及存储介质 |
CN116152591A (zh) * | 2022-11-25 | 2023-05-23 | 中山大学 | 模型训练方法、红外小目标检测方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102287942B1 (ko) * | 2020-02-24 | 2021-08-09 | 삼성전자주식회사 | 전처리를 이용한 영상의 ai 부호화 및 ai 복호화 방법, 및 장치 |
-
2023
- 2023-09-12 CN CN202311168445.6A patent/CN116912604B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163237A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 模型训练及图像处理方法、装置、介质、电子设备 |
CN111104967A (zh) * | 2019-12-02 | 2020-05-05 | 精锐视觉智能科技(上海)有限公司 | 图像识别网络训练方法、图像识别方法、装置及终端设备 |
JP2021179971A (ja) * | 2020-05-27 | 2021-11-18 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 小目標を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム |
CN111626208A (zh) * | 2020-05-27 | 2020-09-04 | 北京百度网讯科技有限公司 | 用于检测小目标的方法和装置 |
WO2022005611A1 (en) * | 2020-06-30 | 2022-01-06 | Microsoft Technology Licensing, Llc | Image super-resolution reconstructing |
EP3937120A1 (en) * | 2020-07-08 | 2022-01-12 | Sartorius Stedim Data Analytics AB | Computer-implemented method, computer program product and system for processing images |
CN111898668A (zh) * | 2020-07-24 | 2020-11-06 | 佛山市南海区广工大数控装备协同创新研究院 | 一种基于深度学习的小目标物体检测方法 |
CN114266697A (zh) * | 2020-09-16 | 2022-04-01 | 广州虎牙科技有限公司 | 图像处理和模型训练方法、装置、电子设备及存储介质 |
CN112149741A (zh) * | 2020-09-25 | 2020-12-29 | 北京百度网讯科技有限公司 | 图像识别模型的训练方法、装置、电子设备及存储介质 |
CN112149756A (zh) * | 2020-10-14 | 2020-12-29 | 深圳前海微众银行股份有限公司 | 模型训练方法、图像识别方法、装置、设备及存储介质 |
CN115496664A (zh) * | 2022-10-14 | 2022-12-20 | 维沃移动通信有限公司 | 一种模型训练方法、装置、电子设备及可读存储介质 |
CN116152591A (zh) * | 2022-11-25 | 2023-05-23 | 中山大学 | 模型训练方法、红外小目标检测方法、装置及电子设备 |
CN115937794A (zh) * | 2023-03-08 | 2023-04-07 | 北京龙智数科科技服务有限公司 | 小目标对象检测方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Augmentation for Small Object Detection;KISANTAL M等;arXiv;全文 * |
一种改进的局部线性嵌入超分辨率重建算法;曹明明;干宗良;朱秀昌;;南京邮电大学学报(自然科学版)(01);全文 * |
联合稀疏表示和总变分正则化的超分辨率重建方法;黄炜钦;黄德天;柳培忠;顾培婷;刘晓芳;;海峡科学(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116912604A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Quan et al. | Distinguishing between natural and computer-generated images using convolutional neural networks | |
CN108229490B (zh) | 关键点检测方法、神经网络训练方法、装置和电子设备 | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
Yang et al. | MSTA-Net: Forgery detection by generating manipulation trace based on multi-scale self-texture attention | |
Han et al. | Two-stage learning to predict human eye fixations via SDAEs | |
CN111738160B (zh) | 视频微表情识别方法、装置、计算机设备及存储介质 | |
US8750619B2 (en) | Character recognition | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
CN111784624B (zh) | 目标检测方法、装置、设备及计算机可读存储介质 | |
CN113128271A (zh) | 脸部图像的伪造检测 | |
JP2010134957A (ja) | パターン認識方法 | |
JP2008537198A (ja) | 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート | |
CN116912604B (zh) | 模型训练方法、图像识别方法、装置以及计算机存储介质 | |
CN108875623B (zh) | 一种基于图像特征融合对比技术的人脸识别方法 | |
US11809519B2 (en) | Semantic input sampling for explanation (SISE) of convolutional neural networks | |
Zhang et al. | No one can escape: A general approach to detect tampered and generated image | |
Elhassan et al. | DFT-MF: Enhanced deepfake detection using mouth movement and transfer learning | |
CN114444565A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
Bai et al. | Robust texture-aware computer-generated image forensic: Benchmark and algorithm | |
CN113378949A (zh) | 一种基于胶囊网络和混合注意力的双重生成对抗学习方法 | |
CN110610131B (zh) | 人脸运动单元的检测方法、装置、电子设备及存储介质 | |
CN111259792A (zh) | 基于dwt-lbp-dct特征的人脸活体检测方法 | |
Oliveira et al. | A comparison between end-to-end approaches and feature extraction based approaches for sign language recognition | |
WO2022267327A1 (zh) | 一种色斑预测方法、装置、设备及存储介质 | |
Bhattacharya et al. | Simplified face quality assessment (sfqa) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |