CN113705374A - 基于深度学习的图像识别方法、装置及相关设备 - Google Patents
基于深度学习的图像识别方法、装置及相关设备 Download PDFInfo
- Publication number
- CN113705374A CN113705374A CN202110916297.6A CN202110916297A CN113705374A CN 113705374 A CN113705374 A CN 113705374A CN 202110916297 A CN202110916297 A CN 202110916297A CN 113705374 A CN113705374 A CN 113705374A
- Authority
- CN
- China
- Prior art keywords
- image recognition
- recognition model
- image
- network
- image data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000013135 deep learning Methods 0.000 title claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 73
- 230000006870 function Effects 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012544 monitoring process Methods 0.000 claims abstract description 8
- 239000000523 sample Substances 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 239000013074 reference sample Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种基于深度学习的图像识别方法、装置及相关设备,所述方法包括:采集监控设备获取的图像数据;对所述图像数据进行预处理,得到训练样本;构建图像识别模型,所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络,所述Bnneck网络包括特征层、FC分类层以及位于所述特征层或所述FC分类层之后的BN层;将所述训练样本输入至所述图像识别模型中,并利用预热的学习率和损失函数对所述图像识别模型进行训练,得到训练好的所述图像识别模型;将待识别图像输入至所述训练好的所述图像识别模型中进行识别,得到识别结果。通过上述方式,有效解决了现有模型出现“过拟合”、图片分辨率过低以及训练后期不稳定的问题。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种基于深度学习的图像识别方法、装置及相关设备。
背景技术
行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,可广泛应用于智能视频监控、智能安保等领域。
现有的用于行人重识别的模型容易过拟合、训练期间不稳定以及图像分辨率过低的问题,具体而言,由于模型训练初期,对任何数据都比较陌生,容易提早的陷入“过拟合”,此外,在模型训练后期,如果某一类数据过多,会导致模型训练出现不稳定现象。
发明内容
本申请实施例提供一种基于深度学习的图像识别方法、装置及相关设备,有效解决了现有模型出现“过拟合”、图片分辨率过低以及训练后期不稳定的问题。
为了解决上述技术问题,本申请一方面提供一种基于深度学习的图像识别方法,包括:
采集监控设备获取的图像数据;
对所述图像数据进行预处理,得到训练样本;
构建图像识别模型,所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络,其中,所述Transformer网络用于对输入的所述训练样本进行超分辨率重建,生成高分辨率样本,所述ResNet50网络用于对所述高分辨率样本进行特征图提取,所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理,所述Bnneck网络包括特征层、FC分类层以及位于所述特征层或所述FC分类层之后的BN层;
将所述训练样本输入至所述图像识别模型中,并利用预热的学习率和损失函数对所述图像识别模型进行训练,得到训练好的所述图像识别模型;
将待识别图像输入至所述训练好的所述图像识别模型中进行识别,得到识别结果。
更进一步地,所述对所述图像数据进行预处理,包括:
对所述图像数据进行读取验证,以确定损坏的图像数据;
去除所述损坏的图像数据,对剩余的图像数据按照Market-1501数据集的命名格式进行重命名;
将重命名后的图像数据进行随机旋转、缩放、平移以及随机擦除中的一种或多种数据增强处理操作,从而得到训练样本。
更进一步地,所述随机擦除的操作具体包括:
在所述重命名后的图像数据中随机选取一个基点,以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度;
若所述长度和宽度未超出所述重命名后的图像数据的边界,对所述长度和宽度限定的方形区域进行擦除,否则重新执行以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度的步骤。
更进一步地,所述利用预热的学习率和损失函数对所述图像识别模型进行训练,包括:
设定所述图像识别模型的学习周期一共有m个,m为大于零的整数;
在前n个学习周期使学习率线性递增,第n个学习周期的学习率为最大学习率,从第n+1个学习周期开始直至第m-n个学习周期学习率保持为所述最大学习率,从第m-n+1个学习周期直至第m个学习周期,使学习率从所述最大学习率线性递减,所述n为大于零小于m的整数。
更进一步地,所述损失函数的表达式为:
L=LID+LTriplet+βLC
其中,β表示权重,LID表示ID loss函数,表达式如下:
在所述ID loss的表达式中,所述y表示所述训练样本的真实标签的值,pi表示所述训练样本中第i类别图像的logits输出值,N表示所述训练样本的类别数,即ID个数,ε为常量,qi表示预测类别概率。
Ltriplet表示triplet loss函数,表达式如下:
Lc表示center loss函数,表达式如下:
其中,yj表示mini-batch中第j个样本的标签,cyj表示深度特征的第yi类中心特征向量,B表示batch-size的数量,ftj表示第yj类的第t个样本的特征向量。
更进一步地,所述ResNet50网络包括多个卷积块,每个所述卷积块中的最后一层卷积层的步长由2变为1。
更进一步地,所述图像数据为行人图像数据或者车辆图像数据,所述图像识别模型为行人重识别模型或者车辆识别模型。
本申请另一方面还提出一种基于深度学习的图像识别装置,包括:
采集模块,用于采集监控设备获取的图像数据;
预处理模块,用于对所述图像数据进行预处理,得到训练样本;
构建模块,用于构建图像识别模型,所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络,其中,所述Transformer网络用于对输入的所述训练样本进行超分辨率重建,生成高分辨率样本,所述ResNet50网络用于对所述高分辨率样本进行特征图提取,所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理,所述Bnneck网络结构包括特征层、FC分类层以及位于所述特征层或FC层之后的BN层;
训练模块,用于将所述训练样本输入至所述图像识别模型中,并利用预热的学习率和损失函数对所述图像识别模型进行训练,得到训练好的所述图像识别模型;
识别模块,用于将待识别图像输入至所述训练好的所述图像识别模型中进行识别,得到识别结果。
本申请的又一方面还提出了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述的图像识别方法中的步骤。
本申请的又一方面还提出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的图像识别方法中的步骤。
有益效果:本申请的基于深度学习的图像识别方法中,通过采集监控设备获取的图像数据,然后对所述图像数据进行预处理,得到训练样本,之后构建图像识别模型,所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络,其中,所述Transformer网络用于对输入的所述训练样本进行超分辨率重建,生成高分辨率样本,所述ResNet50网络用于对所述高分辨率样本进行特征图提取,所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理,所述Bnneck网络结构包括特征层、FC分类层以及位于所述特征层或FC层之后的BN层;将所述训练样本输入至所述图像识别模型中,并利用预热的学习率和损失函数对所述图像识别模型进行训练,得到训练好的所述图像识别模型;利用所述训练好的图像识别模型对将待识别图像进行识别,本方案中,通过Transformer网络对训练样本进行超分辨率重建,从而可以解决图像分辨率过低的问题,并且通过在Bnneck网络中的所述特征层或FC层之后增加BN层,可以改善模型出现“过拟合”以及训练后期不稳定的问题。
附图说明
下面结合附图,通过对本申请的具体实施方式详细描述,将使本申请的技术方案及其有益效果显而易见。
图1是本申请实施例提供的基于深度学习的图像识别方法的流程图;
图2是本申请实施例提供的基于深度学习的图像识别方法的流程框架图;
图3是本申请实施例提供的基于深度学习的图像识别装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
参阅图1,并结合图2,本申请实施例提供的一种基于深度学习的图像识别方法,具体包括以下步骤:
步骤S101,采集监控设备获取的图像数据。
本申请的图像识别方法可适用于对各种场合的图像进行识别,所述图像数据例如可以是关于行人的图像数据,也可以是关于车辆的图像数据;其中,当图像数据为行人的图像数据时,在采集到所述图像数据后,还对所述图像数据中的行人进行标注,以利用标注后的图像数据进行后续的处理过程。
步骤S102,对所述图像数据进行预处理,得到训练样本。
在一些实施例中,对所述图像数据进行预处理具体可以包括以下子步骤:
(1)对所述图像数据进行读取验证,以确定损坏的图像数据。
通过对所述图像数据进行读操作来判断图像数据是否有损坏,若图像数据已经被损坏,则无法进行读操作,若图像数据没有被损坏,则可以进行读操作。因此,可根据所述图像数据能否进行读操作来确定图像数据是否损坏。
(2)去除所述损坏的图像数据,对剩余的图像数据按照Market-1501数据集的命名格式进行重命名。
在实现过程中,可以逐个读取图像数据,若当前的图像数据无法读取,说明该图像数据已被损坏,此时删除当前的图像数据,然后返回继续读取下一图像数据,若当前的图像数据可以读取,则说明该图像数据未损坏,无需删除操作。
通过将损坏的图像数据除掉,可以减少后期模型训练过程中的计算量,减少不必要的图像处理过程。本申请这种,剔除损坏的图像数据后,对剩余的图像数据设置为Market-1501数据集。
(3)将重命名后的图像数据进行随机旋转、缩放、平移以及随机擦除中的一种或多种数据增强处理操作,从而得到训练样本。
通过数据增强处理操作,扩充了数据规模,有效解决数据集规模小、存在遮挡现象导致的模型鲁棒性不强的问题。
进一步地,在上述子步骤(3)中,所述随机擦除的操作具体包括:在重命名后的图像数据中随机选取一个基点,以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度;如所述长度和宽度未超出重命名后的图像数据的边界,对所述长度和宽度限定的方形区域进行擦除,否则重新执行以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度的步骤。
步骤S103,构建图像识别模型,所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络,其中,所述Transformer网络用于对输入的所述训练样本进行超分辨率重建,生成高分辨率样本,所述ResNet50网络用于对所述高分辨率样本进行特征图提取,所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理,所述Bnneck网络包括特征层、FC分类层以及位于所述特征层或所述FC分类层之后的BN层。
本申请的图像识别模型中,通过Transformer网络对训练样本进行超分辨率重建,从而可以解决图像分辨率过低的问题,并且通过在Bnneck网络中的所述特征层或FC层之后增加BN层,例如在特征层之后增加BN层,可以改善模型出现“过拟合”以及训练后期不稳定的问题。此外,把BN层前的特征层表示为ft,把BN层后的FC层表示为fi,ft通过BN层来得到正则化后的特征,正则化可以使得同一个人或同一辆车的特征更加紧密,在训练阶段,ft与fi用来计算triplet loss与ID loss,正则化平衡了各个维度的fi。正则化后的特征是超平面的高斯分布,这样的分布使得ID loss更容易收敛。此外,Bnneck减少了ID loss在ft的限制,ID loss更少的约束使得triplet loss同时更容易收敛。
其中,所述ResNet50网络包括多个卷积块,每个所述卷积块中的最后一层卷积层的步长由2变为1,通过将最后一层卷积层的卷积核步长变为1,从而在增加很小的计算量的同时提高了特征图的分辨率,丰富了特征的粒度。
其中,当步骤S101中采集的图像数据为行人数据时,图像识别模型对应地为行人重识别模型,当采集的图像数据为车辆数据时,图像识别模型对应地为车辆识别模型。
步骤S104,将所述训练样本输入至所述图像识别模型中,并利用预热的学习率和损失函数对所述图像识别模型进行训练,得到训练好的所述图像识别模型。
通过对图像识别模型进行训练,以获得优化的图像识别模型,提高识别结果的准确性。
其中,本申请实施方式中,所述利用预热的学习率和损失函数对所述图像识别模型进行训练,具体包括:设定所述图像识别模型的学习周期一共有m个,m为大于零的整数;在前n个学习周期使学习率线性递增,第n个学习周期的学习率为最大学习率,从第n+1个学习周期开始直至第m-n个学习周期学习率保持为所述最大学习率,从第m-n+1个学习周期直至第m个学习周期,使学习率从所述最大学习率线性递减,所述n为大于零小于m的整数。
举例而言,以m=100个学习周期为例,n为10,即在前10个学习周期里,学习率线性增加,在第10个学习周期学习率达到最大。然后从第11个学习周期开始,一直到第90个学习周期,学习率保持不变,为最大学习率,然后从第91个学习周期到第100个学习周期,使学习率线性衰减。
本申请的实施例中,所述损失函数的表达式为:
L=LID+LTriplet+βLC
其中,β表示权重,LID表示ID loss函数,表达式如下:
在所述ID loss的表达式中,所述y表示所述训练样本的真实标签的值,pi表示所述训练样本中第i类别图像的logits输出值,N表示所述训练样本的类别数,即ID个数,ε为常量,qi表示预测类别概率。
其中,ε可以设置为0.1或者其他数值。
Ltriplet表示triplet loss函数,表达式如下:
其中,所述N表示所述训练样本中的样本数量,表示参考样本Anchor,表示同类样本Positive,表示异类样本Negative,α表示设定的训练间隔,函数f(x)为元素x的特征表达。其中,α可以设置为较小的数值。
Lc表示center loss函数,表达式如下:
其中,yj表示mini-batch中第j个样本的标签,cyj表示深度特征的第yi类中心特征向量,B表示batch-size的数量,ftj表示第yj类的第t个样本的特征向量。
因此,本申请通过将ID loss、triplet loss以及center loss三种loss进行组合使用,可实现同步降低,从而让图像识别模型更容易收敛。
步骤S105,将待识别图像输入至所述训练好的所述图像识别模型中进行识别,得到识别结果。
该步骤对应的是图2所示的模型预测。通过将需要识别的待识别图像输入至训练好的图像识别模型进行识别,从而可以根据识别结果验证图像识别模型的准确率是否合格,如果合格,则结束,说明该图像识别模型符合要求,如果不合格,则重新调整图像识别模型的参数进行,即重新执行步骤S104,直至训练好的图像识别模型的准确率合格。
本申请的基于深度学习的图像识别方法中,通过Transformer网络对训练样本进行超分辨率重建,从而可以解决图像分辨率过低的问题,并且通过在Bnneck网络中的所述特征层和FC层之间增加BN层,可以改善模型出现“过拟合”以及训练后期不稳定的问题。
参阅图3,本申请实施例提供的基于深度学习的图像识别装置300中,包括采集模块301、预处理模块302、构建模块303、训练模块304以及识别模块305。
其中,采集模块301用于采集监控设备获取的图像数据。预处理模块302用于对所述图像数据进行预处理,得到训练样本。更进一步地,预处理模块302具体用于:对所述图像数据进行读取验证,以确定损坏的图像数据;去除所述损坏的图像数据,对剩余的图像数据按照Market-1501数据集的命名格式进行重命名;将重命名后的图像数据进行随机旋转、缩放、平移以及随机擦除中的一种或多种数据增强处理操作,从而得到训练样本。其中,所述随机擦除的操作具体包括:在所述重命名后的图像数据中随机选取一个基点,以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度;若所述长度和宽度未超出所述重命名后的图像数据的边界,对所述长度和宽度限定的方形区域进行擦除,否则重新执行以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度的步骤。
构建模块303用于构建图像识别模型,所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络,其中,所述Transformer网络用于对输入的所述训练样本进行超分辨率重建,生成高分辨率样本,所述ResNet50网络用于对所述高分辨率样本进行特征图提取,所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理,所述Bnneck网络结构包括特征层、FC分类层以及位于所述特征层或FC层之后的BN层。其中,所述ResNet50网络包括多个卷积块,每个所述卷积块中的最后一层卷积层的步长由2变为1。
训练模块304用于将所述训练样本输入至所述图像识别模型中,并利用预热的学习率和损失函数对所述图像识别模型进行训练,得到训练好的所述图像识别模型。具体地,设定所述图像识别模型的学习周期一共有m个,m为大于零的整数,训练模块304用于在前n个学习周期使学习率线性递增,第n个学习周期的学习率为最大学习率,从第n+1个学习周期开始直至第m-n个学习周期学习率保持为所述最大学习率,从第m-n+1个学习周期直至第m个学习周期,使学习率从所述最大学习率线性递减,所述n为大于零小于m的整数。
所述损失函数包括ID loss、triplet loss以及center loss。
识别模块305用于将待识别图像输入至所述训练好的所述图像识别模型中进行识别,得到识别结果。
本申请的图像识别装置,通过Transformer网络对训练样本进行超分辨率重建,从而可以解决图像分辨率过低的问题,并且通过在Bnneck网络中的所述特征层和FC层之间增加BN层,可以改善模型出现“过拟合”以及训练后期不稳定的问题。此外,通过对图像数据进行数据增强处理操作,可以扩大数据规模,有效解决数据集规模小、存在遮挡现象导致的模型鲁棒性不强的问题。
参见图4,图4是本发明实施例提供的一种电子设备的结构示意图,该电子设备400包括:存储器402、处理器401及存储在存储器402上并可在处理器上运行的计算机程序,处理器401执行计算机程序时实现上述实施例提供的基于深度学习的图像识别方法中的步骤。
本发明实施例提供的电子设备400能够实现上述方法实施例中的各个实施方式,以及相应有益效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本发明实施例提供的基于深度学习的图像识别方法中的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random Access Memory,简称RAM)等。
进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于深度学习的图像识别方法,其特征在于,包括:
采集监控设备获取的图像数据;
对所述图像数据进行预处理,得到训练样本;
构建图像识别模型,所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络,其中,所述Transformer网络用于对输入的所述训练样本进行超分辨率重建,生成高分辨率样本,所述ResNet50网络用于对所述高分辨率样本进行特征图提取,所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理,所述Bnneck网络包括特征层、FC分类层以及位于所述特征层或所述FC分类层之后的BN层;
将所述训练样本输入至所述图像识别模型中,并利用预热的学习率和损失函数对所述图像识别模型进行训练,得到训练好的所述图像识别模型;
将待识别图像输入至所述训练好的所述图像识别模型中进行识别,得到识别结果。
2.根据权利要求1所述的图像识别方法,其特征在于,所述对所述图像数据进行预处理,包括:
对所述图像数据进行读取验证,以确定损坏的图像数据;
去除所述损坏的图像数据,对剩余的图像数据按照Market-1501数据集的命名格式进行重命名;
将重命名后的图像数据进行随机旋转、缩放、平移以及随机擦除中的一种或多种数据增强处理操作,从而得到训练样本。
3.根据权利要求2所述的图像识别方法,其特征在于,所述随机擦除的操作具体包括:
在所述重命名后的图像数据中随机选取一个基点,以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度;
若所述长度和宽度未超出所述重命名后的图像数据的边界,对所述长度和宽度限定的方形区域进行擦除,否则重新执行以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度的步骤。
4.根据权利要求1所述的图像识别方法,其特征在于,所述利用预热的学习率和损失函数对所述图像识别模型进行训练,包括:
设定所述图像识别模型的学习周期一共有m个,m为大于零的整数;
在前n个学习周期使学习率线性递增,第n个学习周期的学习率为最大学习率,从第n+1个学习周期开始直至第m-n个学习周期学习率保持为所述最大学习率,从第m-n+1个学习周期直至第m个学习周期,使学习率从所述最大学习率线性递减,所述n为大于零小于m的整数。
5.根据权利要求1所述的图像识别方法,其特征在于,所述损失函数的表达式为:
L=LID+LTriplet+βLC
其中,β表示权重,LID表示ID loss函数,表达式如下:
在所述ID loss的表达式中,所述y表示所述训练样本的真实标签的值,pi表示所述训练样本中第i类别图像的logits输出值,N表示所述训练样本的类别数,即ID个数,ε为常量,qi表示预测类别概率。
Ltriplet表示triplet loss函数,表达式如下:
Lc表示centerloss函数,表达式如下:
其中,yj表示mini-batch中第j个样本的标签,cyj表示深度特征的第yi类中心特征向量,B表示batch-size的数量,ftj表示第yj类的第t个样本的特征向量。
6.根据权利要求1所述的图像识别方法,其特征在于,所述ResNet50网络包括多个卷积块,每个所述卷积块中的最后一层卷积层的步长由2变为1。
7.根据权利要求1所述的图像识别方法,其特征在于,所述图像数据为行人图像数据或者车辆图像数据,所述图像识别模型为行人重识别模型或者车辆识别模型。
8.一种基于深度学习的图像识别装置,其特征在于,包括:
采集模块,用于采集监控设备获取的图像数据;
预处理模块,用于对所述图像数据进行预处理,得到训练样本;
构建模块,用于构建图像识别模型,所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络,其中,所述Transformer网络用于对输入的所述训练样本进行超分辨率重建,生成高分辨率样本,所述ResNet50网络用于对所述高分辨率样本进行特征图提取,所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理,所述Bnneck网络结构包括特征层、FC分类层以及位于所述特征层或FC层之后的BN层;
训练模块,用于将所述训练样本输入至所述图像识别模型中,并利用预热的学习率和损失函数对所述图像识别模型进行训练,得到训练好的所述图像识别模型;
识别模块,用于将待识别图像输入至所述训练好的所述图像识别模型中进行识别,得到识别结果。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的图像识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的图像识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916297.6A CN113705374A (zh) | 2021-08-10 | 2021-08-10 | 基于深度学习的图像识别方法、装置及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110916297.6A CN113705374A (zh) | 2021-08-10 | 2021-08-10 | 基于深度学习的图像识别方法、装置及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113705374A true CN113705374A (zh) | 2021-11-26 |
Family
ID=78652202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110916297.6A Pending CN113705374A (zh) | 2021-08-10 | 2021-08-10 | 基于深度学习的图像识别方法、装置及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705374A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368790A (zh) * | 2020-03-18 | 2020-07-03 | 北京三快在线科技有限公司 | 细粒度人脸识别模型的构建方法、识别方法以及构建装置 |
CN112862690A (zh) * | 2021-03-09 | 2021-05-28 | 湖北工业大学 | 一种基于Transformers的低分辨率图像超分辨方法及系统 |
CN113112599A (zh) * | 2021-03-29 | 2021-07-13 | 上海氢枫能源技术有限公司 | 一种基于vr技术的加氢站远程诊断方法、系统及电子设备 |
CN113191953A (zh) * | 2021-06-04 | 2021-07-30 | 山东财经大学 | 一种基于Transformer的人脸图像超分辨的方法 |
-
2021
- 2021-08-10 CN CN202110916297.6A patent/CN113705374A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368790A (zh) * | 2020-03-18 | 2020-07-03 | 北京三快在线科技有限公司 | 细粒度人脸识别模型的构建方法、识别方法以及构建装置 |
CN112862690A (zh) * | 2021-03-09 | 2021-05-28 | 湖北工业大学 | 一种基于Transformers的低分辨率图像超分辨方法及系统 |
CN113112599A (zh) * | 2021-03-29 | 2021-07-13 | 上海氢枫能源技术有限公司 | 一种基于vr技术的加氢站远程诊断方法、系统及电子设备 |
CN113191953A (zh) * | 2021-06-04 | 2021-07-30 | 山东财经大学 | 一种基于Transformer的人脸图像超分辨的方法 |
Non-Patent Citations (1)
Title |
---|
罗浩: "基于深度学习的行人重识别算法研究:从无遮挡到遮挡", 《中国博士学位论文全文数据库信息科技辑》, pages 20 - 23 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160533B (zh) | 一种基于跨分辨率知识蒸馏的神经网络加速方法 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
CN113158815B (zh) | 一种无监督行人重识别方法、系统及计算机可读介质 | |
CN112288831A (zh) | 基于生成对抗网络的场景图像生成方法和装置 | |
CN113255557B (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN112733665B (zh) | 一种基于轻量化网络结构设计的人脸识别方法及系统 | |
CN110599502A (zh) | 一种基于深度学习的皮肤病变分割方法 | |
CN112000809A (zh) | 一种文本类别的增量学习方法及装置、可读存储介质 | |
CN111126169B (zh) | 基于正交化的图正则非负矩阵分解的人脸识别方法及系统 | |
CN112801085A (zh) | 一种图像中文字的识别方法、装置、介质及电子设备 | |
CN116258874A (zh) | 基于深度条件扩散网络的sar识别数据库样本姿态扩充方法 | |
CN110135435B (zh) | 一种基于广度学习系统的显著性检测方法及装置 | |
CN110826534A (zh) | 一种基于局部主成分分析的人脸关键点检测方法及系统 | |
CN116740362B (zh) | 一种基于注意力的轻量化非对称场景语义分割方法及系统 | |
Zia et al. | Recognition of printed Urdu script in Nastaleeq font by using CNN-BiGRU-GRU based encoder-decoder framework | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
CN117152625A (zh) | 一种基于CoordConv和YOLOv5的遥感小目标识别方法、系统、设备及介质 | |
CN113705374A (zh) | 基于深度学习的图像识别方法、装置及相关设备 | |
CN114863442A (zh) | 基于深度学习的文字识别方法、系统、装置和存储介质 | |
CN114694150A (zh) | 一种提升数字图像分类模型泛化能力的方法及系统 | |
CN115049546A (zh) | 样本数据处理方法、装置、电子设备及存储介质 | |
CN113792669A (zh) | 一种基于层次化自注意力网络的行人重识别基线方法 | |
CN114241516A (zh) | 基于行人再识别模型的行人再识别方法、设备及存储介质 | |
Al-Nabhi et al. | Efficient CRNN recognition approaches for defective characters in images | |
Fu et al. | ESTISR: Adapting efficient scene text image super-resolution for real-scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |