CN113705374A

CN113705374A - 基于深度学习的图像识别方法、装置及相关设备

Info

Publication number: CN113705374A
Application number: CN202110916297.6A
Authority: CN
Inventors: 吴超; 杨巨成; 魏峰; 何嘉明; 郭庆; 许能华; 闫潇宁
Original assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Current assignee: Shenzhen Anruan Huishi Technology Co ltd; Shenzhen Anruan Technology Co Ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-26

Abstract

本申请实施例公开了一种基于深度学习的图像识别方法、装置及相关设备，所述方法包括：采集监控设备获取的图像数据；对所述图像数据进行预处理，得到训练样本；构建图像识别模型，所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络，所述Bnneck网络包括特征层、FC分类层以及位于所述特征层或所述FC分类层之后的BN层；将所述训练样本输入至所述图像识别模型中，并利用预热的学习率和损失函数对所述图像识别模型进行训练，得到训练好的所述图像识别模型；将待识别图像输入至所述训练好的所述图像识别模型中进行识别，得到识别结果。通过上述方式，有效解决了现有模型出现“过拟合”、图片分辨率过低以及训练后期不稳定的问题。

Description

基于深度学习的图像识别方法、装置及相关设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于深度学习的图像识别方法、装置及相关设备。

背景技术

行人重识别(Person re-identification)也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术，可广泛应用于智能视频监控、智能安保等领域。

现有的用于行人重识别的模型容易过拟合、训练期间不稳定以及图像分辨率过低的问题，具体而言，由于模型训练初期，对任何数据都比较陌生，容易提早的陷入“过拟合”，此外，在模型训练后期，如果某一类数据过多，会导致模型训练出现不稳定现象。

发明内容

本申请实施例提供一种基于深度学习的图像识别方法、装置及相关设备，有效解决了现有模型出现“过拟合”、图片分辨率过低以及训练后期不稳定的问题。

为了解决上述技术问题，本申请一方面提供一种基于深度学习的图像识别方法，包括：

采集监控设备获取的图像数据；

对所述图像数据进行预处理，得到训练样本；

构建图像识别模型，所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络，其中，所述Transformer网络用于对输入的所述训练样本进行超分辨率重建，生成高分辨率样本，所述ResNet50网络用于对所述高分辨率样本进行特征图提取，所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理，所述Bnneck网络包括特征层、FC分类层以及位于所述特征层或所述FC分类层之后的BN层；

将所述训练样本输入至所述图像识别模型中，并利用预热的学习率和损失函数对所述图像识别模型进行训练，得到训练好的所述图像识别模型；

将待识别图像输入至所述训练好的所述图像识别模型中进行识别，得到识别结果。

更进一步地，所述对所述图像数据进行预处理，包括：

对所述图像数据进行读取验证，以确定损坏的图像数据；

去除所述损坏的图像数据，对剩余的图像数据按照Market-1501数据集的命名格式进行重命名；

将重命名后的图像数据进行随机旋转、缩放、平移以及随机擦除中的一种或多种数据增强处理操作，从而得到训练样本。

更进一步地，所述随机擦除的操作具体包括：

在所述重命名后的图像数据中随机选取一个基点，以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度；

若所述长度和宽度未超出所述重命名后的图像数据的边界，对所述长度和宽度限定的方形区域进行擦除，否则重新执行以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度的步骤。

更进一步地，所述利用预热的学习率和损失函数对所述图像识别模型进行训练，包括：

设定所述图像识别模型的学习周期一共有m个，m为大于零的整数；

在前n个学习周期使学习率线性递增，第n个学习周期的学习率为最大学习率，从第n+1个学习周期开始直至第m-n个学习周期学习率保持为所述最大学习率，从第m-n+1个学习周期直至第m个学习周期，使学习率从所述最大学习率线性递减，所述n为大于零小于m的整数。

更进一步地，所述损失函数的表达式为：

L＝L_ID+L_Triplet+βL_C

其中，β表示权重，L_ID表示ID loss函数，表达式如下：

其中，

在所述ID loss的表达式中，所述y表示所述训练样本的真实标签的值，pi表示所述训练样本中第i类别图像的logits输出值，N表示所述训练样本的类别数，即ID个数，ε为常量，qi表示预测类别概率。

L_triplet表示triplet loss函数，表达式如下：

其中，所述N表示所述训练样本中的样本数量，

表示参考样本Anchor，

表示同类样本Positive，

表示异类样本Negative，α表示设定的训练间隔，函数f(x)为元素x的特征表达。

L_c表示center loss函数，表达式如下：

其中，yj表示mini-batch中第j个样本的标签，c_yj表示深度特征的第yi类中心特征向量，B表示batch-size的数量，f_tj表示第yj类的第t个样本的特征向量。

更进一步地，所述ResNet50网络包括多个卷积块，每个所述卷积块中的最后一层卷积层的步长由2变为1。

更进一步地，所述图像数据为行人图像数据或者车辆图像数据，所述图像识别模型为行人重识别模型或者车辆识别模型。

本申请另一方面还提出一种基于深度学习的图像识别装置，包括：

采集模块，用于采集监控设备获取的图像数据；

预处理模块，用于对所述图像数据进行预处理，得到训练样本；

构建模块，用于构建图像识别模型，所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络，其中，所述Transformer网络用于对输入的所述训练样本进行超分辨率重建，生成高分辨率样本，所述ResNet50网络用于对所述高分辨率样本进行特征图提取，所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理，所述Bnneck网络结构包括特征层、FC分类层以及位于所述特征层或FC层之后的BN层；

训练模块，用于将所述训练样本输入至所述图像识别模型中，并利用预热的学习率和损失函数对所述图像识别模型进行训练，得到训练好的所述图像识别模型；

识别模块，用于将待识别图像输入至所述训练好的所述图像识别模型中进行识别，得到识别结果。

本申请的又一方面还提出了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述的图像识别方法中的步骤。

本申请的又一方面还提出了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的图像识别方法中的步骤。

有益效果：本申请的基于深度学习的图像识别方法中，通过采集监控设备获取的图像数据，然后对所述图像数据进行预处理，得到训练样本，之后构建图像识别模型，所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络，其中，所述Transformer网络用于对输入的所述训练样本进行超分辨率重建，生成高分辨率样本，所述ResNet50网络用于对所述高分辨率样本进行特征图提取，所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理，所述Bnneck网络结构包括特征层、FC分类层以及位于所述特征层或FC层之后的BN层；将所述训练样本输入至所述图像识别模型中，并利用预热的学习率和损失函数对所述图像识别模型进行训练，得到训练好的所述图像识别模型；利用所述训练好的图像识别模型对将待识别图像进行识别，本方案中，通过Transformer网络对训练样本进行超分辨率重建，从而可以解决图像分辨率过低的问题，并且通过在Bnneck网络中的所述特征层或FC层之后增加BN层，可以改善模型出现“过拟合”以及训练后期不稳定的问题。

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其有益效果显而易见。

图1是本申请实施例提供的基于深度学习的图像识别方法的流程图；

图2是本申请实施例提供的基于深度学习的图像识别方法的流程框架图；

图3是本申请实施例提供的基于深度学习的图像识别装置的结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

参阅图1，并结合图2，本申请实施例提供的一种基于深度学习的图像识别方法，具体包括以下步骤：

步骤S101，采集监控设备获取的图像数据。

本申请的图像识别方法可适用于对各种场合的图像进行识别，所述图像数据例如可以是关于行人的图像数据，也可以是关于车辆的图像数据；其中，当图像数据为行人的图像数据时，在采集到所述图像数据后，还对所述图像数据中的行人进行标注，以利用标注后的图像数据进行后续的处理过程。

步骤S102，对所述图像数据进行预处理，得到训练样本。

在一些实施例中，对所述图像数据进行预处理具体可以包括以下子步骤：

(1)对所述图像数据进行读取验证，以确定损坏的图像数据。

通过对所述图像数据进行读操作来判断图像数据是否有损坏，若图像数据已经被损坏，则无法进行读操作，若图像数据没有被损坏，则可以进行读操作。因此，可根据所述图像数据能否进行读操作来确定图像数据是否损坏。

(2)去除所述损坏的图像数据，对剩余的图像数据按照Market-1501数据集的命名格式进行重命名。

在实现过程中，可以逐个读取图像数据，若当前的图像数据无法读取，说明该图像数据已被损坏，此时删除当前的图像数据，然后返回继续读取下一图像数据，若当前的图像数据可以读取，则说明该图像数据未损坏，无需删除操作。

通过将损坏的图像数据除掉，可以减少后期模型训练过程中的计算量，减少不必要的图像处理过程。本申请这种，剔除损坏的图像数据后，对剩余的图像数据设置为Market-1501数据集。

(3)将重命名后的图像数据进行随机旋转、缩放、平移以及随机擦除中的一种或多种数据增强处理操作，从而得到训练样本。

通过数据增强处理操作，扩充了数据规模，有效解决数据集规模小、存在遮挡现象导致的模型鲁棒性不强的问题。

进一步地，在上述子步骤(3)中，所述随机擦除的操作具体包括：在重命名后的图像数据中随机选取一个基点，以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度；如所述长度和宽度未超出重命名后的图像数据的边界，对所述长度和宽度限定的方形区域进行擦除，否则重新执行以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度的步骤。

步骤S103，构建图像识别模型，所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络，其中，所述Transformer网络用于对输入的所述训练样本进行超分辨率重建，生成高分辨率样本，所述ResNet50网络用于对所述高分辨率样本进行特征图提取，所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理，所述Bnneck网络包括特征层、FC分类层以及位于所述特征层或所述FC分类层之后的BN层。

本申请的图像识别模型中，通过Transformer网络对训练样本进行超分辨率重建，从而可以解决图像分辨率过低的问题，并且通过在Bnneck网络中的所述特征层或FC层之后增加BN层，例如在特征层之后增加BN层，可以改善模型出现“过拟合”以及训练后期不稳定的问题。此外，把BN层前的特征层表示为f_t，把BN层后的FC层表示为f_i，f_t通过BN层来得到正则化后的特征，正则化可以使得同一个人或同一辆车的特征更加紧密，在训练阶段，f_t与f_i用来计算triplet loss与ID loss，正则化平衡了各个维度的f_i。正则化后的特征是超平面的高斯分布，这样的分布使得ID loss更容易收敛。此外，Bnneck减少了ID loss在f_t的限制，ID loss更少的约束使得triplet loss同时更容易收敛。

其中，所述ResNet50网络包括多个卷积块，每个所述卷积块中的最后一层卷积层的步长由2变为1，通过将最后一层卷积层的卷积核步长变为1，从而在增加很小的计算量的同时提高了特征图的分辨率，丰富了特征的粒度。

其中，当步骤S101中采集的图像数据为行人数据时，图像识别模型对应地为行人重识别模型，当采集的图像数据为车辆数据时，图像识别模型对应地为车辆识别模型。

步骤S104，将所述训练样本输入至所述图像识别模型中，并利用预热的学习率和损失函数对所述图像识别模型进行训练，得到训练好的所述图像识别模型。

通过对图像识别模型进行训练，以获得优化的图像识别模型，提高识别结果的准确性。

其中，本申请实施方式中，所述利用预热的学习率和损失函数对所述图像识别模型进行训练，具体包括：设定所述图像识别模型的学习周期一共有m个，m为大于零的整数；在前n个学习周期使学习率线性递增，第n个学习周期的学习率为最大学习率，从第n+1个学习周期开始直至第m-n个学习周期学习率保持为所述最大学习率，从第m-n+1个学习周期直至第m个学习周期，使学习率从所述最大学习率线性递减，所述n为大于零小于m的整数。

举例而言，以m＝100个学习周期为例，n为10，即在前10个学习周期里，学习率线性增加，在第10个学习周期学习率达到最大。然后从第11个学习周期开始，一直到第90个学习周期，学习率保持不变，为最大学习率，然后从第91个学习周期到第100个学习周期，使学习率线性衰减。

本申请的实施例中，所述损失函数的表达式为：

L＝L_ID+L_Triplet+βL_C

其中，β表示权重，L_ID表示ID loss函数，表达式如下：

其中，

其中，ε可以设置为0.1或者其他数值。

L_triplet表示triplet loss函数，表达式如下：

其中，所述N表示所述训练样本中的样本数量，

表示参考样本Anchor，

表示同类样本Positive，

表示异类样本Negative，α表示设定的训练间隔，函数f(x)为元素x的特征表达。其中，α可以设置为较小的数值。

L_c表示center loss函数，表达式如下：

因此，本申请通过将ID loss、triplet loss以及center loss三种loss进行组合使用，可实现同步降低，从而让图像识别模型更容易收敛。

步骤S105，将待识别图像输入至所述训练好的所述图像识别模型中进行识别，得到识别结果。

该步骤对应的是图2所示的模型预测。通过将需要识别的待识别图像输入至训练好的图像识别模型进行识别，从而可以根据识别结果验证图像识别模型的准确率是否合格，如果合格，则结束，说明该图像识别模型符合要求，如果不合格，则重新调整图像识别模型的参数进行，即重新执行步骤S104，直至训练好的图像识别模型的准确率合格。

本申请的基于深度学习的图像识别方法中，通过Transformer网络对训练样本进行超分辨率重建，从而可以解决图像分辨率过低的问题，并且通过在Bnneck网络中的所述特征层和FC层之间增加BN层，可以改善模型出现“过拟合”以及训练后期不稳定的问题。

参阅图3，本申请实施例提供的基于深度学习的图像识别装置300中，包括采集模块301、预处理模块302、构建模块303、训练模块304以及识别模块305。

其中，采集模块301用于采集监控设备获取的图像数据。预处理模块302用于对所述图像数据进行预处理，得到训练样本。更进一步地，预处理模块302具体用于：对所述图像数据进行读取验证，以确定损坏的图像数据；去除所述损坏的图像数据，对剩余的图像数据按照Market-1501数据集的命名格式进行重命名；将重命名后的图像数据进行随机旋转、缩放、平移以及随机擦除中的一种或多种数据增强处理操作，从而得到训练样本。其中，所述随机擦除的操作具体包括：在所述重命名后的图像数据中随机选取一个基点，以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度；若所述长度和宽度未超出所述重命名后的图像数据的边界，对所述长度和宽度限定的方形区域进行擦除，否则重新执行以所述基点为起始点随机选取需要擦除的方形区域的长度和宽度的步骤。

构建模块303用于构建图像识别模型，所述图像识别模型包括Transformer网络、ResNet50网络以及Bnneck网络，其中，所述Transformer网络用于对输入的所述训练样本进行超分辨率重建，生成高分辨率样本，所述ResNet50网络用于对所述高分辨率样本进行特征图提取，所述Bnneck网络用于对所述ResNet50网络提取到的特征图进行归一化处理，所述Bnneck网络结构包括特征层、FC分类层以及位于所述特征层或FC层之后的BN层。其中，所述ResNet50网络包括多个卷积块，每个所述卷积块中的最后一层卷积层的步长由2变为1。

训练模块304用于将所述训练样本输入至所述图像识别模型中，并利用预热的学习率和损失函数对所述图像识别模型进行训练，得到训练好的所述图像识别模型。具体地，设定所述图像识别模型的学习周期一共有m个，m为大于零的整数，训练模块304用于在前n个学习周期使学习率线性递增，第n个学习周期的学习率为最大学习率，从第n+1个学习周期开始直至第m-n个学习周期学习率保持为所述最大学习率，从第m-n+1个学习周期直至第m个学习周期，使学习率从所述最大学习率线性递减，所述n为大于零小于m的整数。

所述损失函数包括ID loss、triplet loss以及center loss。

识别模块305用于将待识别图像输入至所述训练好的所述图像识别模型中进行识别，得到识别结果。

本申请的图像识别装置，通过Transformer网络对训练样本进行超分辨率重建，从而可以解决图像分辨率过低的问题，并且通过在Bnneck网络中的所述特征层和FC层之间增加BN层，可以改善模型出现“过拟合”以及训练后期不稳定的问题。此外，通过对图像数据进行数据增强处理操作，可以扩大数据规模，有效解决数据集规模小、存在遮挡现象导致的模型鲁棒性不强的问题。

参见图4，图4是本发明实施例提供的一种电子设备的结构示意图，该电子设备400包括：存储器402、处理器401及存储在存储器402上并可在处理器上运行的计算机程序，处理器401执行计算机程序时实现上述实施例提供的基于深度学习的图像识别方法中的步骤。

本发明实施例提供的电子设备400能够实现上述方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例提供的基于深度学习的图像识别方法中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random Access Memory，简称RAM)等。

进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。