CN114724009B

CN114724009B - 一种基于改进的深度学习网络的图像识别方法及装置

Info

Publication number: CN114724009B
Application number: CN202210447821.4A
Authority: CN
Inventors: 温建伟; 肖占中; 其他发明人请求不公开姓名
Original assignee: Beijing Zhuohe Technology Co Ltd
Current assignee: Beijing Zhuohe Technology Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-09-27
Anticipated expiration: 2042-04-26
Also published as: CN114724009A

Abstract

本申请提供的一种基于改进的深度学习网络的图像识别方法及装置，具体应用于图像识别领域，包括采集待训练图像数据，构建训练集；预处理所述训练集，获得枝剪训练集；基于复合积分控制器对深度学习网络模型进行参数训练，建立图像识别模型；具体为：预设速度阈值；若当前步的速度小于所述速度阈值，采用小批量梯度下降算法；反之，计算惩罚系数：基于所述惩罚系数,判断上一步梯度的方向与当前步梯度的方向是否一致；若一致，则采用动量优化算法；若不一致，则采用随机梯度下降算法；直至模型满足预设训练终止条件；进而根据上述图像识别模型识别待识别图像数据。由此加快模型收敛速度，避免陷入局部最优解，进而提高图像识别的精确度。

Description

一种基于改进的深度学习网络的图像识别方法及装置

技术领域

本申请涉及图像识别领域，更具体地，涉及一种基于改进的深度学习网络的图像识别方法及装置。

背景技术

图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同的目标和对象的技术，随着计算机技术的发展，人们使用深度学习算法进行实践应用。例如，图像识别包括行人脸识别、车辆识别等。

现有技术中，通常采用基于随机梯度下降算法、动量优化算法或小批量梯度下降算法的深度学习网络模型进行图像识别，然而随机梯度下降算法的速度缓慢，不足以帮助网络快速收敛，需要花费很多时间才能找到接近全局最优的局部最优点；动量优化算法虽然通过历史梯度的步长的累积，进行极大加速，但是历史梯度得惯性方向极易引起震荡，导致越过最优点再绕回来，来回震荡造成了迟滞，需要更多地迭代次数才能到达最优点；小批量梯度下降算法每次迭代使用一个以上又不是全部的样本，由于每次梯度的方向不确定，需要很长时间接近最小值点。

因此，如何兼顾多种梯度下降算法的优点，提高图像识别的精度，是一项亟待解决的技术问题。

发明内容

本发明实施例的目的在于提供一种基于改进的深度学习网络的图像识别方法及装置，兼顾多种梯度下降算法的优点，引入惩罚系数，加快模型收敛速度，避免陷入局部最优解，进而提高图像识别的精确度。具体技术方案如下：

在本发明实施例的第一方面，提供一种基于改进的深度学习网络的图像识别方法，包括：采集待训练图像数据，构建训练集；预处理所述训练集，获得枝剪训练集；根据所述枝剪训练集采用复合积分控制器对深度学习网络模型进行参数训练，建立图像识别模型；其中，所述采用复合积分控制器对深度学习网络模型进行参数训练，具体包括：预设速度阈值；若当前步的速度小于所述速度阈值，则采用小批量梯度下降算法进行参数训练；若当前步的速度大于等于所述速度阈值，则通过以下公式计算惩罚系数：

其中，μ表示惩罚系数，v_t表示当前步t的速度，v_t-1表示上一步t-1的速度，t+1表示下一步，θ_t表示当前步t的模型参数；

基于所述惩罚系数,判断上一步梯度的方向与当前步梯度的方向是否一致；若上一步梯度的方向与当前步梯度的方向一致，则采用动量优化算法进行参数训练；若上一步梯度的方向与当前步梯度的方向不一致，则采用随机梯度下降算法进行参数训练；直至模型满足预设训练终止条件；采集待识别图像数据；预处理所述待识别图像数据，获得枝剪图像数据；通过所述图像识别模型对所述枝剪图像数据进行识别，获得图像识别结果。

可选地，所述预处理所述训练集，获得枝剪训练集，包括：预设图像尺寸；裁剪所述训练集中的待训练图像数据，获得符合预设图像尺寸的待训练枝剪图像数据，构建枝剪训练集。

可选地，所述预处理所述待识别图像数据，获得枝剪图像数据，包括：根据所述枝剪训练集中待训练枝剪图像数据的尺寸，裁剪所述待识别图像数据，获得枝剪图像数据；其中，所述枝剪图像数据与所述枝剪训练集中待训练枝剪图像数据的尺寸相同。

可选地，所述采用复合积分控制器对深度学习网络模型进行参数训练，还包括：根据当前步梯度的估计值，更新模型参数。

可选地，基于所述惩罚系数,根据以下公式判断上一步梯度的方向与当前步梯度的方向是否一致：

其中，dic表示判断值，sgn(·)表示符号函数，

表示当前步t的梯度，μ表示惩罚系数，v_t表示当前步t的速度。

可选地，若所述判断值为1，则上一步梯度的方向与当前步梯度的方向一致；若所述判断值为-1，则上一步梯度的方向与当前步梯度的方向不一致。

可选地，所述动量优化算法的迭代公式为：

θ_t+1＝θ_t-v_t+1

其中，θ_t表示当前步t的模型参数，θ_t+1表示下一步t+1的模型参数，v_t+1表示下一步t+1的速度。

可选地，所述随机梯度下降算法的迭代公式为：

其中，θ_t表示当前步t的模型参数，θ_t+1表示下一步t+1的模型参数，

表示当前步t的梯度,r表示学习率，也表示梯度每次逼近的步长，L(θ_t)表示当前步t的损失函数。

在本发明实施例的又一方面，提供一种基于改进的深度学习网络的图像识别装置，包括：训练集构建模块，用于采集待训练图像数据，构建训练集；训练集预处理模块，用于预处理所述训练集，获得枝剪训练集；图像识别模型构建模块，用于根据所述枝剪训练集采用复合积分控制器对深度学习网络模型进行参数训练，建立图像识别模型；其中，所述图像识别模型构建模块，进一步用于：预设速度阈值；若当前步的速度小于所述速度阈值，则采用小批量梯度下降算法进行参数训练；若当前步的速度大于等于所述速度阈值，则通过以下公式计算惩罚系数：

基于所述惩罚系数,判断上一步梯度的方向与当前步梯度的方向是否一致；若上一步梯度的方向与当前步梯度的方向一致，则采用动量优化算法进行参数训练；若上一步梯度的方向与当前步梯度的方向不一致，则采用随机梯度下降算法进行参数训练；数据采集模块，用于采集待识别图像数据；数据预处理模块，用于预处理所述待识别图像数据，获得枝剪图像数据；图像识别模块，用于通过所述图像识别模型对所述枝剪图像数据进行识别，获得图像识别结果。

可选地，所述训练集预处理模块进一步用于：预设图像尺寸；裁剪所述训练集中的待训练图像数据，获得符合预设图像尺寸的待训练枝剪图像数据，构建枝剪训练集。

可选地，所述数据预处理模块进一步用于：根据所述枝剪训练集中待训练枝剪图像数据的尺寸，裁剪所述待识别图像数据，获得枝剪图像数据；其中，所述枝剪图像数据与所述枝剪训练集中待训练枝剪图像数据的尺寸相同。

可选地，所述图像识别模型构建模块，进一步用于：根据当前步梯度的估计值，更新模型参数。

可选地，所述图像识别模型构建模块，进一步用于：基于所述惩罚系数,根据以下公式判断上一步梯度的方向与当前步梯度的方向是否一致：

其中，dic表示判断值，sgn(·)表示符号函数，

可选地，所述动量优化算法的迭代公式为：

θ_t+1＝θ_t-v_t+1

可选地，所述随机梯度下降算法的迭代公式为：

有益效果：

本申请改进传统控制器，设计了复合积分控制器，并将其应用于深度学习网络模型中，对随机选取的数据的梯度及收敛速度进行迭代，具体地，若当前步的速度小于所述速度阈值，则采用小批量梯度下降算法进行参数训练；若当前步的速度大于等于所述速度阈值，则计算惩罚系数；基于所述惩罚系数,判断上一步梯度的方向与当前步梯度的方向是否一致；若上一步梯度的方向与当前步梯度的方向一致，则采用动量优化算法进行参数训练；若上一步梯度的方向与当前步梯度的方向不一致，则采用随机梯度下降算法进行参数训练，直至模型满足预设训练终止条件。由此兼顾多种梯度下降算法的优点，引入惩罚系数，加快模型收敛速度，避免陷入局部最优解，进而提高图像识别的精确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的图像识别模型的训练方法的流程图；

图2是本申请实施例提供的图像识别方法的流程图；

图3是本申请实施例提供的一种基于改进的深度学习网络的图像识别装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种基于改进的深度学习网络的图像识别方法及装置，包括：采集待训练图像数据，构建训练集；预处理所述训练集，获得枝剪训练集；基于复合积分控制器对深度学习网络模型进行参数训练，建立图像识别模型；具体为：预设速度阈值；若当前步的速度小于所述速度阈值，采用小批量梯度下降算法；反之，计算惩罚系数：基于所述惩罚系数,判断上一步梯度的方向与当前步梯度的方向是否一致；若一致，则采用动量优化算法；若不一致，则采用随机梯度下降算法；直至模型满足预设训练终止条件；进而根据上述图像识别模型识别待识别图像数据。由此加快模型收敛速度，避免陷入局部最优解，进而提高图像识别的精确度。

该基于改进的深度学习网络的图像识别方法及装置，具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为光场摄像机、车载相机、手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

可以理解的是，本实施例的该基于改进的深度学习网络的图像识别方法及装置可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本公开实施例提供的方案涉及计算机视觉技术、人工智能的机器学习/深度学习等技术，具体通过如下实施例进行说明：

请参阅图1，图1示出根据本公开一实施例提供的图像识别模型的训练方法的流程图，图像识别模型的训练方法具体包括如下步骤：

S110、采集待训练图像数据，构建训练集。

具体地，在本实施例中，待训练图像数据可以是RGB格式的图像数据。

S120、预处理所述训练集，获得枝剪训练集。

具体地，预设图像尺寸；裁剪所述训练集中的待训练图像数据，获得符合预设图像尺寸的待训练枝剪图像数据，构建枝剪训练集。

S130、根据所述枝剪训练集采用复合积分控制器对深度学习网络模型进行参数训练，建立图像识别模型。

由于随机梯度下降算法是最常用的一种优化算法。其核心思想是：在当前位置寻找梯度下降最快的方向，来逐渐逼近优化的目标函数，且离目标函数越近，逼近的“步伐”也就越小。然而随机梯度下降算法速度缓慢，不足以帮助网络快速收敛，需要花费很多时间才能找到接近全局最优的局部最优点。

动量优化算法是在随机梯度下降法的基础上，增加了动量的技术，能够帮助随机梯度下降算法在相关方向上加速并抑制摇摆。其核心是通过优化相关方向的训练，来加速随机梯度下降算法训练。然而动量优化算法的加速优势在一些情况下也容易受到历史梯度的拖累，造成迟滞现象，运行更多冗余的迭代次数。

小批量梯度下降算法

因此，为了兼顾随机梯度下降算法、动量优化算法以及小批量梯度下降算法的优点，提出复合积分控制器实现智能切换。

可选地，深度学习网络模型可以是卷积神经网络模型中的VGG模型，在此不做具体限定。

在一种实施方式中，所述步骤S130可以具体包括以下步骤：

S131、根据当前步梯度的估计值，更新模型参数。

具体地，根据当前步梯度的估计值，计算当前速度的估计值；根据所述当前速度的估计值，更新模型参数。

S132、预设速度阈值。

S133、判断当前步的速度是否小于所述速度阈值。

S134、若当前步的速度小于所述速度阈值，则采用小批量梯度下降算法进行参数训练；若当前步的速度大于等于所述速度阈值，则计算惩罚系数。

具体地，由于梯度下降速度存在非线性变化，因此通过以下公式计算惩罚系数：

其中，μ表示惩罚系数，v_t表示当前步t的速度，v_t-1表示上一步t-1的速度，t+1表示下一步，θ_t表示当前步t的模型参数。

S135、基于所述惩罚系数,判断上一步梯度的方向与当前步梯度的方向是否一致。

具体地，引入惩罚系数，通过以下公式判断上一步梯度的方向与当前步梯度的方向是否一致：

其中，dic表示判断值，sgn(·)表示符号函数，

进一步地，若所述判断值为1，即dic＝1，则上一步梯度的方向与当前步梯度的方向一致；若所述判断值为-1，即dic＝-1，则上一步梯度的方向与当前步梯度的方向不一致。

S136、若上一步梯度的方向与当前步梯度的方向一致，则采用动量优化算法进行参数训练；若上一步梯度的方向与当前步梯度的方向不一致，则采用随机梯度下降算法进行参数训练。

具体地，所述动量优化算法的迭代公式为：

θ_t+1＝θ_t-v_t+1

所述随机梯度下降算法的迭代公式为：

S140、直至模型满足预设训练终止条件。

进一步地，可以采集待测试图像数据，构建测试集用于测试训练好的图像识别模型的识别准确率。还可以采集待验证图像数据，构建验证集，验证集用于验证训练好的图像识别模型的识别准确率。

其中，准确率包括平均识别准确率以及平均识别漏识率。

由此该改进的深度学习网络模型兼顾多种梯度下降算法的优点，引入惩罚系数，构建复合积分控制器，加快模型收敛速度，避免陷入局部最优解，获得精度更高的图像识别模型。

图2示出了本申请实施例提供的图像识别方法的流程图，请参考图2，具体包括如下步骤：

S210、采集待识别图像数据。

本实施例中，利用图像识别装置获取待识别图像数据，可以理解的是，图像识别装置部署在终端设备上，待识别图像数据可以是通过终端设备的摄像头实时拍摄后得到的图像数据，也可以是存储在终端设备本地的图像数据。

其中，待识别图像数据可以是静态图像或动态图像，具体可以是人脸图像数据，动物图像数据、行人图像数据像或者车辆图像数据。

S220、预处理所述待识别图像数据，获得枝剪图像数据。

具体地，根据所述枝剪训练集中待训练枝剪图像数据的尺寸，裁剪所述待识别图像数据，获得枝剪图像数据；其中，所述枝剪图像数据与所述枝剪训练集中待训练枝剪图像数据的尺寸相同。

可选地，假设通过检测待识别图像数据中的目标边缘像素点，确定所述待识别图像数据的初始尺寸，并判断待识别图像数据的初始尺寸与待训练枝剪图像数据的尺寸比值是否大于预设的比例阈值；若是，则将待识别图像数据无需枝剪，即确定为枝剪图像数据；反之，按照预设的矩形区域确定规则，从待识别图像数据中确定目标矩形区域，并将所述目标矩形区域确定为枝剪图像数据。

其中，可以先将目标矩形区域缩放成与待训练枝剪图像数据尺寸对应的图像，再将进行缩放后得到的图像确定为枝剪图像数据。

可选地，所述预处理还可以包括灰度化、几何变换以及基于空间域法的图像增强技术。

S230、通过所述图像识别模型对所述枝剪图像数据进行识别，获得图像识别结果。

其中，所述图像识别模型可以是上述图像识别模型训练过程得到的。

进一步地，还可以通过客户端展示所述图像识别结果及其对应的解释信息。例如，采集“狗”的图像数据，识别结果为“柴犬”，解释信息为“柴犬是体型中等并且又最古老的犬，性格活泼”，则在客户端同时展示上述识别结果和解释信息。

本实施方式通过训练得到的图像识别模型进行图像识别处理，可以提高图像识别结果的精确度。

本实施例还提供一种基于改进的深度学习网络的图像识别装置，如图3所示，该基于改进的深度学习网络的图像识别装置包括：

训练集构建模块310，用于采集待训练图像数据，构建训练集。

训练集预处理模块320，用于预处理所述训练集，获得枝剪训练集。

图像识别模型构建模块330，用于根据所述枝剪训练集采用复合积分控制器对深度学习网络模型进行参数训练，建立图像识别模型。

其中，所述图像识别模型构建模块330，进一步用于：预设速度阈值；若当前步的速度小于所述速度阈值，则采用小批量梯度下降算法进行参数训练；若当前步的速度大于等于所述速度阈值，则通过以下公式计算惩罚系数：

基于所述惩罚系数,判断上一步梯度的方向与当前步梯度的方向是否一致；若上一步梯度的方向与当前步梯度的方向一致，则采用动量优化算法进行参数训练；若上一步梯度的方向与当前步梯度的方向不一致，则采用随机梯度下降算法进行参数训练。

数据采集模块340，用于采集待识别图像数据。

数据预处理模块350，用于预处理所述待识别图像数据，获得枝剪图像数据。

图像识别模块360，用于通过所述图像识别模型对所述枝剪图像数据进行识别，获得图像识别结果。

可选地，所述训练集预处理模块320进一步用于：预设图像尺寸；裁剪所述训练集中的待训练图像数据，获得符合预设图像尺寸的待训练枝剪图像数据，构建枝剪训练集。

可选地，所述数据预处理模块350进一步用于：根据所述枝剪训练集中待训练枝剪图像数据的尺寸，裁剪所述待识别图像数据，获得枝剪图像数据；其中，所述枝剪图像数据与所述枝剪训练集中待训练枝剪图像数据的尺寸相同。

可选地，所述图像识别模型构建模块330，进一步用于：根据当前步梯度的估计值，更新模型参数。

可选地，所述图像识别模型构建模块330，进一步用于：基于所述惩罚系数,根据以下公式判断上一步梯度的方向与当前步梯度的方向是否一致：

其中，dic表示判断值，sgn(·)表示符号函数，

可选地，所述动量优化算法的迭代公式为：

θ_t+1＝θ_t-v_t+1

可选地，所述随机梯度下降算法的迭代公式为：

由此该装置引入复合积分控制器，并将其应用于深度学习网络模型中，对随机选取的数据的梯度及收敛速度进行迭代，兼顾了多种梯度下降算法的优点，加快模型收敛速度，避免陷入局部最优解，进而提高图像识别的精确度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置中模块/单元/子单元/组件的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。