CN112861803A

CN112861803A - 一种图像识别方法、装置、服务器以及计算机可读存储介质

Info

Publication number: CN112861803A
Application number: CN202110281020.0A
Authority: CN
Inventors: 余齐齐
Original assignee: Xiamen Bohai Zhongtian Information Technology Co ltd
Current assignee: Xiamen Bohai Zhongtian Information Technology Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-05-28

Abstract

本发明涉及图像识别技术领域，特别涉及一种图像识别方法、装置、服务器以及计算机可读存储介质，所述图像识别方法，其特征在于，包括：获取待识别图像；根据预设检测模型对图像中的人和/或物体进行识别；其中，在所述预设检测模型中的骨干网络resnet网络结构替换为轻量级网络结构。采用本发明提供的图像识别方法，结合轻量级网络以及原网络的新网络，可降低网络结构的复杂性,减轻权重,以便在边缘设备实现高效运行，进而满足支持A I的网络边缘设备不断增长的需求，提供全面的硬件和软件解决方案，用于在网络边缘运行的智能设备中实现低功耗、实时在线的AI功能。

Description

一种图像识别方法、装置、服务器以及计算机可读存储介质

技术领域

本发明涉及图像识别技术领域，特别涉及一种图像识别方法、装置、服务器以及计算机可读存储介质。

背景技术

随着科技水平的不断提高，“智能化”、“网络化”、“数字化”、逐渐成为各类产品的关键词。人们对产品功能的需求越来越复杂，对产品的性能要求越来越严格，这就导致固有的产品性能无法应对市场变化，功能无法满足人们多元化需求，这就迫使企业需根据市场需求整改自身产品。但是这种方式耗时、耗力、耗财，且依赖外在市场变化严重。

传统的边缘设备，由于清晰度低、施工布线复杂且智能分析功能缺乏，无法满足现实情况下需求，同时后期项目维护费用较高，加之科技推广，人们对产品的要求更加多样，因此，原有的设备注定要被新型的设备所替代。为此，该算法基于已有的设备产品，根据市场的变化，设置相应的需求，一旦有满足预设条件的，前端设备就只需要做算法软件的升级、更换、迭代。

不仅如此，传统图像识别多使用NMS(非极大值抑制，Non-Maximum Suppression)，是一种提取目标检测中分数最高的窗口的算法。在目标检测中，我们的神经网络对一个目标会生成多个检测窗口，但是事实上这些窗口中大部分都是重复的.对于冗余的检测框，采用的是基于IoU的Greedy NMS操作来实现，其首先依据置信度分数对检测框进行排序，先选取分数高的，然后抑制与其IoU大于某个特定阈值的框，重复此操作得到最后的预测结果，而该方式又存在较多特殊性，对识别环境也有诸多限制。。

同时，平常我们使用的网络结构复杂,训练出来的权重过大.想要在传统的边缘设备上运行网络结构复杂和权重大模型,是我们当下应该解决的问题；而传统的AI模型的backbone结构复杂,因而训练出来的权重也大,想要保证原本的精确度,还要降低网络复杂度.关键在于backbone的选择。

发明内容

为解决在不更换现有设备的情况下改善现有设备训练速度慢的问题，尤其是在前端设备上，导致其性能难以满足人们日常对于图片识别处理，本发明提供一种图像识别方法，包括：

获取待识别图像；

根据预设检测模型对图像中的人和/或物体进行识别；

其中，在所述预设检测模型中的骨干网络ResNet网络结构替换为轻量级网络结构。

该方案结合最新提出的Confluence算法，将其应用到图像识别中，走出了传统的IoU的限制，利用曼哈顿距离作为检测框之间的重合度，并根据置信度加权的曼哈顿距离作为最优检测框的选择依据，相比NMS只考虑了检测框的得分并根据IOU去除重叠的检测框来说，Confluence算法在检测目标比较密集或者有遮挡的情况，鲁棒性更好。

在上述方案的基础上，进一步地，所述轻量级网络结构选自MobileNet、SqueezeNet、ShuffleNet、SquzeeNet中的一种。

在上述方案的基础上，进一步地，所述检测模型选自YOLO-v3、Faster-RCNN、CenterNet、SSD中的一种。

在上述方案的基础上，进一步地，在将所述预设检测模型中的骨干网络结构替换为轻量级网络结构后，需改变对相应网络结构的节点以使其适应数据预处理和featurelayers结构。

在上述方案的基础上，进一步地，所述节点的改变包括调节feature layers的input size。

本发明提供一种图像识别装置，包括：

获取模块，用于获取待识别图像；以及

识别模块，用于根据预设的检测模型对图像中的人物进行识别；

本发明提供一种服务器，所述服务器包括处理器和存储器，所述传出去中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如上所述的图像识别方法。

本发明提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如上所述的图像识别方法。

本发明提供的一种图像识别方法及其装置、服务器和计算机可读存储介质与现有技术相比，具有以下优点：

采用将所述预设的检测模型中的骨干网络resnet网络结构替换为轻量级网络结构，从而实现使用轻量级网络的骨干网络缩小模型、减少训练时间以及提升检测速度的技术效果，进而解决前端设备在无需更换新设备的情况下，仍能很好的运行使用；同时，结合轻量级网络以及原网络的新网络，可降低网络结构的复杂性,减轻权重,以便在边缘设备实现高效运行，进而满足支持AI的网络边缘设备不断增长的需求，提供全面的硬件和软件解决方案，用于在网络边缘运行的智能设备中实现低功耗、实时在线的AI功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的传统检测模型相关数据图；

图2为SSD模型的相关数据图；

图3为SSD模型的模块示意图一；

图4为SqueezeNet的模块数据表；

图5为SqueezeNet的相关测试指标表；

图6为MobileNet的网络结构表；

图7为SSD模型的模块示意图二；

图8为本发明提供的结合轻量级网络以及原网络的新网络模块示意图；

图9为本发明提供的一种图像识别方法的步骤框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种图像识别方法，包括：

获取待识别图像；

根据预设检测模型对图像中的人和/或物体进行识别；

具体实施时，如图1所示，为传统的检测模型相关数据；

而传统的检测模型包括有YOLO-v3、Faster-RCNN、CenterNet、SSD等，以SSD(Single Shot MultiBox Detector)模型为例，如图2和3所示，为原有的SSD相关数据以及其模型结构，基于现有轻量级网络，例如Mobilenet、SqueezeNet、Shufflenet、Squzeenet等，以SqueezeNet的结构为例，其现有的结构和相关测试指标如图4和5所示，而MobileNet的网络结构如图6所示；

而在本实施例中，以SSD模型作为检测模型，基于常见检测模型的backbone大多为resnet，我们则将其修改为其他的轻量级网络，以实现使用轻量级网络的骨干网络缩小模型、减少训练时间以及提升检测速度的技术效果；

为此，本发明提出一种结合轻量级网络以及原网络的新网络,将原网络的backbone替换为轻量级的网络结构并修改相关输入输出层以及卷积核的大小,为保证网络结构完整正确。

如图7所示，原本SSD模型的backbone是VGG16,我们将其替换为轻量级网络如mobilenet或者SqueezeNet上述轻量级网络之一,例如，本实施例中替换为SqueezeNet，其中,数据预处理和之后的feature layers结构不变,但需改变节点数,与其已替换的backbone对接,即替换backbone之后,调节feature layers的input size,为此我们对squeezenet之后resize conv的input size进行改变，改变backbone后的SSD模型，及新网络如图8所示，通过该模型的结合替换，从而可降低网络结构的复杂性,减轻权重,以便在边缘设备运行；

由此，本发明提供如图9所示的图像识别方法，基于上述网络模型的更替从而实现使用轻量级网络的骨干网络缩小模型、减少训练时间以及提升检测速度的技术效果，进而解决前端设备在无需更换新设备的情况下，仍能很好的运行使用。

优选地，所述轻量级网络结构选自Mobilenet、SqueezeNet、Shufflenet、Squzeenet中的一种。

具体实施时，现有轻量级网络，例如Mobilenet、SqueezeNet、Shufflenet、Squzeenet等，以SqueezeNet的结构为例，其现有的结构和相关测试指标如图4和5所示，而MobileNet的网络结构如图6所示，通过将原有网络模型替换为上述轻量级网络，再进一步改变节点数，从而实现网络结构的完整，通过该模型的结合替换，从而可降低网络结构的复杂性,减轻权重,以便在边缘设备运行。

优选地，所述检测模型选自YOLO-v3、Faster-RCNN、CenterNet、SSD中的一种。

具体实施时，现有技术中常用的检测模型包括YOLO-v3、Faster-RCNN、CenterNet、SSD等，当然，上述检测模型为本发明实施的优选实施例，本领域技术人员在本发明构思下还可以采用其他检测模型予以实施，并做适应性调整。

优选地，在将所述预设检测模型中的骨干网络结构替换为轻量级网络结构后，需改变对相应网络结构的节点以使其适应数据预处理和feature layers结构。

具体实施时，以SqueezeNet为例，相比于ResNet，SqueezeNet模型压缩主要用到以下三个策略：

(1)将3X3卷积替换成1X1卷积，通过这一步卷积操作可以让参数量减少90％；

(2)减少3X3卷积的通道数，基于一个完全由3x3卷积核组成的卷积层，整个卷积层的参数量为：输入feature map的通道数x输出feature map的通道数x3x3；所以，为了维持较小的参数量，不仅需要减少3x3卷积核的数量，减少其通道数也是非常重要的；

(3)延迟网络中下采样的时间，以便卷积层可以获得较大的特征图；通常来说，在CNN结构中下采样指的是在一些卷积层将步长设置为大于1的数或者应用池化层；如果在网络的前期结构中使用较大的步长，那么大多数层的特征图就会比较小；相反地，如果网络中大多数层的步长仅仅为1，步长较大的层都集中在网络的后期，那么网络中的大多数层就会有比较大的特征图。在每种情况下，延迟下采样都会导致较高的分类精度。

为此，对于不同的检测模型所替换后的backbone(例如SqueezeNet)不需要更改，但不同的检测模型接入backbone的时候需要根据检测模型本身的特点进行；

而在本实施例中，如图7所示，原本SSD模型的backbone是VGG16,我们将其替换为轻量级网络如MobileNet或者SqueezeNet上述轻量级网络之一,例如，本实施例中替换为SqueezeNet，其中,数据预处理和之后的feature layers结构不变,但需改变节点数,与其已替换的backbone对接,即替换backbone之后,调节feature layers的input size,为此我们对squeezenet之后resize conv的input size进行改变，改变backbone后的SSD模型，及新网络如图8所示，通过该模型的结合替换，从而可降低网络结构的复杂性,减轻权重,以便在边缘设备运行；

本发明提供一种图像识别装置，其特征在于，包括：

获取模块，用于获取待识别图像；以及

具体实施时，如图7所示，在本实施例中，在所述图像识别装置中，将原有SSD模型的backbone替换为轻量级网络SqueezeNet，但数据预处理和之后的feature layers结构不变,仅需改变节点数,与其已替换的backbone对接,即替换backbone之后,调节featurelayers的input size,为此我们对squeezenet之后resize conv的input size进行改变，改变backbone后的SSD模型，及新网络如图8所示，通过该模型的结合替换，从而可降低网络结构的复杂性,减轻权重,使得所述图像识别装置无需更换设备即可满足相应的需求；

本发明提供一种服务器，所述服务器包括处理器和存储器，所述传出去中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如图9所述的图像识别方法。

具体实施时，本发明实施例提供的服务器，从待识别图像中获取人和/或物体的图像信息后，基于更替后的检测模型进行图像识别、分析。

本发明提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如图9所述的图像识别方法。

具体实施时，本发明实施例提供的计算机可读存储介质，从待识别图像中获取人和/或物体的图像信息后，基于更替后的检测模型进行图像识别、分析。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；计算机可读存储介质还可以包括上述种类的存储器的组合。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待识别图像；

根据预设检测模型对图像中的人和/或物体进行识别；

2.根据权利要求1所述的图像识别方法，其特征在于：所述轻量级网络结构选自MobileNet、SqueezeNet、ShuffleNet、SquzeeNet中的一种。

3.根据权利要求1所述的图像识别方法，其特征在于：所述检测模型选自YOLO-v3、Faster-RCNN、CenterNet、SSD中的一种。

4.根据权利要求1所述的图像识别方法，其特征在于：

在将所述预设检测模型中的骨干网络结构替换为轻量级网络结构后，需改变对相应网络结构的节点以使其适应数据预处理和feature layers结构。

5.根据权利要求4所述的图像识别方法，其特征在于：所述节点的改变包括调节feature layers的input size。

6.一种图像识别装置，其特征在于，包括：

获取模块，用于获取待识别图像；以及

7.根据权利要求6所述的图像识别装置，其特征在于：所述轻量级网络结构选自Mobilenet、SqueezeNet、Shufflenet、Squzeenet中的一种。

8.根据权利要求6所述的图像识别装置，其特征在于：所述检测模型选自YOLO-v3、Faster-RCNN、CenterNet、SSD中的一种。

9.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述传出去中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1-5任一项所述的图像识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1-5任一项所述的图像识别方法。