CN116129353A

CN116129353A - 一种基于图像识别进行智能监控的方法及系统

Info

Publication number: CN116129353A
Application number: CN202310074539.0A
Authority: CN
Inventors: 丁红霞; 董志敏
Original assignee: Foshan Shunde Fulukang Electric Appliance Technology Co ltd
Current assignee: Guangzhou Rongfu Digital Technology Service Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-05-16
Anticipated expiration: 2043-02-07
Also published as: CN116129353B

Abstract

本发明涉及神经网络技术领域，公开了一种基于图像识别进行智能监控的方法及系统，本发明通过在智能监控系统中采集图像数据，生成热力图，搭建基于级联结构的的目标检测网络模型，根据热力图内的成像颜色和标注后的图像数据信息在图像数据样本中裁剪出对应区域，然后在特征收集网络模块中进行目标结构和目标密度的推理，进行分类识别和检测损失；最后在真实场景下的监控视频测试最优网络模型，完成基于图像识别的智能监控。本发明通过采用级联网络模型实现小目标检测任务，增强抗干扰力，从而提高模型的检测性能。

Description

一种基于图像识别进行智能监控的方法及系统

技术领域

本申请涉及神经网络技术领域，尤其涉及一种基于图像识别进行智能监控的方法及系统。

背景技术

随着信息时代的到来，视频智能监控系统获得了长足发展，大量的视频监控设备被用于不同场所，用于监控一场的行为、事件或者数据，视频智能监控系统在公共安全、城市管理等领域发挥着重要的作用。

近些年来，深度学习技术迅猛发展，深度神经网络强大的特征表达能力和端到端的训练方式成为了智能视频监控系统的极大助力。在深度学习与智能视频监控技术的结合中，如何设计有效、鲁棒和可靠的神经网络结构是其中亟待解决的核心问题。

多数检测方法当前的算法大多针对于具有一定尺寸大小的常规目标，然而，真实场景下拍摄到的图像存在目标尺寸较小和特征不明显等原因，因而对小目标的检测性能远不能令人满意。

因此，亟需提出一种易训练、易部署的小目标智能监控检测方法，解决低分辨率下小目标边缘模糊导致的难区分问题，针对小目标检测中数据样本少和提取特征难问题出发，通过采用级联网络模型实现小目标检测任务，增强抗干扰力，从而提高模型的检测性能。

发明内容

本申请实施例提供一种基于图像识别进行智能监控的方法。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供了一种基于图像识别进行智能监控的方法，该方法包括以下步骤：

步骤S1，在智能监控系统中采集图像数据，根据图像数据生成热力图；

步骤S2，搭建基于级联结构的的目标检测网络模型，所述网络模型包括依次连接的主干网络模块、特征收集网络模块和残差注意力模块；

步骤S3，将包含目标的图像数据进行标注，分为网络模型的训练集和测试集；

步骤S4，根据热力图内的成像颜色和标注后的图像数据信息在图像数据样本中裁剪出对应区域，然后在特征收集网络模块中进行目标结构和目标密度的推理；

步骤S5，根据主干网络模块初步提取图像数据的特征信息，通过特征收集网络模块对所述特征信息进行深度增强，最后使用残差注意力模块进行分类识别和检测损失；

步骤S6，最后在真实场景下的监控视频测试最优网络模型，完成基于图像识别的智能监控。

在一种可能的实施方式中，所述步骤S1包括：

明确采集目标，根据从目标图像中提取的自然特征来检测图像目标；

将图像目标与实时智能监控系统采集的图像中的特征进行比较，获取图像数据。

在一种可能的实施方式中，所述步骤S2包括：

所述主干网络模块包括上游分支结构和下游分支结构；

所述上游分支结构包括依次串联连接的第一卷积模块、第一归一化模块和softmax激活函数模块；

所述下游分支结构包括第二卷积模块、第二归一化模块、欧氏距离损失函数模块和标注图像模块，所述第二卷积模块、第二归一化模块依次串联连接，所述第二归一化模块并联连接有欧氏距离损失函数模块和标注图像模块；

所述softmax激活函数模块、欧氏距离损失函数模块和标注图像模块共同连接至全连接模块进行回归输出。

在一种可能的实施方式中，所述步骤S2包括：

在特征收集网络模块中增设空间金字塔池化模块，所述金字塔池化模块包括依次连接的金字塔卷积组块、激活函数层、最大池化层和拼接层；

所述金字塔卷积组块包括依次连接的第三卷积模块、第三归一化模块和激活函数层；

所述特征收集网络模块包括多个结构相同的卷积组块以及金字塔池化模块，所述卷积组块和金字塔卷积组块的结构相同，所述卷积组块和金字塔池化模块之间跳跃连接。

在一种可能的实施方式中，包括：

在主干网络模块中设置softmax函数、合交叉熵损失函数和欧氏距离损失函数；

在特征收集网络模块中设置检测损失函数和分类损失函数。

在一种可能的实施方式中，所述步骤S6包括：

预设相关超参数，随着网络模型的不断迭代训练更新权重参数，直至迭代次数等于最大迭代次数后停止训练。

在一种可能的实施方式中，主干网络模块中的上游分支结构用于推理目标结构，以包含目标的图像数据作为标签由softmax函数配合交叉熵损失函数训练得到；

下游分支结构用于推理密度分布，以标注图像模块中的包含目标的图片作为标签由欧氏距离损失函数训练得到。

第二方面，本发明还提供了一种基于图像识别进行智能监控的系统，包括图像采集模块、模型构建模块和模型测试模块，其中：

图像采集模块，用于在智能监控系统中采集图像数据，根据图像数据生成热力图；

模型构建模块，用于搭建基于级联结构的的目标检测网络模型，所述网络模型包括依次连接的主干网络模块、特征收集网络模块和残差注意力模块；将包含目标的图像数据进行标注，分为网络模型的训练集和测试集；根据热力图内的成像颜色和标注后的图像数据信息在图像数据样本中裁剪出对应区域，然后在特征收集网络模块中进行目标结构和目标密度的推理；根据主干网络模块初步提取图像数据的特征信息，通过特征收集网络模块对所述特征信息进行深度增强，最后使用残差注意力模块进行分类识别和检测损失；

模型测试模块，用于在真实场景下的监控视频测试最优网络模型，完成基于图像识别的智能监控。

第三方面，本发明还提供了一种电子设备，该电子设备包括处理器和存储器；处理器中包括上述第二方面所记载的基于图像识别进行智能监控的系统。

第四方面，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质包括指令；当指令在上述第三方面所记载的电子设备上运行时，使得电子设备执行上述第一方面所记载的方法。

附图说明

图1为本申请实施例提供的一种基于图像识别进行智能监控的方法及系统中目标检测网络模型的结构示意图；

图2为本申请实施例提供的一种基于图像识别进行智能监控的方法及系统中的主干网络的结构示意图；

图3为本申请实施例提供的一种基于图像识别进行智能监控的方法及系统中空间金字塔池化模块的结构示意图。

本发明提出基于级联结构的的目标检测网络模型，通过级联的方式组合不同类型的神经网络，从而提高了深度学习模型对视频的高层语义理解能力，并将该网络模型应用在智能监控的视频摘要任务上。

本发明通过特征收集网络和残差注意力网络的组合先提取疑似小目标区域，之后再进行具体的分类识别，在提取疑似小目标区域的过程中还使用了热成像和图片标注的结合，能够更好的进行小目标检测。

具体实施方式

需要说明的是，本申请实施例涉及的术语“第一”、“第二”等仅用于区分同一类型特征的目的，不能理解为用于指示相对重要性、数量、顺序等。

本申请实施例涉及的术语“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例涉及的术语“耦合”、“连接”应做广义理解，例如，可以指物理上的直接连接，也可以指通过电子器件实现的间接连接，例如通过电阻、电感、电容或其他电子器件实现的连接。

实施例1：

本实施例的一种基于图像识别进行智能监控的神经网络中标准数据格式方法，如图1-图3所示，密度热力图是通过密度函数进行可视化用于表示地图中点的密度的热图。它使人们能够独立于缩放因子感知点的密度。密度热力图一般是基于离散点、线或面的分析与表达，或者基于连续表面的密度分析得到的热力图或热度图。强调空间位置和基本的空间分布特征。核密度分析工具用于计算要素在其周围邻域中的密度，通过离散点数据进行内插，落入搜索区的点具有不同的权重，靠近搜索中心的点或线会被赋予较大的权重，反之，权重较小，它的计算结果分布较平滑。

将包含目标的图像数据进行标注，根据数据格式分为网络模型的训练集和测试集，按照标准数据格式组成训练集，少量数据作为测试集，最后在监控视频上测试模型性能。其中，神经网络中数据格式包括结构化数据、非结构化数据。神经网络中可以使用的数据：有数据表类2D数据：(样本数，特征数)、序列类3D数据：(样本数，步长，特征数)、图像类4D数据：(样本数，宽，高，通道数)、视频类5D数据：(样本数，帧数，宽，高，通道数)。标准数据格式是指开源的数据集，自己的数据集进入训练之前要按照这些开源数据集的格式整理。利用边界框标注信息在原图像样本中裁剪出对应区域，然后使用计算出标注边缘检测图；边界框标注信息为包含的图像上人工标注的矩形框。

如图1所示，首先搭建主干网络(Backbone)结构，由主干网络初步提取精加工的深度特征信息，然后再搭建特征收集网络(Neck)中对特征信息进行细化增强，在特征收集网络中获取显著的上下文信息，再在残差注意力网络(Resnet)中最后进行分类识别和检测损失。

特征收集网络(Neck)结构采用级联结构，在每个特征收集网络(Neck)结构中都两种损失函数，一种是分类识别损失函数，另外一种是检测识别损失函数；

预先设定最大迭代次数、学习率、衰减率等相关超参数，随着模型的不断迭代训练更新权重参数，模型的性能也不断提升，直至迭代次数等于最大迭代次数后停止训练，最后在真实场景下的监控视频测试最优模型。

图1为目标检测方法的整体网络结构示意图。Backbone为主干网络，指的是提取特征的网络，其作用就是提取图片中的信息，共后面的网络使用。在本发明中后面的网络选用的是残差注意力网络(Resnet)，而不是我们自己设计的网络，因为残差注意力网络(Resnet)已经证明了在分类等问题上的特征提取能力是很强的。在用这些网络作为Backbone的时候，都是直接加载官方已经训练好的模型参数，后面接着我们自己的网络。让网络的这两个部分同时进行训练，因为加载的Backbone模型已经具有提取特征的能力了，在我们的训练过程中，会对他进行微调，使得其更适合于我们自己的任务。Neck是特征收集层，是为了更好的利用Backbone提取的特征。

本发明提出基于级联结构的的目标检测网络模型，通过级联的方式组合不同类型的神经网络，从而提高了深度学习模型对视频的高层语义理解能力，并将该网络模型应用在智能监控的视频摘要任务上。在本发明提出基于级联结构的的目标检测网络模型，通过特征收集网络和残差注意力网络的组合先提取疑似小目标区域，之后再进行具体的分类识别，在提取疑似小目标区域的过程中还使用了热成像和图片标注的结合，能够更好的进行小目标检测。

实施例2：

本实施例在实施例1的基础上做进一步优化，特征收集网络(Neck)采用空间金字塔池化模块，能够增加感受野，获取显著的上下文信息，以保证检测模型准确率。分类网络模块采用的残差注意力网络。在主干网络中使用跳跃式结构连接传递以保证上下文信息的完整性并简化模型参数。

图2中，C1表示第一卷积模块，C2表示第二卷积模块，BN1表示第一归一化模块，BN2表示第二归一化模块，softmax表示softmax激活函数模块，Euclid表示欧氏距离损失函数，Pic表示标注图像模块，FC表示全连接模块。

主干网络中的上游网络用于推理目标结构，以包含目标的图像数据作为标签由softmax函数配合交叉熵损失函数训练得到。下游网络用于推理密度分布，以标注图像模块中的包含目标的图片作为标签由欧氏距离损失函数训练得到。最后，拼接以上两种图片块，使用全连接模块回归后输出到特征收集网络模块。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在上述实施例1或2的基础上做进一步优化，使用金字塔池化模块能使特征图中的目标所处的位置响应值更高，而且能使低分辨率下的目标边缘更清晰，利于后续的定位和识别任务。

如图3所示为金字塔池化模块的结构图，其中，C3表示第三卷积模块，BN3表示第三归一化模块，Relu表示激活函数层，Maxpool层表示最大池化层，Concat表示拼接层。

本实施例的其他部分与上述实施例1或2相同，故不再赘述。

实施例4：

本实施例在上述实施例1-3任一项的基础上做进一步优化，残差注意力模块以关注图像中头部轮廓信息，通过提取头部信息的特征来优化目标分类的精度。通过实验对比，基于级联结构的的目标检测网络模型能够在人员密集和光线阴暗等复杂环境下有着较高的检测率，能提高模型对目标的表征能力，精准地描述出目标的轮廓信息，从而将目标与背景区别出来。

本实施例的其他部分与上述实施例1-3任一项相同，故不再赘述。

实施例5：

本实施例在上述实施例1-4任一项基础上做进一步优化，在特征收集网络模块中设置检测损失函数和分类损失函数，分类识别损失函数采用交叉熵损失函数，检测损失函数采用CIOU Loss损失函数。

根据上述描述将网络结构模型搭建完成后，预先设定最大迭代次数、学习率、衰减率等相关超参数，随着模型的不断迭代训练更新权重参数，模型的性能也不断提升，直至迭代次数等于最大迭代次数后停止训练，最后在真实场景下的监控视频测试最优模型。

本实施例的其他部分与上述实施例1-4任一项相同，故不再赘述。

实施例6：

本发明还提供了一种电子设备，该电子设备包括处理器和存储器；处理器中包括上述实施例所记载的基于图像识别进行智能监控的系统。

实施例7：

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质包括指令；当指令在上述实施例所记载的电子设备上运行时，使得电子设备执行上述实施例所记载的方法。可选地，计算机可读存储介质可以为存储器。

本申请实施例涉及的处理器可以是一个芯片。例如，可以是现场可编程门阵列(field programmable gate array，FPGA)，可以是专用集成芯片(application specificintegrated circuit，ASIC)，还可以是系统芯片(system on chip，SoC)，还可以是中央处理器(central processor unit，CPU)，还可以是网络处理器(network processor，NP)，还可以是数字信号处理电路(digital signal processor，DSP)，还可以是微控制器(microcontroller unit，MCU)，还可以是可编程控制器(programmable logic device，PLD)或其他集成芯片。

本申请实施例涉及的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个设备，或者也可以分布到多个设备上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个设备中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于图像识别进行智能监控的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于图像识别进行智能监控的方法，其特征在于，所述步骤S1包括：

3.根据权利要求1所述的一种基于图像识别进行智能监控的方法，其特征在于，所述步骤S2包括：

所述主干网络模块包括上游分支结构和下游分支结构；

4.根据权利要求1所述的一种基于图像识别进行智能监控的方法，其特征在于，所述步骤S2包括：

5.根据权利要求1所述的一种基于图像识别进行智能监控的方法，其特征在于，包括：

在特征收集网络模块中设置检测损失函数和分类损失函数。

6.根据权利要求1所述的一种基于图像识别进行智能监控的方法，其特征在于，所述步骤S6包括：

7.根据权利要求1-6任一项所述的一种基于图像识别进行智能监控的方法，其特征在于，包括：

主干网络模块中的上游分支结构用于推理目标结构，以包含目标的图像数据作为标签由softmax函数配合交叉熵损失函数训练得到；

8.一种基于图像识别进行智能监控的系统，其特征在于，包括图像采集模块、模型构建模块和模型测试模块，其中：

9.一种电子设备，其特征在于，包括处理器和存储器；所述处理器中包括如权利要求8所述的基于图像识别进行智能监控的系统。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令；当指令在如权利要求9所述的电子设备上运行时，使得所述电子设备执行如权利要求1-7任一项所述的方法。