CN117475357A - 基于深度学习的监控视频图像遮挡检测方法及系统 - Google Patents
基于深度学习的监控视频图像遮挡检测方法及系统 Download PDFInfo
- Publication number
- CN117475357A CN117475357A CN202311812049.2A CN202311812049A CN117475357A CN 117475357 A CN117475357 A CN 117475357A CN 202311812049 A CN202311812049 A CN 202311812049A CN 117475357 A CN117475357 A CN 117475357A
- Authority
- CN
- China
- Prior art keywords
- feature map
- image
- convolution
- output
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 97
- 238000012544 monitoring process Methods 0.000 title claims abstract description 20
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000002441 reversible effect Effects 0.000 claims abstract description 31
- 230000004913 activation Effects 0.000 claims abstract description 23
- 238000011176 pooling Methods 0.000 claims abstract description 23
- 238000012937 correction Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 17
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000009022 nonlinear effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000379 polymerizing effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度学习的监控视频图像遮挡检测方法及系统,涉及数字图像处理技术领域,包括:获取原始图像,将原始图像添加至图像检测模型中,通过输入层对原始图像进行维度修正,得到标准图像,通过第一深度卷积层和扩张卷积层提取低级别特征并增加感受野,得到第一输出特征图,其中所述图像检测模型是基于深度卷积神经网络构建的;通过深度可逆卷积层对第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对第二输出特征图进行可逆下采样,生成第三输出特征图,将第二输出特征图和第三输出特征图合并得到综合特征图;应用激活函数,得到高维特征图,过池化层和全连接层确定高维特征图中的遮挡区域,生成遮挡特征图。
Description
技术领域
本发明涉及数字图像处理技术领域,尤其涉及一种基于深度学习的监控视频图像遮挡检测方法及系统。
背景技术
在视频监控系统中,监控摄像头通常涵盖广泛的区域,以检测和记录事件,这些监控摄像头在公共场所、交通系统、商业区域等各种环境中广泛使用,用于确保安全、预防犯罪、管理交通,遮挡是监控视频中常见的问题之一。由于摄像头的视野限制和场景中的动态变化,可能会出现人、车辆或其他物体对关键区域的遮挡,导致监控系统无法准确捕捉到重要信息,这种情况可能影响监控系统的效果,甚至使其在关键时刻失效。
现有技术中,CN112801963A公开了一种视频图像遮挡检测方法及系统,属于人工智能与计算机视觉技术领域,通过梯度计算、梯度直方图计算、分割阈值计算、梯度图二值化、孔洞填充、腐蚀、小区域去除和中值滤波等步骤,实现前景背景分割和遮挡判定,前景是遮挡物,背景是正常画面,前景背景分割用于分割所述遮挡物和所述背景,所述遮挡判定对分割后的图像进行处理,以判定所述分割后的图像中是否存在所述遮挡物。
综上,现有技术虽然能够实现对监控图像的遮挡检测,但是仅通过对图像的前景和背景识别,无法通过提取图像中物体的特征进行遮挡识别,检测准确率较低,因此需要一种方法提高现有技术的遮挡检测准确率。
发明内容
本发明实施例提供一种基于深度学习的监控视频图像遮挡检测方法及系统,用于检测交通摄像头拍摄到的图像是否存在遮挡。
本发明实施例的第一方面,提供一种基于深度学习的监控视频图像遮挡检测方法,包括:
获取原始图像,将所述原始图像添加至预设的图像检测模型中,在所述图像检测模型中,通过输入层对所述原始图像进行维度修正,得到标准图像,通过第一深度卷积层和扩张卷积层提取所述标准图像的低级别特征并增加所述标准图像的感受野,得到第一输出特征图,其中所述图像检测模型是基于深度卷积神经网络构建的;
通过深度可逆卷积层对所述第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对所述第二输出特征图进行可逆下采样,生成第三输出特征图,将所述第二输出特征图和所述第三输出特征图合并得到综合特征图;
对所述综合特征图应用激活函数,得到高维特征图,根据所述高维特征图,通过池化层和全连接层确定所述高维特征图中的遮挡区域,生成遮挡特征图。
在一种可选的实施方式中,
所述获取原始图像,将所述原始图像添加至预设的图像检测模型中,在所述图像检测模型中,通过输入层对所述原始图像进行维度修正,得到标准图像,通过第一深度卷积层和扩张卷积层提取所述标准图像的低级别特征并增加所述标准图像的感受野,得到第一输出特征图包括:
获取原始图像,将所述原始图像作为预设的图像检测模型的输入,所述图像检测模型中的输入层接收所述原始图像,通过双线性插值方法修改所述原始图像的横纵比并进行归一化变换对所述原始图像进行维度修正,得到标准图像;
将所述标准图像添加至所述第一深度卷积层中,将所述标准图像中的局部区域与所述第一深度卷积层中的每个滤波器进行点乘求和,得到检测特征图,基于所述检测特征图中的颜色变化,获取图像中的低级别特征,即边缘特征和纹理特征;
扩张卷积层获取所述检测特征图和所述低级别特征,确定所述扩张卷积层的扩张率,根据所述扩张率确定所述扩张卷积层中扩张卷积核的相对位置,通过增加所述扩张卷积核的步幅并增加所述标准图像的感受野,并对所述检测特征图应用所述扩张卷积核,将所述扩张卷积核与所述检测特征图中的全部位置进行逐元素相乘并求和,得到所述第一输出特征图。
在一种可选的实施方式中,
所述通过深度可逆卷积层对所述第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对所述第二输出特征图进行可逆下采样,生成第三输出特征图,将所述第二输出特征图和所述第三输出特征图合并得到综合特征图包括:
获取所述第一输出特征图并确定对应的第一特征通道数量,选择所述深度可逆卷积层中第二深度卷积层对应的第二深度卷积核的大小,并根据所述第二深度卷积核对每个第一特征通道进行独立卷积,生成中间特征图;
选择逐点卷积层对应的逐点卷积核大小,将所述逐点卷积核的每个元素与所述中间特征图中对应通道的像素相乘并求和,得到所述第二输出特征图;
获取所述第二输出特征图,选择下采样因子,根据所述下采样因子对所述第二输出特征图进行复制,保留通过复制得到的特征图,以所述下采样因子为边长,通过在所述第二输出特征图的对应区域上取平均值进行下采样,得到所述第三输出特征图,将所述第三输出特征图与所述第二输出特征图通过拼接进行合并,得到综合特征图。
在一种可选的实施方式中,
所述根据所述高维特征图,通过池化层和全连接层确定所述高维特征图中的遮挡区域,生成遮挡特征图包括:
对所述综合特征图应用激活函数,通过引入非线性性质获取高维特征,生成高维特征图,将所述高维特征图输入至所述池化层,通过池化窗口选择所述高维特征图在每个窗口区域内的最大值,输出至所述全连接层并展平为一维向量,根据所述一维向量进行密度估计,得到估计密度值,将所述估计密度值与预设的密度阈值进行比较,若所述估计密度值大于预设的密度阈值,则认为该一维向量在原始图像中对应的区域存在遮挡,根据所述一维向量确定所述遮挡区域并在所述第三输出特征图中划分遮挡区域对应的遮挡特征图。
在一种可选的实施方式中,
所述方法还包括训练所述图像检测模型:
生成训练集,初始化所述图像检测模型,调整所述图像检测模型中的权重和偏差,选择初始学习率并定义损失函数;
根据需求选择优化器,通过所述优化器使所述损失函数最小化,将所述训练集中的训练数据添加至所述图像检测模型中,通过前向传播得到预测输出,根据所述损失函数计算所述预测输出与真实标签间的损失值,通过反向传播计算所述损失值对于所述图像检测模型中的参数对应的梯度值;
根据所述梯度值,通过所述优化器对所述图像检测模型中的参数进行更新,减小所述损失函数的损失值,重复迭代,直至达到预设的迭代次数或所述损失函数的损失值不再减小。
在一种可选的实施方式中,
所述通过所述优化器对所述图像检测模型中的参数进行更新如下公式所示:
;
其中,θ t 表示第t轮迭代后的参数,θ t-1 表示第t-1轮迭代后的参数,μ表示动量系数,v t-1 表示第t-1轮迭代的动量,η表示学习率,▽L()表示损失函数L关于参数θ t-1 的梯度。
在一种可选的实施方式中,
所述方法还包括基于所述遮挡特征图,在所述原始图像中对所述遮挡区域进行分割:
获取所述遮挡特征图并添加至预先选择的编码器中,通过特征融合模块对所述遮挡特征图中的特征点进行通道融合和空间融合,并通过所述编码器提取所述遮挡特征图对应的全局特征和局部特征;
根据所述全局特征和所述局部特征,自适应模块根据依赖空间和通道对应的双注意力机制生成多个卷积内核,将所述多个卷积内核线性聚合生成自适应内核,通过所述自适应内核提取所述全局特征和所述局部特征内的有效特征;
在所述解码器的每个解码层中,对所述有效特征进行特征映射,得到特征映射结果,将每个解码层对应的特征映射结果融合,得到特征融合结果,基于所述特征融合结果确定所述遮挡区域在所述原始图像中的遮挡边界,基于所述遮挡边界,对所述遮挡区域进行分割。
本发明实施例的第二方面,提供一种基于深度学习的监控视频图像遮挡检测系统,包括:
第一单元,用于获取原始图像,将所述原始图像添加至预设的图像检测模型中,在所述图像检测模型中,通过输入层对所述原始图像进行维度修正,得到标准图像,通过第一深度卷积层和扩张卷积层提取所述标准图像的低级别特征并增加所述标准图像的感受野,得到第一输出特征图,其中所述图像检测模型是基于深度卷积神经网络构建的;
第二单元,用于通过深度可逆卷积层对所述第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对所述第二输出特征图进行可逆下采样,生成第三输出特征图,将所述第二输出特征图和所述第三输出特征图合并得到综合特征图;
第三单元,用于对所述综合特征图应用激活函数,得到高维特征图,根据所述高维特征图,通过池化层和全连接层确定所述高维特征图中的遮挡区域,生成遮挡特征图。
本发明实施例的第三方面,
提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行前述所述的方法。
本发明实施例的第四方面,
提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述所述的方法。
本发明中,通过输入层对原始图像进行维度修正,得到标准图像,有助于确保输入图像在网络中的处理是一致的,从而提高模型的稳定性和泛化性,通过第一深度卷积层和扩张卷积层,能够提取原始图像的低级别特征,并通过增加感受野的方式,使得模型更能理解图像中的局部结构和关键信息,可逆卷积层的使用使得网络具有反向传播时的可逆性,有助于减小信息损失,提高模型对细节的敏感性,应用激活函数对综合特征图进行处理,通过池化层和全连接层,该方法能够更好地对高维特征图中的遮挡区域进行确定。这提高了算法对遮挡区域的检测精度,综上,本发明综合运用了深度学习的各种技术,通过多层次、多角度的特征提取和融合,能够更精准地识别图像中的遮挡区域,具备较高的遮挡检测性能。
附图说明
图1为本发明实施例基于深度学习的监控视频图像遮挡检测方法的流程示意图;
图2为本发明实施例基于深度学习的监控视频图像遮挡检测系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明实施例基于深度学习的监控视频图像遮挡检测方法的流程示意图,如图1所示,所述方法包括:
S1.获取原始图像,将所述原始图像添加至预设的图像检测模型中,在所述图像检测模型中,通过输入层对所述原始图像进行维度修正,得到标准图像,通过第一深度卷积层和扩张卷积层提取所述标准图像的低级别特征并增加所述标准图像的感受野,得到第一输出特征图,其中所述图像检测模型是基于深度卷积神经网络构建的;
所述图像检测模型是一种用于检测图像中对象或区域的模型,通常用于定位图像中的物体,并在物体周围绘制边界框,所述维度修正是指对图像进行调整,以确保其输入模型的维度符合模型的要求,所述第一深度卷积层是卷积神经网络中的基本构建块,使用卷积操作对输入特征图进行特征提取,所述扩张卷积层也称为膨胀卷积层或空洞卷积层,是卷积神经网络中的一种变体,通过在卷积核中间插入零元素来扩大卷积核的感受野,所述低级别特征通常指图像中的基础信息,例如边缘、颜色和纹理等,所述感受野是指某个神经元对输入数据的接收范围,可以理解为某一层特征图上的单个神经元对输入图像上的区域的影响范围,所述深度卷积神经网络是一类通过使用卷积层、池化层和全连接层等构建的神经网络。
在一种可选的实施方式中,
所述获取原始图像,将所述原始图像添加至预设的图像检测模型中,在所述图像检测模型中,通过输入层对所述原始图像进行维度修正,得到标准图像,通过深度卷积层和扩张卷积层提取所述标准图像的低级别特征并增加所述标准图像的感受野,得到第一输出特征图包括:
获取原始图像,将所述原始图像作为预设的图像检测模型的输入,所述图像检测模型中的输入层接收所述原始图像,通过双线性插值方法修改所述原始图像的横纵比并进行归一化变换对所述原始图像进行维度修正,得到标准图像;
将所述标准图像添加至所述第一深度卷积层中,将所述标准图像中的局部区域与所述第一深度卷积层中的每个滤波器进行点乘求和,得到检测特征图,基于所述检测特征图中的颜色变化,获取图像中的低级别特征,即边缘特征和纹理特征;
扩张卷积层获取所述检测特征图和所述低级别特征,确定所述扩张卷积层的扩张率,根据所述扩张率确定所述扩张卷积层中扩张卷积核的相对位置,通过增加所述扩张卷积核的步幅并增加所述标准图像的感受野,并对所述检测特征图应用所述扩张卷积核,将所述扩张卷积核与所述检测特征图中的全部位置进行逐元素相乘并求和,得到所述第一输出特征图。
所述双线性插值是一种图像处理中常用的插值方法,用于在已知图像的离散点上估算其它位置的像素值,所述归一化通常指的是将图像的像素值映射到一个标准范围,所述扩张卷积核是卷积神经网络中的一种卷积操作,扩张卷积核在卷积核的元素之间插入一定数量的零,从而扩大了卷积核的感受野,所述第一输出特征图是通过扩张卷积层处理输入数据后得到的图像,包含了原始输入数据在卷积操作下的特征表示,所述第一深度卷积层用于对图像进行第一次深度卷积,相比于本方案中的第二深度卷积层,第一深度卷积层用于获取图像中更为概括的特征。
获取监控视频中的原始图像,将所述原始图像作为输入添加至预设的图像检测模型中的输入层中,所述输入层接收原始图像,并通过双线性插值方法修改所述原始图像的横纵比,示例性地,假设有一张原始图像,宽度为200像素,高度为100像素,希望将横纵比调整为2:1,则目标高度为这一原始图像的宽度与目标横纵比的比值,即目标高度为:200像素/2=100,即可得到该原始图像的目标高度,再通过双线性插值方法将所述原始图像调整到目标高度,对调整横纵比后的图像进行归一化变换,包括将像素值缩放到特定的范围,以确保模型能够更好地处理图像数据,将调整横纵比并进行归一化变换后的图像作为维度修正的结果,得到标准图像,验证所述标准图像的维度,保证符合所述深度卷积层的输入要求;
将所述标准图像作为所述第一深度卷积层的输入,将标准图像中的局部区域与第一深度卷积层中的每个滤波器进行点乘求和,示例性地,假设所述第一深度卷积层有一个3×3的滤波器,即所述第一深度卷积层的卷积核大小为3×3,在标准图像中选择一个大小为3×3的局部区域,将这一滤波器和该局部区域中位置对应的元素进行逐元素相乘,将得到的结果进行求和,即可生成一个检测特征图中包含的元素,对标准图像中的区域重复进行这一操作,即可得到所述检测特征图,所述检测特征图中的每个元素都代表了图像中的某种特定特征的强度,通过已有的边缘检测算法,捕捉图像中的颜色变化,识别所述标准图像中的边缘和纹理,确定所述检测特征图中对应的特征元素;
通过扩张卷积层接收所述第一深度卷积层输出的检测特征图和通过识别得到的低级别特征,确定任务需求,根据所述任务需求,确定扩张卷积层的扩张率,示例性地,根据所述任务需求,通过实验调整扩张率,观察模型在验证集上的性能,从小到大设置一系列扩张率,如1、2、4等,比较扩张卷积层在不同扩张率下的性能,找到在验证集上表现最好的扩张率,并选择这一扩张率,对于图像分类,确保卷积操作能够捕获到图像中的关键特征,所以对性能的评估是基于提取到的特征进行的,根据选择的扩张率确定扩张卷积核在卷积层中的相对位置,通过增加所述扩张卷积核的步幅,即增大所述扩张卷积核在应用时的间距,增大感受野,根据选择后的扩张率和增大后的步幅,将扩张卷积核与检测特征图中的全部位置进行逐元素相乘,然后对结果进行求和,得到所述第一输出特征图。
本实施例中,双线性插值和归一化的维度修正有助于确保输入图像的标准化,减少变形和失真,深度卷积有助于学习图像中的局部特征,捕捉颜色变化、边缘特征和纹理特征,提高图像的表征能力,扩张卷积有助于模型理解图像的全局结构,提高对长程关联性的感知能力,综上,本实施例通过适当的预处理和特征提取步骤,提供了更有意义、更全面的输入,从而提高整体的图像处理和分析性能。
S2.通过深度可逆卷积层对所述第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对所述第二输出特征图进行可逆下采样,生成第三输出特征图,将所述第二输出特征图和所述第三输出特征图合并得到综合特征图;
所述深度可逆卷积层是一种具有可逆性的卷积操作,通常包括深度卷积和逐点卷积,所述深度卷积是指在卷积神经网络的通道维度上进行卷积操作,通过深度卷积可以学习并提取输入数据在通道层面的特征表示,所述逐点卷积是指在卷积神经网络的空间维度上进行卷积操作,目的是在空间上保留更多的局部信息,所述可逆下采样是一种下采样操作,通过该操作可以减小特征图的尺寸,所述第二输出特征图是通过深度可逆卷积层对第一输出特征图进行操作后得到的结果,所述第三输出特征图是通过对第二输出特征图进行可逆下采样操作得到的,所述综合特征图是通过将第二输出特征图和第三输出特征图进行合并得到的,旨在将不同层次的特征信息整合在一起,以提供更丰富和全局的特征表示。
在一种可选的实施方式中,
所述通过深度可逆卷积层对所述第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对所述第二输出特征图进行可逆下采样,生成第三输出特征图,将所述第二输出特征图和所述第三输出特征图合并得到综合特征图包括:
获取所述第一输出特征图并确定对应的第一特征通道数量,选择所述深度可逆卷积层中第二深度卷积层对应的第二深度卷积核的大小,并根据所述第二深度卷积核对每个第一特征通道进行独立卷积,生成中间特征图;
选择逐点卷积层对应的逐点卷积核大小,将所述逐点卷积核的每个元素与所述中间特征图中对应通道的像素相乘并求和,得到所述第二输出特征图;
获取所述第二输出特征图,选择下采样因子,根据所述下采样因子对所述第二输出特征图进行复制,保留通过复制得到的特征图,以所述下采样因子为边长,通过在所述第二输出特征图的对应区域上取平均值进行下采样,得到所述第三输出特征图,将所述第三输出特征图与所述第二输出特征图通过拼接进行合并,得到综合特征图。
所述下采样因子是指在图像处理中,原始图像尺寸经过下采样操作后的相对缩小倍数,所述中间特征图可以被视为对输入图像进行更高级别抽象的表示,每个通道可能对应于某种图像特征,可能包括形状、纹理、边缘等,由于在第二深度卷积层中使用了独立的卷积核,每个通道的特征在独立卷积中得到了强调,因此,中间特征图在整个网络中充当了对输入图像更高层次理解的媒介,所述第二深度卷积层是所述深度可逆卷积层中深度卷积部分的卷积层,相比于前述第一深度卷积层,第二深度卷积层用于获取更细节的特征,具有更小的卷积核。
获取所述第一输出特征图,通过现有的主成分分析方法确定所述第一输出特征图的通道数量,示例性地,将所述第一输出特征图中每个位置上的通道值串联在一起,将特征图转换为一个一维向量,对得到的一维向量进行标准化后应用主成分分析算法,找到数据中包含最大方差的方向,即主成分,主成分的数量即为所述第一输出特征图的通道数量,假设有一个形状为(H,W,C)的特征图,其中H是高度,W是宽度,C是通道数量。我们首先将其转换为(H * W,C)的形状,然后进行主成分分析,得到主成分数量,该主成分数量即为所述第一输出特征图的通道数量,根据任务需求和所述第二深度卷积层所处的网络层级,选择第二深度卷积层中第二深度卷积核的大小,示例性地,假设当前任务是图像分类,而第一深度卷积核大小为3×3,希望在第二深度卷积层中选择合适的卷积核大小,对于第二深度卷积层,我们的目的是捕捉图像中的细节,因此需要选择一个相对第一深度卷积层中卷积核较小的第二深度卷积核大小,如1.5×1.5或2×2,对于所述第一输出特征图中的每个通道,使用选定大小的第二深度卷积核进行卷积操作,将所述第二深度卷积核与所述第一输出特征图的通道的局部区域进行逐元素相乘,并将得到的结果相加,得到所述中间特征图的一个元素,对于每一个第一输出特征图中的通道,重复卷积操作,最终得到所述中间特征图。
选择所述逐点卷积层中逐点卷积核的大小,需要说明的是,所述逐点卷积核的大小通常为1×1,不改变所述中间特征图的空间尺寸,只用于通道之间的信息整合,将所述逐点卷积核的每个元素与中间特征图中对应通道上的像素相乘,并将结果求和,生成所述第二输出特征图;
获取所述第二输出特征图,选择合适的下采样因子,示例性地,首先设置一个下采样因子列表,如[2,4,6],对于列表中的每个下采样因子,基于本发明的卷积神经网络结构进行下采样,对每个下采样因子基于准确率进行性能评估,选择具有最佳性能的下采样因子作为本方案使用的下采样因子,在选择下采样因子后,对所述第二输出特征图进行复制,复制次数为下采样因子的平方,并保留复制得到的特征图;
以下采样因子为边长,在所述第二输出特征图上的对应区域通过取平均值进行下采样,示例性地,如果下采样因子为2,则在所述第二输出特征图上的每个2×2的区域上取平均值,并将这一区域的平均值以像素形式输出,汇总所述像素值,即可得到所述第三输出特征图,将所述第三输出特征图和所述第二输出特征图通过拼接函数在深度(通道数)维度上进行合并,得到所述综合特征图。
本实施例中,通过深度可逆卷积层和逐点卷积层的操作,第一输出特征图的每个通道都经过了独立的深度卷积和逐点卷积处理,有助于捕获不同通道的特征信息,通过下采样因子对第二输出特征图进行复制和平均值下采样,可以在保留重要信息的同时降低特征图的分辨率,从而减少计算负担和提高计算效率,通过合并第二输出特征图和第三输出特征图,综合特征图包含了不同尺度的信息,有助于模型更好地理解输入图像的全局和局部结构,综上,本实施例在不同层级和尺度上捕获图像的丰富信息,为后续任务提供了更为全面和有意义的特征表示。
S3.对所述综合特征图应用激活函数,得到高维特征图,根据所述高维特征图,通过池化层和全连接层确定所述高维特征图中的遮挡区域,生成遮挡特征图。
所述高维特征图是综合特征图应用激活函数后的特征表示图,包含了在不同层次和不同尺度上提取的抽象特征,所述遮挡特征图是网络对输入图像中遮挡现象的响应,其像素值表示图像中的遮挡程度。
在一种可选的实施方式中,
所述对所述综合特征图应用激活函数,得到高维特征图,根据所述高维特征图,通过池化层和全连接层确定所述高维特征图中的遮挡区域,生成遮挡特征图包括:
对所述综合特征图应用激活函数,通过引入非线性性质获取高维特征,生成高维特征图,将所述高维特征图输入至所述池化层,通过池化窗口选择所述高维特征图在每个窗口区域内的最大值,输出至所述全连接层并展平为一维向量,根据所述一维向量进行密度估计,得到估计密度值,将所述估计密度值与预设的密度阈值进行比较,若所述估计密度值大于预设的密度阈值,则认为该一维向量在原始图像中对应的区域存在遮挡,根据所述一维向量确定所述遮挡区域并在所述第三输出特征图中划分遮挡区域对应的遮挡特征图。
所述高维特征图包含了在模型学习过程中所考虑到的更多抽象信息和复杂关系,是经过一系列卷积、激活和池化等操作后的结果,所述池化窗口是在高维特征图上滑动的固定大小的窗口,所述密度阈值是在密度估计的过程中引入的一个参数,用于与估计密度值进行比较,判定是否存在遮挡区域。
对所述综合征图应用激活函数,通过激活函数引入非线性性质,在所述综合特征图中获取更为复杂和抽象的高维特征,得到高维特征图,示例性地,所述激活函数可以使用ReLU激活函数,如下公式所示:
;
其中,x表示综合特征图中的元素。
将所述高维特征图输入至所述池化层,所述池化层通过滑动窗口在高维特征图中选择每个窗口区域中的最大值,降低高维特征图的空间维度,将经过池化后的特征图输入至所述全连接层,通过全连接层映射至一维向量,示例性地,通过全连接层将特征图映射至一维向量,首先需要针对每个通道,将其所有元素按行或按列顺序排列成一个一维向量,将展平后的一维向量通过权重矩阵与偏置向量进行线性变换,然后通过激活函数引入非线性,得到最终的一维向量,假设所述高维特征图的形状是(C, H, W),其中C表示通道数,H表示高度,W表示宽度,展平后的一维向量的长度就是C*H*W,如果展平后的向量长度为N,全连接层的权重矩阵的形状可能是(M,N),其中M是全连接层的神经元数量。输出的一维向量的长度为M;
基于得到的一维向量,结合最大似然估计法,通过观察概率选择最可能的概率密度函数参数,进行密度估计,得到估计密度值,将所述估计密度值与预设的密度阈值相比较,若所述估计密度值大于所述密度阈值,则认为这一一维向量在原始图像中对应的区域存在遮挡,对全部一维向量进行密度估计,并确定所述原始图像中的全部遮挡区域,并在所述第三输出特征图中划分对应的遮挡特征图。
本实施例中,通过激活函数对综合特征图应用非线性变换,引入了非线性性质,使得模型可以更好地捕捉图像中的复杂关系和特征,通过池化层,选择高维特征图在每个窗口区域内的最大值,实现了空间信息的降维和保留关键特征的功能,有助于减少计算复杂度并提取图像的主要特征,基于一维向量进行密度估计,通过统计方法估计图像中遮挡区域的密度,有助于判断图像中是否存在遮挡,进而确定遮挡区域,综上,本实施例能够使模型更好地处理图像信息,实现遮挡区域的检测和分割。
在一种可选的实施方式中,
所述方法还包括训练所述图像检测模型:
生成训练集,初始化所述图像检测模型,调整所述图像检测模型中的权重和偏差,选择初始学习率并定义损失函数;
根据需求选择优化器,通过所述优化器使所述损失函数最小化,将所述训练集中的训练数据添加至所述图像检测模型中,通过前向传播得到预测输出,根据所述损失函数计算所述预测输出与真实标签间的损失值,通过反向传播计算所述损失值对于所述图像检测模型中的参数对应的梯度值;
根据所述梯度值,通过所述优化器对所述图像检测模型中的参数进行更新,减小所述损失函数的损失值,重复迭代,直至达到预设的迭代次数或所述损失函数的损失值不再减小。
所述学习率是深度学习模型训练中的一个重要超参数,决定了模型参数在每一次迭代中更新的幅度,所述优化器是用于调整模型参数以最小化损失函数的算法,所述梯度值是损失函数关于模型参数的偏导数,表示了损失函数在当前模型参数下的变化率。
收集或生成包含图像和相应标签的训练集,分割数据集为训练集、验证集和测试集,定义图像检测模型的架构,选择卷积神经网络等适用的模型结构,随机初始化模型的权重和偏差,选择适当的初始学习率,可以基于经验或使用学习率调度策略,定义损失函数,根据任务选择适当的损失函数,示例性地,可以选择均方误差或交叉熵作为损失函数;
根据问题需求选择合适的优化器,如随机梯度下降,配置优化器的超参数,将所述训练集中的训练数据添加至图像检测模型中,通过前向传播,得到预测输出,示例性地,假设输入图像大小为28x28像素,初始化图像检测模型,定义每一层的结构,假设模型中有一个全连接层,一个激活函数和一个线性层,将输入数据通过模型的各层,计算预测输出,首先,输入数据经过全连接层,应用激活函数后再经过线性层,就完成了前向传播,最终得到预测输出,通过预先选择的损失函数计算预测输出与真实标签间的损失值,通过反向传播计算损失值对于模型参数的梯度,示例性地,在得到损失值后,假设已知权重参数W和偏差参数B,对于权重参数,计算所述损失值对于预测输出的梯度并与前一层的输出值相乘,即可得到权重参数W的梯度,所述偏差参数对于预测输出的梯度是偏差参数B本身的梯度;
使用选择的优化器(优化算法)对模型中的超参数进行更新,减小所述损失函数值,重复更新模型的超参数,直至达到预设的迭代次数或所述损失函数的损失值不再减小。
本实施例中,通过选择合适的学习率,确保模型在训练过程中既能够快速收敛,又避免了学习率过大导致的震荡或过小导致的训练速度缓慢,通过设置损失函数,通过适当选择的损失函数有助于防止模型对训练数据的过度拟合,综上,本实施例通过对图像检测模型的训练,使模型能够更好地适应输入内容,给出更准确的遮挡区域预测。
在一种可选的实施方式中,
所述通过所述优化器对所述图像检测模型中的参数进行更新如下公式所示:
;
其中,θ t 表示第t轮迭代后的参数,θ t-1 表示第t-1轮迭代后的参数,μ表示动量系数,v t-1 表示第t-1轮迭代的动量,η表示学习率,▽L()表示损失函数L关于参数θ t-1 的梯度。
本函数中,动量项在更新参数时考虑了上一步的动量,有助于在参数更新的过程中保持一定的方向和速度,从而加速学习的过程,动量项有助于摆脱局部最优点,在前几次迭代中累积的动量可以帮助模型跳出局部最小值,从而更可能找到全局最优解,学习率控制了每次更新的步幅,通过梯度的方向和大小调整学习率有助于确保在梯度较大的方向上更大程度地更新参数,综上,通过本函数,可以更高效地更新参数,加速学习的过程,同时克服了部分优化算法的缺点。
在一种可选的实施方式中,
所述方法还包括基于所述遮挡特征图,在所述原始图像中对所述遮挡区域进行分割:
获取所述遮挡特征图并添加至预先选择的编码器中,通过特征融合模块对所述遮挡特征图中的特征点进行通道融合和空间融合,并通过所述编码器提取所述遮挡特征图对应的全局特征和局部特征;
根据所述全局特征和所述局部特征,自适应模块根据依赖空间和通道对应的双注意力机制生成多个卷积内核,将所述多个卷积内核线性聚合生成自适应内核,通过所述自适应内核提取所述全局特征和所述局部特征内的有效特征;
在所述解码器的每个解码层中,对所述有效特征进行特征映射,得到特征映射结果,将每个解码层对应的特征映射结果融合,得到特征融合结果,基于所述特征融合结果确定所述遮挡区域在所述原始图像中的遮挡边界,基于所述遮挡边界,对所述遮挡区域进行分割。
所述编码器是一个神经网络模块,用于从输入数据中提取特征,本发明中,用于提取遮挡特征图对应的全局特征和局部特征,所述特征融合模块用于将遮挡特征图中的特征点进行通道融合和空间融合,所述全局特征和局部特征是指编码器从遮挡特征图中提取的不同层次特征,全局特征捕捉图像中的整体信息,局部特征关注图像的局部细节,所述自适应模块用于动态地生成适应于输入数据的卷积核,以提取全局特征和局部特征中的有效信息,所述依赖空间和通道对应的双注意力机制是一种注意力机制的变体,通常包括两个部分,一个用于空间注意力(空间信息),另一个用于通道注意力(通道信息),所述解码器是一个神经网络模块,通常与编码器相对应,用于将提取的特征映射还原为原始图像,本发明中,解码器的每个解码层用于对有效特征进行特征映射,所述遮挡边界用于确定遮挡区域的形状和位置。
获取遮挡特征图,将所述遮挡特征图作为输入添加至预先选择的编码器中,通过所述编码器中的特征融合模块,通过1×1卷积将遮挡特征图中的通道信息融合到编码器输出中的每个通道,对于每个通道,通过卷积操作将所述遮挡特征图的空间特征进行融合,示例性地,对于遮挡特征图的每个通道和遮挡特征图的每个位置,使用卷积核提取遮挡特征图中心点的局部区域,使用卷积核对该局部区域进行卷积操作,将局部区域的空间信息融合到中心点,将融合后的值替换遮挡特征图中心点的值,即可实现空间特征融合,将实现融合后的遮挡特征图通过编码器网络,提取全局和局部特征;
基于得到的全局特征和局部特征,通过双注意力机制计算全局特征和局部特征的权重,将所述全局特征的权重与所述局部特征的权重相乘, 得到注意力权重,将所述注意力权重与基础卷积核规格相乘,得到所述卷积内核,将所述卷积内核线性聚合,得到所述自适应内核,示例性地,假设有两个卷积内核A和B,对应的权重为a和b,将卷积内核进行线性聚合可以表达为a×A+b×B,即可得到线性聚合后的自适应内核,通过所述自适应内核对所述全局特征和局部特征进行卷积,即可提取所述有效特征;
在解码器的每个解码层,通过卷积将有效特征进行特征映射,通过简单的元素级相加将每个解码层对应的特征映射结果进行融合,基于特征融合结果,采用现有的边缘检测算法确定遮挡区域在原始图像中的遮挡边界,基于所述遮挡边界的信息,对原始图像中的遮挡区域进行分割。
本实施例中,通过将遮挡特征图添加至预先选择的编码器中,利用编码器提取遮挡特征图的全局特征和局部特征,有助于捕捉遮挡区域的详细信息,包括全局上下文和局部细节,自适应模块基于全局特征和局部特征,通过依赖空间和通道对应的双注意力机制生成多个卷积内核,模型能够自适应地调整卷积内核,以更好地提取全局和局部特征之间的有效信息,解码器的每个解码层,对提取的有效特征进行特征映射,得到特征映射结果,将每个解码层对应的特征映射结果融合,得到最终的特征融合结果有助于结合不同解码层的信息,使得模型能够更好地还原原始图像的细节和结构,综上,本实施例通过特征的充分提取和融合,以及自适应的卷积内核生成,实现了对遮挡区域的精确处理和分割,提高了模型对复杂场景中遮挡情况的理解和处理能力。
图2为本发明实施例基于深度学习的监控视频图像遮挡检测系统的结构示意图,如图2所示,所述系统包括:
第一单元,用于获取原始图像,将所述原始图像添加至预设的图像检测模型中,在所述图像检测模型中,通过输入层对所述原始图像进行维度修正,得到标准图像,通过第一深度卷积层和扩张卷积层提取所述标准图像的低级别特征并增加所述标准图像的感受野,得到第一输出特征图,其中所述图像检测模型是基于深度卷积神经网络构建的;
第二单元,用于通过深度可逆卷积层对所述第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对所述第二输出特征图进行可逆下采样,生成第三输出特征图,将所述第二输出特征图和所述第三输出特征图合并得到综合特征图;
第三单元,用于对所述综合特征图应用激活函数,得到高维特征图,根据所述高维特征图,通过池化层和全连接层确定所述高维特征图中的遮挡区域,生成遮挡特征图。
本发明实施例的第三方面,
提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行前述所述的方法。
本发明实施例的第四方面,
提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现前述所述的方法。
本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本发明的各个方面的计算机可读程序指令。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.基于深度学习的监控视频图像遮挡检测方法,其特征在于,包括:
获取原始图像,将所述原始图像添加至预设的图像检测模型中,在所述图像检测模型中,通过输入层对所述原始图像进行维度修正,得到标准图像,通过第一深度卷积层和扩张卷积层提取所述标准图像的低级别特征并增加所述标准图像的感受野,得到第一输出特征图,其中所述图像检测模型是基于深度卷积神经网络构建的;
通过深度可逆卷积层对所述第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对所述第二输出特征图进行可逆下采样,生成第三输出特征图,将所述第二输出特征图和所述第三输出特征图合并得到综合特征图;
对所述综合特征图应用激活函数,得到高维特征图,根据所述高维特征图,通过池化层和全连接层确定所述高维特征图中的遮挡区域,生成遮挡特征图。
2.根据权利要求1所述的方法,其特征在于,所述获取原始图像,将所述原始图像添加至预设的图像检测模型中,在所述图像检测模型中,通过输入层对所述原始图像进行维度修正,得到标准图像,通过第一深度卷积层和扩张卷积层提取所述标准图像的低级别特征并增加所述标准图像的感受野,得到第一输出特征图包括:
获取原始图像,将所述原始图像作为预设的图像检测模型的输入,所述图像检测模型中的输入层接收所述原始图像,通过双线性插值方法修改所述原始图像的横纵比并进行归一化变换对所述原始图像进行维度修正,得到标准图像;
将所述标准图像添加至所述第一深度卷积层中,将所述标准图像中的局部区域与所述第一深度卷积层中的每个滤波器进行点乘求和,得到检测特征图,基于所述检测特征图中的颜色变化,获取图像中的低级别特征,即边缘特征和纹理特征;
扩张卷积层获取所述检测特征图和所述低级别特征,确定所述扩张卷积层的扩张率,根据所述扩张率确定所述扩张卷积层中扩张卷积核的相对位置,通过增加所述扩张卷积核的步幅并增加所述标准图像的感受野,并对所述检测特征图应用所述扩张卷积核,将所述扩张卷积核与所述检测特征图中的全部位置进行逐元素相乘并求和,得到所述第一输出特征图。
3.根据权利要求1所述的方法,其特征在于,所述通过深度可逆卷积层对所述第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对所述第二输出特征图进行可逆下采样,生成第三输出特征图,将所述第二输出特征图和所述第三输出特征图合并得到综合特征图包括:
获取所述第一输出特征图并确定对应的第一特征通道数量,选择所述深度可逆卷积层中第二深度卷积层对应的第二深度卷积核的大小,并根据所述第二深度卷积核对每个第一特征通道进行独立卷积,生成中间特征图;
选择逐点卷积层对应的逐点卷积核大小,将所述逐点卷积核的每个元素与所述中间特征图中对应通道的像素相乘并求和,得到所述第二输出特征图;
获取所述第二输出特征图,选择下采样因子,根据所述下采样因子对所述第二输出特征图进行复制,保留通过复制得到的特征图,以所述下采样因子为边长,通过在所述第二输出特征图的对应区域上取平均值进行下采样,得到所述第三输出特征图,将所述第三输出特征图与所述第二输出特征图通过拼接进行合并,得到综合特征图。
4.根据权利要求1所述的方法,其特征在于,所述对所述综合特征图应用激活函数,得到高维特征图,根据所述高维特征图,通过池化层和全连接层确定所述高维特征图中的遮挡区域,生成遮挡特征图包括:
对所述综合特征图应用激活函数,通过引入非线性性质获取高维特征,生成高维特征图,将所述高维特征图输入至所述池化层,通过池化窗口选择所述高维特征图在每个窗口区域内的最大值,输出至所述全连接层并展平为一维向量,根据所述一维向量进行密度估计,得到估计密度值,将所述估计密度值与预设的密度阈值进行比较,若所述估计密度值大于预设的密度阈值,则认为该一维向量在原始图像中对应的区域存在遮挡,根据所述一维向量确定所述遮挡区域并在所述第三输出特征图中划分遮挡区域对应的遮挡特征图。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括训练所述图像检测模型:
生成训练集,初始化所述图像检测模型,调整所述图像检测模型中的权重和偏差,选择初始学习率并定义损失函数;
根据需求选择优化器,通过所述优化器使所述损失函数最小化,将所述训练集中的训练数据添加至所述图像检测模型中,通过前向传播得到预测输出,根据所述损失函数计算所述预测输出与真实标签间的损失值,通过反向传播计算所述损失值对于所述图像检测模型中的参数对应的梯度值;
根据所述梯度值,通过所述优化器对所述图像检测模型中的参数进行更新,减小所述损失函数的损失值,重复迭代,直至达到预设的迭代次数或所述损失函数的损失值不再减小。
6.根据权利要求5所述的方法,其特征在于,所述通过所述优化器对所述图像检测模型中的参数进行更新如下公式所示:
;
其中,θ t 表示第t轮迭代后的参数,θ t-1 表示第t-1轮迭代后的参数,μ表示动量系数,v t-1 表示第t-1轮迭代的动量,η表示学习率,▽L()表示损失函数L关于参数θ t-1 的梯度。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括基于所述遮挡特征图,在所述原始图像中对所述遮挡区域进行分割:
获取所述遮挡特征图并添加至预先选择的编码器中,通过特征融合模块对所述遮挡特征图中的特征点进行通道融合和空间融合,并通过所述编码器提取所述遮挡特征图对应的全局特征和局部特征;
根据所述全局特征和所述局部特征,自适应模块根据依赖空间和通道对应的双注意力机制生成多个卷积内核,将所述多个卷积内核线性聚合生成自适应内核,通过所述自适应内核提取所述全局特征和所述局部特征内的有效特征;
在所述解码器的每个解码层中,对所述有效特征进行特征映射,得到特征映射结果,将每个解码层对应的特征映射结果融合,得到特征融合结果,基于所述特征融合结果确定所述遮挡区域在所述原始图像中的遮挡边界,基于所述遮挡边界,对所述遮挡区域进行分割。
8.基于深度学习的监控视频图像遮挡检测系统,用于实现前述权利要求1-7中任一项所述的方法,其特征在于,包括:
第一单元,用于获取原始图像,将所述原始图像添加至预设的图像检测模型中,在所述图像检测模型中,通过输入层对所述原始图像进行维度修正,得到标准图像,通过第一深度卷积层和扩张卷积层提取所述标准图像的低级别特征并增加所述标准图像的感受野,得到第一输出特征图,其中所述图像检测模型是基于深度卷积神经网络构建的;
第二单元,用于通过深度可逆卷积层对所述第一输出特征图进行深度卷积和逐点卷积,得到第二输出特征图,对所述第二输出特征图进行可逆下采样,生成第三输出特征图,将所述第二输出特征图和所述第三输出特征图合并得到综合特征图;
第三单元,用于对所述综合特征图应用激活函数,得到高维特征图,根据所述高维特征图,通过池化层和全连接层确定所述高维特征图中的遮挡区域,生成遮挡特征图。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311812049.2A CN117475357B (zh) | 2023-12-27 | 2023-12-27 | 基于深度学习的监控视频图像遮挡检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311812049.2A CN117475357B (zh) | 2023-12-27 | 2023-12-27 | 基于深度学习的监控视频图像遮挡检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117475357A true CN117475357A (zh) | 2024-01-30 |
CN117475357B CN117475357B (zh) | 2024-03-26 |
Family
ID=89638207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311812049.2A Active CN117475357B (zh) | 2023-12-27 | 2023-12-27 | 基于深度学习的监控视频图像遮挡检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117475357B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345760A (zh) * | 2013-07-29 | 2013-10-09 | 常熟理工学院 | 一种医学图像对象形状模板标记点的自动生成方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
US20190124045A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Density estimation network for unsupervised anomaly detection |
CN112419292A (zh) * | 2020-11-30 | 2021-02-26 | 深圳云天励飞技术股份有限公司 | 病理图像的处理方法、装置、电子设备及存储介质 |
CN112949565A (zh) * | 2021-03-25 | 2021-06-11 | 重庆邮电大学 | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 |
CN113536965A (zh) * | 2021-06-25 | 2021-10-22 | 深圳数联天下智能科技有限公司 | 一种训练脸部遮挡识别模型的方法及相关装置 |
WO2023050258A1 (en) * | 2021-09-30 | 2023-04-06 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Robust and efficient blind super-resolution using variational kernel autoencoder |
CN116188790A (zh) * | 2022-12-29 | 2023-05-30 | 中国电信股份有限公司 | 摄像头遮挡检测方法、装置、存储介质及电子设备 |
US20230206603A1 (en) * | 2022-09-19 | 2023-06-29 | Nanjing University Of Posts And Telecommunications | High-precision point cloud completion method based on deep learning and device thereof |
CN116681724A (zh) * | 2023-04-11 | 2023-09-01 | 安徽理工大学 | 基于YOLOv5-Deepsort算法的矿井人员目标视频跟踪方法及存储介质 |
CN116805318A (zh) * | 2023-06-14 | 2023-09-26 | 陕西科技大学 | 一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法 |
CN116912588A (zh) * | 2023-07-26 | 2023-10-20 | 河南大学 | 编码-解码下融合非局部注意力机制的农业大棚识别方法 |
CN117274756A (zh) * | 2023-08-30 | 2023-12-22 | 国网山东省电力公司电力科学研究院 | 基于多维特征配准的二维图像与点云的融合方法及装置 |
-
2023
- 2023-12-27 CN CN202311812049.2A patent/CN117475357B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103345760A (zh) * | 2013-07-29 | 2013-10-09 | 常熟理工学院 | 一种医学图像对象形状模板标记点的自动生成方法 |
US20190124045A1 (en) * | 2017-10-24 | 2019-04-25 | Nec Laboratories America, Inc. | Density estimation network for unsupervised anomaly detection |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN112419292A (zh) * | 2020-11-30 | 2021-02-26 | 深圳云天励飞技术股份有限公司 | 病理图像的处理方法、装置、电子设备及存储介质 |
CN112949565A (zh) * | 2021-03-25 | 2021-06-11 | 重庆邮电大学 | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 |
CN113536965A (zh) * | 2021-06-25 | 2021-10-22 | 深圳数联天下智能科技有限公司 | 一种训练脸部遮挡识别模型的方法及相关装置 |
WO2023050258A1 (en) * | 2021-09-30 | 2023-04-06 | Baidu.Com Times Technology (Beijing) Co., Ltd. | Robust and efficient blind super-resolution using variational kernel autoencoder |
US20230206603A1 (en) * | 2022-09-19 | 2023-06-29 | Nanjing University Of Posts And Telecommunications | High-precision point cloud completion method based on deep learning and device thereof |
CN116188790A (zh) * | 2022-12-29 | 2023-05-30 | 中国电信股份有限公司 | 摄像头遮挡检测方法、装置、存储介质及电子设备 |
CN116681724A (zh) * | 2023-04-11 | 2023-09-01 | 安徽理工大学 | 基于YOLOv5-Deepsort算法的矿井人员目标视频跟踪方法及存储介质 |
CN116805318A (zh) * | 2023-06-14 | 2023-09-26 | 陕西科技大学 | 一种基于动态可变形卷积与滑窗自适应互补注意力机制的医学图像分割方法 |
CN116912588A (zh) * | 2023-07-26 | 2023-10-20 | 河南大学 | 编码-解码下融合非局部注意力机制的农业大棚识别方法 |
CN117274756A (zh) * | 2023-08-30 | 2023-12-22 | 国网山东省电力公司电力科学研究院 | 基于多维特征配准的二维图像与点云的融合方法及装置 |
Non-Patent Citations (5)
Title |
---|
YAQING HOU等: "Adaptive kernel selection network with attention constraint for surgical instrument classification", NEURAL COMPUTING AND APPLICATIONS, vol. 2022, no. 34, 13 September 2021 (2021-09-13), pages 1577 * |
徐爱生;唐丽娟;陈冠楠;: "注意力残差网络的单图像去雨方法研究", 小型微型计算机系统, no. 06, 29 May 2020 (2020-05-29) * |
李晓艳等: "基于双注意力机制的多分支孪生网络目标跟踪", 浙江大学学报(工学版), vol. 57, no. 7, 31 July 2023 (2023-07-31), pages 1307 - 1316 * |
欧阳城添;汤懿;王曦;: "结合注意力机制的核相关滤波目标跟踪", 光电子・激光, no. 04, 15 April 2019 (2019-04-15) * |
郭军等: "人工智能导论", vol. 2021, 31 October 2021, 北京邮电大学出版社, pages: 67 - 68 * |
Also Published As
Publication number | Publication date |
---|---|
CN117475357B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256562B (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN110189255B (zh) | 基于两级检测的人脸检测方法 | |
CN109190581B (zh) | 图像序列目标检测识别方法 | |
CN109993712B (zh) | 图像处理模型的训练方法、图像处理方法及相关设备 | |
CN112800876B (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
EP3438929B1 (en) | Foreground and background detection method | |
KR101308347B1 (ko) | 상관관계를 이용한 가려진 얼굴 영상 검출 및 복원 방법 | |
US10706558B2 (en) | Foreground and background detection method | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN109377499B (zh) | 一种像素级物体分割方法及装置 | |
CN111738054A (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
CN111402237A (zh) | 基于时空级联自编码器的视频图像异常检测方法及系统 | |
Rajevenceltha et al. | An efficient approach for no-reference image quality assessment based on statistical texture and structural features | |
CN115661860A (zh) | 一种狗行为动作识别技术的方法、装置、系统及存储介质 | |
CN112802076A (zh) | 反射图像生成模型及反射去除模型的训练方法 | |
CN111339808A (zh) | 车辆碰撞概率预测方法、装置、电子设备及存储介质 | |
CN110751670A (zh) | 一种基于融合的目标跟踪方法 | |
CN117197438A (zh) | 一种基于视觉显著性的目标检测方法 | |
CN112801890A (zh) | 一种视频处理方法、装置及设备 | |
CN117475357B (zh) | 基于深度学习的监控视频图像遮挡检测方法及系统 | |
Soumya et al. | Self-organized night video enhancement for surveillance systems | |
CN116258877A (zh) | 土地利用场景相似度变化检测方法、装置、介质及设备 | |
CN116385281A (zh) | 一种基于真实噪声模型与生成对抗网络的遥感图像去噪方法 | |
CN113255549B (zh) | 一种狼群围猎行为状态智能识别方法及系统 | |
CN115661803A (zh) | 图像清晰度检测方法、电子设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |