CN115272957A - 一种基于特征交互的人群计数方法 - Google Patents
一种基于特征交互的人群计数方法 Download PDFInfo
- Publication number
- CN115272957A CN115272957A CN202210805244.1A CN202210805244A CN115272957A CN 115272957 A CN115272957 A CN 115272957A CN 202210805244 A CN202210805244 A CN 202210805244A CN 115272957 A CN115272957 A CN 115272957A
- Authority
- CN
- China
- Prior art keywords
- feature map
- scale
- feature
- layer
- semantic feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征交互的人群计数方法,属于图像处理技术领域,包括以下步骤:将原始图像输入深度神经网络模型中进行特征提取;将三层语义特征图送入语义交互结构;将融合后的三层语义特征图分别输入多尺度注意力模块;将高层语义特征图对应的尺度感知信息特征进行上采样和通道调整并与中层语义特征图对应的尺度感知信息特征进行融合;将融合后的特征进行上采样和通道调整并与低层语义特征图对应的尺度感知信息特征进行融合;将用于人群密度估计的主要特征图输入深度神经网络模型后端网络,得到人群密度估计图和人群计数结果。本发明能够有效提高人群密度估计的准确率。
Description
技术领域
本发明涉及图像处理技术领域,尤其是一种基于特征交互的人群计数方法。
背景技术
人群计数是计算机视觉和智能监控领域的重要研究内容,其目的是为了估计图像或视频场景中的人数。它在安全监测、交通管理、城市规划等领域有着广泛应用。例如:在疫情期间,控制人群密度可以降低出现聚集性传播的概率;在景区、体育场和广场等人群高度聚集的区域,通过发出预警信息可以防止出现踩踏事故等。近年来,基于卷积神经网络的人群计数方法已经成为人群计数的主流方法,其基本思想是使用卷积神经网络生成估计密度图,给每个像素赋予密度值,密度图的密度值总和记为场景中的总人数。
目前,由于拍摄距离和角度差异导致的尺度变化问题严重影响了计数结果的准确性。在同一人群图像内部或不同图像之间都会有剧烈的尺度变化,这种剧烈的尺度变化给基于卷积神经网络的人群密度预测带来巨大挑战。为了应对上述问题,发明人在发明专利“一种基于密度估计的人群计数方法及系统”(CN113538402B)中提出了一种基于密度估计的人群计数方法和系统,融合多层语义信息和多尺度信息,实现了较好的计数结果。
然而,基于密度估计的人群计数方法和系统存在以下问题:
1、仅将多层语义信息和多尺度信息进行简单的融合,结构简单,没有考虑到网络规模的限制性,这使得该方法的提取的语义信息和尺度信息并不充分。
2、在应对特征相似性问题上,该方法使用的注意力机制过于简单,没有考虑到跨维度信息的重要性,影响了计数的性能。
为了解决基于密度估计人群计数方法和系统的上述问题,需要对本发明人提出的基于密度估计人群计数方法和系统进行进一步的优化。
发明内容
本发明需要解决的技术问题是提供一种基于特征交互的人群计数方法,能够有效解决人群计数任务中的尺度变化问题,有助于生成高质量的人群密度图,提升多列网络的计数性能,具有较高的准确性和较好的鲁棒性,有效提高人群密度估计的准确率。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于特征交互的人群计数方法,包括以下步骤:
将原始图像输入深度神经网络模型中进行特征提取,得到三层语义特征图,所述三层语义特征图包括低层语义特征图、中层语义特征图和高层语义特征图;
将三层语义特征图送入语义交互结构,得到对应融合后的三层语义特征图;
将融合后的三层语义特征图分别输入多尺度注意力模块,得到对应语义特征图的尺度感知信息特征;
将高层语义特征图对应的尺度感知信息特征进行上采样和通道调整并与中层语义特征图对应的尺度感知信息特征进行融合;
将融合后的特征进行上采样和通道调整并与低层语义特征图对应的尺度感知信息特征进行融合,得到用于人群密度估计的主要特征图;
将用于人群密度估计的主要特征图输入深度神经网络模型后端网络,得到人群密度估计图和人群计数结果。
本发明技术方案的进一步改进在于:将原始图像输入深度神经网络模型中进行特征提取,得到三层语义特征图,包括以下步骤:
将所述原始图像输入深度神经网络模型中,深度神经网络模型包括依次连接的两个卷积层、一个池化层、两个卷积层、一个池化层、三个卷积层和一个池化层,得到低层语义特征图;每个卷积层生成的特征图的通道数由输入至输出方向依次为64、64、128、128、256、256和256;卷积层的卷积核尺寸均为3*3;池化层的步长均为2;
将所述低层语义特征图继续输入所述深度神经网络模型中,依次经过三个卷积层和一个池化层,得到中层语义特征图;每个卷积层生成的特征图的通道数都是512;卷积层的卷积核尺寸均为3*3;池化层的步长为2;
将所述中层语义特征图继续输入所述深度神经网络模型中,经过三个卷积层,得到高层语义特征图;每个卷积层生成的特征图的通道数都是512;卷积层的卷积核尺寸均为3*3。
本发明技术方案的进一步改进在于:将三层语义特征图送入语义交互结构,包括以下步骤:
将所述高层语义特征图送入所述语义交互结构,得到高层语义特征图对应融合后的语义特征图;
将所述中层语义特征图送入所述语义交互结构,与所述高层语义特征图对应融合后的语义特征图进行交互,得到中层语义特征图对应融合后的语义特征图;
将所述低层语义特征图送入所述语义交互结构,与所述中层语义特征图对应融合后的语义特征图进行交互,得到低层语义特征图对应融合后的语义特征图。
本发明技术方案的进一步改进在于:所述语义交互结构,包括:
将高层语义特征图使用双线性插值进行上采样;
将所述高层语义特征图上采样的结果与中层语义特征图进行通道上的连接,得到中层语义特征图对应的中间特征;
将所述中间特征经过两个3*3卷积进行特征融合,得到中层语义特征图融合后的语义特征图。
得到中层语义特征图融合后的语义特征图使用双线性插值进行上采样;
将所述中层语义特征图上采样的结果与低层语义特征图进行通道上的连接,得到低层语义特征图对应的中间特征;
将所述中间特征经过两个3*3卷积进行特征融合,得到低层语义特征图融合后的语义特征图。
本发明技术方案的进一步改进在于:所述多尺度注意力模块包括4个具有不同感受野的分支、一个将4个分支结果在通道维度进行连接的操作、一个卷积层、一个额外的全局通道注意力机制和一个按元素相乘操作;每个分支依次包含一个卷积层、一个膨胀卷积层、多尺度交互结构和全局空间注意力机制;
所述全局通道注意力机制,包括:
将输入特征图进行通道、高度和宽度3个维度上的维度转置及平铺操作,得到维度转置及平铺操作后的特征图;
将所述维度转置及平铺操作后的特征图使用线性变换将特征图的通道维度降为原来的1/4,并使用ReLU激活函数进行非线性变换,再使用线性变换将通道维度变为与原特征图相同,来放大跨维度特征对通道维度的依赖性,得到经多层感知机处理后的特征图;
将所述经多层感知机处理后的特征图进行通道、高度和宽度3个维度上的维度转置及重塑操作,得到维度转置及重塑操作后的特征图;
将所述维度转置及重塑操作后的特征图进行Sigmoid函数变换,并与所述原始输入特征图进行逐元素乘法操作,得到输出特征图;
所述多尺度交互结构,包括:
将小感受野特征图交互后的结果与大感受野特征图进行通道上的连接,得到中间特征;
将所述中间特征使用一个3*3卷积进行特征融合后,得到融合后的多尺度交互特征图;
所述全局空间注意力机制,包括:
将输入特征图经过卷积核尺寸为3*3、膨胀率与分支内部用于提取多尺度特征的膨胀卷积的膨胀率相同的膨胀卷积层,得到通道数缩减为原来的1/4的特征图;
将所述通道数缩减为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率与分支内部用于提取多尺度特征的膨胀卷积的膨胀率相同的膨胀卷积层,得到通道数与原始输入特征图相同的特征图;
将所述通道数与原始输入特征图相同的特征图进行Sigmoid函数变换,并与所述原始输入特征图进行逐元素乘法操作,得到输出特征图;
所述分支包括第一分支、第二分支、第三分支和第四分支;
所述特征图经过第一分支,包括:
将所述特征图经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图;
将所述通道数减少为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率为1的膨胀卷积层,得到感受野为3*3的尺度特征图;
将所述感受野为3*3的尺度特征图送入多尺度交互结构,得到多尺度交互后的特征图;
将所述多尺度交互后的特征图送入全局空间注意力机制,得到赋予全新特征权重的特征图;
将所述特征图经过第二分支,包括:
将所述特征图经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图;
将所述通道数减少为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率为2的膨胀卷积层,得到感受野为7*7的尺度特征图;
将所述感受野为7*7的尺度特征图送入多尺度交互结构,得到多尺度交互后的特征图;
将所述多尺度交互后的特征图送入全局空间注意力机制,得到赋予全新特征权重的特征图;
将所述特征图经过第三分支,包括:
将所述特征图经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图;
将所述通道数减少为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率为3的膨胀卷积层,得到感受野为11*11的尺度特征图;
将所述感受野为11*11的尺度特征图送入多尺度交互结构,得到多尺度交互后的特征图;
将所述多尺度交互后的特征图送入全局空间注意力机制,得到赋予全新特征权重的特征图;
将所述特征图经过第四分支,包括:
将所述特征图经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图;
将所述通道数减少为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率为4的膨胀卷积层,得到感受野为15*15的尺度特征图;
将所述感受野为15*15的尺度特征图送入多尺度交互结构,得到多尺度交互后的特征图;
将所述多尺度交互后的特征图送入全局空间注意力机制,得到赋予全新特征权重的特征图。
本发明技术方案的进一步改进在于:将融合后的三层语义特征图分别输入多尺度注意力模块,得到对应语义特征图的尺度感知信息特征,包括以下步骤:
将所述融合后的低层语义特征图输入所述多尺度注意力模块的四个分支中,得到四个尺度的低层语义特征图;
将所述的四个尺度的低层语义特征图进行通道上的连接,并使用一个3*3的卷积进行特征融合后与全局通道注意力机制得到的特征信息相乘,得到低层语义特征图对应的尺度感知信息特征;
将所述融合后的中层语义特征图输入所述多尺度注意力模块的四个分支中,得到四个尺度的中层语义特征图;
将所述的四个尺度的中层语义特征图进行通道上的连接,并使用一个3*3的卷积进行特征融合后与全局通道注意力机制得到的特征信息相乘,得到中层语义特征图对应的尺度感知信息特征;
将所述融合后的高层语义特征图输入所述多尺度注意力模块的四个分支中,得到四个尺度的高层语义特征图;
将所述的四个尺度的高层语义特征图进行通道上的连接,并使用一个3*3的卷积进行特征融合后与全局通道注意力机制得到的特征信息相乘,得到高层语义特征图对应的尺度感知信息特征。
本发明技术方案的进一步改进在于:将高层语义特征图对应的尺度感知信息特征进行上采样和通道调整并与中层语义特征图对应的尺度感知信息特征进行融合,包括以下步骤:
将高层语义特征图对应的尺度感知信息特征使用双线性插值的方法进行上采样操作,并使用一个1*1的卷积调整通道,得到第一特征图;
将所述第一特征图与所述中层语义特征图对应的尺度感知信息特征进行按元素相加操作,得到融合后的特征。
本发明技术方案的进一步改进在于:将融合后的特征进行上采样和通道调整并与低层语义特征图对应的尺度感知信息特征进行融合,得到用于人群密度估计的主要特征图,包括以下步骤:
对融合后的特征使用双线性插值的方法进行上采样操作,并使用一个1*1的卷积调整通道,得到第二特征图;
将所述第二特征图与所述低层语义特征图对应的尺度感知信息特征进行按元素相加操作,得到用于人群密度估计的主要特征图。
本发明技术方案的进一步改进在于:将用于人群密度估计的主要特征图输入深度神经网络模型后端网络,得到人群密度估计图和人群计数结果,包括以下步骤:
将所述用于人群密度估计的主要特征图输入两个卷积层,得到人群密度估计图和人群计数结果;每个卷积层生成的特征图的通道数由输入至输出方向依次为64和1;两个卷积层的卷积尺寸均为3*3。
由于采用了上述技术方案,本发明取得的技术进步是:
1、本发明通过多尺度注意力模块提取丰富的多尺度信息,即利用交互结构和注意力机制提升了提取多尺度信息的能力和对有价值信息的敏感度,克服了传统多列网络中的规模限制及特征相似性问题。
2、本发明通过语义信息融合模块对主干网络的不同层次的语义信息进行交互和融合,提供更为丰富的细节特征,增强网络的特征聚合能力,提升了对主干网络的利用效率。
附图说明
图1是本发明基于特征交互的人群计数方法的流程示意图;
图2是本发明深度神经网络模型的整体结构示意图;
图3是采用本发明基于特征交互的人群计数方法进行人群密度估计的示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步详细说明:
如图1所示,所述基于特征交互的人群计数方法包括以下步骤:
步骤100:将原始图像输入深度神经网络模型中进行特征提取,得到低层、中层、高层语义特征图。此过程中涉及十三个卷积层和四个最大池化层。具体的,首先经过七个卷积层和三个最大池化层,依次为:两个卷积层、一个池化层、两个卷积层、一个池化层、三个卷积层和一个池化层;其中卷积层的卷积尺寸均为3*3,生成特征图通道数依次为:64、64、128、128、256、256和256;三个池化层步长均为2。所述生成的低层特征图继续输入深度神经网络模型中,具体的,包括三个卷积层和一个最大池化层,依次为:三个卷积层、一个池化层;其中卷积层的卷积尺寸均为3*3,生成特征图通道数依次为:512、512和512;池化层步长为2。所述生成的中层特征图继续输入深度神经网络模型中,具体的,包括三个卷积层;其中卷积层的卷积尺寸均为3*3,生成特征图通道数依次为:512、512和512;池化层步长为2。最终得到低层、中层和高层语义特征图。
步骤200:将低层、中层和高层语义特征图送入语义交互结构,得到对应融合后的语义特征图。具体的,将所述高层语义特征图送入所述语义交互结构,得到高层语义特征图对应融合后的语义特征图;将所述中层语义特征图送入所述语义交互结构,与所述高层语义特征图对应融合后的语义特征图进行交互,得到中层语义特征图对应融合后的语义特征图;将所述低层语义特征图送入所述语义交互结构,与所述中层语义特征图对应融合后的语义特征图进行交互,得到低层语义特征图对应融合后的语义特征图。
下面对语义交互结构进行具体说明:
语义交互结构将高层语义特征图使用双线性插值进行上采样,然后将上采样的结果与低层语义特征图进行通道上的连接,得到中间特征,并经过两个3*3卷积进行特征融合,得到融合后的语义特征图。
步骤300:将融合后的三层语义特征图分别输入多尺度注意力模块,得到对应语义特征图的尺度感知信息特征。多尺度注意力模块包括4个具有不同感受野的分支,依次为第一分支、第二分支、第三分支和第四分支,每个分支都可以感知不同尺度的信息。然后将4个分支的结果进行通道上的连接,并使用一个3*3的卷积进行特征融合后与全局通道注意力机制得到的特征信息相乘,得到对应语义特征图的尺度感知信息特征。
下面对全局通道注意力机制进行具体说明:
先对输入特征图进行通道、高度和宽度3个维度上的维度转置及平铺操作,得到维度转置及平铺操作后的特征图;然后使用线性变换将特征图的通道维度降为原来的1/4,并使用ReLU激活函数进行非线性变换,再使用线性变换将通道维度变为与原特征图相同,来放大跨维度特征对通道维度的依赖性,得到经多层感知机处理后的特征图;然后进行通道、高度和宽度3个维度上的维度转置及重塑操作,得到维度转置及重塑操作后的特征图,再进行Sigmoid函数变换,并与所述原始输入特征图进行逐元素乘法操作,得到输出特征图。
下面对多尺度交互结构进行具体说明:
先将小感受野特征图交互后的结果与大感受野特征图进行通道上的连接,得到中间特征;然后将中间特征使用一个3*3卷积进行特征融合后,得到融合后的多尺度交互特征图。
下面对全局空间注意力机制进行具体说明:
先将输入特征图经过卷积核尺寸为3*3、膨胀率与分支内部用于提取多尺度特征的膨胀卷积的膨胀率相同的膨胀卷积层,得到通道数缩减为原来的1/4的特征图,然后经过卷积核尺寸为3*3、膨胀率与分支内部用于提取多尺度特征的膨胀卷积的膨胀率相同的膨胀卷积层,得到通道数与原始输入特征图相同的特征图,然后进行Sigmoid函数变换,并与所述原始输入特征图进行逐元素乘法操作,得到输出特征图。
下面对每个分支的结构进行具体说明:
第一分支依次包含一个卷积层,一个膨胀卷积层,多尺度交互结构和全局空间注意力机制。先经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图,然后经过卷积核尺寸为3*3、膨胀率为1的膨胀卷积层,得到感受野为3*3的尺度特征图,然后送入多尺度交互结构,得到多尺度交互后的特征图,然后送入全局空间注意力机制,得到赋予全新特征权重的特征图。
第二分支依次包含一个卷积层,一个膨胀卷积层,多尺度交互结构和全局空间注意力机制。先经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图,然后经过卷积核尺寸为3*3、膨胀率为2的膨胀卷积层,得到感受野为7*7的尺度特征图,然后送入多尺度交互结构,得到多尺度交互后的特征图,然后送入全局空间注意力机制,得到赋予全新特征权重的特征图。
第三分支依次包含一个卷积层,一个膨胀卷积层,多尺度交互结构和全局空间注意力机制。先经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图,然后经过卷积核尺寸为3*3、膨胀率为3的膨胀卷积层,得到感受野为11*11的尺度特征图,然后送入多尺度交互结构,得到多尺度交互后的特征图,然后送入全局空间注意力机制,得到赋予全新特征权重的特征图。
第四分支依次包含一个卷积层,一个膨胀卷积层,多尺度交互结构和全局空间注意力机制。先经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图,然后经过卷积核尺寸为3*3、膨胀率为4的膨胀卷积层,得到感受野为15*15的尺度特征图,然后送入多尺度交互结构,得到多尺度交互后的特征图,然后送入全局空间注意力机制,得到赋予全新特征权重的特征图。
步骤400:对所述高层语义特征图对应的尺度感知信息特征使用双线性插值的方法进行上采样操作,并使用一个1*1的卷积调整通道,然后与所述中层语义特征图对应的尺度感知信息特征进行按元素相加操作,得到融合后的特征。
步骤500:对融合后的特征使用双线性插值的方法进行上采样操作,并使用一个1*1的卷积调整通道,然后与所述低层语义特征图对应的尺度感知信息特征进行按元素相加操作,得到用于人群密度估计的主要特征图。
步骤600:将得到的用于人群密度估计的主要特征图输入深度神经网络模型后端网络,得到待估计图像对应的人群密度估计图和人群计数结果。所述后端网络包含两个卷积层,每个卷积层生成的特征图的通道数由输入至输出方向依次为64和1,两个卷积层的卷积尺寸均为3*3。将所述用于人群密度估计的主要特征图输入所述深度神经网络模型后端网络,依次经过两个卷积层后,得到人群密度估计图和人群计数结果。
实施例
下面结合本发明的具体实施例来进一步说明本发明的方案。
步骤1:建立用于人群计数的深度神经网络模型,整体结构如图2所示,包括以下步骤:
1.1)建立前端网络模块,任意输入图像样本x,获得低层、中层和高层语义特征图,这一阶段包含十三次卷积操作和四次最大池化操作,依次为两个卷积层、一个池化层、两个卷积层、一个池化层、三个卷积层、一个池化层、三个卷积层、一个池化层和三个卷积层,卷积层的卷积核尺寸均为3*3,池化层步长均为2,卷积层生成特征图的通道数分别为64、64、128、128、256、256、256、512、512、512、512、512和512。经过第三次池化操作后得到低层语义特征图,经过第四次池化操作后得到中层语义特征图,经过第十三次卷积操作后得到高层语义特征图。
1.2)建立语义信息融合模块:
1.2.1)建立语义交互结构,接收1.1)低层、中层和高层语义特征图作为输入,经过语义交互,获得对应融合后的语义特征图,这一阶段可分为三个过程。首先,输入的高层语义特征图就作为高层语义特征图对应融合后的语义特征图;其次,输入的中层语义特征图与经过上采样操作的高层语义特征图对应融合后的语义特征图进行通道上的连接操作,并经过两个卷积核尺寸为3*3的卷积层,得到中层语义特征图对应融合后的语义特征图;最后,输入的低层语义特征图与经过上采样操作的中层语义特征图对应融合后的语义特征图进行通道上的连接操作,并经过两个卷积核尺寸为3*3的卷积层,得到低层语义特征图对应融合后的语义特征图。
1.2.2)建立多尺度注意力模块,分别接收1.2.1)融合后的三层语义特征图作为输入,进行尺度信息的提取,获得对应语义特征图的尺度感知信息特征,这一阶段包括4个具有不同感受野的分支、一个通道连接操作、一个3*3卷积和一个按元素相乘操作。4个具有不同感受野的分支都先通过一个1*1卷积将特征图的通道数减少为原来的1/4,再分别经过膨胀率对应为1、2、3和4的膨胀卷积层,卷积核尺寸都为3*3,然后将得到的感受野分别为3*3、7*7、11*11和15*15的尺度特征图送入多尺度交互结构。多尺度交互结构中输入的感受野为3*3的尺度特征图就作为感受野为3*3对应的多尺度交互特征图;输入的感受野为7*7的尺度特征图与感受野为3*3对应的多尺度交互特征图进行通道上的连接,得到中间特征,将中间特征使用一个3*3卷积进行特征融合后,得到感受野为7*7对应的多尺度交互特征图;输入的感受野为11*11的尺度特征图与感受野为7*7对应的多尺度交互特征图进行通道上的连接,得到中间特征,将中间特征使用一个3*3卷积进行特征融合后,得到感受野为11*11对应的多尺度交互特征图;输入的感受野为15*15的尺度特征图与感受野为11*11对应的多尺度交互特征图进行通道上的连接,得到中间特征,将中间特征使用一个3*3卷积进行特征融合后,得到感受野为15*15对应的多尺度交互特征图。将四个不同感受野对应的多尺度交互特征图都通过全局空间注意力机制进行处理。全局空间注意力机制中输入的感受野为3*3对应的多尺度交互特征图经过卷积核尺寸为3*3、膨胀率为1的膨胀卷积层将通道数缩减为原来的1/4,再经过卷积核尺寸为3*3、膨胀率为1的膨胀卷积层将通道数调整为与原特征图相同,然后进行Sigmoid函数变换,并与原特征图进行逐元素乘法操作;输入的感受野为7*7对应的多尺度交互特征图经过卷积核尺寸为3*3、膨胀率为2的膨胀卷积层将通道数缩减为原来的1/4,再经过卷积核尺寸为3*3、膨胀率为2的膨胀卷积层将通道数调整为与原特征图相同,然后进行Sigmoid函数变换,并与原特征图进行逐元素乘法操作;输入的感受野为11*11对应的多尺度交互特征图经过卷积核尺寸为3*3、膨胀率为3的膨胀卷积层将通道数缩减为原来的1/4,再经过卷积核尺寸为3*3、膨胀率为3的膨胀卷积层将通道数调整为与原特征图相同,然后进行Sigmoid函数变换,并与原特征图进行逐元素乘法操作;输入的感受野为15*15对应的多尺度交互特征图经过卷积核尺寸为3*3、膨胀率为4的膨胀卷积层将通道数缩减为原来的1/4,再经过卷积核尺寸为3*3、膨胀率为4的膨胀卷积层将通道数调整为与原特征图相同,然后进行Sigmoid函数变换,并与原特征图进行逐元素乘法操作,每个元素的Sigmoid变换计算公式如下:
将4个分支的结果进行通道上的连接,并使用一个3*3的卷积进行特征融合后与全局通道注意力机制得到的特征信息相乘,得到对应语义特征图的尺度感知信息特征。全局通道注意力机制中接收融合后的语义特征图作为输入,进行通道、高度和宽度3个维度上的维度转置及平铺操作;然后使用线性变换将特征图的通道维度降为原来的1/4,并使用ReLU激活函数进行非线性变换,再使用线性变换将通道维度变为与原特征图相同,得到经多层感知机处理后的特征图;然后进行通道、高度和宽度3个维度上的维度转置及重塑操作,再进行Sigmoid函数变换,并与原输入特征图进行逐元素乘法操作,得到输出的特征信息。
1.2.3)建立特征融合模块,接收1.2.2)三层语义特征图对应的尺度感知信息特征作为输入,进行特征融合,获得用于人群密度估计的主要特征图,这一阶段可分为两个过程。先对高层语义特征图对应的尺度感知信息特征进行上采样操作,并使用一个1*1的卷积将通道调整为256,然后与中层语义特征图对应的尺度感知信息特征进行按元素相加操作,得到融合后的特征;对融合后的特征进行上采样操作,并使用一个1*1的卷积将通道调整为128,然后与低层语义特征图对应的尺度感知信息特征进行按元素相加操作,得到用于人群密度估计的主要特征图。
1.3)建立后端网络模块,接收1.2.3)用于人群密度估计的主要特征图作为输入,获得输入图像样本x对应的人群密度估计图和人群计数结果,这一阶段包含两次卷积操作,卷积核尺寸均为3*3,卷积层生成特征图的通道数分别为64和1,从而获得人群密度估计图和人群计数结果。使用人群密度估计图和真值密度图的欧几里得距离作为损失函数,对每一张单幅图像的人群密度估计图和真值密度图求绝对差值,并对所有图像的绝对差值的总和求平均,得到损失函数的结果,计算公式如下:
在每次得到待估计图像对应的人群密度估计图和人群计数结果之后,根据深度神经网络模型的损失函数确定深度神经网络模型的误差,将所述误差反向传播,调整所述深度神经网络模型的参数,对所述深度神经网络模型进行优化。待学习参数Θ采用Adam优化算法在每一次优化迭代中更新,直到加权和结果L(Θ)收敛到一个较小的值,保存参数及训练后的模型。
使用训练后的深度神经网路模型对任意输入的图像进行人群计数,将任意单张图像直接输入到训练后的模型中,即可得到对应的人群密度估计图和人群计数结果,如图3所示,图3为采用本发明基于特征交互的人群计数方法进行人群计数的示意图。
综上所述,本发明通过多尺度注意力模块提取丰富的多尺度信息,提升了提取多尺度信息的能力和对有价值信息的敏感度,克服了传统多列网络中的规模限制及特征相似性问题;通过语义信息融合模块对主干网络的不同层次的语义信息进行交互和融合,提供更为丰富的细节特征,增强网络的特征聚合能力,提升了对主干网络的利用效率。
Claims (9)
1.一种基于特征交互的人群计数方法,其特征在于:包括以下步骤:
将原始图像输入深度神经网络模型中进行特征提取,得到三层语义特征图,所述三层语义特征图包括低层语义特征图、中层语义特征图和高层语义特征图;
将三层语义特征图送入语义交互结构,得到对应融合后的三层语义特征图;
将融合后的三层语义特征图分别输入多尺度注意力模块,得到对应语义特征图的尺度感知信息特征;
将高层语义特征图对应的尺度感知信息特征进行上采样和通道调整并与中层语义特征图对应的尺度感知信息特征进行融合;
将融合后的特征进行上采样和通道调整并与低层语义特征图对应的尺度感知信息特征进行融合,得到用于人群密度估计的主要特征图;
将用于人群密度估计的主要特征图输入深度神经网络模型后端网络,得到人群密度估计图和人群计数结果。
2.根据权利要求1所述的一种基于特征交互的人群计数方法,其特征在于:将原始图像输入深度神经网络模型中进行特征提取,得到三层语义特征图,包括以下步骤:
将所述原始图像输入深度神经网络模型中,深度神经网络模型包括依次连接的两个卷积层、一个池化层、两个卷积层、一个池化层、三个卷积层和一个池化层,得到低层语义特征图;每个卷积层生成的特征图的通道数由输入至输出方向依次为64、64、128、128、256、256和256;卷积层的卷积核尺寸均为3*3;池化层的步长均为2;
将所述低层语义特征图继续输入所述深度神经网络模型中,依次经过三个卷积层和一个池化层,得到中层语义特征图;每个卷积层生成的特征图的通道数都是512;卷积层的卷积核尺寸均为3*3;池化层的步长为2;
将所述中层语义特征图继续输入所述深度神经网络模型中,经过三个卷积层,得到高层语义特征图;每个卷积层生成的特征图的通道数都是512;卷积层的卷积核尺寸均为3*3。
3.根据权利要求1所述的一种基于特征交互的人群计数方法,其特征在于:将三层语义特征图送入语义交互结构,包括以下步骤:
将所述高层语义特征图送入所述语义交互结构,得到高层语义特征图对应融合后的语义特征图;
将所述中层语义特征图送入所述语义交互结构,与所述高层语义特征图对应融合后的语义特征图进行交互,得到中层语义特征图对应融合后的语义特征图;
将所述低层语义特征图送入所述语义交互结构,与所述中层语义特征图对应融合后的语义特征图进行交互,得到低层语义特征图对应融合后的语义特征图。
4.根据权利要求1或3任一项所述的一种基于特征交互的人群计数方法,其特征在于:所述语义交互结构,包括:
将高层语义特征图使用双线性插值进行上采样;
将所述高层语义特征图上采样的结果与中层语义特征图进行通道上的连接,得到中层语义特征图对应的中间特征;
将所述中间特征经过两个3*3卷积进行特征融合,得到中层语义特征图融合后的语义特征图;
得到中层语义特征图融合后的语义特征图使用双线性插值进行上采样;
将所述中层语义特征图上采样的结果与低层语义特征图进行通道上的连接,得到低层语义特征图对应的中间特征;
将所述中间特征经过两个3*3卷积进行特征融合,得到低层语义特征图融合后的语义特征图。
5.根据权利要求1所述的一种基于特征交互的人群计数方法,其特征在于:所述多尺度注意力模块包括4个具有不同感受野的分支、一个将4个分支结果在通道维度进行连接的操作、一个卷积层、一个额外的全局通道注意力机制和一个按元素相乘操作;每个分支依次包含一个卷积层、一个膨胀卷积层、多尺度交互结构和全局空间注意力机制;
所述全局通道注意力机制,包括:
将输入特征图进行通道、高度和宽度3个维度上的维度转置及平铺操作,得到维度转置及平铺操作后的特征图;
将所述维度转置及平铺操作后的特征图使用线性变换将特征图的通道维度降为原来的1/4,并使用ReLU激活函数进行非线性变换,再使用线性变换将通道维度变为与原特征图相同,来放大跨维度特征对通道维度的依赖性,得到经多层感知机处理后的特征图;
将所述经多层感知机处理后的特征图进行通道、高度和宽度3个维度上的维度转置及重塑操作,得到维度转置及重塑操作后的特征图;
将所述维度转置及重塑操作后的特征图进行𝑆𝑖𝑔𝑚𝑜𝑖d函数变换,并与所述原始输入特征图进行逐元素乘法操作,得到输出特征图;
所述多尺度交互结构,包括:
将小感受野特征图交互后的结果与大感受野特征图进行通道上的连接,得到中间特征;
将所述中间特征使用一个3*3卷积进行特征融合后,得到融合后的多尺度交互特征图;
所述全局空间注意力机制,包括:
将输入特征图经过卷积核尺寸为3*3、膨胀率与分支内部用于提取多尺度特征的膨胀卷积的膨胀率相同的膨胀卷积层,得到通道数缩减为原来的1/4的特征图;
将所述通道数缩减为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率与分支内部用于提取多尺度特征的膨胀卷积的膨胀率相同的膨胀卷积层,得到通道数与原始输入特征图相同的特征图;
将所述通道数与原始输入特征图相同的特征图进行𝑆𝑖𝑔𝑚𝑜𝑖d函数变换,并与所述原始输入特征图进行逐元素乘法操作,得到输出特征图;
所述分支包括第一分支、第二分支、第三分支和第四分支;
所述特征图经过第一分支,包括:
将所述特征图经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图;
将所述通道数减少为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率为1的膨胀卷积层,得到感受野为3*3的尺度特征图;
将所述感受野为3*3的尺度特征图送入多尺度交互结构,得到多尺度交互后的特征图;
将所述多尺度交互后的特征图送入全局空间注意力机制,得到赋予全新特征权重的特征图;
将所述特征图经过第二分支,包括:
将所述特征图经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图;
将所述通道数减少为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率为2的膨胀卷积层,得到感受野为7*7的尺度特征图;
将所述感受野为7*7的尺度特征图送入多尺度交互结构,得到多尺度交互后的特征图;
将所述多尺度交互后的特征图送入全局空间注意力机制,得到赋予全新特征权重的特征图;
将所述特征图经过第三分支,包括:
将所述特征图经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图;
将所述通道数减少为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率为3的膨胀卷积层,得到感受野为11*11的尺度特征图;
将所述感受野为11*11的尺度特征图送入多尺度交互结构,得到多尺度交互后的特征图;
将所述多尺度交互后的特征图送入全局空间注意力机制,得到赋予全新特征权重的特征图;
将所述特征图经过第四分支,包括:
将所述特征图经过卷积核尺寸为1*1的卷积层,得到通道数减少为原来的1/4的特征图;
将所述通道数减少为原来的1/4的特征图经过卷积核尺寸为3*3、膨胀率为4的膨胀卷积层,得到感受野为15*15的尺度特征图;
将所述感受野为15*15的尺度特征图送入多尺度交互结构,得到多尺度交互后的特征图;
将所述多尺度交互后的特征图送入全局空间注意力机制,得到赋予全新特征权重的特征图。
6.根据权利要求5所述的一种基于特征交互的人群计数方法,其特征在于:将融合后的三层语义特征图分别输入多尺度注意力模块,得到对应语义特征图的尺度感知信息特征,包括以下步骤:
将所述融合后的低层语义特征图输入所述多尺度注意力模块的四个分支中,得到四个尺度的低层语义特征图;
将所述的四个尺度的低层语义特征图进行通道上的连接,并使用一个3*3的卷积进行特征融合后与全局通道注意力机制得到的特征信息相乘,得到低层语义特征图对应的尺度感知信息特征;
将所述融合后的中层语义特征图输入所述多尺度注意力模块的四个分支中,得到四个尺度的中层语义特征图;
将所述的四个尺度的中层语义特征图进行通道上的连接,并使用一个3*3的卷积进行特征融合后与全局通道注意力机制得到的特征信息相乘,得到中层语义特征图对应的尺度感知信息特征;
将所述融合后的高层语义特征图输入所述多尺度注意力模块的四个分支中,得到四个尺度的高层语义特征图;
将所述的四个尺度的高层语义特征图进行通道上的连接,并使用一个3*3的卷积进行特征融合后与全局通道注意力机制得到的特征信息相乘,得到高层语义特征图对应的尺度感知信息特征。
7.根据权利要求1所述的一种基于特征交互的人群计数方法,其特征在于:将高层语义特征图对应的尺度感知信息特征进行上采样和通道调整并与中层语义特征图对应的尺度感知信息特征进行融合,包括以下步骤:
将高层语义特征图对应的尺度感知信息特征使用双线性插值的方法进行上采样操作,并使用一个1*1的卷积调整通道,得到第一特征图;
将所述第一特征图与所述中层语义特征图对应的尺度感知信息特征进行按元素相加操作,得到融合后的特征。
8.根据权利要求1所述的一种基于特征交互的人群计数方法,其特征在于:将融合后的特征进行上采样和通道调整并与低层语义特征图对应的尺度感知信息特征进行融合,得到用于人群密度估计的主要特征图,包括以下步骤:
对融合后的特征使用双线性插值的方法进行上采样操作,并使用一个1*1的卷积调整通道,得到第二特征图;
将所述第二特征图与所述低层语义特征图对应的尺度感知信息特征进行按元素相加操作,得到用于人群密度估计的主要特征图。
9.根据权利要求1所述的一种基于特征交互的人群计数方法,其特征在于:将用于人群密度估计的主要特征图输入深度神经网络模型后端网络,得到人群密度估计图和人群计数结果,包括以下步骤:
将所述用于人群密度估计的主要特征图输入两个卷积层,得到人群密度估计图和人群计数结果;每个卷积层生成的特征图的通道数由输入至输出方向依次为64和1;两个卷积层的卷积尺寸均为3*3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210805244.1A CN115272957A (zh) | 2022-07-08 | 2022-07-08 | 一种基于特征交互的人群计数方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210805244.1A CN115272957A (zh) | 2022-07-08 | 2022-07-08 | 一种基于特征交互的人群计数方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115272957A true CN115272957A (zh) | 2022-11-01 |
Family
ID=83765168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210805244.1A Pending CN115272957A (zh) | 2022-07-08 | 2022-07-08 | 一种基于特征交互的人群计数方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115272957A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861346A (zh) * | 2023-02-16 | 2023-03-28 | 邦世科技(南京)有限公司 | 一种基于场景感知融合网络的脊柱核磁共振图像分割方法 |
CN117809293A (zh) * | 2024-03-01 | 2024-04-02 | 电子科技大学 | 一种基于深度神经网络的小样本图像目标计数方法 |
-
2022
- 2022-07-08 CN CN202210805244.1A patent/CN115272957A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861346A (zh) * | 2023-02-16 | 2023-03-28 | 邦世科技(南京)有限公司 | 一种基于场景感知融合网络的脊柱核磁共振图像分割方法 |
CN117809293A (zh) * | 2024-03-01 | 2024-04-02 | 电子科技大学 | 一种基于深度神经网络的小样本图像目标计数方法 |
CN117809293B (zh) * | 2024-03-01 | 2024-05-03 | 电子科技大学 | 一种基于深度神经网络的小样本图像目标计数方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
WO2021249071A1 (zh) | 一种车道线的检测方法及相关设备 | |
CN112329658B (zh) | 一种对于yolov3网络的检测算法改进方法 | |
CN115272957A (zh) | 一种基于特征交互的人群计数方法 | |
CN109800692B (zh) | 一种基于预训练卷积神经网络的视觉slam回环检测方法 | |
CN110717856A (zh) | 一种用于医学成像的超分辨率重建算法 | |
CN111401436B (zh) | 一种融合网络和双通道注意力机制的街景图像分割方法 | |
CN110569851B (zh) | 门控多层融合的实时语义分割方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN113408577A (zh) | 一种基于注意力机制的图像分类方法 | |
CN111815665A (zh) | 基于深度信息与尺度感知信息的单张图像人群计数方法 | |
CN113393457B (zh) | 一种结合残差密集块与位置注意力的无锚框目标检测方法 | |
CN112966747A (zh) | 一种基于无锚框检测网络改进的车辆检测方法 | |
CN116740439A (zh) | 一种基于跨尺度金字塔Transformer的人群计数方法 | |
CN115272677A (zh) | 一种多尺度特征融合的语义分割方法、设备及存储介质 | |
CN116563682A (zh) | 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法 | |
US20240062347A1 (en) | Multi-scale fusion defogging method based on stacked hourglass network | |
CN112132746A (zh) | 面向智能路侧设备的小尺度行人目标快速超分辨率化方法 | |
CN116758513A (zh) | 一种基于联邦学习的个性化交通标志判别方法 | |
CN116597142A (zh) | 基于全卷积神经网络与变换器的卫星图像语义分割方法及系统 | |
CN113887536B (zh) | 一种基于高层语义引导的多阶段高效人群密度估计方法 | |
CN115761552A (zh) | 面向无人机机载平台的目标检测方法、系统、设备及介质 | |
CN112632601B (zh) | 面向地铁车厢场景的人群计数方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |