CN111429466A - 一种基于多尺度信息融合网络的空基人群计数与密度估计方法 - Google Patents

一种基于多尺度信息融合网络的空基人群计数与密度估计方法 Download PDF

Info

Publication number
CN111429466A
CN111429466A CN202010196984.0A CN202010196984A CN111429466A CN 111429466 A CN111429466 A CN 111429466A CN 202010196984 A CN202010196984 A CN 202010196984A CN 111429466 A CN111429466 A CN 111429466A
Authority
CN
China
Prior art keywords
feature
convolution
feature map
map
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010196984.0A
Other languages
English (en)
Inventor
曹先彬
罗晓燕
肖泽昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010196984.0A priority Critical patent/CN111429466A/zh
Publication of CN111429466A publication Critical patent/CN111429466A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4038Scaling the whole image or part thereof for image mosaicing, i.e. plane images composed of plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/60Rotation of a whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Abstract

本发明公开了一种基于多尺度信息融合网络的空基人群计数与密度估计方法,属于航空监视领域。首先针对某张待检测场景图,对图像进行在线采样的数据增广,并将每个像素进行归一化后,转换得到真实密度图。然后对真实密度图使用多尺度特征编码器进行特征提取与编码,得到五张特征图;将多尺度特征编码器于解码器级联,输入特征图进行解码并拼接融合,输出最终的特征图f。最后使用图像生成模块将解码拼接融合的最终特征图f转化为人群密度图;对人群密度图中每个像素点的值求积分得到人群的密度估计,将所有像素点的值相加求和,得到总人数计数。本发明保留了足够的空间信息,更加充分地融合多尺度信息,进而提升网络的性能。

Description

一种基于多尺度信息融合网络的空基人群计数与密度估计 方法
技术领域
本发明属于航空监视领域,具体是一种基于多尺度信息融合网络的空基人群计数与密度估计方法。
背景技术
随着近年来国家对低空领域使用权的不断开放,无人机经常被用来执行辅助灾情巡查以及特殊场景监视等任务。而在这些任务中,对于人群信息的统计与分析是最为重要的环节之一,在很多场景尤其是人群密集的场景下,统计场景人群数量与其密度分布对于安全监测、突发情况预警以及情报分析等多类任务均有不可估量的作用。
在大多数需要进行人群计数和密度估计的场景下,人群的密集度均较高,也就造成了严重的遮挡和目标尺度不一致的问题。早期的方法一般使用基于检测和回归的方法统计场景中人的总数。但由于密集人群遮挡严重、目标尺寸相差较大,基于检测的方法效果较差;而直接回归场景中人的数目从获取一个目标函数的角度来讲,使问题的输入域和输出域相差很大,也就导致了目标函数更难以拟合,也无法达到较好的效果。
近年来,基于密度图的方法成为了人群计数的主流,此类方法既可以简化任务的目标函数,也可以在统计人群总数的基础上得到信息更加充足的人群密度分布,为后续的其他应用提供更大的帮助。
发明内容
本发明提供一种基于多尺度信息融合网络的空基人群计数与密度估计方法,通过保留特征图空间信息的情况下,充分地提取和融合多尺度信息,提高网络生成的人群密度图质量,进而提高了人群计数与密度估计的效果,可用于飞行器飞行过程中场景的人群计数,为后续的安全监测、人群管理以及情报分析等应用带来了极大的便利。
所述的一种基于多尺度信息融合网络的空基人群计数与密度估计方法,具体步骤包括:
步骤一、针对某张待检测场景图,对图像进行在线采样的数据增广,并将每个像素进行归一化后,转换得到真实密度图。
具体步骤如下:
步骤101、以在线生成密度图的方法,将待检测场景图进行数据增广,得到尺寸均为H×W的图像;
数据增广包括裁剪、缩放、旋转或左右翻转等操作;
步骤102、对增广后的每张图像,将输入的每个像素数据X做((X-255)-0.5)/0.5的运算,将每个像素的值归一化到[-1,1]。
步骤103、在尺寸为H×W的图像中随机采样一个ls×ls大小的子图像S,统计位于子图像S区域内的行人目标,将行人目标的坐标筛选出来组成集合O,筛除其他目标坐标。
Figure BDA0002417981460000021
子图像S左上角顶点的坐标为(ws,hs);
步骤104、将子图像S缩放至lr×lr大小,作为训练的输入图像R;
缩放可替换为在线的左右翻转或旋转。lr的取值根据显存占用量设定,为4的整数倍。
步骤105、对集合O内的每一组坐标(xi,yi)分别进行坐标转换,得到各行人目标在子图像R中的相对坐标
Figure BDA0002417981460000022
转换公式为:
Figure BDA0002417981460000023
Figure BDA0002417981460000024
步骤106、利用转换后的相对坐标,得到与待检测场景图像对应的真实密度图。
步骤二、对真实密度图使用多尺度特征编码器进行特征提取与编码,得到五张特征图;
特征提取与编码的具体过程如下:
在卷积神经网络中,编码器共包含9个级联的卷积模块,分别为第一个卷积模块到第九个卷积模块,除第一个卷积模块之外,将之后每两个卷积模块分为一组,得到第一组卷积模块到第四组卷积模块,共5个卷积阶段;第一个卷积模块与第一组卷积模块之后分别各连接一个池化层。
首先,针对真实密度图,使用1×1的卷积层将该图的特征维压缩至原来的1/4,然后使用第一个卷积模块中的1×1,3×3,5×5,7×7四种普通卷积核分别处理该特征图,将四种普通卷积核分别输出的特征图进行拼接,得到第一特征图;
然后,将第一特征图经过池化层后,使用1×1的卷积层将特征维压缩至原来的1/4,将第二组卷积模块中的一个卷积模块的1×1,3×3,5×5,7×7四种普通卷积核分别处理该特征图,将分别输出的特征图进行拼接,然后用另一个卷积模块中的1×1,3×3,5×5,7×7四种普通卷积核再次分别处理,将再次得到的输出图进行拼接,得到第二特征图;
将第二特征图经过池化层后,再次使用1×1的卷积层将特征维压缩至原来的1/4,使用第三阶段的两个卷积组中的1×1,3×3,5×5,7×7八种空洞卷积核分别处理该特征图,得到第三特征图;
将第三特征图使用1×1的卷积层将特征维压缩至原来的1/4,使用第四阶段的两个卷积组中的1×1,3×3,5×5,7×7八种空洞卷积核分别处理该特征图,得到第四特征图;
将第四特征图使用1×1的卷积层将特征维压缩至原来的1/4,使用第五阶段的两个卷积组中的1×1,3×3,5×5,7×7八种空洞卷积核分别处理该特征图,得到第五特征图;
步骤三、将多尺度特征编码器于解码器级联,输入特征图进行解码并拼接融合,输出最终的特征图f;
具体过程如下:
将第二特征图和第三特征图输入第一解码器,分别经过1×1的卷积层得到各自对应的特征图1和特征图2,将特征图1和特征图2沿特征维拼接,并再次使用1×1卷积整合信息的方式进行融合,输出融合后的特征图a;
同理将第三特征图和第四特征图输入第二解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出融合后的特征图b;
将第四特征图和第五特征图输入第三解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出特征图c;
同理,将特征图a和特征图b输入第四解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出特征图d;
将特征图b和特征图c输入第五解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出特征图e;
同理,将特征图d和特征图e输入第六解码,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出最终的特征图f;
步骤四、使用图像生成模块将解码拼接融合的最终特征图f转化为人群密度图;
图像生成模块包括两个3×3卷积层、2个双线性插值上采样层和1个1×1卷积层,最终特征图f依次经过3×3卷积层-双线性插值上采样层-3×3卷积层-双线性插值上采样层,最终通过1×1卷积层将特征维尺寸压缩到1,得到单通道的人群密度图。
步骤五、对人群密度图中每个像素点的值求积分得到人群的密度估计,将所有像素点的值相加求和,得到总人数计数;
本发明的优点在于:
1)、一种基于多尺度信息融合网络的空基人群计数与密度估计方法,在特征提取与编码阶段采用可提取多尺度信息的卷积模块,并使用空洞卷积代替池化层,保留了足够的空间信息。
2)、一种基于多尺度信息融合网络的空基人群计数与密度估计方法,在特征解码与融合阶段采用具有密集连接的多分支解码结构,能够进一步地,更加充分地融合多尺度信息,进而提升网络的性能。
附图说明
图1为本发明一种基于多尺度信息融合网络的空基人群计数与密度估计方法的流程图;
图2为本发明使用编码器在每组卷积模块中处理拼接得到特征图的示意图;
图3为本发明使用解码器对特征图进行解码拼接得到特征图的示意图;
图4为本发明的两张特征图分别输入解码器沿特征维拼接融合的示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细和深入描述。
人群计数与密度估计问题,即统计各类场景中人群的密度与总人数的问题,在空基监视下的安全监测、灾害人群管理以及情报收集分析等应用中都具有重大意义;本发明设计了一种新的具备强大的多尺度信息提取与融合能力的编码器-解码器卷积神经网络,以完成对各类空基监视场景下的人群计数与密度估计任务,提出了一种基于多尺度信息融合网络的空基人群计数与密度估计方法。
如图1所示,具体步骤包括:
步骤一、针对某张待检测场景图,对图像进行在线采样的数据增广,并将每个像素进行归一化后,转换得到真实密度图。
在深度学习的学习过程中,由于参数量巨大,需要大量的数据来进行训练,而在真实场景中,可用于训练的数据有时很少,因此需要对其进行数据增广。为了最大限度的利用有限的训练数据,在本实施例采用了一种在线的数据增广方法,在训练的同时对数据进行相应的处理,以尽量实现每轮训练中输入网络的数据均有差别。
此外,为了更好地训练网络,防止梯度爆炸等问题的发生,以及网络参数的适用性,本发明在训练和测试过程中均对输入图像进行了归一化操作。
具体步骤如下:
步骤101、以在线生成密度图的方法,将待检测场景图进行数据增广,得到尺寸均为H×W的图像;
数据增广包括裁剪、缩放、旋转或左右翻转等操作;
步骤102、对增广后的每张图像,将输入的每个像素数据X做((X-255)-0.5)/0.5的运算,将每个像素的值归一化到[-1,1]。
步骤103、在尺寸为H×W的图像中随机采样一个ls×ls大小的子图像S,统计位于子图像S区域内的行人目标,将行人目标的坐标筛选出来组成集合O,筛除其他目标坐标。
Figure BDA0002417981460000041
子图像S左上角顶点的坐标为(ws,hs);
步骤104、将子图像S缩放至lr×lr大小,作为训练的输入图像R;
缩放可替换为在线的左右翻转或旋转。lr的取值根据显存占用量设定,为4的整数倍,本实施例中选择的是512*512。
步骤105、对集合O内的每一组坐标(xi,yi)分别进行坐标转换,得到各行人目标在子图像R中的相对坐标
Figure BDA0002417981460000051
转换公式为:
Figure BDA0002417981460000052
Figure BDA0002417981460000053
步骤106、利用转换后的相对坐标,得到与待检测场景图像对应的真实密度图。
与其他方法相比,本方法在训练过程中实现采样与密度图的生成,因此命名为在线采样的数据增广方法,除此之外,本方法同样做了在线的左右翻转、旋转的数据增广,在坐标变换的基础上操作从而在不改变密度分布,不引入误导信息的同时实现强力的数据增广。
另外,需要注意的是,在线数据增广只用于训练过程中,为了提升网络的准确性和鲁棒性,方法测试与正常应用中并不引入数据增广。
步骤二、对真实密度图使用多尺度特征编码器进行特征提取与编码,得到五张特征图;
在人群计数问题中,每个行人个体受拍摄角度和距离的影响,在图像中呈现尺寸大小差异很大的特点,因此多尺度特征的提取是人群计数问题中一个十分重要的问题。
在卷积神经网络中,编码器共包含9个级联的卷积模块,分别为第一个卷积模块到第九个卷积模块,除第一个卷积模块之外,将之后每两个卷积模块分为一组,得到第一组卷积模块到第四组卷积模块,共5个卷积阶段;不同大小的卷积核对应于卷积操作中不同大小的感受野,即当前卷积层提取特征的不同大小的区域,也就意味着提取不同尺度的特征。
在编码器的同一卷积模块使用了1×1,3×3,5×5,7×7四种不同大小的卷积核分别处理输入特征图,以在每一卷积模块中提取不同尺度的信息,并将处理后的特征图沿特征维进行拼接。同时,另外,为了减少神经网络的参数量,降低网络的计算复杂度和训练难度,在每一卷积模块前均使用1×1的卷积层将待处理特征图的特征维压缩至原来的1/4。
另外,在卷积神经网络中,通常使用池化层来实现特征图空间尺寸的压缩及感受野的增大,以损失空间信息为代价增大网络的感受野。而在人群计数任务中,空间信息对于密度图的生成有很大的作用,因此不能盲目地压缩特征图的空间尺寸,因此在本方法中,只在网络的前两个卷积阶段之后使用了池化层,在网络的后三个卷积阶段中,使用空洞卷积代替池化层增大感受野的作用,同时保证特征图的空间尺寸不被压缩,空间信息得以保留。
如图2所示,针对真实密度图,使用1×1的卷积层将该图的特征维压缩至原来的1/4,然后使用第一个卷积模块中的1×1,3×3,5×5,7×7四种普通卷积核分别处理该特征图,将四种普通卷积核分别输出的特征图进行拼接,得到第一特征图;
然后,将第一特征图经过池化层后,使用1×1的卷积层将特征维压缩至原来的1/4,将第二组卷积模块中的一个卷积模块的1×1,3×3,5×5,7×7四种普通卷积核分别处理该特征图,将分别输出的特征图进行拼接,然后用另一个卷积模块中的1×1,3×3,5×5,7×7四种普通卷积核再次分别处理,将再次得到的输出图进行拼接,得到第二特征图;
将第二特征图经过池化层后,再次使用1×1的卷积层将特征维压缩至原来的1/4,使用第三阶段的两个卷积组中的1×1,3×3,5×5,7×7八种空洞卷积核分别处理该特征图,得到第三特征图;
将第三特征图使用1×1的卷积层将特征维压缩至原来的1/4,使用第四阶段的两个卷积组中的1×1,3×3,5×5,7×7八种空洞卷积核分别处理该特征图,得到第四特征图;
将第四特征图使用1×1的卷积层将特征维压缩至原来的1/4,使用第五阶段的两个卷积组中的1×1,3×3,5×5,7×7八种空洞卷积核分别处理该特征图,得到第五特征图;
在第三个卷积阶段,第四个卷积阶段和第五个卷积阶段中,使用空洞卷积代替池化层增大感受野,同时保证特征图的空间尺寸不被压缩,以保留足够的空间信息。
步骤三、将多尺度特征编码器于解码器级联,输入特征图进行多尺度特征的解码并拼接融合,输出最终的特征图f;
普通的编码器-解码器网络,使用单一的编码器与解码器级联构成,编码器与解码器均包含多层卷积层,同时由于编码器中多层池化层的存在,解码器中普遍有与编码器中池化层相同数目的上采样层,以保证输出图像于输入图像尺寸相同。由于编码器中只有2层池化层,且后3个卷积阶段中使用空洞卷积代替了池化层,因此卷积层输出的特征图空间尺寸相同,且均为输入图像尺寸的1/4,因此在解码器中没有引入上采样层,同时不同卷积层输出的特征图可以通过沿特征维拼接的方式融合,更加方便灵活。
在此基础上,本发明以网络最后三个卷积阶段输出的特征图为输入,分别构建了三支解码器,并在三支解码器之间采用密集连接的方式将不同解码器之间的特征图进行融合,以充分地融合多尺度的特征,最后得到用于密度图生成的最终特征图。
在每次特征融合过程中,前一支解码网络上一层的特征图和本支解码网络上一层的特征图,分别使用1×1卷积层和3×3反卷积层进行处理,然后通过沿特征维拼接,使用1×1卷积整合信息的方式进行融合。
具体过程如下:
如图3和图4所示,将第二特征图和第三特征图输入第一解码器,分别经过1×1的卷积层得到各自对应的特征图1和特征图2,将特征图1和特征图2沿特征维拼接,并再次使用1×1卷积整合信息的方式进行融合,输出融合后的特征图a;
同理将第三特征图和第四特征图输入第二解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出融合后的特征图b;
将第四特征图和第五特征图输入第三解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出特征图c;
同理,将特征图a和特征图b输入第四解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出特征图d;
将特征图b和特征图c输入第五解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出特征图e;
同理,将特征图d和特征图e输入第六解码,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出最终的特征图f;
步骤四、使用图像生成模块将融合了多尺度信息并解码的特征图f转化为人群密度图;
经过特征编码和解码之后,输入图像已转换为融合了丰富多尺度信息的,尺寸为原图1/4的特征图,为了将特征图中的信息进一步转化为所需的密度信息,同时将其空间尺寸恢复为原图大小,本发明设计了图像生成模块对其进行处理。
图像生成模块包括两个3×3卷积层、2个双线性插值上采样层和1个1×1卷积层,最终特征图f依次经过3×3卷积层-双线性插值上采样层-3×3卷积层-双线性插值上采样层-1×1卷积层,在卷积层中缩小特征维尺寸,将特征维信息整合到空间维,在上采样层中恢复图像空间尺寸,最终通过1×1卷积层将特征维尺寸压缩到1,得到单通道的人群密度图。
步骤五、对人群密度图中每个像素点的值求积分得到人群的密度估计,将所有像素点的值相加求和,得到总人数计数;
在人群密度图中每个像素点的值为该像素点人群的密度,因此直接对密度图进行积分操作,对于数字图像而言,即将所有像素点的值相加,即可得到最终的总人数。

Claims (3)

1.一种基于多尺度信息融合网络的空基人群计数与密度估计方法,其特征在于,具体步骤包括:
步骤一、针对某张待检测场景图,对图像进行在线采样的数据增广,并将每个像素进行归一化后,转换得到真实密度图;
具体步骤如下:
步骤101、以在线生成密度图的方法,将待检测场景图进行数据增广,得到尺寸均为H×W的图像;
步骤102、对增广后的每张图像,将输入的每个像素数据X做((X-255)-0.5)/0.5的运算,将每个像素的值归一化到[-1,1];
步骤103、在尺寸为H×W的图像中随机采样一个ls×ls大小的子图像S,统计位于子图像S区域内的行人目标,将行人目标的坐标筛选出来组成集合O,筛除其他目标坐标;
Figure FDA0002417981450000011
子图像S左上角顶点的坐标为(ws,hs);
步骤104、将子图像S缩放至lr×lr大小,作为训练的输入图像R;
缩放可替换为在线的左右翻转或旋转;lr的取值根据显存占用量设定,为4的整数倍;
步骤105、对集合O内的每一组坐标(xi,yi)分别进行坐标转换,得到各行人目标在子图像R中的相对坐标
Figure FDA0002417981450000012
转换公式为:
Figure FDA0002417981450000013
Figure FDA0002417981450000014
步骤106、利用转换后的相对坐标,得到与待检测场景图像对应的真实密度图;
步骤二、对真实密度图使用多尺度特征编码器进行特征提取与编码,得到五张特征图;
特征提取与编码的具体过程如下:
在卷积神经网络中,编码器共包含9个级联的卷积模块,分别为第一个卷积模块到第九个卷积模块,除第一个卷积模块之外,将之后每两个卷积模块分为一组,得到第一组卷积模块到第四组卷积模块,共5个卷积阶段;第一个卷积模块与第一组卷积模块之后分别各连接一个池化层;
首先,针对真实密度图,使用1×1的卷积层将该图的特征维压缩至原来的1/4,然后使用第一个卷积模块中的1×1,3×3,5×5,7×7四种普通卷积核分别处理该特征图,将四种普通卷积核分别输出的特征图进行拼接,得到第一特征图;
然后,将第一特征图经过池化层后,使用1×1的卷积层将特征维压缩至原来的1/4,将第二组卷积模块中的一个卷积模块的1×1,3×3,5×5,7×7四种普通卷积核分别处理该特征图,将分别输出的特征图进行拼接,然后用另一个卷积模块中的1×1,3×3,5×5,7×7四种普通卷积核再次分别处理,将再次得到的输出图进行拼接,得到第二特征图;
将第二特征图经过池化层后,再次使用1×1的卷积层将特征维压缩至原来的1/4,使用第三阶段的两个卷积组中的1×1,3×3,5×5,7×7八种空洞卷积核分别处理该特征图,得到第三特征图;
将第三特征图使用1×1的卷积层将特征维压缩至原来的1/4,使用第四阶段的两个卷积组中的1×1,3×3,5×5,7×7八种空洞卷积核分别处理该特征图,得到第四特征图;
将第四特征图使用1×1的卷积层将特征维压缩至原来的1/4,使用第五阶段的两个卷积组中的1×1,3×3,5×5,7×7八种空洞卷积核分别处理该特征图,得到第五特征图;
步骤三、将多尺度特征编码器于解码器级联,输入特征图进行解码并拼接融合,输出最终的特征图f;
具体过程如下:
将第二特征图和第三特征图输入第一解码器,分别经过1×1的卷积层得到各自对应的特征图1和特征图2,将特征图1和特征图2沿特征维拼接,并再次使用1×1卷积整合信息的方式进行融合,输出融合后的特征图a;
同理将第三特征图和第四特征图输入第二解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出融合后的特征图b;
将第四特征图和第五特征图输入第三解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出特征图c;
同理,将特征图a和特征图b输入第四解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出特征图d;
将特征图b和特征图c输入第五解码器,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出特征图e;
同理,将特征图d和特征图e输入第六解码,分别经过1×1的卷积层得到各自对应的特征图,沿特征维拼接和使用1×1卷积融合,输出最终的特征图f;
步骤四、使用图像生成模块将解码拼接融合的最终特征图f转化为人群密度图;
步骤五、对人群密度图中每个像素点的值求积分得到人群的密度估计,将所有像素点的值相加求和,得到总人数计数。
2.如权利要求1所述的一种基于多尺度信息融合网络的空基人群计数与密度估计方法,其特征在于,步骤101中所述的数据增广包括裁剪、缩放、旋转或左右翻转。
3.如权利要求1所述的一种基于多尺度信息融合网络的空基人群计数与密度估计方法,其特征在于,所述的步骤四中所述的图像生成模块包括两个3×3卷积层、2个双线性插值上采样层和1个1×1卷积层,最终特征图f依次经过3×3卷积层-双线性插值上采样层-3×3卷积层-双线性插值上采样层,最终通过1×1卷积层将特征维尺寸压缩到1,得到单通道的人群密度图。
CN202010196984.0A 2020-03-19 2020-03-19 一种基于多尺度信息融合网络的空基人群计数与密度估计方法 Pending CN111429466A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010196984.0A CN111429466A (zh) 2020-03-19 2020-03-19 一种基于多尺度信息融合网络的空基人群计数与密度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010196984.0A CN111429466A (zh) 2020-03-19 2020-03-19 一种基于多尺度信息融合网络的空基人群计数与密度估计方法

Publications (1)

Publication Number Publication Date
CN111429466A true CN111429466A (zh) 2020-07-17

Family

ID=71549622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010196984.0A Pending CN111429466A (zh) 2020-03-19 2020-03-19 一种基于多尺度信息融合网络的空基人群计数与密度估计方法

Country Status (1)

Country Link
CN (1) CN111429466A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101164A (zh) * 2020-09-06 2020-12-18 西北工业大学 基于全卷积网络的轻量化人群计数方法
CN112115862A (zh) * 2020-09-18 2020-12-22 广东机场白云信息科技有限公司 一种结合密度估计的拥挤场景行人检测方法
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
CN112991274A (zh) * 2021-02-19 2021-06-18 平安科技(深圳)有限公司 一种人群计数方法、装置、计算机设备及存储介质
CN113158780A (zh) * 2021-03-09 2021-07-23 中国科学院深圳先进技术研究院 区域人群密度估计方法、电子设备及存储介质
CN114399728A (zh) * 2021-12-17 2022-04-26 燕山大学 一种雾天场景人群计数方法
WO2022120901A1 (zh) * 2020-12-09 2022-06-16 中国科学院深圳先进技术研究院 基于特征金字塔的图像检测模型的训练方法、介质和设备
CN116740622A (zh) * 2023-08-16 2023-09-12 山东黄河三角洲国家级自然保护区管理委员会 基于多尺度特征编码的密集油滴目标检测计数方法和装置
CN117405570A (zh) * 2023-12-13 2024-01-16 长沙思辰仪器科技有限公司 一种油液颗粒度计数器自动检测方法与系统
CN112132023B (zh) * 2020-09-22 2024-05-17 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921822A (zh) * 2018-06-04 2018-11-30 中国科学技术大学 基于卷积神经网络的图像目标计数方法
CN109948553A (zh) * 2019-03-20 2019-06-28 北京航空航天大学 一种多尺度密集人群计数方法
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN110210603A (zh) * 2019-06-10 2019-09-06 长沙理工大学 人群的计数模型构建方法、计数方法和装置
CN110378976A (zh) * 2019-07-18 2019-10-25 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110674704A (zh) * 2019-09-05 2020-01-10 同济大学 一种基于多尺度扩张卷积网络的人群密度估计方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921822A (zh) * 2018-06-04 2018-11-30 中国科学技术大学 基于卷积神经网络的图像目标计数方法
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN109948553A (zh) * 2019-03-20 2019-06-28 北京航空航天大学 一种多尺度密集人群计数方法
CN110210603A (zh) * 2019-06-10 2019-09-06 长沙理工大学 人群的计数模型构建方法、计数方法和装置
CN110378976A (zh) * 2019-07-18 2019-10-25 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110674704A (zh) * 2019-09-05 2020-01-10 同济大学 一种基于多尺度扩张卷积网络的人群密度估计方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOLONG JIANG等: "Crowd Counting and Density Estimation by Trellis Encoder-Decoder Networks", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
ZE WANG等: "In Defense of Single-column Networks for Crowd Counting", 《ARXIV》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101164A (zh) * 2020-09-06 2020-12-18 西北工业大学 基于全卷积网络的轻量化人群计数方法
CN112115862B (zh) * 2020-09-18 2023-08-29 广东机场白云信息科技有限公司 一种结合密度估计的拥挤场景行人检测方法
CN112115862A (zh) * 2020-09-18 2020-12-22 广东机场白云信息科技有限公司 一种结合密度估计的拥挤场景行人检测方法
CN112132023A (zh) * 2020-09-22 2020-12-25 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
CN112132023B (zh) * 2020-09-22 2024-05-17 上海应用技术大学 基于多尺度上下文增强网络的人群计数方法
WO2022120901A1 (zh) * 2020-12-09 2022-06-16 中国科学院深圳先进技术研究院 基于特征金字塔的图像检测模型的训练方法、介质和设备
CN112991274A (zh) * 2021-02-19 2021-06-18 平安科技(深圳)有限公司 一种人群计数方法、装置、计算机设备及存储介质
WO2022174517A1 (zh) * 2021-02-19 2022-08-25 平安科技(深圳)有限公司 一种人群计数方法、装置、计算机设备及存储介质
CN112991274B (zh) * 2021-02-19 2023-06-30 平安科技(深圳)有限公司 一种人群计数方法、装置、计算机设备及存储介质
CN113158780A (zh) * 2021-03-09 2021-07-23 中国科学院深圳先进技术研究院 区域人群密度估计方法、电子设备及存储介质
CN113158780B (zh) * 2021-03-09 2023-10-27 中国科学院深圳先进技术研究院 区域人群密度估计方法、电子设备及存储介质
CN114399728B (zh) * 2021-12-17 2023-12-05 燕山大学 一种雾天场景人群计数方法
CN114399728A (zh) * 2021-12-17 2022-04-26 燕山大学 一种雾天场景人群计数方法
CN116740622A (zh) * 2023-08-16 2023-09-12 山东黄河三角洲国家级自然保护区管理委员会 基于多尺度特征编码的密集油滴目标检测计数方法和装置
CN116740622B (zh) * 2023-08-16 2023-10-27 山东黄河三角洲国家级自然保护区管理委员会 基于多尺度特征编码的密集油滴目标检测计数方法和装置
CN117405570A (zh) * 2023-12-13 2024-01-16 长沙思辰仪器科技有限公司 一种油液颗粒度计数器自动检测方法与系统
CN117405570B (zh) * 2023-12-13 2024-03-08 长沙思辰仪器科技有限公司 一种油液颗粒度计数器自动检测方法与系统

Similar Documents

Publication Publication Date Title
CN111429466A (zh) 一种基于多尺度信息融合网络的空基人群计数与密度估计方法
CN109948524B (zh) 一种基于空基监视的交通车辆密度估计方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN110490082B (zh) 一种有效融合神经网络特征的道路场景语义分割方法
CN109241895A (zh) 密集人群计数方法及装置
CN112258526B (zh) 一种基于对偶注意力机制的ct肾脏区域级联分割方法
CN113392960B (zh) 一种基于混合空洞卷积金字塔的目标检测网络及方法
CN111461217B (zh) 一种基于特征融合和上采样的航拍图像小目标检测方法
CN112379231A (zh) 一种基于多光谱图像的设备检测方法及装置
CN112381784A (zh) 一种基于多光谱图像的设备检测系统
CN112287931B (zh) 一种场景文本检测方法及系统
CN110288524B (zh) 基于增强型上采样和辨别融合机制的深度学习超分辨率方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN114187275A (zh) 一种基于多阶段和多尺度注意力融合网络及图像去雨方法
CN111445432A (zh) 一种基于信息融合卷积神经网络的图像显著性检测方法
CN112949636A (zh) 一种车牌超分辨率识别方法、系统及计算机可读介质
CN115937794A (zh) 小目标对象检测方法、装置、电子设备及存储介质
CN115601236A (zh) 一种基于特征信息蒸馏网络的遥感图像超分辨重建方法
CN116630704A (zh) 一种基于注意力增强和密集多尺度的地物分类网络模型
CN115359370A (zh) 一种遥感图像云检测方法、装置、计算机装置及存储介质
CN113362239A (zh) 一种基于特征交互的深度学习图像修复方法
CN115100409B (zh) 一种基于孪生网络的视频人像分割算法
CN115861922A (zh) 一种稀疏烟火检测方法、装置、计算机设备及存储介质
CN116416534A (zh) 一种面向保护目标的无人机备降区域识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200717

RJ01 Rejection of invention patent application after publication