CN113807334B - 一种基于残差网络的多尺度特征融合的人群密度估计方法 - Google Patents

一种基于残差网络的多尺度特征融合的人群密度估计方法 Download PDF

Info

Publication number
CN113807334B
CN113807334B CN202111384302.XA CN202111384302A CN113807334B CN 113807334 B CN113807334 B CN 113807334B CN 202111384302 A CN202111384302 A CN 202111384302A CN 113807334 B CN113807334 B CN 113807334B
Authority
CN
China
Prior art keywords
map
network
feature
image
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111384302.XA
Other languages
English (en)
Other versions
CN113807334A (zh
Inventor
邓力嘉
何先定
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aeronautic Polytechnic
Original Assignee
Chengdu Aeronautic Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aeronautic Polytechnic filed Critical Chengdu Aeronautic Polytechnic
Priority to CN202111384302.XA priority Critical patent/CN113807334B/zh
Publication of CN113807334A publication Critical patent/CN113807334A/zh
Application granted granted Critical
Publication of CN113807334B publication Critical patent/CN113807334B/zh
Priority to GB2217424.7A priority patent/GB2614806A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于残差网络的多尺度特征融合的人群密度估计方法,属于视频图像处理技术领域领域,本发明的目的在于提供一种基于残差网络的多尺度特征融合的人群密度估计方法,该方法基于人群密度预测的算法,通过多级网络获得多尺度特征,依靠多尺度特征融合,有效协调网络对低级特征的保留和对高级特征的提取,有效提升所训练的网络在识别高密度人群数量时的精度,为综合管理系统提供人流密度的监督信息,防范突发性人群密集事件。

Description

一种基于残差网络的多尺度特征融合的人群密度估计方法
技术领域
本发明属于视频图像处理技术领域,具体涉及一种基于残差网络的多尺度特征融合的人群密度估计方法。
背景技术
在公共安全和城市发展方面,人群计数对社会具有相当重要的意义。手动计算视频或照片中的人数通常耗时费力。人们需要一种高效、经济的方法,而不是手工计数。目前商用人群监控应用主要是基于目标识别的技术,该技术使用不同大小的扫描框将人体从图形中完全标识出,然后通过计数框的数量来获取人数。该方法在人群密度大、遮挡多的环境下,会因为人体的呈现不完整而出现识别不完全,识别效果差等问题。
发明内容
为了解决现有算法基于检测的方式难以估计区域内高密度人群的人数的问题,本发明的目的在于提供一种基于残差网络的多尺度特征融合的人群密度估计方法,该方法基于人群密度预测的算法,通过多级网络获得多尺度特征,依靠多尺度特征融合,有效协调网络对低级特征的保留和对高级特征的提取,有效提升所训练的网络在识别高密度人群数量时的精度,为综合管理系统提供人流密度的监督信息,防范突发性人群密集事件。
本发明采用的技术方案如下:
一种基于残差网络的多尺度特征融合的人群密度估计方法,包括如下步骤:
步骤1:图像预处理:将所有的训练图像处理为同一尺寸,对训练图像中人头的位置进行标注,生成对应的人头坐标表格并保存;
步骤2:将步骤1生成的人头坐标表格结合对应的缩放矩阵,通过高斯核卷积,生成对应的密度图;
步骤3:将步骤2生成的各训练图片的密度图通过筛选器二值化,生成像素值为0或1的二值图,作为注意力区域图;
步骤4:将训练图像送入模型主干网络;
步骤5:将模型主干网络输出的特征分别送入密度预测网络和注意力预测网络中;
步骤6:将密度预测网络和注意力预测网络中分别输出的特征图像分别送入链式残差池化进行特征增强;
步骤7:将经过增强的输出特征图依次输出到上采样过程中,使高级特征图的尺寸与低级的特征图的尺寸相匹配;
步骤8:将步骤7处理完毕的特征图全部相加到一起后,获得注意力特征图和人群密度特征图;
步骤9:将注意力特征图输入一个一层卷积的预测层,获得注意力区域图;
步骤10:将注意力区域图与人群密度特征图进行合并,消除人群密度特征图中的额外噪点,减少预测误差;
步骤11:消除噪点后的人群密度特征图通过一个一层卷积的预测层,展开为一张人群密度预测图。
采用上述技术方案,本发明主要基于人群密度预测的算法,通过多级网络获得多尺度特征,依靠多尺度特征融合,能有效协调网络对低级特征的保留和对高级特征的提取,能有效提升所训练的网络在识别高密度人群数量时的精度。
具体的,所述步骤2中所述生成对应的密度图的方法如下:
Figure 225832DEST_PATH_IMAGE001
其中,
Figure 332328DEST_PATH_IMAGE002
为训练图像中预设目标的真值密度图,
Figure 934211DEST_PATH_IMAGE003
为被标记的目标在图像中的横坐标,
Figure 269508DEST_PATH_IMAGE004
为被标记的目标在图像中的纵坐标,π为圆周率,
Figure 640447DEST_PATH_IMAGE005
为高斯核大小,e为自然常数。
具体的,所述步骤3中所述注意力区域图的生成方法如下:
Figure 652265DEST_PATH_IMAGE006
其中,
Figure 741444DEST_PATH_IMAGE007
注意力区域图,
Figure 116318DEST_PATH_IMAGE002
为训练图像中预设目标的真值密度图,
Figure 341763DEST_PATH_IMAGE008
为被标记的目标在图像中的横坐标,
Figure 790062DEST_PATH_IMAGE004
为被标记的目标在图像中的纵坐标,k为筛选器阈值,该阈值默认为0.001,可以根据具体情况进行修改。
具体的,在所述步骤4的主干网络中,训练图像被送入三个连续的的下采样卷积层,在卷积层中,训练图片通过卷积核扫描生成输入到下一层网络的特征图,方法如下:
Figure 100957DEST_PATH_IMAGE009
其中
Figure 778057DEST_PATH_IMAGE010
为输出特征图的值,
Figure 123588DEST_PATH_IMAGE011
为该卷积层神经元的权重,
Figure 477209DEST_PATH_IMAGE012
为输入特征图的值,
Figure 275401DEST_PATH_IMAGE013
为神经元编号,
Figure 254727DEST_PATH_IMAGE014
为偏置参数。
具体的,所述图像在经过卷积处理后,尺寸会发生变化,所述尺寸变化的方法如下:
Figure 189185DEST_PATH_IMAGE015
其中
Figure 979286DEST_PATH_IMAGE016
为输出特征图的边长,
Figure 264774DEST_PATH_IMAGE017
为输入特征图的边长,
Figure 283677DEST_PATH_IMAGE018
为卷积核边长,
Figure 338221DEST_PATH_IMAGE019
为步长。
为防止图像尺寸缩小,在图像周围添加一圈像素,使得卷积后的图像尺寸和卷积前的一样,所述添加像素的方法如下:
Figure 299223DEST_PATH_IMAGE020
其中
Figure 72007DEST_PATH_IMAGE016
为输出特征图的边长,
Figure 118768DEST_PATH_IMAGE017
为输入特征图的边长,
Figure 293397DEST_PATH_IMAGE018
为卷积核边长,p为像素填充量,stride为步长。
具体的,卷积处理后的特征图经过最大池化,用于减小数据总量,防止过拟合,使用ReLU函数作为网络的激活函数,把特征图的像素值做线性修正,其表达式如下:
Figure 159722DEST_PATH_IMAGE021
其中
Figure 419802DEST_PATH_IMAGE022
为激活函数输出值,
Figure 780507DEST_PATH_IMAGE023
为输入特征图的值。
输入特征图的值具体的,所述步骤6中的密度预测网络和注意力预测网络拥有相同的残差网络结构,残差网络结构都是由都是由多个残差模块组成的,每个残差模块都包含了三个卷积层和三个激活层,经过三层卷积层计算后的特征图与输入特征图通过残差层进行叠加。
具体的,每个残差模块中输出的特征图会经过一个由3轮链式残差池化层组成的CRPblock进行计算,可以有助于保留主要的特征的同时,减少参数和计算量,以防止过拟合,提高人群计数模型的泛化能力。
具体的,所述步骤8中包括:
经过CRPblock计算之后的特征图按从高级到低级的顺序,通过一个两层卷积层的融合层逐一相加,这一过程中,更高级的特征图使用上采样模块来扩大图像尺寸以适应低级的特征图的尺寸,上采样模块用于扩大图像尺寸,根据特征图周围的像素,对新增加的像素点进行插值,计算表达式如下:
Figure 809643DEST_PATH_IMAGE024
Figure 112449DEST_PATH_IMAGE016
是输出特征的边长,
Figure 594245DEST_PATH_IMAGE017
是输入特征的边长,
Figure 257177DEST_PATH_IMAGE018
为卷积核边长,p为像素填充量,stride为步长。
将步骤7处理完毕的特征图全部相加到一起,获得注意力特征图和人群密度特征图。
具体的,所述步骤10、11中注意力区域图和人群密度特征图融合到一起,构成最终人群密度特征图的方法如下:
Figure 875240DEST_PATH_IMAGE025
其中
Figure 614526DEST_PATH_IMAGE008
为被标记的目标在图像中的横坐标,
Figure 583619DEST_PATH_IMAGE004
为被标记的目标在图像中的纵坐标,
Figure 286127DEST_PATH_IMAGE026
为最终人群密度特征图,
Figure 289855DEST_PATH_IMAGE027
为注意力区域网络输出的注意力区域图,
Figure 934463DEST_PATH_IMAGE028
为密度预测网络输出的人群密度特征图。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1. 采用全卷积网络的方式,使得网络的设计参数可以固定,解决了使用传统方式中的线性层设计参数受到输入图像尺寸的影响,使得我们的方法可以接受任意尺寸的输入图像。
2. 通过使用上采样网络的手段,使得特征图尺寸能够恢复到输入图像的大小,解决了一些传统方法中需要对训练图像进行降采样的问题,能够有效减少因为降采样导致原始数据变化而对网络的训练效果造成的影响。
3. 通过基于回归的计数方式,能够解决高密度人群在图像上人与人互相遮挡导致传统检测方法识别人体不准确的问题,提高了人群计数模型在识别高密度人群时的效果。
4. 通过基于回归的计数方式,能够解决高密度人群在图像上人与人互相遮挡导致传统检测方法识别人体不准确的问题,提高了人群计数模型在识别高密度人群时的效果。
5. 通过多尺度特征融合的手段,能使网络中具有不同抽象程度的特征互相融合,减少了传统方法中高抽象度的特征图对类似图像的纹理等底层特征的丢失,能够有效提高预测的人群密度图的精度。
6. 采用了GPU加速计算,能提高模型的运行速度,解决了CPU计算缓慢的问题的,能更加快捷的预测人数。
7. 采用了基于残差网络的多尺度特征融合技术,能在增加网络深度的同时,更好的保留图像的纹理等底层特征,辅助提升了网络的估算效果。
本发明主要基于人群密度预测的算法,通过多级网络获得多尺度特征,依靠多尺度特征融合,能有效协调网络对低级特征的保留和对高级特征的提取,能有效提升所训练的网络在识别高密度人群数量时的精度。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明中人群密度估计方法的流程图;
图2是本发明中人群密度预测的算法网络示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明提出了一种基于残差网络的多尺度特征融合的人群密度估计方法。1)能够接受任意尺寸输入图像;2)无需的训练数据进行降采样;3)基于回归的网络设计,能估算高密度人群的人数;4)使用注意力机制改善估算精度;5)使用多尺度特征融合来提高预测性能;6)采用GPU加速计算,提升对人群密度的预测计算速度;7)基于残差网络的多尺度特征融合技术,能在增加网络深度的同时,更好的保留图像的底层特征,辅助提升了网络的估算效果。本发明提出的方法能有效协调网络对低级特征的保留和对高级特征的提取,能有效提升所训练的网络在识别高密度人群数量时的精度。
下面对本发明提供的一种基于残差网络的多尺度特征融合的人群密度估计方法进行介绍,参见图1,包括:
步骤1:图像预处理:将所有的训练图像处理为同一尺寸,可适当缩小图像尺寸减少计算机运算负担,同时对训练图像中人头的位置进行标注,生成对应的人头坐标表格(location table)并保存为.mat格式;步骤2:将步骤1生成的人头坐标表格结合对应的缩放矩阵(Perspective map),通过高斯核卷积,生成对应的密度图并保存为CSV格式;步骤3:将步骤2生成的各训练图片的密度图通过筛选器二值化,生成像素值为0或1的二值图,作为注意力区域图; 步骤4:将训练图像送入模型主干网络;步骤5:将模型主干网络输出的特征分别送入密度预测网络和注意力预测网络中,密度预测网络和注意力预测网络具有相同的网络结构;步骤6:将密度预测网络和注意力预测网络中分别输出的特征图像分别送入链式残差池化进行特征增强;步骤7:由于图像经过网络处理,在尺寸上缩小了8倍,所以我们为网络添加了上采样结构,将经过增强的的输出特征图依次输出到上采样过程中,使高级特征图的尺寸与低级的特征图的尺寸相匹配; 步骤8:将步骤7处理完毕的特征图全部相加到一起后,获得注意力特征图和人群密度特征图;步骤9:将注意力特征图输入一个一层卷积的预测层,获得注意力区域图;步骤10:将注意力区域图与人群密度特征图进行合并,消除人群密度特征图中的额外噪点,减少预测误差;步骤11:消除噪点后的人群密度特征图通过一个一层卷积的预测层,展开为一张人群密度预测图。
具体步骤如下:
所述步骤2中所述生成对应的密度图的方法如下:
Figure 390852DEST_PATH_IMAGE029
其中,
Figure 398516DEST_PATH_IMAGE002
为训练图像中预设目标的真值密度图,x为被标记的目标在图像中的横坐标,y为被标记的目标在图像中的纵坐标,π为圆周率,
Figure 991171DEST_PATH_IMAGE005
为高斯核大小,e为自然常数。
所述步骤3中所述注意力区域图的生成方法如下:
Figure 806680DEST_PATH_IMAGE030
其中,
Figure 750366DEST_PATH_IMAGE007
注意力区域图,
Figure 60255DEST_PATH_IMAGE002
为训练图像中预设目标的真值密度图,
Figure 772996DEST_PATH_IMAGE008
为被标记的目标在图像中的横坐标,
Figure 493828DEST_PATH_IMAGE004
为被标记的目标在图像中的纵坐标,k为筛选器阈值,该阈值默认为0.001,可以更加具体情况进行修改。
具体的,在所述步骤4的主干网络中,训练图像被送入三个连续的的下采样卷积层,该主干网络包含了三个卷积层、一个池化层和三个激活层,这个三个卷积层分别有不同大小的卷积核,在下采样卷积层中,训练图片通过下采样卷积核扫描生成输入到下一层网络的特征图,方法如下:
Figure 924809DEST_PATH_IMAGE031
其中
Figure 271346DEST_PATH_IMAGE010
为输出特征图的值,
Figure 104172DEST_PATH_IMAGE011
为该卷积层神经元的权重,
Figure 995905DEST_PATH_IMAGE012
为输入特征图的值,
Figure 930494DEST_PATH_IMAGE013
为神经元编号,
Figure 565875DEST_PATH_IMAGE014
为偏置参数。
具体的,所述图像在经过卷积处理后,尺寸会发生变化,所述尺寸变化的方法如下:
Figure 987629DEST_PATH_IMAGE032
其中
Figure 315842DEST_PATH_IMAGE016
为输出特征图的边长,
Figure 455836DEST_PATH_IMAGE017
为输入特征图的边长,
Figure 678264DEST_PATH_IMAGE018
为卷积核边长,
Figure 954524DEST_PATH_IMAGE019
为步长;
为防止图像尺寸缩小,使用像素(padding)填充技术,在图像周围添加一圈像素,使得卷积后的图像尺寸和卷积前的一样,所述添加像素的方法如下:
Figure 453639DEST_PATH_IMAGE033
其中
Figure 80929DEST_PATH_IMAGE016
为输出特征图的边长,
Figure 74424DEST_PATH_IMAGE017
为输入特征图的边长,
Figure 470770DEST_PATH_IMAGE018
为卷积核边长,p为像素填充量,stride为步长。
具体的,卷积处理后的特征图经过最大池化,用于减小数据总量,防止过拟合,使用ReLU函数作为网络的激活函数,表达式如下:
Figure 406365DEST_PATH_IMAGE034
其中
Figure 770219DEST_PATH_IMAGE022
为激活函数输出值,
Figure 551094DEST_PATH_IMAGE023
为输入特征图的值。
输入特征图的值具体的,所述步骤6中的密度预测网络和注意力预测网络拥有相同的残差网络结构,残差网络结构都是由都是由多个残差模块(Resblock)组成的,每个残差模块都包含了三个卷积层和三个激活层,经过三层卷积层计算后的特征图与输入特征图通过残差层进行叠加
具体的,每个残差模块中输出的特征图会经过一个由3轮链式残差池化层(Chained residual pooling)组成的CRPblock进行计算,可以有助于保留主要的特征的同时,减少参数和计算量,以防止过拟合,提高模型泛化能力。
具体的,所述步骤7中的高级特征图与低级特征图分别指代来自于网络更深层的抽象程度更高的特征图和来自于网络更浅层的抽象程度更低的特征图。
具体的,所述步骤8中包括:
经过CRPblock计算之后的特征图按从高级到低级的顺序,通过一个两层卷积层的融合层(fusion layer)逐一相加,这一过程中,更高级的特征图使用上采样模块来扩大图像尺寸以适应低级的特征图的尺寸,上采样模块用于扩大图像尺寸,根据特征图周围的像素,对新增加的像素点进行插值,计算表达式如下:
Figure 67526DEST_PATH_IMAGE035
将步骤7处理完毕的特征图全部相加到一起,获得注意力特征图
Figure 908443DEST_PATH_IMAGE027
和人群密度特征图
Figure 261058DEST_PATH_IMAGE028
具体的,在所述步骤10、11中,将注意力区域图
Figure 845623DEST_PATH_IMAGE027
和人群密度特征图
Figure 950982DEST_PATH_IMAGE028
融合到一起,构成最终人群密度特征图的方法如下:
Figure 962800DEST_PATH_IMAGE036
其中
Figure 786400DEST_PATH_IMAGE008
为被标记的目标在图像中的横坐标,
Figure 426853DEST_PATH_IMAGE004
为被标记的目标在图像中的纵坐标,
Figure 917877DEST_PATH_IMAGE026
为最终人群密度特征图,
Figure 835018DEST_PATH_IMAGE027
为注意力区域网络输出的注意力区域图,
Figure 427804DEST_PATH_IMAGE028
为密度预测网络输出的人群密度特征图。
需要说明的是,本实施例中的人头坐标表格并保存为.mat格式以及密度图并保存为CSV格式,此处的人头坐标表格以及密度图的格式并不构成对技术方案的限定,在不影响技术方案实施的前提下,可以替换为其余同类的格式。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的得同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,包括如下步骤:步骤1:图像预处理:将所有的训练图像处理为同一尺寸,对训练图像中人头的位置进行标注,生成对应的人头坐标表格并保存;
步骤2:将步骤1生成的人头坐标表格结合对应的缩放矩阵,通过高斯核卷积,生成对应的密度图;
步骤3:将步骤2生成的各训练图片的密度图通过筛选器二值化,生成像素值为0或1的二值图,作为注意力区域图;
步骤4:将训练图像送入模型主干网络;
步骤5:将模型主干网络输出的特征分别送入密度预测网络和注意力预测网络中;
步骤6:将密度预测网络和注意力预测网络中分别输出的特征图像分别送入链式残差池化进行特征增强;
步骤7:将经过增强的输出特征图依次输出到上采样过程中,使高级特征图的尺寸与低级的特征图的尺寸相匹配;
步骤8:将步骤7处理完毕的特征图全部相加到一起后,获得注意力特征图和人群密度特征图;
步骤9:将注意力特征图输入一个一层卷积的预测层,获得注意力区域图;
步骤10:将注意力区域图与人群密度特征图进行合并,消除人群密度特征图中的额外噪点,减少预测误差;
步骤11:消除噪点后的人群密度特征图通过一个一层卷积的预测层,展开为一张人群密度预测图;
所述步骤6中的密度预测网络和注意力预测网络拥有相同的残差网络结构,残差网络结构都是由都是由多个残差模块组成的,每个残差模块都包含了三个卷积层和三个激活层,经过三层卷积层计算后的特征图与输入特征图通过残差层进行叠加;每个残差模块中输出的特征图会经过一个由3轮链式残差池化层组成的链式残差池化模块进行计算。
2.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述步骤2中所述生成对应的密度图的方法如下:
Figure FDA0003455529110000011
其中,G(x,y)为训练图像中预设目标的真值密度图,x为被标记的目标在图像中的横坐标,y为被标记的目标在图像中的纵坐标,π为圆周率,σ为高斯核大小,e为自然常数。
3.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述步骤3中所述注意力区域图的生成方法如下:
Figure FDA0003455529110000021
其中,Attention(x,y)注意力区域图,G(x,y)为训练图像中预设目标的真值密度图,x为被标记的目标在图像中的横坐标,y为被标记的目标在图像中的纵坐标,k为筛选器阈值,该阈值默认为0.001,可以根据具体情况进行修改。
4.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,在所述步骤4的主干网络中,训练图像被送入三个连续的的下采样卷积层,在卷积层中,训练图片通过卷积核扫描生成输入到下一层网络的特征图,方法如下:
h=∑iwiei+b;
其中h为输出特征图的值,wi为该卷积层神经元的权重,ei为输入特征图的值,i为神经元编号,b为偏置参数。
5.根据权利要求4所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述图像在经过卷积处理后,尺寸会发生变化,尺寸变化的方法如下:
Figure FDA0003455529110000022
其中dout为输出特征图的边长,din为输入特征图的边长,dkernel为卷积核边长,stride为步长,
为防止图像尺寸缩小,在图像周围添加一圈像素,使得卷积后的图像尺寸和卷积前的一样,添加像素的方法如下:
Figure FDA0003455529110000023
其中dout为输出特征图的边长,din为输入特征图的边长,dkernel为卷积核边长,p为像素填充量,stride为步长。
6.根据权利要求5所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,卷积处理后的特征图经过最大池化,使用ReLU函数作为网络的激活函数,表达式如下:
σ(e)=max(0,e);
其中σ(e)为激活函数输出值,e为输入特征图的值。
7.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述步骤8中具体包括:
经过CRPblock计算之后的特征图按从高级到低级的顺序,通过一个两层卷积层的融合层逐一相加,这一过程中,更高级的特征图使用上采样模块来扩大图像尺寸以适应低级的特征图的尺寸,上采样模块用于扩大图像尺寸,根据特征图周围的像素,对新增加的像素点进行插值,计算表达式如下:
dout=(din)×stride+dkernel-2×p;
dout是输出特征图的边长,din为输入特征图的边长,dkernel为卷积核边长,p为像素填充量,stride为步长,CRPblock为3轮链式残差池化层组成的;
将步骤7处理完毕的特征图全部相加到一起,获得注意力特征图和人群密度特征图。
8.根据权利要求1所述的一种基于残差网络的多尺度特征融合的人群密度估计方法,其特征在于,所述步骤10、11中注意力区域图和人群密度特征图融合到一起,构成最终人群密度特征图的方法如下:
P(x,y)=Att(x,y)×Perd(x,y);
其中x为被标记的目标在图像中的横坐标,y为被标记的目标在图像中的纵坐标,P(x,y)为最终人群密度特征图,Att(x,y)为注意力区域网络输出的注意力区域图,Perd(x,y)为密度预测网络输出的人群密度特征图。
CN202111384302.XA 2021-11-22 2021-11-22 一种基于残差网络的多尺度特征融合的人群密度估计方法 Active CN113807334B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111384302.XA CN113807334B (zh) 2021-11-22 2021-11-22 一种基于残差网络的多尺度特征融合的人群密度估计方法
GB2217424.7A GB2614806A (en) 2021-11-22 2022-11-22 Method of crowd density estimation based on multi-scale feature fusion of residual network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111384302.XA CN113807334B (zh) 2021-11-22 2021-11-22 一种基于残差网络的多尺度特征融合的人群密度估计方法

Publications (2)

Publication Number Publication Date
CN113807334A CN113807334A (zh) 2021-12-17
CN113807334B true CN113807334B (zh) 2022-02-18

Family

ID=78937512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111384302.XA Active CN113807334B (zh) 2021-11-22 2021-11-22 一种基于残差网络的多尺度特征融合的人群密度估计方法

Country Status (2)

Country Link
CN (1) CN113807334B (zh)
GB (1) GB2614806A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114926420B (zh) * 2022-05-10 2023-05-30 电子科技大学 一种基于跨级特征增强的目标馕的识别及计数方法
CN116944818A (zh) * 2023-06-21 2023-10-27 台州必拓汽车配件股份有限公司 新能源汽车转轴的智能加工方法及其系统
CN116883360B (zh) * 2023-07-11 2024-01-26 大连海洋大学 一种基于多尺度双通道的鱼群计数方法
CN117739289B (zh) * 2024-02-20 2024-04-26 齐鲁工业大学(山东省科学院) 基于声图融合的泄漏检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009198819A (ja) * 2008-02-21 2009-09-03 Canon Inc 画像形成装置及びトナー消費量の推定方法
CN106778502A (zh) * 2016-11-21 2017-05-31 华南理工大学 一种基于深度残差网络的人群计数方法
CN109241895A (zh) * 2018-08-28 2019-01-18 北京航空航天大学 密集人群计数方法及装置
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN111681236A (zh) * 2020-06-12 2020-09-18 成都数之联科技有限公司 一种带注意力机制的目标密度估计方法
CN112101164A (zh) * 2020-09-06 2020-12-18 西北工业大学 基于全卷积网络的轻量化人群计数方法
CN112597985A (zh) * 2021-03-04 2021-04-02 成都西交智汇大数据科技有限公司 一种基于多尺度特征融合的人群计数方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460855A (zh) * 2018-09-29 2019-03-12 中山大学 一种基于聚焦机制的群体流量预测模型及方法
US10970837B2 (en) * 2019-03-18 2021-04-06 Siemens Healthcare Gmbh Automated uncertainty estimation of lesion segmentation
CN110705340B (zh) * 2019-08-12 2023-12-26 广东石油化工学院 一种基于注意力神经网络场的人群计数方法
CN112861718A (zh) * 2021-02-08 2021-05-28 暨南大学 一种轻量级特征融合人群计数方法及系统
CN113139489B (zh) * 2021-04-30 2023-09-05 广州大学 基于背景提取和多尺度融合网络的人群计数方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009198819A (ja) * 2008-02-21 2009-09-03 Canon Inc 画像形成装置及びトナー消費量の推定方法
CN106778502A (zh) * 2016-11-21 2017-05-31 华南理工大学 一种基于深度残差网络的人群计数方法
CN109241895A (zh) * 2018-08-28 2019-01-18 北京航空航天大学 密集人群计数方法及装置
CN110020606A (zh) * 2019-03-13 2019-07-16 北京工业大学 一种基于多尺度卷积神经网络的人群密度估计方法
CN111681236A (zh) * 2020-06-12 2020-09-18 成都数之联科技有限公司 一种带注意力机制的目标密度估计方法
CN112101164A (zh) * 2020-09-06 2020-12-18 西北工业大学 基于全卷积网络的轻量化人群计数方法
CN112597985A (zh) * 2021-03-04 2021-04-02 成都西交智汇大数据科技有限公司 一种基于多尺度特征融合的人群计数方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Deep‑Fusion Network for Crowd Counting in High‑Density Crowded Scenes;Sultan Daud Khan 等;《International Journal of Computational Intelligence Systems》;20210928;1-12 *
Residual Regression With Semantic Prior for Crowd Counting;Jia Wan 等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;4031-4040 *
基于多尺度空间注意力特征融合的人群计数网络;杜培德 等;《计算机应用》;20210210;第41卷(第2期);537-543 *
基于注意力机制与多尺度残差网络结构的目标检测算法研究;冯军;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20210215(第02期);I138-1213 *
局部二值平均熵模式与深度残差网络的人群密度估计;黄丽辉;《科学技术与工程》;20180930;第18卷(第27期);162-169 *

Also Published As

Publication number Publication date
GB2614806A (en) 2023-07-19
CN113807334A (zh) 2021-12-17
GB202217424D0 (en) 2023-01-04

Similar Documents

Publication Publication Date Title
CN113807334B (zh) 一种基于残差网络的多尺度特征融合的人群密度估计方法
CN112232349B (zh) 模型训练方法、图像分割方法及装置
CN109816011B (zh) 视频关键帧提取方法
CN111915627B (zh) 语义分割方法、网络、设备及计算机存储介质
US11651477B2 (en) Generating an image mask for a digital image by utilizing a multi-branch masking pipeline with neural networks
US11393100B2 (en) Automatically generating a trimap segmentation for a digital image by utilizing a trimap generation neural network
CN112800964B (zh) 基于多模块融合的遥感影像目标检测方法及系统
WO2022022154A1 (zh) 脸部图像处理方法、装置、设备及存储介质
CN111292265A (zh) 一种基于生成式对抗神经网络的图像修复方法
CN107784288A (zh) 一种基于深度神经网络的迭代定位式人脸检测方法
CN112418165B (zh) 基于改进型级联神经网络的小尺寸目标检测方法与装置
CN112712472A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN115631112B (zh) 一种基于深度学习的建筑轮廓矫正方法及装置
CN111681236B (zh) 一种带注意力机制的目标密度估计方法
CN113139544A (zh) 一种基于多尺度特征动态融合的显著性目标检测方法
CN110517200B (zh) 人脸草绘图的获取方法、装置、设备及存储介质
Qiang et al. Image inpainting based on improved deep convolutional auto‐encoder network
Ye et al. Nef: Neural edge fields for 3d parametric curve reconstruction from multi-view images
CN113657225B (zh) 一种目标检测方法
CN115115860A (zh) 一种基于深度学习的图像特征点检测匹配网络
Zhao et al. End-to-end retinex-based illumination attention low-light enhancement network for autonomous driving at night
Lee et al. SAF-Nets: Shape-Adaptive Filter Networks for 3D point cloud processing
CN109146886B (zh) 一种基于深度密度的rgbd图像语义分割优化方法
CN113808028A (zh) 基于归因算法的对抗样本的检测方法和装置
Du et al. Image super-resolution and deblurring using generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant