CN112767451A - 一种基于双流卷积神经网络的人群分布预测方法及其系统 - Google Patents

一种基于双流卷积神经网络的人群分布预测方法及其系统 Download PDF

Info

Publication number
CN112767451A
CN112767451A CN202110134261.2A CN202110134261A CN112767451A CN 112767451 A CN112767451 A CN 112767451A CN 202110134261 A CN202110134261 A CN 202110134261A CN 112767451 A CN112767451 A CN 112767451A
Authority
CN
China
Prior art keywords
crowd
network
image
image sequence
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110134261.2A
Other languages
English (en)
Other versions
CN112767451B (zh
Inventor
牛玉贞
施伟峰
刘文犀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202110134261.2A priority Critical patent/CN112767451B/zh
Publication of CN112767451A publication Critical patent/CN112767451A/zh
Application granted granted Critical
Publication of CN112767451B publication Critical patent/CN112767451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于双流卷积神经网络的人群分布预测方法及其系统。该方法包括:对从视频中提取的待训练图像序列进行数据预处理,归一化图像序列及其对应的人群密度图序列;设计双流卷积神经网络结构,包括F2D‑Net子网络、D2D‑Net子网络、融合模块;使用归一化图像序列中的最后两张图像计算光流,将光流映射到最后一张归一化图像对应的人群密度图作为光流法预测的密度图,并将其与两个子网络预测的特征通过融合模块融合的特征图进行融合,生成未来的人群分布密度图;对所设计网络设计损失函数,使用所设计网络训练人群分布预测模型;利用训练好的人群分布预测模型预测未来的人群分布密度图并估计人群数量。本发明可以预测未来的人群分布、估计未来人群数量。

Description

一种基于双流卷积神经网络的人群分布预测方法及其系统
技术领域
本发明涉及图像和视频处理以及计算机视觉领域,特别涉及一种基于双流卷积神经网络的人群分布预测方法及其系统。
背景技术
近年来,基于视觉的人群密度分析由于其在现实世界中的实际应用而得到了广泛的研究,例如:人群管理、交通控制、城市规划和安保等。最近的研究主要集中在人群计数、多目标跟踪、运动模式分析、群体属性学习和行人路径预测等方面。现实世界中,为了管理人群行为,预测人群的运动状态是极为重要的,这可以防止过度密集的人群带来的不可控制的危险,如人群拥挤可能导致的摔倒、踩踏、死亡。
人群计数在过去几年被深入研究,其目的是计算人数和估计人群在图像中的空间分布,当前人群计数算法主要分为:基于目标检测的方法、基于回归的方法、基于密度图的方法。基于目标检测的方法随着人群密度的提升,人与人之间的遮挡越来越严重,检测效果将会下降,性能深受低分辨率和图像严重遮挡等因素的限制。基于回归的方法,直接回归可以给出人群数量的估计值,但无法对人群的整体分布进行预测。基于密度图的方法则可以预测人群的分布密度图并给出人群计数值,不仅具有基于直接回归方法的优点,同时也保持了位置信息,性能不会受到稀疏或密集场景的严重影响。轨迹预测是另一个相关的研究课题,目标是学习在复杂社会交互下人类行为的轨迹。在此类方法中,重点关注人与人的交互,要求输入人群个体的位置信息,并且大多是在低密度或者中密度的人群运动中进行估计。视频帧预测在深度学习和生成对抗网络的基础下也取得了很大进展,该技术可使用给定的连续的视频帧序列进行训练,网络可以学习场景中的规律,推断未来的场景,可以预测下一帧图像,此类方法目前主要适用于短暂时间内的动作视频序列预测。
现有的人群运动分析研究工作,要么观察人群过去或者当前的状态,要么预测在一个稀疏的人群的场景中的个体轨迹,且需要已知人群中个体的历史轨迹。然而,由于大规模人群存在个体定位困难等难点,这些方法很难在高度密集的人群场景下提前做出预测以做出未来是否存在危险的判断并发出警告。对于人群场景而言,每隔数秒人群分布都将发生明显的变化。因此,采用大间隔采样输入帧可以利用帧与帧之间的显著变化观察到更多的人群动态变化,并为人群分布预测提供更充分的上下文信息,也使得本文提出的问题具有更大难度。本文提出一种基于双流卷积神经网络的人群分布预测方法,与之前的人群计数任务相比,大部分人群计数模型的目标是针对单张图像,统计观测到的场景中所有个体的数量,本文通过提出的双流卷积神经网络,对给定从人群视频中进行稀疏等间隔采样得到的视频帧序列,并在该人群视频没有提供任何个人确切位置和身份信息的情况下能够学习视频中潜在的人群运动动态,以预测稀疏或密集的人群场景下未来的人群分布情况、估计未来的人群数量。对此问题的研究将有益于与人群行为理解和公共场所安防预警等相关应用。
发明内容
本发明的目的在于提供一种基于双流卷积神经网络的人群分布预测方法及其系统,可预测未来的人群分布情况、估计人群数量。
为实现上述目的,本发明的技术方案是:一种基于双流卷积神经网络的人群分布预测方法,包括以下步骤:
步骤S1、对从视频中提取的待训练图像序列进行数据预处理,首先将图像序列中的所有图像变换大小,然后对变换大小后的所有图像进行数据归一化处理,最后生成图像序列中每张图像对应的人群密度图;
步骤S2、设计双流卷积神经网络结构,分别针对归一化的图像序列、图像序列对应的人群密度图序列构造F2D-Net子网络、D2D-Net子网络,并通过融合模块对两个子网络的输出进行融合;
步骤S3、使用归一化图像序列中的最后两张图像计算光流,并将光流映射到图像序列中的最后一张归一化图像对应的人群密度图作为光流法预测的密度图,将该密度图与F2D-Net子网络、D2D-Net子网络预测的特征通过融合模块融合的特征图进行融合,生成未来的人群分布密度图;
步骤S4、结合均方误差和结构相似性误差对双流卷积神经网络设计损失函数,使用所设计的双流卷积神经网络训练人群分布预测模型;
步骤S5、对待测图像序列进行数据预处理,利用训练好的人群分布预测模型预测未来的人群分布密度图并估计人群数量。
在本发明一实施例中,所述步骤S1具体实现步骤如下:
步骤S11、对从视频中提取的间隔为Δt的图像序列I中所有图像使用线性插值的方法变换到N×N大小;
步骤S12、对变换大小后的图像进行数据归一化预处理,给定在t时刻的变换图像It(h,w),计算归一化图像
Figure BDA0002926213480000022
的公式如下:
Figure BDA0002926213480000021
其中,(h,w)表示像素的位置;
步骤S13、生成图像序列中每张图像对应的人群密度图,若在图像
Figure BDA00029262134800000312
中的像素点xp上存在标记的人头,则可以使用冲激函数对其描述为δ(x-xp),对于图像
Figure BDA00029262134800000313
中标记的Q个人头可以表示为如下式:
Figure BDA0002926213480000031
其中,x为图像
Figure BDA0002926213480000032
的任意像素点,H(x)为图像
Figure BDA0002926213480000033
的人头标记的真实标签;那么,在t时刻的真实密度图Dt可以通过对H(x)使用几何自适应高斯核滤波器
Figure BDA00029262134800000314
进行卷积操作,最终生成的人群密度图Dt可以表示为:
Figure BDA0002926213480000034
Figure BDA0002926213480000035
Figure BDA0002926213480000036
其中,*为卷积计算,i为图像中的第i个人头,σi用来控制第i个人头的高斯核能量分布,
Figure BDA0002926213480000037
为第i个人头与k个近邻人头距离的平均值,
Figure BDA0002926213480000038
为第i个人头与第j个近邻人头的距离,β设置为0.1,k设置为3。
在本发明一实施例中,所述步骤S2具体实现步骤如下:
步骤S21、设计一种双流卷积神经网络结构用于训练人群分布预测模型,该网络结构包括F2D-Net子网络、D2D-Net子网络和融合模块;
步骤S22、F2D-Net子网络前半部分由4个3D Inception模块完成对归一化图像序列在时间维度、空间维度上的特征提取,其中前3个3D Inception模块后面伴随最大池化层以完成下采样;后半部分由3个3D卷积层+3D反卷积层构成,对网络前半部分提取的特征进行上采样,生成和输入的归一化图像相同大小的特征图;该F2D-Net子网络的输入为预处理后的t到t+(N-1)Δt时刻的有序图像序列
Figure BDA0002926213480000039
步骤S23、D2D-Net子网络使用3D U-Net结构,以提升网络从密度图序列中在空间维度、时间维度上提取人群分布特征的能力,该D2D-Net子网络的输入为图像序列
Figure BDA00029262134800000310
Figure BDA00029262134800000311
对应时刻的真实密度图序列D=Dt,Dt+Δt,...,Dt+(N-1)Δt
步骤S24、融合模块由通道注意力机制模块、空间注意力机制模块构成,将F2D-Net子网络、D2D-Net子网络的输出在通道维度上拼接之后,分别经由通道注意力机制模块、空间注意力机制模块处理,以加强网络在时空上的特征提取能力。
在本发明一实施例中,所述步骤S3具体实现步骤如下:
步骤S31、使用图像序列中的最后两张图像计算光流,其中前一张图像
Figure BDA0002926213480000041
的像素点(x,y)在后一张图像
Figure BDA0002926213480000042
的像素点中的最佳匹配点为(x′,y′),则该点的光流为:
F=(u,v)=(x′-x,y′-y)
其中,u和u分别代表像素点(x,y)发生水平位移和垂直位移的变化率;
步骤S32、将光流F映射到图像序列中的最后一张图像
Figure BDA0002926213480000043
对应的密度图Dt+(N-1)Δt作为光流法预测的密度图M,对M的像素点(a,b)计算方法如下:
M(a,b)=Dt+(N-1)Δt(a-u,b-v)
步骤S32、将该密度图M与F2D-Net子网络、D2D-Net子网络预测的特征通过注意力机制模块融合的特征图进行逐像素点加,生成未来的人群分布密度图
Figure BDA0002926213480000044
在本发明一实施例中,所述步骤S4具体实现步骤如下:
步骤S41、双流卷积神经网络使用均方误差(LMSE)、结构相似性误差(LSSIM)加权求和计算训练损失Lsum,其公式分别如下:
Lsum=LMSE+ω×LSSIM
其中,LMSE是未来时刻真实的分布密度图和预测的分布密度图
Figure BDA0002926213480000045
之间的均方误差,LSSIM是未来时刻真实的分布密度图和预测的分布密度图之间的结构相似性误差,ω为结构相似性误差的权重;
步骤S42、使用所设计的双流卷积神经网络训练人群分布预测模型,双流卷积神经网络通过多次迭代进行反向传播;在每次迭代中,训练集被分成多个批次进行分批优化;初始学习率设置为1×10-4,使用指数衰减方法,每训练200步长下降到原来的0.8倍,训练参数采用自适应方法Adam进行优化;最后保存训练好的人群分布预测模型。
在本发明一实施例中,所述步骤S5具体实现步骤如下:
步骤S51、对待测图像序列I进行变换大小和数据归一化预处理,得到预处理图像序列
Figure BDA0002926213480000046
步骤S52、使用人群密度估计模型生成待测图像序列
Figure BDA0002926213480000048
对应的人群密度图序列D;
步骤S53、使用图像序列的最后两张图像
Figure BDA0002926213480000047
计算光流F,并将光流F映射到图像序列中的最后一张图像对应的人群密度图Dt+(N-1)Δt作为光流法预测的密度图M;
步骤S54:将图像序列
Figure BDA0002926213480000051
密度图序列D、光流法预测的密度图M输入已训练的人群分布预测模型,得到预测出的人群分布预测密度图
Figure BDA0002926213480000052
步骤S55、估计人群数量
Figure BDA0002926213480000053
对预测密度图
Figure BDA0002926213480000054
的所有像素值
Figure BDA0002926213480000055
进行累加求和即可得到估计的人群数量,其公式如下:
Figure BDA0002926213480000056
其中,H、W分别为预测密度图的高和宽,
Figure BDA0002926213480000057
为预测密度图
Figure BDA0002926213480000058
中第i个像素点的数值。
本发明还提供了一种基于双流卷积神经网络的人群分布预测系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
相较于现有技术,本发明具有以下有益效果:本发明适用于在稀疏或密集的人群场景下,预测该场景未来的人群分布情况、估计人群数量。现有的研究主要针对人群过去或当前的状态分析、在稀疏的人群场景下预测个人轨迹等,这些方法很难用于在高度密集的人群场景下提前做出预测以做出未来是否存在危险的判断并发出警告,基于此,我们提出一种基于双流卷积神经网络的人群分布预测方法。该方法使用预处理的图像序列及其对应的人群估计密度图作为模型输入,通过提出的双流卷积神经网络提取图像和密度图时间和空间特征,在光流法预测的未来密度图基础上进行残差计算,能更准确地预测稀疏或密集的人群场景下未来的人群分布情况、估计人群数量。
附图说明
图1是本发明方法的实现流程图。
图2是本发明实施例中双流卷积神经网络模型的结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本发明提供一种基于双流卷积神经网络的人群分布预测方法,如图1、2所示,包括以下步骤:
步骤S1、对从视频中提取的待训练图像序列数据预处理,首先对图像序列中的所有图像变换大小,然后对变换大小后的所有图像进行数据归一化处理,最后生成图像序列中每张图像对应的人群密度图;
步骤S11、对从视频中提取的间隔为Δt的图像序列I中所有图像变换大小,使用线性插值的方法将提取的原图像变换到N×N大小的图像;
步骤S12、对变换大小后的图像进行数据归一化预处理,给定在t时刻的变换图像It(h,w),计算归一化图像
Figure BDA00029262134800000610
的公式如下:
Figure BDA0002926213480000061
其中,(h,w)表示像素的位置;
步骤S13、生成图像序列中每张图像对应的人群密度图,若在图像
Figure BDA0002926213480000062
中的像素点xp上存在标记的人头,则可以使用冲激函数对其描述为δ(x-xp),对于图像
Figure BDA0002926213480000063
中标记的Q个人头可以表示为如下式:
Figure BDA0002926213480000064
其中,x为图像
Figure BDA0002926213480000065
的任意像素点,H(x)为图像
Figure BDA0002926213480000066
的人头标记的真实标签。那么,在t时刻的真实密度图Dt可以通过对H(x)使用几何自适应高斯核滤波器
Figure BDA00029262134800000611
进行卷积操作,最终生成的密度图Dt可以表示为:
Figure BDA0002926213480000067
Figure BDA0002926213480000068
Figure BDA0002926213480000069
其中,*为卷积计算,i为图像中的第i个人头,σi用来控制第i个人头的高斯核能量分布,
Figure BDA0002926213480000071
为第i个人头与k个近邻人头距离的平均值,
Figure BDA0002926213480000072
为第i个人头与第j个近邻人头的距离,β设置为0.1,k设置为3;
步骤S2、设计双流卷积神经网络结构,分别针对归一化的图像序列、图像序列对应的密度图序列构造F2D-Net子网络、D2D-Net子网络,并通过融合模块对两个子网络的输出进行融合,包括以下步骤:
步骤S21、设计一种双流卷积神经网络结构用于训练人群分布预测模型,该网络结构包括子网络F2D-Net、子网络D2D-Net和融合模块;
步骤S22、子网络F2D-Net前半部分由4个3D Inception模块完成对归一化图像序列在时间维度、空间维度上的特征提取,其中前3个3D Inception模块后面伴随最大池化层以完成下采样;后半部分由3个3D卷积层+3D反卷积层构成,对网络前半部分提取的特征进行上采样,生成和输入的归一化图像相同大小的特征图。该子网络的输入为预处理后的t到t+(N-1)Δt时刻的有序图像序列
Figure BDA0002926213480000073
步骤S23、子网络D2D-Net使用3D U-Net结构,以提升网络从密度图序列中在空间维度、时间维度上提取人群分布特征的能力,该子网络的输入为图像序列
Figure BDA0002926213480000074
对应时刻的真实密度图序列D=Dt,Dt+Δt,...,Dt+(N-1)Δt
步骤S24、融合模块由通道注意力机制模块、空间注意力机制模块构成,将子网络F2D-Net、子网络D2D-Net的输出在通道维度上拼接之后,分别经由通道注意力机制模块、空间注意力机制模块处理,以加强网络在时空上的特征提取能力;
步骤S3、使用归一化图像序列中的最后两张图像计算光流,并将光流映射到图像序列中的最后一张归一化图像对应的密度图作为光流法预测的密度图,将该密度图与F2D-Net、D2D-Net预测的特征通过注意力机制模块融合的特征图进行融合,生成未来的人群分布密度图,包括以下步骤:
步骤S31、使用图像序列中的最后两张图像计算光流,其中前一张图像
Figure BDA0002926213480000075
的像素点(x,y)在后一张图像
Figure BDA0002926213480000076
的像素点中的最佳匹配点为(x′,y′),则该点的光流为:
F=(u,v)=(x′-x,y′-y)
其中,u和v分别代表像素点(x,y)发生水平位移和垂直位移的变化率;
步骤S32、将光流F映射到图像序列中的最后一张图像
Figure BDA0002926213480000077
对应的密度图Dt+(N-1)Δt作为光流法预测的密度图M,对M的像素点(a,b)计算方法如下:
M(a,b)=Dt+(N-1)Δt(a-u,b-v)
步骤S32、将该密度图M与F2D-Net、D2D-Net预测的特征通过注意力机制模块融合的特征图进行逐像素点加,生成未来的人群分布密度图
Figure BDA0002926213480000081
步骤S4、结合均方误差和结构相似性误差对该双流卷积神经网络设计损失函数,使用所设计的网络训练人群分布预测模型,包括以下步骤:
步骤S41、该双流卷积神经网络使用均方误差(LMSE)、结构相似性误差(LSSIM)加权求和计算训练损失Lsum,其公式分别如下:
Lsum=LMSE+ω×LSSIM
其中,LMSE是未来时刻真实的分布密度图和预测的分布密度图之间
Figure BDA0002926213480000082
的均方误差,LSSIM是未来时刻真实的分布密度图和预测的分布密度图之间的结构相似性误差,ω为结构相似性误差的权重;
步骤S42、使用所设计的网络训练人群分布预测模型,网络通过多次迭代进行反向传播。在每次迭代中,训练集被分成多个批次进行分批优化。初始学习率设置为1×10-4,使用指数衰减方法,每训练200步长下降到原来的0.8倍,训练参数采用自适应方法Adam进行优化。最后保存训练好的人群分布预测模型。
步骤S5、对待测图像序列进行预处理,利用训练好的模型预测未来的人群分布密度图并估计人群数量,包括以下步骤:
步骤S51、对待测图像序列I进行变换大小和归一化预处理,得到预处理图像序列
Figure BDA0002926213480000089
步骤S52、使用已有的人群密度估计模型,如SANet(Scale AggregationNetwork),生成待测图像序列
Figure BDA00029262134800000810
对应的密度图序列D;
步骤S53、使用图像序列的最后两张图像
Figure BDA0002926213480000083
计算光流F,并将光流F映射到图像序列中的最后一张图像对应的密度图Dt+(N-1)Δt作为光流法预测的密度图M;
步骤S54、将图像序列
Figure BDA0002926213480000084
密度图序列D、光流法预测的密度图M输入已训练的人群分布预测模型,得到模型预测出的人群分布预测密度图
Figure BDA0002926213480000085
步骤S55、估计人群数量
Figure BDA0002926213480000086
对预测密度图
Figure BDA0002926213480000087
的所有像素值
Figure BDA0002926213480000088
进行累加求和即可得到估计的人群数量,其公式如下:
Figure BDA0002926213480000091
其中,H、W分别为预测密度图的高和宽,
Figure BDA0002926213480000092
为预测密度图
Figure BDA0002926213480000093
中第i个像素点的数值。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (7)

1.一种基于双流卷积神经网络的人群分布预测方法,其特征在于,包括以下步骤:
步骤S1、对从视频中提取的待训练图像序列进行数据预处理,首先将图像序列中的所有图像变换大小,然后对变换大小后的所有图像进行数据归一化处理,最后生成图像序列中每张图像对应的人群密度图;
步骤S2、设计双流卷积神经网络结构,分别针对归一化的图像序列、图像序列对应的人群密度图序列构造F2D-Net子网络、D2D-Net子网络,并通过融合模块对两个子网络的输出进行融合;
步骤S3、使用归一化图像序列中的最后两张图像计算光流,并将光流映射到图像序列中的最后一张归一化图像对应的人群密度图作为光流法预测的密度图,将该密度图与F2D-Net子网络、D2D-Net子网络预测的特征通过融合模块融合的特征图进行融合,生成未来的人群分布密度图;
步骤S4、结合均方误差和结构相似性误差对双流卷积神经网络设计损失函数,使用所设计的双流卷积神经网络训练人群分布预测模型;
步骤S5、对待测图像序列进行数据预处理,利用训练好的人群分布预测模型预测未来的人群分布密度图并估计人群数量。
2.根据权利要求1所述的一种基于双流卷积神经网络的人群分布预测方法,其特征在于,所述步骤S1具体实现步骤如下:
步骤S11、对从视频中提取的间隔为Δt的图像序列I中所有图像使用线性插值的方法变换到N×N大小;
步骤S12、对变换大小后的图像进行数据归一化预处理,给定在t时刻的变换图像It(h,w),计算归一化图像
Figure FDA0002926213470000011
的公式如下:
Figure FDA0002926213470000012
其中,(h,w)表示像素的位置;
步骤S13、生成图像序列中每张图像对应的人群密度图,若在图像
Figure FDA0002926213470000013
中的像素点xp上存在标记的人头,则可以使用冲激函数对其描述为δ(x-xp),对于图像
Figure FDA0002926213470000014
中标记的Q个人头可以表示为如下式:
Figure FDA0002926213470000015
其中,x为图像
Figure FDA0002926213470000016
的任意像素点,H(x)为图像
Figure FDA0002926213470000017
的人头标记的真实标签;那么,在t时刻的真实密度图Dt可以通过对H(x)使用几何自适应高斯核滤波器
Figure FDA0002926213470000021
进行卷积操作,最终生成的人群密度图Dt可以表示为:
Figure FDA0002926213470000022
Figure FDA0002926213470000023
Figure FDA0002926213470000024
其中,*为卷积计算,i为图像中的第i个人头,σi用来控制第i个人头的高斯核能量分布,
Figure FDA0002926213470000025
为第i个人头与k个近邻人头距离的平均值,
Figure FDA0002926213470000026
为第i个人头与第j个近邻人头的距离,β设置为0.1,k设置为3。
3.根据权利要求1所述的一种基于双流卷积神经网络的人群分布预测方法,其特征在于,所述步骤S2具体实现步骤如下:
步骤S21、设计一种双流卷积神经网络结构用于训练人群分布预测模型,该网络结构包括F2D-Net子网络、D2D-Net子网络和融合模块;
步骤S22、F2D-Net子网络前半部分由4个3D Inception模块完成对归一化图像序列在时间维度、空间维度上的特征提取,其中前3个3D Inception模块后面伴随最大池化层以完成下采样;后半部分由3个3D卷积层+3D反卷积层构成,对网络前半部分提取的特征进行上采样,生成和输入的归一化图像相同大小的特征图;该F2D-Net子网络的输入为预处理后的t到t+(N-1)Δt时刻的有序图像序列
Figure FDA0002926213470000027
步骤S23、D2D-Net子网络使用3D U-Net结构,以提升网络从密度图序列中在空间维度、时间维度上提取人群分布特征的能力,该D2D-Net子网络的输入为图像序列
Figure FDA0002926213470000028
Figure FDA0002926213470000029
对应时刻的真实密度图序列D=Dt,Dt+Δt,…,Dt+(N-1)Δt
步骤S24、融合模块由通道注意力机制模块、空间注意力机制模块构成,将F2D-Net子网络、D2D-Net子网络的输出在通道维度上拼接之后,分别经由通道注意力机制模块、空间注意力机制模块处理,以加强网络在时空上的特征提取能力。
4.根据权利要求1所述的一种基于双流卷积神经网络的人群分布预测方法,其特征在于,所述步骤S3具体实现步骤如下:
步骤S31、使用图像序列中的最后两张图像计算光流,其中前一张图像
Figure FDA00029262134700000210
的像素点(x,y)在后一张图像
Figure FDA00029262134700000211
的像素点中的最佳匹配点为(x',y'),则该点的光流为:
F=(u,v)=(x′-x,y′-y)
其中,u和v分别代表像素点(x,y)发生水平位移和垂直位移的变化率;
步骤S32、将光流F映射到图像序列中的最后一张图像
Figure FDA0002926213470000031
对应的密度图Dt+(N-1)Δt作为光流法预测的密度图M,对M的像素点(a,b)计算方法如下:
M(a,b)=Dt+(N-1)Δt(a-u,b-v)
步骤S32、将该密度图M与F2D-Net子网络、D2D-Net子网络预测的特征通过注意力机制模块融合的特征图进行逐像素点加,生成未来的人群分布密度图
Figure FDA0002926213470000032
5.根据权利要求1所述的一种基于双流卷积神经网络的人群分布预测方法,其特征在于,所述步骤S4具体实现步骤如下:
步骤S41、双流卷积神经网络使用均方误差(LMSE)、结构相似性误差(LSSIM)加权求和计算训练损失Lsum,其公式分别如下:
Lsum=LMSE+ω×LSSIM
其中,LMSE是未来时刻真实的分布密度图和预测的分布密度图
Figure FDA0002926213470000033
之间的均方误差,LSSIM是未来时刻真实的分布密度图和预测的分布密度图之间的结构相似性误差,ω为结构相似性误差的权重;
步骤S42、使用所设计的双流卷积神经网络训练人群分布预测模型,双流卷积神经网络通过多次迭代进行反向传播;在每次迭代中,训练集被分成多个批次进行分批优化;初始学习率设置为1×10-4,使用指数衰减方法,每训练200步长下降到原来的0.8倍,训练参数采用自适应方法Adam进行优化;最后保存训练好的人群分布预测模型。
6.根据权利要求1所述的一种基于双流卷积神经网络的人群分布预测方法,其特征在于,所述步骤S5具体实现步骤如下:
步骤S51、对待测图像序列I进行变换大小和数据归一化预处理,得到预处理图像序列
Figure FDA0002926213470000034
步骤S52、使用人群密度估计模型生成待测图像序列
Figure FDA0002926213470000035
对应的人群密度图序列D;
步骤S53、使用图像序列的最后两张图像
Figure FDA0002926213470000036
计算光流F,并将光流F映射到图像序列中的最后一张图像对应的人群密度图Dt+(N-1)Δt作为光流法预测的密度图M;
步骤S54:将图像序列
Figure FDA0002926213470000037
密度图序列D、光流法预测的密度图M输入已训练的人群分布预测模型,得到预测出的人群分布预测密度图
Figure FDA0002926213470000038
步骤S55、估计人群数量
Figure FDA0002926213470000041
对预测密度图
Figure FDA0002926213470000042
的所有像素值
Figure FDA0002926213470000043
进行累加求和即可得到估计的人群数量,其公式如下:
Figure FDA0002926213470000044
其中,H、W分别为预测密度图的高和宽,
Figure FDA0002926213470000045
为预测密度图
Figure FDA0002926213470000046
中第i个像素点的数值。
7.一种基于双流卷积神经网络的人群分布预测系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-6所述的方法步骤。
CN202110134261.2A 2021-02-01 2021-02-01 一种基于双流卷积神经网络的人群分布预测方法及其系统 Active CN112767451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110134261.2A CN112767451B (zh) 2021-02-01 2021-02-01 一种基于双流卷积神经网络的人群分布预测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110134261.2A CN112767451B (zh) 2021-02-01 2021-02-01 一种基于双流卷积神经网络的人群分布预测方法及其系统

Publications (2)

Publication Number Publication Date
CN112767451A true CN112767451A (zh) 2021-05-07
CN112767451B CN112767451B (zh) 2022-09-06

Family

ID=75704411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110134261.2A Active CN112767451B (zh) 2021-02-01 2021-02-01 一种基于双流卷积神经网络的人群分布预测方法及其系统

Country Status (1)

Country Link
CN (1) CN112767451B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191301A (zh) * 2021-05-14 2021-07-30 上海交通大学 融合时序和空间信息的视频密集人群计数方法及系统
CN113283343A (zh) * 2021-05-26 2021-08-20 上海商汤智能科技有限公司 人群定位方法及装置、电子设备和存储介质
CN113297983A (zh) * 2021-05-27 2021-08-24 上海商汤智能科技有限公司 人群定位方法及装置、电子设备和存储介质
CN113408577A (zh) * 2021-05-12 2021-09-17 桂林电子科技大学 一种基于注意力机制的图像分类方法
CN113536996A (zh) * 2021-06-30 2021-10-22 大连海事大学 一种基于大量真实人群运动视频的人群运动仿真方法
CN114581859A (zh) * 2022-05-07 2022-06-03 北京科技大学 一种转炉下渣监测方法及系统
CN114639070A (zh) * 2022-03-15 2022-06-17 福州大学 融合注意力机制的人群运动流量分析方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098751A1 (en) * 2004-04-08 2005-10-20 Mobileye Technologies Limited Crowd detection
CN110287870A (zh) * 2019-06-25 2019-09-27 大连大学 基于综合光流特征描述符及轨迹的人群异常行为检测方法
CN110852267A (zh) * 2019-11-11 2020-02-28 复旦大学 基于光流融合型深度神经网络的人群密度估计方法及装置
CN111339908A (zh) * 2020-02-24 2020-06-26 青岛科技大学 基于多模态信息融合与决策优化的组群行为识别方法
CN111611878A (zh) * 2020-04-30 2020-09-01 杭州电子科技大学 一种基于视频图像的人群计数和未来人流量预测的方法
CN111753651A (zh) * 2020-05-14 2020-10-09 南京熊猫电子股份有限公司 一种基于车站二维人群密度分析的地铁群体异常行为检测方法
CN111815665A (zh) * 2020-07-10 2020-10-23 电子科技大学 基于深度信息与尺度感知信息的单张图像人群计数方法
CN111832413A (zh) * 2020-06-09 2020-10-27 天津大学 基于时空多尺度网络的人流密度图估计、定位和跟踪方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005098751A1 (en) * 2004-04-08 2005-10-20 Mobileye Technologies Limited Crowd detection
CN110287870A (zh) * 2019-06-25 2019-09-27 大连大学 基于综合光流特征描述符及轨迹的人群异常行为检测方法
CN110852267A (zh) * 2019-11-11 2020-02-28 复旦大学 基于光流融合型深度神经网络的人群密度估计方法及装置
CN111339908A (zh) * 2020-02-24 2020-06-26 青岛科技大学 基于多模态信息融合与决策优化的组群行为识别方法
CN111611878A (zh) * 2020-04-30 2020-09-01 杭州电子科技大学 一种基于视频图像的人群计数和未来人流量预测的方法
CN111753651A (zh) * 2020-05-14 2020-10-09 南京熊猫电子股份有限公司 一种基于车站二维人群密度分析的地铁群体异常行为检测方法
CN111832413A (zh) * 2020-06-09 2020-10-27 天津大学 基于时空多尺度网络的人流密度图估计、定位和跟踪方法
CN111815665A (zh) * 2020-07-10 2020-10-23 电子科技大学 基于深度信息与尺度感知信息的单张图像人群计数方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHONG YUE ET AL.: "Study on the Identification method of Human Upper Limb Flag Movements based on Inception-ResNet Double Stream Network", 《 IEEE ACCESS》 *
石天齐: "基于深度学习的复杂场景人群动态理解研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408577A (zh) * 2021-05-12 2021-09-17 桂林电子科技大学 一种基于注意力机制的图像分类方法
CN113191301A (zh) * 2021-05-14 2021-07-30 上海交通大学 融合时序和空间信息的视频密集人群计数方法及系统
CN113283343A (zh) * 2021-05-26 2021-08-20 上海商汤智能科技有限公司 人群定位方法及装置、电子设备和存储介质
WO2022247091A1 (zh) * 2021-05-26 2022-12-01 上海商汤智能科技有限公司 人群定位方法及装置、电子设备和存储介质
CN113297983A (zh) * 2021-05-27 2021-08-24 上海商汤智能科技有限公司 人群定位方法及装置、电子设备和存储介质
CN113536996A (zh) * 2021-06-30 2021-10-22 大连海事大学 一种基于大量真实人群运动视频的人群运动仿真方法
CN113536996B (zh) * 2021-06-30 2022-04-15 大连海事大学 一种基于大量真实人群运动视频的人群运动仿真方法
CN114639070A (zh) * 2022-03-15 2022-06-17 福州大学 融合注意力机制的人群运动流量分析方法
CN114639070B (zh) * 2022-03-15 2024-06-04 福州大学 融合注意力机制的人群运动流量分析方法
CN114581859A (zh) * 2022-05-07 2022-06-03 北京科技大学 一种转炉下渣监测方法及系统
CN114581859B (zh) * 2022-05-07 2022-09-13 北京科技大学 一种转炉下渣监测方法及系统

Also Published As

Publication number Publication date
CN112767451B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN112767451B (zh) 一种基于双流卷积神经网络的人群分布预测方法及其系统
CN109829436B (zh) 基于深度表观特征和自适应聚合网络的多人脸跟踪方法
CN110660082B (zh) 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法
Zhang et al. Attentional neural fields for crowd counting
CN109872346B (zh) 一种支持循环神经网络对抗学习的目标跟踪方法
Ribeiro et al. Human activity recognition from video: modeling, feature selection and classification architecture
CN107122736B (zh) 一种基于深度学习的人体朝向预测方法及装置
CN110737968B (zh) 基于深层次卷积长短记忆网络的人群轨迹预测方法及系统
CN110781838A (zh) 一种复杂场景下行人的多模态轨迹预测方法
CN111626128A (zh) 一种基于改进YOLOv3的果园环境下行人检测方法
CN111191667A (zh) 基于多尺度生成对抗网络的人群计数方法
CN113362368B (zh) 一种基于多层次时空图神经网络的人群轨迹预测方法
CN113096161A (zh) 一种密集行人环境下强化学习移动机器人的导航方法及装置
CN110096938A (zh) 一种视频中的动作行为的处理方法和装置
CN108596157A (zh) 一种基于运动检测的人群惊扰场景检测方法及系统
Zhang et al. Social-IWSTCNN: A social interaction-weighted spatio-temporal convolutional neural network for pedestrian trajectory prediction in urban traffic scenarios
CN117077727B (zh) 基于时空注意力机制和神经常微分方程的轨迹预测方法
Wang et al. Multi-agent trajectory prediction with spatio-temporal sequence fusion
CN108280408B (zh) 一种基于混合跟踪和广义线性模型的人群异常事件检测方法
CN117314956A (zh) 一种基于图神经网络的交互行人轨迹预测方法
Son et al. Partial convolutional LSTM for spatiotemporal prediction of incomplete data
Leyva et al. Video anomaly detection based on wake motion descriptors and perspective grids
CN111681264A (zh) 一种监控场景的实时多目标跟踪方法
CN115188081B (zh) 一种面向复杂场景的检测跟踪一体化方法
Waddenkery et al. Adam-Dingo optimized deep maxout network-based video surveillance system for stealing crime detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant