CN111860162B

CN111860162B - 一种视频人群计数系统及方法

Info

Publication number: CN111860162B
Application number: CN202010555547.3A
Authority: CN
Inventors: 吴祺尧; 张重阳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2023-10-31
Anticipated expiration: 2040-06-17
Also published as: CN111860162A

Abstract

本发明公开了一种视频人群计数系统及方法，其中：前端编码器对给定视频序列中的一帧图像进行特征提取；共同监督模块利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰；空间注意力模块利用浅层结构特征，选择注意力区域，引导系统区分前景人群和背景干扰；多尺度自我监督模块利用深层语义特征，通过多分支结构提取图像中人群的不同尺度特征，并通过自注意力机制对上下文特征信息进行自适应整合，自主选取最合适的尺度分支特征；后端解码器，将上述三个模块提取的特征融合并输出预测人群密度图，进而计算出待测视频帧中所含人数。本发明根据视频序列对包含的每一帧图像进行人群数量估计，实现针对视频序列的密集人群计数。

Description

一种视频人群计数系统及方法

技术领域

本发明涉及监控视频下的密集人群计数技术领域，具体地，涉及一种视频人群计数系统及方法。

背景技术

密集人群计数和人群密度估计在计算机视觉中具有重要的意义，因为它在包括物理安全、公共空间管理和公共场所建筑设计在内的应用中发挥着举足轻重的作用。密集人群计数问题旨在估计一张图片指定目标区域(region of interest,ROI)中人的数量。近年来已经有很多类方法应用至密集人群计数问题。最初，研究人员提出基于检测的方法，但检测器在那些具有剧烈场景、尺度变换以及严重的遮挡现象的图片时性能较差。所以，基于回归任务的方法成为了研究的主流。回归任务的目标是学习一个函数来表征全局人群特征。在测试时，将输入图片通过学习的函数映射到一个具体的计数值。具体地，设定目标是估计输入图像的人群密度图，密度图中的每个像素值代表了输入图像对应位置的人群密度，进而通过求和运算来得到最终的人群计数值。一般地，任务给定的训练数据包含两部分：输入图像以及图像中所有出现的人头二维坐标值。

在密集人群计数研究中，一些早期的回归方法使用了人为构造的特征，这类型的方法仅针对特定的数据集或者场景，普适性以及鲁棒性极其不好。2015年来，随着深度卷积神经网络(deep CNN)的迅猛发展，人们更加青睐于构造一个精心设计的神经网络结构来使网络自行学习图片特征。这类型的方法易于移植，且学习到的深度特征远好于手工设计的特征。Zhang et al.设计了含有不同感受野多支路CNN(MCNN)，通过融合各支学习的多尺度特征来提高密度图(density map)尺度感知能力。相似地，借鉴图片金字塔的想法，ScalePyramid Network(SPN)将输入图片分为多尺度输入网络来使网络学习到多分辨率的特征。2017年，Vishwanath et al.在MCNN的基础上增加了多任务学习的方法，使其网络可以同时学习人群计数分类任务以及密度估计任务，并将计数分类任务设定为辅助任务来帮助提升密度估计的性能。而Switch CNN则在MCNN的基础上设计了三个不同分辨率的独立回归网络，并通过前置一个CNN分类器来判断输入图像的人群尺度属于哪一回归支路，进而保证网络能最大程度学习到多个尺度的独立特征。最近，Li et al.使用VGG16作为骨干(backbone)网络，通过空洞卷积网络以及编码-解码(encoder-decoder)模型建立了叫做CSRNet的深度神经网络，在密集人群计数的多个数据集上达到了极好的效果。这些网络都证明了引入新的深层结构有利于学习更健壮的特征，从而提高计数性能。Liu et al.将多尺度上下文信息直接整合到端到端可训练的人群计数串联神经网络中，试图使构造的网络学习基于图像像素点的周边信息来提取人群边缘特征，进而更好地区分前后景信息。

最近，注意力机制(attention mechanisms)融入了CNN的设计中。注意力机制完美刻画了人类在视觉感知特征，即首先排除无关背景，仅在存在人群的区域进行计数。注意力机制一开始在视觉问答(visual question answering,VQA)中被提出，旨在使解码器(decoder)从当前输入中学习到下一帧或者下一组字符串的有关信息。而在密集人群计数问题中，注意力机制的引入可以使网络选择图片中有用或者相关的特征，通过简单点乘或者一个特定的函数将注意力特征与原网络特征提取器学习的特征相融合，来改善最终的人群密度图。最优秀的工作当属HA-CCN，作者选取VGG16作为骨干网络，并在骨干网络第三个卷积模块特征后加入空间注意力模块(Spatial Attention Module)，在第四个和第五个卷积模块后加入全局注意力模块(Global Attention Module)。空间注意力模块选择特征图中与人群相关的空间信息来加强相关区域的特征响应值，而全局注意力模块旨在抑制特征图中的无关通道和冗余通道。Liu et al.提出了两阶段的串联CNN，第一阶段网络用于产生输入图像的注意力特征图，而第二阶段网络用于生成人群密度图。注意力网络不仅给密度估计网络提供了前后景先验信息，而且给出了输入图像的人群密度先验信息，使后阶段网络可以学习到多尺度信息。

但是，由于缺乏鲁棒性，所有上述提到的方法在多变的场景下都无法获得稳定的性能。特别地，针对如监控视频的视频人群计数任务中，上述方法均存在很大的计数波动，而且需要针对特定场景进行长时间训练才能达到不错的效果。传统密集人群计数方法往往仅专注于解决单帧静止图像的计数问题，而且这些方法通常仅在有限的几个数据集上得到不错的效果。而在现实生活中，人们往往需要动态监控人流的实时密度，且希望给出的预测数字尽量不随场景变化(如光照条件、人群密度变化等)而产生巨大的性能波动。这对所设计的深度神经网络提出了很高的鲁棒性要求。而在实验中发现，现有的多个经典方法如MCNN、CSRNet等均在视频数据集上有强烈的计数抖动问题，这是因为这些传统针对静态图像的神经网络过拟合于单一场景或者单一人群分布，过度学习了一个训练集上的静止特征而忽略了视频中的时间信息以及其他时空相关性信息。此外，现有的一些方法即使使用到了视频中的部分相关性特征并将它们加入了网络设计中，但是他们往往存在着参数过于庞大或者有着强过拟合性的缺点。例如，DTM使用了LSTM的思想，将视频的时序性加入网络设计中，使用前几帧的输入图片特征来指导当前帧的密度估计。但是，由于网络参数过于大，DTM很容易产生过拟合问题，故它只能在场景单一的数据集中取得很不错的效果。当它面对灵活多变的场景时，网络训练不收敛的问题十分严重，致使其方法仅能适合极其有限的应用场景，不具有鲁棒性。

综上所述，现有的密集人群计数方法对于某些人群尺寸变化不大或者遮挡不是很严重的目标可以很好地进行计数预测，但是由于现实应用场景比较复杂，目标人群分布不均匀，以及毫无遮挡或较少遮挡的只占很小的一部分，对于距离较远的小尺寸人群或者距离镜头较近的大尺寸目标，物体遮挡\自遮挡目标以及偶尔存在于图片的人群孤立簇，计数结果并不是很好，且帧与帧之间存在剧烈的计数抖动问题。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种视频人群计数系统及方法，根据视频序列对包含的每一帧图像进行人群数量估计，实现针对视频序列的密集人群计数。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种视频人群计数系统，包括：

前端编码器，所述前端编码器对给定视频序列中的一帧图像进行特征提取，其中，所提取的特征包括浅层结构特征和深层语义特征；

共同监督模块，所述共同监督模块利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰，得到视频序列帧间相关特征，其中所述视视频序列帧间相关特征包括帧间时间相关特征以及帧间空间相关特征；

空间注意力模块，所述空间注意力模块利用浅层结构特征，选择注意力区域，引导系统区分前景人群和背景干扰，得到单帧空间特征；

多尺度自我监督模块，所述多尺度自我监督模块利用深层语义特征，通过多分支结构提取图像中人群的不同尺度特征，并通过自注意力机制对上下文特征信息进行自适应整合，自主选取最合适的尺度分支特征，得到单帧尺度特征；

后端解码器，所述后端解码器将共同监督模块、空间注意力模块和多尺度自我监督模块提取的视频序列帧间相关特征、单帧空间特征和单帧尺度特征融合并输出预测人群密度图，进而计算出待测视频帧中所含人数。

优选地，所述前端编码器，包括两路特征提取网络，分别用于提取视频序列中当前待测帧(frame t)及前续帧(frame t-1)的视觉特征；其中每一路特征提取网络均包括一个深度卷积神经网络DCNN，所述深度卷积神经网络DCNN包括五个卷积块以及与卷积块级联的四组空洞率为2的二维卷积层，两个深度卷积神经网络DCNN之间参数共享；输入图像通过深度卷积神经网络DCNN的前三个卷积块所得到的特征定义为浅层结构特征，经过完整的深度卷积神经网络DCNN所提取到的特征定义为深层语义特征。

优选地，所述共同监督模块利用共同监督机制中的对称监督机制计算前续帧与待测帧之间的相关特征，并利用当前测试帧作为全局基础进行特征提取与融合，得到视频序列帧间相关特征；利用门函数机制，通过加权层调节输出共同监督后的特征来抑制特征提取单元所提取特征中潜在的帧间差异、遮挡以及噪声干扰。

优选地，所述对称监督机制包括：

通过前端编码器得到前续帧与待测帧各自的深层语义特征来计算关联矩阵A：

W＝P^-1DP

其中，F_a为目标帧的图像特征，F_b为查询帧的图像特征，其中目标帧定义为当前待测图片，查询帧则为视频序列基于当前待测帧的前续帧；为权重矩阵；将F_a与F_b转换为二维矩阵表示形式，维度大小为C×(WH)，P为可逆矩阵，D为对角矩阵；

限制权重矩阵W为对称矩阵，则投影矩阵为正交矩阵，满足P^TP＝I，其中I为单位矩阵，维度大小为(C,C)；对称共同监督由公式导出：

其中，将特征F_a与F_b投影至正交空间并且保证F_a与F_b在新空间中的范数保持不变，进而消除不同通道(C-维度)之间的相关性，改善系统的普适性。

优选地，所述门函数用于生成置信度矩阵；其中，门函数f_g如下所示：

f_g(F_a)＝σ(w_fF_a+b_f)∈[0,1]^WH，f_g(F_b)＝σ(w_fF_b+b_f)∈[0,1]^WH,

其中，σ为logistic sigmoid激活函数，C_a和C_b分别为经过朴素共同监督或者对称共同监督输出的目标帧特征和查询帧特征；

所述门函数使用全连接层来实现，w_f为门函数的权重值，b_f为偏差值(bias)；通过已经计算的关联矩阵A，C_a与C_b使用下述公式得到，其中A^c＝softmax(A)：

将门函数的输出f_g与之前得到的输出的特征C做哈达玛乘积，即得到共同监督后的特征C′：

C_a′＝C_a☉f_g(F_a),C_b′＝C_b☉f_g(F_b)。

优选地，所述空间注意力模块包括多个级联的二维卷积层和最后激活层；其中：

所述二维卷积层的输出端生成预测分割图S^o；

将浅层结构特征F作为空间注意力模块的输入，空间注意力模块的输出为密度权重图F^s，则密度权重图F^s为浅层结构特征F与预测分割图S^o的哈达玛乘积：

F^s＝F☉S^o

所述最后激活层采用二分类logistic激活函数，利用得到的密度权重图F^s，保留了部分原始特征，又通过注意力机制指导系统分辨前景人群和背景干扰。

所述注意力机制，即为一种机制可使得系统通过人为设计的结构(包括但不限于模块、网络等，本发明中以设计模块结构为例)通过深度学习得到具备专注于其输入(或特征)子集的能力。

优选地，所述多尺度自我监督模块通过多分支结构所蕴含的不同感受野的特点来提取图像中人群的不同尺度特征，包括瓶颈层以及设置于瓶颈层后端的四分支结构，其中每一个分支均包括具有不同滤波器大小的卷积层的多个块，所述瓶颈层用于降低特征维度。

优选地，所述多尺度自我监督模块采用自适应特征选择机制，将多尺度特征进行加权融合；其中，自适应特征选择机制能够与上下文特征信息、前背景特征信息和/或图像深度特征信息相结合。

优选地，所述多尺度自我监督模块采用自注意力机制对上下文特征信息进行自适应整合，自主选取最合适的尺度分支特征，包括：

计算一种相关程度，表示为：查询向量Q以及键值对向量K通过一个函数映射到输出上，且输出是键值对中值向量的加权平均值，权重由查询向量Q与键值对向量K计算出来；

所选取的键值对向量和查询向量均来至同一输入特征矩阵；对于目标帧的输入深层语义特征矩阵F_a，使用三个独立的空洞二维卷积层分别提取查询向量Q(query)、键值对向量K(key)、值向量V(value)。

使用空洞二维卷积层保证了输出特征的尺寸保持不变，使得融合特征时不需要额外的调整尺寸的操作；

在多尺度特征选择上加入自注意力机制将一个区域的特征与其他所有区域计算相关度，不仅实现了对上下文特征信息进行自适应整合，而且达到了有选择性地自主选取最合适的尺度分支特征的目的。

优选地，利用整体损失之和对系统进行训练。

优选地，所述整体损失包括主损失函数L_den和辅助正则损失函数L_λ、辅助分割损失函数L_s以及辅助计数损失函数L_count：

L_λ＝λ₁|WW^T-I|,

其中，参数λ₁、λ₃用于平衡相应损失，根据实验选取；

整体损失之和L为：

L＝L_den+L_λ+λ₂L_s+L_count；

其中，参数λ₂用于平衡相应损失，根据实验选取。

优选地，采用分阶段训练的方法，包括：

第一阶段，首先预训练空间注意力模块以及多尺度自我监督模块，当空间注意力模块的分割误差不再显著下降，即预测精度达到一定程度时，空间注意力模块结束第一阶段训练；同样地，当多尺度自我监督模块的损失误差收敛时则结束第一阶段预训练；所述空间注意力模块预训练时的损失函数选取主损失函数加上辅助分割损失函数L_s，即为L_den+λ₂L_s，所述多尺度自我监督模块预训练时的损失函数选取主损失函数L_den；

第二阶段为联合训练，将系统的所有模块均加入训练，经过了第一阶段的预训练，且前端编码器的参数初始化采用深度卷积神经网络DNCC在ImageNet预训练完毕的权重值，系统训练速度和收敛性将得到一定保证；当训练误差陷入平台期时将学习了降低一个数量级，平台期最大长度为五个周期；此阶段训练时损失函数为L＝L_den+L_λ+λ₂L_s+L_count，当损失误差收敛时则结束此阶段训练；

第三阶段，测试阶段，系统采用滑动窗口的方法，滑动距离为237个像素；当满足滑动窗口终止条件时，通过后处理去除重复计数部分来得到最终的预测计数值；其中，终止条件为：窗口左边界坐标大于等于输入图片右边界坐标，且窗口上边界坐标大于等于输入图片下边界坐标。

根据本发明的另一个方面，提供了一种视频人群计数方法，包括：

对给定视频序列中的一帧图像进行特征提取，其中，所提取的特征包括浅层结构特征和深层语义特征；

利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰，得到视频序列帧间相关特征，其中所述视频序列帧间相关特征包括帧间时间相关特征以及帧间空间相关特征；

利用浅层结构特征，选择注意力区域，引导系统区分前景人群和背景干扰，得到单帧空间特征；

利用深层语义特征，通过多分支结构提取图像中人群的不同尺度特征，并通过自注意力机制对上下文特征信息进行自适应整合，自主选取最合适的尺度分支特征，得到单帧尺度特征；

将上述提取的视频序列帧间相关特征、单帧空间特征和单帧尺度特征融合并输出预测人群密度图，进而计算出待测视频帧中所含人数。

优选地，利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰，得到视频序列帧间相关特征，包括：

利用共同监督机制中的对称监督机制计算前续帧与待测帧之间的相关特征，并利用当前测试帧作为全局基础进行特征提取与融合，得到视频序列帧间相关特征；利用门函数机制，通过加权层调节输出共同监督后的特征来抑制特征提取单元所提取特征中潜在的帧间差异、遮挡以及噪声干扰。

优选地，所述对称监督机制包括：

W＝P^-1DP

其中，将特征F_a与F_b投影至正交空间并且保证F_a与F_b在新空间中的范数保持不变，进而消除不同通道之间的相关性，改善系统的普适性。

f_g(F_a)＝σ(w_fF_a+b_f)∈[0,1]^WH，f_g(F_b)＝σ(w_fF_b+b_f)∈[0,1]^wH,

所述门函数使用全连接层来实现，w_f为门函数的权重值，b_f为偏差值；通过已经计算的关联矩阵A，C_a与C_b使用下述公式得到，其中A^c＝softmax(A)：

C_a′＝C_a☉f_g(F_a),C_b′＝C_b☉f_g(F_b)。

优选地，对给定视频序列中的一帧图像进行特征提取，包括：

采用两路特征提取网络，分别提取视频序列中当前待测帧及前续帧的视觉特征；其中每一路特征提取网络均包括一个深度卷积神经网络DCNN，所述深度卷积神经网络DCNN包括五个卷积块以及与卷积块级联的四组空洞率为2的二维卷积层，两个深度卷积神经网络DCNN之间参数共享；输入图像通过深度卷积神经网络DCNN的前三个卷积块所得到的特征定义为浅层结构特征，经过完整的深度卷积神经网络DCNN所提取到的特征定义为深层语义特征。

优选地，利用浅层结构特征，选择注意力区域，引导系统区分前景人群和背景干扰，得到单帧空间特征，包括：

采用多个级联的二维卷积层，其中二维卷积层的输出端生成预测分割图S^o；

F^s＝F☉S^o

采用二分类logistic激活函数作为最后激活层，利用得到的密度权重图F^s，通过注意力机制指导系统分辨前景人群和背景干扰。

优选地，通过自注意力机制对上下文特征信息进行自适应整合，自主选取最合适的尺度分支特征，包括：

所选取的键值对向量和查询向量均来至同一输入特征矩阵；对于目标帧的输入深层语义特征矩阵F_a，使用三个独立的空洞二维卷积层分别提取查询向量Q、键值对向量K、值向量V。

优选地，所述方法还包括：利用整体损失之和对系统进行训练。

L_λ＝λ₁|WW^T-I|,

其中，参数λ₁、λ₃用于平衡相应损失，根据实验选取；

整体损失之和L为：

L＝L_den+L_λ+λ₂L_s+L_count；

其中，参数λ₂用于平衡相应损失，根据实验选取。

优选地，采用分阶段训练的方法，包括：

由于采用了上述技术方案，本发明具有如下至少一项有益效果：

本发明提供的视频人群计数方法及系统，提出了一种新颖的深度神经网络系统，该网络系统是一种基于三重注意力的人群计数网络(TACCN)系统，融合了时间相关信息，空间相关信息和多尺度结构的优点，旨在通过三种注意力机制联合并自适应地指导网络学习鲁棒的图像特征。

本发明提供的视频人群计数方法及系统，在训练阶段从视频序列中获取一组属于同一视频序列的两张图像作为输入，并学会通过孪生神经网络结构捕获图像之间丰富的相关性。

本发明提供的视频人群计数方法及系统，前端编码器之后级联的是可导的门控(gated)共同监督模块(Co-Attention Module,CAM)，此模块使网络可以集中注意到两帧同一场景中的图像更加相关的信息区域，同时保持时间和空间一致性。

本发明提供的视频人群计数方法及系统，对于空间属性的提取，利用空间注意力模块(Spatial Attention Module,SAM)，目的是引导网络区分人群前景和背景，尽可能排除无关信息的干扰，同时保留充足的语义特征。

本发明提供的视频人群计数方法及系统，采用具有自注意力(self-attention)机制的多分支结构(多尺度注意力模块，MSSAM)来解决与尺度相关的问题，其中包括同一图像中人群的剧烈尺度差异和孤立的人群集群问题。

本发明提供的视频人群计数方法及系统，可以直接从原始训练数据中通过统一的计算公式来得到分割任务的标签值，从而解决了空间注意力模块中涉及的分割任务所要求的数据标注问题，大大减小了数据标注代价。

本发明提供的视频人群计数方法及系统，可以将各模块(共同监督模块、空间注意力模块、多尺度自我监督模块)融合，并将一个后端解码器(back-end decoder)级联，用于输出最后的预测人群密度图，通过生成的密度图进行二维求和得到最终的预测计数。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一优选实施例中视频人群计数系统的结构框架图；

图2为本发明一优选实施例中空间注意力模块(CAM)的框架原理图；

图3为本发明一优选实施例中多尺度自我监督模块(MSSAM)中多尺度分支的框架结构图；

图4为本发明一优选实施例中多尺度自我监督模块(MSSAM)自我监督模块的框架结构图；

图5为本发明一优选实施例中系统训练方法步骤图；

图6为本发明一优选实施例中系统运行过程使用滑动窗口进行人群预测计数的逻辑流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明一实施例针对视频序列的密集人群计数等应用，设计了一种视频人群计数系统，该系统根据视频序列对包含的每一帧图像进行人群数量估计，实现针对视频序列的密集人群计数。

如图1所示，本实施例所提供的系统，包括如下模块：

前端编码器(front-end encoder)，使用了孪生网络结构，旨在提取输入视频图像帧的语义以及结构特征；

共同监督模块(CAM)，旨在利用视频序列中后续帧与待测帧之间的相关特征来抑制场景中固定背景的干扰。需要特别指出的是，与人群相比，背景在同一场景的视频序列中变化很小。此外，隐藏在连续视频帧间的运动信息可以被CAM的共同监督机制所利用，从而帮助网络很好的避免计数波动问题。大部分情况下计数波动都归因于周围突发的物理环境改变或者人群移动等变化。对于给定场景，上述改变往往仅存在于有限的区域中。CAM通过显式地提取视频帧之间的相关性，使网络能够专注于视频中互相相干的区域，从而进一步帮助网络识别前景人群特征并丢弃无关的背景干扰。因此，CAM良好的时间与空间不变性恰好缓解了相邻帧之间的巨大特征变化，同时使系统尽可能利用相关特征信息来增强特征输出在时空维度的鲁棒性。这点与静态人群计数方法独立处理连续帧有着很大的不同；

空间注意力模块(SAM),此模块设计目标为在特征图中选择注意力区域，引导网络区分前景人群和背景干扰，然后将其用于适当地增强特征响应；

多尺度自我监督模块(MSSAM)，此模块旨在通过模块的多分支结构所蕴含的不同感受野的特点来提取图像中人群的不同尺度特征。此外，模块使用自注意力机制将一个区域的特征与其他所有区域计算相关度，这样不仅可以实现对上下文特征信息进行自适应整合，而且达到了有选择性地自主选取最合适的尺度分支特征的目的。

后端解码器(back-end decoder)，目的为将之前所有模块所得到的特征融合并映射至人群密度图所定义的空间中，生成最终的预测人群密度图。

上述各模块构成了一种全新的深度神经网络系统，为一种基于三重注意力的人群计数网络(TACCN)系统。

在本发明部分实施例中，

作为一优选实施例，共同监督模块(CAM)使用了共同监督机制中的对称共同监督。给定两个在同一视频序列的视频帧，令它们经过编码器后得到的特征矩阵为与/>其中我们称F_a为目标帧(target frame)的图像特征，F_b为查询帧(queryframe)的图像特征，W、H分别为特征矩阵的宽和高，C为特征矩阵的通道数。共同监督的本质在于挖掘F_a与F_b在特征嵌入空间(feature embedding space)下的相关信息。具体地，我们首先通过以下公式计算F_a与F_b的关联矩阵A：

其中为权重矩阵。这里F_a与F_b被转换为二维矩阵表示形式，维度大小为C×(WH)。向量代表/>中列号为i的C维特征向量。所以A的每个值反映了中F_a每列特征向量与F_b中每行特征向量的相似性。由于权重矩阵W是个方阵，所以我们可以使用下述公式来将W矩阵进行对角化操作：

W＝P^-1DP，

其中P为可逆矩阵，D为对角矩阵。则A矩阵可被表示为：

通过共同监督操作，两个视频帧的特征表达首先经历了一次线性变换，然后在两个特征矩阵中对应的每个特征像素计算了他们之间的距离值。限制权重矩阵W为对称矩阵，则投影矩阵(project matrix)则为正交矩阵，满足P^TP＝I，其中I为单位矩阵，维度大小为(C,C)。对称共同监督可以由公式(4)导出：

上述公式表明我们将特征F_a与F_b投影至正交空间并且保证F_a与F_b在新空间中的范数保持不变。这一性质可以消除不同通道(C-维度)之间的相关性，从而改善网络的普适性。

共同监督模块CAM的输入为两个视频帧(目标帧和查询帧)经过前置编码器的特征F_a与F_b。共同监督机制选取了对称共同监督，经过计算可以得到最终的输出特征 CAM中采取了一个1×1的卷积层并与sigmoid激活函数结合作为门函数使CAM有能力自我调节所需要选取的共同监督特征。

作为一优选实施例，如图2所示，为空间注意力模块(SAM)的框架原理图。参照图2所示，空间注意力模块SAM包含五个空洞二维卷积层和一个输出二维卷积层。记Conv2d(N_i,N_o,k,d)为输入通道数N_i，输出通道数N_o，卷积核尺寸为k×k，空洞率为d，补零长度为d的二维卷积层，*N表示N个串联的相同结构卷积模块。则SAM的结构可以表示为：

{(Conv2d(256,256,3,2)1-ReLU*3),Conv2d(256,128,3,2)1-ReLU,Conv2d(128,64,3,2)1-ReLU,Conv2d(64,1,1,1)}。前端编码器中第三组卷积层conv3的输出特征F₃被选取为SAM的输入特征。F₃经过SAM后生成输出预测分割图S^o，之后使用得到的预测S^o与F₃进行哈达玛乘积运算，由以下公式得到最终的SAM输出F^s：

F^s＝F☉S^o.

作为一优选实施例，如图3所示，为多尺度自我监督模块中的多尺度分支的框架结构图。参照图3所示，多尺度自我监督模块MSSAM包含一个由四个分支组成的多尺度结构。每个分支都有一个独立的卷积层组合，设置了不同的膨胀率和补零参数。此外，将自我注意机制纳入了MSSAM来辅助其进行特征选择和特征融合。首先在模块的开头添加一个卷积核大小为1×1的瓶颈二维卷积层，作用是通道下采样，这会减少后续多分支中包含的参数数量，使得网络在训练时更容易收敛。自注意力模块捕获上下文依赖信息，并且通过自注意力机制动态分配多尺度分支的加权权重，自适应地确定某个特定分支在多尺度特征中的占比。

作为一优选实施例，如图4所示，为多尺度自我监督模块中自我监督模块的框架结构图。参照图4所示，多尺度自我监督模块MSSAM使用的自注意力机制原理如下。注意力机制本质上就是计算一种相关程度，通常可以表示为：查询(query)向量Q以及键值对(key-value pair)向量通过一个函数映射到输出上，且输出是键值对中值向量的加权平均值，权重由query与key计算出来，基本计算方法分如下三步：

(1)计算query向量Q和每个key向量K_i的相似度，相似度函数用f(Q,K_i),i＝1,2,3…来表示。

(2)将得到的相似度进行softmax归一化得到加权系数，其中m为键值对的向量数量：

(3)使用计算出来的加权系数对value向量V_i进行加权求和，得到attention向量：

一般地，计算相似度的方法分为4种：点乘、权重、拼接权重以及感知器。MSSAM中自注意力机制采用的是点乘的方法，即f(Q,K_i)＝Q^TK_i。

对于自注意力机制，所选取的键值对以及查询向量均来至同一输入特征矩阵。在密集人群计数中，对于输入特征矩阵F，我们可以使用三个独立的空洞二维卷积层分别提取Q、K、V。这里使用空洞二维卷积层保证了输出特征的尺寸保持不变，使得融合特征时不需要额外的调整尺寸的操作。往往调整尺寸的操作会丢失部分特征，使得网络性能有所下降。最终，我们可以使用下述公式来得到空洞卷积率k的情况下的自注意力特征F^(sc,k)：

F^(sc,k)＝(Q^kK^T)V^k.

作为一优选实施例，在编码器-解码器的基本结构上进行了创新。由于共同监督模块CAM的存在，系统的前置编码器结构略有变化。在深度卷积神经网络DNCC(例如VGG16深度神经网络)之后添加了空洞二维卷积层来进行通道下采样，减少参数量的同时保持特征的分辨率。具体地，编码器由五个与CSRNet相同的卷积块组成，后面串联的是4个包含空洞率为2的卷积层，结构可表示为：{Conv2d(512,512,3,2)-ReLU*3,Conv2d(512,256,3,2)-ReLU}。此外，令解码器的输入为其中/>[·]表示维度联接操作。解码器的作用可以看成是一个特征融合并加以解释的模块。为了使网络越来越深时保持足够的分辨率，解码器还采用了空洞率为2的二维卷积层。解码器的结构可以描述为：

{Conv2d(768,256,3,2)-ReLU,Conv2d(256,128,3,2)-ReLU,Conv2d(128,64,3,2)-ReLU}。最后，网络预测的密度图可以通过在解码器后添加一个1×1的卷积层来得到，具体结构为：Conv2d(64,1,1,1)。

作为一优选实施例，在上述各个设计模块的基础上，还需要进一步设计一个多模块损失函数来构造端到端的密度图预测网络，即各模块的加权损失之和对整个系统进行训练。损失函数的设定方法使用多个辅助子任务加入人群密度图预测的主任务。设计的辅助损失函数可以使主网络嵌入模块所想要达到的特定效果，如CAM的时空相关特征以及SAM的单帧空间分辨能力。值得注意的是，由于MSSAM的子任务可以和编码器-解码器结合，所以我们不需要为MSSAM设计一个特殊的损失函数，而是将它们看作一个可以使用主损失函数端对端训练的网络即可。

人群密度图预测任务的损失函数定义如下文。给定输入图片的真实密度矩阵Y以及网络预测的密度矩阵我们使用像素级别的欧几里得距离来表征两者之间的差异。训练目标为最小化Y与/>之间的欧式距离，即损失函数L_den由下述公式计算得出：

其中(i,j)表示整个数据集的坐标索引对，|X|表示数据集中索引对的数量。

共同监督模块CAM中使用了对称共同监督，它的输出虽然和MSSAM一样为经过增强的编码特征，但由于引入了对称权重矩阵W，我们需要引入一个辅助正则损失函数来保证其对称性，即：

L_λ＝λ₁|WW^T-I|,

其中I为单位矩阵，λ₁为正则化系数。

空间注意力模块SAM中使用了分割子任务，其辅助分割损失函数如下所示：

作为子任务，其损失函数L_s不应设定得过大，使得其不会占据损失函数的主导地位。一般地，子任务损失函数的数量级应该至少小于主任务损失函数两级以上。

此外，本发明还将计数损失加入辅助损失函数，并证明其达到了很好的效果。本发明使用L1范数，辅助计数损失函数L_count可以被表示为：

其中为预测的计数值，C为输入图片真实人群计数值。/>的数值可以通过以下公式来得到：

最终本实施例中系统选取的损失函数L由主损失函数L_den以及三项辅助损失函数L_λ、L_s以及L_count组成，计算方式如下述公式给出：

L＝L_den+L_λ+λ₂L_s+L_count.

作为一优选实施例，训练系统时，使用分阶段训练的方法，包括：

第一阶段，首先预训练空间注意力模块以及多尺度自我监督模块，当空间注意力模块的分割误差不再显著下降，即预测精度达到一定程度时，空间注意力模块结束第一阶段训练；同样地，当多尺度自我监督模块的损失误差收敛时则结束第一阶段预训练；空间注意力模块预训练时的损失函数选取主损失函数加上辅助分割损失函数，即L_den+λ₂L_s，而多尺度自我监督模块预训练时的损失函数选取主损失函数；

第三阶段，测试阶段，系统采用滑动窗口的方法，滑动距离为237个像素；当满足滑动窗口终止条件(即窗口左边界坐标大于等于输入图片右边界坐标，且窗口上边界坐标大于等于输入图片下边界坐标)时，通过后处理去除重复计数部分来得到最终的预测计数值。

本发明另一实施例提供了一种视频人群计数方法，包括：

利用视频序列中后续帧与待测帧之间的相关特征抑制场景中固定背景的干扰，得到视频序列帧间相关特征，其包括帧间时间相关特征以及帧间空间相关特征；

作为一优选实施例，利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰，得到视频序列帧间相关特征，包括：

作为一优选实施例，对称监督机制包括：

W＝P^-1DP

作为一优选实施例，门函数用于生成置信度矩阵；其中，门函数f_g如下所示：

f_g(F_a)＝σ(w_fF_a+b_f)∈[0,1]^WH，f_g(F_b)＝σ(w_fF_b+b_f)∈[0,1]^WH,

门函数使用全连接层来实现，w_f为门函数的权重值，b_f为偏差值；通过已经计算的关联矩阵A，C_a与C_b使用下述公式得到，其中A^c＝softmax(A)：

将门函数的输出f_f与之前得到的输出的特征C做哈达玛乘积，即得到共同监督后的特征C′：

C_a′＝C_a☉f_g(F_a),C_b′＝C_b☉f_g(F_b)。

作为一优选实施例，对给定视频序列中的一帧图像进行特征提取，包括：

采用两路特征提取网络，分别提取视频序列中当前待测帧及前续帧的视觉特征；其中每一路特征提取网络均包括一个深度卷积神经网络DCNN，深度卷积神经网络DCNN包括五个卷积块以及与卷积块级联的四组空洞率为2的二维卷积层，两个深度卷积神经网络DCNN之间参数共享；输入图像通过深度卷积神经网络DCNN的前三个卷积块所得到的特征定义为浅层结构特征，经过完整的深度卷积神经网络DCNN所提取到的特征定义为深层语义特征。

作为一优选实施例，利用浅层结构特征，选择注意力区域，引导系统区分前景人群和背景干扰，得到单帧空间特征，包括：

F^s＝F☉S^o

作为一优选实施例，通过自注意力机制对上下文特征信息进行自适应整合，自主选取最合适的尺度分支特征，包括：

作为一优选实施例，该方法还包括：利用整体损失之和对系统进行训练。

作为一优选实施例，整体损失包括主损失函数L_den和辅助正则损失函数L_λ、辅助分割损失函数L_s以及辅助计数损失函数L_count：

L_λ＝λ₁|WW^T-I|,

/>

其中，参数λ₁、λ₃用于平衡相应损失，根据实验选取；

整体损失之和L为：

L＝L_den+L_λ+λ₂L_s+L_count；

其中，参数λ₂用于平衡相应损失，根据实验选取。

作为一优选实施例，采用分阶段训练的方法，包括：

第一阶段，首先预训练空间注意力模块以及多尺度自我监督模块，当空间注意力模块的分割误差不再显著下降，即预测精度达到一定程度时，空间注意力模块结束第一阶段训练；同样地，当多尺度自我监督模块的损失误差收敛时则结束第一阶段预训练；空间注意力模块预训练时的损失函数选取主损失函数加上辅助分割损失函数L_s，即为L_den+λ₂L_s，多尺度自我监督模块预训练时的损失函数选取主损失函数L_den；

以下基于本发明上述实施例所提供的技术方案，提供一个具体应用实例。该应用实例包含本发明中所设计的网络在应用时的训练实施方式以及运行方法。当然此实例只是为了更好说明本发明的方法实施，并不是用于限定本发明的应用，在其他实施例中，可以采用其他的优选参数或操作。

图5为本发明应用实例的训练步骤图。如图5所示，该应用实例中，整个训练过程包括：

一、对数据集中的待训练图片进行数据预处理。本发明应用实例随机将图片处理成473×473的大小，并且为了保留图像中人头尺寸特征并保证其不因数据预处理而产生变形，本发明应用实例随机选取图片的一部分进行裁剪。为了弥补裁剪中随机丢弃的图片区域，我们训练时对每张图片裁剪五次，其中四次保证一张训练图片所有位置都将被覆盖到，而剩余的一次为随机裁剪。人群密度图标签值的生成方法使用冲激函数δ(x-x_i)来表示在像素点x_i存在一个人头标记点，那么一张带有N个人头坐标的输入图片可以表示为：

使用高斯核函数G_σ可以将上述公式转换为连续的密度方程，从而简化了预测任务的难度。所以，最终人群密度方程为：F(x)＝H(x)*G_σ(x)。高斯核函数的选取存在两个变量，分别为核函数尺寸以及方差σ，具体数值选择由本发明实例运用时依照具体场景设定。

二、使用经过预处理的训练数据针对由前端编码器、CAM以及后端解码器级联组成的网络进行预训练。本阶段训练时使用的损失函数为：

其中Y为输入图片的真实密度矩阵，为网络预测的密度矩阵，(i,j)表示整个数据集的坐标索引对，|X|表示数据集中索引对的数量。当本阶段所使用的损失函数达到收敛时，停止训练，并且将训练得到的权重参数文件保存。

三、使用经过预处理的训练数据针对由前端编码器、CAM、SAM以及后端解码器级联组成的网络进行预训练。训练开始时加载步骤二中得到的权重参数，使得模型具有良好的初始化状态。本阶段训练时使用的损失函数为：

L′＝L_den+λ₂L_s,

其中(i,j)表示整个数据集的坐标索引对，|X|表示数据集中索引对的数量，{X,s}为一对输入特征以及其对应图像的真实分割图，s_ij∈{0,1}代表S中坐标(i,j)处对应的标签值，1代表像素点为目标区域点而0代表像素点为背景点。在这里，目标区域点被定义为真实人群密度图中响应值大于0的像素点。o_ij代表预测分割图S^o中坐标(i,j)处所对应像素级别的预测值。当本阶段所使用的损失函数达到收敛时，停止训练，并且将训练得到的权重参数文件保存。

四、使用端到端的训练方式训练系统，在训练前需要加载步骤三中保存的权重参数文件，作为系统的初始化参数，且在本步骤后续阶段将前端编码器的学习率置零。本步骤的损失函数包括：人群密度图预测任务的损失，辅助正则损失，分割任务损失以及计数损失，进行加权求和，作为整个密度预测网络的总损失；并利用该损失之和对整个检测网络模型进行训练，得到完整的密集人群计数网络模型：

L＝L_den+L_λ+λ₂l_s+l_count,

l_λ＝λ₁|WW^T-i|,

其中l是指整体损失之和；l_den是指人群密度图预测任务的损失，l_λ是辅助正则损失,w为对称权重矩阵，I为单位矩阵；L_s的定义同步骤三，即为分割损失；L_count为计数损失，为预测的计数值，C为输入图片真实人群计数值。/>的数值可以通过以下公式来得到：

在上述具体应用实例中，前置参数λ₁、λ₂以及λ₃分别被设定为1e^-6、1e^-4以及1e^-6。当然，在其他实施例中，也可以根据实际应用情况对上述的参数λ₁、λ₂以及λ₃进行调整，以上取值只是本发明实施例的一组数值，比如根据实验情况，取实验性能最好时的值。当本阶段所使用的损失函数达到收敛时，停止训练，并且将训练得到的权重参数文件保存。此步骤得到的权重参数被认为是系统训练阶段得到的最终网络训练参数

在上述具体应用实例中，系统运行阶段应该遵循以下顺序：

一、加载系统训练阶段步骤四得到的权重参数，并在本步骤后续阶段将系统所有模块的学习率均置零。

二、将待预测图片处理成473×473的大小。对于大于473×473的待预测图片，本发明使用滑动窗口的方法对图片进行多次计数预测。具体地，本发明应用实例将输入图片根据滑动窗口位置裁剪为473×473。滑动窗口的初始位置为图片的左上角，结束位置为图片的右下角，完成一次预测后记录下窗口内的预测计数值，并将窗口位置向右移动237个像素。当窗口移动至图片右侧边界时，将窗口还原至图片左侧边界，并向下移动237个像素，继续进行预测。上述循环将在满足滑动窗口移动至结束位置时终止，通过后处理去除重复计数部分来得到最终的预测计数值。图片6展示了针对滑动窗口预测计数的逻辑流程图。

本发明上述实施例，构造一个端到端的视频人群计数系统及方法，有效地利用了三种注意力机制来挖掘时空相关性、单帧前背景特征差异性，同时拥有较高的尺度感知能力，从而有效保证当实施视频人群计数方法与系统时在计数性能有着卓越的表现。

本发明上述实施例所提供的视频人群计数系统及方法，使用了多重注意力模块，设计了由前端编码器、共同监督模块、空间注意力模块、多尺度自我监督模块以及后端解码器组成的一种全新的基于视频序列的三重注意力密集人群计数网络系统TACCN。该系统将视频序列中的帧间隐藏的时间、空间相关特征与多尺度感知以及前背景分割信息相集成，从而使系统在面对具有纷繁复杂的场景下所组成的视频数据集时可以提高人群计数系统的鲁棒性。系统采用了孪生神经网络结构，前端编码器使用了经过改造的深度卷积神经网络框架，并结合空洞卷积神经网络保证特征分辨率；共同监督模块使用了对称共同机制挖掘视频帧间相关信息；空间注意力模块负责引导系统分辨人群与无关背景，加强人群特征响应；多尺度自我监督模块改善系统多尺度感知能力，使用自我监督机制挖掘整张图片的上下文信息，解决孤立人群簇问题；后端解码器融合上述三个模块的特征，得到最终的预测人群密度图，并经过后处理得到最终预测计数值。此外，系统采用了分阶段训练的方法；在测试阶段使用了滑动窗口方法保证测试时的计数精度。

本发明上述实施例所提供的视频人群计数系统及方法，可以做到不管给出哪个场景的人群图像，均能利用相邻帧之间的相关特征，如两个视频帧中背景的相对固定性，来尽可能地提升特征学习的质量及普适性。具体来说，时域相关性特征的使用可以在一定程度上减少一个特定区域在单个图像中对上下文信息(即周围区域的特征)的依赖性，从而在面对各种场景时提高了系统的鲁棒性。加入了基于单帧的分段(segmentation)注意力模块来解决由于静态图像具有背景不变性，时间信息可能无法很好地识别干扰和移动人群的问题。引入尺度注意力机制来解决人群计数任务中存在着的巨大尺度变化和分散的孤立簇(isolated clusters)问题。传统的多尺度结构关注整体尺度因子，因此有时无法检测到人口稀疏但尺度较大的人群。尺度注意力机制使系统自适应地选择像素级别的尺度分支，并正确捕获并提取那些空间距离较遥远的上下文信息。

本发明上述实施例有效避免了监控摄像头视角下的人群遮挡问题以及物理环境变化导致的计数稳定性问题，有效去除复杂的背景干扰，并利用了视频序列前后帧的相关信息对人群密度信息进行有效提取，适用于现实应用环境中多变的情况，增强检测鲁棒性，降低误检和漏检概率，有效提高视频图像中人群计数的预测能力。

应当理解的，系统中各模块可以采用视频人群计数方法与系统中对应步骤的具体实现技术来实现，没有特别说明的内容，可以采用现有技术实现。在此不再赘述。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照系统的技术方案实现方法的步骤流程，即，系统中的实施例可理解为实现方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个模块、装置、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种视频人群计数系统，其特征在于，包括：

2.根据权利要求1所述的视频人群计数系统，其特征在于，所述前端编码器，包括两路特征提取网络，分别用于提取视频序列中当前待测帧及前续帧的视觉特征；其中每一路特征提取网络均包括一个深度卷积神经网络DCNN，所述深度卷积神经网络DCNN包括五个卷积块以及与卷积块级联的四组空洞率为2的二维卷积层，两个深度卷积神经网络DCNN之间参数共享；输入图像通过深度卷积神经网络DCNN的前三个卷积块所得到的特征定义为浅层结构特征，经过完整的深度卷积神经网络DCNN所提取到的特征定义为深层语义特征。

3.根据权利要求1所述的视频人群计数系统，其特征在于，所述共同监督模块利用共同监督机制中的对称监督机制计算前续帧与待测帧之间的相关特征，并利用当前测试帧作为全局基础进行特征提取与融合，得到视频序列帧间相关特征；利用门函数机制，通过加权层调节输出共同监督后的特征来抑制特征提取单元所提取特征中潜在的帧间差异、遮挡以及噪声干扰；其中：

所述对称监督机制包括：

W＝P^-1DP

限制权重矩阵W为对称矩阵，则投影矩阵为正交矩阵，满足P^TP＝I，其中I为单位矩阵，维度大小为(C，C)；对称共同监督由公式导出：

其中，将特征F_a与F_b投影至正交空间并且保证F_a与F_b在新空间中的范数保持不变，进而消除不同通道之间的相关性，改善系统的普适性；

所述门函数用于生成置信度矩阵；其中，门函数f_g如下所示：

f_g(F_a)＝σ(w_fF_a+b_f)∈[0，1]^WH，f_g(F_b)＝σ(w_fF_b+b_f)∈[0，1]^WH，

C_a′＝C_a⊙f_g(F_a)，C_b′＝C_b⊙f_g(F_b)。

4.根据权利要求1所述的视频人群计数系统，其特征在于，所述空间注意力模块包括多个级联的二维卷积层和最后激活层；其中：

所述二维卷积层的输出端生成预测分割图S^o；

F^s＝F⊙S^o

所述最后激活层采用二分类logistic激活函数，利用得到的密度权重图F^s，通过注意力机制指导系统分辨前景人群和背景干扰。

5.根据权利要求1所述的视频人群计数系统，其特征在于，所述多尺度自我监督模块还包括如下任意一项或任意多项：

-所述多尺度自我监督模块包括瓶颈层以及设置于瓶颈层后端的四分支结构，其中每一个分支均包括具有不同滤波器大小的卷积层的多个块，所述瓶颈层用于降低特征维度；

-所述多尺度自我监督模块采用自适应特征选择机制，将多尺度特征进行加权融合；其中，自适应特征选择机制能够与上下文特征信息、前背景特征信息和/或图像深度特征信息相结合；

-所述多尺度自我监督模块采用自注意力机制对上下文特征信息进行自适应整合，自主选取最合适的尺度分支特征，包括：

6.根据权利要求1-5任一项所述的视频人群计数系统，其特征在于，利用整体损失之和对系统进行训练；其中：

所述整体损失包括主损失函数L_den和辅助正则损失函数L_λ、辅助分割损失函数L_s以及辅助计数损失函数L_count：

L_λ＝λ₁|WW^T-I|，

其中，参数λ₁、λ₃用于平衡相应损失，根据实验选取；

整体损失之和L为：

L＝L_den+L_λ+λ₂L_s+L_count；

其中，参数λ₂用于平衡相应损失，根据实验选取；

采用分阶段训练的方法，包括：

第一阶段，首先预训练空间注意力模块以及多尺度自我监督模块，当空间注意力模块的分割误差不再显著下降，即预测精度达到一定程度时，空间注意力模块结束第一阶段训练；同样地，当多尺度自我监督模块的损失误差收敛时则结束第一阶段预训练；所述空间注意力模块预训练时的损失函数选取为L_den+λ₂L_s，所述多尺度自我监督模块预训练时的损失函数选取主损失函数L_den；

7.一种视频人群计数方法，其特征在于，包括：

8.根据权利要求7所述的视频人群计数方法，其特征在于，利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰，得到视频序列帧间相关特征，包括：

利用共同监督机制中的对称监督机制计算前续帧与待测帧之间的相关特征，并利用当前测试帧作为全局基础进行特征提取与融合，得到视频序列帧间相关特征；利用门函数机制，通过加权层调节输出共同监督后的特征来抑制特征提取单元所提取特征中潜在的帧间差异、遮挡以及噪声干扰；其中：

所述对称监督机制包括：

W＝P^-1DP

C_a′＝C_a⊙f_g(F_a)，C_b′＝C_b⊙f_g(F_b)。

9.根据权利要求7所述的视频人群计数方法，其特征在于，还包括如下任意一项或任意多项：

-对给定视频序列中的一帧图像进行特征提取，包括：

采用两路特征提取网络，分别提取视频序列中当前待测帧及前续帧的视觉特征；其中每一路特征提取网络均包括一个深度卷积神经网络DCNN，所述深度卷积神经网络DCNN包括五个卷积块以及与卷积块级联的四组空洞率为2的二维卷积层，两个深度卷积神经网络DCNN之间参数共享；输入图像通过深度卷积神经网络DCNN的前三个卷积块所得到的特征定义为浅层结构特征，经过完整的深度卷积神经网络DCNN所提取到的特征定义为深层语义特征；

-利用浅层结构特征，选择注意力区域，引导系统区分前景人群和背景干扰，得到单帧空间特征，包括：

F^s＝F⊙S^o

采用二分类logistic激活函数作为最后激活层，利用得到的密度权重图F^s，通过注意力机制指导系统分辨前景人群和背景干扰；

-通过自注意力机制对上下文特征信息进行自适应整合，自主选取最合适的尺度分支特征，包括：

10.根据权利要求7-9任一项所述的视频人群计数方法，其特征在于，还包括：利用整体损失之和对系统进行训练；其中：

L_λ＝λ₁|WW^T-I|，

其中，参数λ₁、λ₃用于平衡相应损失，根据实验选取；

整体损失之和L为：

L＝L_den+L_λ+λ₂L_s+L_count；

其中，参数λ₂用于平衡相应损失，根据实验选取；

采用分阶段训练的方法，包括：