CN116665091A

CN116665091A - 一种智慧交通场景下的实时多摄像头视频分析方法

Info

Publication number: CN116665091A
Application number: CN202310558927.6A
Authority: CN
Inventors: 霍如; 杜磊
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-05-18
Filing date: 2023-05-18
Publication date: 2023-08-29

Abstract

本发明提供一种智慧交通场景下的实时多摄像头视频分析方法。首先提出一种轻量化的检测模型，该检测模型的训练和调整在线下云端服务器进行，而模型的执行是在线上边缘服务器进行的。随后基于检测模型的结果以及提取的特征，提出一种高效的多摄像头协同分析模型。同样，该检测模型的训练和调整在线下云端服务器进行，而执行则是在线上边缘服务器进行的。同时，由于边缘端的资源是有限的，因此设计了一种优化方法，在进行视频分析的过程中进行边缘端服务器计算和存储资源的动态分配。本发明高效地为后续的多摄像头协同分析提供高质量特征，考虑采用多目标优化算法优化实时计算资源分配以及待处理视频的分辨率设定，能够使得边缘系统的效用最大化。

Description

一种智慧交通场景下的实时多摄像头视频分析方法

技术领域

本发明属于智能交通领域。

背景技术

随着社会生产力的发展，交通运输方面相关的数据和信息也呈现指数式的增长，其中交通监控数据的增加给实时的监控视频处理带来了巨大的挑战。因此，在面对动态且复杂的道路交通问题时，如何在大量且分散的监控视频数据中挖掘和提取重要的信息，并且利用这些信息辅助进行城市车流规划和交通管理，进而缓解交通拥堵压力，避免交通事故发生。而随着边缘计算和物联网(Internet of Things,IoT)技术的发展，交通管理越来越趋向于智能化。智慧交通应运而生，通过一系列数字化信息技术的手段，实现人、车、路、网等的协同互联，使交通运输过程更安全、更畅通、更便捷和更高效，提高交通资源的运输效率。智慧交通系统中很重要组成部分之一就是交通监控视频分析。如何从多个摄像头拍摄的大量且分散的视频中提取关键信息并且进行多个视频的协同分析成为交通运输重要的任务之一。

多摄像头视频分析(如目标检测和目标跟踪)是某个特定场景下的多摄像头系统中能够同时对多个采集到的视频同时进行协同分析。多目标多摄像头跟踪就是在一个多摄像头的场景下利用多个摄像头之间的关联识别和定位多个目标。在目前已有的方法中，大多数的多摄像头视频分析方法由两部分组成：单摄像头分析和多摄像头分析。单摄像头分析的目的是提取所采集视频中的关键特征，其主要原理就是在单个摄像头采集的视频中利用机器学习(Machine Learning，ML)方法进行视频分析，包括目标检测和目标跟踪等。而多摄像头之间的分析则是基于单摄像头提取的特征，通过车辆重识别(re-identification，ReID)，即利用深度学习算法来进行多个摄像头之间的目标检测和跟踪。

基于以上论点，分析现有的视频分析方法在实现多摄像头视频分析方面还存在很多问题：

1)智慧交通场景下配备的摄像头数量众多，因此对于众多单个摄像头进行视频分析的计算和存储代价较大，而边缘服务器资源的有限性难以支撑处理多个摄像头采集的视频。同时由于实时视频分析的时延敏感性较强，因此单摄像头的视频处理需要尽可能的高效且准确，这样边缘端机器学习模型的设计就需要轻量化且准确率高。

2)在进行单摄像头视频分析之后得到视频中的关键特征，随后结合这些关键特征进行多摄像头协同视频分析。而单摄像头视频分析得到的关键特征是动态时变的，因此每个不同摄像头需要的计算资源和传输带宽也是动态变化的。这样多摄像头实时的视频分析就转变为典型的分布式异构计算场景，其中包括设备-边缘服务器-云端服务器等多层级设备之间以及同一层级之间的协同与合作。基于实时的要求，如何进行更加高效的协同与合作是重中之重。

3)在智慧交通场景下部署边缘服务器有一定的部署代价，同时边缘服务器的资源是有限的并且进行扩充也有相对应的代价。云端服务器的资源比较丰富可以支撑更为复杂和繁复的计算，然而云端服务器距离视频源较远，因此传输延迟较大，同时云端服务的使用代价也更大。因此如何在最小化资源消耗的同时为更多的设备提供视频分析服务并且保证服务质量是实时视频分析中的挑战之一。

因此，根据这些问题，本发明提出了一种智慧交通场景下的实时多摄像头视频分析方法。本方法由线上部分和线下部分组成。具体为：首先为了更加高效且准确的对于摄像头采集的视频进行分析，提出一种轻量化的检测模型，该检测模型的训练和调整在线下云端服务器进行，而模型的执行是在线上边缘服务器进行的。随后基于检测模型的结果以及提取的特征，提出一种高效的多摄像头协同分析模型。同样，该检测模型的训练和调整在线下云端服务器进行，而执行则是在线上边缘服务器进行的。同时，由于边缘端的资源是有限的，因此设计了一种优化方法，在进行视频分析的过程中进行边缘端服务器计算和存储资源的动态分配。这一优化方法也是在线上进行的。

发明内容

1.系统结构

智能交通场景下的实时多摄像头视频分析方法结构如下图1所示，同时方法中包含的角色和功能的说明如下：

场景介绍：选择城市路段某个时段某个区域作为场景，路段有着移动的车辆并且在各个路口部署有不同角度的摄像头，同时配备有一个主边缘服务器和多个附属边缘服务器。

摄像头：在路段上部署的拍摄不同角度的监控摄像头，负责采集实时视频并且传输到各个附属边缘服务器中进行处理。传输视频到附属边缘服务器后由主边缘服务器根据实时的可用计算资源对于视频分辨率进行设定。

主边缘服务器：根据实时边缘系统的资源使用状态和网络质量进行计算资源和网络带宽的分配，即为各个摄像头分配附属服务器。负责收集各个附属边缘服务器传输的特征并且构建特征模型和特征池。并且结合这些特征进行协同分析，为检测到的所有目标分配编号并且进行跟踪。过程中构建子特征池加速模型的推理。

附属边缘服务器：会将本身的计算资源使用情况每隔固定时间上传到主边缘服务器，固定时间的设定由方法的布置者决定。按照主边缘服务器的分配负责收集不同摄像头采集的视频，进行初步的检测并将得到的特征以及结果传输到主边缘服务器。

云服务器：负责附属服务器中检测模型以及主边缘服务器中协同分析模型的构建和训练，并下发到对应的边缘服务器。

2.组成部分

如上图1种所示，多摄像头视频分析方法大体分为五个部分组成，分别介绍如下：

1)检测模型和多摄像头协同分析模型的构建与训练

将过去一段时间采集的视频从附属边缘服务器传输到云端，在云端服务器进行线下的分析，时间的长度默认为10s。然后搭建检测模型和多摄像头协同分析模型，提出视频中的特征并训练检测模型。同时将提取出的各个视频的特征传入多摄像头协同分析模型进行训练并得到初始的特征池。然后将训练好的检测模型、多摄像头协同分析模型和初始特征池分别下发给附属边缘服务器和主边缘服务器。

2)视频传输

在城市某路口的各个角度部署监控摄像头进行实时视频的采集，然后将采集的视频传输到附属边缘服务器。

3)目标检测

根据主边缘服务器的资源分配结果将采集的实时视频传输到分配的附属边缘服务器后进行分辨率调整，然后各附属边缘服务器利用云端服务器下发的检测模型对于视频中的多个关键目标进行检测，同时进行目标特征的筛选。随后将检测的结果和筛选后的特征发送到主边缘服务器。

4)多摄像头的协同分析

主边缘服务器将各个附属边缘服务器传输的特征进行建模并且结合子特征池构建整体的特征池，然后利用云端服务器下发的协同分析模型为每个检测到的目标进行标记和编号，其中相同的目标标注相同的编号，最后利用标注的结果构建子特征池用于加速下一个时段的多摄像头协同分析。

5)视频分析方法的优化

本发明中的边缘系统计算资源主要由各个附属边缘服务器包含的计算资源组成。资源的分配优化将会基于实时的计算资源使用量进行，同时会根据实时的计算资源确定待处理的视频的分辨率大小，并且以最小化系统延迟和最大化目标检测跟踪的精度为目标。

上述五部分中实时多摄像头视频分析方法的各个流程的具体将在以下几个小节中详细进行介绍。

3.总体流程

实时多摄像头视频分析方法的总体流程如下图2所示。主要步骤包括如下：

1)摄像头采集实时的场景视频，云端服务器判断在附属边缘服务器和主边缘服务器是否已部署有检测模型和协同分析模型。如果没有则需要将训练好的检测模型、协同分析模型和初始特征池下发到附属边缘服务器和主边缘服务器进行部署。注意：检测模型和协同分析模型的构建和训练以及初始状态池的生成是在云端服务器线下完成的，不占用线上的执行时间。如果确认检测模型和协同分析模型已经部署，进行下一步2)。

2)主边缘服务器根据现有的可用的计算资源，设定采集的待检测视频的分辨率，同时为每个摄像头预分配附属边缘服务器。

3)附属边缘服务器对分配的视频进行目标检测，随后筛选目标特征和检测结果传输到主边缘服务器。主边缘服务器对于附属边缘服务器传输的特征进行建模，随后构建特征池。

4)基于构建的特征执行协同分析算法，然后更新子特征池。

5)判断是否达到设定的迭代次数，如果是则根据协同分析结果对目标进行标注并框出，如果否则转到计算协同分析得到目标的准确率和系统延迟，调整带检测视频的分辨率和计算资源的预分配策略，转到2)。

3.边缘网络环境

场景下各个摄像头采集到的视频经过附属的边缘服务器处理之后，得到的特征以及结果将被传输到主边缘服务器，这个过程是并行的。因此我们利用频分多址(FrequencyDivision Multiple Access，FDMA)来处理多终端的传输任务。场景下的摄像头数量由方法使用者根据实际场景的摄像头数量进行设定，附属边缘服务器与摄像头是一对一的关系，主边缘服务器只有一个。根据香农定理可以计算得到各个时刻每个直连边缘服务器的传输速率。而边缘系统的网络总带宽则是分配给各个直连边缘服务器的带宽之和。而数据的传输需要消耗带宽资源从而产生传输延迟。本发明认为摄像头与附属服务器之间的连接是保持稳定的。

场景下的目标检测和多摄像头的协同分析分别在附属边缘服务器和主边缘服务器上进行并且都需要消耗计算资源，因此在进行视频分析时用到附属边缘服务器和主边缘服务器计算资源，从而产生计算延迟和功率能耗。因此，本发明中边缘系统的计算延迟由附属边缘服务器和主边缘服务器上的计算延迟组成。

因此总系统延迟由传输延迟和计算延迟组成。低延迟的网络环境可以为多摄像头视频协同分析的完成提供良好的基础。

4.目标检测模型

为了在更低功耗和更低延迟的情况下高质量完成目标检测，本发明提出一种基于深度学习的检测方法FSnet。其整体结构如下图3所示，分别包括输入、特征提取、特征优化、目标检测。

FSnet各部分的构成由以下四部分组成，分别为：

1)输入

输入部分负责将视频划分为帧并进行视频的预处理，由于不同摄像头所采集视频的分辨率存在不同的情况，因此对于视频帧的分辨率进行调整，统一调整为1280*720像素。主要结构如下图4所示，输入为场景下摄像头采集的视频。

数据增强(Mosaic)：从第一帧开始，对每四张视频帧图片进行拼接，每一张图片都有其对应的目标框，将四张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的目标框，然后将这样新的图片传入到神经网络中去学习。

自适应锚框计算(Anchor)：预定义边框就是一组预设的边框分别为：11*22、16*16和22*11，在训练时，以真实的边框位置相对于预设边框的偏移量来构建训练样本。

2)特征提取

特征提取部分负责对于输入部分传入的视频帧进行初步的处理并提取特征。主要结构如下图5所示。I1为输入部分传入的视频帧。

下采样(Subsampled)：采用切片(Slice)操作对于输入部分传入的图像进行处理，将图像转为特征图将处理后的特征图进行拼接(Concat)后经过一次卷积，转变为新的特征图。

批量归一化(Batch Normalization)：和普通的数据标准化类似,是将分散的数据统一的一种做法。batch是批数据，BN在每批数据进行前向传递的时候,对每一层都进行归一化的处理。BN的公式表达如下：

其中，x_i ^b表示输入当前batch的b-th样本时该层i-th输入节点的值，x_i是[x_i ¹,x_i ²,...,x_i ^m]构成的行向量，长度为批量大小m。μ和σ为该行的均值和标准差。ε是防止零引入的极小量，设为0.001；γ和β是利用反向传播学习得到的参数。

深度可分离卷积(Dconv)：由depthwise(DW)深度卷积和pointwise(PW)点卷积两个部分组成，主要用来提取特征feature map。

空间金字塔池化(SPP)：空间金字塔池化能将任意大小的特征图转换成固定大小的特征向量。

3)特征优化

特征优化部分负责对于特征提取部分传入的特征进行进一步的处理和优化。主要结构如下图6所示。B1、B2和B3分别是特征提取部分传入的特征。

激活函数(SiLU)：SiLU函数就是Sigmoid加权线性组合。公式如下所示，x表示输入。

SiLU＝x·Sigmoid(x),

上采样(Upsampling)：在直接将特征图的元素进行复制，以扩充feature map。如下图7所示。

4)目标检测

目标检测部分主要负责进行检测。主要结构如下图8所示。N1、N2和N3分别是特征优化部分传入的特征。

改变形状(Reshape)：网络结构中Reshape的作用是改变张量数据的形状，如维度。

Fsnet的模型构建过程如下：

1)输入监控摄像头采集的视频数据，将视频分成帧后，对于视频帧的分辨率统一调整为1280*720像素。从第一帧开始，对每四张视频帧图片进行拼接，每一张图片都有其对应的目标框，将四张图片拼接之后就获得一张新的图片。将新的图片加入训练数据集用于训练。然后设定目标边框大小分别为：11*22、16*16和22*11，以真实的边框位置相对于预设边框的偏移量来构建训练样本。将构建好的训练样本输入特征提取部分。

2)采用切片操作对于输入部分传入的样本进行处理，将图像转为特征图将处理后的特征图进行拼接(Concat)后经过一次卷积(卷积核大小为3*3，步长为1)，转变为新的特征图。然后采用批量归一化是得批量呈标准正态分布，随后经过一次深度可分离卷积(通道数量为3，每个通道三个大小为3*3的卷积核，步长为1)，卷积后生成的特征图传入空间金字塔池化层(空间池化层三个窗口大小默认为4*4、2*2和1*1)，得到固定大小的特征shiy。这一部分将一次卷积后的特征B1、一次深度可分离卷积后的特征B2和最后固定大小的特征B3传入特征优化部分。

3)将固定大小的特征B3经过一次卷积(卷积核大小为3*3，步长为1)，然后经过批量归一化和激励函数SiLU处理后使用上采样扩充特征量，然后与一次深度可分离卷积后的特征B2一起分别经过两次卷积(卷积核大小为3*3，步长为1)，和经过批量归一化以及激励函数SiLU处理后，同时经过两个不同的卷积(卷积核大小为3*3，步长为1)，随后将两次卷积后的张量数据进行合并(Concat)，然后经过一次卷积(卷积核大小为3*3，步长为1)，经过批量归一化和激励函数SiLU处理后结合上一部分的特征B1使用上采样扩充特征量，随后传入卷积层(卷积核大小为3*3，步长为1)。然后经过一次卷积(卷积核大小为3*3，步长为1)，批量归一化和激励函数SiLU后得到特征N1传入下一个部分，随后再次经过一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU处理后并行进行不同的卷积后将张量进行合并后进行一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU，处理后得到的特征N2传入下一个部分，同时特征也与B3经过一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU处理后的特征进行合并后再次经过一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU处理，得到特征N3传入下一部分。

4)上一部分传入的N1、N2和N3分别经过一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU处理后得到特征张量，得到的特征并行经过两个一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU后分别经过一次卷积(卷积核大小为3*3，步长为1)和激励函数Sigmoid处理，其中一个并行经过两个卷积(卷积核大小为3*3，步长为1)，但是不经过Sigmoid处理，随后将得到的特征进行合并，合并后改变形状。然后将得到的三组特征进行合并后转置，就能将视频帧中的关键目标框出表示，即在视频帧画面中用方框将关键目标框出。

FSnet的执行流程如下：

1)视频采集传输到附属边缘服务器后，将视频分成视频帧图像，视频帧图像输入模型中后根据主边缘服务器的分配改变分辨率，随后进行Mosaic数据增强，即通过随机缩放、随机裁剪、随机排布的方式进行拼接，最后进行自适应锚框计算，即在网络训练中，网络在初始锚框的基础上输出预测框，将结果传入特征提取结构中。

2)处理后的图像数据传入特征提取结构中后，利用下采样进行降维，然后通过卷积层来进行升维处理，在卷积之后进行批量归一化，归一化之后进行深度可分离卷积。之后进行空间金字塔池化，使得特征大小固定，然后经过一层卷积后得到的特征传入后续的特征优化部分。该部分的输出还包括其他两部分特征，分别是下采样紧接卷积后的特征和深度可分离卷积后的特征。

3)经由特征提取部分处理之后传入特征优化部分中，进行进一步的特征升维和特征提取，特征提取部分通过加入多个卷积、批量归一化和卷积层加强网络特征融合的能力。得到的三部分的特征输入到最后一部分目标检测部分。

4)进入FSnet的最后一部分目标检测部分，利用各个卷积层进行进一步降维后，利用画框损失函数处理之后优化数据结果，然后经由nms非极大值抑制对于目标框进行筛选，完成目标的检测并框出。

5.多摄像头协同分析模型

为了在实时的环境下能够高效地进行多个目标的标注并跟踪，我们采用图卷积网络GCN进行特征的编码并且进行构建特征池。主要结构如下图9表示。

模型的详细流程如下：

1)由直连服务器传输到主边缘服务器的特征和结果采用GCN中的graphembedding representation方法进行重编码并建模。邻接矩阵A大小为5*5，度矩阵D大小为5*5，特征向量矩阵X大小为(节点个数*特征向量的维度)，节点个数默认为5。

2)重编码后的特征加入之前时段的子特征池共同构成新的特征池。

3)在特征池中对于不同的特征进行k-means聚类，聚类簇数K由模型的使用者根据场景下关键物品的种类数进行设定。

4)根据聚类的结果，将聚集为一类的目标视为同一目标。并对相同的目标赋予同一编码，并在视频帧中对于各关键物体进行标注和框出。

5)根据编码结果形成子特征池并用于后续时段的工作。

6.边缘系统资源的分配优化

为了尽可能的最大化边缘效用，即利用有限的资源尽可能的服务更多的用户设备，也就是为更多的摄像头提供目标检测和跟踪服务。对于边缘系统的计算资源的自适应动态分配和对于待处理视频的分辨率自适应调整是必不可少的。实时的分配和调整方法流程如下图10所示。

附图在本文中，我们将边缘系统的计算资源优化问题和视频分辨率设定问题联合定义为一个多目标优化问题。其中有两个目标待优化，一个是系统总延迟之和，另一个是多目标跟踪的准确率。在有些情况下，当系统总延迟下降时，多目标跟踪的准确率也会下降。而当多目标跟踪的准确率上升时，系统的总延迟也会随之上升。因此，我们需要在两者之间做一个权衡，力求在延迟低的情况下，准确率达到最好。本发明中资源分配优化方法采用的是多目标白鲨优化算法MOWSO。

1)本发明设计了一种智能交通场景下的实时多摄像头视频分析方法，适用于城市路段交通场景下的多摄像头协同视频分析问题。主边缘服务器为多个摄像头分配附属边缘服务器的计算资源用于进行目标检测和视频特征提取。由附属边缘服务器进行检测后将提取的特征传入主边缘服务器进行重编码并构建特征池，随后对于特征池中的特征进行聚类，并且根据聚类结果为每个目标进行标注并框出，相同的目标则被赋予相同的编号，从而完成多个摄像头的协同分析。同时边缘系统的计算资源和待处理视频的分辨率也会根据实时的情况进行自适应分配。

2)本发明设计了云—边缘—设备端协同的视频分析方法。主要为设备端采集分析所需的视频数据并完成上传到边缘端和云端，在边缘端分别进行目标检测和多摄像头的视频分析，而在云端完成边缘端所需模型的构建与训练并下发到边缘端。

3)本发明设计了结合基于深度学习的目标检测方法。通过结合多层的卷积以及深度可分离卷积，能够在减轻网络体积的同时保证目标检测的速度和准确率。从而高效地为后续的多摄像头协同分析提供高质量特征。

4)本发明设计了结合GCN多摄像头协同分析模型。具体为目标检测出的特征，结合之前时段的子特征池构建新的特征池，并且利用聚类模型进行聚类然后完成对于目标的标注。

5)本发明设计了边缘系统资源自适应优化策略，具体为根据实时的边缘资源使用情况以及目标跟踪的准确率和系统的延迟，考虑采用多目标优化算法优化实时计算资源分配以及待处理视频的分辨率设定，合理的优化方案能够使得边缘系统的效用最大化。

附图说明

图1实时多摄像头视频分析方法结构

图2实时多摄像头视频分析方法总体流程

图3FSnet整体结构

图4输入部分的结构

图5特征提取部分的结构

图6特征优化部分的结构

图7Upsampling原理图

图8目标检测部分的结构

图9多摄像头协同分析模型

图10边缘系统资源分配流程图

具体实施方式

根据上述描述，以下是一个具体的实施流程，但本专利所保护的范围并不限于该实施流程。

步骤1：目标检测模型构建

在智慧交通场景下，目标种类主要是人物和车辆两类，在本模型中，需要快速识别视频中的人物和车辆作为关键目标。为了在更低功耗和更低延迟的情况下高质量完成目标检测，本发明提出一种基于深度学习的检测模型FSnet。其整体结构如图1所示，分别包括输入、特征提取、特征优化、目标检测。

检测模型的构建流程如下：

5)输入部分：输入监控摄像头采集的视频数据，将视频分成帧后，对于视频帧的分辨率统一调整为1280*720像素，如图2所示。从第一帧开始，对每四张视频帧图片进行拼接，每一张图片都有其对应的目标框，将四张图片拼接之后就获得一张新的图片。将新的图片加入训练数据集用于训练。然后设定目标边框大小分别为：11*22、16*16和22*11，以真实的边框位置相对于预设边框的偏移量来构建训练样本。将构建好的训练样本输入特征提取部分。

6)特征提取：如图3所示，采用切片操作对于输入部分传入的样本进行处理，将图像转为特征图将处理后的特征图进行拼接(Concat)后经过一次卷积(卷积核大小为3*3，步长为1)，转变为新的特征图。然后采用批量归一化是得批量呈标准正态分布，随后经过一次深度可分离卷积(通道数量为3，每个通道三个大小为3*3的卷积核，步长为1)，卷积后生成的特征图传入空间金字塔池化层(空间池化层三个窗口大小默认为4*4、2*2和1*1)，得到固定大小的特征shiy。这一部分将一次卷积后的特征B1、一次深度可分离卷积后的特征B2和最后固定大小的特征B3传入特征优化部分。

7)特征优化：如图4所示，将固定大小的特征B3经过一次卷积(卷积核大小为3*3，步长为1)，然后经过批量归一化和激励函数SiLU处理后使用上采样扩充特征量，然后与一次深度可分离卷积后的特征B2一起分别经过两次卷积(卷积核大小为3*3，步长为1)，和经过批量归一化以及激励函数SiLU处理后，同时经过两个不同的卷积(卷积核大小为3*3，步长为1)，随后将两次卷积后的张量数据进行合并(Concat)，然后经过一次卷积(卷积核大小为3*3，步长为1)，经过批量归一化和激励函数SiLU处理后结合上一部分的特征B1使用上采样扩充特征量，随后传入卷积层(卷积核大小为3*3，步长为1)。然后经过一次卷积(卷积核大小为3*3，步长为1)，批量归一化和激励函数SiLU后得到特征N1传入下一个部分，随后再次经过一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU处理后并行进行不同的卷积后将张量进行合并后进行一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU，处理后得到的特征N2传入下一个部分，同时特征也与B3经过一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU处理后的特征进行合并后再次经过一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU处理，得到特征N3传入下一部分。

8)目标检测：如图5所示，上一部分传入的N1、N2和N3分别经过一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU处理后得到特征张量，得到的特征并行经过两个一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU后分别经过一次卷积(卷积核大小为3*3，步长为1)和激励函数Sigmoid处理，其中一个并行经过两个卷积(卷积核大小为3*3，步长为1)，但是不经过Sigmoid处理，随后将得到的特征进行合并，合并后改变形状。然后将得到的三组特征进行合并后转置，就能将视频帧中的关键目标框出表示，即在视频帧画面中用方框将关键目标框出。

步骤2：多摄像头协同分析模型构建

为了在实时的智慧交通场景下能够高效地进行多个目标的标注并跟踪，我们采用图卷积网络GCN进行特征的编码并且进行构建特征池。主要结构如图6所示。

模型的详细构建流程如下：

6)由直连服务器传输到主边缘服务器的特征和结果采用GCN中的graphembedding representation方法进行重编码并建模。邻接矩阵A大小为5*5，度矩阵D大小为5*5，特征向量矩阵X大小为(节点个数*特征向量的维度)，节点个数默认为5。

7)重编码后的特征加入之前时段的子特征池共同构成新的特征池。

8)在特征池中对于不同的特征进行k-means聚类，聚类簇数K根据场景下关键物品的种类数设为5。

9)根据聚类的结果，将聚集为一类的目标视为同一目标。并对相同的目标赋予同一编码，并在视频帧中对于各关键物体进行标注和框出。

10)根据编码结果形成子特征池。

步骤3：检测模型的训练与执行

步骤3.1：检测模型的训练

训练数据集选择城市交通视频数据集(AI CITY CHALLENGE)训练目标检测模型，该数据集包含了从美国一个中等城市的16个十字路口的46个摄像头收集的3.58小时的视频。两个最远的同步摄像机之间的距离为4公里。该数据集涵盖了不同的位置类型，包括十字路口、道路延伸和高速公路。每个视频的分辨率至少为960p，大多数视频的帧率为10fps。训练集包括标注，因此无需进行重复标注。

目标检测模型训练过程如下

1)输入视频数据训练集，并初始化模型。

2)执行模型流程，输出损失和准确率。

3)根据损失利用梯度下降更新模型参数。

4)重复执行2)和3)达到设定的epoch，得到模型的参数并保存，

得到模型。

步骤3.2：检测模型的执行

5)视频采集传输到附属边缘服务器后，将视频分成视频帧图像，视频帧图像输入模型中后根据主边缘服务器的分配改变分辨率，随后进行Mosaic数据增强，即通过随机缩放、随机裁剪、随机排布的方式进行拼接，最后进行自适应锚框计算，即在网络训练中，网络在初始锚框的基础上输出预测框，将结果传入特征提取结构中。

6)处理后的图像数据传入特征提取结构中后，利用下采样进行降维，然后通过卷积层来进行升维处理，在卷积之后进行批量归一化，归一化之后进行深度可分离卷积。之后进行空间金字塔池化，使得特征大小固定，然后经过一层卷积后得到的特征传入后续的特征优化部分。该部分的输出还包括其他两部分特征，分别是下采样紧接卷积后的特征和深度可分离卷积后的特征。

7)经由特征提取部分处理之后传入特征优化部分中，进行进一步的特征升维和特征提取，特征提取部分通过加入多个卷积、批量归一化和卷积层加强网络特征融合的能力。得到的三部分的特征输入到最后一部分目标检测部分。

8)进入FSnet的最后一部分目标检测部分，利用各个卷积层进行进一步降维后，利用画框损失函数处理之后优化数据结果，然后经由nms非极大值抑制对于目标框进行筛选，完成目标的检测并框出。

步骤4：多摄像头协同分析模型的执行

模型的执行流程如下：

1)由附属边缘服务器传输到主边缘服务器的特征和结果采用GCN中的graphembedding representation方法进行重编码并建模。

3)在特征池中对于不同的特征进行k-means聚类。

5)根据编码结果形成子特征池并用于后续时段的工作。

步骤5：边缘系统资源的分配优化

为了尽可能的最大化边缘效用，即利用有限的资源尽可能的服务更多的用户设备，也就是为更多的摄像头提供目标检测和跟踪服务。对于边缘系统的计算资源的自适应动态分配和对于待处理视频的分辨率自适应调整是必不可少的。实时的分配和调整方法流程如图7所示。本发明中资源分配优化方法采用的是多目标白鲨优化算法MOWSO。

优化算法的执行过程如下：

1)主边缘服务器获取附属边缘服务器的资源状况。进行多目标白鲨优化算法的初始化，并设定迭代次数为100。

2)主边缘服务器利用多目标白鲨优化算法MOWSO进行附属边缘服务器的资源分配。

3)附属边缘服务器执行目标检测并将检测到的特征传入主边缘服务器，得到目标检测准确率。

4)主边缘服务器执行多摄像头协同分析模型。

5)计算得到系统延迟，包括计算延迟和传输延迟。

6)判断是否达到迭代次数，否则回到2)，根据目标检测准确率和系统延迟更新资源分配方案，是则进入下一时段的资源分配。

Claims

1.一种智慧交通场景下的实时多摄像头视频分析方法，其特征在于：

(1).系统结构

包含的角色和功能的说明如下：

场景介绍：选择城市路段某个时段某个区域作为场景，路段有着移动的车辆并且在各个路口部署有不同角度的摄像头，同时配备有一个主边缘服务器和多个附属边缘服务器；

摄像头：在路段上部署的拍摄不同角度的监控摄像头，负责采集实时视频并且传输到各个附属边缘服务器中进行处理；传输视频到附属边缘服务器后由主边缘服务器根据实时的可用计算资源对于视频分辨率进行设定；

主边缘服务器：根据实时边缘系统的资源使用状态和网络质量进行计算资源和网络带宽的分配，即为各个摄像头分配附属服务器；负责收集各个附属边缘服务器传输的特征并且构建特征模型和特征池；并且结合这些特征进行协同分析，为检测到的所有目标分配编号并且进行跟踪；过程中构建子特征池加速模型的推理；

附属边缘服务器：会将本身的计算资源使用情况每隔固定时间上传到主边缘服务器，固定时间的设定由方法的布置者决定；按照主边缘服务器的分配负责收集不同摄像头采集的视频，进行初步的检测并将得到的特征以及结果传输到主边缘服务器；

云服务器：负责附属服务器中检测模型以及主边缘服务器中协同分析模型的构建和训练，并下发到对应的边缘服务器；

(2)组成部分

多摄像头视频分析方法大体分为五个部分组成，分别介绍如下：

1)检测模型和多摄像头协同分析模型的构建与训练

将过去一段时间采集的视频从附属边缘服务器传输到云端，在云端服务器进行线下的分析，时间的长度默认为10s；然后搭建检测模型和多摄像头协同分析模型，提出视频中的特征并训练检测模型；同时将提取出的各个视频的特征传入多摄像头协同分析模型进行训练并得到初始的特征池；然后将训练好的检测模型、多摄像头协同分析模型和初始特征池分别下发给附属边缘服务器和主边缘服务器；

2)视频传输

在城市某路口的各个角度部署监控摄像头进行实时视频的采集，然后将采集的视频传输到附属边缘服务器；

3)目标检测

根据主边缘服务器的资源分配结果将采集的实时视频传输到分配的附属边缘服务器后进行分辨率调整，然后各附属边缘服务器利用云端服务器下发的检测模型对于视频中的多个关键目标进行检测，同时进行目标特征的筛选；随后将检测的结果和筛选后的特征发送到主边缘服务器；

4)多摄像头的协同分析

主边缘服务器将各个附属边缘服务器传输的特征进行建模并且结合子特征池构建整体的特征池，然后利用云端服务器下发的协同分析模型为每个检测到的目标进行标记和编号，其中相同的目标标注相同的编号，最后利用标注的结果构建子特征池用于加速下一个时段的多摄像头协同分析；

5)视频分析方法的优化

边缘系统计算资源由各个附属边缘服务器包含的计算资源组成；资源的分配优化将会基于实时的计算资源使用量进行，同时会根据实时的计算资源确定待处理的视频的分辨率大小，并且以最小化系统延迟和最大化目标检测跟踪的精度为目标；

上述五部分中实时多摄像头视频分析方法的各个流程的具体将在以下几个小节中详细进行介绍；

(3)总体流程

实时多摄像头视频分析方法的总体流程；包括如下：

1)摄像头采集实时的场景视频，云端服务器判断在附属边缘服务器和主边缘服务器是否已部署有检测模型和协同分析模型；如果没有则需要将训练好的检测模型、协同分析模型和初始特征池下发到附属边缘服务器和主边缘服务器进行部署；注意：检测模型和协同分析模型的构建和训练以及初始状态池的生成是在云端服务器线下完成的，不占用线上的执行时间；如果确认检测模型和协同分析模型已经部署，进行下一步2)；

2)主边缘服务器根据现有的可用的计算资源，设定采集的待检测视频的分辨率，同时为每个摄像头预分配附属边缘服务器；

3)附属边缘服务器对分配的视频进行目标检测，随后筛选目标特征和检测结果传输到主边缘服务器；主边缘服务器对于附属边缘服务器传输的特征进行建模，随后构建特征池；

4)基于构建的特征执行协同分析算法，然后更新子特征池；

5)判断是否达到设定的迭代次数，如果是则根据协同分析结果对目标进行标注并框出，如果否则转到计算协同分析得到目标的准确率和系统延迟，调整带检测视频的分辨率和计算资源的预分配策略，转到2)；边缘网络环境

场景下各个摄像头采集到的视频经过附属的边缘服务器处理之后，得到的特征以及结果将被传输到主边缘服务器，这个过程是并行的；因此我们利用频分多址FDMA来处理多终端的传输任务；场景下的摄像头数量由方法使用者根据实际场景的摄像头数量进行设定，附属边缘服务器与摄像头是一对一的关系，主边缘服务器只有一个；根据香农定理可以计算得到各个时刻每个直连边缘服务器的传输速率；而边缘系统的网络总带宽则是分配给各个直连边缘服务器的带宽之和；而数据的传输需要消耗带宽资源从而产生传输延迟；本发明认为摄像头与附属服务器之间的连接是保持稳定的；

场景下的目标检测和多摄像头的协同分析分别在附属边缘服务器和主边缘服务器上进行并且都需要消耗计算资源，因此在进行视频分析时用到附属边缘服务器和主边缘服务器计算资源，从而产生计算延迟和功率能耗；边缘系统的计算延迟由附属边缘服务器和主边缘服务器上的计算延迟组成。

2.根据权利要求1所述的方法，其特征在于由以下四部分组成，分别为：

1)输入

输入部分负责将视频划分为帧并进行视频的预处理，由于不同摄像头所采集视频的分辨率存在不同的情况，因此对于视频帧的分辨率进行调整，统一调整为1280*720像素；输入为场景下摄像头采集的视频；

数据增强(Mosaic)：从第一帧开始，对每四张视频帧图片进行拼接，每一张图片都有其对应的目标框，将四张图片拼接之后就获得一张新的图片，同时也获得这张图片对应的目标框，然后将这样新的图片传入到神经网络中去学习；

自适应锚框计算(Anchor)：预定义边框就是一组预设的边框分别为：11*22、16*16和22*11，在训练时，以真实的边框位置相对于预设边框的偏移量来构建训练样本；

2)特征提取

特征提取部分负责对于输入部分传入的视频帧进行初步的处理并提取特征；；；

下采样：采用切片操作对于输入部分传入的图像进行处理，将图像转为特征图将处理后的特征图进行拼接后经过一次卷积，转变为新的特征图；

批量归一化：和普通的数据标准化类似,是将分散的数据统一的一种做法；batch是批数据，BN在每批数据进行前向传递的时候,对每一层都进行归一化的处理；BN的公式表达如下：

其中，表示输入当前batch的b-th样本时该层i-th输入节点的值，x_i是/>构成的行向量，长度为批量大小m；μ和σ为该行的均值和标准差；ε是防止零引入的极小量，设为0.001；γ和β是利用反向传播学习得到的参数；

深度可分离卷积：由深度卷积和点卷积两个部分组成，用来提取特征feature map；

空间金字塔池化(SPP)：空间金字塔池化能将任意大小的特征图转换成固定大小的特征向量；

3)特征优化

特征优化部分负责对于特征提取部分传入的特征进行进一步的处理和优化；；B1、B2和B3分别是特征提取部分传入的特征；

激活函数(SiLU)：SiLU函数就是Sigmoid加权线性组合；公式如下所示，x表示输入；

SiLU＝x·Sigmoid(x),

上采样：在直接将特征图的元素进行复制；

4)目标检测

目标检测部分负责进行检测；N1、N2和N3分别是特征优化部分传入的特征；

改变形状Reshape：网络结构中Reshape的作用是改变张量数据的形状，如维度；Fsnet的模型构建过程如下：

1)输入监控摄像头采集的视频数据，将视频分成帧后，对于视频帧的分辨率统一调整为1280*720像素；从第一帧开始，对每四张视频帧图片进行拼接，每一张图片都有其对应的目标框，将四张图片拼接之后就获得一张新的图片；将新的图片加入训练数据集用于训练；然后设定目标边框大小分别为：11*22、16*16和22*11，以真实的边框位置相对于预设边框的偏移量来构建训练样本；将构建好的训练样本输入特征提取部分；

2)采用切片操作对于输入部分传入的样本进行处理，将图像转为特征图将处理后的特征图进行拼接后经过一次卷积，卷积核大小为3*3，步长为1，转变为新的特征图；然后采用批量归一化是得批量呈标准正态分布，随后经过一次深度可分离卷积，通道数量为3，每个通道三个大小为3*3的卷积核，步长为1；卷积后生成的特征图传入空间金字塔池化层空间池化层三个窗口大小默认为4*4、2*2和1*1，得到固定大小的特征shiy；这一部分将一次卷积后的特征B1、一次深度可分离卷积后的特征B2和最后固定大小的特征B3传入特征优化部分；

3)将固定大小的特征B3经过一次卷积，卷积核大小为3*3，步长为1，然后经过批量归一化和激励函数SiLU处理后使用上采样扩充特征量，然后与一次深度可分离卷积后的特征B2一起分别经过两次卷积，卷积核大小为3*3，步长为1，和经过批量归一化以及激励函数SiLU处理后，同时经过两个不同的卷积，卷积核大小为3*3，步长为1，随后将两次卷积后的张量数据进行合并，然后经过一次卷积，卷积核大小为3*3，步长为1，经过批量归一化和激励函数SiLU处理后结合上一部分的特征B1使用上采样扩充特征量，随后传入卷积层(卷积核大小为3*3，步长为1)；然后经过一次卷积，卷积核大小为3*3，步长为1，批量归一化和激励函数SiLU后得到特征N1传入下一个部分，随后再次经过一次卷积，卷积核大小为3*3，步长为1；批量归一化和激励函数SiLU处理后并行进行不同的卷积后将张量进行合并后进行一次卷积，卷积核大小为3*3，步长为1；批量归一化和激励函数SiLU，处理后得到的特征N2传入下一个部分，同时特征也与B3经过一次卷积，卷积核大小为3*3，步长为1；批量归一化和激励函数SiLU处理后的特征进行合并后再次经过一次卷积，卷积核大小为3*3，步长为1；批量归一化和激励函数SiLU处理，得到特征N3传入下一部分；

4)上一部分传入的N1、N2和N3分别经过一次卷积(卷积核大小为3*3，步长为1)、批量归一化和激励函数SiLU处理后得到特征张量，得到的特征并行经过两个一次卷积，卷积核大小为3*3，步长为1；批量归一化和激励函数SiLU后分别经过一次卷积，卷积核大小为3*3，步长为1；和激励函数Sigmoid处理，其中一个并行经过两个卷积，卷积核大小为3*3，步长为1；但是不经过Sigmoid处理，随后将得到的特征进行合并，合并后改变形状；然后将得到的三组特征进行合并后转置，就能将视频帧中的关键目标框出表示，即在视频帧画面中用方框将关键目标框出；

FSnet的执行流程如下：

1)视频采集传输到附属边缘服务器后，将视频分成视频帧图像，视频帧图像输入模型中后根据主边缘服务器的分配改变分辨率，随后进行Mosaic数据增强，即通过随机缩放、随机裁剪、随机排布的方式进行拼接，最后进行自适应锚框计算，即在网络训练中，网络在初始锚框的基础上输出预测框，将结果传入特征提取结构中；

2)处理后的图像数据传入特征提取结构中后，利用下采样进行降维，然后通过卷积层来进行升维处理，在卷积之后进行批量归一化，归一化之后进行深度可分离卷积；之后进行空间金字塔池化，使得特征大小固定，然后经过一层卷积后得到的特征传入后续的特征优化部分；该部分的输出还包括其他两部分特征，分别是下采样紧接卷积后的特征和深度可分离卷积后的特征；

3)经由特征提取部分处理之后传入特征优化部分中，进行进一步的特征升维和特征提取，特征提取部分通过加入多个卷积、批量归一化和卷积层加强网络特征融合的能力；得到的三部分的特征输入到最后一部分目标检测部分；

4)进入FSnet的最后一部分目标检测部分，利用各个卷积层进行进一步降维后，利用画框损失函数处理之后优化数据结果，然后经由nms非极大值抑制对于目标框进行筛选，完成目标的检测并框出；

多摄像头协同分析模型

为了在实时的环境下能够高效地进行多个目标的标注并跟踪，采用图卷积网络GCN进行特征的编码并且进行构建特征池；；

模型的详细流程如下：

1)由直连服务器传输到主边缘服务器的特征和结果采用GCN中的graph embeddingrepresentation方法进行重编码并建模；邻接矩阵A大小为5*5，度矩阵D大小为5*5，特征向量矩阵X大小为节点个数*特征向量的维度节点个数默认为5；

2)重编码后的特征加入之前时段的子特征池共同构成新的特征池；

3)在特征池中对于不同的特征进行k-means聚类，聚类簇数K由模型的使用者根据场景下关键物品的种类数进行设定；

4)根据聚类的结果，将聚集为一类的目标视为同一目标；并对相同的目标赋予同一编码，并在视频帧中对于各关键物体进行标注和框出；

5)根据编码结果形成子特征池并用于后续时段的工作。