CN112489072B

CN112489072B - 一种车载视频感知信息传输负载优化方法及装置

Info

Publication number: CN112489072B
Application number: CN202011255549.7A
Authority: CN
Inventors: 吕品; 李凯; 许嘉
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2023-10-13
Anticipated expiration: 2040-11-11
Also published as: CN112489072A

Abstract

本发明公开一种车载视频感知信息传输负载优化方法及装置，该方法包括：当需要将实时采集到的环境感知信息的视频图像数据传输给车辆控制模块时，每次传输前先将实时视频帧图像中的静态背景图像与动态前景图像进行分离，并在初始传输时传输分离出的静态背景图像，在之后每次传输时则仅传输分离出的动态前景图像；车辆端接收到动态前景图像后，将动态前景图像与初始接收到的静态背景图像进行融合，得到所需传输的实时视频帧图像数据。本发明能够优化车载视频感知信息的负载传输，大幅降低传输负载、提高传输的时效性，且具有实现方法简单、复杂程度低以及执行效率高等优点。

Description

一种车载视频感知信息传输负载优化方法及装置

技术领域

本发明涉及车载视频传输技术领域，尤其涉及一种车载视频感知信息传输负载优化方法及装置。

背景技术

车辆在行驶过程中可以通过与路边基础设施进行协同环境感知，有效扩展车辆的感知范围，消除感知盲区，尤其是对于无人驾驶类汽车的安全性具有重要意义。在无人驾驶汽车中，需要依靠多种传感器(如摄像头、激光雷达、毫米波雷达等)进行环境感知，环境感知是车辆自动做出各项行为决策和运动控制的基础，只有获得了充分、精确、可靠的环境感知信息，无人驾驶汽车才能做出安全、合理的驾驶决策。当前业界提升无人驾驶汽车环境感知能力的主要方法是安装数量更多、精度更高的传感器，然而这种方法并不能消除因障碍物遮挡而产生的感知盲区。因此，仅提升无人驾驶汽车的单体感知能力会存在一定的局限性。

采用群智协同环境感知的策略则可以突破上述局限。群智感知是指以普通用户的移动设备作为基本感知单元，大量感知单元通过移动互联网进行有意识或无意识的协作，实现感知任务分发与感知数据收集，完成大规模的、复杂的社会感知任务。受群智感知思想的启发，无人驾驶汽车协同环境感知已经开始受到关注，即无人驾驶汽车通过与其他车辆和路边基础设施共享环境感知数据，使得无人驾驶汽车的环境感知能力获得提升。当一个区域对于一辆无人驾驶汽车来说是感知盲区，而这个区域对其他节点来说是可感知区域时，那么这辆无人驾驶汽车就可以从其他节点获取这个区域的感知信息，从而可以扩大自身的感知范围，消除感知盲区，实现非视距(NLOS)感知。由此可见，群智协同环境感知对于提升无人驾驶安全性具有重要意义。

与其他感知数据相比，摄像头拍摄的视频数据所包含的环境信息往往更加丰富和直观，对于环境感知具有更重要的作用，百度、特斯拉等公司甚至研发了基于纯视觉感知数据的无人驾驶汽车。因此，在进行协同环境感知时，视频数据是无人驾驶汽车与其他感知节点共享的主要数据类型。在实际应用场景中，道路监控摄像头往往具有固定的安装位置、稳定的电源供应、广阔的拍摄视野，因此非常适合作为无人驾驶汽车的协同感知节点。如图1所示，路边摄像头把拍摄到的视频数据发送给无人驾驶汽车，就能帮助车辆扩大自身的感知范围，根据环境情况及早做出安全、合理的驾驶决策。

针对如无人驾驶汽车等的车载视频数据传输，现有技术中通常都是实时将完整的视频帧数据直接传输给车辆，但是视频帧所包含的数据量较大，尤其是随着摄像头分辨率不断提高，摄像头每秒钟所产生的视频数据量急剧增长，一个高清摄像头每秒产生的数据量可达几十兆比特，尤其是应用于如上述无人驾驶汽车中采用群智协同环境感知时，车辆或路侧单元通常会安装多个摄像头以覆盖各个方向，每个节点产生的数据量都将成倍增长，传输每个视频帧会导致网络负载过重，传输延迟增大，严重影响环境感知信息的时效性。现有的车载网通信技术(如DSRC、3G/4G等)很难支持上述如此巨大的传输负载；特别是在高速移动时，车辆能获得的有效传输速率会更低。即使采用容量更大的5G网络进行传输，当一个区域内有很多车辆时，为这些车辆传输大量视频数据也会使得网络负载过重，进而造成传输延迟增大，不利于环境感知数据的时效性，同时也会影响其他网络应用的正常运行，而无人驾驶汽车对感知数据的实时性和可靠性有着更为严格的要求，车联网环境本身则具有显著的异构性和动态性，这使得已有的群智感知机制并不能很好地满足无人驾驶汽车的独特需求。因此，网络传输负载受限成为阻碍如无人驾驶汽车进行群智协同环境感知的重要因素。

对无人驾驶汽车的激光雷达感知数据可以采用数据压缩方法进行压缩，例如首先将激光雷达的点云数据组织为二维图像阵列，然后使用传统图像压缩技术、聚类技术或深度学习技术对图像进行压缩。而对于图像数据，现有技术中通常是基于H.265编码技术利用帧内预测编码和帧间预测编码来降低视频图像空间冗余和时间冗余，从而实现视频图像的数据压缩，其中H.265中的编码帧包括I帧、P帧和B帧，I帧为帧内编码帧，P帧为当前帧与前一帧(I帧或P帧)的差别，B帧为双向预测编码帧，但是采用该类方法，由于帧间编码具有依赖性，一旦I帧或P帧在传输过程中出错或丢失都会导致后续的帧出错，并不适用于丢包率较高的车载网络环境。因此，亟需提供一种能够适用于车载网络环境的车载视频感知信息传输方法，以优化车载视频感知信息的负载传输，降低传输负载，提高传输的时效性。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、复杂程度低、能够优化负载传输，大幅降低传输负载、提高传输时效性的车载视频感知信息传输负载优化方法及装置。

为解决上述技术问题，本发明提出的技术方案为：

一种车载视频感知信息传输负载优化方法，该方法包括：当需要将实时采集到的环境感知信息的视频图像数据传输给车辆控制模块时，每次传输前先将实时视频帧图像中的静态背景图像与动态前景图像进行分离，并在初始传输时传输分离出的所述静态背景图像，在之后每次传输时则仅传输分离出的所述动态前景图像；车辆端接收到所述动态前景图像后，将所述动态前景图像与初始接收到的所述静态背景图像进行融合，得到所需传输的实时视频帧图像数据。

进一步的，所述实时视频帧图像中的静态背景图像与动态前景图像进行分离的步骤包括：

S101.获取当前环境下视野内无移动物体的图像作为所述静态背景图像；

S102.将待传输的所述实时视频帧图像与所述静态背景图像中每个像素进行归一化预处理；

S103.将经过步骤S102处理后的实时视频帧图像以及静态背景图像进行相似度比较，根据比较结果从所述实时视频帧图像中分离出所述动态前景图像。

进一步的，所述步骤S103的步骤包括：分别将所述实时视频帧图像以及静态背景图像划分为相同规格的多个区域，并比较对应的各所述区域之间的相似度，如果判断到两个对应的目的区域相似，则在所述实时视频帧图像中去除所述目的区域内的图像信息，否则保留目的区域内的图像信息，处理完所有所述区域后得到分离出的所述动态前景图像。

进一步的，所述动态前景图像与初始接收到的所述静态背景图像具体采用基于生成对抗网络的融合方式进行融合，所述生成对抗网络包括生成模型以及判别模型，所述生成模型用于模拟前景图像与背景图像的叠加，所述判别模型用于根据输入图像产生为真或假的判别结果并对所述生成模型进行反馈。

进一步的，所述生成对抗网络具体采用FWGAN模型(Fusion-WGAN，融合对抗网络)，所述生成模型具体包括依次连接的第一通道注意力层、空间注意力层、密集连接模块、第二通道注意力层以及卷积层，当需要进行融合时，分别输入待融合的动态前景图像以及静态背景图像，由所述第一通道注意力层在通道层面给所述静态背景图像赋予权重，由所述空间注意力层对所述动态前景图像进行特征图提取处理，处理后由所述密集连接模块对提取的特征图进行复用，所述第二通道注意力层结合特征图之间的信息依赖，对不同阶段获得的所述特征图进行权重分配，经过所述卷积层的处理后完成对动态前景图像以及静态背景图像的融合。

进一步的，所述判别模型包括多个依次连接的卷积层，其中最后一个卷积层使用Sigmoid作为激活函数以完成二分类任务、其余卷积层均使用LeakyReLu激活函数，所述卷积层的数量根据感受野的大小确定。

进一步的，所述生成对抗网络中构建所述生成模型的损失函数L_G为：

L_G＝V_FWGAN(G)+κL_content

其中，κ为用于平衡对抗性损失和内容性损失的系数，V_FWGAN(G)为所述生成模型和判别模型之间的对抗性损失，L_content为融合图像和真实图像的内容性损失差异，且满足：

L_content＝L_pixel+λL_ssim

其中，为所得融合图像样本域P_g的随机采样，/>为判别模型对融合图像采样的判别结果，L_pixel代表融合图像和真实图像的像素差，L_ssim代表融合图像和真实图像的结构性差异，λ为用于平衡信息损失和结构性损失的系数；

以及构建所述判别模型的损失函数L_D为：

其中，为融合图像与真实图像之间区域的随机插值采样，/>为梯度惩罚项以用于将所述判别模型梯度约束在固定范围。

进一步的，所述生成对抗网络具体采用RMSProp(Root Mean Sqaure prop，均方根传递)算法进行训练。

一种车载视频感知信息传输负载优化装置，所述装置用于将实时采集到的环境感知信息的视频图像数据传输给车辆控制模块，包括：

图像分离模块，用于每次传输前先将实时视频帧图像中的静态背景图像与动态前景图像进行分离；

传输模块，用于在初始传输时传输分离出的所述静态背景图像，在之后每次传输时则仅传输分离出的所述动态前景图像；

图像融合模块，用于车辆端接收到所述动态前景图像后，将所述动态前景图像与初始接收到的所述静态背景图像进行融合，得到所需传输的实时视频帧图像数据。

进一步的，所述图像融合模块包括生成对抗网络，所述生成对抗网络包括生成模型以及判别模型，所述生成模型用于模拟前景图像与背景图像的叠加，所述判别模型用于根据输入图像产生为真或假的判别结果并对所述生成模型进行反馈。

与现有技术相比，本发明的优点在于：

1、本发明采用“动静分离”的传输方法，通过把协同环境感知数据的视频帧中静态背景与动态前景进行分离后分别进行传输，将静态背景只传输一次，其余每次仅传输动态前景信息，在车辆端收到动态前景数据后，再将动态前景数据与静态背景数据重新融合成视频帧，每次传输时仅需传输发生变化的部分，能够在确保有用信息正常传输的前提下，避免静态背景数据的重复传输，使得传输负载大幅降低，从而有利于保证环境感知信息传输的时效性。

2、本发明通过结合发送方“动静分离”的传输方法、车辆端图像融合，能够保证近区域内的前景物体不会出现丢失，保证环境感知的可靠性，同时有效降低环境感知信息处理时间，从而能够满足无人驾驶汽车对环境感知的实时性要求。

3、本发明进一步通过基于像素值的计算实现视频帧背景去除和降噪，能够快速地从视频帧中提取动态前景，高效将静态背景与动态前景进行分离，进一步保证环境感知数据处理的实时性，使得能够适用于无人驾驶等对时效性和准确度要求更高的应用场景。

4、本发明进一步采用生成对抗网络的前景图像与背景图像的融合机制，能够快速地把静态背景和动态前景融合成视频帧，同时确保图像的融合精度，使得可以进一步满足如无人驾驶车辆等对时延和精度的高要求。

5、本发明进一步采用基于生成对抗网络的融合机制，通过利用注意力机制对关键信息的关注和对噪音的抑制，结合生成对抗网络的思想提升网络融合精度，利用密集卷积神经网络对特征图的复用，还能够降低网络的深度，减少融合所需的时间。

附图说明

图1是协同感知原理示意图。

图2是本实施例车载视频感知信息传输负载优化方法实现信息传输的原理示意图。

图3是本实施例采用动静分离传输方法与传统传输方法对比原理示意图。

图4是本实施例中采用的生成模型的结构示意图。

图5是本实施例中采用的第一通道注意力层的结构示意图。

图6是本实施例中采用的空间注意力层的结构示意图。

图7是本实施例中采用的第二通道注意力层的结构示意图。

图8是本实施例中采用的判别模型的结构示意图。

图9是在具体实施例中实现图像分离与融合的试验结果对比示意图。

图10是在具体实施例中夜间光照条件下的背景去除试验结果示意图。

图11是在具体实施例中视频图像近区域与远区域划分的试验结果示意图。

图12是在具体实施例中近区域与远区域的前景物体保留率的试验结果示意图。

图13是在具体实施例中图像文件的大小试验结果对比示意图。

图14是在具体实施例中感知信息处理时间的试验结果对比示意图。

图15是在具体实施例中在SSIM指标上的试验结果对比示意图。

图16是在具体实施例中在UQI指标上的试验结果对比示意图。

图17是在具体实施例中VIFF指标上的试验结果对比示意图。

图18是在具体实施例中PCC指标上的试验结果对比示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

本实施例具体以路侧摄像头拍摄的图像数据作为无人驾驶汽车环境感知信息来源的应用场景为例，本实施例车载视频感知信息传输负载优化方法具体包括：当需要将实时采集到的环境感知信息的视频图像数据传输给车辆控制模块时，每次传输前先将实时视频帧图像中的静态背景图像与动态前景图像进行分离，并在初始传输时传输分离出的静态背景图像，在之后每次传输时则仅传输分离出的动态前景图像；车辆端接收到动态前景图像后，将动态前景图像与初始接收到的静态背景图像进行融合，得到所需传输的实时视频帧图像数据。

本实施例采用了“动静分离”的传输方法，通过把协同环境感知数据的视频帧中静态背景与动态前景进行分离后分别进行传输，将静态背景只传输一次，其余每次仅传输动态前景信息，即静态背景只需在初始时传输一次，对于之后的每个视频帧仅传输其中发生变化的部分，在车辆端收到动态前景数据后，再将动态前景数据与静态背景数据重新融合成视频帧，每次传输时仅需传输发生变化的部分，能够在确保有用信息正常传输的前提下，避免静态背景数据的重复传输，使得传输负载大幅降低，从而有利于保证环境感知信息传输的时效性。

如图2所示，本实施例应用于无人驾驶车辆环境感知信息传输场景中时，由路边摄像头将拍摄到的原始图像发送给路侧单元中的计算模块，由计算模块将前景和背景图像进行图像分离，通过传输模块发送给无人驾驶汽车；在车辆端收到动态前景数据后，将收到的前景和背景图像通过环境构建模块进行融合，以将动态前景数据与静态背景数据重新融合成视频帧，结合自身摄像头拍摄的图像，形成最终的环境感知信息，根据上述环境感知信息，驾驶决策模块将做出车辆控制决策，交由车辆控制模块实施。

如图3所示，传统视频数据传输时需要传输完整的视频帧数据，本实施例通过采用动静分离的传输方法在初始时传输一次环境图像的静态背景，之后就仅传输环境图像中动态前景，与传统需要传输完整视频帧的方式相比，能够避免静态背景数据的重复传输，从而大幅降低传输负载。

本实施例上述实时视频帧图像中的静态背景图像与动态前景图像进行分离的步骤具体包括：

S101.获取当前环境下视野内无移动物体的图像作为静态背景图像；

S102.将待传输的实时视频帧图像与静态背景图像中每个像素进行归一化预处理；

S103.将经过步骤S102处理后的实时视频帧图像以及静态背景图像进行相似度比较，根据比较结果从实时视频帧图像中分离出动态前景图像。

本实施例上述通过基于像素值的计算实现视频帧背景去除和降噪，能够快速地从视频帧中提取动态前景，高效将静态背景与动态前景进行分离，保证环境感知数据处理的实时性，尤其适用于无人驾驶等对时效性和准确度要求更高的应用场景。

由于光照强度会随时间发生变化，摄像头实时拍摄的图像与之前所拍摄背景图像的光照条件可能不同。如果直接进行背景减除，会造成减除背景后的图像存在较多噪音。为了降低光照变化对图像背景减除带来的影响，本实施例上述通过在对实时视频帧图像与静态背景图像进行处理前对每个像素先进行归一化预处理，使得无论图像的光照条件如何变化，处理后的图像灰度都将被统一到预设范围内，从而方便进一步的处理和匹配。

本实施例中，步骤S103的步骤包括：分别将实时视频帧图像以及静态背景图像划分为相同规格的多个区域，并比较对应的各区域之间的相似度，如果判断到两个对应的目的区域相似，则在实时视频帧图像中去除目的区域内的图像信息，否则保留目的区域内的图像信息，处理完所有区域后得到分离出的动态前景图像。

在具体应用实施例中，进行图像分离的详细步骤如下：

步骤(1)、由路边摄像头首先拍摄一张视野内无移动物体时的图像，作为静态背景图像。

步骤(2)、路侧单元对摄像头拍摄的实时图像与静态背景图像中的每个像素按公式(1)进行灰度归一化预处理：

其中，x为本次拍摄的图像像素灰度值，x_min为图像矩阵中灰度最小值，x_max为图像矩阵中灰度最大值，x_t代表经过灰度归一化预处理后的像素灰度值。

经过上述归一化处理后，处理后的图像灰度都将被统一到[0,255]这个范围内。

步骤(3)、将经过步骤(2)处理的背景图像和实时图像进行相似度比较，比较的过程为：首先，对背景图像和实时图像按照相同的规格划分成多个区域，然后比较对应区域的相似度，如果两个对应区域相似，则说明该区域内的图像为背景，因此需要去除该区域内的图像信息，具体可将该区域内的像素值都置为0；如果两个对应区域不相似，则说明实时图像中该区域内包含前景物体，因此需要保留。

上述相似度计算方法具体如公式(2)所示：

其中，x_b和x分别是背景图像和实时图像中对应区域像素矩阵转换成的向量，cov(x,x_b)为两个向量的协方差，μ_x和分别是x和x_b的均值，σ_x和/>分别是x和x_b的标准差，标准差的计算分别如公式(3)、公式(4)所示。

使用上述方法后，路边摄像头就可以从拍摄到的视频帧中快速分离出动态变化的前景图像用于传输。与传统直接传输整个视频帧相比，本实施例上述方法所需传输的数据量大幅降低，可以有效降低网络负载，并且提升了环境感知数据的时效性。

车辆在接收到动态变化的前景图像数据后，需要把前景图像与背景图像重新融合成完整视频图像，以提供给车辆进行驾驶决策，如判断前景图像所代表物体的相对位置而做出正确的驾驶决策。本实施例中，动态前景图像与初始接收到的静态背景图像具体采用基于生成对抗网络的融合方式进行融合，生成对抗网络包括生成模型以及判别模型，生成模型用于模拟前景图像与背景图像的叠加，判别模型用于根据输入图像产生为真或假的判别结果并对生成模型进行反馈。通过采用生成对抗网络的前景图像与背景图像的融合机制，能够快速地把静态背景和动态前景融合成视频帧，同时确保图像的融合精度，可利于后续基于视频帧所反映的行车环境做出正确的驾驶决策，使得进一步满足如无人驾驶车辆等对时延和精度的高要求。

本实施例中具体采用基于对抗性背景融合的FWGAN模型，FWGAN模型中利用前景图像和背景图像信息差异量较大的特点，使用注意力机制作为输入特征提取器，以及使用密集连接网络(Densenet)进行特征复用，并利用生成对抗网络的思想进行网络训练。本实施例通过采用FWGAN模型，可以利用注意力机制直接对输入进行处理，使得不需要先将输入图像变换到高纬度空间。

本实施例中生成模型具体包括依次连接的第一通道注意力层、空间注意力层、密集连接模块、第二通道注意力层以及卷积层，其中第一通道注意力层为基于SeNet变体的CBAM中的通道注意力层，以针对前景和背景图像所含信息量大小不同的特点，对包含信息量更多的背景图像赋予更多的关注；空间注意力层用于对前景图像中存在动态物体的部分给予更多的关注；密集连接块则用于特征复用，以充分利用已提取的特征，通过使用该密集连接块还可以适当减少网络深度；第二通道注意力层用于对已提取的不同阶段的特征进行权重分配，以实现特征融合的作用，对于关键区域具体可赋予更高的权重；卷积层实际起到解码器的作用，实现图像的重构。

上述生成模型中具体当需要进行融合时，分别输入待融合的动态前景图像以及静态背景图像，由第一通道注意力层在通道层面给静态背景图像赋予权重，由空间注意力层对动态前景图像进行特征图提取处理，处理后由密集连接模块对提取的特征图进行复用，第二通道注意力层结合特征图之间的信息依赖，对不同阶段获得的特征图进行权重分配，经过卷积层的处理后完成对动态前景图像以及静态背景图像的融合。

生成模型模拟了人类视觉对两张透明度不同图像的叠加过程：背景图像不透明，前景图像透明度高且空白区域较多。视觉会将背景图像整体内容作为基底，忽视前景图像中的空白区域，将其中的关键信息与背景图像叠加，获得最终视觉效果。生成模型的结构具体如图4所示，分别由2个通道注意力层、1个空间注意力层、密集连接模块和普通卷积层构成。每一个卷积层后使用ReLu作为激活函数。

针对背景图像与前景图像所包含信息量差距较大的特性，本实施例生成模型中利用第一通道注意力层1和空间注意力层对输入的双通道图像进行直接处理，第一通道注意力层1在通道层面给包含信息量更多的背景图像赋予更大的权重，空间注意力层则对前景图像给予更多的关注，因此生成模型能够在特征提取过程中将注意力更快地集中到关键信息，本实施例第一通道注意力层1和空间注意力层来自于SeNet的变体结构CBAM，第一通道注意力层1的结构具体如5所示，首先使用最大池化层和平均池化层进行高层次特征提取并压缩输入特征图的空间维数，而后通过权重共享的多层感知机进行特征变化，以二者之和作为输入特征的权重。空间注意力层的结构具体如图6所示，输入部分使用最大池化层和平均池化层进行特征压缩，但是在通道的维度上进行操作；然后利用卷积操作对获得的两个特征图进行特征融合，将所得的单特征图与输入相乘即得到输出特征图feature。

本实施例生成模型中通过密集连接模块对提取的特征图进行复用，不仅能够帮助降低模型的深度，还通过特征复用给与图像边缘像素点更多参与计算的机会，拓展有效感知范围，提升模型的精度。在卷积计算中，图像边缘像素点参与运算次数小于图像中央像素点，会影响融合图像边缘清晰度，本实施例通过密集连接模块复用多尺度的特征层，增加了图像边缘像素点参与卷积运算的次数，能够增强融合图像清晰度。

本实施例第二通道注意力层2结合特征图之间的信息依赖，帮助模型对不同阶段获得的特征图进行权重分配，第二通道注意力层2具体是CVPR2020提出的微型注意力结构ECA-Net，其结构如图7所示。首先使用平均池化层进行特征压缩和高层次信息提取，而后考虑局部特征图之间的交互关系，进行特征的依赖变换，对将所得的一维向量与输入相乘即获得输出。在第二通道注意力层2之后，再经过3个卷积层对特征图做进一步处理，以完成对背景图像和前景图像的融合。

本实施例采用上述基于生成对抗网络的融合机制，通过利用注意力机制对关键信息的关注和对噪音的抑制，结合生成对抗网络的思想提升网络融合精度，利用密集卷积神经网络对特征图的复用，还能够降低网络的深度，减少融合所需的时间。

上述生成模型需要学习图像数据的深层特征并能够重构图像，FWGAN的判别模型本质是一个二分类网络，根据输入图像产生为真或假的判别结果，对生成模型进行反馈。判别模型的结构如图8所示，判别模型具体包括多个依次连接的卷积层，其中最后一个卷积层使用Sigmoid作为激活函数以完成二分类任务、其余卷积层均使用LeakyReLu激活函数，LeakyReLu函数能够帮助判别模型更好地学习数据特征。判别模型中卷积层的数量具体根据感受野的大小确定，感受野是指输入中对当前层产生影响的区域大小，计算方式如公式(5)所示，公式(6)为有效步长计算计算公式。

r_i＝(k_i-1)*s_i+r_i-1 (5)

s_i＝s_i-1*t_i (6)

其中，r_i为第i层感受野的大小，输入层是第1层，初始r₀为1；s_i为第i层的有效步长，初始s₀为1；k_i为第i卷积层的卷积核大小；t_i为第i层卷积层步长的大小。

具体在图像分辨率为256×256时，可以计算得出感受野大小为376×376，判别模块具体由6个卷积层构成，卷积核大小均为4×4，输入层步长设为4，输出层步长设为1，中间层步长设为2。在图像分辨率为128×128和512×512的情况下，判别模型中卷积层的数量具体分别为5和7。

FWGAN的损失函数包括生成模型的损失函数L_G和判别模型的损失函数L_D两部分，生成模型的损失函数L_G反映了生成模型的训练目标，其中包括如公式(7)所示的两部分：

L_G＝V_FWGAN(G)+κL_content (7)

V_FWGAN(G)为生成模型和判别模型之间的对抗性损失，计算方法如公式(8)所示：

其中，为所得融合图像样本域P_g的随机采样，/>为判别模型对融合图像采样的判别结果，L_content表示融合图像和真实图像的内容性损失差异，κ用于平衡对抗性损失和内容性损失。内容性损失包括图像信息损失和结构性损失两部分，即：

L_content＝L_pixel+λL_ssim (9)

其中，L_pixel代表融合图像和真实图像的像素差，作为衡量图像整体损失的指标；L_ssim代表融合图像和真实图像的结构性差异，作为衡量图像结构性损失的指标。λ被用于平衡信息损失和结构性损失。L_pixel和L_ssim的定义如公式(10)和(11)所示：

其中，x为真实图像样本域P_r的随机采样，为融合图像/>在点(i,j)处的像素大小，x_i,j为真实图像x在点(i,j)处的像素大小，n为图像大小；公式(11)中μ_x、μ_x分别为x和x的平均值，c₁和c₂是用来维持稳定的常数。

判别模型的损失函数L_D反映了判别模型的训练目标，其定义如下：

其中，为融合图像与真实图像之间区域的随机插值采样：

为梯度惩罚项，将判别模型梯度约束在固定范围，以保证训练的稳定。

本实施例中，生成对抗网络具体采用RMSProp算法进行训练。传统批归一化(BatchNormalization)网络训练方法，是通过加入可训练参数对数据进行批归一化处理，可以规范神经网络层的输入分布，从而加快神经网络的训练速度。但是，批归一化将判别模型问题的形式从单个输入映射到单个输出更改为映射一批输入到一批输出。本实施例如上述公式(12)中的梯度惩罚项要求对每个样本独立地施加梯度惩罚，与批归一化的批量处理方案冲突，上述判别模型中批归一化层无法使用。为了进一步优化损失函数在更新中存在摆动幅度过大的问题，并且进一步加快函数的收敛速度，RMSProp算法对权重W和偏置b的梯度使用了微分平方加权平均数，本实施例采用RMSProp算法进行网络训练，由RMSProp使用指数衰减的移动平均替代梯度累积以丢弃过去批次的训练历史，能够比传统的如Adam算法取得更好的结果，具体的训练流程如下述算法1所示。

算法1.FWGAN算法.

输入：前景图像样本x_t，真实样本x，背景图像样本x_b，内容损失系数λ，梯度约束项系数θ，参数为ω的生成模型G_ω，参数为δ的判别模型D_δ，学习率l，RMSProp超参α，批处理大小m，判别器更新次数n

输出：判别器分类结果

本实施例上述FWGAN算法中，当生成模型未收敛时，输入背景图像x_b～P_b和前景图像x_t～P_t、真实图像，以及输入随机插值ρ∈uniform[0,1]，分别计算再按照使用RMSProp算法进行判别器系数δ的更新，以及按照使用RMSProp算法进行生成器系数ω的更新。

为验证本实施例上述方法的有效性，使用NVIDIA公司发布的CityFlow数据集作为训练和测试用数据集采用本实施例上述方法进行试验，其中共包含15种不同场景，训练集包含43264张图像，测试集包含1952张图像，分别采用分辨率为128×128、256×256和512×512三种图像尺寸对模型性能进行验证。

在训模型训练过程，使用RMSProp作为模型优化器，设置衰减为0.9，学习率为0.001，每一个批次大小m＝16。生成模型损失函数中的λ取值范围较广，较大的λ取值能够帮助更快的收敛。实验中将λ取值设置为100，能够帮助实验取得较好的结果。判别模型的θ取值为1。实验中，以具有16GB内存的Intel Core 7700CPU作为路侧单元处理器，以Tesla T416G RAM和Intel Xeon Gold 6230作为车辆单元处理结构。

首先采用本实施例上述方法对视频帧中的静态背景和动态前景进行分离和融合的视觉效果实验结果如图9所示，其中图9(a)是真实的拍摄图像(包含前景与背景)；图9(b)是真实的拍摄图像(只包含背景)；图9(c)是子图(a)减子图(b)后提取出的前景图像；图9(d)是使用本发明方法将子图(b)与子图(c)融合形成的图像；图9(e)是不使用生成对抗网络融合出的图像；图9(f)是使用有监督学习算法IFCNN融合得到的图像；图9(g)是使用无监督学习算法DIF融合得到的图像。通过对比图9(a)和图9(d)可以看到，使用本实施例上述方法融合前景与背景得到的图像与原始图像在视觉效果上极为接近，对于图9(d)中黑色圆框标记的远处物体也能够很好地还原出来，从而可以使得对驾驶决策有影响的环境信息不被丢失；通过对比图9(d)和图9(e)可知，如果不使用生成对抗网络，融合得到的图像中车辆轮廓仍然完整，对阴影部分的拟合效果也较好，但对于黑色圆框标记的远处物体清晰度差于生成对抗网络的表现，即本发明使用生成对抗网络可以提升图像融合效果。通过对比图9(d)和图9(f)可知，IFCNN对背景的拟合较好，但对从动态前景图像融合的效果较差，圆框标记的远处物体也没有能够恢复出来，不利于无人驾驶汽车从融合得到的图像中进行环境物体识别。通过对比图9(d)和图9(g)可知，DIF融合得到的图像中，静态背景和动态前景都不够清晰，会对无人驾驶汽车的环境感知造成不利影响。

为了验证不同光照条件下本发明上述背景减除方法的有效性，在实验中还选取了路边摄像头夜间拍摄的图像进行了测试，实验结果如图10所示，其中图10(a)是夜间条件下包括前景与背景的图像，图10(b)是夜间条件下只包含背景的图像，图10(c)是从图10(a)中去除图10(b)得到的前景图像。从图10中可以看出，本实施例上述背景去除方法能够适应较大范围的光照条件，具有较好的通用性。

本实施例上述方法中视频图像需要经过静态背景与动态前景的分离与融合，在这个过程中，如果出现重要前景物体丢失的情况，则可能会对无人驾驶汽车的安全行驶造成不利影响，因此需要对动态前景物体的保留率进行测试与统计。

本实施例在路边摄像头拍摄的画面中(如图11所示)，画面下方区域距离摄像头较近，其中的前景物体较大且相对清晰；画面上方区域距离摄像头较远，其中的前景物体较小且相对模糊。因此将视频图像分为两个区域：将图像上方四分之一的区域称为“远区域”，将图像下方四分之三的区域称为“近区域”。其中，近区域前景物体对于无人驾驶汽车的驾驶决策影响更大，远区域前景物体的影响则较小，因此分别对近区域和远区域内前景物体的保留率分别进行统计。

如图12所示，在使用本实施例上述对视频图像进行背景与前景分离和融合后，近区域的前景物体保留率为100％，远区域的前景物体保留率约为83.3％。由此可见，采用本发明上述方法能够保证近区域内的前景物体不会出现丢失，从而能够保证无人驾驶汽车环境感知的可靠性。远区域前景物体虽然有17％左右的丢失率，但由于距离无人驾驶汽车较远，不会对车辆的安全行驶造成不利影响。

按照传统的传输方法，路边摄像头将不对拍摄的图像进行处理，直接把类似于图9(a)的每个视频帧向无人驾驶汽车进行传输。而本发明方法在图9(a)所示的视频帧中去除如图9(b)所示的静态背景，提取得到如图9(c)所示的动态前景。在生成的前景图像中，除了前景物体部分，背景部分都具有相同的像素值(值为0)。使用JPEG格式存储这种前景图像时，能够有效压缩图像文件的大小，从而降低传输前景图像的数据量。因此，使用本发明传输协同环境感知数据时，将首先传输如图9(b)所示的静态背景一次，之后对于每个视频帧，仅传输如图9(c)所示的动态前景图像，使得传输负载大幅降低。

实验中图像尺寸为256×256时，每帧原始图像与每帧背景图像的大小约为50KB，而去除背景的前景图像平均大小约为7KB，如图13所示。由于道路监控摄像头的拍摄覆盖距离通常为200米，假设道路被路边摄像头完全覆盖，则路边至少每200米就有一个摄像头。若无人驾驶汽车以20米/秒的速度行驶，则每个摄像头为该车辆的服务时间为10秒。当路侧单元以10帧/秒的速率向无人驾驶汽车传输图像时，则在服务时间内一共需要传输100帧视频图像。若直接传输原始图像，传输的数据量为50KB×100＝5000KB；而使用本发明方法的传输数据量为50KB+7KB×100＝750KB，仅为5000KB的15％。若服务时间内路侧单元向无人驾驶汽车传输更多的视频帧，使用“动静分离”的方法将使传输负载降低的比例更大，本发明方法能够将传输负载降低85％以上。

本发明上述方法中一帧视频图像从拍摄完成到交付给无人驾驶汽车的环境构建模块需要经历三个阶段，分别是前景与背景分离阶段、前景图像传输阶段、前景与背景融合阶段，具体为：

在分离阶段，对于尺寸为256×256的图像，对一帧图像进行前景与背景分离所需的时间约为4.6ms，而已有研究工作]对一帧图像进行背景去除所需的时间一般在50ms以上。

在传输阶段，若使用车辆专用短程通信技术(DSRC)进行传输，传输速率为6Mbps，那么传输一帧前景图像所需的时间约为9.3ms；而传输一帧未经处理的原始图像所需时间约为66.7ms。

在融合阶段，使用FWGAN将前景与背景融合成一帧图像所需的时间为4.6ms。由此可知，使用本发明方法处理感知信息时，一帧图像在三个阶段共需耗时18.5ms，约为传统方法的27.7％(如图14所示)。

从上述结果可以看出，采用本发明方法能够有效降低环境感知信息处理时间，更能满足无人驾驶汽车对环境感知的实时性要求。

进一步对融合得到的图像与原始图像进行对比，用于评估模型融合表现的指标包括：

衡量图像结构相似度的SSIM指数，该指数的值越接近1说明融合图像与原始图像越相似；

衡量图像失真程度的UQI指数，该指数的值越大说明图像失真程度越低；

基于视觉信息保真度提出的衡量融合图像质量的指标VIFF，值越大说明融合表现越好；

衡量融合图像与原始图像相似程度的皮尔逊相关系数(Pearson correlationcoefficient,PCC)，该数值越大说明图像融合效果越好。

以上几类指标完整地考虑了融合图像保留细节信息、结构信息及失真效果的能力。

以下在实验中分别对比了本实施例上述采用FWGAN模型方法、本实施例上述方法但不使用生成对抗网络(FW-Net)、基于有监督学习的IFCNN、基于无监督学习的DIF这四种方法在上述指标上的表现。其中对于SSIM指标(如图15所示)，在图像分辨率为128×128时，FW-Net的融合表现最好，FWGAN的表现次于FW-Net，都高于DIF和IFCNN；在图像分辨率为256×256和512×512时，FWGAN和FW-Net的融合表现近似，仍明显优于DIF和IFCNN，即本发明所提出的方案(无论是否使用对抗思想)在保持图像整体结构方面具有优势。对于UQI指标(如图16所示)，在三种图像分辨率下，FWGAN的表现略优于FW-Net，FWGAN和FW-Net的表现明显优于另外两种方案，即本发明融合图像时能够达到更低的失真程度，在使用对抗思想的情况下达到最优。对于VIFF指标(如图17所示)，在图像分辨率为128×128时，FWGAN的表现优于FW-Net；三种图像分辨率下，FWGAN和FW-Net均优于另外两种方案，即采用本发明方法能获得较高的视觉信息保真度，在使用对抗思想时达到最优。对于PCC指标(如图18所示)，在图像分辨率为128×128时，FWGAN的表现最好，FW-Net的表现与FWGAN近似；在图像分辨率为256×256时，FWGAN的表现明显优于FW-Net。在三种图像分辨率的情况下，FWGAN和FW-Net的融合表现均优于另外两种方案。

综合考虑上述四种指标可以得出，采用本发明方法具有最佳的融合图像质量，且与IFCNN和DIF方法相比，本发明通过采用FWGAN模型，能够更充分地考虑了背景图像和前景图像的数据特性，利用注意力机制对关键信息赋予更高的权重，因此更适合无人驾驶汽车进行环境感知。

为实现上述方法，本实施例还包括车载视频感知信息传输负载优化装置，该装置用于将实时采集到的环境感知信息的视频图像数据传输给车辆控制模块，包括：

传输模块，用于在初始传输时传输分离出的静态背景图像，在之后每次传输时则仅传输分离出的动态前景图像；

图像融合模块，用于车辆端接收到动态前景图像后，将动态前景图像与初始接收到的静态背景图像进行融合，得到所需传输的实时视频帧图像数据。

本实施例中，图像融合模块包括生成对抗网络，生成对抗网络包括生成模型以及判别模型，生成模型用于模拟前景图像与背景图像的叠加，判别模型用于根据输入图像产生为真或假的判别结果并对生成模型进行反馈。

在具体应用实施例中，图像分离模块、传输模块具体设置在路侧单元端，图像分离模块可采用路侧单元中计算模块实现，图像融合模块具体设置在车辆端，具体可以由环境构建模块实现。如图2所示，首先路边摄像头将拍摄到的原始图像发送给路侧单元中的计算模块，由计算模块将前景和背景图像进行分离，通过传输模块发送给车辆端；车辆端的环境构建模块将收到的前景和背景图像通过环境构建模块进行融合，并且结合自身摄像头拍摄的图像，形成环境感知信息，驾驶决策模块根据形成的环境感知信息做出车辆控制决策，交由车辆控制模块实施。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种车载视频感知信息传输负载优化方法，其特征在于，该方法包括：当需要将实时采集到的环境感知信息的视频图像数据传输给车辆控制模块时，每次传输前先将实时视频帧图像中的静态背景图像与动态前景图像进行分离，并在初始传输时传输分离出的所述静态背景图像，在之后每次传输时则仅传输分离出的所述动态前景图像；车辆端接收到所述动态前景图像后，将所述动态前景图像与初始接收到的所述静态背景图像进行融合，得到所需传输的实时视频帧图像数据；

所述动态前景图像与初始接收到的所述静态背景图像具体采用基于生成对抗网络的融合方式进行融合；

所述生成对抗网络具体采用FWGAN模型，生成模型具体包括依次连接的第一通道注意力层、空间注意力层、密集连接模块、第二通道注意力层以及卷积层，当需要进行融合时，分别输入待融合的动态前景图像以及静态背景图像，由所述第一通道注意力层在通道层面给所述静态背景图像赋予权重，由所述空间注意力层对所述动态前景图像进行特征图提取处理，处理后由所述密集连接模块对提取的特征图进行复用，所述第二通道注意力层结合特征图之间的信息依赖，对不同阶段获得的所述特征图进行权重分配，经过所述卷积层的处理后完成对动态前景图像以及静态背景图像的融合。

2.根据权利要求1所述的车载视频感知信息传输负载优化方法，其特征在于，所述实时视频帧图像中的静态背景图像与动态前景图像进行分离的步骤包括：

3.根据权利要求2所述的车载视频感知信息传输负载优化方法，其特征在于，所述步骤S103的步骤包括：分别将所述实时视频帧图像以及静态背景图像划分为相同规格的多个区域，并比较对应的各所述区域之间的相似度，如果判断到两个对应的目的区域相似，则在所述实时视频帧图像中去除所述目的区域内的图像信息，否则保留目的区域内的图像信息，处理完所有所述区域后得到分离出的所述动态前景图像。

4.根据权利要求1所述的车载视频感知信息传输负载优化方法，其特征在于：所述生成对抗网络包括生成模型以及判别模型，所述生成模型用于模拟前景图像与背景图像的叠加，所述判别模型用于根据输入图像产生为真或假的判别结果并对所述生成模型进行反馈。

5.根据权利要求4所述的车载视频感知信息传输负载优化方法，其特征在于：所述判别模型包括多个依次连接的卷积层，其中最后一个卷积层使用Sigmoid作为激活函数以完成二分类任务、其余卷积层均使用LeakyReLu激活函数，所述卷积层的数量根据感受野的大小确定。

6.根据权利要求4或5所述的车载视频感知信息传输负载优化方法，其特征在于，所述生成对抗网络中构建所述生成模型的损失函数L_G为：

L_G＝V_FWGAN(G)+κL_content

L_content＝L_pixel+λL_ssim

其中，为所得融合图像样本域P_g的随机采样，D(x)为判别模型对融合图像采样的判别结果，L_pixel代表融合图像和真实图像的像素差，L_ssim代表融合图像和真实图像的结构性差异，λ为用于平衡信息损失和结构性损失的系数；

以及构建所述判别模型的损失函数L_D为：

7.根据权利要求4或5所述的车载视频感知信息传输负载优化方法，其特征在于，所述生成对抗网络具体采用RMSProp算法进行训练。

8.一种车载视频感知信息传输负载优化装置，所述装置用于将实时采集到的环境感知信息的视频图像数据传输给车辆控制模块，其特征在于，包括：

图像融合模块，用于车辆端接收到所述动态前景图像后，将所述动态前景图像与初始接收到的所述静态背景图像进行融合，得到所需传输的实时视频帧图像数据，

9.根据权利要求8所述的车载视频感知信息传输负载优化装置，其特征在于，所述生成对抗网络包括生成模型以及判别模型，所述生成模型用于模拟前景图像与背景图像的叠加，所述判别模型用于根据输入图像产生为真或假的判别结果并对所述生成模型进行反馈。