CN115984739B

CN115984739B - 一种用于视频预测的基于全局注意力指导的特征融合方法

Info

Publication number: CN115984739B
Application number: CN202211643848.7A
Authority: CN
Inventors: 卢宛萱; 许良宇; 于泓峰; 高鹏; 姚方龙; 王剑宇; 邓楚博
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-06-16
Anticipated expiration: 2042-12-20
Also published as: CN115984739A

Abstract

本发明涉及视觉预测领域，特别是涉及一种用于视频预测的基于全局注意力指导的特征融合方法。包括获取目标视频的待处理数据。将待处理数据输入第一特征提取网络，生成多个初始特征。对待处理数据进行权重配置处理，生成每一待融合数据对应的全局注意力特征。根据多个全局注意力特征及每一初始特征对应的特征提取阶段的顺序，依次对多个初始特征进行融合处理，生成目标融合特征。通过对待处理数据进行权重配置处理，可以对待融合数据中具有更高参考价值的参数进行增强，对具有参考价值较低的参数进行削弱。由此，可以对待融合数据中特征进行有效筛选，以使得得到的最终的目标融合特征具有更加丰富且准确的语义信息，进而提高视频预测的精度。

Description

一种用于视频预测的基于全局注意力指导的特征融合方法

技术领域

本发明涉及视觉预测领域，特别是涉及一种用于视频预测的基于全局注意力指导的特征融合方法。

背景技术

人类可以通过视觉感知对未来场景做出判断和预测，进而采取适当的行为。例如，司机在驾驶过程中，可以通过过去几秒或更短时间的视觉信息预测其他车辆的轨迹和位置。受此启发，视频预测技术同样为通过历史时段中目标事件的表现信息，来预测目标事件在未来时段中的表现信息。该技术在自动驾驶以及机器预测相关的领域有重要的应用价值。

相比于传统的需要高级语义特征来对目标进行辨识的计算机视觉任务而言，由于视频预测任务需要对未来视频帧中的每一像素进行预测，所以，它需要具有更加丰富且有效的语义特征。现有技术中，能够对图像中的高级语义特征与细节纹理特征进行融合。但是，无法对高级语义特征与细节纹理特征中的参数进行有效筛选。所以使得融合后的特征包括的语义信息不够准确，进而使得视频预测的最终效果不够理想。

发明内容

针对上述技术问题，本发明采用的技术方案为：

根据本发明的一个方面，提供了一种用于视频预测的基于全局注意力指导的特征融合方法，方法包括如下步骤：

获取目标视频的待处理数据。待处理数据包括目标视频在第一时段内生成的多帧画面图像。多帧画面图像对应的生成时间顺序排列。

将待处理数据输入第一特征提取网络，生成多个初始特征；第一特征提取网络包括SwinTransformer3D网络及通道调整网络；SwinTransformer3D网络包括多个特征提取阶段，每一所述特征提取阶段生成一个对应的初始特征；通道调整网络用于将所有的初始特征的通道数进行对齐。

对待处理数据进行权重配置处理，生成每一待融合数据对应的全局注意力特征。全局注意力特征包括待融合数据中每一参数对应的权重。

根据多个全局注意力特征及每一初始特征对应的特征提取阶段的顺序，依次对多个初始特征进行融合处理，生成目标融合特征。其中，第i次的融合处理的输出数据作为第i+1次融合处理的待融合数据。首次融合处理的待融合数据为最顶阶段的特征提取阶段生成的初始特征。最后一次融合处理的输出数据为目标融合特征。

融合处理包括：

对待融合数据与对应的全局注意力特征进行积乘积运算，生成第一融合数据。

将第一融合数据与对应的初始特征进行加和运算，生成第二融合数据。第二融合数据为此次融合处理的输出数据。

根据本发明的第二个方面，提供了一种非瞬时性计算机可读存储介质，非瞬时性计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的一种用于视频预测的基于全局注意力指导的特征融合方法。

根据本发明的第三个方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述的一种用于视频预测的基于全局注意力指导的特征融合方法。

本发明至少具有以下有益效果：

通过第一特征提取网络中的SwinTransformer3D网络可以提取到待处理图像的多个初始特征，该多个初始特征具有不同的语义信息，具体为包括高级语义特征与细节纹理特征。同时，通过对待处理数据进行权重配置处理，可以得到待融合数据中每一参数对应的权重，通过该权重可以对每一待融合数据中的每一参数进行加权计算。进而实现对待融合数据中具有更高参考价值的参数进行放大增强，同时对具有参考价值较低的参数进行缩小削弱。由此，可以对待融合数据中特征进行有效筛选，以使得得到的最终的目标融合特征具有更加丰富且准确的语义信息，进而提高视频预测的精度及效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种用于视频预测的基于全局注意力指导的特征融合方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的一个方面，如图1所示，提供了一种用于视频预测的基于全局注意力指导的特征融合方法，该方法包括如下步骤：

S100:获取目标视频的待处理数据。待处理数据包括目标视频在第一时段内生成的多帧画面图像。多帧画面图像对应的生成时间顺序排列。

具体的，目标视频为对目标使用场景进行拍摄记录得到的视频。以自动驾驶场景对应的目标视频为道路上车辆的运行视频。然后，从该目标视频中抽取多帧画面图像作为对应的待处理数据。由于，多帧画面图像之间具有时间上的先后顺序，所以待处理数据具有对应场景中的时间特征。同时，多个画面图像中的画面内容包括了对应场景的空间特征。由此，获取的待处理数据蕴含有对应场景中目标事件的变化规律。

S200:将待处理数据输入第一特征提取网络，生成多个初始特征；第一特征提取网络包括SwinTransformer3D网络及通道调整网络；SwinTransformer3D网络包括多个特征提取阶段，每一所述特征提取阶段生成一个对应的初始特征；通道调整网络用于将所有的初始特征的通道数进行对齐。

通过第一特征提取网络，可以将待处理数据中的时间特征及空间特征逐阶段提取出来，进而生成多个初始特征，其中，较低阶段的初始特征会具有更加丰富的纹理细节特征；较高阶段的初始特征会具有更加丰富的语义特征。

具体的，可以使用SwinTransformer3D网络对待处理数据中的时间特征及空间特征进行提取。SwinTransformer3D网络具有4个特征提取阶段，进而可以生成4个不同数据维度的初始特征。数据维度包括：时间维度(画面图像生成的时间序列)、空间尺寸(空间分辨率)以及通道数。以原输入的待处理数据为例进行说明，待处理数据为10帧640*640*3的画面图像，其中，10帧为时间维度；640*640为画面图像的空间尺寸；3为每一帧画面图像的通道数。

并在对SwinTransformer3D网络提取完对应的特征之后，通道调整网络将每一初始特征的通道数调整至与对应的全局注意力特征的通道数一致。具体的，通道调整网络可以为1*1的卷积网络，通过1*1的卷积核来实现通道数的调整，以便于后续的计算。

S300:对待处理数据进行权重配置处理，生成每一待融合数据对应的全局注意力特征。全局注意力特征包括待融合数据中每一参数对应的权重。

在对多个初始特征进行融合处理时，每一次融合处理均包括一个待融合数据及一个对应的初始特征。由此，在进行融合处理时，可以使用对应的全局注意力特征与待融合数据进行乘积处理。以通过全局注意力特征中的权重对待融合数据中的有效参数进行增强，并削弱弱相关数据以及噪声数据。由此，可以提高待融合数据的精度。

权重配置处理可以选用现有的注意力计算方法。

同时，多次融合处理为串行设置，所以为每一次融合处理中的待融合数据配置对应的全局注意力特征，可以最大程度的提高最终得到的目标融合特征的精度。但是在此同时也增加了大量的计算量，对计算资源有较高的要求。

由此，为了平衡精度及计算量之间的要求，可以减少全局注意力特征的配置数量。也即，仅为其中部分融合处理中的待融合数据配置对应的全局注意力特征。在减少全局注意力特征的配置数量过程中，去除优先级为从第一次到最后一次的融合处理逐渐降低，且需要保证在进行最后一次进行融合处理时，必须有对应的全局注意力特征。

S400:根据多个全局注意力特征及每一初始特征对应的特征提取阶段的顺序，依次对多个初始特征进行融合处理，生成目标融合特征。其中，第i次的融合处理的输出数据作为第i+1次融合处理的待融合数据。首次融合处理的待融合数据为最顶阶段的特征提取阶段生成的初始特征。最后一次融合处理的输出数据为目标融合特征。

融合处理包括：

S401:对待融合数据与对应的全局注意力特征进行积乘积运算，生成第一融合数据。

具体的，可以采用现有技术中的积乘积运算进行数据之间的融合。优选的，可以采用对待融合数据与对应的全局注意力特征中每一的对应位置的参数进行积乘积运算，生成第一融合数据。也即元素级的积乘积运算，由此每一元素都进行了对应的权重调整，以使生成第一融合数据具有更好的融合效果。

S402:将第一融合数据与对应的初始特征进行加和运算，生成第二融合数据。第二融合数据为此次融合处理的输出数据。

本实施例中的中的步骤可以通过第一FPN(FeaturePyramidNetworks，特征金字塔网络)实现。第一FPN为在现有的FPN基础上增加注意力特征获取网络生成。

在对第一FPN进行训练时，训练样本可以从对应场景视频中的多帧图像中获取。如以自动驾驶场景为例，获取多条道路上的车辆运行视频，并从运行视频中每隔0.5秒抽取一帧画面图像，共抽取20帧画面图像，其中，前10帧作为训练样本，后10帧作为对应的标签。

作为本发明一种可能的实施例，S300:对待处理数据进行权重配置处理，生成每一待融合数据对应的全局注意力特征，包括：

S301:对待处理数据进行多次第二特征提取处理，生成每一待融合数据对应的初始注意力特征。多次第二特征提取处理串行设置。

具体的每一次第二特征提取处理后，可以生成对应的待融合数据的初始注意力特征。

S302:使用sigmoid函数，对每一初始注意力特征进行数据映射处理，生成每一待融合数据对应的全局注意力特征。全局注意力特征中的每一参数值均处于预设数值范围。

预设数值范围可以为[0,1]。通过sigmoid函数可以将初始注意力特征中的每一个参数投影到[0,1]的区间内。由此，可以形成对应的权重值。

第二特征提取处理包括：

每一第二特征提取处理均包括：

S311:对输入的数据进行卷积处理，生成第一特征数据。卷积处理用于提取输入的数据中的特征。

本步骤中的卷积层为两层，每一层的卷积核为3×3，padding(填充)＝1，stride(步长)＝1。

S321:对第一特征数据进行组归一化处理，生成第二特征数据。

通过GN(GroupNormalization,组归一化)把通道分为多个组，并计算每一组之内的均值和方差，以进行归一化。GN的计算与批量大小无关，其精度也在各种批量大小下保持稳定，具有更好的归一化效果。

S331:使用ReLU函数对第二特征数据进行激活处理，生成第三特征数据。

通过卷积处理对整个待处理数据进行全局的特征提取处理，来生成每一待融合数据对应的第一特征数据，由此，获取到的第一特征数据具有全局的语义特征。由于，卷积处理为通过卷积核对目标图像中对应的区域中的参数进行卷积计算，以生成每一区域的代表值。由此在卷积计算完成后，每一代表值均与原图像中对应区域中的特征参数有关系。同时每一个卷积核在训练完成之后，可以具有对某一规则的特征进行提取能力，由此符合对应规则的区域中的特征会被加强，也即得到的代表值更大。由此，卷积处理之后生成的每一区域的代表值，与进行融合处理时对应区域的特征的关注程度成正比。

S341:对第三特征数据进行最大池化处理，生成对应的初始注意力特征，初始注意力特征与对应的待融合数据的数据维度相同。

本步骤中最大池化的kernal-size＝4，stride(步长)＝4.

由于，在进行过卷积处理之后得到的特征的数据维度发生了变化。所以需要通过变维处理来对初始注意力特征的数据维度与对应的待融合数据的数据维度进行对齐。以便后期进行对应参数之间得乘积运算。第一变维处理包括现有的降采样或上采样。

本实施例中，通过卷积处理并配合sigmoid函数，来生成每一待融合数据对应的初始注意力特征。该方式无需进行复杂的计算即可得到的每一待融合数据对应的初始注意力特征。相对于现有的注意力的计算方法而言，本市实施例中的方法可以大幅减少计算量。进而可以减少对计算资源的消耗，提高实时性。

作为本发明一种可能的实施例，在生成目标融合特征之后，方法还包括：

S500:对目标融合特征进行译码处理，生成目标视频在第二时段中的多帧画面图像，第二时段在时间顺序上晚于第一时段。

本实施例中，通过现有的译码方法对标融合特征进行译码处理，可以生成对应的预测视频。该视频可以由在第二时段中的多帧画面图像组成。由于，目标融合特征的精度更高，所以本实施例对应的预测结果也具有更高的精度。现有的译码方法可以为反卷积或双线性插值等译码方法。

作为本发明一种可能的实施例，S100:获取目标视频的待处理数据，包括：

S101:根据目标视频中目标事件的变化速度，确定数据采集间隔。

优选的，数据采集间隔T满足如下条件：

T＝E/V。

其中，E为预设系数。V为目标事件对应的变化速度等级。E可以根据对应的场景领域不同进行自适应设置。如：E＝1。V也可以根据对应的场景领域不同进行自适应设置，具体规则为目标事件对应的变化越快对应的V越大。如：在1S内目标事件就会发生明显变化，则其对应的V＝10。如自动驾驶领域中的道路运行情况的变化。在1周内目标事件才会发生明显变化，则其对应的V＝2。如遥感领域中的某一区域的植被生成情况的变化。

S102:根据数据采集间隔及预设起始时间，在第一时段中确定多个第一时刻。预设起始时间为历史时段中的任一时间。

S103:将目标视频在每一第一时刻对应的画面图像，作为待处理数据。

对于视频预测而言，由于不同的场景中的事物的变化速度快慢不一，由此，对于不同场景中的预测的频率便会出现不同。如在自动驾驶领域中，路面情况实时变化，由此需要进行更加高频率的预测。而在遥感监测领域中，某一区域中的情况的变化较慢，无需进行高频率的预测。本实施例中通过待处理数据中的数据采集间隔，来控制上述预测频率高低的变化。具体的，如果对应的事件在时间维度上的变化速度很快的情况下，对应的我们需要更加细颗粒度的待处理数据，此时对应的数据采集间隔更小。同理，如果对应的事件在时间维度上的变化速度很慢的情况下，对应的我们需要更加粗颗粒度的待处理数据，此时对应的数据采集间隔更大。由此预测出来的结果才具有更高的参考价值。

作为本发明一种可能的实施例，在对待处理数据进行多次第二特征提取处理之前，方法还包括：

使用reshape函数对初始待处理数据进行降维处理，生成待处理数据；reshape函数用于将初始待处理数据的时间维度及通道维度压缩到同一维度。

第二特征提取处理中的使用的卷积为二维卷积，由于二维卷积的输入张量维度一般是4维—(B，C，H，W)。但是，本实施例中获取的初始待处理数据(视频序列)其维度是5维—(B，T，C，H，W)。其中，B为样本数量维度，也即每一批次的样本数量，也即batchsize；本实施例中batchsize＝16；T为时间序列维度；C、H、W分别代表数据的通道维度及数据的空间分别率维度。

所以为了符合二维卷积的要求，在将5维向量输入到二维卷积中时，需要将数据的维度降低。在完成二维卷积后在通过reshape函数回复至原有维度。

具体的，在对待处理数据进行多次第二特征提取处理之前，通过reshape函数将T和C压缩到一维，也即先将视频序列reshape到(B，T×C，H，W)。由此将降维后的数据作为进行第二特征提取处理使用的待处理数据。

本实施例，之所以把T和C压到一个维度，是因为在后续第二特征提取处理中还需要提取一些时间维度的信息。由此，通过将上述的两个维度进行压缩，还可以保留时间及空间维度的信息，以便进行对应的特征提取。

同理，通道调整网络若为1*1的二维卷积网络，其同样面临上述维度不一致的情况。也即初始特征的维度也是5维—(B，T，C，H，W)。

所以，在将数据输入通道调整网络之前同样需要对数据的维度进行降低。具体的，该步骤中的降维操作如下：通过reshape函数将T和B压缩到一维，也即先将视频序列reshape到(B×T，C，H，W)。

该情况下，之所以把T和B压到一维，是因为在SwinTransformer3D网络中，已经提取好了时间和空间特征，在后期进行融合的时候无需再提取时间维度上的特征了，所以把T和B维度压到一起，也可以理解成只在空间维度进行卷积。

作为本发明一种可能的实施例，在S401:对待融合数据与对应的全局注意力特征进行积乘积运算之前，

融合处理还包括：

S411:确定初始待融合数据。

S421:对初始待融合数据进行第二变维处理，生成待融合数据。待融合数据的数据维度与要与其进行加和运算的初始特征的数据维度相同。第二变维处理包括上采样。

通常，由于待融合数据与对应的全局注意力特征进行的运算，为元素级的积乘积运算，所以需要将初始待融合数据与对应的全局注意力特征的数据维度进行统一。所以需要使用现有的变维方法将数据维度进行变换统一。其中，数据维度主要是指数据的空间维度与通道数。同时，由于本实施例中待融合数据与对应的全局注意力特征进行积乘积运算时，初始待融合数据的数据维度小于对应的全局注意力特征的数据维度，由此，第二变维处理优选上采样，由此来实现数据维度的统一。

本发明的实施例还提供了一种非瞬时性计算机可读存储介质，该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

本发明的实施例还提供了一种电子设备，包括处理器和前述的非瞬时性计算机可读存储介质。

本发明的实施例还提供一种计算机程序产品，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims

1.一种用于视频预测的基于全局注意力指导的特征融合方法，其特征在于，所述方法包括如下步骤：

获取目标视频的待处理数据；所述待处理数据包括目标视频在第一时段内生成的多帧画面图像；多帧所述画面图像对应的生成时间顺序排列；

将待处理数据输入第一特征提取网络，生成多个初始特征；所述第一特征提取网络包括SwinTransformer3D网络及通道调整网络；所述SwinTransformer3D网络包括多个特征提取阶段，每一所述特征提取阶段生成一个对应的初始特征；所述通道调整网络用于将所有的所述初始特征的通道数进行对齐；

对待处理数据进行权重配置处理，生成每一待融合数据对应的全局注意力特征；所述全局注意力特征包括待融合数据中每一参数对应的权重；

根据多个所述全局注意力特征及每一所述初始特征对应的特征提取阶段的顺序，依次对多个所述初始特征进行融合处理，生成目标融合特征；其中，第i次的融合处理的输出数据作为第i+1次融合处理的待融合数据；首次融合处理的待融合数据为最顶阶段的所述特征提取阶段生成的初始特征；最后一次融合处理的输出数据为目标融合特征；

所述融合处理包括：

对所述待融合数据与对应的全局注意力特征进行积乘积运算，生成第一融合数据；

将所述第一融合数据与对应的初始特征进行加和运算，生成第二融合数据；所述第二融合数据为此次融合处理的输出数据。

2.根据权利要求1所述的方法，其特征在于，对待处理数据进行权重配置处理，生成每一待融合数据对应的全局注意力特征，包括：

对待处理数据进行多次第二特征提取处理，生成每一待融合数据对应的初始注意力特征；多次所述第二特征提取处理串行设置；

使用sigmoid函数，对每一所述初始注意力特征进行数据映射处理，生成每一待融合数据对应的全局注意力特征；所述全局注意力特征中的每一参数值均处于预设数值范围；

每一所述第二特征提取处理均包括：

对输入的数据进行卷积处理，生成第一特征数据；所述卷积处理用于提取所述输入的数据中的特征；

对所述第一特征数据进行组归一化处理，生成第二特征数据；

使用ReLU函数对所述第二特征数据进行激活处理，生成第三特征数据；

对所述第三特征数据进行最大池化处理，生成对应的初始注意力特征，所述初始注意力特征与对应的待融合数据的数据维度相同。

3.根据权利要求1所述的方法，其特征在于，在生成目标融合特征之后，所述方法还包括：

对所述目标融合特征进行译码处理，生成所述目标视频在第二时段中的多帧画面图像，所述第二时段在时间顺序上晚于所述第一时段。

4.根据权利要求1所述的方法，其特征在于，获取目标视频的待处理数据，包括：

根据目标视频中目标事件的变化速度，确定数据采集间隔；

根据所述数据采集间隔及预设起始时间，在所述第一时段中确定多个第一时刻；

将所述目标视频在每一所述第一时刻对应的画面图像，作为待处理数据。

5.根据权利要求4所述的方法，其特征在于，所述数据采集间隔T满足如下条件：

T＝E/V；

其中，E为预设系数；V为所述目标事件对应的变化速度等级。

6.根据权利要求2所述的方法，其特征在于，在对待处理数据进行多次第二特征提取处理之前，所述方法还包括：

使用reshape函数对初始待处理数据进行降维处理，生成待处理数据；所述reshape函数用于将初始待处理数据的时间维度及通道维度压缩到同一维度。

7.根据权利要求1所述的方法，其特征在于，对所述待融合数据与对应的全局注意力特征进行积乘积运算，生成第一融合数据，包括：

对所述待融合数据与对应的全局注意力特征中每一的对应位置的参数进行积乘积运算，生成第一融合数据。

8.根据权利要求1所述的方法，其特征在于，在对所述待融合数据与对应的全局注意力特征进行积乘积运算之前，

所述融合处理还包括：

确定初始待融合数据；

对所述初始待融合数据进行第二变维处理，生成待融合数据；所述待融合数据的数据维度与要与其进行加和运算的初始特征的数据维度相同；所述第二变维处理包括上采样。

9.一种非瞬时性计算机可读存储介质，所述非瞬时性计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的一种用于视频预测的基于全局注意力指导的特征融合方法。

10.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的一种用于视频预测的基于全局注意力指导的特征融合方法。