CN116170638B

CN116170638B - 用于在线动作检测任务的自注意力视频流压缩方法及系统

Info

Publication number: CN116170638B
Application number: CN202310049872.6A
Authority: CN
Inventors: 张伟; 曹淑强; 李晓磊; 宋然; 程吉禹; 李智亨
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2024-04-30
Anticipated expiration: 2043-02-01
Also published as: CN116170638A

Abstract

本发明提出了用于在线动作检测任务的自注意力视频流压缩方法及系统，包括：提取视频流的特征并划分为长期历史特征和短期历史特征；基于自注意力对于长期历史特征进行压缩；对短期历史特征及压缩后的长期历史特征基于注意力进行融合建模；利用所建模型对长视频流数据进行处理输出当前帧的动作预测概率分布。使用基于自注意力机制的关键帧筛选策略，实现了对长视频流数据的有效压缩并保证了在线推理的高效性。

Description

用于在线动作检测任务的自注意力视频流压缩方法及系统

技术领域

本发明属于视频处理技术领域，尤其涉及用于在线动作检测任务的自注意力视频流压缩方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着大量视频数据采集设备的部署，每天都会产生大量的视频。如何对在线的视频流进行实时的分析逐渐成为工业界的一个重要需求，例如，异常行为的监控，自动驾驶。

给定输入的视频流，在线动作检测旨在利用缓存的超长历史信息实时的对正在发生的动作进行分析理解。目前在线动作检测算法可以分为以下几种。一些方法仅对持续几秒的短期历史进行上下文建模，舍弃了已经缓存的长期历史。另外一些方法则将历史视频流划分为短期历史和长期历史，对短期历史进行精细化的建模，长期历史进行粗粒度的建模。长期历史和短期历史为当前帧的识别提供了超长的感受野，有效的改善了当前动作的识别。

如果对缓存的长期历史同样进行精细化的上下文建模，会带来巨大的计算负担难以在实际场景中应用，存在历史序列建模的困难。现有的方法大多采用Cross-Attention机制，利用一组可学习的Query对长期历史序列进行大规模的聚类压缩，以便于后续的融合处理。然而，这种通用的压缩方式却忽略了数据内部的结构特征，难以有效的提取序列中的关键信息。

发明内容

为克服上述现有技术的不足，本发明提供了用于在线动作检测任务的自注意力视频流压缩方法，基于自注意力的关键信息筛选方法为当前动作的识别提供了丰富的上下文信息。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了用于在线动作检测任务的自注意力视频流压缩方法，包括：

提取视频流的特征并划分为长期历史特征和短期历史特征；

基于自注意力对于长期历史特征进行压缩；

对短期历史特征及压缩后的长期历史特征基于注意力进行融合建模；

利用所建模型对长视频流数据进行处理在线输出当前帧的动作预测概率分布。

作为进一步的技术方案，对于长期历史特征进行压缩，具体步骤为：

取长期历史视频帧作为输入，并计算平滑后的注意力矩阵；

计算注意力矩阵每行注意力分数的标准差，并从大到小进行排序，取排序靠前的设定序列作为压缩后的序列；

经过设定次筛选，得到压缩后的长期历史特征。

作为进一步的技术方案，对短期历史特征及压缩后的长期历史特征进行融合建模，具体步骤为：

取压缩后的长期历史特征和短期历史特征作为输入；

长期历史特征和短期历史特征分别经过一层自注意力层来对序列进行平滑；

然后长期历史特征和短期历史特征进行序列拼接，并对拼接后的序列输入Co-Attention层进行融合。

第二方面，公开了用于在线动作检测任务的自注意力视频流压缩系统，包括：

特征提取模块，被配置为：提取视频流的特征并划分为长期历史特征和短期历史特征；

特征压缩模块，被配置为：对于长期历史特征进行压缩；

建模模块，被配置为：对短期历史特征及压缩后的长期历史特征进行融合建模；

概率分布预测模块，被配置为：利用所建模型对长视频流数据进行处理输出当前帧的动作预测概率分布。

以上一个或多个技术方案存在以下有益效果：

本发明基于自注意力机制的关键帧筛选策略，有效的挖掘长期历史序列的内在结构特征，为当前动作的识别提供了丰富的上下文信息。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

参见附图1所示，本实施例公开了用于在线动作检测任务的自注意力视频流压缩方法，包括：

首先使用视频骨干网络(例如two-stream、I3D等)提取视频流的特征，并划分为长期历史特征和短期历史特征。对于长期历史特征采用History Encoder(HE)进行压缩，压缩后的长期历史特征和短期历史特征通过Current Decoder(CD)进行融合建模，输出当前帧的动作预测概率分布，即将增强后的短期历史送入分类器，sigmoid函数得到概率分布，取最新帧的结果当作最后的预测结果。

需要说明的是，本实施例子中在线视频动作检测任务，能实时的识别视频流中正在发生的动作，其中，视频流表示只有历史信息可以使用。

具体过程：取缓存区的视频数据作为输入，将视频序列分为长期历史特征和短期历史特征，长期历史特征利用自注意力机制进行压缩。短期历史特征则利用注意力机制融合长期历史特征，并输出当前帧的检测结果。长期历史特征和短期历史特征都来自缓存的视频流数据。短期历史特征比较短，但是与当前时刻最接近。长期历史特征比较长，但是却与当前时刻相聚比较远。

上述视频骨干网络把在线视频流作为输入。在线视频流就是若干帧RGB图像所组成的序列；与离线视频处理不同的是，上述序列中最新的一帧为当前帧，不包含任何未来帧的信息。

关于提取视频流的特征：视频序列数据预处理之后便为数字张量T*H*W，T代表视频的帧数，H，W代表视频的分辨率。

所建模型包括视频骨干模块、长期历史压缩模块、短期历史建模；视频骨干网络负责实时提取视频特征，长期历史压缩模块负责压缩超长的视频序列；短期历史建模模块负责建模短期历史并融合压缩的长期历史信息来帮助对当前帧的识别。

接下来分别阐述各个模块的设计细节：

长期历史压缩：(History Encoder，HE)，取L_L帧长期历史视频帧即长期历史特征作为输入，并按照如下公式计算平滑后的注意力矩阵Attn_L：

其中，QK，是注意力的参数矩阵，具体的，QK^T代表Query和Key矩阵，代表注意力矩阵的缩放系数即特征张量的维度数量，K、/>α代表超参数，其中，K代表压缩后的序列长度，/>表示历史序列的压缩率，α表示平滑系数。

然后，计算注意力矩阵每行注意力分数的标准差σ⁽ⁱ⁾，并从大到小进行排序，取TopK作为压缩后的序列。

经过N次筛选，得到压缩后的长期历史E_L。

其中，一次筛选就是网络的一层；下面介绍一层的结构：

计算输入序列的注意力矩阵；

计算矩阵每一行的方差，并进行排序取TopK行的分数；

TopK的注意力分数对序列元素进行加权得到压缩后的序列。

注意力机制会自适应的关注序列中最重要的元素。已有的工作证明，自注意力机制中的注意力矩阵是稀疏的，因此舍弃掉冗余的元素既能够加速又不会对性能产生较大的影响。

因此，本实施例子通过计算每行的方差作为排序指标，取TopK元素，并去掉冗余的序列元素。

短期历史建模步骤：(Current Decoder，CD)，取压缩后的长期历史特征E_L和短期历史特征E_S作为输入。E_L和E_S分别经过一层自注意力层来对序列进行平滑。然后对E_L和E_S进行序列拼接得到E，并输入Co-Attention层进行融合。最后取E_S对应的输出，输入分类器得到当前帧的概率预测。

其中，E_L和E_S进行Co-Attention计算，具体的，序列拼接得到E，E进行自注意力运算。由于自注意力运算不改变序列的长度，因此输入和输出序列仍有对应关系。这里取E_S的输出指E_S对应位置的输出。

针对“在线动作检测”任务，本实施例子技术方案使用基于自注意力机制的关键帧筛选策略，实现了对长视频流数据的有效压缩并保证了在线推理的高效性。

实施例二

本实施例的目的是提供一种计算机装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

实施例四

本实施例的目的是提供了用于在线动作检测任务的自注意力视频流压缩系统，包括：

特征压缩模块，被配置为：对于长期历史特征进行压缩；

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.用于在线动作检测任务的自注意力视频流压缩方法，其特征是，包括：

提取视频流的特征并划分为长期历史特征和短期历史特征；

基于自注意力对于长期历史特征进行压缩；

利用所建模型对长视频流数据进行处理在线输出当前帧的动作预测概率分布；

所建模型包括视频骨干模块、长期历史压缩模块、短期历史建模；视频骨干模块负责实时提取视频特征，长期历史压缩模块负责压缩超长的视频序列；短期历史建模模块负责建模短期历史并融合压缩的长期历史特征来帮助对当前帧的识别；

长期历史压缩：取L_L帧长期历史视频帧即长期历史特征作为输入，并按照如下公式计算平滑后的注意力矩阵Attn_L：

其中，Q和K分别代表Query和Key矩阵，代表注意力矩阵的缩放系数即特征张量的维度数量，/>α代表超参数，其中，k代表压缩后的序列长度，/>表示历史序列的压缩率，α表示平滑系数；

计算注意力矩阵每行注意力分数的标准差σ⁽ⁱ⁾，并从大到小进行排序，取TopK行作为压缩后的序列；

经过N次筛选，得到压缩后的长期历史特征E_L；

其中，一次筛选就是网络的一层；下面介绍一层的结构：

计算输入序列的注意力矩阵；

计算矩阵每一行的方差，并进行排序取TopK行的分数；

TopK行的注意力分数对序列元素进行加权得到压缩后的序列；

短期历史建模步骤：取压缩后的长期历史特征E_L和短期历史特征E_S作为输入；取压缩后的长期历史特征E_L和短期历史特征E_S分别经过一层自注意力层来对序列进行平滑；然后对压缩后的长期历史特征E_L和短期历史特征E_S进行序列拼接得到E，并输入CoAttention层进行融合；最后取短期历史特征E_S对应的输出，输入分类器得到当前帧的概率预测；取出短期历史特征E_S的输出指短期历史特征E_S对应位置的输出。

2.如权利要求1所述的用于在线动作检测任务的自注意力视频流压缩方法，其特征是，使用视频骨干模块提取视频流的特征，视频骨干模块把在线视频流作为输入，在线视频流就是若干帧RGB图像所组成的序列；该序列中最新的一帧为当前帧，不包含任何未来帧的信息。

3.如权利要求1所述的用于在线动作检测任务的自注意力视频流压缩方法，其特征是，提取视频流的特征为：视频序列数据预处理之后便为数字张量T*H*W，T代表视频的帧数，H，W代表视频的分辨率。

4.在线动作检测任务的自注意力视频流压缩系统，其特征是，包括：

特征压缩模块，被配置为：对于长期历史特征进行压缩；

概率分布预测模块，被配置为：利用所建模型对长视频流数据进行处理输出当前帧的动作预测概率分布；所建模型包括视频骨干模块、长期历史压缩模块、短期历史建模；视频骨干模块负责实时提取视频特征，长期历史压缩模块负责压缩超长的视频序列；短期历史建模模块负责建模短期历史并融合压缩的长期历史特征来帮助对当前帧的识别；

经过N次筛选，得到压缩后的长期历史特征E_L；

其中，一次筛选就是网络的一层；下面介绍一层的结构：

计算输入序列的注意力矩阵；

计算矩阵每一行的方差，并进行排序取TopK行的分数；

TopK行的注意力分数对序列元素进行加权得到压缩后的序列；

5.一种计算机装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-3任一所述的方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-3任一所述的方法的步骤。