CN112818846A

CN112818846A - 视频帧的特征提取方法、装置及电子设备

Info

Publication number: CN112818846A
Application number: CN202110129938.3A
Authority: CN
Inventors: 唐雅媛; 胡斌; 罗恩韬; 何清俊
Original assignee: Hunan University of Science and Engineering
Current assignee: Hunan University of Science and Engineering
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-18

Abstract

本发明实施例公开了视频帧的特征提取方法、装置及电子设备，该方法包括：获取目标视频；将所述目标视频进行采样得到单帧序列；将所述单帧序列中的每帧生成逐一输入到2D卷积网络生成对应的单帧视觉特征；将所述单帧序列输入3D卷积网络得到所述目标视频的全局特征；根据所述单帧视觉特征和所述目标视频的全局特征得到单帧中事件的描述信息。本发明在利用2D卷积网络生成单帧特征时，同时用基于柯西分布和软注意力机制的3D卷积网络在视频的所有帧中提炼出此单帧事件的相关帧信息，汇聚单帧和相关帧的特征对单帧中的事件进行描述，解决了大量的冗余帧和干扰帧的问题。

Description

视频帧的特征提取方法、装置及电子设备

技术领域

本发明实施例涉及视频处理领域，具体涉及视频帧的特征提取方法、装置及电子设备。

背景技术

面对视频数据爆炸性增加，面对如此多的视频信息，能对视频信息进行精准的描述有助于视频任务的检索，将视频域转化为语言域，加速检索任务。智能化机器人可以利用视频描述提取出一系列指令完成一些重复性工作，使其执行视频事件复现任务。视频描述的研究对现今社会的数据挖掘和智能化机器人领域具有重要意义。提升视频描述的准确度、逻辑性、艺术性也有着十分迫切的需求。总之，视频描述的研究为视觉领域和语言领域建立了一座“沟通”的桥梁。

在进行视频帧描述时，视频多了一维时序信息，利用视频的时序信息可以将视频应用于多个领域。在智能安防领域中可以取代人工来对监控视频进行分析。视频包含多个事件(按照顺序或并行)并且它们是相关的。这意味着检测视频中的一个事件的帧应受益于对应于另一事件的帧中的信息，这些信息通常在时间上非常分离。因此，不考虑上下文信息来描述视频帧的现有方法因此受到限制；连续视频包含丰富的时间结构，可用于改善视频帧描述。

随着3D卷积网络的发展，其对时空特性的学习优势显而易见。Tran等人引入了具有3D内核的3D架构，以从一系列帧中学习时空特征。在后来的工作中，他们研究了使用3D卷积的Resnet架构，并展示了对早期C3D架构的改进。针对帧之间时间关系的另一种解决方法是使用循环网络。Donahue等人采用LSTM来整合来自CNN的特征。然而在行为识别方面的表现目前落后于最近的基于CNN的方法，这可能表明它们不能充分模拟长期动态时空特征。最近一些模型利用3D架构进行动作识别。这些方法基于滑动窗口对输入视频的短期时间上下文进行建模。在推断时，需要计算多个窗口的平均分数，这非常耗时。

发明内容

本发明实施例的目的在于提供视频帧的特征提取方法、装置及电子设备，用以解决现有视频帧的特征提取耗时长的问题。

为实现上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供了一种视频帧的特征提取方法，包括：

获取目标视频；

将所述目标视频进行采样得到单帧序列；

将所述单帧序列中的每帧生成逐一输入到2D卷积网络生成对应的单帧视觉特征；

将所述单帧序列输入3D卷积网络得到所述目标视频的全局特征；

根据所述单帧视觉特征和所述目标视频的全局特征得到单帧中事件的描述信息。

根据本发明的一个实施例，所述将所述目标视频进行采样得到单帧序列，包括：

将所述目标视频分为多个片段；

对所述多个片段分别进行采样，生成所述单帧序列。

根据本发明的一个实施例，所述2D卷积网络采用Inception v3的ImageNet预训练模型。

根据本发明的一个实施例，将所述目标视频进行采样得到单帧序列，还包括：

将所述目标视频分为多个片段，其目标视频为RGB视频格式；

从每个片段中随机选择一帧得到新单帧序列。

根据本发明的一个实施例，将所述新单帧序列输入3D卷积网络得到所述目标视频的全局特征，包括：

将全局特征应用柯西分布，得到全局关注帧特征；

通过对柯西分布参数进行学习，将所述目标视频所有帧的特征转换为指定帧特征。

根据本发明的一个实施例，将所述全局特征应用柯西分布，得到全局关注帧特征，包括：

根据过滤器基于柯西分布对帧特征进行过滤后得到多维向量，将此所述多维向量定义为所述全局关注帧特征。

根据本发明的一个实施例，所述通过对柯西分布进行参数学习将所述目标视频所有帧的特征转换为指定帧特征，包括：

学习多组不同的柯西分布，并在所述帧序列中共享所述多组不同的柯西分布。

第二方面，本发明实施例还提供一种视频帧的特征提取装置，包括：

获取模块，用于获取目标视频；

采样模块，用于将所述目标视频进行均匀采样得到单帧序列；

处理模块，用于将所述单帧序列中的每帧生成逐一输入到2D卷积网络生成对应的单帧视觉特征。

第三方面，本发明实施例还提供一种电子设备，包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如第一方面所述的视频帧的特征提取方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，包含一个或多个程序指令，所述一个或多个程序指令用于被执行如第一方面所述的视频帧的特征提取方法。

本发明实施例提供的技术方案至少具有如下优点：

本发明实施例提供的视频帧的特征提取方法、装置及电子设备，通过每一帧和时间结构上此帧的相关帧信息得到组合特征，模型学习总结更长时间间隔的事件的特征表示，并利用它辅助进行帧描述。本发明利用2D卷积网络生成单帧特征时，同时用基于柯西分布和软注意力机制的3D卷积网络在视频的所有帧中提炼出此单帧事件的相关帧信息，汇聚单帧和相关帧的特征对单帧中的事件进行描述，解决了大量的冗余帧和干扰帧的问题。

附图说明

图1为本发明实施例提供的视频帧的特征提取方法的流程图。

图2为本发明实施例提供的视频帧的特征提取装置的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

图1为本发明实施例提供的视频帧的特征提取方法的流程图。如图1所示，本发明实施例提供的视频帧的特征提取方法，包括：

S1：获取目标视频。

S2：将目标视频进行采样得到单帧序列。

在本发明的一个实施例中，步骤S2包括：

S2-1：将目标视频分为多个片段；对多个片段分别进行采样，生成单帧序列。

具体地，本实施例使用2D卷积结构有效地处理时间邻域的单个帧，以便捕获这种帧的外观特征。从整个视频中采样固定数量的帧，以涵盖用于理解视频的远距离时间结构。这样采样的帧跨越整个视频，而与视频的长度无关。将每个视频分成n个片段，并从每个片段中随机选择一帧。故而本实施例首先对视频进行均匀采样，得到固定数量单帧序列F_t＝{f₁,f₂,...f_n}。

S2-2：将目标视频分为多个片段，目标视频为RGB视频格式；从每个片段中随机选择一帧得到新单帧序列。

具体地，使用RGB视频输入，它能够捕获相对较长的时间关系。本实施例将每个视频分成n个片段，从每个片段中随机选择一帧得到帧序列。此采样提供了对变化的鲁棒性，并使网络能够充分利用所有帧。

S3：将单帧序列中的每帧生成逐一输入到2D卷积网络生成对应的单帧视觉特征。

具体地，将F_t＝{f₁,f₂,...f_n}中每帧逐一输入2D卷积网络产生单帧视觉特征B_t＝{b₁,b₂,...b_n}，的2D卷积网络的架构采用Inception v3的ImageNet预训练模型。

S4：将单帧序列输入3D卷积网络得到目标视频的全局特征。

具体地，设F_t＝{f₁,f₂,...f_n}表示采样得到的帧序列，其中n代表帧数量。本实施例将帧序列输入3D卷积网络产生一个全局特征V_t＝{v₁,v₂,...v_n}。

通过柯西分布捕捉多个事件形成的上下文，并利用软注意力机制，明确地了解整个视频中哪些帧与该单帧事件相关。并形成一个蕴含丰富相关帧信息的隐含状态向量。

设经过3D卷积网络产生的视频全局特征表示为：

V_t＝{v₁,v₂,...v_n} (1)

S5：根据单帧视觉特征和目标视频的全局特征得到单帧中事件的描述信息。

这个方法是用一个固定维度向量表示一个可变长度的视频，只关注描述帧的相关帧位置。以前的注意模型用固定的步幅重复多次单个高斯分布，本实施例建模一组N柯西分布：

Cauchy分布比常用的高斯分布(即收敛更快)更容易训练。

每个分布学习一个中心x_n,γ_n代表控制分布的宽度，T代表视频的时间长度，每个柯西分布由上式构成。Z_n是归一化常数，t＝{1,2,..T},n＝{1,2..N}中N表示为提取的全局特征的总帧数。

本实施例在整个视频的所有帧的特征表示上应用柯西分布，本质上是过滤器K_C(T×N)的N柯西分布和v_t(T×D)所有帧特征进行矩阵相乘运算，返回N·D维向量，称为全局关注帧特征。

通过对N个柯西分布参数的学习，能有效将视频所有帧的特征表示v_t(T×D)转换为更集中的指定帧特征S_c[n]。

由于一些事件可以共享相同的指定帧特征，因此学习M组不同的柯西分布，并在C个单帧中共享这些柯西分布。在这里M小于视频帧数量C。为了使用这样的M个柯西分布来表示每一帧，学习了一组每一帧的软注意权值，允许每一帧选择要使用的M个不同的柯西分布。对于所有视频帧C，学习权重W_c,m并计算软注意力：

然后，将这些权重应用到M个柯西分布中，从而得到一个指定帧的特征表示

通过本实施例的柯西分布的注意力模型，模型明确地了解整个视频中的哪些时间间隔与该帧的信息有相关性。

图2为本发明实施例提供的视频帧的特征提取装置的结构框图。如图2所示，本发明实施例提供的视频帧的特征提取装置，包括：获取模块100、采样模块200和处理模块300。

其中，获取模块100用于获取目标视频。采样模块200用于将目标视频进行均匀采样得到单帧序列。处理模块300用于将单帧序列中的每帧生成逐一输入到2D卷积网络生成对应的单帧视觉特征，处理模块还用于将单帧序列输入3D卷积网络得到目标视频的全局特征，进而根据单帧视觉特征和目标视频的全局特征得到单帧中事件的描述信息。

在本发明的一个实施例中，采样模块200用于将目标视频分为多个片段，进而对多个片段分别进行采样，生成第一单帧序列。

在本发明的一个实施例中，2D卷积网络采用Inception v3的ImageNet预训练模型。

在本发明的一个实施例中，采样模块200用于将目标视频分为多个片段，其目标视频为RGB视频格式，进而从每个片段中随机选择一帧得到新单帧序列。

在本发明的一个实施例中，处理模块300用于将全局特征应用柯西分布，得到全局关注帧特征，并通过对柯西分布参数进行学习，将目标视频所有帧的特征转换为指定帧特征。

在本发明的一个实施例中，处理模块300用于根据过滤器基于柯西分布对帧特征进行过滤后得到多维向量，将此多维向量定义为全局关注帧特征。

在本发明的一个实施例中，处理模块300用于学习多组不同的柯西分布，并在帧序列中共享多组不同的柯西分布。

需要说明的是，本发明实施例的视频帧的特征提取装置的具体实施方式与本发明实施例的视频帧的特征提取方法的具体实施方式类似，具体参见视频帧的特征提取方法部分的描述，为了减少冗余，不做赘述。

另外，本发明实施例的视频帧的特征提取装置的其它构成以及作用对于本领域的技术人员而言都是已知的，为了减少冗余，不做赘述。

本发明实施例还提供一种电子设备，包括：至少一个处理器和至少一个存储器；所述存储器用于存储一个或多个程序指令；所述处理器，用于运行一个或多个程序指令，用以执行如第一方面所述的视频帧的特征提取方法。

本发明所公开的实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序指令，当所述计算机程序指令在计算机上运行时，使得计算机执行上述的视频帧的特征提取方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM，简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种视频帧的特征提取方法，其特征在于，包括：

获取目标视频；

将所述目标视频进行采样得到单帧序列；

2.根据权利要求1所述的视频帧的特征提取方法，其特征在于，所述将所述目标视频进行采样得到单帧序列，包括：

将所述目标视频分为多个片段；

对所述多个片段分别进行采样，生成所述单帧序列。

3.根据权利要求1所述的视频帧的特征提取方法，其特征在于，所述2D卷积网络采用Inception v3的ImageNet预训练模型。

4.根据权利要求2所述的视频帧的特征提取方法，其特征在于，将所述目标视频进行采样得到单帧序列，还包括：

将所述目标视频分为多个片段，其目标视频为RGB视频格式；

从每个片段中随机选择一帧得到新单帧序列。

5.根据权利要求4所述的视频帧的特征提取方法，其特征在于，所述将所述单帧序列输入3D卷积网络得到所述目标视频的全局特征，包括：

将全局特征应用柯西分布，得到全局关注帧特征；

6.根据权利要求5所述的视频帧的特征提取方法，其特征在于，所述将全局特征应用柯西分布，得到全局关注帧特征，包括：

根据过滤器基于柯西分布对帧特征进行过滤后得到多维向量，将此多维向量定义为所述全局关注帧特征。

7.根据权利要求5所述的视频帧的特征提取方法，其特征在于，所述通过对柯西分布进行参数学习将所述目标视频所有帧的特征转换为指定帧特征，包括：

8.一种视频帧的特征提取装置，其特征在于，包括：

获取模块，用于获取目标视频；

处理模块，用于将所述单帧序列中的每帧生成逐一输入到2D卷积网络生成对应的单帧视觉特征，所述处理模块还用于将所述单帧序列输入3D卷积网络得到所述目标视频的全局特征，进而根据所述单帧视觉特征和所述目标视频的全局特征得到单帧中事件的描述信息。

9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器和至少一个存储器；

所述存储器用于存储一个或多个程序指令；

所述处理器，用于运行一个或多个程序指令，用以执行如权利要求1-7任一项所述的视频帧的特征提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如权利要求1-7任一项所述的视频帧的特征提取方法。