CN111639548A

CN111639548A - 一种基于门的视频上下文多模态感知特征优化方法

Info

Publication number: CN111639548A
Application number: CN202010394250.3A
Authority: CN
Inventors: 高英; 林文根
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-08

Abstract

一种基于门的视频上下文多模态感知特征优化方法，具体步骤为，步骤一：输入RGB视频序列和光流序列；步骤二：通过外观特征提取器和运动特征提取器提取得到双模态的基础特征；步骤三：输入双流特征优化结构；步骤四：通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化，得到对应的记忆流保留优化特征；步骤五：对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联，得到对应模态的优化特征；步骤六：对RGB特征优化特征和光流特征优化特征进行通道融合，形成视频级的特征表征。

Description

一种基于门的视频上下文多模态感知特征优化方法

技术领域

本发明涉及视频分析技术领域，具体涉及一种基于门的视频上下文多模态感知特征优化方法。

背景技术

现有计算机视觉等相关技术领域中，行为识别和视频行人重识别等领域采用的多模态融合方案，存在多模态信息利用不完全、特征并行而缺乏多模态全局的监督学习的问题。视频或者图像序列与单一图像的区别不止在于外观特征更加丰富且连续和以光流为代表的运动模态的丰富信息，还在于运动模态的关键信息可以有助于区分外观层面的关键特征以及外观信息的突出特征可以作为运动模态层面的启发信息，即模态之间交互学习的作用。时序上的交互学习得到的特征是真正所谓跨模态学习的产物，是融合多模态信息后视频级的全局特征，具有良好的表征效果。

现有的多模态融合模型主要有三种，如图1、图2和图3所示：通道融合、特征元素加法和特征合并，

通道融合是在利用深度卷积网络进行特征提取之间，将两种模态按照通道进行结合，形成一个统一的输入，并由单一的特征提取网络进行提取；特征元素加法是在深度卷积网络进行特征提取的过程中，将两种模态的特征按元素对应相加，形成统一的多模态融合特征；特征合并又可称为特征后融合，是使用两个独立的特征提取网络对两种模态的信息进行提取，最终进行特征融合。通道融合和特征元素加法的缺陷在于采用一个特征提取网络提取两种模态的信息，不能很好的对外观信息和运动信息分别进行表征，而特征合并虽然采用并行的双流网络进行特征提取，却忽略了双模态特征之间的交互学习效果。

发明内容

本发明针对现有技术的不足，提出采用一种独立的双特征提取网络分别对RGB序列和光流序列进行特征表征，同时建立时序上双流循环神经网络进行交互学习，即保留了视频序列的上下文连续性，又通过多模态感知促进外观信息和运动信息之间的协同作用，解决了现有技术方案的局限性的基于门的视频上下文多模态感知特征优化方法，具体技术方案如下：

一种基于门的视频上下文多模态感知特征优化方法，具体步骤为，步骤一：输入RGB视频序列和光流序列；

步骤二：通过外观特征提取器和运动特征提取器提取得到双模态的基础特征；

步骤三：输入双流特征优化结构；

步骤四：通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化，得到对应的记忆流保留优化特征；

步骤五：对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联，得到对应模态的优化特征；

步骤六：对RGB特征优化特征和光流特征优化特征进行通道融合，形成视频级的特征表征。

为更好的实现本发明：

作为优化，所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行上下文感知优化具体为，设置同模态时序上下文学习器，其输入为前一交互学习后的优化特征及当前模态当前帧的特征，其主要结构为1*1卷积层和通道注意力结构，用于学习联合前后帧的上下文信息后、该模态在这个时间节点保留的特征，这里运用通道注意力的深度卷积网络能够有效提取上下文特征，并以此学习与帧特征尺度一致的掩码矩阵作为参数，实现门的设计，保证了同模态信息的时序传递。

作为优化，所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行多模态的感知优化，具体为：设置跨模态交互学习器，其输入为当前模态当前节点帧和另一个模态当前节点帧，RGB序列和光流序列的总帧数一致，故能保持每个时间节点的特征帧一一对应，跨模态交互学习器包括1*1的卷积层和通道注意力的网络设计，学习同一时间节点帧下跨模态之间的相互关系，生成同被修改帧相同尺度的更新掩码，即交互学习的参数，同被修改特征相乘，实现门的作用，跨模态交互学习器实现了模态之间交互联系的建模。

作为优化，所述步骤五具体为，循环迭代的长序列特征优化记忆单元串联RGB和光流的双模态输入，每个输入流每一帧嵌入一个同模态时序上下文学习器和一个跨模态交互学习器，实现了同模态上下文保留和跨模态特征学习优化的协同，其中长序列双流特征优化结构整体呈双流对称的设计特点，同模态时序上下文学习器学习当前模态历史与当前帧的上下文的保留信息沿着特征优化记忆流延续到下一个记忆单元，非保留信息则视为可更新优化特征，通过跨模态交互学习器学习的门参数对非保留信息进行特征优化，这部分即为跨模态交互得到的优化特征并与通过同模态时序上下文学习器的上下文保留信息合并成为当前模态当前时间戳的优化记忆特征，并传递到下一个双流特征优化记忆单元。

本发明的有益效果为：本发明方法颠覆原有各种双流并行特征融合的方式，在两种模态提取特征的基础上，通过时序串联的RNN式设计进行上下文特征感知，同时对于模态之间，本发明进行双模态之间的交互性学习，实现特征的跨模态感知优化，目的在于获得更具有鲁棒性和判别力的特征；

本发明的两种感知特征优化均是基于门的设计理念，通过借鉴LSTM记忆流的设计结构，设计了两种类型的“门”，分别为“保留门”和“更新门”，“保留门”主要针对时序信息的上下文连续性，将历史帧的信息进行适当保留，作为后续帧特征的补充；“更新门”是跨模态交互学习的关键技术，是通过输入双模态的同时间节点的两帧，对于每一种模态而言，都是学习另一种模态的特征对于自身的更新效果；

两种门都是一种权重学习，通过学习每个特征对应的权重矩阵，可以视为特征之间的关联参数，具有保留有效影响特征并舍弃无效特征的作用。同时，本发明基于通道注意力特征提取网络设计两种门的权重学习网络，能够有效提取同模态和跨模态之间的特征交互信息。通过两种门在双流模型上的串联，本发明构造了双流特征感知优化网络，是跨模态双流模型在交互思想上的有效体现和对跨模态学习的有效补充，并在视频时序特征的提取上具有良好的促进效果。

基于门的上下文跨模态特征感知优化算法的特点是：1，利用并行的特征提取网络提取双流输入能够很好保留两种模态的有效特征，更好的获得外观信息和运动信息的表征。2，利用“保留门”可以获得时序信息的上下文特征，在视频这种时序特征提取问题上具有比较好的效果。3，利用“更新门”进行跨模态交互性学习，能够根据光流信息捕捉更具有判别力的外观区域、根据外观区域获得更具运动变化特征的时序表征。4，在双流模型的基础上加入“保留门”和“更新门”，可以实现连续多帧的上下文和多模态交互特征学习和融合，这两种特征感知优化使得双流特征实现“1+1＞2”的效果。

附图说明

图1为本发明中现有的通道融合方法结构示意图。

图2为本发明中特征元素加法结构示意图。

图3为本发明中特征合并方法的结构示意图。

图4为本发明中多模态融合模型的结构示意图。

图5为本发明中同模态时序上下文学习器的结构示意图。

图6为本发明中跨模态交互学习器的结构示意图。

图7为本发明中长序列双流特征优化记忆结构示意图。

图8为本发明中长序列特征优化记忆单元的结构示意图。

图9为本发明的结构示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

如图4和图9所示：一种基于门的视频上下文多模态感知特征优化方法，具体步骤为，步骤一：输入RGB视频序列和光流序列；

步骤三：输入双流特征优化结构；

如图5所示，其中RGB特征优化记忆流和光流特征优化记忆流进行上下文感知优化具体为，同模态时序上下文学习器，即“保留门”，其输入为前一交互学习后的优化特征及当前模态当前帧的特征，其主要结构为1*1卷积层和通道注意力结构，用于学习联合前后帧的上下文信息后，该模态在这个时间节点保留的特征。这里运用通道注意力的深度卷积网络能够有效提取上下文特征，并以此学习与帧特征尺度一致的掩码矩阵作为参数，实现门的设计。“保留门”保证了同模态信息的时序传递。

假设保留门的输入为I_*，对于RGB模态，上一时间帧得到的优化特征为X_t-1′，当前时间帧的RGB基础特征为X_t，t表示当前时间戳，则RGB模态“保留门”的输入为

I_r，x，t＝[X_t-1′，X_t]＝Concate(X_t-1′，X_t)

同理，假设光流模态的上一时间戳得到的优化特征为F_t-1′，当前时间戳的光流帧的基本特征为F_t，则光流模态“保留门”的输入为

I_r，f，t＝[F_t-1′，F_t]＝Concate(F_t-1′，F_t)

对于两种模态而言，I_r泛指两种模态保留门的输入，则“保留门”学习到的上下文感知保留参数矩阵为

泛指两种模态保留门学习到的权重掩码矩阵。其中全连接结构是由两个全连接层(fc1和fc2)组成的通道注意力结构，用于生成感知权重。则RGB模态上下文保留的特征为

而光流模态的上下文保留特征为

其中

和

分别代表第t时间戳RGB模态和光流模态由上式学习得到的上下文感知特征保留参数矩阵。

RGB特征优化记忆流和光流特征优化记忆流进行多模态的感知优化，具体为：跨模态交互学习器，即“更新门”，如图6所示，其输入为当前模态当前节点帧和另一个模态当前节点帧，RGB序列和光流序列的总帧数一致，故能保持每个时间节点的特征帧一一对应。“更新门”的主要结构同样是1*1的卷积层和通道注意力的网络设计，学习同一时间节点帧下跨模态之间的相互关系，生成同被修改帧相同尺度的更新掩码，即交互学习的参数，同被修改特征相乘，实现门的作用。“更新门”实现了模态之间交互联系的建模。

具体为：如图7所示，其主要由循环迭代的长序列特征优化记忆单元串联RGB和光流的双模态输入，这种设计结构是借鉴LSTM的记忆结构进行设计的，是在双流LSTM的基础上进行变形和改进。长序列特征优化记忆单元的结构如图8所示，我们通过对每个输入流每一帧嵌入一个“保留门”和一个“更新门”，实现了同模态上下文保留和跨模态特征学习优化的协同。由图可以看出，长序列双流特征优化结构整体呈双流对称的设计特点，保留门学习当前模态历史与当前帧的上下文的保留信息沿着特征优化记忆流延续到下一个记忆单元，非保留信息则视为可更新优化特征，通过更新门学习的门参数对非保留信息进行特征优化，这部分即为跨模态交互得到的优化特征并与通过保留门的上下文保留信息合并成为当前模态当前时间戳的优化记忆特征，并传递到下一个双流特征优化记忆单元。

假设RGB模态和光流模态的基础特征分别为

和

而经过双流特征感知优化后的双模态特征分别为

和

即RGB特征优化记忆流和光流特征优化记忆流为X′和F′。则根据图8的结构设计，通过串联保留门和更新门，得到上下文感知优化特征和多模态感知优化特征，得到当前时间戳的感知优化特征。对于RGB模态而言，在t时间戳，融合两种感知优化得到的RGB特征为

而对于光流模态而言，得到的优化特征为

可以发现，其前者都是保留特征，后者是在非保留的权重上结合多模态信息感知的更新，两者相加便是结合上下文感知和多模态感知的优化特征。

Claims

1.一种基于门的视频上下文多模态感知特征优化方法，其特征在于，具体步骤为，步骤一：输入RGB视频序列和光流序列；

步骤三：输入双流特征优化结构；

2.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法，其特征在于：所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行上下文感知优化具体为，设置同模态时序上下文学习器，其输入为前一交互学习后的优化特征及当前模态当前帧的特征，其主要结构为1*1卷积层和通道注意力结构，用于学习联合前后帧的上下文信息后、该模态在这个时间节点保留的特征，这里运用通道注意力的深度卷积网络能够有效提取上下文特征，并以此学习与帧特征尺度一致的掩码矩阵作为参数，实现门的设计，保证了同模态信息的时序传递。

3.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法，其特征在于：所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行多模态的感知优化，具体为：设置跨模态交互学习器，其输入为当前模态当前节点帧和另一个模态当前节点帧，RGB序列和光流序列的总帧数一致，故能保持每个时间节点的特征帧一一对应，跨模态交互学习器包括1*1的卷积层和通道注意力的网络设计，学习同一时间节点帧下跨模态之间的相互关系，生成同被修改帧相同尺度的更新掩码，即交互学习的参数，同被修改特征相乘，实现门的作用，跨模态交互学习器实现了模态之间交互联系的建模。

4.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法，其特征在于：所述步骤五具体为，循环迭代的长序列特征优化记忆单元串联RGB和光流的双模态输入，每个输入流每一帧嵌入一个同模态时序上下文学习器和一个跨模态交互学习器，实现了同模态上下文保留和跨模态特征学习优化的协同，其中长序列双流特征优化结构整体呈双流对称的设计特点，同模态时序上下文学习器学习当前模态历史与当前帧的上下文的保留信息沿着特征优化记忆流延续到下一个记忆单元，非保留信息则视为可更新优化特征，通过跨模态交互学习器学习的门参数对非保留信息进行特征优化，这部分即为跨模态交互得到的优化特征并与通过同模态时序上下文学习器的上下文保留信息合并成为当前模态当前时间戳的优化记忆特征，并传递到下一个双流特征优化记忆单元。