CN118015523A

CN118015523A - 基于多模态证据学习的弱监督时序动作定位方法及系统

Info

Publication number: CN118015523A
Application number: CN202410424209.4A
Authority: CN
Inventors: 高赞; 王爱玲; 马春杰; 赵一博; 李传森
Original assignee: Shandong Zhonglian Audio Visual Information Technology Co ltd; Tianjin University of Technology; Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Shandong Zhonglian Audio Visual Information Technology Co ltd; Tianjin University of Technology; Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2024-04-10
Filing date: 2024-04-10
Publication date: 2024-05-10

Abstract

本发明提供一种基于多模态证据学习的弱监督时序动作定位方法及系统，属于计算机视觉技术领域，其包括：将预训练I3D网络中提取的RGB特征和FLOW特征进行语义和时序信息增强，将增强后的RGB特征和FLOW特征聚合为视频特征，利用视频特征进行动作分类和定位，引入证据学习模块对RGB和FLOW两个模态进行片段级证据学习，分别计算两个模态的数据不确定性和模型不确定性，从而减少背景噪声对视频预测的干扰，提高分类定位的准确性。本发明所提供的基于多模态证据学习的弱监督时序动作定位方法及系统充分利用了时序信息和语义信息，扩大了感受野，有利于模型更好的进行分类定位，获得了鲁棒的定位和分类特征。

Description

基于多模态证据学习的弱监督时序动作定位方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于多模态证据学习的弱监督时序动作定位方法。

背景技术

时序动作定位是视频处理中一项极具挑战性的任务，其旨在时间轴上定位动作的开始和结束位置，同时还要预测动作的类别。与全监督时序动作检测不同，弱监督的时序动作定位只有视频级别的标签，因此节约了标注成本，受到研究者的广泛研究。

现有技术中，大多数现有的弱监督时序动作定位方法基于多实例学习(MIL)方式开发其框架。首先预测每个片段的分类概率，然后将它们聚合为视频级预测。最后，使用给定的视频级标签执行优化过程。动作提案是通过对片段级别的类别分数进行阈值处理来生成的。在这种方法中，背景帧被错误分类为动作类。因此，一些作品引入了一个注意力模块，通过抑制背景部分来提高识别前景的能力。Lee等人引入了背景辅助类，并提出了一种具有非对称训练策略的双分支权重共享架构。此外，基于MIL的方法只专注于优化视频中最具辨别力的片段。对于动作完整性建模，一些作品采用了互补学习方案，该方案删除了视频中最具辨别力的部分，专注于互补部分。

但是，现有的时序动作定位方法仍然存在以下弊端：

（1）多实例学习过程中，top-k池化会导致一些无用的信息会被聚合，聚合到的片段中存在不能识别动作或背景的困难片段，影响定位和识别过程。

（2）原始特征是针对动作识别任务，用于动作检测会导致特征冗余，亟需探索以更有效的方式重新校准特征。

因此，亟需一种鲁棒的基于困难片段过滤的弱监督时序动作定位方法。

发明内容

为了实现上述目的，本发明目的之一是提供一种基于多模态证据学习的弱监督时序动作定位方法。

本发明解决技术问题的技术方案为：

一种基于多模态证据学习的弱监督时序动作定位方法，包括如下步骤：

S110.采集待检测的动作视频；

S120.利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的RGB特征和FLOW特征，然后分别通过语义上下文感知模块和时序信息感知模块，获取语义信息和时序信息增强后的RGB特征和FLOW特征以及RGB特征的注意力权重、FLOW注意力权重，将增强后的RGB特征和FLOW特征聚合为视频特征，再将聚合的视频特征送入到分类器中，预测每个片段的时间类激活分数；

S130. 将增强后的RGB特征和FLOW特征送入证据学习模块中，分别得到两者的片段级证据和/>，然后分别利用注意力权重/>和/>对片段级证据/>和/>进行top-k聚合操作，分别得到视频级证据/>和/>；

S140.分析计算视频级证据得到RGB特征和FLOW特征的模型不确定性分数和数据不确定性分数，分别是RGB模态数据不确定性分数、模型不确定性分数/>、FLOW模态的数据不确定性分数/>、模型不确定性分数/>，同理可得片段级RGB模态数据不确定性分数/>、模型不确定性分数/>、FLOW模态的数据不确定性分数/>、模型不确定性分数/>；

进一步分别融合每个模态的数据不确定性分数和模型不确定性分数，分别得到融合后两个模态的不确定性分数、/>，加权得到最终的不确定性分数/>，同理可得片段级两个模态的不确定性分数/>、/>，加权得到最终的不确定性分数/>；

S150.动作定位：在推理阶段，首先预测视频的时间类激活分数CAS，然后应用阈值策略，获得遵循标准流程的动作候选片段，再将连续的代码片段分组到动作提案中，最后执行非最大抑制NMS来删除重复的建议。

具体实施方式中，FLOW特征通过时序信息感知模块，获取时序信息增强后的FLOW特征以及注意力权重，RGB特征通过语义上下文模块，利用增强后的FLOW特征，获取语义信息增强后的RGB特征，具体过程如下：

时序信息感知模块主要是由k层膨胀卷积和注意力模块组成，将FLOW特征输入膨胀值为1的第一层膨胀卷积/>，再将输出结果经过一个/>层得到中间结果，其中/>，/>表示/>的值域，/>表示视频片段长度，/>表示特征维数；

对于第k层膨胀卷积，计算过程如下：

，其中/>，

，

其中，，/>表示第k个膨胀卷积层的输出，/>表示膨胀值，使得卷积神经网络感受野扩展到第k层的/>片段；

然后，将sigmoid函数应用于，与/>相乘得到增强后的FLOW特征/>，计算过程如下：

，

其中，表示第k个膨胀卷积层的输出，/>表示sigmoid函数，/>表示元素级乘法；

最后，进一步对每个应用sigmoid函数和元素级乘法/>，并使用注意力模块/>来生成时序注意力权重/>，其中注意力模块/>由三个时间一维卷积层和一个sigmoid函数组成，/>，/>表示/>的值域，/>表示视频片段长度，时序注意权重/>是/>的加权平均值，计算过程如下：

，其中/>，

，

其中，表示权值参数，/>，/>，并且/>，/>表示第k层输出的时序注意力权重。

具体实施方式中，RGB特征通过语义上下文模块，利用增强后的FLOW特征，获取语义信息增强后的RGB特征以及注意力权重/>，具体过程如下：

通过语义上下文感知模块将RGB特征和增强后的FLOW特征/>输入到一个共享卷积层/>中，输出经过sigmoid函数，得到两个权值来增强RGB特征，计算过程如下：

，

其中，表示增强后的RGB特征，/>，/>表示视频片段长度，/>表示特征维数，/>表示增强后的FLOW特征，/>表示共享卷积层，/>表示sigmoid函数，/>表示元素级乘法；

然后使用注意力模块生成空间注意力权重/>，注意力模块/>由三个时间一维卷积层和一个sigmoid函数组成，/>，/>的计算过程如下：

；

最后，连接增强后的RGB特征和FLOW特征/>，获得增强后的视频特征/>，聚合空间注意力权重/>和时序注意力权重/>，得到注意力权重A，计算过程如下：

，

其中，表示特征拼接，/>表示特征聚合，/>表示增强后的视频特征，/>，/>表示视频片段长度，/>表示特征维数。

具体实施方式中，将增强后的视频特征送入到分类器中，预测每个片段的时间类激活分数，具体过程如下：

将增强后的视频特征通过由三个卷积层组成的分类器，生成给定视频的片段级时间类激活分数/>，/>，其中，/>表示视频片段长度，/>表示类别数量，第/>类表示背景类，/>，/>表示片段级时间类激活分数，/>表示由三个卷积层组成的分类器，/>是增强后的视频特征；

通过top-k机制聚合时间类激活分数，聚合每个类的时间维度的前z个值得到视频激活分数/>，通过沿类维度应用softmax操作得到视频级别的分类概率/>；

top-k机制聚合通过以下公式实现：

，

其中，表示聚合每个类的时间维度的前k个值得到视频激活分数，j=1,2,3,...,(c+1)，j表示类索引，/>代表第a个片段属于类别j的激活分数，/>表示取最大值，/>表示聚合到的视频片段，T表示视频片段总数，/>是预定义的参数，z表示聚合到的前z个视频片段；

所述沿类维度应用softmax操作通过以下公式实现：

，

其中，表示通过沿类维度应用softmax操作得到视频级别的分类概率，/>表示聚合每个类的时间维度的前z个值得到视频激活分数，j=1,2,3,...,(c+1)。

具体实施方式中，将增强后的RGB和FLOW两个模态的特征和/>送入证据学习模块中，分别得到RGB和FLOW两个模态的片段级证据/>和/>，然后分别利用注意力权重/>和/>对片段级证据/>和/>进行top-k聚合操作得到视频级证据/>和/>，计算过程如下：

，

,

，

其中，表示证据函数，/>表示由/>参数化的深度神经网络DNN函数,/>，/>表示一个比例因子，/>表示视频片段长度，/>和/>分别表示RGB模态和FLOW模态的注意力权重，/>和/>分别表示RGB和FLOW两个模态的视频级证据，arg max(f(x))表示使得函数f(x)取得最大值所对应的变量点x的集合，/>表示取得的/>个视频片段的集合。

具体实施方式中，通过对视频级证据分析计算得到两个模态的模型不确定性分数和数据不确定性分数，分别是RGB模态数据不确定性分数和模型不确定性分数/>、FLOW模态的数据不确定性分数/>和模型不确定性分数/>，具体过程如下：

基于普通的EDL框架在一次正向传递中估计不确定性的计算过程如下：

，

其中，表示本算法的模型不确定性分数，分别得到/>、/>；

具体过程如下：

，

、/>分别表示上文得到的两个模态的视频级证据， />,/>表示RGB模态和FLOW模态的视频级狄利克雷强度，/>、/>分别表示RGB模态和FLOW模态的视频级狄利克雷分布的参数，/>，/>表示类别数量，/>表示类索引,/>表示RGB模态类别j的狄利克雷分布的参数，/>，/>表示类别数量，/>表示类索引,/>表示FLOW模态类别j的狄利克雷分布的参数；

，

其中，表示下确界，/>、/>表示期望值，, />表示联合分布中的点，/>表示任意范数，W表示Wasserstein-1距离，表示联合分布/>的边缘/>和/>表示联合分布的边缘/>表示一个由/>参数化的狄利克雷分布表示由/>参数化的只激活一个类别的理想目标狄利克雷分布，/>表示一个由/>参数化的狄利克雷分布，/>表示由/>参数化的只激活一个类别的理想目标狄利克雷分布,这四个狄利克雷分布都定义在一个M维单位单纯形上，，计算过程如下：

，

其中，c表示类别数量，j表示类索引，表示集合，/>表示RGB模态的狄利克雷分布的参数，/>表示RGB模态的狄利克雷分布/>的参数，/>被称为RGB模态的目标聚合证据，/>表示为RGB模态的模型固定的极端证据；/>表示FLOW模态的狄利克雷分布/>的参数，/>表示FLOW模态的狄利克雷分布/>的参数，/>被称为FLOW模态的目标聚合证据，/>表示为FLOW模态的模型固定的极端证据；

进一步分别融合两个模态的数据不确定性分数和模型不确定性分数，得到两个模态的不确定性分数、/>，加权得到最终的不确定性分数/>，计算过程如下：

，

其中，表示一种标量融合方法；

根据上述方法分别得到RGB和FLOW的片段级数据不确定性得分和片段级模型不确定性得分，分别表示为、/>、/>、/>，以及融合的片段级不确定性分数/>，/>，具体过程如下：

，

、/>分别表示上文得到的两个模态的片段级证据，/>,/>表示RGB模态和FLOW模态的片段级狄利克雷强度，/>、/>分别表示RGB模态和FLOW模态的片段级狄利克雷分布的参数，/>，/>表示类别数量，/>表示类索引,/>表示RGB模态类别j片段级狄利克雷分布的参数，/>，/>表示类别数量，/>表示类索引,/>表示FLOW模态类别j片段级狄利克雷分布的参数；

数据不确定分数、/>的具体计算如下：

，

其中，表示下确界，/>、/>表示期望值，/>,表示联合分布中的点，/>表示任意范数，W表示Wasserstein-1距离，/>表示联合分布/>的边缘/>和/>表示联合分布/>的边缘表示一个由/>参数化的狄利克雷分布/>表示由/>参数化的只激活一个类别的理想目标狄利克雷分布，/>表示一个由/>参数化的狄利克雷分布，/>表示由/>参数化的只激活一个类别的理想目标狄利克雷分布,这四个狄利克雷分布都定义在一个M维单位单纯形上，/>，计算过程如下：

，

其中，c表示类别数量，j表示类索引，表示集合，/>表示RGB模态的狄利克雷分布参数，/>表示RGB模态的狄利克雷分布/>的参数，/>被称为RGB模态的目标聚合证据，/>表示为RGB模态的模型固定的极端证据；/>表示FLOW模态的狄利克雷分布/>的参数，/>表示FLOW模态的狄利克雷分布/>的参数，/>被称为FLOW模态的目标聚合证据，表示为FLOW模态的模型固定的极端证据；

，

其中，表示一种标量融合方法。

具体实施方式中，训练过程的损失函数设置如下：

通过交叉熵损失函数约束分类，通过视频分类损失函数约束训练来进行视频级分类，通过相互学习损失约束训练来进行注意力权重相互学习，通过相互学习损失进行约束训练，所述动态优化过程利用动态学习损失约束训练来进行片段级不确定性分数和注意力权重A的相互学习；

交叉熵损失函数通过以下公式实现：

其中，N表示视频数量，表示交叉熵函数，/>表示视频级别的分类概率，y表示视频标签；

视频分类损失函数通过以下公式实现：

，

其中，是最终融合的不确定性分数，y是视频标签，e是视频级融合后的证据向量， i和j分别表示视频索引和类别索引，c和N分别表示类别数量和视频数量；

相互学习损失通过以下公式实现：

，

其中，表示截断输入梯度的函数，/>(·)表示相似性度量函数，/>,/>分别表示RGB流、FLOW流的注意力权重，/>是相互学习损失中的超参数；

所述片段级不确定性分数和注意力权重A相互学习损失通过以下公式实现：

，

其中，为l2范数，s（）为梯度截断操作，/>为实际计算中的超参数，，A是注意力权重，/>是片段级模型不确定性分数，/>，T表示视频片段数量。

所述动态学习损失通过以下公式实现：

，

其中，i、j表示类索引，N表示视频数量，T表示视频片段数量，∆是一个表示动态权值变化幅度的超参数，是动态权重函数，tanh表示双曲正切函数，/>，/>表示动态权重函数中的关于r的变量函数，r=[1,…,R]，r表示当前训练轮数，R表示训练总轮数，t=[1,…,T]，T表示视频片段数量，/>，/>表示动态权重函数中的关于变量t的函数，w (t)表示通过对片段级的数据不确定性分数/>进行降序排序而得到的片段t的序数；

训练阶段：训练通过对上述所有的优化目标进行聚合，我们得到了最终的损失函数如下：

总损失：；

其中、/>表示两个不同的超参数。

本发明还提供了一种基于多模态证据学习的弱监督时序动作定位系统，包括以下模块：

采集模块：用于采集待检测的动作视频；

初始特征获取模块：用于利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的RGB特征和FLOW特征；

语义上下文感知模块：根据待检测的动作的RGB特征获取语义信息增强后的RGB特征和注意力权重；

时序信息感知模块：根据待检测的动作的时序信息FLOW特征获得时序信息增强后的FLOW以及时序注意力权重，注意力权重表示片段是前景的概率；

分类模块：将聚合的视频特征送入到分类器中，预测每个片段的时间类激活分数，即每个片段属于每个类的概率；

证据学习模块：将增强后的RGB和FLOW两个模态的特征送入证据学习模块中，分别得到片段级证据和/>，然后分别利用注意力权重/>和/>对片段级证据/>和/>进行top-k聚合操作，得到视频级证据/>和/>；

不确定性计算模块：将视频级证据分析计算得到两个模态的模型不确定性分数和数据不确定性分数，分别是RGB模态数据不确定性分数、模型不确定性分数/>、FLOW模态的数据不确定性分数/>、模型不确定性分数/>；同理可得片段级RGB模态数据不确定性分数/>、模型不确定性分数/>、FLOW模态的数据不确定性分数/>、模型不确定性分数；

定位模块：在测试阶段，计算视频级别的分类概率，即表示每个动作类别在给定视频中发生的可能性；设置一个阈值以确定将在视频中定位的动作类；对于选定的动作类，对注意力权重设置多个阈值以丢弃背景片段，获得动作提案的起止时间；获得动作的置信度分数，得到动作提案。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案具有如下优点或有益效果：

通过证据学习模块，利用多模态信息充分建模RGB和FLOW中的数据不确定性和模型的不确定性，考虑了不同根源的双模态的不确定性信息，抑制top-k聚合操作以及数据引入的背景噪声，从而使得模型学习准确性高的片段，提高了模型的分类效果；

语义上下文感知模块和时序信息感知模块对RGB特征和FLOW特征进行建模，充分利用了时序信息和语义信息，扩大了感受野，有利于模型更好的进行分类定位，获得了鲁棒的定位和分类特征；

本发明缓解了由背景噪声和非特征动作片段忽略引起的动作-背景模糊性的问题，利用片段级认识不确定性与前景注意权重之间的互补关系，提出了一种有效的相互学习策略，从而加强了动作背景辨别和动作类别分类的关联。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明的流程示意图。

图2为本发明的原理示意图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。

实施例1

具体的，作为示例，图1为本发实施例提供的基于多模态证据学习的弱监督时序动作定位算法的流程示意图。参照图1所示，本发明提供一种基于多模态证据学习的弱监督时序动作定位算法，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。图2为根据本发明实施例的基于多模态证据学习的弱监督时序动作定位算法的原理示意图；如图2所示，针对现有技术在时序动作定位场景中，存在的对动作和背景的模糊片段识别困难等问题。本发明的基于多模态证据学习的弱监督时序动作定位算法包括：特征提取网络的选择、特征的增强、类激活分数的生成、证据向量的生成、不确定性得分的生成、动作定位结果。

基于多模态证据学习的弱监督时序动作定位算法包括步骤S110~S150：

S110.采集待检测的动作视频；

在S150中需要注意的是，本发明对主干网络的证据收集器和分类器采用了参数共享策略，因此测试的CAS可以视为学习证据的一个变化。

对于第k层膨胀卷积，计算过程如下：

，其中/>，

，

，其中/>，

，

；

，

top-k机制聚合通过以下公式实现：

，

所述沿类维度应用softmax操作通过以下公式实现：

，

,

，

其中，表示本算法的模型不确定性分数，分别得到/>、/>；

具体过程如下：

，/>

，

其中，表示下确界，/>、/>表示期望值，/>,表示联合分布中的点，/>表示任意范数，W表示Wasserstein-1距离，/>表示联合分布/>的边缘/>和/>表示联合分布/>的边缘/>表示一个由/>参数化的狄利克雷分布/>表示由参数化的只激活一个类别的理想目标狄利克雷分布，/>表示一个由参数化的狄利克雷分布，/>表示由/>参数化的只激活一个类别的理想目标狄利克雷分布,这四个狄利克雷分布都定义在一个M维单位单纯形上，，计算过程如下：

，

其中，表示一种标量融合方法；

根据上述方法分别得到RGB和FLOW的片段级数据不确定性得分和片段级模型不确定性得分，分别表示为、/>、/>、/>，以及融合的片段级不确定性分数/>，，具体过程如下：

，

数据不确定分数、/>的具体计算如下：

，

，/>

其中，表示下确界，/>、/>表示期望值，,/>表示联合分布中的点，/>表示任意范数，W表示Wasserstein-1距离，表示联合分布/>的边缘/>和/>表示联合分布的边缘/>表示一个由/>参数化的狄利克雷分布表示由/>参数化的只激活一个类别的理想目标狄利克雷分布，/>表示一个由/>参数化的狄利克雷分布，/>表示由/>参数化的只激活一个类别的理想目标狄利克雷分布,这四个狄利克雷分布都定义在一个M维单位单纯形上，，计算过程如下：

，

其中，表示一种标量融合方法。

具体实施方式中，训练过程的损失函数设置如下：

交叉熵损失函数通过以下公式实现：

/>

视频分类损失函数通过以下公式实现：

，

相互学习损失通过以下公式实现：

，

其中，为l2范数，s（）为梯度截断操作，/>为实际计算中的超参数，/>，A是注意力权重，/>是片段级模型不确定性分数，/> ，T表示视频片段数量。

所述动态学习损失通过以下公式实现：

，

总损失：；

其中、/>表示两个不同的超参数。

在一个具体的实施例中，该发明中在PyTorch中实现，应用在Kinetics-400上预训练的I3D网络来提取每个视频的RGB和FLOW特征，从视频中采样连续不重叠的16帧作为片段，其中每个片段的每个模态的特征是1024维，在训练阶段，随机抽取了THUMOS14数据集的500个片段和ActivityNet1.2数据集的60个片段，分类模块包含3个时间卷积层。在每个卷积层之间，使用概率为0.7的Dropout正则化。利用两个卷积层作为证据收集器E，证据函数f被设置为exp（·），输入为[−10,10]，需要注意的是，采用了证据收集器和主干分类器的参数共享策略，因此测试的CAS可以视为学习证据的一个变化，振幅∆设置为0.3，相互学习因子Θ=设置为0.5，平衡超参数λ1和λ2均为0.5，本发明中的模型是用Python 3.7和PyTorch1.11.0实现的，利用Adam的学习速率为5×10−5，权重衰减为10−3进行优化，所有的实验都是在一个RTX 3090 GPU上进行的，本发明使用两个时序动作定位的公开数据集进行动作定位，对于THUMOS14数据集和ActivityNet1.3数据集，效果有稳定提升。

实施例2

一种基于多模态证据学习的弱监督时序动作定位系统，包括以下模块：

采集模块：用于采集待检测的动作视频；

实施例3

本发明在两个公开数据集THUMOS-14和ActivityNet-v1.3进行了实验，与其他方法进行了实验对比，实验效果如表1和表2，由此可知本发明中的方法在弱监督时序动作检测方面有一定的提升效果。

表1本方法与现有方法在THUMOS-14数据集上的时间动作定位性能比较

，

表2 本方法与现有方法在ActivityNet-v1.3数据集上的弱监督时间动作定位的性能比较

。

上述虽然结合附图对发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多模态证据学习的弱监督时序动作定位方法，其特征是，包括如下步骤：

S110.采集待检测的动作视频；

S120.利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的RGB特征和FLOW特征，然后分别通过语义上下文感知模块和时序信息感知模块，获取语义信息和时序信息增强后的RGB特征和FLOW特征以及RGB特征的注意力权重、FLOW注意力权重/>，将增强后的RGB特征和FLOW特征聚合为视频特征，再将聚合的视频特征送入到分类器中，预测每个片段的时间类激活分数；

2.如权利要求1所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，FLOW特征通过时序信息感知模块，获取时序信息增强后的FLOW特征以及注意力权重，RGB特征通过语义上下文模块，利用增强后的FLOW特征，获取语义信息增强后的RGB特征，具体过程如下：

时序信息感知模块主要是由k层膨胀卷积和注意力模块组成，将FLOW特征输入膨胀值为1的第一层膨胀卷积/>，再将输出结果经过一个/>层得到中间结果/>，其中/>，/>表示/>的值域，/>表示视频片段长度，/>表示特征维数；

对于第k层膨胀卷积，计算过程如下：

，其中/>，

，

，其中/>，

，

3.如权利要求2所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，RGB特征通过语义上下文模块，利用增强后的FLOW特征，获取语义信息增强后的RGB特征以及注意力权重/>，具体过程如下：

，

其中，表示增强后的RGB特征，/>，/>表示视频片段长度，/>表示特征维数，表示增强后的FLOW特征，/>表示共享卷积层，/>表示sigmoid函数，/>表示元素级乘法；

；

，

4.如权利要求3所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是，将增强后的视频特征送入到分类器中，预测每个片段的时间类激活分数，具体过程如下：

top-k机制聚合通过以下公式实现：

，

所述沿类维度应用softmax操作通过以下公式实现：

，

5.如权利要求4所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是：将增强后的RGB和FLOW两个模态的特征和/>送入证据学习模块中，分别得到RGB和FLOW两个模态的片段级证据/>和/>，然后分别利用注意力权重/>和/>对片段级证据/>和/>进行top-k聚合操作得到视频级证据/>和/>，计算过程如下：

，

,

其中，表示证据函数，/>表示由/>参数化的深度神经网络DNN函数,/>，/>表示一个比例因子，/>表示视频片段长度，/>和/>分别表示RGB模态和FLOW模态的注意力权重，和/>分别表示RGB和FLOW两个模态的视频级证据，arg max(f(x))表示使得函数f(x)取得最大值所对应的变量点x的集合，/>表示取得的/>个视频片段的集合。

6.如权利要求5所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是：

通过对视频级证据分析计算得到两个模态的模型不确定性分数和数据不确定性分数，分别是RGB模态数据不确定性分数和模型不确定性分数/>、FLOW模态的数据不确定性分数/>和模型不确定性分数/>，具体过程如下：

，

其中，表示本算法的模型不确定性分数，分别得到/>、/>；

具体过程如下：

，

、/>分别表示上文得到的两个模态的视频级证据， />,/>表示RGB模态和FLOW模态的视频级狄利克雷强度，/>、/>分别表示RGB模态和FLOW模态的视频级狄利克雷分布的参数，，/>表示类别数量，/>表示类索引,/>表示RGB模态类别j的狄利克雷分布的参数，/>，/>表示类别数量，/>表示类索引,/>表示FLOW模态类别j的狄利克雷分布的参数；/>，

，

其中，表示下确界，/>、/>表示期望值，/>, />表示联合分布中的点，/>表示任意范数，W表示Wasserstein-1距离，/>表示联合分布/>的边缘/>和/>表示联合分布/>的边缘表示一个由/>参数化的狄利克雷分布/>表示由/>参数化的只激活一个类别的理想目标狄利克雷分布，/>表示一个由/>参数化的狄利克雷分布，/>表示由/>参数化的只激活一个类别的理想目标狄利克雷分布,这四个狄利克雷分布都定义在一个M维单位单纯形上，/>，计算过程如下：

，

其中，c表示类别数量，j表示类索引，表示集合，/>表示RGB模态的狄利克雷分布/>的参数，/>表示RGB模态的狄利克雷分布/>的参数，/>被称为RGB模态的目标聚合证据，/>表示为RGB模态的模型固定的极端证据；/>表示FLOW模态的狄利克雷分布/>的参数，/>表示FLOW模态的狄利克雷分布/>的参数，/>被称为FLOW模态的目标聚合证据，表示为FLOW模态的模型固定的极端证据；

，

其中，表示一种标量融合方法；

根据上述方法分别得到RGB和FLOW的片段级数据不确定性得分和片段级模型不确定性得分，分别表示为、/>，以及融合的片段级不确定性分数/>，/>，具体过程如下：

，

数据不确定分数、/>的具体计算如下：

，

其中，表示下确界，/>、/>表示期望值，/>,表示联合分布中的点，/>表示任意范数，W表示Wasserstein-1距离，表示联合分布/>的边缘/>和/>表示联合分布的边缘/>表示一个由/>参数化的狄利克雷分布表示由/>参数化的只激活一个类别的理想目标狄利克雷分布，/>表示一个由/>参数化的狄利克雷分布，/>表示由/>参数化的只激活一个类别的理想目标狄利克雷分布,这四个狄利克雷分布都定义在一个M维单位单纯形上，，计算过程如下：

，

其中，c表示类别数量，j表示类索引，表示集合，/>表示RGB模态的狄利克雷分布/>参数，/>表示RGB模态的狄利克雷分布/>的参数，/>被称为RGB模态的目标聚合证据，表示为RGB模态的模型固定的极端证据；/>表示FLOW模态的狄利克雷分布/>的参数，表示FLOW模态的狄利克雷分布/>的参数，/>被称为FLOW模态的目标聚合证据，/>表示为FLOW模态的模型固定的极端证据；

，

其中，表示一种标量融合方法。

7.如权利要求6所述的基于多模态证据学习的弱监督时序动作定位方法，其特征是：

训练过程的损失函数设置如下：

通过交叉熵损失函数约束分类，通过视频分类损失函数约束训练来进行视频级分类，通过相互学习损失约束训练来进行注意力权重相互学习，通过相互学习损失进行约束训练，动态优化过程利用动态学习损失约束训练来进行片段级不确定性分数和注意力权重A的相互学习；

交叉熵损失函数通过以下公式实现：

，

视频分类损失函数通过以下公式实现：

，

其中，是最终融合的不确定性分数，y是视频标签，e是视频级融合后的证据向量，i和j分别表示视频索引和类别索引，c和N分别表示类别数量和视频数量；

相互学习损失通过以下公式实现：

，

其中，为l2范数，s（）为梯度截断操作，/>为实际计算中的超参数，/>，A是注意力权重，/>是片段级模型不确定性分数，/>，T表示视频片段数量；

所述动态学习损失通过以下公式实现：

，

总损失：；

其中、/>表示两个不同的超参数。

8.一种基于多模态证据学习的弱监督时序动作定位系统，其特征是，包括以下模块：

采集模块：用于采集待检测的动作视频；

证据学习模块：将增强后的RGB和FLOW两个模态的特征送入证据学习模块中，分别得到片段级证据和/>，然后分别利用注意力权重/> 和/>对片段级证据/>和/>进行top-k聚合操作，得到视频级证据/>和/>；

不确定性计算模块：将视频级证据分析计算得到两个模态的模型不确定性分数和数据不确定性分数，分别是RGB模态数据不确定性分数、模型不确定性分数/>、FLOW模态的数据不确定性分数/>、模型不确定性分数/>；同理可得片段级RGB模态数据不确定性分数/>、模型不确定性分数/>、FLOW模态的数据不确定性分数/>、模型不确定性分数/>；