CN114842559A

CN114842559A - 基于多模态时间感知和注意力的视频交互动作检测方法

Info

Publication number: CN114842559A
Application number: CN202210744654.XA
Authority: CN
Inventors: 高赞; 赵一博; 郝敬全; 刘大扬; 李华刚; 朱文印; 陶俊伟
Original assignee: Qingdao Haier Smart Technology R&D Co Ltd; Iray Technology Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Qingdao Haier Smart Technology R&D Co Ltd; Iray Technology Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-08-02
Anticipated expiration: 2042-06-29
Also published as: CN114842559B

Abstract

本发明提供一种基于多模态时间感知和注意力的视频交互动作检测方法，属于计算机视觉技术领域，通过将全局时序信息与多尺度的局部时序信息进行聚合，并将聚合后的特征进行金字塔池化，获取多个尺度的金字塔特征，然后利用金字塔特征进行高效地动作定位。本发明达到了减少模型参数，提高模型的鲁棒性的技术效果，体现了本发明所提供的基于多模态时间感知和注意力的视频交互动作检测方法在时序动作定位方面的监测精度优越性。

Description

基于多模态时间感知和注意力的视频交互动作检测方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于多模态时间感知和注意力的视频交互动作检测方法。

背景技术

时序动作定位是视频处理中一项极具挑战性的任务，其旨在时间轴上定位动作的开始和结束位置，同时还要预测动作的种类。

现有技术中，利用深度学习解决时序动作定位问题的有基于Anchor的时序动作定位方法和基于Actionness-Guided的时序动作定位方法；其中，基于Anchor的时序动作定位方法（如R-C3D方法），输入连续的视频帧，通过3D卷积来同时获取空间特征和时间特征，并通过在每个时序位置定义时间锚框（anchor），并对时间锚框进行回归和分类获得可能存在动作的区域，之后将这些可能存在动作的区域经过一个3D-ROI池化层将它们的时序长度变成相同的，再通过fc层进行分类和定位。基于Actionness-Guided的时序动作定位方法，首先对视频进行特征提取，经过卷积层进行建模时序特征，并预测所述时序特征的开始时间和结束时间，进而获得可能存在动作的区域；对可能存在动作的区域进行特征提取后进行置信度预测，最后通过非极大值抑制获得最终结果。

但是，现有的时序动作定位方法仍然存在以下弊端：

1）基于Anchor的时序动作定位方法具有对先验知识要求较高，且对不同的数据集定义的时间锚框数量不同，导致最终结果的精度不理想；

2）基于Actionness-Guided的时序动作定位方法虽然最终结果精度尚可，但是计算量太大。

因此，亟需一种具有鲁棒性的基于多模态时间感知和注意力的视频交互动作检测方法。

发明内容

本发明提供一种基于多模态时间感知和注意力的视频交互动作检测方法系统、电子设备以及存储介质，用以克服现有技术中存在的至少一个技术问题。

为实现上述目的，本发明提供一种基于多模态时间感知和注意力的视频交互动作检测方法，方法包括：

采集待检测的动作视频；

利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；

通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征；将聚合特征进行金字塔池化，获取多个尺度的金字塔特征；

对每个尺度的金字塔特征进行卷积，并分别获得每个尺度的金字塔特征的每一个时序位置的动作初始分类特征和动作初始定位特征；

通过视频交互动作粗预测模型对动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位，获取动作初始分类结果和动作初始定位结果；

通过基于图关系模块的调整模型，对动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量；

根据动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量，获取动作定位提案。

进一步，优选的，通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征的方法，包括，

根据待检测的动作的时间特征和空间特征，利用时序自注意力模块，获取全局特征；

利用多尺度聚合模块对全局特征进行通道降维；其中，通道降维后的特征维度降为通道降维前的特征维度的1/16；

利用设定种类的感受野对通道降维后的全局特征进行卷积，获取各个感受野的时序信息；

将各个感受野的时序信息进行聚合，并进行通道升维，获取与原始的全局特征的维度相同的聚合特征。

进一步，优选的，通过基于图关系模块的调整模型，对动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量的方法，包括，

通过时序自注意力模块，对动作初始分类特征进行加权特征操作，获取显著分类特征；通过k近邻算法，对动作初始定位特征获取与每个时序位置的距离最小的相邻位置，并对每个时序位置及相对应的相邻位置进行聚合，获取显著定位特征；

将动作初始分类特征、显著分类特征和显著定位特征相加，获取动作最终分类特征；将动作初始定位特征、显著定位特征和显著分类特征相加，获取动作最终定位特征；

根据动作最终分类特征和动作最终定位特征，分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量。

进一步，优选的，动作定位提案包括动作开始时间，动作结束时间和动作分类结果；其中，

动作开始时间通过以下公式获得：

动作结束时间通过以下公式获得：

动作分类结果通过以下公式获得：

其中，

表示粗预测动作定位的开始时间，

表示粗预测动作定位的结束时间，

表示调整动作定位的开始，

表示调整动作定位的结束，

表示预测的动作的类别，

表示粗预测动作分类的结果，

表示调整动作分类的结果，

表示参数。

进一步，优选的，参数

为通过二分类交叉熵损失函数对基于图关系模块的调整模型进行训练过程获得；

二分类交叉熵损失函数通过以下公式实现：

其中，

表示对动作初始定位特征进行调整动作定位后预测出的边界，

表示真实的边界；

表示参数。

进一步，优选的，视频交互动作粗预测模型的粗预测动作分类过程利用focal损失函数进行约束训练；视频交互动作粗预测模型的粗预测动作定位过程利用GIOU损失函数进行约束训练；

focal损失函数通过以下公式实现：

其中，

表示对动作初始分类特征进行粗预测动作分类的过程的损失，

表示对动作初始分类特征进行粗预测动作分类的过程的正样本数量，

表示对动作初始分类特征进行粗预测动作分类的结果，

表示真实的标签；

GIOU损失函数通过以下公式实现：

其中，

表示对动作初始定位特征进行粗预测动作定位的过程的损失，

表示对动作初始定位特征进行粗预测动作定位的过程的正样本数量，

表示对动作初始定位特征进行粗预测动作定位预测出的边界，

表示真实的边界。

进一步，优选的，基于图关系模块的调整模型的调整动作分类过程利用focal损失函数进行约束训练；基于图关系模块的调整模型的调整动作定位过程利用smooth L ₁损失函数进行约束训练；其中，

smooth L1损失函数通过以下公式实现：

其中，

表示调整动作定位过程的损失，

表示调整过程的正样本数量，

表示粗预测动作定位的开始与真实开始的偏移，

表示粗预测动作定位的结束与真实结束的偏移，

表示调整动作定位后的开始的偏移量，

表示调整动作定位后的结束的偏移量。

为了解决上述问题，本发明还提供一种基于多模态时间感知和注意力的视频交互动作检测系统，包括：

采集单元，用于采集待检测的动作视频；

初始特征获取单元，用于利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；

预测单元，用于通过视频交互动作粗预测模型对动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位，获取动作初始分类结果和动作初始定位结果；

动作定位提案确定单元，用于根据动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量，确定动作定位提案。

为了解决上述问题，本发明还提供一种电子设备，电子设备包括：

存储器，存储至少一个指令；及

处理器，执行存储器中存储的指令以实现上述的基于多模态时间感知和注意力的视频交互动作检测方法中的步骤。

本发明还保护一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述的基于多模态时间感知和注意力的视频交互动作检测方法。

本发明的一种基于多模态时间感知和注意力的视频交互动作检测方法、系统、电子设备以及存储介质，通过将全局时序信息与多尺度的局部时序信息进行聚合，并将聚合后的特征进行金字塔池化，获取多个尺度的金字塔特征，然后利用金字塔特征进行高效地动作定位。具有有益效果如下：

1）通过自注意力和多时序模型中的时序自注意力模块，通过获取动作视频中更重要的帧，并对更重要的帧赋予更高的权重，完成全局信息的建模；

2）通过自注意力和多时序模型中的多尺度时序信息的建模，聚合了不同尺度的时序信息，且通过分组策略和膨胀策略实现了减少模型参数的技术效果；

3）通过对不同时序的动作位置的关系进行建模，并对动作的时序特征进行全局自注意力增强，提升了时序动作定位的精准度，提高了基于多模态时间感知和注意力的视频交互动作检测模型的鲁棒性。

附图说明

图1为根据本发明实施例的基于多模态时间感知和注意力的视频交互动作检测方法的流程示意图；

图2为根据本发明实施例的基于多模态时间感知和注意力的视频交互动作检测方法的原理示意图；

图3为根据本发明实施例的基于多模态时间感知和注意力的视频交互动作检测系统的逻辑结构框图；

图4根据本发明实施例的基于多模态时间感知和注意力的视频交互动作检测方法的电子设备的内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例可以基于人工智能中的计算机视觉技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体的，作为示例，图1为本发明一实施例提供的基于多模态时间感知和注意力的视频交互动作检测方法的流程示意图。参照图1所示，本发明提供一种基于多模态时间感知和注意力的视频交互动作检测方法，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。基于多模态时间感知和注意力的视频交互动作检测方法包括步骤S110~ S150。

具体地说，S110、采集待检测的动作视频；S120、利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征；将聚合特征进行金字塔池化，获取多个尺度的金字塔特征；对每个尺度的金字塔特征进行卷积，并分别获得每个尺度的金字塔特征的每一个时序位置的动作初始分类特征和动作初始定位特征；S130、通过视频交互动作粗预测模型对动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位，获取动作初始分类结果和动作初始定位结果；S140、通过基于图关系模块的调整模型，对动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量；S150、根据动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量，获取动作定位提案。

图2为根据本发明实施例的基于多模态时间感知和注意力的视频交互动作检测方法的原理示意图；如图2所示，针对现有技术在时序动作定位场景中，存在的对先验知识要求较高或者计算量太大等问题。本发明的基于多模态时间感知和注意力的视频交互动作检测方法包括7个部分：1、特征提取网络的选择；2、自注意力全局信息建模；3、多尺度时序信息的聚合；4、金字塔特征的生成；5、粗糙边界定位与分类；6、基于图关系模块的边界与分类结果调整；7、动作定位结果。

具体地说，首先，利用预先训练好的I3D网络来进行特征的提取。第二，在选择基础网络的基础上，对全局的时序信息进行建模；利用3D卷积去聚合I3D网络的输出的高度和宽度的信息，并利用时序自注意力模块采用全局的自注意力来寻找动作视频的帧与帧之间的关系并进行加权；其中，通过这种基于自注意力的加权策略能够寻找到更重要的帧并赋予更高的权重，并且对一些不重要的帧赋予更低的权重，以此实现全局信息的建模。第三，虽然3D卷积网络能够一定程度对局部的时序信息建模，但是也只能实现单一尺度的时序信息的建模。为了应对动作片段时序长度的变化，需要聚合多尺度的时序信息；因此，本发明增加了多尺度聚合模块，采用多尺度的时序信息聚合进而能够获得不同感受野的时序信息，也就是可以从多尺度进行时序信息的建模。第四，将通过多尺度聚合模块之后的特征，通过级联的卷积操作，每次卷积将特征在时序维度上衰减为之前的一半，生成6个尺度的金字塔特征。第五、粗糙边界定位与分类；对每一个尺度的金字塔特征，分别输入到不同的1D卷积中来获得定位和分类的特征，之后采用分类特征来进行分类，采用定位特征进行边界的回归。在训练分类的过程中采用focal损失函数进行约束，在训练回归的过程中采用GIOU损失函数进行约束。第六、基于图关系模块的边界与分类结果调整；因为在粗糙边界定位与分类的过程中采用的特征没有考虑到分类与定位任务的特性；其中，在分类任务中，需要对特征的可能是动作的区域进行进一步关注；在边界回归任务中，需要考虑不同时序位置之间的关系来聚合更显著的边界位置特征。因此，本发明通过在基于图关系模块的调整模型中增加时序自注意力模块，对所得到的特征进行进一步的加权来获得对分类有益的特征，之后采用k近邻算法聚合每个位置与其最近邻位置的特征来获取每个位置的更显著特征。在获得这两种特征后，将其与原来的特征相加，得到最终的特征，那么最终的特征就既包含了有益于分类任务的特征又包含了有益于边界回归的特征。得到新的特征后，重新进行定位和分类；其中，分类部分仍然采用focal损失函数进行约束训练，定位部分采用smoothL1损失函数进行约束训练；此外，利用二分类交叉熵损失函数（BCE loss）获取一个用于抑制一些低质量的提名的参数。第七、最终获得时序动作定位提案。

在具体的实施过程中，基于多模态时间感知和注意力的视频交互动作检测方法包括：步骤S110~S140。

S110、采集待检测的动作视频。其中，动作视频为256帧的连续彩图图像或256帧的连续光流图像，包括按照顺序排列的多个视频帧。

S120、利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征；将聚合特征进行金字塔池化，获取多个尺度的金字塔特征；对每个尺度的金字塔特征进行卷积，并分别获得每个尺度的金字塔特征的每一个时序位置的动作初始分类特征和动作初始定位特征。

具体地说，S121、利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；也就是说，利用Kinetics数据集获取预训练的I3D网络；然后利用I3D网络提取动作的时间特征和空间特征。视频帧的视频特征包括：RGB(RedGreenBlue，红绿蓝)特征和光流特征。双流特征是通过对RGB特征和光流特征进行融合后产生的。

需要说明的是，在时序动作定位任务中，需要首先选取优秀的特征提取器来获得鲁棒的特征。由于时序动作定位任务的特性，必须要选取能够提取时序信息的特征提取器，本发明采用了双流的I3D网络来进行特征的提取；其中，RGB流的输入为连续的视频帧，能够同时提取到时间和空间特征，对于Flow流，输入为连续的光流帧，能够进一步对时序信息进行提取和建模。

S122、通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征；也就是说，利用时序自注意力模块，对全局的时序信息进行建模；利用多尺度聚合模块，根据所述全局的时序信息获取多尺度的时序信息，并进行多尺度的时序信息的聚合。

具体地说，通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征的方法，包括步骤S1211~ S1214。

S1211、根据待检测的动作的时间特征和空间特征，利用时序自注意力模块，获取全局特征。

在步骤S121选择完特征提取器之后，通过添加基于自注意力的时序自注意力模块，获取到不同时序位置之间的关系来进行全局信息的建模。在具体的实施过程，对于提取出来的特征F，分别通过三个不同的1D卷积层来分别获取query，key，value；在得到query，key，value之后，对query进行转置之后和key相乘再进行softmax分类操作得到注意力矩阵，该操作定义如下：

Attention = softmax(query ^T * key)

其中，query ^T表示query的转置。

得到注意力矩阵后，将其转置在与value相乘再与输入特征相加，得到最终的增强后的特征，该操作定义如下：

F _g = F+α* value * Attention ^T

其中，α表示需要学习的参数，Attention ^T表示Attention的转置。

具体地说，由于时序动作定位任务的动作片段的时序长度可能变化非常多，长度不一致，因此局部多尺度信息的聚合是至关重要的；在得到增强后的含有全局信息的特征之后，本发明通过多时序聚合模块进行局部多尺度信息的聚合，通过不同感受野的卷积操作来建模时序信息。

S1212、利用多尺度聚合模块对全局特征进行通道降维；其中，通道降维后的特征维度降为通道降维前的特征维度的1/16。

S1213、利用设定种类的感受野对通道降维后的全局特征进行卷积，获取各个感受野的时序信息。具体地说，将通道降维后的全局特征分别送入不同感受野的卷积来获得不同感受野的信息，在本实施例中采用了1、3、5、7四种感受野的卷积操作。

S1214、将各个感受野的时序信息进行聚合，并进行通道升维，获取与原始的全局特征的维度相同的聚合特征。也就是说，将以上不同感受野的信息进行聚合，再通过卷积操作进行通道上的升维，得到和原来维度相同的新的特征表示，这样新的特征表示就聚合了局部多尺度的信息。

在具体的实施过程中，在降维，升维过程中以及不同感受野的卷积操作过程都采用了分组为32的分组卷积，实现了模型的参数量的有效降低，进而达到减少计算量的效果。除此之外，不同感受野的卷积操作是通过设置不同的膨胀率来实现的。在设计多尺度卷积的过程中，采用了分组策略和膨胀策略，用更少的参数获得了更大的感受野；另外，由于采用分组的策略会导致的通道间关系无法建模的问题，采用了通道注意力的模块来重新对通道的权重进行分配。

也就是说，虽然分组卷积能够大大降低参数量，但是由于分组卷积是每个卷积核只负责一个通道的信息，丢失了通道与通道之间的关系。由此，本发明通过增加一个时序注意力模块来寻找通道与通道之间的关系，所述时序注意力模块能够更好的挖掘通道与通道之间的关系并进行加权来得到更鲁棒的特征。而通过多尺度信息的聚合，可以聚合不同感受野的特征，对定位任务有极大的帮助；达到参数量更小，更有利于模型训练的技术效果。

S123、将聚合特征进行金字塔池化，获取多个尺度的金字塔特征。

获得包含全局和多尺度局部信息的聚合特征后，将聚合特征使用级联的1D卷积操作来获得金字塔特征。在本实施例中，对于每个尺度的特征，使用卷积核为3，步长为2，padding为1的卷积操作将时序维度降为上一个尺度的1/2，最终获得6个尺度的金字塔特征。

S124、对每个尺度的金字塔特征进行卷积，并分别获得每个尺度的金字塔特征的每一个时序位置的动作初始分类特征和动作初始定位特征。

在得到金字塔特征之后，对于每一个尺度的金字塔特征，将其输入两个1D卷积获得分类特征，再将其输入另外两个1D卷积获得定位特征。获得分类和定位特征之后，再分别进行定位和分类。

S130、通过视频交互动作粗预测模型对动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位，获取动作初始分类结果和动作初始定位结果。

视频交互动作粗预测模型的粗预测动作分类过程利用focal损失函数进行约束训练；视频交互动作粗预测模型的粗预测动作定位过程利用GIOU损失函数进行约束训练；

focal损失函数通过以下公式实现：

其中，

表示对所述动作初始分类特征进行粗预测动作分类的过程的损失，

表示对所述动作初始分类特征进行粗预测动作分类的过程的正样本数量，

表示对所述动作初始分类特征进行粗预测动作分类的结果，

表示真实的标签；

GIOU损失函数通过以下公式实现：

其中，

表示对所述动作初始定位特征进行粗预测动作定位的过程的损失，

表示对所述动作初始定位特征进行粗预测动作定位的过程的正样本数量，

表示对所述动作初始定位特征进行粗预测动作定位预测出的边界，

表示真实的边界。

S140、通过基于图关系模块的调整模型，对动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量。

也就是说，首先对于分类任务，为了让每个时序位置的分类结果更准确，再次采用时序自注意力模块来加权特征，对可能是动作的区域赋予更大的权重，对可能是背景的区域赋予更小的权重，通过这种方式更突出重要区域，使得分类结果更准确。对于定位任务，不同时序位置的信息是至关重要的，可以但不限制于采用KNN的方法来寻找每一个时序位置最近的位置，通过聚合这两个位置的信息来得到更显著的位置特征。之后对原来的特征，定位特征和分类特征进行求和，最终得到的特征表示包含了对分类任务和定位任务同时有益的信息。

具体地说，通过基于图关系模块的调整模型，对动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量的方法，包括步骤S1411~ S1413。

S1411、通过时序自注意力模块，对动作初始分类特征进行加权特征操作，获取显著分类特征；通过k近邻算法，对动作初始定位特征获取与每个时序位置的距离最小的相邻位置，并对每个时序位置及相对应的相邻位置进行聚合，获取显著定位特征；S1412、将动作初始分类特征、显著分类特征和显著定位特征相加，获取动作最终分类特征；将动作初始定位特征、显著定位特征和显著分类特征相加，获取动作最终定位特征；S1413、根据动作最终分类特征和动作最终定位特征，分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量。

基于图关系模块的调整模型的调整动作分类过程利用focal损失函数进行约束训练；基于图关系模块的调整模型的调整动作定位过程利用smooth L ₁损失函数进行约束训练；其中，

focal损失函数通过以下公式实现：

其中，

表示对调整动作分类的过程的损失，

表示对调整动作分类过程的正样本数量，

表示进行调整动作分类的结果，

表示真实的标签。

smooth L1损失函数通过以下公式实现：

其中，

表示调整动作定位过程的损失，

表示调整过程的正样本数量，

表示粗预测动作定位的开始与真实开始的偏移，

表示粗预测动作定位的结束与真实结束的偏移，

表示调整动作定位后的开始的偏移量，

表示调整动作定位后的结束的偏移量。

S150、根据动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量，获取动作定位提案。

动作定位提案包括动作开始时间，动作结束时间和动作分类结果；其中，

动作开始时间通过以下公式获得：

动作结束时间通过以下公式获得：

动作分类结果通过以下公式获得：

其中，

表示粗预测动作定位的开始时间，

表示粗预测动作定位的结束时间，

表示调整动作定位的开始，

表示调整动作定位的结束，

表示预测的动作的类别，

表示粗预测动作分类的结果，

表示调整动作分类的结果，

表示参数。

参数

为通过二分类交叉熵损失函数对基于图关系模块的调整模型进行训练过程获得；利用二分类交叉熵损失函数（BCE loss）获取一个用于抑制一些低质量的提名的参数。

二分类交叉熵损失函数通过以下公式实现：

其中，

表示真实的边界；

表示参数。

在一个具体的实施例中，在THUMOS14数据集上，以每秒10帧的速度对RGB流和光流的动作视频进行编码。使用滑动窗口获取每个剪辑256帧，在训练过程中，时间步长为30。

对于ActivityNet1.3 数据集，将视频编码为768帧的固定长度。应用随机裁剪和水平翻转来进行数据增强。得到的图像大小为96×96。使用Adam训练30个epoch，前15个epoch的学习率为0.0001，最后15个epoch的学习率为0.00001，权重衰减为0.001。批大小设置为1。THUMOS14的Soft-NMS 阈值设置为0.3，ActivityNet1.3设置为0.85。

在测试过程中，分别将连续的光流图和连续的RGB图像输入网络中得到两个结果，最后对结果进行平均得到最终的分类和定位结果。具体来讲，对于THUMOS14数据集，RGB流和光流都采用256帧长度且重叠128帧的划窗来得到时序长度为256帧的I3D网络的输入。之后对于每一个256帧长度的输入采用I3D网络提取特征后采用自注意力和多时序模块进行建模，然后生成金字塔特征，对于每一个尺度的金字塔特征的每一个时序位置都预测出一组粗的边界和粗的分类结果；将特征输入基于图关系模块的调整模块来获得距离粗边界的偏移量和调整后的分类结果。最后，根据粗边界和粗分类结果还有偏移量和调整后的分类结果得到最终的动作定位的提案。得到这些提案后进行非极大值抑制来去除一部分提案得到最终的提案。

对于ActivityNet1.3数据集，使用不同的帧率将所有视频都变成768帧作为输入，其余过程与THUMOS14数据集的过程相同。表1示意性的示出了本发明与其他方法在THUMOS14数据集的实验效果比较；表2示意性的示出了本发明与其他方法在ActivityNet1.3数据集的实验效果比较。

表1、本发明与其他方法在THUMOS14数据集的实验效果比较表

表2、本发明与其他方法在在ActivityNet1.3数据集的实验效果比较表

通过观察表1和表2发现，在THUMOS14数据集上，本发明取得了最好的效果，当计算tIoU从0.1～0.5的平均精度均值（Mean Average Precision, mAP）时，取得了67.6的精度效果；当计算tIoU从0.3～0.7的平均mAP时，取得了53.8的精度效果。

在ActivityNet1.3数据集上，虽然本发明没有取得最好的效果，但是取得的效果仍然优于大多数时序动作定位方法，当计算tIoU从0.5～0.95的平均mAP时，取得了仍然优秀的34.4的效果。

综上，本发明的一种基于多模态时间感知和注意力的视频交互动作检测方法，通过将全局时序信息与多尺度的局部时序信息进行聚合，并将聚合后的特征进行金字塔池化，获取多个尺度的金字塔特征；进而通过金字塔特征进行高效地动作定位。通过自注意力和多时序模型中的多尺度时序信息的建模，聚合了不同尺度的时序信息，且通过分组策略和膨胀策略实现了减少模型参数的技术效果；通过对不同时序的动作位置的关系进行建模，并对动作的时序特征进行全局自注意力增强，提升了时序动作定位的精准度，提高了基于多模态时间感知和注意力的视频交互动作检测模型的鲁棒性。

与上述基于多模态时间感知和注意力的视频交互动作检测方法相对应，本发明还提供一种基于多模态时间感知和注意力的视频交互动作检测系统。图3示出了根据本发明实施例的基于多模态时间感知和注意力的视频交互动作检测系统的功能模块。

如图3所示，本发明提供的基于多模态时间感知和注意力的视频交互动作检测系统300可以安装于电子设备中。根据实现的功能，所述基于多模态时间感知和注意力的视频交互动作检测系统300可以包括采集单元310、初始特征获取单元320、预测单元330和动作定位提案确定单元340。本发明所述单元也可以称之为模块，指的是一种能够被电子设备的处理器所执行，并且能够完成某一固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

采集单元310，用于采集待检测的动作视频；

初始特征获取单元320，用于利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；

预测单元330，用于通过视频交互动作粗预测模型对动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位，获取动作初始分类结果和动作初始定位结果；

动作定位提案确定单元340，用于根据动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量，确定动作定位提案。

本发明所提供的上述基于多模态时间感知和注意力的视频交互动作检测系统的更为具体的实现方式，均可以参照上述对基于多模态时间感知和注意力的视频交互动作检测方法的实施例表述，在此不再一一列举。

本发明所提供的上述基于多模态时间感知和注意力的视频交互动作检测系统，通过将全局时序信息与多尺度的局部时序信息进行聚合，并将聚合后的特征进行金字塔池化，获取多个尺度的金字塔特征；进而通过金字塔特征进行高效地动作定位。通过自注意力和多时序模型中的多尺度时序信息的建模，聚合了不同尺度的时序信息，且通过分组策略和膨胀策略实现了减少模型参数的技术效果；通过对不同时序的动作位置的关系进行建模，并对动作的时序特征进行全局自注意力增强，提升了时序动作定位的精准度，提高了基于多模态时间感知和注意力的视频交互动作检测模型的鲁棒性。

如图4所示，本发明提供一种基于多模态时间感知和注意力的视频交互动作检测方法的电子设备4。

该电子设备4可以包括处理器40、存储器41和总线，还可以包括存储在存储器41中并可在所述处理器40上运行的计算机程序，如基于多模态时间感知和注意力的视频交互动作检测程序42。

其中，所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器41在一些实施例中可以是电子设备4的内部存储单元，例如该电子设备4的移动硬盘。所述存储器41在另一些实施例中也可以是电子设备4的外部存储设备，例如电子设备4上配备的插接式移动硬盘、智能存储卡（Smart Media Card，SMC）、安全数字（SecureDigital，SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器41还可以既包括电子设备4的内部存储单元也包括外部存储设备。所述存储器41不仅可以用于存储安装于电子设备4的应用软件及各类数据，例如基于多模态时间感知和注意力的视频交互动作检测程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器40在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器40是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器41内的程序或者模块（例如基于多模态时间感知和注意力的视频交互动作检测程序等），以及调用存储在所述存储器41内的数据，以执行电子设备4的各种功能和处理数据。

所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器41以及至少一个处理器40等之间的连接通信。

图4仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备4的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备4还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器40逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备4还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备4与其他电子设备之间建立通信连接。

可选地，该电子设备4还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备4中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备4中的所述存储器41存储的基于多模态时间感知和注意力的视频交互动作检测程序42是多个指令的组合，在所述处理器40中运行时，可以实现：S110、采集待检测的动作视频；S120、利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征；将聚合特征进行金字塔池化，获取多个尺度的金字塔特征；对每个尺度的金字塔特征进行卷积，并分别获得每个尺度的金字塔特征的每一个时序位置的动作初始分类特征和动作初始定位特征；S130、通过视频交互动作粗预测模型对动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位，获取动作初始分类结果和动作初始定位结果；S140、通过基于图关系模块的调整模型，对动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量；S150、根据动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量，获取动作定位提案。

具体地，所述处理器40对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述基于多模态时间感知和注意力的视频交互动作检测程序的私密和安全性，上述基于多模态时间感知和注意力的视频交互动作检测程序存储于本服务器集群所处区块链的节点中。

进一步地，所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

本发明实施例还提供一种计算机可读存储介质，所述存储介质可以是非易失性的，也可以是易失性的，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：S110、采集待检测的动作视频；S120、利用预训练的I3D网络对动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征；将聚合特征进行金字塔池化，获取多个尺度的金字塔特征；对每个尺度的金字塔特征进行卷积，并分别获得每个尺度的金字塔特征的每一个时序位置的动作初始分类特征和动作初始定位特征；S130、通过视频交互动作粗预测模型对动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位，获取动作初始分类结果和动作初始定位结果；S140、通过基于图关系模块的调整模型，对动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量；S150、根据动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量，获取动作定位提案。

具体地，所述计算机程序被处理器执行时具体实现方法可参考实施例基于多模态时间感知和注意力的视频交互动作检测方法中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等，区块链可以存储医疗数据，如个人健康档案、厨房、检查报告等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于多模态时间感知和注意力的视频交互动作检测方法，其特征在于，包括：

采集待检测的动作视频；

利用预训练的I3D网络对所述动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；

通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征；将所述聚合特征进行金字塔池化，获取多个尺度的金字塔特征；

通过视频交互动作粗预测模型对所述动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位，获取动作初始分类结果和动作初始定位结果；

通过基于图关系模块的调整模型，对所述动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量；

根据所述动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量，获取动作定位提案。

2.如权利要求1所述的基于多模态时间感知和注意力的视频交互动作检测方法，其特征在于，通过自注意力和多时序模型，根据待检测的动作的时间特征和空间特征获取聚合特征的方法，包括，

利用多尺度聚合模块对所述全局特征进行通道降维；其中，所述通道降维后的特征维度降为通道降维前的特征维度的1/16；

利用设定种类的感受野对所述通道降维后的全局特征进行卷积，获取各个感受野的时序信息；

将各个感受野的时序信息进行聚合，并进行通道升维，获取与所述原始的全局特征的维度相同的聚合特征。

3.如权利要求1所述的基于多模态时间感知和注意力的视频交互动作检测方法，其特征在于，通过基于图关系模块的调整模型，对所述动作初始分类特征和动作初始定位特征分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量的方法，包括，

通过时序自注意力模块，对所述动作初始分类特征进行加权特征操作，获取显著分类特征；通过k近邻算法，对所述动作初始定位特征获取与每个时序位置的距离最小的相邻位置，并对每个时序位置及相对应的相邻位置进行聚合，获取显著定位特征；

将动作初始分类特征、显著分类特征和显著定位特征相加，获取动作最终分类特征；将所述动作初始定位特征、显著定位特征和显著分类特征相加，获取动作最终定位特征；

根据所述动作最终分类特征和动作最终定位特征，分别进行调整动作分类和调整动作定位，获取动作最终分类结果和动作定位偏移量。

4.如权利要求1所述的基于多模态时间感知和注意力的视频交互动作检测方法，其特征在于，所述动作定位提案包括动作开始时间，动作结束时间和动作分类结果；其中，

所述动作开始时间通过以下公式获得：

所述动作结束时间通过以下公式获得：

所述动作分类结果通过以下公式获得：

其中，

表示粗预测动作定位的开始时间，

表示粗预测动作定位的结束时间，

表示调整动作定位的开始，

表示调整动作定位的结束，

表示预测的动作的类别，

表示粗预测动作分类的结果，

表示调整动作分类的结果，

表示参数。

5.如权利要求4中所述的基于多模态时间感知和注意力的视频交互动作检测方法，其特征在于，

所述参数

所述二分类交叉熵损失函数通过以下公式实现：

其中，

表示对所述动作初始定位特征进行调整动作定位后预测出的边界，

表示真实的边界；

表示参数。

6.如权利要求1中所述的基于多模态时间感知和注意力的视频交互动作检测方法，其特征在于，所述视频交互动作粗预测模型的粗预测动作分类过程利用focal损失函数进行约束训练；所述视频交互动作粗预测模型的粗预测动作定位过程利用GIOU损失函数进行约束训练；

所述focal损失函数通过以下公式实现：

其中，

表示对所述动作初始分类特征进行粗预测动作分类的结果，

表示真实的标签；

所述GIOU损失函数通过以下公式实现：

其中，

表示真实的边界。

7.如权利要求1中所述的基于多模态时间感知和注意力的视频交互动作检测方法，其特征在于，所述基于图关系模块的调整模型的调整动作分类过程利用focal损失函数进行约束训练；所述基于图关系模块的调整模型的调整动作定位过程利用smooth L ₁损失函数进行约束训练；其中，

所述smooth L1损失函数通过以下公式实现：

其中，

表示调整动作定位过程的损失，

表示调整过程的正样本数量，

表示粗预测动作定位的开始与真实开始的偏移，

表示粗预测动作定位的结束与真实结束的偏移，

表示调整动作定位后的开始的偏移量，

表示调整动作定位后的结束的偏移量。

8.一种基于多模态时间感知和注意力的视频交互动作检测系统，其特征在于，包括：

采集单元，用于采集待检测的动作视频；

初始特征获取单元，用于利用预训练的I3D网络对所述动作视频进行特征提取，获取待检测的动作的时间特征和空间特征；

预测单元，用于通过视频交互动作粗预测模型对所述动作初始分类特征和动作初始定位特征分别进行粗预测动作分类和粗预测动作定位，获取动作初始分类结果和动作初始定位结果；

动作定位提案确定单元，用于根据所述动作初始分类结果、动作初始定位结果、动作最终分类结果和动作定位偏移量，确定动作定位提案。

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于多模态时间感知和注意力的视频交互动作检测方法中的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于多模态时间感知和注意力的视频交互动作检测方法。