CN113609948B

CN113609948B - 一种视频时序动作的检测方法、装置及设备

Info

Publication number: CN113609948B
Application number: CN202110861491.9A
Authority: CN
Inventors: 杜吉祥; 彭肖肖; 张洪博; 翟传敏; 雷庆
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-09-05
Anticipated expiration: 2041-07-29
Also published as: CN113609948A

Abstract

本发明提供了一种视频时序动作的检测方法、装置及设备,方法包括:获取视频数据,并提取所述视频数据的视频特征；将所述视频特征输入至锚分支网络以及无锚分支网络，以获取所述锚分支网络输出的第一输出结果，及所述无锚分支网络输出的第二输出结果，其中，所述锚分支网络以及所述无锚分支网络并行处理所述视频特征；调用对齐损失函数对所述第一输出结果及所述第二输出结果进行融合处理，生成时序动作定位结果集。解决了现有技术中对数据集的动作标注往往很模糊的问题。

Description

一种视频时序动作的检测方法、装置及设备

技术领域

本发明涉及计算机视觉领域，特别涉及一种视频时序动作的检测方法、装置及设备。

背景技术

时序动作定位是视频处理中一项极具挑战性的任务，其旨在时间轴上定位动作的开始和结束位置，同时还要预测动作的种类。与图像领域的目标检测算法类似，时序动作定位算法也可分为一阶段和两阶段算法；

当前大多数时序动作定位方法都是遵循两阶段范式的算法，两阶段范式算法虽然可以使得模型的精度很高，但是由于逐步微调过程使得其应用效率降低，开发一种高效的端到端的一阶段算法迫在眉睫。一阶段算法要求定位和分类一步完成，具有速度快、推理简单等优点。在一阶段时序动作定位算法中，可大致分为两大类：Anchor Based和AnchorFree方法。在Anchor Based的算法中，这种方式通过先验估计一系列固定尺度大小的时间锚框，然后基于这些锚框执行定位和分类任务。这种方式虽然可以通过密集分布锚框而覆盖所有的真实动作实例，但是在实现过程中却很难找到这种先验估计。Anchor Free方法则继承了目标检测Anchor Free算法的特点，在动作区域内的时序点上回归到动作边界的偏移，同时对该时序点进行动作类别级的划分。这种方法虽然缓解了固定先验框带来的问题，但是现有数据集的动作标注往往很模糊，使得Anchor Free方法定位很难

有鉴于此，提出本申请。

发明内容

本发明公开了一种视频时序动作的检测方法、装置及设备，旨在解决现有技术中，对数据集的动作标注往往很模糊的问题。

本发明第一实施例提供了一种视频时序动作的检测方法,包括:

获取视频数据,并提取所述视频数据的视频特征；

将所述视频特征输入至锚分支网络以及无锚分支网络，以获取所述锚分支网络输出的第一输出结果，及所述无锚分支网络输出的第二输出结果，其中，所述锚分支网络以及所述无锚分支网络并行处理所述视频特征；

调用对齐损失函数对所述第一输出结果及所述第二输出结果进行融合处理，生成时序动作定位结果集。

优选地，所述获取视频数据,并对所述视频数据的视频特征，具体为：

以预设的帧率对所述视频数据进行拆解，以获得所述视频数据的视频帧序列；

调用光流算法运算所述视频数据，以提取出所述视频数据的光流图像；

调用经过预训练的I3D模型，将所述视频帧序列及所述光流图像分别输入至所述I3D模型中，以获得对应的RGB特征和Flow特征；

将所述RGB特征和Flow特征进行拼接，生成所述视频特征。

优选地，所述将所述视频特征输入至锚分支网络，以获取所述锚分支网络输出的第一输出结果具体为：

调用SSD目标检测算法进行预定义一系列多尺度的时序锚框；

对所述一系列多尺度的时序锚框进行回归和分类操作，以获得所述第一输出结果，其中，所述输出结果包括动作分类的分数、动作提名评价分数、以及回归的偏移值。

优选地，所述将所述视频特征输入至无锚分支网络，以获取所述无锚分支网络输出的第二输出结果具体为：

调用无锚目标检测算法，对所述视频特征进去区分为前景点和背景点；

获取被判定为前景点的时序点的分类分数，以及该时序点到动作边界的距离。

优选地，所述齐损失函数的模型为：

其中，L_al为对齐损失函数,为锚分支输出的动作提名,/>为无锚分支输出的动作提名,N为常数。

本发明第二实施例提供了一种视频时序动作的检测装置,包括:

视频特征提取单元，用于获取视频数据,并提取所述视频数据的视频特征；

输出结果获取单元，用于将所述视频特征输入至锚分支网络以及无锚分支网络，以获取所述锚分支网络输出的第一输出结果，及所述无锚分支网络输出的第二输出结果，其中，所述锚分支网络以及所述无锚分支网络并行处理所述视频特征；

时序动作定位结果集生成单元，用于调用对齐损失函数对所述第一输出结果及所述第二输出结果进行融合处理，生成时序动作定位结果集。

优选地，所述视频特征提取单元具体用于：

将所述RGB特征和Flow特征进行拼接，生成所述视频特征。

优选地，所述输出结果获取单元具体用于为：

调用SSD目标检测算法进行预定义一系列多尺度的时序锚框；

优选地，所述输出结果获取单元具体用于为：

本发明第三实施例提供了一种视频时序动作的检测设备，包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序，所述处理器执行所述计算机程序实现如上任意一项所述的一种视频时序动作的检测方法。

基于本发明提供的一种视频时序动作的检测方法、装置及设备，先通过获取视频数据,并提取所述视频数据的视频特征，将所述视频特征输入至锚分支网络以及无锚分支网络中，两个分支在执行时序动作定位任务时共享时序点，实验表明，基于锚的方法使用于长度中等的动作实例，无锚的方法适用于极端(极长或极短)长度的动作实例，因此，在本实施例中，通过对齐损失用于两个分支之间的对抗学习，目的是为了最小化两个分支的差距，最后将两个分支的输出结果进行融合，生成时序动作定位结果集，解决了现有技术中对数据集的动作标注往往很模糊的问题。

附图说明

图1是本发明第一实施例提供的一种视频时序动作的检测方法的流程示意图；

图2是本发明提供的锚匹配网络结构示意图；

图3是本发明提供的无锚分支的预测流程示意图；

图4是本发明提供的对齐损失函数的计算流程示意图；

图5是本发明第二实施例提供的一种视频时序动作的检测装置的结构示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

以下结合附图对本发明的具体实施例做详细说明。

请参阅图1，本发明第一实施例提供了一种视频时序动作的检测方法,其可由视频时序动作的检测设备(以下简称检测设备)来执行，特别的，由检测设备内的一个或者多个处理器来执行，以实现如下步骤：

S101，获取视频数据,并提取所述视频数据的视频特征；

在本实施例中，所述检测设备可为位于云端服务器或者终端设备(如智能手机、智能打印机或者其他智能设备)，所述检测设备内可存储有用于进行视频时序动作检测的数据。

给定一段未剪辑的视频V，其由一系列帧的集合构成，记为其中f_t是视频中第t帧，t_v是视频中的总帧数。每个视频样本都有自己的动作边界标签和动作类别标签，可以被描述为/>其中s,e分别是动作的开始时间和结束时间，cate是对应的动作类别，且cate∈[1,K]，K为数据集的动作类别总数，I_v是视频中的动作实例数目。这些标签在训练中会被使用来，在测试期间，网络生成的/>能覆盖真实标签A_v，具有高的召回率和时间重叠度。

具体地，在本实施例中，以预设的帧率(例如，30fps的帧率，但不仅限于此)对所述视频数据进行拆解，以获得所述视频数据的视频帧序列，即RGB流；

调用光流算法运算所述视频数据，以提取出所述视频数据的光流图像Flow流；

调用经过预训练的I3D模型，其中，I3D模型在Kinetic数据集上进行预训练，将所述视频帧序列及所述光流图像分别输入至所述I3D模型中，以获得对应的RGB特征和Flow特征；RGB特征表示f^rgb∈R^D×T和Flow特征表示f^flow∈R^D×T。D和T分别表示特征维度和时序维度。

将所述RGB特征和Flow特征进行拼接，生成所述视频特征。

S102，将所述视频特征输入至锚分支网络以及无锚分支网络，以获取所述锚分支网络输出的第一输出结果，及所述无锚分支网络输出的第二输出结果，其中，所述锚分支网络以及所述无锚分支网络并行处理所述视频特征，其中，锚匹配网络结构如图2所示；

在本实施例中，将所述视频特征输入锚分支网络，以获取第一输出结果具体为：调用SSD目标检测算法进行预定义一系列多尺度的时序锚框；

需要说明的是，在锚分支中，实现的基本骨架是采用SSAD网络的方式。其基本思想是SSD目标检测算法预定义一系列多尺度的时序锚框，然后在这些时序锚框执行回归和分类操作，得到动作的开始时间、结束时间和动作类别。该分支的目标是同时预测分类分数动作提名评价分数p_o和回归的偏移值{Δ_c,Δ_w}。

在锚分支网络的输出中，S^ab是评价动作分类的分数向量，K是数据集的动作类别数。动作提名评价分数p_o估计的是预测动作提名与其最近的真实值之间的交并比，最后的是回归的位置偏移值{Δ_c,Δ_w}，在推理阶段用于计算动作的边界位置，具体的计算公式如下：

c＝c_d+α₁·w_d·Δ_c (4.1)；

w＝w_d·exp(α₂·Δ_w) (4.2)；

如公式(4.1)和(4.2)所示，c_d和w_d表示默认时序锚框的的中点和宽度值，α₁和α₂是在训练中控制学习过程的超参数。在锚分支的训练中，计算预定锚框与真实值之间的交并比值，将IoU值大于0.5的锚框标记为正样本，其他的锚框标记为负样本。在分配过程中使用随机采样的方式，将正负样本的比例控制在1:1。

在本实施例中，所述将所述视频特征输入至无锚分支网络，以获取所述无锚分支网络输出的第二输出结果具体为：

需要说明的是，在无锚分支中，将无锚目标检测算法迁移的时序领域。在本实施例中，采用无锚算法AFO-TAD的框架作为无锚分支的基本骨架。在无锚目标检测算法中，回归目标是中心点到边界角点的欧氏距离。拓展到时序领域，回归目标很自然就是动作区域点到边界的距离。值得注意的是，这里不是中心点，视频中动作实例占少数，直接使用中心点会导致正样本很少，会造成正负样本极具不平衡。

无锚分支的预测过程如图3所示，视频示例中包含两个动作实例，根据它们的动作时长，可以被分配到不同的金字塔层次中。图中表示两个不同的金字塔层F_a和F_b，两个不同的动作实例被分配到这两个金字塔层。在每个金字塔层内，其时序点承担预测相应动作实例的正样本。

具体地，在本方法使用的6层金字塔中，不同的金字塔层处理的动作实例尺度不同。对于第i层金字塔，其动作域为[2^i-1,2ⁱ)，i∈{2,3,4,5,6}。对于第一层，它的动作域为[0，2)。在有时序长度为t的金字塔层i中，它的累积特征跨度为s_i，那么第j个时序位置映射会输入特征序列的位置的计算公式如下所示：

如公式(4.3)所示，通过该公式可以得到映射后在输入特征序列的位置j’。如果j’落在动作域内，则称之为前景点，否则称之为背景点。无锚分支中会预测分类分数以确定一个时序点是否属于一个动作实例及其类别标签。对于前景点，其分类的标签是动作类别下标。对于背景点，其分类标签为0。当且仅当时序点为前景点时才被利用，然后回归这个点到动作边界的距离，其回归公式如下：

如公式(4.4)和(4.5)所示，和/>分别为动作实例的开始时间和结束时间，通过该公式就可以回归得到当前时序点到动作边界的距离。综上，无锚分支会输出每个时序点的分类分数/>和每个时序点到动作边界的距离(r_s,r_e)。

S103，调用对齐损失函数对所述第一输出结果及所述第二输出结果进行融合处理，生成时序动作定位结果集。

需要说明的是，锚匹配网络是一个多任务网络，其损失函数也是个多任务损失函数，包含锚分支损失函数、无锚分支损失函数和两个分支的对齐损失函数。其数学表达式如下：

L_APMN＝L_ab+λ·L_af+γ·L_al (4.6)

在公式(4.6)中，L_APMN是总损失函数，L_ab损失函数是锚分支损失函数，用于监督锚分支网络中定位和分类任务的训练。L_af损失函数是无锚分支损失函数，用于监督无锚分支的定位和分类任务。L_al损失函数是本实施例中的对齐损失函数，其目的在于使得锚分支和无锚分支对抗学习，提升网络的性能。L_ab和L_af在数学形式上完全一致，其具体表达式如下：

L_ab＝L_b+L_c (4.7)

L_af＝L_b+L_c (4.8)

如公式(4.7)和公式(4.8)所示，锚和无锚分支损失函数都是由定位损失和分类损失两部分构成。在定位损失上，本实施例采用了平衡的一范数损失L_b，其数学表达式如公式(4.9)表示。公式(4.10)为该损失函数的微分表达式，该损失函数修改了梯度更新的方式，从而降低了错误率，在回归任务中具有良好的鲁棒性。在分类损失上，两个分支的损失函数都是使用简单的交叉熵损失函数L_c。在分类损失和分类损失函数共同作用下，两个分支并行执行时序动作定位任务。

经过多次实验结果分析，发现锚分支在处理长度中等的动作实例具有优势，无锚分支在处理那些极端长度(极长或极短)的动作实例具有优势。在现有技术中，很少深入研究这两个分支之间的联系，为了使得网络在训练过程中能够取长补短，本实施例提供了一种对齐损失函数L_al协调这两个分支的学习。

对齐损失函数的计算过程如图4所示，锚分支和无锚分支共享时序位置点。在这些时序点中有的是前景点，有的是背景点。本方法只对前景点计算该损失。计算公式如公式(4.11)所示，其中N是一个常数，表示两个分支按照回归分数排序得到的TopN个时序提名的个数。对两个分支的TopN个时序提名，逐个计算它们之间的时序交并比tIoU。最后可以得到25个tIou值，取这25个值得平均值作为对齐损失值。

在推理过程中，首先，本方法将视频特征输入到锚匹配网络中，并从锚分支和无锚分支进行预测。对于锚分支，可以得到分类分数S_ab、动作提名评价分数p_o和动作边界偏移值(Δ_c,Δ_w)。取p_o置信度值作为后续的后处理的基准。对无锚分支，将网络输出的偏移值转化成标准的动作边界(s_af,e_af)。将两个分支得到的动作提名融合，然后，使用Soft-NMS算法对两个分支的融合结果进行后处理，最后得到时序动作定位结果集。

本实施例与现有技术相比具有诸多优点和有益效果，具体体现在以下方面：

1.本发明将传统的基于锚的方法和无锚的方法结合起来，两个分支并行执行时序动作定位任务，最后将两个分支的结果融合，完成视频时序动作检测。

2.在两个分支的训练中，都是定位和分类同时进行的一阶段网络。分别使用交叉熵损失函数用于分类任务，平衡一范数损失函数用于定位任务。平衡一范数损失能进一步提升检测精度。

3.基于锚的方法使用于长度中等的动作实例，无锚的方法适用于极端(极长或极短)长度的动作实例。为了解决两个分支学习差异问题，即使得每个时序锚点上的结果尽可能一致，提供了一种对齐损失函数用于两个分支对抗学习。

请参阅图5，本发明第二实施例提供了一种视频时序动作的检测装置,包括:

视频特征提取单元201，用于获取视频数据,并提取所述视频数据的视频特征；

输出结果获取单元202，用于将所述视频特征输入至锚分支网络以及无锚分支网络，以获取所述锚分支网络输出的第一输出结果，及所述无锚分支网络输出的第二输出结果，其中，所述锚分支网络以及所述无锚分支网络并行处理所述视频特征；

时序动作定位结果集生成单元203，用于调用对齐损失函数对所述第一输出结果及所述第二输出结果进行融合处理，生成时序动作定位结果集。

优选地，所述视频特征提取单元具体用于：

将所述RGB特征和Flow特征进行拼接，生成所述视频特征。

优选地，所述输出结果获取单元具体用于为：

调用SSD目标检测算法进行预定义一系列多尺度的时序锚框；

优选地，所述输出结果获取单元具体用于为：

示例性地，本发明第三实施例和第四实施例中所述的计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述实现一种视频时序动作的检测设备中的执行过程。例如，本发明第二实施例中所述的装置。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种视频时序动作的检测方法的控制中心，利用各种接口和线路连接整个所述实现对一种视频时序动作的检测方法的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现一种视频时序动作的检测方法的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述实现的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种视频时序动作的检测方法,其特征在于,包括:

获取视频数据,并提取所述视频数据的视频特征；

调用对齐损失函数对所述第一输出结果及所述第二输出结果进行融合处理，生成时序动作定位结果集；具体为：

调用无锚目标检测算法，对所述视频特征进行区分为前景点和背景点；

获取被判定为前景点的时序点的分类分数，以及该时序点到动作边界的距离；

锚匹配网络是一个多任务网络，其损失函数为多任务损失函数，包括锚分支损失函数、无锚分支损失函数和两个分支的对齐损失函数，其数学表达式如下：

L_APMN＝L_ab+λ·L_af+γ·L_al

其中，L_APMN是总损失函数，L_ab损失函数是锚分支损失函数，用于监督锚分支网络中定位和分类任务的训练，L_af损失函数是无锚分支损失函数，用于监督无锚分支网络的定位和分类任务，L_al损失函数是对齐损失函数，

其中，对齐损失函数的模型为：

其中，L_al为对齐损失函数,为锚分支网络输出的动作提名,/>为无锚分支网络输出的动作提名,N为常数；

其中，锚分支网络和无锚分支网络共享时序位置点，所述时序位置点包括前景点和背景点，对齐损失函数的模型用于对前景点计算损失，其中N表示两个分支按照回归分数排序得到的TopN个时序提名的个数，对两个分支的TopN个时序提名，逐个计算它们之间的时序交并比tIoU；

其中，将视频特征输入到锚匹配网络中，并从锚分支网络和无锚分支网络进行预测，对于锚分支网络，得到分类分数S_ab、动作提名评价分数p_o和动作边界偏移值(Δ_c,Δ_w)，对无锚分支网络，将网络输出的偏移值转化成标准的动作边界(s_af,e_af)，将两个分支得到的输出结果进行融合，然后，使用Soft-NMS算法对两个分支的融合结果进行后处理，最后得到时序动作定位结果集。

2.根据权利要求1所述的一种视频时序动作的检测方法,其特征在于,所述获取视频数据,并提取所述视频数据的视频特征，具体为：

将所述RGB特征和Flow特征进行拼接，生成所述视频特征。

3.一种视频时序动作的检测装置,其特征在于,包括:

时序动作定位结果集生成单元，用于调用对齐损失函数对所述第一输出结果及所述第二输出结果进行融合处理，生成时序动作定位结果集；具体用于：

L_APMN＝L_ab+λ·L_af+γ·L_al

其中，对齐损失函数的模型为：

4.根据权利要求3所述的一种视频时序动作的检测装置,其特征在于,所述视频特征提取单元具体用于：

将所述RGB特征和Flow特征进行拼接，生成所述视频特征。

5.一种视频时序动作的检测设备，包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序，所述处理器执行所述计算机程序实现如权利要求1至2任意一项所述的一种视频时序动作的检测方法。