CN111860289B

CN111860289B - 一种时序动作检测方法、装置及计算机设备

Info

Publication number: CN111860289B
Application number: CN202010686641.2A
Authority: CN
Inventors: 刘川贺; 汪明浩
Original assignee: Beijing Seektruth Data Technology Service Co ltd
Current assignee: Beijing Seektruth Data Technology Service Co ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2024-04-02
Anticipated expiration: 2040-07-16
Also published as: CN111860289A

Abstract

本发明涉及视频图像处理技术领域，具体涉及一种时序动作检测方法、装置及计算机设备。包括获取待测视频的基础时序特征序列；采用预置的导向锚点模块对基础时序特征序列进行锚点边界预测和时序特征预测，获得锚点边界和时序特征图；根据锚点边界和时序特征图确定时序动作检测结果。本发明可以有效去除非目标区域对时序动作检测的影响，节省时序动作检测的计算开销，提高时序动作检测效率。

Description

一种时序动作检测方法、装置及计算机设备

技术领域

本发明涉及视频图像处理技术领域，具体涉及一种时序动作检测方法、装置及计算机设备。

背景技术

为了提高视频剪辑的效率，通常需要采用相应的技术手段去帮助视频作者或是视频平台自动地从长视频中剪辑出指定动作类别的短视频片段。自动剪辑过程中相关的算法任务为视频时序动作检测任务，其目的是在未裁剪的长视频中检测时序动作片段的开始时间、结束时间、置信度分数以及动作类别。时序动作检测是精彩视频智能剪辑的关键技术。

现有的时序动作检测过程一般都会采用滑动窗口或者边界概率图生成大量分散的动作候选边界区域，之后对候选区域进行分类以及回归来微调边界。这样的方式还存在着一些不足，比如：

1、要针对特定的问题来设置不同的滑动窗口，一旦设计不合理会使得检测速度和准确度都下降。

2、为了保持对候选区域的高召回率，需要生成大量的候选边界，包含锚点对象边界和非锚点对象边界，但其中一大部分候选边界区域都是背景(非锚点对象边界)，与需要的目标(锚点对象)区域是无关的，且大量的候选边界区域会导致大量的计算开销。

因此，现有的视频时序动作检测方式的实现过程较为繁琐，造成时序动作检测效率偏低，丞待改进。

发明内容

针对现有技术存在的不足，本发明提供了一种时序动作检测方法、装置及计算机设备，其应用时，可以有效去除非目标区域对时序动作检测的影响，节省时序动作检测的计算开销，提高时序动作检测效率。

第一方面，本发明提供一种时序动作检测方法，包括：

获取待测视频的基础时序特征序列；

采用预置的导向锚点模块对基础时序特征序列进行锚点边界预测和时序特征预测，获得锚点边界和时序特征图；

根据锚点边界和时序特征图确定时序动作检测结果。

基于上述发明内容，可以从待测视频中提取出相应的基础时序特征序列，再通过导向锚点模块完成对基础时序特征序列的锚点边界预测和时序特征预测，获得锚点边界和时序特征图，从而来确定时序动作检测结果，其应用时，替代现有的时序动作检测方式，直接从基础时序特征序列中预测获得锚点边界和对应的时序特征图，而不需要生成大量的候选边界，再进行繁琐的分类及调整过程，去除了非目标区域对时序动作检测的影响，节省时序动作检测的计算开销，提高时序动作检测效率。

在一个可能的设计中，获取待测视频的基础时序特征序列，包括：

根据设定的采样周期从待测视频中按时间顺序抽取若干帧图像，组成图像序列；

提取图像序列中各帧图像的特征点，并按照时间顺序组合成基础时序特征序列。

在一个可能的设计中，所述导向锚点模块包括锚点位置预测子网络，对基础时序特征序列进行锚点边界预测，包括：

通过锚点位置预测子网络预测基础时序特征序列中每一个特征点存在目标锚点的概率；

将概率大于设定阈值的特征点标定为动作锚点，并获得动作锚点的时间点。

在一个可能的设计中，所述导向锚点模块包括锚点形状预测子网络，对基础时序特征序列进行锚点边界预测，包括：

通过锚点形状预测子网络预测动作锚点的动作时间宽度；

将动作锚点的动作时间宽度进行归一化处理，获得锚点形状。

在一个可能的设计中，所述导向锚点模块包括锚点特征适应模块，对基础时序特征序列进行时序特征的预测，包括：

通过锚点特征适应模块将所述锚点形状融于基础时序特征序列，获得时序特征图。

在一个可能的设计中，所述方法还包括：

构建锚点边界预测的损失函数；

利用损失函数对导向锚点模块的锚点边界预测结果进行评估。

第二方面，本发明提供一种时序动作检测装置，包括：

获取单元，用于获取待测视频的基础时序特征序列；

预测单元，用于采用预置的导向锚点模块对基础时序特征序列进行锚点边界预测和时序特征预测，获得锚点边界和时序特征图；

确定单元，用于根据锚点边界和时序特征图确定时序动作检测结果。

在一个可能的设计中，所述装置还包括：

构建单元，用于构建锚点边界预测的损失函数；

评估单元，用于利用损失函数对导向锚点模块的锚点边界预测结果进行评估。

第三方面，本发明提供一种计算机设备，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行第一方面中任意一种所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行第一方面中任意一种所述的方法。

第五方面，本发明提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行第一方面中任意一种所述的方法。

本发明有益效果：本发明可以替代现有的时序动作检测方式，直接从基础时序特征序列中预测获得锚点边界和对应的时序特征图，而不需要生成大量的候选边界，再进行繁琐的分类及调整过程，去除了非目标区域对时序动作检测的影响，节省时序动作检测的计算开销，提高时序动作检测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程示意图；

图2为导向锚点模块的分支处理流程示意图；

图3为本发明的装置结构示意图；

图4为本发明的计算机设备结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，术语第一、第二等仅用于区分描述，而不能理解为指示或暗示相对重要性。尽管本文可以使用术语第一、第二等等来描述各种单元，这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况，本文中术语“/和”是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况，另外，本文中字符“/”，一般表示前后关联对象是一种“或”关系。

应当理解，在本发明的描述中，术语“上”、“竖直”、“内”、“外”等指示的方位或位置关系，是该发明产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

应当理解，当将单元称作与另一个单元“连接”、“相连”或“耦合”时，它可以与另一个单元直相连接或耦合，或中间单元可以存在。相対地，当将单元称作与另一个单元“直接相连”或“直接耦合”时，不存在中间单元。应当以类似方式来解释用于描述单元之间的关系的其他单词(例如，“在……之间”对“直接在……之间”，“相邻”对“直接相邻”等等)。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

本文使用的术语仅用于描述特定实施例，并且不意在限制本发明的示例实施例。如本文所使用的，单数形式“一”、“一个”以及“该”意在包括复数形式，除非上下文明确指示相反意思。还应当理解术语“包括”、“包括了”、“包含”、和/或“包含了”当在本文中使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。

还应当注意到在一些备选实施例中，所出现的功能/动作可能与附图出现的顺序不同。例如，取决于所涉及的功能/动作，实际上可以实质上并发地执行，或者有时可以以相反的顺序来执行连续示出的两个图。

在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实施例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例1：

动作检测(Action Detection)主要用于给分割好的视频片段分类，但在实际中视频多是未分割的长视频，对于长视频的分割并且分类任务叫做时序动作检测(TemporalAction Detection)。给定一段未分割的长视频，算法需要检测视频中的动作片段，包括开始时间、结束时间和动作类别。一段视频可以包含一个或多个相同或不同的动作片段。但现有的视频时序动作检测方式的实现过程较为繁琐，造成时序动作检测效率偏低，基于该背景本实施例提供了一种时序动作检测方法，如图1所示，包括：

S101.获取待测视频的基础时序特征序列。

获取待测视频的基础时序特征序列的过程包括：

具体地，可以采用通用的视频特征提取算法+特征金字塔网络(feature pyramidnetworks，FPN)的方式来生成金字塔时序特征模型，然后每层输出的时序特征组合成相应的基础时序特征序列。FPN是一种利用常规神经网络模型来高效提取图片中各维度特征的方法。在计算机视觉学科中，多维度的目标检测一直以来都是通过将缩小或扩大后的不同维度图片作为输入来生成出反映不同维度信息的特征组合。这种办法确实也能有效地表达出图片之上的各种维度特征，但却对硬件计算能力及内存大小有较高要求，因此只能在有限的领域内部使用。FPN通过利用常规神经网络模型内部从底至上各个层对同一范围图片不同维度的特征表达结构，提出了一种可有效在单一图片视图下生成对其的多维度特征表达的方法。

S102.采用预置的导向锚点模块对基础时序特征序列进行锚点边界预测和时序特征预测，获得锚点边界和时序特征图。

基础时序特征序列还包含非目标区域，因此需要通过导向锚点模块对基础时序特征序列进行锚点边界预测和时序特征预测，获得需要的锚点边界(目标区域，包含锚点位置和锚点形状)和对应的时序特征图。导向锚点模块为预先建立的神经网络处理模块，如图2所示，导向锚点模块分出两个分支，一个分支用来预测动作锚点的时间点(锚点位置)和锚点动作事件的时间宽度(锚点形状)，另一个分支用于产生新的检测动作目标的特征图(时序特征图)。

具体地，所述导向锚点模块包括锚点位置预测子网络，对基础时序特征序列进行锚点边界预测的过程包括预测锚点的时间点：

通过锚点位置预测子网络预测基础时序特征序列中每一个特征点存在目标锚点的概率，所述锚点位置预测子网络采用卷积神经网络对基础时序特征序列进行卷积操作，卷积神经网络通道数为1，激活函数为sigmoid，生成一个概率图；

再将概率大于设定阈值的特征点标定为动作锚点，并获得动作锚点的时间点。

所述导向锚点模块包括锚点形状预测子网络，对基础时序特征序列进行锚点边界预测的过程包括预测锚点形状：

通过锚点形状预测子网络预测动作锚点的动作时间宽度，锚点形状预测子网络同样采用卷积神经网络对基础时序特征序列进行卷积操作，卷积神经网络通道数为1，生成一个回归特征图，用于表征锚点动作事件的时间宽度；

再将动作锚点的动作时间宽度进行归一化处理，获得锚点形状。直接学习实际的动作时间宽度训练会不稳定，需要将时间宽度归一化至0至1或者-1至1之间。

所述导向锚点模块包括锚点特征适应模块，对基础时序特征序列进行时序特征的预测过程包括：通过锚点特征适应模块将所述锚点形状融于基础时序特征序列，获得时序特征图。

具体地，锚点特征适应模块可采用可变形卷积神经网络将锚点形状融于基础时序特征序列。

S103.根据锚点边界和时序特征图确定时序动作检测结果。

整个流程从待测视频中提取出相应的基础时序特征序列，再通过导向锚点模块完成对基础时序特征序列的锚点边界预测和时序特征预测，获得锚点边界和时序特征图，从而来确定时序动作检测结果。可以替代现有的时序动作检测方式，直接从基础时序特征序列中预测获得锚点边界和对应的时序特征图，而不需要生成大量的候选边界，再进行繁琐的分类及调整过程，去除了非目标区域对时序动作检测的影响，节省时序动作检测的计算开销，提高时序动作检测效率。

实施例2：

作为对上述实施例的优化，所述方法还包括：

构建锚点边界预测的损失函数；

具体地，构建的损失函数可以包括锚点位置损失函数、锚点形状损失函数、锚点分类损失函数和锚点回归函数，构建的损失函数损失函数为：

L＝λ₁L_loc+λ₂L_shape+L_cls+L_reg

其中，λ₁和λ₂为设定的比例常数，L_loc为锚点位置损失函数，L_shape为锚点形状损失函数，L_cls为锚点分类损失函数，L_reg为锚点回归函数。

对于锚点位置损失函数，锚点位置预测本质上是二分类问题，所以锚点位置损失函数采用的是基本交叉熵函数。将时序特征的真值分为3种类型区域：

1.目标区域CR，目标区域内的时间点都是正样本，目标区域取动作事件时间宽度的一半，参数0.5。

2.忽略区域IR，这部分区域不参加训练，既不是正样本也不是负样本，参数大于0.5，小于0.9。

3.外部区域OR，为除开CR和IR之外的区域，这部分样本作为负样本。

对于锚点形状损失函数，锚点的形状的目标值分两步确定：确定每个时序节点上对应的真实动作；确定每个时序节点的目标值。锚点形状损失函数为：

其中，

为锚点形状w_a和真值w_g的相应比值，L₁为L₁范数损失函数。

对于锚点分类损失函数，锚点分类真值是时序动作事件的类别，所以采用的函数可以是交叉熵。

对于锚点回归函数，描点回归的真值是中心点位置和动作的时间宽度，采用的损失函数为smooth L1。

实施例3：

本实施例提供一种时序动作检测装置，如图3所示，包括：

获取单元，用于获取待测视频的基础时序特征序列；

在一个可能的设计中，所述装置还包括：

构建单元，用于构建锚点边界预测的损失函数；

实施例4：

本实施例提供一种计算机设备，如图4所示，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行实施例1中的时序动作检测方法。

所述处理器可以但不限于采用型号为STM32F105系列的微处理器；所述存储器可以但不限于包括随机存取存储器(Random Access Memory，RAM)、只读存储器(Read OnlyMemory,ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output,FIFO)和/或先进后出存储器(First In Last Out,FILO)等。

实施例5：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行实施例1中的时序动作检测方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

实施例6：

本实施例提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行实施例1中的时序动作检测方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备执行各个实施例或者实施例的某些部分所述的方法。

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种时序动作检测方法，其特征在于，包括：

获取待测视频的基础时序特征序列；

采用预置的导向锚点模块对基础时序特征序列进行锚点边界预测和时序特征预测，获得锚点边界和时序特征图；导向锚点模块为预先建立的神经网络处理模块，包括锚点位置预测子网络、锚点形状预测子网络和锚点特征适应模块；对基础时序特征序列进行锚点边界预测，包括：通过锚点位置预测子网络预测基础时序特征序列中每一个特征点存在目标锚点的概率，将概率大于设定阈值的特征点标定为动作锚点，并获得动作锚点的时间点，通过锚点形状预测子网络预测动作锚点的动作时间宽度，将动作锚点的动作时间宽度进行归一化处理，获得锚点形状；对基础时序特征序列进行时序特征的预测，包括：通过锚点特征适应模块的可变形卷积神经网络将所述锚点形状融于基础时序特征序列，获得时序特征图；

根据锚点边界和时序特征图确定时序动作检测结果。

2.根据权利要求1所述的一种时序动作检测方法，其特征在于，获取待测视频的基础时序特征序列，包括：

3.根据权利要求1所述的一种时序动作检测方法，其特征在于，所述方法还包括：

构建锚点边界预测的损失函数；

4.一种时序动作检测装置，其特征在于，包括：

获取单元，用于获取待测视频的基础时序特征序列；

预测单元，用于采用预置的导向锚点模块对基础时序特征序列进行锚点边界预测和时序特征预测，获得锚点边界和时序特征图；导向锚点模块为预先建立的神经网络处理模块，包括锚点位置预测子网络、锚点形状预测子网络和锚点特征适应模块；对基础时序特征序列进行锚点边界预测，包括：通过锚点位置预测子网络预测基础时序特征序列中每一个特征点存在目标锚点的概率，将概率大于设定阈值的特征点标定为动作锚点，并获得动作锚点的时间点，通过锚点形状预测子网络预测动作锚点的动作时间宽度，将动作锚点的动作时间宽度进行归一化处理，获得锚点形状；对基础时序特征序列进行时序特征的预测，包括：通过锚点特征适应模块的可变形卷积神经网络将所述锚点形状融于基础时序特征序列，获得时序特征图；

5.根据权利要求4所述的一种时序动作检测装置，其特征在于，所述装置还包括：

构建单元，用于构建锚点边界预测的损失函数；

6.一种计算机设备，其特征在于，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行如权利要求1-3任意一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1-3任意一项所述的方法。