CN116386134A

CN116386134A - 时序动作检测方法、装置、电子设备及存储介质

Info

Publication number: CN116386134A
Application number: CN202310232015.XA
Authority: CN
Inventors: 丁常见; 李娜
Original assignee: Shenzhen University Of Technology Preparatory; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen University Of Technology Preparatory; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-07-04

Abstract

本申请实施例提供了一种时序动作检测方法、装置、电子设备机存储介质，涉及计算机视觉技术领域。其中，该方法包括：获取待检测视频；所述待检测视频包括多个视频帧；提取所述待检测视频中的原始特征和残差特征；将所述当前视频帧的原始特征与残差特征进行融合，得到融合特征；根据所述融合特征对所述待检测视频中动作的类别和时序边界进行检测，得到时序动作检测结果。本申请实施例解决了相关技术中时间建模特征不足，特征的时序特性缺乏迁移性，时序动作判定精度低的问题。

Description

时序动作检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，具体而言，本申请涉及一种时序动作检测方法、装置、电子设备及存储介质。

背景技术

随着具有视频记录能力的设备快速发展，视频存储也在不断增加，如何对视频内容进行分析变得越来越迫切，并且由于视频中往往只有小部分包含感兴趣的事件，大部分都是背景，导致视频中动作判定的精度较低。在连续视频中，时序动作检测(TAD，TemporalAction Detection)是指同时识别动作并及时精确定位的技术，通过准确的定位视频中每个动作的发生片段和类别来识别视频。

现有主流的时序动作检测方法使用TSN(temporal segment networks，时间段网络)对视频进行特征提取从而获得视频的双流特征(RGB流+光流)，然后使用不同的网络模型对其进行建模以生成边界和动作分类。

然而，现有方法在提取原始双流特征时考虑的仅仅是相邻帧之间的动作变化(外形变化和动作时序变化)，但是动作通常会持续较长帧数，长动作甚至会持续上千帧，单纯的使用原始特征流并不能充分的表示动作在整个时间序列上的变化。对时序信息进行建模时，关注的都是网络模块层面，所设计的网络模型不具有迁移性且没有充分利用特征本身的时序性，导致时序动作判定精度不高，时序动作检测准确率低的问题。

由上可知，如何提升时序动作检测的准确率仍有待解决。

发明内容

本申请各实施例提供了一种时序动作检测方法、装置、电子设备及存储介质，可以解决相关技术中存在的时序动作检测准确率低的问题。所述技术方案如下：

根据本申请实施例的一个方面，一种时序动作检测方法，所述方法包括：获取待检测视频；所述待检测视频包括多个视频帧；提取所述待检测视频中当前视频帧的原始特征和残差特征；将所述当前视频帧的原始特征与残差特征进行融合，得到融合特征；根据所述融合特征对所述待检测视频中动作的类别和时序边界进行检测，得到时序动作检测结果。

根据本申请实施例的一个方面，一种时序动作检测装置，所述装置包括：视频获取模块，用于获取待检测视频；特征提取模块，用于提取待检测视频中当前视频帧的原始特征和残差特征；特征融合模块，用于将当前视频帧的原始特征与残差特征进行融合，得到融合特征；动作检测模块，用于根据融合特征对待检测视频中动作的类别和时序边界进行检测，得到时序动作检测结果。

根据本申请实施例的一个方面，一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上所述的时序动作检测方法。

根据本申请实施例的一个方面，一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序存储在存储介质中，计算机设备的处理器从存储介质读取计算机程序，处理器执行计算机程序，使得计算机设备执行时实现如上所述的时序动作检测方法。

本申请提供的技术方案带来的有益效果是：

在上述技术方案中，通过提取待检测视频中当前视频帧的原始特征和残差特征，所述残差特征是通过计算当前视频帧的原始特征和间隔视频帧的原始特征的差值，并取绝对值得到的，并将当前视频帧的原始特征和残差特征进行融合得到融合特征，利用时序动作检测模型对该融合特征进行检测，得到时序动作检测结果。从而能够有效地解决相关技术中特征提取不具有迁移性且没有充分利用特征本身的时序性，导致时序动作判定精度不高，时序动作检测准确率低的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图简单地介绍。

图1是根据一示例性实施例示出的本申请所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种时序动作检测方法的流程图；

图3是根据一示例性实施例示出的步骤330的流程图；

图4是根据一示例性实施例示出的另一种时序动作检测方法的流程图；

图5是根据一示例性实施例示出的一种时序动作检测装置的结构框图；

图6是根据一示例性实施例示出的一种电子设备的硬件结构图；

图7是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

如前所述，相关技术在提取原始特征流的时候仅仅考虑相邻帧之间的动作变化(外形变化和动作时序变化)，但是动作通常会持续较长帧数，长动作甚至会持续上千帧，单纯的使用原始特征流并不能充分的表示动作在整个时间序列上的变化，造成时序信息建模不足，从而导致时序动作检测准确率低的问题。

可见，相关技术中仍存在时序动作检测准确率低的问题。

为此，本申请提供的时序动作检测方法，能够有效地提取特征的时序特性而且具有很好的迁移性，从而提升时序动作的检测准确率，相应地，该时序动作检测方法适用于时序动作检测装置，该时序动作检测装置可部署于智能设备，例如，该智能设备可以是部署冯诺依曼体系结构的计算机设备，例如，该计算机设备可以是台式设备、笔记本电脑、服务器等。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1为一种时序动作检测方法所的涉及的实施环境的示意图。该实施环境包括采集端110、服务器端130。

具体地，采集端110进行待检测视频的采集，该采集端可以是智能手机、平板电脑、笔记本电脑、台式电脑、其他具有视频采集功能的设备等电子设备，在此不进行限定。

采集端110与服务器端130之间可以通过有线或者无线等方式建立的通信连接，以实现二者之间的数据传输。例如，传输的数据可以是待检测视频。

其中，服务器端130，也可以认为是云端、云平台、平台端、服务端等等，此服务器端130可以是一台服务器，也可以是由多台服务器构成的一个服务器集群，或者是由多台服务器构成的云计算中心，以便于更好地向海量采集端110提供后台服务。例如，后台服务包括时序动作检测服务。

随着采集端110与服务器端130的交互，在一个应用场景中，采集端110进行时序动作视频的采集，并将采集到的时序动作视频传输至服务器端130，服务器端130在接收到采集端110传输来的时序动作视频后，便可针对该时序动作视频进行时序动作检测。

当然，在另一个应用场景中，采集端110也可同时实现时序动作视频的采集和检测，在此不进行限定。

请参阅图2，本申请实施例提供了一种时序动作检测方法，该方法适用于电子设备。该电子设备可以是图1所示出实施环境中的采集端110，也可以是图1所示出实施环境中的服务端130。

在下述方法实施例中，为了便于描述，以该方法各步骤的执行主体为电子设备为例就行说明，但是并非对此构成具体限定。

如图2所示，该方法可以包括以下步骤：

步骤310，获取待检测视频。

本申请实施例可以应用于电子设备，该电子设备可以是摄像机、录像机或者其他具有视频采集功能的电子设备。

步骤330，提取待检测视频中当前视频帧的原始特征和残差特征。

在一种可能的实现方式，待检测视频中当前视频帧的原始特征为双流特征，具体地，该双流特征为RGB流特征和光流特征，其中RGB流特征也叫帧流特征，其为待检测视频中单帧画面的静态特征；光流即为待检测视频中物体的运动轨迹，运动越明显的区域亮度越高，通过提取光流特征，可以去掉待检测视频中的背景噪声等与运动无关的特征。可选地，光流特征提取方法包括卢卡斯-卡纳德方法、霍恩·山克方法中的一种或多种。

发明人意识到，由于视频中的动作通常是持续较长帧的，仅仅考虑相邻帧之间的动作变化会存在特征建模不足的缺点，因此提出了残差特征的生成方法，加强网络模型在时序上的特征建模。

在一示例性实施例中，如图3所示，步骤330可以包括以下步骤：

步骤331，基于待检测视频中的多个视频帧，将与当前视频帧的距离为设定窗长的视频帧作为间隔视频帧。

具体的，本申请设定一个固定窗口K，从而截取与当前视频帧距离为K的视频帧作为间隔视频帧。值得一提的是，K的大小是根据多次实验结果的最优质值来设定的，也就是说，可以根据不同的实验场景、不同的实验模型进行灵活设定。

步骤333，采用TSN网络和I3D网络，对当前视频帧和间隔视频帧中的时空信息进行提取，得到当前视频帧的原始特征和间隔视频帧的原始特征。

在一示例性实施例中，根据得到的当前视频帧及其间隔视频帧，采用TSN(temporal-segment-networks)网络进行双流特征提取，得到当前视频帧的原始特征T₁和间隔视频帧的原始特征T_k。

步骤335，计算当前视频帧的原始特征和间隔视频帧的原始特征的差值，并取绝对值，得到当前视频帧的残差特征。

Tc＝|T₁-T_k|

其中，T₁为当前视频帧的原始特征，T_k为间隔视频帧的原始特征，Tc为当前视频帧的残差特征。

步骤350，将当前视频帧的原始特征与残差特征进行融合，得到融合特征。

发明人意识到，简单的特征相加会影响原有特征分布，故而针对不同的模型，采取不同的特征融合方法。

在一种的可能实现方式，以transformer模型为例。

具体地，将transformer模型中多个注意力模块提取得到的多个原始特征分别与残差特征进行特征通道拼接，得到输入特征；

将输入特征经由注意力解码模块进行解码，得到融合特征。

通过上述步骤，实现了待检测视频中当前视频残差特征的提取，并将残差特征与原始特征进行融合，得到融合特征，加强了对待检测视频中特征的时序特征建模，作为时序动作检测模型的新输入，具有更好的迁移性。

步骤370，根据融合特征对待检测视频中动作的类别和时序边界进行检测，得到时序动作检测结果。

在一种可能的实现方式，时序动作检测结果是调用时序动作检测模型得到的，该时序动作模型是经过训练、具有对待检测视频中动作的类别和时序边界进行检测的能力的机器学习模型。

将上述得到的融合特征作为输入，利用时序动作检测模型对输入进行检测，得到待检测视频的时序动作检测结果，该时序动作检测结果表示待检测视频中动作的类别和时序边界。

值得一提的是，本申请实施例是一种即插即用的方法，可以直接替换现有时序动作检测模型中的特征提取模块，比如基于transformer的BCNet、基于卷积的BMN等，再结合诸如THUMOS14、ActivityNet-v1.3等公开的数据库，就能完成时序动作检测过程，如表一、二所示。

表一在THUMOS14数据库上的实验结果

表二在ActivityNet-v1.3数据库上的实验结果

其中，表一、二表示的是本申请在两个公开数据库上的实验结果，并且是结合BCNet网络进行的实验，从表中可知，本申请在不同的数据库上，不同的评价指标上都有不同的效果提升。

表三与BMN网络结合的实验结果

Method	0.3	0.4	0.5	0.6	0.7
						BMN	59.3	54.3	45.1	35.3	25.8
BMN+本申请	61.0	56.1	46.2	36.8	26.3

其中，表三表示的是本申请在BMN网络上的试验结果，可以看出，即使与新的网络结合，试验准确率也有所提升，说明本申请具有很好的网络迁移性。

在一示例性实施例中，如图4所示，步骤370之后，上述方法还可以包括以下步骤：

步骤390，基于待检测视频的时序动作检测结果，在待检测视频中定位目标视频片段。

可选地，时序动作检测作为视频搜索的子任务，可以通过准确的定位视频中每个动作的发生片段和类别来识别视频，从而帮助视频搜索任务从诸如路况视频、监控视频、视频概要提取、视频物品识别等视频中快速的识别目标视频和片段，完成视频搜索任务。

下述为本申请装置实施例，可以用于执行本申请所涉及的时序动作检测方法。对于本申请装置实施例中未披露的细节，请参照本申请所涉及的时序动作检测方法的方法实施例。

请参阅图5，本申请实施例中提供了一种时序动作检测装置500，包括但不限于：视频获取模块510、特征提取模块520、特征融合模块530、动作检测模块540。

其中，视频获取模块510，用于获取待检测视频。

特征提取模块520，用于提取待检测视频中当前视频帧的原始特征和残差特征。

特征融合模块530，用于将当前视频帧的原始特征与残差特征进行融合，得到融合特征。

动作检测模块540，用于根据融合特征对待检测视频中动作的类别和时序边界进行检测，得到时序动作检测结果。

在一示例性实施例中，时序动作检测装置500还包括：视频定位模块，用于基于待检测视频的时序动作检测结果，在待检测视频中定位目标视频片段。

需要说明的是，上述实施例所提供的时序动作检测装置在进行时序动作检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即时序动作检测装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的时序动作检测装置与时序动作检测方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不做赘述。

图6根据一示例性实施例示出的一种电子设备的结构示意图。

需要说明的是，该电子设备只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该电子设备也不能解释为需要依赖或者必须具有图6示出的示例性的电子设备2000中的一个或多个组件。

电子设备2000的硬件结果可因配置或者性能的不同而产生较大的差异，如图6所示，电子设备2000包括：电源210、接口230、至少一存储器250，以及至少一中央处理器(CPU，Central Processing Units)270。

具体地，电源210用于为电子设备2000上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231，用于与外部设备交互。

当然，在其余本申请适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图6所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备2000上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSD TM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图6未示出)，每个模块都可以分别包含有对电子设备2000的计算机程序。例如，时序动作检测装置可视为部署于电子设备2000的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是待检测视频，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机程序，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机程序的形式来完成时序动作检测方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本申请，因此，实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图7，本申请实施例中提供了一种电子设备4000，该电子设备4000可以包括：智能门锁、无人机、台式电脑、笔记本电脑、平板电脑、服务器等等。

在图7中，该电子设备4000包括至少一个处理器4001,、至少一条通信总线4002以及至少一个存储器4003。

其中，处理器4001和存储器4003相连，如通过通信总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Units，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(APPlication SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

通信总线4002可包括一通路，在上述组件之间传达信息。通信总线4002可以是PCI(Peripheral Component Interconnect，外设部件互联标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备，或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003上存储有计算机程序，处理器4001通过通信总线4002读取存储器4003中存储的计算机程序。

该计算机程序被处理器4001执行时实现上述各实施例中的时序动作检测方法。

此外，本申请实施例提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的时序动作检测方法。

本申请实施例中提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在存储介质中。计算机设备的处理器从存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述各实施例中的时序动作检测方法。

与相关技术相比，一方面，本申请实施例作为一种即插即用的方法，能够方便快捷地更换相关技术中的特征提取操作，与现有时序动作检测常用模型相结合完成时序动作检测过程；另一方面，本申请在没有增大计算量的前提下，结合不同的网络模型，对时序动作检测准确率均有所提升，兼具简单和迁移性，具有更高的可实用性。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种时序动作检测方法，其特征在于，所述方法包括：

获取待检测视频；所述待检测视频包括多个视频帧；

提取所述待检测视频中视频帧的原始特征和残差特征；

将所述当前视频帧的原始特征与残差特征进行融合，得到融合特征；

根据所述融合特征对所述待检测视频中动作的类别和时序边界进行检测，得到时序动作检测结果。

2.如权利要求1所述的方法，其特征在于，所述提取所述待检测视频中当前视频帧的原始特征和残差特征，包括：

基于所述待检测视频中的多个视频帧，将与当前视频帧的距离为设定窗长的视频帧作为间隔视频帧；

采用TSN网络和I3D网络，对当前视频帧和间隔视频帧中的时空信息进行提取，得到当前视频帧的原始特征和间隔视频帧的原始特征；

计算当前视频帧的原始特征和间隔视频帧的原始特征的差值，并取绝对值，得到当前视频帧的残差特征。

3.如权利要求1所述的方法，其特征在于，所述原始特征包括双流特征，所述双流特征包括RGB流特征和光流特征。

4.如权利要求1所述的方法，其特征在于，所述将所述当前视频帧的原始特征与残差特征进行融合，得到融合特征，包括：

将所述当前视频帧的原始特征与残差特征进行拼接，得到所述融合特征。

5.如权利要求4所述的方法，其特征在于，所述将所述当前视频帧的原始特征与残差特征进行拼接，得到所述融合特征，包括：

将多个注意力编码模块提取得到的多个原始特征分别与残差特征进行特征通道拼接，得到输入特征；

将所述输入特征经由注意力解码模块进行解码，得到融合特征。

6.如权利要求1所述的方法，其特征在于，所述时序动作检测结果是调用时序动作检测模型得到的，所述时序动作检测模型是经过训练、具有对所述待检测视频中动作的类别和时序边界进行检测的能力的机器学习模型；

其中，所述提取所述待检测视频中当前视频帧的残差特征是通过插入所述时序动作检测模型中的特征残差模块实现的。

7.如权利要求1至6所述的方法，其特征在于，所述根据所述融合特征对所述待检测视频中动作的类别和时序边界进行检测，得到时序动作检测结果之后，所述方法还包括：

基于所述待检测视频的时序动作检测结果，在所述待检测视频中定位目标视频片段。

8.一种时序动作检测装置，其特征在于，所述装置包括：

视频获取模块，用于获取待检测视频；

特征提取模块，用于提取待检测视频中当前视频帧的原始特征和残差特征；

特征融合模块，用于将当前视频帧的原始特征与残差特征进行融合，得到融合特征；

动作检测模块，用于根据融合特征对待检测视频中动作的类别和时序边界进行检测，得到时序动作检测结果。

9.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器、以及至少一条通信总线，其中，

所述存储器上存储有计算机程序，所述处理器通过所述通信总线读取所述存储器中的所述计算机程序；

所述计算机程序被所述处理器执行时实现权利要求1至7中任一项所述的时序动作检测方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的时序动作检测方法。