CN112668504A

CN112668504A - 动作识别方法、装置及电子设备

Info

Publication number: CN112668504A
Application number: CN202011629175.0A
Authority: CN
Inventors: 李斌泉
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-16

Abstract

本发明实施例提供了一种动作识别方法、装置及电子设备，涉及动作识别技术领域。该方法包括：获取待识别视频中K个图片帧的第一特征；根据所述第一特征对所述待识别视频进行动作识别，得到第一动作识别结果；根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置；获取每一所述目标位置前后的N个图片帧的第二特征；将所述第一特征和所述第二特征进行结合，得到第二动作识别结果；其中，M、N、K均为正整数，K大于M。上述方案，不仅可以节省人力，还可以使得动作识别结果更加精确。

Description

动作识别方法、装置及电子设备

技术领域

本发明涉及动作识别技术领域，尤其涉及一种动作识别方法、装置及电子设备。

背景技术

目前，短视频产品风靡互联网，短视频内容大量增长，视频审核日趋重要，而视频内容中的动作识别也成为了内容审核中的重要组成部分。短视频动作识别主要有2个步骤：对视频进行解码；对解码后的图片帧根据时序进行动作识别。

视频解码可以产生大量的图片帧，解码后的图片帧在空间上一般存在严重的冗余，因此在现有的动作识别场景中有以下3种方法降低冗余度：1)基于稀疏采样的图片帧，使用长短期记忆网络(Long Short-Term Memory，LSTM)对按时序顺序输入的图片进行动作可能发生的起止时间的预测；2)从解码后的首帧图片开始，使用LSTM逐渐预测输入网络的下一帧图片的位置，从而达到稀疏采样的目的；3)对视频进行切段，每一段等间隔稀疏或密集采样。

根据上述方法获取到稀疏采样的图片帧后，输入动作识别模型。业务场景中的动作识别模型需兼顾效率和多样性，现有主流技术采用深度学习卷积模型，主要有以下2种：1)基于光流和LSTM方法进行识别；2)在图片上基于时间和空间的三维(3Dimensions，3D)卷积、空间2D卷积+时序1D卷积组合进行识别。实际业务场景广泛采用效率更高的第2种方法。

上述短视频动作识别的技术，在审核业务应用中会存在的问题如下：

第一：LSTM预测动作发生的起止时间时，已经假设整个短视频动作发生在时间上是连续不间断的，但在真实场景中，短视频会因手机镜头晃动等原因，中间有一段时间动作可能不在视频画面内，从而导致动作仅发生在前后2段时间内，因此，LSTM在仅预测一个起止时间段会导致预测的时段数量不全。

第二：现有的基于LSTM进行动作发生起止时间推荐的技术方案，都需要标记视频中动作发生的起止时间，需要大量标注人力。

第三：现有基于空间的2D卷积+时空的3D卷积动作识别，为降低计算力消耗，通常是稀疏采样数据组成序列图片帧后输入3D动作识别，由于动作发生通常在视频的局部，此方法会导致动作识别不准确；如果采用分段密集采样，需要较大的计算力。

发明内容

本发明提供一种动作识别方法、装置及电子设备，以便在一定程度上解决现有动作识别过程中全局稀疏采样和局部密集采样不能兼顾以及所需人力较大等问题。

在本发明实施的第一方面，提供了一种动作识别方法，所述方法包括：

获取待识别视频中K个图片帧的第一特征；

根据所述第一特征对所述待识别视频进行动作识别，得到第一动作识别结果；

根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置；

获取每一所述目标位置前后的N个图片帧的第二特征；

将所述第一特征和所述第二特征进行结合，得到第二动作识别结果；

其中，M、N、K均为正整数，K大于M。

在本发明实施的第二方面，提供了一种动作识别装置，所述装置包括：

第一获取模块，用于获取待识别视频中K个图片帧的第一特征；

第一识别模块，用于根据所述第一特征对所述待识别视频进行动作识别，得到第一动作识别结果；

第二获取模块，用于根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置；

第三获取模块，用于获取每一所述目标位置前后的N个图片帧的第二特征；

第二识别模块，用于将所述第一特征和所述第二特征进行结合，得到第二动作识别结果；

其中，M、N、K均为正整数，K大于M。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如上所述的动作识别方法中的步骤。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的动作识别方法。

在本发明实施例的第五方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的动作识别方法。

针对在先技术，本发明具备如下优点：

本发明实施例中，通过获取待识别视频中K个图片帧的第一特征，根据所述第一特征对所述待识别视频进行动作识别，得到第一动作识别结果，根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置，不需要人力标注视频中动作发生的起止时间；并且，获取每一所述目标位置前后的N个图片帧的第二特征，并将所述第一特征和所述第二特征进行结合，得到第二动作识别结果，两次动作识别以及稀疏的第一特征和密集的第二特征的特征结合，可以使得动作识别结果更加精确。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的动作识别方法的流程图之一；

图2为本发明实施例提供的动作识别方法的流程图之二；

图3为本发明实施例提供的ECO模型的结构示意图；

图4为本发明实施例提供的3D卷积网络的结构示意图；

图5为本发明实施例提供的残差块的结构示意图之一；

图6为本发明实施例提供的残差块的结构示意图之二；

图7为本发明实施例提供的动作识别方法的流程图之三；

图8为本发明实施例提供的动作识别装置的结构框图；

图9为本发明实施例提供的电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

在进行本发明实施例的说明时，首先对下面描述中所用到的一些概念进行解释说明。

卷积神经网络：一种常用于提取图像特征或视频特征，并把这些特征用来各种视觉任务的端到端隐射模型，模型的输入常为图像或视频。

卷积层：一个用于完成局部像素值的加权求和以及非线性激活的网络层。

2D卷积：以高度(Height，H)、宽度(Width，W)上的2个维度进行卷积的卷积操作。

3D卷积：以时间(Time，T)、H、W上的3个维度进行卷积的卷积操作。

池化：一种针对某个范围内的结构化数据进行归总的操作。

残差块：一种使用跨步连接来构建的卷积神经网络模块，通常由两到三个卷积层组成。

Grad-CAM：利用反向梯度，计算得出特征图与其对应梯度相乘得出的热力图。

反向梯度：通过计算预测结果与真实结果之间的交叉熵，反向求出梯度的过程。

交叉熵：一种用于分类问题的损失评估函数。

具体的，如图1和图2所示，本发明实施例提供了一种动作识别方法，所述方法具体包括：

步骤101，获取待识别视频中K个图片帧的第一特征。

具体的，在上述步骤101中，获取待识别视频中包含的部分图片帧，即稀疏采样K个图片帧，识别并提取该K个图片帧中的每一图片帧的第一特征。

需要说明的是，可以将K个图片帧输入至第一深度卷积神经网络(EfficientConvolutional Network，ECO)模型，经过第一ECO模型对K个图片帧中的每一图片帧进行特征提取，得到第一特征，采用轻量级的视频动作识别的第一ECO模型进行特征提取，可以提高运行效率；并且，可以根据业务需要，通过其他参数较少或者表达能力更强的动作识别网络模型进行特征提取。

步骤102，根据所述第一特征对所述待识别视频进行动作识别，得到第一动作识别结果。

具体的，在上述步骤102中，根据K个图片帧中的每一图片帧的第一特征对所述待识别视频进行动作识别，可以得到第一动作识别结果；如：第一动作识别结果可以包含识别的动作类别以及该动作类别的概率P₁等，可以识别出一个或多个动作类别，在此不做具体限定。

需要说明的是，动作识别得到第一动作识别结果的过程也可以通过第一ECO模型得到，即将K个图片帧输入至第一ECO模型，通过第一ECO模型进行特征提取并进行动作识别，可以得到第一特征以及第一动作识别结果，采用第一ECO模型进行特征提取和动作识别，可以提高运行效率。

步骤103，根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置；其中，K大于M。

具体的，在上述步骤103中，根据第一动作识别结果，可以获取K个图片帧中M个目标图片帧在原始视频(即待识别视频)中的目标位置，即计算K个图片帧中有哪些目标图片帧对第二动作识别结果中正确动作分类的结果产生最多的影响，并获取这些目标图片帧在待识别视频中的视频位置(即目标位置)，此过程节省了人力标注视频中动作发生的起止时间的资源。其中，由于M个目标图片帧是属于K个图片帧的，因此K的取值大于M的取值。

步骤104，获取每一所述目标位置前后的N个图片帧的第二特征。

具体的，在上述步骤104中，通过获取的每一目标位置，可以对每一个目标位置前后进行密集采样，每一个目标位置均可以密集采样N个图片帧；然后可以将M个目标位置密集采样的图片帧按照时序拼接成一个密集采样数据，并获取该密集采样数据的第二特征，即获取每一个目标位置前后的N个图片帧的第二特征。

需要说明的是，可以每一所述目标位置前后的N个图片帧(即M*N个图片帧)输入至第二ECO模型，经过第二ECO模型对M*N个图片帧中的每一图片帧进行特征提取，得到第二特征，采用轻量级的视频动作识别的第二ECO模型进行特征提取，可以提高运行效率；并且，可以根据业务需要，通过其他参数较少或者表达能力更强的动作识别网络模型进行特征提取。

步骤105，将所述第一特征和所述第二特征进行结合，得到第二动作识别结果；其中，M、N、K均为正整数。

具体的，在上述步骤105中，将稀疏采样的K个图片帧的第一特征以及密集采样的M*N个图片帧的第二特征进行特征结合，可以得到第二动作识别结果；如：第二动作识别结果可以包含识别的动作类别以及该动作类别的概率P₂等，可以识别出一个或多个动作类别，在此不做具体限定。

需要说明的是，动作识别得到第二动作识别结果的过程也可以通过第二ECO模型得到，即将M*N个图片帧输入至第二ECO模型，通过第二ECO模型进行特征提取得到第二特征，将第一ECO模型得到的第一特征与该第二特征进行特征结合，可以得到第二动作识别结果，采用第二ECO模型进行特征提取和特征结合，可以提高运行效率，提高动作识别精度。

本发明上述实施例中，通过获取待识别视频中K个图片帧的第一特征，根据所述第一特征对所述待识别视频进行动作识别，得到第一动作识别结果，根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置，不需要人力标注视频中动作发生的起止时间；并且，获取每一所述目标位置前后的N个图片帧的第二特征，并将所述第一特征和所述第二特征进行结合，得到第二动作识别结果，两次动作识别以及稀疏采样的第一特征和密集采样的第二特征的特征结合，可以使得到的第二动作识别结果更加精确。

可选的，该动作识别方法可以应用于动作识别模型中，如图2所示，具体的，所述步骤101获取待识别视频中K个图片帧的第一特征，具体可以包括：

步骤A1，获取待识别视频。

具体的，待识别视频是需要进行动作识别的视频，需要识别出该待识别视频中的动作类别以及动作类别的概率，由此可以得知该待识别视频所属动作类别。

步骤A2，将所述待识别视频进行视频解码，得到关于所述待识别视频的S个图片帧。

具体的，在获取到待识别视频之后，需要对该待识别视频进行视频解码，将该待识别视频分解为S个图片帧，即得到一个包含S个图片帧的视频序列帧，即待识别视频是由S个图片帧组合而成。

步骤A3，从所述S个图片帧中提取K个图片帧进行组合，得到第一图片帧序列。

具体的，可以对S个图片帧进行等间隔稀疏采样，从而得到K个图片帧，该K个图片帧组合成第一图片帧序列。也可以根据业务需要，采用其他采样方式进行采样，并不仅限定为等间隔采样，以保证动作识别结果的精确度。

例如，稀疏采样的过程如下：

从解码的第一图片帧序列中，获取到指定的K个图片帧，可以结合待识别视频平均长度7S，可以将K取15；相邻的两帧图片之间在待识别视频中的位置会有一定的间隔，如：帧率为30fps的待识别视频，相邻的A、B两帧在视频上间隔1S时，那么A、B两帧之间还有29帧图片帧；稀疏采样在第一ECO模型上的训练和预测均可以采用从第一图片帧序列中等间隔取K帧的方式进行采样；并且，为了给第二ECO模型产生训练数据，因此训练的时候也需要保持视频帧间隔固定，同时，还需要获取到帧间间隔数SG。

步骤A4，将所述第一图片帧序列经过图像处理，得到K个图片帧的第一特征；其中，S为正整数，且S大于K。

具体的，将所述第一图片帧序列经过第一ECO模型中的图像处理可以提取K个图片帧的第一特征。其中，由于K个图片帧是属于S个图片帧的一部分，因此S的取值大于K的取值。

可选的，如图3所示，所述步骤A4将所述第一图片帧序列经过图像处理，得到K个图片帧的第一特征，包括：

将所述第一图片帧序列进行图像处理中的第一图像卷积处理，得到处理过程中的中间特征图以及处理后的第一特征图；

将所述中间特征图进行图像处理中的第二图像卷积处理，得到处理后的第二特征图；

将所述第一特征图和所述第二特征图进行拼接处理，得到K个图片帧的第一特征。

具体的，将第一图片帧序列31进行第一图像卷积处理，在第一图像卷积处理过程中得到中间特征图34，在第一图像卷积处理完成后，得到第一特征图33；并且，将中间特征图34进行第二图像卷积处理，在第二图像卷积处理完成后可以得到第二特征图36；然后将第一特征图33和第二特征图36进行拼接处理，再经过全连接层37可以得到K个图片帧的第一特征38，即第一图片帧序列的第一特征。

具体的，在将第一图片帧序列31进行第一图像卷积处理得到中间特征图34的过程中，可以先将第一图片帧序列31依次进行向量卷积运算、最大池化后，再经过第一图像卷积处理得到中间结果，即中间特征图34。其中，第一图像卷积处理是通过2D卷积结构32分别对每一个图片帧进行空间信息的建模；2D卷积使用Res50残差网络结构；并且，在实际应用中，可将卷积层运算的通道数减半，以提高运行效率。

具体的，在将第一图片帧序列31依次进行向量卷积运算、最大池化后，再经过第一图像卷积处理之后，并经过全局平均池化得到1024维的全局空间特征，即第一特征图33。同理，中间特征图34经过向量卷积、第二图像卷积处理之后，并经过全局平均池化得到512维的全局时序特征，即第二特征图36。第一特征图33和第二特征图36进行拼接得到1536维的全局特征，并基于这一全局特征经过全连接层37进行全局动作识别，得到第一特征38。其中，第二图像卷积处理是通过3D卷积结构35对相邻的图片帧进行时序信息建模。由于3D卷积参数量大，计算较为耗时，网络结构需要在满足网络拟合能力的情况下，网络结构较小：相对于现有技术的残差块，该网络结构可删除1*1的卷积层，仅保留3*3卷积；并且，控制残差块总数为5，如图4所示，分别包括第一残差块41，第一投影残差块42，第二残差块43，第二投影残差块44以及第三残差块45，向量卷积运算Conv卷积层控制在10层。其中，第一残差块41、第二残差块43以及第三残差块45的结构示意图均如图5所示，分别包括两层Conv卷积层；第一投影残差块42以及第二投影残差块44的结构示意图均如图6所示，分别包括两层Conv卷积层或者一层Conv卷积层。

需要说明的是，3D卷积可以根据业务需要替换为更加轻量化的其他卷积方式，例如逐通道channel-wise的3D卷积。

可选的，所述步骤103根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置，具体可以包括：

步骤B1，根据所述第一动作识别结果，获取K个图片帧中每一图片帧对应的热力值。

具体的，根据第一动作识别结果，可以得到稀疏采样的K个图片帧中每一图片帧对应的热力值，以便于可以通过热力值作为时间段推荐的依据，以节省动作起止时间的标注人力。

步骤B2，根据所述热力值中的M个目标热力值，确定K个图片帧中的M个目标图片帧。

具体的，获取热力值中的M个目标热力值，并根据M个目标热力值可以确定K个图片帧中的M个目标图片帧，即每一个目标热力值对应的图片帧即为目标图片帧，将目标热力值作为时间段推荐的依据，相比于LSTM，不仅能通过设置目标热力值中的推荐数量M自由控制推荐的时间段数量；而且在整个ECO模型训练过程仅使用类别标签这样的弱监督标注，相比LSTM中的强监督，更能节省标注人力。

进一步的，LSTM推一个连续的区间段，需要的标注数据是类别标签、动作发生的起止时间；同时标注类别标签和动作发生的起止时间，在标注人效上是仅标注类别标签的8倍左右，因此使用目标热力值作为时间段推荐，可以节省7倍左右的标注人力。

步骤B3，获取每一所述目标图片帧在所述待识别视频中的目标位置。

具体的，可以根据稀疏采样中保存的帧间间隔数SG，获取M个目标图片帧在待识别视频中对应的目标位置(L1～LM)。

可选的，如图7所示，所述步骤B1根据所述第一动作识别结果，获取K个图片帧中每一图片帧对应的热力值，具体可以包括：

步骤C1，根据所述第一动作识别结果和所述中间特征图，获取K个图片帧中每一图片帧对应的热力图。

具体的，第一图片帧序列71通过2D卷积第一分支72得到中间特征图73，即第一图片帧序列71通过2D卷积的一部分得到中间特征图73，中间特征图73经过2D卷积第二分支74得到第一特征图，中间特征图73经过3D卷积结构75得到第二特征图，第一特征图和第二特征图经过全局池化、拼接等处理，得到第一动作识别结果76；其中，通过第一动作识别结果76和中间特征图73可以得到K个图片帧中每一图片帧对应的热力图77。

例如：可以根据得出的第一动作识别结果和中间特征图，使用Grad-CAM算法反向梯度计算，得到输入2D卷积网络的每张帧图片的热力图(HM1～HMK)；其中，可根据业务需要，使用Grad-CAM外的其他梯度计算方法，计算得出热力图。

进一步的，可以采用Grad-CAM算法，经过3D卷积和2D卷积的反向梯度计算，得到每个帧图片对应的每个特征的热力图，再对一张帧图片下的所有特征图进行全局池化，使得1张帧图片生成对应的一张热力图(记作：HM)，所以K个帧图片能得到K张热力图(HM₁～HM_K)。

步骤C2，对每一所述热力图进行池化处理，得到K个图片帧中每一图片帧对应的热力值。

具体的，对K个热力图77再进行池化，使得每个帧图片对应一个池化后的热力值(H₁～HK)，计算得到的K个热力值78可以应用于第二ECO模型训练密集采样的位置。

可选的，所述步骤C1根据所述第一动作识别结果和所述中间特征图，获取K个图片帧中每一图片帧对应的热力图，具体可以包括：

根据所述第一动作识别结果以及预设结果，得到所述第一动作识别结果和所述预设结果之间的损失值；

根据所述损失值进行梯度计算，得到梯度值；

将所述梯度值以及所述中间特征图进行结合，得到K个图片帧中每一图片帧对应的热力图。

具体的，第一动作识别结果为预测值P₁，根据P₁和预设结果(即真实动作标签)可以得到损失值loss，通过损失值反向求出梯度值，根据梯度值以及中间特征图进行结合，计算中间特征图与其对应梯度值相乘得出的热力图。

可选的，所述步骤B2根据所述热力值中的M个目标热力值，确定K个图片帧中的M个目标图片帧，具体可以包括：

获取K个图片帧对应的热力值中，热力值较大的M个热力值；

根据热力值较大的M个热力值，确定M个目标热力值；

根据所述M个目标热力值，确定M个目标图片帧。

具体的，可以取K个图片帧对应的K个热力值中，热力值最高的M个热力值作为目标热力值，记作Top-M(M<K)，每一个目标热力值对应的图片帧为目标图片帧。通过M个目标热力值可以获取到对应的M个目标图片帧在待识别视频中所在的目标位置。

可选的，如图2所示，所述步骤104获取每一所述目标位置前后的N个图片帧的第二特征，具体可以包括：

步骤D1，获取每一所述目标位置前后的N个图片帧。

步骤D2，将每一所述目标位置前后的N个图片帧进行组合，得到第二图片帧序列。

步骤D3，将所述第二图片帧序列经过图像处理，得到每一所述目标位置前后的N个图片帧的第二特征。

具体的，对每一个目标位置前后进行采样，每一个目标位置对应采集N个图片帧，将采集的M个目标位置的前后的图片帧进行组合，得到第二图片帧序列，即第二图片帧序列包含N*M个图片帧，即密集采样N*M个图片帧。将第二图片帧序列输入至第二ECO模型中，进行图像处理，即类似于第一ECO模型中的处理过程，在此不做具体赘述，即可得到每一个图片帧的第二特征。

需要说明的是，第一特征和第二特征的特征结合的步骤可以是不经过第二ECO模型进行的特征结合，从而得到第二动作识别结果，即如图2所示。或者，第一特征和第二特征的特征结合的步骤可以是在第二ECO模型中进行的，即将第一ECO模型得到的第一特征输入至第二ECO模型中，将第一特征与第二特征进行结合，从而经过第二ECO模型输出第二动作识别结果。

例如，密集采样的过程如下：

获取到稀疏采样的K个图片帧经过第一ECO模型预测得到第一动作识别结果；然后采用Grad-CAM算法计算得到K个图片帧对应的K个热力值；然后获取到热力值最高的M个目标热力值对应的目标位置，其中，K可以取15，M可以取3)，记作Top-M。根据稀疏采样中保存的帧间间隔数SG，可以得到M个对应的目标位置，以每个目标位置为中心位置向前后取N帧(如：K/M帧)，采样间隔可以设为SG/M的值。其中，以每个目标位置为中心位置向前后取的N帧图片可以包含目标位置的帧图片。

其中，M个目标位置，每个目标位置采样K/M个图片帧，这M个目标位置的图片帧按时序拼接组合在一起仍然还是包含K个图片帧的序列帧组合，输入第二ECO模型的数据格式与输入第一ECO模型的数据格式相一致。

下面对第一ECO模型和第二ECO模型的训练过程进行说明：

首先使用类别标签对ECO L1进行端到端的弱监督训练，输入是稀疏等间隔采样(或者其他采样方式)的K个图片帧组成的第一图片帧序列，输出是第一动作识别结果，即预测值P₁，根据P₁与真实动作分类标签T-label之间的损失值loss，对第一ECO模型进行分类学习；使用视频类别标注训练的弱监督方法，相比现有视频类别+动作发生起止时间的强监督方法，可以节省大量的标注人力，有效提升了模型训练迭代的效率。

其次，完成第一ECO模型训练之后，使用训练好的第一ECO模型生成每个待识别视频上稀疏采样的K个图片帧对应的热力值和K个图片帧对应的第一特征，根据热力值top-M，选定密集采样的目标位置，对训练数据进行密集采样。使用密集采样数据和第一ECO模型结合第二ECO模型进行端到端的训练，输出整个待识别视频的综合判断结果，即第二动作识别结果；这里可以设定第一ECO模型的参数不进行学习，不涉及热力值的计算，仅对第二ECO模型的参数进行学习，目的是使用第一ECO模型辅助第二ECO模型进行训练，在训练过程中使用第一ECO模型辅助第二ECO模型进行训练，相比起单独训练第二ECO模型，更能提升第二ECO模型的训练效果。

下面对第一ECO模型和第二ECO模型的预测过程进行说明：

使用稀疏采样的测试序列帧(如：K帧)，经过第一ECO模型，保存第一ECO模型的全连接层输出的第一特征，记作：稀疏特征，并计算得到热力值，根据Top-M的目标热力值得到推荐目标位置进行密集采样，得到密集采样序列帧(第二图片帧序列)，输入第二ECO模型得到全连接层输出的第二特征，记作：密集特征。使用稀疏特征和密集特征拼接作为输入，经过第二ECO模型最后的全连接层，输出最终的第二动作识别结果，使用稀疏采样、密集采样相结合，保证输入数据的稀疏密集性，结合第一ECO模型和第二ECO模型，有效提升动作识别精度。

可选的，如图2所示，所述步骤105将所述第一特征和所述第二特征进行结合，得到第二动作识别结果之后，所述方法还可以包括：

判断所述第二动作识别结果中是否包含满足预设条件的目标动作；

若所述第二动作识别结果中包含目标动作，则将所述目标动作发送至动作审批处。

具体的，在得到第二动作识别结果之后，判断第二动作识别结果中动作分类对应的概率是否有满足预设条件的，若包含满足预设条件的目标动作，则将该目标动作推动至动作审批处进行审批，判断是否为违规动作等操作。其中，预设条件为判断第二动作识别结果中是否包含违规动作类别的条件，具体的，满足预设条件可以为判定概率大于预设值，若概率小于或等于预设值，则判定不满足预设条件。

综上所述，本发明上述实施例，通过M个目标热力值控制稀疏样本关注到的密集样本段的数量，可以自由选择推荐时间段的数量，拼接后就可以得到一个包含M个时间段的密集采样数据，解决了手机拍摄短视频因镜头晃动导致动作发生在时间不连续情况下，LSTM仅预测一个连续的时间段的问题；并且，仅使用类别标签就可以实现动作发生的起止时间段的推荐，不需要现有技术方案中(如：LSTM)额外对动作发生的起止时间进行标记，可以节省标注人力；并且，通过全局稀疏采样和局部密集采样，从数据源头保证了整个待识别视频的全局信息以及动作发生的局部信息，从而提高动作识别精度。

如图8所示，本发明实施例提供的一种动作识别装置800，所述装置包括：

第一获取模块801，用于获取待识别视频中K个图片帧的第一特征；

第一识别模块802，用于根据所述第一特征对所述待识别视频进行动作识别，得到第一动作识别结果；

第二获取模块803，用于根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置；

第三获取模块804，用于获取每一所述目标位置前后的N个图片帧的第二特征；

第二识别模块805，用于将所述第一特征和所述第二特征进行结合，得到第二动作识别结果；

其中，M、N、K均为正整数，K大于M。

本发明上述实施例中，通过获取待识别视频中K个图片帧的第一特征，根据所述第一特征对所述待识别视频进行动作识别，得到第一动作识别结果，根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置，不需要人力标注视频中动作发生的起止时间；并且，获取每一所述目标位置前后的N个图片帧的第二特征，并将所述第一特征和所述第二特征进行结合，得到第二动作识别结果，两次动作识别以及稀疏的第一特征和密集的第二特征的特征结合，可以使得动作识别结果更加精确。

可选的，所述第一获取模块801，包括：

第一获取单元，用于获取待识别视频；

解码单元，用于将所述待识别视频进行视频解码，得到关于所述待识别视频的S个图片帧；

第一组合单元，用于从所述S个图片帧中提取K个图片帧进行组合，得到第一图片帧序列；

第一处理单元，用于将所述第一图片帧序列经过图像处理，得到K个图片帧的第一特征；

其中，S为正整数，且S大于K。

可选的，所述第一处理单元，包括：

第一处理子单元，用于将所述第一图片帧序列进行图像处理中的第一图像卷积处理，得到处理过程中的中间特征图以及处理后的第一特征图；

第二处理子单元，用于将所述中间特征图进行图像处理中的第二图像卷积处理，得到处理后的第二特征图；

第三处理子单元，用于将所述第一特征图和所述第二特征图进行拼接处理，得到K个图片帧的第一特征。

可选的，所述第二获取模块803，包括：

第二获取单元，用于根据所述第一动作识别结果，获取K个图片帧中每一图片帧对应的热力值；

第一确定单元，用于根据所述热力值中的M个目标热力值，确定K个图片帧中的M个目标图片帧；

第三获取单元，用于获取每一所述目标图片帧在所述待识别视频中的目标位置。

可选的，所述第二获取单元，包括：

第一获取子单元，用于根据所述第一动作识别结果和所述中间特征图，获取K个图片帧中每一图片帧对应的热力图；

第四处理子单元，用于对每一所述热力图进行池化处理，得到K个图片帧中每一图片帧对应的热力值。

可选的，所述第一获取子单元，包括：

根据所述损失值进行梯度计算，得到梯度值；

可选的，所述第一确定单元，包括：

第二获取子单元，用于获取K个图片帧对应的热力值中，热力值较大的M个热力值；

第一确定子单元，用于根据热力值较大的M个热力值，确定M个目标热力值；

第二确定子单元，用于根据所述M个目标热力值，确定M个目标图片帧。

可选的，所述第三获取模块804，包括：

第四获取单元，用于获取每一所述目标位置前后的N个图片帧；

第二组合单元，用于将每一所述目标位置前后的N个图片帧进行组合，得到第二图片帧序列；

第二处理单元，用于将所述第二图片帧序列经过图像处理，得到每一所述目标位置前后的N个图片帧的第二特征。

可选的，所述装置还包括：

判断模块，用于判断所述第二动作识别结果中是否包含满足预设条件的目标动作；

发送模块，用于若所述第二动作识别结果中包含目标动作，则将所述目标动作发送至动作审批处。

需要说明的是，该动作识别装置实施例是与上述动作识别方法相对应的装置，上述方法实施例的所有实现方式均适用于该装置实施例中，也能达到与其相同的技术效果，在此不再赘述。

本发明实施例还提供了一种电子设备。如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信。

存储器903，用于存放计算机程序。

处理器901用于执行存储器903上所存放的程序时，实现本发明实施例提供的一种动作识别方法中的部分或者全部步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中所述的动作识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中所述的动作识别方法。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，包含在本发明的保护范围内。

Claims

1.一种动作识别方法，其特征在于，所述方法包括：

获取待识别视频中K个图片帧的第一特征；

获取每一所述目标位置前后的N个图片帧的第二特征；

其中，M、N、K均为正整数，K大于M。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别视频中K个图片帧的第一特征，包括：

获取待识别视频；

将所述待识别视频进行视频解码，得到关于所述待识别视频的S个图片帧；

从所述S个图片帧中提取K个图片帧进行组合，得到第一图片帧序列；

将所述第一图片帧序列经过图像处理，得到K个图片帧的第一特征；

其中，S为正整数，且S大于K。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一图片帧序列经过图像处理，得到K个图片帧的第一特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一动作识别结果，获取K个图片帧中M个目标图片帧在所述待识别视频中的目标位置，包括：

根据所述第一动作识别结果，获取K个图片帧中每一图片帧对应的热力值；

根据所述热力值中的M个目标热力值，确定K个图片帧中的M个目标图片帧；

获取每一所述目标图片帧在所述待识别视频中的目标位置。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一动作识别结果，获取K个图片帧中每一图片帧对应的热力值，包括：

根据所述第一动作识别结果和所述中间特征图，获取K个图片帧中每一图片帧对应的热力图；

对每一所述热力图进行池化处理，得到K个图片帧中每一图片帧对应的热力值。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第一动作识别结果和所述中间特征图，获取K个图片帧中每一图片帧对应的热力图，包括：

根据所述损失值进行梯度计算，得到梯度值；

7.根据权利要求4所述的方法，其特征在于，所述根据所述热力值中的M个目标热力值，确定K个图片帧中的M个目标图片帧，包括：

获取K个图片帧对应的热力值中，热力值较大的M个热力值；

根据热力值较大的M个热力值，确定M个目标热力值；

根据所述M个目标热力值，确定M个目标图片帧。

8.根据权利要求1所述的方法，其特征在于，所述获取每一所述目标位置前后的N个图片帧的第二特征，包括：

获取每一所述目标位置前后的N个图片帧；

将每一所述目标位置前后的N个图片帧进行组合，得到第二图片帧序列；

将所述第二图片帧序列经过图像处理，得到每一所述目标位置前后的N个图片帧的第二特征。

9.根据权利要求1所述的方法，其特征在于，所述将所述第一特征和所述第二特征进行结合，得到第二动作识别结果之后，所述方法还包括：

10.一种动作识别装置，其特征在于，所述装置包括：

其中，M、N、K均为正整数，K大于M。

11.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线；其中，处理器、通信接口以及存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如权利要求1至9任一项所述的动作识别方法中的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9任一项所述的动作识别方法。