CN111401205B

CN111401205B - 动作识别方法及装置、电子设备、计算机可读存储介质

Info

Publication number: CN111401205B
Application number: CN202010166148.8A
Authority: CN
Inventors: 吴建超; 段佳琦; 旷章辉; 张伟
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2022-09-23
Anticipated expiration: 2040-03-11
Also published as: CN111401205A; JP2022529299A; TW202135002A; KR20210145271A; WO2021179898A1

Abstract

本公开提供了一种动作识别方法及装置、电子设备、计算机可读存储介质。其中，本公开利用目标对象对应的对象边框来确定动作特征信息，而不是利用整帧图像来确定动作特征信息，能够有效降低每帧图像中用于进行动作识别的数据量，从而能够增加用于进行动作识别的图像的数量，有利于提高动作识别的准确度；另外，本公开不仅利用目标对象的动作特征信息来进行动作分类和识别，还利用视频片段和确定的上述动作特征信息，提取到了目标对象所处场景的场景特征信息以及与目标对象的动作有关联的时序特征信息，在动作特征信息的基础上，结合场景信息和时序特征信息能够进一步提高动作识别的准确度。

Description

动作识别方法及装置、电子设备、计算机可读存储介质

技术领域

本公开涉及计算机技术、图像处理领域，具体而言，涉及一种动作识别方法及装置、电子设备、计算机可读存储介质。

背景技术

动作检测和识别广泛应用于机器人、安全和健康等领域中。目前，在进行动作识别时，由于识别设备数据处理能力的有限、用于进行动作识别的数据类型单一等因素，导致存在动作识别准确度低的缺陷。

发明内容

有鉴于此，本公开至少提供一种动作识别方法及装置。

第一方面，本公开提供了一种动作识别方法，包括：

获取视频片段；

基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信息；

基于所述视频片段和所述动作特征信息，确定所述目标对象对应的场景特征信息和时序特征信息；

基于所述动作特征信息、所述场景特征信息和所述时序特征信息，确定所述目标对象的动作类型。

本公开实施例中，利用目标对象对应的对象边框来确定动作特征信息，而不是利用整帧图像来确定动作特征信息，能够有效降低每帧图像中用于进行动作识别的数据量，从而能够增加用于进行动作识别的图像的数量，有利于提高动作识别的准确度；另外，本方面不仅利用目标对象的动作特征信息来进行动作分类和识别，还利用视频片段和确定的上述动作特征信息，提取到了目标对象所处场景的场景特征信息以及与目标对象的动作有关联的时序特征信息，在动作特征信息的基础上，结合场景信息和时序特征信息能够进一步提高动作识别的准确度。

在一种可能的实施方式中，上述动作识别方法还包括确定关键帧图像中的对象边框的步骤：

从所述视频片段中筛选关键帧图像；

对筛选得到的所述关键帧图像进行对象检测，确定所述目标对象在所述关键帧图像中的初始对象边界框；

按照预设扩展尺寸信息，对所述初始对象边界框进行扩展，得到所述目标对象在所述关键帧图像中的所述对象边。

本公开实施方式中，利用对象检测的方法确定目标对象在图像中的边框，减少了进行动作识别需要处理的数据量，并且在确定了一个较小的初始对象边界框后，对其进行了扩展，从而使得用于进行动作识别的对象边框能够包括更完整的目标对象的信息以及更多的环境信息，保留了更多空间细节，从而有利于提高动作识别的准确度。

在一种可能的实施方式中，所述基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信息，包括：

针对所述关键帧图像，从所述视频片段中筛选出与该关键帧图像对应的多张关联图像；

按照该关键帧图像对应的对象边框，分别从该关键帧图像对应的至少部分关联图像中截取部分图像，得到该关键帧图像对应的多张目标对象图像；

基于所述关键帧图像对应的多张目标对象图像，确定所述目标对象的动作特征信息。

本公开实施方式中，利用目标对象在关键帧图像中的对象边框进行定位，从与关键帧图像相关联的多张关联图像中截取用于确定动作特征信息的目标对象图像，提高了确定动作特征信息所使用的图像的精准度，并且能够增加用于确定动作特征信息的图像的数量，从而能够提高动作识别的准确度。

在一种可能的实施方式中，从所述视频片段中筛选出与关键帧图像对应的多张关联图像，包括：

从所述视频片段中选取包括关键帧图像的第一子视频片段；所述第一子视频片段还包括与该关键帧图像时序上相邻的N张图像；其中，N为正整数；

从所述第一子视频片段中筛选所述多张关联图像。

本公开实施方式中，从与关键帧图像的拍摄时间相近的子视频片段中筛选与关键帧图像相关联的图像，能够筛选到与关键帧图像关联程度最近的图像，基于与关键帧图像关联程度最近的图像，能够提高确定的动作特征信息的准确度。

在一种可能的实施方式中，在得到多张目标对象图像之后，在确定所述目标对象的动作特征信息之前，还包括：

将所述目标对象图像设置为具有预设图像分辨率的图。

本公开实施方式中，在截取到目标对象图像之后，将目标对象图像设置为预设的分辨率，能够提高目标对象图像中包括的信息的数量，即可以放大截取的目标对象图像，有利于获取目标对象的细粒度细节，从而能够提高确定的动作特征信息的准确度。

在一种可能的实施方式中，所述基于所述视频片段和所述动作特征信息，确定所述目标对象对应的场景特征信息和时序特征信息，包括：

对至少部分所述关联图像进行视频场景特征提取操作，得到所述场景特征信息；

对所述视频片段中的除目标对象以外的其他对象进行时序特征提取操作，得到初始时序特征信息；

基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息。

本公开实施方式中，从与关键帧图像相关联的关联图像中提取场景特征，能够得到较为完整场景特征信息，基于较为完整的场景特征信息能够提高动作识别的准确度；另外，本公开实施方式中提取了除目标对象以外的其他对象的时序特征，即上述初始时序特征信息，并基于其他对象的时序特征和目标对象的动作特征信息，确定了与目标对象相关联的时序特征信息，利用该与目标对象相关联的时序特征信息，能够进一步提高动作识别的准确度。

在一种可能的实施方式中，所述对所述视频片段中的除目标对象以外的其他对象进行时序特征提取操作，得到初始时序特征信息，包括：

针对所述关键帧图像，从所述视频片段中选取包括关键帧图像的第二子视频片段；所述第二子视频片段还包括与该关键帧图像时序上相邻的P张图像；其中，P为正整数；

提取所述第二子视频片段中的图像中，除所述目标对象以外的其他对象的动作特征，并将得到动作特征作为所述初始时序特征信息。

本公开实施方式中，从视频片段中选取了与关键帧图像的拍摄时间较为接近的子视频片段来提取时序特征，能够减小提取得到的时序特征的数据量，并且能够提高确定的时序特征与关键帧图像的关联性，从而有利于提高动作识别的准确度；另外，本公开实施方式中，将其他对象的动作特征作为时序特征，能够提高动作识别所使用的时序性特征的针对性，有利于提高动作识别的准确度。

在一种可能的实施方式中，所述基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息，包括：

分别对所述初始时序特征信息和所述动作特征信息进行降维处理；

对降维处理后的初始时序特征信息进行均值池化操作；

将进行均值池化操作后的初始时序特征信息和降维处理后的动作特征信息进行合并操作，得到所述目标对象对应的时序特征信息。

本公开实施方式中，在基于初始时序特征信息和动作特征信息，确定时序特征信息时，对初始时序特征信息和动作特征信息进行了降维处理，能够减少需要处理的数据量，有利于提高动作识别的效率；另外，本公开实施方式对降维后的初始时序特征信息进行了均值池化操作，简化了时序特征提取的操作步骤，能够提高动作识别的效率。

在一种可能的实施方式中，所述基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息，还包括：

将得到的所述目标对象对应的时序特征信息作为新的初始时序特征信息，并返回所述分别对所述初始时序特征信息和所述动作特征信息进行降维处理的步骤。

本公开实施方式中，将基于初始时序特征信息和动作特征信息，确定所述目标对象对应的时序特征信息的时序特征提取操作重复执行，能够提高确定的时序特征信息的准确度。

第二方面，本公开提供了一种动作识别装置，包括：

视频获取模块，用于获取视频片段；

动作特征确定模块，用于基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信息；

场景时序特征确定模块，用于基于所述视频片段和所述动作特征信息，确定所述目标对象对应的场景特征信息和时序特征信息；

动作识别模块，用于基于所述动作特征信息、所述场景特征信息和所述时序特征信息，确定所述目标对象的动作类型。

在一种可能的实施方式中，所述动作特征确定模块还用于确定关键帧图像中的对象边框：

从所述视频片段中筛选关键帧图像；

按照预设扩展尺寸信息，对所述初始对象边界框进行扩展，得到所述目标对象在所述关键帧图像中的所述对象边框。

在一种可能的实施方式中，所述动作特征确定模块在基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信时，用于：

在一种可能的实施方式中，所述动作特征确定模块在从所述视频片段中筛选出与关键帧图像对应的多张关联图像时，用于：

从所述第一子视频片段中筛选所述多张关联图。

在一种可能的实施方式中，在得到多张目标对象图像之后，在确定所述目标对象的动作特征信息之前，所述动作特征确定模块还用于：

将所述目标对象图像设置为具有预设图像分辨率的图像。

在一种可能的实施方式中，所述场景时序特征确定模块在基于所述视频片段和所述动作特征信息，确定所述目标对象对应的场景特征信息和时序特征信息时，用于：

在一种可能的实施方式中，所述场景时序特征确定模块在对所述视频片段中的除目标对象以外的其他对象进行时序特征提取操作，得到初始时序特征信息时，用于：

提取所述第二子视频片段中的图像中，除所述目标对象以外的其他对象的动作特征，并将得到动作特征作为所述初始时序特征信。

在一种可能的实施方式中，所述场景时序特征确定模块在基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息时，用于：

对降维处理后的初始时序特征信息进行均值池化操作；

在一种可能的实施方式中，所述场景时序特征确定模块在基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息时，还用于：

第三方面，本公开提供了一种电子设备，包括：相互连接的处理器和存储介质，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行上述动作识别方法的步骤。

第四方面，本公开还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述动作识别方法的步骤。

本公开上述装置、电子设备、和计算机可读存储介质，至少包含与本公开上述方法的任一方面或任一方面的任一实施方式的技术特征实质相同或相似的技术特征，因此关于上述装置、电子设备、和计算机可读存储介质的效果描述，可以参见上述方法内容的效果描述，这里不再赘述。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例提供的一种动作识别方法的流程图；

图2示出了本公开实施例提供的另一种动作方法中确定目标对象的动作特征信息的流程图；

图3示出了本公开实施例提供的再一种动作识别方法中确定述目标对象对应的场景特征信息和时序特征信息的流程图；

图4示出了本公开实施例中的简化的时序特征提取模块的结构示意图；

图5示出了本公开实施例提供的再一种动作识别方法的流程图；

图6示出了本公开实施例提供的一种动作识别装置的结构示意图；

图7示出了本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，应当理解，本公开中附图仅起到说明和描述的目的，并不用于限定本公开的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本公开中使用的流程图示出了根据本公开的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本公开内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

针对目前动作动作识别中存在的识别精度低的技术问题，本公开提供了一种动作识别方法及装置、电子设备、计算机可读存储介质。其中，本公开利用目标对象对应的对象边框来确定动作特征信息，而不是利用整帧图像来确定动作特征信息，能够有效降低每帧图像中用于进行动作识别的数据量，从而能够增加用于进行动作识别的图像的数量，有利于提高动作识别的准确度；另外，本公开不仅利用目标对象的动作特征信息来进行动作分类和识别，还利用视频片段和确定的上述动作特征信息，提取到了目标对象所处场景的场景特征信息以及与目标对象的动作有关联的时序特征信息，在动作特征信息的基础上，结合场景信息和时序特征信息能够进一步提高动作识别的准确度。

下面通过具体的实施例对本公开的动作识别方法及装置、电子设备、计算机可读存储介质进行说明。

本公开实施例提供了一种动作识别方法，该方法应用于进行动作识别的终端设备等硬件设备，该方法也可以是通过处理器执行计算机程序实现。具体地，如图1所示，本公开实施例提供的动作识别方法包括如下步骤：

S110、获取视频片段。

这里，视频片段是用于进行动作识别的视频片段，包括多张图像，图像中包括需要进行动作识别的目标对象，该目标对象可以是人、动物等。

上述视频片段可以是进行动作识别的终端设备利用其自身的摄像头等拍摄设备拍摄的，也可以是其他拍摄设备拍摄的，其他拍摄设备拍摄后，将视频片段传递给进行动作识别的终端设备即可。

S120、基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信息。

这里，对象边框即包围目标对象的边界框，利用边界框内的图像信息确定目标对象的动作特征信息时，能够降低终端设备处理的数据量。

在基于对象边框确定动作特征信息之前，首先需要从视频判断中筛选关键帧图像，并确定目标对象在每个关键帧图像中的对象边框。

在具体实施时，可以利用预设的时间间隔从视频片段中筛选关键帧图像，当然也可以利用其它方法从视频片段中筛选关键帧图像，例如将视频片段分为多个子片段后在每个子片段中提取一帧图像作为关键帧图像。本公开对从视频片段中筛选关键帧图像的方法并不进行限定。

在从视频片段中筛选得到多张关键帧图像之后，可以利用每张关键帧图像中的对象边框来确定目标对象的动作特征信息，当然也可以利用筛选得到的多张关键帧图像中的部分关键帧图像中的对象边框来确定目标对象的动作特征信息。在利用部分关键帧图像中的对象边框来确定目标对象的动作特征信息时，只需要提取或确定部分关键帧图像中的对象边框，之后再利用提取或确定的边框来确定目标对象的动作特征信息。

在具体实施时，可以利用对象检测的方法，例如使用人体检测器，利用人体检测的方法，确定对象边框，当然，也可以利用其它方法确定对象边框，本公开对确定对象边框的方法并不进行限定。

在具体实施时，可以将人体检测器检测得到的对象边框作为用于确定动作特征信息的最终的对象边框。但是由于人体检测器检测得到对象边框可能是包括目标对象在内的较小的边框，为了获得更完整的目标对象的信息以及更多的环境信息，在人体检测器检测得到了对象边框之后，还可以按照预设的扩展尺寸信息，分别对每个人体检测器检测得到的对象边框进行扩展，得到所述目标对象在每个所述关键帧图像中的最终的对象边框。之后，用确定的最终的对象边框来确定目标对象的动作特征信息。

上述对对象边框进行扩展的扩展尺寸信息是预先设定好的，例如，上述扩展尺寸信息包括对象边框在长度方向上的第一延伸长度和对象边框在宽度方向上的第二延伸长度。根据上述第一延伸长度对对象边框的长度分别向两侧进行延长，并且长度方向上两侧分别延长上述第一延伸长度的一半。根据上述第二延伸长度对对象边框的宽度分别向两侧进行延长，并且宽度方向上两侧分别延长上述第二延伸长度的一半。

上述第一延伸长度和第二延伸长度可以预先设定好的具体的数值，也可以基于人体检测器直接检测得到的对象边框的长度和宽度确定的数值，例如，第一延伸长度可以等于人体检测器直接检测得到的对象边框的长度，第二延伸长度可以等于人体检测器直接检测得到的对象边框的宽度。

通过上述方式，利用对象检测的方法确定目标对象在图像中的边框，减少了进行动作识别需要处理的数据量，并且在确定了一个较小的初始的对象边界框后，对其进行了扩展，从而使得用于进行动作识别的对象边框能够包括更完整的目标对象的信息以及更多的环境信息，从而有利于提高动作识别的准确度。

上述动作特征信息是从视频片段中的图像中提取的，能够表征目标对象的动作特征的信息。

S130、基于所述视频片段和所述动作特征信息，确定所述目标对象对应的场景特征信息和时序特征信息。

这里，场景特征信息用于表征目标对象所处场景的场景特征，可以是从与关键帧图像相关联的至少部分关联图像中进行场景特征提取得到的。

时序特征信息是与目标对象的动作在时序上有关联的特征信息，例如可以是视频片段中的除目标对象以外的其他对象的动作特征信息，在具体实施时，可以基于视频片段和目标对象的动作特征信息确定。

S140、基于所述动作特征信息、所述场景特征信息和所述时序特征信息，确定所述目标对象的动作类型。

在确定了动作特征信息、场景特征信息和时序特征信息之后，可以将上述三种信息进行合并，例如拼接，之后对合并得到的信息进行分类，得到目标对象的动作类型，实现目标对象的动作识别。

本公开实施例中，利用目标对象对应的对象边框来确定动作特征信息，而不是利用整帧图像来确定动作特征信息，能够有效降低每帧图像中用于进行动作识别的数据量，从而能够增加用于进行动作识别的图像的数量，有利于提高动作识别的准确度；另外，本公开实施例不仅利用目标对象的动作特征信息来进行动作分类和识别，还利用视频片段和确定的上述动作特征信息，提取到了目标对象所处场景的场景特征信息以及与目标对象的动作有关联的时序特征信息，在动作特征信息的基础上，结合场景信息和时序特征信息能够进一步提高动作识别的准确度。

在一些实施例中，如图2所示，上述基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信息，具体可以利用如下步骤实现：

S210、针对关键帧图像，从所述视频片段中筛选出与该关键帧图像对应的多张关联图像。

这里，与关键帧图像相关联的关联图像为与关键帧图像的图像特征相似的图像，例如可以是与关键帧图像的拍摄时间相近的图像。

在具体实施时，可以利用如下子步骤筛选关键帧图像对应的关联图像：

子步骤一、从所述视频片段中选取包括关键帧图像的第一子视频片段；所述第一子视频片段还包括与该关键帧图像时序上相邻的N张图像；其中，N为正整数。

上述第一子视频片段中，关键帧图像可能位于第一子视频片段的前半部分的片段中，也可能位于第一子视频片段的后半部分的片段中，当然也可以位于第一子视频片段的中部或接近中部的位置。

一种可能的实施方式中，可以从视频片段中截取一段包括关键帧图像的子视频片段，例如可以截取一段64帧的子视频片段。该子视频片段中，关键帧图像处于子视频片段的中部或接近中部的位置。例如，子视频片段包括关键帧图像的前32帧图像、关键帧图像和该关键帧图像的后31帧图像；再例如，该子视频片段中，关键帧图像处于子视频片段的前半部分的片段中，子视频片段包括关键帧图像的前10帧图像、关键帧图像和该关键帧图像的后53帧图像。再例如，该子视频片段中，关键帧图像处于子视频片段的后半部分的片段中，子视频片段包括关键帧图像的前50帧图像、关键帧图像和该关键帧图像的后13帧图像。

另外，上述第一子视频片段中，关键帧图像还可以位于第一子视频片段的两端，即，上述与该关键帧图像时序上相邻的N张图像是关键帧图像的前N张图像或后N张图像。本公开对关键帧图像在第一子视频片段中的位置并不进行限定。

子步骤二，从所述第一子视频片段中筛选所述多张关联图像。

一种可能的实现方式中，可以基于预设的时间间隔从第一子视频片段中筛选关联图像，例如，从第一子视频片段中以时间跨度τ稀疏采样得到T帧关联图像。筛选得到的关联图像可能包括关键帧图像，也可能不包括关键帧图像，具有一定的随机性，本公开对关联图像是否包括关键帧图像并不进行限定。

基于预定的时间间隔，从与关键帧图像的拍摄时间相近的子视频片段中筛选与关键帧图像相关联的图像，能够筛选到与关键帧图像关联程度最近的图像，基于与关键帧图像关联程度最近的图像，能够提高确定的动作特征信息的准确度。

另外，还可以利用其他的方法来筛选与关键帧图像相关联的关联图像，例如，可以首先计算第一子视频片段中每帧图像与关键帧图像的图像相似度，之后选取图像相似度最高的多张图像作为与关键帧图像相关联的关联图像。

S220、按照该关键帧图像对应的对象边框，分别从该关键帧图像对应的至少部分关联图像中截取部分图像，得到该关键帧图像对应的多张目标对象图像。

这里是利用关键图像对应的对象边框，从与关键帧图像相关联的部分或全部关联图像中截取部分图像。如果是从部分关联图像中截取目标对象图像，具体的可以是从全部关联图像中选取与关键帧图像的拍摄时间最接近的部分关联图像来截取目标对象图像，当然也可以利用其他方法选取部分关联图像来截取目标对象图像。例如，按照一定的时间间隔，从全部关联图像中选取部分关联图像。

在按照关键帧图像对应的对象边框，截取目标对象图像时，具体可以是：首先按照时间顺序，在所有的关联图像或部分关联图像上复制对象边框。其中，在关联图像上复制对象边框时，是利用对象边框在关键帧图像上的坐标信息实现在关联图像上的边框复制的，例如按照对象边框在关键帧图像上的坐标信息，根据时间顺序进行边框位置偏移或者直接复制边框位置，得到关联图像上的对象边框。对象边框复制完成之后，按照对象边框对关联图像进行裁剪，得到目标对象图像，即截取关联图像中的对象边框内的图像作为上述目标对象图像。

关键帧图像的作用是用于实现目标对象图像的定位，并不一定用于直接确定动作特征信息。例如，在关联图像不包括关键帧图像时，则不从关键帧图像中截取用于确定动作特征信息的目标对象图像。

S230、基于关键帧对应的多张目标对象图像，确定所述目标对象的动作特征信息。

在截取到上述目标对象图像之后，可以对多张目标对象图像分别进行动作特征提取，具体可以利用3D卷积神经网络对目标对象图像进行处理，提取目标对象图像中的动作特征，得到目标对象的动作特征信息。

另外，本公开实施例中在得到多张目标对象图像之后，在确定所述目标对象的动作特征信息之前，还可以利用如下步骤对目标对象图像进行处理：

将所述目标对象图像设置为具有预设图像分辨率的图像。上述预设图像分辨率较目标对象图像的原图像分辨率较高。在具体实施时，可以利用现有的方法或工具来设置目标对象图像的图像分辨率，例如，利用插值等方法来调整目标对象图像的图像分辨率。

这里在截取到目标对象图像之后，将目标对象图像设置为预设的分辨率，能够提高目标对象图像中包括的信息的数量，即可以放大截取的目标对象图像，保留目标对象更多的细粒度细节，从而能够提高确定的动作特征信息的准确度。

在具体实施时，可以将上述预设图像分辨率设置为H×W，每帧关键帧图像截取的目标对象图像为T个，每帧目标对象图像的通道数为3，那么输入3D卷积神经网络进行动作特征提取的是T×H×W×3的图像块。经过3D卷积神经网络对输入的图像块进行全局平均池化后，可以得到2048维的特征向量，该特征向量即为上述动作特征信息。

本公开实施例中，利用目标对象在关键帧图像中的对象边框进行定位，从与关键帧图像相关联的多张关联图像中截取用于确定动作特征信息的目标对象图像，提高了确定动作特征信息所使用的图像的精准度，并且能够增加用于确定动作特征信息的图像的数量，从而能够提高动作识别的准确度。

在一些实施例中，如图3所示，上述所述基于所述视频片段和所述动作特征信息，确定所述目标对象对应的场景特征信息和时序特征信息，包括：

S310、针对关键帧图像，从所述视频片段中筛选出与该关键帧图像对应的多张关联图像，对至少部分关联图像进行视频场景特征提取操作，得到所述场景特征信息。

这里，具体可以利用3D卷积神经网络对部分或全部的关联图像进行视频场景特征提取和全局平均池化，得到2048维的特征向量，该特征向量即为上述场景特征信息。

S320、对所述视频片段中的除目标对象以外的其他对象进行时序特征提取操作，得到初始时序特征信息。

这里，初始时序特征信息是除目标对象以外的其他对象的时序特征，例如其他对象的动作特征，在具体实施时，可以通过如下步骤确定：

子步骤一、针对所述关键帧图像，从所述视频片段中选取包括关键帧图像的第二子视频片段；所述第二子视频片段还包括与该关键帧图像时序上相邻的P张图像；其中，P为正整数。

上述第二子视频片段中，关键帧图像可能位于第二子视频片段的前半部分的片段中，也可能位于第二子视频片段的后半部分的片段中，当然也可以位于第二子视频片段的中部或接近中部的位置。

另外，上述第二子视频片段中，关键帧图像还可以位于第二子视频片段的两端，即，上述与该关键帧图像时序上相邻的P张图像是关键帧图像的前P张图像或后P张图像。本公开对关键帧图像在第二子视频片段中的位置并不进行限定。

一种可能的实现方式中，从视频片段中截取一段包括关键帧图像的子视频片段，例如可以截取一段2秒钟的子视频片段，该子视频的时间较长用于确定一个长时序的时序特征。

子步骤二、提取所述第二子视频片段中的每张图像中，除所述目标对象以外的其他对象的动作特征，并将得到动作特征作为所述初始时序特征信息。

这里，具体可以利用3D卷积神经网络提取子视频片段中除所述目标对象以外的其他对象的动作特征，得到的初始时序特征信息可以以视频时序特征库(long-term FeatureBank，LFB)的形式存储和使用。

本公开实施例中，从视频片段中选取了与关键帧图像的拍摄时间较为接近的子视频片段来提取时序特征，能够减小提取得到的时序特征的数据量，并且能够提高确定的时序特征与关键帧图像的关联性，从而有利于提高动作识别的准确度；另外，本公开实施例中，将其他对象的动作特征作为时序特征，能够提高动作识别所使用的时序性特征的针对性，有利于提高动作识别的准确度。

S330、基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息。

这里，具体可以对初始时序特征信息和动作特征信息进行时序特征提取，得到目标对象对应的时序特征信息。

一种可能的实现方式中，可以利用如下子步骤对初始时序特征信息和动作特征信息进行时序特征提取，以得到目标对象对应的时序特征信息：

子步骤一、分别对所述初始时序特征信息和所述动作特征信息进行降维处理。

在得到除目标对象以外的其他对象的初始时序特征信息和目标对象的动作特征信息之后，可以首先对初始时序特征信息和动作特征信息进行降维处理，降维处理后，能够减少需要处理的数据量，有利于提高动作识别的效率。

一种可能的实现方式中，在得到初始时序特征信息和动作特征信息之后，还可以对初始时序特征信息和动作特征信息进行随机失活Dropout处理，Dropout处理可以是在用于提取初始时序特征信息和动作特征信息的神经网络的最后一个网络层实现，也可以是在提取初始时序特征信息和动作特征信息的神经网络的各个网络层实现。

子步骤二、对降维处理后的初始时序特征信息进行均值池化操作。

子步骤三、将进行均值池化操作后的初始时序特征信息和降维处理后的动作特征信息进行合并操作，得到所述目标对象对应的时序特征信息。上述合并操作具体可以是通道拼接，即将一个特征信息的通道增加到另一个特征信息的通道后实现合并；合并操作还可以是相加操作，即将均值池化操作后的初始时序特征信息和降维处理后的动作特征信息进行相加操作。

子步骤二和子步骤三实质上是对初始时序特征信息和动作特征信息进行时序特征提取操作，具体可以利用如图4所示简化后的时序特征提取模块来实现。如图4所示的简化后的时序特征提取模块用于来提取上述时序特征信息，具体可以包括线性(Linear)层、平均池化(Average)层、标准化和激活函数(LN+ReLU)层和随机失活(Dropout)层。上述子步骤二中，对时序特征提取操作进行了简化，只利用平均池化Average层对降维处理后的初始时序特征信息进行均值池化操作，并未进行softmax操作，简化了时序特征提取的操作步骤，即简化了现有的时序特征提取模块，能够提高动作识别的效率。其中，现有的时序特征提取模块不包括平均池化层，而是包括分类归一化softmax层，该softmax层进行的处理复杂度高于平均池化操作。另外，现有的时序特征提取模块在随机失活层之前还包括一线性层，本公开中的简化后的时序特征提取模块不包括该线性层，因此能够进一步提高动作识别的效率。

在具体实施时，时序特征提取模块输出的时序特征信息可以是512维的特征向量，该512维的特征向量即为上述目标对象的时序特征信息。

本公开实施例中，从与关键帧图像相关联的部分或全部关联图像中提取场景特征，能够得到较为完整场景特征信息，基于较为完整的场景特征信息能够提高动作识别的准确度。另外，本公开实施例中提取了除目标对象以外的其他对象的时序特征，即上述初始时序特征信息，并基于其他对象的时序特征和目标对象的动作特征信息，确定了与目标对象相关联的时序特征信息，利用该与目标对象相关联的时序特征信息，能够进一步提高动作识别的准确度。

为了进一步提高提取的时序特征信息的准确度，可以串联多个时序特征提取模块来提取上述时序特征信息，一个时序特征提取模块提取得到的时序特征信息作为另一个时序特征提取模块的输入。具体地，可以将上一个时序特征提取模块提取得到的所述目标对象对应的时序特征信息作为新的初始时序特征信息，并返回上述分别对所述初始时序特征信息和所述动作特征信息进行降维处理的步骤。

在具体实施时，可以串联3个简化后的时序特征提取模块来确定最终的时序特征信息。

下面再通过一个具体的实施例对本公开的动作识别方法进行说明。

如图5所示，本公开实施例以人作为目标对象进行动作识别。具体地，本公开实施例的动作识别方法可以包括：

步骤一、获取视频片段，并从上述视频片段中筛选关键帧图像；

步骤二、利用人体检测器，对每个关键帧图像进行人物定位，得到人物，即目标对象的初始对象边界框；

步骤三、按照预设扩展尺寸信息，对上述初始对象边界框进行扩展，得到最终的对象边框；之后，利用对象边框对与关键帧图像相关联的关联图像进行部分图像截取，得到每个关键图像对应的目标对象图像；

步骤四、将得到的所有关键图像对应的目标对象图像输入3D卷积神经网络，利用3D卷积神经网络提取目标对象的动作特征，得到目标对象对应的动作特征信息。

步骤五、将与关键帧图像相关联的关联图像输入上述3D卷积神经网络，利用3D卷积神经网络提取目标对象所处场景的视频场景特征，得到场景特征信息。

步骤六、利用另一个3D卷积神经网络对视频片段进行时序特征提取，即提取除所述目标对象以外的其他对象的动作特征，得到初始时序特征信息，上述初始时序特征信息可以以时序特征库的形式存在；这里，在进行时序特征提取的时候，既可以从整个视频片段中提取，也可以是从视频片段中的，包括关键帧图像的一个较长的子视频片段中提取。

步骤七、利用简化的时序特征提取模块，对所述初始时序特征信息和所述动作特征信息进行时序特征提取操作，得到目标对象对应的时序特征信息。

步骤八、将上述时序特征信息、动作特征信息和场景特征信息进行拼接处理，并利用动作分类器对拼接得到的信息进行分类，得到目标对象的动作类型。

对应于上述动作识别方法，本公开还提供了一种动作识别装置，该装置应用于对目标对象进行动作识别的终端设备等硬件设备上，并且各个模块能够实现与上述方法中相同的方法步骤以及取得相同的有益效果，因此对于其中相同的部分，本公开不再进行赘述。

具体的，如图6所示，本公开提供的一种动作装置可以包括：

视频获取模块610，用于获取视频片段。

动作特征确定模块620，用于基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信息。

场景时序特征确定模块630，用于基于所述视频片段和所述动作特征信息，确定所述目标对象对应的场景特征信息和时序特征信息。

动作识别模块640，用于基于所述动作特征信息、所述场景特征信息和所述时序特征信息，确定所述目标对象的动作类型。

在一些实施例中，所述动作特征确定模块620还用于确定关键帧图像中的对象边框：

从所述视频片段中筛选关键帧图像；

在一些实施例中，所述动作特征确定模块620在基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信时，用于：

在一些实施例中，所述动作特征确定模块620在从所述视频片段中筛选出与关键帧图像对应的多张关联图像时，用于：

从所述第一子视频片段中筛选所述多张关联图。

在一些实施例中，在得到多张目标对象图像之后，在确定所述目标对象的动作特征信息之前，所述动作特征确定模块620还用于：

将所述目标对象图像设置为具有预设图像分辨率的图像。

在一些实施例中，所述场景时序特征确定模块630在基于所述视频片段和所述动作特征信息，确定所述目标对象对应的场景特征信息和时序特征信息时，用于：

在一些实施例中，所述场景时序特征确定模块630在对所述视频片段中的除目标对象以外的其他对象进行时序特征提取操作，得到初始时序特征信息时，用于：

在一些实施例中，所述场景时序特征确定模块630在基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息时，用于：

对降维处理后的初始时序特征信息进行均值池化操作；

在一些实施例中，所述场景时序特征确定模块630在基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息时，还用于：

本公开实施例公开了一种电子设备，如图7所示，包括：相互连接的处理器701和存储介质702，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行上述动作识别方法的步骤。具体地，处理器701和存储介质702可以通过总线703连接。

所述机器可读指令被所述处理器701执行时执行以下动作识别方法的步骤：

获取视频片段；

除此之外，机器可读指令被处理器701执行时，还可以执行上述方法部分描述的任一实施方式中的方法内容，这里不再赘述。

本公开实施例还提供的一种对应于上述方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。该计算机可读存储介质可以是易失性或非易失性存储介质。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，本文不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本公开中不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本公开实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品可存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种动作识别方法，其特征在于，包括：

获取视频片段；

基于所述视频片段，确定所述目标对象对应的场景特征信息；

对所述视频片段中的除目标对象以外的其他对象进行时序特征提取操作，得到初始时序特征信息；基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息；

基于所述动作特征信息、所述场景特征信息和所述时序特征信息，确定所述目标对象的动作类型；

所述对所述视频片段中的除目标对象以外的其他对象进行时序特征提取操作，得到初始时序特征信息，包括：

2.根据权利要求1所述的动作识别方法，其特征在于，还包括确定所述关键帧图像中的对象边框的步骤：

从所述视频片段中筛选关键帧图像；

3.根据权利要求1或2所述的动作识别方法，其特征在于，所述基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信息，包括：

4.根据权利要求3所述的动作识别方法，其特征在于，从所述视频片段中筛选出与关键帧图像对应的多张关联图像，包括：

从所述第一子视频片段中筛选所述多张关联图像。

5.根据权利要求3所述的动作识别方法，其特征在于，在得到多张目标对象图像之后，在确定所述目标对象的动作特征信息之前，还包括：

将所述目标对象图像设置为具有预设图像分辨率的图像。

6.根据权利要求1-5任一项所述的动作识别方法，其特征在于，所述基于所述视频片段，确定所述目标对象对应的场景特征信息，包括：

针对所述关键帧图像，从所述视频片段中筛选出与所述关键帧图像对应的多张关联图像；

对至少部分所述关联图像进行视频场景特征提取操作，得到所述场景特征信息。

7.根据权利要求1所述的动作识别方法，其特征在于，所述基于所述初始时序特征信息和所述动作特征信息，确定所述目标对象对应的时序特征信息，包括：

对降维处理后的初始时序特征信息进行均值池化操作；

8.根据权利要求7所述的动作识别方法，其特征在于，在将进行均值池化操作后的初始时序特征信息和降维处理后的动作特征信息进行合并操作，得到所述目标对象对应的时序特征信息之后，所述方法还包括：

将得到的所述目标对象对应的时序特征信息作为新的初始时序特征信息，并返回所述分别对所述初始时序特征信息和所述动作特征信息进行降维处理的步骤，重新确定所述目标对象对应的时序特征信息。

9.一种动作识别装置，其特征在于，包括：

视频获取模块，用于获取视频片段；动作特征确定模块，用于基于目标对象在所述视频片段中的关键帧图像中的对象边框，确定所述目标对象的动作特征信息；

场景时序特征确定模块，用于基于所述视频片段，确定所述目标对象对应的场景特征信息；以及

动作识别模块，用于基于所述动作特征信息、所述场景特征信息和所述时序特征信息，确定所述目标对象的动作类型；

所述场景时序特征确定模块在对所述视频片段中的除目标对象以外的其他对象进行时序特征提取操作，得到初始时序特征信息时，用于：

10.一种电子设备，其特征在于，包括：相互连接的处理器和存储介质，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行如权利要求1～8任一所述的动作识别方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1～8任一所述的动作识别方法。