CN112926474A

CN112926474A - 一种行为识别及特征提取的方法、装置、设备及介质

Info

Publication number: CN112926474A
Application number: CN202110250410.1A
Authority: CN
Inventors: 庄培钦; 郭宇; 于志鹏
Original assignee: Sensetime Group Ltd
Current assignee: Sensetime Group Ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-06-08

Abstract

本公开提供了一种行为识别及特征提取的方法、装置、设备及介质，其中，该行为识别的方法包括：获取待检测视频；待检测视频包括待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧；确定待识别视频帧分别与多个参考视频帧之间的匹配代价；以及，将从待识别视频帧以及连续多个参考视频帧中分别提取的视频帧特征信息输入到重要度计算神经网络中，得到针对每个匹配代价对应的多个待确定子匹配代价的重要度权重；确定最大的重要度权重所对应的待确定子匹配代价，得到确定后的子匹配代价；利用训练好的行为识别神经网络以及确定后的子匹配代价，确定针对待识别视频帧的行为识别结果。本公开在确保了识别准确性的前提下，还节约了计算资源。

Description

一种行为识别及特征提取的方法、装置、设备及介质

技术领域

本公开涉及数据处理技术领域，具体而言，涉及一种行为识别及特征提取的方法、装置、设备及介质。

背景技术

智能视频分析技术在当前的安防、人机交互和自动驾驶等领域都具有非常重要的应用，而行人行为识别是其中的一个关键技术。其中，行为识别主要利用视频片段中物体的运动信息进行建模，得到描述视频中物体运动情况的运动特征。将得到的运动特征与图像中的表观特征相结合，可以用于行为识别任务。

目前，可以采用光流法、帧差法等方法计算实现运动信息的建模操作，光流法是根据视频片段中，每一帧图像的各个像素点的速度矢量特征，对图像进行动态分析，当目标运动时，运动目标形成的光流矢量发生变化，从而检测出运动目标，操作复杂，较为耗时。帧差法可以利用相邻帧的特征差值来描述短距离的运动信息，这种方法往往受限于时间约束(对应相邻帧)和空间约束(对应固定的空间邻域)，不能很好地捕捉运动物体在时空上大幅度变化的情况，这导致后续行为识别的准确性较差。

发明内容

本公开实施例至少提供一种行为识别及特征提取的方法、装置、设备及介质。

第一方面，本公开实施例提供了一种行为识别的方法，所述方法包括：

获取待检测视频；其中，所述待检测视频包括待识别视频帧以及与所述待识别视频帧相邻的连续多个参考视频帧；

确定所述待识别视频帧分别与所述多个参考视频帧之间的匹配代价；以及，将从所述待识别视频帧以及与所述待识别视频帧相邻的连续多个参考视频帧中分别提取的视频帧特征信息输入到重要度计算神经网络中，得到所述重要度计算神经网络输出的针对每个匹配代价对应的多个待确定子匹配代价的重要度权重；

基于确定的每个匹配代价，确定最大的重要度权重所对应的待确定子匹配代价，得到确定后的子匹配代价；

利用训练好的行为识别神经网络以及确定后的子匹配代价，确定针对待识别视频帧的行为识别结果。

这里，可以针对待识别视频帧进行行为识别。首先可以确定待识别视频帧与每个参考视频帧之间的匹配代价，匹配代价越小，一定程度上可以说明对应的待识别视频帧和参考视频帧中对应的像素之间的相关性大，进而可以在时间维度上描述目标对象的运动变化。除此之外，在空间维度上本公开实施例可以直接确定最大的重要度权重所对应的待确定子匹配代价，仅需得到一个确定的子匹配代价即可实现行为识别，这在确保了识别准确性的前提下，还进一步节约了计算资源。

第二方面，本公开实施例提供了一种特征提取的方法，所述方法包括：

获取目标样本视频帧以及与该目标样本视频帧相邻的连续多个参考样本视频帧；

确定所述目标样本视频帧分别与所述多个参考样本视频帧之间的匹配代价；

根据预设的多个空间搜索范围，确定每个所述匹配代价在多个空间搜索范围内分别对应的子匹配代价；

基于多个所述匹配代价分别对应的多个子匹配代价，生成所述目标样本视频帧对应的运动特征信息；其中，所述目标样本视频帧的运动特征信息，用于训练对待检测视频进行行为识别的行为识别神经网络。

采用上述特征提取的方法，首先可以确定目标样本视频帧与每个参考样本视频帧之间的匹配代价，匹配代价越小，一定程度上可以说明对应的目标样本视频帧和参考样本视频帧中对应的像素之间的相关性大，进而可以在时间维度上描述目标对象的运动变化。除此之外，在确定每个所述匹配代价在多个空间搜索范围内分别对应的子匹配代价的情况下，可以实现在空间维度上对目标对象的运动变化进行描述，这样所生成的有关目标样本视频帧对应的运动特征信息更为全面，进而使得基于运动特征信息所训练的行为识别神经网络的识别准确性较高。

在一种可能的实施方式中，所述根据预设的多个空间搜索范围，确定每个所述匹配代价在多个空间搜索范围内分别对应的子匹配代价，包括：

针对每个匹配代价，将确定该匹配代价时使用的空间搜索范围确定为第一个子匹配代价的第一空间搜索范围；

确定以所述第一个空间搜索范围中的指定位置为搜索起点位置，且搜索范围的大小与所述第一个空间搜索范围不同的至少一个其他空间搜索范围对应的子匹配代价。

这里，可以基于不同的空间搜索范围确定不同的子匹配代价，也即，子匹配代价可以描述的是在对应的空间搜索范围内确定目标对象的运动变化。空间搜索范围越大，搜索到目标对象的可能性越高，但所对应的搜索时间越长，这里可以兼顾搜索可能性和搜索时间确定不同的子匹配代价。

在一种可能的实施方式中，所述指定位置为所述第一个空间搜索范围的中心。

考虑到针对一个视频帧而言，视频帧的中心位置往往是用户注意力最强的位置，搜索到目标对象的可能性会更大，基于此，这里可以采用以第一空间搜索范围的中心进行搜索的方式，提升搜索到目标的效率。

在一种可能的实施方式中，按照如下步骤确定所述至少一个其他空间搜索范围对应的子匹配代价：

确定所述第一个空间搜索范围所对应的匹配代价长方体；

针对所述其他空间搜索范围中的目标空间搜索范围，从确定的所述匹配代价长方体中确定与所述目标空间搜索范围对应的子匹配代价长方体；从所述第一个子匹配代价包含的各个匹配代价矩阵值中查找与确定的所述子匹配代价长方体匹配的匹配代价矩阵值；将查找到的所述匹配代价矩阵值进行组合，得到与所述目标空间搜索范围对应的子匹配代价；

将得到的与所述目标空间搜索范围对应的子匹配代价，确定为所述其他空间搜索范围对应的子匹配代价。

在一种可能的实施方式中，所述基于多个所述匹配代价分别对应的多个子匹配代价，生成所述目标样本视频帧对应的运动特征信息，包括：

针对所述匹配代价对应的每个子匹配代价中的目标子匹配代价，将所述目标子匹配代价转换为对应的两个样本视频帧中的目标对象在对应的空间搜索范围内的运动特征信息，以得到所述目标子匹配代价转换后的运动特征信息；

将所述目标子匹配代价转换后的运动特征信息，确定为所述目标样本视频帧对应的一个运动特征信息。

在一种可能的实施方式中，所述针对所述匹配代价对应的每个子匹配代价中的目标子匹配代价，将所述目标子匹配代价转换为对应的两个样本视频帧中的目标对象在对应的空间搜索范围内的运动特征信息，包括：

针对所述匹配代价对应的每个子匹配代价中的目标子匹配代价，将所述目标子匹配代价输入至特征转换神经网络，得到所述特征转换神经网络输出的运动特征信息；

基于得到的所述运动特征信息确定所述目标子匹配代价转换后的运动特征信息。

这里，利用训练好的特征转换神经网络可以直接对子匹配代价进行特征转换，生成效率较高。

在一种可能的实施方式中，所述特征转换神经网络包括两个子特征转换神经网络；所述针对所述匹配代价对应的每个子匹配代价中的目标子匹配代价，将所述目标子匹配代价输入至特征转换神经网络，得到特征转换神经网络输出的运动特征信息，包括：

针对所述匹配代价对应的每个子匹配代价中的目标子匹配代价，将所述目标子匹配代价分别输入到所述两个子特征转换神经网络中，得到第一转换后特征和第二转换后特征；所述两个子特征转换神经网络的网络运算操作不同；所述第一转换后特征和第二转换后特征的维度相同；

将所述第一转换后特征和第二转换后特征进行求和运算，得到所述每个子匹配代价经过特征转换神经网络输出的运动特征信息。

这里可以采用两个子特征转换神经网络分别对每个子匹配代价进行两种网络运算操作，由于两种网络运算操作不同，这样所转换得到的第一转换后特征和第二转换后特征具有不同的特征特性，从而使得所生成的运动特征信息足够多样化。

在一种可能的实施方式中，按照如下步骤训练对待检测视频进行行为识别的行为识别神经网络：

确定针对每个所述子匹配代价转换后的运动特征信息所分配的重要度权重；

将针对每个所述子匹配代价转换后的运动特征信息以及所分配的重要度权重进行加权求和，得到总运动特征信息；

基于得到的所述总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络。

考虑到不同空间搜索范围所确定的有关目标对象的运动变化对行为识别的影响程度并不相同，例如，对于小动作变化，较小的空间搜索范围一定程度上可以满足搜索需求，而对于大动作变化，往往需要更大的空间搜索范围，这里，为了适配不同目标对象的搜索需求，可以针对每个子匹配代价转换后的运动特征信息进行重要度权重的赋值，从而使得加权求后的总运动特征信息可以更好的满足行为识别的需求。

在一种可能的实施方式中，按照如下步骤确定针对每个所述子匹配代价转换后的运动特征信息所分配的重要度权重：

从所述目标样本视频帧以及与该目标样本视频帧相邻的连续多个参考样本视频帧中分别提取对应的视频帧特征信息；

将提取的所述视频帧特征信息输入到重要度计算神经网络中，得到重要度计算神经网络输出的针对每个匹配代价对应的多个子匹配代价的重要度权重；

针对每个匹配代价对应的每个子匹配代价，将每个所述子匹配代价的重要度权重对应分配给每个所述子匹配代价转换后的运动特征信息，得到每个所述子匹配代价转换后的运动特征信息所分配的重要度权重。

这里，利用训练好的重要度计算神经网络可以直接对匹配代价对应的多个子匹配代价进行重要度权重的确定，效率较高。

在一种可能的实施方式中，所述基于得到的所述总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络，包括：

从所述目标样本视频帧中提取表观特征信息；

基于提取的所述表观特征信息和得到的所述总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络。

在一种可能的实施方式中，所述基于提取的所述表观特征信息和得到的所述总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络，包括：

将提取的所述表观特征信息和得到的所述总运动特征信息输入到待训练的行为识别神经网络中，得到行为识别神经网络输出的针对所述目标样本视频帧的预测结果；

在针对所述目标样本视频帧的预测结果与针对所述目标样本视频帧标注的有关目标行为动作的标注结果不匹配的情况下，调整所述特征转换神经网络、所述重要度计算神经网络以及所述待训练的行为识别神经网络中的一者或多者神经网络的网络参数值；

直至针对所述目标样本视频帧的预测结果与针对所述目标样本视频帧标注的有关目标行为动作的标注结果匹配的情况下，得到训练好的神经网络。

在一种可能的实施方式中，在得到训练好的行为识别神经网络之后，所述方法还包括：

这里，可以针对待识别视频帧进行行为识别。在进行行为识别的过程中，可以直接确定最大的重要度权重所对应的待确定子匹配代价，仅需得到一个确定的子匹配代价即可实现行为识别，相比训练阶段，进一步节约了计算资源。

在一种可能的实施方式中，所述利用训练好的行为识别神经网络以及计算后的子匹配代价，确定针对待识别视频帧的行为识别结果，包括：

将计算后的子匹配代价输入至训练好的特征转换神经网络，得到特征转换神经网络输出的运动特征信息；

在从所述待识别视频帧中提取出表观特征信息的情况下，将得到的所述运动特征信息以及提取的所述表观特征信息输入到训练好的行为识别神经网络中，得到所述待识别视频帧针对每种预设行为动作的预测概率；

将所述预测概率中最大预测概率对应的预设行为动作确定为所述针对待识别视频帧的行为识别结果。

在一种可能的实施方式中，所述确定所述目标样本视频帧分别与所述多个参考样本视频帧之间的匹配代价，包括：

针对每个所述参考样本视频帧，将该参考样本视频帧以及所述目标样本视频帧输入到相似度计算神经网络中，确定所述目标样本视频帧中的每个像素点与该参考样本视频帧对应的像素范围内每个像素点之间的余弦相似度；

针对所述目标样本视频帧中的每个像素点，按照每个所述参考样本视频帧对应的像素范围指示的像素点排列顺序，将确定的各个余弦相似度进行组合，得到组合结果；

基于所述组合结果确定所述匹配代价。

第三方面，本公开实施例还提供了一种行为识别的装置，所述装置包括：

获取模块，用于获取待检测视频；其中，所述待检测视频包括待识别视频帧以及与所述待识别视频帧相邻的连续多个参考视频帧；

第一确定模块，用于确定所述待识别视频帧分别与所述多个参考视频帧之间的匹配代价；以及，将从所述待识别视频帧以及与所述待识别视频帧相邻的连续多个参考视频帧中分别提取的视频帧特征信息输入到重要度计算神经网络中，得到所述重要度计算神经网络输出的针对每个匹配代价对应的多个待确定子匹配代价的重要度权重；

第二确定模块，用于基于确定的每个匹配代价，确定最大的重要度权重所对应的待确定子匹配代价，得到确定后的子匹配代价；

识别模块，用于利用训练好的行为识别神经网络以及确定后的子匹配代价，确定针对待识别视频帧的行为识别结果。

第四方面，本公开实施例还提供了一种特征提取的装置，所述装置包括：

获取模块，用于获取目标样本视频帧以及与该目标样本视频帧相邻的连续多个参考样本视频帧；

第一确定模块，用于确定所述目标样本视频帧分别与所述多个参考样本视频帧之间的匹配代价；

第二确定模块，用于根据预设的多个空间搜索范围，确定每个所述匹配代价在多个空间搜索范围内分别对应的子匹配代价；

生成模块，用于基于多个所述匹配代价分别对应的多个子匹配代价，生成所述目标样本视频帧对应的运动特征信息；其中，所述目标样本视频帧的运动特征信息，用于训练对待检测视频进行行为识别的行为识别神经网络。

第五方面，本公开实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面所述的行为识别的方法的步骤，或者如第二方面及其各种实施方式任一所述的特征提取的方法的步骤。

第六方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面所述的行为识别的方法的步骤，或者如第二方面及其各种实施方式任一所述的特征提取的方法的步骤。

关于上述装置、电子设备及计算机可读存储介质的效果描述参见上述方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种特征提取的方法的流程图；

图2示出了本公开实施例所提供的特征提取的方法中，子匹配代价的生成示意图；

图3示出了本公开实施例所提供的特征提取的方法中，特征转换的流程示意图；

图4示出了本公开实施例所提供的一种行为识别的方法的流程图；

图5示出了本公开实施例所提供的一种特征提取的装置的示意图；

图6示出了本公开实施例所提供的一种行为识别的装置的示意图；

图7示出了本公开实施例所提供的一种电子设备的示意图；

图8示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，目前，可以采用光流法、帧差法等方法计算实现运动信息的建模操作，光流法是根据视频片段中，每一帧图像的各个像素点的速度矢量特征，对图像进行动态分析，当目标运动时，运动目标形成的光流矢量发生变化，从而检测出运动目标，操作复杂，较为耗时。帧差法可以利用相邻帧的特征差值来描述短距离的运动信息，这种方法往往受限于时间约束(对应相邻帧)和空间约束(对应固定的空间邻域)，不能很好地捕捉运动物体在时空上大幅度变化的情况，这导致后续行为识别的准确性较差。

基于上述研究，本公开提供了一种行为识别的方法及装置、特征提取的方法及装置，能够在时间维度和空间维度上对目标对象的运动变化进行描述，这样由所生成的运动特征信息所训练的行为识别神经网络的识别准确性较高。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种特征提取的方法进行详细介绍，本公开实施例所提供的特征提取的方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该特征提取的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的特征提取的方法的流程图，方法包括步骤S101～S104，其中：

S101：获取目标样本视频帧以及与该目标样本视频帧相邻的连续多个参考样本视频帧；

S102：确定目标样本视频帧分别与多个参考样本视频帧之间的匹配代价；

S103：根据预设的多个空间搜索范围，确定每个匹配代价在多个空间搜索范围内分别对应的子匹配代价；

S104：基于多个匹配代价分别对应的多个子匹配代价，生成目标样本视频帧对应的运动特征信息；其中，目标样本视频帧的运动特征信息，用于训练对待检测视频进行行为识别的行为识别神经网络。

为了便于理解本公开实施例提供的特征提取的方法，接下来首先可以对该方法的应用场景进行详细描述。上述特征提取的方法主要可以应用于行为识别技术领域，例如可以应用在道路交通场景中对行人的走路姿态进行识别，可以应用在高尔夫休闲场景中对用户的打球姿态进行识别，还可以应用在其它场景中，在此不再赘述。

在上述应用场景中，用户的运动幅度较大、姿态变化较明显，而基于相关技术中的行为识别方法，由于不能很好的捕捉在时间维度和空间维度上的运动特征信息，而导致识别的准确性较差。

正是为了解决上述问题，本公开实施例才提供了一种兼顾时间维度和空间维度对运动特征进行表达的特征提取的方案，使得提取出的运动特征信息可以更准确的进行行为识别。

其中，上述目标样本视频帧、以及与该目标样本视频帧相邻的连续多个参考样本视频帧可以是从样本视频库中的一个样本视频中截取的视频帧组，这里的目标样本视频帧可以是当前待进行特征提取的视频帧，而与该目标样本视频帧相邻的连续多个参考样本视频帧可以是实现对目标对象的运动情况进行捕捉的视频帧，这里的连续多个参考样本视频帧可以是目标样本视频帧之后的若干样本视频帧。

上述参考样本视频帧的个数可以是两个、三个、四个等等，本公开实施例对此不做具体的限制。针对不同幅度的运动情况，可以选取不同个数的参考样本视频帧。例如，对于打高尔夫而言，考虑到挥杆到击球的动作时长，这里可以选取目标样本视频帧后面的三个视频帧作为参考样本视频帧，以捕捉击球这个行为动作。

为了更好的捕捉有关目标对象的运动情况，本公开实施例首先可以确定目标样本视频帧与每个参考样本视频帧之间的匹配代价。这里的匹配代价可以指示的是目标样本视频帧与参考样本视频帧对应像素点之间的相关性，相关性越大，匹配代价越小，反之，相关性越小，匹配代价越大。由于这里是指针对目标样本视频帧后续的每个参考样本视频帧的匹配代价，从而可以很好的捕捉到有关目标对象在时间维度上的运动变化情况。

这里，可以针对不同的应用场景，选取不同的目标对象。例如，针对上述高尔夫击打场景而言，用户可以作为目标对象，针对上述道路交通场景，行人可以作为目标对象。

在确定有关目标对象在时间维度上的运动变化情况的情况下，本公开实施例还可以基于预设的多个空间搜索范围，捕捉有关目标对象在空间维度上的运动变化情况。

本公开实施例中，不同的空间搜索范围可以对应匹配代价的不同子匹配代价。子匹配代价可以表征目标对象在相应空间搜索范围内的运动变化情况，这样不同子匹配代价就可以反映目标对象在多个不同空间搜索范围内的运动变化情况，这进一步丰富了运动特征表达的多样性。

针对大幅度的运动情况(例如挥杆击球)，往往可以选取更大的空间搜索范围，针对小幅度的运动变化(例如行人走路)在较小的空间搜索范围往往也能够实现行为识别。

也即，本公开实施例通过对时间维度和空间维度的扩展，使得所生成的有关目标样本视频帧对应的运动特征信息可以更大程度地丰富运动特征的表达。更进一步地，基于目标样本视频帧的运动特征信息所训练的行为识别网络可以更好的捕捉待检测视频中有关目标对象的行为动作变化情况，使得行为识别的准确性更高。

在训练行为识别神经网络的过程中，往往需要更多数量的目标样本视频帧。在具体应用中，这里的目标样本视频帧可以是视频片段中的多个视频帧。针对每个视频帧可以确定对应的运动特征信息，将各个视频帧的运动特征信息作为待训练的行为识别神经网络的输入特征，将每个视频帧对应的标注结果作为待训练的行为识别神经网络的输出结果，可以训练得到行为识别神经网络。

考虑到匹配代价的确定对于特征提取的关键作用，这里首先可以对确定目标样本视频帧与参考样本视频帧之间的匹配代价的过程进行具体说明。

本公开实施例中可以按照如下步骤确定匹配代价：

步骤一、针对每个参考样本视频帧，将该参考样本视频帧以及目标样本视频帧输入到相似度计算神经网络中，确定目标样本视频帧中的每个像素点与该参考样本视频帧对应的像素范围内每个像素点之间的余弦相似度；

步骤二、针对目标样本视频帧中的每个像素点，按照每个参考样本视频帧对应的像素范围指示的像素点排列顺序，将确定的各个余弦相似度进行组合，得到组合结果；

步骤三、基于组合结果确定匹配代价。

这里，可以利用训练好的相似度计算神经网络实现匹配代价的确定，计算效率更高。

在存在T个参考样本视频帧的情况下，可以首先确定目标样本视频帧与任一参考样本视频帧的视频帧特征信息，例如分别对应为F^(t)和F^(t+τ)，

利用上述相似度计算神经网络所确定的匹配代价为S^τ，

其中，P表示计算匹配代价时所使用的空间搜索范围大小，τ代表时间的尺度，即若目标样本视频帧的采样时刻为t，那么参考样本视频帧的采样时刻相应为t+τ。这里，可以按照如下公式计算匹配代价：

S^τ(p₁,p₂)＝Sim(F^(t)(p₁),F^(t+τ)(p₂))

其中，Sim代表相似性度量函数，可以用余弦相似度进行度量。这里的p₁可以是目标样本视频帧中的任一像素点，这里的p₂可以是参考样本视频帧中对应像素点p₁的一个像素范围内的任一像素点，进而可以确定出匹配代价。

需要说明的是，上述相似性度量函数还可以采用内积操作进行度量。

本公开实施例中，将τ进行了拓展，拓展到T，相比常见的匹配代价只计算相邻帧，即时间跨度τ固定为1而言，使得匹配代价的计算可以跨帧，从而可以捕捉到更大时间跨度的运动特征信息。

基于上述描述内容，在存在T个参考样本视频帧的情况下，这里可以确定T个匹配代价{S¹,S²,...,S^τ}。

另外，考虑到子匹配代价的确定对于特征提取的关键作用，接下来可以对确定子匹配代价的过程进行详细描述。这里，可以通过如下步骤实现子匹配代价的确定：

步骤一、针对每个匹配代价，将确定该匹配代价时使用的空间搜索范围确定为第一个子匹配代价的第一个空间搜索范围；

步骤二、确定以第一个空间搜索范围中的指定位置为搜索起点位置，且搜索范围的大小与第一个空间搜索范围不同的至少一个其他空间搜索范围对应的子匹配代价。

这里，考虑到越大的空间搜索范围一定程度上可以提升搜索到大幅度动作变化的可能性，但需要的搜索时间相对较长，而越小的空间搜索范围一定程度上会降低搜索到大幅度动作变化的可能性，但需要的搜索时间相对较短。这里，为了兼顾搜索时间和搜索准确性，本公开实施例可以提供多个子匹配代价实现在不同空间搜索范围内对运动变换情况的搜索。

本公开实施例中，首先可以确定一个最大的空间搜索范围，也即一个匹配代价所使用的空间搜索范围，以保证在不考虑搜索时间的情况下，可以在最大搜索范围内搜索到有关目标对象的运动变化情况。

这里，可以在最大搜索范围内确定一些较小的其他空间搜索范围，并确定在这些其他空间搜索范围所对应的子匹配代价。

基于人眼注意力机制的原理，在观看一个视频帧时，往往会把注意力集中在视频帧的中心位置，因而，这里可以以第一个空间搜索范围的中心作为其他空间搜索范围的中心，以中心重合、搜索范围更小作为其他空间搜索范围的确定依据。

需要说明的是，上述以中心为搜索起点位置的搜索方式仅为一个具体的示例。在具体应用中，还可以以任意指定位置为搜索起点位置进行搜索，例如，可以第一个空间搜索范围指向的右下角位置进行搜索，本公开实施例对此不做具体的限制。

对于每一个匹配代价S^τ，可以提取出多个子匹配代价，有关多个子匹配代价的个数可以是预先设置的。这里，可以根据目标样本视频帧的尺寸来确定，尺寸越大的目标样本视频帧可以对应设置更多个数的子匹配代价，尺寸越小的目标样本视频帧可以对应设置更少个数的子匹配代价。除此之外，还可以结合其他

如图2所示为提取3个子匹配代价(对应

)。其中，

其中，H和W表示目标样本视频帧的长度和宽度，P_i表示子匹配代价的空间搜索范围大小，P₁为子匹配代价的第一空间搜索范围的大小(对应匹配代价的空间搜索范围)。

本公开实施例在确定其他空间搜索范围对应的子匹配代价的过程中，可以首先确定第一个空间搜索范围所对应的匹配代价长方体，进而可以针对预设的每个其他空间搜索范围，从确定的匹配代价长方体中确定与其他空间搜索范围对应的子匹配代价长方体。

如图2所示的第一个长方体(对应第一匹配代价长方体)可以对应的是第一个空间搜索范围。在其他空间搜索范围已经确定的情况下，可以确定其他空间搜索范围所对应的子匹配代价长方体，如图2所示的第二个长方体和第三个长方体。

这里以第二个长方体为例说明对应的子匹配代价的确定过程。第二个长方体的线点框对应第二个空间搜索范围，在第二个空间搜索范围确定的情况下，所对应子匹配代价长方体匹配的匹配代价矩阵值的查找位置得以确定。将查找到的匹配代价矩阵值进行组合，可得到与其他空间搜索范围对应的子匹配代价。第三个长方体所对应的子匹配代价与上述描述内容类似，在此不再赘述。

这里所得到的子匹配代价的其他空间搜索范围与上述第一空间搜索范围存在重合之处，且重合的各个位置处的匹配代价矩阵值是相同的，相邻位置处的匹配代价矩阵值之间的关系是一致的。

本公开实施例中，可以基于多个匹配代价分别对应的多个子匹配代价，生成目标样本视频帧对应的运动特征信息。在生成运动特征信息的情况下，可以先对子匹配代价进行特征转换，得到与子匹配代价对应的两个样本视频帧中的目标对象在对应的空间搜索范围内的运动特征信息。由于每个子匹配代价指向的是一个对应的空间搜索范围内两个样本视频帧对应的像素之间的相关性，该相关性可以表征目标对象的运动变化。这样，可以将每个子匹配代价转换后的运动特征信息，确定为目标样本视频帧对应的一个运动特征信息。

在具体应用中，一个匹配代价可以对应多个子匹配代价，每个子匹配代价对应一个转换后的运动特征信息，从而最终实现了匹配代价

至运动特征信息

之间的转换。

本公开实施例中可以利用特征转换神经网络上述特征转换。这主要是考虑到特征转换神经网络可以挖掘出更为深层次的运动特征，且直接利用神经网络进行特征转换在处理效率上也是比较高的。

为了提升所转换的运动特征信息的多样性，本公开实施例可以基于特征转换神经网络包括的两个子特征转换神经网络来实现有关运动特征信息的确定。具体可以通过如下步骤实现：

步骤一、针对匹配代价对应的每个子匹配代价中的目标子匹配代价，将目标子匹配代价分别输入到两个子特征转换神经网络中，得到第一转换后特征和第二转换后特征；两个子特征转换神经网络的网络运算操作不同；第一转换后特征和第二转换后特征的维度相同；

步骤二、将第一转换后特征和第二转换后特征进行求和运算，得到每个子匹配代价经过特征转换神经网络输出的运动特征信息。

这里，可以利用网络运算操作不同的两个子特征转换神经网络实现特征转换，在进行转换得到的第一转换后特征和第二转换后特征的求和运算的情况下，可以得到针对每个子匹配代价的运动特征信息。

本公开实施例中的网络运算操作不同可以指示的是不同的网络层数，也可以是相同的网络层数，但对应网络层的网络运算操作不同，还可以是其它不同的网络运算操作。

本公开实施例中，这里的第一转换后特征和第二转换后特征的维度可以相同。因而，在实际应用中，可以设置相同的网络层数，但对应网络层可以在不同的特征平面进行卷积操作。

需要说明的是，经过两个子特征转换神经网络的特征提取操作，所得到的第一转换后特征和第二转换后特征的维度可能是不同的。在具有不同维度的情况下，为了确保求和运算，可以先将第一转换后特征和第二转换后特征转化到同一维度。例如，可以选取一个特定维度，将两个转换后特征同步转换到这一维度；再如，可以对第一转换后特征进行转换，使得转换后的第一转换后特征与第二转换后特征的维度相同。

以任一个子匹配代价

为例，可以按照图3所示的流程对该子匹配代价进行特征转换。

对于维度为[P_i,P_i,H×W]的子匹配代价

而言，经过第一个子特征转换神经网络(对应G₁)可以先后进行3×3的深度卷积层的卷积操作(对应输出维度为[P_i,P_i,H×W])、转置层的转置操作(对应输出维度为[H×W,P_i,P_i])、1×1的逐点卷积层的卷积运算(对应输出维度为[H,W,C])，维度为[H,W,C]的特征指向的是第一转换后特征；针对第二个子特征转换神经网络(对应G₂)可以先后进行转置层的转置操作(对应输出维度为[H×W,P_i,P_i])、3×3的深度卷积层的卷积操作(对应输出维度为[H×W,P_i,P_i])、1×1的逐点卷积层的卷积运算(对应输出维度为[H,W,C])，维度为[H,W,C]的特征指向的是第二转换后特征。

这里，将上述维度为[H,W,C]的两个转换后特征进行求和运算，可以得到子匹配代价为

所转换后的运动特征信息

该运动特征信息

的维度为[H,W,C]。

考虑到不同子匹配代价所转换后的运动特征信息捕捉的是不同时间维度和不同空间维度下的运动变化，对于行为识别结果的影响程度并不相同，例如，有些时间维度和空间维度下的运动变化情况可以更准确的实现行为识别。基于此，本公开实施例提供了一种特征加权求和方式来训练行为识别神经网络的方案，具体可以通过如下步骤实现：

步骤一、确定针对每个子匹配代价转换后的运动特征信息所分配的重要度权重；

步骤二、将针对每个子匹配代价转换后的运动特征信息以及所分配的重要度权重进行加权求和，得到总运动特征信息；

步骤三、基于得到的总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络。

这里，为了确定针对每个子匹配代价转换后的运动特征信息所分配的重要度权重，本公开实施例可以基于重要度计算神经网络确定针对每个匹配代价对应的多个子匹配代价的重要度权重，而后将每个子匹配代价的重要度权重对应分配给每个子匹配代价转换后的运动特征信息，进而得到每个子匹配代价转换后的运动特征信息所分配的重要度权重。

本公开实施例中，可以将从目标样本视频帧以及与该目标样本视频帧相邻的连续多个参考样本视频帧中分别提取的视频帧特征信息作为重要度计算神经网络的输入，以得到每个匹配代价对应的多个子匹配代价的重要度权重。

其中，训练重要度计算神经网络的过程，即是训练输入的视频帧特征信息与每个匹配代价对应的多个子匹配代价的重要度权重之间的对应关系。

这里，给定目标样本视频帧和多个参考样本视频帧的视频帧特征信息{F^(t),F^(t ⁺¹⁾,...,F^(t+T)}，利用这些特征可以对前述每个子匹配代价转换后的运动特征信息进行重要性的估计，这里可以用重要度向量α,

表征3×T个运动特征信息的重要度权重。

在实际应用中，可以将T+1帧的视频帧特征信息在对应的特征维度上进行叠加，然后使用1×1的卷积对叠加的特征信息进行降维，得到维度为3×T的特征信息，最后通过空间池化操作得到向量α。

需要说明的是，这里的重要度向量不只局限于利用上述提供的方法来确定，亦可以采用其他操作的组合形式，例如先进行池化，然后通过全连接层进行维度转换，这里不做具体的限制。

本公开实施例中，在确定为每个子匹配代价转换后的运动特征信息所分配的重要度权重的情况下，可以基于加权求和操作，确定总运动特征信息以训练行为识别神经网络。

也即，在训练阶段，通过对多样化的运动特征信息进行加权，最大程度地利用所有运动特征信息，同时通过对运动特征加权，使得特征表达能力更强的运动特征信息可以为后续的行为识别提供更准确的数据支持。这里以每个匹配代价对应3个子匹配代价为例，可以按照如下公式进行加权求和操作：

其中，

用于表征归一化后的重要度向量，i代表空间的尺度，τ代表时间的尺度。在训练阶段得到加权后的运动特征

将其与对应的表观特征信息相叠加，送入后续的行为识别神经网络进行网络训练。

在进行网络训练的过程中，可以首先将表观特征信息和总运动特征信息输入到待训练的行为识别神经网络中，得到行为识别神经网络输出的针对目标样本视频帧的预测结果，在针对目标样本视频帧的预测结果与针对目标样本视频帧标注的有关目标行为动作的标注结果不匹配的情况下，可以调整特征转换神经网络、重要度计算神经网络以及待训练的行为识别神经网络中的一者或多者神经网络的网络参数值，直至针对目标样本视频帧的预测结果与针对目标样本视频帧标注的有关目标行为动作的标注结果匹配的情况下，得到训练好的神经网络。

可见，本公开实施例在进行行为识别神经网络训练的过程中，可以同步对上述进行特征转换的特征转换神经网络以及进行重要度计算的重要度计算神经网络进行训练。这里，可以调整其中一个神经网络的网络参数值，也可以同步调整其中两个神经网络的网络参数值，也可以对上述三个神经网络的网络参数值进行同步调整，以达到多个神经网络的同步训练，训练效率更高，且所训练得到的神经网络的鲁棒性更佳。

基于训练好的行为识别神经网络而言，本公开实施例可以实现针对待检测视频的行为识别，具体可以通过如下步骤来实现：

步骤一、获取待检测视频；其中，待检测视频包括待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧；

步骤二、确定待识别视频帧分别与多个参考视频帧之间的匹配代价；以及，将从待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧中分别提取的视频帧特征信息输入到重要度计算神经网络中，得到重要度计算神经网络输出的针对每个匹配代价对应的多个待确定子匹配代价的重要度权重；

步骤三、基于确定的每个匹配代价，确定最大的重要度权重所对应的待确定子匹配代价，得到确定后的子匹配代价；

步骤四、利用训练好的行为识别神经网络以及确定后的子匹配代价，确定针对待识别视频帧的行为识别结果。

这里，首先需要确定待识别视频帧分别与多个参考视频帧之间的匹配代价，有关匹配代价的确定过程可以参照上述目标样本视频帧与参考样本视频者之间的匹配代价的确定过程，在此不再赘述。

除此之外，本公开实施例还可以基于重要度计算神经网络，确定针对每个匹配代价对应的多个待确定子匹配代价的重要度权重。基于确定的重要度权重可以确定具体对哪个子匹配代价进行计算，以直接找到最优的运动特征信息。也即，本公开实施例通过计算重要度权重，可以针对待识别视频帧确定最佳时空尺度下的运动特征信息(即最佳运动特征信息)。具体可以通过如下公式来实现：

其中，τ^*与i^*为满足argmax(α)条件的τ和i，表征了在重要度权重最大的情况下，最佳的时间尺度和空间尺度，

为对应的最佳运动特征信息。

在具体应用中，可以通过将计算后的子匹配代价输入至训练好的特征转换神经网络，得到上述最佳运动特征信息。

这样，在从待识别视频帧中提取出表观特征信息的情况下，将得到的运动特征信息以及提取的表观特征信息输入到训练好的行为识别神经网络中，得到待识别视频帧针对每种预设行为动作的预测概率，这里，可以将预测概率中最大预测概率对应的预设行为动作确定为针对待识别视频帧的行为识别结果。

需要说明的是，本公开实施例提供的特征提取的方法不仅可以应用于行为识别技术领域，还可以应用于视频检索，视频分割，视频检测等领域。运用上述特征提取的方法，可以增强对视频数据的运动表达能力，从而提升目标任务的性能。

在按照上述实施例提供的特征提取的方法提取到各个目标样本视频帧对应的运动特征信息，并利用提取得到的运动特征信息训练得到行为识别神经网络的情况下，可以对待检测视频进行行为识别。

参见图4所示，为本公开实施例提供的行为识别的方法的流程图，方法包括步骤S401～S404，其中：

S401：获取待检测视频；其中，待检测视频包括待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧；

S402：确定待识别视频帧分别与多个参考视频帧之间的匹配代价；以及，将从待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧中分别提取的视频帧特征信息输入到重要度计算神经网络中，得到重要度计算神经网络输出的针对每个匹配代价对应的多个待确定子匹配代价的重要度权重；

S403：基于确定的每个匹配代价，确定最大的重要度权重所对应的待确定子匹配代价，得到确定后的子匹配代价；

S404：利用训练好的行为识别神经网络以及确定后的子匹配代价，确定针对待识别视频帧的行为识别结果。

这里，首先需要确定待识别视频帧分别与多个参考视频帧之间的匹配代价，有关匹配代价的确定过程可以参照上述特征提取的方法中的相关描述，在此不再赘述。

除此之外，本公开实施例还可以基于重要度计算神经网络，确定针对每个匹配代价对应的多个待确定子匹配代价的重要度权重。基于确定的重要度权重可以确定具体对哪个子匹配代价进行计算，以直接找到最优的运动特征信息，有关确定最优的运动特征信息的具体过程参见上述描述内容，在此不再赘述。

这里，利用上述特征提取的方法生成的目标样本视频帧对应的运动特征信息所训练好的行为识别神经网络，以及上述最优的运动特征信息可以实现高准确性的行为识别，且识别效果更高。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与上述方法对应的装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图5所示，为本公开实施例提供的一种特征提取的装置的示意图，装置包括：获取模块501、第一确定模块502、第二确定模块503和生成模块504；其中，

获取模块501，用于获取目标样本视频帧以及与该目标样本视频帧相邻的连续多个参考样本视频帧；

第一确定模块502，用于确定目标样本视频帧分别与多个参考样本视频帧之间的匹配代价；

第二确定模块503，用于根据预设的多个空间搜索范围，确定每个匹配代价在多个空间搜索范围内分别对应的子匹配代价；

生成模块504，用于基于多个匹配代价分别对应的多个子匹配代价，生成目标样本视频帧对应的运动特征信息；其中，目标样本视频帧的运动特征信息，用于训练对待检测视频进行行为识别的行为识别神经网络。

本公开实施例中，首先可以确定目标样本视频帧与每个参考样本视频帧之间的匹配代价，匹配代价越小，一定程度上可以说明对应的目标样本视频帧和参考样本视频帧中对应的像素之间的相关性大，进而可以在时间维度上描述目标对象的运动变化。除此之外，在确定每个匹配代价在多个空间搜索范围内分别对应的子匹配代价的情况下，可以实现在空间维度上对目标对象的运动变化进行描述，这样所生成的有关目标样本视频帧对应的运动特征信息更为全面，进而使得基于运动特征信息所训练的行为识别神经网络的识别准确性较高。

在一种可能的实施方式中，第二确定模块503，用于按照以下步骤根据预设的多个空间搜索范围，确定每个匹配代价在多个空间搜索范围内分别对应的子匹配代价：

确定以第一个空间搜索范围中的指定位置为搜索起点位置，且搜索范围的大小与第一个空间搜索范围不同的至少一个其他空间搜索范围对应的子匹配代价。

在一种可能的实施方式中，指定位置为第一个空间搜索范围的中心。

在一种可能的实施方式中，第二确定模块503，用于按照如下步骤确定至少一个其他空间搜索范围对应的子匹配代价：

确定第一个空间搜索范围所对应的匹配代价长方体；

针对其他空间搜索范围中的目标空间搜索范围，从确定的匹配代价长方体中确定与目标空间搜索范围对应的子匹配代价长方体；从第一个子匹配代价包含的各个匹配代价矩阵值中查找与确定的子匹配代价长方体匹配的匹配代价矩阵值；将查找到的匹配代价矩阵值进行组合，得到与目标空间搜索范围对应的子匹配代价；

将得到的与目标空间搜索范围对应的子匹配代价，确定为其他空间搜索范围对应的子匹配代价。

在一种可能的实施方式中，生成模块504，用于按照以下步骤基于多个匹配代价分别对应的多个子匹配代价，生成目标样本视频帧对应的运动特征信息：

针对匹配代价对应的每个子匹配代价中的目标子匹配代价，将目标子匹配代价转换为对应的两个样本视频帧中的目标对象在对应的空间搜索范围内的运动特征信息，以得到目标子匹配代价转换后的运动特征信息；

将目标子匹配代价转换后的运动特征信息，确定为目标样本视频帧对应的一个运动特征信息。

在一种可能的实施方式中，生成模块504，用于按照以下步骤针对匹配代价对应的每个子匹配代价中的目标子匹配代价，将目标子匹配代价转换为对应的两个样本视频帧中的目标对象在对应的空间搜索范围内的运动特征信息：

针对匹配代价对应的每个子匹配代价中的目标子匹配代价，将目标子匹配代价输入至特征转换神经网络，得到特征转换神经网络输出的运动特征信息；

基于得到的运动特征信息确定目标子匹配代价转换后的运动特征信息。

在一种可能的实施方式中，特征转换神经网络包括两个子特征转换神经网络；生成模块504，用于按照以下步骤针对匹配代价对应的每个子匹配代价中的目标子匹配代价，将目标子匹配代价输入至特征转换神经网络，得到特征转换神经网络输出的运动特征信息：

针对匹配代价对应的每个子匹配代价中的目标子匹配代价，将目标子匹配代价分别输入到两个子特征转换神经网络中，得到第一转换后特征和第二转换后特征；两个子特征转换神经网络的网络运算操作不同；第一转换后特征和第二转换后特征的维度相同；

将第一转换后特征和第二转换后特征进行求和运算，得到每个子匹配代价经过特征转换神经网络输出的运动特征信息。

在一种可能的实施方式中，上述装置还包括：

训练模块505，用于：

确定针对每个子匹配代价转换后的运动特征信息所分配的重要度权重；

将针对每个子匹配代价转换后的运动特征信息以及所分配的重要度权重进行加权求和，得到总运动特征信息；

基于得到的总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络。

在一种可能的实施方式中，训练模块505，用于按照如下步骤确定针对每个子匹配代价转换后的运动特征信息所分配的重要度权重：

从目标样本视频帧以及与该目标样本视频帧相邻的连续多个参考样本视频帧中分别提取对应的视频帧特征信息；

将提取的视频帧特征信息输入到重要度计算神经网络中，得到重要度计算神经网络输出的针对每个匹配代价对应的多个子匹配代价的重要度权重；

针对每个匹配代价对应的每个子匹配代价，将每个子匹配代价的重要度权重对应分配给每个子匹配代价转换后的运动特征信息，得到每个子匹配代价转换后的运动特征信息所分配的重要度权重。

在一种可能的实施方式中，训练模块505，用于按照如下步骤基于得到的总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络：

从目标样本视频帧中提取表观特征信息；

基于提取的表观特征信息和得到的总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络。

在一种可能的实施方式中，训练模块505，用于按照如下步骤基于提取的表观特征信息和得到的总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络：

将提取的表观特征信息和得到的总运动特征信息输入到待训练的行为识别神经网络中，得到行为识别神经网络输出的针对目标样本视频帧的预测结果；

在针对目标样本视频帧的预测结果与针对目标样本视频帧标注的有关目标行为动作的标注结果不匹配的情况下，调整特征转换神经网络、重要度计算神经网络以及待训练的行为识别神经网络中的一者或多者神经网络的网络参数值；

直至针对目标样本视频帧的预测结果与针对目标样本视频帧标注的有关目标行为动作的标注结果匹配的情况下，得到训练好的神经网络。

在一种可能的实施方式中，上述装置还包括：

识别模块506，用于：

在得到训练好的行为识别神经网络之后，获取待检测视频；其中，待检测视频包括待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧；

确定待识别视频帧分别与多个参考视频帧之间的匹配代价；以及，将从待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧中分别提取的视频帧特征信息输入到重要度计算神经网络中，得到重要度计算神经网络输出的针对每个匹配代价对应的多个待确定子匹配代价的重要度权重；

在一种可能的实施方式中，识别模块506，用于按照以下步骤利用训练好的行为识别神经网络以及计算后的子匹配代价，确定针对待识别视频帧的行为识别结果：

在从待识别视频帧中提取出表观特征信息的情况下，将得到的运动特征信息以及提取的表观特征信息输入到训练好的行为识别神经网络中，得到待识别视频帧针对每种预设行为动作的预测概率；

将预测概率中最大预测概率对应的预设行为动作确定为针对待识别视频帧的行为识别结果。

在一种可能的实施方式中，第一确定模块502，用于按照以下步骤确定目标样本视频帧分别与多个参考样本视频帧之间的匹配代价：

针对每个参考样本视频帧，将该参考样本视频帧以及目标样本视频帧输入到相似度计算神经网络中，确定目标样本视频帧中的每个像素点与该参考样本视频帧对应的像素范围内每个像素点之间的余弦相似度；

针对目标样本视频帧中的每个像素点，按照每个参考样本视频帧对应的像素范围指示的像素点排列顺序，将确定的各个余弦相似度进行组合，得到组合结果；

基于组合结果确定匹配代价。

参照图6所示，为本公开实施例提供的一种行为识别的装置的示意图，装置包括：获取模块601、第一确定模块602、第二确定模块603和识别模块604；其中，

获取模块601，用于获取待检测视频；其中，待检测视频包括待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧；

第一确定模块602，用于确定待识别视频帧分别与多个参考视频帧之间的匹配代价；以及，将从待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧中分别提取的视频帧特征信息输入到重要度计算神经网络中，得到重要度计算神经网络输出的针对每个匹配代价对应的多个待确定子匹配代价的重要度权重；

第二确定模块603，用于基于确定的每个匹配代价，确定最大的重要度权重所对应的待确定子匹配代价，得到确定后的子匹配代价；

识别模块604，用于利用训练好的行为识别神经网络以及确定后的子匹配代价，确定针对待识别视频帧的行为识别结果。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种电子设备，如图7所示，为本公开实施例提供的电子设备结构示意图，包括：处理器701、存储器702、和总线703。存储器702存储有处理器701可执行的机器可读指令(比如，图5中的装置中获取模块501、第一确定模块502、第二确定模块503、生成模块504对应的执行指令等)，当电子设备运行时，处理器701与存储器702之间通过总线703通信，机器可读指令被处理器701执行时执行如下处理：

确定目标样本视频帧分别与多个参考样本视频帧之间的匹配代价；

根据预设的多个空间搜索范围，确定每个匹配代价在多个空间搜索范围内分别对应的子匹配代价；

基于多个匹配代价分别对应的多个子匹配代价，生成目标样本视频帧对应的运动特征信息；其中，目标样本视频帧的运动特征信息，用于训练对待检测视频进行行为识别的行为识别神经网络。

本公开实施例还提供了一种电子设备，如图8所示，为本公开实施例提供的电子设备结构示意图，包括：处理器801、存储器802、和总线803。存储器802存储有处理器801可执行的机器可读指令(比如，图6中的装置中获取模块601、第一确定模块602、第二确定模块603、识别模块604对应的执行指令等)，当电子设备运行时，处理器801与存储器802之间通过总线803通信，机器可读指令被处理器801执行时执行如下处理：

获取待检测视频；其中，待检测视频包括待识别视频帧以及与待识别视频帧相邻的连续多个参考视频帧；

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种行为识别的方法，其特征在于，所述方法包括：

利用训练好的行为识别神经网络以及确定后的子匹配代价，确定针对所述待识别视频帧的行为识别结果。

2.一种特征提取的方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设的多个空间搜索范围，确定每个所述匹配代价在多个空间搜索范围内分别对应的子匹配代价，包括：

针对每个匹配代价，将确定该匹配代价时使用的空间搜索范围确定为第一个子匹配代价的第一个空间搜索范围；

4.根据权利要求3所述的方法，其特征在于，所述指定位置为所述第一个空间搜索范围的中心。

5.根据权利要求3或4所述的方法，其特征在于，按照如下步骤确定所述至少一个其他空间搜索范围对应的子匹配代价：

确定所述第一个空间搜索范围所对应的匹配代价长方体；

6.根据权利要求2-5任一所述的方法，其特征在于，所述基于多个所述匹配代价分别对应的多个子匹配代价，生成所述目标样本视频帧对应的运动特征信息，包括：

7.根据权利要求6所述的方法，其特征在于，所述针对所述匹配代价对应的每个子匹配代价中的目标子匹配代价，将所述目标子匹配代价转换为对应的两个样本视频帧中的目标对象在对应的空间搜索范围内的运动特征信息，包括：

8.根据权利要求7所述的方法，其特征在于，所述特征转换神经网络包括两个子特征转换神经网络；所述针对所述匹配代价对应的每个子匹配代价中的目标子匹配代价，将所述目标子匹配代价输入至特征转换神经网络，得到特征转换神经网络输出的运动特征信息，包括：

将所述第一转换后特征和第二转换后特征进行求和运算，得到特征转换神经网络输出的运动特征信息。

9.根据权利要求7或8所述的方法，其特征在于，按照如下步骤训练对待检测视频进行行为识别的行为识别神经网络：

10.根据权利要求9所述的方法，其特征在于，按照如下步骤确定针对每个所述子匹配代价转换后的运动特征信息所分配的重要度权重：

11.根据权利要求9或10所述的方法，其特征在于，所述基于得到的所述总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络，包括：

从所述目标样本视频帧中提取表观特征信息；

12.根据权利要求11所述的方法，其特征在于，所述基于提取的所述表观特征信息和得到的所述总运动特征信息对待训练的行为识别神经网络进行训练，得到训练好的行为识别神经网络，包括：

13.根据权利要求2-12任一所述的方法，其特征在于，在得到训练好的行为识别神经网络之后，所述方法还包括：

14.根据权利要求13所述的方法，其特征在于，所述利用训练好的行为识别神经网络以及计算后的子匹配代价，确定针对待识别视频帧的行为识别结果，包括：

15.根据权利要求2-14任一所述的方法，其特征在于，所述确定所述目标样本视频帧分别与所述多个参考样本视频帧之间的匹配代价，包括：

基于所述组合结果确定所述匹配代价。

16.一种行为识别的装置，其特征在于，所述装置包括：

识别模块，用于利用训练好的行为识别神经网络以及确定后的子匹配代价，确定针对所述待识别视频帧的行为识别结果。

17.一种特征提取的装置，其特征在于，所述装置包括：

18.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1所述的行为识别的方法的步骤，或者如权利要求2至15任一所述的特征提取的方法的步骤。

19.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1所述的行为识别的方法的步骤，或者如权利要求2至15任一所述的特征提取的方法的步骤。