CN113673557A

CN113673557A - 特征处理方法、动作定位方法及相关设备

Info

Publication number: CN113673557A
Application number: CN202110786286.0A
Authority: CN
Inventors: 余言勋; 王亚运; 杨雪峰
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-11-19

Abstract

本申请公开了一种图像特征处理方法、动作定位方法、电子设备及计算机可读存储介质。该特征处理方法包括：获取图像或图像序列的待处理特征；分别对待处理特征进行至少两个维度转换操作，得到不同维度的至少两个第一特征；基于注意力机制，确定各个第一特征的注意力处理参考值；并基于对应的注意力处理参考值，分别对各个第一特征进行处理，得到各个第一特征各自对应的第二特征；对各个第二特征进行融合处理，得到待处理特征对应的目标特征。通过上述方式，能够提高相关图像的特征的信息表达能力。

Description

特征处理方法、动作定位方法及相关设备

技术领域

本申请涉及图像处理领域，特别是涉及一种图像特征处理方法、动作定位方法、电子设备及计算机可读存储介质。

背景技术

随着科技和经济的快速发展，每天都会产生大量图像或视频数据，这些图像或视频数据蕴含着巨大的价值。在医疗、工业、金融、教育等领域，经常会存在对图像或视频数据进行分析的情况。其中，对图像或视频数据进行分析的过程大致可以描述为提取图像或视频数据的特征，对特征分析，得到分析结果。

然而，特征不能充分表达图像或视频数据的原始信息，会影响后续分析结果的准确度；因此，亟需一种特征处理方法来提高特征的信息表达能力。

发明内容

本申请提供一种图像特征处理方法、动作定位方法、电子设备及计算机可读存储介质，能够提高图像/图像序列的特征的信息表达能力。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种图像特征处理方法。该方法包括：获取图像或图像序列的待处理特征；分别对待处理特征进行至少两个维度转换操作，得到不同维度的至少两个第一特征；基于注意力机制，确定各个第一特征的注意力处理参考值；并基于对应的注意力处理参考值，分别对各个第一特征进行处理，得到各个第一特征各自对应的第二特征；对各个第二特征进行融合处理，得到待处理特征对应的目标特征。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种动作定位方法，该方法包括：将目标视频中待检测动作的特征，确定为待处理特征；利用前述特征处理方法对待处理特征进行处理，得到目标特征；基于目标特征，确定目标视频中待检测动作的视频帧定位信息；其中，视频帧定位信息用于表示目标视频中包含待检测动作的视频帧。

为解决上述技术问题，本申请采用的再一个技术方案是：提供一种电子设备，该电子设备包括处理器、与处理器连接的存储器，其中，存储器存储有程序指令；处理器用于执行存储器存储的程序指令以实现上述方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机可读存储介质，存储有程序指令，该程序指令被执行时能够实现上述方法。

通过上述方式，本申请先将待处理特征转换为不同维度的至少两个第一特征；基于注意力机制分别确定各个第一特征的注意力处理参考值；并基于对应的注意力处理参考值，分别对各个第一特征进行处理，得到各个第一特征各自对应的第二特征；对各个第二特征进入融合得到目标特征。由于不同维度的第一特征为待处理特征在不同的空间信息，能够从不同角度来描述待处理特征，使待处理特征有更强的泛化能力，因此进一步对多个第一特征处理得到多个第二特征，再对多个第二特征进行融合得到的目标特征，相对于待处理特征来说，能够更好地表达图像或图像序列的信息，即提高了图像或图像序列的信息表达能力。另外，将该特征处理方法应用于图像序列时，目标特征还能够更好地表达图像序列中不同的图像之间的信息。

附图说明

图1是本申请图像特征处理方法一实施例的流程示意图；

图2是本申请图像特征处理方法另一实施例的流程示意图；

图3是本申请获取注意力处理参考值的结构示意图；

图4是本申请特征处理的结构示意图；

图5是本申请动作定位方法一实施例的流程示意图；

图6是本申请动作定位方法另一实施例的流程示意图；

图7是图6中S233的具体流程示意图；

图8是本申请动作定位网络的一结构示意图；

图9是本申请电子设备一实施例的结构示意图；

图10是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，在不冲突的情况下，本文所描述的实施例可以与其它实施例相结合。

图1是本申请图像特征处理方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施例可以包括：

S11：获取图像或图像序列中待检测动作的待处理特征。

待处理特征为图像或图像序列的整体特征，其中可能包含待检测动作，也可能不包含待检测动作。可以利用具有特征提取能力的网络或者模型获取待处理特征。例如TSN模型。

S12：分别对待处理特征进行至少两个维度转换操作，得到不同维度的至少两个第一特征。

不同维度的第一特征可以从不同的角度来描述待处理特征。对待处理特征进行维度转换操作可以是依序利用全连接层、非线性激活层(例如relu)对待处理特征进行处理，得到对应的第一特征。

S13：基于注意力机制，确定各个第一特征的注意力处理参考值；并基于对应的注意力处理参考值，分别对各个第一特征进行处理，得到各个第一特征各自对应的第二特征。

注意力机制可以为自注意力机制，也可以为其他类型的注意力机制。可以对各个第一特征与对应的注意力处理参考值进行加权处理，得到各个第一特征对应的所述第二特征。基于对应的注意力处理参考值对第一特征处理，能够加强第一特征中的重要区域，即有利于后续对待检测动作进行识别的区域。

S14：对各个第二特征进行融合处理，得到待处理特征对应的目标特征。

目标特征与待处理特征的维度可以一致，也可以不一致。下面对一致的情况下融合处理的过程进行说明：

在一种实现方式下，融合处理的过程可以为，对多个第二特征进行拼接，再对拼接结果进行特征提取，得到目标特征。

在另一种实现方式下，融合处理的过程可以为，对各个第二特征进行拼接，得到拼接特征；对拼接特征进行维度转换操作，得到目标特征。

通过本实施例的实施，本申请先将待处理特征转换为不同维度的至少两个第一特征；基于注意力机制分确定各个第一特征的注意力处理参考值；并基于对应的注意力处理参考值，分别对各个第一特征进行处理，得到各个第一特征各自对应的第二特征；对各个第二特征进入融合得到目标特征。由于不同维度的第一特征为待处理特征在不同的空间信息，能够从不同角度来描述待处理特征，使待处理特征有更强的泛化能力，因此进一步对多个第一特征处理得到多个第二特征，再对多个第二特征进行融合得到的目标特征，相对于待处理特征来说，能够更好地表达图像或图像序列的信息，即提高了图像或图像序列的特征的信息表达能力。另外，将该特征处理方法应用于图像序列时，目标特征还能够更好地表达图像序列中不同的图像之间的信息。

图2是本申请图像特征处理方法另一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。本实施例是对S13的进一步扩展，如图2所示，本实施例可以包括：

S131：对第一特征进行转换，得到与第二特征维度相同的第三特征和第四特征。

其中，第三特征、第四特征、第一特征的维度相同。

S132：对第三特征和第四特征进行相乘处理，得到第五特征。

S133：对第五特征进行归一化处理，得到归一化结果，并利用第一特征和归一化结果得到第一特征的注意力处理参考值。

下面结合图3，以一个例子的形式对S131-S133进行说明：

如图3所示，将第一特征F输入到两个全连接层W1’、W2’，再经过两个非线性激活层relu，得到两个维度和F一致的第三特征F1和第四特征F2，将F1的转置F1’与F2进行矩阵相乘(相乘的形式可以是哈达马积“*”，也可以是克罗内克积

后文以克罗内克积为例)得到第五特征F3，F3所属特征空间为R^d×d，计算过程如下：

然后使用softmax操作对F3沿着最后一个维度进行softmax操作，进行归一化，得到归一化结果。计算公式如下，其中E_i，j表示F3中第i行第j列的元素：

再使用F与经过softmax计算之后的F3进行矩阵相乘，得到F的注意力处理参考值A所属特征空间为R^n×d，计算过程如下：

下面结合图4，以一个例子的形式对本申请提供的图像特征处理方法进行说明：

如图4所示，待处理特征经过三个全连接层W1、W2和W3被转换为三个第一特征，记为S1、S2和S3。计算过程如下：

通过特征注意力生成模块分别计算S1、S2和S3的注意力处理参考值，记为A1、A2和A3。

为S1、S2和S3分别设置对应的第一学习参数和第二学习参数，第一学习参数记为a1、a2和a3，第二学习参数记为b1、b2和b3。

分别获取A1、A2和A3与对应的第一学习参数a1、a2和a3的乘积，记为A1×a1、A2×a2和A3×a3。

分别将S1、S2和S3与对应的乘积的和，记为S1+A1×a1、S2+A2×a2和S3+A3×a3。

分别将和与对应的第二学习参数相乘，得到对应的第二特征，记为(S1+A1×a1)×b1、(S2+A2×a2)×b2和(S2+A2×a2)×b2。

对多个第二特征进行拼接，并将拼接得到的特征依序经过一个全连接层和非线性激活层，得到目标特征。

上述特征处理方法可以被称为利用多特征注意力机制对待处理特征进行处理的过程。且上述过程可以应用在任何需要对待检测动作进行识别的场景。故其他实施例中，在上述S14之后还可以包括：基于目标特征，对待检测动作进行识别。

其中，对待检测动作进行识别可以是识别图像或者图像序列中是否存在该待检测动作，也可以是对该待检测动作进行分类，也可以对待检测动作进行定位，即确定图像序列(视频)中包含待检测动作的图像(视频帧)等等。

本申请后文以将上述特征处理方法应用于动作定位场景进行说明。

图5是本申请动作定位方法一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图5所示的流程顺序为限。如图5所示，本实施例可以包括：

S21：将目标视频中待检测动作的特征，确定为待处理特征。

目标视频可能包含动作(一类或多类)，也可能不包含动作。目标视频中包含的动作均会被视为待检测动作，故本申请动作定位方法旨在获取目标视频中存在的每个动作的定位信息。待处理特征包含了目标视频中各个视频帧以及各个视频帧之间的信息。并且，待处理特征可以包括RGB特征和/或光流特征。

可以利用具有特征提取能力的模型或网络获取待处理特征。例如，利用TSN模型获取目标视频的待处理特征。另外，在进入后续步骤之前，需要利用线性插值等方式将待处理特征进行缩放，以将待处理特征统一为固定的长度L。

在得到待处理特征之后，可以将待处理特征输入动作定位网络进行处理，以利用动作定位网络基于待处理特征定位目标视频中的目标动作。即，S22和S23均在动作定位网络进行。或者，在得到待处理特征之后，利用特征处理网络对待处理特征处理得到目标特征，再利用动作定位网络基于目标特征定位目标视频中的待检测动作。即，S22和S23在不同的网络进行。

S22：利用特征处理方法对待处理特征进行处理，得到目标特征。

本步骤所指特征处理方法即为前面实施例提供的特征处理方法。因此，目标特征能够更好地表达目标视频中各个视频帧以及各视频帧之间的信息。

S23：基于目标特征，确定目标视频中待检测动作的视频帧定位信息。

其中，视频帧定位信息用于表示目标视频中包含待检测动作的视频帧。

通过本实施例的实施，本申请是基于目标视频中的第一目标特征进行定位，而第一目标特征是基于前述特征处理方法得到的，能够更好地表达目标视频的帧内信息和帧间信息，进而得到的定位信息更加准确。

目标视频对应有预设的候选视频帧集，候选视频帧集包括多个候选视频帧。候选视频帧集中每个候选视频帧的表示方式为候选视频帧的标识，该标识可以是帧序号，也可以是对应的时间。候选视频帧集中多个候选视频帧可以组成多个视频片段，多个视频片段中的有效视频片段的起始视频帧的时序应早于结束视频帧的时序。

视频帧定位信息即为视频片段的定位信息，其可以包括候选视频帧集中多个候选视频帧能够组成的所有视频片段的定位信息，或者可以仅包括有效视频片段的定位信息，又或者可以仅包括有效视频片段中的部分视频片段(后文称为目标视频片段)的定位信息。后面实施例以仅包括目标视频片段的定位信息为例进行说明。

以下对S23具体如何实现定位的过程进行说明：

图6是本申请动作定位方法另一实施例的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图6所示的流程顺序为限。本实施例是对S23的进一步扩展。如图6所示，本实施例可以包括：

S231：基于目标特征，确定针对目标视频预设的候选视频帧集中，各个候选视频帧为参考视频帧的估计值。

参考视频帧可以包括起始视频帧和/或结束视频帧。起始视频帧即为出现待检测动作的视频片段的第一个视频帧，结束视频帧即为出现待检测动作的视频片段的最后一个视频帧。估计值代表候选视频帧为参考视频帧的可能性，估计值与可能性正相关。

若参考视频帧既包括起始视频帧又包括结束视频帧，估计值包括第一估计值和第二估计值，则可以基于目标特征，预测各个候选视频帧为起始视频帧的第一估计值，以及各个候选视频帧为结束视频帧的第二估计值。

其中，可以直接对目标特征进行预测，得到各个候选视频帧的第一估计值和第二估计值。

或者，为了提高预测准确度，可以将目标特征确定为新的待处理特征，利用前述特征处理方法对新的待处理特征进行处理，得到新的目标特征，对新的目标特征进行预测，得到各个候选视频帧的第一估计值和第二估计值。

S232：基于各个估计值，从候选视频帧集中选取部分候选视频帧。

若参考视频帧仅包括起始视频帧，则基于各个候选视频帧的第一估计值选取部分候选起始视频帧；若参考视频帧仅包括结束视频帧，则基于各个候选视频帧的第二估计值选取部分候选结束视频帧；若参考视频帧既包括起始视频帧又包括结束视频帧，则基于各个候选视频帧的第一估计值和第二估计值选取部分候选起始视频帧和候选结束视频帧。

基于第一估计值选取候选起始视频帧的情况下，选取条件为第一条件，基于第二估计值选取候选结束视频帧的情况下，选取条件为第二条件。第一条件可以为第一估计值大于第一估计阈值，或者可以为在所有候选视频帧的第一估计值按照从大到小的顺序排列时序号靠前等。相应地，第二条件可以为第二估计值大于第二估计阈值，或者可以为在所有候选视频帧的第二概率中按照从大到小的顺序排列时序号靠前等。

S233：基于选取的候选视频帧，得到视频帧定位信息。

本实施例所指视频帧定位信息即目标视频片段的定位信息。

若参考视频帧仅包括起始视频帧，则目标视频片段为以候选起始视频帧为起始视频帧，目标视频的最后一个视频帧为结束视频帧的视频片段。目标视频片段的定位信息可以包括起始视频帧的第一估计值。

若参考视频帧仅包括结束视频帧，则目标视频片段为以目标视频的第一个视频帧为起始视频帧，候选结束视频帧为结束视频帧的视频片段。目标视频片段的定位信息可以包括结束视频帧的第二估计值。

若参考视频帧包括起始视频帧和结束视频帧，则可以从选取的候选起始视频帧和候选结束视频帧中，选取满足至少一个目标视频片段的定位条件的候选起始视频帧和候选结束视频帧；其中，一个目标视频片段的定位条件包括一个候选起始视频帧与一个候选结束视频帧，且一个候选起始视频帧在目标视频中的时序早于一个候选结束视频帧。基于满足各个目标视频片段的定位条件的候选起始视频帧和候选结束视频帧，确定视频帧定位信息。

也就是说，将选取的候选起始视频帧和候选结束视频帧能够组成的视频片段中的有效视频片段视为满足定位条件的视频片段，并作为目标视频片段；基于目标视频片段的起始视频帧和结束视频帧确定目标视频片段的定位信息。其中，目标视频片段的定位信息可以包括起始视频帧的第一估计值和结束视频帧的第二估计值。

另外，在其他实施例中，目标视频片段的定位信息除了可以包括估计值之外，还可以包括评估值。以参考视频帧包括起始视频帧和结束视频帧为例进行说明。

结合参阅图7，若参考视频帧包括起始视频帧和结束视频帧，那么基于满足各个目标视频片段的定位条件的候选起始视频帧和候选结束视频帧，确定视频帧定位信息，还可以包括：

S2331：基于目标特征，获取各个目标视频片段对应的区域特征。

目标视频片段对应的区域特征为目标视频片段包括的视频帧在目标特征中对应的特征。

S2332：基于对应的区域特征对各个目标视频片段进行识别，得到各个目标视频片段的动作评估值。

动作评估值可以包括第一评估值和/或第二评估值，第一评估值用于表示目标视频片段是否存在待检测动作，第二评估值用于表示目标视频片段中待检测动作的完整程度。其中，第一评估值越大，意味着目标视频片段越可能存在视频片段；第二评估值越大，意味着目标视频片段中越待检测动作的完整程度越高。

在参考视频帧仅包括起始视频帧或者结束视频帧的情况下，评估值的获取过程与参考视频帧包括起始视频帧和结束视频帧的情况类似，因此不赘述。

此外，如果到同一类待检测动作对应的目标视频片段可能不只一个，那么可能出现以下情况：

情况1：同一类待检测动作可能对应多个重复的定位信息。即，得到的多个目标视频片段确实均存在该待检测动作，但是有一些定位得到的目标视频片段的长度小于实际存在的目标视频片段时间段长度，即存在的待检测动作不完整。

情况2：由于预测的第一估计值/第二估计值的精度不足，导致有些目标视频片段实际上不存在该待检测动作。

为此，在S233中，还可以基于动作评估值对目标时间片段进行筛选，筛选的方式包括但不限于非极大值抑制算法，并将筛选得到的目标时间段作为最终的目标视频片段，由此S233中得到的视频帧定位信息为最终的目标视频片段的定位信息。其中，可以将第一评估值大于第一阈值的目标视频片段，确定为最终的目标视频片段。或者，可以将第二评估值大于第二阈值的目标视频片段，确定为最终的目标视频片段。或者，可以将第一评估值大于第一阈值且第二评估值大于第二阈值的目标视频片段，确定为最终的目标视频片段。

下面结合图8，以一个例子的形式对本申请提供的动作定位方法进行说明：

将目标视频的待处理特征输入(input)动作定位网络。

依序利用(Conv1d，k：3，out：256，Relu)、(Conv1d，k：3，out：256，Relu)、多特征注意力机制(即特征处理方法)对待处理特征进行处理，得到目标特征。其中，Conv1d表示一维卷积，k表示卷积核的大小，out表示卷积层输出特征的维数，Relu表示非线性激活函数。卷积和激活操作用于提取有效信息。

再将目标特征作为新的待处理特征，利用(Conv1d，k：3，out：256，Relu)对新的待处理特征进行处理，得到新的目标特征。

依序利用多特征注意力机制、(Conv1d，k：3，out：512，sigmiod)对新的目标特征处理，得到每个候选视频帧为起始视频帧的第一估计值(Start scores)，以及每个候选视频帧为起始视频帧的第二估计值(End scores)。其中，Sigmiod表示Sigmiod激活函数。

将第一估计值大于第一估计阈值的候选视频帧作为候选起始视频帧，以及将第二估计值大于第二估计阈值的候选视频帧作为候选结束视频帧。候选起始视频帧和候选结束视频帧组成至少一个目标视频片段。

利用候选区域生成模块将L×C维度的目标特征映射为L×L×N×C维度的特征，即用于生成每个目标视频片段在目标特征对应的区域特征。

依次利用(Conv3d，k：1*1*32，out：512，Relu)、(Conv2d，k：1，out：128，Relu)、(Conv2d，k：1，out：128，Relu)、(Conv2d，k：1，out：2，sigmoid)对各区域特征处理，得到第一评估值二维矩阵和第二评估值二维矩阵(Existence&completeness)。第一评估值二维矩阵中每个元素为一个区域特征的第一评估值，第二评估值二维矩阵中每个元素为一个区域特征的第二评估值。其中，Conv3d表示三维卷积，Conv2d表示二维卷积。

将预测得到的每个目标视频片段对应的起始视频帧的第一估计值、结束视频帧的第二估计值、第一评估值和第二评估值作为目标视频片段的定位信息。目标视频帧中各目标视频片段的定位信息可以记为

其中，N_p表示目标视频存在的待检测动作数量，

分别表示第n类待检测动作对应的目标视频片段的起始视频帧的第一估计值、结束视频帧的第二估计值、第一评估值和第二评估值。

此外，在其他实施例中，通过S23确定视频帧定位信息之后，还可以包括：基于视频帧定位信息，确定目标视频中视频帧定位信息对应的视频帧；基于视频帧定位信息对应的视频帧，对待检测动作进行识别。

视频帧定位信息对应的视频帧即为目标视频片段包括的视频帧。识别过程可以基于目标视频片段包括的视频帧，确定目标视频片段包括的待检测动作的类别，即对待检测动作进行分类。

其中，可以将目标视频片段输入分类网络，得到待检测动作的类别。

此外，在上述使用动作定位网络之前，需要对动作定位网络进行训练。训练过程动作定位网络对样本视频的处理过程是与使用过程对目标视频的处理过程是一致的。并且，样本视频带有标注信息，标注信息根据动作定位网络的任务而定。例如，如果在使用过程中，动作定位网络用于预测目标视频片段的起始视频帧的估计值和结束视频帧的估计值，那么标注信息包括样本视频中各视频帧的估计值；如果在使用过程中，动作定位网络还用于预测评估值，那么标注信息还包括样本视频中各视频帧的评估值。标注信息的格式与动作定位网络预测的定位信息格式一致。

以动作定位网络用于预测第一估计值、第二估计值、第一评估值和第二评估值为例对动作定位网络的训练进行说明。

在训练动作定位网络时，初始学习率和为0.005之间，学习率衰减策略为每5个epoch乘以0.1。损失函数分为四部分，分别是第一估计值预测损失L_s、第二估计值预测损失L_e、第一评估值预测损失L_ex和第二评估值预测损失L_c。那么动作定位网络的预测损失可以表示为：

L＝β₁L_s+β₂L_e+β₃L_ex+β₄L_c。

其中，β₁-β₄用于调整每个损失的权重，根据训练时的实际情况选取。以及，在上述使用分类网络之前，需要对分类网络进行训练。训练过程分类网络对动作片段(即存在动作的片段)的处理是与使用过程是一致的。并且，动作片段带有标注信息，标注信息用于标识动作片段中动作的所属类别。

图9是本申请电子设备一实施例的结构示意图。如图9所示，该电子设备可以包括处理器31、与处理器31耦接的存储器32。

其中，存储器32存储有用于实现上述任一实施例的方法的程序指令；处理器31用于执行存储器32存储的程序指令以实现上述方法实施例的步骤。其中，处理器31还可以称为CPU(Central Processing Unit，中央处理单元)。处理器31可能是一种集成电路芯片，具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。

图10是本申请计算机可读存储介质一实施例的结构示意图。如图10所示，本申请实施例的计算机可读存储介质40存储有程序指令41，该程序指令41被执行时实现本申请上述实施例提供的方法。其中，该程序指令41可以形成程序文件以软件产品的形式存储在上述计算机可读存储介质40中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质40包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图像特征处理方法，其特征在于，包括：

获取图像或图像序列中待检测动作的待处理特征；

分别对所述待处理特征进行至少两个维度转换操作，得到不同维度的至少两个第一特征；

基于注意力机制，确定各个所述第一特征的注意力处理参考值；并基于对应的所述注意力处理参考值，分别对各个所述第一特征进行处理，得到各个所述第一特征各自对应的第二特征；

对各个所述第二特征进行融合处理，得到所述待处理特征对应的目标特征。

2.根据权利要求1所述的方法，其特征在于，所述对各个所述第二特征进行融合处理，得到所述待处理特征对应的目标特征，包括：

对各个所述第二特征进行拼接，得到拼接特征；

对所述拼接特征进行维度转换操作，得到与所述待处理特征的维度一致的所述目标特征。

3.根据权利要求1所述的方法，其特征在于，所述基于注意力机制，确定各个所述第一特征的注意力处理参考值，包括：

对所述第一特征进行转换，得到第三特征和第四特征，其中，所述第三特征、所述第四特征、所述第一特征的维度相同；

对所述第三特征和所述第四特征进行相乘处理，得到第五特征；

对所述第五特征进行归一化处理，得到归一化结果，并利用所述第一特征和所述归一化结果得到所述第一特征的注意力处理参考值。

4.如权利要求1所述的方法，其特征在于，所述基于对应的所述注意力处理参考值，分别对各个所述第一特征进行处理，得到各个所述第一特征各自对应的第二特征，包括：

对各个所述第一特征与对应的所述注意力处理参考值进行加权处理，得到各个所述第一特征对应的所述第二特征。

5.如权利要求1所述的方法，其特征在于，在所述对各个所述第二特征进行融合处理，得到所述待处理特征对应的目标特征之后，还包括：

基于所述目标特征，对所述待检测动作进行识别。

6.一种动作定位方法，其特征在于，包括：

将目标视频中待检测动作的特征，确定为待处理特征；

利用权利要求1至4任一项所述的方法对所述待处理特征进行处理，得到目标特征；

基于所述目标特征，确定所述目标视频中所述待检测动作的视频帧定位信息；其中，所述视频帧定位信息用于表示所述目标视频中包含所述待检测动作的视频帧。

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标特征，确定所述目标视频中所述待检测动作的视频帧定位信息，包括：

基于所述目标特征，确定针对所述目标视频预设的候选视频帧集中，各个候选视频帧为参考视频帧的估计值；

基于各个所述估计值，从所述候选视频帧集中选取部分候选视频帧；

基于选取的候选视频帧，得到所述视频帧定位信息。

8.根据权利要求7所述的方法，其特征在于，所述参考视频帧包括起始视频帧和结束视频帧，所述基于所述目标特征，确定针对所述目标视频预设的候选视频帧集中，各个候选视频帧为参考视频帧的估计值，包括：

基于所述目标特征，预测各个所述候选视频帧为所述起始视频帧的第一估计值，以及各个所述候选视频帧为所述结束视频帧的第二估计值；

所述基于各个所述估计值，从所述候选视频帧集中选取部分候选视频帧，包括：

基于各个所述候选视频帧的第一估计值和所述第二估计值，选取部分所述候选视频帧。

9.根据权利要求8所述的方法，其特征在于，所述基于所述目标特征，预测各个所述候选视频帧为所述起始视频帧的第一估计值，以及各个所述候选视频帧为所述结束视频帧的第二估计值，包括：

将所述目标特征确定为新的所述待处理特征，利用权利要求1至4任一项所述的方法对新的所述待处理特征进行处理，得到新的所述目标特征；

对新的所述目标特征进行预测，得到各个所述候选视频帧的所述第一估计值和第二估计值。

10.根据权利要求8所述的方法，其特征在于，所述基于各个所述候选视频帧的第一估计值和所述第二估计值，选取部分所述候选视频帧，包括：

将所述第一估计值满足第一条件的所述候选视频帧，确定为所述候选起始视频帧；及将所述第二估计值满足第二条件的所述候选视频帧，确定为所述候选结束视频帧。

11.根据权利要求10所述的方法，其特征在于，所述基于选取的部分所述候选视频帧，得到所述视频帧定位信息，包括：

从选取的所述候选起始视频帧和所述候选结束视频帧中，选取满足至少一个目标视频片段的定位条件的候选起始视频帧和候选结束视频帧；其中，一个所述目标视频片段的定位条件包括一个所述候选起始视频帧与一个所述候选结束视频帧，且所述一个候选起始视频帧在所述目标视频中的时序早于所述一个候选结束视频帧；

基于满足各个所述目标视频片段的定位条件的候选起始视频帧和候选结束视频帧，确定所述视频帧定位信息。

12.根据权利要求11所述的方法，其特征在于，所述基于满足各个所述目标视频片段的定位条件的起始视频帧和结束视频帧，确定所述视频帧定位信息，还包括：

基于所述目标特征，获取各个所述目标视频片段的区域特征；

基于对应的区域特征对各个所述目标视频片段进行识别，得到各个所述目标视频片段的动作评估值。

13.如权利要求12所述的方法，其特征在于，所述基于对应的区域特征对各个所述目标视频片段进行识别，得到各个所述目标视频片段的动作评估值之后，还包括：

所述动作评估值包括表示是否存在所述待检测动作的第一评估值，将第一评估值大于第一阈值的目标视频片段，确定为最终的目标视频片段；或

所述动作评估值包括表示所述待检测动作的完整程度的第二评估值，将所述第二评估值大于第二阈值的目标视频片段，确定为最终的目标视频片段；或

所述动作评估值包括表示是否存在所述待检测动作的第一评估值，且所述动作评估值包括表示所述待检测动作的完整程度的第二评估值，将第一评估值大于第一阈值且所述第二评估值大于第二阈值的目标视频片段，确定为最终的目标视频片段。

14.如权利要求6所述的方法，其特征在于，在所述得到所述目标视频中待检测动作的视频帧定位信息之后，还包括：

基于所述视频帧定位信息，确定所述目标视频中所述视频帧定位信息对应的视频帧；

基于所述视频帧定位信息对应的视频帧，对所述待检测动作进行识别。

15.根据权利要求6所述的方法，其特征在于，所述对所述待处理特征进行处理得到目标特征的步骤，和所述对所述目标特征进行定位得到所述目标视频中所述待检测动作的视频帧定位信息的步骤是由动作定位网络实现的。

16.一种电子设备，其特征在于，包括处理器、与所述处理器连接的存储器，其中，

所述存储器存储有程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以实现权利要求1-15中任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，所述存储介质存储程序指令，所述程序指令被执行时实现如权利要求1-15中任一项所述的方法。