CN112434607B

CN112434607B - 特征处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112434607B
Application number: CN202011332239.0A
Authority: CN
Inventors: 刘倩; 王涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2023-05-26
Anticipated expiration: 2040-11-24
Also published as: CN112434607A

Abstract

本发明提供了一种特征处理方法、装置、电子设备及计算机可读存储介质，属于计算机技术领域。该方法中会对任一待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，待处理特征包括待处理视频中的目标视频帧的帧特征，对待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，基于至少三次特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图，根据剩余的特征分量、注意力图、各个待处理特征及预设权重，获取待处理视频的视频特征。本方法中包含了一个等级分组结构，通过采用分组卷积操作进行卷积运算，进而一定程度上可以降低参数冗余及计算代价。

Description

特征处理方法、装置、电子设备及计算机可读存储介质

技术领域

本发明属于计算机技术领域，特别是涉及一种特征处理方法、装置、电子设备及计算机可读存储介质。

背景技术

在视频理解技术中，往往需要提取待处理视频中某些视频帧的帧特征，然后将这些帧特征聚集为视频级的视频特征。

现有技术中，可以通过非局部模块(Non-local block)进行帧特征聚集。由于进行帧特征聚集时，是直接针对待处理特征整体进行卷积运算，因此，这种处理方式中，会存在参数冗余程度较高、计算代价较高的问题。

发明内容

本发明实施例的目的在于提供一种特征处理方法、装置、电子设备及计算机可读存储介质，以解决生成视频特征时，参数冗余程度较高、计算代价较高的问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种特征处理方法，所述方法包括：

对于任一待处理特征，对所述待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量；所述待处理特征包括待处理视频中的目标视频帧的帧特征；基于所述至少三次特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图；

根据剩余的特征分量、所述注意力图、各个所述待处理特征及预设权重，获取所述待处理视频的视频特征；

其中，所述第一特征分量及所述第二特征分量对应的分组数均为g1，所述g1是所述剩余的特征分量对应的分组数g2的r倍，所述注意力图包括g2个子注意力图。

在本发明实施的第二方面，还提供了一种特征处理装置，所述装置包括：

组卷积模块，用于对于任一待处理特征，对所述待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量；所述待处理特征包括待处理视频中的目标视频帧的帧特征；计算模块，用于基于所述至少三次特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图；

确定模块，用于根据剩余的特征分量、所述注意力图、各个所述待处理特征及预设权重，获取所述待处理视频的视频特征；

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的特征处理方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的特征处理方法。

本发明实施例提供的特征处理方法，会对任一待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，待处理特征包括待处理视频中的目标视频帧的帧特征，接着，对待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，基于至少三次特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图，最后，根据剩余的特征分量、注意力图、各个待处理特征及预设权重，获取待处理视频的视频特征。这样，通过在确定视频特征的过程中，采用分组卷积操作进行卷积运算，可以将对待处理特征整体的卷积操作分解为对于待处理特征中多个特征组的卷积运算，一定程度上可以降低卷积运算结果的重合度，进而一定程度上可以降低参数冗余及计算代价。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明实施例提供的一种特征处理方法的步骤流程图；

图2-1是本发明实施例提供的另一种特征处理方法的步骤流程图；

图2-2是本发明实施例提供的一种特征处理过程的示意图；

图3是本发明实施例提供的一种特征处理装置的框图；

图4是本发明实施例提供的一种电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

图1是本发明实施例提供的一种特征处理方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、对于任一待处理特征，对所述待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量；所述待处理特征包括待处理视频中的目标视频帧的帧特征；基于所述至少三次特征分量中的第一特征分量、第二特征分量，计算基于自注意力机制的注意力图。

本发明实施例中，待处理视频可以是需要提取视频特征的视频，待处理视频可以是用户输入的，也可以是从网络中自动获取的。目标视频帧可以是待处理视频中包含的所有视频帧，也可以是待处理视频中包含的部分特定视频帧。本发明实施例对此不作限定。例如，可以将待处理视频划分为多个视频段，然后从每个视频段中随机选择一帧视频帧作为目标视频帧。

进一步地，目标视频帧的帧特征可以是通过卷积神经网络对每帧提取的帧特征。目标视频帧的数量可以为n，从目标视频帧中提取的帧特征的维数可以为m，m和n可以均是大于1的整数，m和n的具体值可以根据实际需求来设定。本发明实施例中，可以通过上述提取方式，提取每个目标视频帧的帧特征，进而得到m*n维的帧特征，该m*n维的帧特征即为待处理特征。

本发明实施例中，第一特征分量可以是通过对待处理特征进行第一分组卷积操作得到的，第二特征分量可以是通过对待处理特征进行第二分组卷积操作得到的，第一分组卷积操作及第二分组卷积操作对应的特征分组数量可以均为g1。其中，g1的具体数值可以根据实际情况设置，本发明实施例对此不作限定。

可选的，在一种实现方式中，以进行三次分组卷积操作为例，对于任一所述待处理特征，分组卷积操作的具体操作过程可以是：按照分组数g1对所述待处理特征进行第一分组卷积操作及第二分组卷积操作，得到第一特征分量及第二特征分量，按照分组数g2对所述待处理特征进行第三分组卷积操作，得到第三特征分量。具体的，进行第一分组卷积操作及第二卷积操作时，可以按照预先设定的分组数g1，将待处理特征分为对应数量个特征组，利用每个特征组对应的第一预设卷积核，分别对每个特征组进行卷积运算，所有特征组对应的运算结果集合即为进行第一分组卷积操作得到的第一特征分量。利用每个特征组对应的第二预设卷积核，分别对每个特征组进行卷积运算，所有特征组对应的运算结果集合即为进行第二分组卷积操作得到的第二特征分量。其中，第一预设卷积核及第二预设卷积核可以相同也可以不同。进一步地，进行第三分组卷积操作时，可以按照预先设定的第三分组卷积操作对应的分组数g2，将待处理特征分为g2数量个特征组，利用每个特征组对应的第三预设卷积核，分别对每个特征组进行卷积运算，所有特征组对应的运算结果集合即为进行第三分组卷积操作得到的第三特征分量。其中，第三预设卷积核与第一卷积核可以相同也可以不同。

相较于直接使用维数与待处理特征维数相同的卷积核进行卷积运算的方式，本发明实施例中，通过分组卷积操作，将单一卷积运算分解为对于待处理特征中多个特征组的卷积运算，进而一定程度上可以降低每个特征组的卷积运算结果的重合度，降低冗余及计算代价。

进一步地，通过计算基于自注意力机制的注意力图，使得注意力图可以更准确的捕捉到第一特征分量及第二特征分量之间的联系，进而全面的体现第一特征分量及第二特征分量。

步骤102、根据剩余的特征分量、所述注意力图、各个所述待处理特征及预设权重，获取所述待处理视频的视频特征；所述第一特征分量及所述第二特征分量对应的分组数均为g1，所述g1是所述剩余的特征分量对应的分组数g2的r倍，所述注意力图包括g2个子注意力图。

本发明实施例中，预设权重的具体值可以是根据实际需求设置的，本发明实施例对此不作限定。其中，S是针对剩余的特征分量及注意力图的权重，由于剩余的特征分量及注意力图是从待处理特征中提取的，即，剩余的特征分量及注意力图能够表示待处理特征的某些方面的信息，而待处理特征可以表示帧级特征本身，因此，可以结合这些因素进行计算，进而得到视频级别的视频特征。

进一步地，本发明实施例中，剩余的特征分量对应的分组数可以为g2，g1可以是剩余的特征分量对应的分组数g2的r倍，注意力图包括g2个子注意力图，构成等级分组结构。本发明实施例中，通过设置g1＝r*g2，r大于1，可以避免当分组数g2取值过大时，使每个组内的特征信息变得过少，每个子注意力图覆盖的特征信息过少的问题。

综上所述，本发明实施例提供的特征处理方法，会对任一待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，待处理特征包括待处理视频中的目标视频帧的帧特征，接着，对待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，基于至少三次特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图，最后，根据剩余的特征分量、注意力图、各个待处理特征及预设权重，获取待处理视频的视频特征。这样，通过在确定视频特征的过程中，采用分组卷积操作进行卷积运算，可以将对待处理特征整体的卷积操作分解为对于待处理特征中多个特征组的卷积运算，一定程度上可以降低卷积运算结果的重合度，进而一定程度上可以降低参数冗余及计算代价。

图2-1是本发明实施例提供的另一种特征处理方法的步骤流程图，应用于等级分组非局部模块，如图2-1所示，该方法可以包括：

步骤201、对于任一待处理特征，对所述待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量；所述待处理特征包括待处理视频中的目标视频帧的帧特征。

具体地，本步骤的实现方式可以参照前述步骤101，本发明实施例对此不作限定。

步骤202、将所述第一特征分量中每r个特征组作为一个第一特征单元，对所述第一特征分量进行划分，得到g2个第一特征单元，以及将所述第二特征分量中每r个特征组作为一个第二特征单元，对所述第二特征分量进行划分，得到g2个第二特征单元。

本步骤中，r的具体值可以是根据实际需求选择，示例的，r可以为大于1的整数。同时，通过控制r为整数，将r个特征组划分为一个特征单元。可以确保划分出来的特征单元中包含的均为完整的特征组中的信息，进而保证特征单元的整体性，一定程度上提高后续基于该特征单元进行计算的效果。

具体在进行划分时，可以按照特征分量中特征组的排列顺序，依次将每r个特征组划分为一个特征单元。其中，各个特征单元包含的特征组可以不重合。示例的，假设r为2，第一特征分量中有18个特征组，第二特征分量中有18个特征组，那么可以将第一特征分量中的第1个特征组和第2个特征组划分为一个第一特征单元，将第一特征分量中的第3个特征组和第4个特征组划分为一个第一特征单元，…，将第一特征分量中的第17个特征组和第18个特征组划分为一个第一特征单元，进而得到9个第一特征单元。进一步地，可以将第二特征分量中的第1个特征组和第2个特征组划分为一个第二特征单元，将第二特征分量中的第3个特征组和第4个特征组划分为一个第二特征单元，…，将第二特征分量中的第17个特征组和第18个特征组划分为一个第二特征单元，进而得到9个第二特征单元。

步骤203、根据所述第一特征分量中的每个第一特征单元及所述第二特征分量中的每个第二特征单元，并基于预设的自注意力算法计算每个所述第一特征单元对应的子注意力图，得到g2个子注意力图。

本步骤中，通过计算g2个子注意力图，即，针对每个第一特征单元及其对应的第二特征单元，都会对应生成一个子注意力图，使得可以更加细致的挖掘到特征中的非局部信息，进而提高最终得到的注意力图的准确性。

具体的，本步骤可以通过下述子步骤(1)～子步骤(2)实现：

子步骤(1)：对于任一所述第一特征单元，对所述第一特征单元和所述第一特征单元对应的第二特征单元进行组矩阵相乘操作，得到第一相乘结果。

本步骤中，可以根据输入的第一特征分量和第二特征分量中分别包含的g2个特征单元，进行组矩阵相乘操作(grouped matrix multiplication，Gmm)。具体的，进行组矩阵相乘操作时，可以是针对第一特征分量中的每个第一特征单元，计算该第一特征单元对应的转置矩阵和该第一特征单元对应的第二特征单元对应的矩阵的乘积，进而得到第一相乘结果。其中，第一特征单元对应的第二特征单元可以是与第一特征单元次序相同的第二特征单元。例如，针对第一特征分量中的第一个第一特征单元，该第一特征单元对应的第二特征单元可以是第二特征分量中的第一个第一特征单元，针对第一特征分量中的第五个第一特征单元，该第一特征单元对应的第二特征单元可以是第二特征分量中的第五个第一特征单元。本发明实施例中的特征、特征组、特征单元本质上都是一个矩阵，对应的矩阵指的是其表示的矩阵。进一步地，该组矩阵相乘操作可以表示为：Gmm(q^Tk)，其中，q表示第一特征单元，k表示该第一特征单元对应的第二特征单元，Gmm(*)表示对*进行组矩阵相乘操作。

子步骤(2)：根据预设的自注意力算法中的修正线性单元RELU激活函数，对所述第一相乘结果进行处理，以获取每个所述第一特征单元对应的子注意力图。

进一步地，预设的自注意力算法可以是Self-Attention算法，该算法运行时可以根据q和k进行矩阵相乘，即执行前述子步骤(1)。示例的，以Q表示第一特征分量，K表示第二特征分量为例，针对第一特征分量及第二特征分量计算出多个子注意力图的处理过程可以表示为：A＝relu(Gmm(Q^T，K))。其中，A表示计算出的所有子注意力图，relu(*)表示对*进行组线性修正操作。

步骤204、根据剩余的特征分量、所述注意力图、各个所述待处理特征及预设权重，确定所述待处理视频的视频特征。

本步骤中，剩余的特征分量可以为第三特征分量，第三特征分量中包括g2个特征组。相应地，本步骤可以通过下述子步骤(3)～子步骤(4)实现：

子步骤(3)：对于任一所述待处理特征，根据所述第三特征分量中的特征组及所述注意力图中的子注意力图进行组矩阵相乘操作，得到第二相乘结果；根据所述第二相乘结果、所述预设权重及所述待处理特征，计算所述待处理特征对应的中间特征。

本步骤中，可以根据第三特征分量中的g2个特征组和注意力图中的g2个子注意力图，进行组矩阵相乘操作。具体的，进行组矩阵相乘操作时，可以是针对第三特征分量中的每个特征组，计算该特征组对应的矩阵和注意力图中对应的子注意力图对应的矩阵的乘积，进而得到第二相乘结果。示例的，以Fo表示第二相乘结果，该组矩阵相乘操作可以表示为：Fo＝Gmm(V，A)。

由于F0中包含多个特征组对应的相乘结果，因此，可以先将其拼接为一体，以方便进行计算。具体进行计算时，可以通过下述公式确定：F_weight＝S*F0+F。其中，S表示预设权重、F0表示第二相乘结果，F表示待处理特征，S*F0表示对预设权重与第二相乘结果进行相乘操作。

子步骤(4)：按照时间维度对各个所述待处理特征对应的中间特征进行平均处理，得到所述待处理视频的视频特征。

具体的，该平均处理可以是该平均处理是对中间特征按时间维度进行平均处理。该平均处理可以通过平均函数实现。示例的，假设有5个待处理特征，那么可以得到5个中间特征，相应地，可以对这5个中间特征进行平均处理操作。该平均处理操作可以表示为：avg(F_weight)。这样，通过对中间特征进行平均处理，将处理过后的中间特征作为视频特征，一定程度上可以使得最终得到的视频特征更加均匀平衡，进而提高视频特征的质量。

需要说明的是，本发明实施例中提供的特征处理方法可以是通过等级分组非局部模块(Hierarchical Group-wise Non-local Module，HG-NL)实现的，该等级分组非局部模块可以是一种基于自注意力用于帧级特征聚集的神经网络模块，该等级分组非局部模块中至少可以包括卷积层，该卷积层可以用于执行前述至少三次分组卷积操作，且组卷积层每次执行分组卷积操作时，所使用的参数不同，即，所使用的卷积核的内容不同。其中，每次所使用的参数可以是在HG-NL的训练阶段中通过不断调参确定的。这样，通过采用不同的参数，可以使得每次进行的分组卷积操作提取到不同角度的特征分量，进而提高特征分量的效果。

进一步地，以对待处理特征分别进行三次分组卷积操作，得到三个特征分量为例。图2-2是本发明实施例提供的一种特征处理过程的示意图，如图2-2所示，F表示待处理特征，Q表示第一特征分量，K表示第二特征分量，V表示第三特征分量，A表示注意力图，F0表示第二相乘结果，Scale S表示预设权重、F_weight表示中间特征、Fv表示视频特征。输入的待处理特征F的维度为m*n*1，F包括n个帧特征(f1，f2…，fn)。其中，n为目标视频帧的数目，n可以表示输入的高度(Height)信息，m为每个帧特征的长度，n可以表示输入的通道(Channel)信息，1表示宽度(Width)信息。对于待处理特征F，经过三次分组卷积操作之后，可以得到三个特征分量V、Q及K，其中，Q、K均包含g1个特征组，V包含g2个特征组，g1＝r*g2。接着，可以将r个特征组作为一个特征单元，分别对Q、K中的特征组进行划分。可以看出，经过划分之后，Q中包含了g2个特征单元，K中包含了g2个特征单元。接着，可以基于Q中的g2个特征单元及K中的g2个特征单元，通过组矩阵乘法及预设的自注意力算法中的修正线性单元RELU激活函数，针对每个第一特征单元及其对应的第二特征单元，都会对应生成一个子注意力图，进而得到注意力图A。其中，注意力图A中包含g2个子注意力图。然后，可以基于V中的g2个特征组及A中的g2个子注意力图，通过组矩阵乘法计算Fo。最后，可以通过Fo、S及F，计算出F_weight，将平均处理后的F_weight，确定为视频特征Fv。

进一步地，图2-2示出的处理过程中，通过分组卷积操作确定Q、K、V，进而可以降低参数冗余及计算代价。且相较于直接基于softmax函数计算注意力图A，且直接针对特征分量计算一个整体的注意力图A的方式，图2-2示出的处理过程中针对每个第一特征单元及其对应的第二特征单元，都会对应生成一个子注意力图，使得可以更加细致的挖掘到特征中的非局部信息，进而提高可以最终得到的注意力图A的准确性。

综上所述，本发明实施例提供的特征处理方法，会对待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，接着，将所述第一特征分量中每r个特征组作为一个第一特征单元，对所述第一特征分量进行划分，得到g2个第一特征单元，以及将所述第二特征分量中每r个特征组作为一个第二特征单元，对所述第二特征分量进行划分，得到g2个第二特征单元，根据所述第一特征分量中的每个第一特征单元及所述第二特征分量中的每个第二特征单元，并基于预设的自注意力算法计算每个所述第一特征单元对应的子注意力图，得到g2个子注意力图，即，注意力图A，最后，根据剩余的特征分量、注意力图A、待处理特征F及预设权重S，获取待处理视频的视频特征。这样，通过在确定视频特征的过程中，采用分组卷积操作进行卷积运算，可以将对待处理特征整体的卷积操作分解为对于待处理特征中多个特征组的卷积运算，一定程度上可以降低卷积运算结果的重合度，进而一定程度上可以降低参数冗余及计算代价。

图3是本发明实施例提供的一种特征处理装置的框图，如图3所示，该装置30可以包括：

组卷积模块301，用于对于任一待处理特征，对所述待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量；所述待处理特征包括待处理视频中的目标视频帧的帧特征。计算模块302，用于基于所述至少三次特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图。

确定模块303，用于根据剩余的特征分量、所述注意力图、各个所述待处理特征及预设权重，获取所述待处理视频的视频特征。

可选地，所述计算模块302，具体用于：

将所述第一特征分量中每r个特征组作为一个第一特征单元，对所述第一特征分量进行划分，得到g2个第一特征单元，以及将所述第二特征分量中每r个特征组作为一个第二特征单元，对所述第二特征分量进行划分，得到g2个第二特征单元。

根据所述第一特征分量中的每个第一特征模块及所述第二特征分量中的每个第二特征模块，并基于预设的自注意力算法计算每个所述第一特征模块对应的子注意力图，得到g2个子注意力图。

可选地，所述计算模块302，还具体用于：

对于任一所述第一特征单元，对所述第一特征单元和所述第一特征单元对应的第二特征单元进行组矩阵相乘操作，得到第一相乘结果。

根据预设的自注意力算法中的修正线性模块RELU激活函数，对所述第一相乘结果进行处理，以获取每个所述第一特征模块对应的子注意力图。

可选地，所述剩余的特征分量为第三特征分量，所述第三特征分量中包括g2个特征组。

所述确定模块303，具体用于：

对于任一所述待处理特征，根据所述第三特征分量中的特征组及所述注意力图中的子注意力图进行组矩阵相乘操作，得到第二相乘结果。

根据所述第二相乘结果、所述预设权重及所述待处理特征，计算所述待处理特征对应的中间特征。

按照时间维度对各个所述待处理特征对应的中间特征进行平均处理，得到所述待处理视频的视频特征。

可选地，所述r为大于1的整数。

可选的，所述组卷积模块301，具体用于：

按照分组数g1对所述待处理特征进行第一分组卷积操作及第二分组卷积操作，得到所述第一特征分量及所述第二特征分量；

按照分组数g2对所述待处理特征进行第三分组卷积操作，得到第三特征分量。

本发明实施例提供的装置，会对任一待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，待处理特征包括待处理视频中的目标视频帧的帧特征，接着，对待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，基于至少三次特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图，最后，根据剩余的特征分量、注意力图、各个待处理特征及预设权重，获取待处理视频的视频特征。这样，通过在确定视频特征的过程中，采用分组卷积操作进行卷积运算，可以将对待处理特征整体的卷积操作分解为对于待处理特征中多个特征组的卷积运算，一定程度上可以降低卷积运算结果的重合度，进而一定程度上可以降低参数冗余及计算代价。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

对于任一待处理特征，对所述待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量；所述待处理特征包括待处理视频中的目标视频帧的帧特征；基于所述至少三次特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图

其中，所述第一特征分量及所述第二特征分量对应的分组数均为g1，所述g1是所述剩余的特征分量对应的分组数g2的r倍，所述注意力图包括g2个子注意力图。相较于直接使用维数与待处理特征维数相同的卷积核进行卷积运算的方式，本发明实施例中，通过分组卷积操作，一定程度上可以降低参数冗余及计算代价。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的特征处理方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的特征处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种特征处理方法，其特征在于，所述方法包括：

对于任一待处理特征，对所述待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量；所述待处理特征包括待处理视频中的目标视频帧的帧特征；

基于所述至少三个特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图；

对于任一所述待处理特征，根据所述至少三个特征分量中的第三特征分量中的特征组及所述注意力图中的子注意力图进行组矩阵相乘操作，得到第二相乘结果；

根据所述第二相乘结果、预设权重及所述待处理特征，计算所述待处理特征对应的中间特征；所述第三特征分量中包括g2个特征组；

按时间维度对各个所述待处理特征对应的中间特征进行平均处理，得到所述待处理视频的视频特征；

其中，所述第一特征分量及所述第二特征分量对应的分组数均为g1，所述g1是所述第三特征分量对应的分组数g2的r倍，所述注意力图包括g2个子注意力图。

2.根据权利要求1所述的方法，其特征在于，所述基于所述至少三个特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图，包括：

将所述第一特征分量中每r个特征组作为一个第一特征单元，对所述第一特征分量进行划分，得到g2个第一特征单元，以及将所述第二特征分量中每r个特征组作为一个第二特征单元，对所述第二特征分量进行划分，得到g2个第二特征单元；

根据所述第一特征分量中的每个第一特征单元及所述第二特征分量中的每个第二特征单元，并基于预设的自注意力算法计算每个所述第一特征单元对应的子注意力图，得到g2个子注意力图。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一特征分量中的每个第一特征单元及所述第二特征分量中的每个第二特征单元，并基于预设的自注意力算法计算每个所述第一特征单元对应的子注意力图，包括：

对于任一所述第一特征单元，对所述第一特征单元和所述第一特征单元对应的第二特征单元进行组矩阵相乘操作，得到第一相乘结果；

根据预设的自注意力算法中的修正线性单元RELU激活函数，对所述第一相乘结果进行处理，以获取每个所述第一特征单元对应的子注意力图。

4.根据权利要求1至3任一所述的方法，其特征在于，所述r为大于1的整数。

5.根据权利要求1至3任一所述的方法，其特征在于，所述对所述待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量，包括：

6.一种特征处理装置，其特征在于，所述装置包括：

组卷积模块，用于对于任一待处理特征，对所述待处理特征分别进行至少三次分组卷积操作，得到至少三个特征分量；所述待处理特征包括待处理视频中的目标视频帧的帧特征；

计算模块，用于基于所述至少三个特征分量中的第一特征分量及第二特征分量，计算基于自注意力机制的注意力图；

确定模块，用于对于任一所述待处理特征，根据所述至少三个特征分量中的第三特征分量中的特征组及所述注意力图中的子注意力图进行组矩阵相乘操作，得到第二相乘结果；根据所述第二相乘结果、预设权重及所述待处理特征，计算所述待处理特征对应的中间特征；所述第三特征分量中包括g2个特征组；按时间维度对各个所述待处理特征对应的中间特征进行平均处理，得到所述待处理视频的视频特征；

7.根据权利要求6所述的装置，其特征在于，所述计算模块，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述计算模块，还具体用于：

9.根据权利要求6至8任一所述的装置，其特征在于，所述r为大于1的整数。

10.根据权利要求6至8任一所述的装置，其特征在于，所述组卷积模块，具体用于：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。