CN112329925B

CN112329925B - 模型生成方法、特征提取方法、装置及电子设备

Info

Publication number: CN112329925B
Application number: CN202011350206.9A
Authority: CN
Inventors: 刘倩; 王涛
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2023-12-15
Anticipated expiration: 2040-11-26
Also published as: CN112329925A

Abstract

本发明提供了一种模型生成方法、特征提取方法、装置及电子设备，属于计算机技术领域。该方法中，通过预设时间‑空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图，通过预设时间‑空间维度2D卷积神经网络中的空间特征提取层，提取T个输入特征图的空间维度特征，通过预先嵌入的TCC模块，根据预设的二维卷积核提取T个输入特征图的时间维度特征，基于空间维度特征及时间维度特征，生成特征提取模型。可以进而确保基于该卷积神经网络得到的特征提取模型，能够以较小计算量准确的提取出时间维度特征及空间维度特征，达到兼顾提取的全面性和所需耗费的计算量的目的。

Description

模型生成方法、特征提取方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种模型生成方法、特征提取方法、装置及电子设备。

背景技术

随着互联网技术的快速发展，视频已成为内容创作和社交媒体平台的重要传播方式之一。视频特征提取作为视频处理中的一个重要环节，提取的特征类别的全面性直接影响着后续视频处理的效果。

现有技术中，通常是使用3D卷积神经网络或2D卷积神经网络进行特征提取。其中，使用3D卷积神经网络提取的方式，能够同时提取到视频的空间维度特征及时间维度特征，但由于3D卷积神经网络本身特性的影响，提取所需的计算量较大。使用2D卷积神经网络提取的方式，所需的计算量较小，但仅能提取到视频的空间维度特征。这些方法均无法做到特征提取的全面性和所需耗费的计算量的均衡。因此，如何兼顾特征提取的全面性和所需耗费的计算量已成为业内亟待解决的技术问题。

发明内容

本发明实施例的目的在于提供一种模型生成方法、特征提取方法、装置及电子设备，以实现解决无法兼顾特征提取的全面性和所需耗费的计算量的技术问题。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种模型生成方法，所述方法包括：

通过预设时间-空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图；所述T为大于1的整数；

通过所述预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取所述T个输入特征图的空间维度特征，以及，通过时间通道卷积神经网络TCC模块，根据预设的二维卷积核提取所述T个输入特征图的时间维度特征；其中，所述预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个所述TCC模块得到的；

基于所述空间维度特征及所述时间维度特征，生成特征提取模型。

在本发明实施的第二方面，提供了一种特征提取方法，所述方法包括：

将待提取视频作为特征提取模型的输入，通过所述特征提取模型提取所述待提取视频的时间维度特征以及空间维度特征；

其中，所述特征提取模型是根据第一方面中任一所述的方法生成的。

在本发明实施的第三方面，还提供了一种模型生成装置，所述装置包括：

采样模块，用于通过预设时间-空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图；所述T为大于1的整数；

提取模块，用于通过所述预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取所述T个输入特征图的空间维度特征，以及，通过预先嵌入的TCC模块，根据预设的二维卷积核提取所述T个输入特征图的时间维度特征；其中，所述预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个所述TCC模块得到的；

训练模块，用于基于所述空间维度特征及所述时间维度特征，生成特征提取模型。

在本发明实施的第四方面，还提供了一种特征提取装置，所述装置包括：

提取模块，用于将待提取视频作为特征提取模型的输入，通过所述特征提取模型提取所述待提取视频的时间维度特征以及空间维度特征；

其中，所述特征提取模型是根据第三方面中任一所述的装置生成的。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的方法。

本发明实施例提供的模型生成方法，通过预设时间-空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图，然后，通过预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取T个输入特征图的空间维度特征，以及，通过时间通道卷积神经网络TCC模块，根据预设的二维卷积核提取T个输入特征图的时间维度特征，其中，预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个TCC模块得到的，最后，基于空间维度特征及时间维度特征，生成特征提取模型。由于嵌入之后本质上得到的依旧是2D卷积神经网络，因此，一定程度上可以使得该卷积神经网络具备提取时间维度特征的能力，且所耗费的计算量小于使用3D卷积神经网络所耗费的计算量，进而确保基于该卷积神经网络得到的特征提取模型，能够以较小计算量准确的提取出时间维度特征及空间维度特征，达到兼顾提取的全面性和所需耗费的计算量的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1-1是本发明实施例提供一种时间-空间维度2D卷积神经网络的结构示意图；

图1-2是本发明实施例提供的一种模型生成方法的步骤流程图；

图2-1是本发明实施例提供的另一种模型生成方法的步骤流程图；

图2-2是本发明实施例提供的一种TCC模块的处理过程示意图；

图3是本发明实施例提供的一种模型生成装置的框图；

图4是本发明实施例提供的一种特征提取装置的框图；

图5是本发明实施例提供的一种电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

首先，结合本发明实施例涉及到的具体应用场景进行说明。目前针对视频的处理操作得到了广泛的应用，例如，视频推荐、监控分析和人机交互等场景。在对视频进行处理时，视频特征提取作为较为重要的环节，它所提取到的视频特征的全面性以及提取所需耗费的计算量会对整个处理操作产生重要的影响。其中，视频特征可以分为空间维度特征以及时间维度特征。空间维度特征指的是从视频中每帧图像的2维空间上提取的特征，即，从帧图像的宽、高构成的维度上提取的特征，其表示的是一种空间信息。时间维度特征又称为时序特征或时序维度特征，等等，时间维度特征指的是从视频本身的时间维度上提取特征，其表示的是视频中帧图像与帧图像之间的时序信息。

进一步地，在使用3D卷积神经网络提取特征时，因为3D卷积神经网络本身使用的是立方级的三维卷积核，因此，它的结构决定了它能提取到每帧图像的空间信息的同时提取到帧图像与帧图像之间的时序信息。但是相比于本身使用的是二维卷积核的2D卷积神经网络来说，3D卷积神经网络的模型参数，即，卷积核是2D卷积神经网络的立方级，这样，就会使得3D卷积神经网络所耗费的计算量远远大于2D卷积神经网络的所耗费的计算量。

为了同时兼顾所耗费的计算量以及提取到的特征的全面性，本发明实施例提供了一种模型生成方法、特征提取方法、装置及电子设备。在该方法中，基于预先在2D卷积神经网络中嵌入至少一个时间通道卷积神经网络(Temporal-Channel Convolution，TCC)模块得到的预设时间-空间维度2D卷积神经网络，通过该预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取空间维度特征，以及通过该预设时间-空间维度2D卷积神经网络中的TCC模块，提取时间维度特征。示例的，在一种实现方式中，图1-1是本发明实施例提供一种时间-空间维度2D卷积神经网络的结构示意图，如图1-1所示，输入层、空间特征提取层以及输出层可以为原始2D卷积神经网络中的原有结构，其中，输入层可以用于接收输入的图像，输出层可以用于输出最终处理结果等信息。在原始2D卷积神经网络中嵌入TCC模块之后可以形成该时间-空间维度2D卷积神经网络。需要说明的是，图1-1仅为一种示例性说明，实际应用中，各个层或模块的实际数量并不仅限于图中实际示出的，且该卷积神经网络中还可以包含其他层，例如，位于输入层之后，空间特征提取层及TCC模块之前的特征图生成层，连接于空间特征提取层与输出层之间的，或者，连接于TCC模块与输出层与之间的全连接层，池化层，激活函数层，等等，本发明实施例对此不作限定。

由于嵌入之后本质上得到的依旧是2D卷积神经网络，因此，一定程度上可以使得该卷积神经网络具备提取时间维度特征的能力，且所耗费的计算量小于使用3D卷积神经网络所耗费的计算量，进而确保基于该卷积神经网络得到的特征提取模型，能够以较小计算量准确的提取出时间维度特征及空间维度特征，达到兼顾提取的全面性和所需耗费的计算量的目的。

下面首先对本发明实施例提供的模型生成方法进行详细介绍。

图1-2是本发明实施例提供的一种模型生成方法的步骤流程图，如图1-2所示，该方法可以包括：

步骤101、通过预设时间-空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图；所述T为大于1的整数。

本发明实施例中，样本视频可以是通过接收用户手动输入的视频得到的，或者是直接从网络中获取的，它可以是一个或多个完整的视频，也可以为完整视频中的一个或多个视频片段等等，本发明实施例对此不作限定。

进一步地，输入特征图可以基于样本视频中的样本视频帧得到，T的具体值可以是在大于1的整数中选择的，这样，通过控制T的取值可以确保能够提取到多个输入特征图，进而可以确保输入特征图能提供帧图像与帧图像之间的时序信息，进而确保后续能够从输入特征图中提取到时间维度特征。进一步地，可以由特征图生成层根据样本视频帧生成输入特征图，该特征图生成层可以是普通的2D卷积神经网络中原有的用于生成输入特征图的层。样本视频帧可以是样本视频中包含的所有视频帧，也可以是样本视频中包含的部分特定视频帧。本发明实施例对此不作限定。示例的，可以每次对样本视频抽取连续64帧的视频段，然后从视频段中等时间间隔抽取视频帧作为样本视频帧，然后基于这些样本视频帧中提取输入特征图。

步骤102、通过所述预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取所述T个输入特征图的空间维度特征，以及，通过时间通道卷积神经网络TCC模块，根据预设的二维卷积核提取所述T个输入特征图的时间维度特征；所述预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个所述TCC模块得到的。

本发明实施例中，TCC模块可以是预先设计的，基于预设的二维卷积核从多个视频帧之间提取时间维度特征的模块。通过预先在2D卷积神经网络中嵌入至少一个TCC模块，生成时间-空间维度2D卷积神经网络，由于嵌入之后本质上得到的依旧是2D卷积神经网络，因此，一定程度上可以使得该时间-空间维度2D卷积神经网络具备提取时间维度特征的能力，且所耗费的计算量小于使用3D卷积神经网络所耗费的计算量。其中，该2D卷积神经网络可以是残差卷积神经网络，例如，2D ResNet 50卷积神经网络。所嵌入的TCC模块的具体数量及具体位置可以是根据实际需求确定，本发明实施例对此不作限定。

进一步地，预设时间-空间维度2D卷积神经网络中的空间特征提取层，可以是普通的2D卷积神经网络中原有的用于提取空间维度特征的空间特征提取层。

步骤103、基于所述空间维度特征及所述时间维度特征，生成特征提取模型。

本发明实施例中，进行模型训练时，可以是使用分类模型根据该空间维度特征及所述时间维度特征进行分类，得到预测标签。具体的，可以是根据空间维度特征及时间维度特征，确定视频帧中包含的被摄主体的运动行为，进行行为分类。然后根据预测标签与真实标签之间的偏差程度，然后基于该偏差程度对该预设时间-空间维度2D卷积神经网络中的参数进行调整，并在完成调整之后，通过重复执行上述步骤，继续进行训练，直至满足停止训练的条件为止。这样，通过训练该预设时间-空间维度2D卷积神经网络，可以提高该神经网络的提取到的特征准确性，最终确保得到的特征提取模型，能够以较小计算量准确的提取出时间维度特征及空间维度特征。

综上所述，本发明实施例提供的模型生成方法，通过预设时间-空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图，然后，通过预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取T个输入特征图的空间维度特征，以及，通过时间通道卷积神经网络TCC模块，根据预设的二维卷积核提取T个输入特征图的时间维度特征，其中，预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个TCC模块得到的，最后，基于空间维度特征及时间维度特征，生成特征提取模型。由于嵌入之后本质上得到的依旧是2D卷积神经网络，因此，一定程度上可以使得该卷积神经网络具备提取时间维度特征的能力，且所耗费的计算量小于使用3D卷积神经网络所耗费的计算量，进而确保基于该卷积神经网络得到的特征提取模型，能够以较小计算量准确的提取出时间维度特征及空间维度特征，达到兼顾提取的全面性和所需耗费的计算量的目的。

图2-1是本发明实施例提供的另一种模型生成方法的步骤流程图，如图2-1所示，该方法可以包括：

步骤201、通过预设时间-空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图；所述T为大于1的整数。

具体的，本步骤可以参照前述步骤101，本发明实施例对此不作限定。

步骤202、通过预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取所述T个输入特征图的空间维度特征，通过时间通道卷积神经网络TCC模块，根据预设的二维卷积核提取所述输入特征图的时间维度特征；所述预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个所述TCC模块得到的。

本发明实施例中，预设时间-空间维度2D卷积神经网络的m个层中嵌有n个TCC模块。其中n的具体值可以根据实际需求选取，其中n可以不大于m。相应地，在通过嵌入TCC模块生成预设时间-空间维度2D卷积神经网络时，可以是以普通的2D卷积神经网络为网络结构(backbone)，在该backbone中插入TCC模块。其中，作为backbone的2D卷积神经网络可以是根据实际需求选择的，本发明实施例对此不作限定。在插入时，可以是通过直连方式嵌入的，例如，基于“shortcut”连接方式提供的短接线嵌入，该短接线为基于软件形成的虚拟接入结构。由于短接线本身具有无缝插入的特性，因此，本发明实施例中以短接线插入TCC模块，使得TCC模块可以无缝插入到backbone中。其中，该短接线可以是在设计TCC模块时为该TCC模块并入的。示例的，假设选择的2D卷积神经网络为2D ResNet 50，那么可以在2DResNet 50的conv4_x的最后一个bottleneck block前，添加1个TCC模块，进而形成TCCnetwork。

需要说明的是，提取空间维度特征的操作以及提取时间维度特征的操作可以是同时进行的，也可以是设置先进行提取空间维度特征的操作，或者是，先进行提取时间维度特征的操作，本发明实施例对此不作限定。

进一步地，可以通过下述子步骤(1)～步骤(3)实现通过TCC模块提取时间维度特征：

子步骤(1)：将所述输入特征图的通道数量调整为P；所述P＜Q，所述Q是所述输入特征图的原始通道数量。

本步骤中，输入特征图指的是输入至TCC模块的抽象特征图。输入特征图可以是2D卷积神经网络中TCC模块之前的层对样本视频帧进行处理得到的。之前的层可以为多个卷积层，通过这些层的处理，可以提取到不同程度的抽象特征层，其中，输入到TCC模块的抽象特征图即为输入特征图。其中，每个层输出的抽象特征图的通道数量可以由该层中设定的维度数决定，即，Q的具体值可以是根据TCC模块的之前的层中设定的维度数决定的。示例的，每个层输出的抽象特征图的通道数量可以等于该层中设定的维度数，假设设定的维度数为2048维，那么Q可以为2048。

进一步的，P的具体值可以是根据实际情况设置，只要确保P小于原始通道数量Q即可。在调整通道数量时，可以利用一个1*1的卷积核，对该输入特征图进行卷积处理，以压缩该输入特征图的通道数量，本发明实施例对此不作限定。本发明实施例中，通过先将输入特征图的通道数量调整为P，即，将通道数量调小，一定程度上可以减少后续步骤中需要处理的数据量，进而减少所需耗费的计算量。

子步骤(2)：基于输入特征图的时间顺序，根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作。

本步骤中，输入特征图的时间顺序可以是根据输入特征图对应的样本视频帧在样本视频中的播放时刻确定。示例的，T为3，即，有3个样本视频帧，其中，样本视频帧a的播放时刻为第3秒，样本视频帧b的播放时刻为第1秒，样本视频帧c的播放时刻为第5秒，那么输入特征图的时间顺序可以是样本视频帧b对应的输入特征图、样本视频帧a对应的输入特征图、样本视频帧c对应的输入特征图。

其中，基于输入特征图的时间顺序在每个输入特征图的时间及通道维度上进行卷积操作的具体处理流程，可以为：按照时间维度的索引、通道维度的索引，利用所述预设的二维卷积核对输入特征图的进行遍历卷积。具体的，可以按照时间维度的索引、通道维度的索引，利用所述预设的二维卷积核在各个所述索引指示的时间及通道维度下遍历所述输入特征图，以进行所述卷积操作。其中，时间维度的索引以及通道维度的索引可以是输入特征图的已有信息，相应地，本发明实施例中，可以直接读取这些索引，以便于按照索引进行遍历卷积，本发明实施例对此不作限定。进一步地，不同索引可以指示输入特征图中不同时间及通道维度下对应的部分，相应地，可以利用预设的二维卷积核对各个索引指示的时间及通道维度下对应的部分进行卷积，进而可以得到多次进行卷积后的多个卷积结果。最后，这多个卷积结果组成子步骤(2)中的卷积操作的结果。本发明实施例中通过在为TCC模块预先设置二维的卷积核，并使用该预设的二维卷积核进行卷积，这样，可以确保嵌入之后本质上得到的依旧是2D卷积神经网络，进而确保时间-空间维度2D卷积神经网络具备提取时间维度特征的能力，且所耗费的计算量小于使用3D卷积神经网络所耗费的计算量。

进一步地，上述进行遍历卷积的过程，可以通过下述预设时间通道卷积公式表示

其中，F表示所述输入特征图，O表示所述输出特征图，即，进行卷积操作之后的特征图，K表示所述预设的卷积核，i表示所述时间维度的索引，j表示所述通道维度的索引，t表示时间维度，c表示通道维度，h表示所述输入特征图的高、w表示所述输入特征图的宽。

子步骤(4)：将进行卷积操作之后的输入特征图的通道数量恢复为Q，得到所述时间维度特征。

本步骤中，可以对该特征图执行前述子步骤(1)中所执行操作的逆向操作，进而实现将通道数量调整为Q，即，恢复特征图的通道数量。示例的，本步骤中可以通过1*1的卷积核进行卷积处理的方式实现调整通道数，那么本步骤中可以通过1*1的卷积核，进行卷积的方式实现恢复通道数。由于实际应用场景中，可能在提取到输入特征图的时间维度特征之后，还会基于该输入特征图执行其他操作，因此，本发明实施例中，通过对特征图进行恢复，可以在降低提取时间维度特征所需的处理的数据量的同时，确保不会影响后续对该特征图的处理。其中，其他操作的具体类型可以根据实际需求的设置，例如，其他操作可以为输出Q通道的特征图。

进一步地，预设时间-空间维度2D卷积神经网络中可以包括卷积层，该卷积层可以为原有的卷积层，该卷积层可以用于组成空间特征提取层。TCC模块可以与卷积层连接，示例的，TCC模块可以连接于卷积层之前。进一步地，TCC模块包括时间通道卷积层、数量调整层及数量恢复层。其中，所述时间通道卷积层可以用于实现子步骤(2)及子步骤(3)，数量调整层可以用于实现子步骤(1)，数量恢复层可以用于实现子步骤(4)。数量调整层、时间通道卷积层及数量恢复层可以均连接有批量归一化(Batch Normalization，BN)层和修正线性单元(Rectified linear unit，Relu)层。即，数量调整层之后可以连接有BN层以及与该BN层连接的Relu层，时间通道卷积层之后可以连接有BN层以及与该BN层连接的Relu层，数量恢复层之后可以连接有BN层以及与该BN层连接的Relu层。相应在，在这些层完成处理之后，可以通过各自所连接的BN层和/或Relu层对处理结果继续进行处理，即，进行归一化操作，修正线性操作。之后再将处理结果传递给下一层。由于网络训练的过程中，会对神经网络中的参数进行调整，参数变化会引起其它层的数据分布发生变化，而网络学习的过程的本质就是学习数据分布，如果每一批次的数据分布不相同的话，那么网络就要在每次迭代的时候都去适应不同的分布，这样会大大降低网络的训练速度，因此，本发明实施例中，通过在这些层完成处理之后，可以通过所连接的BN层对处理结果进行归一化处理，可以使得传递至下一层级的数据分布更规范，进而可以避免各个层中数据分布发生较大变化，导致网络训练受到干扰。

进一步地，图2-2是本发明实施例提供的一种TCC模块的处理过程示意图，如图2-2所示，(T，C，H，W)可以表示高为H，宽为W，通道数量为C的T帧特征图输入的维数。其中，该维数也可以表示为T*C*H*W。具体的，TCC模块可以先对(T，C，H，W)维的特征图，执行操作“Conv(1*1)/BN/Relu”，即，执行数量调整层以及该数量调整层后边连接的BN层和Relu层执行的操作，得到(T，C’，H，W)维的处理后的特征图，然后通过前述预设的时间通道卷积公式，对(T，C’，H，W)维的处理后的特征图进行处理，以提取时间维度特征，最后对(T，C’，H，W)维的处理后的特征图执行操作“Conv(1*1)/BN/Relu”，即，通过数量恢复层以及该数量恢复层后边连接的BN层和Relu层执行对应的操作，进而得到时间维度特征。

步骤203、基于所述空间维度特征及所述时间维度特征，生成特征提取模型。

具体的，本步骤中的具体训练过程可以参照前述步骤103，本发明实施例在此不做赘述。

综上所述，本发明实施例提供的模型生成方法，通过预设时间-空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图，然后，通过预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取T个输入特征图的空间维度特征，以及，通过时间通道卷积神经网络TCC模块，根据预设的二维卷积核进行遍历卷积，提取T个输入特征图的时间维度特征，最后，基于空间维度特征及时间维度特征，生成特征提取模型。这样，一定程度上可以使得该卷积神经网络具备提取时间维度特征的能力，且所耗费的计算量小于使用3D卷积神经网络所耗费的计算量，进而确保基于该卷积神经网络得到的特征提取模型，能够以较小计算量准确的提取出时间维度特征及空间维度特征，达到兼顾提取的全面性和所需耗费的计算量的目的。

本发明实施例还提供的一种特征提取方法，该方法可以包括：将待提取视频作为特征提取模型的输入，通过所述特征提取模型提取所述待提取视频的时间维度特征以及空间维度特征；其中，所述特征提取模型是根据前述任一模型生成方法实施例生成的。

本发明实施例中，待提取视频可以是通过接收用户手动输入的视频得到的，或者是直接从网络中获取的，它可以是一个或多个完整的视频，也可以为完整视频中的一个或多个视频片段，等等。本发明实施例中，由于特征提取模型是根据前述模型生成方法实施例生成的，即，该特征提取模型具备以较小计算量准确的提取出时间-空间维度特征的能力，因此，通过特征提取模型提取时间维度特征以及空间维度特征，可以以较小的计算量，提取到时间-空间维度特征，其中，时间-空间维度特征表示空间维度特征及时间维度特征。

图3是本发明实施例提供的一种模型生成装置的框图，如图3所示，该装置40可以包括：

采样模块401，用于通过预设时间-空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图；所述T为大于1的整数。

提取模块402，用于通过所述预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取所述T个输入特征图的空间维度特征，以及，通过预先嵌入的TCC模块，根据预设的二维卷积核提取所述T个输入特征图的时间维度特征；其中，所述预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个所述TCC模块得到的。

训练模块403，用于基于所述空间维度特征及所述时间维度特征，生成特征提取模型。

可选地，所述提取模块402，具体用于：

基于所述输入特征图的时间顺序，根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作，以确定所述时间维度特征；所述输入特征图是所述TCC模块之前的层对所述样本视频帧进行处理得到的。

可选地，所述提取模块402，还具体用于：

对于任一所述输入特征图，按照时间维度的索引、通道维度的索引，利用所述预设的二维卷积核在各个所述索引指示的时间及通道维度下遍历所述输入特征图，以进行所述卷积操作。

可选地，所述提取模块402，还具体用于：

在所述基于所述输入特征图的时间顺序，根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作之前，所述方法还包括：将所述输入特征图的通道数量调整为P；所述P＜Q，所述Q是所述输入特征图的原始通道数量；

在所述基于所述输入特征图的时间顺序，根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作之后，所述方法还包括：将进行卷积之后的输入特征图的通道数量恢复为Q，得到所述时间维度特征。

可选地，所述预设时间-空间维度2D卷积神经网络中包括卷积层；所述TCC模块与所述卷积层连接；所述TCC模块包括时间通道卷积层、数量调整层及数量恢复层。

所述时间通道卷积层用于实现所述根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作的操作，所述数量调整层用于实现所述将所述输入特征图的通道数量调整为P的操作，所述数量恢复层用于实现所述将所述输入特征图的通道数量恢复为Q的操作。

所述数量调整层、所述时间通道卷积层及所述数量恢复层均连接有批量归一化BN层和修正线性单元Relu层；所述BN层用于对所述数量调整层、所述时间通道卷积层或所述数量恢复层的输出进行归一化操作，所述Relu层用于对所述BN层的输出进行修正线性操作。

综上所述，本发明实施例提供的模型生成装置，通过预设时间-空间维度2D卷积神经网络中的特征图生成层对样本视频进行采样，得到T个输入特征图，然后，通过预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取T个输入特征图的空间维度特征，以及，通过时间通道卷积神经网络TCC模块，根据预设的二维卷积核提取T个输入特征图的时间维度特征，其中，预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个TCC模块得到的，最后，基于空间维度特征及时间维度特征，生成特征提取模型。由于嵌入之后本质上得到的依旧是2D卷积神经网络，因此，一定程度上可以使得该卷积神经网络具备提取时间维度特征的能力，且所耗费的计算量小于使用3D卷积神经网络所耗费的计算量，进而确保基于该卷积神经网络得到的特征提取模型，能够以较小计算量准确的提取出时间维度特征及空间维度特征，达到兼顾提取的全面性和所需耗费的计算量的目的。

图4是本发明实施例提供的一种特征提取装置的框图，如图4所示，该装置50可以包括：

提取模块501，用于将待提取视频作为特征提取模型的输入，通过所述特征提取模型提取所述待提取视频的时间-空间维度特征时间-空间维度特征。其中，所述特征提取模型是根据前述模型生成装置生成的。

综上所述，本发明实施例提供的特征提取装置，由于特征提取模型具备以较小计算量准确的提取出时间维度特征及空间维度特征的能力，因此，通过将待提取视频输入特征提取模型，可以以较小的计算量，提取到空间维度特征及时间维度特征。

对于上述装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的模型生成方法或特征提取方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的模型生成方法或特征提取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

通过所述预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取所述T个输入特征图的空间维度特征，以及，通过时间通道卷积神经网络TCC模块，根据预设的二维卷积核提取所述T个输入特征图的时间维度特征；其中，所述预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个所述TCC模块得到的；所述TCC模块包括时间通道卷积层、数量调整层及数量恢复层；所述时间通道卷积层用于实现根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作的操作，所述数量调整层用于实现将所述输入特征图的通道数量调整为P的操作，所述数量恢复层用于实现将所述输入特征图的通道数量恢复为Q的操作；

基于所述空间维度特征及所述时间维度特征，生成特征提取模型，包括：

步骤A、使用分类模型根据所述空间维度特征及所述时间维度特征，确定样本视频中包含的被摄主体的运动行为，进行行为分类，得到预测标签；

步骤B、根据所述预测标签与真实标签之间的偏差程度，对所述预设时间-空间维度2D卷积神经网络中的参数进行调整；

步骤C、在完成调整之后，通过重复执行所述步骤A和所述步骤B，继续进行训练，直至满足停止训练的条件为止。

2.根据权利要求1所述的方法，其特征在于，通过预先嵌入的时间通道卷积神经网络TCC模块，根据预设的二维卷积核提取所述T个输入特征图的时间维度特征，包括：

基于所述输入特征图的时间顺序，根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作，以确定所述时间维度特征；所述输入特征图是所述TCC模块之前的层对所述样本视频中的样本视频帧进行处理得到的。

3.根据权利要求2所述的方法，其特征在于，所述基于所述输入特征图的时间顺序，根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作，包括：

4.根据权利要求2或3所述的方法，其特征在于，在所述基于所述输入特征图的时间顺序，根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作之前，所述方法还包括：将所述输入特征图的通道数量调整为P；所述P＜Q，所述Q是所述输入特征图的原始通道数量；

5.根据权利要求4所述的方法，其特征在于，所述预设时间-空间维度2D卷积神经网络中包括卷积层；所述TCC模块与所述卷积层连接；

6.一种特征提取方法，其特征在于，所述方法包括：

其中，所述特征提取模型是根据权利要求1至5中任一所述的方法生成的。

7.一种模型生成装置，其特征在于，所述装置包括：

提取模块，用于通过所述预设时间-空间维度2D卷积神经网络中的空间特征提取层，提取所述T个输入特征图的空间维度特征，以及，通过预先嵌入的时间通道卷积神经网络TCC模块，根据预设的二维卷积核提取所述T个输入特征图的时间维度特征；其中，所述预设时间-空间维度2D卷积神经网络是通过预先在2D卷积神经网络中嵌入至少一个所述TCC模块得到的；所述TCC模块包括时间通道卷积层、数量调整层及数量恢复层；所述时间通道卷积层用于实现根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作的操作，所述数量调整层用于实现将所述输入特征图的通道数量调整为P的操作，所述数量恢复层用于实现将所述输入特征图的通道数量恢复为Q的操作；

训练模块，用于基于所述空间维度特征及所述时间维度特征，生成特征提取模型；

其中，所述训练模块，具体用于：使用分类模型根据所述空间维度特征及所述时间维度特征，确定样本视频中包含的被摄主体的运动行为，进行行为分类，得到预测标签；根据所述预测标签与真实标签之间的偏差程度，对所述预设时间-空间维度2D卷积神经网络中的参数进行调整，并在完成调整之后，通过重复执行继续进行训练，直至满足停止训练的条件为止。

8.根据权利要求7所述的装置，其特征在于，所述提取模块，具体用于：

9.根据权利要求8所述的装置，其特征在于，所述提取模块，还具体用于：

10.根据权利要求8或9所述的装置，其特征在于，所述提取模块，还具体用于：

在所述基于所述输入特征图的时间顺序，根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作之前，还包括：将所述输入特征图的通道数量调整为P；所述P＜Q，所述Q是所述输入特征图的原始通道数量；

在所述基于所述输入特征图的时间顺序，根据所述预设的二维卷积核在每个所述输入特征图的时间及通道维度上进行卷积操作之后，还包括：将进行卷积之后的输入特征图的通道数量恢复为Q，得到所述时间维度特征。

11.根据权利要求10所述的装置，其特征在于，所述预设时间-空间维度2D卷积神经网络中包括卷积层；所述TCC模块与所述卷积层连接；

12.一种特征提取装置，其特征在于，所述装置包括：

其中，所述特征提取模型是根据权利要求7至11中任一所述的装置生成的。

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。