CN110866489B

CN110866489B - 图像识别方法、装置、设备及存储介质

Info

Publication number: CN110866489B
Application number: CN201911104993.6A
Authority: CN
Inventors: 王景文; 李旭; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-12-04
Anticipated expiration: 2039-11-07
Also published as: CN110866489A

Abstract

本申请实施例提供了一种图像识别方法、装置、设备及存储介质，其中，方法包括：对至少两帧图像中的每一帧进行特征提取，得到每一帧的特征数据；对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果；对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果；根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果。通过本申请，能够减小对特征数据进行卷积处理的计算复杂度，并且，还能够保证对图像的特征数据进行有效的时空建模。

Description

图像识别方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，涉及但不限于一种图像识别方法、装置、设备及存储介质。

背景技术

目前，在进行图像识别时，通常采用以下两种方式实现：第一种，采用双流法的方式，分别将红绿蓝(RGB，Red-Green-Blue)图像和光流图像作为输入，通过卷积神经网络进行时空信息建模，然后通过融合双流的信息进行图像分类；第二种，采用时空卷积的方法，直接将RGB图像帧作为3D数据输入网络，联合地进行时空信息提取以及时空信息融合。

但是，采用双流法的方式，需要提取光流数据，耗时耗力且光流分支网络的计算量非常大；采用时空卷积的方法，由于时空建模是独立分开的，因此会受制于模型计算复杂度以及时空建模能力两方面的影响。

发明内容

本申请实施例提供一种图像识别方法、装置、设备及存储介质，能够使用较小的模型计算复杂度达到有效的时空建模，从而在有效降低计算复杂度的同时，提高了视频行为识别性能。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像识别方法，包括：

对至少两帧图像中的每一帧进行特征提取，得到每一帧的特征数据；

对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果；

对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果；

根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果。

本申请实施例提供一种图像识别装置，包括：

特征提取模块，用于对至少两帧图像中的每一帧进行特征提取，得到每一帧的特征数据；

时间卷积处理模块，用于对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果；

空间卷积处理模块，用于对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果；

确定模块，用于根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果

本申请实施例提供一种图像识别设备，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的方法。

本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现上述的方法。

本申请实施例具有以下有益效果：通过对每一帧图像提取的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果；并对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果，再根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果。如此，对图像中的特征数据在进行基于时间维度的卷积处理的同时，进行基于空间维度的卷积处理，从而能够减小对特征数据进行卷积处理的计算复杂度，并且，还能够保证对图像的特征数据进行有效的时空建模。

附图说明

图1是本申请实施例提供的图像识别系统的一个可选的架构示意图；

图2A是本申请实施例提供的图像识别系统应用于区块链系统的一个可选的结构示意图；

图2B是本申请实施例提供的区块结构的一个可选的示意图；

图3是本申请实施例提供的服务器的结构示意图；

图4是本申请实施例提供的图像识别方法的一个可选的流程示意图；

图5A是本申请实施例提供的时空协作异构卷积网络模型的训练方法的流程示意图；

图5B是本申请实施例所采用的ResNet网络的结构示意图；

图6是本申请实施例提供的图像识别方法的一个可选的流程示意图；

图7是本申请实施例提供的图像识别方法的一个可选的流程示意图；

图8是本申请实施例提供的图像识别方法的一个可选的流程示意图；

图9是本申请实施例提供的图像识别方法的一个可选的流程示意图；

图10是本申请实施例提供的新型的时空协作异构卷积的结构示意图；

图11A是本申请实施例提供的相加的融合策略；

图11B是本申请实施例提供的基于自注意力机制的时空特征融合策略；

图12A是本申请实施例2D卷积神经网络结构的残差瓶颈块结构示意图；

图12B是本申请实施例3D卷积神经网络结构的残差瓶颈块结构示意图；

图12C是本申请实施例经过替换时空协作异构卷积块的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)卷积神经网络(CNN，Convolutional Neural Networks)：是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络(SIANN，Shift-Invariant Artificial Neural Networks)。其中，在卷积神经网络中，卷积核是整个网络的核心，本申请实施例就是基于卷积层中的卷积核实现的。

2)卷积核：对于输入图像中的一部分区域，进行加权平均的处理，其中这个过程的权重，由一个函数定义，这个函数就是卷积核。也可以将卷积核理解为权重矩阵或者一种进行卷积运算的方式。

3)时空协作异构卷积网络模型：即本文中通过对基础的卷积神经网络进行训练得到的新的卷积神经网络模型。所述时空协作异构卷积网络模型能够同时提取并融合视频的时空特征(即时间维度的特征和空间维度的特征)。

4)通道(channel)，该词语有两种不同的含义，第一种是对于样本图像(图像作为训练样本)，通道是指颜色通道(Number of color channels in the example images)；第二种是输出空间的维数，例如卷积操作中输出通道的个数，或者说每个卷积层中卷积核的数量，本文将用输出空间的维数来表示输出通道，输入空间的维数表示输入通道。

为了更好地理解本申请实施例中提供的图像识别方法，首先对相关技术中的图像识别方法进行说明：

相关技术中，当对视频进行识别，以确定视频中的行为类别时，不仅需要考虑视频帧的空间信息，还需要考虑视频帧的时间信息，因此，相关技术中，在对视频中的图像进行识别以确定视频中的行为类别时，常用的方法包括两大类：第一大类是采用双流法的方式；第二大类是采用时空卷积的方式。

对于双流法，顾名思义就好像是两条小溪流各自流动最后汇聚到了一块，其中一条小溪流的名称为RGB图信息，可以是三通道的信息，也可以是RGB-D的灰度图信息；而另一条小溪流的名称是“光流”图的信息，一般的光流图为两通道的信息，分别为在X轴上的信息变化与Y轴上的信息变化。其中，光流是通过对两张图进行梯度计算得到，抽象层面可以理解成是其关键点的像素点信息移动的信息。也就是说，光流法就是提取数据的光流作为运动信息来表征时间特征，分别将RGB图像以及光流图像作为输入，通过卷积神经网络进行时空信息建模，然后通过融合双流的信息进行分类。

但是，双流法中光流数据的提取是一项耗时耗力的工作，所以双流法很难做到实时性分类，另外，处理光流数据的方法一般是采用堆叠连续多帧光流数据作为输入，所以光流分支网络的计算量非常大。这些都为网络带来了额外的开销。

对于采用时空卷积的方式，则是采用时空卷积直接将RGB图像帧作为3D数据输入网络，联合地进行时空信息提取以及融合。一般根据时空卷积的不同可大致分为3D卷积神经网络[2，3]、(2+1)D卷积神经网络[4，5，6]和2D/3D混合的网络结构[7，8]。其中，对于3D卷积神经网络，由于卷积核增加了一个时间维度，所以该网络结构的参数量以及计算量都非常大；对于是(2+1)D卷积神经网络，是将3D卷积分解成一个2D卷积和一个1D卷积，形式上有串联堆叠以及并行相加，并且(2+1)D的时空建模是独立分开的；对于2D/3D混合的网络结构，是将2D网络和3D网络结合起来进行建模，牺牲一部分时间卷积来达到减少计算开销的目的，例如，网络底层使用2D网络，高层使用3D网络，或者，网络底层使用3D网络，高层使用2D网络。

但是，对于上述的采用时空卷积的方式，在利用时空卷积进行时空建模的方法中，都会受制于模型计算复杂度以及时空建模能力两方面的影响；或者，模型的时空建模能力强，但是计算复杂度高；或者，牺牲时空建模能力来减少计算复杂度。显然，均不能保证在降低模型计算复杂度的同时达到有效的时空建模。

基于相关技术所存在的至少一个问题，本申请实施例提供一种图像识别方法，通过对每一帧图像提取的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果；再对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果，并根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果。如此，对图像中的特征数据在进行基于时间维度的卷积处理的同时，进行基于空间维度的卷积处理，从而能够减小对特征数据进行卷积处理的计算复杂度，并且，还能够保证对图像的特征数据进行有效的时空建模。另外，本申请实施例提供的方案涉及人工智能的模型构建技术，比如，构建用于实现对每一帧图像的特征数据进行所述基于时间维度的卷积处理和所述基于空间维度的卷积处理的时空协作异构卷积网络模型等，将在下文进行说明。

这里，需要说明的是，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

下面说明本申请实施例提供的图像识别设备的示例性应用，本申请实施例提供的设备为用于可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端，也可以实施为服务器。下面，将说明设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的图像识别系统10的一个可选的架构示意图。为实现支撑一个图像识别应用，终端(示例性示出了终端100-1和终端100-2)通过网络200连接服务器300，终端获取待识别视频，并将待识别视频通过网络200发送给服务器300，以使得服务器300对所述待识别视频进行视频帧采集，得到至少两帧图像，并对所述至少两帧图像进行图像识别，得到识别结果，再将识别结果通过网络200发送给终端。其中，网络200可以是广域网或者局域网，又或者是二者的组合。终端可以在当前页面(示例性示出了当前页面110-1和当前页面110-2)上显示识别结果。

本申请实施例涉及的图像识别系统10也可以是区块链系统的分布式系统101，参见图2A，图2A是本申请实施例提供的图像识别系统10应用于区块链系统的一个可选的结构示意图，其中，所述分布式系统101可以是由多个节点102(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端103形成的分布式节点，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，TransmissionControl Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图2A示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币。

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

4)共识(Consensus)，是区块链网络中的一个过程，用于在涉及的多个节点之间对区块中的交易达成一致，达成一致的区块将被追加到区块链的尾部，实现共识的机制包括工作量证明(PoW，Proof of Work)、权益证明(PoS，Pr oof of Stake)、股份授权证明(DPoS，Delegated Proof-of-Stake)、消逝时间量证明(PoET，Proof of Elapsed Time)等。

参见图2B，图2B是本申请实施例提供的区块结构(Block Structure)的一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

参见图3，图3是本申请实施例提供的服务器300的结构示意图，图3所示的服务器300包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。服务器300中的各个组件通过总线系统340耦合在一起。可理解，总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统351，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块353，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图3示出了存储在存储器350中的一种图像识别装置354，该图像识别装置354可以是服务器300中的图像识别装置，其可以是程序和插件等形式的软件，包括以下软件模块：特征提取模块3541、时间卷积处理模块3542、空间卷积处理模块3543和确定模块3544，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specif ic Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic De vice)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

下面将结合本申请实施例提供的服务器300的示例性应用和实施，说明本申请实施例提供的图像识别方法。参见图4，图4是本申请实施例提供的图像识别方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

步骤S401，对至少两帧图像中的每一帧图像进行特征提取，得到每一帧图像的特征数据。

这里，所述至少两帧图像为具有相关性的一组图像，所述具有相关性是指这一组图像具有时间上的先后顺序，按照时间上的先后顺序能够表达一种行为类别，例如，一组图像反应了人物的一个动作，比如抬头的动作。在这一组图像中，每一帧图像均具有时间信息和空间信息，所述时间信息用于表征对应图像与其他图像的时间先后顺序，所述空间信息用于表征所述图像中的物体的空间位置信息。

本申请实施例中，对所述图像进行特征提取，可以是提取出所述图像的所述时间信息和所述空间信息。特征提取是对所述图像进行处理过程中的一个初级运算，也就是说它是对所述图像所进行的第一个运算处理，通过特征提取检查每个像素来确定该像素是否代表一个特征，可以通过局部导数运算来计算图像的一个或多个特征，得到图像的像素和时间等特征数据。每一图像所提取的特征数据为多个，在后续的图像识别过程中，是对每一帧图像所提取的多个特征数据进行运算，以实现对图像进行识别的目的。

步骤S402，对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果。

这里，所述基于时间维度的卷积处理为时间卷积处理，也就是不考虑图像特征数据中的空间信息，仅对时间信息对应的特征数据进行卷积处理，即，可以将特征数据中的空间位置设为[0，0]，将包含空间位置[0，0]的特征数据输入到卷积神经网络中进行卷积处理。

本申请实施例中，对于每一帧图像，是对该图像中的一部分特征数据进行基于时间维度的卷积处理，也就是说，在进行基于时间维度的卷积处理时，并不是对同一图像的全部特征数据进行基于时间维度的卷积处理，可以取特定的一部分特征数据或者取一定比例的特征数据或者随机选取一定数量的特征数据进行基于时间维度的卷积处理，得到第一处理结果。其中，所述第一处理结果为经过卷积处理之后输出的时间维度的输出结果。

步骤S403，对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果。

这里，所述基于空间维度的卷积处理为空间卷积处理，也就是不考虑图像特征数据中的时间信息，仅对空间信息对应的特征数据进行卷积处理，即，可以将特征数据中的时间位置设为常量t，将包含常量t的特征数据输入到卷积神经网络中进行卷积处理。

本申请实施例中，对于每一帧图像，由于其中的一部分特征数据用于进行基于时间维度的卷积处理，因此将另一部分特征数据进行基于空间维度的卷积处理，也就是说，将没有进行基于时间维度的卷积处理的特征数据进行基于空间维度的卷积处理，或者是将进行基于时间维度的卷积处理后所剩余的特征数据进行基于空间维度的卷积处理。其中，所述第二处理结果为经过卷积处理之后输出的空间维度的输出结果。

本申请实施例中，对于每一帧图像，将一部分特征数据进行基于时间维度的卷积处理，将另一部分特征数据进行基于空间维度的卷积处理，如此，基于时间维度的卷积处理和基于空间维度的卷积处理可以同时进行，能够减小对特征数据进行卷积处理的计算复杂度。

在一些实施例中，可以通过特定的卷积神经网络模型实现本申请的上述基于时间维度的卷积处理和基于空间维度的卷积处理。

步骤S404，根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果。

这里，在得到每一帧图像的第一处理结果和第二处理结果之后，确定所述第一处理结果和所述第二处理结果之和为对应图像的处理结果，并综合全部图像的处理结果，得到所述识别结果。也就是说，本申请实施例的方法，是对每一帧图像的一部分特征数据进行基于时间维度的加权求和，对每一帧图像的另一部分特征数据进行基于空间维度的加权求和，最后，对基于时间维度的加权求和结果和基于空间维度的加权求和结果进行求和处理，得到最终的识别结果。所述识别结果用于表征所述至少两帧图像的类别信息。

本申请实施例提供的图像识别方法，通过对每一帧图像提取的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果；并对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果，再根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果。如此，对图像中的特征数据在进行基于时间维度的卷积处理的同时，进行基于空间维度的卷积处理，从而能够减小对特征数据进行卷积处理的计算复杂度，并且，由于可以通过特定的卷积神经网络模型实现本申请实施例的图像识别方法，因此能够保证对图像的特征数据进行有效的时空建模。

在一些实施例中，对每一帧图像的特征数据进行所述基于时间维度的卷积处理和所述基于空间维度的卷积处理，可以采用时空协作异构卷积网络模型来实现，即通过时空协作异构卷积网络模型对输入的至少两帧图像进行识别，并输出所述识别结果。

这里，提供一种时空协作异构卷积网络模型的训练方法，如图5A所示，是本申请实施例提供的时空协作异构卷积网络模型的训练方法的流程示意图，所述方法包括：

步骤S501，确定预设卷积神经网络模型的卷积层的输入通道和输出通道。

这里，所述预设卷积神经网络模型可以是任意一种基于时空卷积运算的卷积神经网络模型，可以是2D基干网络，也可以是3D基干网络。例如，可以是非残差网络(ResNet，Residual Network)或者2D ResNet50。为了对本申请实施例的方案进行清楚的描述，在后续的关于模型训练的描述中均以所述预设卷积神经网络模型为ResNet网络为例进行说明，当然所述预设卷积神经网络模型并不限定于该ResNet网络，在其他卷积神经网络中，也可以实现本申请实施例的模型训练方法。

ResNet网络由于它“简单与实用”并存，因此本申请实施例的模型训练基于ResNet网络完成。ResNet网络将前若干个数据层(weight layer)的数据输出直接跳过多层而引入到后面数据层的输入部分，其中，图5B中示例性的示出了数据层501a和数据层501b，数据层即卷积层。图5B是本申请实施例所采用的ResNet网络的结构示意图，如图5B所示，其中ResNet提出了两种映射(m apping)：一种是恒等映射(identity mapping)，指的就是图5B中的曲线500对应的映射过程，对于恒等映射，顾名思义，就是指输出为输入本身，也就是公式中的输入数据x；另一种是残差映射(residual mapping)，指的就是除了曲线500之外的其他的映射过程，所以残差映射最后的输出数据是y＝F(x)+x，所以残差指的就是F(x)部分。在每一帧映射方式中，对每一层的输出数据可以通过线性整流函数502(ReLU，Rectified Linear Unit)对输出数据进行线性整流。

本申请实施例中，可以在所述ResNet网络的至少一个卷积层中训练得到时空协作异构卷积网络模型。因此，确定ResNet网络中的卷积层中的每一输入通道和每一输出通道。其中，所述输入通道用于输入所述特征数据，所述输出通道用于对卷积处理之后得到的处理数据进行输出。

步骤S502，在所述每一输出通道对应的空间卷积核中，确定至少一个空间卷积核为目标空间卷积核。

这里，每一输出通道对应有多个空间卷积核，所述空间卷积核用于实现对特征数据进行基于空间维度的卷积运算，每一空间卷积核在卷积层的输入通道中的位置固定。所述目标空间卷积核为需要进行替换的空间卷积核。

步骤S503，确定目标空间卷积核在输入通道中的位置为目标位置。

这里，在确定出目标空间卷积核之后，确定目标空间卷积核在所述卷积层的输入通道中的位置为目标位置，所述目标位置为要替换的时间卷积核在所述卷积层的输入通道中的位置。

步骤S504，获取基于所述时间维度的时间卷积核。这里，所述时间卷积核为能够实现基于时间维度对特征数据进行卷积运算的卷积核。

步骤S505，采用所述时间卷积核替换所述目标位置的目标空间卷积核，得到时空协作异构卷积网络模型。

这里，将所述时间卷积核替换至所述ResNet网络的卷积层的输入通道的目标位置处，从而得到新的时空协作异构卷积层，且具有该时空协作异构卷积层的卷积网络模型为所述时空协作异构卷积网络模型。

本申请实施例提供的模型训练方法，采用时间卷积核替换ResNet网络的卷积层的输入通道的目标位置的目标空间卷积核，得到时空协作异构卷积网络模型，由于该时空协作异构卷积网络模型的卷积层即有时间卷积核，又有空间卷积核，因此，在使用该时空协作异构卷积网络模型对图像的特征数据进行处理以实现图像识别功能时，由于对于同一组输入的特征数据，可以对一部分特征数据进行基于时间维度的时间卷积处理，同时也可以对另一部分特征数据进行基于空间维度的空间卷积处理，从而能够减小对特征数据进行卷积处理的计算复杂度，且能够保证对图像的特征数据进行有效的时空建模。

基于图5，如图6所示，是本申请实施例提供的图像识别方法的一个可选的流程示意图，其中，步骤S502中确定所述目标空间卷积核可以通过以下两种方式中的任意一种实现：

方式一：步骤S601，在所述每一输出通道对应的空间卷积核中，随机确定至少一个空间卷积核为所述目标空间卷积核。

这里，可以在每一输出通道对应的空间卷积核中随机确定一个或多个空间卷积核为目标空间卷积核，其中，每一目标空间卷积核在所述输入通道中的位置与其他目标空间卷积核在所述输入通道中的位置不同，也就是说，同一卷积层中的目标空间卷积核在输入通道中所占的位置不同。

方式二：在确定所述目标空间卷积核之前，所述方法还包括：

步骤S602，获取时空卷积比例。

这里，所述时空卷积比例是指在输入通道维度上，时间卷积核所占的比例。也就是说，在输入通道上，时间卷积核的数量与该输入通道上全部空间卷积核数量的比值，即在输入通道维度上，替换掉多少比例的空间卷积核。所述时空卷积比例为可根据图像识别效果进行设定的参数，无需通过机器学习过程来获取，所述时空卷积比例的取值范围为0到1，例如，所述时空卷积比例可以取值为1/4、1/8、1/2等。

本申请实施例中，步骤S502中确定所述目标空间卷积核可以包括以下步骤：

步骤S603，根据所述时空卷积比例和所述空间卷积核的第一数目，确定所述时间卷积核的第二数目。

这里，根据所述时空卷积比例与所述空间卷积核的第一数目之间的乘积，得到所述时间卷积核的第二数目，所述第二数目为要替换掉的空间卷积核的数目。

步骤S604，在所述每一输出通道对应的空间卷积核中，确定所述第二数目的空间卷积核为所述目标空间卷积核。

这里，在确定出要替换掉的空间卷积核的数目之后，在每一输出通道对应的全部空间卷积核中，随机确定第二数目的空间卷积核为要被替换掉的目标空间卷积核，或者，按照预设选取规则确定第二数目的空间卷积核为要被替换掉的目标空间卷积核，其中，所述预设选取规则可以根据实际需要进行确定，例如，可以按照空间卷积核在输入通道中的位置依次进行选取，也就是说，在输入通道中空间卷积核所在的起始位置开始，依次选取第二数目的空间卷积核为所述目标空间卷积核。

本申请实施例提供的图像识别方法，提供两种确定目标空间卷积核的方法，能够在每一输出通道对应的空间卷积核中，准确确定出要被替换掉的目标空间卷积核，从而将目标空间卷积核替换成时间卷积核，使得卷积层能够同时实现对特征数据的时间卷积处理和空间卷积处理，从而能够在使用时空协作异构卷积网络模型对图像的特征数据进行处理以实现图像识别功能时，能够减小对特征数据进行卷积处理的计算复杂度，且能够保证对图像的特征数据进行有效的时空建模。

基于图4，如图7所示，是本申请实施例提供的图像识别方法的一个可选的流程示意图，在一些实施例，在进行基于时间维度的卷积处理之前，所述方法还包括：

步骤S701，获取时间权重函数。

这里，所述时间权重函数是指进行基于时间维度的卷积处理的时间卷积运算的加权函数，所述时间权重函数是将空间位置设置为[0,0]的权重函数，所述时间权重函数仅考虑所输入的特征数据中时间维度的数据。

对应地，步骤S402中对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理的过程，可以通过以下步骤实现：

步骤S702，确定所述一部分中的每一特征数据与所述时间权重函数之间的第一乘积。

步骤S703，对所述一部分特征数据对应的所述第一乘积进行求和，得到所述第一处理结果。

这里，在输入通道维度上，将所述一部分特征数据中的每一特征数据与所述时间权重函数相乘，得到第一乘积。然后，将所述一部分特征数据中的全部特征数据对应的所述第一乘积进行求和，得到所述第一处理结果对应的输出数据。在一些实施例中，可以通过以下公式(1-1)计算所述第一处理结果对应的输出数据：

其中，

表示基于时间卷积T的第m个输出通道、第t个时间位置和第[h,w]空间位置的输出数据；p表示时空卷积比例；C_i表示输入通道数；

表示基于时间卷积T、且在第m个输出通道、第n个输入通道、第k个时间位置和第[0,0]空间位置的所述时间卷积函数；I_n,t+k,h,w表示第n个输入通道、第t+k个时间位置和第[h,w]空间位置的输入数据；Σ表示求和。

请继续参照图7，在一些实施例，在进行基于空间维度的卷积处理之前，所述方法还包括：

步骤S704，获取空间权重函数。

这里，所述空间权重函数是指进行基于空间维度的卷积处理的空间卷积运算的加权函数，所述空间权重函数是将时间设置为0的权重函数，所述空间权重函数仅考虑所输入的特征数据中空间维度的数据。

对应地，步骤S403中对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理的过程，可以通过以下步骤实现：

步骤S705，确定所述另一部分中的每一特征数据与所述空间权重函数之间的第二乘积。

步骤S706，对所述另一部分特征数据对应的所述第二乘积进行求和，得到所述第二处理结果。

这里，在输入通道维度上，将所述另一部分特征数据中的每一特征数据与所述空间权重函数相乘，得到第二乘积。然后，将所述另一部分特征数据中的全部特征数据对应的所述第二乘积进行求和，得到所述第二处理结果对应的输出数据。在一些实施例中，可以通过以下公式(1-2)计算所述第二处理结果对应的输出数据：

其中，

表示基于空间卷积S的第m个输出通道、第t个时间位置和第[h,w]空间位置的输出数据；

表示基于空间卷积S、且在第m个输出通道、第n个输入通道、第0个时间位置和第[i,j]空间位置的所述空间卷积函数；I_n,t,h+i,w+j表示第n个输入通道、第t个时间位置和第[h+i,w+j]空间位置的输入数据。

请继续参照图7，在一些实施例，步骤S404确定与所述至少两帧图像对应的识别结果的过程，可以通过以下步骤实现：

步骤S707，对所述至少两帧图像的所述第一处理结果和所述第二处理结果进行求和，得到用于表征所述至少两帧图像的类别的识别结果。

这里，对所述至少两帧图像的所述第一处理结果和所述第二处理结果进行求和，得到最终的输出数据，根据所述输出数据得到用于表征所述至少两帧图像的类别的识别结果，其中，所述至少两帧图像的类别为与所述至少两帧图像对应的行为类别。

本申请实施例中，可以采用以下公式(1-3)计算所述最终的输出数据：

其中，O_m,t,h,w表示四维输出张量中第m个输出通道、第t个时间位置和第[h,w]空间位置的输出数据。

基于图5，如图8所示，是本申请实施例提供的图像识别方法的一个可选的流程示意图，在一些实施例，步骤S505中确定时空协作异构卷积网络模型的方法，可以通过以下步骤实现：

步骤S801，对所述时间卷积核对应的第一输出结果和所述空间卷积核对应的第二输出结果分别进行平均池化处理，得到第一池化结果和第二池化结果。

这里，所述平均池化处理是指对全部所述第一输出结果或者全部所述第二输出结果中的所有值求均值。其中，平均池化处理能减小第一输出结果或者第二输出结果的数据量受限造成的估计值方差增大误差，从而更多的保留图像的背景信息，以提高识别结果的准确性。

步骤S802，对所述第一池化结果和所述第二池化结果分别进行线性回归处理，得到对应于所述第一输出结果的时间加权融合系数和对应于所述第二输出结果的空间加权融合系数。

所述线性回归处理是利用数理统计中的回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。这里，分别对第一池化结果和第二池化结果进行线性回归处理，从而得到所述时间加权融合系数和空间加权融合系数。

步骤S803，根据所述第一输出结果、所述时间加权融合系数、所述第二输出结果和所述空间加权融合系数，确定所述时空协作异构卷积网络模型。

这里，步骤S803可以通过以下步骤实现：

步骤S8031，将所述第一输出结果和所述时间加权融合系数之间的乘积，确定为第一融合结果。

步骤S8032，将所述第二输出结果和所述空间加权融合系数之间的乘积，确定为第二融合结果。

步骤S8033，根据所述第一融合结果与所述第二融合结果之和，确定所述时空协作异构卷积网络模型。

这里，可以具有在自注意力机制的时空特征融合策略模块中实现对时空卷积结果的加权融合，其中，时间加权融合系数α_T和空间加权融合系数α_S均为可学习的参数，融合策略可通过以下公式(1-4)表示：

本申请实施例提高构建时空协作异构卷积网络模型的方法，分别基于时间维度和空间维度来构建模型，并且对时空卷积结果进行加权融合，从而能够降低网络对时空卷积比例的敏感度，针对不同的数据也会更加具有泛化能力。

图9是本申请实施例提供的图像识别方法的一个可选的流程示意图，如图9所示，所述方法包括以下步骤：

步骤S901，获取待识别视频。

这里，所述待识别视频可以为任意类型的视频，所述视频对应至少一种行为类别。例如，所述视频可以是人物的动作视频，则在每一个动作的视频段中，对应一个动作类别，比如抬头动作、举手动作、踢腿动作等。

步骤S902，从所述待识别视频中获取所述至少两帧图像。

这里，所述至少两帧图像是待识别视频中对应于同一个动作类别的图像。

可以通过以下步骤从所述待识别视频中获取所述至少两帧图像：

步骤S9021，对所述待识别视频进行切割，得到至少两段视频片段。

这里，对所述待识别视频进行切割，是将同一个动作类别的视频段切割成至少两段视频片段。例如，可以按照等间隔时长切割，得到具有相同时长的至少两段视频片段，也可以随机的按照不等间隔时长进行切割，得到具有不同时长的至少两段视频片段。

步骤S9022，在每一视频片段中进行采样，得到对应视频片段的视频帧。

步骤S9023，将采样得到的至少两帧视频帧确定为所述至少两帧图像。

这里，所述至少两帧图像分别来自于切割得到的至少两段视频片段中，由于每一视频片段具有时间信息，即具有表征视频片段先后顺序的时间信息，因此，采样得到的至少两帧图像也具有时间信息。

步骤S903，对至少两帧图像中的每一帧进行特征提取，得到每一帧的特征数据。

步骤S904，对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果。

步骤S905，对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果。

需要说明的是，步骤S903至步骤S905与上述步骤S401至步骤S403相同，本申请实施例不再赘述。

步骤S906，根据每一帧图像的第一处理结果和第二处理结果，确定用于表征所述视频对应的行为类别的识别结果。

本申请实施例中，通过时空协作异构卷积网络模型，对视频中的图像进行识别，能够得到用于表征视频中人物的行为类别的识别结果。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种新型的时空协作异构卷积网络模型，能够使用较小的模型计算复杂度达到有效的时空建模。本申请实施例是一种给定剪切好的视频片段，识别出视频片段中的行为类别的方法。

本申请实施例有两个主要关键点：1)提出一种新型的进行时空建模的卷积核；2)采用自注意力机制的时空特征融合策略。本申请实施例提出的时空协作异构卷积网络模型，可以同时提取并融合视频的时空特征。不同于传统的标准卷积在通道维度上形式相同，该时空协作异构卷积网络模型在通道维度上是由不同的时空卷积核组成的，比如可以由3×3×1的空间卷积和3×1×1的时间卷积组成，因此可以同时提取不同通道的时空信息，然后再将时空信息进行加权融合。其中，融合的策略采用自注意力机制来有效融合时空信息。本申请实施例可以采用2D ResNet50作为基础网络，将其中的瓶颈块中的标准3×3×1卷积替换为时空协作异构卷积块，从而得到完整的网络结构。

本申请实施例的图像识别方法致力于解决视频理解中的一个基础任务：给定一段视频，识别出视频中人类的行为类别。本申请实施例的图像识别方法可以应用到与视频行为分类相关的场景中，例如，给网络中的视频打上行为类别标签、基于机器标签的视频检索等场景。

在实现的过程中，将输入的待识别视频等间隔分割成N等份，从每个分割片段中随机采样一帧图像，一共采样N帧图像，对N帧图像做数据增强后输入至时空协作异构卷积网络模型，即可得到预测结果。

下面对本申请实施例的时空协作异构卷积网络的训练过程进行说明。

本申请实施例采用2D ResNet50为基础网络，将2D ResNet50中的瓶颈块中的3×3×1卷积替换为本申请的时空协作异构卷积块，即可得到总体的时空协作异构卷积网络模型。

其中，时空协作异构卷积块的形成过程包括：在动作识别卷积神经网络结构中，采用的标准卷积

对于输入数据

经过以上标准卷积，可得到输出数据为

其中，W表示标准卷积；R表示实数集；C_i表示输入通道数；C_o表示输出通道数；[K_T,K_H,K_W]表示基于时间维度和空间维度的卷积核大小；K_T表示时间维度的卷积核大小；[K_H,K_W]表示空间维度的卷积核大小；I表示输入数据；T表示时间维度；[H,W]表示空间维度；O表示输出数据。

因此，根据标准卷积和输入数据计算输出数据可以参见以下公式(2-1)：

其中，O_m,t,h,w表示四维输出张量中第m个输出通道、第t个时间位置和第[h,w]空间位置的输出数据；

表示基于空间卷积S和基于时间卷积T、且在第m个输出通道、第n个输入通道、第k个时间位置和第[i,j]空间位置的所述卷积函数；I_{n,t+k,h+i,w+j}表示第n个输入通道、第t+k个时间位置和第[h+i,w+j]空间位置的输入数据；Σ表示求和。其中，在3D卷积神经网络中，

可以表示标准的3D卷积，例如卷积核大小为3时，k,i,j∈{-1，0，1}。

本申请实施例中，对于2D标准卷积，k＝0，i,j∈[-1，1]。C_o×C_i个空间卷积核会带来空间建模的冗余且无时间建模能力。本申请实施例针对这样的问题，提出了新型的时空协作异构卷积，如图10所示，沿着输入通道的维度，一部分3×3×1的空间卷积1001被3×1×1的时间卷积1002替换，形成了一种新型的异构卷积，该卷积可以同时进行时空建模。

为了能够有效的捕捉到所有的输入通道C_i的时间信息以及空间信息，我们在不同的输入通道位置上将空间卷积核替换成时间卷积核，从而得到C_o个不同的时空异构卷积核。其中，时空协作异构卷积计算输出数据可以参见以下公式(2-2)：

其中，p表示时空卷积比例；

表示基于时间卷积T、且在第m个输出通道、第n个输入通道、第k个时间位置和第[0,0]空间位置的所述时间卷积函数；I_n,t+k,h,w表示第n个输入通道、第t+k个时间位置和第[h,w]空间位置的输入数据；

表示基于空间卷积S、且在第m个输出通道、第n个输入通道、第0个时间位置和第[i,j]空间位置的所述空间卷积函数；I_n,t,h+i,w+j表示第n个输入通道、第_t个时间位置和第[h+i,w+j]空间位置的输入数据。

在一些实施例中，为了方便表示，公式(2-2)还可以采用以下公式(2-3)来表示：

其中，

表示基于时间卷积T的第m个输出通道、第t个时间位置和第[h,w]空间位置的输出数据，

表示基于空间卷积S的第m个输出通道、第t个时间位置和第[h,w]空间位置的输出数据，

本申请实施例中，

对pC_i个输入通道进行时间建模，而

对(1-p)C_i个输入通道进行空间建模，然后通过对应元素相加的方式进行融合。由上式可得时空协作异构卷积的计算复杂度为C_o×[p×C_i×K_T+(1-p)×C_i×K_H×K_W]。

对于3D的视频数据，经过时空协作异构卷积后，可以进行充分地时间空间建模以及融合，且拥有小于传统的2D标准卷积的计算复杂度和存储复杂度。

在一些实施例中，在时空协作卷积中，时空卷积比例p表示在输入通道维度上替换多少比例的时间卷积，理论上p∈[0,1]。为了方便使时空协作异构卷积插入到现有的2D卷积神经网络结构中，p可以取值0，1/8，1/4，1/2等。

在一些实施例中，在标准卷积操作中，每一个输出通道均是对所有输入通道进行建模后再通过相加的方法进行融合，上述公式(2-3)中，也是采用了和传统标准卷积相同的融合方法。但是由于传统卷积造作操作在不同的输入通道上卷积核形式相同，而时空协作异构卷积则分别对不同通道进行了时间建模和空间建模。针对这一问题，本申请实施例提出了一种基于自注意力机制的时空特征融合策略(Attention Integration)。相对于直接相加的融合策略(Naive Int egration)，自注意力机制的时空特征融合策略会降低网络对时空卷积比例p的敏感度，针对不同的数据也会更加具有泛化能力。

在自注意力机制的时空特征融合策略模块中，有两个可学习的参数α_T和α_S，其中，α_T表示时间特征的加权融合系数；α_S表示空间特征的加权融合系数，融合策略可通过以下公式(2-4)表示：

以上两种融合策略如图11A和11B所示，其中，图11A是本申请实施例提供的相加的融合策略，图11B是本申请实施例提供的基于自注意力机制的时空特征融合策略。基于自注意力机制的时空特征融合策略是在相加融合策略的基础上采用自注意力机制。

如图11A所示，在相加的融合策略中，首先将输入数据I输入至时空协作异构卷积网络模型(STC，Spatio-Temporal Convolution)1101中，然后，对

(以下简记为O^T)和

(以下简记为O^S)进行元素相加1102，得到输出数据O并输出。

如图11B所示，在基于自注意力机制的时空特征融合策略中，首先将输入数据I输入至时空协作异构卷积网络模型1101中，然后，对O^T和O^S进行全局平均池化操作1103，获得

然后对O^T和O^S进行堆叠处理1104，形成

经过全连接操作和SoftMax函数后处理(FC&SM)1105，获得

然后，基于α_T和α_S对O^T和O^S分别进行元素相加1102，得到输出数据O并输出。

本申请实施例提供的时空协作异构卷积网络的总体网络结构可以基于2DResNet50基网络，如图12A、12B和12C所示，图12A是2D卷积神经网络结构的残差瓶颈块，图12B是3D卷积神经网络结构的残差瓶颈块，将以上两种结构中的中间层卷积替换为我们提出的时空协作异构卷积(STC-Conv)即可得到时空协作卷积块(STC-Block)，如图12C所示。将STC-Block进行堆叠即可得到总体网络结构如下表1所示。

表1总体网络结构

本申请实施例提供的图像识别方法，致力于高效的视频行为识别，在能够有效提高降低计算复杂度的同时，提高了视频行为识别性能。本申请实施例所提出的时空协作异构卷积块，还可以应用在其它2D基干网络上，因此能够作为一种通用的卷积块，改善现有基于时空卷积进行视频行为识别的方法。因此，本申请实施例的方法具有潜在的经济效益。

需要说明的是，除了上述提及的时空协作异构卷积，其它方法所使用的卷积网络，涉及到使用类似的时空异构卷积，或相似的基于自注意力的时空融合方式，均在本申请实施例的保护范围中。

下面继续说明本申请实施例提供的图像识别装置354的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器350的图像识别装置354中的软件模块可以是服务器300中的图像识别装置，包括：

特征提取模块3541，用于对至少两帧图像中的每一帧进行特征提取，得到每一帧的特征数据；

时间卷积处理模块3542，用于对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果；

空间卷积处理模块3543，用于对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果；

确定模块3544，用于根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果。

在一些实施例中，所述装置还包括：时空协作异构卷积网络模型，用于实现对每一帧图像的特征数据进行所述基于时间维度的卷积处理和所述基于空间维度的卷积处理。

在一些实施例中，所述时空协作异构卷积网络模型通过以下步骤训练得到：确定预设卷积神经网络模型的卷积层的输入通道和输出通道；在每一输出通道对应的空间卷积核中，确定至少一个空间卷积核为目标空间卷积核；确定目标空间卷积核在输入通道中的位置为目标位置；获取基于所述时间维度的时间卷积核；采用所述时间卷积核替换所述目标位置的目标空间卷积核，得到时空协作异构卷积网络模型。

在一些实施例中，所述时空协作异构卷积网络模型通过以下步骤训练得到：在所述每一输出通道对应的空间卷积核中，随机确定至少一个空间卷积核为所述目标空间卷积核；其中，每一目标空间卷积核在所述输入通道中的位置与其他目标空间卷积核在所述输入通道中的位置不同。

在一些实施例中，所述时空协作异构卷积网络模型通过以下步骤训练得到：获取时空卷积比例；根据所述时空卷积比例和所述空间卷积核的第一数目，确定所述时间卷积核的第二数目；在所述每一输出通道对应的空间卷积核中，确定所述第二数目的空间卷积核为所述目标空间卷积核。

在一些实施例中，所述装置还包括：第一获取模块，用于获取时间权重函数；所述时间卷积处理模块还用于：确定所述一部分中的每一特征数据与所述时间权重函数之间的第一乘积；对所述一部分特征数据对应的所述第一乘积进行求和，得到所述第一处理结果。

在一些实施例中，所述装置还包括：第二获取模块，用于获取空间权重函数；所述空间卷积处理模块还用于：确定所述另一部分中的每一特征数据与所述空间权重函数之间的第二乘积；对所述另一部分特征数据对应的所述第二乘积进行求和，得到所述第二处理结果。

在一些实施例中，所述确定模块还用于：对所述至少两帧图像的所述第一处理结果和所述第二处理结果进行求和，得到用于表征所述至少两帧图像的类别的识别结果。

在一些实施例中，所述时空协作异构卷积网络模型通过以下步骤训练得到：对所述时间卷积核对应的第一输出结果和所述空间卷积核对应的第二输出结果分别进行平均池化处理，得到第一池化结果和第二池化结果；对所述第一池化结果和所述第二池化结果分别进行线性回归处理，得到对应于所述第一输出结果的时间加权融合系数和对应于所述第二输出结果的空间加权融合系数；根据所述第一输出结果、所述时间加权融合系数、所述第二输出结果和所述空间加权融合系数，确定所述时空协作异构卷积网络模型。

在一些实施例中，所述时空协作异构卷积网络模型通过以下步骤训练得到：将所述第一输出结果和所述时间加权融合系数之间的乘积，确定为第一融合结果；将所述第二输出结果和所述空间加权融合系数之间的乘积，确定为第二融合结果；将所述第一融合结果与所述第二融合结果之和，确定所述时空协作异构卷积网络模型。

在一些实施例中，所述装置还包括：第三获取模块，用于获取待识别视频；从所述待识别视频中获取所述至少两帧图像；所述确定模块还用于：根据每一帧图像的第一处理结果和第二处理结果，确定用于表征所述视频对应的行为类别的识别结果。

在一些实施例中，所述第三获取模块还用于：对所述待识别视频进行切割，得到至少两段视频片段；在每一视频片段中进行采样，得到对应视频片段的视频帧；将采样得到的至少两帧视频帧确定为所述至少两帧图像。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4示出的方法。

在一些实施例中，存储介质可以是铁电存储器(FRAM，Ferromagnetic Ra ndomAccess Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read Only Me mory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像识别方法，其特征在于，包括：

采用时空协作异构卷积网络模型对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果；且

采用所述时空协作异构卷积网络模型对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果；其中，所述时空协作异构卷积网络模型通过以下步骤训练得到：确定预设卷积神经网络模型的卷积层的输入通道和输出通道；在每一输出通道对应的空间卷积核中，确定至少一个空间卷积核为目标空间卷积核；确定目标空间卷积核在输入通道中的位置为目标位置；获取基于所述时间维度的时间卷积核；采用所述时间卷积核替换所述目标位置的目标空间卷积核，得到时空协作异构卷积网络模型；

2.根据权利要求1所述的方法，其特征在于，所述在每一输出通道对应的空间卷积核中，确定至少一个空间卷积核为目标空间卷积核，包括：

在所述每一输出通道对应的空间卷积核中，随机确定至少一个空间卷积核为所述目标空间卷积核；

其中，每一目标空间卷积核在所述输入通道中的位置与其他目标空间卷积核在所述输入通道中的位置不同。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取时空卷积比例；所述在每一输出通道对应的空间卷积核中，确定至少一个空间卷积核为目标空间卷积核，包括：

根据所述时空卷积比例和所述空间卷积核的第一数目，确定所述时间卷积核的第二数目；

在所述每一输出通道对应的空间卷积核中，确定所述第二数目的空间卷积核为所述目标空间卷积核。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：获取时间权重函数；所述对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果，包括：

确定所述一部分中的每一特征数据与所述时间权重函数之间的第一乘积；

对所述一部分特征数据对应的所述第一乘积进行求和，得到所述第一处理结果。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：获取空间权重函数；所述对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果，包括：

确定所述另一部分中的每一特征数据与所述空间权重函数之间的第二乘积；

对所述另一部分特征数据对应的所述第二乘积进行求和，得到所述第二处理结果。

6.根据权利要求1至3任一项所述的方法，其特征在于，所述根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果，包括：

对所述至少两帧图像的所述第一处理结果和所述第二处理结果进行求和，得到用于表征所述至少两帧图像的类别的识别结果。

7.根据权利要求1所述的方法，其特征在于，所述采用所述时间卷积核替换所述目标位置的目标空间卷积核，得到时空协作异构卷积网络模型，包括：

对所述时间卷积核对应的第一输出结果和所述空间卷积核对应的第二输出结果分别进行平均池化处理，得到第一池化结果和第二池化结果；

对所述第一池化结果和所述第二池化结果分别进行线性回归处理，得到对应于所述第一输出结果的时间加权融合系数和对应于所述第二输出结果的空间加权融合系数；

根据所述第一输出结果、所述时间加权融合系数、所述第二输出结果和所述空间加权融合系数，确定所述时空协作异构卷积网络模型。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一输出结果、所述时间加权融合系数、所述第二输出结果和所述空间加权融合系数，确定所述时空协作异构卷积网络模型，包括：

将所述第一输出结果和所述时间加权融合系数之间的乘积，确定为第一融合结果；

将所述第二输出结果和所述空间加权融合系数之间的乘积，确定为第二融合结果；

根据所述第一融合结果与所述第二融合结果之和，确定所述时空协作异构卷积网络模型。

9.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：获取待识别视频；

从所述待识别视频中获取所述至少两帧图像；

所述根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果，包括：

根据每一帧图像的第一处理结果和第二处理结果，确定用于表征所述视频对应的行为类别的识别结果。

10.根据权利要求9所述的方法，其特征在于，所述从所述待识别视频中获取所述至少两帧图像，包括：

对所述待识别视频进行切割，得到至少两段视频片段；

在每一视频片段中进行采样，得到对应视频片段的视频帧；

将采样得到的至少两帧视频帧确定为所述至少两帧图像。

11.一种图像识别装置，其特征在于，包括：

时间卷积处理模块，用于采用时空协作异构卷积网络模型对每一帧图像的特征数据中的一部分进行基于时间维度的卷积处理，得到第一处理结果；

空间卷积处理模块，用于采用所述时空协作异构卷积网络模型对每一帧图像的特征数据中的另一部分进行基于空间维度的卷积处理，得到第二处理结果；其中，所述时空协作异构卷积网络模型通过以下步骤训练得到：确定预设卷积神经网络模型的卷积层的输入通道和输出通道；在每一输出通道对应的空间卷积核中，确定至少一个空间卷积核为目标空间卷积核；确定目标空间卷积核在输入通道中的位置为目标位置；获取基于所述时间维度的时间卷积核；采用所述时间卷积核替换所述目标位置的目标空间卷积核，得到时空协作异构卷积网络模型；

确定模块，用于根据每一帧图像的第一处理结果和第二处理结果，确定与所述至少两帧图像对应的识别结果。

12.一种图像识别设备，其特征在于，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的方法。

13.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至10任一项所述的方法。