CN110210278A

CN110210278A - 一种视频目标检测方法、装置及存储介质

Info

Publication number: CN110210278A
Application number: CN201811391328.5A
Authority: CN
Inventors: 谢植淮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-21
Filing date: 2018-11-21
Publication date: 2019-09-06

Abstract

本发明实施例公开了一种视频目标检测方法、装置及存储介质，应用于信息处理技术领域。在本实施例的方法中，视频目标检测装置在提取到待检测视频中各帧图像的特征后，对得到的特征图谱中多个通道中每个通道的特征进行加权处理，得到加权后特征图谱，从而弱化某些不重要通道的特征，加强另一些重要通道的特征。这样，在将加权后特征图谱中，待检测视频中的相邻帧图像或相邻间隔帧图像的特征之间进行融合的过程中，使得特征融合的操作能在特征质量较好的基础上，建立起时序上的特征关联，考虑了待检测视频中各帧图像之间的关系，进而在根据融合后特征图谱进行目标检测时，更为准确。

Description

一种视频目标检测方法、装置及存储介质

技术领域

本发明涉及信息处理技术领域，特别涉及一种视频目标检测方法、装置及存储介质。

背景技术

视频目标检测与图像目标检测类似，都需要对图像中的目标进行位置检测并分类，但是视频目标检测的过程中，需要对连续帧图像的时序信息以及上下文信息进行处理。如果把视频当作单帧图像进行目标检测，便丢失了时序信息与上下文信息，目前的视频目标方法都是能够利用时序信息与上下文信息进行视频目标检测，已有的方法主要可以包括：目标连接和特征传播，或者两者的结合等。

现有的一种视频目标检测方法是基于区域卷积神经网络(Region ConvolutionNeural Networks，RCNN)的方法，RCNN网络可以将视频中各帧图像进行特征提取，再进行目标的检测和分类。

在现有的这种视频目标检测方法中，需要压缩输入到RCNN网络中各帧图像的大小，而且采用较少且尺寸较小的特征图谱，从而保持较低的计算复杂度,提升速度，但是提取到特征图谱中的信息量比较少，从而影响检测精度。

发明内容

本发明实施例提供一种视频目标检测方法、装置及存储介质，实现了对待检测视频中各帧图像的特征进行通道加权及特征融合的处理。

本发明实施例第一方面提供一种视频目标检测方法，包括：

提取待检测视频中各帧图像的特征，得到特征图谱，所述特征图谱中包括多个通道的特征；

对所述多个通道中每个通道的特征进行加权处理，得到加权后特征图谱；

将所述加权后特征图谱中，所述待检测视频中的相邻帧图像或相邻间隔帧图像的特征之间进行融合，得到融合后特征图谱；

根据所述融合后特征图谱对所述待检测视频进行目标检测。

本发明实施例第二方面提供一种视频目标检测装置，包括：特征提取单元、至少一个注意力单元、至少一个特征关联单元和检测单元，其中：

所述特征提取单元，用于提取待检测视频中各帧图像的特征，得到特征图谱，所述特征图谱中包括多个通道的特征；

所述注意力单元，用于对所述多个通道中每个通道的特征进行加权处理，得到加权后特征图谱；

所述特征关联单元，用于将所述加权后特征图谱中，所述待检测视频中的相邻帧图像或相邻间隔帧图像的特征之间进行融合，得到融合后特征图谱；

所述检测单元，用于根据所述融合后特征图谱对所述待检测视频进行目标检测。

本发明实施例第三方面提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如上述本发明实施例第一方面所述的视频目标检测方法。

本发明实施例第四方面提供一种终端设备，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如上述本发明实施例第一方面所述的视频目标检测方法。

可见，在本实施例的方法中，视频目标检测装置在提取到待检测视频中各帧图像的特征后，对得到的特征图谱中多个通道中每个通道的特征进行加权处理，得到加权后特征图谱，从而弱化某些不重要通道的特征，加强另一些重要通道的特征。这样，在将加权后特征图谱中，待检测视频中的相邻帧图像或相邻间隔帧图像的特征之间进行融合的过程中，使得特征融合的操作能在特征质量较好的基础上，建立起时序上的特征关联，考虑了待检测视频中各帧图像之间的关系，进而在根据融合后特征图谱进行目标检测时，更为准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频目标检测方法的示意图；

图2是本发明实施例提供的一种视频目标检测方法的流程图；

图3是本发明实施例中训练的一种视频目标检测方法的流程图；

图4是本发明应用实施例中视频目标检测装置的结构示意图；

图5是本发明应用实施例中通道注意力模块的结构示意图；

图6是本发明应用实施例中时序特征关联模块的结构示意图；

图7是本发明实施例提供的一种视频目标检测装置的结构示意图；

图8是本发明实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种视频目标检测方法，主要应用于CNN网络中，参考图1所示，具体可以由视频目标检测装置通过如下方法实现对待检测视频的目标进行位置检测和分类：

提取待检测视频中各帧图像的特征，得到特征图谱，所述特征图谱中包括多个通道的特征；对所述多个通道中每个通道的特征进行加权处理，得到加权后特征图谱；将所述加权后特征图谱中，所述待检测视频中的相邻帧图像或相邻间隔帧图像的特征之间进行融合，得到融合后特征图谱；根据所述融合后特征图谱对所述待检测视频进行目标检测。

其中，对特征图谱中多个通道中每个通道的特征进行加权处理，得到加权后特征图谱，从而弱化某些不重要通道的特征，加强另一些重要通道的特征。且在将加权后特征图谱中，待检测视频中的相邻帧图像或相邻间隔帧图像的特征之间进行融合的过程中，使得特征融合的操作能在特征质量较好的基础上，建立起时序上的特征关联，考虑了待检测视频中各帧图像之间的关系，进而在根据融合后特征图谱进行目标检测时，更为准确。

本发明一个实施例提供的一种视频目标检测方法，主要是由视频目标检测装置所所执行的方法，流程图如图2所示，包括：

步骤101，视频目标检测装置提取待检测视频中各帧图像的特征，得到特征图谱，特征图谱中包括多个通道的特征。

可以理解，用户可以操作视频目标检测装置，使得视频目标检测装置发起本实施例的方法，一种情况下，视频目标检测装置可以提供视频输入接口，用户可以通过视频输入接口输入待检测视频，而视频目标检测装置针对输入的待检测视频，可以直接执行步骤101到104；或者视频目标检测装置先对输入的待检测视频进行预处理，然后针对预处理后的待检测视频，执行步骤101到104。其中，对输入的待检测视频的预处理可以包括：截取输入的待检测视频中的部分视频，使得截取的部分视频的时间长度在一定范围内(比如30秒内)；将输入的待检测视频中抖动较严重的部分视频去掉，比如输入的待检测视频中开始一段时间内，抖动较严重，则去掉该段时间内的部分视频等。

另一种情况下，视频目标检测装置可以按照固定的周期，向其它视频采集装置获取采集的视频(或者由其它视频采集装置主动将采集的视频发送给视频目标检测装置)，并将采集的视频作为待检测视频，并直接发起本实施例中步骤101到104的流程。

本实施例的视频目标检测装置在对待检测视频进行视频目标检测时，主要是基于卷积神经网络的检测方法，一般情况下，在视频目标检测装置中会事先预置卷积神经网络的运行逻辑，这样，可以通过卷积神经网络实时地先对待检测视频进行特征提取，然后根据最终提取的特征进行目标的位置检测和分类。

其中，通过卷积神经网络对待检测视频的特征提取可以包括提取各帧图像的全部特征，及选取各帧图像的重要特征等处理。本实施例中，可以在提取了各帧图像的全部特征后，基于全部特征组成的特征图谱，执行如下步骤102到104；也可以在选取了各帧图像的重要特征后，基于重要特征组成的特征图谱，执行如下步骤102到104。

需要说明的是，通过卷积神经网络提取的任一帧图像的特征可以包括多个维度的特征，比如纹理维度，颜色维度等，而在每个维度下所有帧图像的特征组成了一个通道的特征。

步骤102，视频目标检测装置对多个通道中每个通道的特征进行加权处理，得到加权后特征图谱。

具体地，视频目标检测装置可以采用压缩与激发(Squeeze-and-excitation，SE)网络结构进行加权处理，即先对多个通道中每个通道的特征进行全局平均池化，得到每个通道的全局特征；然后根据每个通道的全局特征分别确定每个通道特征的权重信息，并将每个通道特征的权重信息分别与上述特征图谱中相应通道的特征相乘，得到加权后特征图谱。

加权后特征图谱中也包括多个通道的特征，但是每个通道的特征是加权后的特征，这样，可以弱化某些不重要通道的特征，加强另一些重要通道的特征。

步骤103，视频目标检测装置将加权后特征图谱中，待检测视频中的相邻帧图像或相邻间隔图像的特征之间进行融合，得到融合后特征图谱。

具体地，视频目标检测装置可以先将加权后特征图谱中，各个通道的特征划分为多组特征，比如可以按照时间周期进行划分，使得加权后特征图谱中的特征增加一个时间维度；然后分别计算各个通道的相邻组特征或相邻间隔组特征之间的相似性，以得到各个通道中各个特征对应的相似性；然后将各个通道中各个特征的相似性加权后与相应特征相加，以得到融合后特征图谱。

其中，视频目标检测装置在划分加权后特征图谱中任一通道的特征时，可以将每T秒内各帧图像的特征划分为一组，例如，某一通道的特征为c1，c2，……，cn，在划分时，可以将特征c1，c2，……，ci划分为一组；将特征ci+1，ci+1，……，cj划分为另一组；……；将特征ck，ck+1，……，cn划分到一组。

由于每一组中包括多个特征，视频目标检测装置在计算相邻组特征或相邻间隔组特征之间的相似性时，针对一个组中的某一特征，可以计算该特征分别与另一组中各个特征之间的相似性，并将这些相似性进行累加，即可得到该特征的相似性。例如，如果某一组特征为c11，c12，……，c1i，其相邻组特征为c21，c22，……，c2j，则特征c11对应的相似性可以为特征c11分别与特征c21，c22，……，c2j之间的相似性的相加值。

视频目标检测装置将各个通道中各个特征的相似性加权后与相应特征相加时，可以将各个特征的相似性与对应权重值进行相乘，得到各个特征的相似性加权值，然后将各个特征的相似性加权值与对应的特征进行相加。

进一步的，为了减少计算量，视频目标检测装置在将加权后特征图谱中，各个通道的特征分别划分为多组特征之后，还可以对加权后特征图谱中的特征进行降维处理，使得降维后特征的通道数小于加权后特征图谱的通道数，比如可以为加权后特征图谱的通道数的一半，即去掉一定通道数的特征；这样，视频目标检测装置在分别计算各个通道的相邻组特征或相邻间隔组特征之间的相似性时，是分别计算降维后特征中各个通道的相邻组特征或相邻间隔组特征之间的相似性；且在将各个通道中各个特征的相似性加权后与相应特征相加的过程中，可以恢复特征的维度，具体地，在对剩余通道中各个特征在与对应特征的相似性加权值相加时，将去掉通道中的各个特征与零相加，即将去掉通道中各个特征进行保留。

进一步地，当视频目标检测装置在将所述各个通道中各个特征的相似性加权后与相应特征相加之后，还可以将相加后得到的特征进行归一化处理，并将归一化处理后特征组成融合后特征图谱。这样使得融合后特征图谱与加权后特征图谱中特征的分布范围不变。

步骤104，视频目标检测装置根据融合后特征图谱对待检测视频进行目标检测，主要是检测视频中各个目标的位置和类型。

需要说明的是，如果视频目标检测装置在上述步骤101得到的特征图谱中特征是各帧图像的最终特征，即各帧图像的最重要的特征，则在执行步骤104时，可以直接根据融合后特征图谱中的特征进行目标检测；如果视频目标检测装置在上述步骤101得到的特征图谱中特征是各帧图像的中间特征，则在执行步骤104时，还需要对融合后特征图谱中特征进行其它操作，比如选取最重要的特征等操作，得到最终特征后再根据最终特征进行目标检测。

在一个具体的实施例中，视频目标检测装置可以通过如下的步骤训练得到执行上述步骤101到104的卷积神经网络，流程图如图3所示，包括：

步骤201，视频目标检测装置确定执行特征提取、加权处理、特征融合和目标检测步骤的初始卷积神经网络，即确定执行上述步骤101到104的初始卷积神经网络。

具体地，视频目标检测装置在确定初始卷积神经网络时，会确定初始卷积神经网络所包括的多层结构和各层结构中固定参数的初始值。

其中，初始卷积神经网络可以包括特征模块和目标检测模块，其中，特征模块用于执行上述步骤101到103，目标检测模块用于根据特征模块最终得到的特征对待检测视频进行目标检测。

上述的固定参数是指初始卷积神经网络中各层结构在计算过程中所用到的固定的，不需要随时赋值的参数，比如权重，角度等参数。而视频目标检测装置确定固定参数的初始值的过程，是对初始卷积神经网络初始化的过程。

步骤202，视频目标检测装置确定训练样本，训练样本中包括：多组训练图像，每组训练图像中包括多个连续帧图像(即一段小视频的各帧图像)，在训练样本中还会包括多组训练图像中各帧图像的目标位置标识。

步骤203，视频目标检测装置通过初始卷积神经网络对训练样本中各帧图像进行目标检测，得到目标位置的初始结果，目标位置的初始结果中包括训练样本中各帧图像的各个目标的目标位置信息。

步骤204，视频目标检测装置根据目标位置的初始结果和训练样本中各帧图像的目标位置标识，调整初始卷积神经网络中的固定参数值。

具体地，视频目标检测装置可以先根据目标位置的初始结果和训练样本中各帧图像的目标位置标识，计算与初始卷积神经网络相关的损失函数，该损失函数用于表示根据初始卷积神经网络确定的训练样本中各帧图像的各个目标的目标位置信息，与训练样本中各帧图像的各个目标的实际位置(根据训练样本中各帧图像的目标位置标识得到)之间的差别，即误差。该误差的数学表现形式通常使用交叉熵来建立损失函数，而初始卷积神经网络的训练过程就是需要尽量减少该误差的值，该训练过程是通过反向传播求导及梯度下降等一系列数学优化手段不断的优化上述步骤201中确定的固定参数的初始值，并使得这一损失函数的计算值降至最低。因此，计算了与初始卷积神经网络相关的损失函数后，会根据损失函数值调整初始卷积神经网络中的固定参数值，以得到最终的初始卷积神经网络。

具体地，视频目标检测装置在调整固定参数值时，是根据损失函数值调整上述确定的固定参数的初始值。如果计算的损失函数的函数值较大，比如大于预置的值，则需要改变固定参数值，比如将某个权重的权重值减小等，使得按照调整后的固定参数值计算的损失函数的函数值减小。

需要说明的是，上述步骤203到204是通过初始卷积神经网络对训练样本中各帧图像进行目标检测得到目标位置的初始结果后，根据目标位置的初始结果对初初始卷积神经网络中的固定参数值的一次调整，而在实际应用中，需要通过不断地循环执行上述步骤203到204，直到对固定参数值的调整满足一定的停止条件为止。

因此，视频目标检测装置在执行了上述实施例步骤201到204之后，还需要判断当前对固定参数值的调整是否满足预置的停止条件，如果满足，则结束流程；如果不满足，则针对调整固定参数值后的初始卷积神经网络，返回执行上述步骤203到204的步骤。

其中，预置的停止条件包括但不限于如下条件中的任何一个：当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值，即调整的固定参数值达到收敛；及对固定参数值的调整次数达到预置的次数等。

以下以一个具体的应用实例来说明本发明的视频目标检测方法，在本实施例中，视频目标检测装置的结构示意图如图4所示，可以包括：由第一特征提取模块201、第二特征提取模块202、通道注意力模块30、时序特征关联模块40和目标检测模块50等组成的卷积神经网络。其中，通道注意力模块30和时序特征关联模块40可以一个或有多个，并且可以嵌入到特征提取过程中的不同位置，比如可以如图4中所述，嵌入到提取到中间特征之后，在其它实施例中，可以嵌入到提取到最终特征之后；且图4中以一个通道注意力模块30和一个时序特征关联模块40为例说明。具体地：

第一特征提取模块201，用于从原始输入数据10中提取全部特征，得到特征图谱，并输入到通道注意力模块30。在本实施例中，在对卷积神经网络训练的过程中，原始输入数据10具体可以为多组样本图像，每组样本图像中包括多个连续帧图像或连续间隔帧图像；在实时地检测过程中，原始输入数据10具体为待检测视频中的各帧图像。

通道注意力模块30，用于对第一特征提取模块201得到的特征图谱中各个通道的特征进行加权处理，得到加权后特征图谱。这样，突出了重要通道的特征，弱化了不重要通道的特征，达到特征增强的目的。

时序特征关联模块40，用于将加权后特征图谱中，将t帧图像和t+τ帧图像(即相邻帧图像或相邻间隔帧图像)的特征进行融合，形成t帧图像与t+τ帧图像之间的特征依赖，这样帧与帧之间的时序信息与上下文信息就得到关联。

第二特征提取模块202，用于在时序特征关联模块40得到的融合后特征图谱的基础上，进一步进行特征提取，比如选取重要特征等。

目标检测模块50，用于根据第二特征提取模块202得到的最终特征，进行视频目标的位置检测和分类等操作。

需要说明的是，上述第一特征提取模块201和第二特征提取模块202的结构可以通过多种方式来实现，比如mobilenet、darknet等等结构。

进一步地，上述的通道注意力模块30可以通过如图5所示的SE网络结构来实现，具体地，通道注意力模块30可以通过如下步骤来实现特征的加权操作：

(1)通道注意力模块30先通过全局平均池化函数F_sq(·)对第一特征提取模块201提取得到的多个通道中每个通道的特征进行全局平均池化，得到每个通道的全局特征。具体可以通过如下公式1来表示：

其中，Uc表示第一特征提取模块201提取得的特征图谱(在图5中用U表示)，H为特征图谱的高，W为特征图谱的宽，C为特征图谱的通道数；i和j表示位置；z_c为全局平均池化后的结果，其维度为1×1×C。

(2)通道注意力模块30再由一个简单的门控机制F_ex(·,W)，根据每个通道的全局特征分别确定每个通道特征的权重信息。具体可以通过如下公式2来表示：

s_c＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z)) (2)

其中，z表示通过上述公式1得到的每个通道的全局特征；W₁、W₂为两个全连接层，可以提高网络的特征表达力，δ为激活函数，采用Relu激活函数,得到稀疏的特征，σ为sigmoid激活函数，对权重进行归一化；最终得到的权重sc，维度为1×1×C。

(3)通道注意力模块30将每个通道特征的权重信息分别与特征图谱中相应通道的特征相乘，得到加权后特征图谱(在图5中用表示)，具体可以通过如下公式3来表示：

进一步地，上述的时序特征关联模块40可以通过如图6所示的结构来实现，具体地，时序特征关联模型40可以按照如下步骤来实现特征的融合：

(1)时序特征关联模型40将加权后特征图谱中，各个通道的特征进行维度转换，具体地，可以将各个通道的特征分别划分为多组特征。

由于视频目标检测的框架常用2d卷积核，但是时序特征关联模块40采用了3d卷积核来获取加权后特征图谱在时序上的特征联系，因此，需要先把输入x(即加权后特征图谱中的特征)进行维度变换，比如，增加时间维度T，具体地，可以将各个通道的特征按照时间周期T划分，即可把输入x的维度从N×C×H×W转换成N/T×C×T×H×W。

其中，x为加权后特征图谱中的特征，N为特征长度，C为加权后特征图谱的通道数，H为加权后特征图谱的高，W为加权后特征图谱的宽。

(2)为了减少计算量，时序特征关联模型40可以对加权后特征图谱中的特征进行降维处理，使得降维后特征的通道数小于加权后特征图谱的通道数。

本实施例中，采用θ，φ，g这几个线性映射函数，分别将通过上述维度转换后的输入x’的通道数oc减半，比如减为C/2，且每个函数的卷积核大小为1×1×1。

需要说明的是，为了进一步地减少计算量，时序特征关联模型40可以先执行步骤(2)中对加权后特征图谱中的特征进行降维处理，然后再执行步骤(1)中将降维后特征进行维度转换，使得只对剩余通道的特征进行维度转换，而不用对减少的通道特征进行维度转换，可以减少维度转换的计算量。

(3)时序特征关联模型40分别计算降维后特征中各个通道的相邻组特征或相邻间隔组特征之间的相似性，以得到各个通道中各个特征对应的相似性。具体可以通过如下公式4和公式5来表示：

f(x_i,x_j)＝θ(x_i)^Tφ(x_j),C(x)＝N (5)

其中，函数f为计算两个特征x_i和x_j之间的相似性；C(x)为归一化因子，保证相似性处于0到1之间，y_i为输出。相似性的计算函数f中有多种实现方式，例如，嵌入高斯(embedded Gaussian)，高斯(Gaussian)，点乘(dot_product)等，上述公式4中以dot_product为例说明。

(4)时序特征关联模型40将各个通道中各个特征的相似性加权后与相应特征相加，具体可以通过如下公式6来表示：

z_i＝W_zy_i+x_i (6)

其中，W_z为权重矩阵，特征的相似性权重，其通道数为C/2，而特征xi的通道数为C，这样，通过上述公式6的计算得到的输出Zi的通道数恢复为C；卷积核大小为1×1×1。

(5)时序特征关联模型40将相加后的特征进行归一化处理，将归一化处理后特征组成融合后特征图谱。具体可以通过如下公式7来表示：

Z_BN＝BN(z) (7)

具体地，使用一个批标准化(Batch Normalization，BN)层对上述相加后得到的特征进行归一化处理，使得经过时序特征关联模块40处理后的数据流分布与上述通道注意力模块30得到的特征的数据流分布一致。

需要说明的是，由于在计算任意两个特征之间的相似性时，可以直接进行计算，但是通过上述通道注意力模块30得到的特征并不一定是最优的，因此，上述时序特征关联模块40的实现过程中，需要先通过θ，φ，g这几个函数进行特征再次提取，即去掉某些通道的特征，然后再进行相似性的计算，一方面可以提升对特征的表达力，同时也减少了计算量。

本发明实施例还提供一种视频目标检测装置，其结构示意图如图7所示，具体可以包括：特征提取单元11、至少一个注意力单元12、至少一个特征关联单元13和检测单元14，图7中以一个注意力单元12和一个特征关联单元13为例说明，其中：

所述特征提取单元11，用于提取待检测视频中各帧图像的特征，得到特征图谱，所述特征图谱中包括多个通道的特征。

所述注意力单元12，用于对所述特征提取单元11得到的特征图谱中多个通道中每个通道的特征进行加权处理，得到加权后特征图谱。

所述注意力单元12，具体用于对所述多个通道中每个通道的特征进行全局平均池化，得到每个通道的全局特征；根据所述每个通道的全局特征分别确定每个通道特征的权重信息；将所述每个通道特征的权重信息分别与所述特征图谱中相应通道的特征相乘，得到加权后特征图谱。

所述特征关联单元13，用于将所述注意力单元12得到的加权后特征图谱中，所述待检测视频中的相邻帧图像或相邻间隔帧图像的特征之间进行融合，得到融合后特征图谱。

所述特征关联单元13，具体用于将所述加权后特征图谱中，各个通道的特征分别划分为多组特征；分别计算所述各个通道的相邻组特征或相邻间隔组特征之间的相似性，以得到所述各个通道中各个特征对应的相似性；将所述各个通道中各个特征的相似性加权后与相应特征相加，以得到融合后特征图谱。

所述特征关联单元13，还用于在所述将所述加权后特征图谱中，各个通道的特征分别划分为多组特征之后，先对所述加权后特征图谱中的特征进行降维处理，使得降维后特征的通道数小于所述加权后特征图谱的通道数。且分别计算所述降维后特征中各个通道的邻组特征或相邻间隔组特征之间的相似性。

所述特征关联单元13，还用于将所述相加后的特征进行归一化处理，将所述归一化处理后特征组成所述融合后特征图谱。

所述检测单元14，用于根据所述特征关联单元13得到的融合后特征图谱对所述待检测视频进行目标检测。

进一步地，本实施例的装置还包括：训练单元15，用于确定执行所述特征提取、加权处理、特征融合和目标检测步骤的初始卷积神经网络；确定训练样本，所述训练样本中包括：多组训练图像，每组训练图像中包括多个连续帧图像，及所述多组训练图像中各帧图像的目标位置标识；通过所述初始卷积神经网络对所述训练样本中各帧图像进行目标检测，得到目标位置的初始结果；根据所述目标位置的初始结果和所述训练样本中各帧图像的目标位置标识，调整所述初始卷积神经网络中的固定参数值。

进一步地，训练单元15，还用于如果对所述固定参数值的调整满足如下任一停止条件，则停止对所述固定参数值的调整：对所述固定参数值的调整次数达到预置的次数，当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值等。

可见，在本实施例的视频目标检测装置中，特征提取单元11在提取到待检测视频中各帧图像的特征后，注意力单元12对得到的特征图谱中多个通道中每个通道的特征进行加权处理，得到加权后特征图谱，从而弱化某些不重要通道的特征，加强另一些重要通道的特征。这样，特征关联单元13在将加权后特征图谱中，待检测视频中的相邻帧图像或相邻间隔帧图像的特征之间进行融合的过程中，使得特征融合的操作能在特征质量较好的基础上，建立起时序上的特征关联，考虑了待检测视频中各帧图像之间的关系，进而检测单元14在根据融合后特征图谱进行目标检测时，更为准确。

本发明实施例还提供一种终端设备，其结构示意图如图8所示，该终端设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对终端设备中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括视频目标检测的应用程序，且该程序可以包括上述视频目标检测装置中的特征提取单元11、至少一个注意力单元12、至少一个特征关联单元13，检测单元14和训练单元15，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在终端设备上执行存储介质22中储存的视频目标检测的应用程序对应的一系列操作。

终端设备还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，一个或一个以上输入输出接口25，和/或，一个或一个以上操作系统223，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由上述视频目标检测装置所执行的步骤可以基于该图8所示的终端设备的结构。

本发明实施还提供一种存储介质，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如上述视频目标检测装置所执行的视频目标检测方法。

本发明实施例还提供一种终端设备，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如上述视频目标检测装置所执行的视频目标检测方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器RAM)、磁盘或光盘等。

以上对本发明实施例所提供的一种视频目标检测方法、装置及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频目标检测方法，其特征在于，包括：

根据所述融合后特征图谱对所述待检测视频进行目标检测。

2.如权利要求1所述的方法，其特征在于，所述对所述多个通道中每个通道的特征进行加权处理，得到加权后特征图谱，具体包括：

对所述多个通道中每个通道的特征进行全局平均池化，得到每个通道的全局特征；

根据所述每个通道的全局特征分别确定每个通道特征的权重信息；

将所述每个通道特征的权重信息分别与所述特征图谱中相应通道的特征相乘，得到加权后特征图谱。

3.如权利要求1所述的方法，其特征在于，所述将所述加权后特征图谱中，所述待检测视频中的相邻帧图像或相邻间隔帧图像的特征之间进行融合，得到融合后特征图谱，具体包括：

将所述加权后特征图谱中，各个通道的特征分别划分为多组特征；

分别计算所述各个通道的相邻组特征或相邻间隔组特征之间的相似性，以得到所述各个通道中各个特征对应的相似性；

将所述各个通道中各个特征的相似性加权后与相应特征相加，以得到融合后特征图谱。

4.如权利要求3所述的方法，其特征在于，所述将所述加权后特征图谱中，各个通道的特征分别划分为多组特征之后，还包括：

对所述加权后特征图谱中的特征进行降维处理，使得降维后特征的通道数小于所述加权后特征图谱的通道数；

则所述分别计算所述各个通道的相邻组特征或相邻间隔组特征之间的相似性，具体包括：分别计算所述降维后特征中各个通道的邻组特征或相邻间隔组特征之间的相似性。

5.如权利要求3所述的方法，其特征在于，所述将所述各个通道中各个特征的相似性加权后与相应特征相加之后，所述方法还包括：

将所述相加后的特征进行归一化处理，将所述归一化处理后特征组成所述融合后特征图谱。

6.如权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：

确定执行所述特征提取、加权处理、特征融合和目标检测步骤的初始卷积神经网络；

确定训练样本，所述训练样本中包括：多组训练图像，每组训练图像中包括多个连续帧图像，及所述多组训练图像中各帧图像的目标位置标识；

通过所述初始卷积神经网络对所述训练样本中各帧图像进行目标检测，得到目标位置的初始结果；

根据所述目标位置的初始结果和所述训练样本中各帧图像的目标位置标识，调整所述初始卷积神经网络中的固定参数值。

7.如权利要求6所述的方法，其特征在于，如果对所述固定参数值的调整满足如下任一停止条件，则停止对所述固定参数值的调整：

对所述固定参数值的调整次数达到预置的次数，当前调整的固定参数值与上一次调整的固定参数值的差值小于一阈值。

8.一种视频目标检测装置，其特征在于，包括：特征提取单元、至少一个注意力单元、至少一个特征关联单元和检测单元，其中：

9.如权利要求8所述的装置，其特征在于，

所述注意力单元，具体用于对所述多个通道中每个通道的特征进行全局平均池化，得到每个通道的全局特征；根据所述每个通道的全局特征分别确定每个通道特征的权重信息；将所述每个通道特征的权重信息分别与所述特征图谱中相应通道的特征相乘，得到加权后特征图谱。

10.如权利要求8所述的装置，其特征在于，

所述特征关联单元，具体用于将所述加权后特征图谱中，各个通道的特征分别划分为多组特征；分别计算所述各个通道的相邻组特征或相邻间隔组特征之间的相似性，以得到所述各个通道中各个特征对应的相似性；将所述各个通道中各个特征的相似性加权后与相应特征相加，以得到融合后特征图谱。

11.如权利要求10所述的装置，其特征在于，

所述特征关联单元，还用于在所述将所述加权后特征图谱中，各个通道的特征分别划分为多组特征之后，先对所述加权后特征图谱中的特征进行降维处理，使得降维后特征的通道数小于所述加权后特征图谱的通道数。

12.如权利要求8至11任一项所述的装置，其特征在于，还包括：

训练单元，用于确定执行所述特征提取、加权处理、特征融合和目标检测步骤的初始卷积神经网络；确定训练样本，所述训练样本中包括：多组训练图像，每组训练图像中包括多个连续帧图像，及所述多组训练图像中各帧图像的目标位置标识；通过所述初始卷积神经网络对所述训练样本中各帧图像进行目标检测，得到目标位置的初始结果；根据所述目标位置的初始结果和所述训练样本中各帧图像的目标位置标识，调整所述初始卷积神经网络中的固定参数值。

13.一种存储介质，其特征在于，所述存储介质储存多条指令，所述指令适于由处理器加载并执行如权利要求1至7任一项所述的视频目标检测方法。

14.一种终端设备，其特征在于，包括处理器和存储介质，所述处理器，用于实现各个指令；

所述存储介质用于储存多条指令，所述指令用于由处理器加载并执行如权利要求1至7任一项所述的视频目标检测方法。