CN108876813B

CN108876813B - 用于视频中物体检测的图像处理方法、装置及设备

Info

Publication number: CN108876813B
Application number: CN201711059848.1A
Authority: CN
Inventors: 赵子健; 俞刚; 黎泽明
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2017-11-01
Filing date: 2017-11-01
Publication date: 2021-01-26
Anticipated expiration: 2037-11-01
Also published as: CN108876813A

Abstract

本发明实施例提供了一种用于视频中物体检测的图像处理方法、装置及设备，该方法针对所述视频中的待处理的当前帧图像，包括：提取所述当前帧图像的初始特征图；基于所述初始特征图以及所述当前帧图像的历史特征图，通过相关性匹配得到第一重构特征图和第二重构特征图；将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行特征融合，得到融合后的特征图。由此可见，本发明实施例的图像处理方法，基于初始特征图和历史特征图进行改进，避免了工程性技巧的后处理，并且能够保证物体检测框架的相对完整性，能够实现实时视频物体检测，进而能够有效提升检测效果，保证检测准确性。

Description

用于视频中物体检测的图像处理方法、装置及设备

技术领域

本发明涉及图像处理领域，更具体地涉及一种用于视频中物体检测的图像处理方法、装置及设备。

背景技术

诸如区域-卷积神经网络(Region based Convolutional Neural Network，R-CNN)等基于深度学习的物体检测算法大都是面向静态图片来设计实现的，但是在现实应用中的物体检测大都是用在视频中的，如自动驾驶，智能安防等，而视频中会存在物体快速运动，摄像机移动或抖动等，这将导致部分帧检测效果变差。沿时间序列(sequence)做非极大值抑制(Non-maximum suppression，NMS)、管道卷积神经网络方法(TubeletsConvolutional Neural Networks)等是一些视频中物体检测后处理的算法，然而他们工程化技巧性处理比较多，而且多用于检测结果的后处理，难以复现且无法应用在实时检测环境。并且这些算法在提取特征阶段，使用光流的方法融合特征层，导致计算带来的误差会累计到特征融合阶段，进而影响了整个检测的准确性。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种用于视频中物体检测的图像处理方法、装置及设备，能够实现实时视频物体检测，进而能够有效提升检测效果，保证检测准确性。

根据本发明的一方面，提供了一种用于视频中物体检测的图像处理方法，针对所述视频中的待处理的当前帧图像，包括：

提取所述当前帧图像的初始特征图；

基于所述初始特征图以及所述当前帧图像的历史特征图，通过相关性匹配得到第一重构特征图和第二重构特征图；

将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行特征融合，得到融合后的特征图。

在本发明的一个实施例中，所述基于所述初始特征图以及所述当前帧图像的历史特征图，通过相关性匹配得到第一重构特征图和第二重构特征图，包括：

以所述初始特征图为基础，将所述历史特征图与所述初始特征图进行相关性匹配，得到所述第一重构特征图；

以所述历史特征图为基础，将所述初始特征图与所述历史特征图进行相关性匹配，得到所述第二重构特征图。

在本发明的一个实施例中，所述以所述初始特征图为基础，将所述历史特征图与所述初始特征图进行相关性匹配，得到所述第一重构特征图，包括：

获取所述初始特征图的第(w1,h1)个空间位置的初始特征向量；

在所述历史特征图的第一预设范围内，确定第一空间匹配位置，其中，所述第一空间匹配位置的第一特征向量与所述初始特征向量的相关性最大；

根据所述第一特征向量，构建所述第一重构特征图，其中，所述第一重构特征图的第(w1,h1)个空间位置具有所述第一特征向量；

其中，所述初始特征图的空间维度为W×H，w1的取值范围为1至W，h1的取值范围为1至H。

在本发明的一个实施例中，所述第一预设范围为所述历史特征图的空间位置(i1,j1)的范围，其中，w1-b≤i1≤w1+b，h1-b≤j1≤h1+b，b为预设带宽。

在本发明的一个实施例中，所述以所述历史特征图为基础，将所述初始特征图与所述历史特征图进行相关性匹配，得到所述第二重构特征图，包括：

获取所述历史特征图的第(w2,h2)个空间位置的第二特征向量；

在所述初始特征图的第二预设范围内，确定第二空间匹配位置(w3,h3)，其中，所述第二匹配位置(w3,h3)的特征向量与所述第二特征向量的相关性最大；

根据所述第二特征向量，构建所述第二重构特征图，其中，所述第二重构特征图的第(w3,h3)个空间位置具有所述第二特征向量；

其中，所述历史特征图的空间维度为W×H，w2的取值范围为1至W，h2的取值范围为1至H。

在本发明的一个实施例中，所述第二预设范围为所述初始特征图的空间位置(i2,j2)的范围，其中，w2-b≤i2≤w2+b，h2-b≤j2≤h2+b，b为预设带宽。

在本发明的一个实施例中，通过计算两个特征向量之间的夹角余弦值或通过计算两个特征向量之间的距离来计算相关性。

在本发明的一个实施例中，所述将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行特征融合，得到融合后的特征图，包括：

基于卷积神经网络，计算与所述初始特征图、所述第一重构特征图和所述第二重构特征图分别对应的初始权重、第一权重和第二权重；

根据所述初始权重、所述第一权重和所述第二权重，将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行加权求和，得到所述融合后的特征图。

在本发明的一个实施例中，所述基于卷积神经网络，计算与所述初始特征图、所述第一重构特征图和所述第二重构特征图分别对应的初始权重、第一权重和第二权重，包括：

通过参数共享的第一卷积神经网络，根据所述初始特征图、所述第一重构特征图和所述第二重构特征图分别得到第一特征图、第二特征图和第三特征图，其中，所述初始特征图、所述第一重构特征图和所述第二重构特征图的通道数维度为C0，所述第一特征图、所述第二特征图和所述第三特征图的通道数维度为C1，且C1<C0；

将所述第一特征图、所述第二特征图和所述第三特征图进行拼接，通过第二卷积神经网络，得到第四特征图，其中，所述第四特征图的通道数为3；

将所述第四特征图按照通道数进行拆分，从而得到所述初始权重、所述第一权重和所述第二权重。

在本发明的一个实施例中，所述根据所述初始权重、所述第一权重和所述第二权重，将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行加权求和，得到所述融合后的特征图，包括：

将所述初始特征图与所述初始权重在空间维度上的对应元素相乘，得到加权输出特征图；

将所述第一重构特征图与所述第一权重在空间维度上的对应元素相乘，得到第一加权重构特征图；

将所述第二重构特征图与所述第二权重在空间维度上的对应元素相乘，得到第二加权重构特征图；

将所述加权输出特征图、所述第一加权重构特征图与所述第二加权重构特征图求和，得到所述融合后的特征图。

在本发明的一个实施例中，还包括：将所述融合后的特征图作为所述当前帧图像的下一帧图像的历史特征图。

根据本发明的又一方面，提供了一种用于视频中物体检测的图像处理装置，所述装置包括：

特征提取模块，用于提取所述视频中的待处理的当前帧图像的初始特征图；

特征对齐模块，用于基于所述初始特征图以及所述当前帧图像的历史特征图，通过相关性匹配得到第一重构特征图和第二重构特征图；

特征融合模块，用于将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行特征融合，得到融合后的特征图。

该装置能够用于实现前述方面及其各种示例的用于视频中物体检测的图像处理方法。

根据本发明的另一方面，提供了一种图像处理设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方面及各个示例所述的用于视频中物体检测的图像处理方法的步骤。

根据本发明的再一方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方面及各个示例所述的用于视频中物体检测的图像处理方法的步骤。

由此可见，本发明实施例的图像处理方法，基于初始特征图和历史特征图进行改进，避免了工程性技巧的后处理，并且能够保证物体检测框架的相对完整性，能够实现实时视频物体检测，进而能够有效提升检测效果，保证检测准确性。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的用于视频中物体检测的图像处理方法的一个示意性流程图；

图3是本发明实施例的用于视频中物体检测的图像处理方法的一个示意图；

图4是本发明实施例的用于视频中物体检测的图像处理装置的一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括CPU 1021和GPU 1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如现场可编程门阵列(Field－Programmable GateArray，FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或更多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或更多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

图2是本发明实施例的用于视频中物体检测的图像处理方法的一个示意性流程图。该流程图针对所述视频中的待处理的当前帧图像，包括：

S101，提取所述当前帧图像的初始特征图；

S102，基于所述初始特征图以及所述当前帧图像的历史特征图，通过相关性匹配得到第一重构特征图和第二重构特征图；

S103，将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行特征融合，得到融合后的特征图。

本发明实施例中，可以针对待处理的视频逐帧进行处理，例如，先针对该视频的第1帧图像执行特征融合，再针对第2帧图像执行特征融合，…，直至将该视频中的每一帧图像都完成特征融合。其中，作为一例，针对该视频的第1帧图像执行特征融合可以按照现有的基于静态图像的特征融合的方法进行，图2中的当前帧图像可以是该视频中除第1帧图像之外的其他任一帧图像。或者，作为另一例，图2中的当前帧图像可以是该视频中的任一帧图像，若当前帧图像为第1帧图像，则相应的历史特征图也为该第1帧图像。

作为一种实现方式，S101中，可以采用类似于静态图像物体检测的特征提取方法。例如，可以将当前帧图像输入至主干卷积神经网络，从而提取到当前帧图像的初始特征图。示例性地，可以将该初始特征图表示为Ft。

其中，初始特征图的宽、高和通道数(channel)可以分别记为W、H和C0。即初始特征图的空间维度可以表示为W×H。另外，该初始特征图还可以具有第三维度，例如该第三维度为1(表示灰度图像)或3(表示RGB彩色图像)，应该理解的是，根据图像的性质，第三维度的数目还可以为其它的值，本发明对此不限定。

示例性地，S102中的当前帧图像的历史特征图可以为上一帧图像的融合后的特征图，该历史特征图的空间维度为W×H，且该历史特征图的通道数为C0。示例性地，可以将该历史特征图表示为Fh。

S102可以包括：以所述初始特征图为基础，将所述历史特征图与所述初始特征图进行相关性匹配，得到所述第一重构特征图；以所述历史特征图为基础，将所述初始特征图与所述历史特征图进行相关性匹配，得到所述第二重构特征图。其中，可以将得到第一重构特征图的过程称为主动相关性引导的特征图对齐，将得到第二重构特征图的过程称为被动相关性引导的特征图对齐。

作为一种实现方式，得到第一重构特征图的过程可以包括：获取所述初始特征图的第(w1,h1)个空间位置的初始特征向量；在所述历史特征图的第一预设范围内，确定第一空间匹配位置，其中，所述第一空间匹配位置的第一特征向量与所述初始特征向量的相关性最大；构建所述第一重构特征图，其中，所述第一重构特征图的第(w1,h1)个空间位置具有所述第一特征向量；其中，w1的取值范围为1至W，h1的取值范围为1至H。

也就是说，可以遍历初始特征图Ft的每一个空间位置(w1,h1)，0≤w1≤W，0≤h1≤H，以该空间位置(w1,h1)的特征向量作为相关核，在历史特征图的第一预设范围内进行相关性计算，将该第一预设范围内相关性响应最大的空间位置(im,jm)确定为第一空间匹配位置(其中，历史特征图的空间位置(im,jm)具有第一特征向量)，而第一重构特征图的空间位置(w1,h1)具有第一特征向量。这样，在完成对初始特征图Ft的空间位置遍历之后，完成第一重构特征图每个空间位置的赋值，便可以完成主动相关性的特征图对齐。

可选地，第一预设范围可以为所述历史特征图的空间位置(i1,j1)的范围，其中，w1-b≤i1≤w1+b，h1-b≤j1≤h1+b，b为预设带宽(bandwidth)。其中，预设带宽b的值可以根据该视频的实际情况进行设定，例如，若该视频中包括运动较快的物体，可以将b的值设定的较小；反之可以将b的值设定的较大。可理解，im为i1的其中一值，jm为j1的其中一值。可理解，若初始特征图的第(w1,h1)个空间位置位于初始特征图的边界附近而导致第一预设范围超出边界，则该第一预设范围可以在边界处不足带宽处补零(padding with zero)。在进行相关性计算时，可以计算第一预设范围内的(2×b+1)²个空间位置的特征向量与初始特征图的第(w1,h1)个空间位置的初始特征向量之间的相关性，将相关性最大的那个空间位置确定为第一空间匹配位置。

作为另一种实现方式，得到第二重构特征图的过程可以包括：获取所述历史特征图的第(w2,h2)个空间位置的第二特征向量；在所述初始特征图的第二预设范围内，确定第二空间匹配位置(w3,h3)，其中，所述第二匹配位置(w3,h3)的特征向量与所述第二特征向量的相关性最大；构建所述第二重构特征图，其中，所述第二重构特征图的第(w3,h3)个空间位置具有所述第二特征向量；其中，w2的取值范围为1至W，h2的取值范围为1至H。可理解，在该过程结束后，若第二重构特征图中存在一个或多个空间位置未确定其特征向量，则可以确定为初始特征图中对应位置的特征向量。例如，若在上述过程后，第二重构特征图中的第(w4,h4)个空间位置的特征向量依然未知，可以获取初始特征图中第(w4,h4)个空间位置的特征向量(假设为V0)，则可以补充第二重构特征图中的未知向量，具体地，确定第二重构特征图中的第(w4,h4)个空间位置的特征向量为V0。

也就是说，可以遍历历史特征图Fh的每一个空间位置(w2,h2)，0≤w2≤W，0≤h2≤H，以该空间位置(w2,h2)的第二特征向量作为相关核，在初始特征图Ft的第二预设范围内进行相关性计算，将该第二预设范围内相关性响应最大的空间位置(w3,h3)确定为第二空间匹配位置，而第二重构特征图的空间位置(w3,h3)具有第二特征向量。这样，在完成对历史特征图Fh的空间位置遍历之后，完成第二重构特征图每个空间位置的赋值，便可以完成被动相关性的特征图对齐。

可选地，第二预设范围可以为所述初始特征图的空间位置(i2,j2)的范围，其中，w2-b≤i2≤w2+b，h2-b≤j2≤h2+b，b为预设带宽(bandwidth)。其中，预设带宽b的值可以根据该视频的实际情况进行设定，例如，若该视频中包括运动较快的物体，可以将b的值设定的较小；反之可以将b的值设定的较大。可理解，w3为i2的其中一值，h3为j2的其中一值。可理解，若历史特征图的第(w2,h2)个空间位置位于历史特征图的边界附近而导致第二预设范围超出边界，则该第二预设范围可以在边界处不足带宽处补零(padding with zero)。在进行相关性计算时，可以计算第二预设范围内的(2×b+1)²个空间位置的特征向量与历史特征图的第(w2,h2)个空间位置的第二特征向量之间的相关性，将相关性最大的那个空间位置确定为第二空间匹配位置(w3,h3)。

其中，各个特征向量(如第一特征向量、第二特征向量、初始特征向量等)的维度可以为C0。示例性地，可以通过计算两个特征向量之间的夹角余弦值或计算两个特征向量之间的距离来计算这两个特征向量之间的相关性。例如，计算两个特征向量V1与V2之间的相关性时，可以计算V1与V2之间的夹角余弦值(V1与V2的点乘再除以V1的模与V2的模两者的乘积)，该计算的夹角余弦值越大，说明相关性越大；或者可以计算V1与V2之差的绝对值，该差的绝对值越小，说明相关性越大。

示例性地，可以将第一重构特征图表示为Fa，将第二重构特征图表示为Fb，如图3所示，S102的过程为根据Ft和Fh得到Fa和Fb的过程。并且，Ft、Fh、Fa和Fb的空间维度均为W×H，通道数为C0。

作为一种实现方式，S103中，可以基于卷积神经网络，计算与所述初始特征图、所述第一重构特征图和所述第二重构特征图分别对应的初始权重、第一权重和第二权重；根据所述初始权重、所述第一权重和所述第二权重，将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行加权求和，得到所述融合后的特征图。

示例性地，可以通过空间自适应权重计算方法得到初始权重、第一权重和第二权重，分别表示为Wt，Wa和Wp。可以通过卷积神经网络学习三个待融合特征图Ft、Fa和Fp的分布关系，在每个空间位置都预测三个特征图在相应位置上特征所分配的权重。

可以将初始特征图、第一重构特征图和第二重构特征图的通道数降低，再通过拼接得到通道数为3的特征图。具体地，通过参数共享的第一卷积神经网络，根据所述初始特征图、所述第一重构特征图和所述第二重构特征图分别得到第一特征图、第二特征图和第三特征图，其中，所述初始特征图、所述第一重构特征图和所述第二重构特征图的通道数维度为C0，所述第一特征图、所述第二特征图和所述第三特征图的通道数维度为C1，且C1<C0；将所述第一特征图、所述第二特征图和所述第三特征图进行拼接，通过第二卷积神经网络，得到第四特征图，其中，所述第四特征图的通道数为3；将所述第四特征图按照通道数进行拆分，从而得到所述初始权重、所述第一权重和所述第二权重。

首先，通过参数共享的第一卷积神经网络，将三个特征图Ft、Fa和Fp的通道维度从C0降低到C1，分别得到第一特征图、第二特征图和第三特征图，而空间维度W×H不变。其中，C1小于C0，举例来说，C0＝512，C1＝128。然后，将降维后的通道数为C1的三个特征图(即第一特征图、第二特征图和第三特征图)拼接(concatenate)起来，输入到第二卷积神经网络中，得到通道数为3，空间维度不变的第四特征图。进一步地，可以将通道数为3的第四特征图通过沿通道方向的softmax运算后，得到W×H×3的特征图，再将该特征图按通道进行拆分，从而得到初始权重、第一权重和第二权重，即三个二维矩阵Wt、Wa和Wp，分别对应三个特征图Ft、Fa和Fp在空间位置上的权重分布。

进一步地，可以通过加权平均得到融合后的特征图。具体地，将所述初始特征图与所述初始权重在空间维度上的对应元素相乘，得到加权输出特征图；将所述第一重构特征图与所述第一权重在空间维度上的对应元素相乘，得到第一加权重构特征图；将所述第二重构特征图与所述第二权重在空间维度上的对应元素相乘，得到第二加权重构特征图；将所述加权输出特征图、所述第一加权重构特征图与所述第二加权重构特征图求和，得到所述融合后的特征图。

示例性地，可以将融合后的特征图表示为Fn，如图3所示，S103的过程为根据Ft、Fa和Fb得到Fn的过程。并且，Ft、Fa、Fb和Fn的空间维度均为W×H，通道数为C0。

进一步地，所得到的融合后的特征图Fn可以作为当前帧图像的下一帧图像的历史特征图。

由此可见，本发明实施例中，可以采用空间自适应权重计算方法，针对每个帧分别计算各个权重，这样调整权重避免了上一帧的计算误差累计到当前帧，从而保证了整个检测的准确性。

示例性地，在图1所示的方法之后，还可以进一步包括：基于所述融合后的特征图执行后续操作，所述后续操作包括：区域建议(region proposal)、边界框回归、物体分类。具体地，可以将S103得到的融合后的特征图Fn替换S101得到的初始特征图Ft，再实现区域建议、边界框回归、物体分类等任务。

示例性地，在图1所示的方法之后，还可以进一步包括：基于所述融合后的特征图执行后续操作，所述后续操作包括以下部分：区域建议(region proposal)、边界框回归、物体分类。具体地，可以将S103得到的融合后的特征图Fn替换S101得到的初始特征图Ft，再进行区域建议、物体分类和边界框回归等任务。其中，在单阶段的物体检测算法中，只有物体分类和边界框回归；在两阶段算法中，先进行区域建议，然后再进行物体分类和边界框回归。

本发明所提出的特征对齐及融合方法，一方面在特征图上进行改进，避免了工程性技巧的后处理，降低使用门槛；另一方面在提高了低质量帧特征图的质量的同时，保证原始基于静态图片物体检测框架的相对完整性，便于嵌入到通用物体检测框架中，且可实现实时视频物体检测。从而在静态图像检测的基础上有效提升检测效果。

图4是本发明实施例的用于视频中物体检测的图像处理装置的一个示意性框图。图4所示的装置40包括：特征提取(feature extraction)模块410、特征对齐(featurealignment)模块420和特征融合(feature combination)模块430。

特征提取模块410，用于提取所述视频中的待处理的当前帧图像的初始特征图。

特征对齐模块420，用于基于所述初始特征图以及所述当前帧图像的历史特征图，通过相关性匹配得到第一重构特征图和第二重构特征图。

特征融合模块430，用于将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行特征融合，得到融合后的特征图。

作为一种实现方式，特征对齐模块420可以包括主动对齐子模块和被动对齐子模块。主动对齐子模块用于以所述初始特征图为基础，将所述历史特征图与所述初始特征图进行相关性匹配，得到所述第一重构特征图。被动对齐子模块用于以所述历史特征图为基础，将所述初始特征图与所述历史特征图进行相关性匹配，得到所述第二重构特征图。

作为一种实现方式，主动对齐子模块可以具体用于：获取所述初始特征图的第(w1,h1)个空间位置的初始特征向量；在所述历史特征图的第一预设范围内，确定第一空间匹配位置，其中，所述第一空间匹配位置的第一特征向量与所述初始特征向量的相关性最大；构建所述第一重构特征图，其中，所述第一重构特征图的第(w1,h1)个空间位置具有所述第一特征向量。其中，所述初始特征图的空间维度为W×H，w1的取值范围为1至W，h1的取值范围为1至H。

示例性地，所述第一预设范围为所述历史特征图的空间位置(i1,j1)的范围，其中，w1-b≤i1≤w1+b，h1-b≤j1≤h1+b，b为预设带宽。

作为一种实现方式，被动对齐子模块可以具体用于：获取所述历史特征图的第(w2,h2)个空间位置的第二特征向量；在所述初始特征图的第二预设范围内，确定第二空间匹配位置(w3,h3)，其中，所述第二匹配位置(w3,h3)的特征向量与所述第二特征向量的相关性最大；构建所述第二重构特征图，其中，所述第二重构特征图的第(w3,h3)个空间位置具有所述第二特征向量。其中，所述历史特征图的空间维度为W×H，w2的取值范围为1至W，h2的取值范围为1至H。

示例性地，所述第二预设范围为所述初始特征图的空间位置(i2,j2)的范围，其中，w2-b≤i2≤w2+b，h2-b≤j2≤h2+b，b为预设带宽。

作为一种实现方式，特征融合模块430可以包括权重计算子模块和融合子模块。权重计算子模块用于基于卷积神经网络，计算与所述初始特征图、所述第一重构特征图和所述第二重构特征图分别对应的初始权重、第一权重和第二权重。融合子模块用于根据所述初始权重、所述第一权重和所述第二权重，将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行加权求和，得到所述融合后的特征图。

作为一种实现方式，权重计算子模块可以具体用于：通过参数共享的第一卷积神经网络，根据所述初始特征图、所述第一重构特征图和所述第二重构特征图分别得到第一特征图、第二特征图和第三特征图，其中，所述初始特征图、所述第一重构特征图和所述第二重构特征图的通道数维度为C0，所述第一特征图、所述第二特征图和所述第三特征图的通道数维度为C1，且C1<C0；将所述第一特征图、所述第二特征图和所述第三特征图进行拼接，通过第二卷积神经网络，得到第四特征图，其中，所述第四特征图的通道数为3；将所述第四特征图按照通道数进行拆分，从而得到所述初始权重、所述第一权重和所述第二权重。

作为一种实现方式，融合子模块可以具体用于：将所述初始特征图与所述初始权重在空间维度上的对应元素相乘，得到加权输出特征图；将所述第一重构特征图与所述第一权重在空间维度上的对应元素相乘，得到第一加权重构特征图；将所述第二重构特征图与所述第二权重在空间维度上的对应元素相乘，得到第二加权重构特征图；将所述加权输出特征图、所述第一加权重构特征图与所述第二加权重构特征图求和，得到所述融合后的特征图。

作为一种实现方式，还包括：将所述融合后的特征图作为所述当前帧图像的下一帧图像的历史特征图。

作为一种实现方式，还包括：基于所述融合后的特征图执行后续操作，所述后续操作包括：区域建议、边界框回归、物体分类。

图4所示的装置40能够实现前述图2至图3所示的用于视频中物体检测的图像处理方法，为避免重复，这里不再赘述。

另外，本发明实施例还提供了一种图像处理设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图2至图3所示方法的步骤。

另外，本发明实施例还提供了一种电子设备，该电子设备可以包括图4所示的装置40。该电子设备可以实现前述图2至图3所示的方法。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述图2至图3所示方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于视频中物体检测的图像处理方法，其特征在于，针对所述视频中的待处理的当前帧图像，包括：

提取所述当前帧图像的初始特征图；

以所述初始特征图为基础，将所述当前帧图像的历史特征图与所述初始特征图进行相关性匹配，得到第一重构特征图；

以所述当前帧图像的历史特征图为基础，将所述初始特征图与所述历史特征图进行相关性匹配，得到第二重构特征图；

2.根据权利要求1所述的方法，其特征在于，所述以所述初始特征图为基础，将所述历史特征图与所述初始特征图进行相关性匹配，得到所述第一重构特征图，包括：

获取所述初始特征图的第(w1,h1)个空间位置的初始特征向量；

3.根据权利要求2所述的方法，其特征在于，所述第一预设范围为所述历史特征图的空间位置(i1,j1)的范围，其中，w1-b≤i1≤w1+b，h1-b≤j1≤h1+b，b为预设带宽。

4.根据权利要求1所述的方法，其特征在于，所述以所述历史特征图为基础，将所述初始特征图与所述历史特征图进行相关性匹配，得到所述第二重构特征图，包括：

获取所述历史特征图的第(w2,h2)个空间位置的第二特征向量；

在所述初始特征图的第二预设范围内，确定第二空间匹配位置(w3,h3)，其中，所述第二空间匹配位置(w3,h3)的特征向量与所述第二特征向量的相关性最大；

5.根据权利要求4所述的方法，其特征在于，所述第二预设范围为所述初始特征图的空间位置(i2,j2)的范围，其中，w2-b≤i2≤w2+b，h2-b≤j2≤h2+b，b为预设带宽。

6.根据权利要求2至5中任一项所述的方法，其特征在于，通过计算两个特征向量之间的夹角余弦值或通过计算两个特征向量之间的距离来计算相关性。

7.根据权利要求1所述的方法，其特征在于，所述将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行特征融合，得到融合后的特征图，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于卷积神经网络，计算与所述初始特征图、所述第一重构特征图和所述第二重构特征图分别对应的初始权重、第一权重和第二权重，包括：

9.根据权利要求7所述的方法，其特征在于，所述根据所述初始权重、所述第一权重和所述第二权重，将所述初始特征图、所述第一重构特征图和所述第二重构特征图进行加权求和，得到所述融合后的特征图，包括：

10.根据权利要求1所述的方法，其特征在于，还包括：

将所述融合后的特征图作为所述当前帧图像的下一帧图像的历史特征图。

11.一种用于视频中物体检测的图像处理装置，其特征在于，所述装置用于实现前述权利要求1至10中任一项所述的方法，所述装置包括：

特征对齐模块，用于以所述初始特征图为基础，将所述当前帧图像的历史特征图与所述初始特征图进行相关性匹配，得到第一重构特征图，以及以所述当前帧图像的历史特征图为基础，将所述初始特征图与所述历史特征图进行相关性匹配，得到第二重构特征图；

12.一种图像处理设备，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述方法的步骤。

13.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述方法的步骤。