CN109635740A

CN109635740A - 视频目标检测方法、装置及图像处理设备

Info

Publication number: CN109635740A
Application number: CN201811527109.5A
Authority: CN
Inventors: 姜浩; 曲晓超; 杨思远; 张伟; 万鹏飞
Original assignee: Creative Technology Ltd Shenzhen
Current assignee: Creative Technology Ltd Shenzhen
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-16
Anticipated expiration: 2038-12-13
Also published as: CN109635740B

Abstract

本申请实施例提供一种视频目标检测方法、装置及图像处理设备，该设备中预存有MaskRCNN网络，其中包括CNN模型、RPN、检测分支及嵌入分支。图像处理设备针对待检测视频的当前图像帧，将当前图像帧输入CNN模型，得到第一特征图；将第一特征图输入RPN，获得多个候选区域，该候选区域为包括待检测目标的区域；针对获得的每个候选区域，嵌入分支生成与该候选区域对应的第一向量，在存储的嵌入列表中查找是否存在与该第一向量相似的第二向量，若是，对该第一向量进行更新；检测分支以更新后的该第一向量为时序信息对该候选区域的位置进行预测。

Description

视频目标检测方法、装置及图像处理设备

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种视频目标检测方法、装置及图像处理设备。

背景技术

物体检测作为计算机视觉中的经典研究领域已经有了多年的发展，但截至目前为止，大部分研究都集中在静态图像中的物体检测上。对视频图像中的物体检测研究相对较少。

目前，对视频图像中的物体检测的研究主要集中于通过如下两种方式在网络中加入时序信息：第一、利用光流将上一帧的检测结果warp(仿射变换模及扭曲)到当前网络中，作为RGB通道之外的第四通道输入；第二、在做非极大值抑制(Non-Maximum Suppression，NMS)时考虑前几帧图像的候选区域。

然而，上述两种方式在实际应用中存在不稳定的情况。

发明内容

有鉴于此，本申请的目的在于提供一种视频目标检测方法、装置及图像处理设备，以至少部分地改善上述问题。

第一方面，本申请实施例提供一种视频目标检测方法，应用于图像处理设备，所述图像处理设备中预存有用于进行视频目标检测的MaskRCNN网络，所述MaskRCNN网络包括CNN模型、区域建议网络RPN、检测分支以及Embedding嵌入分支；所述方法包括：

针对待检测视频的当前图像帧，将所述当前图像帧输入所述CNN模型，得到第一特征图；

将所述第一特征图输入所述RPN，获得多个候选区域，所述候选区域为包括待检测目标的区域；

针对获得的每个所述候选区域，所述嵌入分支生成与所述候选区域对应的第一向量，在存储的嵌入列表中查找是否存在与所述第一向量相似的第二向量，若存在，则对所述第一向量进行更新；

所述检测分支以更新后的所述第一向量为时序信息对所述候选区域的位置进行预测。

可选地，所述方法还包括：

若所述嵌入列表中不存在与所述第一向量相似的第二向量，则将所述第一向量作为第二向量插入到所述嵌入列表中。

可选地，对所述第一向量进行更新，包括：

通过以下计算式对所述第一向量V_t进行更新：

V_t＝γV_t+(1-γ)x

其中，γ表示权重，x表示所述当前图像帧的前一图像帧中的候选区域的第一向量。

可选地，所述方法还包括：

通过以下计算式对所述嵌入分支的损失进行计算，并根据计算结果对所述嵌入分支的参数进行调整：

其中，表示当前图像帧中第i个被检测的候选区域，表示所述嵌入列表中与该第i个被检测的候选区域对应的第二向量，为所述嵌入列表中任意一个不同于该第二向量的其他第二向量，α表示最小间隔。

可选地，所述MaskRCNN网络还包括分割分支，所述方法还包括：

获取所述分割分支输出的所述当前图像帧的前一图像帧的分割掩码；

将所述CNN模型输出的所述前一帧图像的第一特征图和所述分割掩码进行融合，得到第二特征图；

所述检测分支以所述第二特征图为时序信息对所述当前图像帧的第一特征图中的候选区域进行分类。

第二方面，本申请实施例提供一种视频目标检测装置，应用于图像处理设备，所述图像处理设备中预存有用于进行视频目标检测的MaskRCNN网络，所述MaskRCNN网络包括CNN模型、RPN、检测分支及嵌入分支；所述装置包括：

特征提取模块，用于针对待检测视频的当前图像帧，将所述当前图像帧输入所述CNN模型，得到第一特征图；

区域获取模块，用于将所述第一特征图输入所述RPN，获得多个候选区域，所述候选区域为包括待检测目标的区域；

更新模块，用于针对获得的每个所述候选区域，通过所述嵌入分支生成与所述候选区域对应的第一向量，在存储的嵌入列表中查找是否存在与所述第一向量相似的第二向量，若存在，则对所述第一向量进行更新；

第一预测模块，用于通过所述检测分支以更新后的所述第一向量为时序信息对所述候选区域的位置进行预测。

可选地，所述更新模块，还用于当所述嵌入列表中不存在与所述第一向量相似的第二向量时，将所述第一向量作为第二向量插入到所述嵌入列表中。

可选地，所述更新模块具体用于通过以下计算式对所述第一向量V_t进行更新：

V_t＝γV_t+(1-γ)x

可选地，所述MaskRCNN网络还包括分割分支，所述装置还包括：

分割模块，用于获取所述分割分支输出的所述当前图像帧的前一图像帧的分割掩码；

融合模块，用于将所述CNN模型输出的所述前一图像帧的第一特征图和所述分割掩码进行融合，得到第二特征图；

第二预测模块，用于通过所述检测分支以所述第二特征图为时序信息对所述当前图像帧的第一特征图中的候选区域进行分类。

第三方面，本申请实施例提供一种图像处理设备，包括：

处理器及机器可读存储介质，所述机器可读存储介质上存储有机器可执行指令，所述机器可执行指令被执行时促使所述处理器实现本申请实施例第一方面提供的视频目标检测方法。

相对于现有技术而言，本申请具实施例有以下有益效果：

本申请实施例提供的一种视频目标检测方法、装置及图像处理设备，该设备中预存有MaskRCNN网络，其中包括CNN模型、RPN、检测分支及嵌入分支。图像处理设备针对待检测视频的当前图像帧，将当前图像帧输入CNN模型，得到第一特征图；将第一特征图输入RPN，获得多个候选区域，该候选区域为包括待检测目标的区域；针对获得的每个候选区域，嵌入分支生成与该候选区域对应的第一向量，在存储的嵌入列表中查找是否存在与该第一向量相似的第二向量，若是，对该第一向量进行更新；检测分支以更新后的该第一向量为时序信息对该候选区域的位置进行预测。以嵌入编码形式传递待检测目标的时序信息，网络可以选择性地学习到适于时序传递的编码，从而能够适应视频目标检测任务，避免出现不稳定的情况。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种图像处理设备的方框示意图；

图2为本申请实施例提供的一种MaskRCNN网络的架构示意图；

图3为本申请实施例提供的一种视频目标检测方法的流程示意图；

图4为本申请实施例提供的视频目标检测方法的又一流程示意图；

图5为本申请实施例提供的一种视频目标检测装置的功能模块框图。

图标：100-图像处理设备；110-处理器；120-机器可读存储介质；200-视频目标检测装置；210-特征提取模块；220-区域获取模块；230-更新模块；240-第一预测模块；250-分割模块；260-融合模块；270-第二预测模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

如图1所示，是本申请实施例提供的一种图像处理设备100的方框示意图，该图像处理设备100可以移动终端、个人计算机(Personal Computer，PC)等任意具有图像处理功能的电子设备。图像处理设备100包括视频目标检测装置200、处理器110和机器可读存储介质120。

所述处理器110和机器可读存储介质120各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述视频目标检测装置200包括至少一个可以以软件或固件(firmware)的形式存储于所述机器可读存储介质120上或固化在所述图像处理设备100的操作系统(OperatingSystem，OS)中的软件功能模块。

处理器110用于根据接收的执行指令调用所述机器可读存储介质120中的可执行模块或计算机程序等，以实现下文描述的视频目标检测方法。

在本实施例中，所述机器可读存储介质120可以是任何电子、磁性、光学或其他物理存储装置，可以包含存储信息，如可执行指令、数据等。例如，机器可读存储介质120可以是：RAM(RandomAccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

在所述机器可读存储介质120中，存储有用于进行视频目标检测的MaskRCNN(Regions with Convolutional Neutral Network features)网络。

应当理解的是，在本实施例中，图1所示的结构仅为示意，图像处理设备100可以包括比图1中所示更多、更少或与图1完全不同的配置。在此值得说明的是，图1中示出的各组件可以以软件、硬件或其组合实现，本实施例对此不做限制。

请参照图3，图3为应用于图1所示的图像处理设备100的一种视频目标检测方法的流程图，以下将对所述方法包括各个步骤进行详细阐述。

步骤S31，针对待检测视频的当前图像帧，将所述当前图像帧输入所述CNN模型，得到第一特征图。

步骤S32，将所述第一特征图输入所述RPN，获得多个候选区域，所述候选区域为包括待检测目标的区域。

请结合参照图2，MaskRCNN网络包括CNN模型、区域建议网络(Region ProposalNetwork，RPN)、检测分支和嵌入(Embedding)分支。

其中，CNN模型用于从待处理图像中提取特征，得到featuremap，即本实施例中的所述第一特征图。

对该featuremap中的每一点设定预设数量个候选区域，其中，候选区域又称感兴趣区域(Regionof Interest，RoI)。将获得的候选区域输入RPN中进行二值分类(即，区分前景区域和背景区域)以及边界回归(BoundingBoxRegression，BB回归)，以过滤掉一部分候选区域。此时，剩下的候选区域即为步骤S32中的所述多个候选区域。

图2中示出的ROIAlign用于将所述多个候选区域与输入所述CNN模型的图像建立对应关系。

在实施时，通过检测分支将剩下的候选区域进行分类和BB回归，即可获得每一候选区域的类别标签及位置信息，即得到该候选区域对应的目标物体的类别标签和位置信息。

请再次参照图2，在本实施例中，所述MaskRCNN网络还可以包括分割分支，又称Mask分支。

在本实施例中，针对步骤S32中的所述多个候选区域中的每一候选区域，所述Mask分支用于对该候选区域进行分割，得到对应分割掩码(Mask)。

基于此，在本实施例中利用前一图像帧的掩码信息引入时序信息。

对应地，如图4所示，所述视频目标检测方法还可以包括如下步骤。

步骤S41，获取所述分割分支输出的所述当前图像帧的前一图像帧的分割掩码。

步骤S42，将所述CNN模型输出的所述前一帧图像的第一特征图和所述分割掩码进行融合，得到第二特征图。

步骤S43，所述检测分支以所述第二特征图为时序信息对所述当前图像帧的第一特征图中的候选区域进行分类。

通过上述过程，可以最大程度地保留被检测目标的信息，从而排除背景干扰。

步骤S33，针对获得的每个所述候选区域，所述嵌入分支生成与所述候选区域对应的第一向量，在存储的嵌入列表中查找是否存在与所述第一向量相似的第二向量，若存在，则对所述第一向量进行更新。

请返回参照图2，对于所述RPN输出的每一候选区域(即，所述多个候选区域中的每一个)，所述嵌入分支生成一个对应的256维的向量，该向量即为上述的第一向量。

在本实施例中，图像处理设备100在运行所述MaskRCNN网络时，维护有一嵌入(Embedding)列表，该列表中包括多个第二向量。

在实施时，每生成一个第一向量，在所述Embedding列表中查找是否存在与该第一向量相似的第二向量，如果没有查找到，则将该第一向量作为第二向量添加到所述Embedding列表中。对应地，如果查找到，则对该第一向量进行更新。

详细地，在本实施例中，可以通过以下计算式对该第一向量进行更新：

V_t＝γV_t+(1-γ)x

在本实施例中，所述嵌入分支具有对应的损失函数，通过该损失函数计算得到的损失结果，可以对所述嵌入分支的参数进行调整，从而达到优化。

可选地，可以通过以下计算式对所述嵌入分支的损失进行计算：

由此可见，所述嵌入分支相当于一个记忆单元，将MaskRCNN网络中之前出现的目标物体进行编码并记录，并将编码信息作为时序信息进行传递。

步骤S34，所述检测分支以更新后的所述第一向量为时序信息对所述候选区域的位置进行预测。

通过上述过程，MaskRCNN网络可以选择性地学习到适于作为时序信息进行传递的编码信息，从而提高视频目标检测的稳定性。

请参照图5，是本申请实施例提供的应用于图1所示图像处理设备100的一种视频目标检测装置200的功能模块框图。所述视频目标检测装置200包括特征提取模块210、区域获取模块220、更新模块230和第一预测模块240。

所述特征提取模块210用于针对待检测视频的当前图像帧，将所述当前图像帧输入所述CNN模型，得到第一特征图。

在本实施例中，所述特征提取模块210可以执行图3中示出的步骤S31，关于所述特征提取模块210的描述具体可以参考对步骤S31的详细描述。

所述区域获取模块220用于将所述第一特征图输入所述RPN，获得多个候选区域，所述候选区域为包括待检测目标的区域。

在本实施例中，所述区域获取模块220可以执行图3中示出的步骤S32，关于所述区域获取模块220的描述具体可以参考对步骤S32的详细描述。

所述更新模块230用于针对获得的每个所述候选区域，通过所述嵌入分支生成与所述候选区域对应的第一向量，在存储的嵌入列表中查找是否存在与所述第一向量相似的第二向量，若存在，则对所述第一向量进行更新。

在本实施例中，所述更新模块230可以执行图3中示出的步骤S33，关于所述更新模块230的描述具体可以参考对步骤S33的详细描述。

所述第一预测模块240用于通过所述检测分支以更新后的所述第一向量为时序信息对所述候选区域的位置进行预测。

在本实施例中，所述第一预测模块240可以执行图3中示出的步骤S34，关于所述第一预测模块240的描述具体可以参考对步骤S34的详细描述。

可选地，在本实施例中，所述更新模块230还可以用于当所述嵌入列表中不存在与所述第一向量相似的第二向量时，将所述第一向量作为第二向量插入到所述嵌入列表中。

可选地，在本实施例中，所述更新模块230具体可以用于通过以下计算式对所述第一向量V_t进行更新：

V_t＝γV_t+(1-γ)x

可选地，在本实施例中，所述MaskRCNN网络还包括分割分支。对应地，所述视频目标检测装置200还可以包括分割模块250、融合模块260和第二预测模块270。

其中，所述分割模块250用于获取所述分割分支输出的所述当前图像帧的前一图像帧的分割掩码。

在本实施例中，所述分割模块250可以执行图4中示出的步骤S41，关于所述分割模块250的描述具体可以参考对步骤S41的详细描述。

所述融合模块260用于将所述CNN模型输出的所述前一图像帧的第一特征图和所述分割掩码进行融合，得到第二特征图。

在本实施例中，所述融合模块260可以执行图4中示出的步骤S42，关于所述融合模块260的描述具体可以参考对步骤S42的描述。

所述第二预测模块270用于通过所述检测分支以所述第二特征图为时序信息对所述当前图像帧的第一特征图中的候选区域进行分类。

在本实施例中，所述第二预测模块270可以执行图4中示出的步骤S43，关于所述第二预测模块270的描述具体可以参考对步骤S43的详细描述。

综上所述，本申请实施例提供的一种视频目标检测方法、装置及图像处理设备，该设备中预存有MaskRCNN网络，其中包括CNN模型、RPN、检测分支及嵌入分支。图像处理设备针对待检测视频的当前图像帧，将当前图像帧输入CNN模型，得到第一特征图；将第一特征图输入RPN，获得多个候选区域，该候选区域为包括待检测目标的区域；针对获得的每个候选区域，嵌入分支生成与该候选区域对应的第一向量，在存储的嵌入列表中查找是否存在与该第一向量相似的第二向量，若是，对该第一向量进行更新；检测分支以更新后的该第一向量为时序信息对该候选区域的位置进行预测。以嵌入编码形式传递待检测目标的时序信息，网络可以选择性地学习到适于时序传递的编码，从而能够适应视频目标检测任务，避免出现不稳定的情况。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频目标检测方法，其特征在于，应用于图像处理设备，所述图像处理设备中预存有用于进行视频目标检测的MaskRCNN网络，所述MaskRCNN网络包括CNN模型、区域建议网络RPN、检测分支以及Embedding嵌入分支；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的方法，其特征在于，对所述第一向量进行更新，包括：

通过以下计算式对所述第一向量V_t进行更新：

V_t＝γV_t+(1-γ)x

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1或2所述的方法，其特征在于，所述MaskRCNN网络还包括分割分支，所述方法还包括：

6.一种视频目标检测装置，其特征在于，应用于图像处理设备，所述图像处理设备中预存有用于进行视频目标检测的MaskRCNN网络，所述MaskRCNN网络包括CNN模型、RPN、检测分支及嵌入分支；所述装置包括：

7.根据权利要求6所述的装置，其特征在于，

所述更新模块，还用于当所述嵌入列表中不存在与所述第一向量相似的第二向量时，将所述第一向量作为第二向量插入到所述嵌入列表中。

8.根据权利要求6或7所述的装置，其特征在于，所述更新模块具体用于通过以下计算式对所述第一向量V_t进行更新：

V_t＝γV_t+(1-γ)x

9.根据权利要求6或7所述的装置，其特征在于，所述MaskRCNN网络还包括分割分支，所述装置还包括：

10.一种图像处理设备，其特征在于，包括：

处理器及机器可读存储介质，所述机器可读存储介质上存储有机器可执行指令，所述机器可执行指令被执行时促使所述处理器实现权利要求1-5中任一项所述的方法。