CN109858436B

CN109858436B - 基于视频动态前景掩膜的目标类别修正方法、检测方法

Info

Publication number: CN109858436B
Application number: CN201910087340.5A
Authority: CN
Inventors: 胡晰远; 王晓莲; 陈晨; 彭思龙
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2020-11-27
Anticipated expiration: 2039-01-29
Also published as: CN109858436A

Abstract

本发明属于视频图像处理领域，具体涉及一种基于视频动态前景掩膜的目标类别修正方法、检测方法，旨在为了解决基于卷积神经网络的目标检测对小目标检测效果较差的问题。本发明修正方法包括：获取视频帧的第一修正集合；选取大于置信度阈值的目标矩形框作为候选框；将前景二值掩膜图中大于灰度阈值的像素点作为前景点，对每一个候选框，分别计算其前景像素点在其矩形框中的占比，并将其作为前景分数，将该分数与其最大置信目标类别的置信度进行融合，得到修正后的置信度并更新第一修正集合中的对应目标物体的最大置信目标类别置信度。本发明提高了目标检测准确性，尤其能提高小物体等难以被卷积神经网络提取特征的目标检测效果。

Description

基于视频动态前景掩膜的目标类别修正方法、检测方法

技术领域

本发明属于视频图像处理领域，具体涉及一种基于视频动态前景掩膜的目标类别修正方法、检测方法。

背景技术

目标检测是预测图像中所有目标物体的位置，用矩形框标记，并对框内的物体进行类别预测的技术。目前，常采用深度卷积神经网络提取鲁棒且具有表达能力的物体特征以进行目标检测，相比于之前的基于手工特征组合的目标检测方法，提升了目标检测的速度和精度。

基于卷积神经网络的目标检测分为一段式和两段式。一段式检测器将图像输入一个端到端的基础神经网络，网络同时输出目标物体最终的矩形框位置和类别；两段式先粗定位出目标物体在图像中的位置，此时没有分辨矩形框内物体所属类别，然后利用神经网络提取的该矩形框对应位置内的特征，对框内物体进行细分类和框位置的微调。由于两段式由粗到细逐步检测，所以精度常高于一段式检测器；但由于一段式检测器不需要选取感兴趣区域，检测速度常快于两段式检测器。基于卷积神经网络的目标检测方法利用了神经网络出色的特征提取能力，相较于以往的手工特征更能提高检测效果，但小目标的特征提取常常受网络框架的限制。

神经网络不具可解释性，其内部操作更像一个黑匣子，对神经网络框架的改变往往不能直接解决实际问题。目前对视频进行的目标检测多针对单帧处理，这就忽略了视频序列的时间相关性；而为利用视频帧的前后时间关系而直接使用神经网络处理视频序列，会耗费大量的时间和存储。

发明内容

为了解决现有技术中的上述问题，即为了解决基于神经网络的目标检测对小目标检测效果较差的问题，本发明的第一方面，提出了一种基于视频动态前景掩膜的目标类别修正方法，该方法包括：

步骤S10，采用基于卷积神经网络的目标检测网络，获取视频帧的第一修正集合；所述第一修正集合包括各目标物体的目标矩形框、最大置信目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述最大置信目标类别包括目标物体非背景分类中置信度最大的类别及其置信度；

步骤S20，从所述第一修正集合中，选取大于预设置信度阈值的目标矩形框作为候选框；

步骤S30，将前景二值掩膜图中大于预设灰度阈值的像素点作为前景点，对每一个候选框，分别计算其前景像素点在其矩形框中的占比，并作为该候选框的前景分数；所述前景二值掩膜图为现有前景检测算法获取的所述视频帧中运动物体的二值掩膜图；

步骤S40，对每一个候选框，分别将其前景分数与其最大置信目标类别的置信度进行融合，得到其最大置信目标类别修正后的置信度；

步骤S50,基于步骤S40得到的修正后的置信度，更新所述第一修正集合中的对应目标物体的最大置信目标类别置信度，得到第二修正集合。

在一些优选实施方式中，步骤S40中“对每一个候选框，分别将其前景分数与其最大置信目标类别的置信度进行融合”，其融合公式为：

f(c^p,c_f)＝c^p(1-c_f)+c_f

其中，f(c^p,c_f)为融合后的置信度，c^p为类别p的类别置信度；c_f为前景分数。

在一些优选实施方式中，前景二值掩膜图的大小缩放至步骤S10中所采用目标检测网络的输入尺寸。

在一些优选实施方式中，步骤S20中预设的置信度阈值为0.1。

在一些优选实施方式中，步骤S30中预设的灰度阈值为50。

本发明的第二方面，提出了一种基于视频动态前景掩膜的目标检测方法，该方法包括：

步骤A10，获取视频帧的第一检测结果；所述第一检测结果包括各目标物体的目标矩形框、目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述目标类别包括目标物体的多个预测分类及其置信度；

步骤A20，基于权利要求1-5任一项所述的基于视频动态前景掩膜的目标类别修正方法，选取第一修正集合并进行修正得到第二修正集合；

步骤A30，基于第二修正集合更新第一检测结果，得到第二检测结果；

步骤A40，对所述第二检测结果中的目标矩形框进行非极大值抑制后处理，得到第三检测结果并输出。

本发明的第三方面，提出了一种基于视频动态前景掩膜的目标类别修正系统，该系统包括第一修正集合获取单元、候选框获取单元、前景分数计算单元、融合单元、第二修正集合获取单元；

所述第一修正集合获取单元，配置为获取视频帧的第一修正集合；所述第一修正集合包括各目标物体的目标矩形框、最大置信目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述最大置信目标类别包括目标物体非背景分类中置信度最大的类别及其置信度；

所述候选框获取单元，配置为从所述第一修正集合中，选取大于预设置信度阈值的目标矩形框作为候选框；

所述前景分数计算单元，配置为将前景二值掩膜图中大于预设灰度阈值的像素点作为前景点，对每一个候选框，分别计算其前景像素点在其矩形框中的占比，并作为该候选框的前景分数；所述前景二值掩膜图为现有前景检测算法获取的所述视频帧中运动物体的二值掩膜图；

所述融合单元，配置为对每一个候选框，分别将其前景分数与其最大置信目标类别的置信度进行融合，得到其最大置信目标类别修正后的置信度；

所述第二修正集合获取单元,配置为基于所述融合单元得到的修正后的置信度，更新所述第一修正集合中的对应目标物体的最大置信目标类别置信度，得到第二修正集合。

本发明的第四方面，提出了一种基于视频动态前景掩膜的目标检测系统，该系统包括权利要求7所述的基于视频动态前景掩膜的目标类别修正系统，还包括第一检测结果获取单元、第二检测结果获取单元、第三检测结果获取单元；

所述第一检测结果获取单元，配置为获取视频帧的第一检测结果；所述第一检测结果包括各目标物体的目标矩形框、目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述目标类别包括目标物体的多个预测分类及其置信度；

所述第二检测结果获取单元，配置为基于第二修正集合更新第一检测结果，得到第二检测结果；

所述第三检测结果获取单元，配置为对所述第二检测结果中的目标矩形框进行非极大值抑制后处理，得到第三检测结果并输出。

本发明的第五方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述基于视频动态前景掩膜的目标类别修正方法，或上述基于视频动态前景掩膜的目标类别检测方法。

本发明的第六方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述基于视频动态前景掩膜的目标类别修正方法，或上述基于视频动态前景掩膜的目标类别检测方法。

本发明的有益效果：

(1)通过动态物体的前景掩膜利用了视频帧前后的时间相关性，具有简单、直接的优点，增加了对视频帧进行目标检测的可用信息。

(2)将前景掩膜作为先验信息，修正神经网络的检测结果，使目标检测更准确，尤其能提高小物体等难以被神经网络提取特征的目标检测效果。

(3)动态物体的前景掩膜模拟了人对运动物体的敏感性，加了强约束，对目标检测结果更有指导意义，使神经网络的结果更可控。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于视频动态前景掩膜的目标类别修正方法的流程示意图；

图2是本发明一种实施例的基于视频动态前景掩膜的目标检测方法的流程示意图；

图3是本发明一种实施例的基于视频动态前景掩膜的目标类别修正系统框架示意图

图4是本发明一种实施例的基于视频动态前景掩膜的目标检测系统框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明一种实施例的基于视频动态前景掩膜的目标类别修正方法，如图1所示，包括：

步骤S10，采用基于卷积神经网络的目标检测网络，获取视频帧的第一修正集合；所述第一修正集合包括各目标物体的目标矩形框、最大置信目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述最大置信目标类别包括目标物体非背景分类中置信度最大的类别及其置信度。

采用现有技术中基于卷积神经网络的目标检测方法，获取视频帧中目标物体所在位置，以目标物体的最小外接矩形框进行位置标记，并预测框内物体所属类别；针对每个矩形框，找到为其预测的所有非背景类别中有最高置信度的类别p。并基于此选择出视频帧的第一修正集合，该集合包括各目标物体的目标矩形框、各目标矩形框的非背景分类中置信度最大的类别及其置信度。

步骤S20，从所述第一修正集合中，选取大于预设置信度阈值的目标矩形框作为候选框。

对第一修正集合中每一个目标矩形框，将其类别p的类别置信度c^p与预设的置信度阈值c_t进行对比，选出大于置信度阈值c_t的目标矩形框作为目标类别待修正的候选矩形框，其对应的类别为待修正的类别。在一些实施例中，c_t的优选取值为0.1。

步骤S30，将前景二值掩膜图中大于预设灰度阈值的像素点作为前景点，对每一个候选框，分别计算其前景像素点在其矩形框中的占比，并作为该候选框的前景分数；所述前景二值掩膜图为现有前景检测算法获取的所述视频帧中运动物体的二值掩膜图。

利用现有前景检测算法得到视频帧动态物体的前景二值掩膜图，灰度值为0或255；将前景二值掩膜图的大小缩放至步骤S10中所采用目标检测网络的输入尺寸(即对应卷积神经网络要求的输入尺寸)，在此过程中灰度会经过线性插值；再将灰度值大于预设灰度阈值g_t的像素点作为真正的前景点。在一些实施例中，g_t的优选取值为50，该阈值能过滤大部分噪声而保留真正的前景点。

对步骤S20中得到的候选框，计算其前景点在其矩形框中的占比，并作为该候选框的前景分数c_f。

步骤S40，对每一个候选框，分别将其前景分数与其最大置信目标类别的置信度进行融合，得到其最大置信目标类别修正后的置信度。

通过公式(1)分别计算每一个候选框的融合后的置信度f(c^p,c_f)。

f(c^p,c_f)＝c^p(1-c_f)+c_f (1)

通过该步骤中得到的第二修正集合，可以对目标矩形框最大置信类别的置信度进行有效的修正，提高了目标物体的分类准确度。

本发明一种实施例的基于视频动态前景掩膜的目标检测方法，如图2所示，包括：

步骤A10，获取视频帧的第一检测结果；所述第一检测结果包括各目标物体的目标矩形框、目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述目标类别包括目标物体的多个预测分类及其置信度。

采用现有技术中基于卷积神经网络的目标检测方法，获取视频帧中目标物体所在位置，以目标物体的最小外接矩形框进行位置标记，并预测框内物体所属类别。此时每个目标矩形框预测分类为多个，且获取有每个分类的置信度。

步骤A20，基于上述的基于视频动态前景掩膜的目标类别修正方法，选取第一修正集合并进行修正得到第二修正集合。

通过该步骤对第一检测结果中各目标矩形框中的非背景分类中置信度最大的类别的置信度进行修正。

步骤A30，基于第二修正集合更新第一检测结果，得到第二检测结果。

基于步骤A20的修正结果，更新第一检测结果中各目标矩形框对应分类的置信度，为便于区别，此处将更新后的第一检测结果重新命名为第二检测结果。第二检测结果与第一检测结果的区别在于各目标矩形框中的非背景分类中置信度最大的类别的置信度不同。

对第二检测结果采用非极大值抑制后处理，得到最终输出的目标矩形框及其预测的物体类别，为便于区别，此处将处理后的结果命名为第三检测结果，也就是本发明方法输出的目标检测结果。非极大值抑制后处理方法为本领域已公开的技术，此处不再详细展开描述。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的基于卷积神经网络的目标检测方法的步骤A20中具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明一种实施例的基于视频动态前景掩膜的目标类别修正系统，如图3所示，包括第一修正集合获取单元、候选框获取单元、前景分数计算单元、融合单元、第二修正集合获取单元；

本发明一种实施例的基于视频动态前景掩膜的目标检测系统，如图4所示，该系统包括上述的基于视频动态前景掩膜的目标类别修正系统，还包括第一检测结果获取单元、第二检测结果获取单元、第三检测结果获取单元；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。同时，为了简化描述，上述描述的基于视频动态前景掩膜的目标检测系统中所涉及的基于视频动态前景掩膜的目标类别修正系统的内容不再重复描述。

需要说明的是，上述实施例提供的基于视频动态前景掩膜的目标类别修正系统、基于视频动态前景掩膜的目标检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述基于视频动态前景掩膜的目标类别修正方法，或上述基于视频动态前景掩膜的目标类别检测方法。

本发明的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述基于视频动态前景掩膜的目标类别修正方法，或上述基于视频动态前景掩膜的目标类别检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于视频动态前景掩膜的目标类别修正方法，其特征在于，该方法包括：

步骤S10，采用基于卷积神经网络的目标检测网络获取视频帧的第一修正集合；所述第一修正集合包括各目标物体的目标矩形框、最大置信目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述最大置信目标类别包括目标物体非背景分类中置信度最大的类别及其置信度；

步骤S40，对每一个候选框，分别将其前景分数与其最大置信目标类别的置信度进行融合，得到其最大置信目标类别修正后的置信度，其方法为：

其中，

为融合后的置信度，

为类别

的类别置信度；

为前景分数；

2.根据权利要求1所述的基于视频动态前景掩膜的目标类别修正方法，其特征在于，前景二值掩膜图的大小缩放至所述步骤S10中所采用目标检测网络的输入尺寸。

3.根据权利要求1所述的基于视频动态前景掩膜的目标类别修正方法，其特征在于，步骤S20中预设的置信度阈值为0.1。

4.根据权利要求1所述的基于视频动态前景掩膜的目标类别修正方法，其特征在于，步骤S30中预设的灰度阈值为50。

5.一种基于视频动态前景掩膜的目标检测方法，其特征在于，该方法包括：

步骤A20，基于权利要求1-4任一项所述的基于视频动态前景掩膜的目标类别修正方法，选取第一修正集合并进行修正得到第二修正集合；

6.一种基于视频动态前景掩膜的目标类别修正系统，其特征在于，该系统包括第一修正集合获取单元、候选框获取单元、前景分数计算单元、融合单元、第二修正集合获取单元；

所述前景分数计算单元，配置为将前景二值掩膜图中大于预设灰度阈值的像素点作为前景点，对每一个候选框，分别计算其前景点在其矩形框中的占比，并作为该候选框的前景分数；所述前景二值掩膜图为现有前景检测算法获取的所述视频帧中运动物体的二值掩膜图；

所述融合单元，配置为对每一个候选框，分别将其前景分数与其最大置信目标类别的置信度进行融合，得到其最大置信目标类别修正后的置信度，其方法为：

其中，

为融合后的置信度，

为类别

的类别置信度；

为前景分数；

7.一种基于视频动态前景掩膜的目标检测系统，其特征在于，该系统包括权利要求6所述的基于视频动态前景掩膜的目标类别修正系统，还包括第一检测结果获取单元、第二检测结果获取单元、第三检测结果获取单元；

8.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述基于视频动态前景掩膜的目标类别修正方法，或权利要求5所述基于视频动态前景掩膜的目标类别检测方法。

9.一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述基于视频动态前景掩膜的目标类别修正方法，或权利要求5所述基于视频动态前景掩膜的目标类别检测方法。