CN108062531A

CN108062531A - 一种基于级联回归卷积神经网络的视频目标检测方法

Info

Publication number: CN108062531A
Application number: CN201711422447.8A
Authority: CN
Inventors: 刘青山; 帅惠; 袁晓彤
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-05-22
Anticipated expiration: 2037-12-25
Also published as: CN108062531B

Abstract

本发明提供了一种基于级联回归卷积神经网络的视频目标检测方法，并包括如下步骤：一、输入视频图像序列，并将整个视频序列的所有图像帧通过卷积神经网络提取CNN特征；二、利用RPN网络对所述CNN特征的最后一层卷积特征进行分类以获得建议区域，通过多尺度的卷积特征对建议区域进行级联分类和回归，并得到每帧图像的静态图片检测结果；三、将步骤二中得到的检测结果中置信度大于0.6的结果作为跟踪初始值，在CNN特征的conv5‑3卷积特征上通过相关滤波对目标进行跟踪得到时序建议区域，并对时序建议区域进行级联分类和回归，得到时序检测结果；四、将静态图片检测结果和时序检测结果通过共生矩阵对检测结果中异常值进行抑制，从而得到最终检测结果。

Description

一种基于级联回归卷积神经网络的视频目标检测方法

技术领域

本发明属于图像信息技术处理领域，具体地涉及一种基于级联回归卷积神经网络的视频目标检测方法。

背景技术

目标识别是自动在图像中定位目标的方法，是计算机视觉领域的基础问题，在很多方面都有应用，例如监控、人机交互，和医疗辅助。早期的方法能够通过滑动窗口或者级联分类器有效地检测图像的单一类别的目标，例如人脸和行人，但无法检测多类的目标。

近年来，得益于卷积神经网络的发展，多类别目标检测技术得到了显著提升。其中基于区域的卷积神经网络由区域建议和区域分类组成，R-CNN将目标检测转化为分类问题，并且对Imagenet数据库上预训练的分类网络进行微调。

虽然对于目标检测已经有了很多研究工作，但是因为遮挡、形变、运动模糊、光照变化和复杂背景等因素的影响，视频中的目标检测更加具有挑战性。Faster R-CNN在卷积神经网络中引入了RPN网络，RPN网络与分类网络共享全图的卷积特征图谱，并且通过交替训练的方式进行训练，两者都是基于卷积特征的分类器。随着卷积神精网络分类性能的提升，Faster R-CNN准确率不断提高，但是将其应用于视频目标检测时面临着两大问题。首先，每一帧图像中RPN网络得到的区域(region)并不总是可靠的，因为视频中的目标急剧的外观变化会影响网络的召回率。其次，单独的区域分类无法融合视屏中的时空信息和上下文信息，使得视频较为模糊的目标得分过低，影响检测的性能。

发明内容

本发明的目的在于针对现有技术的缺陷，提供一种基于级联回归卷积神经网络的视频目标检测方法。

本发明的技术方案如下：一种基于级联回归卷积神经网络的视频目标检测方法，包括如下步骤：一、输入视频图像序列，并将整个视频序列的所有图像帧通过卷积神经网络提取CNN特征；二、利用RPN网络对所述CNN特征的最后一层卷积特征进行分类以获得建议区域，通过多尺度的卷积特征对所述建议区域进行级联分类和回归，并得到每帧图像的静态图片检测结果；三、将步骤二中得到的检测结果中置信度大于0.6的结果作为跟踪初始值，在所述CNN特征的conv5-3卷积特征上通过相关滤波对目标进行跟踪得到时序建议区域，并对所述时序建议区域进行级联分类和回归，得到时序检测结果；四、将所述静态图片检测结果和所述时序检测结果通过共生矩阵对检测结果中异常值进行抑制，从而得到最终检测结果。

优选地，在步骤二中具体包括如下步骤：所述RPN网络将所述CNN特征的最后一层卷积特征变换成设定维度的向量，再通过全连接层对所述设定维度的向量对应的ancher区域进行分类和边界框的回归，判断输出ancher是否为object区域的分类结果和边界框的参数，并将得到的分类结果按置信度排序，选择置信度靠前的框作为建议区域；在级联分类和回归网络中对所述建议区域进行分类和对边界框的参数进行调整，根据所述建议区域的像素值选择不同层的卷积特征，并在此过程中得到每帧图像的静态图片检测结果。

优选地，在步骤二中，当所述建议区域在原图中大于56个相像素值时，选择所述CNN特征中的conv5-3卷积特征；当所述建议区域在原图中小于56个像素值时，选择所述CNN特征中的conv 4-3卷积特征。

优选地，在步骤三中，从所述CNN特征的conv5-3卷积特征中裁剪出多通道特征，其尺寸为w×h×d；其中，w、h分别表示区域的高度和宽度，d表示通道的数量；所述相关滤波的搜索视野是整个裁剪出多通道特征x，并且对于每个位置，都有一个相应的高斯分布函数：

其中，高斯核宽度σ大小设置为0.1。

优选地，高斯核通过求解最小化问题得到：

其中λ是正则化参数，且λ＝10^-4；

通过每个通道的快速傅里叶变换求解所述高斯核，并且在频域中的第k个通道的相关滤波器表示为：

其中，Y是y的傅里叶变化，是x的傅里叶变换的复共轭，⊙表示对应元素相乘。

优选地，在步骤三中，对目标位移的估计转化为对于响应图上最大值的搜索，

如果给定下一帧的卷积特征的一部分特征z，设定特征z的大小为W×H×D；其中，W、H分别表示区域的高度和宽度，D表示通道的数量，则响应图通过傅里叶逆变换得到：

其中，R^k为在频域中的第k个通道的相关滤波器，是z的傅里叶变换的复共轭。

优选地，相关滤波器R^k通过如下方式更新：

其中A₀和B₀是从置信度靠前的检测结果中学到的每一类的初始化参数，μ是时序更新率，且μ＝0.01。

优选地，在步骤四中，将置信度大于0.6且在整个视频中分布最为广泛的检测结果作为视频的显著类别，并将目标与场景之间的相关性关系转化为目标类别与视频中显著类别之间的相关性关系。

优选地，在步骤四中，所述静态图片检测结果和所述时序检测结果共同构成视频的初步检测结果，并且步骤四具体包括如下步骤：

通过共生矩阵，对所述初步检测结果中的异常值进行抑制，如果目标类别与显著类别冲突，则将所述目标类别的检测置信度减半；

在进行异常值抑制后，对所述初步检测结果进行非极大值抑制，得到最终检测结果。

本发明提供的技术方案具有如下有益效果：

所述基于级联回归卷积神经网络的视频目标检测方法通过RPN网络产生建议区域，并且通过相关滤波基于置信度较高帧的结果向前后做跟踪，并通过级联回归网络分类建议区域和回归限定框的方法进一步提高目标定位的效果，且还辅助以共生矩阵的引入，实现对检测结果中的异常情况的抑制，因此在鲁棒性和精度上取得了良好的效果，能够处理视频目标检测中出现的遮挡、形变、快速运动等挑战。

附图说明

图1为本发明实施例提供的基于级联回归卷积神经网络的视频目标检测方法的流程示意图；

图2为图1所示基于级联回归卷积神经网络的视频目标检测方法涉及的区域分类和边界框回归网络的示意图；

图3为图1所示基于级联回归卷积神经网络的视频目标检测方法涉及的级联区域回归网络的示意图；

图4为图1所示基于级联回归卷积神经网络的视频目标检测方法涉及的训练集、确认集、训练集和确认集、二值化共生矩阵的可视化示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

除非上下文另有特定清楚的描述，本发明中的元件和组件，数量既可以单个的形式存在，也可以多个的形式存在，本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列，但并不用于限定步骤的先后次序，除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础，否则步骤的相对次序是可以调整的。可以理解，本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。

请参阅图1和图2，本发明实施例提供的基于级联回归卷积神经网络的视频目标检测方法融合了视频序列的空间信息和时序信息，通过级联回归分类和回归网络提高网络的分类准确率和边界框的精确度。

具体地，所述基于级联回归卷积神经网络的视频目标检测方法包括如下步骤：

一、输入视频图像序列，并将整个视频序列的所有图像帧通过卷积神经网络提取CNN特征。

二、利用RPN网络对所述CNN特征的最后一层卷积特征进行分类以获得建议区域，通过多尺度的卷积特征对所述建议区域进行级联分类和回归，并得到每帧图像的静态图片检测结果。

具体地，在步骤二中具体包括如下步骤：

所述RPN网络将所述CNN特征的最后一层卷积特征变换成设定维度的向量，再通过全连接层对所述设定维度的向量对应的ancher区域进行分类和边界框的回归，判断输出ancher是否为object区域的分类结果和边界框的参数，并将得到的分类结果按置信度排序，选择置信度靠前的框作为建议区域，其中，ancher区域是人为预设的对图像区域的划分，object区域是包含要检测目标的区域，例如其中有人、车等检测目标。

在级联分类和回归网络中对所述建议区域进行分类和对边界框的参数进行调整，根据所述建议区域的像素值选择不同层的卷积特征，并在此过程中得到每帧图像的静态图片检测结果。

需要说明的是，在步骤二中，将得到的分类结果按置信度排序后，可以选择置信度前300的框作为建议区域；

而且，在级联分类和回归网络中，由于区域敏感的特征能够得到更精确的定位结果，本发明中训练了多个级联区域回归网络来使用不同的卷积特征调整检测结果。例如，如图3所示，通过自适应池化将卷积特征转化为固定长度(7×7×512)，并且在多层感知机前增加两个3×3的卷积层。需要说明的是，为了训练该模型，所述基于级联回归卷积神经网络的视频目标检测方法针对不同网络生成了一系列训练集，每个训练集与真实值有不同的大小的IoU。

而且，在步骤二的通过多尺度的卷积特征对所述建议区域进行级联分类和回归的过程中，根据所述建议区域的像素值选择不同层的卷积特征：

当所述建议区域在原图中大于56个相像素值时，选择所述CNN特征中的conv5-3卷积特征；当所述建议区域在原图中小于56个像素值时，选择所述CNN特征中的conv 4-3卷积特征。

三、将步骤二中得到的检测结果中置信度大于0.6的结果作为跟踪初始值，在所述CNN特征的conv5-3卷积特征上通过相关滤波对目标进行跟踪得到时序建议区域，并对所述时序建议区域进行级联分类和回归，得到时序检测结果。

具体地，在步骤三中，使用相关滤波来生成具有较大外观变化的时序建议区域，相关滤波通过学习生成模型，以滑动窗口方式在特征图上寻找最大响应区域来估计目标位移。而且，相关滤波的初始化位置是置信度大于0.6的检测结果，并以初始化帧为基准向前后帧进行传播。

需要说明的是，在步骤三中，从所述CNN特征的conv5-3卷积特征中裁剪出多通道特征x，其尺寸为w×h×d；其中，w、h分别表示区域的高度和宽度，d表示通道的数量。而且，所示多通道特征x的大小是跟踪目标的两倍。

所述相关滤波的搜索视野是整个裁剪出多通道特征x，并且对于每个位置，都有一个相应的高斯分布函数：

其中，高斯核宽度σ大小设置为0.1。

所述高斯核通过求解最小化问题得到：

其中，λ是正则化参数，且λ＝10^-4。

通过所述多通道特征x中每个通道的快速傅里叶变换求解所述高斯核，并且在频域中的第k个通道的相关滤波器表示为：

在本实施例中，在步骤三中，对目标位移的估计转化为对于响应图上最大值的搜索。因此，如果给定下一帧的卷积特征的一部分特征z，设定特征z的大小为W×H×D；其中，W、H分别表示区域的高度和宽度，D表示通道的数量，则响应图通过傅里叶逆变换得到：

由于时序建议区域的初始化是针对各个类别的，本发明中将每一类的先验知识融合到模型中。从视频中选择高置信度的时序检测结果(得分高于0.6)，并且保留各帧中最为相似的结果。这些时序检测结果根据距离初始化帧的时序距离分配归一化的参数。相关滤波器根据这些样本来进行更新。最终，时序建议区域通过在整个视频上向前和向后跟踪得到。其中，相关滤波器R^k通过如下方式更新：

其中A₀和B₀是从置信度靠前的时序检测结果中学到的每一类的先验知识，μ是时序更新率，且μ＝0.01。通过上述方式可以保持相关滤波器的生成特性，并且通过逐渐更新相关滤波器来适应外观的变化。

由于不同的图像帧中，目标的尺度大小不同，但是相关滤波要求相关滤波器的大小不变，因此，本发明中对卷积特征图谱大小进行变换，使得目标的尺度保持不变。在本实施例中，将conv5-3卷积特征用于构建时序建议区域。

四、将所述静态图片检测结果和所述时序检测结果通过共生矩阵对检测结果中异常值进行抑制，从而得到最终检测结果。

具体地，所述静态图片检测结果和所述时序检测结果共同构成视频的初步检测结果。而且，将置信度大于0.6且在整个视频中分布最为广泛的初始检测结果作为视频的显著类别。

需要说明的是，步骤四中，为了提高检测的正确率，利用上下文信息，包括视频的全局特征和检测目标之间的依赖关系进行异常值的抑制，例如，羊和牛常常是经常一起出现的，但是狮子和鲸鱼几乎不同时出现。

实际上，场景上下文信息是目标检测中的重要线索，一些特殊的类与场景有着很强的相关性，比如羊与草地之间的相关性，因此，在本发明中将目标与场景之间的相关性关系转化为目标类别与视频中显著类别之间的相关性关系。

具体地，步骤四具体包括如下步骤：

例如，选择训练集和确认集中的所有多目标图像帧，训练集中有336219多目标的图像帧，确认集中有53192多目标图像帧，所有目标之间的共生关系如图4所示。编码共生矩阵的简单方式是使用概率图模型，由于本发明得到了视频的显著类别，因此可以将上下文模型简化为二值共生矩阵。

而且，在视频的显著类别确定后，从共生矩阵中将冲突类别选择出来，并将冲突的类别的置信度降低为一半，从而进行最后的极大值抑制环节，进而得到最终检测结果。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于级联回归卷积神经网络的视频目标检测方法，其特征在于：包括如下步骤：

一、输入视频图像序列，并将整个视频序列的所有图像帧通过卷积神经网络提取CNN特征；

二、利用RPN网络对所述CNN特征的最后一层卷积特征进行分类以获得建议区域，通过多尺度的卷积特征对所述建议区域进行级联分类和回归，并得到每帧图像的静态图片检测结果；

三、将步骤二中得到的检测结果中置信度大于0.6的结果作为跟踪初始值，在所述CNN特征的conv5-3卷积特征上通过相关滤波对目标进行跟踪得到时序建议区域，并对所述时序建议区域进行级联分类和回归，得到时序检测结果；

2.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法，其特征在于：在步骤二中具体包括如下步骤：

所述RPN网络将所述CNN特征的最后一层卷积特征变换成设定维度的向量，再通过全连接层对所述设定维度的向量对应的ancher区域进行分类和边界框的回归，输出ancher是否为object区域的分类结果和边界框的参数，并将得到的分类结果按置信度排序，选择置信度靠前的框作为建议区域；

3.根据权利要求2所述的一种基于级联回归卷积神经网络的视频目标检测方法，其特征在于：在步骤二中，当所述建议区域在原图中大于56个相像素值时，选择所述CNN特征中的conv5-3卷积特征；当所述建议区域在原图中小于56个像素值时，选择所述CNN特征中的conv 4-3卷积特征。

4.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法，其特征在于：在步骤三中，从所述CNN特征的conv5-3卷积特征中裁剪出多通道特征x，其尺寸为w×h×d；其中，w、h分别表示区域的高度和宽度，d表示通道的数量；

<mrow> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mfrac> <mrow> <msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mi>w</mi> <mo>/</mo> <mn>2</mn> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mi>j</mi> <mo>-</mo> <mi>h</mi> <mo>/</mo> <mn>2</mn> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> </mrow> </msup> <mo>,</mo> </mrow>

其中，高斯核宽度σ大小设置为0.1，其中，i，j均为正整数，表示x中的坐标。

5.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法，其特征在于：高斯核r^*通过求解最小化问题得到：

<mrow> <msup> <mi>r</mi> <mo>*</mo> </msup> <mo>=</mo> <mi>arg</mi> <mi> </mi> <mi>m</mi> <mi>i</mi> <mi>n</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>W</mi> <mo>,</mo> <mi>H</mi> </mrow> </munderover> <mo>|</mo> <mo>|</mo> <mi>r</mi> <mo>&CenterDot;</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <mo>|</mo> <mo>|</mo> <mi>r</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow>

其中λ是正则化参数，且λ＝10^-4；

其中，Y是y的傅里叶变化，是x的傅里叶变换的复共轭，表示对应元素相乘。

6.根据权利要求5所述的一种基于级联回归卷积神经网络的视频目标检测方法，其特征在于：在步骤三中，对目标位移的估计转化为对于响应图上最大值的搜索，

其中，R^k为在频域中的第k个通道的相关滤波器，k为正整数，是z的傅里叶变换的复共轭。

7.根据权利要求5或6所述的一种基于级联回归卷积神经网络的视频目标检测方法，其特征在于：相关滤波器R^k通过如下方式更新：

<mrow> <msubsup> <mi>R</mi> <mi>t</mi> <mi>k</mi> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>A</mi> <mi>t</mi> <mi>k</mi> </msubsup> <mrow> <msubsup> <mi>B</mi> <mi>t</mi> <mi>k</mi> </msubsup> <mo>+</mo> <mi>&lambda;</mi> </mrow> </mfrac> <mo>,</mo> </mrow>

其中A₀和B₀是从置信度靠前的时序检测结果中学到的每一类的初始参数，μ是时序更新率，且μ＝0.01。

8.根据权利要求1所述的一种基于级联回归卷积神经网络的视频目标检测方法，其特征在于：在步骤四中，所述静态图片检测结果和所述时序检测结果共同构成视频的初步检测结果；

将置信度大于0.6且在整个视频中分布最为广泛的初始检测结果作为视频的显著类别，并将目标与场景之间的相关性关系转化为目标类别与视频中显著类别之间的相关性关系。

9.根据权利要求8所述的一种基于级联回归卷积神经网络的视频目标检测方法，其特征在于：步骤四具体包括如下步骤：