CN106203532B

CN106203532B - 基于字典学习与编码的运动目标跨尺度检测方法和装置

Info

Publication number: CN106203532B
Application number: CN201610589870.6A
Authority: CN
Inventors: 杜军平; 朱素果; 任楠
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2019-10-08
Anticipated expiration: 2036-07-25
Also published as: CN106203532A

Abstract

本发明公开了一种基于字典学习与编码的运动目标跨尺度检测方法和装置，包括对输入的每一帧图像序列进行初始化阶段的字典学习；根据初始化字典，对每一帧图像序列构建两层稀疏编码结构；获得该帧图像序列的尺度信息和细节信息。因此，所述基于字典学习与编码的运动目标跨尺度检测方法和装置解决传统运动目标检测方法尺度单一、对运动目标检测不够准确的问题。

Description

基于字典学习与编码的运动目标跨尺度检测方法和装置

技术领域

本发明涉及运动目标检测技术领域，特别是指一种基于字典学习与编码的运动目标跨尺度检测方法和装置。

背景技术

基于原型的快速稀疏表示方法从构建稀疏原型的角度，使得图像具有更高的区别度，并通过分类对其进行了评估，从而达到对目标物体进行分类检测的目的。虽然该方法在一定程度上提高了方法的效率，但尺度特征不够丰富，当环境变化剧烈时，准确度会急剧下降。过完备字典的方法可能导致稀疏编码的不稳定性。压缩采样的方法能够使字典各项之间的相关一致性尽量小，达到训练得到的字典误差较小的效果，但是其时间复杂度和空间复杂度仍然很大。

仅仅在同一层上完成局部采样片的解码过程忽略了空间多尺度的邻域结构特性。分层的方法在计算机视觉领域表现出了良好的性能，在构建的分层框架上，通过第一层稀疏编码获得的稀疏矩阵得到重构信息的峰值信噪比，由此对第二层的特征进行提取，虽然得到了较好的分类效果，但是峰值信噪比存在较大的偏差，使用它作为唯一的权值评判重构的优略，并不能提取到更加准确的特征。利用分层稀疏编码方法从像素级出发对特征进行学习，能够在最后一层上提取出更加鲁棒的特征。以上方法仅仅局限在静态目标和物体的检测与识别中，而对动态环境中运动目标在连续图像序列帧中的运动信息则不能有效利用，因此不能将以上方法直接应用在动态环境的运动目标检测中。

在动态环境中对运动目标进行检测，目标的细节特征往往对检测结果起着重要作用，而对目标检测同样重要的尺度特征通常被忽略。比较流行的提取尺度特征的方法主要有金字塔方法和小波分解方法，但这两种方法对检测方法的效率影响很大。

发明内容

有鉴于此，本发明的目的在于提出一种基于字典学习与编码的运动目标跨尺度检测方法和装置，解决传统运动目标检测方法尺度单一、对运动目标检测不够准确的问题。

基于上述目的本发明提供基于字典学习与编码的运动目标跨尺度检测方法，包括步骤：

对输入的每一帧图像序列进行初始化阶段的字典学习；

根据初始化字典，对每一帧图像序列构建两层稀疏编码结构；

获得该帧图像序列的尺度信息和细节信息。

在本发明的一些实施例中，所述获得该帧图像序列的尺度信息和细节信息，包括：

利用最大池化方法对第一层的稀疏矩阵进行采样，作为第二层的输入数据；

根据第二层的输入数据，利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息，即该帧图像序列的尺度信息和细节信息。

在本发明的一些实施例中，所述对输入的每一帧图像序列进行初始化阶段的字典学习，包括：

构建目标函数，y＝Dx (16)

其中，D＝{d₁,d₂,…,d_n}表示被估计的、大小为m×n的常矩阵，y表示观测向量，x表示相互独立的随机向量；利用FastICA库对该目标函数求解，其最优化公式可表示为式(17)：

其中，J_G(w_i)表示被优化的模型，权向量w_i构成了权矩阵W；

然后得到通过ICA转化得到s＝Wx，以及D＝W^-1。

在本发明的一些实施例中，所述利用最大池化方法对第一层的稀疏矩阵进行采样，作为第二层的输入数据包括：

对当前该帧图像序列进行采样，采样片大小为t₁，获得稀疏向量

对稀疏向量采用SVD方法进行训练、学习，获得第一层字典；

根据第一层字典，计算第一层的稀疏矩阵，对第一层的稀疏矩阵进行最大池化操作得到第二层的输入数据。

在本发明的一些实施例中，所述利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息，包括：

从输入数据中进行采样，采样片大小为t2，获得稀疏向量

对稀疏向量采用K-SVD方法进行训练、学习，获得第二层字典；

根据第二层字典，计算第二层的稀疏矩阵，利用空间金字塔池化方法提取第二层稀疏矩阵的特征信息。

在另一方面，本发明还提供了一种基于字典学习与编码的运动目标跨尺度检测装置，包括：

初始化单元，用于对输入的每一帧图像序列进行初始化阶段的字典学习；

构建单元，用于根据初始化字典对每一帧图像序列构建两层稀疏编码结构；

提取单元，用于获得该帧图像序列的尺度信息和细节信息。

在本发明的一些实施例中，所述提取单元包括：

在本发明的一些实施例中，所述初始化单元对输入的每一帧图像序列进行初始化阶段的字典学习，包括：

构建目标函数，y＝Dx (16)

其中，J_G(w_i)表示被优化的模型，权向量w_i构成了权矩阵W；

然后得到通过ICA转化得到s＝Wx，以及D＝W^-1。

对稀疏向量采用SVD方法进行训练、学习，获得第一层字典；

从输入数据中进行采样，采样片大小为t₂，获得稀疏向量

从上面所述可以看出，本发明提供的基于字典学习与编码的运动目标跨尺度检测方法和装置，通过基于分层稀疏编码的特征提取和分阶段的字典学习及更新，不仅充分利用了图像帧间不断变化的特征信息以及不同层次之间的信息，而且考虑了同一图像帧不同尺度特征对检测结果的影响，能够对动态环境中的运动目标进行准确检测。

附图说明

图1为本发明第一实施例中基于字典学习与编码的运动目标跨尺度检测方法流程示意图；

图2为本发明可参考实施例中基于字典学习与编码的运动目标跨尺度检测方法流程示意图；

图3为本发明实施例中基于字典学习与编码的运动目标跨尺度检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

参阅图1所示，为本发明第一实施例中基于字典学习与编码的运动目标跨尺度检测方法流程示意图，所述基于字典学习与编码的运动目标跨尺度检测方法包括：

步骤101，对输入的每一帧图像序列进行初始化阶段的字典学习。

步骤102，根据初始化字典，对每一帧图像序列构建两层稀疏编码结构。

步骤103，获得该帧图像序列的尺度信息和细节信息。

作为本发明的一个实施例，在进行步骤101的初始化阶段字典学习时，为了得到更加准确的稀疏向量和更小的重构误差，不同字典原子之间的不相关性约束被考虑进来。构建目标函数，如式(16)所示：

y＝Dx (16)

其中，D＝{d₁,d₂,…,d_n}表示被估计的、大小为m×n的常矩阵，y表示观测向量，x表示相互独立的随机向量。利用FastICA库对该目标函数求解，其最优化公式可表示为式(17)：

其中，J_G(w_i)表示被优化的模型，权向量w_i构成了权矩阵W。然后得到通过ICA转化得到s＝Wx，以及D＝W^-1。为了评价训练得到的字典的性能，对训练得到字典的互相关性关系进行了计算，其中平均互相关性为0.0109。

更进一步地，在初始化字典学习的基础之上，对该帧图像序列进行分层稀疏编码，具体实施过程包括：

针对每一帧图像序列，采用分层编码的方式得到最终的特征。对于第l层，假设输入图像为I，以采样数m对其进行采样，采样片大小为t，则得到第l层的样本其中p＝t×t,i＝1,2,…,m。为了得到能够表示I的较为稀疏的特征，采用稀疏表示的方法获得输入图像I的稀疏矩阵。通过离线的训练可以得到初始化字典D＝[d₁,d₂,…,d_n]，其中d_j∈R^p，j＝1，2，…，n，并且p＜＜n，稀疏矩阵可通过式(1)得到：

其中，W^l表示第l层的稀疏矩阵，W^l＝{w^l ₁,w^l ₂,…,w^l _m}，且q＝1,2,…,m，稀疏度设为9。式(1)中第一项表示重构误差；第二项通过L₁范数决定稀疏矩阵W^l是稀疏的，λ为正则系数，用于修正W^l的稀疏性。利用梯度下降的方法对式(1)进行求解。

假设D^TD＝1，求解得到的稀疏矩阵可以表示为则当处梯度存在时，设式(2)：

对于令可以得到式(3)和式(4)：

由于D^TD＝1，式(4)可以写为式(5)：

假设W已知，式(2)可写为式(6)：

令得到式(7)：

根据正交的性质，得到式(8)：

由sign(x)知：当x＝0时，sign(x)＝0；当x＞0时，sign(x)＝1；当x＜0时，sign(x)＝-1，结合式(5)、式(8)可知式(9)：

由式(10)可知，和同号，得到式(11)：

式(11)可等价于式(12)：

为了得到式(1)的全局最优值点，除了考虑以上梯度存在的情况外，考虑了当梯度不存在的情况下对式(1)求解的问题，即时，可知式(13)：

而因此当梯度不存在时的结果可以包含在式(9)中进行统一考虑。由此，式(9)便是对于第l层进行稀疏编码求得的解，即式(14)：

得到式(15)：

较佳地，将从该帧图像序列的第一层稀疏编码中得到的稀疏向量作为数据源，即通过稀疏编码得到第一层的稀疏矩阵，利用最大池化方法对第一层输出的稀疏矩阵进行采样，得到新的样本，进行训练、学习得到第二层的字典，利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息，即获得该帧图像序列的尺度信息和细节信息。

作为一个可参考的实施例，参阅图2所示，所述基于字典学习与编码的运动目标跨尺度检测方法具体可采用如下步骤：

步骤201，对图像序列帧进行初始化的字典学习。

在实施例中，为了得到更加准确的稀疏向量和更小的重构误差，不同字典原子之间的不相关性约束被考虑进来。构建目标函数，如式(16)所示：

y＝Dx (16)

步骤202，构建该帧图像序列的两层稀疏编码结构。具体实施过程包括：

针对每一帧图像序列，采用分层编码的方式得到最终的特征。对于第l层，假设输入图像为I，以采样数m对其进行采样，采样片大小为t，则得到第l层的样本其中p＝t×t,i＝1,2,…,m。为了得到能够表示I的较为稀疏的特征，采用稀疏表示的方法获得输入图像I的稀疏矩阵。通过离线的训练可以得到初始化字典D＝[d₁,d₂,…,d_n]，其中d_j∈R^p，j=1，2，…，n，并且p＜＜n，稀疏矩阵可通过式(1)得到：

假设D^TD＝1，求解得到的稀疏矩阵可以表示为则当处梯度存在时，设式(2)，F^l表示第l层求得的稀疏矩阵：

对于令可以得到式(3)和式(4)：

由于D^TD＝1，式(4)可以写为式(5)：

假设W已知，式(2)可写为式(6)：

令其中D_i是矩阵D的一个列向量，D^T是矩阵D的转置。得到式(7)：

根据正交的性质，得到式(8)：

由式(10)可知，和同号，得到式(11)：

式(11)可等价于式(12)：

得到式(15)：

步骤203，利用最大池化方法对第一层的稀疏矩阵进行采样，作为第二层的输入数据。

优选地，对第一层的稀疏矩阵为进行最大池化操作得到第二层的输入数据具体的实施过程可以为：

步骤一：对当前该帧图像序列进行采样，采样片大小为t₁，获得稀疏向量

步骤二：对稀疏向量采用SVD方法进行训练、学习，获得第一层字典(i表示第几帧图像序列)。其中，表示的是第1层的字典D的第i列。如果i＝1，则直接其中，D0表示初始化字典D中的第一列。

步骤三：根据第一层字典通过公式(3)至(15)计算第一层的稀疏矩阵在一个具体的实施例中，采样片大小为16×16，字典原子数为1000，通过稀疏编码得到第一层的稀疏矩阵

步骤四：对第一层的稀疏矩阵进行最大池化操作得到第二层的输入数据

步骤204，根据第二层的输入数据，利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息，即该帧图像序列的尺度信息和细节信息。具体实施过程包括：

步骤一：从输入数据中进行采样，采样片大小为t₂，获得稀疏向量

步骤二：对稀疏向量采用K-SVD方法进行训练、学习，获得第二层字典

步骤三：根据第二层字典通过公式(3)至(15)计算第二层的稀疏矩阵其中，表示的是第2层的字典D的第i列。相当于公式(3)至(15)中的D。在一个具体的实施例中，第二层的采样片大小为8×8，字典原子数为500，对第二层进行稀疏编码。

步骤四：利用空间金字塔池化方法提取第二层稀疏矩阵的特征信息。在一个具体的实施例中，为了获得不同尺度的更加准确的特征，利用空间金字塔池化方法提取第二层稀疏矩阵的特征，其金字塔大小为{3×3,2×2,1×1}。

作为本方法另一可参考的实施例，不仅本发明基于字典学习与编码的运动目标跨尺度检测的方法可以对每一帧的图像序列进行特征提取，还可以对一系列视频帧进行连续操作。具体来说，所述的在进行完步骤204之后，可以判断该帧图像序列是否为最后一帧。根据判断结果，如果是最后一帧，则直接退出上面所述的流程。如果不是最后一帧，则对于下一帧图像序列I_i+1，利用式(18)对该帧图像序列I_i+1第一层的字典进行更新，并返回202，对I_i+1的特征进行检测。

其中，对于连续的视频帧，相邻帧中目标具有很高的相似性，利用相邻帧间的相似性对下一帧中的目标进行检测，能够更加准确地获取图像序列中目标的特征。

通过初始化阶段可以得到初始化字典D，对第一层进行稀疏编码计算得到采样样本Y的稀疏矩阵W。字典的生成是通过对字典的原子迭代更新完成的，通过对前一帧字典中第k项以外残差进行奇异值分解来完成帧间阶段对字典的更新。假设前一帧字典中第k项以外残差为E_k，经过奇异值分解后得到式(18)：

E_k＝UΣV^T (18)

其中，U是p×m的酉矩阵，Σ是由奇异值构成的对角阵，Σ＝{σ₁,σ₂,…,σ_m}，success＝∑(sore≥0.5)/numberofframes为第i个奇异值。V为m×m的方阵。通过不断迭代，当迭代误差小于设定值时，取此时的Σ，并对其进行排序，取最大的奇异值对应的向量作为更新得到的新的字典原子d_k，从而完成对帧间阶段字典的更新。

在本发明的另一方面，还提供了一种基于字典学习与编码的运动目标跨尺度检测装置，如图3所示，所述基于字典学习与编码的运动目标跨尺度检测装置包括依次连接的初始化单元301、构建单元302以及提取单元303。其中，初始化单元301对输入的每一帧图像序列进行初始化阶段的字典学习，构建单元302根据初始化字典对每一帧图像序列构建两层稀疏编码结构，最后提取单元303获得该帧图像序列的尺度信息和细节信息。

需要说明的是，在本发明所述的基于字典学习与编码的运动目标跨尺度检测装置的具体实施内容，在上面所述的基于字典学习与编码的运动目标跨尺度检测方法中已经详细说明了，故在此重复内容不再说明。

综上所述，本发明提供的基于字典学习与编码的运动目标跨尺度检测方法和装置，创造性地针对检测过程中不同阶段的特点，利用提出的分阶段字典学习及更新方法对字典进行学习及更新，充分利用了帧间变化的目标特征以及层间的稀疏特征；并且，利用提出的基于分层稀疏编码的特征提取方法，提取目标的细节特征和尺度特征，从而完成对运动目标的检测；因此，本发明能够具有广泛、重大的推广意义；最后，整个所述基于字典学习与编码的运动目标跨尺度检测方法和装置紧凑，易于控制。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于字典学习与编码的运动目标跨尺度检测方法，其特征在于，包括步骤：

对输入的每一帧图像序列进行初始化阶段的字典学习；

获得该帧图像序列的尺度信息和细节信息；

所述获得该帧图像序列的尺度信息和细节信息，包括：

2.根据权利要求1所述的方法，其特征在于，所述对输入的每一帧图像序列进行初始化阶段的字典学习，包括：

构建目标函数，y＝Dx (16)

其中，J_G(w_i)表示被优化的模型，权向量w_i构成了权矩阵W；

然后得到通过ICA转化得到s＝Wx，以及D＝W^-1。

3.根据权利要求2所述的方法，其特征在于，所述利用最大池化方法对第一层的稀疏矩阵进行采样，作为第二层的输入数据包括：

对稀疏向量采用SVD方法进行训练、学习，获得第一层字典；

4.根据权利要求2所述的方法，其特征在于，所述利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息，包括：

从输入数据中进行采样，采样片大小为t₂，获得稀疏向量

5.一种基于字典学习与编码的运动目标跨尺度检测装置，其特征在于，包括：

提取单元，用于获得该帧图像序列的尺度信息和细节信息；

所述提取单元包括：

6.根据权利要求5所述的装置，其特征在于，所述初始化单元对输入的每一帧图像序列进行初始化阶段的字典学习，包括：

构建目标函数，y＝Dx (16)

其中，J_G(w_i)表示被优化的模型，权向量w_i构成了权矩阵W；

然后得到通过ICA转化得到s＝Wx，以及D＝W^-1。

7.根据权利要求5所述的装置，其特征在于，所述利用最大池化方法对第一层的稀疏矩阵进行采样，作为第二层的输入数据包括：

对稀疏向量采用SVD方法进行训练、学习，获得第一层字典；

8.根据权利要求5所述的装置，其特征在于，所述利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息，包括：

从输入数据中进行采样，采样片大小为t₂，获得稀疏向量