CN106203532B - 基于字典学习与编码的运动目标跨尺度检测方法和装置 - Google Patents

基于字典学习与编码的运动目标跨尺度检测方法和装置 Download PDF

Info

Publication number
CN106203532B
CN106203532B CN201610589870.6A CN201610589870A CN106203532B CN 106203532 B CN106203532 B CN 106203532B CN 201610589870 A CN201610589870 A CN 201610589870A CN 106203532 B CN106203532 B CN 106203532B
Authority
CN
China
Prior art keywords
layer
sparse
dictionary
image sequence
frame image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610589870.6A
Other languages
English (en)
Other versions
CN106203532A (zh
Inventor
杜军平
朱素果
任楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201610589870.6A priority Critical patent/CN106203532B/zh
Publication of CN106203532A publication Critical patent/CN106203532A/zh
Application granted granted Critical
Publication of CN106203532B publication Critical patent/CN106203532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations

Abstract

本发明公开了一种基于字典学习与编码的运动目标跨尺度检测方法和装置,包括对输入的每一帧图像序列进行初始化阶段的字典学习;根据初始化字典,对每一帧图像序列构建两层稀疏编码结构;获得该帧图像序列的尺度信息和细节信息。因此,所述基于字典学习与编码的运动目标跨尺度检测方法和装置解决传统运动目标检测方法尺度单一、对运动目标检测不够准确的问题。

Description

基于字典学习与编码的运动目标跨尺度检测方法和装置
技术领域
本发明涉及运动目标检测技术领域,特别是指一种基于字典学习与编码的运动目标跨尺度检测方法和装置。
背景技术
基于原型的快速稀疏表示方法从构建稀疏原型的角度,使得图像具有更高的区别度,并通过分类对其进行了评估,从而达到对目标物体进行分类检测的目的。虽然该方法在一定程度上提高了方法的效率,但尺度特征不够丰富,当环境变化剧烈时,准确度会急剧下降。过完备字典的方法可能导致稀疏编码的不稳定性。压缩采样的方法能够使字典各项之间的相关一致性尽量小,达到训练得到的字典误差较小的效果,但是其时间复杂度和空间复杂度仍然很大。
仅仅在同一层上完成局部采样片的解码过程忽略了空间多尺度的邻域结构特性。分层的方法在计算机视觉领域表现出了良好的性能,在构建的分层框架上,通过第一层稀疏编码获得的稀疏矩阵得到重构信息的峰值信噪比,由此对第二层的特征进行提取,虽然得到了较好的分类效果,但是峰值信噪比存在较大的偏差,使用它作为唯一的权值评判重构的优略,并不能提取到更加准确的特征。利用分层稀疏编码方法从像素级出发对特征进行学习,能够在最后一层上提取出更加鲁棒的特征。以上方法仅仅局限在静态目标和物体的检测与识别中,而对动态环境中运动目标在连续图像序列帧中的运动信息则不能有效利用,因此不能将以上方法直接应用在动态环境的运动目标检测中。
在动态环境中对运动目标进行检测,目标的细节特征往往对检测结果起着重要作用,而对目标检测同样重要的尺度特征通常被忽略。比较流行的提取尺度特征的方法主要有金字塔方法和小波分解方法,但这两种方法对检测方法的效率影响很大。
发明内容
有鉴于此,本发明的目的在于提出一种基于字典学习与编码的运动目标跨尺度检测方法和装置,解决传统运动目标检测方法尺度单一、对运动目标检测不够准确的问题。
基于上述目的本发明提供基于字典学习与编码的运动目标跨尺度检测方法,包括步骤:
对输入的每一帧图像序列进行初始化阶段的字典学习;
根据初始化字典,对每一帧图像序列构建两层稀疏编码结构;
获得该帧图像序列的尺度信息和细节信息。
在本发明的一些实施例中,所述获得该帧图像序列的尺度信息和细节信息,包括:
利用最大池化方法对第一层的稀疏矩阵进行采样,作为第二层的输入数据;
根据第二层的输入数据,利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,即该帧图像序列的尺度信息和细节信息。
在本发明的一些实施例中,所述对输入的每一帧图像序列进行初始化阶段的字典学习,包括:
构建目标函数,y=Dx (16)
其中,D={d1,d2,…,dn}表示被估计的、大小为m×n的常矩阵,y表示观测向量,x表示相互独立的随机向量;利用FastICA库对该目标函数求解,其最优化公式可表示为式(17):
其中,JG(wi)表示被优化的模型,权向量wi构成了权矩阵W;
然后得到通过ICA转化得到s=Wx,以及D=W-1
在本发明的一些实施例中,所述利用最大池化方法对第一层的稀疏矩阵进行采样,作为第二层的输入数据包括:
对当前该帧图像序列进行采样,采样片大小为t1,获得稀疏向量
对稀疏向量采用SVD方法进行训练、学习,获得第一层字典;
根据第一层字典,计算第一层的稀疏矩阵,对第一层的稀疏矩阵进行最大池化操作得到第二层的输入数据。
在本发明的一些实施例中,所述利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,包括:
从输入数据中进行采样,采样片大小为t2,获得稀疏向量
对稀疏向量采用K-SVD方法进行训练、学习,获得第二层字典;
根据第二层字典,计算第二层的稀疏矩阵,利用空间金字塔池化方法提取第二层稀疏矩阵的特征信息。
在另一方面,本发明还提供了一种基于字典学习与编码的运动目标跨尺度检测装置,包括:
初始化单元,用于对输入的每一帧图像序列进行初始化阶段的字典学习;
构建单元,用于根据初始化字典对每一帧图像序列构建两层稀疏编码结构;
提取单元,用于获得该帧图像序列的尺度信息和细节信息。
在本发明的一些实施例中,所述提取单元包括:
利用最大池化方法对第一层的稀疏矩阵进行采样,作为第二层的输入数据;
根据第二层的输入数据,利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,即该帧图像序列的尺度信息和细节信息。
在本发明的一些实施例中,所述初始化单元对输入的每一帧图像序列进行初始化阶段的字典学习,包括:
构建目标函数,y=Dx (16)
其中,D={d1,d2,…,dn}表示被估计的、大小为m×n的常矩阵,y表示观测向量,x表示相互独立的随机向量;利用FastICA库对该目标函数求解,其最优化公式可表示为式(17):
其中,JG(wi)表示被优化的模型,权向量wi构成了权矩阵W;
然后得到通过ICA转化得到s=Wx,以及D=W-1
在本发明的一些实施例中,所述利用最大池化方法对第一层的稀疏矩阵进行采样,作为第二层的输入数据包括:
对当前该帧图像序列进行采样,采样片大小为t1,获得稀疏向量
对稀疏向量采用SVD方法进行训练、学习,获得第一层字典;
根据第一层字典,计算第一层的稀疏矩阵,对第一层的稀疏矩阵进行最大池化操作得到第二层的输入数据。
在本发明的一些实施例中,所述利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,包括:
从输入数据中进行采样,采样片大小为t2,获得稀疏向量
对稀疏向量采用K-SVD方法进行训练、学习,获得第二层字典;
根据第二层字典,计算第二层的稀疏矩阵,利用空间金字塔池化方法提取第二层稀疏矩阵的特征信息。
从上面所述可以看出,本发明提供的基于字典学习与编码的运动目标跨尺度检测方法和装置,通过基于分层稀疏编码的特征提取和分阶段的字典学习及更新,不仅充分利用了图像帧间不断变化的特征信息以及不同层次之间的信息,而且考虑了同一图像帧不同尺度特征对检测结果的影响,能够对动态环境中的运动目标进行准确检测。
附图说明
图1为本发明第一实施例中基于字典学习与编码的运动目标跨尺度检测方法流程示意图;
图2为本发明可参考实施例中基于字典学习与编码的运动目标跨尺度检测方法流程示意图;
图3为本发明实施例中基于字典学习与编码的运动目标跨尺度检测装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
参阅图1所示,为本发明第一实施例中基于字典学习与编码的运动目标跨尺度检测方法流程示意图,所述基于字典学习与编码的运动目标跨尺度检测方法包括:
步骤101,对输入的每一帧图像序列进行初始化阶段的字典学习。
步骤102,根据初始化字典,对每一帧图像序列构建两层稀疏编码结构。
步骤103,获得该帧图像序列的尺度信息和细节信息。
作为本发明的一个实施例,在进行步骤101的初始化阶段字典学习时,为了得到更加准确的稀疏向量和更小的重构误差,不同字典原子之间的不相关性约束被考虑进来。构建目标函数,如式(16)所示:
y=Dx (16)
其中,D={d1,d2,…,dn}表示被估计的、大小为m×n的常矩阵,y表示观测向量,x表示相互独立的随机向量。利用FastICA库对该目标函数求解,其最优化公式可表示为式(17):
其中,JG(wi)表示被优化的模型,权向量wi构成了权矩阵W。然后得到通过ICA转化得到s=Wx,以及D=W-1。为了评价训练得到的字典的性能,对训练得到字典的互相关性关系进行了计算,其中平均互相关性为0.0109。
更进一步地,在初始化字典学习的基础之上,对该帧图像序列进行分层稀疏编码,具体实施过程包括:
针对每一帧图像序列,采用分层编码的方式得到最终的特征。对于第l层,假设输入图像为I,以采样数m对其进行采样,采样片大小为t,则得到第l层的样本其中p=t×t,i=1,2,…,m。为了得到能够表示I的较为稀疏的特征,采用稀疏表示的方法获得输入图像I的稀疏矩阵。通过离线的训练可以得到初始化字典D=[d1,d2,…,dn],其中dj∈Rp,j=1,2,…,n,并且p<<n,稀疏矩阵可通过式(1)得到:
其中,Wl表示第l层的稀疏矩阵,Wl={wl 1,wl 2,…,wl m},且q=1,2,…,m,稀疏度设为9。式(1)中第一项表示重构误差;第二项通过L1范数决定稀疏矩阵Wl是稀疏的,λ为正则系数,用于修正Wl的稀疏性。利用梯度下降的方法对式(1)进行求解。
假设DTD=1,求解得到的稀疏矩阵可以表示为则当处梯度存在时,设式(2):
对于可以得到式(3)和式(4):
由于DTD=1,式(4)可以写为式(5):
假设W已知,式(2)可写为式(6):
得到式(7):
根据正交的性质,得到式(8):
由sign(x)知:当x=0时,sign(x)=0;当x>0时,sign(x)=1;当x<0时,sign(x)=-1,结合式(5)、式(8)可知式(9):
由式(10)可知,同号,得到式(11):
式(11)可等价于式(12):
为了得到式(1)的全局最优值点,除了考虑以上梯度存在的情况外,考虑了当梯度不存在的情况下对式(1)求解的问题,即时,可知式(13):
因此当梯度不存在时的结果可以包含在式(9)中进行统一考虑。由此,式(9)便是对于第l层进行稀疏编码求得的解,即式(14):
得到式(15):
较佳地,将从该帧图像序列的第一层稀疏编码中得到的稀疏向量作为数据源,即通过稀疏编码得到第一层的稀疏矩阵,利用最大池化方法对第一层输出的稀疏矩阵进行采样,得到新的样本,进行训练、学习得到第二层的字典,利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,即获得该帧图像序列的尺度信息和细节信息。
作为一个可参考的实施例,参阅图2所示,所述基于字典学习与编码的运动目标跨尺度检测方法具体可采用如下步骤:
步骤201,对图像序列帧进行初始化的字典学习。
在实施例中,为了得到更加准确的稀疏向量和更小的重构误差,不同字典原子之间的不相关性约束被考虑进来。构建目标函数,如式(16)所示:
y=Dx (16)
其中,D={d1,d2,…,dn}表示被估计的、大小为m×n的常矩阵,y表示观测向量,x表示相互独立的随机向量。利用FastICA库对该目标函数求解,其最优化公式可表示为式(17):
其中,JG(wi)表示被优化的模型,权向量wi构成了权矩阵W。然后得到通过ICA转化得到s=Wx,以及D=W-1。为了评价训练得到的字典的性能,对训练得到字典的互相关性关系进行了计算,其中平均互相关性为0.0109。
步骤202,构建该帧图像序列的两层稀疏编码结构。具体实施过程包括:
针对每一帧图像序列,采用分层编码的方式得到最终的特征。对于第l层,假设输入图像为I,以采样数m对其进行采样,采样片大小为t,则得到第l层的样本其中p=t×t,i=1,2,…,m。为了得到能够表示I的较为稀疏的特征,采用稀疏表示的方法获得输入图像I的稀疏矩阵。通过离线的训练可以得到初始化字典D=[d1,d2,…,dn],其中dj∈Rp,j=1,2,…,n,并且p<<n,稀疏矩阵可通过式(1)得到:
其中,Wl表示第l层的稀疏矩阵,Wl={wl 1,wl 2,…,wl m},且q=1,2,…,m,稀疏度设为9。式(1)中第一项表示重构误差;第二项通过L1范数决定稀疏矩阵Wl是稀疏的,λ为正则系数,用于修正Wl的稀疏性。利用梯度下降的方法对式(1)进行求解。
假设DTD=1,求解得到的稀疏矩阵可以表示为则当处梯度存在时,设式(2),Fl表示第l层求得的稀疏矩阵:
对于可以得到式(3)和式(4):
由于DTD=1,式(4)可以写为式(5):
假设W已知,式(2)可写为式(6):
其中Di是矩阵D的一个列向量,DT是矩阵D的转置。得到式(7):
根据正交的性质,得到式(8):
由sign(x)知:当x=0时,sign(x)=0;当x>0时,sign(x)=1;当x<0时,sign(x)=-1,结合式(5)、式(8)可知式(9):
由式(10)可知,同号,得到式(11):
式(11)可等价于式(12):
为了得到式(1)的全局最优值点,除了考虑以上梯度存在的情况外,考虑了当梯度不存在的情况下对式(1)求解的问题,即时,可知式(13):
因此当梯度不存在时的结果可以包含在式(9)中进行统一考虑。由此,式(9)便是对于第l层进行稀疏编码求得的解,即式(14):
得到式(15):
步骤203,利用最大池化方法对第一层的稀疏矩阵进行采样,作为第二层的输入数据。
优选地,对第一层的稀疏矩阵为进行最大池化操作得到第二层的输入数据具体的实施过程可以为:
步骤一:对当前该帧图像序列进行采样,采样片大小为t1,获得稀疏向量
步骤二:对稀疏向量采用SVD方法进行训练、学习,获得第一层字典(i表示第几帧图像序列)。其中,表示的是第1层的字典D的第i列。如果i=1,则直接其中,D0表示初始化字典D中的第一列。
步骤三:根据第一层字典通过公式(3)至(15)计算第一层的稀疏矩阵在一个具体的实施例中,采样片大小为16×16,字典原子数为1000,通过稀疏编码得到第一层的稀疏矩阵
步骤四:对第一层的稀疏矩阵进行最大池化操作得到第二层的输入数据
步骤204,根据第二层的输入数据,利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,即该帧图像序列的尺度信息和细节信息。具体实施过程包括:
步骤一:从输入数据中进行采样,采样片大小为t2,获得稀疏向量
步骤二:对稀疏向量采用K-SVD方法进行训练、学习,获得第二层字典
步骤三:根据第二层字典通过公式(3)至(15)计算第二层的稀疏矩阵其中,表示的是第2层的字典D的第i列。相当于公式(3)至(15)中的D。在一个具体的实施例中,第二层的采样片大小为8×8,字典原子数为500,对第二层进行稀疏编码。
步骤四:利用空间金字塔池化方法提取第二层稀疏矩阵的特征信息。在一个具体的实施例中,为了获得不同尺度的更加准确的特征,利用空间金字塔池化方法提取第二层稀疏矩阵的特征,其金字塔大小为{3×3,2×2,1×1}。
作为本方法另一可参考的实施例,不仅本发明基于字典学习与编码的运动目标跨尺度检测的方法可以对每一帧的图像序列进行特征提取,还可以对一系列视频帧进行连续操作。具体来说,所述的在进行完步骤204之后,可以判断该帧图像序列是否为最后一帧。根据判断结果,如果是最后一帧,则直接退出上面所述的流程。如果不是最后一帧,则对于下一帧图像序列Ii+1,利用式(18)对该帧图像序列Ii+1第一层的字典进行更新,并返回202,对Ii+1的特征进行检测。
其中,对于连续的视频帧,相邻帧中目标具有很高的相似性,利用相邻帧间的相似性对下一帧中的目标进行检测,能够更加准确地获取图像序列中目标的特征。
通过初始化阶段可以得到初始化字典D,对第一层进行稀疏编码计算得到采样样本Y的稀疏矩阵W。字典的生成是通过对字典的原子迭代更新完成的,通过对前一帧字典中第k项以外残差进行奇异值分解来完成帧间阶段对字典的更新。假设前一帧字典中第k项以外残差为Ek,经过奇异值分解后得到式(18):
Ek=UΣVT (18)
其中,U是p×m的酉矩阵,Σ是由奇异值构成的对角阵,Σ={σ12,…,σm},success=∑(sore≥0.5)/numberofframes为第i个奇异值。V为m×m的方阵。通过不断迭代,当迭代误差小于设定值时,取此时的Σ,并对其进行排序,取最大的奇异值对应的向量作为更新得到的新的字典原子dk,从而完成对帧间阶段字典的更新。
在本发明的另一方面,还提供了一种基于字典学习与编码的运动目标跨尺度检测装置,如图3所示,所述基于字典学习与编码的运动目标跨尺度检测装置包括依次连接的初始化单元301、构建单元302以及提取单元303。其中,初始化单元301对输入的每一帧图像序列进行初始化阶段的字典学习,构建单元302根据初始化字典对每一帧图像序列构建两层稀疏编码结构,最后提取单元303获得该帧图像序列的尺度信息和细节信息。
需要说明的是,在本发明所述的基于字典学习与编码的运动目标跨尺度检测装置的具体实施内容,在上面所述的基于字典学习与编码的运动目标跨尺度检测方法中已经详细说明了,故在此重复内容不再说明。
综上所述,本发明提供的基于字典学习与编码的运动目标跨尺度检测方法和装置,创造性地针对检测过程中不同阶段的特点,利用提出的分阶段字典学习及更新方法对字典进行学习及更新,充分利用了帧间变化的目标特征以及层间的稀疏特征;并且,利用提出的基于分层稀疏编码的特征提取方法,提取目标的细节特征和尺度特征,从而完成对运动目标的检测;因此,本发明能够具有广泛、重大的推广意义;最后,整个所述基于字典学习与编码的运动目标跨尺度检测方法和装置紧凑,易于控制。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于字典学习与编码的运动目标跨尺度检测方法,其特征在于,包括步骤:
对输入的每一帧图像序列进行初始化阶段的字典学习;
根据初始化字典,对每一帧图像序列构建两层稀疏编码结构;
获得该帧图像序列的尺度信息和细节信息;
所述获得该帧图像序列的尺度信息和细节信息,包括:
利用最大池化方法对第一层的稀疏矩阵进行采样,作为第二层的输入数据;
根据第二层的输入数据,利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,即该帧图像序列的尺度信息和细节信息。
2.根据权利要求1所述的方法,其特征在于,所述对输入的每一帧图像序列进行初始化阶段的字典学习,包括:
构建目标函数,y=Dx (16)
其中,D={d1,d2,…,dn}表示被估计的、大小为m×n的常矩阵,y表示观测向量,x表示相互独立的随机向量;利用FastICA库对该目标函数求解,其最优化公式可表示为式(17):
其中,JG(wi)表示被优化的模型,权向量wi构成了权矩阵W;
然后得到通过ICA转化得到s=Wx,以及D=W-1
3.根据权利要求2所述的方法,其特征在于,所述利用最大池化方法对第一层的稀疏矩阵进行采样,作为第二层的输入数据包括:
对当前该帧图像序列进行采样,采样片大小为t1,获得稀疏向量
对稀疏向量采用SVD方法进行训练、学习,获得第一层字典;
根据第一层字典,计算第一层的稀疏矩阵,对第一层的稀疏矩阵进行最大池化操作得到第二层的输入数据。
4.根据权利要求2所述的方法,其特征在于,所述利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,包括:
从输入数据中进行采样,采样片大小为t2,获得稀疏向量
对稀疏向量采用K-SVD方法进行训练、学习,获得第二层字典;
根据第二层字典,计算第二层的稀疏矩阵,利用空间金字塔池化方法提取第二层稀疏矩阵的特征信息。
5.一种基于字典学习与编码的运动目标跨尺度检测装置,其特征在于,包括:
初始化单元,用于对输入的每一帧图像序列进行初始化阶段的字典学习;
构建单元,用于根据初始化字典对每一帧图像序列构建两层稀疏编码结构;
提取单元,用于获得该帧图像序列的尺度信息和细节信息;
所述提取单元包括:
利用最大池化方法对第一层的稀疏矩阵进行采样,作为第二层的输入数据;
根据第二层的输入数据,利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,即该帧图像序列的尺度信息和细节信息。
6.根据权利要求5所述的装置,其特征在于,所述初始化单元对输入的每一帧图像序列进行初始化阶段的字典学习,包括:
构建目标函数,y=Dx (16)
其中,D={d1,d2,…,dn}表示被估计的、大小为m×n的常矩阵,y表示观测向量,x表示相互独立的随机向量;利用FastICA库对该目标函数求解,其最优化公式可表示为式(17):
其中,JG(wi)表示被优化的模型,权向量wi构成了权矩阵W;
然后得到通过ICA转化得到s=Wx,以及D=W-1
7.根据权利要求5所述的装置,其特征在于,所述利用最大池化方法对第一层的稀疏矩阵进行采样,作为第二层的输入数据包括:
对当前该帧图像序列进行采样,采样片大小为t1,获得稀疏向量
对稀疏向量采用SVD方法进行训练、学习,获得第一层字典;
根据第一层字典,计算第一层的稀疏矩阵,对第一层的稀疏矩阵进行最大池化操作得到第二层的输入数据。
8.根据权利要求5所述的装置,其特征在于,所述利用空间金字塔池化方法提取第二层稀疏矩阵中的特征信息,包括:
从输入数据中进行采样,采样片大小为t2,获得稀疏向量
对稀疏向量采用K-SVD方法进行训练、学习,获得第二层字典;
根据第二层字典,计算第二层的稀疏矩阵,利用空间金字塔池化方法提取第二层稀疏矩阵的特征信息。
CN201610589870.6A 2016-07-25 2016-07-25 基于字典学习与编码的运动目标跨尺度检测方法和装置 Active CN106203532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610589870.6A CN106203532B (zh) 2016-07-25 2016-07-25 基于字典学习与编码的运动目标跨尺度检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610589870.6A CN106203532B (zh) 2016-07-25 2016-07-25 基于字典学习与编码的运动目标跨尺度检测方法和装置

Publications (2)

Publication Number Publication Date
CN106203532A CN106203532A (zh) 2016-12-07
CN106203532B true CN106203532B (zh) 2019-10-08

Family

ID=57494904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610589870.6A Active CN106203532B (zh) 2016-07-25 2016-07-25 基于字典学习与编码的运动目标跨尺度检测方法和装置

Country Status (1)

Country Link
CN (1) CN106203532B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229551B (zh) * 2017-12-28 2021-12-21 湘潭大学 一种基于紧凑字典稀疏表示的高光谱遥感图像分类方法
CN112434553B (zh) * 2020-10-15 2024-04-19 北京工业大学 一种基于深度字典学习的视频鉴别方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009239718A (ja) * 2008-03-27 2009-10-15 Toshiba Corp 動画像分離装置、動画像結合装置および動画像分離・結合システム
CN103870847B (zh) * 2014-03-03 2015-04-08 中国人民解放军国防科学技术大学 一种低照度环境下对地监控的运动目标检测方法
CN103984966B (zh) * 2014-05-29 2017-02-15 西安电子科技大学 基于稀疏表示的sar图像目标识别方法
CN104408478B (zh) * 2014-11-14 2017-07-25 西安电子科技大学 一种基于分层稀疏判别特征学习的高光谱图像分类方法
CN104933417B (zh) * 2015-06-26 2019-03-15 苏州大学 一种基于稀疏时空特征的行为识别方法
CN105354528A (zh) * 2015-07-15 2016-02-24 中国科学院深圳先进技术研究院 基于深度图像序列的人体动作识别的方法及系统

Also Published As

Publication number Publication date
CN106203532A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
Zhang et al. Deep ten: Texture encoding network
Zhang et al. Dynamic hand gesture recognition based on short-term sampling neural networks
Luus et al. Multiview deep learning for land-use classification
CN110287962B (zh) 基于超对象信息的遥感图像目标提取方法、装置及介质
CN106815601B (zh) 基于递归神经网络的高光谱图像分类方法
CN106874889B (zh) 基于卷积神经网络的多特征融合sar目标鉴别方法
CN104408478B (zh) 一种基于分层稀疏判别特征学习的高光谱图像分类方法
CN109522857B (zh) 一种基于生成式对抗网络模型的人数估计方法
CN107145830B (zh) 基于空间信息增强和深度信念网络的高光谱图像分类方法
CN107067367A (zh) 一种图像超分辨重建处理方法
CN107506740A (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN109766858A (zh) 结合双边滤波的三维卷积神经网络高光谱影像分类方法
CN108171122A (zh) 基于全卷积网络的高光谱遥感图像的分类方法
CN103984966A (zh) 基于稀疏表示的sar图像目标识别方法
CN103699874B (zh) 基于surf流和lle稀疏表示的人群异常行为识别方法
CN107563411A (zh) 基于深度学习的在线sar目标检测方法
CN107767416B (zh) 一种低分辨率图像中行人朝向的识别方法
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN108460391A (zh) 基于生成对抗网络的高光谱图像无监督特征提取方法
CN106529586A (zh) 基于补充文本特征的图像分类方法
CN104680502B (zh) 基于稀疏字典和非下采样Contourlet变换的红外图像超分辨重建方法
CN108830130A (zh) 一种偏振高光谱低空侦察图像典型目标检测方法
CN106971189B (zh) 一种低分辨率含噪星图识别方法
CN114241422A (zh) 一种基于ESRGAN和改进YOLOv5s的学生课堂行为检测方法
Kihl et al. A unified framework for local visual descriptors evaluation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant