CN113256585B - 基于时空张量分解的红外视频运动小目标实时检测方法 - Google Patents

基于时空张量分解的红外视频运动小目标实时检测方法 Download PDF

Info

Publication number
CN113256585B
CN113256585B CN202110581965.4A CN202110581965A CN113256585B CN 113256585 B CN113256585 B CN 113256585B CN 202110581965 A CN202110581965 A CN 202110581965A CN 113256585 B CN113256585 B CN 113256585B
Authority
CN
China
Prior art keywords
tensor
space
time
image
image block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110581965.4A
Other languages
English (en)
Other versions
CN113256585A (zh
Inventor
张磊
蒋松延
徐容恺
王文帅
温博
吴金亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
CETC 54 Research Institute
Original Assignee
Beijing Institute of Technology BIT
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT, CETC 54 Research Institute filed Critical Beijing Institute of Technology BIT
Priority to CN202110581965.4A priority Critical patent/CN113256585B/zh
Publication of CN113256585A publication Critical patent/CN113256585A/zh
Application granted granted Critical
Publication of CN113256585B publication Critical patent/CN113256585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的基于时空张量分解的红外视频运动小目标实时检测方法,属于视频处理及目标检测领域。本发明通过将输入的每一视频帧图像进行分块,充分利用相邻几帧图像分块结果,构建其三维矩阵张量,通过仅保留一份三维矩阵张量中关键张量的内存空间,省去内存分配、释放过程,删除每帧目标检测结果图片,以优化内存管理。将第一次构建时空图像块张量所需视频帧,直接按照图像块的大小进行分块,避免将信息重叠的图相块并入构建三维矩阵张量的过程,进而优化构建时空张量的初始化过程。通过张量分解得到目标图像二维张量。根据张量分解得到的目标图像二维张量,通过阈值分割法检测红外小目标,即实现基于时空张量分解的红外视频运动小目标实时检测。

Description

基于时空张量分解的红外视频运动小目标实时检测方法
技术领域
本发明涉及一种红外视频小目标检测方法,尤其涉及一种基于时空张量分解的红外视频运动小目标实时检测方法,属于视频处理及目标检测领域。
背景技术
目标检测在行人跟踪、车牌识别、无人驾驶、场景监测等领域获得广泛应用。利用目标检测技术,可以完成一系列复杂耗时的检测、监测任务,能够达到节省人力和提升效率的效果。但在夜晚这种情况下,可以提供的可见光信息较少,导致目标检测在夜晚的难度较大,因此在夜间情况下需要借助红外成像设备进行目标检测。
目前,针对红外小目标检测任务的方法有很多,大致可以分为如下两类:仅基于空间信息的单帧检测方法和基于帧间时间信息与帧内空间信息的时空检测方法。在单帧图像中的小目标是无法以视觉来感知的,单帧中很多类似的目标都会被误检。利用相邻多帧的连续上下文信息对准确检测出小目标是十分重要的,往往利用时空检测方法的检测精度较高。
目前主要有以下两大问题存在于红外视频内的小目标检测任务中:1)检测效果不佳,对于复杂背景、明显噪声无法很好地抑制,检测结果中存在大量非真实目标,并且当存在复杂背景时,检测算法通常会忽略掉真实目标,进而导致目标检测准确率较低;2)检测效率较低,一些经典检测方法为了追求良好检测效果牺牲了效率,算法设计较为复杂,时间复杂度较高,使得算法无法满足较快检测需求,无法在实际场景中进行应用。
发明内容
本发明公开的基于时空张量分解的红外视频运动小目标实时检测方法要解决的技术问题是:基于时空张量模型的红外视频小目标检测算法,充分利用时空邻域内的信息,在红外视频中对小目标进行有效检测,能够改善红外视频小目标检测方法在复杂背景状况下检测效果。此外,在基于时空张量模型的红外视频小目标检测算法基础上,对内存管理、时空张量构建和张量分解步骤进行优化加速,从而提高检测效率,满足实时检测要求。
本发明目的是通过下述技术方案实现的。
本发明公开的基于时空张量分解的红外视频运动小目标实时检测方法,通过将输入的每一视频帧图像进行分块,并充分利用相邻几帧图像分块结果,构建其三维矩阵张量,通过仅保留一份三维矩阵张量中关键张量的内存空间,省去内存分配、释放过程,删除每帧目标检测结果图片,以优化内存管理。将第一次构建时空图像块张量所需视频帧,直接按照图像块的大小进行分块,避免将信息重叠的图相块并入构建三维矩阵张量的过程,进而优化构建时空张量的初始化过程。通过张量分解得到目标图像二维张量。根据张量分解得到的目标图像二维张量,通过阈值分割法检测红外小目标,即实现基于时空张量分解的红外视频运动小目标实时检测。
本发明公开的基于时空张量分解的红外视频运动小目标实时检测方法,包括如下步骤:
步骤一、为便于步骤二构建时空图像块张量,将视频分割为连续的视频帧,进而将每帧分割为若干图像块,实现图像分块预处理。
将视频分割为连续的视频帧,进而将每帧分割为若干图像块。图像的分块按照滑动窗口的方式进行。首先将视频帧图像的大小填充为滑动步长的整数倍,填充图像边界。然后预设每一图像块的大小,按照设置的滑动距离滑动图像块。每一帧图像分割的方式形式化表示为:
rows=(width+wfill+2*ss-ps)/ss+1;
cols=(height+hfill+2*ss-ps)/ss+1;
blocks=rows*cols;
其中,rows、cols表示每一行、每一列分别划分的图像块数量;width、height表示每一视频帧的宽度和高度;wfill、hfill表示因满足图像块的宽度、高度是滑动步长的整数倍而填充的像素;ps、ss分别表示每一图像块的大小与滑动步长的大小;blocks表示总的图像块数目。
步骤二、充分利用时空邻域内的信息,基于步骤一中相邻几帧视频帧的图像分块预处理结果,构建其三维矩阵张量,即得到包含时空邻域信息的时空张量模型。
基于步骤一预先设定的图像块尺寸,将每一视频帧通过滑动窗口分割为若干图像块,将当前图像块与其时空邻域内的图像块堆集到一起,形成一个时空图像块张量,其形式化表示为:
fD(x,y)=fB(x,y)+fT(x,y)+fN(x,y)
其中,fD、fB、fT和fN分别代表对应于红外视频中一个视频帧的输入红外图像、背景图像、目标图像和噪声图像。(x,y)则代表着每个像素在图像中的位置坐标。
将划分为M行N列的时空图像块张量形式化表示为:
Figure BDA0003081092890000031
其中,(i,j)代表图像块坐标索引,h代表视频帧索引,
Figure BDA0003081092890000032
代表输入视频帧包含的图像块。
充分利用时空邻域内的信息,得到包含相邻时空邻域的空间图像块的三维矩阵张量,即得到包含时空邻域信息的时空张量模型表示为:
Figure BDA0003081092890000033
其中
Figure BDA0003081092890000034
是由时空邻域内相邻图像块构成的各个张量。此处,滑动窗口的尺寸预设为ps*ps,mt+ms是时空相邻图像块的整体数目。
步骤三、针对步骤二中的三维矩阵张量,通过仅保留一份关键张量的内存空间,省去每个视频帧检测时的内存分配、释放过程,删除每一视频帧产生的该帧目标检测结果图片,以优化内存管理。
将时空图像块张量
Figure BDA0003081092890000035
其中:
Figure BDA0003081092890000036
为空间领域内的输入帧图像块、
Figure BDA0003081092890000037
为空间领域内的背景图像块、
Figure BDA0003081092890000038
为空间领域内的目标图像块、
Figure BDA0003081092890000039
为空间领域内的噪声图像块,在运动小目标实时检测过程中仅保留一份内存空间,省去每个视频帧检测时的内存分配、释放过程。在检测终止前进行内存释放并删除每一视频帧产生的该帧目标检测结果图片。
其中,保存
Figure BDA00030810928900000310
四个张量以及步骤五中奇异值分解得到的U、V矩阵(由左奇异向量和右奇异向量构成的矩阵)申请的内存为锁页内存,以实现加速步骤五中张量分解过程中CPU端与GPU端的访存速度。CPU端以常规方式分配的内存都是可分页内存,可分页内存在分配后是可能被操作系统移动的,GPU端无法获知操作系统是否正在移动对可分页内存,所以不可让GPU端直接访问。锁页内存是CPU端一块固定的物理内存,锁页内存不能被操作系统移动,因此GPU知道锁页内存的物理地址,能够通过“直接内存访问(DirectMemory Access,DMA)”技术直接在CPU和GPU之间复制数据,以提高CPU端与GPU端的访存效率,进而优化内存管理。
步骤四、将第一次构建时空图像块张量所需视频帧,直接按照图像块的大小进行分块,无需进行窗口滑动处理,避免将信息重叠的图相块并入步骤二中构建时空图像块张量的过程,进而优化构建时空张量的初始化过程。
由于缺乏相邻时空张量信息,导致构建时空图像块张量时存在时间长的问题,通过优化第一次构建时空图像块张量解决所述时间长的问题,具体实现方法为:将第一次构建时空图像块张量所需的视频帧,按照滑动窗口(ps*ps)大小直接进行分块,进而取消滑动窗口处理过程,进而避免将信息重叠的图相块并入步骤二中构建时空图像块张量的过程。取消滑动窗口后,第一次构建时空图像块张量时放入的图像块数目表示为:
Init_rows=(width+wfill+2*ss)/ps;
Init_cols=(height+hfill+2*ss)/ps;
Init_blocks=Init_rows*Init_cols;
其中,Init_rows、Init_cols表示初始化时空图像块张量时每一行、每一列分别划分的图像块数量;width、height表示每一视频帧的宽度和高度;wfill、hfill表示因满足图像块的宽度、高度是滑动步长的整数倍而填充的像素;ps、ss分别表示每一图像块的大小与滑动步长的大小;Init_blocks表示初始化时空图像块张量时总的图像块数目。
步骤五、对张量分解过程中时空图像块张量中的四个关键张量
Figure BDA0003081092890000041
Figure BDA0003081092890000042
进行内存优化管理,并优化构建时空张量的初始化过程后,根据目标稀疏先验和背景局部相似性先验,将目标-背景分离问题转换为低秩-稀疏张量分解问题,即通过张量分解将包含相邻时空邻域的空间图像块的三维矩阵张量分解为目标图像二维张量与背景图像二维张量。
在背景图像中,空间邻域内的相邻图像块通常具有很强的相似性。背景相对于目标来说,运动比较缓慢,因此相邻视频帧时间邻域内的相邻图像块之间也有着明显的相似性。背景张量具有低秩性,采用如下公式约束:
Figure BDA0003081092890000043
其中r是一个常数,用于限制背景张量的低秩性。相对于单一背景,r在复杂背景情况下值更大。
由于小目标所占的像素体积,相对于整个图像块立方体的体积而言是很小的。因此目标图像块张量具有稀疏性,满足:
Figure BDA0003081092890000051
其中γ是一个很小的常数,能够直观理解为目标占有的体积。该常数由目标的尺寸和在时空图像块立方体中出现的次数共同决定。
背景图像块张量是低秩的,目标图像块张量是稀疏的。因此采用张量分解的方式得到目标图像块张量和背景图像块张量,表示为:
Figure BDA0003081092890000052
其中参数λ是用于平衡背景张量和目标张量的参数,并且||.||0代表L0范数。另外,噪声张量满足
Figure BDA0003081092890000053
采用加权红外分块张量检测方法RIPT中使用的ADMM算法来解决张量分解问题,对应的增广拉格朗日表达式如下:
Figure BDA0003081092890000054
其中
Figure BDA0003081092890000055
是拉格朗日乘子张量,<*,*>代表张量内积,并且α>0是一个惩罚参数。
时空张量模型分解主要包括背景张量、目标张量、拉格朗日乘子张量的迭代估计过程。具体迭代过程如下。
首先进行背景张量估计,将其他项固定,背景张量
Figure BDA0003081092890000056
可以通过求解如下最小化问题得到估计:
Figure BDA0003081092890000057
其中k代表迭代次数,α是一个惩罚参数,
Figure BDA0003081092890000058
是拉格朗日乘子张量,
Figure BDA0003081092890000059
为空间领域内的输入帧图像块、
Figure BDA00030810928900000510
为空间领域内的背景图像块、
Figure BDA00030810928900000511
为空间领域内的目标图像块。
采用J1简化表示
Figure BDA00030810928900000512
并且转化临时张量J1为模-1展开矩阵,然后对展开矩阵进行奇异值分解J1=U∑VT,U、V分别代表由左奇异向量和右奇异向量构成的矩阵。对观察矩阵的奇异值进行软阈值操作,如下所示:
Figure BDA00030810928900000513
其中
Figure BDA00030810928900000514
为空间领域内的背景图像块,U、V分别代表由左奇异向量和右奇异向量构成的矩阵,∑ii是奇异值矩阵对角元素,η为中间变量,shrink_L*(∑,η)代表在奇异值对角矩阵上进行软阈值操作,经过软阈值操作后,将得到的矩阵通过ten()算子转化为张量
Figure BDA0003081092890000061
固定其他项,进行目标张量估计,通过求解如下最小化问题,得到目标张量
Figure BDA0003081092890000062
的估计值:
Figure BDA0003081092890000063
其中k代表迭代次数,α是一个惩罚参数,
Figure BDA0003081092890000064
是拉格朗日乘子张量,
Figure BDA0003081092890000065
为空间领域内的输入帧图像块、
Figure BDA0003081092890000066
为空间领域内的背景图像块、
Figure BDA0003081092890000067
为空间领域内的目标图像块。
采用J2来简化表示
Figure BDA0003081092890000068
通过如下软阈值算子有效求解:
Figure BDA0003081092890000069
并对乘子和惩罚参数进行更新:
Figure BDA00030810928900000610
其中
Figure BDA00030810928900000611
为空间领域内的目标图像块ξ和η为中间变量。设置
Figure BDA00030810928900000612
Figure BDA00030810928900000613
ρ为预设常数。其中ps代表图像块尺寸,ss代表滑动步长,ms代表空间张量中的图像块数目。
对每一视频帧的图像块,更新其
Figure BDA00030810928900000614
背景图像张量、
Figure BDA00030810928900000615
目标图像张量,并更新惩罚参数α、拉格朗日乘子张量
Figure BDA00030810928900000616
直到整个实时检测流程结束。
作为优选,在ADMM算法中使用cublas矩阵乘法函数在GPU上进行加速。使用cudaMemcpy2D对存储二维张量的锁页内存进行对齐合并访问,加速访存速度。
步骤六、根据步骤五得到的目标图像二维张量,通过阈值分割法检测红外小目标,即实现基于时空张量分解的红外视频运动小目标实时检测。
由步骤五张量分解得到的目标图像张量得到当前视频帧的目标图像,使用阈值分割方法可以轻易的找到目标像素点,大于阈值的像素点可视为目标像素点,通过阈值分割法检测红外小目标,即实现基于时空张量分解的红外视频运动小目标实时检测。
作为优选,阈值表示为:
threshold=mean.val[0]+25*std.val[0]
其中mean.val[0]表示第一个通道的均值,std.val[0]表示第一个通道的标准差。
有益效果:
本发明的技术方案思想是,首先将每一视频帧分割为若干图像块,通过内存优化与避免放入重叠图像块这两个优化步骤后,将图像块构建出时空张量;进行张量分解,用阈值分割法检测出红外视频中的小目标。
1、本发明公开的基于时空张量分解的红外视频运动小目标实时检测方法,基于步骤一中相邻几帧视频帧的图像分块预处理结果,充分利用时空邻域内的信息,构建其三维矩阵张量,得到包含时空邻域信息的时空张量模型,能够在背景复杂的红外视频中具有更好的检测效果,进而提高检测精度。
2、本发明公开的基于时空张量分解的红外视频运动小目标实时检测方法,针对步骤二中的三维矩阵张量,通过仅保留一份关键张量的内存空间,删除每一视频帧产生的该帧目标检测结果图片,以优化内存管理。以及将第一次构建时空图像块张量所需视频帧,直接按照图像块的大小进行分块,无需进行窗口滑动处理,避免将信息重叠的图相块并入步骤二中构建时空图像块张量的过程,进而优化构建时空张量的初始化过程。即本发明通过内存优化与避免放入重叠图像块提高检测效率,进而满足实时检测要求。
3、本发明公开的基于时空张量分解的红外视频运动小目标实时检测方法,根据目标稀疏先验和背景局部相似性先验,将目标-背景分离问题转换为低秩-稀疏张量分解问题,以便于用阈值分割法检测出红外视频中的小目标。
附图说明
图1是本发明公开的基于时空张量分解的红外视频运动小目标实时检测方法的流程图。
图2是本发明步骤一中填充视频帧图像的示意图。
图3是本发明步骤二中时空张量模型构造示意图。
图4是本发明步骤四中优化构建时空张量的初始化过程的大致示意图。
图5是本发明经过步骤三、步骤四优化前后的效率对比图。
图6是本发明的最终检测效果图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实例对发明内容做进一步说明。
本实例输入的视频帧大小为320*256像素。
本实例公开一种基于时空张量分解的红外视频运动小目标实时检测方法,如图1所示,包括如下步骤:
步骤一、为便于步骤二构建时空图像块张量,将视频分割为连续的视频帧,进而将每帧分割为若干图像块,实现图像分块预处理。
将视频分割为连续的视频帧,进而将每帧分割为若干图像块。图像的分块按照滑动窗口的方式进行。首先将视频帧图像的大小补全为滑动步长的整数倍,填充图像边界。如图2所示,本实例原图像的大小为320*256像素,首先将高度补充至260像素,再将图像的边缘各向外扩充10像素。然后预设每一图像块的大小,按照设置的滑动距离滑动图像块。每一帧图像分割的方式形式化表示为:
rows=(width+wfill+2*ss-ps)/ss+1;
cols=(height+hfill+2*ss-ps)/ss+1;
blocks=rows*cols;
其中,rows=30、cols=24表示每一行、每一列分别划分的图像块数量;width=320、height=256表示每一视频帧的宽度和高度;wfill=0、hfill=4表示因满足图像块的宽度、高度是滑动步长的整数倍而填充的像素;ps=50、ss=10分别表示每一图像块的大小与滑动步长的大小;blocks=720表示总的图像块数目。
步骤二、充分利用时空邻域内的信息,基于步骤一中相邻几帧视频帧的图像分块预处理结果,构建其三维矩阵张量,即得到包含时空邻域信息的时空张量模型。
基于步骤一预先设定的图像块尺寸(50*50像素),将每一视频帧通过滑动窗口分割为若干图像块,将当前图像块与其时空邻域内的图像块堆集到一起,形成一个时空图像块张量,其形式化表示为:
fD(x,y)=fB(x,y)+fT(x,y)+fN(x,y)其中,fD、fB、fT和fN分别代表对应于红外视频中一个视频帧的输入红外图像、背景图像、目标图像和噪声图像。(x,y)则代表着每个像素在图像中的位置坐标。
将划分为M=30行N=24列的时空图像块张量形式化表示为:
Figure BDA0003081092890000091
其中,(i,j)代表图像块坐标索引,h代表视频帧索引,
Figure BDA0003081092890000092
代表输入视频帧包含的图像块。i的范围为1-30,j的范围为1-24,h的范围为1-视频帧的总数。
充分利用时空邻域内的信息,得到包含相邻时空邻域的空间图像块的三维矩阵张量,如图3所示,即得到包含时空邻域信息的时空张量模型表示为:
Figure BDA0003081092890000093
其中
Figure BDA0003081092890000094
是由时空邻域内相邻图像块构成的各个张量。此处,滑动窗口的尺寸预设为ps*ps(50*50),mt+ms是时空相邻图像块的整体数目。
步骤三、针对步骤二中的三维矩阵张量,通过仅保留一份关键张量的内存空间,省去每个视频帧检测时的内存分配、释放过程,删除每一视频帧产生的该帧目标检测结果图片,以优化内存管理。
将时空图像块张量
Figure BDA0003081092890000095
其中:
Figure BDA0003081092890000096
为空间领域内的输入帧图像块、
Figure BDA0003081092890000097
为空间领域内的背景图像块、
Figure BDA0003081092890000098
为空间领域内的目标图像块、
Figure BDA0003081092890000099
为空间领域内的噪声图像块,在运动小目标实时检测过程中仅保留一份内存空间,省去每个视频帧检测时的内存分配、释放过程。在检测终止前进行内存释放并删除每一视频帧产生的该帧目标检测结果图片。
步骤四、将第一次构建时空图像块张量所需视频帧,直接按照图像块的大小进行分块,无需进行窗口滑动处理,避免将信息重叠的图相块并入步骤二中构建时空图像块张量的过程,进而优化构建时空张量的初始化过程。
由于缺乏相邻时空张量信息,导致构建时空图像块张量时存在时间长的问题,通过优化第一次构建时空图像块张量解决所述时间长的问题,如图4所示,具体实现方法为:将第一次构建时空图像块张量所需的视频帧,按照滑动窗口(50*50)大小直接进行分块,进而取消滑动窗口处理过程,进而避免将信息重叠的图相块并入步骤二中构建时空图像块张量的过程。取消滑动窗口后,第一次构建时空图像块张量时放入的图像块数目表示为:
Init_rows=(width+wfill+2*ss)/ps;
Init_cols=(height+hfill+2*ss)/ps;
Init_blocks=Init_rows*Init_cols;
其中,Init_rows=6、Init_cols=5表示初始化时空图像块张量时每一行、每一列分别划分的图像块数量;width=320、height=256表示每一视频帧的宽度和高度;wfill=0、hfill=4表示因满足图像块的宽度、高度是滑动步长的整数倍而填充的像素;ps=50、ss=10分别表示每一图像块的大小与滑动步长的大小;Init_blocks=30表示初始化时空图像块张量时总的图像块数目。经步骤四优化后,初始化时需要构建的图像块数量由720个下降至30个,极大提升了整个实时检测流程的效率。
步骤五、对张量分解过程中时空图像块张量中的四个关键张量
Figure BDA0003081092890000101
Figure BDA0003081092890000102
进行内存优化管理,并优化构建时空张量的初始化过程后,如图5所示,实时检测的整个流程得到了大幅提高。再根据目标稀疏先验和背景局部相似性先验,将目标-背景分离问题转换为低秩-稀疏张量分解问题,即通过张量分解将包含相邻时空邻域的空间图像块的三维矩阵张量分解为目标图像二维张量与背景图像二维张量。
在背景图像中,空间邻域内的相邻图像块通常具有很强的相似性。背景相对于目标来说,运动比较缓慢,因此相邻视频帧时间邻域内的相邻图像块之间也有着明显的相似性。背景张量具有低秩性,采用如下公式约束:
Figure BDA0003081092890000103
其中r=3.0是一个常数,用于限制背景张量的低秩性。通常,相对于单一背景,r在复杂背景情况下值更大。
由于小目标所占的像素体积,相对于整个图像块立方体的体积而言是很小的。因此目标图像块张量具有稀疏性,满足:
Figure BDA0003081092890000104
其中γ=0.03是一个很小的常数,可以直观理解为目标占有的体积。该常数由目标的尺寸和在时空图像块立方体中出现的次数共同决定。
背景图像块张量是低秩的,目标图像块张量是稀疏的。因此采用张量分解的方式得到目标图像块张量和背景图像块张量,表示为:
Figure BDA0003081092890000105
其中参数λ是用于平衡背景张量和目标张量的参数,并且||.||0代表L0范数。另外,噪声张量满足
Figure BDA0003081092890000111
采用加权红外分块张量检测方法RIPT中使用的ADMM算法来解决张量分解问题,对应的增广拉格朗日表达式如下:
Figure BDA0003081092890000112
其中
Figure BDA0003081092890000113
是拉格朗日乘子张量,<*,*>代表张量内积,并且α>0是一个惩罚参数。
时空张量模型分解主要包括背景张量、目标张量、拉格朗日乘子张量的迭代估计过程。具体迭代过程如下。
首先进行背景张量估计,将其他项固定,背景张量
Figure BDA0003081092890000114
可以通过求解如下最小化问题得到估计:
Figure BDA0003081092890000115
其中k代表迭代次数,α是一个惩罚参数,
Figure BDA0003081092890000116
是拉格朗日乘子张量,
Figure BDA0003081092890000117
为空间领域内的输入帧图像块、
Figure BDA0003081092890000118
为空间领域内的背景图像块、
Figure BDA0003081092890000119
为空间领域内的目标图像块。
采用J1来简化表示
Figure BDA00030810928900001110
并且转化临时张量J1为模-1展开矩阵,然后对展开矩阵进行奇异值分解J1=U∑VT,U、V分别代表由左奇异向量和右奇异向量构成的矩阵。对观察矩阵的奇异值进行软阈值操作,如下所示:
Figure BDA00030810928900001111
其中
Figure BDA00030810928900001112
为空间领域内的背景图像块,U、V分别代表由左奇异向量和右奇异向量构成的矩阵,∑ii是奇异值矩阵的对角元素,η为中间变量,shrink_L*(∑,η)代表在奇异值对角矩阵上进行软阈值操作,经过软阈值操作后,将得到的矩阵通过ten()算子转化为张量
Figure BDA00030810928900001113
固定其他项,进行目标张量估计,通过求解如下最小化问题,可以得到目标张量
Figure BDA00030810928900001114
的估计值:
Figure BDA00030810928900001115
其中k代表迭代次数,α是一个惩罚参数,
Figure BDA00030810928900001116
是拉格朗日乘子张量,
Figure BDA00030810928900001117
为空间领域内的输入帧图像块、
Figure BDA00030810928900001118
为空间领域内的背景图像块、
Figure BDA00030810928900001119
为空间领域内的目标图像块。
采用J2来简化表示
Figure BDA0003081092890000121
通过如下软阈值算子可以有效求解:
Figure BDA0003081092890000122
并对乘子和惩罚参数进行更新:
Figure BDA0003081092890000123
其中
Figure BDA0003081092890000124
为空间领域内的目标图像块ξ和η为中间变量。设置
Figure BDA0003081092890000125
Figure BDA0003081092890000126
ρ=1.01。其中ps=50代表图像块尺寸,ss=10代表滑动步长,ms=9代表空间张量中的图像块数目。
初始化时设置k=0,
Figure BDA0003081092890000127
α=1/mean(S[6-10])其中mean()表示求均值,S*是
Figure BDA0003081092890000128
第*大的奇异值。
对每一视频帧的图像块,更新其
Figure BDA0003081092890000129
背景图像张量、
Figure BDA00030810928900001210
目标图像张量,并更新惩罚参数α、拉格朗日乘子张量
Figure BDA00030810928900001211
直到整个实时检测流程结束。
在ADMM算法中使用cublas矩阵乘法函数在GPU上进行加速。使用cudaMemcpy2D对存储二维张量的锁页内存进行对齐合并访问,加速访存速度。
步骤六、根据步骤五得到的目标图像二维张量,通过阈值分割法检测红外小目标,即实现基于时空张量分解的红外视频运动小目标实时检测。
由步骤五张量分解得到的目标图像张量得到当前视频帧的目标图像,使用阈值分割方法可以轻易的找到目标像素点,大于阈值的像素点可视为目标像素点,通过阈值分割法检测红外小目标,即实现基于时空张量分解的红外视频运动小目标实时检测。图6为最终的检测效果图。
阈值表示为:
threshold=mean.val[0]+25*std.val[0]
其中mean.val[0]表示第一个通道的均值,std.val[0]表示第一个通道的标准差。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于时空张量分解的红外视频运动小目标实时检测方法,其特征在于:包括如下步骤,
步骤一、为便于步骤二构建时空图像块张量,将视频分割为连续的视频帧,进而将每帧分割为若干图像块,实现图像分块预处理;
步骤二、充分利用时空邻域内的信息,基于步骤一中相邻几帧视频帧的图像分块预处理结果,构建其三维矩阵张量,即得到包含时空邻域信息的时空张量模型;
步骤三、针对步骤二中的三维矩阵张量,通过仅保留一份关键张量的内存空间,省去每个视频帧检测时的内存分配、释放过程,删除每一视频帧产生的该帧目标检测结果图片,以优化内存管理;
步骤三实现方法为,
将时空图像块张量
Figure FDA0003841282180000011
其中:
Figure FDA0003841282180000012
为空间领域内的输入帧图像块、
Figure FDA0003841282180000013
为空间领域内的背景图像块、
Figure FDA0003841282180000014
为空间领域内的目标图像块、
Figure FDA0003841282180000015
为空间领域内的噪声图像块,在运动小目标实时检测过程中仅保留一份内存空间,省去每个视频帧检测时的内存分配、释放过程;在检测终止前进行内存释放并删除每一视频帧产生的该帧目标检测结果图片;
其中,保存
Figure FDA0003841282180000016
四个张量以及步骤五中奇异值分解得到的U、V矩阵申请的内存为锁页内存,以实现加速步骤五中张量分解过程中CPU端与GPU端的访存速度;CPU端以常规方式分配的内存都是可分页内存,可分页内存在分配后是可能被操作系统移动的,GPU端无法获知操作系统是否正在移动对可分页内存,所以不可让GPU端直接访问;锁页内存是CPU端一块固定的物理内存,锁页内存不能被操作系统移动,因此GPU知道锁页内存的物理地址,能够通过“直接内存访问”技术直接在CPU和GPU之间复制数据,以提高CPU端与GPU端的访存效率,进而优化内存管理;
步骤四、将第一次构建时空图像块张量所需视频帧,直接按照图像块的大小进行分块,无需进行窗口滑动处理,避免将信息重叠的图相块并入步骤二中构建时空图像块张量的过程,进而优化构建时空张量的初始化过程;
步骤五、对张量分解过程中时空图像块张量中的四个关键张量进行内存优化管理,并优化构建时空张量的初始化过程后,根据目标稀疏先验和背景局部相似性先验,将目标-背景分离问题转换为低秩-稀疏张量分解问题,即通过张量分解将包含相邻时空邻域的空间图像块的三维矩阵张量分解为目标图像二维张量与背景图像二维张量;
步骤六、根据步骤五得到的目标图像二维张量,通过阈值分割法检测红外小目标,即实现基于时空张量分解的红外视频运动小目标实时检测。
2.如权利要求1所述的基于时空张量分解的红外视频运动小目标实时检测方法,其特征在于:步骤一实现方法为,
将视频分割为连续的视频帧,进而将每帧分割为若干图像块;图像的分块按照滑动窗口的方式进行;首先将视频帧图像的大小补全为滑动步长的整数倍,填充图像边界;然后预设每一图像块的大小,按照设置的滑动距离滑动图像块;每一帧图像分割的方式形式化表示为:
rows=(width+wfill+2*ss-ps)/ss+1;
cols=(height+hfill+2*ss-ps)/ss+1;
blocks=rows*cols;
其中,rows、cols表示每一行、每一列分别划分的图像块数量;width、height表示每一视频帧的宽度和高度;wfill、hfill表示因满足图像块的宽度、高度是滑动步长的整数倍而填充的像素;ps、ss分别表示每一图像块的大小与滑动步长的大小;blocks表示总的图像块数目。
3.如权利要求2所述的基于时空张量分解的红外视频运动小目标实时检测方法,其特征在于:步骤二实现方法为,
基于步骤一预先设定的图像块尺寸,将每一视频帧通过滑动窗口分割为若干图像块,将当前图像块与其时空邻域内的图像块堆集到一起,形成一个时空图像块张量,其形式化表示为:
fD(x,y)=fB(x,y)+fT(x,y)+fN(x,y)
其中,fD、fB、fT和fN分别代表对应于红外视频中一个视频帧的输入红外图像、背景图像、目标图像和噪声图像;(x,y)则代表着每个像素在图像中的位置坐标;
将划分为M行N列的时空图像块张量形式化表示为:
Figure FDA0003841282180000021
其中,(i,j)代表图像块坐标索引,h代表视频帧索引,
Figure FDA0003841282180000022
代表输入视频帧包含的图像块;
充分利用时空邻域内的信息,得到包含相邻时空邻域的空间图像块的三维矩阵张量,即得到包含时空邻域信息的时空张量模型表示为:
Figure FDA0003841282180000023
其中
Figure FDA0003841282180000024
是由时空邻域内相邻图像块构成的各个张量;此处,滑动窗口的尺寸预设为ps*ps,mt+ms是时空相邻图像块的整体数目。
4.如权利要求1所述的基于时空张量分解的红外视频运动小目标实时检测方法,其特征在于:步骤四实现方法为,
由于缺乏相邻时空张量信息,导致构建时空图像块张量时存在时间长的问题,通过优化第一次构建时空图像块张量解决所述时间长的问题,具体实现方法为:将第一次构建时空图像块张量所需的视频帧,按照滑动窗口大小直接进行分块,进而取消滑动窗口处理过程,进而避免将信息重叠的图相块并入步骤二中构建时空图像块张量的过程;取消滑动窗口后,第一次构建时空图像块张量时放入的图像块数目表示为:
Init_rows=(width+wfill+2*ss)/ps;
Init_cols=(height+hfill+2*ss)/ps;
Init_blocks=Init_rows*Init_cols;
其中,Init_rows、Init_cols表示初始化时空图像块张量时每一行、每一列分别划分的图像块数量;width、height表示每一视频帧的宽度和高度;wfill、hfill表示因满足图像块的宽度、高度是滑动步长的整数倍而填充的像素;ps、ss分别表示每一图像块的大小与滑动步长的大小;Init_blocks表示初始化时空图像块张量时总的图像块数目。
5.如权利要求1所述的基于时空张量分解的红外视频运动小目标实时检测方法,其特征在于:步骤五实现方法为,
在背景图像中,空间邻域内的相邻图像块通常具有很强的相似性;背景相对于目标来说,运动比较缓慢,因此相邻视频帧时间邻域内的相邻图像块之间也有着明显的相似性;背景张量具有低秩性,采用如下公式约束:
Figure FDA0003841282180000031
其中r是一个常数,用于限制背景张量的低秩性;相对于单一背景,r在复杂背景情况下值更大;
由于小目标所占的像素体积,相对于整个图像块立方体的体积而言是很小的;因此目标图像块张量具有稀疏性,满足:
Figure FDA0003841282180000032
其中γ是一个很小的常数,能够直观理解为目标占有的体积;该常数由目标的尺寸和在时空图像块立方体中出现的次数共同决定;
背景图像块张量是低秩的,目标图像块张量是稀疏的;因此采用张量分解的方式得到目标图像块张量和背景图像块张量,表示为:
Figure FDA0003841282180000033
其中参数λ是用于平衡背景张量和目标张量的参数,并且||.||0代表L0范数;另外,噪声张量满足
Figure FDA0003841282180000034
采用加权红外分块张量检测方法RIPT中使用的ADMM算法来解决张量分解问题,对应的增广拉格朗日表达式如下:
Figure FDA0003841282180000041
其中
Figure FDA0003841282180000042
是拉格朗日乘子张量,<*,*>代表张量内积,并且α>0是一个惩罚参数;
时空张量模型分解主要包括背景张量、目标张量、拉格朗日乘子张量的迭代估计过程;具体迭代过程如下;
首先进行背景张量估计,将其他项固定,背景张量
Figure FDA0003841282180000043
可以通过求解如下最小化问题得到估计:
Figure FDA0003841282180000044
其中k代表迭代次数,α是一个惩罚参数,
Figure FDA0003841282180000045
是拉格朗日乘子张量,
Figure FDA0003841282180000046
为空间领域内的输入帧图像块、
Figure FDA0003841282180000047
为空间领域内的背景图像块、
Figure FDA0003841282180000048
为空间领域内的目标图像块;
采用J1简化表示
Figure FDA0003841282180000049
并且转化临时张量J1为模-1展开矩阵,然后对展开矩阵进行奇异值分解J1=U∑VT,U、V分别代表由左奇异向量和右奇异向量构成的矩阵;对观察矩阵的奇异值进行软阈值操作,如下所示:
Figure FDA00038412821800000410
其中
Figure FDA00038412821800000411
为空间领域内的背景图像块,U、V分别代表由左奇异向量和右奇异向量构成的矩阵,∑ii是奇异值矩阵的对角元素,η为中间变量,shrink_L*(∑,η)代表在奇异值对角矩阵上进行软阈值操作,经过软阈值操作后,将得到的矩阵通过ten()算子转化为张量
Figure FDA00038412821800000412
固定其他项,进行目标张量估计,通过求解如下最小化问题,得到目标张量
Figure FDA00038412821800000413
的估计值:
Figure FDA00038412821800000414
其中k代表迭代次数,α是一个惩罚参数,
Figure FDA00038412821800000415
是拉格朗日乘子张量,
Figure FDA00038412821800000416
为空间领域内的输入帧图像块、
Figure FDA00038412821800000417
为空间领域内的背景图像块、
Figure FDA00038412821800000418
为空间领域内的目标图像块;
采用J2来简化表示
Figure FDA00038412821800000419
通过如下软阈值算子有效求解:
Figure FDA00038412821800000420
并对乘子和惩罚参数进行更新:
Figure FDA00038412821800000421
其中
Figure FDA00038412821800000422
为空间领域内的目标图像块ξ和η为中间变量;设置
Figure FDA00038412821800000423
ρ为预设常数;其中ps代表图像块尺寸,ss代表滑动步长,ms代表空间张量中的图像块数目;
对每一视频帧的图像块,更新其
Figure FDA0003841282180000051
背景图像张量、
Figure FDA0003841282180000052
目标图像张量,并更新惩罚参数α、拉格朗日乘子张量
Figure FDA0003841282180000053
直到整个实时检测流程结束。
6.如权利要求5所述的基于时空张量分解的红外视频运动小目标实时检测方法,其特征在于:步骤六实现方法为,
由步骤五张量分解得到的目标图像张量得到当前视频帧的目标图像,使用阈值分割方法可以轻易的找到目标像素点,大于阈值的像素点可视为目标像素点,通过阈值分割法检测红外小目标,即实现基于时空张量分解的红外视频运动小目标实时检测。
7.如权利要求5所述的基于时空张量分解的红外视频运动小目标实时检测方法,其特征在于:在ADMM算法中使用cublas矩阵乘法函数在GPU上进行加速;使用cudaMemcpy2D对存储二维张量的锁页内存进行对齐合并访问,加速访存速度。
8.如权利要求5或6所述的基于时空张量分解的红外视频运动小目标实时检测方法,其特征在于:阈值表示为:
threshold=mean.val[0]+25*std.val[0]
其中mean.val[0]表示第一个通道的均值,std.val[0]表示第一个通道的标准差。
CN202110581965.4A 2021-05-24 2021-05-24 基于时空张量分解的红外视频运动小目标实时检测方法 Active CN113256585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110581965.4A CN113256585B (zh) 2021-05-24 2021-05-24 基于时空张量分解的红外视频运动小目标实时检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110581965.4A CN113256585B (zh) 2021-05-24 2021-05-24 基于时空张量分解的红外视频运动小目标实时检测方法

Publications (2)

Publication Number Publication Date
CN113256585A CN113256585A (zh) 2021-08-13
CN113256585B true CN113256585B (zh) 2022-11-11

Family

ID=77184656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110581965.4A Active CN113256585B (zh) 2021-05-24 2021-05-24 基于时空张量分解的红外视频运动小目标实时检测方法

Country Status (1)

Country Link
CN (1) CN113256585B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664555B (zh) * 2023-07-26 2024-02-06 瀚博半导体(上海)有限公司 实时应用场景下的神经网络切片部署方法、系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729854A (zh) * 2014-01-16 2014-04-16 重庆邮电大学 一种基于张量模型的红外弱小目标检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8502731B2 (en) * 2011-01-18 2013-08-06 The United States Of America As Represented By The Secretary Of The Army System and method for moving target detection
CN103793925B (zh) * 2014-02-24 2016-05-18 北京工业大学 融合时空特征的视频图像视觉显著程度检测方法
CN106097315A (zh) * 2016-06-03 2016-11-09 河海大学常州校区 一种基于声呐图像的水下构筑物裂缝提取方法
CN109033030B (zh) * 2018-07-09 2022-05-20 成都爱为贝思科技有限公司 一种基于gpu的张量分解及重构方法
CN109934815B (zh) * 2019-03-18 2023-04-14 电子科技大学 一种结合atv约束的张量恢复红外弱小目标检测方法
CN112364870B (zh) * 2020-10-22 2021-10-15 中国科学院大学 一种基于特征和谐激活的小样本语义分割方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729854A (zh) * 2014-01-16 2014-04-16 重庆邮电大学 一种基于张量模型的红外弱小目标检测方法

Also Published As

Publication number Publication date
CN113256585A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN110287819B (zh) 动态背景下基于低秩及稀疏分解的动目标检测方法
US8670611B2 (en) Background understanding in video data
CN108009493B (zh) 基于动作增强的人脸防欺骗识别方法
CN102542571B (zh) 一种运动目标检测方法及装置
CN102156995A (zh) 一种运动相机下的视频运动前景分割方法
CN104766065B (zh) 基于多视角学习的鲁棒性前景检测方法
US20180005039A1 (en) Method and apparatus for generating an initial superpixel label map for an image
KR101173559B1 (ko) 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법
CN112287824A (zh) 基于双目视觉的三维目标检测方法、装置及系统
CN106462975A (zh) 用于对象跟踪和经由背景跟踪进行分割的方法和装置
CN107609571A (zh) 一种基于lark特征的自适应目标跟踪方法
Iraei et al. Object tracking with occlusion handling using mean shift, Kalman filter and edge histogram
CN113256585B (zh) 基于时空张量分解的红外视频运动小目标实时检测方法
CN113378775A (zh) 一种基于深度学习的视频阴影检测与消除方法
Okumura et al. Real-time feature-based video mosaicing at 500 fps
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
Roy et al. A comprehensive survey on computer vision based approaches for moving object detection
Delibasoglu UAV images dataset for moving object detection from moving cameras
Liu et al. Scene background estimation based on temporal median filter with Gaussian filtering
Safadoust et al. Self-supervised monocular scene decomposition and depth estimation
CN111709359A (zh) 复杂动态背景下基于群稀疏的运动目标检测方法
Lee et al. Multiple moving object segmentation using motion orientation histogram in adaptively partitioned blocks for high-resolution video surveillance systems
Teknomo et al. Background image generation using boolean operations
Oliveira et al. FPGA architecture for static background subtraction in real time
WO2019000300A1 (zh) 二维数据匹配方法、装置和逻辑电路

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant