CN103778644B

CN103778644B - 基于多尺度码本模型的红外运动目标检测方法

Info

Publication number: CN103778644B
Application number: CN201410017823.5A
Authority: CN
Inventors: 刘磊; 周亚运; 夏琪; 崔民杰; 黄伟
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2014-01-15
Filing date: 2014-01-15
Publication date: 2017-08-29
Anticipated expiration: 2034-01-15
Also published as: CN103778644A

Abstract

本发明公开了一种基于多尺度码本模型的红外运动目标检测方法，该方法先对红外视频图像进行高斯金字塔分层，然后分别对各层图像建立背景码本模型，根据背景码本模型，检测视频图像中的运动目标，最后将各层图像检测结果进行融合，得到最终视频检测结果。实验结果表明，本发明中所得到的红外运动目标检测结果相对于传统检测算法结果来说，具有检测效果较好、目标信息丰富，误检率低的特点。它不但可以应用在当前图像融合领域中，以提高融合效果，还可以单独应用在安防监控，夜视侦查等民事和军事领域。

Description

基于多尺度码本模型的红外运动目标检测方法

技术领域

本发明涉及一种目标检测领域的方法，特别是一种基于红外运动目标检测的检测方法。

背景技术

红外运动目标检测具有红外成像技术抗干扰能力较强、隐蔽性良好和全天候工作等特点，在军事和民用领域都有着广泛的应用。但是通常在实际应用中，红外目标的背景是复杂多变的，这使得红外运动目标检测算法的实现成为红外系统研究过程中的一项至关重要的技术，不仅在理论方面有着极其重要的意义，在实用方面也有相当大的价值。就目前在军事体系中的应用而言，红外运动目标检测系统可以在空中（包括空-地、空-空、空-海）超远距离目标检测、军事空中导弹防御、军事目标跟踪与攻击、港口情况监视、海洋环境监视、卫星姿态监控等项目中得到应用。同时，红外运动目标检测系统还广泛应用于现代民用领域，在遥感、红外大气云图分析、红外医疗图像病理分析、航拍地面红外图像地质分析、城市红外污染分析和高速公路的车流量检测以及海面人员搜救等领域中，红外目标检测技术也充分展示出了它的强大作用。

目前，比较成熟的运动目标检测算法可以分为以下三类：

（1）帧差法等简单的运动目标检测算法。帧差法一般指的是前后两帧图像相减，得到的结果按一定阈值做分割，得到运动目标图像，其又可扩展为三帧差分、隔帧差分等算法。它的优点是算法原理简单，计算量小，速度快，占用系统内存较小，适合实时处理。

（2）基于光流的运动目标检测算法，按照其理论基础的不同，又可分为：基于梯度的方法、基于匹配的方法、基于能量的方法和基于相位的方法。光流表达了人眼中的图像变化，其中包含了目标运动的信息，利用像素点数值大小的时域变化和相关性可以确定各个像素点位置的“相对运动”，从而确定目标的实际运动状况。它的优点是能检测独立运动对象，可用于摄像头运动场景。

（3）基于背景差分法的运动目标检测算法，如多帧平均法，IIR滤波法，高斯建模法等都是侧重于背景差分法中背景的建立或背景的更新机制。在这类目标检测算法中，首先根据一定的原理建立背景模型，然后利用输入一帧图像和背景模型比较，不同的则是运动目标，得到运动目标像素，反之则是背景像素，得到检测结果。这类算法根据背景模型建立的复杂程度，其算法复杂程度相应增加，但总体检测效果较好，多帧平均法检测速度快，IIR滤波法自动更新背景模型，高斯建模法检测准确率高。

传统的码本模型也是一种建立背景模型方法，是一种基于背景差分法的运动目标检测算法。基于码本模型的运动目标检测算法基本思路是：首先建立初始码本，然后对一段视频进行训练得到初始背景码本，其次利用背景模型检测当前视频图像中的运动目标，最终得到基于码本模型的运动目标检测结果，传统的码本模型同大部分运动目标检测算法相似，只利用了视频图像的像素信息，而忽略了图像的空间尺度信息，其检测结果中目标整体特征不明显，误检点较多。

以上的运动目标检测算法应用在简单的背景中，其检测效果较好。但应用在复杂的背景中，各个算法都有其各自的缺点，检测效果较差，误检率高。帧差法检测目标有难以解决的空洞问题，光流法检测轮廓不明显，多帧平均法检测误差大，IIR滤波法检测结果部分有拖影，高斯建模法计算量大、检测速度缓慢，传统的码本模型目标整体特征不明显、误检点较多。

发明内容

本发明的目的在于提供一种基于红外运动目标检测的检测方法，从而实现红外视频中的运动目标的检测。

实现本发明的目的的技术解决方案为：一种基于多尺度码本模型的红外运动目标检测方法，步骤如下：

（1）利用红外摄像头采集视频，输入到计算机中，得到红外视频；

（2）采用高斯金字塔图像分层模型对红外视频图像进行多尺度分析处理，将视频图像分为三层：原始层、中间层和高斯层；

（3）如果当前视频图像是视频的前50帧图像，对步骤（2）中的三层视频图像分别建立初始背景码本模型，前50帧视频的检测结果为视频图像本身，如果当前视频图像不是视频的前50帧图像，则转到步骤（4）：

如果当前视频图像是视频的第1帧图像，则先建立空的主码本M和缓存码本H，然后将第一帧图像像素值放入初始的主码本M中，得到初始码本，随后转到步骤（6）；

如果当前视频图像是视频的第2-49帧图像中的一帧，对三层视频图像分别进行初始码本训练，得到训练后的初始码本，随后转到步骤（6）；

如果当前视频图像是视频的第50帧图像，则对训练后的初始码本进行精炼得到初始背景码本，随后转到步骤（6）；

（4）根据步骤（3）建好的背景码本模型，采用背景相减法，进行红外运动目标检测，得到当前视频图像的红外运动目标检测结果；

（5）根据更新理论更新主码本M和缓存码本H，得到更新后的主码本M和缓存码本H；

（6）对当前视频图像的三层图像中的中间层和高斯顶层的红外运动目标检测结果进行高斯金字塔EXPAND运算，得到当前视频图像的三层还原检测图像；

（7）对步骤（6）中三层还原检测图像进行融合运算，得到去除背景的红外运动目标检测视频图像；

（8）如果当前视频图像不是视频的最后一帧图像，则对下一帧图像从步骤（2）开始处理；

如果当前视频图像是视频的最后一帧图像，则该视频的红外运动目标检测处理结束，得到红外视频的运动目标检测结果。

本发明与现有技术相比，其显著优点：（1）通过对视频图像做三层高斯金字塔分解，再分别对分解后的视频图像建立码本模型，进行运动目标检测，将得到不同尺度下的运动目标检测结果，最后将不同尺度下的运动目标检测结果融合得到总体的运动目标检测结果，同时利用了视频图像的像素信息和空间尺度信息。（2）在码本模型中的更新中，建立了缓存码本，通过对缓存码本和主码本的更新来实现背景模型的更新，使得背景模型具有抗扰动性、自适应更新特性。

附图说明

图1是本发明基于多尺度码本模型的红外运动目标检测方法的流程图。

图2是本发明高斯图像金字塔示意图。

图3是本发明初始码本训练流程图。

图4是本发明运动目标检测及码本更新流程图。

图5是本发明方法的仿真模型。

图6是本发明方法仿真输入视频原始图像。

图7是本发明方法仿真结果图像。

图8是本发明方法包含图像背景的仿真结果。

图9是本发明所对比其它算法的仿真结果图像。

具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图1，本发明基于多尺度码本模型的红外运动目标检测方法包括以下步骤：

步骤1、利用红外焦平面及其控制模块采集红外视频，摄像头输出为PAL制720×576像素的视频源，将该视频输入到计算机中，作为红外视频。

步骤2、采用高斯金字塔图像分层模型对红外视频进行多尺度分析处理，对于红外视频，记为{Fig₁,Fig₂,…,Fig_N}，表示N帧视频序列，将每一帧图像采用5×5的高斯模板进行高斯金字塔分解，分为3层，原始层为G₀，中间层为G₁，高斯顶层为G2。

每一层的高斯塔形分解可以表示为：

其中k=0，1，2 （32）

5×5的高斯模板w(m，n)应满足以下性质：

①可分离性：w(m,n)＝w(m)w(n)

②对称性：w(m)＝w(-m)

③归一化性：

计算得到5×5的高斯模板w(m，n)如下所示：

图像金字塔的示意图如图2所示。

步骤3、如果当前视频图像是视频的第一帧，则首先建立空的主码本M和缓存码本H，缓存码本H和主码本M的结构完全一样。由于视频图像是灰度图像，检测过程中利用其像素信息，有别于RGB空间的码字描述方法，码本用集合C表示，码字采用V_L和aux_L＝(I_min,I_max,f,λ,p,T_last)来描述，V表示码字的灰度值，aux表示码字的六元结构体，其中I_min、I_max分别表示码字最小、最大亮度值；f表示码字出现的频率；λ表示码字相邻两次访问的最大时间间隔；p，T_last分别表示码字在视频中第一次和最后一次出现的时间。建立的码本初始化各个参数均为0，码字个数L也为0。然后将第一帧图像的像素创建码字到码本中去，建立初始码字，建立规则为：

L＝1

此时，上式中I_min＝I_i，I_max＝I_i。

如果当前视频图像是视频中的第2-49帧中的一帧图像，对视频图像的G₀、G₁、G₂三层分别进行初始码本训练，假设X＝{x₁,x₂,…,x_N}表示N帧视频中某一个像素点的连续采样值；C＝{c₁,c₂,…,c_L}表示与该像素对应的码本，包含L个码字c_i（1≤i≤L）。结合图3，训练过程如下：

①对于视频图像中每个像素的序列采样值x_i＝I_i，其中i=1,2，···N。根据式（34）在码本M中寻找匹配码字。I_i表示当前像素值。

I_min-mod≤I_i≤I_max+mod

（34）

其中mod为像素扰动范围，经多次验证，mod取10左右模型效果较好。

②如果不存在匹配码字，则在码本M中创建新的码字。

L＝L+1

（35）

此时，上式中I_min＝I_i，I_max＝I_i，时间t用当前视频图像帧数表示。

③如果存在匹配码字c_m，c_m的描述形式如式（37）所示。

对码字按照下式进行更新：

v_m＝(f_mI_m+I_i)/(1+f_m) （38）

I_min＝(1-β)(I_i-α)+βI_min

（39）

I_max＝(1-β)(I_t+α)+βI_max

（40）f_m＝f_m+1 （41）

λ_m＝max{λ_m,t-T_last} （42）

T_last＝t （43）

其中，α的实验最佳值为10，β是一个必须小于1的数，其实验最佳值为0.95。

如果当前视频图像是视频中的第50帧图像，对初始码本根据式（44）进行精炼得到初始背景码本。由于训练的视频长度仅为50帧，对于25帧/秒的视频来说就是2秒钟，在这段视频图像中如果存在静止目标或者运动缓慢目标，精炼背景如果采用f和λ的准则，则将产生误检，影响后面目标检测结果。此处采用f和T_last判断标准，如式（44）所示：

M＝{c_m|c_m∈(C-C∩f≤ξ_f∩T_last≤40)} （44）

此判断的基本思路是用初始训练码本减去噪声和部分前景目标码本，噪声和部分前景目标码本认为是其最后一次出现在前40帧中且出现频率较少的码字，此处的频率阈值ξ_f实验结果取值为10时效果较好。该判断中保留了训练视频阶段最后10帧的全部信息，主要为了避免这段时间新出现的背景被错误的删除。

步骤4、如果当前视频图像不是视频中的前50帧图像，那么根据建好的背景码本，进行红外运动目标检测。对于常见的背景消除法提取运动目标，最直接的方法是将输入帧与背景模型相减。大部分背景模型所建立的模型都是固定的，可以采用背景相减的方法，然后设定阈值得到前景目标。但由于码本模型每一个码本码字的不确定性，所以码本模型采用像素采样值与码本是否匹配的方法来判断。结合图4，具体如下：

①视频图像某位置像素为x＝I_i。

②从对应主码本M中寻找匹配码字c_m，匹配条件如式（45）所示。

I_min-mod≤I_i≤I_max+mod （45）

其中，I_min、I_max表示已训练好的背景码本中码字的最小和最大边界，在训练过程中，分别赋予训练码本中最小、最大码字值。考虑到像素值的波动性，即视频图像中同一位置代表同一事物像素值也具有轻微变动，所以在二者基础上分别加上一定的偏移量mod。如果存在匹配码字，则matched=1，否则matched=0。

③通过寻找当前视频图像像素点在其对应码本中是否存在匹配码字，区分前景点和背景点，具体公式如下：

BGS(x)是当前视频图像的红外运动目标检测结果，如果判断为前景点background，则该位置像素点值为0，反之如果判断为背景点foreground，则该位置像素点的值为255。

步骤5、更新主码本M和缓存码本H，结合图4，具体如下：

①在当前视频图像的对应像素点主码本M中寻找是否存在码字与其匹配，如果存在，则对匹配的码字进行更新，更新公式如下：

v_m＝(f_mI_m+I_i)/(1+f_m) （47）

I_min＝(1-β)(I_i-α)+βI_min （48）

I_max＝(1-β)(I_t+α)+βI_max （49）

f_m＝f_m+1 （50）

λ_m＝max{λ_m,t-T_last} （51）

T_last＝t（52）

其中，α的实验最佳值为10，β的实验最佳值为0.95。

如果在主码本M中没有匹配的码字，则在缓存码本H中进行查找是否有匹配的码字，如果有匹配的码字，则按照式（47）-（52）的规则更新缓存码本中的码字。如果没有匹配码字，则创建一个新的码字c′到缓存码本H中。创建码字规则如下式所示：

L＝L+1 （53）

此时，上式中I_min＝I_i，I_max＝I_i。

②精炼缓存码本H。由于每一帧视频图像都在同时更新主码本M和缓存码本，如果采用传统的时限T_H，根据规则H＝H-{c′_k|c′_k∈H,λ_k＞T_H}来进行缓存码本H的精炼，那么第一次出现的背景刚存入缓存码本中，就会由更新规则删除掉。而且该时限不能真正反应缓存码本H的特点。根据实验结果，提出了以下更新规则：

首先每隔50帧进行缓存码本H的更新，更新时去除2方面码字，一是去除离当前帧超过长达50帧没有出现过的码字，二是去除频率较小且最后一次出现地方离当前帧地方超过10帧的码字，公式如下：

H＝H-{c′_k|(T_last＜t-100)∪(f＜ξ_f∩T_last＜t-10)} （55）

根据实验结果，当ξ_f=10时，缓存码本精炼效果较好。

③将在缓存码本H中停留足够长时间的码字从H码本中移到主码本M中。此处的更新是实时更新，将在缓存码本H中停留足够时间的码字移到M中，公式如下:

M＝M+{c′_k|c′_k∈H,f_k＞T_add} （56）

其中T_add为停留时间阈值，根据实验，当T_add=40时，实验结果较好。

④更新主码本M。从M中删除超过一定时间未被匹配的码字，公式如下：

M＝M-{c′_k|c′_k∈M,T_last＜t-100} （57）

此处删除主码本M中距当前视频图像超过100帧未被匹配的码字。

步骤6、对中间层和高斯顶层进行高斯金字塔EXPAND运算。EXPAND运算基本原理是通过内插的方法可以把一个(M+1)×(N+1)的数组扩(2M+1)×(2N+1)为。对高斯金字塔中的第k级图像G_k应用一次EXPAND运算得到G_k,1与高斯金字塔中的第k-1级图像有相同的大小。设G_k,n是对G_k进行n次EXPAND运算的结果，那么，

G_k,0＝G_k （58）

G_k,n＝EXPAND(G_k,n-1) （59）

对所有k(0＜k＜2)，0≤n≤k，对所有像素点（i，j），0≤i≤C_k-n，0≤j≤R_k-n，有：

仅当（i-m）/2和（j-n）/2都是整数时进行上面的求和运算。

经过以上的EXPAND运算，得到像素大小相同的三层还原检测图像分别为：G′₀，G′₁，G′₂，三层图像像素大小都为720×576。

步骤7、对三层还原检测图像进行融合运算，由于高斯金字塔三层模型各层的细节特征不一样，我们对三层还原图像采用以下方法进行像素融合，然后根据阈值判定像素点是否属于运动目标。

融合的方法为：对比对应高斯金字塔三层还原图像像素的灰度值，然后取灰度值大的的像素作为融合图像像素点的值，得到融合后的图像G′。公式如下：

G′(i,j)＝max{G′₀(i,j),G′₁(i,j),G′₂(i,j)} （61）

然后对融合后的图像G′进行自适应阈值分割处理，以达到优化边界，去除虚假目标的效果。自适应阈值分割处理后的图像为g(i,j)，令门限为Th(k)，则有：

式中，Th(k)是随序列图像的变化而自适应改变的。即：

Th(k)＝mean(k)+λ×var(k)（63）

其中，λ为加权值，λ的选择范围为3一5，本算法中取值为4。mean(k)、var(k)分别表示第k帧经处理后的图像灰度均值和方差，设输入图像的大小为C×R，则图像均值和方差可表示为：

该过程最后得到为检测到的红外运动目标图像。

步骤8、如果当前视频图像不是视频的最后一帧图像，则对下一帧图像从步骤（2）开始处理；

最后显示结果设计了2种模式：一是直接输出红外视频的运动目标检测结果，该结果中是没有背景的；二是输出含有背景的红外视频的运动目标检测结果，检测到的运动目标区域被增强。

模式二的输出需要结合输入图像，其合成规则如下：

其中Fig(i,j)为原始图像，g(i,j)为运动目标检测结果。

下面结合算法仿真实例对本发明做进一步的说明：

如图1所示，利用红外焦平面及其控制模块采集红外视频，输出为PAL制720×576像素的视频源，将视频输入到计算机中得到红外视频；采用高斯金字塔图像分层模型对红外视频进行多尺度分析处理，高斯金字塔图像分解示意图如图2所示；对视频图像的G₀、G₁、G₂三层分别进行初始码本训练，即建立主码本，初始码本训练流程如图3所示，然后对初始训练结果进行精炼得到初始背景码本；根据建好的背景码本，先进行红外运动目标检测，得到各层检测结果，然后更新主码本和缓存码本，其流程图如图4所示；对中间层和高斯顶层进行高斯金字塔EXPAND运算；对三层还原检测结果进行融合运算得到融合后的检测结果；最后对检测结果进行阈值分割得到二值化的红外运动目标检测结果。

本算法利用MATLAB/SIMULINK工具箱构建算法仿真模型，MATLAB版本是7.9（R2009b），首先需要建立空白的模型界面，然后选择需要的模块搭建算法模型，SIMULINK中已自带部分算法模型，如简单的自适应阈值分割，中值滤波，增益等等。但复杂的算法并不能完全利用自带的模型实现，利用SIMULINK中用户可编程的函数模块，编程实现所需要的算法功能。该算法的SIMULINK模型如图5所示，图5.1-5.3分别为模型从外到里的模块嵌套图。

图5.1中主要利用的是From Multimedia File、Color Space Conversions、ToVideo Display、To Multimedia File以及嵌套模块Codebook。其中各项的主要功能分别是从文件中读取视频、颜色空间转换（RGB→YCbCr、YCbCr→RGB等）、显示视频、保存视频以及算法模块。图5.2是codebook嵌套模块，主要利用的是Image Data Type Conversion、Autothreshold、Product、Median Filter模块，其功能分别为图像数据类型转换（某一类型→double、single、boolean等等）、自适应阈值分割处理、相与运算、中值滤波。图中的codebook detection、codebook detection1、codebook detection2都为结构一致的嵌套模块，codebook detection中是原始层视频序列检测结果，codebook detection1是高斯分解第一层检测结果，codebook detection2是高斯分解第二层检测结果。Fusion是可编程的函数模块，是三层检测结果融合的检测结果。图5.3是codebook detection的嵌套模块，其中Display1、Display2和Display3是显示模块，Maximum和Maximum1是取最大值模块，Memory1→8都是延时模块，Codebook Function是可编程的码本函数模块。

图6分别是红外视频原始图像第200、400、600帧图像，红外视频图像大小为144×176，总共时间为42秒，总共帧数为631帧，其视频为固定摄像头、有多人走动的红外视频，视频序列中人数从3人左右到10人左右不等。

图7分别是是基于多尺度码本模型的红外运动目标检测方法仿真结果第200、400、600帧图像，其中方框内部为检测结果中真实的运动目标。

图8是将检测结果反馈到原图像中去，即检测出的运动目标在原图中用255像素表示，其它背景像素值不变，即可看到检测后的检测效果，其中方框内部为检测结果中真实的运动目标。

为了将本发明所提出的方法和其它算法对比，分别设计了多帧平均模型、IIR滤波模型、光流模型、两帧差分模型、混合高斯模型以及传统的码本模型。其仿真结果图分别如图9(a)-(f)所示:(a)为两帧差分模型仿真结果,(b)为多帧平均模型仿真结果,(c)为IIR滤波模型仿真结果,(d)为光流模型仿真结果,(e)为混合高斯模型仿真结果,(f)为传统的码本模型仿真结果。图9中第一列图都为仿真结果第200帧图像，第二列图都为仿真结果第400帧图像，第三列图都为仿真结果第600帧图像。

根据图6、7、8以及图9(a)-(f)，可以看出，本发明所提出的方法检测结果明显优于其它各类运动目标检测算法，其可以完整的检测出视频中的运动目标。

Claims

1.一种基于多尺度码本模型的红外运动目标检测方法，其特征在于，所述方法包括以下步骤：

(1)利用红外摄像头采集视频，输入到计算机中，得到红外视频；

(2)采用高斯金字塔图像分层模型对红外视频图像进行多尺度分析处理，将视频图像分为三层：原始层、中间层和高斯顶层；

(3)如果当前视频图像是视频的前50帧图像，对步骤(2)中的三层视频图像分别建立初始背景码本模型，前50帧视频的红外运动目标检测结果为视频图像本身，如果当前视频图像不是视频的前50帧图像，则转到步骤(4)：

如果当前视频图像是视频的第1帧图像，则先建立空的主码本M和缓存码本H，然后将第一帧图像像素值放入初始的主码本M中，得到初始码本，随后转到步骤(6)；

如果当前视频图像是视频的第2-49帧图像中的一帧，对三层视频图像分别进行初始码本训练，得到训练后的初始码本，随后转到步骤(6)；

如果当前视频图像是视频的第50帧图像，则对训练后的初始码本进行精炼得到初始背景码本，随后转到步骤(6)；

(4)根据步骤(3)建好的背景码本模型，采用背景相减法，进行红外运动目标检测，得到当前视频图像的红外运动目标检测结果；

(5)根据更新理论更新主码本M和缓存码本H，得到更新后的主码本M和缓存码本H；

(6)对当前视频图像的三层图像中的中间层和高斯顶层的红外运动目标检测结果进行高斯金字塔EXPAND运算，得到当前视频图像的三层还原检测图像；

(7)对步骤(6)中三层还原检测图像进行融合运算，得到去除背景的红外运动目标检测视频图像；

(8)如果当前视频图像不是视频的最后一帧图像，则对下一帧图像从步骤(2)开始处理；

2.根据权利要求1所述的基于多尺度码本模型的红外运动目标检测方法，其特征在于，步骤(2)采用高斯金字塔图像分层模型对采集到的红外视频进行多尺度分析处理的步骤为：

第一：采用5×5的高斯模板w(m，n)，根据高斯模板的性质：

①可分离性：w(m,n)＝w(m)w(n)

②对称性：w(m)＝w(-m)

③归一化性：

计算得到5×5的高斯模板w(m，n)如下所示：

第二：对于输入的红外视频，记为{Fig₁,Fig₂,…,FigN}，表示N帧视频图像，对每一帧视频图像采用5×5的高斯模板进行高斯金字塔分解，分为3层，原始层为G₀，中间层为G₁，高斯顶层为G₂；

每一层的高斯塔形分解表示为：

其中k＝0，1，2 (2)

式中i，j分别表示视频图像像素的横坐标和纵坐标。

3.根据权利要求1所述的基于多尺度码本模型的红外运动目标检测方法，其特征在于，步骤(3)对步骤(2)中的三层视频图像分别建立初始背景码本模型的步骤为：

第一：码本记为集合C，码本中码字采用V_L和aux_L＝(I_min,I_max,f,λ,p,T_last)来描述；初始化，将每个像素的码本置空，即L＝0；其中，V_L表示第L个码字的灰度值；aux_L表示第L个码字的结构体，其包含六个元素，分别为：I_min、I_max分别表示码字最小、最大灰度值；f表示码字出现的频率；λ表示码字相邻两次访问的最大时间间隔；p，T_last分别表示码字在视频中第一次和最后一次出现的时间；

第二：对于视频的第1-49帧视频图像中每个像素的序列采样值x_i＝I_i，其中i＝1,2，…N，根据式(3)在初始码本中寻找匹配码字，I_i表示当前像素值，

I_min-mod≤I_i≤I_max+mod (3)

其中mod为像素扰动范围；

如果初始码本为空，或者不存在匹配码字，则根据公式(4)和(5)创建新的码字：

L＝L+1 (4)

此时，上式中I_min＝I_i，I_max＝I_i；

如果存在匹配码字c_m，c_m的描述形式如式(6)所示：

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>v</mi> <mi>m</mi> </msub> <mo>=</mo> <msub> <mi>I</mi> <mi>m</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>aux</mi> <mi>m</mi> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>&lambda;</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>p</mi> <mi>m</mi> </msub> <mo>,</mo> <msub> <mi>T</mi> <mrow> <mi>l</mi> <mi>a</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

对码字按照下式进行更新：

v_m＝(f_mI_m+I_i)/(1+f_m) (7)

I_min＝(1-β)(I_i-α)+βI_min (8)

I_max＝(1-β)(I_i+α)+βI_max (9)

f_m＝f_m+1 (10)

λ_m＝max{λ_m,t-T_last} (11)

T_last＝t (12)

其中，α和β为码字像素最大、最小值更新率；

第三：如果当前视频图像是视频的第50帧图像，根据下式采用f和T_last判断标准：

M＝{c_m|c_m∈(C-C∩f≤ξ_f∩T_last≤40)} (13)

其中，f表示码字出现的频率，T_last表示码字最后一次出现时间，ξ_f为频率的精炼阈值，从训练后的初始码本中删除频率小于频率的精炼阈值并且最后一次出现在视频的前40帧图像的码字，得到精炼后的初始背景码本。

4.根据权利要求1所述的基于多尺度码本模型的红外运动目标检测方法，其特征在于，步骤(4)进行红外运动目标检测的步骤为：

第一：当前视频图像中某像素位置的像素值为x＝I_i，I_i表示当前像素值；

第二：从对应码本中寻找匹配码字c_m，匹配条件如式(14)所示：

I_min-mod≤I_i≤I_max+mod (14)

如果存在匹配码字，则matched＝1，否则matched＝0，上式中I_min、I_max表示背景码本中对应码字的最小和最大边界，mod表示像素的允许偏移范围；

第三：通过当前视频图像像素点在其对应码本中是否存在匹配码字，区分前景点和背景点，判断标准如下：

BGS(x)是当前视频图像的红外运动目标检测结果，如果判断为前景点background，则该像素位置的像素值为0，反之如果判断为背景点foreground，则该像素位置的像素值为255。

5.根据权利要求4所述的基于多尺度码本模型的红外运动目标检测方法，其特征在于，步骤(5)更新主码本M和缓存码本H的步骤为：

第一：在当前视频图像的对应像素点的主码本M中寻找是否存在码字与其匹配，匹配条件为公式(14)，如果存在，则对匹配的码字进行更新，更新公式如下：

v_m＝(f_mI_m+I_i)/(1+f_m) (16)

I_min＝(1-β)(I_i-α)+βI_min (17)

I_max＝(1-β)(I_i+α)+βI_max (18)

f_m＝f_m+1 (19)

λ_m＝max{λ_m,t-T_last} (20)

T_last＝t (21)

其中，α和β为码字像素最大、最小值更新率；

如果在主码本M中没有匹配的码字，则在缓存码本H中进行查找是否有匹配的码字，如果在缓存码本H中有匹配的码字，则按照式(16)-(21)的规则更新缓存码本中的码字，如果在缓存码本H中没有匹配码字，则创建一个新的码字c′到缓存码本H中，创建码字规则如下式所示：

L＝L+1 (22)

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>V</mi> <mi>L</mi> </msub> <mo>=</mo> <msub> <mi>I</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>aux</mi> <mi>L</mi> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>I</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>,</mo> <mn>1</mn> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>,</mo> <mi>t</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>23</mn> <mo>)</mo> </mrow> </mrow> 3

此时，上式中I_min＝I_i，I_max＝I_i；

第二：根据以下公式对缓存码本H的精炼：

H＝H-{c′_k|(T_last＜t-100)∪(f＜ξ_f∩T_last＜t-10)} (24)

其中，f表示码字出现的频率，ξ_f为频率的精炼阈值，T_last表示该码字最后一次出现的时间，t表示当前帧的时间，精炼的基本思想是：从缓存码本H中删除那些距当前视频图像超过100帧未出现的码字以及那些出现频率小于频率的精炼阈值且最后一次出现时间距当前图像至少10帧的码字；

第三：将在缓存码本H中停留足够长时间的码字从缓存码本H中移到主码本M中，公式如下:

M＝M+{c′_k|c′_k∈H,f_k＞T_add} (25)

其中T_add为停留时间阈值；

第四：根据以下公式更新主码本M：

M＝M-{c′_k|c′_k∈M,T_last＜t-100} (26)

其中，T_last表示该码字最后一次出现的时间，t表示当前帧的时间，从主码本M中删除超过一定时间未出现的码字。

6.根据权利要求1所述的基于多尺度码本模型的红外运动目标检测方法，其特征在于，步骤(7)对步骤(6)中三层还原检测图像进行融合运算的步骤为：

第一：取三层还原检测图像中对应像素点灰度值大的像素作为融合像素点的值，得到融合后的视频图像G′，公式如下：

G′(i,j)＝max{G′₀(i,j),G′₁(i,j),G′₂(i,j)} (27)

i，j分别表示视频图像像素的横坐标和纵坐标；

第二：对融合后的视频图像G′进行自适应阈值分割处理，以达到优化边界，去除虚假目标，自适应阈值分割处理后的图像为g(i,j)，令门限为Th(k)，公式如下：

<mrow> <mi>g</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <msup> <mi>G</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>&GreaterEqual;</mo> <mi>T</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <msup> <mi>G</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo><</mo> <mi>T</mi> <mi>h</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>28</mn> <mo>)</mo> </mrow> </mrow>

式中，Th(k)是随序列图像的变化而自适应改变的，即：

Th(k)＝mean(k)+σ×var(k) (29)

其中，σ为加权值，λ的选择范围为3-5，mean(k)、var(k)分别表示第k帧经处理后的图像灰度均值和方差，设视频图像的大小为C×R，则视频图像均值和方差可表示为：

<mrow> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>C</mi> <mo>&times;</mo> <mi>R</mi> </mrow> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>C</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>R</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mo>&lsqb;</mo> <msup> <mi>G</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>30</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>var</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>C</mi> <mo>&times;</mo> <mi>R</mi> </mrow> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>C</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>R</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msup> <mrow> <mo>&lsqb;</mo> <msup> <mi>G</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>,</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mi>m</mi> <mi>e</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>31</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow> 4