CN107451601A

CN107451601A - 基于时空上下文全卷积网络的运动工件识别方法

Info

Publication number: CN107451601A
Application number: CN201710535931.5A
Authority: CN
Inventors: 张印辉; 张春全; 何自芬; 王森; 田敏
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2017-12-08

Abstract

本发明涉及基于时空上下文全卷积网络的运动工件识别方法，属数字图像处理目标检测识别领域。本发明利用目标图像数据库对全卷积神经网络进行训练获得待分类目标分类器；再利用背景差分法、数字图像处理形态学方法获得视频序列第一帧中目标的初始位置，根据初始位置利用时空上下文模型目标跟踪方法对待跟踪目标进行跟踪，通过精确度图验证目标跟踪精度；最后，将跟踪结果利用训练好的分类器进行分类识别，实现语义级分割，从而得到目标类别。本发明用背景差分法和数字图像处理形态学方法能够有效、自动获取运动目标的初始位置，能够实现对传送带上运动工件的跟踪和识别，提高了工业机器人的自动化程度和智能化程度。

Description

基于时空上下文全卷积网络的运动工件识别方法

技术领域

本发明涉及基于时空上下文全卷积网络的运动工件识别方法，属于数字图像处理目标检测识别技术领域。

背景技术

在新的时代背景下，工业现场对自动化要求越来越高，工业机器人对目标的检测和识别成为了工业4.0先进制造领域研究的热点和难点之一，其关键技术包括：1)在运动背景下,获取待抓取工件的初始位置,提取跟踪工件对象的特征，将目标从复杂的运动背景中分离出来，获取运动目标实时位置；2)对跟踪得到的目标对进行分类识别，实现运动背景工件目标的语义分割。

而在目前工业机器人应用中有两个局限性：1)在工业机器人需要对零点进行标定，标定过程中产生的误差对目标跟踪和检测的精度影响较大；2)当工业机器人丢失零点坐标后，得到的是运动工件错误的位置信息，不能正确完成工件跟踪任务。工业机器人在对目标检测和跟踪的方法上也有两点局限性：1)在对运动工件的跟踪过程中运动工件目标的初始位置需要人工赋值，跟踪过程是利用传送带上位置传感器结合传送带运动速度来确定目标位置，并没有利用运动工件目标的特征信息；2)目前大多数的工业机器人并不具备自动识别工件目标类别能力，主要利用的是阈值分割方法，得到目标的轮廓信息，之后利用模板匹配用来识别工件。工业机器人在工业上的应用局限性和方法局限性大大降低了工业自动化程度和智能化程度，因此，传统的方法已经不能更好地适用于目前智能制国家战略和人工智能的时代需要。

本发明由国家自然科学基金项目(No.61461022和No.61302173)资助研究，主要在于探索运动背景下的工业机器人对目标的检测和识别算法。

发明内容

本发明提供了基于时空上下文全卷积网络的运动工件识别方法，解决工业机器人对传送带上运动目标的跟踪以及识别问题，为提高工业机器人自动化程度和智能化程度提供理论依据。本方法能自动获取运动目标初始位置，避免了人工赋值提高了自动化程度，利用深度学习全卷积神经网络实现对目标对象的语义分割，提高了工业机器人的智能化程度。

本发明的技术方案是：基于时空上下文全卷积网络的运动工件识别方法，首先，利用目标图像数据库(5种常见的机械工业工具和工件：轴承、起子、齿轮、钳子、扳手)对全卷积神经网络进行训练获得待分类目标分类器；然后，利用背景差分法、数字图像处理形态学方法获得视频序列第一帧中目标的初始位置，根据初始位置利用时空上下文模型目标跟踪方法对待跟踪目标进行跟踪，通过精确度图验证目标跟踪精度；最后，将跟踪结果利用训练好的分类器进行分类识别，实现语义级分割，从而得到目标类别。通过Ground Truth验证语义分类识别性能。本发明用背景差分法和数字图像处理形态学方法能够有效、自动获取运动目标的初始位置，能够实现对传送带上运动工件的跟踪和识别，提高了工业机器人的自动化程度和智能化程度。

所述方法的具体步骤如下：

Step1、通过目标图像数据库(5种常见的机械工业工具和工件：轴承、起子、齿轮、钳子、扳手)对全卷积神经网络进行训练获得待分类目标分类器；将目标图像数据库分为训练集、验证集、测试集，其中训练集图像与验证集、测试集图像均不相同，验证集和测试集相同，根据网络训练过程中获得的损失和准确率曲线判断网络训练的总循环(epoch)次数；

Step2、通过背景差分法、数字图像处理形态学方法获得视频序列第一帧中目标的初始位置；

Step3、将获取得到的初始位置作为目标在图像序列中第一帧图像中的目标位置，根据初始位置利用时空上下文模型目标跟踪方法对待跟踪目标进行跟踪，获取目标跟踪结果；

Step4、将目标跟踪结果输入已经训练好的分类器，对目标进行处理，获得语义分割结果，从而得到目标类别。

所述步骤Step1中，通过目标图像数据库对全卷积神经网络进行训练获得待分类目标分类器步骤如下：

Step1.1、将目标图像分为训练集、验证集、测试集，其中训练集图像数量大于验证集和测试集，验证集和测试集相同；

Step1.2、利用训练集对全卷积神经网络进行训练，利用验证集对每个大循环的网络训练效果进行测试和评估，并获得训练损失下降曲线和网络测试准确率曲线，直至训练过程中训练损失曲线不再下降，准确率曲线不再上升，此时训练获得分类器为最终分类器。

所述步骤Step2中，通过背景差分法、数字图像处理形态学方法获得视频序列第一帧中目标的初始位置步骤如下：

Step2.1、利用工件的运动背景图像和采集的工件运动视频序列中的第一帧图像进行差分运算，其差分运算表示为：

Δ_k(x,y)＝|f(x,y,k)-f(x,y,k-1)|

其中，f(x,y,k)为视频序列中第一帧图像，f(x,y,k-1)为背景帧图像或者背景模板图像，Δ_k(x,y)为差分图像；

Step2.2、利用迭代法获取阈值T_h对差分结果Δ_k(x,y)进行处理获取二值图像，表示为：

其中，R_x(x,y)为1的像素点被判断为前景目标点，为0的像素点被判断为背景像素点；

Step2.3、对R_x(x,y)进行形态学(腐蚀、膨胀)操作消除细微区域，对消除细微区域的二值图像进行8连通域检测，获得所有连通域，选择最大的连通域区域，该区域则为实际运动目标所在的区域，以矩形框形式表示目标位置，即可获得目标所在区域的坐标位置。

所述步骤Step3中，利用时空上下文模型目标跟踪方法对待跟踪目标进行跟踪，获取目标跟踪结果，步骤如下：

Step3.1、利用当前帧中目标位置x建立目标空间上下文模型P(x|c(z),o)和局部上下文位置z建立目标上下文先验模型P(c(z)|o)，目标空间上下文模型和目标上下文先验模型可表示为：

P(x|c(z),o)＝h^sc(x-z)

P(c(z)|o)＝I(z)ω_σ(z-x*)

其中，其中，h^sc(x-z)是关于目标位置x和局部上下文位置z的相对距离和方向的函数，该函数能够实现对待检测目标和他的空间上下文空间关系的编码；I(z)为在位置z的灰度，可以对上下文位置z处的外观进行描述，ω_σ(.)为一个权重函数，可表示为：

Step3.2、根据目标位置计算置信图，可表示为：

其中，b为一个常量，α为尺度参数，β＝1为外观参数。

Step3.3、利用建立的上下文先验模型和计算得到的置信度图对建立的时空模型进行快速学习，并获得目标位置置信度图，可表示为：

其中，表示卷积操作，由于时域的卷积操作与频域中的乘积操作效果相同，因此将上式中的卷积操作可以利用利用快速傅里叶变换(FFT)完成，将置信度图转换至频域，可表示如下：

根据上式，利用反傅里叶变换得到经过快速学习之后的时空上下文模型h^sc(x)，可表示为：

其中，F^-1(·)表示傅里叶反变换。

Step3.4、根据上一步获得的前一帧中目标的时空上下文模型h^sc(x)，对下一帧图像中目标的时空上下文模型进行更新，更新法则如下：

其中，ρ为学习参数，是一个常数；H_t ^stc是已得到的所有的时空上下文模型，其中加权累加了第t-1帧到第1帧的所有空间上下文模型，可用于计算本帧的置信度图，从而得到本帧的目标位置；为第t帧的时空上下文模型；是由以上两个模型按权相加后得到的新时空上下文模型，用于在下一帧中计算其置信度图c_t+1(x)：

Step3.5、根据第t+1帧的置信度图，计算其最大值，最大值为跟踪目标的位置：

其中，

本发明的有益效果是：

(1)本发明克服了在工业机器人在对目标进行检测跟踪时，需要对目标的初始位置人工赋值的弊端，能够实现自动获取目标初始位置；

(2)本发明通过应用深度学习全卷积神经网络方法，提高了工业机器人的智能化程度，能够实现对目标的语义分割分类效果。

附图说明

图1是本发明方法流程图；

图2是本发明算法流程图；

图3是本发明方法训练全卷积网络的部分图像示例；

图4是本发明方法全卷积网络训练损失曲线和准确率曲线图；

图5是本发明方法自动获取目标初始位置结果；

图6是本发明方法目标跟踪结果；

图7是本发明方法目标跟踪精确度图；

图8是本发明方法目标分类结果；

图9是本发明方法全卷积网络模型分类精度混淆矩阵。

具体实施方式

实施例1：如图1-9所示，基于时空上下文全卷积网络的运动工件识别方法，首先，利用目标图像数据库(5种常见的机械工业工具和工件：轴承、起子、齿轮、钳子、扳手)对全卷积神经网络进行训练获得待分类目标分类器；然后，利用背景差分法、数字图像处理形态学方法获得视频序列第一帧中目标的初始位置，根据初始位置利用时空上下文模型目标跟踪方法对待跟踪目标进行跟踪，通过精确度图验证目标跟踪精度；最后，将跟踪结果利用训练好的分类器进行分类识别，实现语义级分割，从而得到目标类别。通过Ground Truth验证语义分类识别性能。本发明用背景差分法和数字图像处理形态学方法能够有效、自动获取运动目标的初始位置，能够实现对传送带上运动工件的跟踪和识别，提高了工业机器人的自动化程度和智能化程度。

所述方法的具体步骤如下：

Step1、通过目标图像数据库(5种常见的机械工业工具和工件：轴承、起子、齿轮、钳子、扳手)对全卷积神经网络进行训练获得待分类目标分类器；将目标图像数据库分为训练集、验证集、测试集，其中训练集图像与验证集、测试集图像均不相同，验证集和测试集相同，根据网络训练过程中获得的损失和准确率曲线判断网络训练的总循环(epoch)次数；在此，选取了20个大循环(epoch)，其中训练集图像数量为1939张，验证集和测试集图像和图像数量相同为309张；

图3为本发明对全卷积进行训练过程中使用的图像数据部分实例，所有训练、验证、测试图像均一幅图像只有一个目标，每个类别图像背景分为简单背景和复杂背景两种，其中轴承、起子、齿轮、钳子、扳手5种类别的训练图像分别为302张、360张、500张、356张、421张；验证集和测试集相同，5种类别分别利用了39张、64张、77张、66张、63张。

图4为本发明方法全卷积网络训练损失曲线和准确率曲线图，根据图4，随着训练大循环次数的增加，训练损失曲线不断下降，验证准确率不断提高，在第20个大训练大循环处，训练损失不再下降，因此，本发明选取第20个大循环(epoch)时获得的分类器作为目标分类的分类器。

Δ_k(x,y)＝|f(x,y,k)-f(x,y,k-1)|

图5为目标初始位置获取结果，其中第1列至第5列分别为轴承、起子、齿轮、钳子、扳手5种对应类别，第1行至第7行分别为对应类别的背景图像、第一帧图像、差分之后的二值处理结果、二值处理之后腐蚀结果、腐蚀之后膨胀结果、获取最大连通域结果、最终目标位置结果(第7行中矩形框)。

根据表1是图5的定量分析，矩形框将工件目标所在区域准确标出，矩形框和工件边缘贴合紧密，因此，从定量的角度证明了本文利用背景差分法获取第一帧图像中目标位置的可行性和有效性。利用背景差分法获取的第一帧中初始位置与Ground truth相比较，位置误差为1～2个像素点。

表1

P(x|c(z),o)＝h^sc(x-z)

P(c(z)|o)＝I(z)ω_σ(z-x^*)

Step3.2、根据目标位置计算置信图，可表示为：

其中，b为一个常量，α为尺度参数，β＝1为外观参数。

其中，F^-1(·)表示傅里叶反变换。

其中，ρ为学习参数，是一个常数；是已得到的所有的时空上下文模型，其中加权累加了第t-1帧到第1帧的所有空间上下文模型，可用于计算本帧的置信度图，从而得到本帧的目标位置；为第t帧的时空上下文模型；是由以上两个模型按权相加后得到的新时空上下文模型，用于在下一帧中计算其置信度图c_t+1(x)：

其中，

图6是对轴承、起子、齿轮、钳子、扳手的跟踪结果，对每个类别随机选取了5帧跟踪结果，其中，第1行至第5行分别为轴承、起子、齿轮、钳子、扳手的跟踪结果(矩形框)，第1列为每个类别第一帧图像，第4列至第5列是以时间顺序选取的所属类别的跟踪结果。

图7和表2是本发明方法对目标跟踪效果的定量分析，跟踪效果最好的是轴承、齿轮、钳子，在目标的整个运动过程中，跟踪获得的bounding-box基本与真实值吻合；但是在对齿轮和轴承的跟踪过程中，跟踪获得的bounding-box比真实位置略大，但是目标一直在bounding-box内部。在设定像素阈值为5个像素时，在对轴承、起子、齿轮、钳子、扳手的跟踪精度分别为100％、29.4％、87.8％、79.9％、19.7％；在设定像素阈值为10个像素时，在对轴承、起子、齿轮、钳子、扳手的跟踪精度分别为100％、72.3％、100％、100％、65.8％；在设定像素阈值为15个像素时，在对轴承、起子、齿轮、钳子、扳手的跟踪精度分别为100％、96％、100％、100％、99.5％；像素阈值大于15时，所有类别的跟踪精度均达到100％。

表2

阈值(pixel)	轴承	起子	齿轮	钳子	扳手
						5	100％	29.4％	87.8％	79.9％	19.7％
10	100％	72.3％	100％	100％	65.8％
						15	100％	96％	100％	100％	99.5％
大于15	100％	100％	100％	100％	100％

图8为本发明方法目标分类结果，第一列表示输入图像，第二列表示Groundtruth，第三列表示全卷积网络结果；

图9和表3是为全卷积网络模型分类识别精度混淆矩阵，其中横轴表示预测结果，纵轴表示Groundtruth，横、纵坐标中的1、2、3、4、5、6分别代表背景、轴承、起子、齿轮、钳子、扳手，图中数值代表分类像素点数量。在混淆矩阵中对角线中颜色较浅、数值较大的的四个区域，分别对应四个类别，分别为背景、轴承、齿轮、扳手，颜色，而颜色较深的两个区域为起子和钳子；全卷积网络模型对背景、轴承、起子、齿轮、钳子、扳手的分类精度分别为99.2％、95.5％、68.7％、91.9％、46.5％、92.9％，模型对背景、轴承、齿轮、扳手的分类精度较高，而对起子和钳子的分类精度较低。

表3

模型

背景

轴承

起子

齿轮

钳子

扳手

全卷积网络模型

99.2％

95.5％

68.7％

91.9％

46.5％

92.9％

根据上述定性和定量分析两个方面验证了本方法在对工业机器人对传送带上运动工件的跟踪识别的有益效果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于时空上下文全卷积网络的运动工件识别方法，其特征在于：首先，利用目标图像数据库对全卷积神经网络进行训练获得待分类目标分类器；然后，利用背景差分法、数字图像处理形态学方法获得视频序列第一帧中目标的初始位置，根据初始位置利用时空上下文模型目标跟踪方法对待跟踪目标进行跟踪，通过精确度图验证目标跟踪精度；最后，将跟踪结果利用训练好的分类器进行分类识别，实现语义级分割，从而得到目标类别。

2.根据权利要求1所述的基于时空上下文全卷积网络的运动工件识别方法，其特征在于：所述方法的具体步骤如下：

Step1、通过目标图像数据库对全卷积神经网络进行训练获得待分类目标分类器；将目标图像数据库分为训练集、验证集、测试集，其中训练集图像与验证集、测试集图像均不相同，验证集和测试集相同，根据网络训练过程中获得的损失和准确率曲线判断网络训练的总循环次数；

3.根据权利要求2所述的基于时空上下文全卷积网络的运动工件识别方法，其特征在于：所述步骤Step1的具体步骤为：

4.根据权利要求2所述的基于时空上下文全卷积网络的运动工件识别方法，其特征在于：所述步骤Step2的具体步骤为：

Δ_k(x,y)＝|f(x,y,k)-f(x,y,k-1)|

<mrow> <msub> <mi>R</mi> <mi>x</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mrow> <mi>F</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mi>g</mi> <mi>r</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>d</mi> <mo>,</mo> <msub> <mi>&Delta;</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>></mo> <msub> <mi>T</mi> <mi>h</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>B</mi> <mi>a</mi> <mi>c</mi> <mi>k</mi> <mi>g</mi> <mi>r</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>d</mi> <mo>,</mo> <msub> <mi>&Delta;</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>&le;</mo> <msub> <mi>T</mi> <mi>h</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

Step2.3、对R_x(x,y)进行形态学腐蚀、膨胀操作消除细微区域，对消除细微区域的二值图像进行8连通域检测，获得所有连通域，选择最大的连通域区域，该区域则为实际运动目标所在的区域，以矩形框形式表示目标位置，即可获得目标所在区域的坐标位置。

5.根据权利要求2所述的基于时空上下文全卷积网络的运动工件识别方法，其特征在于：所述步骤Step3的具体步骤为：

Step3.1、利用当前帧中目标位置x建立目标空间上下文模型P(x|c(z),o)和局部上下文位置z建立目标上下文先验模型P(c(z)|o)，目标空间上下文模型和目标上下文先验模型表示为：

P(x|c(z),o)＝h^sc(x-z)

P(c(z)|o)＝I(z)ω_σ(z-x^*)

其中，h^sc(x-z)是关于目标位置x和局部上下文位置z的相对距离和方向的函数，该函数能够实现对待检测目标和他的空间上下文空间关系的编码；I(z)为在位置z的灰度，能对上下文位置z处的外观进行描述，ω_σ(.)为一个权重函数，表示为：

<mrow> <msub> <mi>&omega;</mi> <mi>&sigma;</mi> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>ae</mi> <mrow> <mo>-</mo> <mfrac> <msup> <mrow> <mo>|</mo> <mi>z</mi> <mo>|</mo> </mrow> <mn>2</mn> </msup> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mfrac> </mrow> </msup> </mrow>

Step3.2、根据目标位置计算置信图，表示为：

<mrow> <mi>c</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>o</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>be</mi> <mrow> <mo>-</mo> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> </mrow> <mi>&alpha;</mi> </mfrac> <mo>|</mo> </mrow> <mi>&beta;</mi> </msup> </mrow> </msup> </mrow>

其中，b为一个常量，α为尺度参数，β＝1为外观参数；

Step3.3、利用建立的上下文先验模型和计算得到的置信度图对建立的时空模型进行快速学习，并获得目标位置置信度图，表示为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>c</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mo>&Sigma;</mo> <mrow> <mi>z</mi> <mo>&Element;</mo> <msub> <mi>&Omega;</mi> <mi>c</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> </mrow> </msub> <msup> <mi>h</mi> <mrow> <mi>s</mi> <mi>c</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>-</mo> <mi>z</mi> <mo>)</mo> </mrow> <mi>I</mi> <mrow> <mo>(</mo> <mi>z</mi> <mo>)</mo> </mrow> <msub> <mi>&omega;</mi> <mi>&sigma;</mi> </msub> <mrow> <mo>(</mo> <mi>z</mi> <mo>-</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msup> <mi>h</mi> <mrow> <mi>s</mi> <mi>c</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>&CircleTimes;</mo> <mrow> <mo>(</mo> <mi>I</mi> <mo>(</mo> <mi>x</mi> <mo>)</mo> <msub> <mi>&omega;</mi> <mi>&sigma;</mi> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>-</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，表示卷积操作，由于时域的卷积操作与频域中的乘积操作效果相同，因此将上式中的卷积操作能利用快速傅里叶变换(FFT)完成，将置信度图转换至频域，表示如下：

根据上式，利用反傅里叶变换得到经过快速学习之后的时空上下文模型h^sc(x)，表示为：

<mrow> <msup> <mi>h</mi> <mrow> <mi>s</mi> <mi>c</mi> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mi>F</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>F</mi> <mrow> <mo>(</mo> <msup> <mi>be</mi> <mrow> <mo>-</mo> <msup> <mrow> <mo>|</mo> <mfrac> <mrow> <mi>x</mi> <mo>-</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> </mrow> <mi>&alpha;</mi> </mfrac> <mo>|</mo> </mrow> <mi>&beta;</mi> </msup> </mrow> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>I</mi> <mo>(</mo> <mi>x</mi> <mo>)</mo> <msub> <mi>&omega;</mi> <mi>&sigma;</mi> </msub> <mo>(</mo> <mrow> <mi>x</mi> <mo>-</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中，F^-1(·)表示傅里叶反变换；

其中，ρ为学习参数，是一个常数；是已得到的所有的时空上下文模型，其中加权累加了第t-1帧到第1帧的所有空间上下文模型，用于计算本帧的置信度图，从而得到本帧的目标位置；为第t帧的时空上下文模型；是由以上两个模型按权相加后得到的新时空上下文模型，用于在下一帧中计算其置信度图c_t+1(x)：

其中，