CN110765964A

CN110765964A - 基于计算机视觉的电梯轿厢内异常行为的检测方法

Info

Publication number: CN110765964A
Application number: CN201911044258.0A
Authority: CN
Inventors: 徐本连; 孙振; 施健; 鲁明丽; 从金亮
Original assignee: Changshu Institute of Technology
Current assignee: Changshu Institute of Technology
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-07
Anticipated expiration: 2039-10-30
Also published as: CN110765964B

Abstract

本发明公开了一种基于计算机视觉的电梯轿厢内异常行为的检测方法，通过结合帧间差分法的ViBe算法获取运动目标的外部轮廓，在外部轮廓的基础上获得轿厢内乘客身体的高宽比信息；通过YOLOv3神经网络对轿厢内的人体头部数量和位置进行检测。根据YOLOv3神经网络检测到的人头数量，将轿厢内的异常行为检测分单人，两人及以上两种情景。在单人情景下，利用乘客人体轮廓的高宽比的变化和乘客人头的垂直移动距离，实现摔倒行为的检测。在两人及以上情景中，结合帧间差分法的ViBe算法获得的目标轮廓的基础上，利用金字塔LK光流算法计算乘客的平均动能，实现暴力侵害行为的检测。本发明视频输入与检测同时进行，达到实时检测的效果。

Description

基于计算机视觉的电梯轿厢内异常行为的检测方法

技术领域

本发明涉及人工智能领域，尤其涉及一种基于计算机视觉的电梯轿厢内异常行为的检测方法。

背景技术

基于视频的自动化异常行为检测系统，能够自动判断轿厢内乘客的异常行为，并根据检测结果发出信号。异常行为：在电梯轿厢内发生的有害行为，在本发明中指摔倒和暴力侵害两种行为。由于一定区域内的视频监控数量极多，人工监控不仅耗时，效率极低，而且无法及时的发现乘客安全受到威胁，所以基于计算机视觉的行为识别技术是异常行为检测近年来的主要研究方向。

目前，异常行为检测方法大致可分为三类，即：模板匹配法，轨迹分析法，统计学习法。模板匹配的方法可以分为三大类：有监督，半监督和无监督。基于监督的方法需要预定义正常行为和异常行为的模型，这些模型可以应用在事先已知异常行为的特定环境中。在仅使用正样本进行训练时，三类方法是相似的，很难在无法指定例外类型的实际复杂环境中有效工作。基于轨迹的方法，它分析了通过跟踪连续视频帧中特征点获得的轨迹，然后构建正常运动的模型，并最终检测出具有明显偏差的异常轨迹。在人群稀疏的情况下，基于轨迹的方法可以生成精确的轨迹。但是，在人群密集的情况下，基于轨迹的方法很难追踪物体。检测算法的最后一类是基于统计学习的方法，此类方法最明显的特点是依赖于从图像块或时空视频量中提取的低级特征，这些特征包括光流，直方图和纹理等。因为处理的数据较多，计算量大，运行速度等方面都有待提高。

在视频场景内，与异常行为检测紧密相关的是运动目标的检测。目前运动目标检测的方法主要有：帧间差分法，光流法，背景建模法。帧间差分法通过相邻视频帧的差值运算可以很快的获得运动目标而且不受光照条件的影响，但是帧间差分法无法获取完整的运动目标轮廓，且对小范围的运动检测效果差。光流法通过构建光流场可以在未知的场景中实现对运动物体的检测，但是光流法的计算量大，通常并不会被直接用于运动目标的检测。背景建模法是常用的运动目标检测方法，通过构建背景模型将背景去掉，保留运动目标。背景建模法的精度依赖于背景模型建立的过程，且容易受到光线的影响。另外，机器学习的方法，如卷积神经网络也可以用于目标检测。

本发明提出了一种基于计算机视觉的电梯轿厢内异常行为的检测方法。首先采用结合帧间差分法的ViBe算法和卷积神经网络YOLOv3对视频监控场景中的运动目标进行检测。通过结合帧间差分法的ViBe算法获取运动目标的外部轮廓，并在外部轮廓的基础上获得进入轿厢的乘客身体的高宽比信息；通过YOLOv3神经网络对电梯轿厢内的人体头部进行检测，并且获得人头目标的位置信息。根据YOLOv3神经网络检测到的人头数量，将电梯内的异常行为检测分为单人，两人及以上两种情景。在单人情景下，本发明利用乘客人体轮廓的高宽比的变化和乘客人头的垂直移动距离，实现对摔倒行为的检测。在两人及以上情景中，在结合帧间差分法的ViBe算法获得的目标轮廓的基础上，利用金字塔光流算法，计算乘客的平均动能，以实现对暴力侵害行为的检测。实验结果证明，本发明所提出的方法对摔倒行为检测，正确率为92.2％，对暴力侵害行为的检测，正确率为91.7％。

发明内容

1、本发明的目的

本发明为了解决电梯轿厢内乘客异常行为的自动检测问题，提出了一种基于计算机视觉的电梯轿厢内异常行为的检测方法。

2、本发明所采用的技术方案

本发明公开了一种基于计算机视觉的电梯轿厢内异常行为的检测方法，步骤如下：

步骤1：外部轮廓检测，通过结合帧间差分法的ViBe算法获取运动目标的外部轮廓，并在外部轮廓的基础上获得进入轿厢的乘客身体的高宽比信息；

步骤2:人数头像检测，通过YOLOv3神经网络对电梯轿厢内的人体头部进行检测，并且获得人头目标的位置信息；根据YOLOv3神经网络检测到的人头数量，将电梯内的异常行为检测分为单人，两人及以上两种情景；

步骤3:基于人体轮廓和头部的摔倒检测，在单人情景下，利用乘客人体轮廓的高宽比的变化和乘客人头的垂直移动距离，实现对摔倒行为的检测；

步骤4:多人动能检测，在两人及以上情景中，在结合帧间差分法的ViBe算法获得的目标轮廓的基础上，利用金字塔光流算法，计算乘客的平均动能，实现对暴力侵害行为的检测。

更进一步，结合帧间差分法的ViBe算法检测运动目标的过程如下：

步骤1.1：对第k帧图像使用原始ViBe算法进行运动前景检测，将第k帧图像中的像素点分类为背景点和前景点；同时利用帧差法获取第k-1帧和第k帧的差值二值图像I_d；利用得到的差值图像对ViBe算法的检测结果进行更新；

步骤1.2：利用帧间差分法获取第k-1帧和第k帧的差值二值图像I_d进行更新；对差值二值图像I_d进行均值滤波，去除噪声；进行膨胀处理，用以填充差值二值图像I_d中ROI的小空洞；进行腐蚀处理，用以消除差值二值图像I_d中的剩余噪声；最后得到经过形态学处理的只包含完整ROI的二值图像I_d'；

步骤1.3：接步骤1.1，将包含完整ROI的二值图像I_d'引入到ViBe算法的背景更新过程中；第k帧中所有的像素点都通过再分类后，可以获得结合了帧间差分法的分类二值图像I_v；

步骤1.4：对步骤1.3的输出分类二值图像I_v进行形态学处理；进行膨胀处理，用以填充分类二值图像I_v中ROI的小空洞；进行腐蚀处理，用以消除分类二值图像I_v中的剩余噪声，得到最后的二值图结果I_v'；

步骤1.1-1.4，可以获得第k帧图像中的运动前景，即运动目标轮廓。

更进一步，结合帧间差分法的ViBe算法具体为:

通过结合帧间差分法可以降低光线变化对ViBe算法的影响，ViBe算法是一种基于像素的背景建模方法，在背景建模的过程中，基于某一个像素点x的灰度值和它的邻域像素的灰度值是近似这一假设，通过随机选取N(N是正整数)个邻域灰度值为像素点x建立样本集M(x)＝{p₁,p₂,p₃,…,p_N}，样本集中的p₁,p₂,p₃,…,p_N指的是邻域像素点的灰度值；用p_t(x)表示在t时刻像素点x的灰度值，用S_R(p_t(x))表示与p_t(x)的差值小于阈值R的点构成的一个以p_t(x)为中心，R为半径的圆形集合，其中R是正实数；圆形集合S_R(p_t(x))和样本集M(x)的交集元素的数量n，n是非负整数，即是在样本集M(x)中有n个像素点与像素点x相似：

#{S_R(p_t(x))∩{p₁,p₂,p₃,…,p_N}}

设阈值为n_th，n_th是正整数，若n＞n_th，则将像素点x归类为背景，否则就将像素点x归类为前景，即运动的目标；利用帧间差分法可以获取第k-1帧和第k帧的差值二值图像I_d，然后通过形态学处理获得二值图像I_d'；若第k帧图像中的像素点x被归类为前景点，则在二值图像I_d'中，以与像素点x相同坐标的像素点x'为中心的8个邻域中，用

和

分别指代像素点x'和8个邻域中灰度值为0的像素点的个数；

考虑到中心点和邻域点所拥有的权重不同，为中心点x'赋予权值k，k是正整数，构建概率函数

将像素点的分类转化为概率问题；当中心点及其8个邻域中的灰度值为0的个数超过一定阈值，即P的大小超过阈值T，T是正整数，可以证明在以x'点为中心的像素九宫格中，背景所占的面积更大，就认为点x'为背景，即像素点x应该属于背景；否则就证明，以点x'为中心的像素九宫格，前景所占的面积更大，应该将像素点x属于运动前景点；即

为了应对可能的背景变化，当像素点被判断为背景时，就以一定的概率β对背景模型进行随机更新，β是实数

Random{p₁,p₂,p₃,…,p_N}←p_t(x)

即将{p₁,p₂,p₃,…,p_N}中的随机一个值，用p_t(x)代替。

更进一步，人数头像检测按照如下步骤进行：

步骤2.1：考虑到在电梯视频监控中，乘客很少变换位置和姿态，因此获取的训练样本重复率很高；所以，将获取的电梯监控视频做减帧处理，从而降低一个视频序列中，重复的样本数；将视频按帧保存为图像序列，将图像序列中包含清晰人头目标的图像作为原始的人头图像序列；

步骤2.2：使用labelimg工具对人头图像序列进行标记处理，考虑到轿厢内乘客通常都是面对轿厢门站立，因此在标记时，应选择正对后脑、斜对后脑或者侧对头部的样本进行标记，尽可能的保留头部背面的样本特征，而不是包含脸部的头部前面；通过标记工具，获取标记框的信息，以txt文档的形式保存，并且txt文档的命名要和图像一一对应；最后，将标注好的图像分为训练数据集和测试数据集，完成对人头图像序列的标记工作；

步骤2.3：在训练网络中载入训练数据集，进行特征训练；根据人头图像序列的数量，选择适当的训练步数和学习率，每隔一定的步数保存模型，以备在训练过拟合后使用；在损失率不再下降的时候停止训练，避免训练次数过多造成过拟合；训练结束后，对保存的YOLOv3模型进行测试，选择检测效果最好的YOLOv3神经网络模型使用；

步骤2.4：部署训练好的YOLOv3神经网络模型，将电梯轿厢内的监控视频输入到模型中进行检测；YOLOv3网络模型将视频按一帧一帧进行检测，当检测到图像中有人头时，标记人头，并且返回人头标记框位置；最后通过数标记框的方法，得到当前图像中的人头数；将视频从第一帧处理到最后一帧，就可以得到某一时间在电梯轿厢内的乘客数量。

更进一步，YOLOv3网络实现头部人数检测具体为：

通过训练YOLOv3神经网络，实现对电梯轿厢内人头部的检测，以此来获取电梯轿厢内的准确人数；首先将输入的图片划分为S×S个栅格，每个栅格预测B个边界框，对应B个先验框；定义检测的置信度

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

每个预测的边界框都包含五个预测值：边界框的中心坐标(x,y)、边界框的高和宽(h,w)、目标的置信度；其中，b_x、b_y、b_h、b_w分别是边界框的中心坐标、高和宽，p_h和p_w是先验框的高和宽；t_x、t_y、t_h和t_w则是网络预测的中心坐标、高和宽；t₀是直接预测得到的边界框的置信度，在YOLOv3中将t₀经过σ(·)变换后的σ(t₀)作为边界框置信度的值；c_x和c_y是相对偏移量；σ()函数为logistic函数，将坐标归一化到0-1之间；

和

则代表边界框的缩放因子；

代表栅格预测的边界框与目标的重合面积，而Pr(Object)则表示栅格中是否包含目标物体；如果栅格中包含目标物体，则Pr(Object)＝1，如果栅格中不包含目标物体，则Pr(Object)＝0；

若待检测的目标种类超过1，则设当预测的栅格内包含物体时，该物体属于类别c的概率的条件概率为Pr(Class_c|Object)，则该预测框的置信度为目标属于类概率及重合面积

相乘获得

在训练时，模型的损失函数定义为

其中coordError代表边界框的中心坐标(x,y)和边界框的高和宽(h,w)的损失，iouError代表栅格置信度C_i的损失，classError则代表分类概率p_i(c)的损失；YOLO使用λ_coord和λ_noobj来修正包含目标的边界框和不包含目标的边界框的权重；设表示物体obj在第i个栅格内，并且与第j个预测边界框的重合面积最大；

表示物体obj在第i个栅格内，不在第j个预测边界框内；

其中，C_i是第i个栅格的置信度，p_i(c)是第i个栅格内目标属于c类的分类概率，classes代表需要检测的目标集合；

为网络预测值，x_i,y_i,w_i,h_i,C_i,p_i(c)为标注的值；

在检测时，通过非极大值抑制方法，保留最准确的边界框，减少边界框的数量；非极大值抑制方法的实施方法如下：设检测结束后，得到的边界框为B₁,B₂,B₃,…,B_n，边界框的置信度分别为P₁,P₂,P₃,…,P_n；选择最大的置信度作为参考值，依次计算剩余边界框的重叠度U

U＝max(P₁,P₂,P₃,…,P_n)-P_x

P_x∈{P₁,P₂,P₃,…,P_n-1}

当U小于阈值时，证明该类边界框已存在最优边界框，则将该类边界框去掉，保留B_n；在剩余的B₁,B₂,B₃,…,B_m(m＜n)中，再选择最大的边界框的置信度P_m作为参考值，重复上述过程；最终获得准确的标记框。

更进一步，基于人体轮廓和头部的摔倒检测具体步骤如下：

步骤3.1：对第k帧图像的检测，有视频输入时，通过训练好的YOLOv3神经网络模型进行检测，对第k帧图像中的人头进行标记，返回标记框的位置信息，同时通过计数标记框，获得第k帧图像中准确的人数；

步骤3.2：当第k帧图像中的人数为1时，通过结合帧间差分法的ViBe算法，对第k帧图像进行处理，获得包含有ROI的二值图结果I_v'；通过对二值图结果I_v'进行最大连通区域检测，可以将二值图结果I_v'中ROI的轮廓用矩形R_ROI框出；获得矩形R_ROI的高，记为H，将矩形R_ROI的宽，记为W；可得矩形R_ROI，也就是人体轮廓的高宽比δ

δ＝H/W

与阈值T₁相比，T₁是实数，当δ＜T₁时，此时的矩形R_ROI呈现水平状态，则判断乘客发生了跌倒；当δ≥T₁时，此时的矩形R_ROI呈现竖直状态，就判断乘客可能是正常站立的，没有发生摔倒；

步骤3.3：当判断乘客可能是站立时，作为对轮廓检测的补充，对第k帧图像中乘客的头部位置c_k(x,y)和第k-1帧图像中乘客的头部位置c_k-1(x,y)进行比较，c_k(x,y)包含第k帧图像头部标记框质心的x和y的坐标，即

D＝|c_k(x,y).y-c_k-1(x,y).y|

D代表相邻两个图像中，头部标记框的质心在y方向上的位移的绝对值；与阈值T₂相比，T₂是实数，当D＜T₂时，则前后两帧中乘客的头部并没有发生明显的下落趋势，结合步骤3.2检测的结果，可以判断乘客是站立的；当D≥T₂时，则前后两帧中乘客的头部发生明显的下落趋势，可以判断乘客摔倒；

重复步骤3.1-3.3，直到视频结束或者检测到的人数不为1为止；如果检测到有乘客摔倒，就发出报警信息，进行提示。

更进一步，基于人体轮廓和头部的摔倒检测具体为:

当人体站立时，人体的轮廓通常呈现竖直状态；当人体躺下时，人体的轮廓则通常呈现水平状态，即

其中，H代表人体轮廓的像素高度，W代表人体轮廓的像素宽度；在简单判断人体姿势之后，由于摄像机拍摄视角局限，如果人体顺着摄像机的拍摄角度倒下，在视频中人体仍旧保持竖直状态；考虑到在倒地的过程中，伴随有人体重心的下移，而人头的位移则更加明显；因此，在中引入对头部移动距离的检测，作为摔倒检测的补充。

更进一步，多人动能检测的具体的方法如下：

步骤4.1：当有视频输入时，通过训练好的YOLOv3神经网络模型进行检测，对第k帧图像中的人头进行标记，返回标记框的位置信息，同时通过计数标记框，获得第k帧图像中准确的人数；

步骤4.2：当检测得到的人数为2人及其以上时，通过结合帧间差分法的ViBe算法，对第k帧图像进行处理，获得二值图结果I_v'；对二值图结果I_v'中的ROI进行边缘检测，获取只包含运动目标轮廓边缘的边缘二值图像I_v ^e；检测边缘二值图像I_v ^e中的角点，作为光流跟踪的特征点；

步骤4.3：通过金字塔LK光流法对第k-1帧图像和第k帧图像进行检测，在第k帧图像中估计出第k-1帧图像中的角点的位置，即对相邻两帧图像中的角点进行跟踪；设第k-1帧中某角点的位置为i＝(x,y)^T，则光流的计算过程，就是在第k帧图像中得到该角点i相匹配的角点的位置i′＝i+d＝(x+d_x,y+d_y)^T。其中d＝[d_x,d_y]^T是前后两帧图像中角点移动的位移，也可视为速度矢量，角点光流的计算就是求解d＝[d_x,d_y]^T；

步骤4.4：判断在第k-1帧图像和第k帧图像中，已匹配成功的角点i的位移d是否大于零；如果相邻两帧图像中，角点i的位移d＝0，则证明该角点是静止的，与动作无关，可以将其过滤；如果相邻两帧图像中，角点i的位移d＞0，则证明该角点是运动的，将角点i的位置保存；

步骤4.5：将每一个角点假设为一个质点，那么质点i在运动时就具有动能：

E_i(x,y)＝ω_i(x,y)·V_i ²(x,y)

其中E_i(x,y)是点i的动能，ω_i(x,y)是点i的权重，V_i ²(x,y)＝u_i ²(x,y)+v_i ²(x,y)，u_i(x,y)和v_i(x,y)分别是角点i(x,y)在x和y方向的速度分量；

步骤4.6：在第k-1帧中，角点i的运动的角度为

在第k帧中，与角点i相匹配的角点i'的运动角度为

设第k帧中角点的权重为：

其中，

是第k帧中角点i'的权重，它体现了角点在前后两帧中运动方向变化的程度；当角点的运动方向变化越大时，角点的权重越大，在现实中也符合打斗时运动杂乱无章的特性；

是第k-1帧图像中角点运动角度的均值，α是

的权重，体现了运动在前后两帧中的连续性；

步骤4.7：在已知各个角点的速度和权重的基础上，将一个视频帧中所有N_tol个角点的动能相加，N_tol是正整数，就可以得到第k帧的总动能：

更进一步，基于金字塔LK光流的动能模型具体为：

通过使用光流法建立光流场，来获取视频图像中运动目标的速度大小和运动方向等运动信息；在满足以下三个条件：

(1)亮度恒定不变，就是同一点在不同的视频图像中，其亮度不会发生改变；

(2)小运动，即目标的位置不会随着时间的变化而发生剧烈的变化；

(3)空间一致，即在目标像素周围的区域Ω内，每个像素都拥有相同的光流矢量；

则相邻两帧图像的约束方程

I(x,y,t)＝I(x+dx,y+dy,t+dt)

I(x,y,t)是t时刻(x,y)位置的像素点的亮度，而I(x+dx,y+dy,t+dt)则是t+dt时刻，像素点运动后的亮度，是保持不变的；假设移动的距离足够小，对约束方程进行泰勒公式展开，得到

ε代表无穷小项，可以忽略；图像的约束方程就可以定义为

其中，

可用x方向上的速度u表示，

可用y方向上的速度v表示，图像的约束方程可写为

在一个在大小为n×n邻域Ω内，通过加权平方和最小化来计算每个像素点的光流：

其中W²(X)是权重函数，用以区分邻域Ω中心和周围的加权；令

同时对于邻域Ω内所有的点X₁,X₂,X₃,…,X_n，

约束方程可写为

其中，I_xi、I_yi和W_i分别是像素点i在x和y方向的梯度信息和权重函数；令W＝diag(W(X₁),…,W(X_n))，

利用最小二乘法得

最后，可得速度信息

电梯轿厢内的暴力侵害行为大部分都具备动作速度快，动作幅度大等特点；为了满足LK光流法的假设前提，使用图像金字塔进行修正；图像金字塔的最底层为原始图像，最顶层为最低分辨率的图像；设第k-1帧图像I中某角点的位置是i＝(x,y)^T，在第k帧图像J中与该角点相匹配的角点的位置为i'＝i+d＝(x+d_x,y+d_y)^T，其中d＝[d_x,d_y]^T是前后两帧图像中角点移动的位移，也可视为速度矢量；在从顶层开始，计算每个点的光流值，在图像I和图像J上分别建立(2w_x+1,2w_y+1)的检测窗口，假设窗口内的像素点都具有相同的速度，即像素点拥有相同的光流向量d。在检测窗口内，做为前后两帧相匹配的角点，因为在图像I中的角点(x₀,y₀)的灰度值I(x₀,y₀)与图像J中的角点(x₀+d_x,y₀+d_y)的灰度值J(x₀+d_x,y₀+d_y)最接近，所以I(x₀,y₀)-J(x₀+d_x,y₀+d_y)应是最小值，将光流定义为使残差函数ε最小的矢量

其中w_x和w_y是检测窗口的参数，是指检测窗口的大小；设顶层L图像中的光流误差为d^Lm，通过使残差函数ε(d^Lm)的一阶导数为0求得。光流计算结果为g，通常将顶层的光流值设为g^Lm＝[0 0]^T。若每层缩放为前一层的一半，则L-1层原始图像的光流

g^L-1＝2(g^L+d^L)

L是正整数，通常L≤4。沿着金字塔向下反馈，重复计算光流的估计值，可以得到金字塔底部，即原始图像中的光流信息

其中，g⁰是金字塔最底层图像的光流初始值，d⁰则是金字塔底层图像中的光流误差，L_m代表最顶层；

对前景图像中的每个像素点的梯度和曲率进行计算，设每个前景点邻域内的二阶导数的自相关矩阵

其中K代表邻域窗口的大小，w_(x,y)代表归一化操作的权值，I_x代表x方向上的梯度，I_y则代表y方向上的梯度，i和j代表邻域窗口在x和y方向上的偏移；Harris角点是二阶导数存在两个最大特征值的位置，定义判断角点的公式

其中

是相对权值常数，det[M(x,y)]为矩阵M(x,y)的行列式值，trace(M(x,y))是矩阵M(x,y)的迹；若二阶导数自相关矩阵的特征值为λ₁和λ₂，则det[M(x,y)]＝λ₁λ₂，trace(M(x,y))＝λ₁+λ₂；当R_th的值大于设定的阈值，就可以判断该点是角点；

使用金字塔LK光流算法，并结合角点构建动能模型，并将动能模型定义为：

E(x,y)＝ω(x,y)·V(x,y)²

其中，E(x,y)是角点的动能，ω(x,y)是指该角点的权重，与角点的运动方向变化有关，用来代替角点的质量这一物理概念，V(x,y)就是指该角点的速度大小。

3、本发明所采用的有益效果

1)本发明提出了一种基于计算机视觉的电梯轿厢内异常行为检测系统，视频输入与检测同时进行，达到实时检测的效果。

2)本发明通过结合帧间差分法的ViBe算法实现了对电梯轿厢内运动物体前景的检测，并通过形态学处理过程，获得运动目标的轮廓。

3)本发明利用YOLOv3神经网络模型进行了人头的检测，实现了基于图像的电梯轿厢内人数的检测。

4)本发明利用检测到的电梯轿厢内人体轮廓的高宽比值判断是否有摔倒现象的发生，并通过检测人头在竖直方向上的移动距离，作为轮廓检测的补充。

5)本发明通过在获取的人体轮廓的基础上，利用金字塔LK光流法构建光流场，获得视频图像中物体的运动速度，并根据其运动角度变化的大小，模仿动能方程构建基于角点的动能检测模型，实现了对暴力侵害行为的检测。

附图说明

图1电梯轿厢内异常行为检测系统主流程图；

图2为YOLO神经网络结构图；

图3为模块①人头检测过程；

图4为模块②摔倒检测流程图；

图5为模块③暴力侵害检测流程图；

图6为轿厢内摔倒检测结果；

图7为其他场景中摔倒检测结果；

图8为不同人数的人头检测结果；

图9为多人打斗行为检测结果。

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面将结合附图对本发明实例作进一步地详细描述。

实施例

如图1所示，本发明提出了一种基于计算机视觉的电梯轿厢内异常行为的检测方法。首先采用结合帧间差分法的ViBe算法和卷积神经网络YOLOv3对视频监控场景中的运动目标进行检测。通过结合帧间差分法的ViBe算法获取运动目标的外部轮廓，并在外部轮廓的基础上获得进入轿厢的乘客身体的高宽比信息；通过YOLOv3神经网络对电梯轿厢内的人体头部进行检测，并且获得人头目标的位置信息。根据YOLOv3神经网络检测到的人头数量，将电梯内的异常行为检测分为单人，两人及以上两种情景。在单人情景下，本发明利用乘客人体轮廓的高宽比的变化和乘客人头的垂直移动距离，实现对摔倒行为的检测。在两人及以上情景中，在结合帧间差分法的ViBe算法获得的目标轮廓的基础上，利用金字塔LK光流算法，计算乘客的平均动能，以实现对暴力侵害行为的检测。

1.结合帧间差分法的ViBe算法

通过结合帧间差分法可以降低光线变化对ViBe算法的影响，ViBe算法是一种基于像素的背景建模方法，在背景建模的过程中，基于某一个像素点x的灰度值和它的邻域像素的灰度值是近似这一假设，通过随机选取N(N是正整数)个邻域灰度值为像素点x建立样本集M(x)＝{p₁,p₂,p₃,…,p_N}，样本集中的p₁,p₂,p₃,…,p_N指的是邻域像素点的灰度值。用p_t(x)表示在t时刻像素点x的灰度值，用S_R(p_t(x))表示与p_t(x)的差值小于阈值R的点构成的一个以p_t(x)为中心，R为半径的圆形集合，其中R是正实数；圆形集合S_R(p_t(x))和样本集M(x)的交集元素的数量n，n是非负整数，即是在样本集M(x)中有n个像素点与像素点x相似：

#{S_R(p_t(x))∩{p₁,p₂,p₃,…,p_N}}

设阈值为n_th(n_th是正整数)，若n＞n_th，则将像素点x归类为背景，否则就将像素点x归类为前景，即运动的目标。利用帧间差分法可以获取第k-1帧和第k帧的差值二值图像I_d，然后通过形态学处理获得二值图像I_d'。若第k帧图像中的像素点x被归类为前景点，则在二值图像I_d'中，以与像素点x相同坐标的像素点x'为中心的8个邻域中，用

和

分别指代像素点x'和8个邻域中灰度值为0的像素点的个数。

例：若像素点x'的灰度值为0，则

若像素点x'的灰度值不为0，则

8个邻域中有三个像素的灰度值为0，则

考虑到中心像素点和邻域点所拥有的权重不同，为中心像素点x'赋予权值k(k是正整数)，构建概率函数

将像素点的分类转化为概率问题。当中心像素点及其8个邻域中的灰度值为0的个数超过一定阈值，即P的大小超过阈值T(T是正整数)，可以证明在以x'点为中心的像素九宫格中，背景所占的面积更大，就认为点x'为背景，即像素点x应该属于背景。否则就证明，以点x'为中心的像素九宫格，前景所占的面积更大，应该将像素点x属于运动前景点。即

为了应对可能的背景变化，当像素点被判断为背景时，就以一定的概率β(β是实数)对背景模型进行随机更新

Random{p₁,p₂,p₃,…,p_N}←p_t(x)

即将{p₁,p₂,p₃,…,p_N}中的随机一个值，用p_t(x)代替。

对于第k帧图像，结合帧间差分法的ViBe算法检测运动目标的过程如下：

步骤1.1：对第k帧图像使用原始ViBe算法进行运动前景检测，将第k帧图像中的像素点分类为背景点和前景点。同时利用帧差法获取第k-1帧和第k帧的差值二值图像I_d。利用得到的差值图像对ViBe算法的检测结果进行更新。

步骤1.2：利用帧间差分法获取第k-1帧和第k帧的差值二值图像I_d进行更新。对差值二值图像I_d进行均值滤波，去除噪声；进行膨胀处理，用以填充差值二值图像I_d中ROI的小空洞；进行腐蚀处理，用以消除差值二值图像I_d中的剩余噪声；最后得到经过形态学处理的只包含完整ROI的二值图像I_d′。

步骤1.3：接步骤1.1，将包含完整ROI的二值图像I_d'引入到ViBe算法的背景更新过程中。第k帧中所有的像素点都通过再分类后，可以获得结合了帧间差分法的分类二值图像I_v。

步骤1.4：对步骤1.3的输出分类二值图像I_v进行形态学处理。进行膨胀处理，用以填充分类二值图像I_v中ROI的小空洞；进行腐蚀处理，用以消除分类二值图像I_v中的剩余噪声，得到最后的二值图结果I_v'。

2.YOLOv3网络实现人数检测

如图2所示，本发明通过训练YOLOv3神经网络，实现对电梯轿厢内人头部的检测，以此来获取电梯轿厢内的准确人数。首先将输入的图片划分为S×S个栅格，每个栅格预测B个边界框，对应B个先验框。定义检测的置信度

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

每个预测的边界框都包含五个预测值：边界框的中心坐标(x,y)、边界框的高和宽(h,w)、目标的置信度。其中，b_x、b_y、b_h、b_w分别是边界框的中心坐标、高和宽，p_h和p_w是先验框的高和宽。t_x、t_y、t_h和t_w则是网络预测的中心坐标、高和宽；t₀是直接预测得到的边界框的置信度，在YOLOv3中将t₀经过σ(·)变换后的σ(t₀)作为边界框置信度的值。c_x和c_y是相对偏移量。σ()函数为logistic函数，将坐标归一化到0-1之间。和

则代表边界框的缩放因子。

代表栅格预测的边界框与目标的重合面积，而Pr(Object)则表示栅格中是否包含目标物体。如果栅格中包含目标物体，则Pr(Object)＝1，如果栅格中不包含目标物体，则Pr(Object)＝0。

相乘获得

在训练时，模型的损失函数定义为

其中coordError代表边界框的中心坐标(x,y)和边界框的高和宽(h,w)的损失，iouError代表栅格置信度C_i的损失，classError则代表分类概率p_i(c)的损失。YOLO使用λ_coord和λ_noobj来修正包含目标的边界框和不包含目标的边界框的权重。设

表示物体obj在第i个栅格内，并且与第j个预测边界框的重合面积最大。

表示物体obj在第i个栅格内，不在第j个预测边界框内。

其中，C_i是第i个栅格的置信度，p_i(c)是第i个栅格内目标属于c类的分类概率，classes代表需要检测的目标集合。

为网络预测值，x_i,y_i,w_i,h_i,C_i,p_i(c)为标注的值。

在检测时，通过非极大值抑制方法，保留最准确的边界框，减少边界框的数量。非极大值抑制方法的实施方法如下：设检测结束后，得到的边界框为B₁,B₂,B₃,…,B_n，边界框的置信度分别为P₁,P₂,P₃,…,P_n。选择最大的置信度作为参考值，依次计算剩余边界框的重叠度U

U＝max(P₁,P₂,P₃,…,P_n)-P_x

P_x∈{P₁,P₂,P₃,…,P_n-1}

当U小于阈值时，证明该类边界框已存在最优边界框，则将该类边界框去掉，保留B_n。在剩余的B₁,B₂,B₃,…,B_m(m＜n)中，再选择最大的边界框的置信度P_m作为参考值，重复上述过程。最终获得准确的标记框。

如图3所示，使用YOLOv3实现人数检测的方法如下：

步骤2.1：考虑到在电梯视频监控中，乘客很少变换位置和姿态，因此获取的训练样本重复率很高。所以，将获取的电梯监控视频做减帧处理(降低视频的帧率)，从而降低一个视频序列中，重复的样本数。将视频按帧保存为图像序列，将图像序列中包含清晰人头目标的图像作为原始的人头图像序列。

步骤2.2：使用labelimg工具对人头图像序列进行标记处理，考虑到轿厢内乘客通常都是面对轿厢门站立，因此在标记时，应选择正对后脑、斜对后脑或者侧对头部的样本进行标记，尽可能的保留头部背面的样本特征，而不是包含脸部的头部前面。通过标记工具，获取标记框的信息，以txt文档的形式保存，并且txt文档的命名要和图像一一对应。最后，将标注好的图像分为训练数据集和测试数据集，完成对人头图像序列的标记工作。

步骤2.3：在训练网络中载入训练数据集，进行特征训练。根据人头图像序列的数量，选择适当的训练步数和学习率，每隔一定的步数保存模型，以备在训练过拟合后使用。在损失率不再下降的时候停止训练，避免训练次数过多造成过拟合。训练结束后，对保存的YOLOv3模型进行测试，选择检测效果最好的YOLOv3神经网络模型使用。

步骤2.4：部署训练好的YOLOv3神经网络模型，将电梯轿厢内的监控视频输入到模型中进行检测。YOLOv3网络模型将视频按一帧一帧进行检测，当检测到图像中有人头时，标记人头，并且返回人头标记框位置。最后通过数标记框的方法，得到当前图像中的人头数。将视频从第一帧处理到最后一帧，就可以得到某一时间在电梯轿厢内的乘客数量，实例如图8所示。

3.基于人体轮廓和头部的摔倒检测

在现实中，人体的站立姿势和倒地姿势有着很大的区别。当人体站立时，人体的轮廓通常呈现竖直状态；当人体躺下时，人体的轮廓则通常呈现水平状态，即

其中，H代表人体轮廓的像素高度，W代表人体轮廓的像素宽度。在简单判断人体姿势之后，由于摄像机拍摄视角局限，如果人体顺着摄像机的拍摄角度倒下，在视频中人体仍旧保持竖直状态。考虑到在倒地的过程中，伴随有人体重心的下移，而人头的位移则更加明显。因此，在本发明中引入对头部移动距离的检测，作为摔倒检测的补充。如图4所示，对第k帧图像的检测具体步骤如下：

步骤3.1：当有视频输入时，通过训练好的YOLOv3神经网络模型进行检测，对第k帧图像中的人头进行标记，返回标记框的位置信息，同时通过计数标记框，获得第k帧图像中准确的人数。

步骤3.2：当第k帧图像中的人数为1时，通过结合帧间差分法的ViBe算法，对第k帧图像进行处理，获得包含有ROI的二值图结果I_v'。通过对二值图结果I_v'进行最大连通区域检测，可以将二值图结果I_v'中ROI的轮廓用矩形R_ROI框出。获得矩形R_ROI的高，记为H，将矩形R_ROI的宽，记为W。可得矩形R_ROI，也就是人体轮廓的高宽比δ

δ＝H/W

与阈值T₁(T₁是实数)相比，当δ＜T₁时，此时的矩形R_ROI呈现水平状态，则判断乘客发生了跌倒。当δ≥T₁时，此时的矩形R_ROI呈现竖直状态，就判断乘客可能是正常站立的，没有发生摔倒。

步骤3.3：当判断乘客可能是站立时，作为对轮廓检测的补充，对第k帧图像中乘客的头部位置c_k(x,y)(c_k(x,y)包含第k帧图像头部标记框质心的x和y的坐标)和第k-1帧图像中乘客的头部位置c_k-1(x,y)进行比较，即

D＝|c_k(x,y).y-c_k-1(x,y).y|

D代表相邻两个图像中，头部标记框的质心在y方向上的位移的绝对值。与阈值T₂(T₂是实数)相比，当D＜T₂时，则前后两帧中乘客的头部并没有发生明显的下落趋势，结合步骤3.2检测的结果，可以判断乘客是站立的。当D≥T₂时，则前后两帧中乘客的头部发生明显的下落趋势，可以判断乘客摔倒。

重复步骤3.1-3.3，直到视频结束或者检测到的人数不为1为止。如果检测到有乘客摔倒，就发出报警信息，进行提示，实例如图6、7所示。

4.基于金字塔LK光流的动能模型

本发明通过使用光流法建立光流场，来获取视频图像中运动目标的速度大小和运动方向等运动信息。在满足以下三个条件：

(3)空间一致，即在目标像素周围的区域Ω内，每个像素都拥有相同的光流矢量。

则相邻两帧图像的约束方程

I(x,y,t)＝I(x+dx,y+dy,t+dt)

I(x,y,t)是t时刻(x,y)位置的像素点的亮度，而I(x+dx,y+dy,t+dt)则是t+dt时刻，像素点运动后的亮度，是保持不变的。假设移动的距离足够小，对约束方程进行泰勒公式展开，得到

ε代表无穷小项，可以忽略。图像的约束方程就可以定义为

其中，

可用x方向上的速度u表示，

可用y方向上的速度v表示，图像的约束方程可写为

其中W²(X)是权重函数，用以区分邻域Ω中心和周围的加权。令

同时对于邻域Ω内所有的点X₁,X₂,X₃,…,X_n，

约束方程可写为

其中，I_xi、I_yi和W_i分别是像素点i在x和y方向的梯度信息和权重函数。令W＝diag(W(X₁),…,W(X_n))，利用最小二乘法得

最后，可得速度信息

电梯轿厢内的暴力侵害行为大部分都具备动作速度快，动作幅度大等特点；为了满足LK光流法的假设前提，使用图像金字塔进行修正；图像金字塔的最底层为原始图像，最顶层为最低分辨率的图像；设第k-1帧图像I中某角点的位置是i＝(x,y)^T，在第k帧图像J中与该角点相匹配的角点的位置为i'＝i+d＝(x+d_x,y+d_y)^T，其中d＝[d_x,d_y]^T是前后两帧图像中角点移动的位移，也可视为速度矢量；在从顶层开始，计算每个点的光流值，在图像I和图像J上分别建立(2w_x+1,2w_y+1)的检测窗口，假设窗口内的像素点都具有相同的速度，即像素点都拥有相同的光流向量d。在检测窗口内，作为前后两帧相匹配的角点，因为在图像I中的角点(x₀,y₀)的灰度值I(x₀,y₀)和图像J中的角点(x₀+d_x,y₀+d_y)的灰度值J(x₀+d_x,y₀+d_y)最接近，所以I(x₀,y₀)-J(x₀+d_x,y₀+d_y)应是最小值，将光流向量d定义为使残差函数ε最小的矢量

其中w_x和w_y是检测窗口的参数，是指检测窗口的大小；设顶层L图像中的光流误差为d^Lm，通过使残差函数ε(d^Lm)的一阶导数为0求得。光流的估计值为g，通常将顶层的光流值设为g^Lm＝[0 0]^T。若每层缩放为前一层的一半，则L-1层原始图像的光流

g^L-1＝2(g^L+d^L)

其中，g⁰是金字塔最底层图像的光流初始值，d⁰则是金字塔底层图像中的光流误差，L_m代表最顶层。

其中K代表邻域窗口的大小，w_(x,y)代表归一化操作的权值，I_x代表x方向上的梯度，I_y则代表y方向上的梯度，i和j代表邻域窗口在x和y方向上的偏移。Harris角点是二阶导数存在两个最大特征值的位置，定义判断角点的公式

其中

是相对权值常数，det[M(x,y)]为矩阵M(x,y)的行列式值，trace(M(x,y))是矩阵M(x,y)的迹。若二阶导数自相关矩阵的特征值为λ₁和λ₂，则det[M(x,y)]＝λ₁λ₂，trace(M(x,y))＝λ₁+λ₂。当R_th的值大于设定的阈值，就可以判断该点是角点。

本发明使用金字塔LK光流算法，并结合角点构建动能模型，并将动能模型定义为：

E(x,y)＝ω(x,y)·V(x,y)²

基于上述的定义，如图5所示，动能检测的具体的方法如下：

步骤4.1：当有视频输入时，通过训练好的YOLOv3神经网络模型进行检测，对第k帧图像中的人头进行标记，返回标记框的位置信息，同时通过计数标记框，获得第k帧图像中准确的人数。

步骤4.2：当检测得到的人数为2人及其以上时，通过结合帧间差分法的ViBe算法，对第k帧图像进行处理，获得二值图结果I_v'。对二值图结果I_v'中的ROI进行边缘检测，获取只包含运动目标轮廓边缘的边缘二值图像I_v ^e。检测边缘二值图像I_v ^e中的角点，作为光流跟踪的特征点。

步骤4.3：通过金字塔LK光流法对第k-1帧图像和第k帧图像进行检测，在第k帧图像中估计出第k-1帧图像中的角点的位置，即对相邻两帧图像中的角点进行跟踪；设第k-1帧中某角点的位置为i＝(x,y)^T，则光流的计算过程，就是在第k帧图像中得到该角点i相匹配的角点的位置i'＝i+d＝(x+d_x,y+d_y)^T。其中d＝[d_x,d_y]^T是前后两帧图像中角点移动的位移，也可视为速度矢量，角点光流的计算就是求解d＝[d_x,d_y]^T；

步骤4.4：判断在第k-1帧图像和第k帧图像中，已匹配成功的角点i的位移d是否大于零。如果相邻两帧图像中，角点i的位移d＝0，则证明该角点是静止的，与动作无关，可以将其过滤。如果相邻两帧图像中，角点i的位移d＞0，则证明该角点是运动的，将角点i的位置保存。

E_i(x,y)＝ω_i(x,y)·V_i ²(x,y)

其中E_i(x,y)是点i的动能，ω_i(x,y)是点i的权值，V_i ²(x,y)＝u_i ²(x,y)+v_i ²(x,y)，u_i(x,y)和v_i(x,y)分别是角点i(x,y)在x和y方向的速度分量。

步骤4.6：在第k-1帧中，角点i的运动的角度为

在第k帧中，与角点i相匹配的角点i'的运动角度为

设第k帧中角点的权重为：

其中，

是第k帧中角点i'的权重，它体现了角点在前后两帧中运动方向变化的程度；当角点的运动方向变化越大时，角点的权重越大，在现实中也符合打斗时运动杂乱无章的特性；是第k-1帧图像中角点运动角度的均值，α是

的权重，体现了运动在前后两帧中的连续性；

步骤4.7：在已知各个角点的速度和权重的基础上，将一个视频帧中所有N_tol(N_tol是正整数)个角点的动能相加，就可以得到第k帧的总动能：

为了避免角点数量带来的干扰，可以选取每一帧的平均角点动能作为动能模型，实例如图9所示。

表1摔倒检测的性能(基于四个视频序列)

表2打斗检测的性能

评价指标：

其中，TP表示检测到正确的异常事件的数目，TN表示检测到正确的未摔倒事件的数目，FP表示误检测到摔倒事件的数目(虚警)，FN表示未检测到摔倒事件的数目。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于计算机视觉的电梯轿厢内异常行为的检测方法，其特征在于步骤如下：

2.根据权利要求1所述的基于计算机视觉的电梯轿厢内异常行为的检测方法，其特征在于外部轮廓检测，结合帧间差分法的ViBe算法检测运动目标的过程如下：

3.根据权利要求2所述的基于计算机视觉的电梯轿厢内异常行为的检测方法，其特征在于结合帧间差分法的ViBe算法具体为:

在背景建模的过程中，基于某一个像素点x的灰度值和它的邻域像素的灰度值是近似这一假设，通过随机选取N(N是正整数)个邻域灰度值为像素点x建立样本集M(x)＝{p₁,p₂,p₃,…,p_N}，样本集中的p₁,p₂,p₃,…,p_N指的是邻域像素点的灰度值；用p_t(x)表示在t时刻像素点x的灰度值，用S_R(p_t(x))表示与p_t(x)的差值小于阈值R的点构成的一个以p_t(x)为中心，R为半径的圆形集合，其中R是正实数；圆形集合S_R(p_t(x))和样本集M(x)的交集元素的数量n，n是非负整数，即是在样本集M(x)中有n个像素点与像素点x相似：

#{S_R(p_t(x))∩{p₁,p₂,p₃,…,p_N}}

设阈值为n_th，n_th是正整数，若n＞n_th，则将像素点x归类为背景，否则就将像素点x归类为前景，即运动的目标；利用帧间差分法可以获取第k-1帧和第k帧的差值二值图像I_d，然后通过形态学处理获得二值图像I_d′；若第k帧图像中的像素点x被归类为前景点，则在二值图像I_d′中，以与像素点x相同坐标的像素点x'为中心的8个邻域中，用

和

分别指代像素点x'和8个邻域中灰度值为0的像素点的个数；

将像素点的分类转化为概率问题；当中心点及其8个邻域中的灰度值为0的个数超过一定阈值，即P的大小超过阈值T，T是正整数，可以证明在以x′点为中心的像素九宫格中，背景所占的面积更大，就认为点x'为背景，即像素点x应该属于背景；否则就证明，以点x'为中心的像素九宫格，前景所占的面积更大，应该将像素点x属于运动前景点；即

Random{p₁,p₂,p₃,…,p_N}←p_t(x)

即将{p₁,p₂,p₃,…,p_N}中的随机一个值，用p_t(x)代替。

4.根据权利要求1所述的基于计算机视觉的电梯轿厢内异常行为的检测方法，其特征在于人数头像检测按照如下步骤进行：

5.根据权利要求4所述的基于计算机视觉的电梯轿厢内异常行为的检测方法，其特征在于YOLOv3网络实现头部人数检测具体为：

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

每个预测的边界框都包含五个预测值：边界框的中心坐标(x,y)、边界框的高和宽(h,w)、目标的置信度；其中，b_x、b_y、b_h、b_w分别是边界框的中心坐标、高和宽，p_h和p_w是先验框的高和宽；t_x、t_y、t_h和t_w分别是网络预测的中心坐标、高和宽；t₀是直接预测得到的边界框的置信度，在YOLOv3中将t₀经过σ(·)变换后的σ(t₀)作为边界框置信度的值；c_x和c_y是相对偏移量；σ(·)函数为logistic函数，将坐标归一化到0-1之间；

和

则代表边界框的缩放因子；

若待检测的目标种类超过1，则设当预测的栅格内包含物体时，该物体属于类别c的概率的条件概率为Pr(Class_c|Object)，则该预测框的置信度为目标属于类概率及重合面积相乘获得

在训练时，模型的损失函数定义为

表示物体obj在第i个栅格内，不在第j个预测边界框内；

为网络预测值，x_i,y_i,w_i,h_i,C_i,p_i(c)为标注的值；

U＝max(P₁,P₂,P₃,…,P_n)-P_x

P_x∈{P₁,P₂,P₃,…,P_n-1}

6.根据权利要求1所述的基于计算机视觉的电梯轿厢内异常行为的检测方法，其特征在于基于人体轮廓和头部的摔倒检测具体步骤如下：

δ＝H/W

步骤3.3：当判断乘客可能是站立时，作为对轮廓检测的补充，对第k帧图像中乘客的头部位置c_k(x,y)和第k-1帧图像中乘客的头部位置c_k-₁(x,y)进行比较，c_k(x,y)包含第k帧图像头部标记框质心的x和y的坐标，即

D＝|c_k(x,y).y-c_k-1(x,y).y|

7.根据权利要求6所述的基于计算机视觉的电梯轿厢内异常行为的检测方法，其特征在于基于人体轮廓和头部的摔倒检测具体为:

其中，H代表人体轮廓的像素高度，W代表人体轮廓的像素宽度；在简单判断人体姿势之后，由于摄像机拍摄视角局限，如果人体顺着摄像机的拍摄角度倒下，在视频中人体仍旧保持竖直状态；考虑到在倒地的过程中，伴随有人体重心的下移，而人头的位移则更加明显；因此，引入对头部移动距离的检测，作为摔倒检测的补充。

8.根据权利要求1所述的基于计算机视觉的电梯轿厢内异常行为的检测方法，其特征在于多人动能检测的具体的方法如下：

步骤4.3：通过金字塔LK光流法对第k-1帧图像和第k帧图像进行检测，在第k帧图像中估计出第k-1帧图像中的角点的位置，即对相邻两帧图像中的角点进行跟踪；设第k-1帧中某角点的位置为i＝(x,y)^T，则光流的计算过程，就是在第k帧图像中得到与该角点i相匹配的角点的位置i'＝i+d＝(x+d_x,y+d_y)^T。其中d＝[d_x,d_y]^T是前后两帧图像中角点移动的位移，也可视为速度矢量，角点光流的计算就是求解d＝[d_x,d_y]^T；

E_i(x,y)＝ω_i(x,y)·V_i ²(x,y)