CN112528966B

CN112528966B - 一种取款人周边环境智能监控识别方法、装置及介质

Info

Publication number: CN112528966B
Application number: CN202110161295.0A
Authority: CN
Inventors: 涂宏斌; 刘雨芃; 徐任玉; 胡昕岳; 彭圆圆; 池瑞
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-14
Anticipated expiration: 2041-02-05
Also published as: CN112528966A

Abstract

本发明公开了一种取款人周边环境智能监控识别方法、装置及介质，其方法包括视频监控、目标跟踪、交互行为检测和识别；目标跟踪为：当视频监控到取款机周边有人进入时，采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪，得到包括多目标跟踪轨迹的跟踪视频；交互行为检测为：从跟踪视频提取特征并构建组合特征，以通过卷积神经网络算法判断人体目标的面部头像及其特征点，进而用于判断头部姿态和目光角度是否异常，并在异常的情况下对其进行交互行为检测；交互行为识别为：若存在交互行为，则进一步判别该交互行为的类型。本发明能够实时对取款区域内的人与物进行监控，并且对人的行为进行自动检测和识别。

Description

一种取款人周边环境智能监控识别方法、装置及介质

技术领域

本发明属于行为识别技术领域，具体涉及一种取款人周边环境智能监控识别方法、装置及介质。

背景技术

随着支付宝微信等支付方式的普及，小额金额越来越少在银行ATM中进行，只有一些金额数量大的交易中容易使用到现金。并且使用现金交易的大多是岁数偏大的人群。因此对于这类人群取款的安全需要进行重点保障。

目前取款机周边环境监控主要依靠安装在天花板上的摄像机和ATM上的针孔摄像头进行实时监控录像，上班时间内是通过人工进行判读，但是ATM是24h开放的，因此在下班后进行录像，并将全天视频进行保存，以便发生安全事故是需要调取视频取证。现在的安全监控设施能够基本保证安全以及事故发生后的及时解决。但是并不能对于取款人进行预告报警从而在第一时间避免事故的发生，大部分情况下甚至由于工作人员松散缺乏后台管理。

现有的技术利用人工进行判读，但是由于上班一直盯着后台监控的时间很长、视频录像长度往往非常大和保存天数有限，因此判读精度完全依靠操作人员目测识别，难以得到保证，且判读结果具有人的主观性。目前国内也没有针对金融取款这类的智能视频监控设备。

发明内容

本发明提供一种取款人周边环境智能监控识别方法、装置及介质，能够实时对取款区域内的人与物进行监控，并且对人的行为进行自动检测和识别。

为实现上述技术目的，本发明采用如下技术方案：

一种取款人周边环境智能监控识别方法，包括视频监控、目标跟踪、交互行为检测和交互行为识别；

所述目标跟踪为：当视频监控到ATM取款机周边有人进入时，采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪，得到包括多目标跟踪轨迹的跟踪视频；

所述交互行为检测为：从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF，并构建组合特征HOM；根据组合特征HOM，通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点；根据面部头像及特征点，判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常，并在异常的情况下，基于方向光流直方图特征HOOF对其进行交互行为检测；

所述交互行为识别为：若交互行为检测的结果为某个人体目标存在交互行为，则进一步判别该交互行为的类型。

进一步的，多目标跟踪具体为：

首先，使用K-L变换矩阵对监控视频中的各帧图像进行降维处理，得到仅包括人体目标的视频；所述K-L变换矩阵，是预先以监控视频训练样本各帧图像中已知的人体分类信息构建得到；然后，通过基于Metropolis-Hastings采样的蒙特卡洛算法对上一步得到的视频进行多目标跟踪，并在跟踪过程中采用非极大值抑制法消除视频每帧图像中多余的目标检测框，多目标跟踪得到包括目标跟踪轨迹的跟踪视频。

进一步的，在多目标跟踪的过程中，按以下步骤采用非极大值抑制法消除视频每帧图像中多余的目标检测框：

（1）设该帧图像的所有目标检测框构成初始的数据集A；

（2）从数据集A中取出概率最大的目标检测框，计算数据集A中每个目标检测框分别与概率最大目标检测框之间交并比IOU，将其中交并比IOU大于预设阈值

的目标检测框从数据集A删除，并将概率最大的目标检测框存入数据集B；

（3）重复执行步骤（2），直到数据集A为空；

（4）将数据集B中所有目标检测框保留在图像中，并将图像中其他目标检测框删除。

进一步的，在多目标跟踪的过程中，在视频每帧消除多余目标检测框后，按以下步骤采用贪婪算法消除错误轨迹关联：

对视频帧的每个目标检测框：均计算其与上一帧中每个目标检测框的交并比IOU，取其中最大值

与预设阈值

比较：若最大值

，则将该目标检测框加入

对应的目标检测框所在的目标轨迹中；若最大值

，则以将该目标检测框作为起点生成一条新的目标轨迹；

对于任一条目标轨迹，若跟踪时间大于预设阈值

，则将该目标轨迹视为一条跟踪轨迹，否则视为错误轨迹。

进一步的，根据面部头像及特征点，判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常，并在异常的情况下，基于方向光流直方图特征HOOF对视频帧中是否存在交互行为进行检测，具体判断方法为：

（1）根据面部头像在视频帧的特征点坐标，计算头部姿态，即头部在世界坐标系相对于各坐标轴的角度偏移；设目光视线为直视前方，则目光角度与头部姿态的角度偏移相同；

（2）若人体目标的目光角度视线上欧式距离最近的物体是取款人，则对该人体目标进行交互力计算：

式中，

为人体目标的交互力，

，表示将人体目标看作一个质量为1的质点，

为人体目标在坐标

的实际速度，

为松弛系数，

为人体目标在社会力模型中的期望速度，

为人体目标在坐标

的光流，通过提取方向光流直方图特征HOOF 时计算得到；

为人体目标的恐慌系数；

为人体目标在坐标

的平均时空光流；

（3）计算视频帧中所有人体目标的交互力，统计8个方向区间各自的交互力数量

，得到交互力的方向直方图

，并对方向直方图

进行归一化处理：

（4）对归一化后的方向直方图进行信息熵的计算：

；

（5）将步骤（4）计算得到的信息熵与预设的异常阈值比较，若超过异常阈值，则判断该人体目标存在人体交互行为。

进一步的，交互行为类型的判断方法为：将跟踪视频进行预处理，然后输入至预先构建和训练得到的交互行为识别器进行交互行为类型识别；

所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层；所述自组织映射层采用栈式降噪自编码神经网络，由多个自编码神经网络级联进行特征提取，最终输出跟踪视频中各人体目标的姿态序列；所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列，输出为跟踪视频中的交互行为类型；所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。

一种取款人周边环境智能监控识别装置，包括：目标跟踪模块、交互行为检测模块、交互行为识别模块；

所述目标跟踪模块，用于：当视频监控到ATM取款机周边有人进入时，采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪，得到包括多目标跟踪轨迹的跟踪视频；

所述交互行为检测模块，用于：从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF，并构建组合特征HOM；根据组合特征HOM，通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点；根据面部头像及特征点，判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常，并在异常的情况下，基于方向光流直方图特征HOOF对其进行交互行为检测；

所述交互行为识别模块，用于：若交互行为检测的结果为某个人体目标存在交互行为，则进一步判别该交互行为的类型。

进一步的，所述根据面部头像及特征点，判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常，具体判断方法为：

式中，

为人体目标的交互力，

，表示将人体目标看作一个质量为1的质点，

为人体目标在坐标

的实际速度，

为松弛系数，

为人体目标在社会力模型中的期望速度，

为人体目标在坐标

的光流，通过提取方向光流直方图特征 HOOF时计算得到；

为人体目标的恐慌系数；

为人体目标在坐标

的平均时空光流；

，得到交互力的方向直方图

，并对方向直方图

进行归一化处理：

（4）对归一化后的方向直方图进行信息熵的计算：

；

进一步的，交互行为类型的判断方法为：将跟踪视频进行预处理，然后输入至预先构建和训练得到的交互行为识别器进行识别；

一种计算机存储介质，包括计算机程序，所述计算机程序被处理器执行时实现上述任一技术方案所述的一种取款人周边环境智能监控识别方法。

本发明的有益效果为：能够实现实时对取款区域内人-物进行监控，能够对人的行为进行识别，预防犯罪。以及在事故发生后将录像图片第一时间发送给警方，方便警方利用此图片进行人脸识别等数据对比。

附图说明

图1是本发明实施例所述方法的流程图；

图2是本发明实施例所述多目标跟踪的技术线路图；

图3是本发明实施例所述交互行为检测的技术线路图；

图4是本发明实施例所述交互行为识别的技术线路图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例以本发明的技术方案为依据开展，给出了详细的实施方式和具体的操作过程，对本发明的技术方案作进一步解释说明。

实施例1

本发明提供一种取款人周边环境智能监控识别方法，如图1所示，包括视频监控、目标跟踪、交互行为检测和交互行为识别。

所述目标跟踪为：当视频监控到ATM取款机周边有人进入时，采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪，得到包括多目标跟踪轨迹的跟踪视频。

多目标跟踪在行为识别过程中尤其重要，如果没有可靠的跟踪准确性，就不能保证最终行为识别的精度。目前大多数多目标跟踪算法尽可能不考虑目标被遮挡的情况。项目拟通过定义复杂场景下的人体目标强度映射关系图，采用马尔科夫蒙特卡洛理论拟合出人体目标位置，并通过基于映射关系图的贪婪算法消除多人目标之间的错误轨迹关联，得出多人目标跟踪结果。技术路线图如图2所示。

在多目标跟踪过程中，首先将视频信息输入后利用K-L变换进行特征的提取。K-L变换的流程主要是先根据原图像特征建立一个包含分类判别信息的协方差矩阵作为K-L变换的产生矩阵，然后求解该协方差矩阵的特征值与特征向量，并进行排列。最后选取前n个特征值和其对应的特征向量组成K-L变换矩阵。通过特征的线性组合实现对原图数据的降维处理，从而得到图像的特征映射图。

然后通过基于Metropolis-Hastings采样的蒙特卡洛算法对上一步得到的视频进行多目标跟踪：

通过Metropolis-Hastings采样法来构造一个平稳的马尔科夫链，基于其中的样本进行统计推断。通过选取上一帧图像中的行人动作状态来初始化马尔科夫链的首个粒子。并由此开始迭代抽样（对不同时刻

，循环过程对状态

采样），获得

个抽样,根据此抽样和抽样建议函数得到提议抽样

。

其中，候选样本的接受率为：

为给定的满足平稳分布条件的

时刻状态概率分布函数，

为抽样建议函数，

为t时刻离散抽样的后验概率分布，

为观测序列（在1~t时刻下，根据提议抽样是否接受的结果得到的不同的行人状态作为观察序列。）。

如果接受率大于1，就接受提议抽样，把提议抽样加进马尔可夫链,接受率小于1则以

的概率接受抽样。若抽样结果被拒绝,就把前一个抽样作为当前抽样：

。总共抽样

次完成一个t时刻平稳分布为

的马尔可夫链的构造。

在输入图像后，t时刻的预测位置由t-1时刻抽样的

个粒子计算得出。

系统的状态预测方程为：

。

若已知t-1时刻的

个样本，可得t时刻状态的概率

t时刻的目标跟踪位置为

。

由于同一个人体目标在跟踪过程中，在目标附近会得到若干个概率略小于真实目标的采样样本，因此本实施例在多目标跟踪的过程中，按以下步骤采用非极大值抑制法消除视频每帧图像中多余的目标检测框：

（1）设该帧图像的所有目标检测框构成初始的数据集A；

（3）重复执行步骤（2），直到数据集A为空；

在得到当前图像目标和之前各帧图像目标位置和信息后，在跟着过程中还要判断跟踪目标是前面已检测的目标还是新出现的目标，或是已经从图像中消失。因此，本实施例在视频每帧消除多余目标检测框后，按以下步骤采用贪婪算法消除错误轨迹关联：

与预设阈值

比较：若最大值

，则将该目标检测框加入

对应的目标检测框所在的目标轨迹中；若最大值

，则以将该目标检测框作为起点生成一条新的目标轨迹；

对于任一条目标轨迹，若跟踪时间大于预设阈值

，则将该目标轨迹视为一条跟踪轨迹，否则视为错误轨迹。本实施例将预设阈值

设置为45帧图像对应的时间。

所述交互行为检测为：从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF，并构建组合特征HOM；根据组合特征HOM，通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点；根据面部头像及特征点，判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常，并在异常的情况下，基于方向光流直方图特征HOOF对其进行交互行为检测。

1、组合特征HOM的构建

针对取款环境下人-人或者人-物遮挡和低分辨率的情况下，由人-人或者人-物相对运动距离将运动边界直方图（MBH）多层金字塔结构特征和方向光流直方图(HOOF)特征组合构成新的组合特征HOM(Histogram of Multi-feature)，通过卷积神经网络算法检测出人体头部和图像中的其他物品。通过建立头部姿态和目光角度的空间概率映射模型，进而分析人体注意力视线范围，在注意力视线范围与社会交互力模型基础上，利用各行为人社会交互力方向直方图检测人体交互行为。如图3所示。

HOOF（Histogram of Oriented Optical Flow）特征是可以通过这一帧图像中的光流的直方图来体现出人的运动信息。本发明将监控的图像输入后可以得到光流方向信息直方图，然后根据直方图计算其光流场。光流场可以反映图像中像素点的灰度变化趋势，这是一种对实际运动的拟合估计。我们将

作为输入视频中t时刻（x,y）处的灰度值，b 和c为光流矢量沿两个坐标轴x轴和y轴的分量。当在

时，a点（x,y）的坐标变为

,则此时刻的灰度为

。

因为这是两帧图像中相互对应的同一个点，所以可以由光流约束方程的得到

在此基础上我们令增量

无限趋近于0，利用泰勒展开式对此方程求解得：

B和C分别表示像素在x轴和y轴上的运动速度；

为图像在x方向和y方向的梯度。

为图像灰度对时间的变化量。

由此得到B和C两个光流矢量的关系，再转换成矩阵的形式：

这样就可以解出运动速度B和C，得到这个区域的光流方向直方图，再将图像每个区域的光流方向直方图串联得到最终图像的HOOF特征。

由于在取款时异常行为发生都是大幅度，速度快的动作，但是用大窗口来捕捉大幅度的运动时经常会打破一致的运动假设使得上述算法不适用。因此为了规避这个问题，本申请中拟采用多层金字塔结构的特征。

因为当检测目标的运动速度较大时，算法会出现较大的误差。所以我们需要降低图像中检测目标的速度。在本申请中我们缩小图像的尺寸来降低速度。假设当图像为

时，物体速度为

，那么图像缩小为

时，速度变为

。所以在原图像进行多次缩放后，算法可以适用了。所以MBH特征可以通过生成原图像的金字塔图像，逐层求解，不断精确来求得。假设A和B是两张灰度图像，对于图像上每个像素点的灰度值定义为：

和

，其中

是图像上像素点的图像坐标。

在实际场景中图像A和图像B代表前后两帧图像。对于图像特征点金字塔跟踪来说的目的是：对于前一帧的图像A上一点

，要在后一帧图像B上找到一点

与之相对应，也就是灰度值最接近。

就是图像在点a处的运动速度。

构造金字塔时令

是第 0 层的图像，为分辨率最高的图像，图像的宽度和高度分别定义为

和

。以一种递归的方式建立金字塔,令L =1,2,3,4来代表金字塔的层数。G(L−1)是第L−1层的图像，

和

分别是图像G(L−1)的宽度和高度。图像G(L)可按如下方式由G(L−1)求得：

接下来就是在构造好的金字塔中进行特征跟踪。设

是图像中像素点a 在第L层对应点的坐标。根据上一步中图像金字塔的定义，可以计算出

。设从第L+1层传递到L层光流计算初值为

, 最上层的变换矩阵为

；

L层上的匹配误差为

，其中

为第L层的光流值，

为第L层进行仿射变换的变换矩阵，图像

和

是原始图像在 L层上采样出来的图像，基于这层中的光流和仿射矩阵初值

和

可以计算出两个对应图像：

将该层上计算出的光流

和变换矩阵

传递给下一层，计算出下一层的假设初值：

设顶层时的初始为:

我们的目标是计算出流

和仿射变换矩阵

从而使误差

最小。首先将上一层的光流d和A传给这一层，计算这一帧图像中像素点的光照，同时计算出图像在该点x方向和 y方向上的偏导，

得到空间梯度矩阵

, 更新光流

。

通过计算后一帧图像中对应像素点的灰度，计算两帧图像间相同位置点的灰度值之差，再计算图像之间的误差向量和针对仿射光流进行迭代计算更新特征的跟踪结果：

η为计算仿射光流时的值，直到

小于我们设定的某个阈值，结束在这一层的迭代过程。

由此可以剔除像素密集区域中的一些像素，确保图像中相邻像素的距离都大于给定的阈值。上述操作完成后，图像中剩下的像素即为选择的特征点，并作为跟踪特征点，得到多层金字塔结构的特征（用来进行行人检测和行为识别的光流特征）。

MBH特征的提取方法是将x方向和y方向上的光流图像视作两张灰度图像，然后提取这些灰度图像的梯度直方图，以此来的到运动物体的边界信息。

方向梯度的实现是首先用[-1,0,1]梯度算子对原图像做卷积运算，得到x方向的梯度分量gradscalx，然后用

梯度算子对原图像做卷积运算，得到y方向的梯度分量gradscaly。然后再用以下公式计算该像素点的梯度大小和方向：

式中，

，

，

分别表示输入图像中像素点

处的水平方向梯度和像素值。像素点

处的梯度幅值和梯度方向分别为：

在计算机中将上面的方向梯度，按着直方图的参数设置进行画图，其中梯度的大小在统计数量中呈线性关系，比如梯度大小为1，则直方图对应增加1个单位。把单个cell对应的方向直方图转换为单维向量，也就是按规定组距对对应方向梯度个数进行编码。由此得到单个cell的特征，每个block（扫描窗口）包含2*2个cell，根据图像中block数得出整个图像的特征数量。这样将一幅直观的梯度图通过分解提取变为计算机容易理解的特征向量。

以上工作为MBH法对输入视频提取的主要信息特征，最后得到对应的行人的由方向梯度直方图提取到的特征向量。

从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF后，即可将其组建构成组合特征HOM。

2、提取面部头像及其特征点

将上述构建得到的组合特征HOM，输入至预先训练好的卷积神经网络中，以判断其中每个人体目标的面部头像及其特征点，特征点例如为鼻头、下巴、左眼左眼角、右眼右眼角、左嘴角和右嘴角等，即可用于下一步利用特征点的坐标来获得人体目标的头部姿态和目光角度。

3、人体姿态估计

头部的任意姿态可以转化为以下参数（欧拉角）：围绕Y轴的旋转角yaw, 围绕Z轴的旋转角roll, 围绕X轴的旋转角pitch),均为旋转参数（X为水平方向横轴，Y为竖直方向坐标轴，Z为垂直X,Y的坐标轴，构成三维坐标系。也就是笛卡尔直角坐标系）。旋转参数需要构成旋转矩阵，三个参数分别对应了绕y轴旋转的角度、绕z轴旋转的角度和绕x轴旋转的角度。确定头部姿态就是利用一个标定好的摄像机，利用视频中的每一帧二维图像建立坐标系，并且将其中的人脸点集坐标利用变换矩阵进行三维世界坐标系中3D模型的n个点的坐标求解。从而得到三维世界系中的点坐标。

首先根据已获得的人脸特征点进行其在二维图像上的坐标获取，例如鼻头、下巴、左眼左眼角、右眼右眼角、左嘴角和右嘴角。然后可以设置这六个关键点对应的三维坐标（在三维坐标系中，为了将3D模型放在屏幕中间，可以取坐标原点（0，0，0）为屏幕中心位置，由此我们可以设置3D模型的鼻头坐标为（0，0，0），同理可以进行其他几个特征点的三维坐标设置）。再设定相机的焦距和图像的中心位置分别为图像的宽度和坐标(w/2,h/2),w为图像的宽度，h为图像的高度，获得相机的内参数矩阵。

世界坐标系中的三维点(U,V,W)通过旋转矩阵R和平移向量t映射到相机坐标系(X,Y,Z)， (X,Y,Z)再通过相机的内参数矩阵映射得到图像坐标系(x,y)。转换关系如下：

世界坐标系到相机坐标系：

相机坐标系到图像坐标系:

。

为已知的相机内部参数矩阵，s=Z,（x,y）为已知的二维图像上的特征点坐标。在三维世界坐标系取六个对应的特征点坐标，则通过第二个转换公式（相机坐标系到图像坐标系），已知六个特征点的二维坐标和相机内部参数，求得相机坐标系的该特征点坐标（X,Y,Z）。再根据6个特征点(X,Y,Z)坐标和其在世界坐标系中对应的6个设定的坐标(U, V,W)，通过第一个转换公式，求解旋转矩阵R。

最后利用旋转矩阵R求解围绕坐标轴旋转的角度：

设

, 则：

为头部绕X轴旋转为抬头低头的幅度，

为绕Y轴旋转为左右摇头的幅度，

为绕Z轴旋转为转头的幅度。由此可以得到头部的角度偏移和目光的角度。每个跟踪目标的注意力视线范围也就明确了。

4、交互行为检测

4.1头部姿态和目光角度的异常判断

在大多数情况下人的视线方向是与头部方向是一致的。一般在我们感兴趣的东西出现后，先通过转动眼睛观察，再转动头部面对目标。因此我们只需要在一定的时间内估计人的视线方向进行分析。通过确定好的头部姿态和目光角度选取目光视线。在检测图像中，选取目光视线上的物体。计算在图像中，各目光视线上的物体与头部中心点的欧式距离，选取距离最近的作为目光注视目标。其中，两点的欧氏距离的计算方法为：

式中，

和

分别为物体中心点的坐标和人头部中心点的坐标。

将最初的视线方向与水平轴夹角作为

。然后设定一个视线范围

，在

的角度范围内进行搜索物体。修改后的视线夹角作为

。最后将该物体的中心点作为目光的注视位置来修改视线方向，得到行人的注意力视线。如果得到的目光视线结果是我们的取款人，视为该人体目标的头部姿态和目光角度异常。

4.2，交互力计算

通过之前的特征提取获取的图像的光流信息进行社会交互力的计算。在使用视频中的光流信息获取图像中像素点的强度随时间的变化从而推断出物体的运动速度，也就是前面HOOF特征提取中获得的B和C像素在x轴和y轴上的运动速度矢量B和C，将

处的光流表示为

。在社会力模型中行人受到自驱动力和外界作用力的合力。

若人体目标的目光角度视线上欧式距离最近的物体是取款人，则对该人体目标进行交互力计算：

式中，

为人体目标的交互力，

表示将人体目标看作一个质量为1的质点，

为人体目标在坐标

的实际速度，

为松弛系数，

为人体目标在社会力模型中的期望速度，

为人体目标在坐标

的光流，通过提取方向光流直方图特征HOOF时计算得到；

为人体目标的恐慌系数；

为人体目标在坐标

的平均时空光流。

4.3视频帧人体目标交互力的信息熵计算

计算视频帧中所有人体目标的交互力，统计8个方向区间各自的交互力数量

，得到交互力的方向直方图

，并对方向直方图

进行归一化处理：

4.4，根据信息熵判断是否存在人体交互行为

将上一步4.3计算得到的信息熵

与预设的异常阈值比较，若超过异常阈值（本实施例阈值为2.4），则判断该人体目标存在人体交互行为。

所述交互行为识别为：若交互行为检测的结果为某个人体目标存在交互行为，则进一步判别该交互行为的类型：将跟踪视频进行预处理，即将每帧图像按预设要求进行缩放并把所有像素值作为一个行向量保存，并输入至预先构建和训练得到的交互行为识别器进行交互行为类型识别。

本实施例的交互行为识别器架构包括自组织映射层和马尔科夫逻辑网识别层的深度结构。如图4所示，所述自组织映射层采用栈式降噪自编码神经网络，由多个自编码神经网络级联进行特征提取，最终输出跟踪视频中各人体目标的姿态序列；所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列，输出为跟踪视频中的交互行为类型（交互行为类型主要包括击打和抢夺）；所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。

在计算机中通过使用图像预处理后的多人行为训练集来训练我们的栈式降噪自编码神经网络。栈式降噪自编码神经网络由多个自编码神经网络级联，逐层提取特征，前一个编码神经网络的输出为下一个神经网络的输入。将最后得到的特征输入分类器，且栈式降噪自编码神经网络在训练时对部分输入进行“破坏”，使得训练出的神经网络即使输入的时特征不全的图像也能得到正确的人体交互行为的结果，便于我们提取特征向量序列。

构建一个栈式降噪自编码神经网络需要设计其隐层层数及每层节点数和它的学习率。为了得到一个适合的节点数量,我们先设一个3层的BP神经网络,然后随机设定其输入层节点数，让隐层节点数逐渐递增,迭代次数也逐渐增加。根据其节点参数图当得到一个合适的节点数和上下层节点数比例。

再采用自适应学习率更新算法获取合适的学习率的值

表示t时刻的学习率，T和B分别为学习率的上限值和下限值，

是t时刻的均方误差，

是t时刻和t-1时刻均方误差的差值。

再利用多人视频训练集对网络进行训练后就获得了所需要的栈式降噪自编码神经网络。

在实际场景中，将人体行为的视频输入后经过预处理进入神经网络后,人体行为视频就变成了一个姿态序列。

得到我们的行为视频集的姿态序列后，在马尔科夫逻辑网中构建一阶逻辑规则

。一阶逻辑知识库可看作是在一个可能世界的集合上建立一系列硬性规则,即如果一个世界违反了其中的某一条规则,那么这个世界的存在概率即为0。对马尔科夫逻辑网中对各种逻辑规制附加权重

，得到一个二元数组

。再附加一组有限常量集

一起定义了一个马尔科夫逻辑网。基本马尔科夫逻辑网概率分布如下：

是

在X中所有为真的逻辑规则的数量，而

是规则

中为真的点，又有

，然后通过最大似然估计的参数学习法对上式中逻辑规则的权重

进行优化。也就是对似然表达式中的

对数似然进行求导：

为世界x中规则

的真值个数，

是在所有可能的世界

中求和。找到其等于0的权重

的值。

再采用自顶向下的结构学习法优化模型的网络结构。马尔可夫逻辑网的结构就是需要附加权重的那些规则的集合。自顶向下的结构每次只学习或修改马尔可夫逻辑网中的一个规制从句。可以用一个空的网络或已有的知识库作为算法初始化的结构,一开始就把逻辑网中数组的所有节点加入到需要学习的马尔可夫逻辑网里。通过在搜索长度为1的从句之前,把所有长度为l的较优从句加入逻辑网中不断地修改模型。

在实际场景运用中，视频在经过第一层自组织映射层输入第二层后，通过马尔可夫逻辑网获得对输入人体姿态为何种动作的概率，通过在马尔可夫逻辑网中设置动作的概率阀值，将概率超过该阈值的姿态输出为该动作。实现对取款环境中异常行为的检测，做到及时的预警。

实施例2

本实施例提供一种取款人周边环境智能监控识别装置，包括：目标跟踪模块、交互行为检测模块、交互行为识别模块。

所述目标跟踪模块，用于：当视频监控到ATM取款机周边有人进入时，采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪，得到包括多目标跟踪轨迹的跟踪视频。

所述交互行为检测模块，有于：从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF，并构建组合特征HOM；根据组合特征HOM，通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点；根据面部头像及特征点，判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常，并在异常的情况下，基于方向光流直方图特征HOOF对其进行交互行为检测。

所述根据面部头像及特征点，判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常，具体判断方法为：

式中，

为人体目标的交互力，

，表示将人体目标看作一个质量为1的质点，

为人体目标在坐标

的实际速度，

为松弛系数，

为人体目标在社会力模型中的期望速度，

为人体目标在坐标

的光流，通过提取方向光流直方图特征HOOF时计算得到；

为人体目标的恐慌系数；

为人体目标在坐标

的平均时空光流；

，得到交互力的方向直方图

，并对方向直方图

进行归一化处理：

（4）对归一化后的方向直方图进行信息熵的计算：

其中，交互行为类型的判断方法为：将跟踪视频进行预处理，然后输入至预先构建和训练得到的交互行为识别器进行识别；

实施例3

本发明还提供一种计算机存储介质，包括计算机程序，所述计算机程序被处理器执行时实现实施例1所述的一种取款人周边环境智能监控识别方法。

以上实施例为本申请的优选实施例，本领域的普通技术人员还可以在此基础上进行各种变换或改进，在不脱离本申请总的构思的前提下，这些变换或改进都应当属于本申请要求保护的范围之内。

Claims

1.一种取款人周边环境智能监控识别方法，其特征在于，包括视频监控、目标跟踪、交互行为检测和交互行为识别；

所述交互行为检测为：从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF，并构建组合特征HOM；根据组合特征HOM，通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点；根据面部头像及特征点，判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常，并在异常的情况下，基于方向光流直方图特征HOOF对视频帧中是否存在交互行为进行检测，具体判断方法为：