CN112528966B - 一种取款人周边环境智能监控识别方法、装置及介质 - Google Patents
一种取款人周边环境智能监控识别方法、装置及介质 Download PDFInfo
- Publication number
- CN112528966B CN112528966B CN202110161295.0A CN202110161295A CN112528966B CN 112528966 B CN112528966 B CN 112528966B CN 202110161295 A CN202110161295 A CN 202110161295A CN 112528966 B CN112528966 B CN 112528966B
- Authority
- CN
- China
- Prior art keywords
- target
- video
- tracking
- human body
- interactive behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/08—Payment architectures
- G06Q20/10—Payment architectures specially adapted for electronic funds transfer [EFT] systems; specially adapted for home banking systems
- G06Q20/108—Remote banking, e.g. home banking
- G06Q20/1085—Remote banking, e.g. home banking involving automatic teller machines [ATMs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种取款人周边环境智能监控识别方法、装置及介质,其方法包括视频监控、目标跟踪、交互行为检测和识别;目标跟踪为:当视频监控到取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;交互行为检测为:从跟踪视频提取特征并构建组合特征,以通过卷积神经网络算法判断人体目标的面部头像及其特征点,进而用于判断头部姿态和目光角度是否异常,并在异常的情况下对其进行交互行为检测;交互行为识别为:若存在交互行为,则进一步判别该交互行为的类型。本发明能够实时对取款区域内的人与物进行监控,并且对人的行为进行自动检测和识别。
Description
技术领域
本发明属于行为识别技术领域,具体涉及一种取款人周边环境智能监控识别方法、装置及介质。
背景技术
随着支付宝微信等支付方式的普及,小额金额越来越少在银行ATM中进行,只有一些金额数量大的交易中容易使用到现金。并且使用现金交易的大多是岁数偏大的人群。因此对于这类人群取款的安全需要进行重点保障。
目前取款机周边环境监控主要依靠安装在天花板上的摄像机和ATM上的针孔摄像头进行实时监控录像,上班时间内是通过人工进行判读,但是ATM是24h开放的,因此在下班后进行录像,并将全天视频进行保存,以便发生安全事故是需要调取视频取证。现在的安全监控设施能够基本保证安全以及事故发生后的及时解决。但是并不能对于取款人进行预告报警从而在第一时间避免事故的发生,大部分情况下甚至由于工作人员松散缺乏后台管理。
现有的技术利用人工进行判读,但是由于上班一直盯着后台监控的时间很长、视频录像长度往往非常大和保存天数有限,因此判读精度完全依靠操作人员目测识别,难以得到保证,且判读结果具有人的主观性。目前国内也没有针对金融取款这类的智能视频监控设备。
发明内容
本发明提供一种取款人周边环境智能监控识别方法、装置及介质,能够实时对取款区域内的人与物进行监控,并且对人的行为进行自动检测和识别。
为实现上述技术目的,本发明采用如下技术方案:
一种取款人周边环境智能监控识别方法,包括视频监控、目标跟踪、交互行为检测和交互行为识别;
所述目标跟踪为:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;
所述交互行为检测为:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测;
所述交互行为识别为:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
进一步的,多目标跟踪具体为:
首先,使用K-L变换矩阵对监控视频中的各帧图像进行降维处理,得到仅包括人体目标的视频;所述K-L变换矩阵,是预先以监控视频训练样本各帧图像中已知的人体分类信息构建得到;然后,通过基于Metropolis-Hastings采样的蒙特卡洛算法对上一步得到的视频进行多目标跟踪,并在跟踪过程中采用非极大值抑制法消除视频每帧图像中多余的目标检测框,多目标跟踪得到包括目标跟踪轨迹的跟踪视频。
进一步的,在多目标跟踪的过程中,按以下步骤采用非极大值抑制法消除视频每帧图像中多余的目标检测框:
(1)设该帧图像的所有目标检测框构成初始的数据集A;
(2)从数据集A中取出概率最大的目标检测框,计算数据集A中每个目标检测框分别与概率最大目标检测框之间交并比IOU,将其中交并比IOU大于预设阈值的目标检测框从数据集A删除,并将概率最大的目标检测框存入数据集B;
(3)重复执行步骤(2),直到数据集A为空;
(4)将数据集B中所有目标检测框保留在图像中,并将图像中其他目标检测框删除。
进一步的,在多目标跟踪的过程中,在视频每帧消除多余目标检测框后,按以下步骤采用贪婪算法消除错误轨迹关联:
对视频帧的每个目标检测框:均计算其与上一帧中每个目标检测框的交并比IOU,
取其中最大值与预设阈值比较:若最大值,则将该目标检测框加入对应的目标检测框所在的目标轨迹中;若最大值,则以将该目标检测框
作为起点生成一条新的目标轨迹;
进一步的,根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对视频帧中是否存在交互行为进行检测,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
式中,为人体目标的交互力,,表示将人体目标看作一个质量为1的质点,为人体目标在坐标的实际速度,为松弛系数,为人体目标在社会力模型中
的期望速度,为人体目标在坐标的光流,通过提取方向光流直方图特征HOOF
时计算得到;为人体目标的恐慌系数;为人体目标在坐标的平均时空
光流;
(4)对归一化后的方向直方图进行信息熵的计算:
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为。
进一步的,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行交互行为类型识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
一种取款人周边环境智能监控识别装置,包括:目标跟踪模块、交互行为检测模块、交互行为识别模块;
所述目标跟踪模块,用于:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;
所述交互行为检测模块,用于:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测;
所述交互行为识别模块,用于:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
进一步的,所述根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
式中,为人体目标的交互力,,表示将人体目标看作一个质量为1的质点,为人体目标在坐标的实际速度,为松弛系数,为人体目标在社会力模型中
的期望速度,为人体目标在坐标的光流,通过提取方向光流直方图特征
HOOF时计算得到;为人体目标的恐慌系数;为人体目标在坐标的平均时
空光流;
(4)对归一化后的方向直方图进行信息熵的计算:
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为。
进一步的,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
一种计算机存储介质,包括计算机程序,所述计算机程序被处理器执行时实现上述任一技术方案所述的一种取款人周边环境智能监控识别方法。
本发明的有益效果为:能够实现实时对取款区域内人-物进行监控,能够对人的行为进行识别,预防犯罪。以及在事故发生后将录像图片第一时间发送给警方,方便警方利用此图片进行人脸识别等数据对比。
附图说明
图1是本发明实施例所述方法的流程图;
图2是本发明实施例所述多目标跟踪的技术线路图;
图3是本发明实施例所述交互行为检测的技术线路图;
图4是本发明实施例所述交互行为识别的技术线路图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
实施例1
本发明提供一种取款人周边环境智能监控识别方法,如图1所示,包括视频监控、目标跟踪、交互行为检测和交互行为识别。
所述目标跟踪为:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频。
多目标跟踪在行为识别过程中尤其重要,如果没有可靠的跟踪准确性,就不能保证最终行为识别的精度。目前大多数多目标跟踪算法尽可能不考虑目标被遮挡的情况。项目拟通过定义复杂场景下的人体目标强度映射关系图,采用马尔科夫蒙特卡洛理论拟合出人体目标位置,并通过基于映射关系图的贪婪算法消除多人目标之间的错误轨迹关联,得出多人目标跟踪结果。技术路线图如图2所示。
在多目标跟踪过程中,首先将视频信息输入后利用K-L变换进行特征的提取。K-L变换的流程主要是先根据原图像特征建立一个包含分类判别信息的协方差矩阵作为K-L变换的产生矩阵,然后求解该协方差矩阵的特征值与特征向量,并进行排列。最后选取前n个特征值和其对应的特征向量组成K-L变换矩阵。通过特征的线性组合实现对原图数据的降维处理,从而得到图像的特征映射图。
然后通过基于Metropolis-Hastings采样的蒙特卡洛算法对上一步得到的视频进行多目标跟踪:
通过Metropolis-Hastings采样法来构造一个平稳的马尔科夫链,基于其中的样
本进行统计推断。通过选取上一帧图像中的行人动作状态来初始化马尔科夫链的首个粒
子。并由此开始迭代抽样(对不同时刻,循环过程对状态采样),获得个抽样,根据此抽
样和抽样建议函数得到提议抽样。
其中,候选样本的接受率为:
由于同一个人体目标在跟踪过程中,在目标附近会得到若干个概率略小于真实目标的采样样本,因此本实施例在多目标跟踪的过程中,按以下步骤采用非极大值抑制法消除视频每帧图像中多余的目标检测框:
(1)设该帧图像的所有目标检测框构成初始的数据集A;
(2)从数据集A中取出概率最大的目标检测框,计算数据集A中每个目标检测框分别与概率最大目标检测框之间交并比IOU,将其中交并比IOU大于预设阈值的目标检测框从数据集A删除,并将概率最大的目标检测框存入数据集B;
(3)重复执行步骤(2),直到数据集A为空;
(4)将数据集B中所有目标检测框保留在图像中,并将图像中其他目标检测框删除。
在得到当前图像目标和之前各帧图像目标位置和信息后,在跟着过程中还要判断跟踪目标是前面已检测的目标还是新出现的目标,或是已经从图像中消失。因此,本实施例在视频每帧消除多余目标检测框后,按以下步骤采用贪婪算法消除错误轨迹关联:
对视频帧的每个目标检测框:均计算其与上一帧中每个目标检测框的交并比IOU,
取其中最大值与预设阈值比较:若最大值,则将该目标检测框加入对应的目标检测框所在的目标轨迹中;若最大值,则以将该目标检测框作为
起点生成一条新的目标轨迹;
所述交互行为检测为:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测。
1、组合特征HOM的构建
针对取款环境下人-人或者人-物遮挡和低分辨率的情况下,由人-人或者人-物相对运动距离将运动边界直方图(MBH)多层金字塔结构特征和方向光流直方图(HOOF)特征组合构成新的组合特征HOM(Histogram of Multi-feature),通过卷积神经网络算法检测出人体头部和图像中的其他物品。通过建立头部姿态和目光角度的空间概率映射模型,进而分析人体注意力视线范围,在注意力视线范围与社会交互力模型基础上,利用各行为人社会交互力方向直方图检测人体交互行为。如图3所示。
HOOF(Histogram of Oriented Optical Flow)特征是可以通过这一帧图像中的
光流的直方图来体现出人的运动信息。本发明将监控的图像输入后可以得到光流方向信息
直方图,然后根据直方图计算其光流场。光流场可以反映图像中像素点的灰度变化趋势,这
是一种对实际运动的拟合估计。我们将作为输入视频中t时刻(x,y)处的灰度值,b
和c为光流矢量沿两个坐标轴x轴和y轴的分量。当在时,a点(x,y)的坐标变为,则此时刻的灰度为。
因为这是两帧图像中相互对应的同一个点,所以可以由光流约束方程的得到
由此得到B和C两个光流矢量的关系,再转换成矩阵的形式:
这样就可以解出运动速度B和C,得到这个区域的光流方向直方图,再将图像每个区域的光流方向直方图串联得到最终图像的HOOF特征。
由于在取款时异常行为发生都是大幅度,速度快的动作,但是用大窗口来捕捉大幅度的运动时经常会打破一致的运动假设使得上述算法不适用。因此为了规避这个问题,本申请中拟采用多层金字塔结构的特征。
因为当检测目标的运动速度较大时,算法会出现较大的误差。所以我们需要降低
图像中检测目标的速度。在本申请中我们缩小图像的尺寸来降低速度。假设当图像为时,物体速度为,那么图像缩小为时,速度变为。所以在原图
像进行多次缩放后,算法可以适用了。所以MBH特征可以通过生成原图像的金字塔图像,逐
层求解,不断精确来求得。假设A和B是两张灰度图像,对于图像上每个像素点的灰度值定义
为:和,其中是图像上像素点的图像坐标。
构造金字塔时令是第 0 层的图像,为分辨率最高的图像,图像的宽度和高
度分别定义为和。以一种递归的方式建立金字塔,令L =1,2,3,4来代表
金字塔的层数。G(L−1)是第L−1层的图像,和分别是图像G(L−1)的宽度和高度。
图像G(L)可按如下方式由G(L−1)求得:
通过计算后一帧图像中对应像素点的灰度,计算两帧图像间相同位置点的灰度值之差,再计算图像之间的误差向量和针对仿射光流进行迭代计算更新特征的跟踪结果:
由此可以剔除像素密集区域中的一些像素,确保图像中相邻像素的距离都大于给定的阈值。上述操作完成后,图像中剩下的像素即为选择的特征点,并作为跟踪特征点,得到多层金字塔结构的特征(用来进行行人检测和行为识别的光流特征)。
MBH特征的提取方法是将x方向和y方向上的光流图像视作两张灰度图像,然后提取这些灰度图像的梯度直方图,以此来的到运动物体的边界信息。
方向梯度的实现是首先用[-1,0,1]梯度算子对原图像做卷积运算,得到x方向的
梯度分量gradscalx,然后用梯度算子对原图像做卷积运算,得到y方向的梯度分
量gradscaly。然后再用以下公式计算该像素点的梯度大小和方向:
在计算机中将上面的方向梯度,按着直方图的参数设置进行画图,其中梯度的大小在统计数量中呈线性关系,比如梯度大小为1,则直方图对应增加1个单位。把单个cell对应的方向直方图转换为单维向量,也就是按规定组距对对应方向梯度个数进行编码。由此得到单个cell的特征,每个block(扫描窗口)包含2*2个cell,根据图像中block数得出整个图像的特征数量。这样将一幅直观的梯度图通过分解提取变为计算机容易理解的特征向量。
以上工作为MBH法对输入视频提取的主要信息特征,最后得到对应的行人的由方向梯度直方图提取到的特征向量。
从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF后,即可将其组建构成组合特征HOM。
2、提取面部头像及其特征点
将上述构建得到的组合特征HOM,输入至预先训练好的卷积神经网络中,以判断其中每个人体目标的面部头像及其特征点,特征点例如为鼻头、下巴、左眼左眼角、右眼右眼角、左嘴角和右嘴角等,即可用于下一步利用特征点的坐标来获得人体目标的头部姿态和目光角度。
3、人体姿态估计
头部的任意姿态可以转化为以下参数(欧拉角):围绕Y轴的旋转角yaw, 围绕Z轴的旋转角roll, 围绕X轴的旋转角pitch),均为旋转参数(X为水平方向横轴,Y为竖直方向坐标轴,Z为垂直X,Y的坐标轴,构成三维坐标系。也就是笛卡尔直角坐标系)。旋转参数需要构成旋转矩阵,三个参数分别对应了绕y轴旋转的角度、绕z轴旋转的角度和绕x轴旋转的角度。确定头部姿态就是利用一个标定好的摄像机,利用视频中的每一帧二维图像建立坐标系,并且将其中的人脸点集坐标利用变换矩阵进行三维世界坐标系中3D模型的n个点的坐标求解。从而得到三维世界系中的点坐标。
首先根据已获得的人脸特征点进行其在二维图像上的坐标获取,例如鼻头、下巴、左眼左眼角、右眼右眼角、左嘴角和右嘴角。然后可以设置这六个关键点对应的三维坐标(在三维坐标系中,为了将3D模型放在屏幕中间,可以取坐标原点(0,0,0)为屏幕中心位置,由此我们可以设置3D模型的鼻头坐标为(0,0,0),同理可以进行其他几个特征点的三维坐标设置)。再设定相机的焦距和图像的中心位置分别为图像的宽度和坐标(w/2,h/2),w为图像的宽度,h为图像的高度,获得相机的内参数矩阵。
世界坐标系中的三维点(U,V,W)通过旋转矩阵R和平移向量t映射到相机坐标系(X,Y,Z), (X,Y,Z)再通过相机的内参数矩阵映射得到图像坐标系(x,y)。转换关系如下:
世界坐标系到相机坐标系:
相机坐标系到图像坐标系:
为已知的相机内部参数矩阵,s=Z,(x,y)为已知的二维图像上的特征点
坐标。在三维世界坐标系取六个对应的特征点坐标,则通过第二个转换公式(相机坐标系到
图像坐标系),已知六个特征点的二维坐标和相机内部参数,求得相机坐标系的该特征点坐
标(X,Y,Z)。再根据6个特征点(X,Y,Z)坐标和其在世界坐标系中对应的6个设定的坐标(U,
V,W),通过第一个转换公式,求解旋转矩阵R。
最后利用旋转矩阵R求解围绕坐标轴旋转的角度:
4、交互行为检测
4.1头部姿态和目光角度的异常判断
在大多数情况下人的视线方向是与头部方向是一致的。一般在我们感兴趣的东西出现后,先通过转动眼睛观察,再转动头部面对目标。因此我们只需要在一定的时间内估计人的视线方向进行分析。通过确定好的头部姿态和目光角度选取目光视线。在检测图像中,选取目光视线上的物体。计算在图像中,各目光视线上的物体与头部中心点的欧式距离,选取距离最近的作为目光注视目标。其中,两点的欧氏距离的计算方法为:
将最初的视线方向与水平轴夹角作为。然后设定一个视线范围,在的
角度范围内进行搜索物体。修改后的视线夹角作为。最后将该物体的中心点作为目光的
注视位置来修改视线方向,得到行人的注意力视线。如果得到的目光视线结果是我们的取
款人,视为该人体目标的头部姿态和目光角度异常。
4.2,交互力计算
通过之前的特征提取获取的图像的光流信息进行社会交互力的计算。在使用视频
中的光流信息获取图像中像素点的强度随时间的变化从而推断出物体的运动速度,也就是
前面HOOF特征提取中获得的B和C像素在x轴和y轴上的运动速度矢量B和C,将处的光
流表示为。在社会力模型中行人受到自驱动力和外界作用力的合力。
若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
式中,为人体目标的交互力,表示将人体目标看作一个质量为1的质点,
为人体目标在坐标的实际速度,为松弛系数,为人体目标在社会力模型中的期
望速度,为人体目标在坐标的光流,通过提取方向光流直方图特征HOOF时计
算得到;为人体目标的恐慌系数;为人体目标在坐标的平均时空光流。
4.3视频帧人体目标交互力的信息熵计算
4.4,根据信息熵判断是否存在人体交互行为
所述交互行为识别为:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型:将跟踪视频进行预处理,即将每帧图像按预设要求进行缩放并把所有像素值作为一个行向量保存,并输入至预先构建和训练得到的交互行为识别器进行交互行为类型识别。
本实施例的交互行为识别器架构包括自组织映射层和马尔科夫逻辑网识别层的深度结构。如图4所示,所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型(交互行为类型主要包括击打和抢夺);所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
在计算机中通过使用图像预处理后的多人行为训练集来训练我们的栈式降噪自编码神经网络。栈式降噪自编码神经网络由多个自编码神经网络级联,逐层提取特征,前一个编码神经网络的输出为下一个神经网络的输入。将最后得到的特征输入分类器,且栈式降噪自编码神经网络在训练时对部分输入进行“破坏”,使得训练出的神经网络即使输入的时特征不全的图像也能得到正确的人体交互行为的结果,便于我们提取特征向量序列。
构建一个栈式降噪自编码神经网络需要设计其隐层层数及每层节点数和它的学习率。为了得到一个适合的节点数量,我们先设一个3层的BP神经网络,然后随机设定其输入层节点数,让隐层节点数逐渐递增,迭代次数也逐渐增加。根据其节点参数图当得到一个合适的节点数和上下层节点数比例。
再采用自适应学习率更新算法获取合适的学习率的值
再利用多人视频训练集对网络进行训练后就获得了所需要的栈式降噪自编码神经网络。
在实际场景中,将人体行为的视频输入后经过预处理进入神经网络后,人体行为视频就变成了一个姿态序列。
得到我们的行为视频集的姿态序列后,在马尔科夫逻辑网中构建一阶逻辑规则 。一阶逻辑知识库可看作是在一个可能世界的集合上建立一系列硬性规则,即如果一个
世界违反了其中的某一条规则,那么这个世界的存在概率即为0。对马尔科夫逻辑网中对各
种逻辑规制附加权重,得到一个二元数组。再附加一组有限常量集
一起定义了一个马尔科夫逻辑网。基本马尔科夫逻辑网概率分布如下:
再采用自顶向下的结构学习法优化模型的网络结构。马尔可夫逻辑网的结构就是需要附加权重的那些规则的集合。自顶向下的结构每次只学习或修改马尔可夫逻辑网中的一个规制从句。可以用一个空的网络或已有的知识库作为算法初始化的结构,一开始就把逻辑网中数组的所有节点加入到需要学习的马尔可夫逻辑网里。通过在搜索长度为1的从句之前,把所有长度为l的较优从句加入逻辑网中不断地修改模型。
在实际场景运用中,视频在经过第一层自组织映射层输入第二层后,通过马尔可夫逻辑网获得对输入人体姿态为何种动作的概率,通过在马尔可夫逻辑网中设置动作的概率阀值,将概率超过该阈值的姿态输出为该动作。实现对取款环境中异常行为的检测,做到及时的预警。
实施例2
本实施例提供一种取款人周边环境智能监控识别装置,包括:目标跟踪模块、交互行为检测模块、交互行为识别模块。
所述目标跟踪模块,用于:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频。
所述交互行为检测模块,有于:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测。
所述根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
式中,为人体目标的交互力,,表示将人体目标看作一个质量为1的质点,为人体目标在坐标的实际速度,为松弛系数,为人体目标在社会力模型中的期望速度,为人体目标在坐标的光流,通过提取方向光流直方图特征HOOF时计算得到;为人体目标的恐慌系数;为人体目标在坐标的平均时空光流;
(4)对归一化后的方向直方图进行信息熵的计算:
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为。
其中,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
所述交互行为识别模块,用于:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
实施例3
本发明还提供一种计算机存储介质,包括计算机程序,所述计算机程序被处理器执行时实现实施例1所述的一种取款人周边环境智能监控识别方法。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。
Claims (8)
1.一种取款人周边环境智能监控识别方法,其特征在于,包括视频监控、目标跟踪、交互行为检测和交互行为识别;
所述目标跟踪为:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;
所述交互行为检测为:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对视频帧中是否存在交互行为进行检测,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
式中,为人体目标的交互力,,表示将人体目标看作一个质量为1的质点,为人体目标在坐标的实际速度,为松弛系数,为人体目标在社会力模型中的期望速度,为人体目标在坐标的光流,通过提取方向光流直方图特征HOOF时计算得到;为人体目标的恐慌系数;为人体目标在坐标 的平均时空光流;
(4)对归一化后的方向直方图进行信息熵的计算:
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为;
所述交互行为识别为:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
2.根据权利要求1所述的一种取款人周边环境智能监控识别方法,其特征在于,多目标跟踪具体为:
首先,使用K-L变换矩阵对监控视频中的各帧图像进行降维处理,得到仅包括人体目标的视频;所述K-L变换矩阵,是预先以监控视频训练样本各帧图像中已知的人体分类信息构建得到;然后,通过基于Metropolis-Hastings采样的蒙特卡洛算法对上一步得到的视频进行多目标跟踪,并在跟踪过程中采用非极大值抑制法消除视频每帧图像中多余的目标检测框,多目标跟踪得到包括目标跟踪轨迹的跟踪视频。
5.根据权利要求1所述的一种取款人周边环境智能监控识别方法,其特征在于,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行交互行为类型识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
6.一种取款人周边环境智能监控识别装置,其特征在于,包括:目标跟踪模块、交互行为检测模块、交互行为识别模块;
所述目标跟踪模块,用于:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;
所述交互行为检测模块,用于:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测;
所述根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
式中,为人体目标的交互力,,表示将人体目标看作一个质量为1的质点,为人体目标在坐标的实际速度,为松弛系数,为人体目标在社会力模型中的期望速度,为人体目标在坐标的光流,通过提取方向光流直方图特征HOOF时计算得到;为人体目标的恐慌系数;为人体目标在坐标 的平均时空光流;
(4)对归一化后的方向直方图进行信息熵的计算:
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为;
所述交互行为识别模块,用于:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
7.根据权利要求6所述的一种取款人周边环境智能监控识别装置,其特征在于,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
8.一种计算机存储介质,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种取款人周边环境智能监控识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110161295.0A CN112528966B (zh) | 2021-02-05 | 2021-02-05 | 一种取款人周边环境智能监控识别方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110161295.0A CN112528966B (zh) | 2021-02-05 | 2021-02-05 | 一种取款人周边环境智能监控识别方法、装置及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528966A CN112528966A (zh) | 2021-03-19 |
CN112528966B true CN112528966B (zh) | 2021-05-14 |
Family
ID=74975510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110161295.0A Active CN112528966B (zh) | 2021-02-05 | 2021-02-05 | 一种取款人周边环境智能监控识别方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528966B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158813A (zh) * | 2021-03-26 | 2021-07-23 | 精英数智科技股份有限公司 | 流动目标实时统计方法及装置 |
CN113379930B (zh) * | 2021-05-25 | 2023-03-24 | 广州紫为云科技有限公司 | 通过人体曲线图进行的沉浸式交互方法、装置及存储介质 |
CN113435362B (zh) * | 2021-06-30 | 2024-07-12 | 平安科技(深圳)有限公司 | 异常行为检测方法、装置、计算机设备及存储介质 |
CN115357645B (zh) * | 2022-09-05 | 2023-09-01 | 杭州思拓瑞吉科技有限公司 | 基于金字塔加权的能量管理系统时序数据在线采样方法 |
CN115658946B (zh) * | 2022-10-31 | 2023-05-09 | 四川港投川南港务运营(集团)有限公司 | 基于5g互联网的监控数据可视化方法及系统 |
CN116309590B (zh) * | 2023-05-22 | 2023-08-04 | 四川新迎顺信息技术股份有限公司 | 一种基于人工智能的视觉计算方法、系统、电子设备和介质 |
CN116363566B (zh) * | 2023-06-02 | 2023-10-17 | 华东交通大学 | 一种基于关系知识图的目标交互关系识别方法 |
CN116863399B (zh) * | 2023-07-06 | 2024-06-21 | 迁安市超卓电子工程有限公司 | 一种基于人工智能的网络安全监控系统及方法 |
CN117255180B (zh) * | 2023-11-20 | 2024-02-09 | 山东通广电子股份有限公司 | 一种智能安全监控设备及监控方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871775A (zh) * | 2019-01-22 | 2019-06-11 | 北京影谱科技股份有限公司 | 一种基于行为检测的滑冰场监控方法和装置 |
CN110399808A (zh) * | 2019-07-05 | 2019-11-01 | 桂林安维科技有限公司 | 一种基于多目标跟踪的人体行为识别方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101692281A (zh) * | 2009-06-03 | 2010-04-07 | 北京中星微电子有限公司 | 一种安全监控方法、安全监控装置及自动柜员机系统 |
CN109377682A (zh) * | 2018-11-21 | 2019-02-22 | 南京晓庄学院 | 一种面部姿态异常识别报警atm取款机装置 |
CN110322473A (zh) * | 2019-07-09 | 2019-10-11 | 四川大学 | 基于显著部位的目标抗遮挡跟踪方法 |
-
2021
- 2021-02-05 CN CN202110161295.0A patent/CN112528966B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871775A (zh) * | 2019-01-22 | 2019-06-11 | 北京影谱科技股份有限公司 | 一种基于行为检测的滑冰场监控方法和装置 |
CN110399808A (zh) * | 2019-07-05 | 2019-11-01 | 桂林安维科技有限公司 | 一种基于多目标跟踪的人体行为识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112528966A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112528966B (zh) | 一种取款人周边环境智能监控识别方法、装置及介质 | |
CN111274916B (zh) | 人脸识别方法和人脸识别装置 | |
CN111079655B (zh) | 一种基于融合神经网络的视频中人体行为识别方法 | |
CN111819568B (zh) | 人脸旋转图像的生成方法及装置 | |
CN111783748B (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN102013011B (zh) | 基于正脸补偿算子的多姿态人脸识别方法 | |
CN107818326A (zh) | 一种基于场景多维特征的船只检测方法及系统 | |
CN109255298A (zh) | 一种动态背景中的安全帽检测方法与系统 | |
CN104036546A (zh) | 一种基于自适应形变模型的任意视角人脸三维重构方法 | |
CN110298265A (zh) | 一种基于yolo神经网络的电梯中特定目标检测方法 | |
CN112581540B (zh) | 一种大场景下基于人体姿态估计的相机标定方法 | |
CN101950448B (zh) | Atm的伪装与偷窥行为检测的方法和系统 | |
CN110826575A (zh) | 一种基于机器学习的水下目标识别方法 | |
CN116363748A (zh) | 基于红外-可见光图像融合的电网现场作业一体管控方法 | |
CN114596622A (zh) | 基于对比知识驱动的虹膜与眼周对抗自适应融合识别方法 | |
CN112926522A (zh) | 一种基于骨骼姿态与时空图卷积网络的行为识别方法 | |
CN117541994A (zh) | 一种密集多人场景下的异常行为检测模型及检测方法 | |
Zhao et al. | Artificial intelligence system based on the layout effect of both sides in volleyball matches | |
CN115984439A (zh) | 一种伪装目标的三维对抗纹理生成方法和装置 | |
CN114627339B (zh) | 茂密丛林区域对越境人员的智能识别跟踪方法及存储介质 | |
CN114170686A (zh) | 一种基于人体关键点的屈肘行为检测方法 | |
CN103971100A (zh) | 基于视频并针对自动提款机的伪装与偷窥行为的检测方法 | |
CN113762166A (zh) | 一种基于可穿戴式装备的小目标检测改善方法及系统 | |
CN112215873A (zh) | 用于对变电站内多目标跟踪定位的方法 | |
CN111881803A (zh) | 一种基于改进YOLOv3的畜脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |