CN112528966B - 一种取款人周边环境智能监控识别方法、装置及介质 - Google Patents

一种取款人周边环境智能监控识别方法、装置及介质 Download PDF

Info

Publication number
CN112528966B
CN112528966B CN202110161295.0A CN202110161295A CN112528966B CN 112528966 B CN112528966 B CN 112528966B CN 202110161295 A CN202110161295 A CN 202110161295A CN 112528966 B CN112528966 B CN 112528966B
Authority
CN
China
Prior art keywords
target
video
tracking
human body
interactive behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110161295.0A
Other languages
English (en)
Other versions
CN112528966A (zh
Inventor
涂宏斌
刘雨芃
徐任玉
胡昕岳
彭圆圆
池瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202110161295.0A priority Critical patent/CN112528966B/zh
Publication of CN112528966A publication Critical patent/CN112528966A/zh
Application granted granted Critical
Publication of CN112528966B publication Critical patent/CN112528966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/10Payment architectures specially adapted for electronic funds transfer [EFT] systems; specially adapted for home banking systems
    • G06Q20/108Remote banking, e.g. home banking
    • G06Q20/1085Remote banking, e.g. home banking involving automatic teller machines [ATMs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种取款人周边环境智能监控识别方法、装置及介质,其方法包括视频监控、目标跟踪、交互行为检测和识别;目标跟踪为:当视频监控到取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;交互行为检测为:从跟踪视频提取特征并构建组合特征,以通过卷积神经网络算法判断人体目标的面部头像及其特征点,进而用于判断头部姿态和目光角度是否异常,并在异常的情况下对其进行交互行为检测;交互行为识别为:若存在交互行为,则进一步判别该交互行为的类型。本发明能够实时对取款区域内的人与物进行监控,并且对人的行为进行自动检测和识别。

Description

一种取款人周边环境智能监控识别方法、装置及介质
技术领域
本发明属于行为识别技术领域,具体涉及一种取款人周边环境智能监控识别方法、装置及介质。
背景技术
随着支付宝微信等支付方式的普及,小额金额越来越少在银行ATM中进行,只有一些金额数量大的交易中容易使用到现金。并且使用现金交易的大多是岁数偏大的人群。因此对于这类人群取款的安全需要进行重点保障。
目前取款机周边环境监控主要依靠安装在天花板上的摄像机和ATM上的针孔摄像头进行实时监控录像,上班时间内是通过人工进行判读,但是ATM是24h开放的,因此在下班后进行录像,并将全天视频进行保存,以便发生安全事故是需要调取视频取证。现在的安全监控设施能够基本保证安全以及事故发生后的及时解决。但是并不能对于取款人进行预告报警从而在第一时间避免事故的发生,大部分情况下甚至由于工作人员松散缺乏后台管理。
现有的技术利用人工进行判读,但是由于上班一直盯着后台监控的时间很长、视频录像长度往往非常大和保存天数有限,因此判读精度完全依靠操作人员目测识别,难以得到保证,且判读结果具有人的主观性。目前国内也没有针对金融取款这类的智能视频监控设备。
发明内容
本发明提供一种取款人周边环境智能监控识别方法、装置及介质,能够实时对取款区域内的人与物进行监控,并且对人的行为进行自动检测和识别。
为实现上述技术目的,本发明采用如下技术方案:
一种取款人周边环境智能监控识别方法,包括视频监控、目标跟踪、交互行为检测和交互行为识别;
所述目标跟踪为:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;
所述交互行为检测为:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测;
所述交互行为识别为:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
进一步的,多目标跟踪具体为:
首先,使用K-L变换矩阵对监控视频中的各帧图像进行降维处理,得到仅包括人体目标的视频;所述K-L变换矩阵,是预先以监控视频训练样本各帧图像中已知的人体分类信息构建得到;然后,通过基于Metropolis-Hastings采样的蒙特卡洛算法对上一步得到的视频进行多目标跟踪,并在跟踪过程中采用非极大值抑制法消除视频每帧图像中多余的目标检测框,多目标跟踪得到包括目标跟踪轨迹的跟踪视频。
进一步的,在多目标跟踪的过程中,按以下步骤采用非极大值抑制法消除视频每帧图像中多余的目标检测框:
(1)设该帧图像的所有目标检测框构成初始的数据集A;
(2)从数据集A中取出概率最大的目标检测框,计算数据集A中每个目标检测框分别与概率最大目标检测框之间交并比IOU,将其中交并比IOU大于预设阈值
Figure 159876DEST_PATH_IMAGE001
的目标检测框从数据集A删除,并将概率最大的目标检测框存入数据集B;
(3)重复执行步骤(2),直到数据集A为空;
(4)将数据集B中所有目标检测框保留在图像中,并将图像中其他目标检测框删除。
进一步的,在多目标跟踪的过程中,在视频每帧消除多余目标检测框后,按以下步骤采用贪婪算法消除错误轨迹关联:
对视频帧的每个目标检测框:均计算其与上一帧中每个目标检测框的交并比IOU, 取其中最大值
Figure 15837DEST_PATH_IMAGE002
与预设阈值
Figure 854480DEST_PATH_IMAGE003
比较:若最大值
Figure 479496DEST_PATH_IMAGE004
,则将该目标检测框加入
Figure 10971DEST_PATH_IMAGE002
对应的目标检测框所在的目标轨迹中;若最大值
Figure 340846DEST_PATH_IMAGE005
,则以将该目标检测框 作为起点生成一条新的目标轨迹;
对于任一条目标轨迹,若跟踪时间大于预设阈值
Figure 983180DEST_PATH_IMAGE006
,则将该目标轨迹视为一条跟 踪轨迹,否则视为错误轨迹。
进一步的,根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对视频帧中是否存在交互行为进行检测,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
Figure 728282DEST_PATH_IMAGE007
式中,
Figure 899500DEST_PATH_IMAGE008
为人体目标的交互力,
Figure 448162DEST_PATH_IMAGE009
,表示将人体目标看作一个质量为1的质点,
Figure 894187DEST_PATH_IMAGE010
为人体目标在坐标
Figure 697058DEST_PATH_IMAGE011
的实际速度,
Figure 570336DEST_PATH_IMAGE012
为松弛系数,
Figure 871873DEST_PATH_IMAGE013
为人体目标在社会力模型中 的期望速度,
Figure 856010DEST_PATH_IMAGE014
为人体目标在坐标
Figure 310125DEST_PATH_IMAGE011
的光流,通过提取方向光流直方图特征HOOF 时计算得到;
Figure 88725DEST_PATH_IMAGE015
为人体目标的恐慌系数;
Figure 893870DEST_PATH_IMAGE016
为人体目标在坐标
Figure 665386DEST_PATH_IMAGE011
的平均时空 光流;
(3)计算视频帧中所有人体目标的交互力,统计8个方向区间各自的交互力数量
Figure 239587DEST_PATH_IMAGE017
,得到交互力的方向直方图
Figure 189088DEST_PATH_IMAGE018
,并对方向直方图
Figure 215950DEST_PATH_IMAGE019
进行归一化处 理:
Figure 541889DEST_PATH_IMAGE020
(4)对归一化后的方向直方图进行信息熵的计算:
Figure 957215DEST_PATH_IMAGE021
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为。
进一步的,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行交互行为类型识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
一种取款人周边环境智能监控识别装置,包括:目标跟踪模块、交互行为检测模块、交互行为识别模块;
所述目标跟踪模块,用于:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;
所述交互行为检测模块,用于:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测;
所述交互行为识别模块,用于:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
进一步的,所述根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
Figure 77617DEST_PATH_IMAGE007
式中,
Figure 591775DEST_PATH_IMAGE008
为人体目标的交互力,
Figure 721405DEST_PATH_IMAGE009
,表示将人体目标看作一个质量为1的质点,
Figure 4619DEST_PATH_IMAGE010
为人体目标在坐标
Figure 810770DEST_PATH_IMAGE011
的实际速度,
Figure 812224DEST_PATH_IMAGE012
为松弛系数,
Figure 479966DEST_PATH_IMAGE013
为人体目标在社会力模型中 的期望速度,
Figure 352107DEST_PATH_IMAGE014
为人体目标在坐标
Figure 329159DEST_PATH_IMAGE011
的光流,通过提取方向光流直方图特征 HOOF时计算得到;
Figure 817909DEST_PATH_IMAGE015
为人体目标的恐慌系数;
Figure 23762DEST_PATH_IMAGE016
为人体目标在坐标
Figure 15989DEST_PATH_IMAGE011
的平均时 空光流;
(3)计算视频帧中所有人体目标的交互力,统计8个方向区间各自的交互力数量
Figure 180254DEST_PATH_IMAGE017
,得到交互力的方向直方图
Figure 874410DEST_PATH_IMAGE018
,并对方向直方图
Figure 149533DEST_PATH_IMAGE019
进行归一化处 理:
Figure 261846DEST_PATH_IMAGE020
(4)对归一化后的方向直方图进行信息熵的计算:
Figure 331433DEST_PATH_IMAGE021
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为。
进一步的,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
一种计算机存储介质,包括计算机程序,所述计算机程序被处理器执行时实现上述任一技术方案所述的一种取款人周边环境智能监控识别方法。
本发明的有益效果为:能够实现实时对取款区域内人-物进行监控,能够对人的行为进行识别,预防犯罪。以及在事故发生后将录像图片第一时间发送给警方,方便警方利用此图片进行人脸识别等数据对比。
附图说明
图1是本发明实施例所述方法的流程图;
图2是本发明实施例所述多目标跟踪的技术线路图;
图3是本发明实施例所述交互行为检测的技术线路图;
图4是本发明实施例所述交互行为识别的技术线路图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
实施例1
本发明提供一种取款人周边环境智能监控识别方法,如图1所示,包括视频监控、目标跟踪、交互行为检测和交互行为识别。
所述目标跟踪为:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频。
多目标跟踪在行为识别过程中尤其重要,如果没有可靠的跟踪准确性,就不能保证最终行为识别的精度。目前大多数多目标跟踪算法尽可能不考虑目标被遮挡的情况。项目拟通过定义复杂场景下的人体目标强度映射关系图,采用马尔科夫蒙特卡洛理论拟合出人体目标位置,并通过基于映射关系图的贪婪算法消除多人目标之间的错误轨迹关联,得出多人目标跟踪结果。技术路线图如图2所示。
在多目标跟踪过程中,首先将视频信息输入后利用K-L变换进行特征的提取。K-L变换的流程主要是先根据原图像特征建立一个包含分类判别信息的协方差矩阵作为K-L变换的产生矩阵,然后求解该协方差矩阵的特征值与特征向量,并进行排列。最后选取前n个特征值和其对应的特征向量组成K-L变换矩阵。通过特征的线性组合实现对原图数据的降维处理,从而得到图像的特征映射图。
然后通过基于Metropolis-Hastings采样的蒙特卡洛算法对上一步得到的视频进行多目标跟踪:
通过Metropolis-Hastings采样法来构造一个平稳的马尔科夫链,基于其中的样 本进行统计推断。通过选取上一帧图像中的行人动作状态来初始化马尔科夫链的首个粒 子。并由此开始迭代抽样(对不同时刻
Figure 529196DEST_PATH_IMAGE022
,循环过程对状态
Figure 342431DEST_PATH_IMAGE023
采样),获得
Figure 573166DEST_PATH_IMAGE024
个抽样,根据此抽 样和抽样建议函数得到提议抽样
Figure 813655DEST_PATH_IMAGE025
其中,候选样本的接受率为:
Figure 498714DEST_PATH_IMAGE026
Figure 584482DEST_PATH_IMAGE027
为给定的满足平稳分布条件的
Figure 655075DEST_PATH_IMAGE022
时刻状态概率分布函数,
Figure 332044DEST_PATH_IMAGE028
为抽样 建议函数,
Figure 238820DEST_PATH_IMAGE029
t时刻离散抽样的后验概率分布,
Figure 862699DEST_PATH_IMAGE030
为观测序列(在1~t时刻下,根据提 议抽样是否接受的结果得到的不同的行人状态作为观察序列。)。
如果接受率大于1,就接受提议抽样,把提议抽样加进马尔可夫链,接受率小于1则 以
Figure 787799DEST_PATH_IMAGE031
的概率接受抽样。若抽样结果被拒绝,就把前一个抽样作为当前抽样:
Figure 838931DEST_PATH_IMAGE032
。总共抽 样
Figure 498583DEST_PATH_IMAGE033
次完成一个t时刻平稳分布为
Figure 441000DEST_PATH_IMAGE034
的马尔可夫链的构造。
在输入图像后,t时刻的预测位置由t-1时刻抽样的
Figure 236918DEST_PATH_IMAGE033
个粒子计算得出。
系统的状态预测方程为:
Figure 990110DEST_PATH_IMAGE035
若已知t-1时刻的
Figure 871478DEST_PATH_IMAGE033
个样本,可得t时刻状态的概率
Figure 354937DEST_PATH_IMAGE036
t时刻的目标跟踪位置为
Figure 5361DEST_PATH_IMAGE037
由于同一个人体目标在跟踪过程中,在目标附近会得到若干个概率略小于真实目标的采样样本,因此本实施例在多目标跟踪的过程中,按以下步骤采用非极大值抑制法消除视频每帧图像中多余的目标检测框:
(1)设该帧图像的所有目标检测框构成初始的数据集A;
(2)从数据集A中取出概率最大的目标检测框,计算数据集A中每个目标检测框分别与概率最大目标检测框之间交并比IOU,将其中交并比IOU大于预设阈值
Figure 195034DEST_PATH_IMAGE038
的目标检测框从数据集A删除,并将概率最大的目标检测框存入数据集B;
(3)重复执行步骤(2),直到数据集A为空;
(4)将数据集B中所有目标检测框保留在图像中,并将图像中其他目标检测框删除。
在得到当前图像目标和之前各帧图像目标位置和信息后,在跟着过程中还要判断跟踪目标是前面已检测的目标还是新出现的目标,或是已经从图像中消失。因此,本实施例在视频每帧消除多余目标检测框后,按以下步骤采用贪婪算法消除错误轨迹关联:
对视频帧的每个目标检测框:均计算其与上一帧中每个目标检测框的交并比IOU, 取其中最大值
Figure 32540DEST_PATH_IMAGE039
与预设阈值
Figure 316760DEST_PATH_IMAGE040
比较:若最大值
Figure 821690DEST_PATH_IMAGE041
,则将该目标检测框加入
Figure 916685DEST_PATH_IMAGE042
对应的目标检测框所在的目标轨迹中;若最大值
Figure 38225DEST_PATH_IMAGE043
,则以将该目标检测框作为 起点生成一条新的目标轨迹;
对于任一条目标轨迹,若跟踪时间大于预设阈值
Figure 594977DEST_PATH_IMAGE044
,则将该目标轨迹视为一条跟 踪轨迹,否则视为错误轨迹。本实施例将预设阈值
Figure 219994DEST_PATH_IMAGE045
设置为45帧图像对应的时间。
所述交互行为检测为:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测。
1、组合特征HOM的构建
针对取款环境下人-人或者人-物遮挡和低分辨率的情况下,由人-人或者人-物相对运动距离将运动边界直方图(MBH)多层金字塔结构特征和方向光流直方图(HOOF)特征组合构成新的组合特征HOM(Histogram of Multi-feature),通过卷积神经网络算法检测出人体头部和图像中的其他物品。通过建立头部姿态和目光角度的空间概率映射模型,进而分析人体注意力视线范围,在注意力视线范围与社会交互力模型基础上,利用各行为人社会交互力方向直方图检测人体交互行为。如图3所示。
HOOF(Histogram of Oriented Optical Flow)特征是可以通过这一帧图像中的 光流的直方图来体现出人的运动信息。本发明将监控的图像输入后可以得到光流方向信息 直方图,然后根据直方图计算其光流场。光流场可以反映图像中像素点的灰度变化趋势,这 是一种对实际运动的拟合估计。我们将
Figure 751469DEST_PATH_IMAGE046
作为输入视频中t时刻(x,y)处的灰度值,b 和c为光流矢量沿两个坐标轴x轴和y轴的分量。当在
Figure 829146DEST_PATH_IMAGE047
时,a点(x,y)的坐标变为
Figure 455169DEST_PATH_IMAGE048
,则此时刻的灰度为
Figure 200271DEST_PATH_IMAGE049
因为这是两帧图像中相互对应的同一个点,所以可以由光流约束方程的得到
Figure 637068DEST_PATH_IMAGE050
在此基础上我们令增量
Figure 467621DEST_PATH_IMAGE051
无限趋近于0,利用泰勒展开式对此方程求解得:
Figure 382488DEST_PATH_IMAGE052
B和C分别表示像素在x轴和y轴上的运动速度;
Figure 499873DEST_PATH_IMAGE053
为图像在x方向和y方向的梯 度。
Figure 107571DEST_PATH_IMAGE054
为图像灰度对时间的变化量。
由此得到B和C两个光流矢量的关系,再转换成矩阵的形式:
Figure 159841DEST_PATH_IMAGE055
这样就可以解出运动速度B和C,得到这个区域的光流方向直方图,再将图像每个区域的光流方向直方图串联得到最终图像的HOOF特征。
由于在取款时异常行为发生都是大幅度,速度快的动作,但是用大窗口来捕捉大幅度的运动时经常会打破一致的运动假设使得上述算法不适用。因此为了规避这个问题,本申请中拟采用多层金字塔结构的特征。
因为当检测目标的运动速度较大时,算法会出现较大的误差。所以我们需要降低 图像中检测目标的速度。在本申请中我们缩小图像的尺寸来降低速度。假设当图像为
Figure 612819DEST_PATH_IMAGE056
时,物体速度为
Figure 50623DEST_PATH_IMAGE057
,那么图像缩小为
Figure 829223DEST_PATH_IMAGE058
时,速度变为
Figure 368789DEST_PATH_IMAGE059
。所以在原图 像进行多次缩放后,算法可以适用了。所以MBH特征可以通过生成原图像的金字塔图像,逐 层求解,不断精确来求得。假设A和B是两张灰度图像,对于图像上每个像素点的灰度值定义 为:
Figure 156616DEST_PATH_IMAGE060
Figure 714505DEST_PATH_IMAGE061
,其中
Figure 929586DEST_PATH_IMAGE062
是图像上像素点的图像坐标。
在实际场景中图像A和图像B代表前后两帧图像。对于图像特征点金字塔跟踪来说 的目的是:对于前一帧的图像A上一点
Figure 690868DEST_PATH_IMAGE063
,要在后一帧图像B上找到一点
Figure 16808DEST_PATH_IMAGE064
与之相对应,也就是灰度值最接近。
Figure 445515DEST_PATH_IMAGE065
就是图像在点a处的运动 速度。
构造金字塔时令
Figure 815185DEST_PATH_IMAGE066
是第 0 层的图像,为分辨率最高的图像,图像的宽度和高 度分别定义为
Figure 329343DEST_PATH_IMAGE067
Figure 193394DEST_PATH_IMAGE068
。以一种递归的方式建立金字塔,令L =1,2,3,4来代表 金字塔的层数。G(L−1)是第L−1层的图像,
Figure 476608DEST_PATH_IMAGE069
Figure 20109DEST_PATH_IMAGE070
分别是图像G(L−1)的宽度和高度。 图像G(L)可按如下方式由G(L−1)求得:
Figure 755984DEST_PATH_IMAGE071
接下来就是在构造好的金字塔中进行特征跟踪。设
Figure 892567DEST_PATH_IMAGE072
是图像中像素点a 在第L层对应点的坐标。根据上一步中图像金字塔的定义,可以计算出
Figure 295867DEST_PATH_IMAGE073
。设从第L+1层传 递到L层光流计算初值为
Figure 272919DEST_PATH_IMAGE074
, 最上层的变换矩阵为
Figure 496090DEST_PATH_IMAGE075
L层上的匹配误差为
Figure 967522DEST_PATH_IMAGE076
,其中
Figure 959749DEST_PATH_IMAGE077
为 第L层的光流值,
Figure 858435DEST_PATH_IMAGE078
为第L层进行仿射变换的变换矩阵,图像
Figure 818170DEST_PATH_IMAGE079
Figure 827714DEST_PATH_IMAGE080
是原始图像在 L层上采样出来的图像,基于这层中的光流和仿射矩阵初值
Figure 408868DEST_PATH_IMAGE081
Figure 744034DEST_PATH_IMAGE082
可以计算出两个对应图 像:
Figure 925486DEST_PATH_IMAGE083
将该层上计算出的光流
Figure 4300DEST_PATH_IMAGE077
和变换矩阵
Figure 971119DEST_PATH_IMAGE082
传递给下一层,计算出下一层的假设初 值:
Figure 211608DEST_PATH_IMAGE084
设顶层时的初始为:
Figure 896667DEST_PATH_IMAGE085
我们的目标是计算出流
Figure 488492DEST_PATH_IMAGE077
和仿射变换矩阵
Figure 575397DEST_PATH_IMAGE078
从而使误差
Figure 721208DEST_PATH_IMAGE086
最小。首先将上一层 的光流d和A传给这一层,计算这一帧图像中像素点的光照,同时计算出图像在该点x方向和 y方向上的偏导,
Figure 346093DEST_PATH_IMAGE087
得到空间梯度矩阵
Figure 766710DEST_PATH_IMAGE088
, 更新光流
Figure 911384DEST_PATH_IMAGE089
通过计算后一帧图像中对应像素点的灰度,计算两帧图像间相同位置点的灰度值之差,再计算图像之间的误差向量和针对仿射光流进行迭代计算更新特征的跟踪结果:
Figure 477363DEST_PATH_IMAGE090
η为计算仿射光流时的值,直到
Figure 605856DEST_PATH_IMAGE091
小于我们设定的某个阈值,结束在这一 层的迭代过程。
由此可以剔除像素密集区域中的一些像素,确保图像中相邻像素的距离都大于给定的阈值。上述操作完成后,图像中剩下的像素即为选择的特征点,并作为跟踪特征点,得到多层金字塔结构的特征(用来进行行人检测和行为识别的光流特征)。
MBH特征的提取方法是将x方向和y方向上的光流图像视作两张灰度图像,然后提取这些灰度图像的梯度直方图,以此来的到运动物体的边界信息。
方向梯度的实现是首先用[-1,0,1]梯度算子对原图像做卷积运算,得到x方向的 梯度分量gradscalx,然后用
Figure 564585DEST_PATH_IMAGE092
梯度算子对原图像做卷积运算,得到y方向的梯度分 量gradscaly。然后再用以下公式计算该像素点的梯度大小和方向:
Figure 360502DEST_PATH_IMAGE093
式中,
Figure 362962DEST_PATH_IMAGE094
Figure 244331DEST_PATH_IMAGE095
Figure 741171DEST_PATH_IMAGE096
分别表示输入图像中像素点
Figure 126016DEST_PATH_IMAGE097
处的水平方向梯度 和像素值。像素点
Figure 315689DEST_PATH_IMAGE098
处的梯度幅值和梯度方向分别为:
Figure 670971DEST_PATH_IMAGE099
在计算机中将上面的方向梯度,按着直方图的参数设置进行画图,其中梯度的大小在统计数量中呈线性关系,比如梯度大小为1,则直方图对应增加1个单位。把单个cell对应的方向直方图转换为单维向量,也就是按规定组距对对应方向梯度个数进行编码。由此得到单个cell的特征,每个block(扫描窗口)包含2*2个cell,根据图像中block数得出整个图像的特征数量。这样将一幅直观的梯度图通过分解提取变为计算机容易理解的特征向量。
以上工作为MBH法对输入视频提取的主要信息特征,最后得到对应的行人的由方向梯度直方图提取到的特征向量。
从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF后,即可将其组建构成组合特征HOM。
2、提取面部头像及其特征点
将上述构建得到的组合特征HOM,输入至预先训练好的卷积神经网络中,以判断其中每个人体目标的面部头像及其特征点,特征点例如为鼻头、下巴、左眼左眼角、右眼右眼角、左嘴角和右嘴角等,即可用于下一步利用特征点的坐标来获得人体目标的头部姿态和目光角度。
3、人体姿态估计
头部的任意姿态可以转化为以下参数(欧拉角):围绕Y轴的旋转角yaw, 围绕Z轴的旋转角roll, 围绕X轴的旋转角pitch),均为旋转参数(X为水平方向横轴,Y为竖直方向坐标轴,Z为垂直X,Y的坐标轴,构成三维坐标系。也就是笛卡尔直角坐标系)。旋转参数需要构成旋转矩阵,三个参数分别对应了绕y轴旋转的角度、绕z轴旋转的角度和绕x轴旋转的角度。确定头部姿态就是利用一个标定好的摄像机,利用视频中的每一帧二维图像建立坐标系,并且将其中的人脸点集坐标利用变换矩阵进行三维世界坐标系中3D模型的n个点的坐标求解。从而得到三维世界系中的点坐标。
首先根据已获得的人脸特征点进行其在二维图像上的坐标获取,例如鼻头、下巴、左眼左眼角、右眼右眼角、左嘴角和右嘴角。然后可以设置这六个关键点对应的三维坐标(在三维坐标系中,为了将3D模型放在屏幕中间,可以取坐标原点(0,0,0)为屏幕中心位置,由此我们可以设置3D模型的鼻头坐标为(0,0,0),同理可以进行其他几个特征点的三维坐标设置)。再设定相机的焦距和图像的中心位置分别为图像的宽度和坐标(w/2,h/2),w为图像的宽度,h为图像的高度,获得相机的内参数矩阵。
世界坐标系中的三维点(U,V,W)通过旋转矩阵R和平移向量t映射到相机坐标系(X,Y,Z), (X,Y,Z)再通过相机的内参数矩阵映射得到图像坐标系(x,y)。转换关系如下:
世界坐标系到相机坐标系:
Figure 705924DEST_PATH_IMAGE100
相机坐标系到图像坐标系:
Figure 210854DEST_PATH_IMAGE101
Figure 555117DEST_PATH_IMAGE102
为已知的相机内部参数矩阵,s=Z,(x,y)为已知的二维图像上的特征点 坐标。在三维世界坐标系取六个对应的特征点坐标,则通过第二个转换公式(相机坐标系到 图像坐标系),已知六个特征点的二维坐标和相机内部参数,求得相机坐标系的该特征点坐 标(X,Y,Z)。再根据6个特征点(X,Y,Z)坐标和其在世界坐标系中对应的6个设定的坐标(U, V,W),通过第一个转换公式,求解旋转矩阵R。
最后利用旋转矩阵R求解围绕坐标轴旋转的角度:
Figure 145498DEST_PATH_IMAGE103
, 则:
Figure 984141DEST_PATH_IMAGE104
Figure 609158DEST_PATH_IMAGE105
为头部绕X轴旋转为抬头低头的幅度,
Figure 124321DEST_PATH_IMAGE106
为绕Y轴旋转为左右摇头的幅度,
Figure 467578DEST_PATH_IMAGE107
为 绕Z轴旋转为转头的幅度。由此可以得到头部的角度偏移和目光的角度。每个跟踪目标的注 意力视线范围也就明确了。
4、交互行为检测
4.1头部姿态和目光角度的异常判断
在大多数情况下人的视线方向是与头部方向是一致的。一般在我们感兴趣的东西出现后,先通过转动眼睛观察,再转动头部面对目标。因此我们只需要在一定的时间内估计人的视线方向进行分析。通过确定好的头部姿态和目光角度选取目光视线。在检测图像中,选取目光视线上的物体。计算在图像中,各目光视线上的物体与头部中心点的欧式距离,选取距离最近的作为目光注视目标。其中,两点的欧氏距离的计算方法为:
Figure 844333DEST_PATH_IMAGE108
式中,
Figure 323856DEST_PATH_IMAGE109
Figure 744341DEST_PATH_IMAGE110
分别为物体中心点的坐标和人头部中心点的坐标。
将最初的视线方向与水平轴夹角作为
Figure 309315DEST_PATH_IMAGE111
。然后设定一个视线范围
Figure 489761DEST_PATH_IMAGE112
,在
Figure 89369DEST_PATH_IMAGE113
的 角度范围内进行搜索物体。修改后的视线夹角作为
Figure 962647DEST_PATH_IMAGE114
。最后将该物体的中心点作为目光的 注视位置来修改视线方向,得到行人的注意力视线。如果得到的目光视线结果是我们的取 款人,视为该人体目标的头部姿态和目光角度异常。
4.2,交互力计算
通过之前的特征提取获取的图像的光流信息进行社会交互力的计算。在使用视频 中的光流信息获取图像中像素点的强度随时间的变化从而推断出物体的运动速度,也就是 前面HOOF特征提取中获得的B和C像素在x轴和y轴上的运动速度矢量B和C,将
Figure 735956DEST_PATH_IMAGE115
处的光 流表示为
Figure 720092DEST_PATH_IMAGE116
。在社会力模型中行人受到自驱动力和外界作用力的合力。
若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
Figure 908628DEST_PATH_IMAGE007
式中,
Figure 202075DEST_PATH_IMAGE117
为人体目标的交互力,
Figure 741641DEST_PATH_IMAGE118
表示将人体目标看作一个质量为1的质点,
Figure 263889DEST_PATH_IMAGE119
为人体目标在坐标
Figure 572511DEST_PATH_IMAGE120
的实际速度,
Figure 787591DEST_PATH_IMAGE121
为松弛系数,
Figure 532562DEST_PATH_IMAGE122
为人体目标在社会力模型中的期 望速度,
Figure 592922DEST_PATH_IMAGE123
为人体目标在坐标
Figure 21630DEST_PATH_IMAGE124
的光流,通过提取方向光流直方图特征HOOF时计 算得到;
Figure 391300DEST_PATH_IMAGE125
为人体目标的恐慌系数;
Figure 639879DEST_PATH_IMAGE126
为人体目标在坐标
Figure 769509DEST_PATH_IMAGE127
的平均时空光流。
4.3视频帧人体目标交互力的信息熵计算
计算视频帧中所有人体目标的交互力,统计8个方向区间各自的交互力数量
Figure 52722DEST_PATH_IMAGE128
,得到交互力的方向直方图
Figure 609606DEST_PATH_IMAGE129
,并对方向直方图
Figure 597678DEST_PATH_IMAGE130
进行归一化处 理:
Figure 265419DEST_PATH_IMAGE131
Figure 652407DEST_PATH_IMAGE132
4.4,根据信息熵判断是否存在人体交互行为
将上一步4.3计算得到的信息熵
Figure 301563DEST_PATH_IMAGE133
与预设的异常阈值比较,若超过异常阈值(本实施例阈值为2.4),则判断该人体目标存在人体交互行为。
所述交互行为识别为:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型:将跟踪视频进行预处理,即将每帧图像按预设要求进行缩放并把所有像素值作为一个行向量保存,并输入至预先构建和训练得到的交互行为识别器进行交互行为类型识别。
本实施例的交互行为识别器架构包括自组织映射层和马尔科夫逻辑网识别层的深度结构。如图4所示,所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型(交互行为类型主要包括击打和抢夺);所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
在计算机中通过使用图像预处理后的多人行为训练集来训练我们的栈式降噪自编码神经网络。栈式降噪自编码神经网络由多个自编码神经网络级联,逐层提取特征,前一个编码神经网络的输出为下一个神经网络的输入。将最后得到的特征输入分类器,且栈式降噪自编码神经网络在训练时对部分输入进行“破坏”,使得训练出的神经网络即使输入的时特征不全的图像也能得到正确的人体交互行为的结果,便于我们提取特征向量序列。
构建一个栈式降噪自编码神经网络需要设计其隐层层数及每层节点数和它的学习率。为了得到一个适合的节点数量,我们先设一个3层的BP神经网络,然后随机设定其输入层节点数,让隐层节点数逐渐递增,迭代次数也逐渐增加。根据其节点参数图当得到一个合适的节点数和上下层节点数比例。
再采用自适应学习率更新算法获取合适的学习率的值
Figure 524734DEST_PATH_IMAGE134
Figure 996167DEST_PATH_IMAGE135
表示t时刻的学习率,T和B分别为学习率的上限值和下限值,
Figure 252310DEST_PATH_IMAGE136
t时刻的 均方误差,
Figure 885416DEST_PATH_IMAGE137
是t时刻和t-1时刻均方误差的差值。
再利用多人视频训练集对网络进行训练后就获得了所需要的栈式降噪自编码神经网络。
在实际场景中,将人体行为的视频输入后经过预处理进入神经网络后,人体行为视频就变成了一个姿态序列。
得到我们的行为视频集的姿态序列后,在马尔科夫逻辑网中构建一阶逻辑规则
Figure 861463DEST_PATH_IMAGE138
。一阶逻辑知识库可看作是在一个可能世界的集合上建立一系列硬性规则,即如果一个 世界违反了其中的某一条规则,那么这个世界的存在概率即为0。对马尔科夫逻辑网中对各 种逻辑规制附加权重
Figure 871007DEST_PATH_IMAGE139
,得到一个二元数组
Figure 717740DEST_PATH_IMAGE140
。再附加一组有限常量集
Figure 36595DEST_PATH_IMAGE141
一起定义了一个马尔科夫逻辑网。基本马尔科夫逻辑网概率分布如下:
Figure 234358DEST_PATH_IMAGE142
Figure 47593DEST_PATH_IMAGE143
Figure 748833DEST_PATH_IMAGE144
在X中所有为真的逻辑规则的数量,而
Figure 254901DEST_PATH_IMAGE145
是规则
Figure 48282DEST_PATH_IMAGE144
中为真的点,又有
Figure 337312DEST_PATH_IMAGE146
,然后通过最大似然估计的参数学习法对上式中逻辑规则的权重
Figure 410835DEST_PATH_IMAGE147
进行优化。 也就是对似然表达式中的
Figure 822225DEST_PATH_IMAGE148
对数似然进行求导:
Figure 915952DEST_PATH_IMAGE149
Figure 336569DEST_PATH_IMAGE143
为世界x中规则
Figure 12401DEST_PATH_IMAGE144
的真值个数,
Figure 594692DEST_PATH_IMAGE150
是在所有可能的世界
Figure 175715DEST_PATH_IMAGE151
中求和。找到其等于0的权重
Figure 868864DEST_PATH_IMAGE152
的值。
再采用自顶向下的结构学习法优化模型的网络结构。马尔可夫逻辑网的结构就是需要附加权重的那些规则的集合。自顶向下的结构每次只学习或修改马尔可夫逻辑网中的一个规制从句。可以用一个空的网络或已有的知识库作为算法初始化的结构,一开始就把逻辑网中数组的所有节点加入到需要学习的马尔可夫逻辑网里。通过在搜索长度为1的从句之前,把所有长度为l的较优从句加入逻辑网中不断地修改模型。
在实际场景运用中,视频在经过第一层自组织映射层输入第二层后,通过马尔可夫逻辑网获得对输入人体姿态为何种动作的概率,通过在马尔可夫逻辑网中设置动作的概率阀值,将概率超过该阈值的姿态输出为该动作。实现对取款环境中异常行为的检测,做到及时的预警。
实施例2
本实施例提供一种取款人周边环境智能监控识别装置,包括:目标跟踪模块、交互行为检测模块、交互行为识别模块。
所述目标跟踪模块,用于:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频。
所述交互行为检测模块,有于:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测。
所述根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
Figure 930361DEST_PATH_IMAGE007
式中,
Figure 667242DEST_PATH_IMAGE008
为人体目标的交互力,
Figure 814189DEST_PATH_IMAGE009
,表示将人体目标看作一个质量为1的质点,
Figure 311030DEST_PATH_IMAGE010
为人体目标在坐标
Figure 227033DEST_PATH_IMAGE011
的实际速度,
Figure 151127DEST_PATH_IMAGE012
为松弛系数,
Figure 771988DEST_PATH_IMAGE013
为人体目标在社会力模型中的期望速度,
Figure 806941DEST_PATH_IMAGE014
为人体目标在坐标
Figure 843030DEST_PATH_IMAGE011
的光流,通过提取方向光流直方图特征HOOF时计算得到;
Figure 938025DEST_PATH_IMAGE015
为人体目标的恐慌系数;
Figure 793985DEST_PATH_IMAGE016
为人体目标在坐标
Figure 898207DEST_PATH_IMAGE011
的平均时空光流;
(3)计算视频帧中所有人体目标的交互力,统计8个方向区间各自的交互力数量
Figure 772491DEST_PATH_IMAGE017
,得到交互力的方向直方图
Figure 38388DEST_PATH_IMAGE018
,并对方向直方图
Figure 381644DEST_PATH_IMAGE019
进行归一化处理:
Figure 758399DEST_PATH_IMAGE020
(4)对归一化后的方向直方图进行信息熵的计算:
Figure 503501DEST_PATH_IMAGE021
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为。
其中,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
所述交互行为识别模块,用于:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
实施例3
本发明还提供一种计算机存储介质,包括计算机程序,所述计算机程序被处理器执行时实现实施例1所述的一种取款人周边环境智能监控识别方法。
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (8)

1.一种取款人周边环境智能监控识别方法,其特征在于,包括视频监控、目标跟踪、交互行为检测和交互行为识别;
所述目标跟踪为:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;
所述交互行为检测为:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对视频帧中是否存在交互行为进行检测,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
Figure 162945DEST_PATH_IMAGE001
式中,
Figure 75538DEST_PATH_IMAGE002
为人体目标的交互力,
Figure 963859DEST_PATH_IMAGE003
,表示将人体目标看作一个质量为1的质点,
Figure 410146DEST_PATH_IMAGE004
为人体目标在坐标
Figure 700313DEST_PATH_IMAGE005
的实际速度,
Figure 252648DEST_PATH_IMAGE006
为松弛系数,
Figure 362687DEST_PATH_IMAGE007
为人体目标在社会力模型中的期望速度,
Figure 517725DEST_PATH_IMAGE008
为人体目标在坐标
Figure 459136DEST_PATH_IMAGE005
的光流,通过提取方向光流直方图特征HOOF时计算得到;
Figure 510269DEST_PATH_IMAGE009
为人体目标的恐慌系数;
Figure 107603DEST_PATH_IMAGE010
为人体目标在坐标
Figure 66332DEST_PATH_IMAGE005
的平均时空光流;
(3)计算视频帧中所有人体目标的交互力,统计8个方向区间各自的交互力数量
Figure 596670DEST_PATH_IMAGE011
,得到交互力的方向直方图
Figure 553125DEST_PATH_IMAGE012
,并对方向直方图
Figure 434493DEST_PATH_IMAGE013
进行归一化处理:
Figure 806700DEST_PATH_IMAGE014
(4)对归一化后的方向直方图进行信息熵的计算:
Figure 925966DEST_PATH_IMAGE015
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为;
所述交互行为识别为:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
2.根据权利要求1所述的一种取款人周边环境智能监控识别方法,其特征在于,多目标跟踪具体为:
首先,使用K-L变换矩阵对监控视频中的各帧图像进行降维处理,得到仅包括人体目标的视频;所述K-L变换矩阵,是预先以监控视频训练样本各帧图像中已知的人体分类信息构建得到;然后,通过基于Metropolis-Hastings采样的蒙特卡洛算法对上一步得到的视频进行多目标跟踪,并在跟踪过程中采用非极大值抑制法消除视频每帧图像中多余的目标检测框,多目标跟踪得到包括目标跟踪轨迹的跟踪视频。
3.根据权利要求2所述的一种取款人周边环境智能监控识别方法,其特征在于,在多目标跟踪的过程中,按以下步骤采用非极大值抑制法消除视频每帧图像中多余的目标检测框:
(1)设该帧图像的所有目标检测框构成初始的数据集A;
(2)从数据集A中取出概率最大的目标检测框,计算数据集A中每个目标检测框分别与概率最大目标检测框之间交并比IOU,将其中交并比IOU大于预设阈值
Figure 850059DEST_PATH_IMAGE016
的目标检测框从数据集A删除,并将概率最大的目标检测框存入数据集B;
(3)重复执行步骤(2),直到数据集A为空;
(4)将数据集B中所有目标检测框保留在图像中,并将图像中其他目标检测框删除。
4.根据权利要求3所述的一种取款人周边环境智能监控识别方法,其特征在于,在多目标跟踪的过程中,在视频每帧消除多余目标检测框后,按以下步骤采用贪婪算法消除错误轨迹关联:
对视频帧的每个目标检测框:均计算其与上一帧中每个目标检测框的交并比IOU,取其中最大值
Figure 421986DEST_PATH_IMAGE017
与预设阈值
Figure 722517DEST_PATH_IMAGE018
比较:若最大值
Figure 493027DEST_PATH_IMAGE019
,则将该目标检测框加入
Figure 791285DEST_PATH_IMAGE017
对应的目标检测框所在的目标轨迹中;若最大值
Figure 850508DEST_PATH_IMAGE020
,则以将该目标检测框作为起点生成一条新的目标轨迹;
对于任一条目标轨迹,若跟踪时间大于预设阈值
Figure 954730DEST_PATH_IMAGE021
,则将该目标轨迹视为一条跟踪轨迹,否则视为错误轨迹。
5.根据权利要求1所述的一种取款人周边环境智能监控识别方法,其特征在于,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行交互行为类型识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
6.一种取款人周边环境智能监控识别装置,其特征在于,包括:目标跟踪模块、交互行为检测模块、交互行为识别模块;
所述目标跟踪模块,用于:当视频监控到ATM取款机周边有人进入时,采用马尔可夫蒙特卡洛将监控视频中的人体作为目标进行多目标跟踪,得到包括多目标跟踪轨迹的跟踪视频;
所述交互行为检测模块,用于:从跟踪视频提取运动边界直方图特征MBH的多层金字塔结构和方向光流直方图特征HOOF,并构建组合特征HOM;根据组合特征HOM,通过卷积神经网络算法判断监控视频中每个人体目标的面部头像及其特征点;根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,并在异常的情况下,基于方向光流直方图特征HOOF对其进行交互行为检测;
所述根据面部头像及特征点,判断每个人体目标在每个视频帧的头部姿态和目光角度是否异常,具体判断方法为:
(1)根据面部头像在视频帧的特征点坐标,计算头部姿态,即头部在世界坐标系相对于各坐标轴的角度偏移;设目光视线为直视前方,则目光角度与头部姿态的角度偏移相同;
(2)若人体目标的目光角度视线上欧式距离最近的物体是取款人,则对该人体目标进行交互力计算:
Figure 658375DEST_PATH_IMAGE001
式中,
Figure 861954DEST_PATH_IMAGE002
为人体目标的交互力,
Figure 142894DEST_PATH_IMAGE003
,表示将人体目标看作一个质量为1的质点,
Figure 50807DEST_PATH_IMAGE004
为人体目标在坐标
Figure 530330DEST_PATH_IMAGE005
的实际速度,
Figure 170390DEST_PATH_IMAGE006
为松弛系数,
Figure 943DEST_PATH_IMAGE007
为人体目标在社会力模型中的期望速度,
Figure 650230DEST_PATH_IMAGE008
为人体目标在坐标
Figure 984259DEST_PATH_IMAGE005
的光流,通过提取方向光流直方图特征HOOF时计算得到;
Figure 795220DEST_PATH_IMAGE009
为人体目标的恐慌系数;
Figure 113069DEST_PATH_IMAGE010
为人体目标在坐标
Figure 34889DEST_PATH_IMAGE005
的平均时空光流;
(3)计算视频帧中所有人体目标的交互力,统计8个方向区间各自的交互力数量
Figure 754583DEST_PATH_IMAGE011
,得到交互力的方向直方图
Figure 736446DEST_PATH_IMAGE012
,并对方向直方图
Figure 541591DEST_PATH_IMAGE013
进行归一化处理:
Figure 267101DEST_PATH_IMAGE014
(4)对归一化后的方向直方图进行信息熵的计算:
Figure 841302DEST_PATH_IMAGE015
(5)将步骤(4)计算得到的信息熵与预设的异常阈值比较,若超过异常阈值,则判断该人体目标存在人体交互行为;
所述交互行为识别模块,用于:若交互行为检测的结果为某个人体目标存在交互行为,则进一步判别该交互行为的类型。
7.根据权利要求6所述的一种取款人周边环境智能监控识别装置,其特征在于,交互行为类型的判断方法为:将跟踪视频进行预处理,然后输入至预先构建和训练得到的交互行为识别器进行识别;
所述交互行为识别器的架构包括自组织映射层和马尔科夫逻辑网识别层;所述自组织映射层采用栈式降噪自编码神经网络,由多个自编码神经网络级联进行特征提取,最终输出跟踪视频中各人体目标的姿态序列;所述马尔科夫逻辑网识别层的输入为自组织映射层输出的人体目标姿态序列,输出为跟踪视频中的交互行为类型;所述交互行为识别器预先通过已知其中人体交互行为类型的跟踪视频样本训练得到。
8.一种计算机存储介质,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的一种取款人周边环境智能监控识别方法。
CN202110161295.0A 2021-02-05 2021-02-05 一种取款人周边环境智能监控识别方法、装置及介质 Active CN112528966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110161295.0A CN112528966B (zh) 2021-02-05 2021-02-05 一种取款人周边环境智能监控识别方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110161295.0A CN112528966B (zh) 2021-02-05 2021-02-05 一种取款人周边环境智能监控识别方法、装置及介质

Publications (2)

Publication Number Publication Date
CN112528966A CN112528966A (zh) 2021-03-19
CN112528966B true CN112528966B (zh) 2021-05-14

Family

ID=74975510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110161295.0A Active CN112528966B (zh) 2021-02-05 2021-02-05 一种取款人周边环境智能监控识别方法、装置及介质

Country Status (1)

Country Link
CN (1) CN112528966B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158813A (zh) * 2021-03-26 2021-07-23 精英数智科技股份有限公司 流动目标实时统计方法及装置
CN113379930B (zh) * 2021-05-25 2023-03-24 广州紫为云科技有限公司 通过人体曲线图进行的沉浸式交互方法、装置及存储介质
CN113435362B (zh) * 2021-06-30 2024-07-12 平安科技(深圳)有限公司 异常行为检测方法、装置、计算机设备及存储介质
CN115357645B (zh) * 2022-09-05 2023-09-01 杭州思拓瑞吉科技有限公司 基于金字塔加权的能量管理系统时序数据在线采样方法
CN115658946B (zh) * 2022-10-31 2023-05-09 四川港投川南港务运营(集团)有限公司 基于5g互联网的监控数据可视化方法及系统
CN116309590B (zh) * 2023-05-22 2023-08-04 四川新迎顺信息技术股份有限公司 一种基于人工智能的视觉计算方法、系统、电子设备和介质
CN116363566B (zh) * 2023-06-02 2023-10-17 华东交通大学 一种基于关系知识图的目标交互关系识别方法
CN116863399B (zh) * 2023-07-06 2024-06-21 迁安市超卓电子工程有限公司 一种基于人工智能的网络安全监控系统及方法
CN117255180B (zh) * 2023-11-20 2024-02-09 山东通广电子股份有限公司 一种智能安全监控设备及监控方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871775A (zh) * 2019-01-22 2019-06-11 北京影谱科技股份有限公司 一种基于行为检测的滑冰场监控方法和装置
CN110399808A (zh) * 2019-07-05 2019-11-01 桂林安维科技有限公司 一种基于多目标跟踪的人体行为识别方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692281A (zh) * 2009-06-03 2010-04-07 北京中星微电子有限公司 一种安全监控方法、安全监控装置及自动柜员机系统
CN109377682A (zh) * 2018-11-21 2019-02-22 南京晓庄学院 一种面部姿态异常识别报警atm取款机装置
CN110322473A (zh) * 2019-07-09 2019-10-11 四川大学 基于显著部位的目标抗遮挡跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871775A (zh) * 2019-01-22 2019-06-11 北京影谱科技股份有限公司 一种基于行为检测的滑冰场监控方法和装置
CN110399808A (zh) * 2019-07-05 2019-11-01 桂林安维科技有限公司 一种基于多目标跟踪的人体行为识别方法及系统

Also Published As

Publication number Publication date
CN112528966A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112528966B (zh) 一种取款人周边环境智能监控识别方法、装置及介质
CN111274916B (zh) 人脸识别方法和人脸识别装置
CN111079655B (zh) 一种基于融合神经网络的视频中人体行为识别方法
CN111819568B (zh) 人脸旋转图像的生成方法及装置
CN111783748B (zh) 人脸识别方法、装置、电子设备及存储介质
CN102013011B (zh) 基于正脸补偿算子的多姿态人脸识别方法
CN107818326A (zh) 一种基于场景多维特征的船只检测方法及系统
CN109255298A (zh) 一种动态背景中的安全帽检测方法与系统
CN104036546A (zh) 一种基于自适应形变模型的任意视角人脸三维重构方法
CN110298265A (zh) 一种基于yolo神经网络的电梯中特定目标检测方法
CN112581540B (zh) 一种大场景下基于人体姿态估计的相机标定方法
CN101950448B (zh) Atm的伪装与偷窥行为检测的方法和系统
CN110826575A (zh) 一种基于机器学习的水下目标识别方法
CN116363748A (zh) 基于红外-可见光图像融合的电网现场作业一体管控方法
CN114596622A (zh) 基于对比知识驱动的虹膜与眼周对抗自适应融合识别方法
CN112926522A (zh) 一种基于骨骼姿态与时空图卷积网络的行为识别方法
CN117541994A (zh) 一种密集多人场景下的异常行为检测模型及检测方法
Zhao et al. Artificial intelligence system based on the layout effect of both sides in volleyball matches
CN115984439A (zh) 一种伪装目标的三维对抗纹理生成方法和装置
CN114627339B (zh) 茂密丛林区域对越境人员的智能识别跟踪方法及存储介质
CN114170686A (zh) 一种基于人体关键点的屈肘行为检测方法
CN103971100A (zh) 基于视频并针对自动提款机的伪装与偷窥行为的检测方法
CN113762166A (zh) 一种基于可穿戴式装备的小目标检测改善方法及系统
CN112215873A (zh) 用于对变电站内多目标跟踪定位的方法
CN111881803A (zh) 一种基于改进YOLOv3的畜脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant