CN106022251B - 基于视觉共生矩阵序列的异常双人交互行为识别方法 - Google Patents

基于视觉共生矩阵序列的异常双人交互行为识别方法 Download PDF

Info

Publication number
CN106022251B
CN106022251B CN201610326773.8A CN201610326773A CN106022251B CN 106022251 B CN106022251 B CN 106022251B CN 201610326773 A CN201610326773 A CN 201610326773A CN 106022251 B CN106022251 B CN 106022251B
Authority
CN
China
Prior art keywords
video
algorithm
interbehavior
vision
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610326773.8A
Other languages
English (en)
Other versions
CN106022251A (zh
Inventor
姬晓飞
左鑫孟
王艳辉
王扬扬
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Aerospace University
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN201610326773.8A priority Critical patent/CN106022251B/zh
Publication of CN106022251A publication Critical patent/CN106022251A/zh
Application granted granted Critical
Publication of CN106022251B publication Critical patent/CN106022251B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于视觉共生矩阵序列的异常双人交互行为识别方法,包括步骤1:对摄像头采集的视频中的交互行为进行运动检测与分割;步骤2:对视频中左右动作执行人分别进行分区域HOG特征提取;步骤3:利用步骤2中提取的HOG特征,采用K‑means算法构建视觉单词,生成视觉词袋,并对视觉词袋中的单词进行编码;利用相似度量函数,对区域特征进行视觉单词编码;统计时间维度中交互个体之间的视觉共生关系,得到视觉共生矩阵序列来表示视频中的异常双人交互行为;步骤4:HMM算法的训练与识别。本发明提出的算法过程的方法简单、高效,识别准确率较高;针对识别智能监控系统中异常的双人交互行为,具有较好的识别性能。

Description

基于视觉共生矩阵序列的异常双人交互行为识别方法
技术领域
本发明属于计算机视觉领域,具体涉及基于视觉共生矩阵序列的异常双人交互行为识别方法。
背景技术
在大数据时代的背景下,计算机视觉领域备受关注,其中人体异常交互行为识别算法研究已成为热点问题,拥有交互行为识别能力的计算机能够代替人高效且准确地完成繁琐而重要的工作;因此,异常交互行为的识别算法研究具有较高的实用价值,其成果在识别智能监控系统中异常的双人交互行为,有着广泛的应用前景。
目前异常双人交互行为识别方法大体有两种框架,一种是基于整体的交互动作识别与理解的框架,该框架处理简单且无需分割个体,但往往无法准确表述交互动作的内在属性,需要依靠十分复杂的特征表示及匹配方法来保证识别的准确性;交互动作通常是由动作执行个体的具体时间顺序的多个子动作在高层次的结合而成的;另外一种基于个体分割的交互动作识别与理解的框架,正是将交互动作分解为单个人的子动作并结合考虑人与人之间的运动关系进行交互行为的识别与理解,该框架下得到的交互信息较为丰富,因此得到了大量研究者的重视,目前基于个体分割的识别方法主要可分为三类:
(1)基于语义描述的识别方法:此类方法侧重于利用语义对个体姿态、原子动作或整个交互行为的表述;文献[1]等提出了基于上下文无关文法的表示方法,利用已定义的语法规则实现交互行为的识别与理解;文献[2]提出交互短语来描述执行人间的运动关系,并训练基于SVM的识别模型对交互动作进行识别;然而该类方法往往需要预先定义所有可能的产生式规则,工作繁琐;详见:[1]Ryoo M.S.,Aggarwal J.K..Recognition ofcompositehuman activities through context-free grammar based representation[C].Proc.IEEE Computer Society Conf.ComputerVision andPattern Recognition,NY,USAa,2006:1709-1719.[2]KongY.,JiaY.,FuY..Interactive phrases:semanticdescriptions for human interaction recognition[J].IEEE TransactionsonPatternAnalysis andMachine Intelligence,2014,36(9):1775-1788。
(2)基于概率图模型的识别方法:此类方法通常利用概率图模型对个体动作和双人交互动作进行分层建模与识别;文献[3-4]提出了一种基于整体光流特征和身体部分局部特征描述的耦合隐条件随机场模型,该模型通过分层建模身体各部分及单人动作间的运动关系实现交互行为的识别与理解;该方法将复杂的交互动作看成多个身体部分子动作及单人动作的级联,可以较好的建模复杂的交互动作,但是太过于依赖身体各部分区域的准确检测;详见:[3]Dong Z.,Kong Y.,Liu C,Li H.,Jia Y..Recognizing humaninteraction by multiple features[C].Proc.1st Asian Conf.PatternRecognition.Beijing,China,2011:77-81.[4]Kong Y.,Liang W.,Dong Z.,JiaY..Recognizing human interaction from videos by a discriminative model[J].Institution of Engineering and Technology Computer Vision,2014,8(4):277-286。
(3)基于共生原子动作的匹配识别方法:此类方法对来自不同个体的成对出现的共生原子动作进行模板表示,然后采用模板匹配的方法进行识别;文献[5]将视频序列用一系列具有一致空间结构和一致运动的组件表示,通过对比这些成对组件的时空关系对双人交互行为进行识别;文献[6]提出了一种基于共生视觉词典的方法,该方法提取3D-SIFT特征,并通过统计动作执行人间共生视觉词的发生频率对双人交互行为进行表示和识别;该类方法原理简单,容易实现,但算法通常计算量大,特征表述能力不强,分类器的性能有待提高,这也导致目前此类方法的准确性不高;详见:[5]Yuan F.,Prinet V.,YuanJ..Middle-Level representation for human activities recognition:the roleofspatio-temporal relationships[C].Proc.11th European Conf.Computer Vision,Heraklion,Greece,2010:168-180.[6]Slimani K.,Benezeth Y.,Souami F..Humaninteraction recognition based on the co-occurrence of visual words[C].Proc.IEEE Conf.ComputerVision and Pattern Recognition Workshops.Columbus,Ohio,USA,2014:461-466。
发明内容
为解决上述异常双人交互识别研究中存在的识别率较低、计算复杂度较高的技术问题,本发明有效结合了基于共生原子动作描述及概率图模型识别方法的优势,设计了基于视觉共生矩阵序列的异常双人交互行为识别方法。
本发明采用的技术方案为:基于视觉共生矩阵序列的异常双人交互行为识别方法,包括以下几个步骤:
步骤1:对摄像头采集的视频中的交互行为进行运动检测与分割;
步骤2:对视频中左右动作执行人分别进行分区域HOG特征提取;
步骤3:利用步骤2中提取的HOG特征,采用K-means聚类算法构建视觉单词,生成视觉词袋,并对视觉词袋中的单词进行编码;利用相似度量函数,对区域特征进行视觉单词编码;统计时间维度中交互个体之间的视觉共生关系,得到视觉共生矩阵序列来表示视频中的异常双人交互行为;
步骤4:利用HMM算法,对各类异常双人交互行为进行训练,利用训练好的不同交互行为模型,对实际输入视频进行异常双人交互行为识别。
作为一种优选的技术方案,所述的步骤1具体包括:
步骤1.1:拍摄视频:启动摄像头,录制双人交互视频,收集不同动作执行人的各类交互动作视频,作为交互动作的训练视频,并对各类训练视频进行交互行为含义标记,建立视频训练集;利用摄像头捕捉需要进行测试的视频流,进而形成视频测试集;
步骤1.2:检测与分割:对拍摄的视频进行运动检测处理,利用ViBe算法进行动态背景建模,建模后视频背景置为黑色,交互的前景区域为彩色,完成运动检测,并且利用人体的轮廓信息以及体心距离,将交互的左右动作执行人实现运动分割,得到两个彼此分开的个体;最后,将视频进行灰度化处理,便于后续特征提取。
作为一种优选的技术方案,所述的步骤2具体包括:
步骤2.1:提取序列图像的梯度幅值与梯度方向,如公式(1)所示:
其中Gx为图像中像素点(x,y)处的水平方向梯度,Gy是垂直方向梯度,其像素点(x,y)处的梯度幅值G(x,y)和梯度方向分别为公式(2)和公式(3)所示:
步骤2.2:将整帧图像分成c×r个块区域,然后计算各区域中像素点的梯度大小对其不同方向区域,方向个数为q,贡献不同的权重,累加权重到所有的梯度方向上,最终得到特征向量。
作为一种优选的技术方案,所述的步骤3具体包括:
步骤3.1:采用K-means算法构建视觉单词,生成视觉词袋:
①分别提取视频训练集中左右动作执行人的分区域HOG特征向量seti,共同生成一个特征向量集SET,SET={set1,set2,…setm};其中m为特征向量的总数,且i=1,2,m
②对SET进行K-means算法操作,生成具有代表性的视觉单词wp,组成词袋W,W={w1,w2,…,wn},其中n为视觉单词个数,且p=1,2,...n;
③利用哈希技术将W中的视觉单词wp单一映射到h=f(wp),实现对视觉词袋中单词的量化编码,量化编码的取值范围为1~N,且h∈{1,2,…N},哈希函数如公式(4)所示:
其中,wj∈W;
步骤3.2:完成对左右动作执行人分区域特征的视觉单词编码:
①对视频中每帧图片左右执行人的局部区域HOG特征向量seti,采用相似度量函数,将seti与W={w1,w2,…,wn}中的视觉单词进行相似性比较,得到与之最相似的视觉单词;
②将分块的视频帧左右动作执行人局部区域的seti,分别标记为该视觉单词经过哈希函数得到的量化编码,从而完成视频区域特征的视觉单词编码;
步骤3.3:将视频描述为对应的视觉共生矩阵序列:
①以视频帧图像为单位建立一个N×N的视觉共生矩阵,用来统计每帧中左右执行人之间视觉单词共生的频数。例如:左边执行人的视觉单词编码hi与右边执行人的视觉单词编码hj共同出现的频数为k,则在视觉共生矩阵对应(hi,hj)的位置处记为k。最终得到一个表示视频帧图片中左右执行人之间关系的视觉共生矩阵vc,并进行归一化处理;
②对于视频来说,在时间维度T上得到视觉共生矩阵序列VC={vc1,vc2,…,vcnum}来表征基于视频的交互行为信息,对于测试视频同样进行本步骤操作;
步骤3.4:由于在双人交互过程中,存在动作执行人的左右位置不同,这将导致视觉单词对共生的位置发生变化,因此,这里将采用得到vc,并取其上三角视觉共生矩阵代替原来的矩阵,来增加算法的鲁棒性。
作为一种优选的技术方案,所述的步骤4具体包括:
步骤4.1:HMM算法的训练
一个HMM可以由λ={A,B,π}来描述,其中A为状态转移矩阵,B是观察概率矩阵,π表示初始状态概率矢量;采用Baum-Welch算法训练基于视觉共生矩阵序列的双人交互HMM,采用K-means算法为Baum-Welch算法选取初始值,K-means算法具体包括:
步骤4.1.1:初值选取:选取一类训练动作的N个等间距帧的特征作为K-means算法的初始值U(K-start),其中
步骤:4.1.2:更新过程;求取每一个观察向量ot与每一个ui的距离di(ot),把ot划分到与其距离最近的类中,获得更新的N类观察向量,并计算每类新观察向量的均值其中oxi为第i类观察向量,Ni为其个数;
步骤4.1.3:终止条件:每类新观察向量均值不在变化,将每类动作的聚类中心作为各类HMM的初始值,利用Baum-Welch算法采用多个训练序列来训练各类交互行为的HMM,来完成动作识别;
步骤4.2:HMM算法的识别:
利用HMM算法识别过程如下:需要采用forward-backward算法依次计算测试序列O={o1,o2,...,oT}与训练得到的各类交互行为HMM的相似度,相似度最大的模型所代表的交互行为,则为测试视频最终的交互行为。
与现有技术相比较,本发明的有益效果在于:(1)本发明创新性的设计了双人交互行为的特征描述方法,并充分利用HMM进行双人交互行为的识别;(2)利用HOG提取的特征,设计基于视觉共生矩阵序列的特征描述方法,得到交互行为视频的全局特征与分布特征;(3)利用HMM实现了交互行为的分类与识别;(4)本发明提高了相似交互行为的识别率,且方法简单、实时性好。
附图说明
图1为本发明算法流程图;
图2为HOG底层特征提取算法示意图;
图3为基于视觉共生矩阵序列描述的算法框图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本发明选择了计算复杂度较低的分区域HOG特征作为底层特征,在兼顾局部特征优势的同时,也包含区域之间的位置信息;然后,本发明设计将左右动作执行人的特征集在帧图像层上建立视觉单词共生矩阵,利用视觉共生矩阵序列描述一个交互行为视频的特征,丰富了视频中隐含的内在信息,同时增强了不同交互行为的区分度;最后,考虑到基于概率图模型的识别方法能够较好地建模人体运动的动态过程,所以采用基于隐马尔科夫模型算法进行动作建模和识别;提高了交互行为识别的准确率和识别速度。
下面依据附图1,对本发明的技术方案做进一步的详细描述:
基于视觉共生矩阵序列的异常双人交互行为识别方法,包括以下几个步骤:
步骤1:对摄像头采集的视频中的交互行为进行运动检测与分割;双人交互行为识别系统实现首先是进行运动检测与左右动作执行人的分割,完成视频的预处理操作,本发明采用普通的视频监控摄像头采集视频,获取RGB彩色视频流;采用ViBe算法进行背景建模,得到视频的前景,即双人交互的感兴趣区域;背景模型为每个背景点存储了一个样本集,并用每个新的像素值与其比较,来判断是否为背景点;可以知道若一个新的观察值属于背景点,则它应该和样本集中的采样值比较接近;并利用形态学原理将得到的交互行为前景信息进行闭运算,进而填补前景的空洞部分,然后采用中值滤波进行降噪处理;然后根据人体的外部轮廓特征和体心距离,实现双人交互行为的检测与个体分割。
步骤2:对视频中左右动作执行人分别进行分区域HOG特征提取;HOG特征是表征人体运动的边缘梯度信息,无需进行边缘检测,这种方法能够克服因光照、尺度变化、衣着以及背景的变化所带来的干扰,即使在一些复杂的背景环境仍然能有较强的抗干扰能力;HOG特征采用分区域的方法,对像素点求取梯度的幅值和方向,能够更好的描述细节和分布特征;图2说明了双人交互视频分区域HOG特征提取的过程;
步骤3:利用步骤2中提取的HOG特征,采用K-means算法构建视觉单词,生成视觉词袋,并对视觉词袋中的单词进行编码;利用相似度量函数,对区域特征进行视觉单词编码;统计时间维度中交互个体之间的视觉共生关系,得到视觉共生矩阵序列来表示视频中的异常双人交互行为;本发明基于共生矩阵的思想,并合理地结合了HOG和BOW各自的优势,通过对图像构建视觉单词共生矩阵序列来描述刻画视觉单词间在空间上的相关性。图3说明了双人交互视频中视觉共生矩阵序列特征描述的过程;
步骤4:利用HMM算法,对各类异常双人交互行为进行训练。利用训练好的不同交互行为模型,对实际输入视频进行异常双人交互行为识别。
作为一种优选的技术方案,所述的步骤1具体包括:
步骤1.1:拍摄视频:启动摄像头,录制双人交互视频,收集不同动作执行人的各类交互动作视频,作为交互动作的训练视频,并对各类训练视频进行交互行为含义标记,建立视频训练集;利用摄像头捕捉需要进行测试的视频流,进而形成视频测试集;
步骤1.2:检测与分割:对拍摄的视频进行运动检测处理,利用ViBe算法进行动态背景建模,建模后视频背景置为黑色,交互的前景区域为彩色,完成运动检测,并且利用人体的轮廓信息以及体心距离,将交互的左右动作执行人实现运动分割,得到两个彼此分开的个体;最后,将视频进行灰度化处理,便于后续特征提取。
作为一种优选的技术方案,所述的步骤2具体包括:
步骤2.1:提取序列图像的梯度幅值与梯度方向,如公式(1)所示:
其中Gx为图像中像素点(x,y)处的水平方向梯度,Gy是垂直方向梯度,其像素点(x,y)处的梯度幅值G(x,y)和梯度方向分别为公式(2)和公式(3)所示:
步骤2.2:将整帧图像分成c×r个块区域,然后计算各区域中像素点的梯度大小对其不同方向区域,方向个数为q,贡献不同的权重,累加权重到所有的梯度方向上,最终得到特征向量。
作为一种优选的技术方案,所述的步骤3具体包括:
步骤3.1:采用K-means算法构建视觉单词,生成视觉词袋:
①分别提取视频训练集中左右动作执行人的分区域HOG特征向量seti,共同生成一个特征向量集SET,SET={set1,set2,…setm};其中m为特征向量的总数,且i=1,2,m
②对SET进行K-means算法操作,生成具有代表性的视觉单词wp,组成词袋W,W={w1,w2,…,wn},其中n为视觉单词个数,且p=1,2,...n;
③利用哈希技术将W中的视觉单词wp单一映射到h=f(wp),实现对视觉词袋中单词的量化编码,量化编码的取值范围为1~N,且h∈{1,2,…N},哈希函数如公式(4)所示:
其中,wj∈W;
步骤3.2:完成对左右动作执行人分区域特征的视觉单词编码:
①对视频中每帧图片左右执行人的局部区域HOG特征向量seti,采用相似度量函数,将seti与W={w1,w2,…,wn}中的视觉单词进行相似性比较,得到与之最相似的视觉单词;
②将分块的视频帧左右动作执行人局部区域的seti,分别标记为该视觉单词经过哈希函数得到的量化编码,从而完成视频区域特征的视觉单词编码;
步骤3.3:将视频描述为对应的视觉共生矩阵序列:
①以视频帧图像为单位建立一个N×N的视觉共生矩阵,用来统计每帧中左右执行人之间视觉单词共生的频数。例如:左边执行人的视觉单词编码hi与右边执行人的视觉单词编码hj共同出现的频数为k,则在视觉共生矩阵对应(hi,hj)的位置处记为k。最终得到一个表示视频帧图片中左右执行人之间关系的视觉共生矩阵vc,并进行归一化处理;
②对于视频来说,在时间维度T上得到视觉共生矩阵序列VC={vc1,vc2,…,vcnum}来表征基于视频的交互行为信息,对于测试视频同样进行本步骤操作;
步骤3.4:由于在双人交互过程中,存在动作执行人的左右位置不同,这将导致视觉单词对共生的位置发生变化,因此,这里将采用得到vc,并取其上三角视觉共生矩阵代替原来的矩阵,来增加算法的鲁棒性。
作为一种优选的技术方案,所述的步骤4具体包括:
步骤4.1:HMM算法的训练
一个HMM可以由λ={A,B,π}来描述,其中A为状态转移矩阵,B是观察概率矩阵,π表示初始状态概率矢量;采用Baum-Welch算法训练基于视觉共生矩阵序列的双人交互HMM,采用K-means算法为Baum-Welch算法选取初始值,K-means算法包括:
步骤4.1.1:初值选取:选取一类训练动作的N个等间距帧的特征作为K-means算法的初始值U(K-start),其中
步骤4.1.2:更新过程。求取每一个观察向量ot与每一个ui的距离di(ot),把ot划分到与其距离最近的类中,获得更新的N类观察向量,并计算每类新观察向量的均值其中oxi为第i类观察向量,Ni为其个数;
步骤4.1.3:终止条件:每类新观察向量均值不在变化,将每类动作的聚类中心作为各类HMM的初始值,利用Baum-Welch算法采用多个训练序列来训练各类交互行为的HMM,来完成动作识别;
步骤4.2:HMM算法的识别:
利用HMM算法识别过程如下:需要采用forward-backward算法依次计算测试序列O={o1,o2,...,oT}与训练得到的各类交互行为HMM的相似度,相似度最大的模型所代表的交互行为,则为测试视频最终的交互行为。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (4)

1.基于视觉共生矩阵序列的异常双人交互行为识别方法,其特征在于,包括以下几个步骤:
步骤1:对摄像头采集的视频中的交互行为进行运动检测与分割;
步骤2:对视频中左右动作执行人分别进行分区域HOG特征提取;
步骤3:利用步骤2中提取的HOG特征,采用K-means聚类算法构建视觉单词,生成视觉词袋,并对视觉词袋中的单词进行编码;利用相似度量函数,对区域特征进行视觉单词编码;统计时间维度中交互个体之间的视觉共生关系,得到视觉共生矩阵序列来表示视频中的异常双人交互行为,具体包括:
步骤3.1:采用K-means算法构建视觉单词,生成视觉词袋:
①分别提取视频训练集中左右动作执行人的分区域HOG特征向量seti,共同生成一个特征向量集SET,SET={set1,set2,…setm};其中m为特征向量的总数,且i=1,2,m;
②对SET进行K-means算法操作,生成具有代表性的视觉单词wp,组成词袋W,W={w1,w2,…,wn},其中n为视觉单词个数,且p=1,2,...n;
③利用哈希技术将W中的视觉单词wp单一映射到h=f(wp),实现对视觉词袋中单词的量化编码,量化编码的取值范围为1~N,且h∈{1,2,…N},哈希函数如公式(4)所示:
其中,wj∈W;
步骤3.2:完成对左右动作执行人分区域特征的视觉单词编码:
①对视频中每帧图片左右执行人的局部区域HOG特征向量seti,采用相似度量函数,将seti与W={w1,w2,…,wn}中的视觉单词进行相似性比较,得到与之最相似的视觉单词;
②将分块的视频帧左右动作执行人局部区域的seti,分别标记为该视觉单词经过哈希函数得到的量化编码,从而完成视频区域特征的视觉单词编码;
步骤3.3:将视频描述为对应的视觉共生矩阵序列:
①以视频帧图像为单位建立一个N×N的视觉共生矩阵,用来统计每帧中左右执行人之间视觉单词共生的频数;最终得到一个表示视频帧图片中左右执行人之间关系的视觉共生矩阵vc,并进行归一化处理;
②对于视频来说,在时间维度T上得到视觉共生矩阵序列VC={vc1,vc2,…,vcnum}来表征基于视频的交互行为信息,对于测试视频同样进行本步骤操作;
步骤3.4:由于在双人交互过程中,存在动作执行人的左右位置不同,这将导致视觉单词对共生的位置发生变化,因此,这里将采用vc=vci+vci T得到vc,并取其上三角视觉共生矩阵代替原来的矩阵,来增加算法的鲁棒性。
步骤4:利用HMM算法,对各类异常双人交互行为进行训练,利用训练好的不同交互行为模型,对实际输入视频进行异常双人交互行为识别。
2.根据权利要求1所述的基于视觉共生矩阵序列的异常双人交互行为识别方法,其特征在于,所述的步骤1具体包括:
步骤1.1:拍摄视频:启动摄像头,录制双人交互视频,收集不同动作执行人的各类交互动作视频,作为交互动作的训练视频,并对各类训练视频进行交互行为含义标记,建立视频训练集;利用摄像头捕捉需要进行测试的视频流,进而形成视频测试集;
步骤1.2:检测与分割:对拍摄的视频进行运动检测处理,利用ViBe算法进行动态背景建模,建模后视频背景置为黑色,交互的前景区域为彩色,完成运动检测,并且利用人体的轮廓信息以及体心距离,将交互的左右动作执行人实现运动分割,得到两个彼此分开的个体;最后,将视频进行灰度化处理,便于后续特征提取。
3.根据权利要求1所述的一种基于视觉共生矩阵序列的异常双人交互行为识别方法,其特征在于,所述的步骤2具体包括:
步骤2.1:提取序列图像的梯度幅值与梯度方向,如公式(1)所示:
其中Gx为图像中像素点(x,y)处的水平方向梯度,Gy是垂直方向梯度,其像素点(x,y)处的梯度幅值G(x,y)和梯度方向分别为公式(2)和公式(3)所示:
步骤2.2:将整帧图像分成c×r个块区域,然后计算各区域中像素点的梯度大小对其不同方向区域,方向个数为q,贡献不同的权重,累加权重到所有的梯度方向上,最终得到特征向量。
4.根据权利要求1所述的一种基于视觉共生矩阵序列的异常双人交互行为识别方法,其特征在于,所述的步骤4具体包括:
步骤4.1:HMM算法的训练
HMM由λ={A,B,π}来描述,其中A为状态转移矩阵,B是观察概率矩阵,π表示初始状态概率矢量;采用Baum-Welch算法训练基于视觉共生矩阵序列的双人交互HMM,采用K-means算法为Baum-Welch算法选取初始值,K-means算法具体包括:
步骤4.1.1:初值选取:选取一类训练动作的N个等间距帧的特征作为K-means算法的初始值U(K-start),其中
步骤:4.1.2:更新过程;求取每一个观察向量ot与每一个ui的距离di(ot),把ot划分到与其距离最近的类中,获得更新的N类观察向量,并计算每类新观察向量的均值如公式(5)所示:
其中oxi为第i类观察向量,Ni为其个数;
步骤4.1.3:终止条件:每类新观察向量均值不在变化,将每类动作的聚类中心作为各类HMM的初始值,利用Baum-Welch算法采用多个训练序列来训练各类交互行为的HMM,来完成动作识别;
步骤4.2:HMM算法的识别:
利用HMM算法识别过程如下:需要采用forward-backward算法依次计算测试序列O={o1,o2,...,oT}与训练得到的各类交互行为HMM的相似度,相似度最大的模型所代表的交互行为,则为测试视频最终的交互行为。
CN201610326773.8A 2016-05-17 2016-05-17 基于视觉共生矩阵序列的异常双人交互行为识别方法 Expired - Fee Related CN106022251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610326773.8A CN106022251B (zh) 2016-05-17 2016-05-17 基于视觉共生矩阵序列的异常双人交互行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610326773.8A CN106022251B (zh) 2016-05-17 2016-05-17 基于视觉共生矩阵序列的异常双人交互行为识别方法

Publications (2)

Publication Number Publication Date
CN106022251A CN106022251A (zh) 2016-10-12
CN106022251B true CN106022251B (zh) 2019-03-26

Family

ID=57098196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610326773.8A Expired - Fee Related CN106022251B (zh) 2016-05-17 2016-05-17 基于视觉共生矩阵序列的异常双人交互行为识别方法

Country Status (1)

Country Link
CN (1) CN106022251B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018143277A1 (ja) * 2017-01-31 2018-08-09 株式会社エクォス・リサーチ 画像特徴量出力装置、画像認識装置、画像特徴量出力プログラム、及び画像認識プログラム
CN107122780B (zh) * 2017-02-28 2022-12-20 青岛科技大学 基于时空特征点的互信息与时空分布熵的行为识别方法
CN107203745B (zh) * 2017-05-11 2020-06-26 天津大学 一种基于跨域学习的跨视角动作识别方法
CN107451247B (zh) * 2017-07-28 2021-03-30 北京小米移动软件有限公司 用户识别方法及装置
CN108491751B (zh) * 2018-01-11 2021-08-10 华南理工大学 一种基于简单动作的探索特权信息的复杂动作识别方法
CN111160078B (zh) * 2018-12-06 2023-06-23 北方工业大学 一种基于视频图像的人体交互行为识别方法、系统及装置
CN110135246B (zh) * 2019-04-03 2023-10-20 平安科技(深圳)有限公司 一种人体动作的识别方法及设备
TWI710972B (zh) 2019-11-01 2020-11-21 緯創資通股份有限公司 基於原子姿勢的動作辨識方法及其系統與電腦可讀取記錄媒體
CN111507264A (zh) * 2020-04-17 2020-08-07 浙江大学 基于视频的行为分析方法、装置、设备
CN115862152B (zh) * 2023-02-17 2023-05-05 山西清众科技股份有限公司 基于多层感知机的轻量化人体骨骼交互行为推理网络结构

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102449660A (zh) * 2009-04-01 2012-05-09 I-切塔纳私人有限公司 用于数据检测的系统和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102449660A (zh) * 2009-04-01 2012-05-09 I-切塔纳私人有限公司 用于数据检测的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于HOG/HOF及空-时兴趣点的行为识别方法研究;康恺;《中国优秀硕士学位论文全文数据库信息科技辑》;20140615(第6期);第13-15,44-52页
基于shell命令和共生矩阵的用户行为异常检测方法;李超等;《计算机研究与发展》;20120915;第49卷(第9期);第1982-1990页

Also Published As

Publication number Publication date
CN106022251A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106022251B (zh) 基于视觉共生矩阵序列的异常双人交互行为识别方法
CN106295568B (zh) 基于表情和行为双模态结合的人类自然状态情感识别方法
Yang et al. Class-agnostic few-shot object counting
Devanne et al. Motion segment decomposition of RGB-D sequences for human behavior understanding
Xiao et al. Multimodal fusion based on LSTM and a couple conditional hidden Markov model for Chinese sign language recognition
CN109948447B (zh) 基于视频图像识别的人物网络关系发现及演化呈现方法
CN103605972A (zh) 一种基于分块深度神经网络的非限制环境人脸验证方法
CN104156690B (zh) 一种基于图像空间金字塔特征包的手势识别方法
CN112464730B (zh) 一种基于域无关前景特征学习的行人再识别方法
CN109558855B (zh) 一种基于手掌轮廓特征与模版匹配法相结合的空间手势识别方法
CN105976397B (zh) 一种目标跟踪方法
CN116311483B (zh) 基于局部面部区域重构和记忆对比学习的微表情识别方法
CN111507413A (zh) 一种基于字典学习的城市管理案件图像识别方法
CN106845456A (zh) 一种视频监控系统中人体摔倒监测的方法
CN102184384A (zh) 一种基于多尺度局部相位量化特征的人脸识别方法
Zhang et al. Group sparse-based mid-level representation for action recognition
CN107220597B (zh) 一种基于局部特征和词袋模型人体动作识别过程的关键帧选取方法
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
Zhao et al. Region-based mixture models for human action recognition in low-resolution videos
CN113435335B (zh) 微观表情识别方法、装置、电子设备及存储介质
CN105550642B (zh) 基于多尺度线性差分特征低秩表示的性别识别方法及系统
Cai et al. Learning pose dictionary for human action recognition
Wang et al. Safety helmet wearing recognition based on improved YOLOv4 algorithm
Wang et al. The study of gesture recognition based on SVM with LBP and PCA
Cai et al. Performance analysis of distance teaching classroom based on machine learning and virtual reality

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190326

Termination date: 20210517

CF01 Termination of patent right due to non-payment of annual fee