CN107025420A - 视频中人体行为识别的方法和装置 - Google Patents
视频中人体行为识别的方法和装置 Download PDFInfo
- Publication number
- CN107025420A CN107025420A CN201610067817.XA CN201610067817A CN107025420A CN 107025420 A CN107025420 A CN 107025420A CN 201610067817 A CN201610067817 A CN 201610067817A CN 107025420 A CN107025420 A CN 107025420A
- Authority
- CN
- China
- Prior art keywords
- human
- classification
- region
- predicted value
- human region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000004044 response Effects 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 claims description 51
- 238000001914 filtration Methods 0.000 claims description 18
- 210000000746 body region Anatomy 0.000 claims description 6
- 230000003542 behavioural effect Effects 0.000 abstract description 13
- 230000006399 behavior Effects 0.000 description 173
- 238000012544 monitoring process Methods 0.000 description 68
- 230000004927 fusion Effects 0.000 description 30
- 230000000694 effects Effects 0.000 description 24
- 239000000203 mixture Substances 0.000 description 10
- 238000012806 monitoring device Methods 0.000 description 9
- 230000003068 static effect Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Abstract
本发明公开了一种视频中人体行为识别的方法和装置,其方法包括:检测待识别视频中的人体区域,获取人体区域中的人体运行轨迹信息;根据人体区域计算得到人体区域对应的预测值,对预测值为非人体类别的人体区域进行过滤,得到预测值为人体类别的人体区域;对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分;根据行为类别得分,输出相应的行为类别。本发明解决了现有技术中识别视频中人体行为性能较差,实时性和准确性较低的问题。实现了提升视频识别的实时性和准确性。
Description
技术领域
本发明涉及视频识别技术领域,尤其涉及一种视频中人体行为识别的方法和装置。
背景技术
现有的视频行为分析技术主要包括检测、跟踪和识别三个步骤。传统的方法主要是提取一些人工定义的视觉特征,比如颜色直方图、SIFT、HoG等,然后根据这些特征进行目标的检测、跟踪和分类等。然而由于这些传统特征的计算方法是通过人为定义的,特征的描述能力比较有限。实际应用中如果全部依赖传统的方法实现检测、跟踪及识别系统,所能达到的识别性能往往比较有限。
与传统方法相对的是使用深度网络模型完成图片或视频中的行为检测与识别。通过深度网络的模型能够学习到更好的特征描述,目前已经有一些使用基于深度学习的方法在视频分析中的工作成果,包括3D-CNN、RCNN、two-streams等时序模型的应用。这些现有的基于深度网络的视频分类方法主要是一些通用的算法,在对于监控视频中的人体行为识别这一特定的应用场景,现有技术存在一定的不足与改善空间,例如,在监控的场景中对于不同类型的人的行为,在识别的过程中应该区别对待。有些行为通过静态的画面就能够迅速识别,比如打架、骑车等,有些动作则时序性上的规律较强,借助连续图像帧分析更有助于区分,比如走路与(慢)跑等行为。现有技术中使用单一的模型不能同时兼顾以上两个方面,影响实时性和准确性。
发明内容
本发明的主要目的在于提出一种视频中人体行为识别的方法和装置,旨在提升视频识别的实时性和准确性。
为实现上述目的,本发明提供的视频中人体行为识别的方法,包括:
检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息;
根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤,得到所述预测值为人体类别的人体区域;
对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分;
根据所述行为类别得分,输出相应的行为类别。
优选地,根据所述行为类别得分,输出相应的行为类别的步骤包括:
若所述行为类别得分高于预设行为类别的阈值,则输出所述行为类别;
若所述行为类别得分不高于预设行为类别的阈值,则结合所述人体运行轨迹信息,计算并输出相应的行为类别。
优选地,其特征在于,所述对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤包括:
获取所述预测值为人体类别的人体区域的背景图像,得到所述背景图像的描述信息;
根据所述背景图像的描述信息,计算所述背景图像对应的背景区域信息,并计算所述背景图像对应的邻近目标信息;
结合所述背景图像对应的背景区域信息和邻近目标信息,计算得到所述人体区域的目标的行为类别得分。
优选地,其特征在于,所述结合所述人体运行轨迹信息,计算并输出相应的行为类别的步骤包括:
获取所述待识别视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像;
将所述当前时刻图像和所述跟踪区域图像进行顺序叠加;
对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和,输出对应的行为类别。
优选地,其特征在于,所述根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤的步骤包括:
获取所述人体区域并进行分析,输出所述人体区域对应的预测值;
若所述预测值为非人体类别,则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤;
若所述预测值为人体类别,则执行计算所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤。
优选地,所述检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息的步骤包括:
获取所述待识别视频,对所述待识别视频中的人体区域进行检测;
对所述人体区域中的行人进行跟踪,得到所述人体区域中的人体运行轨迹信息。
本发明实施例还提出一种视频中人体行为识别的装置,所述装置包括:
检测模块,用于检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息;
过滤模块,用于根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤,得到所述预测值为人体类别的人体区域;
计算模块,用于对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分;
输出模块,用于根据所述行为类别得分,输出相应的行为类别。
优选地,所述输出模块,还用于若所述行为类别得分高于预设行为类别的阈值,则输出所述行为类别;若所述行为类别得分不高于预设行为类别的阈值,则结合所述人体运行轨迹信息,计算并输出相应的行为类别。
优选地,所述计算模块,还用于获取所述预测值为人体类别的人体区域的背景图像,得到所述背景图像的描述信息;根据所述背景图像的描述信息,计算所述背景图像对应的背景区域信息,并计算所述背景图像对应的邻近目标信息;结合所述背景图像对应的背景区域信息和邻近目标信息,计算得到所述人体区域的目标的行为类别得分。
优选地,所述输出模块,还用于获取所述待识别视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像;将所述当前时刻图像和所述跟踪区域图像进行顺序叠加;对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和,输出对应的行为类别。
优选地,所述过滤模块,还用于获取所述人体区域并进行分析,输出所述人体区域对应的预测值;若所述预测值为非人体类别,则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤;若所述预测值为人体类别,则执行计算所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤。
优选地,所述检测模块,还用于获取所述待识别视频,对所述待识别视频中的人体区域进行检测;对所述人体区域中的行人进行跟踪,得到所述人体区域中的人体运行轨迹信息。
本发明提供了一种视频中人体行为识别的方法和装置,通过检测待识别视频中的人体区域,获取人体区域中的人体运行轨迹信息;根据人体区域计算得到人体区域对应的预测值,对预测值为非人体类别的人体区域进行过滤,得到预测值为人体类别的人体区域;对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分;根据行为类别得分,输出相应的行为类别,解决了现有技术中识别视频中人体行为性能较差,实时性和准确性较低的问题。实现了提升视频识别的实时性和准确性。
附图说明
图1是本发明视频中人体行为识别的方法第一实施例的流程示意图;
图2是本发明实施例中基于非时序输入深度网络模型结构示意图;
图3是本发明实施例中基于非时序输入,融合背景与邻近目标特征的行为识别网络模型结构示意图;
图4是本发明实施例中基于时序输入,融合背景与邻近目标特征的行为识别网络模型结构示意图;
图5是本发明实施例中根据所述行为类别得分,输出相应的行为类别的步骤的一种流程示意图;
图6是本发明实施例中对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤的一种流程示意图;
图7是本发明实施例中结合所述人体运行轨迹信息,计算并输出相应的行为类别的步骤的一种流程示意图;
图8是本发明实施例中根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤的步骤的一种流程示意图;
图9是本发明实施例中检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息的步骤的一种流程示意图;
图10是本发明视频中人体行为识别的装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:检测待识别视频中的人体区域,获取人体区域中的人体运行轨迹信息;根据人体区域计算得到人体区域对应的预测值,对预测值为非人体类别的人体区域进行过滤,得到预测值为人体类别的人体区域;对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分;根据行为类别得分,输出相应的行为类别。
由此,解决了现有技术中识别视频中人体行为性能较差,实时性和准确性较低的问题。实现了提升视频识别的实时性和准确性。
如图1所示,本发明第一实施例提出一种视频中人体行为识别的方法,包括:
步骤S1,检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息。
本发明方法的执行主体可以为一种视频监控设备或视频识别设备,本实施例以视频监控设备进行举例,当然也不限定于其他能够实现识别视频中人体行为的设备。
具体地,视频监控设备检测待识别视频中的人体区域,获取人体区域中的人体运行轨迹信息。
其中,视频监控设备获取待识别视频,对目标视频中的人体区域进行检测;在具体实现时,视频监控设备可以通过前端视频采集设备来获取待识别的原始视频,并使用基于传统特征分类的检测器对视频中的人体区域进行检测。
其中,在完成获取待识别视频,对目标视频中的人体区域进行检测后,视频监控设备对人体区域中的行人进行跟踪,得到人体区域中的人体运行轨迹信息;在具体实现时,视频监控设备可使用基于检测区域匹配的跟踪算法对画面中的行人进行跟踪,从而得到画面中的人体的运动轨迹信息。
其中,人体检测与跟踪的结果可以以目标ID与检测区域图像序列的形式保存,即:
其中O(i,t)代表目标i在t时刻的信息,是该目标在t时刻检测到的图像内容,是该目标在t时刻所在区域的位置,中使用向量(x,y,w,h)的形式记录区域的左上角横、纵坐标位置与长、宽值。
步骤S2,根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤,得到所述预测值为人体类别的人体区域。
具体地,在完成检测待识别视频中的人体区域,获取人体区域中的人体运行轨迹信息后,视频监控设备根据人体区域计算得到人体区域对应的预测值,对预测值为非人体类别的人体区域进行过滤,得到预测值为人体类别的人体区域。
其中,视频监控设备获取人体区域并进行分析,输出人体区域对应的预测值,预测值包括人体类别和非人体类别;在具体实现时,当获取到当前帧中某一个人体区域后,视频监控设备将该人体区域的图像输入到背景过滤网络M1网络模型中进行分析,M1网络模型的结构如图2所示,M1网络模型是一个基于单帧图像输入的深度卷积网络模型;其中,网络的输入为检测到的前景区域图像,后接若干个附带ReLU层和pooling层的卷积层(Convolution Layers,CONV),再接上若干个全连通层(Fully Connection Layers,FC)进行深度的特征计算,M1网络的最后一层输出层的维数为2维,经过sigmoid变换后分别对应人体类别与非人体类别上的行为类别得分。
其中,若预测值为非人体类别,则将预测值为非人体类别的人体区域从获取的人体区域中进行过滤;通过M1网络模型的分类后,可以过滤掉前期检测与跟踪算法误测为人体类别的区域。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上),所以并不会产生明显的计算开销,在提高检测准确率的同时,能够满足整个系统实时性上的要求。同时,M1网络模型中的卷积层、全连通层的个数可以根据监控画面的大小与所部署设备的硬件性能等因素进行调整。
其中,本发明在检测与跟踪环节后首先使用了一个结构相对简单的深度网络模型对检测到的前景区域进行进一步的过滤处理;在前期的检测环节,实现时有意降低算法对于前景预测的阈值,使算法尽可能返回更多的前景区域,尽量减少漏检率的产生。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上),所以大大减少了算法的计算开销,在提高检测准确率的同时,很好地满足了整个系统实时性上的要求。
步骤S3,对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分。
具体地,在完成根据人体区域计算得到人体区域对应的预测值,对预测值为非人体类别的人体区域进行过滤,得到预测值为人体类别的人体区域后,视频监控设备对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分。
其中,视频监控设备获取预测值为人体类别的人体区域的背景图像,得到背景图像的描述信息;在具体实现时,如果M1网络模型得到的预测结果是人体类别(即画面中的前景),视频监控设备可以使用一个结构更复杂、识别能力更强的基于邻近目标特征的非时序输入行为识别M2网络模型对单帧图像内的每个人体区域进行行为的识别,该网络模型的结构如图3所示;M2网络模型的隐藏层中加入了当前人体目标所在背景图像和邻近目标隐藏层的特征信息,特征融合的位置在于网络的第一个全连通层,如图3中的第一个FC层所示;其中目标所在区域的背景图像可以从预先设定的纯净的背景图像中获得,只要取其中对应检测区域位置的部分即可。完整的背景图像可以通过预先设定的标准背景图像获得,或通过动态更新的背景模型获得。记某一目标i在t时刻得到的背景图像为那么对于一个目标区域,可以将它的描述信息表示为:
其中,和共用同一个位置区域
其中,在完成获取预测值为人体类别的人体区域的背景图像,得到背景图像的描述信息后,视频监控设备根据背景图像的描述信息,计算背景图像对应的背景区域信息,并计算背景图像对应的邻近目标信息;在具体实现时,背景图像会经过若干个卷积层得到它的视觉特征描述,然后经过一个全连通层得到它对应的第一个隐含层特征,它的维度与目标图像得到的第一个隐含层的维度相同。对于目标图像,它的第一个隐含层的特征计算过程可以表示为:
其中,c(·)代表对于图像的卷积运算,f(·)代表全连接层的矩阵乘法操作与偏置量操作。类似的,对于背景位置图像,记它的第一个隐含层的特征为:
其中,该模型的第一个隐含层的特征组成中,还有一部分是来自邻近目标的特征,这些特征主要来自于当前区域的邻近区域中的目标特征。可以通过设置一阈值来确定邻近区域的范围。记当前目标的中心位置为:
其中,是目标区域左上角横坐标,是目标区域左上角纵坐标,是目标区域的宽度,是目标区域的高度。同时计算同一画面中其它前景目标的中心位置点当与的欧氏距离dij小于一定的阈值D或两者有交叉时,则将该前景归入当前目标的有效邻近目标中。
其中,在完成根据背景图像的描述信息,计算背景图像对应的背景区域信息,并计算背景图像对应的邻近目标信息后,视频监控设备结合背景图像对应的背景区域信息和邻近目标信息,计算得到人体区域的目标的行为类别得分;在具体实现时,视频监控设备可以记所有的邻近目标区域计算到的第一个全连通层的特征的集合为分别统计这些特征值在每一维上的最大值:
和加权平均值:
作为邻近目标的特征描述的组成部分。将以上两组特征拼接在一起,就能得到对于邻近目标描述的整体特征表示,即:
如果当前目标在画面中没有任何邻近目标,则的值全部设为零。综合背景区域信息和邻近目标信合后,行为识别的网络模型的第一个全连通层的特征可以表示为:
该特征经过后续的全连通层,使得整个网络模型在进行识别的过程中,自然地利用到了当前目标的背景区域信息和上下文信息。
其中,M2网络模型输出是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分代表该类别上的预测概率。
步骤S4,根据所述行为类别得分,输出相应的行为类别。
具体地,在完成对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分后,视频监控设备根据行为类别得分,输出相应的行为类别。
其中,若行为类别得分高于预设行为类别的阈值,则输出行为类别;根据上述行为类别得分时,如果此时输出的类别得分在一些静态特征明显的类别上的得分高于一定的阈值,则直接输出该类别的作为最终的预测结果。
其中,本发明针对监控视频中不同行为的类型,根据它们的不同静态特性与动态特性,分别采用了不同结构的时序(多帧图像)与非时序(单帧图像)输入网络对提取到的图像进行分析,最后融合两种不同的网络输出得到最终的行为识别结果;具体的,对于一些静态特性明确的行为类别,如打架、骑车等,本发明主要依赖于一个结构充分复杂的非时序输入网络模型进行快速预测,因为这些动作特征明显,一旦出现,通过单帧的影像一般就能够准确判断;而对于一些通过单帧图像难以判断的行为类别,如走路与慢跑等,主要使用一个采用时序叠加图像作为输入的深度网络进一步分析,提供比使用单一静态图像输入的网络更可靠的识别性能。另外,在时序输入与非时序输入的深度分类模型融合策略的设计上,采用了级联分类器的思想,提高整个分类系统的运行效率,实现实时行为识别的需求。
其中,若行为类别得分不高于预设行为类别的阈值,则结合人体运行轨迹信息,计算并输出相应的行为类别。
其中,视频监控设备获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像;在具体实现时,视频监控设备可以获取当前时刻图像和人体运行轨迹信息对应的跟踪区域图像,使用同一目标先前时刻图像的叠加作为基于背景与邻近目标特征的多帧时序输入行为识别M3网络模型的输入,进行进一步的类别预测。M3网络模型的结构示意图如图4所示。由于采用的是时序的目标动作画面叠加作为网络的输入,所以M3网络模型具有更强的捕捉运动信息的能力,对于一些动态特征明显的行为识别具有明显的优势。
其中,在完成获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后,视频监控设备将当前时刻图像和跟踪区域图像进行顺序叠加;在具体实现时,视频监控设备使用M3网络模型,利用运动轨迹的信息,使用同一目标在当前时刻与前若干时刻的跟踪区域图像的顺序叠加作为模型的输入,即:
M3网络模型的中间层将同时融合当前目标所在的背景区域序列的深度特征、当前目标近邻区域中其它目标历史序列的隐含特征,邻近目标的信息有利于提升算法的预测准确性。
M3网络模型的隐藏层特征融合的位置同样在于网络的第一个全连通层,如图4中的第一个FC层所示。对于M3网络模型的背景区域,也取其轨迹上的背景区域序列作为输入。而对于邻近目标特征的获取也与M2网络模型基本一致,以当前时刻的目标间距离及预设的阈值作为邻近对象的选取准则,并计算它们的FC1特征的最大值、加权均值组成邻近目标特征描述。通过融合后,输入到后续的全连接层进行进一步的识别计算。
其中,M3网络模型输出也是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分为该类别上的预测概率。
其中,在完成将当前时刻图像和跟踪区域图像进行顺序叠加后,视频监控设备对行为类别得分和进行顺序叠加后的结果进行加权求和,输出对应的行为类别;在具体实现时,视频监控设备融合M2网络模型和M3网络模型的处理结果,得到待检测目标的综合行为类别预测,融合的方法可以是两组网络结果的加权和,权重的大小可以通过训练集拟合效果求得。
其中,本发明结合监控视频中出现的行为的特点,设计了基于单帧输入与多帧输入网络中隐含层特征的融合方法,采用当前目标前景、背景图像信息与邻近目标信息的组合作为的新的隐含特征,丰富了分类网络的可利用信息,使得用于分类的深度模型能够同时利用当前目标所在背景区域的信息及邻近区域中其他目标的行为信息,对于监控视频中行为识别具有非常有价值的辅助信息,提升了整个系统对于行为识别的性能。
通过上述方案,本发明提供了一种视频中人体行为识别的方法,实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,参照图5,为本发明具体实施方式中根据所述行为类别得分,输出相应的行为类别的步骤的的一种流程示意图。
作为一种实施方式,上述步骤S4包括:
步骤S41,若所述行为类别得分高于预设行为类别的阈值,则输出所述行为类别。
具体地,在完成对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分后,视频监控设备根据行为类别得分,输出相应的行为类别。
其中,若行为类别得分高于预设行为类别的阈值,则输出行为类别;根据上述行为类别得分时,如果此时输出的类别得分在一些静态特征明显的类别上的得分高于一定的阈值,则直接输出该类别的作为最终的预测结果。
步骤S42,若所述行为类别得分不高于预设行为类别的阈值,则结合所述人体运行轨迹信息,计算并输出相应的行为类别。
具体地,若行为类别得分不高于预设行为类别的阈值,则结合人体运行轨迹信息,计算并输出相应的行为类别。
其中,视频监控设备获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像;在具体实现时,视频监控设备可以获取当前时刻图像和人体运行轨迹信息对应的跟踪区域图像,使用同一目标先前时刻图像的叠加作为基于背景与邻近目标特征的多帧时序输入行为识别M3网络模型的输入,进行进一步的类别预测。M3网络模型的结构示意图如图4所示。由于采用的是时序的目标动作画面叠加作为网络的输入,所以M3网络模型具有更强的捕捉运动信息的能力,对于一些动态特征明显的行为识别具有明显的优势。
其中,在完成获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后,视频监控设备将当前时刻图像和跟踪区域图像进行顺序叠加;在具体实现时,视频监控设备使用M3网络模型,利用运动轨迹的信息,使用同一目标在当前时刻与前若干时刻的跟踪区域图像的顺序叠加作为模型的输入,即:
M3网络模型的中间层将同时融合当前目标所在的背景区域序列的深度特征、当前目标近邻区域中其它目标历史序列的隐含特征,邻近目标的信息有利于提升算法的预测准确性。
M3网络模型的隐藏层特征融合的位置同样在于网络的第一个全连通层,如图4中的第一个FC层所示。对于M3网络模型的背景区域,也取其轨迹上的背景区域序列作为输入。而对于邻近目标特征的获取也与M2网络模型基本一致,以当前时刻的目标间距离及预设的阈值作为邻近对象的选取准则,并计算它们的FC1特征的最大值、加权均值组成邻近目标特征描述。通过融合后,输入到后续的全连接层进行进一步的识别计算。
其中,M3网络模型输出也是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分为该类别上的预测概率。
其中,在完成将当前时刻图像和跟踪区域图像进行顺序叠加后,视频监控设备对行为类别得分和进行顺序叠加后的结果进行加权求和,输出对应的行为类别;在具体实现时,视频监控设备融合M2网络模型和M3网络模型的处理结果,得到待检测目标的综合行为类别预测,融合的方法可以是两组网络结果的加权和,权重的大小可以通过训练集拟合效果求得。
通过上述方案,本发明提供了一种视频中人体行为识别的方法,更好地实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,参照图6,为本发明具体实施方式中对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤的一种流程示意图。
作为一种实施方式,上述步骤S3包括:
步骤S31,获取所述预测值为人体类别的人体区域的背景图像,得到所述背景图像的描述信息。
具体地,在完成采用非人体目标过滤算法,输出人体区域对应的预测值,对预测值为非人体类别的人体区域进行过滤后,视频监控设备获取预测值为人体类别的人体区域的背景图像,得到背景图像的描述信息。
其中,在具体实现时,如果M1网络模型得到的预测结果是人体类别(即画面中的前景),视频监控设备可以使用一个结构更复杂、识别能力更强的基于邻近目标特征的非时序输入行为识别M2网络模型对单帧图像内的每个人体区域进行行为的识别,该网络模型的结构如图3所示;M2网络模型的隐藏层中加入了当前人体目标所在背景图像和邻近目标隐藏层的特征信息,特征融合的位置在于网络的第一个全连通层,如图3中的第一个FC层所示;其中目标所在区域的背景图像可以从预先设定的纯净的背景图像中获得,只要取其中对应检测区域位置的部分即可。完整的背景图像可以通过预先设定的标准背景图像获得,或通过动态更新的背景模型获得。记某一目标i在t时刻得到的背景图像为那么对于一个目标区域,可以将它的描述信息表示为:
其中,和共用同一个位置区域
步骤S32,根据所述背景图像的描述信息,计算所述背景图像对应的背景区域信息,并计算所述背景图像对应的邻近目标信息。
具体地,在完成获取预测值为人体类别的人体区域的背景图像,得到背景图像的描述信息后,视频监控设备根据背景图像的描述信息,计算背景图像对应的背景区域信息,并计算背景图像对应的邻近目标信息。
其中,在具体实现时,背景图像会经过若干个卷积层得到它的视觉特征描述,然后经过一个全连通层得到它对应的第一个隐含层特征,它的维度与目标图像得到的第一个隐含层的维度相同。对于目标图像,它的第一个隐含层的特征计算过程可以表示为:
其中,c(·)代表对于图像的卷积运算,f(·)代表全连接层的矩阵乘法操作与偏置量操作。类似的,对于背景位置图像,记它的第一个隐含层的特征为:
其中,该模型的第一个隐含层的特征组成中,还有一部分是来自邻近目标的特征,这些特征主要来自于当前区域的邻近区域中的目标特征。可以通过设置一阈值来确定邻近区域的范围。记当前目标的中心位置为:
其中,是目标区域左上角横坐标,是目标区域左上角纵坐标,是目标区域的宽度,是目标区域的高度。同时计算同一画面中其它前景目标的中心位置点当与的欧氏距离dij小于一定的阈值D或两者有交叉时,则将该前景归入当前目标的有效邻近目标中。
步骤S33,结合所述背景图像对应的背景区域信息和邻近目标信息,计算得到所述人体区域的目标的行为类别得分。
具体地,在完成根据背景图像的描述信息,计算背景图像对应的背景区域信息,并计算背景图像对应的邻近目标信息后,视频监控设备结合背景图像对应的背景区域信息和邻近目标信息,计算得到人体区域的目标的行为类别得分。
其中,在具体实现时,视频监控设备可以记所有的邻近目标区域计算到的第一个全连通层的特征的集合为分别统计这些特征值在每一维上的最大值:
和加权平均值:
作为邻近目标的特征描述的组成部分。将以上两组特征拼接在一起,就能得到对于邻近目标描述的整体特征表示,即:
如果当前目标在画面中没有任何邻近目标,则的值全部设为零。综合背景区域信息和邻近目标信合后,行为识别的网络模型的第一个全连通层的特征可以表示为:
该特征经过后续的全连通层,使得整个网络模型在进行识别的过程中,自然地利用到了当前目标的背景区域信息和上下文信息。
其中,M2网络模型输出是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分代表该类别上的预测概率。
通过上述方案,本发明提供了一种视频中人体行为识别的方法,更好地实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,参照图7,为本发明具体实施方式中结合所述人体运行轨迹信息,计算并输出相应的行为类别的步骤的一种流程示意图。
作为一种实施方式,上述步骤S42包括:
步骤S421,获取所述视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像。
具体地,视频监控设备获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像。
其中,在具体实现时,视频监控设备可以获取当前时刻图像和人体运行轨迹信息对应的跟踪区域图像,使用同一目标先前时刻图像的叠加作为基于背景与邻近目标特征的多帧时序输入行为识别网络模型M3网络模型的输入,进行进一步的类别预测。M3网络模型的结构示意图如图4所示。由于采用的是时序的目标动作画面叠加作为网络的输入,所以M3网络模型具有更强的捕捉运动信息的能力,对于一些动态特征明显的行为识别具有明显的优势。
步骤S422,将所述当前时刻图像和所述跟踪区域图像进行顺序叠加。
具体地,在完成获取视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后,视频监控设备将当前时刻图像和跟踪区域图像进行顺序叠加。
其中,在具体实现时,视频监控设备使用M3网络模型,利用运动轨迹的信息,使用同一目标在当前时刻与前若干时刻的跟踪区域图像的顺序叠加作为模型的输入,即:
M3网络模型的中间层将同时融合当前目标所在的背景区域序列的深度特征、当前目标近邻区域中其它目标历史序列的隐含特征,邻近目标的信息有利于提升算法的预测准确性。
M3网络模型的隐藏层特征融合的位置同样在于网络的第一个全连通层,如图4中的第一个FC层所示。对于M3网络模型的背景区域,也取其轨迹上的背景区域序列作为输入。而对于邻近目标特征的获取也与M2网络模型基本一致,以当前时刻的目标间距离及预设的阈值作为邻近对象的选取准则,并计算它们的FC1特征的最大值、加权均值组成邻近目标特征描述。通过融合后,输入到后续的全连接层进行进一步的识别计算。
其中,M3网络模型输出也是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分为该类别上的预测概率。
步骤S423,对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和,输出对应的行为类别。
具体地,在完成将当前时刻图像和跟踪区域图像进行顺序叠加后,进行多帧图像叠加输入处理后,视频监控设备对行为类别得分和进行顺序叠加后的结果进行加权求和,输出对应的行为类别。
其中,在具体实现时,视频监控设备融合M2网络模型和M3网络模型的处理结果,得到待检测目标的综合行为类别预测,融合的方法可以是两组网络结果的加权和,权重的大小可以通过训练集拟合效果求得。
通过上述方案,本发明提供了一种视频中人体行为识别的方法,更好地实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,参照图8,为本发明具体实施方式中根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤的步骤的一种流程示意图。
作为一种实施方式,上述步骤S2包括:
步骤S21,获取所述人体区域并进行分析,输出所述人体区域对应的预测值。
具体地,在完成检测待识别视频中的人体区域,获取人体区域中的人体运行轨迹信息后,视频监控设备获取人体区域并进行分析,输出人体区域对应的预测值。
其中,在具体实现时,当获取到当前帧中某一个人体区域后,视频监控设备将该人体区域的图像输入到背景过滤网络M1网络模型中进行分析,M1网络模型的结构如图2所示,M1网络模型是一个基于单帧图像输入的深度卷积网络模型;其中,网络的输入为检测到的前景区域图像,后接若干个附带ReLU层和pooling层的卷积层(Convolution Layers,CONV),再接上若干个全连通层(Fully Connection Layers,FC)进行深度的特征计算,网络的最后一层输出层的维数为2维,经过sigmoid变换后分别对应人体类别与非人体类别上的行为类别得分。
步骤S22,若所述预测值为非人体类别,则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤。
具体地,若预测值为非人体类别,则将预测值为非人体类别的人体区域从获取的人体区域中进行过滤;在具体实现时,视频监控设备通过M1网络模型的分类后,可以过滤掉前期检测与跟踪算法误测为人体类别的区域。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上),所以并不会产生明显的计算开销,在提高检测准确率的同时,能够满足整个系统实时性上的要求。同时,M1网络模型中的卷积层、全连通层的个数可以根据监控画面的大小与所部署设备的硬件性能等因素进行调整。
若所述预测值为人体类别,则执行计算所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤。
具体地,若预测值为人体类别,则视频监控设备执行上述步骤S3,计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分。
通过上述方案,本发明提供了一种视频中人体行为识别的方法,更好地实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,参照图9,为本发明具体实施方式中所述检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息的步骤的一种流程示意图。
作为一种实施方式,上述步骤S1包括:
步骤S11,获取所述待识别视频,对所述目标视频中的人体区域进行检测。
具体地,视频监控设备获取待识别视频,对目标视频中的人体区域进行检测。
其中,在具体实现时,视频监控设备可以通过前端视频采集设备来获取待识别的原始视频,并使用基于传统特征分类的检测器对视频中的人体区域进行检测。
步骤S12,对所述人体区域中的行人进行跟踪,得到所述人体区域中的人体运行轨迹信息。
具体地,在完成获取待识别视频,对目标视频中的人体区域进行检测后,视频监控设备对人体区域中的行人进行跟踪,得到人体区域中的人体运行轨迹信息。
其中,在具体实现时,视频监控设备可使用基于检测区域匹配的跟踪算法对画面中的行人进行跟踪,从而得到画面中的人体的运动轨迹信息。
其中,人体检测与跟踪的结果可以以目标ID与检测区域图像序列的形式保存,即:
其中O(i,t)代表目标i在t时刻的信息,是该目标在t时刻检测到的图像内容,是该目标在t时刻所在区域的位置,中使用向量(x,y,w,h)的形式记录区域的左上角横、纵坐标位置与长、宽值。
通过上述方案,本发明提供了一种视频中人体行为识别的方法,更好地实现了提升视频识别的实时性和准确性。
基于上述视频中人体行为识别的方法实施例的实现,本发明还提供相应的装置实施例。
如图10所示,本发明第一实施例提出一种视频中人体行为识别的装置,包括:
检测模块100,用于检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息。
本发明装置的执行主体可以为一种视频监控设备或视频识别设备,本实施例以视频监控设备进行举例,当然也不限定于其他能够实现识别视频中人体行为的设备。
具体地,检测模块100检测待识别视频中的人体区域,获取人体区域中的人体运行轨迹信息。
其中,视频监控设备获取待识别视频,对目标视频中的人体区域进行检测;在具体实现时,视频监控设备可以通过前端视频采集设备来获取待识别的原始视频,并使用基于传统特征分类的检测器对视频中的人体区域进行检测。
其中,在完成获取待识别视频,对目标视频中的人体区域进行检测后,检测模块100对人体区域中的行人进行跟踪,得到人体区域中的人体运行轨迹信息;在具体实现时,视频监控设备可使用基于检测区域匹配的跟踪算法对画面中的行人进行跟踪,从而得到画面中的人体的运动轨迹信息。
其中,人体检测与跟踪的结果可以以目标ID与检测区域图像序列的形式保存,即:
其中O(i,t)代表目标i在t时刻的信息,是该目标在t时刻检测到的图像内容,是该目标在t时刻所在区域的位置,中使用向量(x,y,w,h)的形式记录区域的左上角横、纵坐标位置与长、宽值。
过滤模块200,用于根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤,得到所述预测值为人体类别的人体区域。
具体地,在完成检测待识别视频中的人体区域,获取人体区域中的人体运行轨迹信息后,过滤模块200根据人体区域计算得到人体区域对应的预测值,对预测值为非人体类别的人体区域进行过滤,得到预测值为人体类别的人体区域。
其中,视频监控设备获取人体区域并进行分析,输出人体区域对应的预测值,预测值包括人体类别和非人体类别;在具体实现时,当获取到当前帧中某一个人体区域后,视频监控设备将该人体区域的图像输入到背景过滤网络M1网络模型中进行分析,M1网络模型的结构如图2所示,M1网络模型是一个基于单帧图像输入的深度卷积网络模型;其中,网络的输入为检测到的前景区域图像,后接若干个附带ReLU层和pooling层的卷积层(Convolution Layers,CONV),再接上若干个全连通层(Fully Connection Layers,FC)进行深度的特征计算,网络的最后一层输出层的维数为2维,经过sigmoid变换后分别对应人体类别与非人体类别上的行为类别得分。
其中,若预测值为非人体类别,则过滤模块200将预测值为非人体类别的人体区域从获取的人体区域中进行过滤;通过M1网络模型的分类后,可以过滤掉前期检测与跟踪算法误测为人体类别的区域。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上),所以并不会产生明显的计算开销,在提高检测准确率的同时,能够满足整个系统实时性上的要求。同时,M1网络模型中的卷积层、全连通层的个数可以根据监控画面的大小与所部署设备的硬件性能等因素进行调整。
其中,本发明在检测与跟踪环节后首先使用了一个结构相对简单的深度网络模型对检测到的前景区域进行进一步的过滤处理;在前期的检测环节,实现时有意降低算法对于前景预测的阈值,使算法尽可能返回更多的前景区域,尽量减少漏检率的产生。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上),所以大大减少了算法的计算开销,在提高检测准确率的同时,很好地满足了整个系统实时性上的要求。
计算模块300,用于对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分。
具体地,在完成根据人体区域计算得到所述人体区域对应的预测值,对预测值为非人体类别的人体区域进行过滤,得到预测值为人体类别的人体区域后,计算模块300对预测值为人体类别的人体区域进行计算得到预测值为人体类别的人体区域中的目标的行为类别得分。
其中,视频监控设备获取预测值为人体类别的人体区域的背景图像,得到背景图像的描述信息;在具体实现时,如果M1网络模型得到的预测结果是人体类别(即画面中的前景),视频监控设备可以使用一个结构更复杂、识别能力更强的基于邻近目标特征的非时序输入行为识别M2网络模型对单帧图像内的每个人体区域进行行为的识别,该网络模型的结构如图3所示;M2网络模型的隐藏层中加入了当前人体目标所在背景图像和邻近目标隐藏层的特征信息,特征融合的位置在于网络的第一个全连通层,如图3中的第一个FC层所示;其中目标所在区域的背景图像可以从预先设定的纯净的背景图像中获得,只要取其中对应检测区域位置的部分即可。完整的背景图像可以通过预先设定的标准背景图像获得,或通过动态更新的背景模型获得。记某一目标i在t时刻得到的背景图像为那么对于一个目标区域,可以将它的描述信息表示为:
其中,和共用同一个位置区域
其中,在完成获取预测值为人体类别的人体区域的背景图像,得到背景图像的描述信息后,计算模块300根据背景图像的描述信息,计算背景图像对应的背景区域信息,并计算背景图像对应的邻近目标信息;在具体实现时,背景图像会经过若干个卷积层得到它的视觉特征描述,然后经过一个全连通层得到它对应的第一个隐含层特征,它的维度与目标图像得到的第一个隐含层的维度相同。对于目标图像,它的第一个隐含层的特征计算过程可以表示为:
其中,c(·)代表对于图像的卷积运算,f(·)代表全连接层的矩阵乘法操作与偏置量操作。类似的,对于背景位置图像,记它的第一个隐含层的特征为:
其中,该模型的第一个隐含层的特征组成中,还有一部分是来自邻近目标的特征,这些特征主要来自于当前区域的邻近区域中的目标特征。可以通过设置一阈值来确定邻近区域的范围。记当前目标的中心位置为:
其中,是目标区域左上角横坐标,是目标区域左上角纵坐标,是目标区域的宽度,是目标区域的高度。同时计算同一画面中其它前景目标的中心位置点当与的欧氏距离dij小于一定的阈值D或两者有交叉时,则将该前景归入当前目标的有效邻近目标中。
其中,在完成根据背景图像的描述信息,计算背景图像对应的背景区域信息,并计算背景图像对应的邻近目标信息后,计算模块300结合背景图像对应的背景区域信息和邻近目标信息,计算得到人体区域的目标的行为类别得分;在具体实现时,视频监控设备可以记所有的邻近目标区域计算到的第一个全连通层的特征的集合为分别统计这些特征值在每一维上的最大值:
和加权平均值:
作为邻近目标的特征描述的组成部分。将以上两组特征拼接在一起,就能得到对于邻近目标描述的整体特征表示,即:
如果当前目标在画面中没有任何邻近目标,则的值全部设为零。综合背景区域信息和邻近目标信合后,行为识别的网络模型的第一个全连通层的特征可以表示为:
该特征经过后续的全连通层,使得整个网络模型在进行识别的过程中,自然地利用到了当前目标的背景区域信息和上下文信息。
其中,M2网络模型输出是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分代表该类别上的预测概率。
输出模块400,用于根据所述行为类别得分,输出相应的行为类别。
具体地,在完成对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分后,输出模块400根据所述行为类别得分,输出相应的行为类别。
其中,若所述行为类别得分高于预设行为类别的阈值,则输出所述行为类别;在根据上述行为类别得分时,如果此时输出的类别得分在一些静态特征明显的类别上的得分高于一定的阈值,则直接输出该类别的作为最终的预测结果。
其中,本发明针对监控视频中不同行为的类型,根据它们的不同静态特性与动态特性,分别采用了不同结构的时序(多帧图像)与非时序(单帧图像)输入网络对提取到的图像进行分析,最后融合两种不同的网络输出得到最终的行为识别结果;具体的,对于一些静态特性明确的行为类别,如打架、骑车等,本发明主要依赖于一个结构充分复杂的非时序输入网络模型进行快速预测,因为这些动作特征明显,一旦出现,通过单帧的影像一般就能够准确判断;而对于一些通过单帧图像难以判断的行为类别,如走路与慢跑等,主要使用一个采用时序叠加图像作为输入的深度网络进一步分析,提供比使用单一静态图像输入的网络更可靠的识别性能。另外,在时序输入与非时序输入的深度分类模型融合策略的设计上,采用了级联分类器的思想,提高整个分类系统的运行效率,实现实时行为识别的需求。
其中,若行为类别不高于预设行为类别的阈值,则输出模块400结合人体运行轨迹信息,计算并输出相应的行为类别。
其中,视频监控设备获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像;在具体实现时,视频监控设备可以获取当前时刻图像和人体运行轨迹信息对应的跟踪区域图像,使用同一目标先前时刻图像的叠加作为基于背景与邻近目标特征的多帧时序输入行为识别M3网络模型的输入,进行进一步的类别预测。M3网络模型的结构示意图如图4所示。由于采用的是时序的目标动作画面叠加作为网络的输入,所以M3网络模型具有更强的捕捉运动信息的能力,对于一些动态特征明显的行为识别具有明显的优势。
其中,在完成获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后,输出模块400将当前时刻图像和跟踪区域图像进行顺序叠加;在具体实现时,视频监控设备使用M3网络模型,利用运动轨迹的信息,使用同一目标在当前时刻与前若干时刻的跟踪区域图像的顺序叠加作为模型的输入,即:
M3网络模型的中间层将同时融合当前目标所在的背景区域序列的深度特征、当前目标近邻区域中其它目标历史序列的隐含特征,邻近目标的信息有利于提升算法的预测准确性。
M3网络模型的隐藏层特征融合的位置同样在于网络的第一个全连通层,如图4中的第一个FC层所示。对于M3网络模型的背景区域,也取其轨迹上的背景区域序列作为输入。而对于邻近目标特征的获取也与M2网络模型基本一致,以当前时刻的目标间距离及预设的阈值作为邻近对象的选取准则,并计算它们的FC1特征的最大值、加权均值组成邻近目标特征描述。通过融合后,输入到后续的全连接层进行进一步的识别计算。
其中,M3网络模型输出也是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分为该类别上的预测概率。
其中,在完成将当前时刻图像和跟踪区域图像进行顺序叠加后,输出模块400对行为类别得分和进行顺序叠加后的结果进行加权求和,输出对应的行为类别;在具体实现时,视频监控设备融合M2网络模型和M3网络模型的处理结果,得到待检测目标的综合行为类别预测,融合的方法可以是两组网络结果的加权和,权重的大小可以通过训练集拟合效果求得。
其中,本发明结合监控视频中出现的行为的特点,设计了基于单帧输入与多帧输入网络中隐含层特征的融合方法,采用当前目标前景、背景图像信息与邻近目标信息的组合作为的新的隐含特征,丰富了分类网络的可利用信息,使得用于分类的深度模型能够同时利用当前目标所在背景区域的信息及邻近区域中其他目标的行为信息,对于监控视频中行为识别具有非常有价值的辅助信息,提升了整个系统对于行为识别的性能。
通过上述方案,本发明提供了一种视频中人体行为识别的装置,实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,上述输出模块400,还用于若所述行为类别得分高于预设行为类别的阈值,则输出所述行为类别;若所述行为类别得分不高于预设行为类别的阈值,则结合所述人体运行轨迹信息,计算并输出相应的行为类别。
具体地,在完成对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分后,输出模块400根据所述行为类别得分,输出相应的行为类别。
其中,若所述行为类别得分高于预设行为类别的阈值,则输出所述行为类别;在根据上述行为类别得分时,如果此时输出的类别得分在一些静态特征明显的类别上的得分高于一定的阈值,则直接输出该类别的作为最终的预测结果。
若行为类别不高于预设行为类别的阈值,则输出模块400结合人体运行轨迹信息,计算并输出相应的行为类别。
其中,视频监控设备获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像;在具体实现时,视频监控设备可以获取当前时刻图像和人体运行轨迹信息对应的跟踪区域图像,使用同一目标先前时刻图像的叠加作为基于背景与邻近目标特征的多帧时序输入行为识别M3网络模型的输入,进行进一步的类别预测。M3网络模型的结构示意图如图4所示。由于采用的是时序的目标动作画面叠加作为网络的输入,所以M3网络模型具有更强的捕捉运动信息的能力,对于一些动态特征明显的行为识别具有明显的优势。
其中,在完成获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后,输出模块400将当前时刻图像和跟踪区域图像进行顺序叠加;在具体实现时,视频监控设备使用M3网络模型,利用运动轨迹的信息,使用同一目标在当前时刻与前若干时刻的跟踪区域图像的顺序叠加作为模型的输入,即:
M3网络模型的中间层将同时融合当前目标所在的背景区域序列的深度特征、当前目标近邻区域中其它目标历史序列的隐含特征,邻近目标的信息有利于提升算法的预测准确性。
M3网络模型的隐藏层特征融合的位置同样在于网络的第一个全连通层,如图4中的第一个FC层所示。对于M3网络模型的背景区域,也取其轨迹上的背景区域序列作为输入。而对于邻近目标特征的获取也与M2网络模型基本一致,以当前时刻的目标间距离及预设的阈值作为邻近对象的选取准则,并计算它们的FC1特征的最大值、加权均值组成邻近目标特征描述。通过融合后,输入到后续的全连接层进行进一步的识别计算。
其中,M3网络模型输出也是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分为该类别上的预测概率。
其中,在完成将当前时刻图像和跟踪区域图像进行顺序叠加后,输出模块400对行为类别得分和进行顺序叠加后的结果进行加权求和,输出对应的行为类别;在具体实现时,视频监控设备融合M2网络模型和M3网络模型的处理结果,得到待检测目标的综合行为类别预测,融合的方法可以是两组网络结果的加权和,权重的大小可以通过训练集拟合效果求得。
通过上述方案,本发明提供了一种视频中人体行为识别的装置,实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,上述计算模块300,还用于获取所述预测值为人体类别的人体区域的背景图像,得到所述背景图像的描述信息;根据所述背景图像的描述信息,计算所述背景图像对应的背景区域信息,并计算所述背景图像对应的邻近目标信息;结合所述背景图像对应的背景区域信息和邻近目标信息,计算得到所述人体区域的目标的行为类别得分。
具体地,在完成根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤,得到所述预测值为人体类别的人体区域后,计算模块300获取预测值为人体类别的人体区域的背景图像,得到背景图像的描述信息。
其中,在具体实现时,如果M1网络模型得到的预测结果是人体类别(即画面中的前景),视频监控设备可以使用一个结构更复杂、识别能力更强的基于邻近目标特征的非时序输入行为识别M2网络模型对单帧图像内的每个人体区域进行行为的识别,该网络模型的结构如图3所示;M2网络模型的隐藏层中加入了当前人体目标所在背景图像和邻近目标隐藏层的特征信息,特征融合的位置在于网络的第一个全连通层,如图3中的第一个FC层所示;其中目标所在区域的背景图像可以从预先设定的纯净的背景图像中获得,只要取其中对应检测区域位置的部分即可。完整的背景图像可以通过预先设定的标准背景图像获得,或通过动态更新的背景模型获得。记某一目标i在t时刻得到的背景图像为那么对于一个目标区域,可以将它的描述信息表示为:
其中,和共用同一个位置区域
在完成获取预测值为人体类别的人体区域的背景图像,得到背景图像的描述信息后,计算模块300根据背景图像的描述信息,计算背景图像对应的背景区域信息,并计算背景图像对应的邻近目标信息。
其中,在具体实现时,背景图像会经过若干个卷积层得到它的视觉特征描述,然后经过一个全连通层得到它对应的第一个隐含层特征,它的维度与目标图像得到的第一个隐含层的维度相同。对于目标图像,它的第一个隐含层的特征计算过程可以表示为:
其中,c(·)代表对于图像的卷积运算,f(·)代表全连接层的矩阵乘法操作与偏置量操作。类似的,对于背景位置图像,记它的第一个隐含层的特征为:
其中,该模型的第一个隐含层的特征组成中,还有一部分是来自邻近目标的特征,这些特征主要来自于当前区域的邻近区域中的目标特征。可以通过设置一阈值来确定邻近区域的范围。记当前目标的中心位置为:
其中,是目标区域左上角横坐标,是目标区域左上角纵坐标,是目标区域的宽度,是目标区域的高度。同时计算同一画面中其它前景目标的中心位置点当与的欧氏距离dij小于一定的阈值D或两者有交叉时,则将该前景归入当前目标的有效邻近目标中。
在完成根据背景图像的描述信息,计算背景图像对应的背景区域信息,并计算背景图像对应的邻近目标信息后,计算模块300结合背景图像对应的背景区域信息和邻近目标信息,计算得到人体区域的目标的行为类别得分。
其中,在具体实现时,视频监控设备可以记所有的邻近目标区域计算到的第一个全连通层的特征的集合为分别统计这些特征值在每一维上的最大值:
和加权平均值:
作为邻近目标的特征描述的组成部分。将以上两组特征拼接在一起,就能得到对于邻近目标描述的整体特征表示,即:
如果当前目标在画面中没有任何邻近目标,则的值全部设为零。综合背景区域信息和邻近目标信合后,行为识别的网络模型的第一个全连通层的特征可以表示为:
该特征经过后续的全连通层,使得整个网络模型在进行识别的过程中,自然地利用到了当前目标的背景区域信息和上下文信息。
其中,M2网络模型输出是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分代表该类别上的预测概率。
通过上述方案,本发明提供了一种视频中人体行为识别的装置,更好地实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,上述输出模块400,还用于获取所述待识别视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像;将所述当前时刻图像和所述跟踪区域图像进行顺序叠加;对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和,输出对应的行为类别。
具体地,输出模块400获取待识别视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像。
其中,在具体实现时,视频监控设备可以获取当前时刻图像和人体运行轨迹信息对应的跟踪区域图像,使用同一目标先前时刻图像的叠加作为基于背景与邻近目标特征的多帧时序输入行为识别网络模型M3网络模型的输入,进行进一步的类别预测。M3网络模型的结构示意图如图4所示。由于采用的是时序的目标动作画面叠加作为网络的输入,所以M3网络模型具有更强的捕捉运动信息的能力,对于一些动态特征明显的行为识别具有明显的优势。
在完成获取视频的当前时刻图像和人体运行轨迹信息对应的跟踪区域图像后,输出模块400将当前时刻图像和跟踪区域图像进行顺序叠加。
其中,在具体实现时,视频监控设备使用M3网络模型,利用运动轨迹的信息,使用同一目标在当前时刻与前若干时刻的跟踪区域图像的顺序叠加作为模型的输入,即:
M3网络模型的中间层将同时融合当前目标所在的背景区域序列的深度特征、当前目标近邻区域中其它目标历史序列的隐含特征,邻近目标的信息有利于提升算法的预测准确性。
M3网络模型的隐藏层特征融合的位置同样在于网络的第一个全连通层,如图4中的第一个FC层所示。对于M3网络模型的背景区域,也取其轨迹上的背景区域序列作为输入。而对于邻近目标特征的获取也与M2网络模型基本一致,以当前时刻的目标间距离及预设的阈值作为邻近对象的选取准则,并计算它们的FC1特征的最大值、加权均值组成邻近目标特征描述。通过融合后,输入到后续的全连接层进行进一步的识别计算。
其中,M3网络模型输出也是一个多维的向量,向量的长度是待识别行为类别的个数,输出的每一维上的得分为该类别上的预测概率。
在完成将当前时刻图像和跟踪区域图像进行顺序叠加后,输出模块400对行为类别得分和进行顺序叠加后的结果进行加权求和,输出对应的行为类别。
其中,在具体实现时,视频监控设备融合M2网络模型和M3网络模型的处理结果,得到待检测目标的综合行为类别预测,融合的方法可以是两组网络结果的加权和,权重的大小可以通过训练集拟合效果求得。
通过上述方案,本发明提供了一种视频中人体行为识别的装置,更好地实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,上述过滤模块200,还用于获取所述人体区域并进行分析,输出所述人体区域对应的预测值;若所述预测值为非人体类别,则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤;若所述预测值为人体类别,则计算所述预测值为人体类别的人体区域中的目标的行为类别得分。
具体地,在完成检测待识别视频中的人体区域,获取人体区域中的人体运行轨迹信息后,过滤模块200获取人体区域并进行分析,输出人体区域对应的预测值。
其中,在具体实现时,当获取到当前帧中某一个人体区域后,视频监控设备将该人体区域的图像输入到背景过滤网络M1网络模型中进行分析,M1网络模型的结构如图2所示,M1网络模型是一个基于单帧图像输入的深度卷积网络模型;其中,网络的输入为检测到的前景区域图像,后接若干个附带ReLU层和pooling层的卷积层(Convolution Layers,CONV),再接上若干个全连通层(Fully Connection Layers,FC)进行深度的特征计算,网络的最后一层输出层的维数为2维,经过sigmoid变换后分别对应人体类别与非人体类别上的行为类别得分。
若预测值为非人体类别,则过滤模块200将预测值为非人体类别的人体区域从获取的人体区域中进行过滤;在具体实现时,视频监控设备通过M1网络模型的分类后,可以过滤掉前期检测与跟踪算法误测为人体类别的区域。由于此时的网络仅在检测环节产生的前景图像上进行计算(而非整张图像上),所以并不会产生明显的计算开销,在提高检测准确率的同时,能够满足整个系统实时性上的要求。同时,M1网络模型中的卷积层、全连通层的个数可以根据监控画面的大小与所部署设备的硬件性能等因素进行调整。
若预测值为人体类别,则过滤模块200计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分。
通过上述方案,本发明提供了一种视频中人体行为识别的装置,更好地实现了提升视频识别的实时性和准确性。
进一步的,为了更好地提升视频识别的实时性和准确性,上述检测模块100,还用于获取所述待识别视频,对所述目标视频中的人体区域进行检测;对所述人体区域中的人体进行跟踪,得到所述人体区域中的人体运行轨迹信息。
具体地,检测模块100获取待识别视频,对目标视频中的人体区域进行检测。
其中,在具体实现时,视频监控设备可以通过前端视频采集设备来获取待识别的原始视频,并使用基于传统特征分类的检测器对视频中的人体区域进行检测。
在完成获取待识别视频,对目标视频中的人体区域进行检测后,检测模块100对人体区域中的行人进行跟踪,得到人体区域中的人体运行轨迹信息。
其中,在具体实现时,视频监控设备可使用基于检测区域匹配的跟踪算法对画面中的行人进行跟踪,从而得到画面中的人体的运动轨迹信息。
其中,人体检测与跟踪的结果可以以目标ID与检测区域图像序列的形式保存,即:
其中O(i,t)代表目标i在t时刻的信息,是该目标在t时刻检测到的图像内容,是该目标在t时刻所在区域的位置,中使用向量(x,y,w,h)的形式记录区域的左上角横、纵坐标位置与长、宽值。
通过上述方案,本发明提供了一种视频中人体行为识别的装置,更好地实现了提升视频识别的实时性和准确性。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种视频中人体行为识别的方法,其特征在于,所述方法包括:
检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息;
根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤,得到所述预测值为人体类别的人体区域;
对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分;
根据所述行为类别得分,输出相应的行为类别。
2.根据权利要求1所述的方法,其特征在于,根据所述行为类别得分,输出相应的行为类别的步骤包括:
若所述行为类别得分高于预设行为类别的阈值,则输出所述行为类别;
若所述行为类别得分不高于预设行为类别的阈值,则结合所述人体运行轨迹信息,计算并输出相应的行为类别。
3.根据权利要求2所述的方法,其特征在于,所述对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤包括:
获取所述预测值为人体类别的人体区域的背景图像,得到所述背景图像的描述信息;
根据所述背景图像的描述信息,计算所述背景图像对应的背景区域信息,并计算所述背景图像对应的邻近目标信息;
结合所述背景图像对应的背景区域信息和邻近目标信息,计算得到所述人体区域的目标的行为类别得分。
4.根据权利要求2所述的方法,其特征在于,所述结合所述人体运行轨迹信息,计算并输出相应的行为类别的步骤包括:
获取所述待识别视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像;
将所述当前时刻图像和所述跟踪区域图像进行顺序叠加;
对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和,输出对应的行为类别。
5.根据权利要求1所述的方法,其特征在于,所述根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤的步骤包括:
获取所述人体区域并进行分析,输出所述人体区域对应的预测值;
若所述预测值为非人体类别,则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤;
若所述预测值为人体类别,则执行计算所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤。
6.根据权利要求1所述的方法,其特征在于,所述检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息的步骤包括:
获取所述待识别视频,对所述待识别视频中的人体区域进行检测;
对所述人体区域中的行人进行跟踪,得到所述人体区域中的人体运行轨迹信息。
7.一种视频中人体行为识别的装置,其特征在于,所述装置包括:
检测模块,用于检测待识别视频中的人体区域,获取所述人体区域中的人体运行轨迹信息;
过滤模块,用于根据所述人体区域计算得到所述人体区域对应的预测值,对所述预测值为非人体类别的人体区域进行过滤,得到所述预测值为人体类别的人体区域;
计算模块,用于对所述预测值为人体类别的人体区域进行计算得到所述预测值为人体类别的人体区域中的目标的行为类别得分;
输出模块,用于根据所述行为类别得分,输出相应的行为类别。
8.根据权利要求7所述的装置,其特征在于,
所述输出模块,还用于若所述行为类别得分高于预设行为类别的阈值,则输出所述行为类别;若所述行为类别得分不高于预设行为类别的阈值,则结合所述人体运行轨迹信息,计算并输出相应的行为类别。
9.根据权利要求8所述的装置,其特征在于,
所述计算模块,还用于获取所述预测值为人体类别的人体区域的背景图像,得到所述背景图像的描述信息;根据所述背景图像的描述信息,计算所述背景图像对应的背景区域信息,并计算所述背景图像对应的邻近目标信息;结合所述背景图像对应的背景区域信息和邻近目标信息,计算得到所述人体区域的目标的行为类别得分。
10.根据权利要求7所述的装置,其特征在于,
所述输出模块,还用于获取所述待识别视频的当前时刻图像和所述人体运行轨迹信息对应的跟踪区域图像;将所述当前时刻图像和所述跟踪区域图像进行顺序叠加;对所述行为类别得分和所述进行顺序叠加后的结果进行加权求和,输出对应的行为类别。
11.根据权利要求7所述的装置,其特征在于,
所述过滤模块,还用于获取所述人体区域并进行分析,输出所述人体区域对应的预测值;若所述预测值为非人体类别,则将所述预测值为非人体类别的人体区域从所述获取的人体区域中进行过滤;若所述预测值为人体类别,则执行计算所述预测值为人体类别的人体区域中的目标的行为类别得分的步骤。
12.根据权利要求7所述的装置,其特征在于,
所述检测模块,还用于获取所述待识别视频,对所述待识别视频中的人体区域进行检测;对所述人体区域中的行人进行跟踪,得到所述人体区域中的人体运行轨迹信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610067817.XA CN107025420A (zh) | 2016-01-29 | 2016-01-29 | 视频中人体行为识别的方法和装置 |
PCT/CN2017/071574 WO2017129020A1 (zh) | 2016-01-29 | 2017-01-18 | 视频中人体行为识别的方法、装置和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610067817.XA CN107025420A (zh) | 2016-01-29 | 2016-01-29 | 视频中人体行为识别的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107025420A true CN107025420A (zh) | 2017-08-08 |
Family
ID=59397442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610067817.XA Pending CN107025420A (zh) | 2016-01-29 | 2016-01-29 | 视频中人体行为识别的方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107025420A (zh) |
WO (1) | WO2017129020A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808139A (zh) * | 2017-11-01 | 2018-03-16 | 电子科技大学 | 一种基于深度学习的实时监控威胁分析方法及系统 |
CN108229407A (zh) * | 2018-01-11 | 2018-06-29 | 武汉米人科技有限公司 | 一种视频分析中的行为检测方法与系统 |
CN109508698A (zh) * | 2018-12-19 | 2019-03-22 | 中山大学 | 一种基于二叉树的人体行为识别方法 |
CN110321761A (zh) * | 2018-03-29 | 2019-10-11 | 中国科学院深圳先进技术研究院 | 一种行为识别方法、终端设备及计算机可读存储介质 |
CN111325292A (zh) * | 2020-03-11 | 2020-06-23 | 中国电子工程设计院有限公司 | 一种对象行为的识别方法及装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859234B (zh) * | 2017-11-29 | 2023-03-24 | 深圳Tcl新技术有限公司 | 一种视频人体轨迹跟踪方法、装置及存储介质 |
CN112149454A (zh) * | 2019-06-26 | 2020-12-29 | 杭州海康威视数字技术股份有限公司 | 行为识别方法、装置和设备 |
CN110414421B (zh) * | 2019-07-25 | 2023-04-07 | 电子科技大学 | 一种基于连续帧图像的行为识别方法 |
CN111061945B (zh) * | 2019-11-11 | 2023-06-27 | 汉海信息技术(上海)有限公司 | 推荐方法、装置、电子设备,存储介质 |
CN110826702A (zh) * | 2019-11-18 | 2020-02-21 | 方玉明 | 一种多任务深度网络的异常事件检测方法 |
CN111242007A (zh) * | 2020-01-10 | 2020-06-05 | 上海市崇明区生态农业科创中心 | 一种农事行为监管方法 |
CN112016461A (zh) * | 2020-08-28 | 2020-12-01 | 深圳市信义科技有限公司 | 一种多目标的行为识别方法及系统 |
CN112232142A (zh) * | 2020-09-27 | 2021-01-15 | 浙江大华技术股份有限公司 | 一种安全带识别方法、设备及计算机可读存储介质 |
CN112818881B (zh) * | 2021-02-07 | 2023-12-22 | 国网福建省电力有限公司营销服务中心 | 一种人体行为识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081918B (zh) * | 2010-09-28 | 2013-02-20 | 北京大学深圳研究生院 | 一种视频图像显示控制方法及视频图像显示器 |
CN102096803B (zh) * | 2010-11-29 | 2013-11-13 | 吉林大学 | 基于机器视觉的行人安全状态识别系统 |
CN102387345B (zh) * | 2011-09-09 | 2014-08-06 | 浙江工业大学 | 基于全方位视觉的独居老人安全监护系统 |
CN103425971A (zh) * | 2013-08-28 | 2013-12-04 | 重庆大学 | 一种家庭环境下独居老人异常行为的监测方法 |
CN103500324B (zh) * | 2013-09-29 | 2016-07-13 | 重庆科技学院 | 基于视频监控的暴力行为识别方法 |
US20160328604A1 (en) * | 2014-01-07 | 2016-11-10 | Arb Labs Inc. | Systems and methods of monitoring activities at a gaming venue |
-
2016
- 2016-01-29 CN CN201610067817.XA patent/CN107025420A/zh active Pending
-
2017
- 2017-01-18 WO PCT/CN2017/071574 patent/WO2017129020A1/zh active Application Filing
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107808139A (zh) * | 2017-11-01 | 2018-03-16 | 电子科技大学 | 一种基于深度学习的实时监控威胁分析方法及系统 |
CN107808139B (zh) * | 2017-11-01 | 2021-08-06 | 电子科技大学 | 一种基于深度学习的实时监控威胁分析方法及系统 |
CN108229407A (zh) * | 2018-01-11 | 2018-06-29 | 武汉米人科技有限公司 | 一种视频分析中的行为检测方法与系统 |
CN110321761A (zh) * | 2018-03-29 | 2019-10-11 | 中国科学院深圳先进技术研究院 | 一种行为识别方法、终端设备及计算机可读存储介质 |
CN110321761B (zh) * | 2018-03-29 | 2022-02-11 | 中国科学院深圳先进技术研究院 | 一种行为识别方法、终端设备及计算机可读存储介质 |
CN109508698A (zh) * | 2018-12-19 | 2019-03-22 | 中山大学 | 一种基于二叉树的人体行为识别方法 |
CN109508698B (zh) * | 2018-12-19 | 2023-01-10 | 中山大学 | 一种基于二叉树的人体行为识别方法 |
CN111325292A (zh) * | 2020-03-11 | 2020-06-23 | 中国电子工程设计院有限公司 | 一种对象行为的识别方法及装置 |
CN111325292B (zh) * | 2020-03-11 | 2023-05-02 | 中国电子工程设计院有限公司 | 一种对象行为的识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2017129020A1 (zh) | 2017-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107025420A (zh) | 视频中人体行为识别的方法和装置 | |
CN108537743B (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN109829436B (zh) | 基于深度表观特征和自适应聚合网络的多人脸跟踪方法 | |
CN104166841B (zh) | 一种视频监控网络中指定行人或车辆的快速检测识别方法 | |
CN104063719B (zh) | 基于深度卷积网络的行人检测方法及装置 | |
CN103942577B (zh) | 视频监控中基于自建立样本库及混合特征的身份识别方法 | |
Yang et al. | Multi-target tracking by online learning of non-linear motion patterns and robust appearance models | |
CN104182772B (zh) | 一种基于深度学习的手势识别方法 | |
CN111259850A (zh) | 一种融合随机批掩膜和多尺度表征学习的行人重识别方法 | |
CN107480730A (zh) | 电力设备识别模型构建方法和系统、电力设备的识别方法 | |
CN103839065B (zh) | 人群动态聚集特征提取方法 | |
CN110378259A (zh) | 一种面向监控视频的多目标行为识别方法及系统 | |
CN110135375A (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN107506722A (zh) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 | |
CN107767405A (zh) | 一种融合卷积神经网络的核相关滤波目标跟踪方法 | |
CN107463920A (zh) | 一种消除局部遮挡物影响的人脸识别方法 | |
CN109815867A (zh) | 一种人群密度估计和人流量统计方法 | |
CN104281853A (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN106203260A (zh) | 基于多摄像机监控网络的行人识别与跟踪方法 | |
Han et al. | Deep learning-based workers safety helmet wearing detection on construction sites using multi-scale features | |
CN105335716A (zh) | 一种基于改进udn提取联合特征的行人检测方法 | |
CN106650694A (zh) | 一种以卷积神经网络作为特征提取器的人脸识别方法 | |
CN109919977A (zh) | 一种基于时间特征的视频运动人物跟踪与身份识别方法 | |
CN107833239B (zh) | 一种基于加权模型约束的寻优匹配目标跟踪方法 | |
CN107067413A (zh) | 一种时空域统计匹配局部特征的运动目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170808 |