CN108764148B - 基于监控视频的多区域实时动作检测方法 - Google Patents

基于监控视频的多区域实时动作检测方法 Download PDF

Info

Publication number
CN108764148B
CN108764148B CN201810534453.0A CN201810534453A CN108764148B CN 108764148 B CN108764148 B CN 108764148B CN 201810534453 A CN201810534453 A CN 201810534453A CN 108764148 B CN108764148 B CN 108764148B
Authority
CN
China
Prior art keywords
tube
action
detection
frame
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810534453.0A
Other languages
English (en)
Other versions
CN108764148A (zh
Inventor
陈东岳
任方博
王森
贾同
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810534453.0A priority Critical patent/CN108764148B/zh
Publication of CN108764148A publication Critical patent/CN108764148A/zh
Application granted granted Critical
Publication of CN108764148B publication Critical patent/CN108764148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于监控视频的多区域实时动作检测方法,具有如下步骤:模型训练阶段和测试阶段,其中,模型训练阶段为获取训练数据:标注好的特定动作的数据库;计算训练数据中的视频序列的稠密光流,获取训练数据中的视频序列的光流序列,并对光流序列中的光流图像进行标注;利用训练数据中的视频序列和光流序列分别训练目标检测模型yolo v3,分别得到RGB yolo v3模型和光流yolo v3模型。本发明不仅能实现对监控视频中特定动作的时空位置检测,并且能实现对监控的实时处理。

Description

基于监控视频的多区域实时动作检测方法
技术领域
本发明属于计算机视觉领域,具体涉及监控视频场景下的人体动作检测系统。
背景技术
随着监控设施的应用越来越普及,越多的基于监控的技术得到应用,动作识别作为其中很有价值的技术之一,主要应用于室内、工厂环境下人机设备的交互,以及公共环境安全领域用于特定危险动作的检测与识别。
大部分基于监控视频中的动作识别方法主要集中于整个场景的动作识别与分类任务上,这类视频一般是人工处理好的视频片段,视频片段中一般只包含一类动作,但是这种视频和自然的视频片段相差很大,还用一部分学者把研究任务放在检测动作在整个时间轴上发生的开始于接受的位置,但是在现实应用中获取视频中的动作的开始和结束以及动作在空间发生的范围都是很有用的,另外虽然现有的动作检测方法在现有的数据库以及竞赛中取得了很好的检测效果,但是这些方法一般都是通过把整个视频划分为很多的小块或者对整个视频进行处理,然后再输出这段视频中动作的时空位置,而要达到实时动作检测就要实现视频帧级别的处理,所以这类方法没有办法部署到监控系统中。
随着监控设备的普及,监控视频中人体动作的检测逐渐成为一个流行的研究领域,Wang L.,Qiao Y.,Tang X.的”Action recognition with trajectory-pooled deepconvolutional descriptors.”(在2015IEEE Conference on Computer Vision andPattern Recognition(CVPR)(2015)。)方法中通过整合深度神经网络提取视频特征和利用密集跟踪算法的到的特征。来实现对整个视频的动作识别,D.Tran,L.Bourdev,R.Fergus,L.Torresani,and M.Paluri.的”Learning spatiotemporal features with 3dconvolutional networks.”(在2015IEEE International Conference on ComputerVision(ICCV)(2015))方法提出用3D卷积和3D pooling来形成C3D框架来提取视频中的人体动作特征,Simonyan K,Zisserman A.的”Two-Stream Convolutional Networks forAction Recognition in Videos”(在Computational Linguistics,2014)中通过把RGB图像序列提取光流序列,分别用卷积神经网络训练并把两个网络得到的特征进行融合来实现对动作的识别效果。虽然上面的这些模型取得了很好的效果,但是这种方法只能实现对整个视频进行识别,不能定位动作的时空位置。
G.Gkioxari and J.Malik.的“Finding action tubes”(在IEEE Int.Conf.onComputer Vision and Pattern Recognition,2015.)中主要是检测每一帧的动作proposals然后再连接每一帧的动作proposal形成动作序列,J.Lu,r.Xu,and J.J.Corso的”Human action segmentation with hierarchical supervoxel consistency”(在IEEEInt.Conf.on Computer Vision and Pattern Recognition,June 2015)中提出了一种层次化的MRF模型,以将具有高层次人体运动和表观的低级视频片段连接起来以实现在视频中对动作的分割,这些方法主要实现了对视频中的动作进行空间的分割,并且这些算法需要大量的帧级别的region proposals需要大量的计算。
Yuan J,Ni B,Yang X的“Temporal Action Localization with Pyramid ofScore Distribution Features”(在IEEE:Computer Vision and PatternRecognition.2016)中基于iDT特征对视频提取了一种分数分布金字塔特征(Pyramid ofScore Distribution Feature,PSDF),之后再使用了LSTM网络对PSDF特征序列进行处理,并根据输出的frame-level的行为类别置信度分数处理得到行为片段的预测。Shou Z,WangD,Chang S F.的”Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs”(在IEEE Conference on Computer Vision and Pattern Recognition(CVPR)(2016))中首先使用滑窗的方法生成多种尺寸的视频片段(segment),再使用多阶段的网络(Segment-CNN)来处理,最后采用了非极大化抑制来去除重叠的片段,完成预测。Shou Z,Chan J,Zareian A,的”CDC:Convolutional-De-Convolutional Networks forPrecise Temporal Action Localization in Untrimmed Videos”(在2017IEEEConference on Computer Vision and Pattern Recognition(CVPR)(2017))中基于C3D(3D CNN网络)设计了一个卷积逆卷积网络(CDC),输入一小段视频,输出帧级别的动作类别概率。该网络主要是用来对temporal action detection中的动作边界进行微调,使得动作边界更加准确,上面的框架虽然能达到实时的效果但是,上面的算法主要是实现动作在时间维度精确地检测,而不能实现动作的时空检测。
J.C.van Gemert,M.Jain,E.Gati,and C.G.Snoek.的”APT:Action localizationproposals from dense trajectories”(在BMVC,volume 2,page 4,2015)中使用无监督聚类来生成一组边界框式的时空动作提议。由于该方法基于密集轨迹特征,因此该方法无法检测以小运动为特征的动作。P.Weinzaepfel,Z.Harchaoui,and C.Schmid.的”Learningto track for spatio-temporal action localization”(IEEE Computer Vision andPattern Recognition,2015.)通过将帧级EdgeBoxes区域提议与跟踪检测框架相结合来执行动作的时空检测。然而,动作的时间维度的检测仍然通过每个轨道上的多尺度滑动窗口来实现,使得对于较长的视频序列该方法效率低下。
发明内容
本发明针对现有的动作检测存在的一些问题,提出一种基于监控视频的多区域实时动作检测方法。本发明采用的技术手段如下:
一种基于监控视频的多区域实时动作检测方法,其特征在于具有如下步骤:
模型训练阶段:
A1、获取训练数据:标注好的特定动作的数据库;
A2、计算训练数据中的视频序列的稠密光流,获取训练数据中的视频序列的光流序列,并对光流序列中的光流图像进行标注;
A3、利用训练数据中的视频序列和光流序列分别训练目标检测模型yolo v3,分别得到RGB yolo v3模型和光流yolo v3模型;
测试阶段:
B1、通过金字塔Lucas-Kanande光流法提取视频的稀疏光流图像序列,然后把视频的RGB图像序列和稀疏光流图像序列分别送入RGB yolo v3模型和光流yolo v3模型中,RGByolo v3模型输出的一系列检测框使用非极大值抑制方法提取所有动作类别的前n个检测框
Figure BDA0001677822180000031
i=1…n,每个检测框有一个动作类别的标签和属于该动作的一个概率分数
Figure BDA0001677822180000032
光流yolo v3模型输出的一系列检测框使用非极大值抑制方法提取所有动作类别的前n个检测框
Figure BDA0001677822180000033
k=1…n,每个检测框有一个动作类别的标签和属于该动作的一个概率分数s
Figure BDA0001677822180000034
分别遍历RGB yolo v3模型和光流yolo v3模型输出的检测框,每个RGB yolo v3模型输出的检测框
Figure BDA0001677822180000035
与光流yolo v3模型输出的相同动作类别的检测框
Figure BDA0001677822180000036
做交并比,并把最大的交并比对应的光流yolo v3模型输出的同动作类别的检测框设为
Figure BDA0001677822180000037
若最大的交并比大于阈值K,则把对应的两个RGB yolo v3模型和光流yolov3模型输出的检测框的概率分数融合为
Figure BDA0001677822180000038
作为该RGB yolo v3模型输出的检测框
Figure BDA0001677822180000039
的置信度,
Figure BDA00016778221800000310
满足以下公式:
Figure BDA0001677822180000041
其中,
Figure BDA0001677822180000042
表示
Figure BDA0001677822180000043
Figure BDA0001677822180000044
的交并比,
Figure BDA0001677822180000045
为与
Figure BDA0001677822180000046
交并比最大的同动作类别的
Figure BDA0001677822180000047
概率分数;
B2、根据融合得到的每个RGB yolo v3模型输出的检测框的每个动作类别的置信度分数,连接视频的RGB图像序列之间的检测框形成tube:
对tube进行初始化,使用视频的RGB图像序列中的第一帧图像的检测框进行初始化tube,例如视频的RGB图像序列中的第一帧图像产生了n个检测框,则初始n个tube,视频的RGB图像序列中的第一帧图像的某一动作类别的tube个数为:
n类别(1)=n;
分别对所有的动作类别进行以下操作:
S1、匹配每个tube和t帧产生的检测框,首先遍历属于同动作类别的tube,若该动作类别有n个tube,对每个tube求该tube每帧的置信度的平均值,作为该tube的值,并对该动作类别的n个tube的值进行降序排列形成列表list类别,确定每个tube的动作类别时,定义了一个列表I={lt-k+1…lt}用来确定tube的动作类别,列表I={lt-k+1…lt}用来存储tube的后k帧的动作类别;
S2、遍历列表list类别和t帧中的
Figure BDA0001677822180000048
i=1…n,从中选择满足以下条件的
Figure BDA0001677822180000049
添加到tube中:
遍历列表list类别中的tube,并选择t帧中和tube同动作类别的
Figure BDA00016778221800000410
进行匹配,如果该
Figure BDA00016778221800000411
与tube的最后一帧图像中的检测框的交并比大于阈值d,则把该
Figure BDA00016778221800000412
加入到队列H_list类别中;
如果
Figure BDA00016778221800000413
则挑选H_list类别中置信度最高的
Figure BDA00016778221800000414
加入到tube中,并在再次遍历t帧的
Figure BDA00016778221800000415
i=1…n时,剔除置信度最高的
Figure BDA00016778221800000416
如果
Figure BDA00016778221800000417
则该tube不加入任何的
Figure BDA00016778221800000418
并保持不变,如果连续k帧tube都没加入新的
Figure BDA00016778221800000419
则终止该tube;
如果t帧有未被匹配的
Figure BDA00016778221800000420
记为
Figure BDA00016778221800000421
则遍历所有的tube分别求
Figure BDA00016778221800000422
和所有的tube最后一帧的交并比,并选取交并比大于阈值k,并且交并比最大的tube,记为T*,把
Figure BDA00016778221800000423
加入到该tube中,T*满足以下公式:
Figure BDA00016778221800000424
如果
Figure BDA00016778221800000425
Figure BDA00016778221800000426
Figure BDA0001677822180000051
如果
Figure BDA0001677822180000052
Figure BDA0001677822180000053
Ti为第i个tube,Ti(t-1)为第i个tube的第t-1帧;
如果第t帧中仍有未被匹配的检测框,则以该检测框为起点,生成新的tube,并用该检测框作为该tube的第一帧图像来初始化tube;
S3、所有的tube匹配完
Figure BDA0001677822180000054
后,更新每个tube的后k帧的动作类别列表I={lt-k+1…lt},其中lt为tube的第t帧的动作类别,更新每个tube的动作类别L,统计每个tube的后k帧的动作类别I={lt-k+1…lt},其中最多的动作类别作为该tube的动作类别L,满足以下公式:
Figure BDA0001677822180000055
如果li=c,则g(li,c)=1;如果li≠c,则g(li,c)=0,c为某一动作类别,即统计I={lt-k+1…lt}中的动作类别,个数最多的动作类别即为该tube的动作类别。
所述步骤A1中,标注好的特定动作的数据库为UCF101的Action Detection数据集。
所述步骤A2中,使用OpenCV库中的calcOpticalFlowFarneback函数计算训练数据中的视频序列的稠密光流。
与现有技术相比,本发明不仅能实现对监控视频中特定动作的时空位置检测,并且能实现对监控的实时处理。
基于上述理由本发明可在计算机视觉等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的具体实施方式中交并比计算示意图。
图2是本发明的具体实施方式中基于监控视频的多区域实时动作检测方法的整体示意图。
图3是本发明的具体实施方式中基于监控视频的多区域实时动作检测方法程序流程图。
图4是本发明的具体实施方式中某一帧图像的处理过程示意图。
图5是本发明的具体实施方式中连续图像序列的处理过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-图5所示,一种基于监控视频的多区域实时动作检测方法,具有如下步骤:
模型训练阶段:
A1、获取训练数据:标注好的特定动作的数据库;
A2、计算训练数据中的视频序列的稠密光流,获取训练数据中的视频序列的光流序列,并对光流序列中的光流图像进行标注;
A3、利用训练数据中的视频序列和光流序列分别训练目标检测模型yolo v3,分别得到RGB yolo v3模型和光流yolo v3模型;
测试阶段:
B1、通过金字塔Lucas-Kanande光流法提取视频的稀疏光流图像序列,然后把视频的RGB图像序列和稀疏光流图像序列分别送入RGB yolo v3模型和光流yolo v3模型中,RGByolo v3模型输出的一系列检测框使用非极大值抑制方法提取所有动作类别的前n个检测框
Figure BDA0001677822180000061
i=1…n,每个检测框有一个动作类别的标签和属于该动作的一个概率分数
Figure BDA0001677822180000062
光流yolo v3模型输出的一系列检测框使用非极大值抑制方法提取所有动作类别的前n个检测框
Figure BDA0001677822180000063
k=1…n,每个检测框有一个动作类别的标签和属于该动作的一个概率分数s
Figure BDA0001677822180000064
分别遍历RGB yolo v3模型和光流yolo v3模型输出的检测框,每个RGB yolo v3模型输出的检测框
Figure BDA0001677822180000065
与光流yolo v3模型输出的相同动作类别的检测框
Figure BDA0001677822180000071
做交并比,并把最大的交并比对应的光流yolo v3模型输出的同动作类别的检测框设为
Figure BDA0001677822180000072
若最大的交并比大于阈值K,则把对应的两个RGB yolo v3模型和光流yolov3模型输出的检测框的概率分数融合为
Figure BDA0001677822180000073
作为该RGB yolo v3模型输出的检测框
Figure BDA0001677822180000074
的置信度,
Figure BDA0001677822180000075
满足以下公式:
Figure BDA0001677822180000076
Figure BDA0001677822180000077
Figure BDA0001677822180000078
其中,
Figure BDA0001677822180000079
表示
Figure BDA00016778221800000710
Figure BDA00016778221800000711
的交并比,
Figure BDA00016778221800000712
为与
Figure BDA00016778221800000713
交并比最大的同动作类别的
Figure BDA00016778221800000714
概率分数,
Figure BDA00016778221800000715
表示概率分数,类如,图像A和B的交并比IOU(A,B)可如图1所示,
Figure BDA00016778221800000716
其中area(A)表示为图像A的面积,area(A)∩area(B)为图像相交的面积。
B2、根据融合得到的每个RGB yolo v3模型输出的检测框的每个动作类别的置信度分数,连接视频的RGB图像序列之间的检测框形成tube:
对tube进行初始化,使用视频的RGB图像序列中的第一帧图像的检测框进行初始化tube,例如视频的RGB图像序列中的第一帧图像产生了n个检测框,则初始n个tube,视频的RGB图像序列中的第一帧图像的某一动作类别的tube个数为:
n类别(1)=n;
分别对所有的动作类别进行以下操作:
S1、匹配每个tube和t帧产生的检测框,首先遍历属于同动作类别的tube,若该动作类别有n个tube,对每个tube求该tube每帧的置信度的平均值,作为该tube的值,并对该动作类别的n个tube的值进行降序排列形成列表list类别
Figure BDA00016778221800000717
确定每个tube的动作类别时,定义了一个列表I={lt-k+1…lt}用来确定tube的动作类别,列表I={lt-k+1…lt}用来存储tube的后k帧的动作类别;
S2、遍历列表list类别和t帧中的
Figure BDA00016778221800000718
i=1…n,从中选择满足以下条件的
Figure BDA0001677822180000081
添加到tube中:
遍历列表list类别中的tube,并选择t帧中和tube同动作类别的
Figure BDA0001677822180000082
进行匹配,如果该
Figure BDA0001677822180000083
与tube的最后一帧图像中的检测框的交并比大于阈值d,则把该
Figure BDA0001677822180000084
加入到队列H_list类别中;
如果
Figure BDA0001677822180000085
则挑选H_list类别中置信度最高的
Figure BDA0001677822180000086
加入到tube中,并在再次遍历t帧的
Figure BDA0001677822180000087
i=1…n时,剔除置信度最高的
Figure BDA0001677822180000088
如果
Figure BDA0001677822180000089
则该tube不加入任何的
Figure BDA00016778221800000810
并保持不变,如果连续k帧tube都没加入新的
Figure BDA00016778221800000811
则终止该tube;
如果t帧有未被匹配的
Figure BDA00016778221800000812
记为
Figure BDA00016778221800000813
则遍历所有的tube分别求
Figure BDA00016778221800000814
和所有的tube最后一帧的交并比,并选取交并比大于阈值k,并且交并比最大的tube,记为T*,把
Figure BDA00016778221800000815
加入到该tube中,T*满足以下公式:
Figure BDA00016778221800000816
如果
Figure BDA00016778221800000817
Figure BDA00016778221800000818
Figure BDA00016778221800000819
如果
Figure BDA00016778221800000820
Figure BDA00016778221800000821
Ti为第i个tube,Ti(t-1)为第i个tube的第t-1帧;
如果第t帧中仍有未被匹配的检测框,则以该检测框为起点,生成新的tube,并用该检测框作为该tube的第一帧图像来初始化tube;
S3、所有的tube匹配完
Figure BDA00016778221800000822
后,更新每个tube的后k帧的动作类别列表I={lt-k+1…lt},其中lt为tube的第t帧的动作类别,更新每个tube的动作类别L,统计每个tube的后k帧的动作类别I={lt-k+1…lt},其中最多的动作类别作为该tube的动作类别L,满足以下公式:
Figure BDA00016778221800000823
如果li=c,则g(li,c)=1;如果li≠c,则g(li,c)=0,c为某一动作类别,即统计I={lt-k+1…lt}中的动作类别,个数最多的动作类别即为该tube的动作类别。
图2中(a)表示视频的RGB图像序列;(b)表示光流算法测试阶段采用OpenCV中金字塔Lucas-Kanande光流法进行提取稀疏光流图像,训练阶段为提取稠密光流图像;(c)为得到的稀疏光流图像;(d)为动作检测模型,一个为使用视频的RGB图像序列训练的RGB yolov3模型,另一个为用光流序列训练的光流yolo v3模型;(e)表示RGB yolo v3模型输出的检测结果;(f)表示光流yolo v3模型的检测结果;(g)表示融合两个模型输出的结果,得到具有更好鲁棒性的特征;(h)表示利用融合得到的特征把视频的RGB图像序列之间的检测框连接为tube。
图4(a)为视频的RGB图像序列中的图像;(b)表示视频的RGB图像序列中的图像对应的光流图像;(c)表示视频的RGB图像序列中的图像经过RGB yolo v3模型处理后输出的检测结果;(d)表示光流图像经过光流yolo v3模型处理后输出的检测结果;
图5视频中的连续图像序列;(a)表示等间距取视频的RGB图像序列中的图像;(b)表示视频的RGB图像序列中的图像对应的光流序列;(c)表示视频的RGB图像序列中的图像经过RGB yolo v3模型处理后输出的检测结果;(d)表示光流序列经过光流yolo v3模型处理后输出的检测结果;(e)表示经过融合(c)和(d)的检测结果得到的tube;
所述步骤A1中,标注好的特定动作的数据库为UCF101的Action Detection数据集。
所述步骤A2中,使用OpenCV库中的calcOpticalFlowFarneback函数计算训练数据中的视频序列的稠密光流。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (3)

1.一种基于监控视频的多区域实时动作检测方法,其特征在于具有如下步骤:
模型训练阶段:
A1、获取训练数据:标注好的特定动作的数据库;
A2、计算训练数据中的视频序列的稠密光流,获取训练数据中的视频序列的光流序列,并对光流序列中的光流图像进行标注;
A3、利用训练数据中的视频序列和光流序列分别训练目标检测模型yolo v3,分别得到RGB yolo v3模型和光流yolo v3模型;
测试阶段:
B1、通过金字塔Lucas-Kanande光流法提取视频的稀疏光流图像序列,然后把视频的RGB图像序列和稀疏光流图像序列分别送入RGB yolo v3模型和光流yolo v3模型中,RGByolo v3模型输出的一系列检测框使用非极大值抑制方法提取所有动作类别的前n个检测框
Figure FDA0001677822170000011
每个检测框有一个动作类别的标签和属于该动作的一个概率分数
Figure FDA0001677822170000012
光流yolo v3模型输出的一系列检测框使用非极大值抑制方法提取所有动作类别的前n个检测框
Figure FDA0001677822170000013
Figure FDA0001677822170000014
每个检测框有一个动作类别的标签和属于该动作的一个概率分数
Figure FDA0001677822170000015
Figure FDA0001677822170000016
分别遍历RGB yolo v3模型和光流yolo v3模型输出的检测框,每个RGB yolo v3模型输出的检测框
Figure FDA0001677822170000017
与光流yolo v3模型输出的相同动作类别的检测框
Figure FDA0001677822170000018
做交并比,并把最大的交并比对应的光流yolo v3模型输出的同动作类别的检测框设为
Figure FDA0001677822170000019
若最大的交并比大于阈值K,则把对应的两个RGB yolo v3模型和光流yolo v3模型输出的检测框的概率分数融合为
Figure FDA00016778221700000110
作为该RGB yolo v3模型输出的检测框
Figure FDA00016778221700000111
的置信度,
Figure FDA00016778221700000112
满足以下公式:
Figure FDA00016778221700000113
其中,
Figure FDA00016778221700000114
表示
Figure FDA00016778221700000115
Figure FDA00016778221700000116
的交并比,
Figure FDA00016778221700000117
为与
Figure FDA00016778221700000118
交并比最大的同动作类别的
Figure FDA00016778221700000119
概率分数;
B2、根据融合得到的每个RGB yolo v3模型输出的检测框的每个动作类别的置信度分数,连接视频的RGB图像序列之间的检测框形成tube:
对tube进行初始化,使用视频的RGB图像序列中的第一帧图像的检测框进行初始化tube;
分别对所有的动作类别进行以下操作:
S1、匹配每个tube和t帧产生的检测框,首先遍历属于同动作类别的tube,若该动作类别有n个tube,对每个tube求该tube每帧的置信度的平均值,作为该tube的值,并对该动作类别的n个tube的值进行降序排列形成列表list类别,确定每个tube的动作类别时,定义了一个列表I={lt-k+1…lt}用来确定tube的动作类别,列表I={lt-k+1…lt}用来存储tube的后k帧的动作类别;
S2、遍历列表list类别和t帧中的
Figure FDA0001677822170000021
从中选择满足以下条件的
Figure FDA0001677822170000022
添加到tube中:
遍历列表list类别中的tube,并选择t帧中和tube同动作类别的
Figure FDA0001677822170000023
进行匹配,如果该
Figure FDA0001677822170000024
与tube的最后一帧图像中的检测框的交并比大于阈值d,则把该
Figure FDA0001677822170000025
加入到队列H_list类别中;
如果
Figure FDA0001677822170000026
则挑选H_list类别中置信度最高的
Figure FDA0001677822170000027
加入到tube中,并在再次遍历t帧的
Figure FDA0001677822170000028
时,剔除置信度最高的
Figure FDA0001677822170000029
如果
Figure FDA00016778221700000210
则该tube不加入任何的
Figure FDA00016778221700000211
并保持不变,如果连续k帧tube都没加入新的
Figure FDA00016778221700000212
则终止该tube;
如果t帧有未被匹配的
Figure FDA00016778221700000213
记为
Figure FDA00016778221700000214
则遍历所有的tube分别求
Figure FDA00016778221700000215
和所有的tube最后一帧的交并比,并选取交并比大于阈值k,并且交并比最大的tube,记为T*,把
Figure FDA00016778221700000216
加入到该tube中,T*满足以下公式:
Figure FDA00016778221700000217
如果
Figure FDA00016778221700000218
Figure FDA00016778221700000219
Figure FDA00016778221700000220
如果
Figure FDA00016778221700000221
Figure FDA00016778221700000222
Ti为第i个tube,Ti(t-1)为第i个tube的第t-1帧;
如果第t帧中仍有未被匹配的检测框,则以该检测框为起点,生成新的tube,并用该检测框作为该tube的第一帧图像来初始化tube;
S3、所有的tube匹配完
Figure FDA00016778221700000223
后,更新每个tube的后k帧的动作类别列表I={lt-k+1…lt},其中lt为tube的第t帧的动作类别,更新每个tube的动作类别L,统计每个tube的后k帧的动作类别I={lt-k+1…lt},其中最多的动作类别作为该tube的动作类别L,满足以下公式:
Figure FDA0001677822170000031
如果li=c,则g(li,c)=1;如果li≠c,则g(li,c)=0,c为某一动作类别,即统计I={lt-k+1…lt}中的动作类别,个数最多的动作类别即为该tube的动作类别。
2.根据权利要求1所述的基于监控视频的多区域实时动作检测方法,其特征在于:所述步骤A1中,标注好的特定动作的数据库为UCF101的Action Detection数据集。
3.根据权利要求1所述的基于监控视频的多区域实时动作检测方法,其特征在于:所述步骤A2中,使用OpenCV库中的calcOpticalFlowFarneback函数计算训练数据中的视频序列的稠密光流。
CN201810534453.0A 2018-05-30 2018-05-30 基于监控视频的多区域实时动作检测方法 Active CN108764148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810534453.0A CN108764148B (zh) 2018-05-30 2018-05-30 基于监控视频的多区域实时动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810534453.0A CN108764148B (zh) 2018-05-30 2018-05-30 基于监控视频的多区域实时动作检测方法

Publications (2)

Publication Number Publication Date
CN108764148A CN108764148A (zh) 2018-11-06
CN108764148B true CN108764148B (zh) 2020-03-10

Family

ID=64003645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810534453.0A Active CN108764148B (zh) 2018-05-30 2018-05-30 基于监控视频的多区域实时动作检测方法

Country Status (1)

Country Link
CN (1) CN108764148B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447014A (zh) * 2018-11-07 2019-03-08 东南大学-无锡集成电路技术研究所 一种基于双通道卷积神经网络的视频在线行为检测方法
CN111291779A (zh) * 2018-12-07 2020-06-16 深圳光启空间技术有限公司 一种车辆信息识别方法、系统、存储器及处理器
CN109740454A (zh) * 2018-12-19 2019-05-10 贵州大学 一种基于yolo-v3的人体体态识别方法
CN109711344B (zh) * 2018-12-27 2023-05-26 东北大学 一种前端智能化的特定异常行为检测方法
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN111126153B (zh) * 2019-11-25 2023-07-21 北京锐安科技有限公司 基于深度学习的安全监测方法、系统、服务器及存储介质
CN111353452A (zh) * 2020-03-06 2020-06-30 国网湖南省电力有限公司 一种基于rgb图像的行为识别方法、装置、介质及设备
CN114049396A (zh) * 2021-11-05 2022-02-15 北京百度网讯科技有限公司 训练图像的标注及目标跟踪方法、装置、电子设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512618A (zh) * 2015-11-27 2016-04-20 北京航空航天大学 视频跟踪方法
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107316007A (zh) * 2017-06-07 2017-11-03 浙江捷尚视觉科技股份有限公司 一种基于深度学习的监控图像多类物体检测与识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129399B2 (en) * 2013-03-11 2015-09-08 Adobe Systems Incorporated Optical flow with nearest neighbor field fusion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512618A (zh) * 2015-11-27 2016-04-20 北京航空航天大学 视频跟踪方法
CN106709461A (zh) * 2016-12-28 2017-05-24 中国科学院深圳先进技术研究院 基于视频的行为识别方法及装置
CN107316007A (zh) * 2017-06-07 2017-11-03 浙江捷尚视觉科技股份有限公司 一种基于深度学习的监控图像多类物体检测与识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Detect to Track and Track to Detect;Christoph Feichtenhofer 等;《arXiv》;20180307;第1-11页 *
Learning to track for spatio-temporal action localization;Philippe Weinzaepfel 等;《2015 IEEE International Conference on Computer Vision》;20151231;第3164-3172页 *
Real-Time End-to-End Action Detection with Two-Stream Networks;Alaaeldin El-Nouby 等;《arXiv》;20180223;第1-8页 *
多媒体技术研究:2013-面向智能视频监控的视觉感知与处理;黄铁军 等;《中国图象图形学报》;20141101(第11期);第1539-1562页 *

Also Published As

Publication number Publication date
CN108764148A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108764148B (zh) 基于监控视频的多区域实时动作检测方法
Niu et al. View-invariant human activity recognition based on shape and motion features
Xu et al. Two-stream region convolutional 3D network for temporal activity detection
CN110555387B (zh) 骨架序列中基于局部关节点轨迹时空卷的行为识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN113378600B (zh) 一种行为识别方法及系统
CN107818307B (zh) 一种基于lstm网络的多标签视频事件检测方法
Zhang et al. Multi-instance multi-label action recognition and localization based on spatio-temporal pre-trimming for untrimmed videos
CN108537181A (zh) 一种基于大间距深度度量学习的步态识别方法
CN111967433A (zh) 一种基于自监督学习网络的动作识别办法
CN111597978B (zh) 基于StarGAN网络模型实现行人重识别图片自动生成的方法
Zhou et al. A study on attention-based LSTM for abnormal behavior recognition with variable pooling
Ge et al. Deep variation transformation network for foreground detection
CN110825916A (zh) 一种基于形体识别技术的寻人方法
Cai et al. Learning pose dictionary for human action recognition
Mohamed Automatic system for Arabic sign language recognition and translation to spoken one
CN110348395B (zh) 一种基于时空关系的骨架行为识别方法
CN115798055B (zh) 一种基于cornersort跟踪算法的暴力行为检测方法
CN112560618A (zh) 基于骨架和视频特征融合的行为分类方法
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
Sharma et al. A survey on moving object detection methods in video surveillance
Hassan et al. Enhanced dynamic sign language recognition using slowfast networks
CN110766093A (zh) 一种基于多帧特征融合的视频目标重识别方法
CN116630369A (zh) 基于时空记忆网络的无人机目标跟踪方法
Singh et al. Human activity tracking using star skeleton and activity recognition using hmms and neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant