CN112183240B - 一种基于3d时间流和并行空间流的双流卷积行为识别方法 - Google Patents

一种基于3d时间流和并行空间流的双流卷积行为识别方法 Download PDF

Info

Publication number
CN112183240B
CN112183240B CN202010951064.5A CN202010951064A CN112183240B CN 112183240 B CN112183240 B CN 112183240B CN 202010951064 A CN202010951064 A CN 202010951064A CN 112183240 B CN112183240 B CN 112183240B
Authority
CN
China
Prior art keywords
video
model
convolution
stream
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010951064.5A
Other languages
English (en)
Other versions
CN112183240A (zh
Inventor
熊海良
周智伟
许玉丹
王宏蕊
张雅琪
沈航宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010951064.5A priority Critical patent/CN112183240B/zh
Publication of CN112183240A publication Critical patent/CN112183240A/zh
Application granted granted Critical
Publication of CN112183240B publication Critical patent/CN112183240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于3D时间流和并行空间流的双流卷积行为识别方法,包括如下步骤:首先对于输入视频,进行光流块提取;其次对输入视频进行分段,抽取视频帧,并剪裁出人体部分;然后将光流块输入3D卷积神经网络,将剪裁帧输入并行空间流卷积网络;最后将并行空间流的分类结果进行融合,并与时间流得分进行拼接形成全连接层,最后经过输出层输出识别结果。本发明利用人体部分剪裁以及并行的空间流网络进行单帧识别,在空间上提高了单帧的识别准确率,同时利用3D卷积神经网络进行光流的动作特征提取,提高了时间流部分的识别准确率,并利用最后的单层神经网络结合空间外观特征和时间动作特征进行决策融合,提高了整体的识别效果。

Description

一种基于3D时间流和并行空间流的双流卷积行为识别方法
技术领域
本发明涉及一种人体行为识别技术领域,特别涉及一种基于3D时间流和并行空间流的双流卷积行为识别方法。
背景技术
随着互联网多媒体的发展,特别是5G技术的快速商用,大规模的摄像头每时每刻都有大量的视频产生并传输,这对于公共安全监控会产生巨大的压力。为了应对信息爆炸,对视频进行分析处理是十分必要且迫在眉睫的。视频中的人体行为识别是计算机视觉领域的一个重要分支,对于公共安全分析和智慧城市建设至关重要。
视频行为识别算法在2012年卷积神经网络提出之前,以传统算法为主,其中取得效果最好的是改进稠密光流法,这种算法需要手工提取特征,识别率高,但计算复杂,效率低。自深度学习应用于该领域之后,计算高效的卷积神经网络进入大家的视野。双流卷积神经网络是这些模型中较为有效的模型,它将RGB图像和光流图像分开处理,使用同样结构的网络模型,最后通过融合两个网络的结果进行预测。但是该方法需要预先提取光流,故光流图像的存储和计算成本过高,且准确率不足以应用于实际场景,对于特征信息的提取有待提高。此外,视频场景中的光照强度、复杂场景等因素,也在一定程度上影响着模型的准确率。
发明内容
为解决上述技术问题,本发明提供了一种基于3D时间流和并行空间流的双流卷积行为识别方法,以达到提取更多表征信息,增加时间流计算效率,提高预测准确率的目的。
为达到上述目的,本发明的技术方案如下:
一种基于3D时间流和并行空间流的双流卷积行为识别方法,包括如下步骤:
(1)对于输入视频,随机抽取多个正序视频帧,进行光流提取,形成多个光流块;同时对原始输入视频进行分段,在每个视频段中进行单视频帧抽取,并对所抽取的多个单视频帧进行人体部分剪裁,获得剪裁帧;
(2)将提取的光流块输入3D时间流卷积神经网络,同时将获得的剪裁帧分别单帧输入并行空间流卷积网络,对两路网络分别进行训练,得到3D时间流卷积神经网络判别模型和并行空间流卷积网络判别模型,分别输出各模型对视频中动作的得分;
(3)将并行空间流卷积网络判别模型的得分结果进行融合;
(4)将并行空间流卷积网络的融合结果和3D时间流卷积神经网络判别模型的得分结果进行拼接形成一个全连接层,输入单层神经网络进行训练,得到一个决策模型,最后对整体模型进行训练调整,得到最终模型;
(5)最后将原始视频通过步骤(1)至步骤(4)输入训练好的模型,获得最终行为识别结果。
上述方案中,步骤(1)中,对输入视频随机选取8帧视频帧,并对这8帧图片分别进行双向光流提取,按序堆叠,得到8个拥有8帧光流图的光流块,光流提取计算方式如下:
Figure BDA0002676928370000021
其中,
u=[1:w],v=[1:h],k=[-L+1:L].
p1=(u,v),pk=pk-1+dτ+k-2(pk-1),k>1.
其中,(u,v)代表视频帧中的像素点,
Figure BDA0002676928370000022
Figure BDA0002676928370000023
分别代表第τ+k-1帧像素点pk在x方向和y方向的位移量,dτ+k-2(pk-1)代表第τ+k-1帧中像素点pk的位移矢量,w表示图片的宽度,h表示图片的高度,L表示光流前向堆叠或反向堆叠的帧数。
上述方案中,步骤(1)中,将原始输入视频平均分成N段,在视频起始端和末端舍弃多余帧,同时从N段视频段中分别提取一帧图像;使用YOLO v3网络进行目标检测,具体为:将所述抽取的视频帧输入YOLO v3网络,基于输入图像得到人体部分位置框坐标及大小,舍弃空白帧,然后根据位置框剪裁出人体部分,并通过尺寸变换处理成统一尺寸。
上述方案中,YOLO v3边界框类别置信度计算公式如下:
PCCS=P(C|obj)*P(obj)*I
其中,P(C|obj)是各个边界框置信度下的条件概率,P(obj)是边界框含有目标的可能性大小,当边界框包含目标时,P(obj)=1,否则P(obj)=0;I是预测框与实际框的交并比,PCSS是边界框类别置信度,表示边界框匹配目标的好坏;
代价函数如下:
Figure BDA0002676928370000031
其中,x,y,w,h,C分别是检测框的中心横坐标、中心纵坐标、宽、高和置信度的目标值,α、β分别是各个误差项的权重,Ii,j表示第i个单元存在目标,该单元中第j个边界框负责预测,
Figure BDA0002676928370000032
表示不存在目标,n2表示图片分成的单元数,m表示每个单元预测的边界框数,
Figure BDA0002676928370000033
分别是预测检测框的中心横坐标、中心纵坐标、宽高和置信度。
上述方案中,步骤(2)中,所述3D时间流卷积神经网络含有8个卷积层、5个池化层、1个归一化层、2个全连接层和一个分类层;其中,所述卷积层卷积核大小都为3×3×3,步长为2×2×2;所述池化层采用3维随机池化,池化核大小取1×2×2,步长大小为1×2×2;所述分类层神经元个数为动作类别数;3D时间流卷积神经网络需先进行单独的预训练,将从原始视频中提取的光流图片和真实标签输入3D时间流卷积神经网络进行训练,在代价函数趋于平缓时,改变学习率,反复迭代,将最终得到的模型参数作为3D卷积神经网络的参数;最后通过该模型,输出所识别的动作类别得分。
上述方案中,步骤(2)中,所述并行空间流卷积网络采用N个残差网络Resnet-101,将N个网络并行排列,模型之间实现参数共享,同时处理N帧图像;所述并行空间流卷积网络使用预训练的参数作为初始参数,使用输入视频帧进行单独训练,将训练完的参数作为模型参数;通过该模型输出视频中动作类别得分。
上述方案中,步骤(3)中,所述并行空间流卷积网络在得分融合时直接进行均值融合。
上述方案中,步骤(4)中,所述单层神经网络的决策模型只有一个输入层和一个输出层,输出层神经元的数量为动作类别数,输入层神经元数为输出层的两倍;将空间流的融合得分和时间流的得分进行拼接,输入到决策模型中,进行监督学习,反复训练,得到模型参数;并通过整体模型进行训练调整,得到最终模型。
进一步的技术方案中,整体模型的代价函数如下:
Figure BDA0002676928370000041
Figure BDA0002676928370000042
其中,M1是并行空间流卷积网络的输出,M2是3D时间流卷积网络的输出,m是批大小,yi是实际标签,W是单层神经网络的权重,N是视频切分的段数,σ(·)是激活函数,oi是并行空间流卷积网络中第i个网络的输出结果。
上述方案中,模型训练时,对于同一输入视频,多次迭代时,输入光流块和空间视频帧都是随机的。
通过上述技术方案,本发明提供的一种基于3D时间流和并行空间流的双流卷积行为识别方法在双流卷积的基础上进行创新,对时间流的输入,每次都随机抽取多帧进行光流提取,模型舍弃二维卷积网络,改用三维卷积网络,以提取更多的表征信息;空间流的输入使用剪裁帧作为输入图片,模型采用并行二维卷积网络,以提高识别准确率。在训练好的两个分支模型基础上,训练得出决策模型,最后进行整体模型的训练从而微调,得到最终的双流模型,以得出最终的识别结果。最终达到提取更多表征信息,增加时间流计算效率,提高预测准确率的效果。因此,本发明具有如下有益效果:
(1)本发明采用目标检测的方法获取人体部分位置框,并进行剪裁,一定程度上减少了环境的影响,使网络模型聚焦于人体部分。
(2)本发明采用N个并行的2D卷积网络获取更加准确的识别结果,在一定程度上降低了由于单帧选取问题引起的识别错误概率。
(3)本发明采用3D卷积网络进行光流的特征提取,获得了更深层次的特征信息。
(4)本发明采用模型隔离训练,在分支结果的基础上进行决策模型训练,并基于整体模型微调,有效地防止了过拟合,高效地结合了空间外观信息和动作信息,提升了识别效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所公开的一种基于3D时间流和并行空间流的双流卷积行为识别方法流程示意图;
图2为YOLO v3网络结构示意图;
图3为视频目标裁剪示意图;
图4为3D卷积网络结构示意图;
图5为三维随机池化示意图;
图6为并行空间流卷积网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种基于3D时间流和并行空间流的双流卷积行为识别方法,如图1所示,具体实施例如下:
一、视频处理
(1)对于输入视频,随机抽取多个正序视频帧,进行光流提取,形成多个光流块,具体如下:
对输入视频随机选取8帧视频帧,并对这8帧图片分别进行双向光流提取,按序堆叠,得到8个拥有8帧光流图的光流块,光流提取计算方式如下:
Figure BDA0002676928370000051
其中,
u=[1:w],v=[1:h],k=[-L+1:L].
p1=(u,v),pk=pk-1+dτ+k-2(pk-1),k>1.
其中,(u,v)代表视频帧中的像素点,
Figure BDA0002676928370000052
Figure BDA0002676928370000053
分别代表第τ+k-1帧像素点pk在x方向和y方向的位移量,dτ+k-2(pk-1)代表第τ+k-1帧中像素点pk的位移矢量,w表示图片的宽度,h表示图片的高度,L表示光流前向堆叠或反向堆叠的帧数。
(2)同时对原始输入视频进行分段,在每个视频段中进行单视频帧抽取,并对所抽取的多个单视频帧进行人体部分剪裁,获得剪裁帧,具体如下:
将原始输入视频平均分成N段,在视频起始端和末端舍弃多余帧,同时从N段视频段中分别提取一帧图像;使用如图2所示的YOLO v3网络进行目标检测,具体为:将抽取的视频帧输入YOLO v3网络,基于输入图像得到人体部分位置框坐标及大小,舍弃空白帧,然后根据位置框剪裁出人体部分,并通过尺寸变换处理成统一尺寸。剪裁效果如图3所示。即YOLO v3网络去除了空白帧,并将之后的网络注意力全部转移到了人体动作区域。
YOLO v3边界框类别置信度计算公式如下:
PCCS=P(C|obj)*P(obj)*I
其中,P(C|obj)是各个边界框置信度下的条件概率,P(obj)是边界框含有目标的可能性大小,当边界框包含目标时,P(obj)=1,否则P(obj)=0;I是预测框与实际框的交并比,PCSS是边界框类别置信度,表示边界框匹配目标的好坏;
代价函数如下:
Figure BDA0002676928370000061
其中,x,y,w,h,C分别是检测框的中心横坐标、中心纵坐标、宽、高和置信度的目标值,α、β分别是各个误差项的权重,Ii,j表示第i个单元存在目标,该单元中第j个边界框负责预测,
Figure BDA0002676928370000062
表示不存在目标,n2表示图片分成的单元数,m表示每个单元预测的边界框数,
Figure BDA0002676928370000063
分别是预测检测框的中心横坐标、中心纵坐标、宽高和置信度。
二、输入网络模型进行训练
(1)将提取的光流块输入3D时间流卷积神经网络,如图4所示,3D时间流卷积神经网络含有8个卷积层、5个池化层、1个归一化层、2个全连接层和一个分类层;其中,卷积层卷积核大小都为3×3×3,步长为2×2×2;如图5所示,池化层采用3维随机池化,训练和测试时的计算方式不同,训练时的具体计算步骤如下:
计算感受野内每个元素所占权重,计算方式如下:
Figure BDA0002676928370000071
其中,ai是感受野内某个元素的值,pi是每个元素所占的比重。
按概率随机抽取元素作为最终的池化值a。
测试时的具体计算方式如下:
a=∑piai
其中,ai是感受野内某个元素的值,pi是每个元素所占的比重,a是随机池化得到的值。
池化核大小取1×2×2,步长大小为1×2×2;分类层神经元个数为动作类别数;3D时间流卷积神经网络需先进行单独的预训练,将从原始视频中提取的光流图片和真实标签输入3D时间流卷积神经网络进行训练,在代价函数趋于平缓时,改变学习率,反复迭代,将最终得到的模型参数作为3D卷积神经网络的参数;最后通过该模型,输出所识别的动作类别得分。
(2)同时将获得的剪裁帧分别单帧输入并行空间流卷积网络,如图6所示,并行空间流卷积网络采用N个残差网络Resnet-101,将N个网络并行排列,模型之间实现参数共享,同时处理N帧图像,并行空间流卷积网络使用预训练的参数作为初始参数,使用输入视频帧进行单独训练,将训练完的参数作为模型参数;通过该模型输出视频中动作类别得分。
三、将并行空间流卷积网络判别模型的得分结果进行融合,在得分融合时直接进行均值融合。
四、将并行空间流卷积网络的融合结果和3D时间流卷积神经网络判别模型的得分结果进行拼接形成一个全连接层,输入单层神经网络进行训练,得到一个决策模型,最后对整体模型进行训练调整,得到最终模型;
单层神经网络的决策模型只有一个输入层和一个输出层,输出层神经元的数量为动作类别数,输入层神经元数为输出层的两倍;将空间流的融合得分和时间流的得分进行拼接,输入到决策模型中,进行监督学习,反复训练,得到模型参数;并通过整体模型进行训练调整,得到最终模型。
整体模型的代价函数如下:
Figure BDA0002676928370000072
Figure BDA0002676928370000073
其中,M1是并行空间流卷积网络的输出,M2是3D时间流卷积网络的输出,m是批大小,yi是实际标签,W是单层神经网络的权重,N是视频切分的段数,σ(·)是激活函数,oi是并行空间流卷积网络中第i个网络的输出结果。
模型训练时,对于同一输入视频,多次迭代时,输入光流块和空间视频帧都是随机的。
五、最后将原始视频通过步骤一至步骤四输入训练好的模型,获得最终行为识别结果。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种基于3D时间流和并行空间流的双流卷积行为识别方法,其特征在于,包括如下步骤:
(1)对于输入视频,随机抽取多个正序视频帧,进行光流提取,形成多个光流块;同时对原始输入视频进行分段,在每个视频段中进行单视频帧抽取,并对所抽取的多个单视频帧进行人体部分剪裁,获得剪裁帧;
(2)将提取的光流块输入3D时间流卷积神经网络,同时将获得的剪裁帧分别单帧输入并行空间流卷积网络,对两路网络分别进行训练,得到3D时间流卷积神经网络判别模型和并行空间流卷积网络判别模型,分别输出各模型对视频中动作的得分;
(3)将并行空间流卷积网络判别模型的得分结果进行融合;
(4)将并行空间流卷积网络的融合结果和3D时间流卷积神经网络判别模型的得分结果进行拼接形成一个全连接层,输入单层神经网络进行训练,得到一个决策模型,最后对整体模型进行训练调整,得到最终模型;
(5)最后将原始视频通过步骤(1)至步骤(4)输入训练好的模型,获得最终行为识别结果;
步骤(2)中,所述3D时间流卷积神经网络含有8个卷积层、5个池化层、1个归一化层、2个全连接层和一个分类层;其中,所述卷积层卷积核大小都为3×3×3,步长为2×2×2;所述池化层采用3维随机池化,池化核大小取1×2×2,步长大小为1×2×2;所述分类层神经元个数为动作类别数;3D时间流卷积神经网络需先进行单独的预训练,将从原始视频中提取的光流图片和真实标签输入3D时间流卷积神经网络进行训练,在代价函数趋于平缓时,改变学习率,反复迭代,将最终得到的模型参数作为3D卷积神经网络的参数;最后通过该模型,输出所识别的动作类别得分;
步骤(2)中,所述并行空间流卷积网络采用N个残差网络Resnet-101,将N个网络并行排列,模型之间实现参数共享,同时处理N帧图像;所述并行空间流卷积网络使用预训练的参数作为初始参数,使用输入视频帧进行单独训练,将训练完的参数作为模型参数;通过该模型输出视频中动作类别得分。
2.根据权利要求1所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法,其特征在于,步骤(1)中,对输入视频随机选取8帧视频帧,并对这8帧图片分别进行双向光流提取,按序堆叠,得到8个拥有8帧光流图的光流块,光流提取计算方式如下:
Figure FDA0003700076110000011
其中,
u=[1:w],v=[1:h],k=[-L+1:L].
p1=(u,v),pk=pk-1+dτ+k-2(pk-1),k>1.
其中,(u,v)代表视频帧中的像素点,
Figure FDA0003700076110000021
Figure FDA0003700076110000022
分别代表第τ+k-1帧像素点pk在x方向和y方向的位移量,dτ+k-2(pk-1)代表第τ+k-1帧中像素点pk的位移矢量,w表示图片的宽度,h表示图片的高度,L表示光流前向堆叠或反向堆叠的帧数。
3.根据权利要求1所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法,其特征在于,步骤(1)中,将原始输入视频平均分成N段,在视频起始端和末端舍弃多余帧,同时从N段视频段中分别提取一帧图像;使用YOLO v3网络进行目标检测,具体为:将所述抽取的视频帧输入YOLO v3网络,基于输入图像得到人体部分位置框坐标及大小,舍弃空白帧,然后根据位置框剪裁出人体部分,并通过尺寸变换处理成统一尺寸。
4.根据权利要求3所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法,其特征在于,YOLO v3边界框类别置信度计算公式如下:
PCCS=P(C|obj)*P(obj)*I
其中,P(C|obj)是各个边界框置信度下的条件概率,P(obj)是边界框含有目标的可能性大小,当边界框包含目标时,P(obj)=1,否则P(obj)=0;I是预测框与实际框的交并比,PCSS是边界框类别置信度,表示边界框匹配目标的好坏;
代价函数如下:
Figure FDA0003700076110000023
其中,x,y,w,h,C分别是检测框的中心横坐标、中心纵坐标、宽、高和置信度的目标值,α、β分别是各个误差项的权重,Ii,j表示第i个单元存在目标,该单元中第j个边界框负责预测,
Figure FDA0003700076110000031
表示不存在目标,n2表示图片分成的单元数,m表示每个单元预测的边界框数,
Figure FDA0003700076110000032
分别是预测检测框的中心横坐标、中心纵坐标、宽高和置信度。
5.根据权利要求1所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法,其特征在于,步骤(3)中,所述并行空间流卷积网络在得分融合时直接进行均值融合。
6.根据权利要求1所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法,其特征在于,步骤(4)中,所述单层神经网络的决策模型只有一个输入层和一个输出层,输出层神经元的数量为动作类别数,输入层神经元数为输出层的两倍;将空间流的融合得分和时间流的得分进行拼接,输入到决策模型中,进行监督学习,反复训练,得到模型参数;并通过整体模型进行训练调整,得到最终模型。
7.根据权利要求6所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法,其特征在于,整体模型的代价函数如下:
Figure FDA0003700076110000033
Figure FDA0003700076110000034
其中,M1是并行空间流卷积网络的输出,M2是3D时间流卷积网络的输出,m是批大小,yi是实际标签,W是单层神经网络的权重,N是视频切分的段数,σ(·)是激活函数,oi是并行空间流卷积网络中第i个网络的输出结果。
8.根据权利要求1-7任一项所述的一种基于3D时间流和并行空间流的双流卷积行为识别方法,其特征在于,模型训练时,对于同一输入视频,多次迭代时,输入光流块和空间视频帧都是随机的。
CN202010951064.5A 2020-09-11 2020-09-11 一种基于3d时间流和并行空间流的双流卷积行为识别方法 Active CN112183240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010951064.5A CN112183240B (zh) 2020-09-11 2020-09-11 一种基于3d时间流和并行空间流的双流卷积行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010951064.5A CN112183240B (zh) 2020-09-11 2020-09-11 一种基于3d时间流和并行空间流的双流卷积行为识别方法

Publications (2)

Publication Number Publication Date
CN112183240A CN112183240A (zh) 2021-01-05
CN112183240B true CN112183240B (zh) 2022-07-22

Family

ID=73920535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010951064.5A Active CN112183240B (zh) 2020-09-11 2020-09-11 一种基于3d时间流和并行空间流的双流卷积行为识别方法

Country Status (1)

Country Link
CN (1) CN112183240B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597975B (zh) * 2021-02-26 2021-06-08 上海闪马智能科技有限公司 一种基于视频的火灾烟雾和抛洒物检测方法及系统
CN113052139A (zh) * 2021-04-25 2021-06-29 合肥中科类脑智能技术有限公司 一种基于深度学习双流网络的攀爬行为检测方法及系统
CN113435430B (zh) * 2021-08-27 2021-11-09 中国科学院自动化研究所 基于自适应时空纠缠的视频行为识别方法、系统、设备
CN115311740A (zh) * 2022-07-26 2022-11-08 国网江苏省电力有限公司苏州供电分公司 一种电网基建现场人体异常行为识别方法及系统
CN116645917A (zh) * 2023-06-09 2023-08-25 浙江技加智能科技有限公司 Led显示屏亮度调节系统及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN110598598A (zh) * 2019-08-30 2019-12-20 西安理工大学 基于有限样本集的双流卷积神经网络人体行为识别方法
CN110826447A (zh) * 2019-10-29 2020-02-21 北京工商大学 一种基于注意力机制的餐厅后厨人员行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111046821A (zh) * 2019-12-19 2020-04-21 东北师范大学人文学院 一种视频行为识别方法、系统及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN110598598A (zh) * 2019-08-30 2019-12-20 西安理工大学 基于有限样本集的双流卷积神经网络人体行为识别方法
CN110826447A (zh) * 2019-10-29 2020-02-21 北京工商大学 一种基于注意力机制的餐厅后厨人员行为识别方法
CN110909658A (zh) * 2019-11-19 2020-03-24 北京工商大学 一种基于双流卷积网络的视频中人体行为识别方法
CN111046821A (zh) * 2019-12-19 2020-04-21 东北师范大学人文学院 一种视频行为识别方法、系统及电子设备

Also Published As

Publication number Publication date
CN112183240A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112183240B (zh) 一种基于3d时间流和并行空间流的双流卷积行为识别方法
CN109886225B (zh) 一种基于深度学习的图像手势动作在线检测与识别方法
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
CN109543606B (zh) 一种加入注意力机制的人脸识别方法
CN110516536B (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN110909658A (zh) 一种基于双流卷积网络的视频中人体行为识别方法
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
CN112541503A (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
CN109508663B (zh) 一种基于多层次监督网络的行人重识别方法
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别系统及方法
CN111798456A (zh) 一种实例分割模型的训练方法、装置、实例分割方法
CN114445430B (zh) 轻量级多尺度特征融合的实时图像语义分割方法及系统
CN113158723A (zh) 一种端到端的视频动作检测定位系统
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN111242181B (zh) 基于图像语义和细节的rgb-d显著性物体检测器
CN111160356A (zh) 一种图像分割分类方法和装置
CN113780132A (zh) 一种基于卷积神经网络的车道线检测方法
CN113920581A (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN115115917A (zh) 基于注意力机制和图像特征融合的3d点云目标检测方法
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
CN111199255A (zh) 基于darknet53网络的小目标检测网络模型及检测方法
CN114333062A (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN116958786A (zh) 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant