CN109325430B - 实时行为识别方法及系统 - Google Patents
实时行为识别方法及系统 Download PDFInfo
- Publication number
- CN109325430B CN109325430B CN201811058694.9A CN201811058694A CN109325430B CN 109325430 B CN109325430 B CN 109325430B CN 201811058694 A CN201811058694 A CN 201811058694A CN 109325430 B CN109325430 B CN 109325430B
- Authority
- CN
- China
- Prior art keywords
- sample video
- neural network
- convolutional neural
- real
- video frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 107
- 230000006399 behavior Effects 0.000 claims abstract description 105
- 230000003287 optical effect Effects 0.000 claims abstract description 105
- 238000005070 sampling Methods 0.000 claims abstract description 43
- 238000003860 storage Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 8
- 238000013528 artificial neural network Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 4
- 230000008602 contraction Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供了一种实时行为识别方法及系统,通过对待识别视频中的视频帧进行采样,并将采样结果输入至学习后的预设卷积神经网络,由学习后的预设卷积神经网络输出待识别视频产生的实时光流,可以大大降低获取实时光流的时间,再基于实时光流,确定待识别视频中行为的类别,可提高行为识别的速度。同时由于本发明实施例中采用学习后的预设卷积神经网络,可以避免单次计算产生的识别结果不准确的问题。而且,本发明实施例中在获取到采样结果后并不需要对采样结果进行保存,而是直接将采样结果输入至学习后的预设卷积神经网络中,并不需要对存储空间进行限定,进一步节约了行为识别的成本。
Description
技术领域
本发明实施例涉及计算机视觉技术领域,更具体地,涉及实时行为识别方法及系统。
背景技术
目前,人体行为识别技术是机器视觉领域的重要分支和前沿性技术,可广泛应用于智能视频监控、机器人视觉、人机交互、游戏控制等,应用市场前景广阔。
现有技术中的人体行为识别方法主要依靠如下三种卷积神经网络模型:1)时空双流卷积神经网络;2)三维卷积神经网络;3)在时空双流卷积神经网络顶部堆积模型如长短期记忆时间递归神经网络。这三种卷积神经网络模型在实现行为识别时,均需要确定待识别视频中的光流以表示待识别视频中行为的运动信息,现有技术中主要利用局部光流表示运动信息或者采用运动矢量代替光流表示运动信息,进而进行行为识别。其中的局部光流是指对一定时间段内的视频帧进行采样,并根据采样得到的视频帧计算得到的光流,这一过程的计算量很大,将大大降低行为识别的速度。而采用运动矢量代替光流表示运动信息这一方案也会因计算量很大,大大降低行为识别的速度。
因此,现急需提供一种实时行为识别方法,以解决现有技术中行为识别速度慢的问题。
发明内容
为克服上述问题或者至少部分地解决上述问题,本发明实施例提供了一种实时行为识别方法及系统。
第一方面,本发明实施例提供了一种实时行为识别方法,包括:
对待识别视频中的视频帧进行采样,并将采样结果输入至预设卷积神经网络,由所述预设卷积神经网络输出所述待识别视频产生的实时光流;
基于所述实时光流,确定所述待识别视频中行为的类别;
其中,所述预设卷积神经网络由样本视频中多个样本视频帧作为输入,所述样本视频产生的实时光流作为输出学习得到。
第二方面,本发明实施例提供了一种实时行为识别系统,包括:
实时光流产生模块,用于对待识别视频中的视频帧进行采样,并将采样结果输入至预设卷积神经网络,由所述预设卷积神经网络输出所述待识别视频产生的实时光流;
行为类别确定模块,用于基于所述实时光流,确定所述待识别视频中行为的类别;
其中,所述预设卷积神经网络由样本视频中多个样本视频帧作为输入,所述样本视频产生的实时光流作为输出学习得到。
第三方面,本发明实施例提供了一种电子设备,包括:
至少一个处理器、至少一个存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以执行第一方面提供的实时行为识别方法。
第四方面,本发明实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面提供的实时行为识别方法。
本发明实施例提供的一种实时行为识别方法及系统,通过对待识别视频中的视频帧进行采样,并将采样结果输入至学习后的预设卷积神经网络,由学习后的预设卷积神经网络输出待识别视频产生的实时光流,可以大大降低获取实时光流的时间,再基于实时光流,确定待识别视频中行为的类别,可提高行为识别的速度。同时由于本发明实施例中采用学习后的预设卷积神经网络,可以避免单次计算产生的识别结果不准确的问题。而且,本发明实施例中在获取到采样结果后并不需要对采样结果进行保存,而是直接将采样结果输入至学习后的预设卷积神经网络中,并不需要对存储空间进行限定,进一步节约了行为识别的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种实时行为识别方法的流程示意图;
图2为本发明实施例提供的一种实时行为识别系统的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明实施例的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明实施例的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明实施例中的具体含义。
由于现有技术中在行为识别过程中,通常采用局部光流表示运动信息或者采用运动矢量代替光流表示运动信息。但是无论是获取局部光流还是获取运动矢量,计算量均很大,将大大降低行为识别的速度同时增加成本。不仅如此,由于现有技术中需要对采样得到的视频帧进行保存,对存储空间要求很大,且采样得到的视频帧由于信息的缺失且单次计算将会导致识别结果不准确。
因此,为解决现有技术中在行为识别过程中产生的缺陷,本发明实施例中提供了一种实时行为识别方法及系统。
在说明本发明实施例中提供的技术方案之前,对本发明实施例中出现的技术名词进行解释:
1)卷积神经网络:一种深度学习算法。
2)行为识别:对分割好的待识别视频内人物的行为进行分类。
3)损失函数:在预设卷积神经网络学习过程中用来估量网络预测值与真实值的偏离程度,学习过程中的优化目标是最小化损失函数。
4)光流:是关于视域中的物体运动检测中的概念。用来描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。本发明实施例中可以通过每两个相邻的视频帧确定,用以表示视频中行为的运动信息,可以理解为行为的运动速度。
如图1所示,本发明实施例提供了一种实时行为识别方法,包括:
S1,对待识别视频中的视频帧进行采样,并将采样结果输入至学习后的预设卷积神经网络,由预设卷积神经网络输出待识别视频产生的实时光流;
S2,基于实时光流,确定待识别视频中行为的类别;
其中,预设卷积神经网络由样本视频中多个样本视频帧作为预设卷积神经网络的输入,样本视频产生的实时光流作为预设卷积神经网络的输出学习得到。
具体地,本发明实施例中首先对待识别视频中的视频帧进行采样,选取待识别视频中极少数的视频帧作为研究对象,可以大大降低行为识别的计算量,提高行为识别的速度。采样结果是指采样得到的多个视频帧,这里为区分说明,将采样得到的视频帧均即为采样视频帧,即采样结果包括多个采样视频帧。
本发明实施例中采用预设卷积神经网络模型获取待识别视频产生的实时光流,可以使得到实时光流的速度更快,可进一步提高行为识别的速度。预设卷积神经网络具有两个输入,分别为多个采样视频帧中的每两个相邻的采样视频帧,由于预设卷积神经网络具有固定的网络模型参数,两个输入经预设卷积神经网络处理后自动输出待识别视频产生的实时光流。
这里需要说明的是,在应用预设卷积神经网络模型之前,需要对预设卷积神经网络模型进行学习,即训练。具体学习是采用样本视频完成,样本视频可以为一个也可以为多个。首先需要对样本视频进行采样,获取样本视频中的样本视频帧,这里的样本视频帧是指对样本视频中的视频帧进行采样后得到的视频帧。将多个样本视频帧作为所述预设卷积神经网络的输入,所述样本视频产生的实时光流作为所述预设卷积神经网络的输出学习得到预设卷积神经网络。
在确定待识别视频产生的实时光流后,则可以根据实时光流确定出待识别视频中行为的类别。具体可以采用时空双流卷积神经网络实现。
本发明实施例中提供的实时行为识别方法,通过对待识别视频中的视频帧进行采样,并将采样结果输入至学习后的预设卷积神经网络,由学习后的预设卷积神经网络输出待识别视频产生的实时光流,可以大大降低获取实时光流的时间,再基于实时光流,确定待识别视频中行为的类别,可提高行为识别的速度。同时由于本发明实施例中采用学习后的预设卷积神经网络,可以避免单次计算产生的识别结果不准确的问题。而且,本发明实施例中在获取到采样结果后并不需要对采样结果进行保存,而是直接将采样结果输入至学习后的预设卷积神经网络中,并不需要对存储空间进行限定,进一步节约了行为识别的成本。
在上述实施例的基础上,本发明实施例中提供的实时行为识别方法,所述预设卷积神经网络具体通过如下方式学习得到:
对所述样本视频中的视频帧进行采样,获取多个样本视频帧;
将所述多个样本视频帧输入至所述预设卷积神经网络,对于所述多个样本视频帧中任意两个相邻的样本视频帧,获取所述任意两个相邻的样本视频帧产生的估计光流;
基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧,重构所述任意两个相邻的样本视频帧中的前一样本视频帧;
若判断获知重构结果、所述任意两个相邻的样本视频帧中的前一样本视频帧以及所述估计光流使得所述预设卷积神经网络的损失函数取值最小,则学习结束,并将所述多个样本视频帧中每两个相邻的样本视频帧产生的估计光流整合成所述样本视频产生的实时光流并输出。
具体地,本发明实施例中对预设卷积神经网络的学习过程进行说明,采用无监督学习的方法对预设卷积神经网络进行学习,使预设卷积神经网络能够根据多个样本视频帧中任意两个相邻的样本视频帧I1和I2对任意两个相邻的样本视频帧中的前一样本视频帧I1(任意两个相邻的样本视频帧中的后一样本视频帧为I2,前后的关系是指采样时间的先后)进行重构,得到重构结果I1’,具体是根据I1和I2产生一个估计光流,估计光流通过流场V的形式表现,然后采用流场V和I2重构出I1’,当I1、I2以及V可以使预设卷积神经网络的损失函数取值最小,则训练结束,I1和I2产生的估计光流可以用于组成输出的实时光流,即将这种情况下每两个相邻的样本视频帧产生的估计光流进行整合可形成用于输出的实时光流。
本发明实施例中提供的预设卷积神经网络的学习过程,为预设卷积神经网络的学习提供一种新的方法。
在上述实施例的基础上,本发明实施例中提供的实时行为识别方法,所述基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧,重构所述任意两个相邻的样本视频帧中的前一样本视频帧,具体包括:
基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧,通过逆向映射算法,重构所述任意两个相邻的样本视频帧中的前一样本视频帧。
具体地,本发明实施例中在对预设卷积神经网络进行学习的过程中,重构的操作基于逆向映射算法(inverse warting)实现,即通过如下表达式实现:
I1’=T[I2;V] (1)
其中,T函数为逆向映射函数,是指根据I2和V进行重构计算,本发明实施例中采用空间变换器实现。
逆向映射算法的核心是:对于视频帧I2上每个像素的位置坐标(x,y),用逆向映射函数T找到它在样本视频帧为I1中的对应位置(u,v),即重构出I1’。需要说明的是,流场V实际上可以看做是I1变为I2所需要引起的变化,而逆向映射函数T实际上是流场V的逆变化。
在上述实施例的基础上,本发明实施例中提供的实时行为识别方法,所述预设卷积神经网络的损失函数包括:像素重构误差子函数、光滑度子函数以及结构相似性子函数,所述损失函数由所述像素重构误差子函数、所述光滑度子函数以及所述结构相似性子函数按预设系数加权得到;
其中,所述像素重构误差子函数由基于所述估计光流的Charbonnier惩罚因子确定,所述光滑度子函数由基于所述估计光流在水平方向和竖直方向上的梯度的Charbonnier惩罚因子确定,所述结构相似性子函数由所述重构结果和所述任意两个相邻的样本视频帧中的前一样本视频帧的结构相似性确定。
具体地,本发明实施例中提供的预设卷积神经网络的损失函数并不是单一的表达式,而是考虑了像素重构误差、光滑度以及重构的结构相似性这三种因素对输出的光流的影响,综合形成的一种损失函数。其中损失函数的具体表达式如下:
L=λ1·Lpixel+λ2·Lsmooth+λ3·Lssim (2)
其中,L为损失函数,Lpixel为像素重构误差子函数,λ1为像素重构误差因素对损失函数影响的权重,Lsmooth为光滑度子函数,λ2为光滑度因素对损失函数影响的权重,Lssim为结构相似性子函数,λ3为结构相似性因素对损失函数影响的权重。
其中,λ1、λ2、λ3的具体取值可根据需要进行设定,本发明实施例中对此不作具体限定。
像素重构误差子函数Lpixel的具体表达式如下:
其中,N为每一样本视频帧I1、I2中像素点的个数,(i,j)表示每一样本视频帧中第i行第j列的像素点,I1(i,j)表示样本视频帧I1中像素点(i,j)的位置坐标,表示样本视频帧I1、I2之间形成的估计光流对应的流场V在像素点(i,j)处x方向上的取值,表示样本视频帧I1、I2之间形成的估计光流对应的流场V在像素点(i,j)处y方向上的取值。实际上是通过I1(i,j)以及流场V确定的在样本视频帧I1下一时刻得到的样本视频帧I2中像素点的位置坐标。需要说明的是,本发明实施例中所有样本视频帧采用一个空间坐标系进行研究。
ρ函数为基于估计光流的Charbonnier惩罚因子,且有:
ρ(A)=(A2+ε2)α (5)
其中,ε为取值范围为0-0.001的常数,α为常数,通常取值为0.5。
本发明实施例中引入一个鲁棒的凸误差函数,即ρ函数,以减少异常值的影响。
光滑度子函数Lsmooth的具体表达式如下:
其中,和分别表示样本视频帧I1、I2之间形成的估计光流对应的流场V在水平方向x上的分量在水平方向x上和竖直方向y上的梯度。类似地,和分别表示样本视频帧I1、I2之间形成的估计光流对应的流场V在竖直方向y上的分量在水平方向x上和竖直方向y上的梯度。
结构相似性子函数Lssim的具体表达式如下:
其中,N为每一样本视频帧I1以及重构结果I1’中像素点的个数,I1′(i,j)表示重构结果I1’中像素点(i,j)的位置坐标,函数SSIM为结构相似性函数,用于表示重构结果I1’和任意两个相邻的样本视频帧中的前一样本视频帧I1的结构相似性。
在上述实施例的基础上,本发明实施例中提供的实时行为识别方法,所述预设卷积神经网络包括预设数量个卷积层,以及由卷积层和去卷积层组成的卷积链;
所述预设卷积神经网络中靠近输入端的两个卷积层的步长均为1。
具体地,本发明实施例中的预设卷积神经网络包括收缩部分和扩展部分。收缩部分包括预设数量个卷积层,扩展部分包括卷积层和去卷积层,由卷积层和去卷积层组合形成卷积链。
本发明实施例中采用的卷积层中靠近输入端的两个卷积层的步长均为1,这是为了保证经卷积层处理后的视频帧可以保持原来的大小,保证不失真或损失细节信息,这可适用于低分辨率的视频帧。同时在预设卷积神经网络中不采用池化层,而是直接采用分步卷积代替对视频帧的池化,以防止视频帧中的细节信息被去除,影响行为识别的结果。
作为优选方案,本发明实施例中采用3X3的卷积核进行卷积去检测局部细节运动。此外,为了保证细节动作不被去除,将视频帧的细节保留到最后一步,即在softmax分类层之前。
表1预设卷积神经网络中卷积层以及卷积链的信息表
如表1所示,为本发明实施例中提供的预设卷积神经网络中卷积层以及卷积链的信息表。表1中,name为卷积层的名称,Kernel为卷积层的卷积核,Str为卷积层的步长。从表1中可以看出,收缩部分共包括12个卷积层,分别为conv1、conv1_1、conv2、conv2_1、conv3、conv3_1、conv4、conv4_1、conv5、conv5_1、conv6、conv6_1,其中conv1和conv1_1的步长均设置为1,扩展部分包括4个由卷积层和去卷积层组合形成的卷积链,第一个卷积链包括flow6(loss6)、deconv5和xconv5,其中flow6(loss6)为计算前一层的损失误差的卷积层,deconv5为去卷积层,xconv5改变该卷积链的通道数,以使该卷积链与下一卷积链的通道数相匹配。同理,第二个卷积链包括flow5(loss5)、deconv4和xconv4,第三个卷积链包括flow4(loss4)、deconv3和xconv3,第四个卷积链包括flow3(loss3)、deconv2和xconv2,最后flow2(loss2)是用来计算第四个卷积链的损失误差的。
在上述实施例的基础上,本发明实施例中提供的实时行为识别方法,所述基于所述实时光流,确定所述待识别视频中行为的类别,具体包括:
将所述实时光流输入至时空双流卷积神经网络中的时间流卷积神经网络中,由所述时间流卷积神经网络输出所述待识别视频中行为的运动信息分类标签,并将所述采样结果输入至所述时空双流卷积神经网络中的空间流卷积神经网络,由所述空间流卷积神经网络输出所述待识别视频中行为的动作信息分类标签;
基于所述运动信息分类标签和所述动作信息分类标签,确定所述待识别视频中行为的类别。
具体地,采用时空双流卷积神经网络实现根据实时光流确定出待识别视频中行为的类别时,时空双流卷积神经网络包括时间流卷积神经网络和空间流卷积神经网络,时间流卷积神经网络中预先存储有大量的运动信息类别,空间流卷积神经网络中预先存储有大量的动作信息类别,将得到的实时光流输入至时间流卷积神经网络后,由时间流卷积神经网络输出待识别视频中行为的运动信息分类标签,这里的运动信息分类标签是指时间流卷积神经网络根据输入的实时光流确定出的与该实时光流表示的运动信息类别相近的运动信息类别,具体表体现方式是为每个运动信息类别赋予一个准确度,准确度越高,表示对应的运动信息类别与该实时光流表示的运动信息类别相同的可能性越大,反之可能性越小。同理,将采样结果输入至空间流卷积神经网络,由空间流卷积神经网络输出待识别视频中行为的动作信息分类标签,这里的动作信息分类标签是指空间流卷积神经网络根据输入的采样结果确定出的与该采样结果表示的动作信息类别相近的动作信息类别,具体表体现方式是为每个动作信息类别赋予一个准确度,准确度越高,表示对应的动作信息类别与该采样结果表示的动作信息类别相同的可能性越大,反之可能性越小。
最后根据得到的运动信息分类标签和动作信息分类标签,即可确定出待识别视频中行为的类别。
作为优选方案,本发明实施例中采用的时间流卷积神经网络和空间流卷积神经网络均为VGG16卷积神经网络。
在上述实施例的基础上,本发明实施例中提供的实时行为识别方法,所述运动信息分类标签包括表示所述待识别视频中行为的运动信息类别以及准确度,所述动作信息分类标签包括表示所述待识别视频中行为的动作信息类别以及准确度;
相应地,基于所述运动信息分类标签和所述动作信息分类标签,确定所述待识别视频中行为的类别,具体包括:
分别将所述运动信息分类标签中的运动信息类别和所述动作信息分类标签中的动作信息类别以预设比例进行融合,并将对应的准确度相乘;
相乘后准确度最高的融合结果为所述待识别视频中行为的类别。
具体地,本发明实施例中以预设比例分别将运动信息分类标签中的运动信息类别和动作信息分类标签中的动作信息类别进行融合,并将对应的准确度相乘,选取相乘后准确度最高的融合结果作为待识别视频中行为的类别。也可以选取相乘后准确度排名前n的融合结果分别作为待识别视频中行为的类别。
作为优选方案,本发明实施例中可将预设比例设定为1:1.5。
如图2所示,在上述实施例的基础上,本发明实施例中还提供了一种实时行为识别系统,包括:实时光流产生模块21和行为类别确定模块22。其中:
实时光流产生模块21用于对待识别视频中的视频帧进行采样,并将采样结果输入至预设卷积神经网络,由所述预设卷积神经网络输出所述待识别视频产生的实时光流;
行为类别确定模块22用于基于所述实时光流,确定所述待识别视频中行为的类别;
其中,所述预设卷积神经网络由样本视频中多个样本视频帧作为输入,所述样本视频产生的实时光流作为输出学习得到。
在上述实施例的基础上,本发明实施例中还提供了一种实时行为识别系统中还包括训练模块,训练模块包括帧获取子模块、估计光流获取子模块、重构子模块以及输出子模块。其中,
帧获取子模块用于对所述样本视频中的视频帧进行采样,获取多个样本视频帧;
估计光流获取子模块用于将所述多个样本视频帧输入至所述预设卷积神经网络,对于所述多个样本视频帧中任意两个相邻的样本视频帧,获取所述任意两个相邻的样本视频帧产生的估计光流;
重构子模块用于基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧,重构所述任意两个相邻的样本视频帧中的前一样本视频帧;
输出子模块用于若判断获知重构结果、所述任意两个相邻的样本视频帧中的前一样本视频帧以及所述估计光流使得所述预设卷积神经网络的损失函数取值最小,则学习结束,并将所述多个样本视频帧中每两个相邻的样本视频帧产生的估计光流整合成所述样本视频产生的实时光流并输出。
在上述实施例的基础上,本发明实施例中提供的实时行为识别系统中重构子模块具体用于:
基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧,通过逆向映射算法,重构所述任意两个相邻的样本视频帧中的前一样本视频帧。
在上述实施例的基础上,本发明实施例中提供的实时行为识别系统中行为类别确定模块包括:分类标签确定子模块和类别确定子模块。其中,
分类标签确定子模块用于将所述实时光流输入至时空双流卷积神经网络中的时间流卷积神经网络中,由所述时间流卷积神经网络输出所述待识别视频中行为的运动信息分类标签,并将所述采样结果输入至所述时空双流卷积神经网络中的空间流卷积神经网络,由所述空间流卷积神经网络输出所述待识别视频中行为的动作信息分类标签;
类别确定子模块用于基于所述运动信息分类标签和所述动作信息分类标签,确定所述待识别视频中行为的类别。
在上述实施例的基础上,所述运动信息分类标签包括表示所述待识别视频中行为的运动信息类别以及准确度,所述动作信息分类标签包括表示所述待识别视频中行为的动作信息类别以及准确度;相应地,所述类别确定子模块具体用于:分别将所述运动信息分类标签中的运动信息类别和所述动作信息分类标签中的动作信息类别以预设比例进行融合,并将对应的准确度相乘;相乘后准确度最高的融合结果为所述待识别视频中行为的类别。
如图3所示,在上述实施例的基础上,本发明实施例中还提供了一种电子设备,包括:处理器(processor)301、存储器(memory)302、通信接口(Communications Interface)303和总线304;其中,
所述处理器301、存储器302、通信接口303通过总线304完成相互间的通信。存储器302存储有可被处理器301执行的程序指令,处理器301用于调用存储器302中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:S1,对待识别视频中的视频帧进行采样,并将采样结果输入至预设卷积神经网络,由预设卷积神经网络输出待识别视频产生的实时光流;S2,基于实时光流,确定待识别视频中行为的类别。
存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述实施例的基础上,本发明实施例中还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:S1,对待识别视频中的视频帧进行采样,并将采样结果输入至预设卷积神经网络,由预设卷积神经网络输出待识别视频产生的实时光流;S2,基于实时光流,确定待识别视频中行为的类别。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种实时行为识别方法,其特征在于,包括:
对待识别视频中的视频帧进行采样,并将采样结果输入至预设卷积神经网络,由所述预设卷积神经网络输出所述待识别视频产生的实时光流;
基于所述实时光流,确定所述待识别视频中行为的类别;
其中,所述预设卷积神经网络由样本视频中多个样本视频帧作为输入,所述样本视频产生的实时光流作为输出学习得到;
所述预设卷积神经网络包括预设数量个卷积层,以及由卷积层和去卷积层组成的卷积链;所述预设卷积神经网络中靠近输入端的两个卷积层的步长均为1;所述预设卷积神经网络中不采用池化层;
所述预设卷积神经网络具体通过如下方式学习得到:
对所述样本视频中的视频帧进行采样,获取多个样本视频帧;
将所述多个样本视频帧输入至所述预设卷积神经网络,对于所述多个样本视频帧中任意两个相邻的样本视频帧,获取所述任意两个相邻的样本视频帧产生的估计光流;
基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧,重构所述任意两个相邻的样本视频帧中的前一样本视频帧;
若判断获知重构结果、所述任意两个相邻的样本视频帧中的前一样本视频帧以及所述估计光流使得所述预设卷积神经网络的损失函数取值最小,则学习结束,并将所述多个样本视频帧中每两个相邻的样本视频帧产生的估计光流整合成所述样本视频产生的实时光流并输出;
所述预设卷积神经网络的损失函数包括:像素重构误差子函数、光滑度子函数以及结构相似性子函数,所述损失函数由所述像素重构误差子函数、所述光滑度子函数以及所述结构相似性子函数按预设系数加权得到;
其中,所述像素重构误差子函数由基于所述估计光流的Charbonnier惩罚因子确定,所述光滑度子函数由基于所述估计光流在水平方向和竖直方向上的梯度的Charbonnier惩罚因子确定,所述结构相似性子函数由所述重构结果和所述任意两个相邻的样本视频帧中的前一样本视频帧的结构相似性确定。
2.根据权利要求1所述的实时行为识别方法,其特征在于,所述基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧,重构所述任意两个相邻的样本视频帧中的前一样本视频帧,具体包括:
基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧,通过逆向映射算法,重构所述任意两个相邻的样本视频帧中的前一样本视频帧。
3.根据权利要求1-2中任一项所述的实时行为识别方法,其特征在于,所述基于所述实时光流,确定所述待识别视频中行为的类别,具体包括:
将所述实时光流输入至时空双流卷积神经网络中的时间流卷积神经网络中,由所述时间流卷积神经网络输出所述待识别视频中行为的运动信息分类标签,并将所述采样结果输入至所述时空双流卷积神经网络中的空间流卷积神经网络,由所述空间流卷积神经网络输出所述待识别视频中行为的动作信息分类标签;
基于所述运动信息分类标签和所述动作信息分类标签,确定所述待识别视频中行为的类别。
4.根据权利要求3所述的实时行为识别方法,其特征在于,所述运动信息分类标签包括表示所述待识别视频中行为的运动信息类别以及准确度,所述动作信息分类标签包括表示所述待识别视频中行为的动作信息类别以及准确度;
相应地,基于所述运动信息分类标签和所述动作信息分类标签,确定所述待识别视频中行为的类别,具体包括:
分别将所述运动信息分类标签中的运动信息类别和所述动作信息分类标签中的动作信息类别以预设比例进行融合,并将对应的准确度相乘;
相乘后准确度最高的融合结果为所述待识别视频中行为的类别。
5.一种实时行为识别系统,其特征在于,包括:
实时光流产生模块,用于对待识别视频中的视频帧进行采样,并将采样结果输入至预设卷积神经网络,由所述预设卷积神经网络输出所述待识别视频产生的实时光流;
行为类别确定模块,用于基于所述实时光流,确定所述待识别视频中行为的类别;
其中,所述预设卷积神经网络由样本视频中多个样本视频帧作为输入,所述样本视频产生的实时光流作为输出学习得到;
所述预设卷积神经网络包括预设数量个卷积层,以及由卷积层和去卷积层组成的卷积链;所述预设卷积神经网络中靠近输入端的两个卷积层的步长均为1;所述预设卷积神经网络中不采用池化层;
所述预设卷积神经网络具体通过如下方式学习得到:
对所述样本视频中的视频帧进行采样,获取多个样本视频帧;
将所述多个样本视频帧输入至所述预设卷积神经网络,对于所述多个样本视频帧中任意两个相邻的样本视频帧,获取所述任意两个相邻的样本视频帧产生的估计光流;
基于所述估计光流以及所述任意两个相邻的样本视频帧中的后一样本视频帧,重构所述任意两个相邻的样本视频帧中的前一样本视频帧;
若判断获知重构结果、所述任意两个相邻的样本视频帧中的前一样本视频帧以及所述估计光流使得所述预设卷积神经网络的损失函数取值最小,则学习结束,并将所述多个样本视频帧中每两个相邻的样本视频帧产生的估计光流整合成所述样本视频产生的实时光流并输出;
所述预设卷积神经网络的损失函数包括:像素重构误差子函数、光滑度子函数以及结构相似性子函数,所述损失函数由所述像素重构误差子函数、所述光滑度子函数以及所述结构相似性子函数按预设系数加权得到;
其中,所述像素重构误差子函数由基于所述估计光流的Charbonnier惩罚因子确定,所述光滑度子函数由基于所述估计光流在水平方向和竖直方向上的梯度的Charbonnier惩罚因子确定,所述结构相似性子函数由所述重构结果和所述任意两个相邻的样本视频帧中的前一样本视频帧的结构相似性确定。
6.一种电子设备,其特征在于,包括:
至少一个处理器、至少一个存储器、通信接口和总线;其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以执行如权利要求1至4任一项所述的实时行为识别方法。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至4中任一项所述的实时行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811058694.9A CN109325430B (zh) | 2018-09-11 | 2018-09-11 | 实时行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811058694.9A CN109325430B (zh) | 2018-09-11 | 2018-09-11 | 实时行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325430A CN109325430A (zh) | 2019-02-12 |
CN109325430B true CN109325430B (zh) | 2021-08-20 |
Family
ID=65264891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811058694.9A Active CN109325430B (zh) | 2018-09-11 | 2018-09-11 | 实时行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325430B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070052A (zh) * | 2019-04-24 | 2019-07-30 | 广东工业大学 | 一种基于人类演示视频的机器人控制方法、装置和设备 |
CN110110648B (zh) * | 2019-04-30 | 2020-03-17 | 北京航空航天大学 | 基于视觉感知与人工智能的动作提名方法 |
CN110232404A (zh) * | 2019-05-21 | 2019-09-13 | 江苏理工学院 | 一种基于机器学习的工业产品表面瑕疵识别方法及装置 |
CN110298332A (zh) * | 2019-07-05 | 2019-10-01 | 海南大学 | 行为识别的方法、系统、计算机设备和存储介质 |
CN110610486B (zh) * | 2019-08-28 | 2022-07-19 | 清华大学 | 单目图像深度估计方法及装置 |
CN110659614A (zh) * | 2019-09-25 | 2020-01-07 | Oppo广东移动通信有限公司 | 视频采样方法、装置、设备和存储介质 |
CN111079507B (zh) * | 2019-10-18 | 2023-09-01 | 深兰科技(重庆)有限公司 | 一种行为识别方法及装置、计算机装置及可读存储介质 |
CN110889375B (zh) * | 2019-11-28 | 2022-12-20 | 长沙理工大学 | 用于行为识别的隐双流协作学习网络及方法 |
CN111178319A (zh) * | 2020-01-06 | 2020-05-19 | 山西大学 | 基于压缩奖惩机制的视频行为识别方法 |
CN114821760B (zh) * | 2021-01-27 | 2023-10-27 | 四川大学 | 一种基于双流时空自动编码机的人体异常行为检测方法 |
CN112926474A (zh) * | 2021-03-08 | 2021-06-08 | 商汤集团有限公司 | 一种行为识别及特征提取的方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469314A (zh) * | 2016-08-31 | 2017-03-01 | 深圳市唯特视科技有限公司 | 一种基于时空共生双流网络的视频图像分类方法 |
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN107993255A (zh) * | 2017-11-29 | 2018-05-04 | 哈尔滨工程大学 | 一种基于卷积神经网络的稠密光流估计方法 |
CN108491763A (zh) * | 2018-03-01 | 2018-09-04 | 北京市商汤科技开发有限公司 | 三维场景识别网络的无监督训练方法、装置及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663429B (zh) * | 2012-04-11 | 2014-03-26 | 上海交通大学 | 运动目标的运动模式分类和动作识别的方法 |
US10242266B2 (en) * | 2016-03-02 | 2019-03-26 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for detecting actions in videos |
-
2018
- 2018-09-11 CN CN201811058694.9A patent/CN109325430B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599789A (zh) * | 2016-07-29 | 2017-04-26 | 北京市商汤科技开发有限公司 | 视频类别识别方法和装置、数据处理装置和电子设备 |
CN106469314A (zh) * | 2016-08-31 | 2017-03-01 | 深圳市唯特视科技有限公司 | 一种基于时空共生双流网络的视频图像分类方法 |
CN107993255A (zh) * | 2017-11-29 | 2018-05-04 | 哈尔滨工程大学 | 一种基于卷积神经网络的稠密光流估计方法 |
CN108491763A (zh) * | 2018-03-01 | 2018-09-04 | 北京市商汤科技开发有限公司 | 三维场景识别网络的无监督训练方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109325430A (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325430B (zh) | 实时行为识别方法及系统 | |
CN107808131B (zh) | 基于双通路深度卷积神经网络的动态手势识别方法 | |
CN106709461B (zh) | 基于视频的行为识别方法及装置 | |
CN111091109B (zh) | 基于人脸图像进行年龄和性别预测的方法、系统和设备 | |
US20170364742A1 (en) | Lip-reading recognition method and apparatus based on projection extreme learning machine | |
CN110991380A (zh) | 人体属性识别方法、装置、电子设备以及存储介质 | |
CN105469041A (zh) | 基于多任务正则化与逐层监督神经网络的人脸点检测系统 | |
CN111783779B (zh) | 图像处理方法、装置和计算机可读存储介质 | |
CN111242068B (zh) | 基于视频的行为识别方法、装置、电子设备和存储介质 | |
CN111052128A (zh) | 用于检测和定位视频中的对象的描述符学习方法 | |
CN114463759A (zh) | 一种基于无锚框算法的轻量化文字检测方法及装置 | |
CN115526891B (zh) | 一种缺陷数据集的生成模型的训练方法及相关装置 | |
CN112597824A (zh) | 行为识别方法、装置、电子设备和存储介质 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
JP6670698B2 (ja) | 映像認識モデル学習装置、映像認識装置、方法、及びプログラム | |
CN113378812A (zh) | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 | |
CN116266387A (zh) | 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统 | |
CN111159279B (zh) | 一种模型可视化方法、设备及存储介质 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN116229066A (zh) | 人像分割模型的训练方法及相关装置 | |
CN110348395B (zh) | 一种基于时空关系的骨架行为识别方法 | |
CN111738092A (zh) | 一种基于深度学习的恢复被遮挡人体姿态序列方法 | |
CN114581386A (zh) | 基于时空数据的缺陷检测方法及装置 | |
CN113192186B (zh) | 基于单帧图像的3d人体姿态估计模型建立方法及其应用 | |
CN112989952B (zh) | 一种基于遮罩引导的人群密度估计方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210721 Address after: 215000 unit 2-b702, creative industry park, 328 Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: SUZHOU FEISOU TECHNOLOGY Co.,Ltd. Address before: Room 1216, 12 / F, Beijing Beiyou science and technology and cultural exchange center, 10 Xitucheng Road, Haidian District, Beijing, 100876 Applicant before: BEIJING FEISOU TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |