CN110287820B - 基于lrcn网络的行为识别方法、装置、设备及介质 - Google Patents

基于lrcn网络的行为识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN110287820B
CN110287820B CN201910489710.8A CN201910489710A CN110287820B CN 110287820 B CN110287820 B CN 110287820B CN 201910489710 A CN201910489710 A CN 201910489710A CN 110287820 B CN110287820 B CN 110287820B
Authority
CN
China
Prior art keywords
convolution
neural network
frame
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910489710.8A
Other languages
English (en)
Other versions
CN110287820A (zh
Inventor
欧阳鹏
尹首一
李秀东
王博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qingwei Intelligent Technology Co ltd
Original Assignee
Beijing Qingwei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingwei Intelligent Technology Co ltd filed Critical Beijing Qingwei Intelligent Technology Co ltd
Priority to CN201910489710.8A priority Critical patent/CN110287820B/zh
Publication of CN110287820A publication Critical patent/CN110287820A/zh
Application granted granted Critical
Publication of CN110287820B publication Critical patent/CN110287820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Abstract

本发明实施例提供一种基于LRCN网络的行为识别方法、装置、设备及可读存储介质,其中,该方法包括:获取待识别的视频帧序列和对应的光流图;将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。该方案在卷积层之间引入共享,使得降低了相邻帧之间的图像信息存在的大量冗余之后再进行行为识别,从而有利于减少网络整体的计算量。

Description

基于LRCN网络的行为识别方法、装置、设备及介质
技术领域
本发明涉及行为识别技术领域,特别涉及一种基于LRCN(长时递归卷积网络)网络的行为识别方法、装置、设备及可读存储介质。
背景技术
行为识别是序列学习任务的另一个具体实例,是时序的图像序列作为输入的一种学习。行为识别的目的是从对代理人行为和环境状况的一系列观察中识别一个或者多个代理人的行为。从20世纪80年代开始,这个研究领域由于它在许多不同的应用以及与许多不同研究领域的关联,例如,医学、人机交互和社会学,已经吸引了许多计算机科学领域人员的关注。
目前,将结合卷积神经网络(CNN)与循环神经网络(LSTM)的LRCN(长时递归卷积网络)网络应用于视频序列进行行为识别。识别方法如图1所示,输入的视频序列是由一系列的采样的帧所组成的,视频可以看作图像在时间上的一个排布,一个长度为T的视频序列的每一帧是一张从一个连续的视频序列中采样得到的图片,每一张图片都输入一个单独的卷积神经网络,卷积神经网络的权重是与时刻相关固定的,每一个时间步的权重是不同的。
对于输入的图片来说,采用的是从一个连续视频序列中采样的图片以及计算的光流图,光流是由稠密光流算法计算得到的,并且被缩放和平移x与y的在[-128,128]范围的光流值转化成的一张光流图,图片的第三通道是计算光流的幅度得到的。采用裸图片数据输入和光流图片输入分别使用两个不同的网络进行训练。在训练过程中,视频被缩放到了240×320的大小,通过用227×227抠图和镜像来增强数据。从而使得训练数据集的丰富性,以及达到各种动作视频样本的平衡。
此外,LRCN网络是由视频中采样得到的20帧图像来训练的,虽然用的数据集每个视频的长度都长于20帧。采用的方法是按照6s的时长进行视频的分段截取,并重叠3s进行下一个时刻的截取,并将6s中视频的所有帧等间隔抽样取20帧。LRCN网络被训练用来预测一整个视频的一个行为类别标签,一整段视频20帧输出一个类别标签,在输出之前我们对于网络softmax层在所有帧上的输出做了一个平均来得到这一个输出的类别标签。
我们可以看出,在现有的行为识别过程中,对视频序列中的连续每一帧都使用卷积神经网络进行卷积计算,使得计算开销比例较大。
发明内容
本发明实施例提供了一种基于LRCN(长时递归卷积网络)网络的行为识别方法,以解决现有技术中基于LRCN网络进行行为识别时计算开销较大的技术问题。该方法包括:
将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。
本发明实施例还提供了一种基于LRCN网络的行为识别装置,以解决现有技术中基于LRCN网络进行行为识别时计算开销较大的技术问题。该装置包括:
数据获取模块,用于获取待识别的视频帧序列和对应的光流图;
识别模块,用于将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的基于LRCN网络的行为识别方法,以解决现有技术中基于LRCN网络进行行为识别时计算开销较大的技术问题。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的基于LRCN网络的行为识别方法的计算机程序,以解决现有技术中基于LRCN网络进行行为识别时计算开销较大的技术问题。
在本发明实施例中,在采用LRCN网络模型进行行为识别的过程中,提出了将待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,避免现有技术中将每帧输入一个卷积神经网络所导致的计算开销大的问题,进而将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,即卷积神经网络在卷积层分别对预设数量的帧和对应的光流图进行卷积层共享,从而本申请实现了在不需要改变长时递归卷积网络模型结构的情况下,通过改变视频帧序列和光流图输入卷积神经网络的方式,使得在降低相邻帧之间的图像信息存在的大量冗余之后再进行行为识别,有利于减少网络整体的计算量。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是现有技术中的一种基于LRCN网络进行行为识别的示意图;
图2是本发明实施例提供的一种基于LRCN网络的行为识别方法的流程图;
图3是本发明实施例提供的一种基于LRCN网络的行为识别原理示意图;
图4是本发明实施例提供的一种卷积优化单元的结构示意图;
图5是本发明实施例提供的一种LRCN网络模型压缩前后的单元数对比示意图;
图6是本发明实施例提供的一种计算机设备的结构示意图;
图7是本发明实施例提供的一种基于LRCN网络的行为识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
从图1所示的LRCN网络结构示意图本申请发明人发现,卷积计算在整个计算过程中占据的比例十分大,在每个视频序列的行为识别的过程中,LRCN网络的输入部分的每一张图片都要输入到单独的卷积神经网络进行计算,经过20个单独的卷积神经网络,每个时间步的卷积神经网络的权重是不同的。但实际上,相邻的帧之间的图像信息存在大量冗余,直接将每帧的原始图像输入到单独的卷积神经网络中进行运算无疑是增加了潜在的不必要的计算,因此,本申请发明人提出了上述基于LRCN网络的行为识别方法,以便减少网络整体的计算量。
在本发明实施例中,提供了一种基于LRCN网络的行为识别方法,如图2所示,该方法包括:
步骤202:获取待识别的视频帧序列和对应的光流图;
步骤204:将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。
由图2所示的流程可知,在本发明实施例中,提出了将待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,避免现有技术中将每帧输入一个卷积神经网络所导致的计算开销大的问题,进而将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,即卷积神经网络在卷积层分别对预设数量的帧和对应的光流图进行卷积层共享,从而本申请实现了在不需要改变长时递归卷积网络模型结构的情况下,通过改变视频帧序列和光流图输入卷积神经网络的方式,使得在降低相邻帧之间的图像信息存在的大量冗余之后再进行行为识别,有利于减少网络整体的计算量。
具体实施时,在获取待识别的视频帧序列和对应的光流图过程中,可以采用现有方法来获取视频帧序列和光流图,本申请对此不做具体限定。
具体实施时,为了实现可以减少网络整体的计算量,在本实施例中,如图3所示,通过以下步骤来训练所述LRCN网络模型:
获取视频帧序列、对应的光流图以及对应的行为类别标签作为样本;
将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内,将所述第一卷积神经网络和所述第二卷积神经网络的输出作为长时递归卷积网络模型中一个长短时记忆网络的输入,将行为类别标签作为长时递归卷积网络模型的输出进行训练,得到所述长时递归卷积网络模型。
具体的,在训练长时递归卷积网络模型的过程中,只是改变了视频帧序列和光流图输入卷积神经网络的方式,不改变长时递归卷积网络模型的结构,即长时递归卷积网络模型采用现有的网络结构即可。
具体实施时,为了实现卷积神经网络在卷积层分别对预设数量的帧和对应的光流图进行卷积层共享,在本实施例中,将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内,包括:
针对每相邻的预设数量的帧,第一卷积神经网络具备N层卷积,N为正整数,将第一帧输入第一卷积神经网络内,第一卷积神经网络的各层卷积依次对第一帧进行卷积计算;将第二帧与第一卷积神经网络内第一帧在第N-1层卷积的输出结果输入到第一卷积神经网络的第N层卷积;将第三帧与第一卷积神经网络内第一帧在第N-2层卷积的输出结果输入到第一卷积神经网络的N-1卷积;将第四帧与第一卷积神经网络内第一帧在第N-3层卷积的输出结果输入到第一卷积神经网络的第N-2层卷积;将第五帧与第一卷积神经网络内第一帧在第N-4层卷积的输出结果输入到第一卷积神经网络的第N-3层卷积,循环以上步骤直至将最后一帧输入第一卷积神经网络;第一卷积神经网络的各层卷积分别输出一个帧特征向量;即实现了对预设数量的帧进行卷积层共享;
针对预设数量的帧对应的光流图,第二卷积神经网络具备N层卷积,将第一帧对应的光流图输入第二卷积神经网络内,第二卷积神经网络的各层卷积依次对第一帧对应的光流图进行卷积计算;将第二帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-1层卷积的输出结果输入到第二卷积神经网络的第N层卷积;将第三帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-2层卷积的输出结果输入到第二卷积神经网络的N-1卷积;将第四帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-3层卷积的输出结果输入到第二卷积神经网络的第N-2层卷积;将第五帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-4层卷积的输出结果输入到第二卷积神经网络的第N-3层卷积,循环上述步骤直至将最后一帧对应的光流图输入第二卷积神经网络;循环以上步骤直至将最后一帧对应的光流图输入第二卷积神经网络,第二卷积神经网络的各层卷积分别输出一个光流图特征向量,即实现了对预设数量的帧对应的光流图进行卷积层共享。
具体的,上述第一卷积神经网络即长时递归卷积网络模型输入视频帧序列的卷积神经网络,上述第二卷积神经网络即长时递归卷积网络模型输入光流图的卷积神经网络,这里的“第一”“第二”不对卷积神经网络本身做具体限定,只用于区分卷积神经网络输入的数据不同。
具体实施时,上述卷积神经网络可以采用现有技术中的卷积神经网络结构,例如,如图3所示,可以采用传统的VGGNet-16中的五层卷积结构。
具体实施时,上述预设数量可以等于所述时递归卷积网络模型中卷积神经网络的卷积层数。
例如,卷积神经网络具备五层卷积结构,则上述预设数量为5,即将视频帧序列中每相邻的5帧输入长时递归卷积网络模型中的一个第一卷积神经网络,将5帧对应的光流图输入长时递归卷积网络模型中的一个第二卷积神经网络内,以视频帧序列的输入为例,如图4所示,则将第一帧图像输入第一卷积神经网络,依次完成五层卷积过程;将第二帧图像(即img2)连接第一帧图像在第四层卷积(即Conv4)的输出结果,再输入到第五层卷积(即Conv5)中;将第三帧图像(即img3)连接第一帧图像在第三层卷积(即Conv3)的输出结果,再输入到第四层卷积(即Conv4)中;第四帧图像(即img4)连接第一帧图像在第二层卷积(即Conv2)的输出结果,再输入到第三层卷积(即Conv3)中;将第五帧图像(即img5)连接第一帧图像在第一层卷积(即Conv1)的输出结果,再输入到第二层卷积(即Conv2)中。
具体的,在将视频帧序列和光流图输入卷积神经网络时,可以根据待输入卷积层的尺寸来缩放待输入的帧和光流图的尺寸。
具体实施时,按照上述输入方式将视频帧序列和对应的光流图输入长时递归卷积网络网络模型中的卷积神经网络之后,每个卷积神经网络的卷积层分别输出一个特征向量,即第一卷积神经网络的各层卷积分别输出一个帧特征向量,第二卷积神经网络的各层卷积分别输出一个光流图特征向量,如果视频帧序列具备20帧,则会得到20个帧特征向量和20个光流图特征向量,由于将第一卷积神经网络和第二卷积神经网络的输出作为长时递归卷积网络模型中一个长短时记忆网络的输入,即输入帧的第一卷积神经网络和输入帧对应的光流图的第二卷积神经网络的输出作为长时递归卷积网络模型中一个长短时记忆网络的输入,例如,将第一卷积神经网络输出的5个帧特征向量和第二卷积神经网络输出的5个光流图特征向量输入一个长短时记忆网络,长短时记忆网络输出一个预测行为模式,针对视频帧序列具备20帧,则总共需要4个第一卷积神经网络、4个第二卷积神经网络以及4个长短时记忆网络,得到4个预测行为模式,将4个预测行为模式求均值即可得到视频帧序列的行为类别标签。
具体的,以下结合示例描述可以通过以下步骤来训练LRCN网络模型:
(1)从训练视频样本集中选取视频并按一定的帧间隔提取视频帧图像,得到视频的帧序列(每一个视频为20张图片),并将提取的帧序列数目多一个的图片运用opencv提供的稠密光流计算方法进行稠密光流计算得到对应的光流图(得到20张光流图);
(2)将得到的视频帧序列和得到的对应的光流图样本分别输入长时递归卷积网络模型,即每相邻的5帧输入一个第一卷积神经网络,5帧对应的5张光流图输入一个第二卷积神经网络,得到20个帧特征向量和20个光流图特征向量。
(3)将每5帧的帧特征向量和对应的5个光流图特征向量输入一个LSTM网络,需要4个LSTM网络,共计20个时间步。
(4)每个LSTM(长短时记忆网络)网络的记忆功能挖掘20个时间步的长程相关性,给出一个预测动作模式。
(5)将预测的动作模式与给定的该视频序列的行为标签做比对,计算损失函数,从而进行反向传播来更新网络的参数。
(6)迭代进行步骤(1)至(5),直到迭代次数达到最大值,训练结束。
具体实施时,训练完LRCN网络模型之后,还可以通过以下步骤测试LRCN网络模型的识别性能:
(1)选取测试集中的视频,通过上述训练过程中的步骤(1)至(4)给出预测动作模式。
(2)用正确率和召回率指标评价该LRCN网络模型的行为识别的性能。
具体实施时,为了进一步降低计算量和功耗,在本实施例中,对LRCN网络模型进行压缩,将待识别的视频帧序列和对应的光流图输入给压缩后的LRCN网络模型进行行为识别。具体的,LRCN网络模型压缩前后的单元数的对比如图5所示(左侧部分为压缩前数据,右侧部分为压缩后数据)。
具体的,在保证精度损失在一定范围内的情况下,将LRCN网络模型从大模型压缩到小模型,降低了模型尺寸。本申请对压缩方法不做具体限定,可以采用现有技术中常用的压缩方法,例如,结构化剪支方法、非结构化剪支方法、低比特量化方法等。
在本实施例中还提供了一种计算机设备,如图6所示,包括存储器602、处理器604及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意的基于LRCN网络的行为识别方法。
具体的,该计算机设备可以是计算机终端、服务器或者类似的运算装置。
在本实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任意的基于LRCN网络的行为识别方法的计算机程序。
具体的,计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
基于同一发明构思,本发明实施例中还提供了一种基于LRCN网络的行为识别装置,如下面的实施例所述。由于基于LRCN网络的行为识别装置解决问题的原理与基于LRCN网络的行为识别方法相似,因此基于LRCN网络的行为识别装置的实施可以参见基于LRCN网络的行为识别方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是本发明实施例的基于LRCN网络的行为识别装置的一种结构框图,如图7所示,该装置包括:
数据获取模块702,用于获取待识别的视频帧序列和对应的光流图;
识别模块704,用于将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享。
在一个实施例中,还包括:模型训练模块,所述模型训练模块包括:
样本获取单元,用于获取视频帧序列、对应的光流图以及对应的行为类别标签作为样本;
模型训练单元,用于将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内,将所述第一卷积神经网络和所述第二卷积神经网络的输出作为长时递归卷积网络模型中一个长短时记忆网络的输入,将行为类别标签作为长时递归卷积网络模型的输出进行训练,得到所述长时递归卷积网络模型。
在一个实施例中,所述模型训练单元,具体用于针对每相邻的预设数量的帧,第一卷积神经网络具备N层卷积,N为正整数,将第一帧输入第一卷积神经网络内,第一卷积神经网络的各层卷积依次对第一帧进行卷积计算;将第二帧与第一卷积神经网络内第一帧在第N-1层卷积的输出结果输入到第一卷积神经网络的第N层卷积;将第三帧与第一卷积神经网络内第一帧在第N-2层卷积的输出结果输入到第一卷积神经网络的N-1卷积;将第四帧与第一卷积神经网络内第一帧在第N-3层卷积的输出结果输入到第一卷积神经网络的第N-2层卷积;将第五帧与第一卷积神经网络内第一帧在第N-4层卷积的输出结果输入到第一卷积神经网络的第N-3层卷积,循环以上步骤直至将最后一帧输入第一卷积神经网络;第一卷积神经网络的各层卷积分别输出一个帧特征向量;
针对预设数量的帧对应的光流图,第二卷积神经网络具备N层卷积,将第一帧对应的光流图输入第二卷积神经网络内,第二卷积神经网络的各层卷积依次对第一帧对应的光流图进行卷积计算;将第二帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-1层卷积的输出结果输入到第二卷积神经网络的第N层卷积;将第三帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-2层卷积的输出结果输入到第二卷积神经网络的N-1卷积;将第四帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-3层卷积的输出结果输入到第二卷积神经网络的第N-2层卷积;将第五帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-4层卷积的输出结果输入到第二卷积神经网络的第N-3层卷积,循环上述步骤直至将最后一帧对应的光流图输入第二卷积神经网络;循环以上步骤直至将最后一帧对应的光流图输入第二卷积神经网络,第二卷积神经网络的各层卷积分别输出一个光流图特征向量。
在一个实施例中,所述预设数量等于所述时递归卷积网络模型中卷积神经网络的卷积层数。
在一个实施例中,所述识别模块,还用于将待识别的视频帧序列和对应的光流图输入给压缩后的所述LRCN网络模型。
在另外一个实施例中,还提供了一种软件,该软件用于执行上述实施例及优选实施方式中描述的技术方案。
在另外一个实施例中,还提供了一种存储介质,该存储介质中存储有上述软件,该存储介质包括但不限于:光盘、软盘、硬盘、可擦写存储器等。
本发明实施例实现了如下技术效果:在采用LRCN网络模型进行行为识别的过程中,提出了提出了将待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,避免现有技术中将每帧输入一个卷积神经网络所导致的计算开销大的问题,进而将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,即卷积神经网络在卷积层分别对预设数量的帧和对应的光流图进行卷积层共享,从而本申请实现了在不需要改变长时递归卷积网络模型结构的情况下,通过改变视频帧序列和光流图输入卷积神经网络的方式,使得在降低相邻帧之间的图像信息存在的大量冗余之后再进行行为识别,有利于减少网络整体的计算量。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于长时递归卷积网络的行为识别方法,其特征在于,包括:
获取待识别的视频帧序列和对应的光流图;
将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享;
将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内,包括:
针对每相邻的预设数量的帧,第一卷积神经网络具备N层卷积,N为正整数,将第一帧输入第一卷积神经网络内,第一卷积神经网络的各层卷积依次对第一帧进行卷积计算;将第二帧与第一卷积神经网络内第一帧在第N-1层卷积的输出结果输入到第一卷积神经网络的第N层卷积;将第三帧与第一卷积神经网络内第一帧在第N-2层卷积的输出结果输入到第一卷积神经网络的N-1卷积;将第四帧与第一卷积神经网络内第一帧在第N-3层卷积的输出结果输入到第一卷积神经网络的第N-2层卷积;将第五帧与第一卷积神经网络内第一帧在第N-4层卷积的输出结果输入到第一卷积神经网络的第N-3层卷积,循环以上步骤直至将最后一帧输入第一卷积神经网络;第一卷积神经网络的各层卷积分别输出一个帧特征向量;
针对预设数量的帧对应的光流图,第二卷积神经网络具备N层卷积,将第一帧对应的光流图输入第二卷积神经网络内,第二卷积神经网络的各层卷积依次对第一帧对应的光流图进行卷积计算;将第二帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-1层卷积的输出结果输入到第二卷积神经网络的第N层卷积;将第三帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-2层卷积的输出结果输入到第二卷积神经网络的N-1卷积;将第四帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-3层卷积的输出结果输入到第二卷积神经网络的第N-2层卷积;将第五帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-4层卷积的输出结果输入到第二卷积神经网络的第N-3层卷积,循环上述步骤直至将最后一帧对应的光流图输入第二卷积神经网络;循环以上步骤直至将最后一帧对应的光流图输入第二卷积神经网络,第二卷积神经网络的各层卷积分别输出一个光流图特征向量。
2.如权利要求1所述的基于长时递归卷积网络的行为识别方法,其特征在于,还包括:
通过以下步骤训练所述长时递归卷积网络模型:
获取视频帧序列、对应的光流图以及对应的行为类别标签作为样本;
将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内,将所述第一卷积神经网络和所述第二卷积神经网络的输出作为长时递归卷积网络模型中一个长短时记忆网络的输入,将行为类别标签作为长时递归卷积网络模型的输出进行训练,得到所述长时递归卷积网络模型。
3.如权利要求1至2中任一项所述的基于长时递归卷积网络的行为识别方法,其特征在于,
所述预设数量等于所述时递归卷积网络模型中卷积神经网络的卷积层数。
4.一种基于长时递归卷积网络的行为识别装置,其特征在于,包括:
数据获取模块,用于获取待识别的视频帧序列和对应的光流图;
识别模块,用于将待识别的视频帧序列和对应的光流图输入长时递归卷积网络模型,得到所述待识别的视频帧序列的行为类别标签,其中,将所述待识别的视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中的第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中的第二卷积神经网络内,卷积神经网络分别对预设数量的帧和光流图采用数据融合的方式进行卷积层共享;
所述识别模块,具体用于针对每相邻的预设数量的帧,第一卷积神经网络具备N层卷积,N为正整数,将第一帧输入第一卷积神经网络内,第一卷积神经网络的各层卷积依次对第一帧进行卷积计算;将第二帧与第一卷积神经网络内第一帧在第N-1层卷积的输出结果输入到第一卷积神经网络的第N层卷积;将第三帧与第一卷积神经网络内第一帧在第N-2层卷积的输出结果输入到第一卷积神经网络的N-1卷积;将第四帧与第一卷积神经网络内第一帧在第N-3层卷积的输出结果输入到第一卷积神经网络的第N-2层卷积;将第五帧与第一卷积神经网络内第一帧在第N-4层卷积的输出结果输入到第一卷积神经网络的第N-3层卷积,循环以上步骤直至将最后一帧输入第一卷积神经网络;第一卷积神经网络的各层卷积分别输出一个帧特征向量;
针对预设数量的帧对应的光流图,第二卷积神经网络具备N层卷积,将第一帧对应的光流图输入第二卷积神经网络内,第二卷积神经网络的各层卷积依次对第一帧对应的光流图进行卷积计算;将第二帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-1层卷积的输出结果输入到第二卷积神经网络的第N层卷积;将第三帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-2层卷积的输出结果输入到第二卷积神经网络的N-1卷积;将第四帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-3层卷积的输出结果输入到第二卷积神经网络的第N-2层卷积;将第五帧对应的光流图与第二卷积神经网络内第一帧对应的光流图在第N-4层卷积的输出结果输入到第二卷积神经网络的第N-3层卷积,循环上述步骤直至将最后一帧对应的光流图输入第二卷积神经网络;循环以上步骤直至将最后一帧对应的光流图输入第二卷积神经网络,第二卷积神经网络的各层卷积分别输出一个光流图特征向量。
5.如权利要求4所述的基于长时递归卷积网络的行为识别装置,其特征在于,还包括:模型训练模块,所述模型训练模块包括:
样本获取单元,用于获取视频帧序列、对应的光流图以及对应的行为类别标签作为样本;
模型训练单元,用于将视频帧序列中每相邻的预设数量的帧输入长时递归卷积网络模型中第一卷积神经网络内,将预设数量的帧对应的光流图输入长时递归卷积网络模型中第二卷积神经网络内,将所述第一卷积神经网络和所述第二卷积神经网络的输出作为长时递归卷积网络模型中一个长短时记忆网络的输入,将行为类别标签作为长时递归卷积网络模型的输出进行训练,得到所述长时递归卷积网络模型。
6.如权利要求4至5中任一项所述的基于长时递归卷积网络的行为识别装置,其特征在于,
所述预设数量等于所述时递归卷积网络模型中卷积神经网络的卷积层数。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3 中任一项所述的基于长时递归卷积网络的行为识别方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至3中任一项所述的基于长时递归卷积网络的行为识别方法的计算机程序。
CN201910489710.8A 2019-06-06 2019-06-06 基于lrcn网络的行为识别方法、装置、设备及介质 Active CN110287820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910489710.8A CN110287820B (zh) 2019-06-06 2019-06-06 基于lrcn网络的行为识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910489710.8A CN110287820B (zh) 2019-06-06 2019-06-06 基于lrcn网络的行为识别方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN110287820A CN110287820A (zh) 2019-09-27
CN110287820B true CN110287820B (zh) 2021-07-23

Family

ID=68003460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910489710.8A Active CN110287820B (zh) 2019-06-06 2019-06-06 基于lrcn网络的行为识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110287820B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079507B (zh) * 2019-10-18 2023-09-01 深兰科技(重庆)有限公司 一种行为识别方法及装置、计算机装置及可读存储介质
CN111144663B (zh) * 2019-12-31 2022-06-07 上海电力大学 计及出力波动过程的海上风电场超短期风功率预测方法
CN111783540B (zh) * 2020-06-01 2022-08-05 河海大学 一种视频中人体行为识别方法和系统
CN112115788A (zh) * 2020-08-14 2020-12-22 咪咕文化科技有限公司 视频动作识别方法、装置、电子设备及存储介质
CN112016500B (zh) * 2020-09-04 2023-08-22 山东大学 基于多尺度时间信息融合的群体异常行为识别方法及系统
CN112257526B (zh) * 2020-10-10 2023-06-20 中国科学院深圳先进技术研究院 一种基于特征交互学习的动作识别方法及终端设备
CN112329925B (zh) * 2020-11-26 2023-12-15 北京奇艺世纪科技有限公司 模型生成方法、特征提取方法、装置及电子设备
CN113762017B (zh) * 2021-01-13 2024-04-16 北京京东振世信息技术有限公司 一种动作识别方法、装置、设备及存储介质
CN114640860B (zh) * 2022-05-07 2022-07-15 深圳市温暖生活科技有限公司 一种网络数据处理与传输方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN107463949A (zh) * 2017-07-14 2017-12-12 北京协同创新研究院 一种视频动作分类的处理方法及装置
CN107808150A (zh) * 2017-11-20 2018-03-16 珠海习悦信息技术有限公司 人体视频动作识别方法、装置、存储介质及处理器
WO2018191555A1 (en) * 2017-04-14 2018-10-18 Drishti Technologies. Inc Deep learning system for real time analysis of manufacturing operations
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109740670A (zh) * 2019-01-02 2019-05-10 京东方科技集团股份有限公司 视频分类的方法及装置
CN109753985A (zh) * 2017-11-07 2019-05-14 北京京东尚科信息技术有限公司 视频分类方法及装置
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN109800793A (zh) * 2018-12-28 2019-05-24 广州海昇教育科技有限责任公司 一种基于深度学习的目标检测方法和系统
CN111783540A (zh) * 2020-06-01 2020-10-16 河海大学 一种视频中人体行为识别方法和系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
WO2018191555A1 (en) * 2017-04-14 2018-10-18 Drishti Technologies. Inc Deep learning system for real time analysis of manufacturing operations
CN107463949A (zh) * 2017-07-14 2017-12-12 北京协同创新研究院 一种视频动作分类的处理方法及装置
CN109753985A (zh) * 2017-11-07 2019-05-14 北京京东尚科信息技术有限公司 视频分类方法及装置
CN107808150A (zh) * 2017-11-20 2018-03-16 珠海习悦信息技术有限公司 人体视频动作识别方法、装置、存储介质及处理器
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109800793A (zh) * 2018-12-28 2019-05-24 广州海昇教育科技有限责任公司 一种基于深度学习的目标检测方法和系统
CN109740670A (zh) * 2019-01-02 2019-05-10 京东方科技集团股份有限公司 视频分类的方法及装置
CN109784280A (zh) * 2019-01-18 2019-05-21 江南大学 基于Bi-LSTM-Attention模型的人体行为识别方法
CN111783540A (zh) * 2020-06-01 2020-10-16 河海大学 一种视频中人体行为识别方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Human Action Recognition Based on Selected Spatio-Temporal Features via Bidirectional LSTM;Wenhui Li等;《IEEE Access》;20180813;第6卷;第44211-44220页 *
生成式LSTM网络,Encoder-Decoder LSTM网络,CNN LSTM(LRCN)网络建模介绍——长短期记忆(LSTM)系列_LSTM的建模方法(1);佚名兄;《https://blog.csdn.net/yangwohenmai1/article/details/84873763》;20181207;第1页 *
结合有序光流图和双流卷积网络的行为识别;李庆辉等;《光学学报》;20180630;第38卷(第6期);第1-7页 *
视频行为识别检测综述 IDT TSN CNN-LSTM C3D CDC R-C3D;EwenWanW;《https://blog.csdn.net/xiaoxiaowenqiang/article/details/80752849》;20180620;第1页 *

Also Published As

Publication number Publication date
CN110287820A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287820B (zh) 基于lrcn网络的行为识别方法、装置、设备及介质
CN110991311B (zh) 一种基于密集连接深度网络的目标检测方法
CN112507898B (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN111210446B (zh) 一种视频目标分割方法、装置和设备
Wang et al. Learning efficient binarized object detectors with information compression
US10334202B1 (en) Ambient audio generation based on visual information
CN111079507B (zh) 一种行为识别方法及装置、计算机装置及可读存储介质
CN111008631B (zh) 图像的关联方法及装置、存储介质和电子装置
CN116089883B (zh) 用于提高已有类别增量学习新旧类别区分度的训练方法
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN114372566A (zh) 图数据的增广、图神经网络训练方法、装置以及设备
CN112200310B (zh) 智能处理器、数据处理方法及存储介质
CN114049483A (zh) 基于事件相机的目标检测网络自监督训练方法及装置
CN113158904A (zh) 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及系统
CN117095460A (zh) 基于长短时关系预测编码的自监督群体行为识别方法及其识别系统
CN116502700A (zh) 皮肤检测模型训练方法、皮肤检测方法、装置及电子设备
CN113657596B (zh) 训练模型和图像识别的方法和装置
CN112200055B (zh) 联合对抗生成网络的行人属性识别方法、系统及装置
CN115169387A (zh) 脉冲信号的前景检测方法、装置、电子设备及存储介质
CN110879952B (zh) 一种视频帧序列的处理方法及装置
CN113596576A (zh) 一种视频超分辨率的方法及装置
CN113807354A (zh) 图像语义分割方法、装置、设备和存储介质
CN111767204A (zh) 溢出风险检测方法、装置及设备
CN111767980B (zh) 模型优化方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221214

Address after: Room 3068, Floor 3, Building 2, No. 602, Tongpu Road, Putuo District, Shanghai, 200062

Patentee after: Shanghai Qingwei Intelligent Technology Co.,Ltd.

Address before: 100056 2212, 22 / F, No.9, North Fourth Ring Road West, Haidian District, Beijing

Patentee before: Beijing Qingwei Intelligent Technology Co.,Ltd.

TR01 Transfer of patent right
CB03 Change of inventor or designer information

Inventor after: OuYang Peng

Inventor after: Li Xiudong

Inventor after: Wang Bo

Inventor before: OuYang Peng

Inventor before: Yin Shouyi

Inventor before: Li Xiudong

Inventor before: Wang Bo

CB03 Change of inventor or designer information