CN113378722B - 基于3d卷积和多级语义信息融合的行为识别方法及系统 - Google Patents
基于3d卷积和多级语义信息融合的行为识别方法及系统 Download PDFInfo
- Publication number
- CN113378722B CN113378722B CN202110657341.6A CN202110657341A CN113378722B CN 113378722 B CN113378722 B CN 113378722B CN 202110657341 A CN202110657341 A CN 202110657341A CN 113378722 B CN113378722 B CN 113378722B
- Authority
- CN
- China
- Prior art keywords
- semantic information
- information fusion
- feature
- vector
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于3D卷积和多级语义信息融合的行为识别方法及系统,通过3D卷积网络提取视频帧序列的时空特征;为了防止在3D卷积过程中丢失某些对识别出行为类别极为关键的时间语义信息,使用多级语义信息融合模块来聚集3D卷积网络中各个中间层特征所包含的时间语义信息;将提取出的时间语义信息和3D卷积网络所提取的特征进行融合并分类,得到行为类别。本发明利用LSTM网络设计了多级语义信息融合模块,该模块从3D卷积网络所产生的中间特征中提取时间语义信息,并将其和3D卷积网络提取的最终特征进行融合,使网络的分类器接收更多的信息,提升最终的识别准确率。
Description
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于3D卷积和多级语义信息融合的行为识别方法及系统。
背景技术
行为识别是视频分析的内容之一,其目的是从一个包含完整动作的视频里分析人的行为,识别出视频中人所做出的动作类别。虽然行为识别的复杂性很高,但是视频数据包含的信息丰富,如果能自动解析出其中的信息,能够为许多下游任务提供有用的知识。此外,在这个存在海量视频数据的时代,行为识别技术能够代替人类对海量的视频进行分析,为人类节约大量的时间和人力成本。早在很多年前,行为识别就已经进入了人们的研究范围,在刚开始进行研究时,由于计算机算力的限制,研究者们通过手工设计特征来描述视频中的行为,后来随着深度学习的兴起以及CPU、GPU等计算机硬件设备的高速发展,基于深度学习的行为识别方法开始出现。经过近几年的研究,大量的基于深度学习的行为识别算法出现在学术界,其中研究最为广泛的是基于3D卷积网络的行为识别方法。
基于深度学习的行为识别方法都是先提取视频片段的时空特征,然后对时空特征进行分类以达到识别的效果。受益于图像处理领域的研究成果,并且视频也是由图像构成,所以视频中的空间信息很容易提取,如何有效的提取出时间信息也就成为了行为识别任务中的关键问题。早起出现的TwoStream方法将行为识别中的特征提取网络分成了两个流,一个是空间流用于提取空间信息,另一个时间流用于提取时间信息,最后将两种信息融合后进行分类得到结果,这一类方法使用光流图来表示时间信息,这样做虽然能提取到充分的时间信息,但是光流图的计算代价非常大,并且空间信息和时间信息是分开提取的,丢失了它们之间的关联性。后来出现了一些基于3D卷积的方法,这些方法直接将2D卷积扩展到3D卷积,添加了时间维度,就能够直接提取包含时间和空间两方面的特征,这种方法同时对时间信息和空间信息进行编码,能够高效的提取时空特征。基于3D卷积的方法在特征提取过程中,网络会使用池化或者其他方式对特征进行尺寸缩减,这也是传统的卷积网络中惯用的方法,但是对于行为识别任务,网络的输入数据尺寸在时间维度上原本就很小,如果在特征提取过程中使用池化等方式会使某些对识别出行为类别有利的帧间时序关系丢失,即时间上的行为语义信息的丢失,最终会影响到识别的准确率,但是不在时间维度上进行缩减又会增加计算成本,这成了一个两难的问题。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于3D卷积和多级语义信息融合的行为识别方法及系统,通过在3D卷积网络的基础上加入一个多级语义信息融合模块,对3D卷积网络中各个尺寸的特征提取时间上的行为语义信息并保留,最后融合所有保留下来的信息用于分类,这样可以减少因为特征的时间尺寸逐步缩减对最终分类结果造成的影响。
本发明采用以下技术方案:
基于3D卷积和多级语义信息融合的行为识别方法,包括以下步骤:
S1、构建基于3D卷积和多级语义信息融合的行为识别网络模型,基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C;
S2、对步骤S1构建的基于3D卷积和多级语义信息融合的行为识别网络模型进行训练;
S3、将测试视频对应的视频帧序列送入步骤S2训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中,得到测试视频的行为类别,根据测试视频的行为类别进行行为识别。
具体的,步骤S1具体为:
S101、构建特征提取器G,特征提取器G为3D-ResNet34中的特征提取器;
S102、构建多级语义信息融合模块M,多级语义信息融合模块M包含4个全局3D池化层和4个LSTM网络;
S103、构建分类器,分类器包括依次相连接的输入层、全局3D池化层、全连接层和softmax层;根据特征提取器G、多级语义信息融合模块M和分类器构建基于3D卷积和多级语义信息融合的行为识别网络模型。
进一步的,步骤S102中,每个LSTM网络都只有一层,每个LSTM的输入隐层维度分别是64、64、128和256。
具体的,步骤S2中,训练过程具体为:
S201、设置训练批次大小B和迭代次数epoch;
S202、将一个批次的视频帧序列输入特征提取器G提取特征,生成不同尺度大小的特征F1,F2,F3,F4,F5;
S203、将步骤S201生成的特征F1,F2,F3,F4输入多级语义信息融合模块M,提取特征F1,F2,F3,F4所包含的时间语义信息,得到特征向量Fvector;
S204、将步骤S201生成的特征F5和步骤S203生成的Fvector送入分类器C,特征F5经过全局3D池化后与特征向量Fvector进行拼接,得到最终的特征向量,最终的特征向量依次经过全连接层和softmax层得到预测结果p;
S205、将步骤S204得到的预测结果p和真实标签y计算损失值LCCE,然后使用批随机梯度下降算法更新G、M和C的网络参数;
S206、重复步骤S202至S205,直至到达迭代次数epoch。
进一步的,步骤S203中,提取时间语义信息具体为:
S2031、将步骤S202中生成的4个特征F1,F2,F3,F4分别进行全局池化,在空间维度上进行池化,将特征的空间尺寸变为1×1;
S2032、将池化后的4个特征分别送入多级语义信息融合模块中对应LSTM网络,提取每个特征所包含的时间语义信息,得到4个一维向量;
S2033、将步骤S2032得到的4个一维向量拼接,得到多级语义信息融合模块M的输出Fvector。
具体的,步骤S3中,测试过程具体为:
S301、将测试视频转换为视频帧,从所有的视频帧中,随机选取一帧为起始帧,按顺序截取16帧作为输入视频帧序列;
S302、将步骤S301得到的视频帧序列送入特征提取网络G,产生4中不同尺寸大小的特征F1,F2,F3,F4,F5;
S303、将步骤S302生成的特征F1,F2,F3,F4送入多级语义信息融合模块M,特征F1,F2,F3,F4分别经过多级语义信息融合模块M中对应的3D全局池化层和LSTM网络,提取特征F1,F2,F3,F4包含的时间语义信息,得到一个特征向量Fvector;
S304、将步骤S302生成的特征F5和步骤S303得到的特征向量Fvector送入分类器C,特征F5经过全局3D池化后与特征向量Fvector进行拼接得到最终的特征向量,最终的特征向量经过全连接层和softmax层得到预测概率向量p,选取最大的预测概率向量p所对应的类别作为测试视频的类别。
本发明的另一技术方案是,一种基于3D卷积和多级语义信息融合的行为识别系统,包括:
构建模块,构建基于3D卷积和多级语义信息融合的行为识别网络模型,基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C;
训练模块,对构建模块构建的基于3D卷积和多级语义信息融合的行为识别网络模型进行训练;
识别模块,将测试视频对应的视频帧序列送入训练模块训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中,得到测试视频的行为类别,根据测试视频的行为类别进行行为识别。
与现有技术相比,本发明至少具有以下有益效果:
本发明基于3D卷积和多级语义信息融合的行为识别方法,能够有效解决3D卷积网络中,因特征图的时间尺寸逐步缩减而造成时间上的语义信息丢失,并使最终的识别结果降低的问题。该方法在3D卷积网络的基础上,增加了一个多级语义信息融合模块,用于提取3D卷积网络中多种尺度特征图所包含的时间语义信息,并将这些信息用于最后的分类,使网络有更加丰富的信息来进行分类,达到提升分类准确率的效果。
进一步的,通过在原始3D卷积网络的基础上增加额外的多级语义信息融合模块这种方式来提取包含时间语义信息的特征,能够在不改变原始3D卷积网络结构的情况下,充分提取输入视频帧序列中的时间语义信息,并且整个网络的训练方式仍然是端到端的,不需要增加额外的步骤。
进一步的,不同大小的LSTM单元用于接收不同尺寸的中间特征,进而能够充分利用3D卷积网络所产生的中间特征,提取出各种时间尺度的中间特征所包含的时间语义信息并融合。
进一步的,将多级语义信息融合模块和3D卷积网络进行联合训练,其过程是端到端的,方便快捷。
进一步的,利用基于LSTM设计的多级语义信息融合模块能够充分提取中间特征所包含的时间信息,并生成一个特征向量用于最终的识别,以提升识别的准确率。
进一步的,在测试过程中,G和M分别提取出输入视频帧序列出时空特征以及包含时间语义信息的特征,通过这两种特征来判断输入视频帧序列的行为类别,使分类器接收更多的信息,能够提升最终的识别准确率。
综上所述,本发明采用LSTM网络设计多级语义信息融合模块,利用LSTM的长期记忆和短期记忆特性,能够有选择性的保留3D卷积网络的中间特征的时间语义信息并用于最终的识别,提示识别效果。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明基于3D卷积和多级语义信息融合的行为识别方法的网络框图;
图2为特征提取网络G的网络架构图;
图3为多级语义信息融合模块M的网络架构图;
图4为分类器的网络架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明提供了一种基于3D卷积和多级语义信息融合的行为识别方法,在使用3D卷积网络对视频帧序列提取时空特征的基础上,使用多级语义信息融合模块额外提取时间语义信息,并将3D卷积网络提取出的时空特征和多级语义信息融合模块额外提取的时间语义信息输入分类器进行分类。
请参阅图1,本发明一种基于3D卷积和多级语义信息融合的行为识别方法,包括以下步骤:
S1、构建基于3D卷积和多级语义信息融合的行为识别网络模型,其中包括特征提取器G、多级语义信息融合模块M和分类器C;
请参阅图2、图3以及图4,构建基于3D卷积和多级语义信息融合的行为识别网络模型的具体过程为:
S101、构建特征提取器G,G为3D-ResNet34中的特征提取器;
S102、构建多级语义信息融合模块M,M包含4个全局3D池化层和4个LSTM网络;
其中,每个LSTM网络都只有一层,每个LSTM的输入隐层维度分别是64、64、128和256。
S103、构建分类器,分类器包括依次相连接的输入层、全局3D池化层、全连接层和softmax层。
S2、训练基于3D卷积和多级语义信息融合的行为识别网络模型;
基于3D卷积和多级语义信息融合的行为识别网络模型的具体训练过程为:
S201、设置训练批次大小B和迭代次数epoch;
S202、将一个批次的视频帧序列输入特征提取器G提取特征,生成不同尺度大小的5个特征F1,F2,F3,F4,F5;
S203、将S201中生成的四个特征F1,F2,F3,F4输入多级语义信息融合模块M,提取这些特征所包含的时间语义信息,得到特征向量Fvector;
提取时间语义信息的具体过程为:
S2031、将步骤S202中生成的4个特征F1,F2,F3,F4分别进行全局池化,仅在空间维度上进行池化,将特征F1,F2,F3,F4的空间尺寸变为1×1;
S2032、将池化后的4个特征分别送入多级语义信息融合模块中对应LSTM网络,提取每个特征所包含的时间语义信息,得到4个一维向量;
S2033、将步骤S2032得到的4个一维向量拼接,得到多级语义信息融合模块M的输出Fvector。
S204、将特征提取器G所生成的F5和M所生成的Fvector送入分类器C,F5经过全局3D池化后与Fvector进行拼接,得到最终的特征向量,该特征向量依次经过全连接层和softmax层得到预测结果p;
S205、将得到的结果p和真实标签y按以下公式计算损失值,然后使用批随机梯度下降算法更新G、M和C的网络参数;
其中,C表示类别个数,yi表示第i个样本的真实类别,pic表示模型预测第i个样本是第c类的概率。
S206、重复步骤S202至S205,直至到达迭代次数epoch。
S3、将测试视频对应的视频帧序列送入训练好的基于3D卷积和多级语义信息融合的行为识别网络模型得到测试视频的行为类别。
具体的测试过程为:
S301、将测试视频转换为视频帧,从所有的视频帧中,随机选取一帧为起始帧,按顺序截取16帧作为输入视频帧序列;
S302、将S301得到的视频帧序列送入特征提取网络G,产生4中不同尺寸大小的特征F1,F2,F3,F4,F5;
S303、将步骤S302生成的特征F1,F2,F3,F4送入多级语义信息融合模块M,特征F1,F2,F3,F4分别经过多级语义信息融合模块M中所对应的3D全局池化层和LSTM网络,提取特征F1,F2,F3,F4包含的时间语义信息,最后得到一个特征向量Fvector;
S304、将特征F5和特征向量Fvector送入分类器C,特征F5经过全局3D池化后与特征向量Fvector进行拼接,得到最终的特征向量,最终的特征向量经过全连接层和softmax层得到预测概率向量p,选取最大的预测概率向量p所对应的类别作为测试视频的类别。
本发明再一个实施例中,提供一种基于3D卷积和多级语义信息融合的行为识别系统,该系统能够用于实现上述基于3D卷积和多级语义信息融合的行为识别方法,具体的,该基于3D卷积和多级语义信息融合的行为识别系统包括构建模块、训练模块以及识别模块。
其中,构建模块,构建基于3D卷积和多级语义信息融合的行为识别网络模型,基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C;
训练模块,对构建模块构建的基于3D卷积和多级语义信息融合的行为识别网络模型进行训练;
识别模块,将测试视频对应的视频帧序列送入训练模块训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中,得到测试视频的行为类别,根据测试视频的行为类别进行行为识别。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于3D卷积和多级语义信息融合的行为识别方法的操作,包括:
构建基于3D卷积和多级语义信息融合的行为识别网络模型,基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C;对基于3D卷积和多级语义信息融合的行为识别网络模型进行训练;将测试视频对应的视频帧序列送入训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中,得到测试视频的行为类别,根据测试视频的行为类别进行行为识别。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于3D卷积和多级语义信息融合的行为识别方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
构建基于3D卷积和多级语义信息融合的行为识别网络模型,基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C;对基于3D卷积和多级语义信息融合的行为识别网络模型进行训练;将测试视频对应的视频帧序列送入训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中,得到测试视频的行为类别,根据测试视频的行为类别进行行为识别。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的效果可通过以下仿真结果进一步说明。
1.仿真条件
本发明仿真的硬件条件为:智能感知与图像理解实验室图形工作站,搭载4块显存为12G的GPU;本发明仿真所使用的数据集为UCF101数据集,数据集包含101个动作类别的13320个分辨率为320×240的视频,按照数据集官方提供的数据集划分方式进行划分后,训练集包含9537个视频,测试集包含3783个视频。
2.仿真内容与结果
本发明方法在上述仿真条件下进行实验,首先使用3D-ResNet18和3D-ResNet34两个网络在UCF101数据集上进行了消融实验,验证特征的时间维度逐步缩减对最终识别结果的影响,其结果如表1所示。
表1
基础网络 | 特征维度缩减方式 | 识别准确率 |
3D-ResNet18 | 平均池化 | 53.46% |
3D-ResNet18 | 最大池化 | 52.37% |
3D-ResNet18 | 卷积 | 52.18% |
3D-ResNet18 | 无 | 54.16% |
3D-ResNet34 | 平均池化 | 54.32% |
3D-ResNet34 | 最大池化 | 52.78% |
3D-ResNet34 | 卷积 | 52.49% |
3D-ResNet34 | 无 | 54.74% |
从表1的结果看,不论是使用平均池化还是最大池化,亦或是卷积的方式对特征尺寸进行缩减,其最后的识别准确率都比不缩减低,这说明在3D卷积网络模型中,特征图的时间尺寸逐渐缩减确实会影响到最终的识别精准度。
表2是本发明提出的方法对UCF101数据集中的测试集进行识别,其最终识别准确率与其他方法的对比结果。
表2
方法 | 准确率(%) |
IDT | 85.90 |
Temporal stream network | 83.70 |
LRCN | 82.90 |
C3D | 76.02 |
I3D | 84.50 |
3D-ResNet18 | 83.51 |
3D-ResNet34 | 83.69 |
本发明方法 | 86.43 |
从表2的结果可以看出,本发明方法取得了很好的识别准确率,其相较于单独的3D-ResNet34网络,其识别准确率提升了2.74%,这说明本发明方法在3D卷积网络的基础上,所提出的多级语义信息融合模块确实能提取出有效的时间语义信息,提升网络的识别准确率。
综上所述,本发明一种基于3D卷积和多级语义信息融合的行为识别方法及系统,利用LSTM网络设计了一个多级语义信息融合模块,该模块能够从3D卷积网络所产生的多个尺度不同的中间特征中提取出时间语义信息,并将所提取出的时间语义信息和3D卷积网络所提取的特征融合起来,用于最终的分类,进而提升网络模型的识别准确率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (4)
1.基于3D卷积和多级语义信息融合的行为识别方法,其特征在于,包括以下步骤:
S1、构建基于3D卷积和多级语义信息融合的行为识别网络模型,基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C,具体为:
S101、构建特征提取器G,特征提取器G为3D-ResNet34中的特征提取器;
S102、构建多级语义信息融合模块M,多级语义信息融合模块M包含4个全局3D池化层和4个LSTM网络;
S103、构建分类器,分类器包括依次相连接的输入层、全局3D池化层、全连接层和softmax层;根据特征提取器G、多级语义信息融合模块M和分类器构建基于3D卷积和多级语义信息融合的行为识别网络模型;
S2、对步骤S1构建的基于3D卷积和多级语义信息融合的行为识别网络模型进行训练,训练过程具体为:
S201、设置训练批次大小B和迭代次数epoch;
S202、将一个批次的视频帧序列输入特征提取器G提取特征,生成不同尺度大小的特征F1,F2,F3,F4,F5;
S203、将步骤S202生成的特征F1,F2,F3,F4输入多级语义信息融合模块M,提取特征F1,F2,F3,F4所包含的时间语义信息,得到特征向量Fvector,提取时间语义信息具体为:
S2031、将步骤S202中生成的4个特征F1,F2,F3,F4分别进行全局池化,在空间维度上进行池化,将特征的空间尺寸变为1×1;
S2032、将池化后的4个特征分别送入多级语义信息融合模块中对应LSTM网络,提取每个特征所包含的时间语义信息,得到4个一维向量;
S2033、将步骤S2032得到的4个一维向量拼接,得到多级语义信息融合模块M的输出Fvector;
S204、将步骤S202生成的特征F5和步骤S203生成的Fvector送入分类器C,特征F5经过全局3D池化后与特征向量Fvector进行拼接,得到最终的特征向量,最终的特征向量依次经过全连接层和softmax层得到预测结果p;
S205、将步骤S204得到的预测结果p和真实标签y计算损失值LCCE,然后使用批随机梯度下降算法更新G、M和C的网络参数;
S206、重复步骤S202至S205,直至到达迭代次数epoch;
S3、将测试视频对应的视频帧序列送入步骤S2训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中,得到测试视频的行为类别,根据测试视频的行为类别进行行为识别。
2.根据权利要求1所述的方法,其特征在于,步骤S102中,每个LSTM网络都只有一层,每个LSTM的输入隐层维度分别是64、64、128和256。
3.根据权利要求1所述的方法,其特征在于,步骤S3中,测试过程具体为:
S301、将测试视频转换为视频帧,从所有的视频帧中,随机选取一帧为起始帧,按顺序截取16帧作为输入视频帧序列;
S302、将步骤S301得到的视频帧序列送入特征提取网络G,产生4中不同尺寸大小的特征F1,F2,F3,F4,F5;
S303、将步骤S302生成的特征F1,F2,F3,F4送入多级语义信息融合模块M,特征F1,F2,F3,F4分别经过多级语义信息融合模块M中对应的3D全局池化层和LSTM网络,提取特征F1,F2,F3,F4包含的时间语义信息,得到一个特征向量Fvector;
S304、将步骤S302生成的特征F5和步骤S303得到的特征向量Fvector送入分类器C,特征F5经过全局3D池化后与特征向量Fvector进行拼接得到最终的特征向量,最终的特征向量经过全连接层和soffmax层得到预测概率向量p,选取最大的预测概率向量p所对应的类别作为测试视频的类别。
4.一种基于3D卷积和多级语义信息融合的行为识别系统,其特征在于,包括:
构建模块,构建基于3D卷积和多级语义信息融合的行为识别网络模型,基于3D卷积和多级语义信息融合的行为识别网络模型包括特征提取器G、多级语义信息融合模块M和分类器C,具体为:
构建特征提取器G,特征提取器G为3D-ResNet34中的特征提取器;构建多级语义信息融合模块M,多级语义信息融合模块M包含4个全局3D池化层和4个LSTM网络;构建分类器,分类器包括依次相连接的输入层、全局3D池化层、全连接层和softmax层;根据特征提取器G、多级语义信息融合模块M和分类器构建基于3D卷积和多级语义信息融合的行为识别网络模型;
训练模块,对构建模块构建的基于3D卷积和多级语义信息融合的行为识别网络模型进行训练,训练过程具体为:
设置训练批次大小B和迭代次数epoch;将一个批次的视频帧序列输入特征提取器G提取特征,生成不同尺度大小的特征F1,F2,F3,F4,F5;将生成的特征F1,F2,F3,F4输入多级语义信息融合模块M,提取特征F1,F2,F3,F4所包含的时间语义信息,得到特征向量Fvector,提取时间语义信息具体为:将生成的4个特征F1,F2,F3,F4分别进行全局池化,在空间维度上进行池化,将特征的空间尺寸变为1×1;将池化后的4个特征分别送入多级语义信息融合模块中对应LSTM网络,提取每个特征所包含的时间语义信息,得到4个一维向量;将得到的4个一维向量拼接,得到多级语义信息融合模块M的输出Fvector;将生成的特征F5和生成的Fvector送入分类器C,特征F5经过全局3D池化后与特征向量Fvector进行拼接,得到最终的特征向量,最终的特征向量依次经过全连接层和softmax层得到预测结果p;将得到的预测结果p和真实标签y计算损失值LCCE,然后使用批随机梯度下降算法更新G、M和C的网络参数;重复直至到达迭代次数epoch;
识别模块,将测试视频对应的视频帧序列送入训练模块训练好的基于3D卷积和多级语义信息融合的行为识别网络模型中,得到测试视频的行为类别,根据测试视频的行为类别进行行为识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657341.6A CN113378722B (zh) | 2021-06-11 | 2021-06-11 | 基于3d卷积和多级语义信息融合的行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657341.6A CN113378722B (zh) | 2021-06-11 | 2021-06-11 | 基于3d卷积和多级语义信息融合的行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378722A CN113378722A (zh) | 2021-09-10 |
CN113378722B true CN113378722B (zh) | 2023-04-07 |
Family
ID=77574431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110657341.6A Active CN113378722B (zh) | 2021-06-11 | 2021-06-11 | 基于3d卷积和多级语义信息融合的行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378722B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677704B (zh) * | 2022-02-23 | 2024-03-26 | 西北大学 | 一种基于三维卷积的时空特征多层次融合的行为识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886358A (zh) * | 2019-03-21 | 2019-06-14 | 上海理工大学 | 基于多时空信息融合卷积神经网络的人体行为识别方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451552A (zh) * | 2017-07-25 | 2017-12-08 | 北京联合大学 | 一种基于3d‑cnn和卷积lstm的手势识别方法 |
CN109101896B (zh) * | 2018-07-19 | 2022-03-25 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
KR102134902B1 (ko) * | 2018-11-15 | 2020-07-17 | (주)지와이네트웍스 | 딥러닝 기반 음영영상의 시공간적 특성 분석을 활용한 폭력검출 프레임워킹 방법 |
CN111114554B (zh) * | 2019-12-16 | 2021-06-11 | 苏州智加科技有限公司 | 行驶轨迹预测方法、装置、终端及存储介质 |
CN112446342B (zh) * | 2020-12-07 | 2022-06-24 | 北京邮电大学 | 关键帧识别模型训练方法、识别方法及装置 |
-
2021
- 2021-06-11 CN CN202110657341.6A patent/CN113378722B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886358A (zh) * | 2019-03-21 | 2019-06-14 | 上海理工大学 | 基于多时空信息融合卷积神经网络的人体行为识别方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113378722A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109816032B (zh) | 基于生成式对抗网络的无偏映射零样本分类方法和装置 | |
CN113239869B (zh) | 基于关键帧序列和行为信息的两阶段行为识别方法及系统 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN112381097A (zh) | 一种基于深度学习的场景语义分割方法 | |
CN113095370B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
Wang et al. | Learning efficient binarized object detectors with information compression | |
CN109325118B (zh) | 不平衡样本数据预处理方法、装置和计算机设备 | |
CN112699937A (zh) | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN111191654A (zh) | 道路数据生成方法、装置、电子设备及存储介质 | |
CN112037228A (zh) | 一种基于双倍注意力的激光雷达点云目标分割方法 | |
CN114048468A (zh) | 入侵检测的方法、入侵检测模型训练的方法、装置及介质 | |
CN111291695B (zh) | 人员违章行为识别模型训练方法、识别方法及计算机设备 | |
CN113378722B (zh) | 基于3d卷积和多级语义信息融合的行为识别方法及系统 | |
CN116152226A (zh) | 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN113822134A (zh) | 一种基于视频的实例跟踪方法、装置、设备及存储介质 | |
CN113010705A (zh) | 标签预测方法、装置、设备及存储介质 | |
CN115713669A (zh) | 一种基于类间关系的图像分类方法、装置、存储介质及终端 | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN116977343A (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
CN115273183A (zh) | 一种基于神经网络的人脸检测方法和装置 | |
CN115457385A (zh) | 一种基于轻量级网络的建筑物变化检测方法 | |
CN112541469B (zh) | 基于自适应分类的人群计数方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |