CN113989933B - 一种在线行为识别模型训练、检测方法及系统 - Google Patents
一种在线行为识别模型训练、检测方法及系统 Download PDFInfo
- Publication number
- CN113989933B CN113989933B CN202111272498.3A CN202111272498A CN113989933B CN 113989933 B CN113989933 B CN 113989933B CN 202111272498 A CN202111272498 A CN 202111272498A CN 113989933 B CN113989933 B CN 113989933B
- Authority
- CN
- China
- Prior art keywords
- behavior recognition
- recognition model
- training
- transducer
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000000007 visual effect Effects 0.000 claims abstract description 6
- 230000008569 process Effects 0.000 claims abstract description 4
- 230000006399 behavior Effects 0.000 claims description 95
- 230000009471 action Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000011897 real-time detection Methods 0.000 abstract description 4
- 238000005070 sampling Methods 0.000 description 8
- 230000007774 longterm Effects 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种在线行为识别模型训练、检测方法及系统,方法包括以下步骤:步骤1,将输入视频流输入至在线行为识别模型的空间Transformer特征提取网络输出表征每一帧视觉特征的空间特征;步骤2,基于空间特征,构建令牌特征序列;步骤3,将步骤2获得的令牌特征序列输入至Transformer模型,使用Transformer模型的编码器来识别当前帧块f0的行为,使用解码器来预测即将到来的未来的行为;步骤4,计算整个行为识别模型最后的训练Loss,实施离线训练过程,训练结束后即得到在线行为识别模型;步骤5,上述步骤结束后,当输入在线视频,在线行为识别模型就可以输出当前帧的行为类别。本发明创新性地采用基于Transformer的在线行为识别检测算法,在保证准确度的前期下,实现了在线行为实时检测任务。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及在线行为识别模型训练、检测方法及系统。
背景技术
在线行为识别是一种从视频流中正确识别正在进行的人体动作的计算机视觉任务。在线行为识别技术不同于传统的计算机视觉任务,该技术强调实现该技术的算法必须在正确识别视频流中正在进行的人体动作的同时,具备一定的实时性。这就决定了在线行为识别具有两大技术难点:一是与基于图片的视觉任务不同,在线行为识别任务需要在视频帧到达时以不充分的观察来检测动作,这不仅需要学习每个视频帧的空间特征,更重要的是需要充分挖掘视频帧间的时间特征;二是在线行为识别任务处理大量视频帧会带来更大的计算量,在这个前提下保证算法的实时性也是一项不小的挑战。
最近,因为这项任务在现实生活中具有例如自动驾驶、视频监控、异常检测等多种应用前景而受到越来越多的关注。目前,国内外专家学者针对上述难点问题基于人工智能理论提出了一些卓有成效的实现方案。当前的方法倾向于应用循环神经网络(RecurrentNeural Network,RNN)来对时间依赖性进行建模,并取得了令人印象深刻的改进。
通常,信息判别网络(Information Discrimination Network,IDN)设计了一个类似RNN的架构来编码长期的历史信息,然后进行当前时刻的动作识别。然而,类似RNN的架构存在非并行性和梯度消失的问题。因此,很难优化架构,这可能会导致性能不理想。对于当前的方法来说,这是一个具有挑战性的问题。为了进一步提高性能,需要设计一个新的高效且易于优化的框架。
Transformer具有通过self-attention模块进行远程时间建模的强大能力,并且在自然语言处理和各种视觉任务中都取得了卓越的表现。现有工作已经证明,Transformer比RNN架构具有更好的收敛性,并且它们的计算效率也很高。
因此,本发明应用Transformer引入了一种端到端框架,提出了一种在线行为识别模型训练、检测方法及系统。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种在线行为识别模型训练、检测方法及系统。
本发明采用如下的技术方案。本发明的第一方面提供了一种在线行为识别模型训练、检测方法,其特征在于,包括以下步骤:
步骤1,将输入视频流输入至在线行为识别模型的空间Transformer特征提取网络,输出表征每一帧视觉特征的空间特征;
步骤2,基于步骤1获得的每一帧的空间特征,构建令牌特征序列;
步骤3,将步骤2获得的令牌特征序列输入至Transformer模型,使用Transformer模型的编码器来识别当前帧块f0的行为,使用解码器来预测即将到来的未来的行为;
步骤4,计算整个行为识别模型最后的训练Loss,实施离线训练过程,训练结束后即得到在线行为识别模型;
步骤5,上述步骤结束后,当输入在线视频,在线行为识别模型就可以输出当前帧的行为类别。
优选地,步骤1中,以如下公式表示输入视频流V,
式中:
ft表示t时刻视频帧,
T表示t0时刻前T个时刻,
空间Transformer需在大型图像数据集上完成预训练。
优选地,步骤2具体包括:
步骤2.1,将步骤1获得的每一帧的空间特征,通过一个线性投影层映射到D维的特征空间,得到第一嵌入特征序列F,以如下公式表示:
式中:
tokent表示基于步骤1获得的每一帧的空间特征构成的令牌特征序列,其中t∈{0,…,-T},
表示实数域;
步骤2.2,在第一嵌入特征序列F输入Transformer模型的编码器前,将可学习的加入步骤2.1获得的第一嵌入特征序列F,得到第二嵌入特征序列/>以如下公式表示,
式中:
Concact(·)表示将两个张量按照某一维度进行拼接的操作,
tokenclass表示分类特征头,用于学习与在线行为识别任务相关的全局判别特征;
步骤2.3,在第二嵌入特征序列的基础上额外嵌入位置编码,得到令牌特征序列X0。
优选地,步骤2.3中,将位置编码加入第二嵌入特征序列/>使其保持位置信息,得到令牌特征序列,以如下公式表示,
式中:
X0表示令牌特征序列。
优选地,步骤3具体包括:
步骤3.1,将步骤2获得的令牌特征序列输入至Transformer模型的编码器中;
步骤3.2,解码器用于预测当前时刻到未来ld时刻的行为,其中解码器输入为未来1时刻到ld时刻的视频帧令牌特征序列解码器输出为/>
步骤3.3,将编码器中与任务相关的特征与解码器中的池化预测特征连接起来,得到的特征经过一个全连接层和一个softmax操作进行动作分类,以如下公式表示,
式中:
Avg-pool表示平均池化操作,
Wc表示分类全连接层参数,
C为类别数量;
步骤3.4,除了估计的当前动作外,还输出下一个ld时间步长的预测特征,由于离线训练时有未来信息,为了保证学习到好的特征表达,还对未来预测特征进行了有监督的训练,以如下公式表示,
式中:
表示下一个ld时间步长的预测特征。
优选地,步骤3中,编码器采用标准Transformer编码器结构,解码器采用标准Transformer解码器结构。
优选地,步骤4,计算整个行为识别模型最后的训练Loss,以如下公式表示,
式中:
p0表示当前帧f0的行为类别预测值,其中p0∈{0,1,…,C},C代表了总的行为类别数量,0代表背景分类,
y0表示当前帧f0的行为类别真值,
CE为交叉熵损失,
为未来帧i的真实行为分类,/>为解码器对未来帧i的行为分类预测。
λ是平衡因子。
本发明的第二方面提供了一种在线行为识别模型训练、检测系统,运行所述的在线行为识别模型训练、检测方法,包括:视频采集模块,模型训练与检测模块和输出模块,
视频采集模块,用于采集视频流,并将视频流输入至在线行为识别模型训练、检测模块;
模型训练与检测模块,设置有基于Transformer模型的行为识别模型,接收视频流,实施离线训练,得到在线行为识别模型;使用在线行为识别模型对在线视频实施在线行为识别;
输出模块,用于接收在线行为识别结果,输出当前帧的行为类别。
优选地,模型训练与检测模块包括模型训练单元和检测单元,其中,
模型训练单元,使用空间Transformer提取输入视频流中每一帧的图像特征。
优选地,模型训练单元,还用于当前时刻视频帧及过去T帧视频帧输入Transformer编码器,当前时刻至未来ld时刻视频帧输入Transformer解码器,前向传播计算完成后通过损失函数得到损失,然后通过反向传播迭代更新网络权重,训练结束后即得到在线行为识别模型。
本发明的有益效果在于,与现有技术相比,(1)本发明创新性地采用基于Transformer的在线行为识别检测算法,在保证准确度的前期下,实现了在线行为实时检测任务;
(2)不同于前人仅使用2D卷积网络构建特征提取器的方法,本发明开创性的提出了一种基于Transformer的空间特征提取器,解决了2D卷积网络参数多,计算量大的问题;
(3)不同于前人采取视频稀疏采样的方法,即这种方法以人工经验来制定稀疏采样策略,在输入视频中按照相应的采样策略抽取视频帧。本发明提出的方法则在保证实时性的前提下对输入视频的每一帧都进行了处理,保证了视频帧间的长时信息得到了充分的应用。
(4)相比于传统网络,在减少网络参数和计算量的同时,能够有效提取视频的空间和时间特征,在解决传统网络并行性差、梯度消失等问题的基础上实现了在线实时完成行为识别任务。
附图说明
图1为本发明在线行为识别模型训练、检测方法及系统示意图。
图2为本发明在线行为识别模型训练、检测方法及系统流程图。
具体实施方式
下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明的实施例1提供了一种在线行为识别模型训练、检测方法,包括以下步骤:
步骤1,将输入视频流输入至在线行为识别模型的空间Transformer特征提取网络输出表征每一帧视觉特征的空间特征。具体包括:
以如下公式表示输入视频流V,
式中:
ft表示t时刻视频帧,
T表示t0时刻前T个时刻,
即,输入视频流V由f-T,…,f-2,f-1,f0这T+1帧视频帧组成,f0表示当前帧。
值得注意的是,空间Transformer需在大型图像数据集上完成预训练。一个优选但非限制性的实施方式为,空间Transformer在ImageNet上完成预训练。
与现有技术相比,以往的在线行为识别算法为了实现算法实时性,往往会采取视频稀疏采样的方法,而这种方法是以人工经验来制定稀疏采样策略,该方法虽然在一定程度上加快了算法的识别速度,但是因人工经验的局限性以及稀疏采样的固有缺陷,这种方法不可避免的损失了视频中的一些重要信息。本专利提出的方法则在保证实时性的前提下对输入视频的每一帧都进行了处理,保证了视频帧间的长时信息得到了充分的应用。
除此之外,对于视频帧的空间特征提取,现有技术一般采用经过大规模图像数据集预训练的CNN网络作为特征提取器。但是CNN网络提取图像特征需要利用图像金字塔技术或者特征金字塔技术来实现浅层感受野与深层感受野的特征融合,这势必会使得特征提取网络变大,网络参数变多,且需要在大规模的图像样本中学习才能取得较好的效果。因自注意力机制可以天然地关注局部和全局特征,且具有网络参数少,计算复杂度低的特点,本专利应用自注意力机制,使用空间Transformer提取输入视频流中每一帧的图像特征。
进一步地,对于视频帧间的长时特征学习,由于类似RNN的架构存在梯度消失、并行性差以及不能很好的学习长时信息的问题。本实施例应用Transformer来提取视频帧间的长时特征。
步骤2,基于步骤1获得的每一帧的空间特征,构建令牌特征序列。
步骤2具体包括:
步骤2.1,将步骤1获得的每一帧的空间特征,通过一个线性投影层映射到D维的特征空间,得到第一嵌入特征序列F,以如下公式表示:
式中:
tokent表示基于步骤1获得的每一帧的空间特征构成的令牌特征序列,其中t∈{0,…,-T},
表示实数域。
步骤2.2,在第一嵌入特征序列F输入Transformer模型的编码器前,将可学习的加入步骤2.1获得的第一嵌入特征序列F,得到第二嵌入特征序列/>以如下公式表示,
式中:
Concact(·)表示将两个张量按照某一维度进行拼接的操作,
tokenclass表示分类特征头,用于学习与在线行为识别任务相关的全局判别特征。
步骤2.3,在第二嵌入特征序列的基础上额外嵌入位置编码,得到令牌特征序列X0。一个优选但非限制性的实施方式为,位置编码可以采用两种形式:正弦输入和可训练嵌入。
进一步地,将位置编码加入第二嵌入特征序列/>使其保持位置信息,得到令牌特征序列,以如下公式表示,
式中:
X0表示令牌特征序列。
步骤3,将步骤2获得的令牌特征序列输入至Transformer模型,使用Transformer模型的编码器来识别当前帧块f0,使用解码器来预测即将到来的未来。步骤3具体包括:
步骤3.1,将步骤2获得的令牌特征序列输入至Transformer模型的编码器中,编码器采用标准Transformer编码器结构,编码器输出的最终特征表示记为为了方便表达,记/>为与任务对应的输出表示,其中N表示编码器的层数。
步骤3.2,解码器同样采用标准Transformer解码器结构,用于预测当前时刻到未来ld时刻的行为,其中解码器输入为未来1时刻到ld时刻的视频帧令牌特征序列解码器输出为/>
步骤3.3,在本专利中主要使用编码器来识别当前帧块f0,使用解码器来预测即将到来的未来。同时,将预测结果作为辅助信息,更好地识别动作。对于当前帧块的分类任务,首先将编码器中与任务相关的特征与解码器中的池化预测特征连接起来。然后得到的特征经过一个全连接层和一个softmax操作进行动作分类:
式中:
Avg-pool表示平均池化操作,
Wc表示分类全连接层参数,
C为类别数量。
步骤3.4,除了估计的当前动作外,本专利还输出下一个ld时间步长的预测特征。由于离线训练时有未来信息,为了保证学习到好的特征表达,还对未来预测特征进行了有监督的训练:
式中:
表示下一个ld时间步长的预测特征。
值得注意的是,当一个动作发生时,预测该动作将来的趋势有助于整个动作的识别。本专利创新地引入解码器利用对过去信息的观察来预测在不久的将来发生的动作,从而更好地学习更多的判别特征。
步骤4,计算整个行为识别模型最后的训练Loss,以如下公式表示,
式中:
p0表示当前帧f0的行为类别预测值,其中p0∈{0,1,…,C},C代表了总的行为类别数量,0代表背景分类。
y0表示当前帧f0的行为类别真值,其中y0∈{0,1,…,C},C代表了总的行为类别数量,0代表背景分类。
CE为交叉熵损失,
为未来帧i的真实行为分类,/>为解码器对未来帧i的行为分类预测。
λ是平衡因子,一个优选但非限制性的实施方式为,λ=0.5。
本专利实施离线训练过程,训练数据当前时刻视频帧及过去T帧视频帧输入Transformer编码器,当前时刻至未来ld时刻视频帧输入Transformer解码器。前向传播计算完成后通过损失函数得到损失,然后通过反向传播迭代更新网络权重,训练结束后即得到在线行为识别模型。
步骤5,上述步骤结束后,当输入在线视频,在线行为识别模型就可以输出当前帧的行为类别。
本发明的实施例2提供了一种在线行为识别模型训练、检测系统,运行所述的在线行为识别模型训练、检测方法,包括:
视频采集模块,用于采集视频流,并将视频流输入至在线行为识别模型训练、检测模块;
模型训练与检测模块,设置有基于Transformer模型的行为识别模型,接收视频流,实施离线训练,得到在线行为识别模型;使用在线行为识别模型对在线视频实施在线行为识别;
输出模块,用于接收在线行为识别结果,输出当前帧的行为类别。
在一个优选但非限制性的实施方式中,模型训练与检测模块包括模型训练单元和检测单元,其中,
模型训练单元,使用空间Transformer提取输入视频流中每一帧的图像特征。
在一个优选但非限制性的实施方式中,模型训练单元,还用于当前时刻视频帧及过去T帧视频帧输入Transformer编码器,当前时刻至未来ld时刻视频帧输入Transformer解码器,前向传播计算完成后通过损失函数得到损失,然后通过反向传播迭代更新网络权重,训练结束后即得到在线行为识别模型。
本发明的有益效果在于,与现有技术相比,
(1)本发明创新性地采用基于Transformer的在线行为识别检测算法,在保证准确度的前期下,实现了在线行为实时检测任务;
(2)不同于前人仅使用2D卷积网络构建特征提取器的方法,本发明开创性的提出了一种基于Transformer的空间特征提取器,解决了2D卷积网络参数多,计算量大的问题;
(3)不同于前人采取视频稀疏采样的方法,即这种方法以人工经验来制定稀疏采样策略,在输入视频中按照相应的采样策略抽取视频帧。本发明提出的方法则在保证实时性的前提下对输入视频的每一帧都进行了处理,保证了视频帧间的长时信息得到了充分的应用。
(4)相比于传统网络,在减少网络参数和计算量的同时,能够有效提取视频的空间和时间特征,在解决传统网络并行性差、梯度消失等问题的基础上实现了在线实时完成行为识别任务。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。
Claims (7)
1.一种在线行为识别模型训练、检测方法,其特征在于,包括以下步骤:
步骤1,将输入视频流输入至在线行为识别模型的空间Transformer特征提取网络,输出表征每一帧视觉特征的空间特征;步骤1中,以如下公式表示输入视频流V,
式中:
ft表示t时刻视频帧,
T表示t0时刻前T个时刻,
空间Transformer需在大型图像数据集上完成预训练;
步骤2,基于步骤1获得的每一帧的空间特征,构建令牌特征序列;包括:
步骤2.1,将步骤1获得的每一帧的空间特征,通过一个线性投影层映射到D维的特征空间,得到第一嵌入特征序列F,以如下公式表示:
式中:
totent表示基于步骤1获得的每一帧的空间特征构成的令牌特征序列,其中t∈{0,…,-T},
表示实数域;
步骤2.2,在第一嵌入特征序列F输入Transformer模型的编码器前,将可学习的加入步骤2.1获得的第一嵌入特征序列F,得到第二嵌入特征序列/>以如下公式表示,
式中:
Concact(·)表示将两个张量按照某一维度进行拼接的操作,
tokenclass表示分类特征头,用于学习与在线行为识别任务相关的全局判别特征;
步骤2.3,在第二嵌入特征序列的基础上额外嵌入位置编码,得到令牌特征序列X0;将位置编码/>加入第二嵌入特征序列/>使其保持位置信息,得到令牌特征序列,以如下公式表示,
式中:
X0表示令牌特征序列;
步骤3,将步骤2获得的令牌特征序列输入至Transformer模型,使用Transformer模型的编码器来识别当前帧块f0的行为,使用解码器来预测即将到来的未来的行为;
步骤4,计算整个行为识别模型最后的训练Loss,实施离线训练过程,训练结束后即得到在线行为识别模型;
步骤5,上述步骤结束后,当输入在线视频,在线行为识别模型就可以输出当前帧的行为类别。
2.根据权利要求1所述的在线行为识别模型训练、检测方法,其特征在于:
步骤3具体包括:
步骤3.1,将步骤2获得的令牌特征序列输入至Transformer模型的编码器中;
步骤3.2,解码器用于预测当前时刻到未来时刻的行为,其中解码器输入为未来1时刻到/>时刻的视频帧令牌特征序列/>解码器输出为/>
步骤3.3,将编码器中与任务相关的特征与解码器中的池化预测特征连接起来,得到的特征经过一个全连接层和一个softmax操作进行动作分类,以如下公式表示,
式中:
Avg-pool表示平均池化操作,
Wc表示分类全连接层参数,
C为类别数量;
步骤3.4,除了估计的当前动作外,还输出下一个时间步长的预测特征,由于离线训练时有未来信息,为了保证学习到好的特征表达,还对未来预测特征进行了有监督的训练,以如下公式表示,
式中:
表示下一个/>时间步长的预测特征。
3.根据权利要求2所述的在线行为识别模型训练、检测方法,其特征在于:
步骤3中,编码器采用标准Transformer编码器结构,解码器采用标准Transformer解码器结构。
4.根据权利要求1至3中任一项所述的在线行为识别模型训练、检测方法,其特征在于:
步骤4,计算整个行为识别模型最后的训练Loss,以如下公式表示,
式中:
p0表示当前帧f0的行为类别预测值,其中p0∈{0,1,…,C},C代表了总的行为类别数量,0代表背景分类,
y0表示当前帧f0的行为类别真值,
CE为交叉熵损失,
为未来帧i的真实行为分类,/>为解码器对未来帧i的行为分类预测,
λ是平衡因子。
5.一种在线行为识别模型训练、检测系统,运行如权利要求1至4中任一项所述的在线行为识别模型训练、检测方法,包括:视频采集模块,模型训练与检测模块和输出模块,其特征在于,
视频采集模块,用于采集视频流,并将视频流输入至在线行为识别模型训练、检测模块;
模型训练与检测模块,设置有基于Transformer模型的行为识别模型,接收视频流,实施离线训练,得到在线行为识别模型;使用在线行为识别模型对在线视频实施在线行为识别;
输出模块,用于接收在线行为识别结果,输出当前帧的行为类别。
6.如权利要求5所述的在线行为识别模型训练、检测系统,其特征在于:
模型训练与检测模块包括模型训练单元和检测单元,其中,
模型训练单元,使用空间Transformer提取输入视频流中每一帧的图像特征。
7.如权利要求5或6所述的在线行为识别模型训练、检测系统,其特征在于:
模型训练单元,还用于当前时刻视频帧及过去T帧视频帧输入Transformer编码器,当前时刻至未来时刻视频帧输入Transformer解码器,前向传播计算完成后通过损失函数得到损失,然后通过反向传播迭代更新网络权重,训练结束后即得到在线行为识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111272498.3A CN113989933B (zh) | 2021-10-29 | 2021-10-29 | 一种在线行为识别模型训练、检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111272498.3A CN113989933B (zh) | 2021-10-29 | 2021-10-29 | 一种在线行为识别模型训练、检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113989933A CN113989933A (zh) | 2022-01-28 |
CN113989933B true CN113989933B (zh) | 2024-04-16 |
Family
ID=79744388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111272498.3A Active CN113989933B (zh) | 2021-10-29 | 2021-10-29 | 一种在线行为识别模型训练、检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989933B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913150B (zh) * | 2022-05-11 | 2023-08-22 | 河海大学 | 一种混凝土大坝缺陷时序图像智能识别方法 |
CN116168362A (zh) * | 2023-02-27 | 2023-05-26 | 小米汽车科技有限公司 | 车辆感知模型的预训练方法、装置、电子设备及车辆 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN112464861A (zh) * | 2020-12-10 | 2021-03-09 | 中山大学 | 用于智能人机交互的行为早期识别方法、系统及存储介质 |
CN113076809A (zh) * | 2021-03-10 | 2021-07-06 | 青岛海纳云科技控股有限公司 | 一种基于视觉Transformer的高空坠物检测方法 |
CN113343937A (zh) * | 2021-07-15 | 2021-09-03 | 北华航天工业学院 | 一种基于深度卷积和注意力机制的唇语识别方法 |
-
2021
- 2021-10-29 CN CN202111272498.3A patent/CN113989933B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652066A (zh) * | 2020-04-30 | 2020-09-11 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
CN112464861A (zh) * | 2020-12-10 | 2021-03-09 | 中山大学 | 用于智能人机交互的行为早期识别方法、系统及存储介质 |
CN113076809A (zh) * | 2021-03-10 | 2021-07-06 | 青岛海纳云科技控股有限公司 | 一种基于视觉Transformer的高空坠物检测方法 |
CN113343937A (zh) * | 2021-07-15 | 2021-09-03 | 北华航天工业学院 | 一种基于深度卷积和注意力机制的唇语识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113989933A (zh) | 2022-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN110164476B (zh) | 一种基于多输出特征融合的blstm的语音情感识别方法 | |
CN113989933B (zh) | 一种在线行为识别模型训练、检测方法及系统 | |
CN110309732B (zh) | 基于骨架视频的行为识别方法 | |
Wu et al. | Multi-teacher knowledge distillation for compressed video action recognition on deep neural networks | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN110929092B (zh) | 一种基于动态注意力机制的多事件视频描述方法 | |
CN111079646A (zh) | 基于深度学习的弱监督视频时序动作定位的方法及系统 | |
CN111832516B (zh) | 基于无监督视频表示学习的视频行为识别方法 | |
CN111310672A (zh) | 基于时序多模型融合建模的视频情感识别方法、装置及介质 | |
CN110795990B (zh) | 一种面向水下设备的手势识别方法 | |
CN111523534B (zh) | 一种图像描述的方法 | |
CN109409307B (zh) | 一种基于时空上下文分析的在线视频行为检测方法 | |
CN112001308B (zh) | 一种采用视频压缩技术和骨架特征的轻量级行为识别方法 | |
CN112488014B (zh) | 基于门控循环单元的视频预测方法 | |
CN116110036B (zh) | 基于机器视觉的电力铭牌信息缺陷等级判断方法及装置 | |
CN111931549A (zh) | 一种基于多任务非自回归解码的人体骨架的动作预测方法 | |
CN111626198A (zh) | 自动驾驶场景下基于Body Pix的行人运动检测方法 | |
CN113936034B (zh) | 一种结合帧间光流的表观运动联合弱小运动目标检测方法 | |
CN113489958A (zh) | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 | |
Savadi Hosseini et al. | A hybrid deep learning architecture using 3d cnns and grus for human action recognition | |
CN114168721A (zh) | 一种用于多子目标对话推荐系统的知识增强模型的构建方法 | |
CN113033283B (zh) | 一种改进的视频分类系统 | |
CN114282647A (zh) | 基于脉冲神经网络的神经形态视觉传感器目标检测方法 | |
CN113705384A (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |