CN110287879B - 一种基于注意力机制的视频行为识别方法 - Google Patents
一种基于注意力机制的视频行为识别方法 Download PDFInfo
- Publication number
- CN110287879B CN110287879B CN201910558302.3A CN201910558302A CN110287879B CN 110287879 B CN110287879 B CN 110287879B CN 201910558302 A CN201910558302 A CN 201910558302A CN 110287879 B CN110287879 B CN 110287879B
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- level
- channel
- level feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制的视频行为识别方法,所述方法包括以下步骤:通过卷积神经网络从视频样本中提取所需的帧级特征表达;对视频张量进行空域全局平均处理,融合特征中的空域信息,以获取不同帧的通道级特征表达作为待优化特征,并将其聚合为视频级特征表达,加强注意力得分提取过程中的帧间信息交互;利用本发明提出的通道级时域注意力提取方法,为视频帧级表达中每一个通道都计算出描述其重要程度的分值,同时对视频中不同帧特征和帧级特征中不同通道进行重要程度的区分,突出不同通道上的关键信息;使用加权求和的方式,优化视频级特征表达。本方法通过对帧级特征表达中不同通道的重要程度进行细粒度区分,从而更充分地保留视频特征表达中的关键信息,以实现对视频特征表达的进一步优化。
Description
技术领域
本发明涉及深度学习、模式识别领域,尤其涉及一种基于注意力机制的视频行为识别方法。
背景技术
近年来,随着信息技术以及多媒体技术的发展,网络中视频数量呈指数爆炸趋势增加,如何使计算机智能、高效、准确地理解视频内容成为研究热点。视频行为识别旨在使计算机准确理解视频内容,并依据视频内容对视频进行类别划分,目前已成为计算机视觉与模式识别领域的热门课题之一。视频行为识别方法通过将原始视频数据映射到特征空间以获取视频的特征表达,依据该特征表达实现对视频中行为模式的准确分类。因此,如何提取到能够准确表示视频内容的特征表达,尤其是能够准确描述视频中行为模式的特征表达,是视频行为识别任务需要解决的关键问题。
注意力机制是人类视觉所特有的大脑信号处理机制,其使得人们可以快速地获取场景中的关键信息。为了使计算机在理解视频内容时更关注行为相关的关键信息,研究人员将注意力机制引入到了视频行为识别任务中。注意力机制通过提取特征表达中各部分的注意力得分,并将其作为融合权重,实现对原始特征的优化。经过注意力机制优化后的特征表达,能够有效地突出原始数据中的重要成分,从而使其更适应对应任务的要求。
现有的应用于视频行为识别方法中的注意力机制主要包括:空域注意力机制和时域注意力机制。其中,空域注意力机制用于区分每一帧中不同位置的重要程度,时域注意力机制用于区分不同帧的重要程度。Du等人在特征提取中同时考虑了空域注意力和时域注意力。Liu等人使用一种迭代地思想,不断对时域注意力得分进行优化。Long等人提出注意力聚类的思想,使用多个注意力模块来关注特征表达中不同角度的重要信息。Du等人使用特征金字塔来提取空时注意力得分,以提高行为识别性能。
现有的基于注意力机制的视频行为识别方法存在以下缺点与不足:
视频特征通常由多帧的特征表达组成,其中帧级特征表达包含多个通道,不同通道特征的计算过程是相互独立的,其包含的信息也是有差异的。现有技术在提取注意力得分的过程中通常将帧级的特征表达看做一个整体,而忽略了不同通道之间的差异性。
发明内容
本发明提供了一种基于注意力机制的视频行为识别方法,通过对帧级特征表达的不同通道进行细粒度区分,从而更充分地保留视频特征表达中的关键信息,以实现对视频特征表达的进一步优化,详见下文描述:
一种基于注意力机制的视频行为识别方法,所述方法包括以下步骤:
采样视频帧,通过卷积神经网络从视频样本中提取所需的帧级特征表达;
对视频张量进行空域全局平均处理,融合特征中的空域信息,以获取不同帧的通道级特征表达,该通道级特征表达作为待优化特征;将该通道级特征表达聚合为视频级特征表达,该视频级特征表达将用于注意力得分的提取,加强帧间信息交互;
利用通道级时域注意力提取方法,计算出与所提取的帧级特征表达相对应的通道级时域注意力得分,该分值能够比较不同帧对于识别视频内目标行为的重要程度,同时能对单一帧内的不同通道进行重要程度的区分,突出不同通道上的关键信息;
将所获得的注意力得分作为权重系数,使用加权求和,将帧级特征表达融合为视频级特征表达,实现特征表达的优化。
其中,所述获取不同帧的通道级特征表达,并将其聚合为视频级特征表达具体为:
进一步地,所述通道级时域注意力提取具体为:
其中,所述方法还包括:
使用softmax函数对注意力得分进行归一化处理,该处理沿时域进行,各通道间相互独立。
本发明提供的技术方案的有益效果是:
1、本发明通过提取视频帧级特征表达的通道级时域注意力得分,对不同帧和不同通道的重要程度进行区分,实现原始视频特征表达的细粒度优化,提升视频行为识别的性能;
2、本发明挖掘视频特征表达中不同通道间信息的差异,获取视频帧级特征表达的通道级时域注意力得分,优化视频特征表达。
附图说明
图1为一种基于注意力机制的视频行为识别方法的流程图;
图2为识别结果的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提出了一种基于注意力机制的视频行为识别方法,参见图1,该方法包括以下步骤:
首先提取视频的帧级特征表达,然后对其进行预处理,预处理包括:使用全局空域平均融合帧级特征表达中的空域信息,然后将各帧的特征表达聚合为视频级的特征表达,使得注意力得分提取的过程中能够参考到完整的视频信息。基于该视频级的特征表达,本发明实施例设计了一种通道级时域注意力得分提取模块,用于同时对不同帧和不同通道的重要程度进行区分。最后,将所提取的注意力得分作为融合权重,使用加权求和的方式,将帧级特征表达融合为视频特征表达,该具体实现步骤如下:
一、从视频样本中提取固定数量的帧:
本发明实施例旨在利用注意力机制,在将帧级特征表达融合为视频特征表达时,有效地突出视频特征表达中与目标行为相关性强的信息,减弱视频特征表达中与目标行为无关的信息。本发明实施例使用卷积神经网络提取帧级特征表达,流程如下:
设视频数据集V={v1,v2,…,vn}包含n个视频样本,vi表示数据集中第i个视频,一个视频样本由若干有序的视频帧组成。出于视频帧间信息冗余性以及计算复杂度的考量,本发明实施例中对视频帧进行稀疏采样操作:首先将视频分为等长的T段序列,然后从每一段序列中随机采样一帧图像。用ft i表示第i个视频中采样到的第t帧图像,则视频内容可以表示为:对视频帧ft i使用卷积神经网络对其进行特征表达提取,所对应的特征表达表示为其中H,W表示特征表达的空间大小,C表示特征表达的通道维度,则视频vi可以由帧级特征表达表示: 为视频vi中所采样第T帧的特征表达,即所采样的最后一帧的特征表达。
二、聚合帧级信息,生成视频特征表达
本发明实施例旨在通过区分视频特征中不同部分对于准确识别该视频内行为的重要程度,实现视频特征的优化,提高视频行为识别的性能。特别地,本发明实施例能够区分视频中不同帧特征以及帧级特征的不同通道的重要程度。首先对所提取的3维视频张量进行空域全局平均处理,融合特征中的空域信息,以获取不同帧的通道级特征表达;然后将不同帧的通道级特征表达聚合为视频级的特征表达,使得在注意力得分的提取过程中,能够参考完整的视频信息。
1)空域信息融合
其中,为第i个视频中第t帧图像对应的通道级特征表达,H为帧级特征表达的高,W为帧级特征表达的宽,为帧级特征表达中(h,w)位置的元素。该操作消除了每一帧中的空间结构信息,获取视频帧的通道级特征表达。该通道级特征表达将作为待优化的特征,经通道级时域注意力优化后转换为视频特征表达。
2)时域信息聚合
为了获取用于提取注意力得分的视频特征表达,以使得每一个注意力得分的计算过程都参考完整的视频信息,本发明实施例设计了时域信息聚合,用于将上述的帧级特征表达聚合为视频特征表达,该过程可表示为:
其中,[·]表示沿通道的特征级联操作,该过程将不同帧的特征表达聚合成完整的视频特征表达,为第i个视频中所采样第T帧的通道级特征表达。该视频特征表达由所有采样帧的通道级特征表达组合而成,包含了整个视频的信息,其将用于通道级时域注意力的提取,加强注意力提取过程中的帧间信息交互。
三、提取通道级时域注意力得分
为了同时区分视频中不同帧特征以及帧级特征中不同通道的重要程度,本发明实施例设计了一种注意力得分提取方法,称为通道级时域注意力提取方法,该方法能够为帧级特征表达中每一个通道都计算出一个描述其重要程度的分值,同时对视频中不同帧特征以及帧级特征中不同通道进行重要程度的比较,从而突出不同通道上的关键信息。
首先,基于上一步中获得的视频特征表达Xi*,本发明实施例设计了一种注意力得分提取方法以获取通道级时域注意力得分,注意力得分的获取过程可表示为:
为了获取单峰值(one-hot)的相对注意力得分,使用softmax函数对上述注意力得分进行归一化处理,该过程表示为:
四、使用注意力得分优化原始视频特征
基于上述步骤获取的注意力得分,本发明实施例将上面获得的相对注意力得分作为权重,使用加权求和的方式,将帧级的特征表达融合为视频特征表达该过程能够提高关键信息在视频特征表达中的占比,降低非相关信息对行为识别的影响,从而实现视频特征表达的优化。该过程表示为:
五、基于优化后的视频特征表达,实现行为识别
实施例2
下面结合图2对实施例1中的方案进行可行性验证,详见下文描述:
图像为从视频样本中截取的帧,各帧下方的标注为对应视频所属的正确类别。帧右侧的柱状图为本发明实施例的识别结果中概率排名前五位的类别。从图2中可以看出,本发明实施例可以准确地识别视频中目标的行为。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于注意力机制的视频行为识别方法,其特征在于,所述方法包括以下步骤:
采样视频帧,通过卷积神经网络从视频样本中提取所需的帧级特征表达;
对视频张量进行空域全局平均处理,融合特征中的空域信息,以获取不同帧的通道级特征表达,该通道级特征表达作为待优化特征;将该通道级特征表达聚合为视频级特征表达,该视频级特征表达将用于注意力得分的提取,加强帧间信息交互;
利用通道级时域注意力提取,计算出与所提取的帧级特征表达相对应的通道级时域注意力得分,该分值能够比较不同帧对于识别视频内目标行为的重要程度,同时能对单一帧内的不同通道进行重要程度的区分,突出不同通道上的关键信息;
将所获得的注意力得分作为权重系数,使用加权求和,将帧级特征表达融合为视频级特征表达,实现特征表达的优化;
其中,所述将通道级特征表达聚合为视频级特征表达具体为:
所述通道级时域注意力提取具体为:
所述方法还包括:
使用softmax函数对注意力得分进行归一化处理,该处理沿时域进行,各通道间相互独立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910558302.3A CN110287879B (zh) | 2019-06-26 | 2019-06-26 | 一种基于注意力机制的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910558302.3A CN110287879B (zh) | 2019-06-26 | 2019-06-26 | 一种基于注意力机制的视频行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287879A CN110287879A (zh) | 2019-09-27 |
CN110287879B true CN110287879B (zh) | 2023-01-17 |
Family
ID=68005816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910558302.3A Active CN110287879B (zh) | 2019-06-26 | 2019-06-26 | 一种基于注意力机制的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287879B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807437B (zh) * | 2019-11-08 | 2023-01-03 | 腾讯科技(深圳)有限公司 | 视频粒度特征确定方法、装置和计算机可读存储介质 |
CN111259781B (zh) * | 2020-01-14 | 2023-07-28 | 网易(杭州)网络有限公司 | 视频分类方法及装置、存储介质和电子设备 |
CN113627218A (zh) * | 2020-05-08 | 2021-11-09 | 北京邮电大学 | 基于视频数据的人物识别方法及装置 |
CN111783699A (zh) * | 2020-07-06 | 2020-10-16 | 周书田 | 一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法 |
CN112560827B (zh) * | 2021-02-24 | 2021-11-19 | 北京澎思科技有限公司 | 模型训练方法、装置、预测方法、电子设备及介质 |
CN113688729B (zh) * | 2021-08-24 | 2023-04-07 | 上海商汤科技开发有限公司 | 一种行为识别方法及装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1549171A (zh) * | 2003-05-15 | 2004-11-24 | 季永萍 | 基于网格计算的高新技术市场界定标准的实现装置 |
GB201501510D0 (en) * | 2015-01-29 | 2015-03-18 | Apical Ltd | System |
US10089556B1 (en) * | 2017-06-12 | 2018-10-02 | Konica Minolta Laboratory U.S.A., Inc. | Self-attention deep neural network for action recognition in surveillance videos |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845351A (zh) * | 2016-05-13 | 2017-06-13 | 苏州大学 | 一种用于视频的基于双向长短时记忆单元的行为识别方法 |
US10503978B2 (en) * | 2017-07-14 | 2019-12-10 | Nec Corporation | Spatio-temporal interaction network for learning object interactions |
CN108388900B (zh) * | 2018-02-05 | 2021-06-08 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN109740419B (zh) * | 2018-11-22 | 2021-03-02 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
-
2019
- 2019-06-26 CN CN201910558302.3A patent/CN110287879B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1549171A (zh) * | 2003-05-15 | 2004-11-24 | 季永萍 | 基于网格计算的高新技术市场界定标准的实现装置 |
GB201501510D0 (en) * | 2015-01-29 | 2015-03-18 | Apical Ltd | System |
US10089556B1 (en) * | 2017-06-12 | 2018-10-02 | Konica Minolta Laboratory U.S.A., Inc. | Self-attention deep neural network for action recognition in surveillance videos |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的视频行为识别技术研究;余兴;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20180915(第9期);参见正文第13,20-38,51-52页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110287879A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287879B (zh) | 一种基于注意力机制的视频行为识别方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN109241317B (zh) | 基于深度学习网络中度量损失的行人哈希检索方法 | |
CN109063565B (zh) | 一种低分辨率人脸识别方法及装置 | |
Liu et al. | A hierarchical visual model for video object summarization | |
Qiu et al. | Mining discriminative food regions for accurate food recognition | |
CN112989977B (zh) | 一种基于跨模态注意力机制的视听事件定位方法及装置 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN102385592B (zh) | 图像概念的检测方法和装置 | |
Huang et al. | Modeling sub-actions for weakly supervised temporal action localization | |
CN112836675B (zh) | 一种基于聚类生成伪标签的无监督行人重识别方法及系统 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN112329536A (zh) | 一种基于交替对抗迁移学习的单样本人脸识别方法 | |
US20240161531A1 (en) | Transformer-based multi-scale pedestrian re-identification method | |
CN115063832A (zh) | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 | |
CN113850311A (zh) | 一种基于分组和多样性增强的长尾分布图像识别方法 | |
CN115169386A (zh) | 一种基于元注意力机制的弱监督增类活动识别方法 | |
Li et al. | Egocentric action recognition by automatic relation modeling | |
CN113850182A (zh) | 基于DAMR_3DNet的动作识别方法 | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
CN116956128A (zh) | 一种基于超图的多模态多标签分类方法及系统 | |
CN116721458A (zh) | 一种基于跨模态时序对比学习的自监督动作识别方法 | |
CN113705713B (zh) | 一种基于全局和局部注意力机制的文本识别方法 | |
Sun et al. | Video-based parent-child relationship prediction | |
CN114627492A (zh) | 一种双金字塔结构引导的多粒度行人重识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |