CN112131943B - 一种基于双重注意力模型的视频行为识别方法及系统 - Google Patents

一种基于双重注意力模型的视频行为识别方法及系统 Download PDF

Info

Publication number
CN112131943B
CN112131943B CN202010844141.7A CN202010844141A CN112131943B CN 112131943 B CN112131943 B CN 112131943B CN 202010844141 A CN202010844141 A CN 202010844141A CN 112131943 B CN112131943 B CN 112131943B
Authority
CN
China
Prior art keywords
feature
attention model
initial
matrix
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010844141.7A
Other languages
English (en)
Other versions
CN112131943A (zh
Inventor
李岩山
刘燕
谢维信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202010844141.7A priority Critical patent/CN112131943B/zh
Publication of CN112131943A publication Critical patent/CN112131943A/zh
Application granted granted Critical
Publication of CN112131943B publication Critical patent/CN112131943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双重注意力模型的视频行为方法及系统,利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征;利用通道注意力模型对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法,不仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力,提高单人行为和群体行为的识别准确率,并且具有更高的精度和鲁棒性。

Description

一种基于双重注意力模型的视频行为识别方法及系统
技术领域
本发明涉及行为识别技术领域,具体涉及一种基于双重注意力模型的视频行为识别方法及系统。
背景技术
近年来,行为识别算法发展迅速,基于深度学习的群体行为识别也取得了良好的效果。邓等提出了分层图模型组合,在神经网络层之间使用了多步信息传递方法。Li和Chuah提出了一种基于语义的方法,该方法为每个视频帧生成字幕,使用two-stage LSTM模型基于每个视频的语义字幕识别群体行为。Bagautdinov等建立了一个统一的框架来理解多人的社会行为。他们的框架能够共同检测多个人,推断他们的社交行为,并通过神经网络进一步预测群体行为。
行为识别既包括单人执行一系列动作以完成某项任务,即个人行为识别,也包括许多人分散在一个大的空间里,共同努力完成一个共同的任务,即群体行为识别。在群体识别任务中,层次化的框架被广泛应用于表征个体之间以及个体与对应群体之间的关系,取得了较好的识别性能。但是,现有的方法只是简单的应用全局特征到网络框架,忽略了加强全局特征和局部特征中相对重要的特征,这导致图像或视频的重要部分不能被重点关注,使得行为识别结果准确率较低。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中视频行为识别方法导致重要部分不能被重点关注,使得行为识别准确率结果较低的缺陷,从而提供一种双重注意力模型的视频行为识别方法及系统。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供基于双重注意力模型的视频行为识别方法,包括如下步骤:
获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型;
基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS
基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数处理,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC
将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;
基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。
在一实施例中,将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS的过程,包括:
将初始特征
Figure BDA0002642461070000031
输入卷积层中,分别生成两个新的特征图B和C,其中
Figure BDA0002642461070000032
将特征图B和特征图C变维为/>
Figure BDA0002642461070000033
其中N=H×W是像素数,H为像素高度,W为像素宽度,C为特征图的通道;
对特征图B的转置和特征图C执行矩阵乘法,得到转置矩阵;
基于转置矩阵利用Softmax激活函数计算空间注意力特征图
Figure BDA0002642461070000034
将初始特征
Figure BDA0002642461070000035
输入卷积网络,生成新的特征图/>
Figure BDA0002642461070000036
矩阵变维成
Figure BDA0002642461070000037
在特征图D和特征图S的转置之间执行矩阵乘法,并将矩阵乘法的结果变维
Figure BDA0002642461070000038
将变维后的结果乘以预设尺度参数,并用初始特征A进行基于元素的加运算,得到新特征
Figure BDA0002642461070000039
,如以下公式:
Figure BDA00026424610700000310
其中,α为尺度参数,
被初始化为0,在学习中α逐渐被分配更多的权重。
在一实施例中,初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC的过程,包括:
将原始特征
Figure BDA0002642461070000041
通过全局平均池化和最大池化获取通道描述
Figure BDA0002642461070000042
通过以下公式计算:
Figure BDA0002642461070000043
其中,AC为初始特征A的第c个通道,Ac(i,j)为第c个通道内位置为(i,j)的图像像素值,Fpool为全局池化,zavg,zmax为两路不同池化方法输出的全局描述符;
将全局描述符
Figure BDA0002642461070000044
经过全连接层后缩放变成/>
Figure BDA0002642461070000045
其中r为缩放参数,得到经过缩放的全局描述来捕获初始特征A中通道间的相关性S,通过以下公式计算:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
其中,
Figure BDA0002642461070000046
为第一层全连接层的权值,δ表示ReLU激活函数,/>
Figure BDA0002642461070000047
为第二层全连接层的权值,σ为Sigmod激活函数;
将相关性S与初始特征A通道矩阵相乘,得到通过通道注意力模型的特征表示MC,通过以下公式表示:
MC=Fscale(Ac,sc)=scAc
其中,Fscale(Ac,sc)表示标量sc与特征图
Figure BDA0002642461070000048
之间的通道方向乘法。
在一实施例中,获取待识别视频的初始特征A的过程,包括:对待识别视频进行多级特征提取后,利用深度全卷积网络对ROI进行初检测;利用马尔科夫随机场进行ROI的微调,获得最终ROI集合作为初始特征A。
在一实施例中,基于所述新特征D对于单人行为识别,将目标识别对象的ROI时间序列进行时序推理,通过接入两个全连接层和Softmax层得到单人行为的预测结果。
在一实施例中,基于所述新特征D对于群体行为识别,使用ROI匹配递归卷积网络进行群体行为的时序建模,生成群体行为的预测结果。
第二方面,本发明实施例提供基于双重注意力模型的视频行为识别系统,包括:
初始特征获取模块,用于获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型;
空间注意力模型处理模块,用于基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS
通道注意力模型处理模块,用于基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC
特征融合模块,用于将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;
行为识别模块,用于基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面的基于双重注意力模型的视频行为识别方法。
第四方面,本发明实施例提供一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本发明实施例第一方面的基于双重注意力模型的视频行为识别方法。
本发明技术方案,具有如下优点:
本发明提供的一种基于双重注意力模型的视频行为方法及系统,利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征;利用通道注意力模型对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法,不仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力,提高单人行为和群体行为的识别准确率,并且具有更高的精度和鲁棒性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于双重注意力模型的视频行为识别方法的一个具体示例的工作流程图;
图2为本发明实施例中空间注意力模型的示意图;
图3为本发明实施例中通道注意力模型的示意图;
图4为本发明实施例中双重注意力模型的示意图;
图5为本发明实施例中基于双重注意力模型的视频行为系统的一个具体示例的模块组成图;
图6为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供一种基于双重注意力模型的视频行为识别方法,可以应用于多种视频行为识别等场景,比如体育视频,包括精彩片断提取与传输、视频摘要、视频浏览与检索、球和运动员的检测与跟踪、行为与动作分析及索引、战术统计与策略分析、虚拟内容插入以及虚拟场景构造等等,几乎在所有运动中,例如棒球、足球、网球、排球等,都存在着体育视频行为识别,在这些体育比赛中,行为识别既包括单人执行一系列动作以完成某项任务,即个人行为识别,也包括许多人分散在一个大的空间里,共同努力完成一个共同的任务,即群体行为识别。
如图1所示,该方法具体包括如下步骤:
步骤S10:获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型。
本发明实施例中以排球比赛视频作为待识别视频作为举例,在排球运动中,由于不同队伍间的行为变化不同,队伍内部整体队员的运动方向具有一定的规律性,队员间的队服颜色一致。例如在排球比赛视频图像中,左侧队伍防守,右侧队伍处于进攻状态,右侧队员的整体进攻方向为从右向左,且右侧队伍的队服为白色,在运动方向相同的局部图像斑块中,它们具有相似的局部图案和纹理特征,基于此,本发明认为具有可区分性的特征表示对于行为识别是至关重要的。本发明提供的双重注意力模型,如图4所示,包括:空间注意力模型和通道注意力模型,其不仅仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力。
其中,空间注意力模型如图2所示,该模型能够将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征。目前的大多数卷积神经网络中融合不同特征的普遍方法是相加或者拼接,这样会造成对特征图的各个通道信息均采用了同样的权重,目标的特征信息没有被增强。本发明实施例引入面向视频的通道注意力模型,该模型如图3所示,对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。
本发明实施例对待识别视频进行多级特征提取后,利用深度全卷积网络对ROI进行初检测;利用马尔科夫随机场进行ROI的微调,获得最终ROI集合作为初始特征A,并行输入到空间注意力模型和通道注意力模型。
步骤S20:基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS
本发明实施例中,首先将初始特征
Figure BDA0002642461070000091
输入卷积层中,分别生成两个新的特征图B和C,其中/>
Figure BDA0002642461070000092
将特征图B和特征图C变维为/>
Figure BDA0002642461070000093
其中N=H×W是像素数,H为像素高度,W为像素宽度,C为特征图的通道。其中,新的特征图B和C分别如式(1)(2)所示。
Figure BDA0002642461070000101
Figure BDA0002642461070000102
其中,Ac、Bc、Cc表示第c个通道的特征图,K表示卷积核,f(·)表示激活函数,bc是卷积后特征图的偏置。
然后,将特征图B和C变维为
Figure BDA0002642461070000103
其中N=H×W是像素数,在此之后,对B的转置和C执行矩阵乘法,即BT*C。
在此基础上,利用特征相关函数sji度量第ith位置对jth位置的影响,如下式(3)所示,应用Softmax激活函数计算空间注意力特征图
Figure BDA0002642461070000104
Figure BDA0002642461070000105
两个位置的特征表示越相似,表征它们之间的相关性就越大,Softmax激活函数多用于分类过程中,它的作用是将神经元节点的输出映射为一列取值为(0,1)区间的概率向量,然后计算每一分类的概率进行多分类,选取对应概率最大的节点作为预测目标。
如图2所示,在将初始特征
Figure BDA0002642461070000106
经过卷积层生成两个新的特征图B和C的同时,也将初始特征/>
Figure BDA0002642461070000107
输入卷积网络,生成新的特征图/>
Figure BDA0002642461070000108
如式(4)所示:
Figure BDA0002642461070000109
并把矩阵变维成
Figure BDA00026424610700001010
然后在特征图D和特征图S的转置之间执行矩阵乘法,并将结果变维/>
Figure BDA0002642461070000111
即reshape(D*ST,H,W,C)。
将变维后的结果乘以预设尺度参数,并用初始特征A进行基于元素的加运算,得到新特征
Figure BDA0002642461070000112
,如式(5):
Figure BDA0002642461070000113
其中,α为尺度参数,被初始化为0,在学习中α逐渐被分配更多的权重。从式(5)可以看出,每个位置的特征
Figure BDA0002642461070000114
是所有位置和原始特征的加权和,逐像素相乘的方式获取到了不同像素之间的关联信息。因此空间注意力模型在语义信息方面具有全局性,并根据空间注意力矩阵选择性地聚合语义信息,相似的语义特征实现了相互增益,从而增强了类内紧凑性和语义一致性。
步骤S30:基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数处理,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC
本发明实施例如图3所示,将输入特征
Figure BDA0002642461070000115
通过全局平均池化和最大池化获取通道描述/>
Figure BDA0002642461070000116
zavg,zmax可通过公式(6)计算。
Figure BDA0002642461070000117
其中Ac为输入特征图A的第c个通道,Ac(i,j)指第c个通道内位置为(i,j)的图像像素值,Fpool为全局池化,zavg,zmax为两路不同池化方法输出的全局描述符,特征图A的输出为全局描述符的集合,这些全局描述符的统计信息表示整个图像。
经过上述操作后,网络仅仅得到了一个全局描述符,这个描述符并不能作为该通道的权重,描述符用于描述各个通道,为了利用全局描述生成的信息,将全局描述符经过级联的两个全连接层即FC层、ReLu激活函数、Sigmod激活函数,获取通道间的相关性,详细过程为:
输入全局描述
Figure BDA0002642461070000121
经过全连接层,将其缩放变成
Figure BDA0002642461070000122
其中r为缩放参数。两个全连接层一个RELU函数和Sigmoid激活函数用来获取通道间的相关性,全连接层能够很好的融合全部的输入特征信息,而Sigmoid函数也能够很好的将输入映射到0~1区间。最终得到经过缩放的全局描述,该操作旨在捕获特征图中通道间的相关性S,如式(7)所示。
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z)) (7)
其中,
Figure BDA0002642461070000123
为第一层FC的权值,δ表示ReLU激活函数,/>
Figure BDA0002642461070000124
为第二次FC后的权值,σ为Sigmod激活函数,ReLU与Sigmod为两种不同的激活函数。
获取到通道间的相关性S之后,将S与原输入A逐通道Hadamard相乘,得到通过通道注意力模型的特征表示MC
MC=Fscale(Ac,sc)=scAc (8)
其中Fscale(Ac,sc)表示标量sc与特征图
Figure BDA0002642461070000125
之间的通道方向乘法。
将特征图进行融合之后,原来的特征输入信息就融合了通道信息权重,然后将新得到的特征图MC作为该模型的输出传入到网络的下一层。
步骤S40:将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D。
该步骤如图4所示,将两个注意力模型的输出的新特征
Figure BDA0002642461070000131
和/>
Figure BDA0002642461070000132
进行加权融合到网络特征/>
Figure BDA0002642461070000133
中,获得新特征/>
Figure BDA0002642461070000134
该特征既融合了不同像素之间的关联信息,也融合了各特征中通道间的依赖性,提高了特征表示能力。
步骤S50:
基于所述新特征D对待识别视频分别进行单体行为和群体行为识别
本发明实施例基于新特征D对于单人行为识别,将目标识别对象的ROI时间序列进行时序推理,通过接入两个全连接层和Softmax层得到单人行为的预测结果;
基于所述新特征D对于群体行为识别,使用ROI匹配递归卷积网络进行群体行为的时序建模,生成群体行为的预测结果。
本发明实施例提供的基于双重注意力模型的视频行为方法,利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征;利用通道注意力模型对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法,不仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力,提高单人行为和群体行为的识别准确率,并且具有更高的精度和鲁棒性。
实施例2
本发明实施例提供一种基于双重注意力模型的视频行为系统,如图5所示,包括:
初始特征获取模块10,用于获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型。此模块执行实施例1中的步骤S10所描述的方法,在此不再赘述。
空间注意力模型处理模块20,用于基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS。此模块执行实施例1中的步骤S20所描述的方法,在此不再赘述。
通道注意力模型处理模块30,用于基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC。此模块执行实施例1中的步骤30所描述的方法,在此不再赘述。
特征融合模块40,用于将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;此模块执行实施例1中的步骤40所描述的方法,在此不再赘述。
行为识别模块50,用于基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。此模块执行实施例1中的步骤50所描述的方法,在此不再赘述。
本发明实施例提供的基于双重注意力模型的视频行为识别系统,利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征;利用通道注意力模型对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法,不仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力,提高单人行为和群体行为的识别准确率,并且具有更高的精度和鲁棒性。
实施例3
本发明实施例提供一种计算机设备,如图6所示,该设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图6以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例1中的基于多接入点的毫米波室内定位与角度估计方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。
一个或者多个模块存储在存储器52中,当被处理器51执行时,执行实施例1中的基于多接入点的毫米波室内定位与角度估计方法。
上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种基于双重注意力模型的视频行为识别方法,其特征在于,包括如下步骤:
获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型;
基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS,包括:
将初始特征
Figure FDA0004161867600000011
输入卷积层中,分别生成两个新的特征图B和C,其中
Figure FDA0004161867600000012
将特征图B和特征图C变维为/>
Figure FDA0004161867600000013
其中N=H×W是像素数,H为像素高度,W为像素宽度,C为特征图的通道;
对特征图B的转置和特征图C执行矩阵乘法,得到转置矩阵;
基于转置矩阵利用Softmax激活函数计算空间注意力特征图
Figure FDA0004161867600000014
将初始特征
Figure FDA0004161867600000015
输入卷积网络,生成新的特征图/>
Figure FDA0004161867600000016
矩阵变维成
Figure FDA0004161867600000017
在特征图D和特征图S的转置之间执行矩阵乘法,并将矩阵乘法的结果变维
Figure FDA0004161867600000018
将变维后的结果乘以预设尺度参数,并用初始特征A进行基于元素的加运算,得到新特征
Figure FDA0004161867600000019
如以下公式:
Figure FDA00041618676000000110
其中,α为尺度参数,被初始化为0,在学习中α逐渐被分配更多的权重;
基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数处理,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC,包括:
将原始特征
Figure FDA0004161867600000021
通过全局平均池化和最大池化获取通道描述
Figure FDA0004161867600000022
通过以下公式计算:
Figure FDA0004161867600000023
其中,AC为初始特征A的第c个通道,Ac(i,j)为第c个通道内位置为(i,j)的图像像素值,Fpool为全局池化,zavg,zmax为两路不同池化方法输出的全局描述符;
将全局描述符
Figure FDA0004161867600000024
经过全连接层后缩放变成/>
Figure FDA0004161867600000025
其中r为缩放参数,得到经过缩放的全局描述来捕获初始特征A中通道间的相关性S,通过以下公式计算:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
其中,
Figure FDA0004161867600000026
为第一层全连接层的权值,δ表示ReLU激活函数,/>
Figure FDA0004161867600000027
为第二层全连接层的权值,σ为Sigmod激活函数;
将相关性S与初始特征A通道矩阵相乘,得到通过通道注意力模型的特征表示MC,通过以下公式表示:
MC=Fscale(Ac,sc)=sc Ac
其中,Fscale(Ac,sc)表示标量sc与特征图
Figure FDA0004161867600000031
之间的通道方向乘法;
将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;
基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。
2.根据权利要求1所述的基于双重注意力模型的视频行为识别方法,其特征在于,获取待识别视频的初始特征A的过程,包括:
对待识别视频进行多级特征提取后,利用深度全卷积网络对ROI进行初检测;
利用马尔科夫随机场进行ROI的微调,获得最终ROI集合作为初始特征A。
3.根据权利要求2所述的基于双重注意力模型的视频行为识别方法,其特征在于,基于所述新特征D对于单人行为识别,将目标识别对象的ROI时间序列进行时序推理,通过接入两个全连接层和Softmax层得到单人行为的预测结果。
4.根据权利要求3所述的基于双重注意力模型的视频行为识别方法,其特征在于,基于所述新特征D对于群体行为识别,使用ROI匹配递归卷积网络进行群体行为的时序建模,生成群体行为的预测结果。
5.一种基于双重注意力模型的视频行为识别系统,其特征在于,包括:
初始特征获取模块,用于获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型;
空间注意力模型处理模块,用于基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS,包括:
将初始特征
Figure FDA0004161867600000041
输入卷积层中,分别生成两个新的特征图B和C,其中
Figure FDA0004161867600000042
将特征图B和特征图C变维为/>
Figure FDA0004161867600000043
其中N=H×W是像素数,H为像素高度,W为像素宽度,C为特征图的通道;
对特征图B的转置和特征图C执行矩阵乘法,得到转置矩阵;
基于转置矩阵利用Softmax激活函数计算空间注意力特征图
Figure FDA0004161867600000044
将初始特征
Figure FDA0004161867600000045
输入卷积网络,生成新的特征图/>
Figure FDA0004161867600000046
矩阵变维成
Figure FDA0004161867600000047
在特征图D和特征图S的转置之间执行矩阵乘法,并将矩阵乘法的结果变维
Figure FDA0004161867600000048
将变维后的结果乘以预设尺度参数,并用初始特征A进行基于元素的加运算,得到新特征
Figure FDA0004161867600000049
如以下公式:
Figure FDA00041618676000000410
其中,α为尺度参数,被初始化为0,在学习中α逐渐被分配更多的权重;
通道注意力模型处理模块,用于基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC,包括:
将原始特征
Figure FDA0004161867600000051
通过全局平均池化和最大池化获取通道描述
Figure FDA0004161867600000052
通过以下公式计算:
Figure FDA0004161867600000053
其中,AC为初始特征A的第c个通道,Ac(i,j)为第c个通道内位置为(i,j)的图像像素值,Fpool为全局池化,zavg,zmax为两路不同池化方法输出的全局描述符;
将全局描述符
Figure FDA0004161867600000054
经过全连接层后缩放变成/>
Figure FDA0004161867600000055
其中r为缩放参数,得到经过缩放的全局描述来捕获初始特征A中通道间的相关性S,通过以下公式计算:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
其中,
Figure FDA0004161867600000056
为第一层全连接层的权值,δ表示ReLU激活函数,/>
Figure FDA0004161867600000057
为第二层全连接层的权值,σ为Sigmod激活函数;
将相关性S与初始特征A通道矩阵相乘,得到通过通道注意力模型的特征表示MC,通过以下公式表示:
MC=Fscale(Ac,sc)=scAc
其中,Fscale(Ac,sc)表示标量sc与特征图
Figure FDA0004161867600000058
之间的通道方向乘法;
特征融合模块,用于将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;
行为识别模块,用于基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-4任一项所述的基于双重注意力模型的视频行为识别方法。
7.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-4任一项所述的基于双重注意力模型的视频行为识别方法。
CN202010844141.7A 2020-08-20 2020-08-20 一种基于双重注意力模型的视频行为识别方法及系统 Active CN112131943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010844141.7A CN112131943B (zh) 2020-08-20 2020-08-20 一种基于双重注意力模型的视频行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010844141.7A CN112131943B (zh) 2020-08-20 2020-08-20 一种基于双重注意力模型的视频行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN112131943A CN112131943A (zh) 2020-12-25
CN112131943B true CN112131943B (zh) 2023-07-11

Family

ID=73851709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010844141.7A Active CN112131943B (zh) 2020-08-20 2020-08-20 一种基于双重注意力模型的视频行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN112131943B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239822A (zh) * 2020-12-28 2021-08-10 武汉纺织大学 基于时空双流卷积神经网络的危险行为检测方法及系统
CN113569607A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 动作识别方法、装置、设备以及存储介质
CN112926485B (zh) * 2021-03-15 2022-09-23 河海大学 一种少样本水闸图像分类方法
CN113297964B (zh) * 2021-05-25 2022-11-15 周口师范学院 基于深度迁移学习的视频目标识别模型及方法
CN113223181B (zh) * 2021-06-02 2022-12-23 广东工业大学 一种弱纹理物体位姿估计方法
CN113255821B (zh) * 2021-06-15 2021-10-29 中国人民解放军国防科技大学 基于注意力的图像识别方法、系统、电子设备及存储介质
CN113255570B (zh) * 2021-06-15 2021-09-24 成都考拉悠然科技有限公司 一种感知视频片段关系的时序动作检测方法
CN113344146B (zh) * 2021-08-03 2021-11-02 武汉大学 基于双重注意力机制的图像分类方法、系统及电子设备
CN113963202A (zh) * 2021-10-19 2022-01-21 郑州大学 一种骨骼点动作识别方法、装置、电子设备及存储介质
CN113673489B (zh) * 2021-10-21 2022-04-08 之江实验室 一种基于级联Transformer的视频群体行为识别方法
CN113989940B (zh) * 2021-11-17 2024-03-29 中国科学技术大学 视频数据中动作识别方法、系统、设备与存储介质
CN114332715A (zh) * 2021-12-30 2022-04-12 武汉华信联创技术工程有限公司 气象自动观测积雪识别方法、装置、设备及存储介质
CN114125454A (zh) * 2022-01-26 2022-03-01 广东电网有限责任公司中山供电局 一种视频图像编码系统及方法
CN114842411A (zh) * 2022-04-02 2022-08-02 深圳先进技术研究院 一种基于互补时空信息建模的群体行为识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871777A (zh) * 2019-01-23 2019-06-11 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110110689A (zh) * 2019-05-15 2019-08-09 东北大学 一种行人重识别方法
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871777A (zh) * 2019-01-23 2019-06-11 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110110689A (zh) * 2019-05-15 2019-08-09 东北大学 一种行人重识别方法
CN110188685A (zh) * 2019-05-30 2019-08-30 燕山大学 一种基于双注意力多尺度级联网络的目标计数方法及系统
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
CN111401174A (zh) * 2020-03-07 2020-07-10 北京工业大学 一种基于多模态信息融合的排球群体行为识别方法

Also Published As

Publication number Publication date
CN112131943A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN112131943B (zh) 一种基于双重注意力模型的视频行为识别方法及系统
Wang et al. Detect globally, refine locally: A novel approach to saliency detection
Zhu et al. Visdrone-det2018: The vision meets drone object detection in image challenge results
Cong et al. An iterative co-saliency framework for RGBD images
Xu et al. Deep image matting
Zhang et al. Hierarchical feature fusion with mixed convolution attention for single image dehazing
Pan et al. DACNN: Blind image quality assessment via a distortion-aware convolutional neural network
Bhattacharjee et al. Temporal coherency based criteria for predicting video frames using deep multi-stage generative adversarial networks
CN111353498A (zh) 用于通过语义分割提供主导场景分类的系统和方法
Pezzementi et al. Putting image manipulations in context: robustness testing for safe perception
CN111047626B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN110166826B (zh) 视频的场景识别方法、装置、存储介质及计算机设备
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN108805151B (zh) 一种基于深度相似性网络的图像分类方法
Fang et al. Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks
Kim et al. Multiple level feature-based universal blind image quality assessment model
CN112131944B (zh) 一种视频行为识别方法及系统
CN114663593B (zh) 三维人体姿态估计方法、装置、设备及存储介质
Tsagkatakis et al. Goal!! event detection in sports video
Wang et al. Aspect-ratio-preserving multi-patch image aesthetics score prediction
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
Ahmadi et al. Efficient and fast objects detection technique for intelligent video surveillance using transfer learning and fine-tuning
Tang et al. Deep saliency quality assessment network with joint metric
Ding et al. Pyramid context learning for object detection
Şah et al. Review and evaluation of player detection methods in field sports: Comparing conventional and deep learning based methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant