CN116402811A - 一种打架斗殴行为识别方法及电子设备 - Google Patents
一种打架斗殴行为识别方法及电子设备 Download PDFInfo
- Publication number
- CN116402811A CN116402811A CN202310661177.5A CN202310661177A CN116402811A CN 116402811 A CN116402811 A CN 116402811A CN 202310661177 A CN202310661177 A CN 202310661177A CN 116402811 A CN116402811 A CN 116402811A
- Authority
- CN
- China
- Prior art keywords
- short
- fighting
- time
- time action
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 94
- 230000007246 mechanism Effects 0.000 claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 54
- 230000006399 behavior Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 241000282414 Homo sapiens Species 0.000 abstract description 10
- 230000003287 optical effect Effects 0.000 abstract description 6
- 239000013598 vector Substances 0.000 description 14
- 239000000284 extract Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009476 short term action Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种打架斗殴行为识别方法及电子设备,本发明将视频保存9帧,16帧,25帧三种时间块,且编码为短时动作序列,分别识别不同的短时动作,引入时间维度的多头自注意力机制,加强对重要短时动作的识别并结合多种短时动作的信息对打架斗殴进行识别。本发明无需提取出画面中人体的骨骼数据或者光流数据,就能实时检测打架斗殴行为,具有低延迟、识别速度快的特征,同时充分利用了不同的短时动作的信息,且对不同短时动作进行了有重点的融合,更为准确。
Description
技术领域
本发明涉及图像识别领域,特别是涉及一种打架斗殴行为识别方法及电子设备。
背景技术
本发明的技术背景:为了保障安全、维护秩序,很多公共场所都安装了摄像头来检测异常行为,其中打架斗殴是一种影响非常恶劣,且十分危险的异常行为。实时识别出打架斗殴事件,能够协助工作人员在第一时间赶到事发现场进行劝阻,防止事态进一步恶化。
因此为了快速识别出打架斗殴行为,发明专利申请CN2019107782869提供了一种打架斗殴行为的识别方法,包括以下步骤:步骤A:通过监控视频获取数据,使用隔帧法提取视频数据,通过模型识别出视频内的目标人物,以及目标人物的肢体骨骼数据;步骤B:判断检测的目标人物的数量;步骤C:计算当前帧数据的目标人物数据对于上一帧数据的每一个目标人物数据的交叠率;步骤D:计算出目标人物的运动速度;步骤E:对目标人物状态的判断,计算目标人物肢体摆动幅度;步骤F:根据步骤A、步骤B、步骤C、步骤D和步骤E的结果判断打架斗殴行为。
发明专利申请CN2019112440787公开了一种基于视频的打架斗殴检测方法,基于目标检测方法对视频中的人体目标进行有效检测,而后利用骨架提取算法提取人体骨架关键点信息,包括连续多帧的每个人体的骨架关键点2D坐标信息,构建成骨架序列,并在骨架序列上构建时空卷积图,同时将时空卷积图输入已训练好的多层时空卷积网络(st-gcn)进行动作识别;利用本方法可精准识别打架斗殴等动作行为,可广泛应用于车站、机场、超市、商业街区、运动场等重要公众场合,实现实时预警。
发明专利201710161500.7公开了一种基于视频分析的打架斗殴异常行为自动检测方法,在现有的光流方法计算结果的基础上,增加视角调整系数矩阵,经过改进后的光流矢量将更加准确的体现出具有纵向透视视角场景下目标的运动特征。
但是,上述方法实时识别打架斗殴行为还有诸多难点。首先,进行打架斗殴识别通常需要提取出画面中人体的骨骼数据或者光流数据,然后根据这些数据判断是否发生打架斗殴事件。但是人体关键点检测与光流数据计算耗时很长,难以实现实时识别。其次,人体关键点识别易受背景干扰,难以在与训练数据背景不同的环境下取得较好的效果,常常将类似人体的物品当作人类,为后续准确判断带来了极大困难。而且打架斗殴动作种类多、参与人数不一,易与跳舞、人群拥挤等事件混淆,仅仅根据单张图片或者一个短时动作无法准确分辨。
发明内容
为解决上述技术问题,本发明提出了一种打架斗殴行为识别方法及电子设备。本发明的目的通过以下技术方案实现:
一种打架斗殴行为识别方法,包括如下步骤:
S1、获得视频流数据中的图片帧序列,将某一图片帧对应的n个短时动作队列作为一组数据;所述短时动作队列包括当前图片帧及当前图片帧的前若干个图片帧;不同短时动作队列中的图片帧数量不同;将短时动作队列中的图像帧均匀分成m个图像块并按顺序编号,每个短时动作队列形成m个时空动作队列并进行人工标注形成训练数据集,n≥2,m≥4;
S2、将数据集输入待训练的多头自注意力机制模型训练得到训练好的多头自注意力机制模型;所述待训练的多头自注意力机制模型将相邻的时空动作队列结合得到融合队列,然后提取融合队列的识别类别Xi cls;所述识别类别包括打架斗殴和没打架斗殴两个类别;然后将每组数据中的时空动作队列的识别类别Xi cls使用一个全局编码器编码为一组融合多帧信息的向量V,最后利用一个全连接层将全局编码器输出的向量映射到打架和没打架两个类别,输出打架斗殴的概率;
S3、读取视频流,获取当前图片帧i,将当前图片帧i对应的n个短时动作队列的时空动作队列输入训练好的识别模型输出打架斗殴的概率;
S4、将当前图片帧i对应的打架斗殴的概率P与预设阈值L进行比较,若P≥L则判断为发生了打架斗殴,进行报警。
进一步的改进,所述步骤S1中,n=3,m=9。
进一步的改进,所述步骤S1中短时动作队列l i =l i1 ,l i2 ,l i3 ;l i1 ,l i2 ,l i3 ∈Rt×h×w×C分别表示9个图片帧,16个图片帧和25个图片帧的短时动作队列,其中,R表示实数集,t表示时间,h表示高,w表示宽,C表示通道数;各短时动作队列中的图片帧均按照九宫格形式均分成九份,得到对应的时空动作队列l ij =l1 ij ,...,l9 ij ;i=1,2,3。
进一步的改进,步骤S2中,先将短时动作队列l i =l i1 ,l i2 ,l i3 均输入大小为t×h×w的三维卷积核进行三维卷积得到特征图z i1 ,z i2 ,z i3 ;z ij =z1 ij ,...,z9 ij, j=1,2,3;z9 ij 表示第i个图片帧对应的第j个短时动作队列中的第9个时空动作队列;对每个短时动作队列添加可学习的类别zij cls和位置编码Pi,得到多头自注意力机制模型的输入序列:
zij=[zij cls,z1 ij ,...,z9 ij ]+Pi
zij cls表示短时动作l ij 的类别。
进一步的改进,所述多头自注意力机制模型在训练时,为每组输入序列zij单独训练h组权重矩阵,每组权重矩阵均包括Query权重矩阵WQ,Key权重矩阵Wk和Value权重矩阵WV。
进一步的改进,所述步骤S3中,
将输入序列zij分别和h组训练过的权重矩阵W a Q ,W a K 和W a V 相乘,得到h组权重矩阵Qa、Ka、Va,a=1,2,...,h;然后根据h组权重矩阵得到h个自注意力矩阵,将h个自注意力矩阵拼接,把拼接后的矩阵和一个可学习的权重矩阵W0相乘,得到最终的多头自注意力矩阵Z ij =[Zij cls,Z1 ij ,...,Z9 ij ],然后将将两个相邻的时空动作队列的键和值投射到相同的维度,再利用自注意力机制融合两个相邻的时空动作队列,得到融合队列Xi=[Xi cls,X ia ,X ia+1 ],从每个融合队列中提取识别类别Xi cls。具体步骤如下:
将输入序列zij分别和h组训练过的权重矩阵W a Q ,W a K 和W a V 相乘,得到h组Query矩阵Qa,Key矩阵Ka,Value矩阵Va矩阵,a=1,2,...,h;
Qa=[Q11,...,Qh9]
Ka=[K11,...,Kh9]
Va=[V11,...,Vh9]
计算h个自注意力矩阵:其中,d ij代表输入序列z ij 的长度;/>表示短时动作队列l ij 经过多头自注意力机制后第h个头提取的自注意力矩阵;softmax()表示归一化函数,C为分类的类别数,通过Softmax函数将多头自注意力机制模型的输出值转换为范围在[0, 1]的概率分布;/>表示Query矩阵中第j列,khj表示Key矩阵中第j列,T表示矩阵转置;
两个相邻的时空动作队列进行结合:
将两个相邻的时空动作队列的键和值投射到相同的维度:
x
i1
=WZ
i1
、x
i2
=WZ
i2
...x
i9
=WZ
i9
x i1 表示Z i1 降维后的矩阵,W表示可学习的降维矩阵,Z i1 表示第一个多头自注意力矩阵;
得到融合队列Xi=[Xi cls,X ia ,X ia+1 ]。
从每个融合队列中提取识别类别Xi cls。
进一步的改进,所述多头自注意力机制模型为transformer模型。
进一步的改进,L≥70%。
一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述方法的步骤。
本发明的有益效果在于:
本发明无需提取出画面中人体的骨骼数据或者光流数据,能实时检测打架斗殴行为,具有低延迟、高精度的性能。
本发明只需要一个模型就能实现打架斗殴行为识别,便于部署。
本发明识别打架斗殴行为时,充分利用了不同的短时动作的信息,且对不同短时动作进行了有重点的融合,判断更为准确。
附图说明
利用附图对本发明做进一步说明,但附图中的内容不构成对本发明的任何限制。
图1为本发明的流程示意图;
图2为本发明的数据流动示意图;
图3为短时动作队列示意图;
图4为多头自注意力机制流程图;
图5为短时动作出拳示意图a;
图6为短时动作出拳示意图b;
图7为短时动作出拳示意图c。
具体实施方式
为了使发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步的详细说明。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其他实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其他实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
如图1所示的一种打架斗殴行为识别方法,包括如下步骤:
S1、获得视频流数据中的图片帧序列,将某一图片帧对应的至少n个短时动作队列作为一组数据;所述短时动作队列包括当前图片帧及当前图片帧的前若干帧;不同短时动作队列中的图片帧数量不同;将短时动作队列中的图像帧均匀分成m个图像块并按顺序编号,每个短时动作队列形成m个时空动作队列并进行人工标注形成训练数据集,n≥2,m≥4;
S2、将数据集输入待训练的多头自注意力机制模型训练得到训练好的多头自注意力机制模型;所述待训练的多头自注意力机制模型将相邻的时空动作队列结合得到融合队列,然后提取融合队列的识别类别Xi cls;所述识别类别包括打架斗殴和没打架斗殴两个类别;然后将每组数据中的时空动作队列的识别类别Xi cls使用一个全局编码器编码为一组融合多帧信息的向量V,最后利用一个全连接层将全局编码器输出的向量映射到打架和没打架两个类别,输出打架斗殴的概率;
S3、读取视频流,获取当前图片帧i,将当前图片帧i对应的n个短时动作队列的时空动作队列输入训练好的识别模型输出打架斗殴的概率;
S4、将当前图片帧i对应的打架斗殴的概率P与预设阈值L进行比较,若P≥L则判断为发生了打架斗殴,进行报警。
其中多头自注意力机制模型选择transformer模型,transformer模型是一种常见的机器学习模型,其通过将数据输入多层的transformer网络中,通过自注意力基质来学习数据之间的关系,编码其上下文信息,初始是用在自然语言处理领域。其通过一个前馈网络经过非线性变化,输出综合了上下文特征的各个词的向量表示,每一层transformer网络主要由多头自注意力机制和前馈网络层两个子层构成。多头自注意力机制会并行的执行多个参数的自注意力,并将各个自注意力的结果拼接作为后续网络的而输入,伺候得到蕴含当前上下文信息的各个词的表示,然后网络会将其输入到前馈网络层以计算非线性层次的特征。而在每一层transformer网络中,会将残差连接吧自注意力机制前或前馈神经网络之前的箱梁引入进来,以增强自注意力机制或前馈网络的输出结果向量。并且还做一个归一化层,通过归一化把同层的各个节点的多维向量映射到一个区间里面,这样各层节点的箱梁在一个区间里面,这两个操作加入在每个子层后,可更加平滑的训练深层次网络。
transformer模型可用于编码,也可以用于解码,所谓解码就是根据一个数据的输入得到一个预想的结果。解码时,已经解码出来的此要做一个自注意力基质,之后和编码得到的隐状态的序列再做一个注意力机制,这样可以做N层,然后通过一个线性层映射到词表的代傲的一个向量,每个向量代表一个词表词的输出可能性,经过一个softmax层得到每个词的输出概率。
transformer模型在自然语言处理领域有不错的效果,但是其也可以用于计算机视觉领域,其经常与卷积网络结合使用,或替换卷积网络的某些组件,同时保持器整体结构。也有的会摆脱CNN的舒服,直接将图像分块形成图像块序列,然后输入transformer模型中执行图像分类任务。步骤通常是将一幅图像分割成为多个图像块,然后将这些图像块的线性嵌入序列作为transformer模型的输入,图像块与NLP中的token的处理方式相同,然后采用有加密度的方式对模型进行图像分类训练。
因此,在实际应用中,transformer模型可以用于数据预处理、特征提取、数据清洗等任务,也可以用于图像识别领域,如本发明所示即用于图像识别领域。
在进行数据训练和实时识别时,首先要读取实时视频流,获取图片帧,将图片帧进行缩放、归一化,得到大小为224x224的Img i 。由于仅仅根据一张图片难以判断是否发生打架斗殴行为,因为手部挥动时可能在打招呼,也可能在打架斗殴,因此需要结合历史信息,判断是否发生了斗殴。
由于打架斗殴时,做出不同的动作如快速抬手、快速挥手和快速出拳等短时动作时,需要动作时间不同,而且同一个动作不同的人的动作时间不同,因此若设置固定的时间间隔内的图片帧,即单一固定的图片帧数进行判断是否打架斗殴是,很容易出现判断错误。因此为了准确地提取时间特征,本发明设置了多个汉语不同连续图像帧数量的短时动作队列。
具体的,为了准确地提取时间特征,针对第i帧针对时间纬度构建短时动作队列l i =l i1 ,l i2 ,l i3 ∈Rt×h×w×C,其中l i1 ,l i2 ,l i3 分别表示前9个图像帧,前16个图像帧,前25个图像帧的短时动作队列,其中,R表示实数集,t表示时间,h表示高,w表示宽,C表示通道数的短时动作队列。
而为了准确地提取空间特征,本发明将每个图像帧分割成多个图像块,具体的在本实施例中为9个图像块,如图3所示,形成九宫格的方式,即在不同的短时动作队列又分别在图像纬度分为9段,得时空动作队列l ij =l1 ij ,...,l9 ij ,如图3所示。其中,一般摄像头的摄像速度为每秒25帧,而如快速抬手、快速挥手和快速出拳等短时动作所有人均能在1s内完成,因此在其中还设置前9帧,前16帧,分别用于识别不同时间段内的人的动作。
前9个图像帧,前16个图像帧,前25个图像帧的短时动作队列通过大小为t×h×w的三维卷积核进行三维卷积得到特征图z i =z i1 ,z i2 ,z i3 ,其中z ij =z1 ij ,...,z9 ij .添加一个可学习的类别zi cls和位置编码Pi,得到输入序列
zij=[zij cls,z1 ij ,...,z9 ij ]+Pi
对输入序列引入多头自注意力机制,原理如图4所示,具体情况如下:
为每组输入序列zij单独训练h个不同的权重矩阵WQ,Wk和WV;WQ为Query权重矩阵、Wk为Key权重矩阵,WV为Value权重矩阵。
具体的对于当前的输入向量,我们称之为 query,它对应有 WQ 这个权重矩阵,query 的值为权重矩阵乘以输入向量,也就是 qi=W Q ·ai 。 而query 外的其他的输入向量,则被被成为 key,其对应有 Wk 这个权重向量,key 的值为权重矩阵乘以这个其它输入向量,也就是 ki=Wk·aj(j可能等于i) 权重 采用点积(Dot-product)的方式,比如说query1 和 key2 的关联度,就为二者的点积,点积结果越大两者的关系越密切;WV矩阵即Value权重矩阵又称为价值矩阵。
将输入序列zij分别和h组训练过的权重矩阵W a Q ,W a K 和W a V 相乘,得到h组Query矩阵Qa,Key矩阵Ka,Value矩阵Va矩阵,a=1,2,...,h;
Qa=[Q11,...,Qh9]
Ka=[K11,...,Kh9]
Va=[V11,...,Vh9]
其中,d ij代表输入序列z ij 的长度;表示短时动作队列l ij 经过多头自注意力机制后第h个头提取的自注意力矩阵;softmax()表示归一化函数,C为分类的类别数,通过Softmax函数将多头自注意力机制模型的输出值转换为范围在[0, 1]的概率分布;/>表示Query矩阵中第j列,khj表示Key矩阵中第j列,T表示矩阵转置;
两个相邻的时空动作队列进行结合:
将两个相邻的时空动作队列的键和值投射到相同的维度:
x
i1
=WZ
i1
、x
i2
=WZ
i2
...x
i9
=WZ
i9
x i1 表示Z i1 降维后的矩阵,W表示可学习的降维矩阵,Z i1 表示第一个多头自注意力矩阵;
得到融合队列Xi=[Xi cls,X ia ,X ia+1 ]。
从每个融合队列中提取识别类别Xi cls。
然后根据从每个短时动作队列中提取类别Xi cls,并使用一个全局编码器进一步处理它们,最后利用一个全连接层映射到2个类别输出打架斗殴与非打架斗殴的概率。
本发明由于打架斗殴行为中,不同的动作或相同的动作花费时间不同,因此本发明将视频保存9帧,16帧,25帧三种时间块,且编码为短时动作序列,分别识别不同的短时动作。
打架斗殴行为中,挥手等动作比较重要,移动等动作相对而言不太具有区分度,因此本发明引入时间维度的多头自注意力机制,加强对重要短时动作的识别。
识别打架斗殴行为需要结合多种短时动作的信息,因此本发明引入了时空特征融合模块,将不同的短时动作进行结合,从而对打架斗殴的识别更加准确。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种打架斗殴行为识别方法,其特征在于:包括如下步骤:
S1、获得视频流数据中的图片帧序列,将某一图片帧对应的n个短时动作队列作为一组数据;不同短时动作队列中的图片帧数量不同;将短时动作队列中的图像帧均匀分成m个图像块并按顺序编号,每个短时动作队列形成m个时空动作队列并进行人工标注形成数据集,n≥2,m≥4;
S2、将数据集输入待训练的多头自注意力机制模型训练得到训练好的多头自注意力机制模型;
S3、读取视频流,获取当前图片帧i,将当前图片帧i对应的n个短时动作队列的时空动作队列输入训练好的识别模型输出打架斗殴的概率;
S4、将当前图片帧i对应的打架斗殴的概率P与预设阈值L进行比较,若P≥L则判断为发生了打架斗殴,进行报警。
2.如权利要求1所述的打架斗殴行为识别方法,其特征在于:所述步骤S1中,n=3,m=9。
3.如权利要求2所述的打架斗殴行为识别方法,其特征在于:所述步骤S1中短时动作队列l i =l i1 ,l i2 ,l i3 ;l i1 ,l i2 ,l i3 分别表示9个图片帧,16个图片帧和25个图片帧的短时动作队列。
4.如权利要求3所述的打架斗殴行为识别方法,其特征在于:步骤S2中,先将短时动作队列l i =l i1 ,l i2 ,l i3 均输入大小为t×h×w的三维卷积核进行三维卷积得到特征图z i1 ,z i2 ,z i3 ;z ij =z1 ij ,...,z9 ij, j=1,2,3;z9 ij 表示第i个图片帧对应的第j个短时动作队列中的第9个时空动作队列;对每个短时动作队列添加可学习的类别zij cls和位置编码Pi,得到多头自注意力机制模型的输入序列:
zij=[zij cls,z1 ij ,...,z9 ij ]+Pi
zij cls表示短时动作l ij 的类别。
5.如权利要求4所述的打架斗殴行为识别方法,其特征在于:所述多头自注意力机制模型在训练时,为每组输入序列zij单独训练h组权重矩阵,每组权重矩阵均包括Query权重矩阵WQ,Key权重矩阵Wk和Value权重矩阵WV。
6.如权利要求5所述的打架斗殴行为识别方法,其特征在于:所述步骤S3中,
将输入序列zij分别和h组训练过的权重矩阵W a Q ,W a K 和W a V 相乘,得到h组权重矩阵Qa、Ka、Va,a=1,2,...,h;然后根据h组权重矩阵得到h个自注意力矩阵,将h个自注意力矩阵拼接,把拼接后的矩阵和一个可学习的权重矩阵W0相乘,得到最终的多头自注意力矩阵Z ij =[Zij cls,Z1 ij ,...,Z9 ij ],然后将将两个相邻的时空动作队列的键和值投射到相同的维度,再利用自注意力机制融合两个相邻的时空动作队列,得到融合队列Xi=[Xi cls,X ia ,X ia+1 ],从每个融合队列中提取识别类别Xi cls。
7.如权利要求1所述的打架斗殴行为识别方法,其特征在于:所述多头自注意力机制模型为transformer模型。
8.如权利要求1所述的打架斗殴行为识别方法,其特征在于:L≥70%。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310661177.5A CN116402811B (zh) | 2023-06-05 | 2023-06-05 | 一种打架斗殴行为识别方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310661177.5A CN116402811B (zh) | 2023-06-05 | 2023-06-05 | 一种打架斗殴行为识别方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116402811A true CN116402811A (zh) | 2023-07-07 |
CN116402811B CN116402811B (zh) | 2023-08-18 |
Family
ID=87020187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310661177.5A Active CN116402811B (zh) | 2023-06-05 | 2023-06-05 | 一种打架斗殴行为识别方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402811B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117522925A (zh) * | 2024-01-05 | 2024-02-06 | 成都合能创越软件有限公司 | 注意力机制下移动相机中判断物体运动状态方法及系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180173956A1 (en) * | 2016-12-21 | 2018-06-21 | Axis Ab | Method for identifying events in a motion video |
CN108764050A (zh) * | 2018-04-28 | 2018-11-06 | 中国科学院自动化研究所 | 基于角度无关性的骨架行为识别方法、系统及设备 |
CN113269054A (zh) * | 2021-04-30 | 2021-08-17 | 重庆邮电大学 | 一种基于时空2d卷积神经网络的航拍视频分析方法 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN113869290A (zh) * | 2021-12-01 | 2021-12-31 | 中化学交通建设集团有限公司 | 一种基于人工智能技术的消防通道占用识别方法和装置 |
CN113936339A (zh) * | 2021-12-16 | 2022-01-14 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
US20220019807A1 (en) * | 2018-11-20 | 2022-01-20 | Deepmind Technologies Limited | Action classification in video clips using attention-based neural networks |
WO2022104293A1 (en) * | 2021-10-26 | 2022-05-19 | Innopeak Technology, Inc. | Multi-modal video transformer (mm-vit) for compressed video action recognition |
WO2022105121A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种应用于bert模型的蒸馏方法、装置、设备及存储介质 |
GB202207295D0 (en) * | 2021-05-25 | 2022-06-29 | Samsung Electronics Co Ltd | Method and apparatus for video recognition |
CN115393933A (zh) * | 2022-08-23 | 2022-11-25 | 重庆邮电大学 | 一种基于帧注意力机制的视频人脸情绪识别方法 |
CN115424347A (zh) * | 2022-09-02 | 2022-12-02 | 重庆邮电大学 | 一种理发店员工工作内容智能识别方法 |
CN115661596A (zh) * | 2022-10-28 | 2023-01-31 | 哈尔滨工业大学 | 基于3D卷积和Transformer的短视频正能量评价方法、装置及设备 |
US20230055636A1 (en) * | 2021-08-03 | 2023-02-23 | Baidu Usa Llc | Transformer-based temporal detection in video |
-
2023
- 2023-06-05 CN CN202310661177.5A patent/CN116402811B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180173956A1 (en) * | 2016-12-21 | 2018-06-21 | Axis Ab | Method for identifying events in a motion video |
CN108764050A (zh) * | 2018-04-28 | 2018-11-06 | 中国科学院自动化研究所 | 基于角度无关性的骨架行为识别方法、系统及设备 |
US20220019807A1 (en) * | 2018-11-20 | 2022-01-20 | Deepmind Technologies Limited | Action classification in video clips using attention-based neural networks |
WO2022105121A1 (zh) * | 2020-11-17 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种应用于bert模型的蒸馏方法、装置、设备及存储介质 |
CN113269054A (zh) * | 2021-04-30 | 2021-08-17 | 重庆邮电大学 | 一种基于时空2d卷积神经网络的航拍视频分析方法 |
GB202207295D0 (en) * | 2021-05-25 | 2022-06-29 | Samsung Electronics Co Ltd | Method and apparatus for video recognition |
US20230055636A1 (en) * | 2021-08-03 | 2023-02-23 | Baidu Usa Llc | Transformer-based temporal detection in video |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
WO2022104293A1 (en) * | 2021-10-26 | 2022-05-19 | Innopeak Technology, Inc. | Multi-modal video transformer (mm-vit) for compressed video action recognition |
CN113869290A (zh) * | 2021-12-01 | 2021-12-31 | 中化学交通建设集团有限公司 | 一种基于人工智能技术的消防通道占用识别方法和装置 |
CN113936339A (zh) * | 2021-12-16 | 2022-01-14 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
CN115393933A (zh) * | 2022-08-23 | 2022-11-25 | 重庆邮电大学 | 一种基于帧注意力机制的视频人脸情绪识别方法 |
CN115424347A (zh) * | 2022-09-02 | 2022-12-02 | 重庆邮电大学 | 一种理发店员工工作内容智能识别方法 |
CN115661596A (zh) * | 2022-10-28 | 2023-01-31 | 哈尔滨工业大学 | 基于3D卷积和Transformer的短视频正能量评价方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
SHUAILEI MA 等: "CAT: LoCalization and IdentificAtion Cascade Detection Transformer for Open-World Object Detection", 《ARXIV:2301.01970V6 [CS.CV]》, pages 1 - 10 * |
陆昱翔 等: "基于视觉Transformer时空自注意力的工人行为识别", 《浙江大学学报(工学版)》, vol. 57, no. 03, pages 446 - 454 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117522925A (zh) * | 2024-01-05 | 2024-02-06 | 成都合能创越软件有限公司 | 注意力机制下移动相机中判断物体运动状态方法及系统 |
CN117522925B (zh) * | 2024-01-05 | 2024-04-16 | 成都合能创越软件有限公司 | 注意力机制下移动相机中判断物体运动状态方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116402811B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673489B (zh) | 一种基于级联Transformer的视频群体行为识别方法 | |
CN111523378B (zh) | 一种基于深度学习的人体行为预测方法 | |
CN114529984B (zh) | 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法 | |
CN114582030B (zh) | 一种基于服务机器人的行为识别方法 | |
CN115761409A (zh) | 一种基于深度学习的火情检测方法、装置、设备和介质 | |
CN116402811B (zh) | 一种打架斗殴行为识别方法及电子设备 | |
CN110147699A (zh) | 一种图像识别方法、装置以及相关设备 | |
US20230222841A1 (en) | Ensemble Deep Learning Method for Identifying Unsafe Behaviors of Operators in Maritime Working Environment | |
Khalfaoui et al. | Comparative study of YOLOv3 and YOLOv5's performances for real-time person detection | |
CN113158983A (zh) | 一种基于红外视频序列图像的机场场面活动行为识别方法 | |
Hua et al. | Falls prediction based on body keypoints and seq2seq architecture | |
CN111401116A (zh) | 基于增强卷积和空时lstm网络的双模态情感识别方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN116453025A (zh) | 一种缺帧环境下融合时空信息的排球比赛群体行为识别方法 | |
CN113408435B (zh) | 一种安全监控方法、装置、设备和存储介质 | |
CN114913342A (zh) | 融合事件和图像的运动模糊图像线段检测方法及系统 | |
Boekhoudt et al. | Spatial-temporal transformer for crime recognition in surveillance videos | |
CN113963202A (zh) | 一种骨骼点动作识别方法、装置、电子设备及存储介质 | |
CN113052226A (zh) | 一种基于单步检测器的时序性火灾识别方法及系统 | |
CN112613486A (zh) | 基于多层注意力和BiGRU的专业立体视频舒适度分类方法 | |
Xie et al. | Privacy preserving multi-class fall classification based on cascaded learning and noisy labels handling | |
CN116958769A (zh) | 基于融合特征的翻越行为检测方法及相关装置 | |
CN116453058A (zh) | 基于深度学习和数字分身的居家老人行为监测方法及系统 | |
Rashidan et al. | Detection of different classes moving object in public surveillance using artificial neural network (ann) | |
Han et al. | Two-stream LSTM for action recognition with RGB-D-based hand-crafted features and feature combination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |