CN114038067B - 煤矿人员行为检测方法、设备及存储介质 - Google Patents
煤矿人员行为检测方法、设备及存储介质 Download PDFInfo
- Publication number
- CN114038067B CN114038067B CN202210012093.4A CN202210012093A CN114038067B CN 114038067 B CN114038067 B CN 114038067B CN 202210012093 A CN202210012093 A CN 202210012093A CN 114038067 B CN114038067 B CN 114038067B
- Authority
- CN
- China
- Prior art keywords
- matrix
- attention
- image
- processed
- coal mine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种煤矿人员行为检测方法、设备及存储介质,该方法包括获取待处理图像,并对待处理图像进行预处理,获得待处理图像对应的输入标记序列,根据输入标记序列,基于注意力算法确定注意力输出矩阵,并根据注意力输出矩阵,生成特征图,对特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果。本申请实施例通过对待处理图像进行全局图像处理,相对于仅提取人体节点信息来说,包括了更多的细节信息的特征,使得输出的煤矿人员的行为分类结果更加准确,并且通过采用边界框回归算法,能够对图像中多个人员的行为分别同时进行检测,得到各边界框内人员分别对应的行为分类结果,保证了检测结果的全面性。
Description
技术领域
本申请实施例涉及图像处理技术领域,尤其涉及一种煤矿人员行为检测方法、设备及存储介质。
背景技术
随着视频数据处理能力的提高和计算机视觉技术的发展,对煤矿智能视频监控系统的性能要求越来越高。通过煤矿智能视频监控系统可以对煤矿生产现场进行实时监控,尽早发现不安全工作因素,保证煤矿生产环境的安全。
在现有技术中,煤矿智能视频监控系统可以采用基于深度学习的关键点检测方法,提取煤矿人员的人体节点信息,并基于该节点信息实现对煤矿人员行为的检测。
然而,实现本申请过程中,发明人发现现有技术中至少存在如下问题:现有的行为检测方案中,仅是基于提取的人体节点信息进行煤矿人员的行为检测,数据基础较单薄,对于人员行为类型复杂多样的情况,行为检测结果的准确性较低。
发明内容
本申请实施例提供一种煤矿人员行为检测方法、设备及存储介质,以提高煤矿人员行为检测的准确性。
第一方面,本申请实施例提供一种煤矿人员行为检测方法,包括:
获取待处理图像,并对所述待处理图像进行预处理,获得所述待处理图像对应的输入标记序列;
根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,并根据所述注意力输出矩阵,生成特征图;
对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果。
在一种可能的设计中,所述对所述待处理图像进行预处理,包括:
对所述待处理图像进行卷积处理,获得所述待处理图像对应的多个图像块;
将多个所述图像块依次经过预设数量卷积层的卷积处理,获得所述待处理图像对应的预设维度的嵌入向量;
确定多个所述图像块的位置编码,并将所述位置编码与所述嵌入向量进行叠加,获得所述待处理图像对应的输入标记序列。
在一种可能的设计中,所述根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,包括:
基于所述输入标记序列,根据互协方差注意力算法确定注意力输出矩阵。
在一种可能的设计中,所述基于所述输入标记序列,根据互协方差注意力算法确定注意力输出矩阵,包括:
对所述输入标记序列进行线性投影变换,获得查询矩阵Query、权重矩阵Key和值矩阵Value;
将所述权重矩阵的转置矩阵与所述查询矩阵的转置矩阵相乘,并对相乘的结果进行Softmax操作,获得注意力权重矩阵;
将所述注意力权重矩阵与所述值矩阵的转置矩阵相乘,获得所述注意力输出矩阵。
在一种可能的设计中,所述将所述注意力权重矩阵与所述值矩阵的转置矩阵相乘,获得所述注意力输出矩阵,包括:
将所述注意力权重矩阵与所述值矩阵的转置矩阵相乘,并将相乘获得的矩阵进行形状变换,获得所述注意力输出矩阵;所述注意力权重矩阵的形状与所述输入标记序列的形状相同。
在一种可能的设计中,所述根据所述注意力输出矩阵,生成特征图,包括:
将所述注意力输出矩阵与预设的分类序列进行拼接,获得拼接后的矩阵;
基于注意力算法对所述拼接后的矩阵进行处理,获得所述特征图。
在一种可能的设计中,所述对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果,包括:
对所述特征图进行池化处理,从所述特征图的特征金字塔中提取至少一个感兴趣区域的图像特征;
针对每个感兴趣区域的图像特征,确定所述感兴趣区域的候选框,基于双线性差值算法将所述候选框转换为固定尺寸,获得转换后的候选框,对所述转换后的候选框进行回归处理,获得所述感兴趣区域的边界框以及对应的行为分类结果。
第二方面,本申请实施例提供一种煤矿人员行为检测设备,包括:
预处理模块,用于获取待处理图像,并对所述待处理图像进行预处理,获得所述待处理图像对应的输入标记序列;
生成模块,用于根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,并根据所述注意力输出矩阵,生成特征图;
后处理模块,用于对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果。
第三方面,本申请实施例提供一种煤矿人员行为检测设备,包括:视觉传感器、至少一个处理器和存储器;
所述存储器存储计算机执行指令;所述视觉传感器与所述至少一个处理器连接,用于获取所述待处理图像;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的方法。
本实施例提供的煤矿人员行为检测方法、设备及存储介质,该方法通过获取待处理图像,并对所述待处理图像进行预处理,获得所述待处理图像对应的输入标记序列,根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,并根据所述注意力输出矩阵,生成特征图,对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果。本实施例提供的煤矿人员行为检测方法,通过对待处理图像进行全局图像处理,相对于仅提取人体节点信息来说,包括了更多的细节信息的特征,使得输出的煤矿人员的行为分类结果更加准确,并且通过采用边界框回归算法,能够对图像中多个人员的行为分别同时进行检测,得到各边界框内人员分别对应的行为分类结果,保证了检测结果的全面性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1a为本申请实施例提供的煤矿人员行为检测方法的原理示意图一;
图1b为本申请实施例提供的煤矿人员行为检测方法的原理示意图二;
图2为本申请实施例提供的煤矿人员行为检测方法的流程示意图一;
图3为本申请实施例提供的煤矿人员行为检测方法中预处理的原理示意图;
图4为本申请实施例提供的煤矿人员行为检测方法中特征提取的原理示意图;
图5为本申请实施例提供的煤矿人员行为检测方法中后处理过程的原理示意图;
图6为本申请实施例提供的煤矿人员行为检测方法的流程示意图二;
图7为本申请实施例提供的互协方差注意力处理的原理示意图;
图8为本申请实施例提供的煤矿人员行为检测设备的结构示意图;
图9为本申请实施例提供的煤矿人员行为检测设备的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
煤矿生产环境较为复杂,需要进行实时监控,但人工监管的方式耗时耗力。随着视频数据处理能力的提高和计算机视觉技术的发展,煤矿智能视频监控系统成为煤矿安全生产监管中不可缺少的组成部分。煤矿智能视频监控系统能够通过视频实时监控煤矿生产现场,尽早发现疑似存在的不安全工作因素,创造煤矿安全生产工作环境,保证煤矿安全生产顺利进行。因此,煤矿智能视频监控系统对有效降低煤矿生产中安全事故发生率,进一步提高生产效率具有重要意义。现阶段针对煤矿智能监控的研究大多集中于开采和运输过程,对煤矿井下人员行为识别的研究较少。
在现有技术中,对煤矿人员的行为进行检测的方式有多种。
在一种方式中,可以采用稠密轨迹(Dense Trajectories,DT)的方法进行煤矿人员行为检测。DT方法按照固定的步进以多个尺度对视频中的每一帧图像进行稠密采样,然后检测出空间特征点,并在各个尺度单独跟踪这些特征点形成固定长度的轨迹,最后对每一条轨迹及其时空邻域使用四种特征描述符进行描述,分别是用于描述轨迹本身的轨迹形状描述符(Trajectory Shape Descriptor,TSD)、描述轨迹邻域信息的运动边界直方图(Motion Boundary Histograms,MBH)、描述表观信息的方向梯度直方图(Histogram ofOriented Gradient,HOG)和描述运动信息的光流方向直方图(Histograms of OrientedOptical Flow,HOF)。考虑到摄像机运动导致视频中提取出与人体行为无关的DT特征,可以采用改进的稠密轨迹(Improved Dense Trajectories,IDT)方法。IDT方法可以通过匹配前后两帧间的SURF描述符和稠密光流特征点,来估计相机的运动,消除相机运动带来的影响。特征提取后,DT/IDT方法利用FV(Fisher Vector)方法对特征进行编码,再基于编码特征向量训练支持向量机(Support Vector Machine, SVM)分类器实现人体行为识别。该方法有着比较好的鲁棒性。然而,DT/IDT的缺点在于算法的速度很慢,难以实用化。
在另一种方式中,可以通过基于深度学习的关键点检测方法实现人体的节点信息的提取,进而基于人体节点信息进行动作特征提取从而获得动作检测结果。具体的,图卷积网络(Graph Convolutional Network, GCN)是一种基于骨架点的行为识别,捕捉关节依赖的方法,以关节为节点、骨架为边的骨架图结构做为输入。使用GCN和时间卷积网络(Temporal Convolutional Network, TCN)分别从骨架图中提取时空特征,基于该时空特征获得行为检测结果。然而,基于关键点检测的方法由于只能依靠提取到人体的节点信息,无法利用到图像中的其它信息来帮助推理,使得获得的检测结果准确性较低。另外,传统的人体关键点检测算法采用“自顶向下”的方式,先在待处理图像中检测所有人,再分别对每个人的关键点进行检测,无法实现在多人场景下完成快速检测。
为解决上述技术问题,本申请发明人研究发现,可以将待处理图像预处理为输入标记序列,然后基于注意力算法,进行特征提取,从而实现对待处理图像的全局处理,包括了更多细节信息的特征,使得煤矿人员的行为检测结果更加准确。基于此,本申请实施例提供一种煤矿人员行为检测方法,通过对待处理图像进行全局图像处理,相对于仅提取人体节点信息来说,包括了更多的细节信息的特征,使得输出的煤矿人员的行为分类结果更加准确,并且通过采用边界框回归算法,能够对图像中多个人员的行为分别同时进行检测,得到各边界框内人员分别对应的行为分类结果,保证了检测结果的全面性。
图1a为本申请实施例提供的煤矿人员行为检测方法的原理示意图。如图1a所示,待处理图像依次通过基于卷积的图像块嵌入向量网络(ConvPatchEmbed)、互协方差注意力(Cross-covarianceAttention)模块、分类注意力模块(ClassAttentionLayer)和标准感兴趣区域头(Standard RoI Head)的处理后获得带边框的输出图像。其中,互协方差注意力是一种用特征间的自我注意代替了标记间明确的完全成对的相互作用,其中注意图是由标记特征的关键和查询投影上计算的互协方差矩阵得出的。分类注意力模块用于将提取出的分类标记进行分类处理。
在具体实现过程中,获取待处理图像,通过待处理图像依次通过基于卷积的图像块嵌入向量网络和位置编码(PositionalEncoding)对所述待处理图像进行预处理,获得所述待处理图像对应的输入标记序列,通过互协方差注意力模块和分类注意力模块根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,并根据所述注意力输出矩阵,生成特征图,通过标准感兴趣区域头对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果。本申请实施例提供的煤矿人员行为检测方法,通过对待处理图像进行全局图像处理,相对于仅提取人体节点信息来说,包括了更多的细节信息的特征,使得输出的煤矿人员的行为分类结果更加准确,并且通过采用边界框回归算法,能够对图像中多个人员的行为分别同时进行检测,得到各边界框内人员分别对应的行为分类结果,保证了检测结果的全面性。
另外,如图1b所示,为了提升处理效果,可以在互协方差注意力模块和分类注意力模块之间增设局部图像块交互(LocalPatchInteraction)和多层感知器(MultilayerPerceptron,MLP)。其中,局部图像块交互是一种用标记间的互动交流的方式增强块状对角线散射注意力的隐性交流,可以使用2层可分离的3x3卷积与GeLU和BatchNorm2d实现,可以实现3x3窗口中的标记之间进行明确的交流。MLP可以包括线性变换单元、高斯误差线性单元(Gaussian error Linear Units,GeLU)和随机掉落层等处理单元,高斯误差线性单元是对神经网络的输入进行随机正则化的变化,为输入匹配一个或0或1的随机值。本实施例中,通过采用增设局部图像块交互和多层感知器的处理,能够提升处理效果。
此外,图1a和图1b所示的模型的训练过程可以包括,创建样本集,将样本集中的样本输入模型进行模型训练,最终获得图1a或图1b所示的模型。样本集的来源可以是采集煤矿人员的动作视频,视频长度可以根据需要设定,例如5s到10s。采集的多个动作视频,可以进行标注,具体可以标注分类信息,并且可以将视频中的每个人加上合适的边界框,从而获得一个标注好的样本,得到用于模型训练的样本集。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请实施例提供的煤矿人员行为检测方法的流程示意图一。如图2所示,该方法包括:
201、获取待处理图像,并对所述待处理图像进行预处理,获得所述待处理图像对应的输入标记序列。
本实施例的执行主体可以是计算机、平板电脑、手机、服务器等数据处理设备。
本实施例中,待处理图像可以是一张图片或者视频中的某一帧图像,本实施例对此不做限定。
在一种可实现方式中,所述对所述待处理图像进行预处理,可以包括:对所述待处理图像进行卷积处理,获得所述待处理图像对应的多个图像块;将多个所述图像块依次经过预设数量卷积层的卷积处理,获得所述待处理图像对应的预设维度的嵌入向量;确定多个所述图像块的位置编码,并将所述位置编码与所述嵌入向量进行叠加,获得所述待处理图像对应的输入标记序列。
具体的,如图3所示,待处理图像的预处理部分主要包含两个阶段:一个是图像块提取阶段,另一个是图像块处理阶段。待处理图像经由卷积层的卷积处理后变成一组图像块。该组图像块通过基于卷积的图像块嵌入向量模块完成从图像块到嵌入补丁的过程,获得嵌入向量。最后将嵌入向量与位置编码进行叠加后获得用于特征提取的输入标记序列。
示例性的,以待处理图像为3×256×256,目标的嵌入向量为768维且向量大小为16×16为例,对整个预处理过程进行示例说明。
首先,待处理图像可以经过一个输入维度为3,输出维度为96,卷积核尺寸为3×3,步长为2,填充为1的二维卷积层的卷积处理后,将待处理图像切分为多个图像块。然后,将获得的图像块输入到基于卷积的图像块嵌入向量网络,该网络的第一层的输入维度为96、输出维度为192、卷积核尺寸为3×3、步长为2、填充为1的二维卷积层和GeLU激活层,在经过第一层处理后获得维度为192,大小为64×64的输出,即经过一层处理后特征图的大小会减小一半,基于卷积的图像块嵌入向量网络的第二层与第三层和第一层类似,均采用卷积核尺寸为3×3,步长为2,填充为1的二维卷积层和GeLU激活层,不同的是第二层的输入维度为192,输出维度为384,第三层的输入维度为384,输出维度为768。经过网络的第二层和第三层的处理后,获得768维且向量大小为16×16的目标的嵌入向量。需要说明的是,本实施例中待处理图像的尺寸、各卷积层中卷积核的尺寸、嵌入向量网络的层数以及各层的相关设计参数均为示例性数据,可以根据实际需要进行设定,本实施例对此不做限定。
本实施例中,位置编码是一种用图像块的位置信息对序列中的每个图像块进行二次表示的方法,将序列信息和图像块结合起来形成一种新的表示输入给模型,这样模型就具备了学习位置信息的能力。位置编码有多种确定方式,例如可以采用正弦位置编码。
示例性的,在获得768维且向量大小为16×16的目标的嵌入向量后,可以将该嵌入向量与正弦位置编码进行叠加,获得输入标记序列,以基于该输入标记序列进行后续的特征提取。
202、根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,并根据所述注意力输出矩阵,生成特征图。
本实施例中,注意力输出矩阵的确定方式可以有多种,在一种可实现方式中可以采用自注意力算法进行确定,在另一种可实现方式中可以采用互协方差注意力算法进行确定。本实施例对此不做限定。
如图4所示,特征提取部分包含两个主要模块,注意力模块(互协方差注意力模块(Cross-covarianceAttention)或自我注意力模块)和分类注意力模块。将输入标记序列输入注意力模块,可以对输入标记序列进行权重分配,获得加权后的注意力输出矩阵,该注意力输出矩阵输入分类注意力模块后,首先与分类序列进行拼接,进而进行权重分配,分类注意力模块的输出矩阵经过逐点前馈网络的处理后,最终输出含有分类信息的特征图。其中,通过逐点前馈网络可以将每个位置的注意力结果映射到一个更大维度的特征空间,然后使用ReLU函数引入非线性进行筛选,最后恢复回原始维度。在一些实施例中,为了提高训练效率,可以在每个模块的输入之前可以进行一次层规范化,并且可以消除极端值提升训练稳定性。另外,模块与模块之间可以采用残差连接防止梯度消失和模型过拟合等问题。
203、对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果。
本实施例中,所述对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果,可以包括以下步骤:对所述特征图进行池化处理,从所述特征图的特征金字塔中提取至少一个感兴趣区域的图像特征;针对每个感兴趣区域的图像特征,确定所述感兴趣区域的候选框,基于双线性差值算法将所述候选框转换为固定尺寸,获得转换后的候选框,对所述转换后的候选框进行回归处理,获得所述感兴趣区域的边界框以及对应的行为分类结果。
具体的,如图5所示,将通过特征提取处理后获得的特征图输入单头感兴趣区域提取器(SingleRoIExtractor)中,该提取器可以用感兴趣区域RoI池化或者类似的方法,从特征图的特征金字塔中提取至少一个感兴趣区域(图像中每个煤矿人员可以定义为一个感兴趣区域)的图像特征,将该图像特征输入区域生成网络(RegionProposalNetwork),可以对各感兴趣区域的图像特征分别进行候选框的提取。在获得候选框后,可以通过感兴趣区域对齐(RoIAlign)模块,该模块可以将双线性插值用于任意尺寸的感兴趣区域的特征图,将其转换为具有固定尺寸 H×W 的小特征图,相应候选框的尺寸被调整对齐。再通过边界框生成头(Shared2FCBBoxHead),根据各对齐后的候选框生成边界框,通过全卷积掩膜生成头(FCNMaskHead),为各边界框内的煤矿人员加上掩膜信息。最终输出带有边界框以及对应的掩膜的输出图像。通过在输出图像中增设边界框和掩膜能够将煤矿人员进行突出显示,易于捕捉,获取更多关注度。另外,可以基于该边界框和掩膜将煤矿人员的图像进行精准提取,便于后续存档、制作警示视频等处理。
本实施例提供的煤矿人员行为检测方法,通过对待处理图像进行全局图像处理,相对于仅提取人体节点信息来说,包括了更多的细节信息的特征,使得输出的煤矿人员的行为分类结果更加准确,并且通过采用边界框回归算法,能够对图像中多个人员的行为分别同时进行检测,得到各边界框内人员分别对应的行为分类结果,保证了检测结果的全面性。
图6为本申请实施例提供的煤矿人员行为检测方法的流程示意图二。如图6所示,为了节省算力,在上述实施例的基础上,例如在图2所示实施例的基础上, 本实施例中采用了互协方差注意力算法进行特征提取,该方法包括:
601、获取待处理图像,并对所述待处理图像进行预处理,获得所述待处理图像对应的输入标记序列。
本实施例中,步骤601与上述实施例中步骤201相类似,此处不再赘述。
602、对所述输入标记序列进行线性投影变换,获得查询矩阵Query、权重矩阵Key和值矩阵Value。
具体的,在一种可实现方式中,如图7所示,可以将输入标记序列进行三次线性投影变换,分别获得查询矩阵Query、权重矩阵Key和值矩阵Value。在另一种可实现方式中,为了提高效率,可以对所述输入标记序列进行线性投影变换,获得变换后的输入标记序列,再将所述变换后的输入标记序列进行拆分,获得查询矩阵Query、权重矩阵Key和值矩阵Value。
603、将所述权重矩阵的转置矩阵与所述查询矩阵的转置矩阵相乘,并对相乘的结果进行Softmax操作,获得注意力权重矩阵。
604、将所述注意力权重矩阵与所述值矩阵的转置矩阵相乘,获得所述注意力输出矩阵。
具体的,可以将所述注意力权重矩阵与所述值矩阵的转置矩阵相乘,并将相乘获得的矩阵进行形状变换,获得所述注意力输出矩阵;所述注意力权重矩阵的形状与所述输入标记序列的形状相同。
示例性的,如图7所示,以输入标记序列的形状为(1,256,768)为例,首先获取输入张量的形状,然后通过线性投影将输入标记序列映射为Q(Query)、K(Key)、V(Value)三个张量,线性变换层的输出张量形状为(1,256,2304)。然后将输出张量(1,256,2304)拆分得到Q、K、V三个矩阵,这三个矩阵的形状均为(1,8,256,96)。然后将Q,K,V进行转置,然后将K的转置矩阵与Q的转置矩阵相乘得到注意力权重值并对其进行Softmax操作,获得注意力权重矩阵,最后将注意力权重矩阵与V的转置矩阵相乘,并将相乘结果进行形状转换后获得与输入标记序列的形状相同的注意力输出矩阵。
605、根据所述注意力输出矩阵,生成特征图。
具体的,在获得注意力输出矩阵后,可以将所述注意力输出矩阵与预设的分类序列进行拼接,获得拼接后的矩阵,再基于注意力算法对所述拼接后的矩阵进行处理,获得所述特征图。预设的分类序列可以是训练得到的。
在一种可实现方式中,基于注意力算法对所述拼接后的矩阵进行处理,获得所述特征图,可以是基于互协方差注意力算法对拼接后的矩阵进行处理,具体可参考图7所示实施例,此处不再赘述。
606、对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果。
本实施例中,步骤606与上述实施例中步骤203相类似,此处不再赘述。
本实施例提供的煤矿人员行为检测方法,通过采用互协方差注意力算法来计算注意力输出矩阵。相较于自注意力机制,互协方差注意力算法利用特征间的自我注意操作代替了标记间明确的完全成对的自我注意操作。由于其注意力图仅由标记特征的投影的键值对的互协方差矩阵得出,因此互协方差注意力算法的复杂度仅为图像块数量的线性复杂度。相比于传统的自注意力机制互协方差注意力算法能够更高效地处理每个维度上超过一千像素的图像。
图8为本申请实施例提供的煤矿人员行为检测设备的结构示意图。如图8所示,该煤矿人员行为检测设备80包括:预处理模块801、生成模块802以及后处理模块803。
预处理模块801,用于获取待处理图像,并对所述待处理图像进行预处理,获得所述待处理图像对应的输入标记序列;
生成模块802,用于根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,并根据所述注意力输出矩阵,生成特征图;
后处理模块803,用于对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果。
本申请实施例提供的煤矿人员行为检测设备,通过对待处理图像进行全局图像处理,相对于仅提取人体节点信息来说,包括了更多的细节信息的特征,使得输出的煤矿人员的行为分类结果更加准确,并且通过采用边界框回归算法,能够对图像中多个人员的行为分别同时进行检测,得到各边界框内人员分别对应的行为分类结果,保证了检测结果的全面性。
本申请实施例提供的煤矿人员行为检测设备,可用于执行上述的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图9为本申请实施例提供的煤矿人员行为检测设备的结构框图,该设备可以是计算机,消息收发设备,平板设备,医疗设备,服务器,视觉设备等数据处理设备。
装置90可以包括以下一个或多个组件:处理组件901,存储器902,电源组件903,多媒体组件904,音频组件905,输入/输出(I/ O)接口906,传感器组件907,以及通信组件908。
处理组件901通常控制装置90的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件901可以包括一个或多个处理器909来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件901可以包括一个或多个模块,便于处理组件901和其他组件之间的交互。例如,处理组件901可以包括多媒体模块,以方便多媒体组件904和处理组件901之间的交互。
存储器902被配置为存储各种类型的数据以支持在装置90的操作。这些数据的示例包括用于在装置90上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器902可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件903为装置90的各种组件提供电力。电源组件903可以包括电源管理系统,一个或多个电源,及其他与为装置90生成、管理和分配电力相关联的组件。
多媒体组件904包括在所述装置90和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件904包括一个前置摄像头和/或后置摄像头。当装置90处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件905被配置为输出和/或输入音频信号。例如,音频组件905包括一个麦克风(MIC),当装置90处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器902或经由通信组件908发送。在一些实施例中,音频组件905还包括一个扬声器,用于输出音频信号。
I/ O接口906为处理组件901和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件907包括一个或多个传感器,用于为装置90提供各个方面的状态评估。例如,传感器组件907可以检测到装置90的打开/关闭状态,组件的相对定位,例如所述组件为装置90的显示器和小键盘,传感器组件907还可以检测装置90或装置90一个组件的位置改变,用户与装置90接触的存在或不存在,装置90方位或加速/减速和装置90的温度变化。传感器组件907可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件907还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件907还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件908被配置为便于装置90和其他设备之间有线或无线方式的通信。装置90可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件908经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件908还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置90可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器902,上述指令可由装置90的处理器909执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上煤矿人员行为检测设备执行的煤矿人员行为检测方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (8)
1.一种煤矿人员行为检测方法,其特征在于,包括:
获取待处理图像,并对所述待处理图像进行预处理,获得所述待处理图像对应的输入标记序列;
根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,并根据所述注意力输出矩阵,生成特征图;
对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果;
所述根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,包括:
基于所述输入标记序列,根据互协方差注意力算法确定注意力输出矩阵;
所述根据所述注意力输出矩阵,生成特征图,包括:
将所述注意力输出矩阵与预设的分类序列进行拼接,获得拼接后的矩阵;
基于注意力算法对所述拼接后的矩阵进行处理,获得所述特征图;所述特征图包括分类信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理图像进行预处理,包括:
对所述待处理图像进行卷积处理,获得所述待处理图像对应的多个图像块;
将多个所述图像块依次经过预设数量卷积层的卷积处理,获得所述待处理图像对应的预设维度的嵌入向量;
确定多个所述图像块的位置编码,并将所述位置编码与所述嵌入向量进行叠加,获得所述待处理图像对应的输入标记序列。
3.根据权利要求1所述的方法,其特征在于,所述基于所述输入标记序列,根据互协方差注意力算法确定注意力输出矩阵,包括:
对所述输入标记序列进行线性投影变换,获得查询矩阵Query、权重矩阵Key和值矩阵Value;
将所述权重矩阵的转置矩阵与所述查询矩阵的转置矩阵相乘,并对相乘的结果进行Softmax操作,获得注意力权重矩阵;
将所述注意力权重矩阵与所述值矩阵的转置矩阵相乘,获得所述注意力输出矩阵。
4.根据权利要求3所述的方法,其特征在于,所述将所述注意力权重矩阵与所述值矩阵的转置矩阵相乘,获得所述注意力输出矩阵,包括:
将所述注意力权重矩阵与所述值矩阵的转置矩阵相乘,并将相乘获得的矩阵进行形状变换,获得所述注意力输出矩阵;所述注意力权重矩阵的形状与所述输入标记序列的形状相同。
5.根据权利要求4所述的方法,其特征在于,所述对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果,包括:
对所述特征图进行池化处理,从所述特征图的特征金字塔中提取至少一个感兴趣区域的图像特征;
针对每个感兴趣区域的图像特征,确定所述感兴趣区域的候选框,基于双线性差值算法将所述候选框转换为固定尺寸,获得转换后的候选框,对所述转换后的候选框进行回归处理,获得所述感兴趣区域的边界框以及对应的行为分类结果。
6.一种煤矿人员行为检测设备,其特征在于,包括:
预处理模块,用于获取待处理图像,并对所述待处理图像进行预处理,获得所述待处理图像对应的输入标记序列;
生成模块,用于根据所述输入标记序列,基于注意力算法确定注意力输出矩阵,并根据所述注意力输出矩阵,生成特征图;
后处理模块,用于对所述特征图进行边界框回归处理,获得各边界框内煤矿人员的行为分类结果;
所述生成模块,具体用于基于所述输入标记序列,根据互协方差注意力算法确定注意力输出矩阵;还具体用于将所述注意力输出矩阵与预设的分类序列进行拼接,获得拼接后的矩阵,基于注意力算法对所述拼接后的矩阵进行处理,获得所述特征图;所述特征图包括分类信息。
7.一种煤矿人员行为检测设备,其特征在于,包括:视觉传感器、至少一个处理器和存储器;
所述存储器存储计算机执行指令;所述视觉传感器与所述至少一个处理器连接,用于获取所述待处理图像;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至5任一项所述的煤矿人员行为检测方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至5任一项所述的煤矿人员行为检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210012093.4A CN114038067B (zh) | 2022-01-07 | 2022-01-07 | 煤矿人员行为检测方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210012093.4A CN114038067B (zh) | 2022-01-07 | 2022-01-07 | 煤矿人员行为检测方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114038067A CN114038067A (zh) | 2022-02-11 |
CN114038067B true CN114038067B (zh) | 2022-04-22 |
Family
ID=80147429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210012093.4A Active CN114038067B (zh) | 2022-01-07 | 2022-01-07 | 煤矿人员行为检测方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114038067B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973175B (zh) * | 2022-05-24 | 2024-06-25 | 深圳市航盛电子股份有限公司 | 运动物体检测方法、装置、终端设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330539A (zh) * | 2020-10-10 | 2021-02-05 | 北京嘀嘀无限科技发展有限公司 | 超分辨率图像重建方法、装置、存储介质和电子设备 |
CN112734762A (zh) * | 2020-12-31 | 2021-04-30 | 西华师范大学 | 基于协方差自注意力机制的双路径UNet网络肿瘤分割方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229353B (zh) * | 2017-12-21 | 2020-09-22 | 深圳市商汤科技有限公司 | 人体图像的分类方法和装置、电子设备、存储介质、程序 |
CN111401201B (zh) * | 2020-03-10 | 2023-06-20 | 南京信息工程大学 | 一种基于空间金字塔注意力驱动的航拍图像多尺度目标检测方法 |
CN113435594B (zh) * | 2021-06-30 | 2022-08-02 | 平安科技(深圳)有限公司 | 安防检测模型训练方法、装置、设备及存储介质 |
CN113673420B (zh) * | 2021-08-19 | 2022-02-15 | 清华大学 | 一种基于全局特征感知的目标检测方法及系统 |
-
2022
- 2022-01-07 CN CN202210012093.4A patent/CN114038067B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112330539A (zh) * | 2020-10-10 | 2021-02-05 | 北京嘀嘀无限科技发展有限公司 | 超分辨率图像重建方法、装置、存储介质和电子设备 |
CN112734762A (zh) * | 2020-12-31 | 2021-04-30 | 西华师范大学 | 基于协方差自注意力机制的双路径UNet网络肿瘤分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114038067A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472531B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN108764133B (zh) | 图像识别方法、装置及系统 | |
Xu et al. | Effective face detector based on yolov5 and superresolution reconstruction | |
Vamsi et al. | Deepfake detection in digital media forensics | |
CN114937201A (zh) | 一种海洋生物目标检测算法模型的搭建方法及识别方法 | |
US20200311962A1 (en) | Deep learning based tattoo detection system with optimized data labeling for offline and real-time processing | |
CN112906484B (zh) | 一种视频帧处理方法及装置、电子设备和存储介质 | |
WO2022227765A1 (zh) | 生成图像修复模型的方法、设备、介质及程序产品 | |
CN111914676A (zh) | 人体摔倒检测方法、装置、电子设备和存储介质 | |
CN114842411A (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
CN114038067B (zh) | 煤矿人员行为检测方法、设备及存储介质 | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
CN111310595B (zh) | 用于生成信息的方法和装置 | |
CN114693905A (zh) | 文本识别模型构建方法、文本识别方法以及装置 | |
Parashar et al. | A robust covariate‐invariant gait recognition based on pose features | |
CN116152747A (zh) | 一种基于外观辨识和动作建模的人类行为意图识别方法 | |
US11468676B2 (en) | Methods of real-time spatio-temporal activity detection and categorization from untrimmed video segments | |
Zhang et al. | Lightweight mobile network for real-time violence recognition | |
CN115331097A (zh) | 图像检测模型训练方法、装置及图像检测方法 | |
CN115147449A (zh) | 一种多目标跟踪方法、电子设备、存储介质及产品 | |
CN114373071A (zh) | 目标检测方法、装置及电子设备 | |
Rawat et al. | Indian sign language recognition system for interrogative words using deep learning | |
Caetano et al. | Magnitude-Orientation Stream network and depth information applied to activity recognition | |
Liang et al. | Sequential deep learning for action recognition with synthetic multi-view data from depth maps | |
Lokoč et al. | MultiMedia Modeling: 27th International Conference, MMM 2021, Prague, Czech Republic, June 22–24, 2021, Proceedings, Part II |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 518000 Guangdong Shenzhen Baoan District Xixiang street, Wutong Development Zone, Taihua Indus Industrial Park 8, 3 floor. Patentee after: Shenzhen Haiqing Zhiyuan Technology Co.,Ltd. Address before: 518000 Guangdong Shenzhen Baoan District Xixiang street, Wutong Development Zone, Taihua Indus Industrial Park 8, 3 floor. Patentee before: SHENZHEN HIVT TECHNOLOGY Co.,Ltd. |