CN116311005A - 一种用于运动图像处理装置、方法及存储介质 - Google Patents
一种用于运动图像处理装置、方法及存储介质 Download PDFInfo
- Publication number
- CN116311005A CN116311005A CN202310597292.0A CN202310597292A CN116311005A CN 116311005 A CN116311005 A CN 116311005A CN 202310597292 A CN202310597292 A CN 202310597292A CN 116311005 A CN116311005 A CN 116311005A
- Authority
- CN
- China
- Prior art keywords
- feature
- feature map
- classification
- personnel
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 91
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title abstract description 15
- 238000012544 monitoring process Methods 0.000 claims abstract description 94
- 238000003062 neural network model Methods 0.000 claims abstract description 17
- 230000003287 optical effect Effects 0.000 claims description 60
- 238000000605 extraction Methods 0.000 claims description 49
- 238000005457 optimization Methods 0.000 claims description 42
- 238000013527 convolutional neural network Methods 0.000 claims description 40
- 238000010586 diagram Methods 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 28
- 230000002159 abnormal effect Effects 0.000 claims description 25
- 238000009826 distribution Methods 0.000 claims description 22
- 238000003672 processing method Methods 0.000 claims description 18
- 230000003542 behavioural effect Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000006399 behavior Effects 0.000 abstract description 188
- 230000005856 abnormality Effects 0.000 abstract description 13
- 238000013135 deep learning Methods 0.000 abstract description 9
- 230000008859 change Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 18
- 230000000694 effects Effects 0.000 description 9
- 230000002776 aggregation Effects 0.000 description 8
- 238000004220 aggregation Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及图像处理领域,其具体地公开了一种用于运动图像处理装置、方法及存储介质,其通过采用基于深度学习的神经网络模型挖掘出人员监控视频中关于电梯内人员的行为语义理解特征信息,以此来准确地进行电梯内人员的行为语义理解,从而判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
Description
技术领域
本申请涉及图像处理领域,且更为具体地,涉及一种用于运动图像处理装置、方法及存储介质。
背景技术
图像处理技术是用计算机对图像信息进行处理的技术,主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。随着图像处理技术发展和人工智能技术的进步,智能化的图像处理技术已经成熟的应用到生活、工业和工程、军事和公安、文化与艺术等方面。
如申请号为201720911253.3的中国专利公开了一种运动车辆检测图像处理系统,包括通过通信接口模块依次连接的接收器、图像处理器、控制器以及传送器,其中:接收器用于接收获取数字图像;图像处理器包括图像预处理模块以及图像识别模块,用于对数字图像进行初步处理和对数字图像进行识别、提取、分割;控制器包括图像二值化模块以及图像检测模块,通过算法对数字图像进行二值化处理以及检测道路边缘信息并且对数字图像边缘进行锐化增强处理;传送器用于将检测后的数字图像进行传输发送。该车辆检测图像处理系统结构简单,提高了图像的质量,保证了图像效果,降低了成本,增强了运动车辆检测结果的准确度。
再如,申请号为202210517704.0的中国专利公开了一种基于机器视觉的图像处理式运动监测系统,属于运动监测技术领域,包括运动图像获取模块,所述运动图像获取模块用于获取运动图像。该发明中,通过设计的边缘优化单元,在提取运动图像的运动区域轮廓后,快速分割待运动识别区域,以异或运算为基础,屏蔽运动图像帧与帧之间的相同点,实现对运动特征的运动帧之间运动图像的精确定位,有效降低采集图像的运动延迟和采集模糊,同时通过对运动图像的降噪处理以及后续的运动帧划分,有利于通过运动帧之间对比帧提高运动图像中运动区域的快速定位处理,并且通过深度学习单元对待识别的运动特征进行深度学习,从而能够提高运动特征在对比后对比识别效率。
但是类似上述图像处理技术运用到电梯内的运动图像识别时,尚存在一定的不足,主要是因为电梯内异常图像较多,现有的图像识别技术无法快速识别出电梯内的人员数量和行为特征,同样也就无法进行电梯内人员的异常行为检测,导致电梯的安全性和效率得不到保障。
因此,期望一种优化的运动图像处理装置。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于运动图像处理装置、方法及存储介质,其通过采用基于深度学习的神经网络模型挖掘出人员监控视频中关于电梯内人员的行为语义理解特征信息,以此来准确地进行电梯内人员的行为语义理解,从而判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
根据本申请的一个方面,提供了一种运动图像处理装置,其包括:
视频采集模块,用于获取由摄像头采集的人员监控视频;
关键帧提取模块,用于从所述人员监控视频提取多个人员监控关键帧;
人员行为空间特征提取模块,用于将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图;
光流图像提取模块,用于使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列;
人员行为时间特征提取模块,用于将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器以得到人员行为时间特征图;
特征融合模块,用于融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;
特征优化模块,用于对所述分类特征图进行特征分布优化以得到优化分类特征图;
以及预警提示模块,用于将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。
在上述运动图像处理装置中,所述人员行为空间特征提取模块,用于使用所述基于三维卷积神经网络模型的行为空间维度特征提取器的各层在层的正向传递中分别对输入数据进行如下处理:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于三维卷积神经网络模型的行为空间维度特征提取器的最后一层的输出为所述人员行为空间特征图,所述基于三维卷积神经网络模型的行为时间维度特征提取器的第一层的输入为所述人员监控关键帧。
在上述运动图像处理装置中,所述人员行为时间特征提取模块,用于使用所述基于三维卷积神经网络模型的行为空间维度特征提取器的各层在层的正向传递中分别对输入数据进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于三维卷积神经网络模型的行为时间维度特征提取器的最后一层的输出为所述人员行为时间特征图,所述基于三维卷积神经网络模型的行为时间维度特征提取器的第一层的输入为所述光流图像的序列。
在上述运动图像处理装置中,所述特征融合模块,用于以如下级联公式来融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;其中,所述公式为:,其中,/>表示所述人员行为空间特征图,/>表示所述人员行为时间特征图,/>表示级联函数,/>表示所述分类特征图。
在上述运动图像处理装置中,所述特征优化模块,包括:优化因数计算单元,用于计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到多个位置信息图式场景注意力无偏估计因数;以及,加权优化单元,用于以所述多个位置信息图式场景注意力无偏估计因数作为加权系数对所述分类特征图的各个位置特征值进行加权优化以得到所述优化分类特征图。
在上述运动图像处理装置中,所述特征优化模块,用于以如下优化公式计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到所述多个位置信息图式场景注意力无偏估计因数;其中,所述优化公式为:
其中,是所述分类特征图中各个位置特征值,/>为所述分类特征图的各个位置特征值的位置坐标,且/>是所述分类特征图的所有特征值的全局均值,/>和/>分别代表将二维实数和三维实数映射为一维实数的函数,/>、/>和/>分别是所述分类特征图的宽度、高度和通道数,/>表示以2为底的对数函数值,/>表示所述多个位置信息图式场景注意力无偏估计因数中的各个位置信息图式场景注意力无偏估计因数。
在上述运动图像处理装置中,所述预警提示模块,包括:展开单元,用于将所述优化分类特征图基于行向量或列向量展开为分类特征向量;全连接编码单元,用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及分类结果生成单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
根据本申请的另一方面,提供了一种运动图像处理方法,其包括:
获取由摄像头采集的人员监控视频;
从所述人员监控视频提取多个人员监控关键帧;
将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图;
使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列;
将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器以得到人员行为时间特征图;
融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;
对所述分类特征图进行特征分布优化以得到优化分类特征图;
以及将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的运动图像处理方法。
根据本申请的又一方面,提供了一种计算机存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的运动图像处理方法。
与现有技术相比,本申请提供的一种用于运动图像处理装置、方法及存储介质,其通过采用基于深度学习的神经网络模型挖掘出人员监控视频中关于电梯内人员的行为语义理解特征信息,以此来准确地进行电梯内人员的行为语义理解,从而判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的运动图像处理装置的场景示意图;
图2为根据本申请实施例的运动图像处理装置的框图;
图3为根据本申请实施例的运动图像处理装置的系统架构图;
图4为根据本申请实施例的运动图像处理装置中行为空间维度特征提取器编码的流程图;
图5为根据本申请实施例的运动图像处理装置中特征优化模块的框图;
图6为根据本申请实施例的运动图像处理方法的流程图;
图7为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,传统的电梯监控系统通常只能提供基本的人员监控图片和视频播放功能,无法快速识别出电梯内的人员数量和行为特征,同样也就无法进行电梯内人员的异常行为检测,导致电梯的安全性和效率得不到保障。因此,期望一种优化的运动图像处理装置。
相应地,考虑到在实际进行电梯的运行图像处理时,为了能够实时检测电梯内的人员数量和行为,以提高电梯的安全性和效率,在本申请的技术方案中,期望对部署于电梯内的摄像头捕捉的人员监控视频进行分析,以识别出电梯内人员的人脸、身体和姿态,并判断电梯内人员是否存在异常或危险的情况。例如,如果检测到电梯内有人跳跃、打架或者超载,系统会自动发出异常预警提示,提醒运营管理人员。但是,考虑到所述监控视频中存在有大量的无关干扰信息,而由于每个人有不同的行为习惯,导致视频中关于电梯内人员的行为语义难以进行精准理解,从而影响异常预警的精度。因此,在此过程中,难点在于如何挖掘所述人员监控视频中关于电梯内人员的行为语义理解特征信息,以此来准确地进行电梯内人员的行为语义理解,从而判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述人员监控视频中关于电梯内人员的行为语义理解特征信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,通过摄像头采集人员监控视频。接着,考虑到在所述人员监控视频中,关于电梯内人员行为的语义状态变化特征可以通过所述人员监控视频中相邻监控帧之间的差分来表示,也就是,通过相邻图像帧的图像表征来表示电梯内人员行为的语义状态时序变化情况。但是,考虑到所述人员监控视频中相邻帧的差异较小,存在大量数据冗余,因此,为了降低计算量,且避免数据冗余给检测带来的不良影响,以预定采样频率对所述人员监控视频进行关键帧采样,以从所述人员监控视频提取多个人员监控关键帧。
然后,将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图,以此来更好地描述所述电梯内人员的行为状态随空间位置的变化情况。具体来说,在本申请的技术方案中,将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器中,所述三维卷积神经网络模型可以自动学习和提取所述电梯内人员的行为状态随空间位置变化的特征,生成具有行为空间运动轨迹特征的空间流特征图,即所述人员行为空间特征图。这样,可以更加全面地描述所述电梯内人员的行为状态的空间变化情况,提高对于所述电梯内人员的行为语义理解的的精准度。
进一步地,使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列,以获得在时间维度上连续的关于所述电梯内人员的行为状态变化信息。应可以理解,光流是指图像中像素点在时间轴方向上的位移,可以用来描述图像序列中关于所述电梯内人员的动作时序变化。因此,在本申请的技术方案中,在从所述人员监控视频提取多个人员监控关键帧后,通过分析这些关键帧之间的所述光流图像的序列,可以获得所述电梯内人员的行为状态语义的时间流特征,从而有利于后续能够更加准确地进行电梯内人员的行为语义理解。
接着,考虑到所述光流图像的序列的各个光流图像中关于所述电梯内人员的行为状态特征在时间维度上具有着关联性,也就是说,所述电梯内人员的行为状态信息在时间维度上是不断变化的。因此,在本申请的技术方案中,进一步将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器中进行特征挖掘,以提取出所述电梯内人员的行为状态语义特征在时间维度上的动态变化特征信息,以生成人员行为时间特征图。特别地,这里,所述基于三维卷积神经网络模型的时间流特征提取器的卷积核为三维卷积核,其具有W(宽度)、H(高度)和C(通道维度),在本申请的技术方案中,所述三维卷积核的通道维度对应于所述光流图像的序列排列为三维输入张量的时间维度,因此,在进行三维卷积编码时,能提取所述电梯内人员的行为状态分布特征随时间维度的动态变化特征,以有利于更准确地对于所述电梯内人员的行为语义进行理解。
然后,应可以理解,所述电梯内人员的行为状态不仅会随时间变化,还会随着空间位置变化,因此需要将所述电梯内人员的行为状态时间流特征和空间流特征进行融合,才能全面地刻画所述电梯内人员的行为状态特征的变化情况,以更准确地进行所述电梯内人员的行为语义理解。基于此,在本申请的技术方案中,进一步融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图,这样,能够融合所述电梯内人员的行为状态随时间变化的时序动态变化特征信息和所述电梯内人员的行为状态随空间位置的运动轨迹变化特征信息,从而更加全面地描述所述电梯内人员的行为状态的变化情况,有利于对所述电梯内人员的行为进行更充分地语义理解,从而及时有效地判断电梯内人员的行为和状况。
进一步地,再将所述分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。也就是,在本申请的技术方案中,所述分类器的标签包括产生异常预警提示(第一标签),以及,不产生异常预警提示(第二标签),其中,所述分类器通过软最大值函数来确定所述分类特征图属于哪个分类标签。值得注意的是,这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“是否产生异常预警提示”这种概念,其只是有两种分类标签且输出特征在这两个分类标签下的概率,即p1和p2 之和为一。因此,是否产生异常预警提示的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“是否产生异常预警提示”的语言文本意义。应可以理解,在本申请的技术方案中,所述分类器的分类标签为是否产生异常预警提示的控制策略标签,因此,在得到所述分类结果后,可基于所述分类结果来判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
特别地,在本申请的技术方案中,无论是从所述人员监控视频提取的多个人员监控关键帧还是从所述多个人员监控关键帧提取的光流图像的序列,其在图像维度上的各个位置表达图像语义,而在序列排列上的位置表达时序语义,因此对于通过特征提取得到的所述人员行为空间特征图和所述人员行为时间特征图来说,其特征图的各个位置的特征值都具有相应的位置属性,由此,融合所述人员行为空间特征图和所述人员行为时间特征图得到的所述分类特征图的各个位置的特征值也具有相应的位置属性。但是,在将所述分类特征图通过分类器进行分类时,需要将所述分类特征矩阵展开为特征向量,也就是,涉及到所述分类特征图的特征值的按位置聚合,因此,期望提升所述分类特征图的各个特征值在按位置聚合时对于所述分类特征图的原特征流形的表达效果。
基于此,本申请的申请人计算所述分类特征图的每个位置的特征值的位置信息图式场景注意力无偏估计因数,表示为:
其中和/>分别代表将二维实数和三维实数映射为一维实数的函数,例如,实现为非线性激活函数激活加权和加偏置的表示,/>、/>和/>分别是所述分类特征图的宽度、高度和通道数,/>为所述分类特征图的各个特征值/>的坐标,例如,可以特征矩阵的任意顶点或者中心作为坐标原点,且/>是所述分类特征图的所有特征值的全局均值。
这里,所述位置信息图式场景注意力无偏估计因数通过使用融合特征值相对于整体特征分布的高维空间位置的相对几何方向和相对几何距离的图式信息表示和高维特征本身的信息表示的更高阶的特征表达,来在特征值对整体特征分布的按位置聚合时进一步进行特征流形的形状信息聚合,以实现高维空间内的基于特征流形的各个子流形集合形状分布的场景几何的无偏估计,以准确表达特征图的流形形状的几何性质。这样,通过以所述位置信息图式场景注意力无偏估计因数对所述分类特征图的各个位置的特征值进行加权,就可以提升所述分类特征图的各个特征值在按位置聚合时对于所述分类特征图的原特征流形的表达效果,从而提升所述分类特征图通过分类器得到的分类结果的准确性。这样,能够基于电梯内人员的实际行为变化情况来判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
基于此,本申请提出了一种运动图像处理装置,其包括:视频采集模块,用于获取由摄像头采集的人员监控视频;关键帧提取模块,用于从所述人员监控视频提取多个人员监控关键帧;人员行为空间特征提取模块,用于将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图;光流图像提取模块,用于使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列;人员行为时间特征提取模块,用于将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器以得到人员行为时间特征图;特征融合模块,用于融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;特征优化模块,用于对所述分类特征图进行特征分布优化以得到优化分类特征图;以及预警提示模块,用于将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。
图1为根据本申请实施例的运动图像处理装置的场景示意图。如图1所示,在该应用场景中,通过摄像头(例如,如图1中所示意的C)获取人员监控视频。接着,将上述人员监控视频输入至部署有用于运动图像处理算法的服务器(例如,图1中的S)中,其中,所述服务器能够以所述运动图像处理算法对上述输入的人员监控视频进行处理,以生成用于表示是否产生异常预警提示的分类结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图2为根据本申请实施例的运动图像处理装置的框图。如图2所示,根据本申请实施例的运动图像处理装置300,包括:视频采集模块310;关键帧提取模块320;人员行为空间特征提取模块330;光流图像提取模块340;人员行为时间特征提取模块350;特征融合模块360;特征优化模块370;以及,预警提示模块380。
其中,所述视频采集模块310,用于获取由摄像头采集的人员监控视频;所述关键帧提取模块320,用于从所述人员监控视频提取多个人员监控关键帧;所述人员行为空间特征提取模块330,用于将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图;所述光流图像提取模块340,用于使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列;所述人员行为时间特征提取模块350,用于将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器以得到人员行为时间特征图;所述特征融合模块360,用于融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;所述特征优化模块370,用于对所述分类特征图进行特征分布优化以得到优化分类特征图;以及,所述预警提示模块380,用于将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。
图3为根据本申请实施例的运动图像处理装置的系统架构图。如图3所示,在该网络架构中,首先通过所述视频采集模块310获取由摄像头采集的人员监控视频;接着,所述关键帧提取模块320从所述视频采集模块310获取的人员监控视频提取多个人员监控关键帧;所述人员行为空间特征提取模块330将所述关键帧提取模块320得到的多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图;所述光流图像提取模块340使用光流图像提取网络从所述关键帧提取模块320得到的多个人员监控关键帧提取光流图像的序列;所述人员行为时间特征提取模块350将所述光流图像提取模块340得到的光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器以得到人员行为时间特征图;然后,所述特征融合模块360融合所述人员行为空间特征提取模块330得到的人员行为空间特征图和所述人员行为时间特征提取模块350得到的人员行为时间特征图以得到分类特征图;所述特征优化模块370对所述特征融合模块360融合所得的分类特征图进行特征分布优化以得到优化分类特征图;进而,所述预警提示模块380将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。
具体地,在所述运动图像处理装置300的运行过程中,所述视频采集模块310,用于获取由摄像头采集的人员监控视频。应可以理解,在实际进行电梯的运行图像处理时,为了能够实时检测电梯内的人员数量和行为,以提高电梯的安全性和效率,在本申请的技术方案中,可通过对部署于电梯内的摄像头捕捉的人员监控视频进行分析,以识别出电梯内人员的人脸、身体和姿态,并判断电梯内人员是否存在异常或危险的情况。例如,如果检测到电梯内有人跳跃、打架或者超载,系统会自动发出异常预警提示,提醒运营管理人员。因此,首先,可通过摄像头来获取人员监控视频。
具体地,在所述运动图像处理装置300的运行过程中,所述关键帧提取模块320,用于从所述人员监控视频提取多个人员监控关键帧。考虑到在所述人员监控视频中,关于电梯内人员行为的语义状态变化特征可以通过所述人员监控视频中相邻监控帧之间的差分来表示,也就是,通过相邻图像帧的图像表征来表示电梯内人员行为的语义状态时序变化情况。但是,考虑到所述人员监控视频中相邻帧的差异较小,存在大量数据冗余,因此,为了降低计算量,且避免数据冗余给检测带来的不良影响,以预定采样频率对所述人员监控视频进行关键帧采样,以从所述人员监控视频提取多个人员监控关键帧。
具体地,在所述运动图像处理装置300的运行过程中,所述人员行为空间特征提取模块330,用于将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图。也就是,将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图,以此来更好地描述所述电梯内人员的行为状态随空间位置的变化情况。具体来说,在本申请的技术方案中,将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器中,所述三维卷积神经网络模型可以自动学习和提取所述电梯内人员的行为状态随空间位置变化的特征,生成具有行为空间运动轨迹特征的空间流特征图,即所述人员行为空间特征图。这样,可以更加全面地描述所述电梯内人员的行为状态的空间变化情况,提高对于所述电梯内人员的行为语义理解的的精准度。在一个具体示例中,所述行为空间维度特征提取器包括相互级联的多个神经网络层,其中各个神经网络层包括卷积层、池化层和激活层。其中,在所述行为空间维度特征提取器的编码过程中,所述行为空间维度特征提取器的各层在层的正向传递过程中对输入数据使用所述卷积层进行基于卷积核的卷积处理、使用所述池化层对由所述卷积层输出的卷积特征图进行池化处理和使用所述激活层对由所述池化层输出的池化特征图进行激活处理。
图4为根据本申请实施例的运动图像处理装置中行为空间维度特征提取器编码的流程图。如图4所示,在所述行为空间维度特征提取器编码过程中,包括:使用所述基于三维卷积神经网络模型的行为空间维度特征提取器的各层在层的正向传递中分别对输入数据进行:S210,对输入数据进行卷积处理以得到卷积特征图;S220,对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及,S230,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于三维卷积神经网络模型的行为时间维度特征提取器的最后一层的输出为所述人员行为时间特征图,所述基于三维卷积神经网络模型的行为时间维度特征提取器的第一层的输入为所述光流图像的序列。
具体地,在所述运动图像处理装置300的运行过程中,所述光流图像提取模块340,用于使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列。也就是,在本申请的技术方案中,使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列,以获得在时间维度上连续的关于所述电梯内人员的行为状态变化信息。应可以理解,光流是指图像中像素点在时间轴方向上的位移,可以用来描述图像序列中关于所述电梯内人员的动作时序变化。因此,在本申请的技术方案中,在从所述人员监控视频提取多个人员监控关键帧后,通过分析这些关键帧之间的所述光流图像的序列,可以获得所述电梯内人员的行为状态语义的时间流特征,从而有利于后续能够更加准确地进行电梯内人员的行为语义理解。
具体地,在所述运动图像处理装置300的运行过程中,所述人员行为时间特征提取模块350,用于将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器以得到人员行为时间特征图。考虑到所述光流图像的序列中各个光流图像中关于所述电梯内人员的行为状态特征在时间维度上具有着关联性,也就是说,所述电梯内人员的行为状态特征在时间维度上是不断变化的。因此,在本申请的技术方案中,进一步将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器中进行特征挖掘,以提取出所述电梯内人员的行为状态语义特征在时间维度上的动态变化特征信息,以生成人员行为时间特征图。特别地,这里,所述基于三维卷积神经网络模型的时间流特征提取器的卷积核为三维卷积核,其具有W(宽度)、H(高度)和C(通道维度),在本申请的技术方案中,所述三维卷积核的通道维度对应于所述光流图像的序列排列为三维输入张量的时间维度,因此,在进行三维卷积编码时,能提取所述电梯内人员的行为状态分布特征随时间维度的动态变化特征,以有利于更准确地对于所述电梯内人员的行为语义进行理解。更具体地,使用所述基于三维卷积神经网络模型的行为空间维度特征提取器的各层在层的正向传递中分别对输入数据分别进行卷积处理、基于局部特征矩阵的池化处理和激活处理,其中,所述基于三维卷积神经网络模型的行为时间维度特征提取器的最后一层的输出为所述人员行为时间特征图,所述基于三维卷积神经网络模型的行为时间维度特征提取器的第一层的输入为所述光流图像的序列。
具体地,在所述运动图像处理装置300的运行过程中,所述特征融合模块360,用于融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图。也就是,为能够更加全面地刻画所述电梯内人员的行为状态特征的变化情况,以更准确地进行所述电梯内人员的行为语义理解在得到所述人员行为空间特征图和所述人员行为时间特征图后,进一步将两者进行特征融合以此来融合所述电梯内人员的行为状态随时间变化的时序动态变化特征信息和所述电梯内人员的行为状态随空间位置的运动轨迹变化特征信息,从而更加全面地描述所述电梯内人员的行为状态的变化情况,有利于对所述电梯内人员的行为进行更充分地语义理解,从而及时有效地判断电梯内人员的行为和状况。在一个示例中,可通过级联的方式来进行融合,具体地,以如下级联公式来融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;其中,所述公式为:,其中,表示所述人员行为空间特征图,/>表示所述人员行为时间特征图,/>表示级联函数,/>表示所述分类特征图。
具体地,在所述运动图像处理装置300的运行过程中,所述特征优化模块370,用于对所述分类特征图进行特征分布优化以得到优化分类特征图。考虑到所述多个人员监控关键帧和所述光流图像的序列在图像维度上的各个位置表达图像语义,而在序列排列上的位置表达时序语义,因此对于通过特征提取得到的所述人员行为空间特征图和所述人员行为时间特征图来说,其特征图的各个位置的特征值都具有相应的位置属性,由此,融合所述人员行为空间特征图和所述人员行为时间特征图得到的所述分类特征图的各个位置的特征值也具有相应的位置属性。但是,在将所述分类特征图通过分类器进行分类时,需要将所述分类特征矩阵展开为特征向量,也就是,涉及到所述分类特征图的特征值的按位置聚合,因此,期望提升所述分类特征图的各个特征值在按位置聚合时对于所述分类特征图的原特征流形的表达效果。
基于此,本申请的申请人计算所述分类特征图的每个位置的特征值的位置信息图式场景注意力无偏估计因数,表示为:
其中,是所述分类特征图中各个位置特征值,/>为所述分类特征图的各个位置特征值的位置坐标,且/>是所述分类特征图的所有特征值的全局均值,/>和/>分别代表将二维实数和三维实数映射为一维实数的函数,/>、/>和/>分别是所述分类特征图的宽度、高度和通道数,/>表示以2为底的对数函数值,/>表示所述多个位置信息图式场景注意力无偏估计因数中的各个位置信息图式场景注意力无偏估计因数。这里,所述位置信息图式场景注意力无偏估计因数通过使用融合特征值相对于整体特征分布的高维空间位置的相对几何方向和相对几何距离的图式信息表示和高维特征本身的信息表示的更高阶的特征表达,来在特征值对整体特征分布的按位置聚合时进一步进行特征流形的形状信息聚合,以实现高维空间内的基于特征流形的各个子流形集合形状分布的场景几何的无偏估计,以准确表达特征图的流形形状的几何性质。这样,通过以所述位置信息图式场景注意力无偏估计因数对所述分类特征图的各个位置的特征值进行加权,就可以提升所述分类特征图的各个特征值在按位置聚合时对于所述分类特征图的原特征流形的表达效果,从而提升所述分类特征图通过分类器得到的分类结果的准确性。这样,能够基于电梯内人员的实际行为变化情况来判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
图5为根据本申请实施例的运动图像处理装置中特征优化模块的框图。如图5所示,所述特征优化模块370,包括:优化因数计算单元371,用于计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到多个位置信息图式场景注意力无偏估计因数;以及,加权优化单元372,用于以所述多个位置信息图式场景注意力无偏估计因数作为加权系数对所述分类特征图的各个位置特征值进行加权优化以得到所述优化分类特征图。
具体地,在所述运动图像处理装置300的运行过程中,所述预警提示模块380,用于将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。也就是,在得到所述优化分类特征图后,进一步将其作为分类特征图通过分类器以得到用于表示是否产生异常预警提示的分类结果。具体地,所述分类器包括多个全连接层和与所述多个全连接层最后一个全连接层级联的Softmax层。其中,在所述分类器的分类处理中,首先将所述优化分类特征图投影为向量,例如,在一个具体的示例中,将所述优化分类特征图沿着行向量或者列向量进行展开为分类特征向量;然后,使用所述分类器的多个全连接层对所述分类特征向量进行多次全连接编码以得到编码分类特征向量;进而,将所述编码分类特征向量输入所述分类器的Softmax层,即,使用所述Softmax分类函数对所述编码分类特征向量进行分类处理以得到分类标签。在本申请的一个具体示例中,所述分类器的标签包括产生异常预警提示(第一标签),以及,不产生异常预警提示(第二标签),其中,所述分类器通过软最大值函数来确定所述分类特征图属于哪个分类标签。值得注意的是,这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念,实际上在训练过程当中,计算机模型并没有“是否产生异常预警提示”这种概念,其只是有两种分类标签且输出特征在这两个分类标签下的概率,即p1和p2 之和为一。因此,是否产生异常预警提示的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布,实质上用到的是标签的自然概率分布的物理意义,而不是“是否产生异常预警提示”的语言文本意义。应可以理解,在本申请的技术方案中,所述分类器的分类标签为是否产生异常预警提示的控制策略标签,因此,在得到所述分类结果后,可基于所述分类结果来判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
综上,根据本申请实施例的运动图像处理装置300被阐明,其通过采用基于深度学习的神经网络模型挖掘出人员监控视频中关于电梯内人员的行为语义理解特征信息,以此来准确地进行电梯内人员的行为语义理解,从而判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
如上所述,根据本申请实施例的运动图像处理装置可以实现在各种终端设备中。在一个示例中,根据本申请实施例的运动图像处理装置300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该运动图像处理装置300可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该运动图像处理装置300同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该运动图像处理装置300与该终端设备也可以是分立的设备,并且该运动图像处理装置300可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法
图6为根据本申请实施例的运动图像处理方法的流程图。如图6所示,根据本申请实施例的运动图像处理方法,包括步骤:S110,获取由摄像头采集的人员监控视频;S120,从所述人员监控视频提取多个人员监控关键帧;S130,将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图;S140,使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列;S150,将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器以得到人员行为时间特征图;S160,融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;S170,对所述分类特征图进行特征分布优化以得到优化分类特征图;以及,S180,将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。
在一个示例中,在上述运动图像处理方法中,所述步骤S130,包括:使用所述基于三维卷积神经网络模型的行为空间维度特征提取器的各层在层的正向传递中分别对输入数据进行如下处理:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于三维卷积神经网络模型的行为空间维度特征提取器的最后一层的输出为所述人员行为空间特征图,所述基于三维卷积神经网络模型的行为时间维度特征提取器的第一层的输入为所述人员监控关键帧。
在一个示例中,在上述运动图像处理方法中,所述步骤S150,包括:使用所述基于三维卷积神经网络模型的行为空间维度特征提取器的各层在层的正向传递中分别对输入数据进行如下处理:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;以及,对所述池化特征图进行非线性激活以得到激活特征图;其中,所述基于三维卷积神经网络模型的行为时间维度特征提取器的最后一层的输出为所述人员行为时间特征图,所述基于三维卷积神经网络模型的行为时间维度特征提取器的第一层的输入为所述光流图像的序列。
在一个示例中,在上述运动图像处理方法中,所述步骤S160,包括:以如下级联公式来融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;其中,所述公式为:,其中,/>表示所述人员行为空间特征图,/>表示所述人员行为时间特征图,/>表示级联函数,/>表示所述分类特征图。
在一个示例中,在上述运动图像处理方法中,所述步骤S170,包括:计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到多个位置信息图式场景注意力无偏估计因数;以及,以所述多个位置信息图式场景注意力无偏估计因数作为加权系数对所述分类特征图的各个位置特征值进行加权优化以得到所述优化分类特征图。更具体地,以如下优化公式计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到所述多个位置信息图式场景注意力无偏估计因数;其中,所述优化公式为:
其中,是所述分类特征图中各个位置特征值,/>为所述分类特征图的各个位置特征值的位置坐标,且/>是所述分类特征图的所有特征值的全局均值,/>和/>分别代表将二维实数和三维实数映射为一维实数的函数,/>、/>和/>分别是所述分类特征图的宽度、高度和通道数,/>表示以2为底的对数函数值,/>表示所述多个位置信息图式场景注意力无偏估计因数中的各个位置信息图式场景注意力无偏估计因数。
在一个示例中,在上述运动图像处理方法中,所述步骤S180,包括:将所述优化分类特征图基于行向量或列向量展开为分类特征向量;使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
综上,根据本申请实施例的运动图像处理方法被阐明,其通过采用基于深度学习的神经网络模型挖掘出人员监控视频中关于电梯内人员的行为语义理解特征信息,以此来准确地进行电梯内人员的行为语义理解,从而判断电梯内人员的行为和状况,并在发现异常时及时发出预警提示和相关措施建议,保证电梯的安全和顺畅运行。
示例性电子设备
下面,参考图7来描述根据本申请实施例的电子设备。
图7图示了根据本申请实施例的电子设备的框图。
如图7所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的运动图像处理装置中的功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如优化分类特征图等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括分类结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图7中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的运动图像处理方法中的功能中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性系统”部分中描述的根据本申请各种实施例的运动图像处理方法中的功能中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种运动图像处理装置,其特征在于,包括:
视频采集模块,用于获取由摄像头采集的人员监控视频;
关键帧提取模块,用于从所述人员监控视频提取多个人员监控关键帧;
人员行为空间特征提取模块,用于将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图;
光流图像提取模块,用于使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列;
人员行为时间特征提取模块,用于将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器以得到人员行为时间特征图;
特征融合模块,用于融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;
特征优化模块,用于对所述分类特征图进行特征分布优化以得到优化分类特征图;
以及预警提示模块,用于将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。
2.根据权利要求1所述的运动图像处理装置,其特征在于,所述人员行为空间特征提取模块,用于:使用所述基于三维卷积神经网络模型的行为空间维度特征提取器的各层在层的正向传递中分别对输入数据进行如下处理:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;
以及对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述基于三维卷积神经网络模型的行为空间维度特征提取器的最后一层的输出为所述人员行为空间特征图,所述基于三维卷积神经网络模型的行为时间维度特征提取器的第一层的输入为所述人员监控关键帧。
3.根据权利要求2所述的运动图像处理装置,其特征在于,所述人员行为时间特征提取模块,用于使用所述基于三维卷积神经网络模型的行为空间维度特征提取器的各层在层的正向传递中分别对输入数据进行如下处理:
对输入数据进行卷积处理以得到卷积特征图;
对所述卷积特征图进行基于局部特征矩阵的池化以得到池化特征图;
以及对所述池化特征图进行非线性激活以得到激活特征图;
其中,所述基于三维卷积神经网络模型的行为时间维度特征提取器的最后一层的输出为所述人员行为时间特征图,所述基于三维卷积神经网络模型的行为时间维度特征提取器的第一层的输入为所述光流图像的序列。
5.根据权利要求4所述的运动图像处理装置,其特征在于,所述特征优化模块,包括:
优化因数计算单元,用于计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到多个位置信息图式场景注意力无偏估计因数;
以及加权优化单元,用于以所述多个位置信息图式场景注意力无偏估计因数作为加权系数对所述分类特征图的各个位置特征值进行加权优化以得到所述优化分类特征图。
6.根据权利要求5所述的运动图像处理装置,其特征在于,所述特征优化模块,用于以如下优化公式计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到所述多个位置信息图式场景注意力无偏估计因数;
其中,所述优化公式为:
7.根据权利要求6所述的运动图像处理装置,其特征在于,所述预警提示模块,包括:
展开单元,用于将所述优化分类特征图基于行向量或列向量展开为分类特征向量;
全连接编码单元,用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;
以及分类结果生成单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
8.一种运动图像处理方法,其特征在于,包括:
获取由摄像头采集的人员监控视频;
从所述人员监控视频提取多个人员监控关键帧;
将所述多个人员监控关键帧通过基于三维卷积神经网络模型的行为空间维度特征提取器以得到人员行为空间特征图;
使用光流图像提取网络从所述多个人员监控关键帧提取光流图像的序列;
将所述光流图像的序列通过基于三维卷积神经网络模型的行为时间维度特征提取器以得到人员行为时间特征图;
融合所述人员行为空间特征图和所述人员行为时间特征图以得到分类特征图;
对所述分类特征图进行特征分布优化以得到优化分类特征图;
以及将所述优化分类特征图通过分类器以得到分类结果,所述分类结果用于表示是否产生异常预警提示。
9.根据权利要求8所述的一种运动图像处理方法,其特征在于,对所述分类特征图进行特征分布优化以得到优化分类特征图,包括:以如下优化公式计算所述分类特征图中各个位置特征值的位置信息图式场景注意力无偏估计因数以得到所述多个位置信息图式场景注意力无偏估计因数;
其中,所述优化公式为:
10.一种存储介质,其特征在于,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行权利要求8和9所述的运动图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310597292.0A CN116311005A (zh) | 2023-05-25 | 2023-05-25 | 一种用于运动图像处理装置、方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310597292.0A CN116311005A (zh) | 2023-05-25 | 2023-05-25 | 一种用于运动图像处理装置、方法及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116311005A true CN116311005A (zh) | 2023-06-23 |
Family
ID=86818992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310597292.0A Pending CN116311005A (zh) | 2023-05-25 | 2023-05-25 | 一种用于运动图像处理装置、方法及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311005A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117066313A (zh) * | 2023-08-11 | 2023-11-17 | 山东天衢铝业有限公司 | 边框铝材生产线的自动控制系统及其方法 |
CN117079350A (zh) * | 2023-10-11 | 2023-11-17 | 广州思林杰科技股份有限公司 | 支持多路视觉分析的便携体育测试方法及系统 |
CN117158904A (zh) * | 2023-09-08 | 2023-12-05 | 上海市第四人民医院 | 基于行为分析的老年人认知障碍检测系统及方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
CN110032942A (zh) * | 2019-03-15 | 2019-07-19 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
CN112489087A (zh) * | 2020-12-13 | 2021-03-12 | 深圳市进致网络科技有限公司 | 用于高层建筑施工的悬吊式作业平台的晃动检测方法 |
CN113609922A (zh) * | 2021-07-13 | 2021-11-05 | 中国矿业大学 | 基于模态匹配的连续手语语句识别方法 |
CN115311740A (zh) * | 2022-07-26 | 2022-11-08 | 国网江苏省电力有限公司苏州供电分公司 | 一种电网基建现场人体异常行为识别方法及系统 |
CN115376075A (zh) * | 2022-10-25 | 2022-11-22 | 中节能绿建环保科技有限公司 | 智能楼宇的新风节能系统及其控制方法 |
CN115410275A (zh) * | 2022-08-31 | 2022-11-29 | 陕西省君凯电子科技有限公司 | 基于图像识别的办公场所人员状态检测方法及其系统 |
CN115482498A (zh) * | 2022-10-28 | 2022-12-16 | 台州科技职业学院 | 基于视频的智慧养老监控系统及其方法 |
CN115731513A (zh) * | 2022-11-15 | 2023-03-03 | 杭州电子科技大学信息工程学院 | 基于数字孪生的智慧园区管理系统 |
CN115862151A (zh) * | 2023-02-14 | 2023-03-28 | 福建中医药大学 | 基于游戏预测老年人反应能力的数据处理系统及方法 |
CN116010713A (zh) * | 2023-03-27 | 2023-04-25 | 日照职业技术学院 | 基于云计算的创新创业平台服务数据处理方法及系统 |
CN116092119A (zh) * | 2022-12-29 | 2023-05-09 | 山东大学 | 基于多维度特征融合的人体行为识别系统及其工作方法 |
CN116189281A (zh) * | 2022-12-13 | 2023-05-30 | 北京交通大学 | 基于时空自适应融合的端到端人体行为分类方法及系统 |
CN116182471A (zh) * | 2023-04-24 | 2023-05-30 | 烟台永诚制冷科技有限公司 | 智能化的节能冷库制冷系统及方法 |
-
2023
- 2023-05-25 CN CN202310597292.0A patent/CN116311005A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508684A (zh) * | 2018-11-21 | 2019-03-22 | 中山大学 | 一种视频中人体行为识别的方法 |
CN110032942A (zh) * | 2019-03-15 | 2019-07-19 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
CN112489087A (zh) * | 2020-12-13 | 2021-03-12 | 深圳市进致网络科技有限公司 | 用于高层建筑施工的悬吊式作业平台的晃动检测方法 |
CN113609922A (zh) * | 2021-07-13 | 2021-11-05 | 中国矿业大学 | 基于模态匹配的连续手语语句识别方法 |
CN115311740A (zh) * | 2022-07-26 | 2022-11-08 | 国网江苏省电力有限公司苏州供电分公司 | 一种电网基建现场人体异常行为识别方法及系统 |
CN115410275A (zh) * | 2022-08-31 | 2022-11-29 | 陕西省君凯电子科技有限公司 | 基于图像识别的办公场所人员状态检测方法及其系统 |
CN115376075A (zh) * | 2022-10-25 | 2022-11-22 | 中节能绿建环保科技有限公司 | 智能楼宇的新风节能系统及其控制方法 |
CN115482498A (zh) * | 2022-10-28 | 2022-12-16 | 台州科技职业学院 | 基于视频的智慧养老监控系统及其方法 |
CN115731513A (zh) * | 2022-11-15 | 2023-03-03 | 杭州电子科技大学信息工程学院 | 基于数字孪生的智慧园区管理系统 |
CN116189281A (zh) * | 2022-12-13 | 2023-05-30 | 北京交通大学 | 基于时空自适应融合的端到端人体行为分类方法及系统 |
CN116092119A (zh) * | 2022-12-29 | 2023-05-09 | 山东大学 | 基于多维度特征融合的人体行为识别系统及其工作方法 |
CN115862151A (zh) * | 2023-02-14 | 2023-03-28 | 福建中医药大学 | 基于游戏预测老年人反应能力的数据处理系统及方法 |
CN116010713A (zh) * | 2023-03-27 | 2023-04-25 | 日照职业技术学院 | 基于云计算的创新创业平台服务数据处理方法及系统 |
CN116182471A (zh) * | 2023-04-24 | 2023-05-30 | 烟台永诚制冷科技有限公司 | 智能化的节能冷库制冷系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117066313A (zh) * | 2023-08-11 | 2023-11-17 | 山东天衢铝业有限公司 | 边框铝材生产线的自动控制系统及其方法 |
CN117066313B (zh) * | 2023-08-11 | 2024-03-15 | 山东天衢铝业有限公司 | 边框铝材生产线的自动控制系统及其方法 |
CN117158904A (zh) * | 2023-09-08 | 2023-12-05 | 上海市第四人民医院 | 基于行为分析的老年人认知障碍检测系统及方法 |
CN117158904B (zh) * | 2023-09-08 | 2024-05-24 | 上海市第四人民医院 | 基于行为分析的老年人认知障碍检测系统及方法 |
CN117079350A (zh) * | 2023-10-11 | 2023-11-17 | 广州思林杰科技股份有限公司 | 支持多路视觉分析的便携体育测试方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Human detection from images and videos: A survey | |
US9286693B2 (en) | Method and apparatus for detecting abnormal movement | |
CN116311005A (zh) | 一种用于运动图像处理装置、方法及存储介质 | |
US20110064267A1 (en) | Classifier anomalies for observed behaviors in a video surveillance system | |
CN113158723A (zh) | 一种端到端的视频动作检测定位系统 | |
CN104616316A (zh) | 基于阈值矩阵和特征融合视觉单词的人物行为识别方法 | |
CN110533046B (zh) | 一种图像实例分割方法、装置、计算机可读存储介质及电子设备 | |
Luo et al. | Traffic analytics with low-frame-rate videos | |
CN114049581B (zh) | 一种基于动作片段排序的弱监督行为定位方法和装置 | |
CN116363738A (zh) | 一种基于多移动目标的人脸识别方法、系统及存储介质 | |
CN116015837A (zh) | 用于计算机网络信息安全的入侵检测方法及系统 | |
CN111523421A (zh) | 基于深度学习融合各种交互信息的多人行为检测方法及系统 | |
CN117292338B (zh) | 基于视频流解析的车辆事故识别和分析方法 | |
CN117392604A (zh) | 物联网实时信息监控管理系统及方法 | |
US20230095533A1 (en) | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling | |
CN117676099B (zh) | 基于物联网的安全预警方法及系统 | |
CN116759053A (zh) | 基于物联网系统的医疗体系防控方法及系统 | |
CN113989577B (zh) | 图像分类方法及装置 | |
Mu et al. | Abnormal human behavior detection in videos: A review | |
CN115861981A (zh) | 基于视频姿态不变性的驾驶员疲劳行为检测方法及系统 | |
CN114120074B (zh) | 基于语义增强的图像识别模型的训练方法和训练装置 | |
CN116168243A (zh) | 剃须刀的智能化生产系统及其方法 | |
Hyun et al. | Dissimilate-and-assimilate strategy for video anomaly detection and localization | |
Yang et al. | Video anomaly detection for surveillance based on effective frame area | |
CN117274926A (zh) | 交通信号设备的控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |