CN116994206A - 基于多元数据融合的室内人员计数方法及系统 - Google Patents
基于多元数据融合的室内人员计数方法及系统 Download PDFInfo
- Publication number
- CN116994206A CN116994206A CN202311033764.6A CN202311033764A CN116994206A CN 116994206 A CN116994206 A CN 116994206A CN 202311033764 A CN202311033764 A CN 202311033764A CN 116994206 A CN116994206 A CN 116994206A
- Authority
- CN
- China
- Prior art keywords
- rgb
- infrared
- image
- space
- indoor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 title claims abstract description 30
- 238000001514 detection method Methods 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 52
- 230000002776 aggregation Effects 0.000 claims abstract description 28
- 238000004220 aggregation Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000010586 diagram Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000005855 radiation Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000004134 energy conservation Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多元数据融合的室内人员计数方法及系统,属于室内人员图像目标检测。本发明通过对RGB室内人员占有图、RGB室内环境背景图、红外室内人员占有图和红外室内环境背景图进行深度慢特征分析,获取RGB剪影图和红外剪影图;将RGB剪影图和红外剪影图分别输入时空注意力机制模块进行处理,获取RGB时空特征和红外时空特征;根据RGB时空特征和红外时空特征,获取聚合特征;对聚合特征进行卷积处理,输出包含头部目标检测框的图像,计算头部目标检测框的数量,获取室内人员数量。能够增强人员特征信息,提升室内人员检测精度;解决了现有技术中室内场景复杂,头部容易被遮挡和误检以及人员移动导致头部检测不准确的问题。
Description
技术领域
本发明涉及室内人员图像目标检测技术领域,特别是涉及一种基于多元数据融合的室内人员计数方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
人员的入住率信息在建筑节能和维持舒适的室内环境中发挥着重要作用,利用人员的入住率信息来调节暖通空调或者照明系统的运行在保证住户舒适度的同时还可以做到节能减排。研究表明,基于入住率信息实施的控制策略可以节省大约20%~45%的建筑能源。为了准确的实现建筑物占用率检测,研究人员提供了多种类别的解决方案,包括使用智能电表、环境传感器、摄像机、WiFi等进行监测。相较于其他方法,基于视觉的入住率信息获取方法具有更好的实时性与检测精度,该方法通常采用摄像机捕捉图像和视频,然后应用图像处理、视频分析以及深度学习技术来检测建筑物中的人员占用率。
人员检测的方法主要分为三类:身体检测、面部检测和头部检测。身体检测和面部检测的方法存在着比较明显的局限性,而头部检测凭借人体头部不易被遮挡且轮廓边界比较分明的特点一直作为复杂室内场景中人员检测的焦点。
虽然许多基于头部检测的室内人员检测方法现在已经取得了很大的进展,但在室内较为复杂的场景中,现有的室内人员检测方法还存在以下的局限性:
(1)许多像背包、花盆以及人物画像等大小、颜色和纹理相似于人体头部形状的背景物体有一定概率被误检为人体头部,导致检测到的人头数量与实际人头数量不相符。
(2)由于室内场景多为较小规模且比较拥挤,获得的图像数据会存在一定的遮挡问题,在此场景下也很难检测出置信度较高的头部。
(3)人员的移动也会导致头部的尺度、姿态、纹理和照明发生变化,这些移动的头部也有一定概率检测不出来,导致检测人头数量低于实际人头数量。
发明内容
为了解决现有技术的不足,本发明提供了一种基于多元数据融合的室内人员计数方法、系统、电子设备及计算机可读存储介质,将多元数据融合、深度慢特征分析、时空注意力机制与人头识别有机结合进行室内人员计数,提高目标检测进度,进而提高室内人员计数的准确性。
第一方面,本发明提供了一种基于多元数据融合的室内人员计数方法;
一种基于多元数据融合的室内人员计数方法,包括:
获取RGB图像和红外图像,其中,RGB图像包括RGB室内人员占有图和RGB室内环境背景图,红外图像包括红外室内人员占有图和红外室内环境背景图;
将RGB图像和红外图像输入预设的室内人员计数模型进行处理,以获取室内人员数量;其中,所述将RGB图像和红外图像输入训练好的室内人员计数模型进行处理包括:
对RGB图像和红外图像进行深度慢特征分析,获取RGB剪影图和红外剪影图;
将RGB剪影图和红外剪影图分别输入时空注意力机制模块进行处理,获取RGB时空特征和红外时空特征;
根据RGB时空特征和红外时空特征,获取聚合特征;
对聚合特征进行卷积处理,输出包含头部目标检测框的图像,计算头部目标检测框的数量,获取室内人员数量。
进一步的,对RGB图像进行深度慢特征分析,获取RGB剪影图包括:
将RGB图像数据集中的RGB室内人员占有图和RGB室内环境背景图分别输入变分自编码器,获取RGB人员占有特征和RGB环境特征;
将RGB人员占有特征和RGB环境特征输入慢特征分析模型进行处理,获取RGB剪影图。
优选的,所述将RGB人员占有特征和RGB环境特征输入慢特征分析模型进行处理包括:
对RGB人员占有特征和RGB环境特征进行中心化处理,并计算对应的协方差矩阵和互协方差矩阵;
根据协方差矩阵和互协方差矩阵,计算输入特征第一阶导数的协方差矩阵和输入特征的协方差矩阵,获取广义特征向量并进行归一化处理,获取映射矩阵;
根据映射矩阵、RGB人员占有特征和RGB环境特征,获取RGB剪影图。
进一步的,将RGB剪影图输入时空注意力机制模块进行处理,获取RGB时空特征包括:
根据RGB剪影图,获取对应的特征图和注意力图;
将特征图划分为多个,获取多个空间区域特征图;将注意力图划分为多个,获取多个空间注意力图;
对每个空间注意力图的所有值进行L1归一化处理,获取每个区域的空间注意力分数;
对同一区域内不同时刻的空间注意力图的空间注意力分数进行L1归一化处理,获取时空注意力分数;
根据空间区域特征图和时空注意力分数,获取RGB时空特征。
进一步的,所述根据RGB时空特征和红外时空特征,获取聚合特征具体为:通过DFA算子将RGB时空特征和红外特征融合,获取聚合特征。
优选的,所述通过DFA算子将RGB时空特征和红外特征融合包括:
在每个通道利用Sigmoid激活函数对红外时空特征进行归一化处理,获取归一化分数;
将红外时空特征的归一化参数和RGB时空特征进行积操作,获取融合特征。
进一步的,所述对聚合特征进行卷积处理,输出包含头部目标检测框的图像包括:
将聚合特征输入第一卷积层进行编码处理,后并行输入第二卷积层和第三卷积层,获取包含目标检测框和类别的图像;
通过非极大值抑制算法对目标检测框进行过滤,输出包含头部目标检测框的图像。
第二方面,本发明提供了一种基于多元数据融合的室内人员计数系统;
一种基于多元数据融合的室内人员计数系统,包括:
获取模块,用于获取RGB图像和红外图像,其中,RGB图像包括RGB室内人员占有图和RGB室内环境背景图,红外图像包括红外室内人员占有图和红外室内环境背景图;
室内人员计数模块,用于将RGB图像和红外图像输入预设的室内人员计数模型进行处理,以获取室内人员数量;其中,所述将RGB图像和红外图像输入训练好的室内人员计数模型进行处理包括:
对RGB图像和红外图像进行深度慢特征分析,获取RGB剪影图和红外剪影图;
将RGB剪影图和红外剪影图分别输入时空注意力机制模块进行处理,获取RGB时空特征和红外时空特征;
根据RGB时空特征和红外时空特征,获取聚合特征;
对聚合特征进行卷积处理,输出包含头部目标检测框的图像,计算头部目标检测框的数量,获取室内人员数量。
第三方面,本发明提供了一种电子设备;
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述基于多元数据融合的室内人员计数方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质;
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述基于多元数据融合的室内人员计数方法的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明提供的技术方案,使用多元信息融合方法,充分利用了RGB图像的纹理细节和高空间分辨率信息和红外图像的热辐射信息,实现了这两种模态信息的互补,在获取详细纹理信息的同时融合的热辐射信息,结合各个维度的特征,增强特征表达力,获取更全面的特征,解决因人员头部移动造成尺度变化的问题,从而提升检测精度。
2、为了突出室内人员占有图与室内环境背景图之间的差异性,本发明提供的技术方案,使用深度慢特征分析算法从当前人员占有图中去除室内环境背景图中蕴含的干扰信息,提取能够突出室内人员变化的特征,在完成背景信息弱化的同时增强了前景区域的特征,获得RGB剪影图和红外剪影图,凸显当前人员占有图与室内环境背景图中人员变化的区域。在一定程度上缓解了小规模场景的复杂、拥挤问题,解决了与人员头部信息相似背景物体的干扰问题。
3、本发明提供的技术方案,将深度慢特征分析输出的RGB剪影图和红外剪影图输入时空注意力机制,时空注意力机制先通过空间注意力机制获取RGB剪影图和红外剪影图像素点间的空间相关性,再利用时间注意力机制捕获从一段时间内连续多张RGB剪影图和红外剪影图中提取的空间特征在时间上的相关性,获得RGB时空特征和红外时空特征,从而聚焦RGB剪影图和红外剪影图的时空特征信息,将时空注意力集中在室内人员的头部信息上,快速获得最有效的信息,提升头部检测的置信度。
4、本发明提供的技术方案,使用DFA算子将根据时空注意力机制获得的RGB时空特征与红外时空特征进行融合,构建聚合特征,再利用三层卷积完成对聚合特征的编码以及检测目标头框和类别的输出,最后通过计算目标检测框的数量完成室内人员的计数。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例提供的流程示意图;
图2为本发明实施例提供的多元数据采集的流程示意图;
图3为本发明实施例提供的基于深度慢特征分析的人员变化区域增强的流程示意图;
图4为本发明实施例提供的变分自编码器的构造示意图;
图5为本发明实施例提供的时空注意力机制的处理流程示意图;
图6为本发明实施例提供的人头识别的流程示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
现有技术中基于头部检测的室内人员检测方法,在室内较为复杂的场景中,仍存在很多局限,影响人员检测的准确性;因此,本发明提供了一种基于多元数据融合的室内人员计数方法,基于深度慢特征与多模态融合进行室内人员图像目标检测。
接下来,结合图1-图6对本实施例公开的一种基于多元数据融合的室内人员计数方法进行详细说明。该基于多元数据融合的室内人员计数方法,包括如下步骤:
S1、获取RGB图像和红外图像,其中,RGB图像包括RGB室内人员占用图和RGB室内环境背景图,红外图像包括红外室内人员占用图和红外室内环境背景图。
在室内人员检测过程中,由于复杂的室内环境以及人员体态的变化,图像中的人员特征信息容易被遮挡或者因头部移动造成尺度变化,仅利用RGB图像数据进行检测,检测精度比较难提升。所以本实施例在RGB图像数据的基础上又融合了红外图像数据,通过融合RGB图像的纹理细节信息和红外图像热辐射信息增强人员特征信息,提升人员检测精度。
具体的,在室内构建包含一个光学双目摄像机和一个红外双目摄像机的同步系统来捕获相应室内场景同一视角、同一时刻室内场景的双模态图像,通过光学双目摄像机得到具备纹理细节和高空间分辨率的RGB室内人员占用图和RGB室内环境背景图,通过红外双目摄像机得到热辐射分明的红外室内人员占用图。
本实施例中,由包含光学双目摄像机和红外双目摄像机的同步成像系统来捕获数据,选取摄像机采集一段时间内的连续n张室内人员占有图,具体采集形式如图2所示。
在训练室内人员计数模型时,采集图像数据,并利用Labelimg标注工具给图像中的检测目标(头部)标注相应的标签类别(person)。
数据标签(或称数据注释)是开发机器学习(ML)模型时预处理阶段的一部分,它负责识别原始数据(如图像、文本文件、视频),然后向原始数据添加一个或多个标签,以指定模型的上下文,帮助机器学习模型做出准确的预测,这个过程要确保被检测的每个对象在训练集中都被标记。
S2、将RGB图像和红外图像输入预设的室内人员计数模型进行处理,以获取室内人员数量。其中,将RGB图像和红外图像输入预设的室内人员计数模型进行处理的具体流程包括:
S201、对RGB图像和红外图像进行深度慢特征分析,获取RGB剪影图和红外剪影图。具体步骤包括:
S2011、将RGB图像数据集中的RGB室内人员占有图和RGB室内环境背景图分别输入变分自编码器,获取RGB人员占有特征和RGB环境特征;将红外图像数据集中的红外室内人员占有图和红外室内环境背景图分别输入变分自编码器,获取红外人员占有特征和红外环境特征。
S2012、将RGB人员占有特征和RGB环境特征输入慢特征分析模型进行处理,获取RGB剪影图;将红外人员占有特征和红外环境特征输入慢特征分析模型进行处理,获取红外剪影图。
其中,将RGB人员占有特征和RGB环境特征输入慢特征分析模型进行处理包括如下步骤:
(1)对RGB人员占有特征和RGB环境特征进行中心化处理,计算中心化处理后的RGB人员占有特征和RGB环境特征对应矩阵的协方差矩阵和互协方差矩阵。
(2)根据协方差矩阵和互协方差矩阵,计算根据协方差矩阵和互协方差矩阵,计算输入特征第一阶导数的协方差矩阵和输入特征的协方差矩阵,解出广义特征向量,并归一化处理,获取映射矩阵。
(3)根据映射矩阵、RGB人员占有特征和RGB环境特征,获取RGB剪影图。
将红外人员占有特征和红外环境特征输入慢特征分析模型进行处理,获取红外剪影图包括如下步骤:
(1)对红外人员占有特征和红外环境特征进行中心化处理,计算中心化处理后的红外人员占有特征和红外环境特征对应矩阵的协方差矩阵和互协方差矩阵。
(2)根据协方差矩阵和互协方差矩阵,计算输入特征第一阶导数的协方差矩阵和原始输入特征的协方差矩阵,解出广义特征向量,并归一化处理,获取映射矩阵。
(3)根据映射矩阵、红外人员占有特征和红外环境特征,获取红外剪影图。
接下来,结合图3,以RGB图像为例对S201的流程进行详细说明。
将RGB室内人员占有图X和RGB室内环境背景图Y分别以像素点X,Y∈Rm×n的形式输入变分自编码器VAE,其中,Rm×n表示矩阵,m和n分别表示特征频带数和像素数。VAE的模型结构包括变分自编码器和解码器两个部分,先经变分自编码器获得图片上的特征,得到隐向量Z,再经解码器根据这些特征重构原始输入的图像X'和Y'。在训练过程中,VAE的目标是最小化输入X和X'之间的重构误差。
如图4所示,X是能够观测到的数据,在此处代表RGB室内人员占有图。Z是隐变量,即经变分自编码器获得RGB室内人员占有图上的特征X'是重构的数据,代表重构生成的RGB室内人员占有图。VAE的总体执行过程如下:
首先,编码器g将RGB室内人员占有图编码为隐变量分布参数,即:
其中,μ为均值,σ为方差。
然后,从隐变量参数中采样确定的隐变量Z,获得RGB室内人员占有图上的特征即:
解码器f将隐变量Z重构为原始数据,得到重构数据X',即:
其中,θ2为解码器参数。可用KL散度去衡量两个分布间,输入X和X'之间的重构误差。
最后,利用变分自编码器输出RGB室内人员占有图X上的特征同样的,RGB室内环境背景图Y也通过上述方法提取特征/>通过变分自编码网络,原始RGB室内人员占有图X和RGB室内环境背景图Y被映射到一个新的高维特征空间,并获取了各自的特征/>和/>
将经变分自编码器提取的特征和/>输入慢特征分析模型。
首先对输入数据和/>进行中心化处理,得到/>和/>其中,1∈RT×T为元素均为1的矩阵。
计算矩阵和/>的协方差矩阵和互协方差矩阵:
其中,I为单位矩阵,r为正则化常数。
SFA的目标函数可表示为:
该优化问题转为广义特征值求解问题:
Αωj=Bωjλj (2-8)
其中,λj是与第j个广义特征向量相对应的广义特征值。当解出广义特征向量ωj,通过对ωj归一化,得到最终投影向量
进一步构造投影矩阵其中/>表示与前q个最小特征值λj对应的特征向量。
经变分自编码网络提取的特征和/>通过慢特征分析:
得到最终的RGB剪影图。同样的,将深度慢特征方法运用于红外图像数据集获得红外剪影图。实现使用SFA约束来弱化背景图信息,突出显示人员信息的变化分量的作用。
室内人员占有图为包含人物信息与背景信息的图像,室内环境背景图为只包含背景信息的图像,剪影图是室内人员占有图剪掉室内环境背景图得到的一张剪影,将不变的背景信息剪掉。
S202、将RGB剪影图和红外剪影图分别输入时空注意力机制模块进行处理,获取RGB时空特征和红外时空特征。具体步骤包括:
S2021、根据RGB剪影图,获取对应的特征图和注意力图;根据红外剪影图,获取对应的红外特征图和红外注意力图。
S2022、将特征图划分为多个,获取多个空间区域特征图;将注意力图划分为多个,获取多个空间注意力图;将红外特征图划分为多个,获取多个红外空间区域特征图;将红外注意力图划分为多个,获取多个红外空间注意力图。
S2023、对每个空间注意力图的所有值进行L1归一化处理,获取每个区域的空间注意力分数;对同一区域内不同时刻的空间注意力图的空间注意力分数进行L1归一化处理,获取时空注意力分数。对每个红外空间注意力图的所有值进行L1归一化处理,获取每个区域的空间注意力分数;对同一区域内不同时刻的红外空间注意力图的空间注意力分数进行L1归一化处理,获取时空注意力分数。
S2024、根据空间区域特征图和对应的时空注意力分数,获取RGB时空特征;根据红外空间区域特征图和对应的时空注意力分数,获取红外时空特征。
聚焦于人员头部信息的时空注意力机制是在预训练模型ResNet50架构的基础上添加注意力机制,着重关注人员头部信息。该模块利用时空注意力机制将包含空间注意力信息和时间注意力信息的注意权重自动分配给不同图像中的每个空间区域。时空注意力机制的输入是经深度慢特征分析处理后的RGB剪影图和红外剪影图数据集,以RGB剪影图数据集为例,时空注意力机制的工作原理如下所示:
经深度慢特征处理后的RGB剪影图数据输入卷积层获得每一张RGB剪影图对应的特征图{fn}{n=1:N}。然后对深度通道的平方和进行L2归一化,生成相应的注意图gn,具体公式如(3-1):
其中,h、w为特征图的高度和宽度。将G定义为由输入的剪影图生成的注意力图的集合,G=[g1,g2,...gn],假设gi和gj是(3-1)计算出的注意力图,使用的平方gi和gj之差Frobenius范数的平方,见式子(3-2):
其中,gi和gj是随机选择的两张剪影图生成的注意力图,后面将这个正则化项Reg乘以一个系数后,添加到损失函数中最小化它,完成正则化。
每一张RGB剪影图都有一个相应的注意力图,n张RGB剪影图的特征图和注意图被划分为K个块,如式(3-3):
其中,gn,k表示第n张RGB剪影图的第k个区域的空间注意力图。对每个区块的所有值进行L1归一化获得该区域的一个空间注意力分数:
对在同一区域内不同时刻的RGB剪影图的空间注意分数进行L1归一化,获得归一化的时空注意力分数,每个来自不同RGB剪影图的空间区域被分配一个特定的时空注意分数S(n,k):
经过RGB剪影图间正则化得到一个N*K矩阵S,该矩阵为每个RGB剪影图的每个空间区域特征图fn,k分配一个注意力分数S(n,k)。使用每个注意力分数作为权重,并在每个分割的特征图上按元素做矩阵乘法来生成另一个包含输入图像全局信息的RGB时空特征F1:
Fl=fnk×snk (3-6)
同样的,红外剪影图数据经包含时空注意力机制的特征提取网络后,也可以获得红外时空特征F2。
F2=fnk×snk (3-7)
S203、根据RGB时空特征和红外时空特征,获取聚合特征;对聚合特征进行卷积处理,输出包含头部目标检测框的图像,计算头部目标检测框的数量,获取室内人员数量。具体包括:
S2031、通过DFA算子将RGB时空特征和红外特征融合,获取聚合特征。
具体的,在每个通道利用Sigmoid激活函数对红外时空特征进行归一化处理,获取归一化分数;将红外时空特征的归一化参数和RGB时空特征进行积操作,再补充红外时空特征因归一化处理后减少的特征,获取融合特征。
S2032、将聚合特征输入第一卷积层进行编码处理,后并行输入第二卷积层和第三卷积层,获取包含目标检测框和类别的图像。
S2033、通过非极大值抑制算法对目标检测框进行过滤,,输出包含头部目标检测框的图像,计算头部目标检测框的数量,确定室内人员数量。
本步骤中,充分利用可见光和红外的互补信息,对从RGB图像和红外图像中提取到的特征进行融合,获得聚合特征hagg,然后通过深层特征聚集DFA算子对聚合特征hagg进行解码,输出头部检测框和类别。
示例性的,如图6所示,该模块的输入为经时空注意力机制得到的RGB时空特征F1和红外时空特征F2。为了利用可见光和红外的互补信息,对从RGB图像和红外图像中提取到的特征进行融合,获得聚合特征hagg。具体步骤如下:
首先,利用深层特征聚集DFA算子来融合RGB和红外时空特征,增强人员信息实例并弱化背景信息,DFA算子见公式(4-1):
DFA:hagg=α·F1☉σ(F2)+β·F2 (4-1)
DFA算子首先在每个通道利用Sigmoid激活函数将红外时空特征F2归一化至[0,1],Sigmoid激活函数公式如(4-2)所示:
然后,将红外时空特征归一化后的分数与RGB时空特征值F1在相应张量内的对应的元素进行积操作,Hadamard乘积如(4-3)所示:
其中,σ(F2)可以看作是一个特殊的掩码来激活原始特征映射F1的局部信息,对室内人员信息进行保留,弱化静态背景干扰信息。红外时空特征F2被归一化至[0,1],RGB时空特征F1在激活功能之前被归一化,被激活的特征将会减少。为了补偿这种损失并增红外图像中头部特征的区域,在等式的元素级乘积后又添加了F2。
得到融合特征后,在回归坐标和分类之前建立三个卷积层,第一卷积层是对从前一层获得的信息进行编码,第二卷积层是Regression head负责预测定位坐标,根据目标定位生成多个检测框;第三卷积层是Classification head负责分类以及预测是人员头部的概率分数。
与图像分类一般只有一个输出不同,目标检测的输出个数是未知的。在目标检测的后处理阶段,可以先通过阈值过滤掉大部分置信度低于阈值的候选边界框。对于同一个目标有可能有多个置信度高于阈值的边界框被保留下来,所以需要通过非极大值抑制(Non-Max Suppression,NMS)算法来去掉重复的边界框。
交并比(Intersection over Union)是目标检测NMS的依据,用交并比指标衡量边界框位置,计算真实边界框与预测边界框的重叠程度见(4-4):
标准的NMS抑制函数如(4-5)所示:
其中,Si代表了每个边框的置信度,M为当前置信度最高的框,bi为剩余框的某一个,Nt为设定的阈值,当交并比IOU大于Nt时,边框的得分为0的图像直接舍弃。
最后,计算剩余头部检测框数量获得室内人员数量。
实施例二
本实施例公开了基于多元数据融合的室内人员计数系统,包括:
获取模块,用于获取RGB图像和红外图像,其中,RGB图像包括RGB室内人员占有图和RGB室内环境背景图,红外图像包括红外室内人员占有图和红外室内环境背景图;
室内人员计数模块,用于将RGB图像和红外图像输入预设的室内人员计数模型进行处理,以获取室内人员数量;其中,所述将RGB图像和红外图像输入训练好的室内人员计数模型进行处理包括:
对RGB图像和红外图像进行深度慢特征分析,获取RGB剪影图和红外剪影图;
将RGB剪影图和红外剪影图分别输入时空注意力机制模块进行处理,获取RGB时空特征和红外时空特征;
根据RGB时空特征和红外时空特征,获取聚合特征;
对聚合特征进行卷积处理,输出包含头部目标检测框的图像,计算头部目标检测框的数量,获取室内人员数量。
此处需要说明的是,上述获取模块和室内人员计数模块对应于实施例一中的步骤,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
实施例三
本发明实施例三提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,计算机指令被处理器运行时,完成上述基于多元数据融合的室内人员计数方法的步骤。
实施例四
本发明实施例四提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述基于多元数据融合的室内人员计数方法的步骤。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于多元数据融合的室内人员计数方法,其特征在于,包括:
获取RGB图像和红外图像,其中,RGB图像包括RGB室内人员占有图和RGB室内环境背景图,红外图像包括红外室内人员占有图和红外室内环境背景图;
将RGB图像和红外图像输入预设的室内人员计数模型进行处理,以获取室内人员数量;其中,所述将RGB图像和红外图像输入训练好的室内人员计数模型进行处理包括:
对RGB图像和红外图像进行深度慢特征分析,获取RGB剪影图和红外剪影图;
将RGB剪影图和红外剪影图分别输入时空注意力机制模块进行处理,获取RGB时空特征和红外时空特征;
根据RGB时空特征和红外时空特征,获取聚合特征;
对聚合特征进行卷积处理,输出包含头部目标检测框的图像,计算头部目标检测框的数量,获取室内人员数量。
2.如权利要求1所述的基于多元数据融合的室内人员计数方法,其特征在于,对RGB图像进行深度慢特征分析,获取RGB剪影图包括:
将RGB室内人员占有图和RGB室内环境背景图分别输入变分自编码器,获取RGB人员占有特征和RGB环境特征;
将RGB人员占有特征和RGB环境特征输入慢特征分析模型进行处理,获取RGB剪影图。
3.如权利要求2所述的基于多元数据融合的室内人员计数方法,其特征在于,所述将RGB人员占有特征和RGB环境特征输入慢特征分析模型进行处理包括:
对RGB人员占有特征和RGB环境特征进行中心化处理,并计算对应的协方差矩阵和互协方差矩阵;
根据协方差矩阵和互协方差矩阵,计算输入特征第一阶导数的协方差矩阵和输入特征的协方差矩阵,获取广义特征向量并进行归一化处理,获取映射矩阵;
根据映射矩阵、RGB人员占有特征和RGB环境特征,获取RGB剪影图。
4.如权利要求1所述的基于多元数据融合的室内人员计数方法,其特征在于,将RGB剪影图输入时空注意力机制模块进行处理,获取RGB时空特征包括:
根据RGB剪影图,获取对应的特征图和注意力图;
将特征图划分为多个,获取多个空间区域特征图;将注意力图划分为多个,获取多个空间注意力图;
对每个空间注意力图的所有值进行L1归一化处理,获取每个区域的空间注意力分数;
对同一区域内不同时刻的空间注意力图的空间注意力分数进行L1归一化处理,获取时空注意力分数;
根据空间区域特征图和时空注意力分数,获取RGB时空特征。
5.如权利要求1所述的基于多元数据融合的室内人员计数方法,其特征在于,所述根据RGB时空特征和红外时空特征,获取聚合特征具体为:通过DFA算子将RGB时空特征和红外特征融合,获取聚合特征。
6.如权利要求5所述的基于多元数据融合的室内人员计数方法,其特征在于,所述通过DFA算子将RGB时空特征和红外特征融合包括:
在每个通道利用Sigmoid激活函数对红外时空特征进行归一化处理,获取归一化分数;
将红外时空特征的归一化参数和RGB时空特征进行积操作,获取融合特征。
7.如权利要求1所述的基于多元数据融合的室内人员计数方法,其特征在于,所述对聚合特征进行卷积处理,输出包含头部目标检测框的图像包括:
将聚合特征输入第一卷积层进行编码处理,后并行输入第二卷积层和第三卷积层,获取包含目标检测框和类别的图像;
通过非极大值抑制算法对目标检测框进行过滤,输出包含头部目标检测框的图像。
8.基于多元数据融合的室内人员计数系统,其特征在于,包括:
获取模块,用于获取RGB图像和红外图像,其中,RGB图像包括RGB室内人员占有图和RGB室内环境背景图,红外图像包括红外室内人员占有图和红外室内环境背景图;
室内人员计数模块,用于将RGB图像和红外图像输入预设的室内人员计数模型进行处理,以获取室内人员数量;其中,所述将RGB图像和红外图像输入训练好的室内人员计数模型进行处理包括:
对RGB图像和红外图像进行深度慢特征分析,获取RGB剪影图和红外剪影图;
将RGB剪影图和红外剪影图分别输入时空注意力机制模块进行处理,获取RGB时空特征和红外时空特征;
根据RGB时空特征和红外时空特征,获取聚合特征;
对聚合特征进行卷积处理,输出包含头部目标检测框的图像,计算头部目标检测框的数量,获取室内人员数量。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311033764.6A CN116994206A (zh) | 2023-08-16 | 2023-08-16 | 基于多元数据融合的室内人员计数方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311033764.6A CN116994206A (zh) | 2023-08-16 | 2023-08-16 | 基于多元数据融合的室内人员计数方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116994206A true CN116994206A (zh) | 2023-11-03 |
Family
ID=88528293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311033764.6A Pending CN116994206A (zh) | 2023-08-16 | 2023-08-16 | 基于多元数据融合的室内人员计数方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994206A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556202A (zh) * | 2023-11-09 | 2024-02-13 | 南通大学 | 基于概率相关慢特征分析的工业过程微小故障检测方法 |
-
2023
- 2023-08-16 CN CN202311033764.6A patent/CN116994206A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556202A (zh) * | 2023-11-09 | 2024-02-13 | 南通大学 | 基于概率相关慢特征分析的工业过程微小故障检测方法 |
CN117556202B (zh) * | 2023-11-09 | 2024-06-11 | 南通大学 | 基于概率相关慢特征分析的工业过程微小故障检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764308B (zh) | 一种基于卷积循环网络的行人重识别方法 | |
CN111052126B (zh) | 行人属性识别与定位方法以及卷积神经网络系统 | |
CN108921051B (zh) | 基于循环神经网络注意力模型的行人属性识别网络及技术 | |
CN109359559B (zh) | 一种基于动态遮挡样本的行人再识别方法 | |
CN110580428A (zh) | 图像处理方法、装置、计算机可读存储介质和电子设备 | |
CN107220603A (zh) | 基于深度学习的车辆检测方法及装置 | |
CN113689382B (zh) | 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统 | |
CN109635634A (zh) | 一种基于随机线性插值的行人再识别数据增强方法 | |
CN111709296A (zh) | 一种景别识别方法、装置、电子设备及可读存储介质 | |
CN113591763B (zh) | 人脸脸型的分类识别方法、装置、存储介质及计算机设备 | |
CN116994206A (zh) | 基于多元数据融合的室内人员计数方法及系统 | |
Li et al. | MSAt-GAN: a generative adversarial network based on multi-scale and deep attention mechanism for infrared and visible light image fusion | |
CN112001241A (zh) | 基于通道注意力机制的微表情识别方法及系统 | |
CN112949453B (zh) | 烟火检测模型的训练方法、烟火检测方法及设备 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN109145743A (zh) | 一种基于深度学习的图像识别方法及装置 | |
CN116977738A (zh) | 一种基于知识增强型深度学习的交通场景目标检测方法及系统 | |
JP7225731B2 (ja) | 多変数データシーケンスの画像化 | |
CN109064444B (zh) | 基于显著性分析的轨道板病害检测方法 | |
CN103235943A (zh) | 基于pca的3d人脸识别系统 | |
CN110490053B (zh) | 一种基于三目摄像头深度估计的人脸属性识别方法 | |
Zambare et al. | Deep Learning Model for Disease Identification of Cotton Plants | |
CN110111332A (zh) | 基于深度卷积神经网络的胶原蛋白肠衣缺陷检测模型、检测方法及系统 | |
Rashidan et al. | Detection of different classes moving object in public surveillance using artificial neural network (ann) | |
CN113537397B (zh) | 基于多尺度特征融合的目标检测与图像清晰联合学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |