CN112287854A - 基于深度神经网络的建筑室内人员检测方法及系统 - Google Patents

基于深度神经网络的建筑室内人员检测方法及系统 Download PDF

Info

Publication number
CN112287854A
CN112287854A CN202011205872.3A CN202011205872A CN112287854A CN 112287854 A CN112287854 A CN 112287854A CN 202011205872 A CN202011205872 A CN 202011205872A CN 112287854 A CN112287854 A CN 112287854A
Authority
CN
China
Prior art keywords
video image
image
indoor personnel
neural network
building
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011205872.3A
Other languages
English (en)
Inventor
胡书山
占辉
余日季
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University
Original Assignee
Hubei University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University filed Critical Hubei University
Priority to CN202011205872.3A priority Critical patent/CN112287854A/zh
Publication of CN112287854A publication Critical patent/CN112287854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种基于深度神经网络的建筑室内人员检测方法,包括:获取与建筑室内人员相关联的视频图像;对所述视频图像进行多路残差运算,获取所述视频图像对应的多尺度特征;基于所述多尺度特征进行特征融合,得到图像特征金字塔;对所述图像特征金字塔进行级联区域目标检测,得到所述视频图像的室内人员信息。其能够精确地获取建筑室内的人员数目以及这些人员的位置信息。还提出一种基于深度神经网络的建筑室内人员检测系统。

Description

基于深度神经网络的建筑室内人员检测方法及系统
技术领域
本申请涉及建筑能效术领域,尤其涉及一种基于深度神经网络的建筑 室内人员检测方法、系统、电子设备及计算机可读介质。
背景技术
建筑室内人员信息对于建筑能效的分析与优化来说至关重要,。近年 来,越来越多的研究强调了利用建筑室内人员信息实现更好的建筑能效管 理。有几种方法证明了利用建筑室内人员信息可以实现建筑节能20-40% 左右。例如,建筑室内人员信息可以支持模型预测控制-控制(MPC)优化 照明、暖通系统的运行,以及建筑物内的空调(HVAC)系统舒适的室内环 境。深入分析这些信息有助于获得准确的建筑能源性能模拟/预测,对整 个建筑的能源性能改善至关重要。然而,从某一包含数十名人员的建筑室 内视频图像中生成高质量的室内人员信息的技术挑战依然存在。
发明内容
本申请实施例提供一种基于深度神经网络的建筑室内人员检测方法、 系统、电子设备及计算机可读介质,其能够精确地获取建筑物内的人员数 目以及这些人员的定位信息。
本申请提供一种基于深度神经网络的建筑室内人员检测方法,包括:
获取与建筑室内人员相关联的视频图像;
对所述视频图像进行多路残差运算,获取所述视频图像对应的多尺度 特征,其中,所述多尺度特征包括深度、宽度和基数;
基于所述多尺度特征进行特征融合,得到图像特征金字塔;
对所述图像特征金字塔进行级联区域目标检测,得到所述视频图像的 室内人员信息,其中,所述室内人员信息包括目标对象以及目标对象的位 置信息。
在一些实施例中,所述对所述视频图像进行多路残差运算,获取所述 视频图像对应的多尺度特征,包括:
基于多路卷积残差神经网络对所述视频图像进行多路残差运算,获取 所述视频图像对应的多尺度特征,其中,所述多路卷积残差神经网络基于 残差函数训练得到。
在一些实施例中,所述残差函数为:
y=Ti(x)+x,
其中,y是图像块,Ti(x)可以是一个任意函数,将输入向量x映射到 嵌入矩阵中并对其进行转置,所述残差函数由聚合变换函数得到,所述聚 合变换函数为
Figure BDA0002757036520000021
,所述变量C表示所述基数。
在一些实施例中,所述基于所述多尺度特征进行特征融合,得到图像 特征金字塔,包括:
利用特征金字塔网络对所述多尺度特征进行特征融合,得到图像特征 金字塔,其中,所述特征金字塔网络为由自下而上、自上而下和横向连接 组成的网络结构。
在一些实施例中,所述对所述图像特征金字塔进行级联区域目标检 测,得到所述视频图像的室内人员信息,包括:利用级联区域深度卷积神 经网络对所述图像特征金字塔进行级联区域目标检测,以获得所述视频图 像的室内人员信息,其中所述级联区域深度卷积神经网络由区域推荐网络 和三个检测器级联而成,并由占用损失函数训练得到。
在一些实施例中,所述占用损失函数包括目标检测损失函数:
Figure BDA0002757036520000031
其中变量i表示锚点的索引,pi表示预测的锚定是目标对象的概率,
Figure BDA0002757036520000032
是基真实值与正锚定的归一化,t表示级联级的阶段,N表示级联级的 总数。
在一些实施例中,所述占用损失函数包括边界检测损失函数
Figure BDA0002757036520000033
其中,x表示图像帧,g表示基真值框,h(x)表示分类函数,y表示 目标标签,t表示级联级的阶段,ut表示IoU阈值,bt表示t-1阶段的回归 量,λ是权衡系数,yt是xt在阈值ut下的标签。
在一些实施例中,本申请还提出一种基于深度神经网络的建筑室内人 员检测系统,包括:
视频图像获取模块,用于获取与建筑室内人员相关联的视频图像;
第一处理模块,用于对所述视频图像进行多路残差卷积运算,获取所 述视频图像对应的多尺度特征,其中,所述多尺度特征包括深度、宽度和 基数;
第二处理模块,用于基于所述多尺度特征进行特征融合,得到图像特 征金字塔;
占用信息获取模块,用于对所述图像特征金字塔进行级联区域目标检 测,得到所述视频图像的室内人员信息,其中,所述室内人员信息包括目 标对象以及目标对象的位置信息。
在一些实施例中,本申请还提出一种电子设备,包括存储器和处理 器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器 上的计算机可执行指令时实现上述的方法。
在一些实施例中,本申请还提出一种计算机可读存储介质,其上存储 有计算机程序,该计算机程序被处理器执行时,实现上述的方法。
上述实施例的基于深度神经网络的建筑室内人员检测方法、装置、电 子设备及计算机可读介质,通过获取与建筑室内人员相关联的视频图像; 对所述视频图像进行多路残差运算,获取所述视频图像对应的多尺度特 征;基于所述多尺度特征进行特征融合,得到图像特征金字塔;对所述图 像特征金字塔进行级联区域目标检测,得到所述视频图像的室内人员信 息,其能够精确地获取建筑物内的人员数目以及这些人员的定位信息。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所 需要使用的附图作简单地介绍。
图1为一些实施例中的一种基于深度神经网络的建筑室内人员检测方 法的流程图;
图2a为一些实施例中的ResNeXt的网络结构示意图;
图2b为一些实施例中的ResNeXt的网络结构的等效网络结构示意 图;
图3为一些实施例中的FPN的网络结构示意图;
图4为一些实施例中的Cascade R-CNN的网络结构示意图;
图5为的基于深度神经网络的建筑室内人员检测方法的网络结构示意 图;
图6为一些实施例的基于深度神经网络的建筑室内人员检测系统的结 构框图;
图7为另一些实施例的基于深度神经网络的建筑室内人员检测系统的 结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进 行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而 不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有 做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范 围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并 不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集 合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定 实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求 书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的 “一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语 “和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组 合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依 据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测 到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依 据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述 条件或事件]”或“响应于检测到[所描述条件或事件]”。
一般来说,已有的算法可以通过从摄像机捕捉到的视觉和直视图像中 学习高级特征来检测足够精确的占用信息。然而,需要进一步研究更好的 过滤算法来处理占用率信息的图像,尤其是建筑物中包含几十个居住者的 图像。
如图1所示,在一些实施例中,本申请提出一种基于深度神经网络的 建筑室内人员检测方法,包括:
步骤102,获取与建筑室内人员相关联的视频图像。
在本实施例中,基于摄像头或者抓拍机等图像采集设备采集相关建筑 室内的视频图像,这些图像采集装置可以按照需求设置在预定位置,以便 采集到建筑物内目标对象或者居住者的图像。
步骤104,对所述视频图像进行多路残差运算,获取所述视频图像对 应的多尺度特征。
在本实施例中,应用多路卷积残差神经网络,即ResNeXt神经网络对 步骤102获取的视频图像进行多路残差运算,从输入的视频图像中学习高 维特征,即获取所述视频图像对应的多尺度特征,该多尺度特征包括深 度、宽度和基数。
ResNeXt定义了一个新的聚集变换函数
Figure BDA0002757036520000061
来代替简单神经 元中的基本变换,以获得更好的图像分类性能。Ti(x)可以是一个任意函 数,将输入向量x映射到一嵌入矩阵中,然后对其进行变换。变量C指的 是转换集的大小,即基数,这是一个新引入的超参数,用于调整网络模型 容量。聚合变换函数用于构造ResNeXt的构造块的残差函数y=Ti(x)+x, y是块的输出。
在本实施例中,为了简化ResNeXt的网络结构和提高训练效率,该方 法为图2(a)所示的构建块定义了等效结构,如图2(b)所示,ResNeXt 的构建块遵循分割、转换和聚合的策略(图2(a)),该策略将单个训练 路径划分为一组卷积路径,来自这些路径的特征图被深度聚合到最终输 出。这一等效结构将低维嵌入/映射转换为一个单一且更宽的层,即将图2(a)中的第一个1×1,4-d层,映射为图2(b)中的第一个1×1,128-d 层。分组卷积层将其输入信道分为32组输入和输出信道均为4维的卷 积。第三层利用1×1过滤器来匹配输入到输出向量的维数。线性函数线性 整流函数(Rectified Linear Unit,ReLU)
Figure BDA0002757036520000071
,作为激励函 数。该函数负责将加权输入的总和转换为以下节点的值,并进行阈值计 算,当输入小于零时,将输入值乘以固定标量λ。
步骤106,基于所述多尺度特征进行特征融合,得到图像特征金字 塔。
在本实施例中,利用特征金字塔网络(Feature Pyramid Network, FPN)针对步骤104获得的多尺度特征进行特征融合运算,构建图像特征 金字塔。
在本实施例中,FPN定义了一种由自下而上、自上而下和横向连接组 成的结构,以整合低分辨率、语义强的特征和高分辨率、语义弱的特征。 自下而上的路径(图3左)代表了由五个构建块组成的卷积神经网络的典 型前馈计算过程。该路径以图像为输入数据,将每个块最后一层的结果作 为输出(即C2、C3、C4、C5),步长为4、8、16、32像素。这些输出 为自上而下的路径提供了参考特征图。自上而下的路径(图3右)旨在通 过上采样过程计算更高分辨率的特征来构建特征金字塔。这些向上采样的 特征通过横向连接得到丰富,这些横向连接来源于自下而上路径不同层的 特征图。虽然自底向上路径的特征映射在语义上较弱,但由于子采样次数 较少,它们的激活更精确地定位。自上而下路径(即P5)的基本特征来自自下而上路径(即C5)的最终特征。在粗分辨率特征P5上进行上采 样,构造了高分辨率特征(即P4)。上采样对空间信息采用2倍因子的 近邻策略。该通路利用一个侧向连接,以相应的自下而上特征(即C4) 来增强未采样结果。该连接表示为减小信道尺寸而进行的单元加法运算和 1x1卷积(1x1conv)计算。自上而下的路径迭代上采样(umsampling, up)和横向连接的过程,以构建以下特征图(即C3、C4、C5)。因此, FPN利用横向连接将自下而上路径和自顶向下路径的同一级别的特征地图 组合起来,从而得到图像特征金字塔,即预测输出predict。
FPN网络利用ResNeXt网络的建块中的中间特征和层次特征来构造 特征金字塔,探索了深度卷积网络固有的多尺度和金字塔层次结构,以构 建无需太多计算量的网络,该特征金字塔网络在多个层次上对特征图进行 多尺度检测。
步骤108,对所述图像特征金字塔进行级联区域目标检测,得到所述 视频图像的室内人员信息,其中,所述占用信息包括目标对象以及目标对 象的定位信息。
在本实施例中,使用级联区域深度卷积神经网络Cascade R-CNN对 图像特征金字塔进行级联区域目标检测,得到所述视频图像的室内人员信 息,即监控视频图像中的目标对象(入住人员)的数目,以及每个目标对 象的位置。
该级联区域深度卷积神经网络Cascade R-CNN由区域推荐网络 (regionproposal network,RPN)和三个检测器级联而成。通过定义预测 边界框和基真实边界框之间的重叠,IoU(Intersection over Union)阈值在 目标检测中起着关键作用。更高的阈值应该会带来更好的检测性能,但是 有两个挑战:由于使用更大的IoU阈值而导致的过度设置问题,以及检测 器和测试假设之间的不匹配问题。
如图4所示,RPN利用一个完全卷积的网络重新采样特征映射并预测 每个输入像素处的目标区域生成图像,经过再取样后输入特征映射。每个 滑动窗口生成一个256维向量是两个平行卷积层(即1×1)的输入。输出 两个层,一分类器(classifier,简写为cls)和一个边界框回归器 (bounding box regressor,简写为bbox reg)用于分类和预测区域边界框, 即分别用于检测目标对象以及每个目标对象的位置,将区域推荐结果(Proposals)输入至后续的3个检测器。RPN定义了一个损失函数,以便 将预测边界框和基真实框之间的差异,损失函数为:
Figure BDA0002757036520000091
其中变量i表示锚点的索引。pi表示预测的锚定是目标对象的概率,
Figure BDA0002757036520000092
是基真实值与正锚定的归一化,N代表级联的级数,该目标检测损失函 数包含了两部分,即分类(cls)和回归(reg)。
三个顺序检测器(detector),即检测器1(satge1/detector1)、检测 器2(satge2/detector2)、检测器3(satge3/detector3),Cascade R-CNN 旨在通过使用不同IoU阈值训练的三个检测器detctor来解决上述的这两 个挑战。这些检测器按顺序执行子训练工作,每个检测器需要两个输入 源:来自FPN的特征图(feature map)和区域生成(proposals)。RPN负 责建立detctor1的初始区域建议,detctor1的输出为detctor2的训练提供了 良好的分布,进一步地,detctor2的输出为detctor3的训练提供了良好的 分布。即,前一级的检测器(detector)为后一级的检测器输入分类 (categories)和坐标(coordinates),为后一级检测器的训练提供了良好 的分布。该策略旨在通过为检测器提供同等大小的积极训练集来解决过度 配置问题。采用相同的检测器级联拓扑结构,在推理时生成高质量的假 设,与检测器质量的提高有很好的匹配度。然后根据多阶段检测流程得到 入住信息,即,入住了多少个人,以及这些人的位置信息等,随着IoU阈 值的增加得到的入住信息越准确。
这些检测器具有相同的网络结构,其中ROI池化层(pooling)用于 从RPN(或以前的检测器)的FPN和区域推荐部分得到固定尺寸的特征 图。经过两个全连接层(fullcollection,FC)的训练,每个检测器集成一 个分类器和一个边界盒回归器来完成目标检测。
进一步的,边界盒回归器定义了一个函数f(x,b)把预测边界框p来回 归成一个基真值框g。预测边界框p使用4个坐标(px,py,pw,ph)来代表一个 图像帧x,那么基真值框(gx,gy,gw,gh)。回归器的学习样本对{gi,bi}将最小 化边界框风险为:
Figure BDA0002757036520000101
其中,损失函数Lloc用以下公式中的四个变量(δxywh)来计算距离 向量Δ,
Figure BDA0002757036520000102
级联R-CNN将边界框回归函数f(x,b)框架为级联回归器
Figure RE-GDA0002836914890000103
其中参数T表示级联级的总数。与迭代边界框 不同的是该级联回归策略采用重采样调整不同级联阶段的假设分布。它采 用重采样分布优化这些特殊回归因子fT,fT-1,...,f1(x,b)。
分类器h(x)旨在对一个图像中的对象进行分类成M+1类,0类表示图 像背景,1到M类表示图像中的对象类别。h(x)对图像帧x进行条件分布 和每个类设置类标签y,即hk(x)=p(y=kx),利用风险函数Rcls对分类过程 进行训练,如下式所示,
Figure BDA0002757036520000104
其中,Lcls是交叉熵损失函数。
级联R-CNN定义了一个边界检测损失函数: L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g),该损失函数L(xt,g)用于优化每 个阶段t的性能,并设置了IoU阈值ut。参数bt是t-1阶段的回归量 ft-1(xt-1,bt-1),λ是权衡系数。yt是xt在阈值ut下的标签。
综上,Cascade R-CNN执行三阶段分类和回归操作,导出监控视频图 像中高质量的室内人员信息,即目标对象的个数,以及每个目标对象在室 内的位置信息。
总之,本申请通过训练的神经网络,从监控视频中过滤出高质量的建 筑室内人员信息。该室内人员信息可作为建筑管理者执行更好的建筑运营 和能源管理的基础。输入和输出的图像和结果如图5所示,该网络的核心 概念包括三个主要模块:ResNeXt、FPN(Feature Pyramid Network)和级 联R-CNN(Cascade R-CNN)。
ResNeXt是一种简单且高度模块化的卷积结构,从数字图像中学习高 维特征。ResNeXt架构由五个构建块组成,最后四个执行聚合剩余转换。 FPN使用ResNeXt最后四个块的中间特征来构建特征金字塔,这对于在 不同尺度上检测目标是必不可少的。CascadeR-CNN执行三阶段分类和回 归操作,交叉点超过IoU阈值,并根据FPN的特征金字塔导出高质量的 占用信息,即所监控的建筑物视频中的人员数目(Occupancy number), 以及各个人员的位置信息(Occupancy localisation)。
在一些实施例中,如图6所示,还提供一种基于深度神经网络的建筑 室内人员检测系统600,所述系统600包括:
视频图像获取模块602,用于获取与建筑室内人员相关联的视频图 像;
第一处理模块604,用于对所述视频图像进行多路残差运算,获取所 述视频图像对应的多尺度特征,其中,所述多尺度特征包括深度、宽度和 基数;
第二处理模块606,用于基于所述多尺度特征进行特征融合,得到图 像特征金字塔;
占用信息获取模块608,用于对所述图像特征金字塔进行级联区域目 标检测,得到所述视频图像的室内人员信息,其中,所述室内人员信息包 括目标对象以及目标对象的位置信息。
上述模块所实现的功能或操作步骤均与上文方法类似,具体参见相应 部分,此处不再详述。
图7为本申请另一实施例提供的一种基于深度神经网络的建筑室内人 员检测系统的结构示意图。该基于深度神经网络的建筑室内人员检测系统 4000包括处理器41,还可以包括输入装置42、输出装置43和存储器 44。该输入装置42、输出装置43、存储器44和处理器41之间通过总线 相互连接。
存储器包括但不限于是随机存储记忆体(random access memory, RAM)、只读存储器(read至only memory,ROM)、可擦除可编程只读 存储器(erasable programmableread only memory,EPROM)、或便携式 只读存储器(compact disc read至only memory,CD至ROM),该存储 器用于相关指令及数据。
输入装置用于输入数据和/或信号,以及输出装置用于输出数据和/或 信号。输出装置和输入装置可以是独立的器件,也可以是一个整体的器 件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理 器(central processing unit,CPU),在处理器是一个CPU的情况下,该 CPU可以是单核CPU,也可以是多核CPU。处理器还可以包括一个或多 个专用处理器,专用处理器可以包括GPU、FPGA等,用于进行加速处 理。存储器用于存储网络设备的程序代码和数据。处理器用于调用该存储 器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法 实施例中的描述,在此不再赘述。
可以理解的是,图7仅仅示出了动作识别装置的简化设计。在实际应 用中,动作识别装置还可以分别包含必要的其他元件,包含但不限于任意 数量的输入/输出装置、处理器、控制器、存储器等,而所有可以实现本 申请实施例的动作识别装置都在本申请的保护范围之内。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述 描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的 对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置 和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻 辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件 可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。 所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一 些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的 形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为 单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分 或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任 意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品 的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上 加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的 流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或 者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或 者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站 点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用 户线(digital subscriber line,DSL))或无线(例如红外、无线、微波 等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计 算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个 或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可 以是只读存储器(read至only memory,ROM),或随机存储存储器 (random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁 带、磁碟、或光介质,例如,数字通用光盘(digitalversatile disc, DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD) 等。
以上上述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易 想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范 围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于深度神经网络的建筑室内人员检测方法,其特征在于,包括:
获取与建筑室内人员相关联的视频图像;
对所述视频图像进行多路残差运算,获取所述视频图像对应的多尺度特征,其中,所述多尺度特征包括深度、宽度和基数;
基于所述多尺度特征进行特征融合,得到图像特征金字塔;
对所述图像特征金字塔进行级联区域目标检测,得到所述视频图像的室内人员信息,其中,所述室内人员信息包括目标对象以及目标对象的位置信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述视频图像进行多路残差运算,获取所述视频图像对应的多尺度特征,包括:
基于多路卷积残差神经网络对所述视频图像进行多路残差运算,获取所述视频图像对应的多尺度特征,其中,所述多路卷积残差神经网络基于残差函数训练得到。
3.根据权利要求2所述的方法,其特征在于,所述残差函数为:
y=Ti(x)+x,
其中,y是图像块,Ti(x)可以是一个任意函数,将输入向量x映射到嵌入矩阵中并对其进行转置,所述残差函数由聚合变换函数得到,所述聚合变换函数为
Figure FDA0002757036510000011
所述变量C表示所述基数。
4.根据权利要求1所述的方法,其特征在于,所述基于所述多尺度特征进行特征融合,得到图像特征金字塔,包括:
利用特征金字塔网络对所述多尺度特征进行特征融合,得到图像特征金字塔,其中,所述特征金字塔网络为由自下而上、自上而下和横向连接组成的网络结构。
5.根据权利要求1所述的方法,其特征在于,所述对所述图像特征金字塔进行级联区域目标检测,得到所述视频图像的室内人员信息,包括:
利用级联区域深度卷积神经网络对所述图像特征金字塔进行级联区域目标检测,以获得所述视频图像的室内人员信息,其中级联区域深度卷积神经网络由区域推荐网络和三个检测器级联而成,并由占用损失函数训练得到。
6.根据权利要求5所述的方法,其特征在于,所述占用损失函数包括目标检测损失函数:
Figure FDA0002757036510000021
其中变量i表示锚点的索引,pi表示预测的锚定是目标对象的概率,
Figure FDA0002757036510000022
是基真实值与正锚定的归一化,t表示级联级的阶段,N表示级联级的数目。
7.根据权利要求5所述的方法,其特征在于,所述占用损失函数包括边界检测损失函数:
L(xt,g)=Lcls(ht(xt),yt)+λ[yt≥1]Lloc(ft(xt,bt),g),
其中,x表示图像帧,g表示基真值框,h(x)表示分类函数,y表示目标标签,t表示级联级的阶段,ut表示IoU阈值,bt表示t-1阶段的回归量,λ是权衡系数,yt是xt在阈值ut下的标签。
8.一种基于深度神经网络的建筑室内人员检测系统,其特征在于,所述系统包括:
视频图像获取模块,用于获取与建筑室内人员相关联的视频图像;
第一处理模块,用于对所述视频图像进行多路残差运算,获取所述视频图像对应的多尺度特征,其中,所述多尺度特征包括深度、宽度和基数;
第二处理模块,用于基于所述多尺度特征进行特征融合,得到图像特征金字塔;
占用信息获取模块,用于对所述图像特征金字塔进行级联区域目标检测,得到所述视频图像的室内人员信息,其中,所述室内人员信息包括目标对象以及目标对象的位置信息。
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现如权利要求1-7的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如权利要求1-7的方法。
CN202011205872.3A 2020-11-02 2020-11-02 基于深度神经网络的建筑室内人员检测方法及系统 Pending CN112287854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011205872.3A CN112287854A (zh) 2020-11-02 2020-11-02 基于深度神经网络的建筑室内人员检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011205872.3A CN112287854A (zh) 2020-11-02 2020-11-02 基于深度神经网络的建筑室内人员检测方法及系统

Publications (1)

Publication Number Publication Date
CN112287854A true CN112287854A (zh) 2021-01-29

Family

ID=74352815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011205872.3A Pending CN112287854A (zh) 2020-11-02 2020-11-02 基于深度神经网络的建筑室内人员检测方法及系统

Country Status (1)

Country Link
CN (1) CN112287854A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627295A (zh) * 2021-07-28 2021-11-09 中汽创智科技有限公司 一种图像处理方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018133034A1 (en) * 2017-01-20 2018-07-26 Intel Corporation Dynamic emotion recognition in unconstrained scenarios
CN109711261A (zh) * 2018-11-28 2019-05-03 山东师范大学 一种室内人员定位方法及装置、建筑智能照明系统
US20200092463A1 (en) * 2018-09-19 2020-03-19 Avigilon Corporation Method and system for performing object detection using a convolutional neural network
CN111027372A (zh) * 2019-10-10 2020-04-17 山东工业职业学院 一种基于单目视觉与深度学习的行人目标检测识别方法
CN111402226A (zh) * 2020-03-13 2020-07-10 浙江工业大学 一种基于级联卷积神经网络的表面疵点检测方法
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN111680655A (zh) * 2020-06-15 2020-09-18 深延科技(北京)有限公司 一种面向无人机航拍影像的视频目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018133034A1 (en) * 2017-01-20 2018-07-26 Intel Corporation Dynamic emotion recognition in unconstrained scenarios
US20200092463A1 (en) * 2018-09-19 2020-03-19 Avigilon Corporation Method and system for performing object detection using a convolutional neural network
CN109711261A (zh) * 2018-11-28 2019-05-03 山东师范大学 一种室内人员定位方法及装置、建筑智能照明系统
WO2020181685A1 (zh) * 2019-03-12 2020-09-17 南京邮电大学 一种基于深度学习的车载视频目标检测方法
CN111027372A (zh) * 2019-10-10 2020-04-17 山东工业职业学院 一种基于单目视觉与深度学习的行人目标检测识别方法
CN111402226A (zh) * 2020-03-13 2020-07-10 浙江工业大学 一种基于级联卷积神经网络的表面疵点检测方法
CN111680655A (zh) * 2020-06-15 2020-09-18 深延科技(北京)有限公司 一种面向无人机航拍影像的视频目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SAINING XIE: "Aggregated Residual Transformations for Deep Neural Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, 9 November 2017 (2017-11-09), pages 5989 - 5990 *
SHAOQING REN: "Faster R-CNN Towards Real-Time Object Detection with Region Proposal Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》, 6 June 2016 (2016-06-06), pages 1140 *
SHAOQING REN: "Faster R-CNN Towards Real-Time Object Detection with Region Proposal Networks", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, pages 1140 *
ZHAOWEI CAI: "Cascade R-CNN Delving Into High Quality Object Detection", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, pages 6158 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113627295A (zh) * 2021-07-28 2021-11-09 中汽创智科技有限公司 一种图像处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112990211B (zh) 一种神经网络的训练方法、图像处理方法以及装置
RU2509355C2 (ru) Устройство и способ классификации движения объектов в зоне отслеживания
CN113628249B (zh) 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN111738258A (zh) 一种基于机器人巡检的指针式仪表读数识别方法
CN110610210B (zh) 一种多目标检测方法
CN116167668A (zh) 基于bim的绿色节能建筑施工质量评价方法及系统
CN110689118A (zh) 一种基于YOLO V3-tiny改进的目标检测方法
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
CN116343077A (zh) 一种基于注意力机制与多尺度特征的火灾检测预警方法
CN113592060A (zh) 一种神经网络优化方法以及装置
CN113095370A (zh) 图像识别方法、装置、电子设备及存储介质
CN113781519A (zh) 目标跟踪方法和目标跟踪装置
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
Hu et al. Building occupancy detection and localization using CCTV camera and deep learning
CN112270246A (zh) 视频行为识别方法及装置、存储介质、电子设备
CN115393690A (zh) 一种轻量化神经网络的空对地观测多目标识别方法
CN115063833A (zh) 一种基于图像分层视觉的机房人员检测方法
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
CN114283326A (zh) 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN112287854A (zh) 基于深度神经网络的建筑室内人员检测方法及系统
CN112288084A (zh) 一种基于特征图通道重要性程度的深度学习目标检测网络压缩方法
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN112200103A (zh) 一种基于图注意力的视频分析系统和方法
CN116912774A (zh) 一种基于边缘计算的输变电设备红外图像目标识别方法、电子装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination