CN112507872B - 人体头肩区域的定位方法、定位装置和电子设备 - Google Patents

人体头肩区域的定位方法、定位装置和电子设备 Download PDF

Info

Publication number
CN112507872B
CN112507872B CN202011432151.6A CN202011432151A CN112507872B CN 112507872 B CN112507872 B CN 112507872B CN 202011432151 A CN202011432151 A CN 202011432151A CN 112507872 B CN112507872 B CN 112507872B
Authority
CN
China
Prior art keywords
feature map
head
bounding box
convolution
coordinate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011432151.6A
Other languages
English (en)
Other versions
CN112507872A (zh
Inventor
王金桥
赵朝阳
赵旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Objecteye Beijing Technology Co Ltd
Original Assignee
Objecteye Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Objecteye Beijing Technology Co Ltd filed Critical Objecteye Beijing Technology Co Ltd
Priority to CN202011432151.6A priority Critical patent/CN112507872B/zh
Priority to PCT/CN2021/070576 priority patent/WO2022121075A1/zh
Publication of CN112507872A publication Critical patent/CN112507872A/zh
Application granted granted Critical
Publication of CN112507872B publication Critical patent/CN112507872B/zh
Priority to ZA2023/05848A priority patent/ZA202305848B/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了人体头肩区域的定位方法、定位装置和电子设备,该定位方法包括:将目标图像通过卷积神经网络进行卷积得到缩小后的特征图;再次进行卷积得到第一特征图、第二特征图和第三特征图;进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图;经过预测卷积层得到每个位置的概率和编码包围框输出值;将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标,并结合分类概率得到第一定位结果;进行包围框过滤得到第二定位结果;进行非极大值抑制得到最终定位结果。本发明直接由输入图像产生定位结果,比双阶段方法高效,同时神经网络结构轻量,能准确且高效地提取头肩区域的特征。

Description

人体头肩区域的定位方法、定位装置和电子设备
技术领域
本发明实施例涉及计算机视觉和模式识别技术领域,具体涉及人体头肩区域的定位方法、定位装置和电子设备。
背景技术
人体头肩区域定位,也被称为头肩检测,是将图像或视频帧中的所有人体头肩部位以矩形包围框的形式定位出来。人体头肩区域定位有着广泛的应用场景:在人群计数应用中,可通过统计人体头肩包围框的数量来计数,获得精准的数量和人群位置密度信息;在人群行为分析中,可以通过对连续视频帧中每个头肩区域进行跟踪,获得行人个体运动方向;在司乘、工地等场景的违规行为监测中,可对头肩区域定位后,对头肩区域进行分析来获得相应人员是否有抽烟、打电话、违规佩戴安全帽等行为。头肩区域定位功能往往需部署在低计算力的远程设备终端,要求头肩区域检测方法保持足够准确率前提下,拥有高执行效率和低资源占用。
相关技术为了达到高效率采用传统图像目标检测方法来定位头肩区域,例如ACF算法或DPM算法,对遮挡、模糊、暗光、姿态变化等场景表现不佳;此外,采用基于深度学习的两步目标检测方法,利用双阶段神经网络由粗到精地定位头肩区域,利用深度神经网络在图像识别上的强大特征抽取能力,但是运行效率不高且资源占用过大。
发明内容
本发明实施例的目的在于提供人体头肩区域的定位方法、定位装置和电子设备,用以解决现有在低效率终端设备上运行算法面临的高准确率和低资源占用率需求的问题。
为实现上述目的,本发明实施例主要提供如下技术方案:
第一方面,本发明实施例提供了一种人体头肩区域的定位方法,包括:
将目标图像通过卷积神经网络进行卷积得到缩小后的特征图;
将所述缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图;
将所述第一特征图、所述第二特征图和所述第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图;
将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值;
将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标,并和分类概率组合成区域定位向量,将所有预测层所有像素位置的包围框汇总在一起,得到第一定位结果;
对所述第一定位结果进行包围框过滤得到第二定位结果;
对所述第二定位结果进行非极大值抑制得到最终定位结果。
根据本发明的一个实施例,所述将目标图像通过卷积神经网络进行卷积得到缩小后的特征图,包括:
将所述目标图像采用跨度为2的卷积层,逐次按2倍进行特征图缩小得到所述缩小后的特征图。
根据本发明的一个实施例,所述卷积神经网络的卷积层由稀疏连接卷积层和普通卷积层交替排列;其中,所述稀疏连接卷积层的输入和输出通道数相同,且在序号相同的输入通道和输出通道之间网络连接,其卷积核权重矩阵大小为N×3×3,N为通道数。
根据本发明的一个实施例,所述卷积神经网络的激活函数为:
Figure BDA0002826840580000031
其中,x和y分别表示激活函数的输入输出特征图,p和q为可学习参数。
根据本发明的一个实施例,所述将所述第一特征图、所述第二特征图和所述第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图,包括:
将所述第一特征图、所述第二特征图和所述第三特征图分别输入由三个卷积核等大的稀疏连接卷积结构提取不同视野范围的特征后,融合在一起得到所述第一融合特征图、所述第二融合特征图和所述第三融合特征图;
其中,所述三个卷积核等大的稀疏连接卷积结构包括一个用于关注头肩区域特征的短焦距分支结构的卷积核,剩余两个卷积核构成一个长焦距分支,关注头肩区域周围的上下文特征。
根据本发明的一个实施例,所述将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值,包括:
将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图采用两个并行的卷积操作分别输出每个位置的概率和编码包围框输出值;
其中,通过以下规则明确在网络输出的特征图上每个像素位置的类别和包围框坐标:
将特征图上的像素点映射到输入图像上得到在原图坐标系的坐标点;
如果所述坐标点处在某个头肩内部,则所述坐标点为正样本,该头肩的外包框即为所述坐标点匹配到的基本事实GT外包框,否则为负样本,不匹配外包框;
根据匹配到的GT外包框可得到的GT编码,计算公式为:
Figure BDA0002826840580000032
Figure BDA0002826840580000033
Δh=hgt
Δw=wgt
其中,xc,yc为特征图上的像素点映射到输入图像得到的坐标点的横纵坐标;xgt,ygt,hgt,wgt为匹配到的GT外包框的中心点的横纵坐标以及宽、高数值;Δx,Δy,Δh,Δw为网络需要输出的编码后的包围框坐标。
第二方面,本发明实施例还提供一种人体头肩区域的定位装置,包括:
获取模块,用于获取目标图像;
控制处理模块,用于将目标图像通过卷积神经网络进行卷积得到缩小后的特征图;将所述缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图;将所述第一特征图、所述第二特征图和所述第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图;将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值;将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标,并和分类概率组合成区域定位向量,将所有预测层所有像素位置的包围框汇总在一起,得到第一定位结果;对所述第一定位结果进行包围框过滤得到第二定位结果;对所述第二定位结果进行非极大值抑制得到最终定位结果。
根据本发明的一个实施例,所述控制处理模块用于将所述目标图像采用跨度为2的卷积层,逐次按2倍进行特征图缩小得到所述缩小后的特征图。
根据本发明的一个实施例,所述卷积神经网络的卷积层由稀疏连接卷积层和普通卷积层交替排列;其中,所述稀疏连接卷积层的输入和输出通道数相同,且在序号相同的输入通道和输出通道之间网络连接,其卷积核权重矩阵大小为N×3×3,N为通道数。
根据本发明的一个实施例,所述卷积神经网络的激活函数为:
Figure BDA0002826840580000041
其中,x和y分别表示激活函数的输入输出特征图,p和q为可学习参数。
根据本发明的一个实施例,所述控制处理模块用于将所述第一特征图、所述第二特征图和所述第三特征图分别输入由三个卷积核等大的稀疏连接卷积结构提取不同视野范围的特征后,融合在一起得到所述第一融合特征图、所述第二融合特征图和所述第三融合特征图;
其中,所述三个卷积核等大的稀疏连接卷积结构包括一个用于关注头肩区域特征的短焦距分支结构的卷积核,剩余两个卷积核构成一个长焦距分支,关注头肩区域周围的上下文特征。
根据本发明的一个实施例,所述控制处理模块用于将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图采用两个并行的卷积操作分别输出每个位置的概率和编码包围框输出值;
其中,通过以下规则确定在网络输出的特征图上每个像素位置的类别和包围框坐标:
将特征图上的像素点映射到输入图像上得到在原图坐标系的坐标点;
如果所述坐标点处在某个头肩内部且该头肩与所述坐标点的距离比其他头肩距离所述坐标点更近,则所述坐标点为正样本,该头肩的外包框即为所述坐标点匹配到的基本事实GT外包框,否则为负样本,不匹配外包框;
根据匹配到的GT外包框可得到的GT编码,计算公式为:
Figure BDA0002826840580000051
Figure BDA0002826840580000052
Δh=hgt
Δw=wgt
其中,xc,yc为特征图上的像素点映射到输入图像得到的坐标点的横纵坐标;xgt,ygt,hgt,wgt为匹配到的GT外包框的中心点的横纵坐标以及宽、高数值。Δx,Δy,Δh,Δw为网络需要输出的编码后的包围框坐标。
第三方面,本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的人体头肩区域的检测方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,包含一个或多个程序指令,所述一个或多个程序指令用于被执行如第一方面所述的人体头肩区域的检测方法。
本发明实施例提供的技术方案至少具有如下优点:
本发明实施例提供的人体头肩区域的定位方法、定位装置和电子设备,神经网络以单步直接输出结果的端对端方式,直接由输入图像产生定位结果,比双阶段方法要高效。同时本发明通过对神经网络的结构进行合理设计,一方面使其更加轻量,一方面使其能准确且高效地的提取头肩区域的特征。
附图说明
图1为本发明实施例的人体头肩区域的定位方法的流程图。
图2为本发明一个示例中多焦点上下文信息融合结构的示意图。
图3为本发明实施例的人体头肩区域的定位装置的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”和“连接”应做广义理解,例如可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
图1为本发明实施例的人体头肩区域的定位方法的流程图。如图1所示,本发明实施例的人体头肩区域的定位方法,包括:
S1:将目标图像通过卷积神经网络进行卷积得到缩小后的特征图。
具体地,为了降低网络计算复杂度,本实施例在网络的输入端利用少量几个网络层快速降低特征图的分辨率,以降低卷积核滑动的空间范围,节约计算量。具体方法是,在网络的输入端的几层采用跨度为2的卷积层,逐次按2倍进行特征图缩小。和一般的卷积神经网络结构不同,本实施例不采用池化层进行特征图缩小,主要是因为池化层会带来细节信息丢失,不适用此处连续特征图缩小的结构。在这些连续下降层之后,每个跨度为2的卷积层后接若干个跨度为1的卷积层,以提取语义性更强的特征来进行头肩区域定位。
在卷积连接方式设置上,为了降低网络计算复杂度,本实施例设计了一种稀疏连接的卷积结构。常规的卷积会用同一个卷积核在所有输入通道上进行卷积操作,设卷积操作输入输出通道数分别为N、M,卷积核大小为3,则卷积核参数矩阵大小为N×M×3×3。与常规的卷积不同的是,本实施例的稀疏连接卷积方式中,其输入输出通道数相同,每个卷积只在特征图中的单个通道上进行卷积操作,形成了稀疏连接的结构,如上面的输入输出通道数以及卷积核大小设置,卷积核矩阵大小为N×3×3,N为通道数。此外,在每个稀疏连接卷积后接一个普通卷积层,其特点是卷积核空间大小为1×1,其卷积核权重矩阵为N×M×1×1,N和M分别为输入输出通道数。以融合不同特征通道间信息。本实施例的结构可以极大降低参数量和计算量。
激活函数是现代神经网络的必要构成元素,深度卷积神经网络方法一般采用ReLU函数来避免训练过程中的梯度消失问题,而ReLU函数在输入小于0的部分产生了信息丢失。ReLU函数在较大网络模型上起到正则效果,避免过拟合,而在轻量级结构上会限制模型容量,降低准确率。本实施例的激活函数的具体公式为:
Figure BDA0002826840580000081
其中,PQReLU为本实施例的激活函数名称,x和y分别表示激活函数的输入输出特征图,p和q为可学习参数,在卷积神经网络的训练时确定取值大小。
S2:将缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图,本实施例将分辨率为原图下采样8倍、16倍、32倍的三组特征图中深度最深的三个特征图记为P1,P2和P3。
S3:将第一特征图、第二特征图和第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图。
具体地,本实施例在预测层用不同深度的微型子网络形成多种不同感受野范围的特征图。通过此结构,可以让网络在进行头肩区域定位的决策时,参考到头肩周围的人体区域以及周围环境上下文信息,进行更精准的决策。
图2为本发明一个示例中多焦点上下文信息融合结构的示意图。如图2所示,本实施例由三个卷积核等大的稀疏连接卷积构成,其中一个卷积核构成一个短焦距分支,关注头肩区域特征,其它两个卷积核构成一个分支,关注头肩区域周围的上下文特征。该结构输入的特征图分别经两个分支提取不同视野范围的特征后,融合在一起得到融合了多焦距上下文信息的特征。本实施例在多个不同分辨率的网络层上预测不同大小的头肩区域定位结果。因此,本实施例在其中每层的预测卷积前均添加了上述上下文信息融合结构,将P1,P2和P3进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图,记为Q1,Q2和Q3。
S4:将第一融合特征图、第二融合特征图和第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值。
具体地,本发明在上述上下文信息融合结构后面用两个并行的卷积操作分别输出分类概率值和包围框框编码值。通过该策略,神经网络可以直接输出头肩区域定位结果,形成了一种端对端的结构,使算法计算都发生在神经网络部分,减少了算法环节,加速了运算,特别在专用神经网络计算芯片上可减少不同计算原件内存的交互。为了明确在网络输出的特征图上每个像素位置的类别和包围框坐标,本发明设计了如下的规则:
将特征图上的像素点映射到输入图像上得到在原图坐标系的坐标点;
若该坐标点处在某个头肩内部,则该坐标点为正样本,该头肩的外包框即为该坐标点匹配到的Ground Truth(GT)外包框,否则为负样本,不匹配外包框;
根据匹配到的GT外包框可得到的GT编码,计算公式为:
Figure BDA0002826840580000091
Figure BDA0002826840580000092
Δh=hgt
Δw=wgt
其中,xc,yc为特征图上的像素点映射到输入图像得到的坐标点的横纵坐标;xgt,ygt,hgt,wgt为匹配到的GT外包框的中心点的横纵坐标以及宽、高数值。Δx,Δy,Δh,Δw为网络需要输出的编码后的包围框坐标。
基于神经网络的算法结构需要基于一定数量样本和特定损失函数进行训练来产生有用的功能。本实施例在训练阶段,需采集足够数量的包含头肩的图像,并将头肩区域以(xgt,ygt,hgt,wgt)的格式标注出来。在训练时,分类输出的监督采用交叉熵损失函数,定位环节的监督采用SmoothL1损失函数。
本实施例将Q1,Q2和Q3分别经过预测卷积层得到每个位置的概率cij和编码包围框输出值ΔBij。其中下标i代表预测层的序号,下标j代表像素位置编号。
S5:将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标,并和分类概率组合成(c,x,y,w,h)的区域定位向量,将所有预测层所有像素位置的包围框汇总在一起,得到第一定位结果。
S6:对第一定位结果进行包围框过滤,利用预先设置的阈值θ将c的包围框进行过滤,得到第二定位结果。
S7:对第二定位结果进行应用目标检测算法中的非极大值抑制得到最终定位结果。
本发明实施例提供的人体头肩区域的定位方法,神经网络以单步直接输出结果的端对端方式,直接由输入图像产生定位结果,比双阶段方法要高效。同时本发明通过对神经网络的结构进行合理设计,一方面使其更加轻量,一方面使其能准确且高效地的提取头肩区域的特征。
图3为本发明实施例的人体头肩区域的定位装置的结构框图。如图3所示,本发明实施例的人体头肩区域的定位装置,包括:获取模块100和控制处理模块200。
其中,获取模块100用于获取目标图像。
控制处理模块200用于:将目标图像通过卷积神经网络进行卷积得到缩小后的特征图;将缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图;将第一特征图、第二特征图和第三特征图分别进行多焦距上下文处理得到第一融合特征图、第二融合特征图和第三融合特征图;将第一融合特征图、第二融合特征图和第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值;将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标,并和分类概率组合成区域定位向量,将所有预测层所有像素位置的包围框汇总在一起,得到第一定位结果;对第一定位结果进行包围框过滤得到第二定位结果;对第二定位结果进行非极大值抑制得到最终定位结果。
在本发明的一个实施例中,控制处理模块200用于将目标图像采用跨度为2的卷积层,逐次按2倍进行特征图缩小得到缩小后的特征图。
在本发明的一个实施例中,卷积神经网络的卷积层由稀疏连接卷积层和普通卷积层交替排列;其中,稀疏连接卷积层的输入和输出通道数相同,且在序号相同的输入通道和输出通道之间网络连接,其卷积核权重矩阵大小为N×3×3,N为通道数。
在本发明的一个实施例中,卷积神经网络的激活函数为:
Figure BDA0002826840580000111
其中,x和y分别表示激活函数的输入输出特征图,p和q为可学习参数。
在本发明的一个实施例中,控制处理模块200用于将第一特征图、第二特征图和第三特征图分别输入由三个卷积核等大的稀疏连接卷积结构提取不同视野范围的特征后,融合在一起得到第一融合特征图、第二融合特征图和第三融合特征图。其中,三个卷积核等大的稀疏连接卷积结构包括一个用于关注头肩区域特征的短焦距分支结构的卷积核,剩余两个卷积核构成一个长焦距分支,关注头肩区域周围的上下文特征。
在本发明的一个实施例中,控制处理模块200用于将第一融合特征图、第二融合特征图和第三融合特征图采用两个并行的卷积操作分别输出每个位置的概率和编码包围框输出值。其中,通过以下规则确定在网络输出的特征图上每个像素位置的类别和包围框坐标:将特征图上的像素点映射到输入图像上得到在原图坐标系的坐标点;如果坐标点处在某个头肩内部,则坐标点为正样本,该头肩的外包框即为坐标点匹配到的基本事实GT外包框,否则为负样本,不匹配外包框;根据匹配到的GT外包框可得到的GT编码,计算公式为:
Figure BDA0002826840580000112
Figure BDA0002826840580000113
Δh=hgt
Δw=wgt
其中,xc,yc为特征图上的像素点映射到输入图像得到的坐标点的横纵坐标;xgt,ygt,hgt,wgt为匹配到的GT外包框的中心点的横纵坐标以及宽、高数值。Δx,Δy,Δh,Δw为网络需要输出的编码后的包围框坐标。
需要说明的是,本发明实施例的人体头肩区域的定位装置的具体实施方式与本发明实施例的人体头肩区域的定位方法的具体实施方式类似,具体参见人体头肩区域的定位方法部分的描述,为了减少冗余,不做赘述。
另外,本发明实施例的人体头肩区域的定位装置的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
本发明实施例还提供一种电子设备,包括:至少一个处理器和至少一个存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如第一方面所述的人体头肩区域的定位方法。
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的人体头肩区域的定位方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synch Link DRAM,简称SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (7)

1.一种人体头肩区域的定位方法,其特征在于,包括:
将目标图像通过卷积神经网络进行卷积得到缩小后的特征图;
将所述缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图;
将所述第一特征图、所述第二特征图和所述第三特征图分别输入由三个卷积核等大的稀疏连接卷积结构提取不同视野范围的特征后,融合在一起得到第一融合特征图、第二融合特征图和第三融合特征图;其中,所述三个卷积核等大的稀疏连接卷积结构包括一个用于关注头肩区域特征的短焦距分支结构的卷积核,剩余两个卷积核构成一个长焦距分支,关注头肩区域周围的上下文特征;
将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值,包括:
将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图采用两个并行的卷积操作分别输出每个位置的概率和编码包围框输出值;
其中,通过以下规则确定在网络输出的特征图上每个像素位置的类别和包围框坐标:
将特征图上的像素点映射到输入图像上得到在原图坐标系的坐标点;
如果所述坐标点处在某个头肩内部且该头肩与所述坐标点的距离比其他头肩距离所述坐标点更近,则所述坐标点为正样本,该头肩的外包框即为所述坐标点匹配到的基本事实GT外包框,否则为负样本,不匹配外包框;
根据匹配到的GT外包框可得到的GT编码,计算公式为:
Figure FDA0003293868990000011
Figure FDA0003293868990000012
Δh=hgt
Δw=wgt
其中,xc,yc为特征图上的像素点映射到输入图像得到的坐标点的横纵坐标;xgt,ygt,hgt,wgt为匹配到的GT外包框的中心点的横纵坐标以及宽、高数值;Δx,Δy,Δh,Δw为网络需要输出的编码后的包围框坐标;
将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标,并和分类概率组合成区域定位向量,将所有预测层所有像素位置的包围框汇总在一起,得到第一定位结果;
对所述第一定位结果进行包围框过滤得到第二定位结果;
对所述第二定位结果进行非极大值抑制得到最终定位结果。
2.根据权利要求1所述的人体头肩区域的定位方法,其特征在于,所述将目标图像通过卷积神经网络进行卷积得到缩小后的特征图,包括:
将所述目标图像采用跨度为2的卷积层,逐次按2倍进行特征图缩小得到所述缩小后的特征图。
3.根据权利要求1所述的人体头肩区域的定位方法,其特征在于,所述卷积神经网络的卷积层由稀疏连接卷积层和普通卷积层交替排列;其中,所述稀疏连接卷积层的输入和输出通道数相同,且在序号相同的输入通道和输出通道之间网络连接,其卷积核权重矩阵大小为N×3×3,N为通道数。
4.根据权利要求1所述的人体头肩区域的定位方法,其特征在于,所述卷积神经网络的激活函数为:
Figure FDA0003293868990000021
其中,x和y分别表示激活函数的输入输出特征图,p和q为可学习参数。
5.一种人体头肩区域的定位装置,其特征在于,包括:
获取模块,用于获取目标图像;
控制处理模块,用于将目标图像通过卷积神经网络进行卷积得到缩小后的特征图;将所述缩小后的特征图进行卷积得到分辨率互不相同的第一特征图、第二特征图和第三特征图;将所述第一特征图、所述第二特征图和所述第三特征图分别输入由三个卷积核等大的稀疏连接卷积结构提取不同视野范围的特征后,融合在一起得到第一融合特征图、第二融合特征图和第三融合特征图;其中,所述三个卷积核等大的稀疏连接卷积结构包括一个用于关注头肩区域特征的短焦距分支结构的卷积核,剩余两个卷积核构成一个长焦距分支,关注头肩区域周围的上下文特征;将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图分别经过预测卷积层得到每个位置的概率和编码包围框输出值,包括:将所述第一融合特征图、所述第二融合特征图和所述第三融合特征图采用两个并行的卷积操作分别输出每个位置的概率和编码包围框输出值;
其中,通过以下规则确定在网络输出的特征图上每个像素位置的类别和包围框坐标:
将特征图上的像素点映射到输入图像上得到在原图坐标系的坐标点;
如果所述坐标点处在某个头肩内部且该头肩与所述坐标点的距离比其他头肩距离所述坐标点更近,则所述坐标点为正样本,该头肩的外包框即为所述坐标点匹配到的基本事实GT外包框,否则为负样本,不匹配外包框;
根据匹配到的GT外包框可得到的GT编码,计算公式为:
Figure FDA0003293868990000031
Figure FDA0003293868990000032
Δh=hgt
Δw=wgt
其中,xc,yc为特征图上的像素点映射到输入图像得到的坐标点的横纵坐标;xgt,ygt,hgt,wgt为匹配到的GT外包框的中心点的横纵坐标以及宽、高数值;Δx,Δy,Δh,Δw为网络需要输出的编码后的包围框坐标;将每个像素位置处的编码包围框输出值进行反编码得到图像坐标系下的包围框坐标,并和分类概率组合成区域定位向量,将所有预测层所有像素位置的包围框汇总在一起,得到第一定位结果;对所述第一定位结果进行包围框过滤得到第二定位结果;对所述第二定位结果进行非极大值抑制得到最终定位结果。
6.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
所述存储器用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-4任一项所述的人体头肩区域的定位方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如权利要求1-4任一项所述的人体头肩区域的定位方法。
CN202011432151.6A 2020-12-09 2020-12-09 人体头肩区域的定位方法、定位装置和电子设备 Active CN112507872B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011432151.6A CN112507872B (zh) 2020-12-09 2020-12-09 人体头肩区域的定位方法、定位装置和电子设备
PCT/CN2021/070576 WO2022121075A1 (zh) 2020-12-09 2021-01-07 人体头肩区域的定位方法、定位装置和电子设备
ZA2023/05848A ZA202305848B (en) 2020-12-09 2023-05-31 Positioning method, positioning apparatus and electronic device for human head and shoulders area

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011432151.6A CN112507872B (zh) 2020-12-09 2020-12-09 人体头肩区域的定位方法、定位装置和电子设备

Publications (2)

Publication Number Publication Date
CN112507872A CN112507872A (zh) 2021-03-16
CN112507872B true CN112507872B (zh) 2021-12-28

Family

ID=74970266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011432151.6A Active CN112507872B (zh) 2020-12-09 2020-12-09 人体头肩区域的定位方法、定位装置和电子设备

Country Status (3)

Country Link
CN (1) CN112507872B (zh)
WO (1) WO2022121075A1 (zh)
ZA (1) ZA202305848B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139484B (zh) * 2021-04-28 2023-07-11 上海商汤科技开发有限公司 人群定位方法及装置、电子设备和存储介质
CN117011369A (zh) * 2023-08-15 2023-11-07 合肥图迅电子科技有限公司 一种芯片基准点定位方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021034A (zh) * 2019-03-20 2019-07-16 华南理工大学 一种基于头肩检测的跟踪录播方法及系统
CN110729045A (zh) * 2019-10-12 2020-01-24 闽江学院 一种基于上下文感知残差网络的舌图像分割方法
CN111612017A (zh) * 2020-07-07 2020-09-01 中国人民解放军国防科技大学 一种基于信息增强的目标检测方法
CN111783754A (zh) * 2020-09-04 2020-10-16 中国科学院自动化研究所 基于部位上下文的人体属性图像分类方法、系统和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102179386B1 (ko) * 2013-12-16 2020-11-18 삼성전자주식회사 객체 탐지 방법 방법 및 장치.
CN104751491B (zh) * 2015-04-10 2018-01-23 中国科学院宁波材料技术与工程研究所 一种人群跟踪及人流量统计方法及装置
CN106874855A (zh) * 2017-01-19 2017-06-20 博康智能信息技术有限公司北京海淀分公司 头肩区域定位方法及装置
CN106845406A (zh) * 2017-01-20 2017-06-13 深圳英飞拓科技股份有限公司 基于多任务级联卷积神经网络的头肩检测方法及装置
CN108416250B (zh) * 2017-02-10 2021-06-22 浙江宇视科技有限公司 人数统计方法及装置
CN110287849B (zh) * 2019-06-20 2022-01-07 北京工业大学 一种适用于树莓派的轻量化深度网络图像目标检测方法
CN110852270B (zh) * 2019-11-11 2024-03-15 中科视语(北京)科技有限公司 基于深度学习的混合语法人体解析方法及装置
CN111598112B (zh) * 2020-05-18 2023-02-24 中科视语(北京)科技有限公司 多任务的目标检测方法、装置、电子设备及存储介质
CN112434612A (zh) * 2020-11-25 2021-03-02 创新奇智(上海)科技有限公司 吸烟检测方法、装置、电子设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021034A (zh) * 2019-03-20 2019-07-16 华南理工大学 一种基于头肩检测的跟踪录播方法及系统
CN110729045A (zh) * 2019-10-12 2020-01-24 闽江学院 一种基于上下文感知残差网络的舌图像分割方法
CN111612017A (zh) * 2020-07-07 2020-09-01 中国人民解放军国防科技大学 一种基于信息增强的目标检测方法
CN111783754A (zh) * 2020-09-04 2020-10-16 中国科学院自动化研究所 基于部位上下文的人体属性图像分类方法、系统和装置

Also Published As

Publication number Publication date
WO2022121075A1 (zh) 2022-06-16
CN112507872A (zh) 2021-03-16
ZA202305848B (en) 2023-12-20

Similar Documents

Publication Publication Date Title
CN111914997B (zh) 训练神经网络的方法、图像处理方法及装置
CN110751134A (zh) 目标检测方法、存储介质及计算机设备
CN111126453A (zh) 基于注意力机制和切割填充的细粒度图像分类方法及系统
CN113468978B (zh) 基于深度学习的细粒度车身颜色分类方法、装置和设备
CN112507872B (zh) 人体头肩区域的定位方法、定位装置和电子设备
CN110222717A (zh) 图像处理方法和装置
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN111462050B (zh) 改进YOLOv3的极小遥感图像目标检测方法、装置及存储介质
CN111259838B (zh) 服务机器人服务环境下深度理解人体行为的方法及系统
CN114037640A (zh) 图像生成方法及装置
CN112464930A (zh) 目标检测网络构建方法、目标检测方法、装置和存储介质
CN111626134A (zh) 一种基于隐密度分布的密集人群计数方法、系统及终端
CN112766099A (zh) 一种从局部到全局上下文信息提取的高光谱影像分类方法
CN116385326A (zh) 一种基于多目标分割的多光谱图像融合方法、装置及设备
CN113487530A (zh) 一种基于深度学习的红外与可见光融合成像方法
CN113298097B (zh) 基于卷积神经网络的特征点提取方法、设备及存储介质
Cho et al. Vision-based parking occupation detecting with embedded AI processor
CN117693768A (zh) 语义分割模型的优化方法和装置
CN112084371A (zh) 一种电影多标签分类方法、装置、电子设备以及存储介质
CN116091844A (zh) 一种基于边缘计算的图像数据处理方法及系统
CN114565764A (zh) 基于舰船实例分割的港口全景感知系统
CN112614199A (zh) 语义分割图像转换方法、装置、计算机设备和存储介质
CN118429827B (zh) 基于改进DLinkNet的道路提取方法及系统
CN111881729B (zh) 基于热成像的活体流向甄别方法、装置、设备及存储介质
US20240029406A1 (en) Image processing method, training method, and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant