CN116665311A - 行为识别方法、装置、设备及可读存储介质 - Google Patents

行为识别方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN116665311A
CN116665311A CN202310946193.9A CN202310946193A CN116665311A CN 116665311 A CN116665311 A CN 116665311A CN 202310946193 A CN202310946193 A CN 202310946193A CN 116665311 A CN116665311 A CN 116665311A
Authority
CN
China
Prior art keywords
heat map
sequence
gesture
human body
behavior recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310946193.9A
Other languages
English (en)
Other versions
CN116665311B (zh
Inventor
周亮基
周圣强
黄岗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OP Retail Suzhou Technology Co Ltd
Original Assignee
OP Retail Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OP Retail Suzhou Technology Co Ltd filed Critical OP Retail Suzhou Technology Co Ltd
Priority to CN202310946193.9A priority Critical patent/CN116665311B/zh
Publication of CN116665311A publication Critical patent/CN116665311A/zh
Application granted granted Critical
Publication of CN116665311B publication Critical patent/CN116665311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种行为识别方法,包括:获取人员的人体图像序列;利用姿态热图生成网络对人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,伪关节点为与预设的目标关节点相连的物品;对姿态热图序列和人体图像序列进行热图序列融合操作,得到姿态约束序列;利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对姿态约束序列进行识别,得到行为识别结果。应用本申请所提供的行为识别方法,在降低模型复杂度的同时,提高了模型推理的准确性。本申请还公开了一种行为识别装置、设备及存储介质,具有相应技术效果。

Description

行为识别方法、装置、设备及可读存储介质
技术领域
本申请涉及图像检测识别领域,特别是涉及一种行为识别方法、装置、设备及计算机可读存储介质。
背景技术
目前门店出货收银场景中(如可外带的餐饮行业门店、服装礼品门店、零食便利店、水果店等)存在“飞单”现象,“飞单”指的是客户到门店现场交易时,取货前后收银系统没有支付收款的记录产生,换言之客户在未支付或者支付方式错误(如私下支付给店员)的情况下,即从门店工作人员手中取走了物品。这种“有货无单”的行为会给门店经营造成不少经济损失。
通常为了发现飞单风险,需要投入大量人工从交易数据、库存数据并结合门店视频录像数据进行核对排查,人力成本高、耗时长且效率低下。一般而言,经营较为规范的餐饮门店存在固定的出货位置,店员和顾客一般只能在固定的窗口或档口进行递交物品,这使得利用门店安装的监控摄像头,并结合智能视觉分析方法来对店员出货行为进行检测识别成为了可能。系统可根据一定时间范围内出货行为的识别结果记录,与收银系统中的订单信息进行比对,从而实现自动化、智能化的“飞单”现象排查。
现有的门店人员出货行为识别方法一般为先通过人体姿态估计模型,得到视频或图像序列中人体各主要部位关节点的位置,再通过学习人体骨架关节点序列的空间和时间信息,推理出图像序列中人体的行为类别。然而,这类方法只关注人体关节点之间的时空间信息,忽视了与一些人体姿态行为紧密关联的物品信息,而一些人体行为若忽视了这些紧密关联的物品,则不可避免地会引起歧义,例如运动比赛中的打羽毛球与打网球行为,若忽视了运动员手中的球拍类别乃至背后的运动场地,很难单从人体骨架关节点之间位置关系的变化准确地辨别出这两种行为。而要准确地区分出这类行为,通常的做法是再增加一些针对物品检测的模型,单独去检测那些关联物品,综合去判定人体的行为类别,这无疑增加了整个算法的复杂程度。
综上所述,如何有效地解决现有的门店人员出货行为识别方法需要通过人体姿态估计模型和物品检测模型综合判定人体的行为类别,算法复杂程度高的问题,是目前本领域技术人员急需解决的问题。
发明内容
本申请的目的是提供一种行为识别方法,该方法在降低模型复杂度的同时,提高了模型推理的准确性;本申请的另一目的是提供一种行为识别装置、设备及计算机可读存储介质。
为解决上述技术问题,本申请提供如下技术方案:
一种行为识别方法,包括:
获取人员的人体图像序列;
利用姿态热图生成网络对所述人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,所述伪关节点为与预设的目标关节点相连的物品;
对所述姿态热图序列和所述人体图像序列进行热图序列融合操作,得到姿态约束序列;
利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到行为识别结果。
在本申请的一种具体的实施方式中,还包括所述姿态热图生成网络的训练过程,所述姿态热图生成网络的训练过程包括:
获取图像训练集中各人体图像;
分别对各所述人体图像中的关节点和伪关节点进行标注,得到人体关节点和伪关节点数据集;
根据所述人体关节点和伪关节点数据集生成关节点和伪关节点混合热图数据;
利用所述关节点和伪关节点混合热图数据对所述姿态热图生成网络进行训练,得到训练好的所述姿态热图生成网络。
在本申请的一种具体的实施方式中,根据人体关节点和伪关节点数据集生成关节点和伪关节点混合热图数据,包括:
获取所述人体关节点和伪关节点数据集中每个人体图像中各人体关节点和各伪关节点分别对应的坐标值;
根据各所述坐标值确定各所述人体关节点和各所述伪关节点分别对应的热图;
利用高斯函数根据各所述热图分别计算各所述人体关节点和各所述伪关节点的热图矩阵;
分别对每个人体图像对应的各所述热图矩阵进行叠加,得到每个人体图像分别对应的人体姿态混合热图矩阵;
将各所述人体姿态混合热图矩阵确定为所述关节点和伪关节点混合热图数据。
在本申请的一种具体的实施方式中,还包括所述目标孔洞卷积网络的训练过程,所述目标孔洞卷积网络的训练过程包括:
获取预先进行行为类别标注完成的行为识别数据集;
利用所述姿态热图生成网络根据所述行为识别数据集生成初始行为姿态热图序列,并将所述初始行为姿态热图序列与所述行为识别数据集进行融合,得到姿态约束行为识别数据集;
利用所述姿态约束行为识别数据集结合时间维度和空间维度对初始孔洞卷积网络进行训练,得到所述目标孔洞卷积网络。
在本申请的一种具体的实施方式中,将所述初始行为姿态热图序列与所述行为识别数据集进行融合,包括:
采用伽马变换方式对所述初始行为姿态热图序列进行对比度拉伸,得到目标姿态热图序列;
将所述目标姿态热图序列与所述行为识别数据集进行融合。
在本申请的一种具体的实施方式中,所述目标孔洞卷积网络为三维孔洞卷积网络,包括三维卷积主干网络、孔洞时空间金字塔池化模块、三维全局平均池化层和网络输出层;其中,所述三维孔洞卷积网络的三维孔洞卷积可以在宽、高、时序三个维度进行扩张;将不同扩张率的三维孔洞卷积进行组合,在特征图的宽、高以及时序三个维度上提取多尺度信息,得到所述孔洞时空间金字塔池化模块。
在本申请的一种具体的实施方式中,所述利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到行为识别结果,包括:
利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到所述人体图像序列关于各行为类别的概率分布;
根据所述概率分布确定所述行为识别结果。
一种行为识别装置,包括:
图像序列获取模块,用于获取人员的人体图像序列;
姿态热图序列生成模块,用于利用姿态热图生成网络对所述人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,所述伪关节点为与预设的目标关节点相连的物品;
姿态约束序列生成模块,用于对所述姿态热图序列和所述人体图像序列进行热图序列融合操作,得到姿态约束序列;
行为识别模块,用于利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到行为识别结果。
一种行为识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前所述行为识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述行为识别方法的步骤。
本申请所提供的行为识别方法,获取人员的人体图像序列;利用姿态热图生成网络对所述人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,所述伪关节点为与预设的目标关节点相连的物品;对所述姿态热图序列和所述人体图像序列进行热图序列融合操作,得到姿态约束序列;利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到行为识别结果。
由上述技术方案可知,通过将与预设的目标关节点相连的物品作为伪关节点,从而使用单个姿态热图生成网络即可实现对人体姿态以及相关物品进行检测识别的效果。使用姿态约束序列作为结合时间维度和空间维度训练得到的目标孔洞卷积网络的输入,相较于使用关节点序列作为行为识别模型的输入,能够避免骨架关节点序列存在的歧义性,在增强人体行为特征表达的同时,可以提高整个识别算法的鲁棒性。设计的结合时间维度和空间维度训练得到的目标孔洞卷积网络,具备更好的时间特征和空间特征提取能力,在降低模型复杂度的同时,提高了模型推理的准确性。
相应的,本申请还提供了与上述行为识别方法相对应的行为识别装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中行为识别方法的一种实施流程图;
图2为本申请实施例中行为识别方法的一种具体的实施流程图;
图3为本申请实施例中一种人体关节点和伪关节点标注示意图;
图4为一种在空间维度训练得到的孔洞卷积网络的示意图;
图5为一种在空间维度训练得到的孔洞卷积网络的示意图;
图6为一种孔洞时空间三维卷积网络的示意图;
图7为本申请实施例中行为识别方法的另一种实施流程图;
图8为本申请实施例中姿态热图生成网络训练示意图;
图9为本申请实施例中一种行为识别装置的结构框图;
图10为本申请实施例中一种行为识别设备的结构框图;
图11为本实施例提供的一种行为识别设备的具体结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1为本申请实施例中行为识别方法的一种实施流程图,该方法可以包括以下步骤:
S101:获取人员的人体图像序列。
预先在门店设置图像采集设备,利用图像采集设备获取人员的人体图像序列。人体图像序列可以是通过本身就只包含单人的视频得到,也可以是通过常用的行人检测跟踪算法处理得到。
需要说明的是,获取到的人体图像序列可以为灰度图像,也可以为RGB人体图像,本申请实施例对比不做限定。
例如,如图2所示,人体图像序列为RGB单人图像序列。获取RGB单人图像序列后,利用姿态热图生成网络对RGB单人图像序列进行关节点及伪关节点标注,得到姿态热图序列,进一步对姿态热图序列和RGB单人图像序列进行热图序列融合操作,得到姿态约束序列。
S102:利用姿态热图生成网络对人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,伪关节点为与预设的目标关节点相连的物品。
S103:对所述姿态热图序列和所述人体图像序列进行热图序列融合操作,得到姿态约束序列。
参见图3,图3为本申请实施例中一种人体关节点和伪关节点标注示意图。预先指定目标关节点,将与预设的目标关节点相连的物品确定为伪关节点。除了头、颈以及人体一些肢体关节点外,分别将人左手或右手中拿取的物品作为手部的延伸,即“伪关节点”。14个关节点加上2个伪关节点,本申请实施例对于人体的点标注共计16类。如表1所示,表1为标注点名称列表。
表1
预先利用人体关节点和伪关节点数据集训练得到姿态热图生成网络,在获取到门店人员的人体图像序列之后,利用姿态热图生成网络对人体图像序列进行关节点及伪关节点标注,得到姿态热图序列。对姿态热图序列和人体图像序列进行热图序列融合操作,得到姿态约束序列。姿态约束序列中行为相关的人体关节点和伪关节点的像素区域被突出强化,而无关的背景以及其他像素区域则被模糊弱化,从而增强有效信息并弱化无效信息,提高后续行为识别的准确度。
本申请面对人体姿态关节点检测以及物品检测问题,没有使用人体姿态估计模型结合目标检测模型等多个模型结合的方式,而是巧妙地将人手中的物品作为“伪关节点”,使用一个模型就完成了人体姿态以及相关物品进行检测识别的过程,有效地降低算法的复杂度。
S104:利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对姿态约束序列进行识别,得到行为识别结果。
在一些实施例中,所述目标孔洞卷积网络为三维孔洞卷积网络,包括三维卷积主干网络、孔洞时空间金字塔池化模块、三维全局平均池化层和网络输出层;其中,所述三维孔洞卷积网络的三维孔洞卷积可以在宽、高、时序三个维度进行扩张;将不同扩张率的三维孔洞卷积进行组合,在特征图的宽、高以及时序三个维度上提取多尺度信息,得到所述孔洞时空间金字塔池化模块。
预先结合时间维度和空间维度训练得到目标孔洞卷积网络。以通用的三维卷积网络作为目标孔洞卷积网络的主干部分,三维卷积主干网络通过将一个三维卷积核与输入的图像序列叠加在一起形成的容体进行卷积来实现初步的时空间特征的提取。
参见图4和图5以及图6所示,图4为一种在空间维度训练得到的孔洞卷积网络的示意图,图5为一种在空间维度训练得到的孔洞卷积网络的示意图。图6为一种孔洞时空间三维卷积网络的示意图。将二维孔洞卷积拓展到三维,设计一个孔洞时空间金字塔池化模块,连接到三维卷积主干网络的末端。二维孔洞卷积只在卷积核宽高两个空间维度上进行扩张,而三维孔洞卷积则可以同时在宽(W)、高(H)以及时序(T)三个维度上进行扩张。扩张后的三维卷积核相较于原来普通的卷积核,不仅在特征图的空间维度获得更大的感受野,在时间维度上也能获得更长的感受野。将不同扩张率的三维孔洞卷积进行组合,就能够在特征图的宽、高以及时序三个维度上提取多尺度信息,这样组合便得到孔洞时空间金字塔池化模块。
与一般的三维卷积网络采用全连接层作为分类输出的做法不同,本网络模型是以三维全局平均池化(3D global average pooling)作为分类输出,可以有效减少网络参数并降低过拟合,将其作为孔洞时空间金字塔池化模块后续的网络层级,最终可以得到输入序列在不同行为类别上的概率分布,进而得到识别结果。使得整个网络具备了多尺度时间特征和空间特征提取的能力,三维全局平均池化模块的使用,在汇聚时空间特征的同时,还能够减少网络参数,降低过拟合风险。
在利用姿态热图生成网络对人体图像序列进行关节点及伪关节点标注,得到姿态约束序列之后,利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对姿态约束序列进行识别,得到行为识别结果。本申请能够很好地融入到门店飞单行为检测系统中,帮助门店有效地降低不必要的经营损失。
在本申请的一种具体实施方式中,步骤S104可以包括以下步骤:
步骤一:利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对姿态约束序列进行识别,得到人体图像序列关于各行为类别的概率分布;
步骤二:根据概率分布确定行为识别结果。
为方便描述,可以将上述两个步骤结合起来进行说明。
在利用姿态热图生成网络对人体图像序列进行关节点及伪关节点标注,得到姿态热图序列,以及对姿态热图序列和所述人体图像序列进行热图序列融合操作,得到姿态约束序列之后,利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对姿态约束序列进行识别,得到人体图像序列关于各行为类别的概率分布,如可以分别识别得到门店人员处于站立状态的概率、处于行走状态的概率等,根据概率分布确定行为识别结果。通过根据人体图像序列关于各行为类别的概率分布确定行为识别结果,提升了行为识别结果的准确性。
在本申请的一种具体实施方式中,根据概率分布确定行为识别结果,可以包括以下步骤:
将概率分布中最大概率值对应的行为类别确定为行为识别结果。
在利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对姿态约束序列进行识别,得到人体图像序列关于各行为类别的概率分布之后,将概率分布中最大概率值对应的行为类别确定为行为识别结果。通过分别对各行为类别的概率值进行统计,将概率分布中最大概率值对应的行为类别确定为行为识别结果,提升了行为识别结果的准确性。
由上述技术方案可知,通过将与预设的目标关节点相连的物品作为伪关节点,从而使用单个姿态热图生成网络即可实现对人体姿态以及相关物品进行检测识别的效果。使用姿态约束序列作为结合时间维度和空间维度训练得到的目标孔洞卷积网络的输入,相较于使用关节点序列作为行为识别模型的输入,能够避免骨架关节点序列存在的歧义性,在增强人体行为特征表达的同时,可以提高整个识别算法的鲁棒性。设计的结合时间维度和空间维度训练得到的目标孔洞卷积网络,具备更好的时间特征和空间特征提取能力,在降低模型复杂度的同时,提高了模型推理的准确性。
需要说明的是,基于上述实施例,本申请实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
参见图7,图7为本申请实施例中行为识别方法的另一种实施流程图,该方法可以包括以下步骤:
S501:获取图像训练集中各人体图像。
预先采集门店人员的在门店出货位置活动时的图像,将采集到的各图像作为图像训练集。获取图像训练集中各人体图像。
S502:分别对各人体图像中的关节点和伪关节点进行标注,得到人体关节点和伪关节点数据集。
在获取到图像训练集中各人体图像之后,分别对各人体图像中的关节点和伪关节点进行标注,得到人体关节点和伪关节点数据集。
S503:根据人体关节点和伪关节点数据集生成关节点和伪关节点混合热图数据;
结合图8所示,在分别对各人体图像中的关节点和伪关节点进行标注,得到人体关节点和伪关节点数据集之后,根据人体关节点和伪关节点数据集生成关节点和伪关节点热图数据。
在本申请的一种具体实施方式中,步骤S503可以包括以下步骤:
步骤一:获取人体关节点和伪关节点数据集中每个人体图像中各人体关节点和各伪关节点分别对应的坐标值;
步骤二:根据各坐标值确定各人体关节点和各伪关节点分别对应的热图;
步骤三:利用高斯函数根据各热图分别计算各人体关节点和各伪关节点的热图矩阵;
步骤四:分别对每个人体图像对应的各热图矩阵进行叠加,得到每个人体图像分别对应的人体姿态混合热图矩阵;
步骤五:将各人体姿态混合热图矩阵确定为关节点和伪关节点混合热图数据。
为方便描述,可以将上述五个步骤结合起来进行说明。
在分别对各人体图像中的关节点和伪关节点进行标注,得到人体关节点和伪关节点数据集之后,获取人体关节点和伪关节点数据集中每个人体图像中各人体关节点和各伪关节点分别对应的坐标值,根据各坐标值确定各人体关节点和各伪关节点分别对应的热图,可以初始化热图为宽高等于原图大小的矩阵H。利用高斯函数根据各热图分别计算各人体关节点和各伪关节点的热图矩阵,如可以通过以下公式使用高斯函数计算第i个关节点或伪关节点所对应的热图中各个像素点的像素值:
其中,表示第i个热图矩阵中坐标点/>所对应的像素值,/>表示二维高斯分布的均值向量,/>表示二维高斯分布协方差矩阵,分别设置为:
为特征半径,其值等于根据人体图像关节点坐标计算出的头部尺寸(headsize)。
进而根据各像素点的像素值,得到各人体关节点和各伪关节点的热图矩阵,分别对每个人体图像对应的各热图矩阵进行叠加,得到每个人体图像分别对应的人体姿态混合热图矩阵,将各人体姿态混合热图矩阵确定为关节点和伪关节点混合热图数据。
S504:利用所述关节点和伪关节点混合热图数据对姿态热图生成网络进行训练,得到训练好的所述姿态热图生成网络。
在根据人体关节点和伪关节点数据集生成关节点和伪关节点混合热图数据之后,利用关节点和伪关节点混合热图数据对初始人体姿态估计网络模型进行训练,得到姿态热图生成网络。初始人体姿态估计网络模型可以灵活地选用一些常见的基于深度学习的人体姿态估计网络模型,如卷积姿态机(Convolutional pose machine,CMP)、堆叠沙漏网络(Stacked hourglass network,SHN)、高分辨率网络(High-resolution net,HRNet)等等。不同于通常人体姿态估计以多个关节点作为预测值的多通道回归网络,本申请实施例直接以关节点和伪关节点热图数据作为预测值的单通道回归网络,因此只需要将选用的人体姿态估计网络输出层由多通道简化成单通道,即可得到姿态热图生成网络,进而训练得到姿态热图生成网络,较大地降低了模型训练过程的复杂度,能够有效保留原始图像序列中行为相关的像素信息,在很大程度上避免了关节点序列本身存在一些歧义性,同时降低了后续识别模型对姿态估计结果精确度的依赖,增强识别算法的鲁棒性。
S505:获取人员的人体图像序列。
S506:利用姿态热图生成网络对人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,伪关节点为与预设的目标关节点相连的物品。
S507:对姿态热图序列和人体图像序列进行热图序列融合操作,得到姿态约束序列。
S508:利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对姿态约束序列进行识别,得到行为识别结果。
在本申请的一种具体实施方式中,该方法还可以包括目标孔洞卷积网络的训练过程,目标孔洞卷积网络的训练过程可以包括以下步骤:
步骤一:获取预先进行行为类别标注完成的行为识别数据集;
步骤二:利用姿态热图生成网络根据行为识别数据集生成初始行为姿态热图序列,并将初始行为姿态热图序列与行为识别数据集进行融合,得到姿态约束行为识别数据集;
步骤三:利用姿态约束行为识别数据集结合时间维度和空间维度对初始孔洞卷积网络进行训练,得到目标孔洞卷积网络。
为方便描述,可以将上述三个步骤结合起来进行说明。
预先采集门店人员的在门店出货位置活动时的图像,并对图像中门店人员的行为类别进行标注,如可以标注为站立行为、行走行为、招手行为、出货行为等。将进行行为类别标注完成的各图像作为行为识别数据集,获取预先进行行为类别标注完成的行为识别数据集,利用姿态热图生成网络根据行为识别数据集生成初始行为姿态热图序列,并将初始行为姿态热图序列与行为识别数据集进行融合,得到姿态约束行为识别数据集,利用姿态约束行为识别数据集结合时间维度和空间维度对初始孔洞卷积网络进行训练,得到目标孔洞卷积网络。将姿态约束行为识别数据集,首先输入到孔洞时空间三维卷积网络的主干网络部分,该部分通过将一个三维卷积核与输入的图像序列叠加在一起形成的容体进行卷积来实现初步的时空间特征的提取。
在本申请的一种具体实施方式中,将初始行为姿态热图序列与行为识别数据集进行融合,可以包括以下步骤:
步骤一:采用伽马变换方式对初始行为姿态热图序列进行对比度拉伸,得到目标姿态热图序列;
步骤二:将目标行为姿态热图序列与行为识别数据集进行融合。
为方便描述,可以将上述两个步骤结合起来进行说明。
由姿态热图生成网络直接得到的姿态热图序列中,关节点和伪关节点峰值区域偏小,暗区过大,直接与行为识别数据集中的原始图像序列进行融合,会损失大量有意义的像素区域,因此采用伽马变换的方式,将姿态热图进行对比度拉伸之后,再行为识别数据集中的原始图像序列进行融合,最后得到姿态约束行为识别数据集。
其中,r为图像的输入值,s为经过伽马变换后的输出值。c为缩放系数,通常取1,而γ取值小于1,即可提升暗区的对比度。
相应于上面的方法实施例,本申请还提供了一种行为识别装置,下文描述的行为识别装置与上文描述的行为识别方法可相互对应参照。
参见图9,图9为本申请实施例中一种行为识别装置的结构框图,该装置可以包括:
图像序列获取模块61,用于获取人员的人体图像序列;
姿态热图序列生成模块62,用于利用姿态热图生成网络对所述人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,所述伪关节点为与预设的目标关节点相连的物品;
姿态约束序列生成模块63,用于对所述姿态热图序列和所述人体图像序列进行热图序列融合操作,得到姿态约束序列;
行为识别模块64,用于利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到行为识别结果。
由上述技术方案可知,通过将与预设的目标关节点相连的物品作为伪关节点,从而使用单个姿态热图生成网络即可实现对人体姿态以及相关物品进行检测识别的效果。使用姿态约束序列作为结合时间维度和空间维度训练得到的目标孔洞卷积网络的输入,相较于使用关节点序列作为行为识别模型的输入,能够避免骨架关节点序列存在的歧义性,在增强人体行为特征表达的同时,可以提高整个识别算法的鲁棒性。设计的结合时间维度和空间维度训练得到的目标孔洞卷积网络,具备更好的时间特征和空间特征提取能力,在降低模型复杂度的同时,提高了模型推理的准确性。
在本申请的一种具体实施方式中,该装置还可以包括模型训练模块,模型训练模块包括:
图像获取子模块,用于获取图像训练集中各人体图像;
标注子模块,用于分别对各人体图像中的关节点和伪关节点进行标注,得到人体关节点和伪关节点数据集;
热图数据生成子模块,用于根据人体关节点和伪关节点数据集生成关节点和伪关节点混合热图数据;
模型训练子模块,用于利用关节点和伪关节点混合热图数据对初始人体姿态估计网络模型进行训练,得到训练好的姿态热图生成网络。
在本申请的一种具体实施方式中,热图数据生成子模块包括:
坐标值获取单元,用于获取人体关节点和伪关节点数据集中每个人体图像中各人体关节点和各伪关节点分别对应的坐标值;
热图确定单元,用于根据各坐标值确定各人体关节点和各伪关节点分别对应的热图;
热图矩阵计算单元,用于利用高斯函数根据各热图分别计算各人体关节点和各伪关节点的热图矩阵;
混合热图矩阵获得单元,用于分别对每个人体图像对应的各热图矩阵进行叠加,得到每个人体图像分别对应的人体姿态混合热图矩阵;
热图数据确定单元,用于将各人体姿态混合热图矩阵确定为关节点和伪关节点混合热图数据。
在本申请的一种具体实施方式中,该装置还可以包括网络训练模块,网络训练模块包括:
行为识别数据集获取子模块,用于获取预先进行行为类别标注完成的行为识别数据集;
融合子模块,用于利用姿态热图生成网络根据行为识别数据集生成初始行为姿态热图序列,并将初始行为姿态热图序列与行为识别数据集进行融合,得到姿态约束行为识别数据集;
网络训练子模块,用于利用姿态约束行为识别数据集结合时间维度和空间维度对初始孔洞卷积网络进行训练,得到目标孔洞卷积网络。
在本申请的一种具体实施方式中,融合子模块包括:
对比度拉伸单元,用于采用伽马变换方法对初始行为姿态热图序列进行对比度拉伸,得到目标姿态热图序列;
融合单元,用于将目标行为姿态热图序列与行为识别数据集进行融合。
在本申请的一种具体实施方式中,所述目标孔洞卷积网络为三维孔洞卷积网络,包括三维卷积主干网络、孔洞时空间金字塔池化模块、三维全局平均池化层和网络输出层;其中,所述三维孔洞卷积网络的三维孔洞卷积可以在宽、高、时序三个维度进行扩张;将不同扩张率的三维孔洞卷积进行组合,在特征图的宽、高以及时序三个维度上提取多尺度信息,得到所述孔洞时空间金字塔池化模块。
在本申请的一种具体实施方式中,行为识别模块64包括:
概率分布获得子模块,用于利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对姿态约束序列进行识别,得到人体图像序列关于各行为类别的概率分布;
识别结果获得子模块,用于根据概率分布确定行为识别结果。
在本申请的一种具体实施方式中,识别结果获得子模块具体为将概率分布中最大概率值对应的行为类别确定为行为识别结果的模块。
相应于上面的方法实施例,参见图10,图10为本申请所提供的行为识别设备的示意图,该设备可以包括:
存储器332,用于存储计算机程序;
处理器322,用于执行计算机程序时实现上述方法实施例的行为识别方法的步骤。
具体的,请参考图11,图11为本实施例提供的一种行为识别设备的具体结构示意图,该行为识别设备可因配置或性能不同而产生比较大的差异,可以包括处理器(centralprocessing units,CPU)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,处理器322可以设置为与存储器332通信,在行为识别设备301上执行存储器332中的一系列指令操作。
行为识别设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。
上文所描述的行为识别方法中的步骤可以由行为识别设备的结构实现。
相应于上面的方法实施例,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
获取人员的人体图像序列;利用姿态热图生成网络对所述人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,所述伪关节点为与预设的目标关节点相连的物品;对所述姿态热图序列和所述人体图像序列进行热图序列融合操作,得到姿态约束序列;利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到行为识别结果。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种行为识别方法,其特征在于,包括:
获取人员的人体图像序列;
利用姿态热图生成网络对所述人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,所述伪关节点为与预设的目标关节点相连的物品;
对所述姿态热图序列和所述人体图像序列进行热图序列融合操作,得到姿态约束序列;
利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到行为识别结果。
2.根据权利要求1所述的行为识别方法,其特征在于,还包括所述姿态热图生成网络的训练过程,所述姿态热图生成网络的训练过程包括:
获取图像训练集中各人体图像;
分别对各所述人体图像中的关节点和伪关节点进行标注,得到人体关节点和伪关节点数据集;
根据所述人体关节点和伪关节点数据集生成关节点和伪关节点混合热图数据;
利用所述关节点和伪关节点混合热图数据对所述姿态热图生成网络进行训练,得到训练好的所述姿态热图生成网络。
3.根据权利要求2所述的行为识别方法,其特征在于,根据人体关节点和伪关节点数据集生成关节点和伪关节点混合热图数据,包括:
获取所述人体关节点和伪关节点数据集中每个人体图像中各人体关节点和各伪关节点分别对应的坐标值;
根据各所述坐标值确定各所述人体关节点和各所述伪关节点分别对应的热图;
利用高斯函数根据各所述热图分别计算各所述人体关节点和各所述伪关节点的热图矩阵;
分别对每个人体图像对应的各所述热图矩阵进行叠加,得到每个人体图像分别对应的人体姿态混合热图矩阵;
将各所述人体姿态混合热图矩阵确定为所述关节点和伪关节点混合热图数据。
4.根据权利要求1所述的行为识别方法,其特征在于,还包括所述目标孔洞卷积网络的训练过程,所述目标孔洞卷积网络的训练过程包括:
获取预先进行行为类别标注完成的行为识别数据集;
利用所述姿态热图生成网络根据所述行为识别数据集生成初始行为姿态热图序列,并将所述初始行为姿态热图序列与所述行为识别数据集进行融合,得到姿态约束行为识别数据集;
利用所述姿态约束行为识别数据集结合时间维度和空间维度对初始孔洞卷积网络进行训练,得到所述目标孔洞卷积网络。
5.根据权利要求4所述的行为识别方法,其特征在于,将所述初始行为姿态热图序列与所述行为识别数据集进行融合,包括:
采用伽马变换方式对所述初始行为姿态热图序列进行对比度拉伸,得到目标姿态热图序列;
将所述目标姿态热图序列与所述行为识别数据集进行融合。
6.根据权利要求1至5任一项所述的行为识别方法,其特征在于,所述目标孔洞卷积网络为三维孔洞卷积网络,包括三维卷积主干网络、孔洞时空间金字塔池化模块、三维全局平均池化层和网络输出层;其中,所述三维孔洞卷积网络的三维孔洞卷积可以在宽、高、时序三个维度进行扩张;所述孔洞时空间金字塔池化模块通过将不同扩张率的三维孔洞卷积进行组合,在特征图的宽、高以及时序三个维度上提取多尺度信息得到。
7.根据权利要求6所述的行为识别方法,其特征在于,所述利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到行为识别结果,包括:
利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到所述人体图像序列关于各行为类别的概率分布;
根据所述概率分布确定所述行为识别结果。
8.一种行为识别装置,其特征在于,包括:
图像序列获取模块,用于获取人员的人体图像序列;
姿态热图序列生成模块,用于利用姿态热图生成网络对所述人体图像序列进行关节点及伪关节点标注,得到姿态热图序列;其中,所述伪关节点为与预设的目标关节点相连的物品;
姿态约束序列生成模块,用于对所述姿态热图序列和所述人体图像序列进行热图序列融合操作,得到姿态约束序列;
行为识别模块,用于利用结合时间维度和空间维度训练得到的目标孔洞卷积网络对所述姿态约束序列进行识别,得到行为识别结果。
9.一种行为识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述行为识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述行为识别方法的步骤。
CN202310946193.9A 2023-07-31 2023-07-31 行为识别方法、装置、设备及可读存储介质 Active CN116665311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310946193.9A CN116665311B (zh) 2023-07-31 2023-07-31 行为识别方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310946193.9A CN116665311B (zh) 2023-07-31 2023-07-31 行为识别方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN116665311A true CN116665311A (zh) 2023-08-29
CN116665311B CN116665311B (zh) 2023-10-20

Family

ID=87715694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310946193.9A Active CN116665311B (zh) 2023-07-31 2023-07-31 行为识别方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116665311B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076891A (zh) * 2021-04-09 2021-07-06 华南理工大学 基于改进高分辨率网络的人体姿态预测方法及系统
CN113158766A (zh) * 2021-02-24 2021-07-23 北京科技大学 面向无人驾驶的基于姿态估计的行人行为识别方法
CN113570509A (zh) * 2020-11-13 2021-10-29 华南理工大学 数据处理方法以及计算机设备
CN113592026A (zh) * 2021-08-13 2021-11-02 大连大学 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN114463853A (zh) * 2022-02-25 2022-05-10 创新奇智(南京)科技有限公司 一种商品漏扫码行为的识别方法、装置、存储介质和电子设备
CN114529605A (zh) * 2022-02-16 2022-05-24 青岛联合创智科技有限公司 一种基于多视图融合的人体三维姿态估计方法
CN114973424A (zh) * 2022-08-01 2022-08-30 深圳市海清视讯科技有限公司 特征提取模型训练、手部动作识别方法、装置及电子设备
CN115661865A (zh) * 2022-11-02 2023-01-31 北京石油化工学院 人体姿态检测方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570509A (zh) * 2020-11-13 2021-10-29 华南理工大学 数据处理方法以及计算机设备
CN113158766A (zh) * 2021-02-24 2021-07-23 北京科技大学 面向无人驾驶的基于姿态估计的行人行为识别方法
CN113076891A (zh) * 2021-04-09 2021-07-06 华南理工大学 基于改进高分辨率网络的人体姿态预测方法及系统
CN113592026A (zh) * 2021-08-13 2021-11-02 大连大学 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN114529605A (zh) * 2022-02-16 2022-05-24 青岛联合创智科技有限公司 一种基于多视图融合的人体三维姿态估计方法
CN114463853A (zh) * 2022-02-25 2022-05-10 创新奇智(南京)科技有限公司 一种商品漏扫码行为的识别方法、装置、存储介质和电子设备
CN114973424A (zh) * 2022-08-01 2022-08-30 深圳市海清视讯科技有限公司 特征提取模型训练、手部动作识别方法、装置及电子设备
CN115661865A (zh) * 2022-11-02 2023-01-31 北京石油化工学院 人体姿态检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN116665311B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Laskar et al. Camera relocalization by computing pairwise relative poses using convolutional neural network
EP3620979B1 (en) Learning method, learning device for detecting object using edge image and testing method, testing device using the same
US9202144B2 (en) Regionlets with shift invariant neural patterns for object detection
CN113537208B (zh) 一种基于语义orb-slam技术的视觉定位方法及系统
CN110427905A (zh) 行人跟踪方法、装置以及终端
Mondéjar-Guerra et al. Robust identification of fiducial markers in challenging conditions
Yang et al. Unik: A unified framework for real-world skeleton-based action recognition
CN109559320A (zh) 基于空洞卷积深度神经网络实现视觉slam语义建图功能的方法及系统
CN113326835B (zh) 一种动作检测方法、装置、终端设备和存储介质
EP3813661A1 (en) Human pose analysis system and method
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
CN113724128B (zh) 一种训练样本的扩充方法
CN111612822B (zh) 对象跟踪方法、装置、计算机设备和存储介质
WO2016038647A1 (en) Image processing device, image processing method and storage medium storing program thereof
CN109271848A (zh) 一种人脸检测方法及人脸检测装置、存储介质
CN107948586A (zh) 基于视频拼接的跨区域运动目标检测方法和装置
CN115115825B (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
CN112541394A (zh) 黑眼圈及鼻炎识别方法、系统及计算机介质
CN115100469A (zh) 一种基于分割算法的目标属性识别方法、训练方法和装置
Huang et al. A low-dimensional binary-based descriptor for unknown satellite relative pose estimation
CN111339967A (zh) 一种基于多视域图卷积网络的行人检测方法
CN112232334B (zh) 一种智能售货商品识别检测方法
CN116665311B (zh) 行为识别方法、装置、设备及可读存储介质
CN110751163B (zh) 目标定位方法及其装置、计算机可读存储介质和电子设备
CN110969138A (zh) 人体姿态估计方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant