CN112487877A - 一种厨余垃圾规范操作的监控方法、系统、装置及介质 - Google Patents

一种厨余垃圾规范操作的监控方法、系统、装置及介质 Download PDF

Info

Publication number
CN112487877A
CN112487877A CN202011260881.2A CN202011260881A CN112487877A CN 112487877 A CN112487877 A CN 112487877A CN 202011260881 A CN202011260881 A CN 202011260881A CN 112487877 A CN112487877 A CN 112487877A
Authority
CN
China
Prior art keywords
skeleton point
standard
target person
network
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011260881.2A
Other languages
English (en)
Other versions
CN112487877B (zh
Inventor
胡海峰
陈弟虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Xindun Microelectronics Technology Co ltd
Original Assignee
Guangdong Xindun Microelectronics Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Xindun Microelectronics Technology Co ltd filed Critical Guangdong Xindun Microelectronics Technology Co ltd
Priority to CN202011260881.2A priority Critical patent/CN112487877B/zh
Publication of CN112487877A publication Critical patent/CN112487877A/zh
Application granted granted Critical
Publication of CN112487877B publication Critical patent/CN112487877B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种厨余垃圾规范操作的监控方法、系统、装置及介质,其中方法包括:获取连续视频帧;将所述连续视频帧输入到目标检测模型,输出目标人检测框;根据所述目标人检测框获取目标人图片,将所述目标人图片输入到人体骨架点提取模型,获得人体的骨架点坐标;根据所述骨架点坐标获取特征向量图片,结合所述特征向量图片和规范判断网络检测目标人扔厨余垃圾动作是否规范,若确定检测到不规范,存储所述特征向量图片。本发明通过检测目标人骨架点,根据骨架点在连续帧的位置来判断是否有塑料袋和垃圾分离的动作,进而判断对厨余垃圾处理是否规范,可应用于垃圾智能分类、智能城市等领域。

Description

一种厨余垃圾规范操作的监控方法、系统、装置及介质
技术领域
本发明涉及深度学习技术领域,尤其涉及一种厨余垃圾规范操作的监控方法、系统、装置及介质。
背景技术
随着各地生活垃圾管理条例的正式实施,垃圾分类的活动在各地积极的进行中。根据相关规定,厨余垃圾需要将塑料袋和厨余垃圾分离后,再将厨余垃圾扔进指定垃圾桶里。在实际情况中,出现扔厨余垃圾时未将塑料袋分离的情况,这将大大增加厨余垃圾再利用的难度。为了解决这个问题,需要判断扔厨余垃圾的动作是否规范,进而作出相应的提醒。
由于垃圾桶周围环境不定,目标人扔垃圾的动作不统一,很难从不定角度的摄像头拍摄的连续帧判断目标人扔厨余垃圾动作是否规范。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种厨余垃圾规范操作的监控方法、系统、装置及介质。
本发明所采用的技术方案是:
一种厨余垃圾规范操作的监控方法,包括以下步骤:
获取连续视频帧;
将所述连续视频帧输入到目标检测模型,输出目标人检测框;
根据所述目标人检测框获取目标人图片,将所述目标人图片输入到人体骨架点提取模型,获得人体的骨架点坐标;
根据所述骨架点坐标获取特征向量图片,结合所述特征向量图片和规范判断网络检测目标人扔厨余垃圾动作是否规范,若确定检测到不规范,存储所述特征向量图片。
进一步,所述人体骨架点提取模型包括骨架点粗提取网络和骨架点细提取网络,所述人体骨架点提取模型由骨架点粗提取网络、骨架点细提取网络根据第一损失函数进行交替更新后获得,所述规范判断网络根据第二损失函数进行交替更新后获得。
进一步,所述厨余垃圾规范操作的监控方法还包括建立所述人体骨架点提取模型的训练步骤,所述人体骨架点提取模型的训练步骤包括对所述骨架点粗提取网络和所述骨架点细提取网络进行训练的步骤,所述对所述骨架点粗提取网络、所述骨架点细提取网络进行训练这一步骤,包括以下步骤:
将带有骨架点标签的数据集输入至所述骨架点粗提取网络后,获得人体骨架点粗特征图;
将所述人体骨架点粗特征图输入至所述骨架点细提取网络后,获得人体骨架点细特征图;
根据所述人体骨架点粗特征图、所述人体骨架点细特征图计算第一损失函数;
采用所述第一损失函数对所述骨架点粗提取网络、所述骨架点细提取网络进行训练。
进一步,所述厨余垃圾规范操作的监控方法还包括建立所述规范判断网络的训练步骤,所述规范判断网络的训练步骤,包括以下步骤:
将带有规范标签的数据集输入至所规范判断网络后,获得规范判断特征向量;
根据所述规范判断特征向量和所述规范标签计算第二损失函数;
采用所述第二损失函数对所述规范判断网络进行训练。
进一步,所述将所述目标人图片输入到人体骨架点提取模型,获得人体的骨架点坐标,具体为:
将所述目标人图片输入到人体骨架点提取模型,获得人体的8个骨架点坐标;
所述根据所述骨架点坐标获取特征向量图片,结合所述特征向量图片和规范判断网络检测目标人扔厨余垃圾动作是否规范,若确定检测到不规范,存储所述特征向量图片,包括:
将所述8个骨架点坐标组合成16维度的特征向量,将所述16维度的特征向量存储到储存介质中;
判断储存介质中所述16维度的特征向量个数是否大于预设阈值,若是,执行下一步骤;反之,继续存储所述16维度的特征向量;
将储存介质中所有的所述16维度的特征向量组成特征图,将所述特征图输入到规范判断网络中,由规范判断网络输出规范特征向量;
根据所述规范特征向量判断目标人扔厨余垃圾动作是否规范,若规范,清空所述储存介质中全部的特征向量;反之,保存所述储存介质中的特征向量。
进一步,所述第二损失函数的表达式为:
Figure BDA0002774597430000021
其中,N表示每个输入块的特征向量数目,Np为规范特征向量维度,v(p*)表示对应的规范标签,v(i)表示预测规范特征向量。
进一步,所述16维度的特征向量包括所述8个骨架点图像横坐标和纵坐标,顺序为下巴骨架点横坐标、脖子骨架点横坐标、左肩关节骨架点横坐标、右肩关节骨架点横坐标、左肘关节骨架点横坐标、右肘关节骨架点横坐标、左腕关节骨架点横坐标、右腕关节骨架点横坐标、下巴骨架点纵坐标、脖子骨架点纵坐标、左肩关节骨架点纵坐标、右肩关节骨架点纵坐标、左肘关节骨架点纵坐标、右肘关节骨架点纵坐标、左腕关节骨架点纵坐标、右腕关节骨架点纵坐标。
本发明所采用的另一技术方案是:
一种厨余垃圾规范操作的监控系统,包括:
数据输入模块,用于获取连续视频帧;
人体检测模块,用于将所述连续视频帧输入到目标检测模型,输出目标人检测框;
坐标提取模块,用于根据所述目标人检测框获取目标人图片,将所述目标人图片输入到人体骨架点提取模型,获得人体的骨架点坐标;
动作检测模块,用于根据所述骨架点坐标获取特征向量图片,结合所述特征向量图片和规范判断网络检测目标人扔厨余垃圾动作是否规范,若确定检测到不规范,存储所述特征向量图片。
本发明所采用的另一技术方案是:
一种厨余垃圾规范操作的监控装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述一种厨余垃圾规范操作的监控方法。
本发明所采用的另一技术方案是:
一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上所述一种厨余垃圾规范操作的监控方法。
本发明的有益效果是:本发明通过检测目标人骨架点,根据骨架点在连续帧的位置来判断是否有塑料袋和垃圾分离的动作,进而判断对厨余垃圾处理是否规范,可应用于垃圾智能分类、智能城市等领域。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种厨余垃圾规范操作的监控方法的步骤流程图;
图2是本发明实施例中人体骨架点提取网络和规范判断网络模型框架图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
为判断目标人扔厨余垃圾动作是否规范,现有技术中,动作规范性判断任务中的判别式方法试图通过使用单个判断分类器来区分多种场景下的动作。例如,Liu等人将连续帧图片输入到卷积网络模型(Convolutional Neural Network,CNN)来判断当前目标人扔厨余垃圾动作是否规范,Zhang等人利用长短期记忆模型(Long Short-Term Memory,LSTM)来提取时序视频帧内目标人时序特征,进而判断当前目标人扔厨余垃圾动作是否规范,Zhou等人采用局部二值模式(Local Binary Pattern,LBP)特征表征目标人,再将连续帧的LBP特征输入到支持向量机(Support Vector Machine,SVM)中,判断目标人扔厨余垃圾动作是否规范。然而,这些判别方法的只适用于固定场景,对拍摄周围环境、目标人扔垃圾动作非常敏感,很难根据从不定角度的摄像头拍摄的连续帧中目标人扔厨余垃圾动作是否规范。
如果能够检测目标人骨架点,那么就能根据骨架点在连续帧的位置来判断是否有塑料袋和垃圾分离的动作,进而判断对厨余垃圾处理是否规范。可应用于垃圾智能分类、智能城市等领域。
如图1所示,本实施例提供一种厨余垃圾规范操作的监控方法,该方法基于人体骨架点定位技术,包括但不限于以下步骤:
S1、训练人体骨架点检测模型和规范判断网络。该人体骨架点检测模型包括骨架点粗提取网络、骨架点细提取网络,在训练过程中,该人体骨架点检测模型由骨架点粗提取网络、骨架点细提取网络根据相关损失进行交替更新后获得,该规范判断网络根据相关损失进行交替更新后获得。
基于人体骨架点定位的厨余垃圾规范操作的判断是指:对连续视频帧中目标人的人体骨架点进行检测,进而判断目标人在连续视频帧内对厨余垃圾操作是否规范。具体地,骨架点粗提取网络用于提取输入至骨架点检测模型的目标人的骨架点粗特征图,该骨架点粗特征图包括人8个骨架点大致图像坐标信息,骨架点细提取网络用于根据骨架点粗特征图提取目标人骨架点细特征图,该骨架点细特征图包括人8个骨架点具体图像坐标信息,规范判断网络用于根据连续60帧目标人骨架点细特征图提取目标人16维度特征向量,该特征向量包含目标人扔厨余垃圾是否规范信息。本发明通过损失函数对骨架点粗提取网络、骨架点细提取网络、规范判断网络进行优化更新,不仅提高骨架点提取网络对不同场景目标人不同姿态的骨架点提取能力,而且提高规范判断网络对不一致的扔垃圾动作规范性判断抗干扰能力,从而提高判断扔厨余垃圾动作是否规范的准确率。
其中,步骤S1包括以下步骤S11-S13:
S11、对骨架点粗提取网络进行训练;
S12、对骨架点细提取网络进行训练;
S13、对规范判断网络进行训练。
具体地,参照图2,本实施例提供了一种人体骨架点检测模型和规范判断网络,人体骨架点检测模型包括骨架点粗提取网络、骨架点细提取网络,为了获得有效的人体骨架点检测网络和规范判断网络,需要利用相关损失对骨架点粗提取网络、骨架点细提取网络、规范判断网络进行交替更新。
步骤S11包括以下步骤S111-S113:
S111、将带有人体骨架点标签的人数据集输入至骨架点粗提取网络后,获取输出骨架点粗特征图;
S112、根据输出骨架点粗特征图和人体骨架点标签计算参考损失函数;
S113、利用参考损失函数对骨架点粗提取网络进行训练。
具体地,构建骨架点粗提取网络,是为了通过预训练学习的方式,更快捷、高效地建立骨架点粗提取网络。因为通常这些预先训练的模型在开发神经网络的时候已经消耗了巨大的时间资源和计算资源,预训练学习可以将已习得的强大技能迁移到相关的问题上。通过预训练学习的方式对骨架点粗提取网络进行训练,能够减少模型训练的时间和训练难度,而且减少了对训练数据的要求。
如图2所示,本发明的骨架点粗提取网络的网络结构采用多个卷积核为3×3的卷积层搭建而成,目的是增加骨架点粗提取网络的非线性表达能力,使得输入的目标人图像骨架点更具有可分性,同时减少网络卷积层参数的个数。
每个卷积层后面增加有BN(Batch Normalization)操作、ReLU线性激活函数和最大池化层,该最大池化层使得图像的深度特征维数变为原来的二分之一。
最后一层卷积层,将深度特征维度映射到50176维,进而组成8×112×56维度特征图,该特征图表示8个维度为112×56骨架点粗特征图。
用于训练骨架点粗提取网络的人图像可来自于自公共人数据库,该公共人数据库主要包括COCO、MPII、AI Challenge等。对带有骨架点标签的人图像进行预处理,预处理包括图像增强、图像伸缩等,最终得到规格为3×448×224的标准人图像,该标准人图像构成带骨架点标签的数据集。
将带有骨架点标签的数据集输入到骨架点粗提取网络,设定初始的学习率为0.1,每个输入块(Batch)的人图像数量为64,预计最大训练的迭代次数为100万次。
通过计算标准人图像所带的骨架点标签与骨架点粗提取网络的输出骨架点粗特征图之间的交叉熵损失函数作为骨架点粗提取网络的参考损失函数,该交叉熵损失函数的公式如下:
Figure BDA0002774597430000061
其中,N表示每个输入块(Batch)的人图像数目,即64。H、W表示骨架点粗特征图的长、宽,即112、56。xi,j表示8个骨架点粗特征图在坐标(i,j)特征值组成的特征向量,t* i,j表示原图中坐标(i,j)像素真实类别,N1表示骨架点粗特征图数目,即8。损失函数L的目的是使得在坐标(i,j)对应特征向量xi,j最大的特征值对应类别为该坐标真实类别。
根据损失函数的值,利用随机梯度下降的方法对骨架点粗提取网络进行训练,对骨架点粗提取网络中所有层的参数进行调整,得到最佳的骨架点粗提取网络。
步骤S12包括以下步骤S121-S124:
S121、将带有骨架点标签的数据集输入至最佳的骨架点粗提取网络,得到带标签的骨架点粗特征图;
S122、将带标签的骨架点粗特征图输入至骨架点细提取网络,得到骨架点细特征图;
S123、根据输出骨架点细特征图和人骨架点标签计算参考损失函数;
S124、利用参考损失函数对骨架点细提取网络进行训练。
具体地,构建骨架点细提取网络,是为了通过预训练学习的方式,更快捷、高效地建立骨架点细提取网络。因为通常这些预先训练的模型在开发神经网络的时候已经消耗了巨大的时间资源和计算资源,预训练学习可以将已习得的强大技能迁移到相关的问题上。通过预训练学习的方式对骨架点细提取网络进行训练,能够减少模型训练的时间和训练难度,而且减少了对训练数据的要求。
如图2所示,本发明的骨架点细提取网络的网络结构采用多个卷积核为3×3的卷积层搭建而成,目的是增加骨架点细提取网络的非线性表达能力,使得输出的骨架点细特征图更具有可分性,同时减少网络卷积层参数的个数。
每个卷积层后面增加有BN(Batch Normalization)操作、ReLU线性激活函数和最大池化层,该最大池化层使得图像的深度特征维数变为原来的二分之一。
最后一层卷积层,将深度特征维度映射到57344维度,进而组成8×128×56,表示8个维度为128×56骨架点细特征图。
用于训练参考网络的人图像可来自于自公共人数据库,该公共人数据库主要包括COCO、MPII、AI Challenge等。对带有骨架点标签的人图像进行预处理,预处理包括图像增强、图像伸缩等,最终得到规格为3×448×224的标准人图像,将3×448×224的标准人图像输入到训练后的骨架点粗提取网络,获得8×128×56骨架点粗特征图,该骨架点粗特征图构成带骨架点标签的数据集。
将带有骨架点标签的数据集输入到骨架点细提取网络,设定初始的学习率为0.1,每个输入块(Batch)的骨架点粗特征图数量为64,预计最大训练的迭代次数为100万次。
通过计算标准人图像所带的骨架点标签与骨架点细提取网络的输出骨架点细特征图之间的回归损失函数作为骨架点细提取网络的参考损失函数,该回归损失函数的公式如下:
Figure BDA0002774597430000071
其中,N表示每个输入块(Batch)的人图像数目,即64。H、W表示骨架点粗特征图的长、宽,即128、56。N2表示骨架点粗特征图数目,即8。k(i,j)表示第k个细特征图在坐标(i,j)特征值。* k(i,j)表示第k个标签图在坐标(i,j)特征值,其中标签图是根据标签生成,在该标签图对应骨架点坐标值为1,其余坐标的值为0。损失函数L的目的是使得骨架点细特征图更加精准表达骨架点坐标位置。
根据损失函数的值,利用随机梯度下降的方法对骨架点细提取网络进行训练,对骨架点细提取网络中所有层的参数进行调整,得到最佳的骨架点细提取网络。
步骤S13包括以下步骤S131-S136:
S131、将带有规范标签的数据集输入至最佳的骨架点粗提取网络,得到带规范标签的骨架点粗特征图;
S132、将带标签的骨架点粗特征图输入至最佳的骨架点细提取网络,得到骨架点细特征图;
S133、根据骨架点细特征图获取8个骨架点坐标,并组成16维度特征向量;
S134、将连续60帧带标签的60个16维度特征向量输入至规范判断网络,得到规范判断特征向量;
S135、根据输出规范判断特征向量和规范标签计算参考损失函数;
S136、利用参考损失函数对规范判断网络进行训练。
具体地,构建规范判断网络,是为了通过预训练学习的方式,更快捷、高效地建立规范判断网络。因为通常这些预先训练的模型在开发神经网络的时候已经消耗了巨大的时间资源和计算资源,预训练学习可以将已习得的强大技能迁移到相关的问题上。通过预训练学习的方式对规范判断网络进行训练,能够减少模型训练的时间和训练难度,而且减少了对训练数据的要求。
如图2所示,本发明的规范判断网络的网络结构采用多个卷积核为3×3的卷积层搭建而成,目的是增加规范判断网络的非线性表达能力,使得输入的骨架点细特征图更具有可分性,同时减少网络卷积层参数的个数。
每个卷积层后面增加有BN(Batch Normalization)操作、ReLU线性激活函数和最大池化层,该最大池化层使得图像的深度特征维数变为原来的二分之一。
最后一层卷积层,将深度特征维度映射到2,表示这60帧内扔厨余垃圾规范是否的概率。
用于训练规范判断网络的人图像来自于自制数据库,该数据库主要包括规范动作连续视频帧和不规范动作连续视频帧,及其规范标签。对带有规范标签的人图像进行预处理,预处理包括图像增强、图像伸缩等,最终得到规格为3×448×224的标准人图像,将3×448×224的标准人图像输入到最佳的骨架点粗提取网络,获得8×112×56骨架点粗特征图,该骨架点粗特征图构成带规范标签的数据集。
将带有规范标签的自制数据集输入到规范判断网络,设定初始的学习率为0.1,每个输入块(Batch)的60×16维度特征向量数量为64,预计最大训练的迭代次数为100万次。
通过计算标准人图像所带的规范标签与规范判断网络的输出规范特征向量之间的交叉熵损失函数作为规范判断网络的参考损失函数,该交叉熵损失函数的公式如下:
Figure BDA0002774597430000091
其中,N表示每个输入块(Batch)的60×16维度特征向量数目,即64。Np为规范特征向量维度,即2。v(p*)表示对应的规范标签,其中,该规范标签维度为2,对应真值维度的向量值为1,其余维度向量值为0。v(i)表示预测规范特征向量,其中,该预测规范特征向量维度为8。损失函数L的目的是使得预测规范特征向量与规范标签保持一致。
S2、获取连续60帧目标16维度特征向量和对应规范判断特征向量。
其中,步骤S2包括以下步骤S21-S24:
S21、将当前帧图片中目标人输入至骨架点检测模型,输出骨架点细特征图;
S22、根据骨架点细特征图获得16维度特征向量,并储存在存储介质中;
S23、判断存储介质中16维度特征向量数目是否达到60,如果是,获得60×16特征图并进行以下步骤,否则对下一帧重复以上步骤;
S24、60×16特征图输入至规范判断网络获得对应的规范判断特征向量。
具体地,将当前帧输入至YOLO模型获得目标人边框,将边框内图片经过标准化后输入骨架点检测模型,获得骨架点细特征图,根据骨架点细特征图最大相应值坐标,获得8个骨架点坐标,进一步获得16维度的特征向量,储存在存储介质中。当存储介质中16维度的特征向量数目等于60时,将60个16维度特征向量输入至规范判断网络,由规范判断网络输出规范特征向量。
步骤S21包括以下步骤S211-S213:
S211、使用YOLO检测模型获取连续帧内目标人检测框;
S212、将连续帧内目标人检测框内图片进行预处理;
S213、将标准人图像输入骨架点检测模型,获取图像对应骨架点细特征图;
具体地,使用YOLO检测模型获取连续帧内目标检测框,将连续帧检测框内图像裁剪出来,将裁剪出来图片进行图像增强、图像伸缩预处理,最终得到规格为3×448×224的标准人图像,将标准人图像输入值骨架点检测模型,获得骨架点细特征图。
步骤S22包括以下步骤S221-S224:
S221、将标准人图像输入骨架点检测模型;
S222、获取图像对应可视骨架点细特征图;
S223、获取图像对应8个骨架点坐标
S224、根据8个骨架点坐标获得16维度特征向量,并储存在储存器中。
具体地,将标准人图像输入骨架点检测模型,获取图像对应的8个骨架点细特征图,根据骨架点细特征图相应最大特征值的坐标获得8个骨架点坐标,8个骨架点包括人体下巴、脖子、左肩关节、右肩关节、左肘关节、右肘关节、左腕关节、右腕关节骨架点。将8个骨架点坐标按照以下排序构成16维度特征向量,下巴骨架点横坐标、脖子骨架点横坐标、左肩关节骨架点横坐标、右肩关节骨架点横坐标、左肘关节骨架点横坐标、右肘关节骨架点横坐标、左腕关节骨架点横坐标、右腕关节骨架点横坐标、下巴骨架点纵坐标、脖子骨架点纵坐标、左肩关节骨架点纵坐标、右肩关节骨架点纵坐标、左肘关节骨架点纵坐标、右肘关节骨架点纵坐标、左腕关节骨架点纵坐标、右腕关节骨架点纵坐标。最后将16维度特征向量储存在储存器中。
步骤S23包括以下步骤S231-S234:
S231、如果储存介质中16维度特征向量的数目等于60,执行S233;
S232、如果储存介质中16维度特征向量的数目不等于60,执行S234;
S233、将60个16维度特征向量组合成60×16特征向量图;
S234、等待储存介质中16维度特征向量的数目等于60。
具体地,每一帧图片都能通过骨架点检测模型获得一个16维度特征向量储存到存储介质中,当存储介质16维度特征向量的数目达到了60个时候,将这60个16维度特征向量组成60×16特征向量图。当存储介质16维度特征向量的数目不足60的时,将下一帧图片输入骨架点检测模型中,获得新的一个16维度特征向量储存到存储介质中。
步骤S24包括以下步骤S241-S242:
S241、将60×16特征向量图输入到训练好的规范判断网络;
S242、规范判断网络输出规范特征向量。
S3、根据规范判断特征向量,判断目标人扔厨余垃圾动作是否规范。
步骤S3包括以下步骤S31-S33:
S31、根据规范特征向量判断是否规范,如果否,执行S32,否则执行S33
S32、清空储存器所有16维度特征向量,并作出不规范提醒。
S33、清空储存器前30个16维度特征向量。
具体地,判断规范特征向量中规范特征值是否大于不规范特征值,如果是,判断为规范,否则,进一步判断不规范特征值是否小于不规范阈值,如果是,判断为规范,否则判断为不规范。当判断为规范时,清空储存器前30个16维度特征向量,返回S1步骤。当判断为不规范时,清空所有16维度特征向量,作出不规范提醒,返回S1步骤。
综上所述,本实施例的方法相对于现有技术,至少具有以下有益效果:
(1)、相较于直接从人图像预测扔厨余垃圾动作是否规范,本实施例通过相关损失函数训练骨架点粗提取网络、骨架点细提取网络、规范判断网络,降低了不同环境场景、扔垃圾动作不一致的干扰,从而提高了骨架点的检测精度和动作规范性判断准确率。
(2)、本实施例通过预训练学习的方式,骨架点粗提取网络、骨架点细提取网络、规范判断网络特征提取的能力,能够有效降低训练成本。
(3)、本实施例通过损失函数对骨架点粗提取网络、骨架点细提取网络、规范判断网络进行优化更新,不仅提高骨架点提取网络对不定角度摄像头拍摄视频帧中目标人骨架点提取能力,而且提高规范判断网络对不定角度摄像头拍摄视频帧中目标人扔垃圾动作不一致的抗干扰能力。使用人体骨架点代替人图像作为判断网络的输入,能够有效提升规范判断的鲁棒性,提升模型在不同环境场景的判断准确率。
本实施例还提供一种厨余垃圾规范操作的监控系统,包括:
数据输入模块,用于获取连续视频帧;
人体检测模块,用于将连续视频帧输入到目标检测模型,输出目标人检测框;
坐标提取模块,用于根据目标人检测框获取目标人图片,将目标人图片输入到人体骨架点提取模型,获得人体的骨架点坐标;
动作检测模块,用于根据骨架点坐标获取特征向量图片,结合特征向量图片和规范判断网络检测目标人扔厨余垃圾动作是否规范,若确定检测到不规范,存储特征向量图片。
本实施例的一种厨余垃圾规范操作的监控系统,可执行本发明方法实施例所提供的一种厨余垃圾规范操作的监控方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本实施例还提供一种厨余垃圾规范操作的监控装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述的一种厨余垃圾规范操作的监控方法。
本实施例的一种厨余垃圾规范操作的监控装置,可执行本发明方法实施例所提供的一种厨余垃圾规范操作的监控方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种厨余垃圾规范操作的监控方法,其特征在于,包括以下步骤:
获取连续视频帧;
将所述连续视频帧输入到目标检测模型,输出目标人检测框;
根据所述目标人检测框获取目标人图片,将所述目标人图片输入到人体骨架点提取模型,获得人体的骨架点坐标;
根据所述骨架点坐标获取特征向量图片,结合所述特征向量图片和规范判断网络检测目标人扔厨余垃圾动作是否规范,若确定检测到不规范,存储所述特征向量图片。
2.根据权利要求1所述的一种厨余垃圾规范操作的监控方法,其特征在于,所述人体骨架点提取模型包括骨架点粗提取网络和骨架点细提取网络,所述人体骨架点提取模型由骨架点粗提取网络、骨架点细提取网络根据第一损失函数进行交替更新后获得,所述规范判断网络根据第二损失函数进行交替更新后获得。
3.根据权利要求2所述的一种厨余垃圾规范操作的监控方法,其特征在于,所述厨余垃圾规范操作的监控方法还包括建立所述人体骨架点提取模型的训练步骤,所述人体骨架点提取模型的训练步骤包括对所述骨架点粗提取网络和所述骨架点细提取网络进行训练的步骤,所述对所述骨架点粗提取网络、所述骨架点细提取网络进行训练这一步骤,包括以下步骤:
将带有骨架点标签的数据集输入至所述骨架点粗提取网络后,获得人体骨架点粗特征图;
将所述人体骨架点粗特征图输入至所述骨架点细提取网络后,获得人体骨架点细特征图;
根据所述人体骨架点粗特征图、所述人体骨架点细特征图计算第一损失函数;
采用所述第一损失函数对所述骨架点粗提取网络、所述骨架点细提取网络进行训练。
4.根据权利要求2所述的一种厨余垃圾规范操作的监控方法,其特征在于,所述厨余垃圾规范操作的监控方法还包括建立所述规范判断网络的训练步骤,所述规范判断网络的训练步骤,包括以下步骤:
将带有规范标签的数据集输入至所规范判断网络后,获得规范判断特征向量;
根据所述规范判断特征向量和所述规范标签计算第二损失函数;
采用所述第二损失函数对所述规范判断网络进行训练。
5.根据权利要求2所述的一种厨余垃圾规范操作的监控方法,其特征在于,所述将所述目标人图片输入到人体骨架点提取模型,获得人体的骨架点坐标,具体为:
将所述目标人图片输入到人体骨架点提取模型,获得人体的8个骨架点坐标;
所述根据所述骨架点坐标获取特征向量图片,结合所述特征向量图片和规范判断网络检测目标人扔厨余垃圾动作是否规范,若确定检测到不规范,存储所述特征向量图片,包括:
将所述8个骨架点坐标组合成16维度的特征向量,将所述16维度的特征向量存储到储存介质中;
判断储存介质中所述16维度的特征向量个数是否大于预设阈值,若是,执行下一步骤;
反之,继续存储所述16维度的特征向量;
将储存介质中所有的所述16维度的特征向量组成特征图,将所述特征图输入到规范判断网络中,由规范判断网络输出规范特征向量;
根据所述规范特征向量判断目标人扔厨余垃圾动作是否规范,若规范,清空所述储存介质中全部的特征向量;反之,保存所述储存介质中的特征向量。
6.根据权利要求5所述的一种厨余垃圾规范操作的监控方法,其特征在于,所述第二损失函数的表达式为:
Figure FDA0002774597420000021
其中,N表示每个输入块的特征向量数目,Np为规范特征向量维度,v(p*)表示对应的规范标签,v(i)表示预测规范特征向量。
7.根据权利要求5所述的一种厨余垃圾规范操作的监控方法,其特征在于,所述16维度的特征向量包括所述8个骨架点图像横坐标和纵坐标,顺序为下巴骨架点横坐标、脖子骨架点横坐标、左肩关节骨架点横坐标、右肩关节骨架点横坐标、左肘关节骨架点横坐标、右肘关节骨架点横坐标、左腕关节骨架点横坐标、右腕关节骨架点横坐标、下巴骨架点纵坐标、脖子骨架点纵坐标、左肩关节骨架点纵坐标、右肩关节骨架点纵坐标、左肘关节骨架点纵坐标、右肘关节骨架点纵坐标、左腕关节骨架点纵坐标、右腕关节骨架点纵坐标。
8.一种厨余垃圾规范操作的监控系统,其特征在于,包括:
数据输入模块,用于获取连续视频帧;
人体检测模块,用于将所述连续视频帧输入到目标检测模型,输出目标人检测框;
坐标提取模块,用于根据所述目标人检测框获取目标人图片,将所述目标人图片输入到人体骨架点提取模型,获得人体的骨架点坐标;
动作检测模块,用于根据所述骨架点坐标获取特征向量图片,结合所述特征向量图片和规范判断网络检测目标人扔厨余垃圾动作是否规范,若确定检测到不规范,存储所述特征向量图片。
9.一种厨余垃圾规范操作的监控装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-7任一项所述的一种厨余垃圾规范操作的监控方法。
10.一种存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述一种厨余垃圾规范操作的监控方法。
CN202011260881.2A 2020-11-12 2020-11-12 一种厨余垃圾规范操作的监控方法、系统、装置及介质 Active CN112487877B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011260881.2A CN112487877B (zh) 2020-11-12 2020-11-12 一种厨余垃圾规范操作的监控方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011260881.2A CN112487877B (zh) 2020-11-12 2020-11-12 一种厨余垃圾规范操作的监控方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN112487877A true CN112487877A (zh) 2021-03-12
CN112487877B CN112487877B (zh) 2024-09-10

Family

ID=74929948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011260881.2A Active CN112487877B (zh) 2020-11-12 2020-11-12 一种厨余垃圾规范操作的监控方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN112487877B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255550A (zh) * 2021-06-04 2021-08-13 中国科学院计算技术研究所厦门数据智能研究院 一种基于视频的行人垃圾扔投次数统计方法
CN113435419A (zh) * 2021-08-26 2021-09-24 城云科技(中国)有限公司 违规丢弃垃圾行为检测方法、装置及应用
CN117975400A (zh) * 2024-03-29 2024-05-03 广东先知大数据股份有限公司 一种垃圾整改情况检测方法、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273782A (zh) * 2016-04-08 2017-10-20 微软技术许可有限责任公司 使用递归神经网络的在线动作检测
CN108919943A (zh) * 2018-05-22 2018-11-30 南京邮电大学 一种基于深度传感器的实时手部追踪方法
CN109684428A (zh) * 2018-12-12 2019-04-26 广东启慧城市信息有限公司 空间数据建设方法、装置、设备及存储介质
CN111368768A (zh) * 2020-03-10 2020-07-03 浙江理工大学桐乡研究院有限公司 一种基于人体关键点的员工手势指引检测方法
CN111846693A (zh) * 2020-07-21 2020-10-30 宁波瑞勤信息技术有限公司 基于实名制的智能垃圾分类投放监督和控制系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273782A (zh) * 2016-04-08 2017-10-20 微软技术许可有限责任公司 使用递归神经网络的在线动作检测
CN108919943A (zh) * 2018-05-22 2018-11-30 南京邮电大学 一种基于深度传感器的实时手部追踪方法
CN109684428A (zh) * 2018-12-12 2019-04-26 广东启慧城市信息有限公司 空间数据建设方法、装置、设备及存储介质
CN111368768A (zh) * 2020-03-10 2020-07-03 浙江理工大学桐乡研究院有限公司 一种基于人体关键点的员工手势指引检测方法
CN111846693A (zh) * 2020-07-21 2020-10-30 宁波瑞勤信息技术有限公司 基于实名制的智能垃圾分类投放监督和控制系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255550A (zh) * 2021-06-04 2021-08-13 中国科学院计算技术研究所厦门数据智能研究院 一种基于视频的行人垃圾扔投次数统计方法
CN113255550B (zh) * 2021-06-04 2023-11-03 中科(厦门)数据智能研究院 一种基于视频的行人垃圾扔投次数统计方法
CN113435419A (zh) * 2021-08-26 2021-09-24 城云科技(中国)有限公司 违规丢弃垃圾行为检测方法、装置及应用
CN117975400A (zh) * 2024-03-29 2024-05-03 广东先知大数据股份有限公司 一种垃圾整改情况检测方法、电子设备和存储介质
CN117975400B (zh) * 2024-03-29 2024-06-28 广东先知大数据股份有限公司 一种垃圾整改情况检测方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN112487877B (zh) 2024-09-10

Similar Documents

Publication Publication Date Title
CN112487877B (zh) 一种厨余垃圾规范操作的监控方法、系统、装置及介质
Anagnostopoulos et al. A license plate-recognition algorithm for intelligent transportation system applications
CN106845890B (zh) 一种基于视频监控的仓储监控方法及装置
Vargas et al. An enhanced background estimation algorithm for vehicle detection in urban traffic scenes
US20170213080A1 (en) Methods and systems for automatically and accurately detecting human bodies in videos and/or images
Kumar et al. Study of robust and intelligent surveillance in visible and multi-modal framework
CN111723773B (zh) 遗留物检测方法、装置、电子设备及可读存储介质
CN106657812A (zh) 动态物件分类
CN112707058B (zh) 一种厨余垃圾规范动作的检测方法、系统、装置及介质
CN113870304B (zh) 异常行为检测与跟踪方法、装置、可读存储介质及设备
CN115761537B (zh) 一种面向动态特征补充机制的输电线路异物入侵识别方法
CN111582126A (zh) 基于多尺度行人轮廓分割融合的行人重识别方法
CN113673298B (zh) 一种基于时序门控循环单元模型的溢出监测方法
CN109446897B (zh) 基于图像上下文信息的场景识别方法及装置
KR20210151773A (ko) 대상 재인식 방법 및 장치, 단말 및 저장 매체
Yusuf et al. Enhancing Vehicle Detection and Tracking in UAV Imagery: A Pixel Labeling and Particle Filter Approach
CN117746016A (zh) 一种目标识别方法及设备
CN106384089A (zh) 基于终生学习的人体可靠检测方法
CN106128105B (zh) 一种交通路口行人行为监测系统
US20240153275A1 (en) Determining incorrect predictions by, and generating explanations for, machine learning models
Alsaedi et al. Design and Simulation of Smart Parking System Using Image Segmentation and CNN
CN114972434B (zh) 一种级联检测和匹配的端到端多目标跟踪系统
CN114462526B (zh) 一种分类模型训练方法、装置、计算机设备及存储介质
CN116434156A (zh) 目标检测方法、存储介质、路侧设备及自动驾驶系统
CN113158720B (zh) 一种基于双模特征和注意力机制的视频摘要方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant