CN113052127A - 一种行为检测方法、系统、计算机设备及机器可读介质 - Google Patents

一种行为检测方法、系统、计算机设备及机器可读介质 Download PDF

Info

Publication number
CN113052127A
CN113052127A CN202110387220.4A CN202110387220A CN113052127A CN 113052127 A CN113052127 A CN 113052127A CN 202110387220 A CN202110387220 A CN 202110387220A CN 113052127 A CN113052127 A CN 113052127A
Authority
CN
China
Prior art keywords
image
behavior
detected
human body
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110387220.4A
Other languages
English (en)
Inventor
蒋博劼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuncong Enterprise Development Co ltd
Original Assignee
Shanghai Yuncong Enterprise Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuncong Enterprise Development Co ltd filed Critical Shanghai Yuncong Enterprise Development Co ltd
Priority to CN202110387220.4A priority Critical patent/CN113052127A/zh
Publication of CN113052127A publication Critical patent/CN113052127A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种行为检测方法、系统、计算机设备及机器可读介质,包括:获取待检测图像,并从待检测图像中获取人体框;判断待检测图像中满足预设条件的人体框与目标框的交并比值是否低于第一阈值,若低于第一阈值,则认定待检测图像中的目标对象存在第一行为,若大于等于第一阈值,则认定待检测图像中的目标对象不存在第一行为;若待检测图像中不存在人体框,则认定目标对象存在第一行为。其中,满足预设条件的人体框包括:与目标框交并比最大的人体框。本发明无需被检测人员的配合,也无物理侵入,能够带来更好的用户体验;本发明还可以实时监控,无需巡视员进行辅助配合,效率更高。

Description

一种行为检测方法、系统、计算机设备及机器可读介质
技术领域
本发明涉及图像检测技术领域,特别是涉及一种行为检测方法、系统、计算机设备及机器可读介质。
背景技术
在诸多行业中,睡岗和/或离岗行为会带来重大安全隐患。传统的睡岗和/或离岗检测是通过专门人员不定期巡逻实现,但存在检查效率低下,占用人力成本,在大场景下需要配备多名人员,容易使人产生侥幸心理,主观性大等,实时性弱等缺点。
现阶段涌现出一些自动查岗仪,能使用电子器件代替人力进行自动查岗。它们的逻辑主要在于通过电子线路或者以此延伸的终端器件,不定期向员工发送一个信号,员工需要在规定时间内做出回应,否则判断为离岗或者睡岗。这种方法的缺点在于:一是对员工的侵入性强,会使员工感受到时刻被监管的压力而感到不适,二是通常每个工位都需要安装一个检测终端,对布线等也有要求,带来额外成本。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种行为检测方法、系统、计算机设备及机器可读介质,用于解决现有技术中无法准确检测睡岗和/或离岗行为的问题。
为实现上述目的及其他相关目的,本发明提供一种行为检测方法,包括以下步骤:
获取待检测图像,并从所述待检测图像中获取人体框;
判断所述待检测图像中满足预设条件的人体框与目标框的交并比值是否低于第一阈值,若低于第一阈值,则认定所述待检测图像中的目标对象存在第一行为,若大于等于第一阈值,则认定所述待检测图像中的目标对象不存在第一行为;若所述待检测图像中不存在人体框,则认定目标对象存在第一行为。其中,满足预设条件的人体框包括:与所述目标框交并比最大的人体框。
可选地,若所述待检测图像中的目标对象不存在第一行为,则还包括:
基于所述人体框的坐标、从所述待检测图像中获取的人头框的坐标从所述待检测图像中获取对应的人体框区域图像、人头框区域图像;
将所述人体框区域图像和所述人头框区域图像同时输入至神经网络模型中,判断所述待检测图像中的目标对象是否存在第二行为。
可选地,若所述神经网络模型包括:卷积神经网络、全连接网络和softmax函数,则判断所述待检测图像中的目标对象是否存在第二行为的过程包括:
利用所述卷积神经网络对所述人体框区域图像和所述人头区域图像进行特征提取,得到多个特征图;
对所述多个特征图进行特征合并,并利用所述全连接网络和所述softmax函数对合并后的特征图进行分类,获取分类结果;所述分类结果包括:所述待检测图像中的目标对象存在第二行为、所述待检测图像中的目标对象不存在第二行为。
可选地,还包括将存在第二行为的图像记为正例、不存在第二行为的图像记为负例;
若将存在第二行为的图像检测为负例,则将当次检测结果记为漏检;若将不存在第二行为的图像检测为正例,则将当次检测结果记为误检;
利用所述漏检和/或误检对应的图像训练优化所述神经网络模型,并在所述正例的召回率大于第二阈值以及所述负例的召回率大于第三阈值时,停止对所述神经网络模型的训练优化。
可选地,还包括:
从视频流中抽取多帧图像作为所述待检测图像;
识别所抽取的多帧图像的行为判断结果,确定所述视频流中的目标对象是否存在第一行为和/或第二行为;其中,所述第一行为至少包括离岗,所述第二行为至少包括睡岗。
本发明还提供一种行为检测系统,包括有:
图像采集模块,用于获取待检测图像;
图像框模块,用于从所述待检测图像中获取人体框;
第一行为检测模块,用于判断所述待检测图像中满足预设条件的人体框与目标框的交并比值是否低于第一阈值,若低于第一阈值,则认定所述待检测图像中的目标对象存在第一行为,若大于等于第一阈值,则认定所述待检测图像中的目标对象不存在第一行为;若所述待检测图像中不存在人体框,则认定目标对象存在第一行为。其中,满足预设条件的人体框包括:与所述目标框交并比最大的人体框。
可选地,还包括:
区域图像模块,用于根据所述人体框的坐标、从所述待检测图像中获取的人头框的坐标从所述待检测图像中获取对应的人体框区域图像、人头框区域图像;
第二行为检测模块,将所述人体框区域图像和所述人头框区域图像同时输入至神经网络模型中,判断所述待检测图像中的目标对象是否存在第二行为。
可选地,若所述神经网络模型包括:卷积神经网络、全连接网络和softmax函数,则所述第二行为检测模块判断所述待检测图像中的目标对象是否存在第二行为的过程包括:
利用所述卷积神经网络对所述人体框区域图像和所述人头区域图像进行特征提取,得到多个特征图;
对所述多个特征图进行特征合并,并利用所述全连接网络和所述softmax函数对合并后的特征图进行分类,获取分类结果;所述分类结果包括:所述待检测图像中的目标对象存在第二行为、所述待检测图像中的目标对象不存在第二行为。
可选地,还包括将存在第二行为的图像记为正例、不存在第二行为的图像记为负例;
若将存在第二行为的图像检测为负例,则将当次检测结果记为漏检;若将不存在第二行为的图像检测为正例,则将当次检测结果记为误检;
利用所述漏检和/或误检对应的图像训练优化所述神经网络模型,并在所述正例的召回率大于第二阈值以及所述负例的召回率大于第三阈值时,停止对所述神经网络模型的训练优化。
可选地,还包括:
从视频流中抽取多帧图像作为所述待检测图像;
识别所抽取的多帧图像的行为判断结果,确定所述视频流中的目标对象是否存在第一行为和/或第二行为;其中,所述第一行为至少包括离岗,所述第二行为至少包括睡岗。
本发明还提供一种行为检测设备,包括:
一个或多个处理器;和
存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行所述指令时,使得所述设备执行如上述中任意一项所述的方法。
本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行所述指令时,使得设备执行如上述中任意一项所述的方法。
如上所述,本发明提供一种行为检测方法、系统、计算机设备及机器可读介质,具有以下有益效果:本发明按照预设抽帧频率从视频流中随机抽取一帧或多帧图像;对抽取的这一帧或多帧图像进行人体检测和人体对齐,获取这一帧或多帧图像中的人体框;判断这一帧或多帧图像中满足预设条件的人体框与目标框的交并比值是否低于第一阈值;若低于第一阈值,则认定这一帧或多帧图像中的目标对象存在第一行为,若大于等于第一阈值,则认定这一帧或多帧图像中的目标对象不存在第一行为;其中,满足预设条件的人体框至少包括:与目标框交并比最大的人体框,第一行为包括离岗。针对现有技术存在的问题,本发明提供了一种基于深度特征融合卷积神经网络的行为检测方案,在行为动作检测的全过程中,无需被检测人员进行配合,也无物理侵入,能够带来更好的用户体验。与现有的检测方案相比,本发明可以实时监控,无需行为检测巡视员进行辅助配合,效率更高。而且本发明还能够有效过滤人员短时离岗、趴桌等干扰性行为,具有更高的准确率。同时,本发明使用深度特征融合卷积神经网络,可以单独加入人体框中的头部信息,从而能够有效地规避坐着睡觉时造成的漏检。另外,将本发明中的行为分类检测模型设置在监控摄像头中,可以用一个监控摄像头监控多个工位,从而能够实时监控一个或多个人员是否存在离岗和/或睡岗行为。
附图说明
图1为一实施例提供的行为检测方法的流程示意图;
图2为另一实施例提供的行为检测方法的流程示意图;
图3为一实施例提供的卷积神经网络的结构示意图;
图4为一实施例提供的ResNeXt网络的结构示意图;
图5为一实施例提供的特征融合模块与分类模块的网络结构示意图;
图6为一实施例提供的ROC曲线示意图;
图7为一实施例提供的行为检测系统的硬件结构示意图;
图8为另一实施例提供的行为检测系统的硬件结构示意图;
图9为一实施例提供的终端设备的硬件结构示意图;
图10为另一实施例提供的终端设备的硬件结构示意图。
元件标号说明
M10 图像采集模块
M20 图像框模块
M30 第一行为检测模块
M40 人头框模块
M50 区域图像模块
M60 第二行为检测模块
1100 输入设备
1101 第一处理器
1102 输出设备
1103 第一存储器
1104 通信总线
1200 处理组件
1201 第二处理器
1202 第二存储器
1203 通信组件
1204 电源组件
1205 多媒体组件
1206 音频组件
1207 输入/输出接口
1208 传感器组件
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1至图6所示,本发明提供一种行为检测方法,包括以下步骤:
S100,从视频流中随机抽取一帧或多帧图像作为待检测图像;例如按照预设抽帧频率从一个视频流中随机抽取一帧或多帧图像作为待检测图像,或者按照预设抽帧频率从多个视频流中随机抽取多帧图像作为待检测图像。
S200,对待检测图像进行人体检测和人体对齐,获取待检测图像中的人体框;
S300,判断待检测图像中满足预设条件的人体框与目标框的交并比值是否低于第一阈值,若低于第一阈值,则认定待检测图像中的目标对象存在第一行为,若大于等于第一阈值,则认定待检测图像中的目标对象不存在第一行为;若待检测图像中不存在人体框,则认定目标对象存在第一行为;其中,满足预设条件的人体框至少包括:与目标框交并比最大的人体框。本申请实施例中,目标框可以是驾驶室场景图像、列车值班室场景图像、监控室场景图像、警卫室场景图像、保安室场景图像、工地场景图像等场景图像下的工位框。
本方法针对现有技术存在的问题,提供了一种基于深度特征融合卷积神经网络的行为检测方案,在行为动作检测的全过程中,无需被检测目标对象进行配合,也无物理侵入,能够带来更好的用户体验。与现有的检测方案相比,本方法可以实时监控,无需行为检测巡视员进行辅助配合,效率更高。而且本方法还能够有效过滤用户短时离岗、趴桌等干扰性行为,具有更高的准确率。同时,本方法使用深度特征融合卷积神经网络,可以单独加入人体框中的头部信息,从而能够有效地规避坐着睡觉时造成的漏检。另外,将本方法中的行为分类检测模型设置在监控摄像头中,可以用一个监控摄像头监控多个工位,从而能够实时监控一个或多个目标对应是否存在离岗行为。其中,本方法中的目标对象是位于监控摄像头下的人员。
根据上述记载,在一示例性实施例中,若待检测图像中的目标对象不存在第一行为,则还包括:对该待检测图像进行人体检测和人体对齐,获取该待检测图像中的人体关键点,并根据获取的人体关键点从该待检测图像中的满足预设条件的人体框中截取出人头框;以及基于该待检测图像的人体框坐标、人头框坐标从该待检测图像中获取对应的人体框区域图像、人头框区域图像,并将人体框区域图像和人头框区域图像同时输入至神经网络模型中,利用神经网络模型判断该待检测图像中的目标对象是否存在第二行为。其中,本申请实施例中的第二行为至少包括睡岗行为。根据上述记载,在另一实施例中,还可以在获取待检测图像的同时,获取待检测图像中的人头框。即在本申请中,从待检测图像中获取人头框,既包括在获取待检测图像的同时,获取待检测图像中的人头框;也包括在确定待检测图像中的目标对象不存在第一行为后,再从待检测图像中获取人头框;相当于本申请在获取人头框时,至少存在两种获取途径。
具体地,如图2所示,使用YOLOV3检测器对某帧待检测图像进行人体检测和人体对齐后,得到待检测图像中的人体框、人体框坐标和人体关键点坐标。同时,根据实际目标场景或目标区域的要求,过滤部分不满足实际目标场景或目标区域的人体框。其中,目标场景或目标区域包括但不限于:驾驶室、列车值班室、监控室、警卫室、保安室、工地等。计算待检测图像中的人体框与预设的工位框的交并比值IOU,并将待检测图像中与目标框交并比值IOU最大的人体框记为候选框,根据候选框和人体关键点坐标从该待检测图像中扣取出人头区域图像Head,并将人头区域图像Head的图像尺寸大小调整为128像素*128像素。同时,根据人体框和人体框坐标从待检测图像中获取人体框区域图像Body,并将人体框区域图像Body的图像尺寸大小调整到256像素*256像素。将调整后的人头区域图像Head和人体框区域图像Body同时输入至神经网络模型中进行特征提取、融合与分类,根据分类结果判断该待检测图像中的目标对象是否存在睡岗;其中,目标对象为人。本申请实施例中的神经网络模型由深度特征融合卷积神经网络构成,包括有特征提取单元、特征融合单元和分类单元;利用神经网络模型判断待检测图像中的目标对象是否存在睡岗行为的过程如下:
利用特征提取单元对人头区域图像Head和人体框区域图像Body进行特征提取,分别提取人体框和人脸框的特征,并输出完成特征提取后的特征图Feature Map,作为从待检测图像提取出来的特征图。其中,特征提取单元包含了两个卷积神经网络,用于分别提取人体框和人脸框的特征,每个卷积神经网络具有相同或有相似的结构,卷积神经网络的结构示意图如图3所示。每个卷积神经网络包括多个ResNeXt网络,单个ResNeXt网络的网络结构如图4所示。再利用深度特征融合卷积神经网络中的特征融合单元对人头区域图像的特征图Head Feature Map和人体框区域图像的特征图Body Feature Map进行特征融合,得到融合后的特征图。例如对人头区域图像的特征图Head Feature Map和人体框区域图像的特征图Body Feature Map进行Joint,即分别将人头区域图像的特征图Head Feature Map、人体框区域图像的特征图Body Feature Map看成一个数组集合,然后对这两个数组集合进行合并相加,得到一个合并集合。然后再将融合后的特征图输入至深度特征融合卷积神经网络中分类网络中,通过分类网络输出一个0至1的概率,并根据这个概率判断待检测图像中的目标对象是否存在睡岗行为。例如通过分类网络输出的概率大于0.5,则认定待检测图像中的目标对象存在睡岗行为,如果通过分类网络输出的概率小于0.5,则认定待检测图像中的目标对象不存在睡岗行为。其中,分类网络由全连接网络和softmax函数构成。特征融合单元与分类单元的网络结构示意图如图5所示。
根据上述记载,在一示例性实施例中,还包括将存在睡岗行为的图像记为正例、不存在睡岗行为的图像记为负例;在进行睡岗行为检测时,若将存在睡岗行为的图像检测为负例,则将当次检测结果记为漏检;若将不存在睡岗行为的图像检测为正例,则将当次检测结果记为误检;根据漏检和/或误检结果对应的图像训练优化神经网络模型,降低利用神经网络模型检测睡岗行为时的漏检率和/或误检率。其中,漏检率=漏检次数÷总检测次数;误检率=误检次数÷总检测次数。本申请实施例利用深度学习算法进行睡岗行为检测,可以取得优秀的性能指标;与传统的人工检测睡岗行为的方法相比,本申请实施例可以大幅降低误检率和漏检率。根据所述漏检和/或误检训练优化所述一个或多个神经网络时,若正例的召回率大于第二阈值,以及负例的召回率大于第三阈值,则停止对神经网络模型的优化,并将此时优化后的神经网络模型作为最终进行睡岗行为检测的神经网络模型,并利用最终的神经网络模型对待检测图像进行睡岗检测,确定待检测的图像中是否存在睡岗行为。本申请实施例中第二阈值和第三阈值可以根据实际应用场景进行设置,实际应用场景包括但不限于驾驶室场景、列车值班室场景、监控室场景、警卫室场景、保安室场景、工地场景等。作为示例,例如设置第二阈值为0.9287,第三阈值为0.9934。在本申请实施例中,若正例的召回率recall大于0.9287,且负例的召回率recall大于0.9934时,将此时训练优化后的神经网络模型作为最终进行睡岗行为检测的神经网络模型。
根据上述记载,在一些实施例中,对图像进行人体检测和人体对齐时,不仅可以使用YOLOV3检测器或YOLOV3模型完成,还可以使用其他能够计算出人体框坐标的其他检测模型。另外,特征提取单元也可以替换不同的网络骨架,或者根据增加的训练数据继续训练至再次收敛。其中,本方法中的YOLOV3检测器或YOLOV3模型基于CenterNet网络结构,其端到端可微且不需要非极大值抑制NMS后处理,速度和精度权衡性好。分类神经网络或行为分类模型使用EfficientNet-b2,模型比较小,且具有较高Acc。
如图2至图6所示,在一检测离岗和睡岗行为的具体过程中,有:
步骤一:视频采集。使用一般的监控摄像头进行视频采集,例如用一般的监控摄像头拍摄1080P的视频流。
步骤二:视频抽帧。根据具体场景或岗位的不同要求,按照预先设置的抽帧频率从监控摄像头拍摄的视频流中抽取一帧或多帧图像作为待检测图像。例如,可以按照每秒抽取一帧图像的抽帧频率来从一个或多个视频流中抽取图像,且抽取图像的帧数可以根据实际场景或岗位的要求进行设置。
步骤三:人体检测和对齐。使用YOLOV3检测器对通过抽帧获得的图像进行人体检测和对齐,获得人体框、人体框坐标和人体关键点坐标,并根据预设的阈值,过滤部分人体框。
步骤四:对抽取的某个单帧图像进行离岗行为检测。从该待检测图像中的所有人体框中选择与目标场景下的预设工位框交并比值IOU最大的人体框,记为候选框,并计算候选框与工位框的交并比值IOU是否低于离岗阈值或第一阈值。若低于离岗阈值或第一阈值,则判断该待检测图像中该工位存在离岗行为,即该待检测图像中的目标对象不在预设工位上;若大于等于离岗阈值或第一阈值,则判断该待检测图像中该工位不存在离岗行为,即该待检测图像中的目标对象在预设工位上。如果待检测图像中不存在人体框,则认定目标对象存在离岗行为。
步骤五:若该待检测图像中的目标对象在预设工位上,则还可以对该待检测图像中的目标对象进行睡岗行为检测。具体地,根据候选框和人体关键点坐标从该待检测图像中截取出人头区域图像Head,并将人头区域图像Head的图像尺寸大小调整为128像素*128像素。同时,根据人体框和人体框坐标从该待检测图像中获取人体框区域图像Body,并将人体框区域图像Body的图像尺寸大小调整到256像素*256像素。将调整后的人头区域图像Head和人体框区域图像Body同时输入至神经网络模型进行特征提取、融合与分类,并根据分类结果判断该待检测图像中的目标对象是否存在睡岗;其中,目标对象为人。本申请实施例中的神经网络模型由深度特征融合卷积神经网络构成,包括特征提取单元、特征融合单元和分类单元。利用神经网络模型判断待检测图像中的目标对象是否存在睡岗行为的过程如下:利用特征提取单元对人头区域图像Head和人体框区域图像Body进行特征提取,分别提取人体框区域图像Head和人脸框区域图像Body的特征,并输出完成特征提取后的特征图Feature Map,作为从该待检测图像中提取出来的特征图。其中,特征提取单元包含了两个卷积神经网络,用于分别提取人体框区域图像Body和人脸框区域图像Head的特征,每个卷积神经网络具有相同或有相似的结构,卷积神经网络的结构示意图如图3所示。每个卷积神经网络包括多个ResNeXt网络,单个ResNeXt网络的网络结构如图4所示。再利用深度特征融合卷积神经网络中的特征融合单元对人头区域图像的特征图Head Feature Map和人体框区域图像的特征图Body Feature Map进行特征融合,得到融合后的特征图。例如对人头区域图像的特征图Head Feature Map和人体框区域图像的特征图Body Feature Map进行Joint,即分别将人头区域图像的特征图Head Feature Map、人体框区域图像的特征图BodyFeature Map看成一个数组集合,然后对这两个数组集合进行合并相加,得到一个合并集合。然后再将融合后的特征图输入至深度特征融合卷积神经网络中分类网络中,通过分类网络输出一个0至1的概率,并根据这个概率判断待检测图像中的目标对象是否存在睡岗行为。例如通过分类网络输出的概率大于0.5,则认定待检测图像中的目标对象存在睡岗行为,如果通过分类网络输出的概率小于0.5,则认定待检测图像中的目标对象不存在睡岗行为。其中,分类网络由全连接网络和softmax函数构成,特征融合单元与分类单元的网络结构示意图如图5所示。
步骤六:加入时间滑窗进行综合识别,获得最终监控结果。通过综合若干帧连续图像的判断结果,设置合理的阈值,再进行综合判定,识别出工位上是否存在离岗、睡岗行为。具体地,获取多个单帧图像或多个连续帧图像的行为判断结果,并在加入时间滑窗后对获取的行为判断结果进行识别,确定拍摄的视频流中的目标对象是否存在离岗和/或睡岗行为。
本申请实施例提出了一种新的基于深度特征融合卷积神经网络的离岗睡岗监控方法,首先使用人体检测模型,在监控视频中按一定的抽帧频率截取出一帧或多帧图像;然后使用YOLOV3模型对截取出的图像进行人体检测和对齐,获得人体框和人体关键点,再根据人体框和人体关键点预估人头框。同时,根据人体框坐标和预设的工位坐标的IOU判断单帧图像是否存在离岗,并选择IOU最大的人体框,将人体框和相应的人头框同时输入至神经网络模型中,判断单帧图像是否睡岗。最后加入时间滑窗,根据若干帧图像的判断结果,选取合适的阈值,最终判定监控视频中的值班人员是否存在离岗、睡岗。
根据上述记载,还包括将上述检测过程作为训练深度特征融合卷积神经网络的训练过程,利用一个基于一种深度学习框架进一步开发的训练工具来自动训练深度特征融合卷积神经网络生成行为分类检测模型,即训练生成神经网络模型。该训练工具可以集成多种基本模型架构和预训练权重、多种在线数据增强方式、学习率策略和loss计算公式。将随机抽取的帧图像送入训练工具,训练一个或多个深度特征融合卷积神经网络,生成行为分类检测模型,即生成神经网络模型,同时输出相应指标。由于行为分类检测模型是一个二分类模型,所以本申请实施例会同时输出二分类混淆矩阵。还可以将存在睡岗行为的图像记为正例、不存在睡岗行为的图像记为负例,并对待检测的图像进行行为检测,若将存在睡岗行为的图像检测为负例,则将当次检测结果记为漏检;若将不存在睡岗行为的图像检测为正例,则将当次检测结果记为误检。根据所述漏检和/或误检对应的图像训练优化行为分类检测模型,降低利用行为分类检测模型检测睡岗行为时的漏检和/或误检;或者根据所述漏检和/或误检对应的图像训练优化行为分类检测模型,降低行为分类检测模型的漏检率和/或误检率;其中,行为分类检测模型的漏检率=漏检次数÷总检测次数;行为分类检测模型的误检率=误检次数÷总检测次数。为了提高本申请实施例中行为分类检测模型的识别精度,需要降低负例被误判为正例的可能性,即降低误检率;以及降低正例被误判为负例的可能性,即降低漏检率。所以在保证二分类混淆矩阵中负例的召回率recall要高的同时,正例的精确率precision也要尽可能高。根据输出的混淆矩阵指标,获取出现漏检FN以及误检FP的图像,对其进一步清洗并做数据增强,重新放入训练图像数据集对生成的行为分类检测模型进行训练优化训练,直至指标达标。本申请实施例中,指标达标可以是正例的召回率recall大于0.9287,且负例的召回率recall大于0.9934,将指标达标后的行为分类检测模型作为最终的行为分类检测模型。在测试集上测试行为分类检测模型的二分类性能表现,如表1和图6所示:
表1使用pytorch在gpu上推理结果
Precision Recall F1-score
正例 0.9758(TP) 0.9287(FP) 0.9517
负例 0.9798(FN) 0.9934(TN) 0.9865
根据表1可知,本申请实施例中的行为分类模型的误报率小于1%,且睡岗行为的检出率可以达到92.87%。
作为示例,使用onnx在cpu上推理结果,调整行为分类检测模型质量分的得分阈值为0.2709,在这个阈值以上时判为正例,当FPR值为0.00945,TPR值为0.9364时,调整行为分类检测模型的质量分阈值,使得行为分类检测模型的误报率在0.945%时,其检出率能达到93.64%。其中,TPR=TP/(TP+FN);FPR=FP/(FP+TN)。根据图6可知,本申请实施例中的行为分类检测模型在ROC曲线下的AUC指标达到了0.9882,有着优秀的分类性能。
综上所述,本方法针对现有技术存在的问题,利用深度学习算法进行睡岗和/或离岗行为检测,可以取得优秀的性能指标;与传统的人工检测睡岗和/或离岗行为的方法相比,本方法可以大幅降低误检率和漏检率。本方法提供了一种基于深度特征融合卷积神经网络的行为检测方案,在行为动作检测的全过程中,无需被检测人员进行配合,也无物理侵入,能够带来更好的用户体验。与现有的检测方案相比,本方法可以实时监控,无需行为检测巡视员进行辅助配合,效率更高。而且本方法还能够有效过滤人员短时离岗、趴桌等干扰性行为,具有更高的准确率。同时,本方法使用深度特征融合卷积神经网络,可以单独加入人体框中的头部信息,从而能够有效地规避坐着睡觉时造成的漏检。另外,将本方法中的行为分类检测模型设置在监控摄像头中,可以用一个监控摄像头监控多个工位,从而能够实时监控一个或多个人员是否存在睡岗和/或离岗行为。本方法可以实现对各类值班场景中的离岗、睡岗行为的监控,检测速度快且召回率高,误检率低。相比于传统的离岗、睡岗行为监控方法,在用户体验和效率方面有较大优势。
相比于其他基于深度神经网络模型的方法,例如现有的部分方法是通过一个人体检测神经网络模型,在视频图像上检测出员工人体,将包含人体的小图像输入到一个分类神经网络中,判断其是否在睡岗。这种方法将图像特征依次交给两个模型提取,在训练集足够庞大,场景足够丰富的情况下理论可以达到较高的精度,但在实际应用中会遇到很多问题大幅限制了模型的精度。首先是图像分辨率,即使在1080p甚至2k以上的监控视频中,提取人物区域后所占的像素通常只有100像素*100像素的量级,如果监控角度较高或者人物较远的情况下,会丢失很多细节信息。第二是睡岗的姿态有多种,如趴着睡,躺着睡,仰坐着睡。其中尤其是仰坐睡姿,和正常工作姿态几乎一致,区别在于面部特征细节,而面部相比于整个人物区域所占比重很低,单独的一个分类神经网络很难直接学习到面部特征,使用这种方法推理会导致很高的误报率。而本方法因为时间滑窗的加入,可以综合提示Precision和Recall,可有效降低坐着睡觉等容易混淆情况下的漏检率。同时,本方法中的行为分类检测模型可以在各种场景下复用,部署简便,成本低;并且本方法中行为分类检测模型和分类网络可以分别替换,迭代更新,更实现在不同场景下使用针对性训练的不同模型,灵活性强。另外,本方法相比于其他算法,有低误报率和高精度的特性,可以减少误检和/或漏检带来的成本。
如图7所示,本发明还提供一种行为检测系统,包括有:
图像采集模块M10,用于获取待检测图像;例如按照预设抽帧频率从一个视频流中随机抽取一帧或多帧图像作为待检测图像,或者按照预设抽帧频率从多个视频流中随机抽取多帧图像作为待检测图像;
图像框模块M20,用于从待检测图像中获取人体框;例如对待检测图像进行人体检测和人体对齐,获取待检测图像中的人体框;
第一行为检测模块M30,用于判断待检测图像中满足预设条件的人体框与目标框的交并比值是否低于第一阈值,若低于第一阈值,则认定待检测图像中的目标对象存在第一行为,若大于等于第一阈值,则认定待检测图像中的目标对象不存在第一行为;若待检测图像中不存在人体框,则认定目标对象存在第一行为;其中,满足预设条件的人体框至少包括:与目标框交并比最大的人体框。
本系统针对现有技术存在的问题,提供了一种基于深度特征融合卷积神经网络的行为检测方案,在行为动作检测的全过程中,无需被检测目标对象进行配合,也无物理侵入,能够带来更好的用户体验。与现有的检测方案相比,本系统可以实时监控,无需行为检测巡视员进行辅助配合,效率更高。而且本系统还能够有效过滤用户短时离岗、趴桌等干扰性行为,具有更高的准确率。同时,本系统使用深度特征融合卷积神经网络,可以单独加入人体框中的头部信息,从而能够有效地规避坐着睡觉时造成的漏检。另外,将本系统中的行为分类检测模型设置在监控摄像头中,可以用一个监控摄像头监控多个工位,从而能够实时监控一个或多个目标对应是否存在睡岗和/或离岗行为。其中,本系统中的目标对象是位于监控摄像头下的人员。
根据上述记载,如图8所示,在一示例性实施例中,还包括:
人头框模块M40,用于从待检测图像中获取人头框,或者,用于在获取待检测图像的同时,获取待检测图像中的人头框;
区域图像模块M50,用于根据人体框的坐标、人头框的坐标从待检测图像中获取对应的人体框区域图像、人头框区域图像;
第二行为检测模块M60,将人体框区域图像和人头框区域图像同时输入至神经网络模型中,判断待检测图像中的目标对象是否存在第二行为。其中,本申请实施例中的第二行为至少包括睡岗行为。根据上述记载,在本申请中,从待检测图像中获取人头框,既包括在获取待检测图像的同时,获取待检测图像中的人头框;也包括在确定待检测图像中的目标对象不存在第一行为后,再从待检测图像中获取人头框;相当于本申请在获取人头框时,至少存在两种获取途径。
具体地,如图2所示,使用YOLOV3检测器对某帧待检测图像进行人体检测和人体对齐后,得到待检测图像中的人体框、人体框坐标和人体关键点坐标。同时,根据实际目标场景或目标区域的要求,过滤部分不满足实际目标场景或目标区域的人体框。其中,目标场景或目标区域包括但不限于:驾驶室、列车值班室、监控室、警卫室、保安室、工地等。计算待检测图像中的人体框与预设的工位框的交并比值IOU,并将待检测图像中与目标框交并比值IOU最大的人体框记为候选框,根据候选框和人体关键点坐标从该待检测图像中扣取出人头区域图像Head,并将人头区域图像Head的图像尺寸大小调整为128像素*128像素。同时,根据人体框和人体框坐标从待检测图像中获取人体框区域图像Body,并将人体框区域图像Body的图像尺寸大小调整到256像素*256像素。将调整后的人头区域图像Head和人体框区域图像Body同时输入至神经网络模型中进行特征提取、融合与分类,根据分类结果判断该待检测图像中的目标对象是否存在睡岗;其中,目标对象为人。本申请实施例中的神经网络模型由深度特征融合卷积神经网络构成,包括有特征提取单元、特征融合单元和分类单元;利用神经网络模型判断待检测图像中的目标对象是否存在睡岗行为的过程如下:
利用特征提取单元对人头区域图像Head和人体框区域图像Body进行特征提取,分别提取人体框和人脸框的特征,并输出完成特征提取后的特征图Feature Map,作为从待检测图像提取出来的特征图。其中,特征提取单元包含了两个卷积神经网络,用于分别提取人体框和人脸框的特征,每个卷积神经网络具有相同或有相似的结构,卷积神经网络的结构示意图如图3所示。每个卷积神经网络包括多个ResNeXt网络,单个ResNeXt网络的网络结构如图4所示,本申请实施例中的ResNeXt Block基于ResNeXt网络的building blocks结构改进而成。再利用深度特征融合卷积神经网络中的特征融合单元对人头区域图像的特征图Head Feature Map和人体框区域图像的特征图Body Feature Map进行特征融合,得到融合后的特征图。例如对人头区域图像的特征图Head Feature Map和人体框区域图像的特征图Body Feature Map进行Joint,即分别将人头区域图像的特征图Head Feature Map、人体框区域图像的特征图Body Feature Map看成一个数组集合,然后对这两个数组集合进行合并相加,得到一个合并集合。然后再将融合后的特征图输入至深度特征融合卷积神经网络中分类网络中,通过分类网络输出一个0至1的概率,并根据这个概率判断待检测图像中的目标对象是否存在睡岗行为。例如通过分类网络输出的概率大于0.5,则认定待检测图像中的目标对象存在睡岗行为,如果通过分类网络输出的概率小于0.5,则认定待检测图像中的目标对象不存在睡岗行为。其中,分类网络由全连接网络和softmax函数构成。特征融合单元与分类单元的网络结构示意图如图5所示。
根据上述记载,在一示例性实施例中,还包括将存在睡岗行为的图像记为正例、不存在睡岗行为的图像记为负例;在进行睡岗行为检测时,若将存在睡岗行为的图像检测为负例,则将当次检测结果记为漏检;若将不存在睡岗行为的图像检测为正例,则将当次检测结果记为误检;根据漏检和/或误检结果对应的图像训练优化神经网络模型,降低利用神经网络模型检测睡岗行为时的漏检率和/或误检率。其中,漏检率=漏检次数÷总检测次数;误检率=误检次数÷总检测次数。本申请实施例利用深度学习算法进行睡岗行为检测,可以取得优秀的性能指标;与传统的人工检测睡岗行为的方法相比,本申请实施例可以大幅降低误检率和漏检率。根据所述漏检和/或误检训练优化所述一个或多个神经网络时,若正例的召回率大于第二阈值,以及负例的召回率大于第三阈值,则停止对神经网络模型的优化,并将此时优化后的神经网络模型作为最终进行睡岗行为检测的神经网络模型,并利用最终的神经网络模型对待检测图像进行睡岗检测,确定待检测的图像中是否存在睡岗行为。本申请实施例中第二阈值和第三阈值可以根据实际应用场景进行设置,实际应用场景包括但不限于驾驶室场景、列车值班室场景、监控室场景、警卫室场景、保安室场景、工地场景等。作为示例,例如设置第二阈值为0.9287,第三阈值为0.9934。在本申请实施例中,若正例的召回率recall大于0.9287,且负例的召回率recall大于0.9934时,将此时训练优化后的神经网络模型作为最终进行睡岗行为检测的神经网络模型。
根据上述记载,在一些实施例中,对图像进行人体检测和人体对齐时,不仅可以使用YOLOV3检测器或YOLOV3模型完成,还可以使用其他能够计算出人体框坐标的其他检测模型。另外,特征提取单元也可以替换不同的网络骨架,或者根据增加的训练数据继续训练至再次收敛。其中,本系统中的YOLOV3检测器或YOLOV3模型基于CenterNet网络结构,其端到端可微且不需要非极大值抑制NMS后处理,速度和精度权衡性好。分类神经网络或行为分类模型使用EfficientNet-b2,模型比较小,且具有较高Acc。
如图2至图6所示,在一检测离岗和睡岗行为的具体过程中,有:
步骤一:视频采集。使用一般的监控摄像头进行视频采集,例如用一般的监控摄像头拍摄1080P的视频流。
步骤二:视频抽帧。根据具体场景或岗位的不同要求,按照预先设置的抽帧频率从监控摄像头拍摄的视频流中抽取一帧或多帧图像作为待检测图像。例如,可以按照每秒抽取一帧图像的抽帧频率来从一个或多个视频流中抽取图像,且抽取图像的帧数可以根据实际场景或岗位的要求进行设置。
步骤三:人体检测和对齐。使用YOLOV3检测器对通过抽帧获得的图像进行人体检测和对齐,获得人体框、人体框坐标和人体关键点坐标,并根据预设的阈值,过滤部分人体框。
步骤四:对抽取的某个单帧图像进行离岗行为检测。从该待检测图像中的所有人体框中选择与目标场景下的预设工位框交并比值IOU最大的人体框,记为候选框,并计算候选框与工位框的交并比值IOU是否低于离岗阈值或第一阈值。若低于离岗阈值或第一阈值,则判断该待检测图像中该工位存在离岗行为,即该待检测图像中的目标对象不在预设工位上;若大于等于离岗阈值或第一阈值,则判断该待检测图像中该工位不存在离岗行为,即该待检测图像中的目标对象在预设工位上。如果待检测图像中不存在人体框,则认定目标对象存在离岗行为。
步骤五:若该待检测图像中的目标对象在预设工位上,则还可以对该待检测图像中的目标对象进行睡岗行为检测。具体地,根据候选框和人体关键点坐标从该待检测图像中截取出人头区域图像Head,并将人头区域图像Head的图像尺寸大小调整为128像素*128像素。同时,根据人体框和人体框坐标从该待检测图像中获取人体框区域图像Body,并将人体框区域图像Body的图像尺寸大小调整到256像素*256像素。将调整后的人头区域图像Head和人体框区域图像Body同时输入至神经网络模型进行特征提取、融合与分类,并根据分类结果判断该待检测图像中的目标对象是否存在睡岗;其中,目标对象为人。本申请实施例中的神经网络模型由深度特征融合卷积神经网络构成,包括特征提取单元、特征融合单元和分类单元。利用神经网络模型判断待检测图像中的目标对象是否存在睡岗行为的过程如下:利用特征提取单元对人头区域图像Head和人体框区域图像Body进行特征提取,分别提取人体框区域图像Head和人脸框区域图像Body的特征,并输出完成特征提取后的特征图Feature Map,作为从该待检测图像中提取出来的特征图。其中,特征提取单元包含了两个卷积神经网络,用于分别提取人体框区域图像Body和人脸框区域图像Head的特征,每个卷积神经网络具有相同或有相似的结构,卷积神经网络的结构示意图如图3所示。每个卷积神经网络包括多个ResNeXt网络,单个ResNeXt网络的网络结构如图4所示,本申请实施例中的ResNeXt Block基于ResNeXt网络的building blocks结构改进而成。再利用深度特征融合卷积神经网络中的特征融合单元对人头区域图像的特征图Head Feature Map和人体框区域图像的特征图Body Feature Map进行特征融合,得到融合后的特征图。例如对人头区域图像的特征图Head Feature Map和人体框区域图像的特征图Body Feature Map进行Joint,即分别将人头区域图像的特征图Head Feature Map、人体框区域图像的特征图BodyFeature Map看成一个数组集合,然后对这两个数组集合进行合并相加,得到一个合并集合。然后再将融合后的特征图输入至深度特征融合卷积神经网络中分类网络中,通过分类网络输出一个0至1的概率,并根据这个概率判断待检测图像中的目标对象是否存在睡岗行为。例如通过分类网络输出的概率大于0.5,则认定待检测图像中的目标对象存在睡岗行为,如果通过分类网络输出的概率小于0.5,则认定待检测图像中的目标对象不存在睡岗行为。其中,分类网络由全连接网络和softmax函数构成,特征融合单元与分类单元的网络结构示意图如图5所示。
步骤六:加入时间滑窗进行综合识别,获得最终监控结果。通过综合若干帧连续图像的判断结果,设置合理的阈值,再进行综合判定,识别出工位上是否存在离岗、睡岗行为。具体地,获取多个单帧图像或多个连续帧图像的行为判断结果,并在加入时间滑窗后对获取的行为判断结果进行识别,确定拍摄的视频流中的目标对象是否存在离岗和/或睡岗行为。
本申请实施例提出了一种新的基于深度特征融合卷积神经网络的离岗睡岗监控系统,首先使用人体检测模型,在监控视频中按一定的抽帧频率截取出一帧或多帧图像;然后使用YOLOV3模型对截取出的图像进行人体检测和对齐,获得人体框和人体关键点,再根据人体框和人体关键点预估人头框。同时,根据人体框坐标和预设的工位坐标的IOU判断单帧图像是否存在离岗,并选择IOU最大的人体框,将人体框和相应的人头框同时输入至神经网络模型中,判断单帧图像是否睡岗。最后加入时间滑窗,根据若干帧图像的判断结果,选取合适的阈值,最终判定监控视频中的值班人员是否存在离岗、睡岗。
根据上述记载,还包括将上述检测过程作为训练深度特征融合卷积神经网络的训练过程,利用一个基于一种深度学习框架进一步开发的训练工具来自动训练深度特征融合卷积神经网络生成行为分类检测模型,即训练生成神经网络模型。该训练工具可以集成多种基本模型架构和预训练权重、多种在线数据增强方式、学习率策略和loss计算公式。将随机抽取的帧图像送入训练工具,训练一个或多个深度特征融合卷积神经网络,生成行为分类检测模型,即生成神经网络模型,同时输出相应指标。由于行为分类检测模型是一个二分类模型,所以本申请实施例会同时输出二分类混淆矩阵。还可以将存在睡岗行为的图像记为正例、不存在睡岗行为的图像记为负例,并对待检测的图像进行行为检测,若将存在睡岗行为的图像检测为负例,则将当次检测结果记为漏检;若将不存在睡岗行为的图像检测为正例,则将当次检测结果记为误检。根据所述漏检和/或误检对应的图像训练优化行为分类检测模型,降低利用行为分类检测模型检测睡岗行为时的漏检和/或误检;或者根据所述漏检和/或误检对应的图像训练优化行为分类检测模型,降低行为分类检测模型的漏检率和/或误检率;其中,行为分类检测模型的漏检率=漏检次数÷总检测次数;行为分类检测模型的误检率=误检次数÷总检测次数。为了提高本申请实施例中行为分类检测模型的识别精度,需要降低负例被误判为正例的可能性,即降低误检率;以及降低正例被误判为负例的可能性,即降低漏检率。所以在保证二分类混淆矩阵中负例的召回率recall要高的同时,正例的精确率precision也要尽可能高。根据输出的混淆矩阵指标,获取出现漏检FN以及误检FP的图像,对其进一步清洗并做数据增强,重新放入训练图像数据集对生成的行为分类检测模型进行训练优化训练,直至指标达标。本申请实施例中,指标达标可以是正例的召回率recall大于0.9287,且负例的召回率recall大于0.9934,将指标达标后的行为分类检测模型作为最终的行为分类检测模型。在测试集上测试行为分类检测模型的二分类性能表现,如表1和图6所示:
表2使用pytorch在gpu上推理结果
Precision Recall F1-score
正例 0.9758(TP) 0.9287(FP) 0.9517
负例 0.9798(FN) 0.9934(TN) 0.9865
根据表2可知,本申请实施例中的行为分类模型的误报率小于1%,且睡岗行为的检出率可以达到92.87%。
作为示例,使用onnx在cpu上推理结果,调整行为分类检测模型质量分的得分阈值为0.2709,在这个阈值以上时判为正例,当FPR值为0.00945,TPR值为0.9364时,调整行为分类检测模型的质量分阈值,使得行为分类检测模型的误报率在0.945%时,其检出率能达到93.64%。其中,TPR=TP/(TP+FN);FPR=FP/(FP+TN)。根据图6可知,本申请实施例中的行为分类检测模型在ROC曲线下的AUC指标达到了0.9882,有着优秀的分类性能。
综上所述,本系统针对现有技术存在的问题,利用深度学习算法进行睡岗和/或离岗行为检测,可以取得优秀的性能指标;与传统的人工检测睡岗和/或离岗行为的方法相比,本系统可以大幅降低误检率和漏检率。本系统提供了一种基于深度特征融合卷积神经网络的行为检测方案,在行为动作检测的全过程中,无需被检测人员进行配合,也无物理侵入,能够带来更好的用户体验。与现有的检测方案相比,本系统可以实时监控,无需行为检测巡视员进行辅助配合,效率更高。而且本系统还能够有效过滤人员短时离岗、趴桌等干扰性行为,具有更高的准确率。同时,本系统使用深度特征融合卷积神经网络,可以单独加入人体框中的头部信息,从而能够有效地规避坐着睡觉时造成的漏检。另外,将本系统中的行为分类检测模型设置在监控摄像头中,可以用一个监控摄像头监控多个工位,从而能够实时监控一个或多个人员是否存在睡岗和/或离岗行为。本系统可以实现对各类值班场景中的离岗、睡岗行为的监控,检测速度快且召回率高,误检率低。相比于传统的离岗、睡岗行为监控方法,在用户体验和效率方面有较大优势。
相比于其他基于深度神经网络模型的方法,例如现有的部分方法是通过一个人体检测神经网络模型,在视频图像上检测出员工人体,将包含人体的小图像输入到一个分类神经网络中,判断其是否在睡岗。这种方法将图像特征依次交给两个模型提取,在训练集足够庞大,场景足够丰富的情况下理论可以达到较高的精度,但在实际应用中会遇到很多问题大幅限制了模型的精度。首先是图像分辨率,即使在1080p甚至2k以上的监控视频中,提取人物区域后所占的像素通常只有100像素*100像素的量级,如果监控角度较高或者人物较远的情况下,会丢失很多细节信息。第二是睡岗的姿态有多种,如趴着睡,躺着睡,仰坐着睡。其中尤其是仰坐睡姿,和正常工作姿态几乎一致,区别在于面部特征细节,而面部相比于整个人物区域所占比重很低,单独的一个分类神经网络很难直接学习到面部特征,使用这种方法推理会导致很高的误报率。而本系统因为时间滑窗的加入,可以综合提示Precision和Recall,可有效降低坐着睡觉等容易混淆情况下的漏检率。同时,本系统中的行为分类检测模型可以在各种场景下复用,部署简便,成本低;并且本系统中行为分类检测模型和分类网络可以分别替换,迭代更新,更实现在不同场景下使用针对性训练的不同模型,灵活性强。另外,本系统相比于其他算法,有低误报率和高精度的特性,可以减少误检和/或漏检带来的成本。
本申请实施例还提供了一种计算机设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中数据处理方法所包含步骤的指令(instructions)。
图9为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图10为本申请的另一个实施例提供的终端设备的硬件结构示意图。图10是对图9在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,音频组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述图1所示方法的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件1206被配置为输出和/或输入语音信号。例如,音频组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,音频组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图10实施例中所涉及的通信组件1203、音频组件1206以及输入/输出接口1207、传感器组件1208均可以作为图9实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (12)

1.一种行为检测方法,其特征在于,包括以下步骤:
获取待检测图像,并从所述待检测图像中获取人体框;
判断所述待检测图像中满足预设条件的人体框与目标框的交并比值是否低于第一阈值,若低于第一阈值,则认定所述待检测图像中的目标对象存在第一行为,若大于等于第一阈值则认定所述待检测图像中的目标对象不存在第一行为;若所述待检测图像中不存在人体框,则认定目标对象存在第一行为。
2.根据权利要求1所述的行为检测方法,其特征在于,若所述待检测图像中的目标对象不存在第一行为,则还包括:
基于人体框的坐标、从所述待检测图像中获取的人头框的坐标从所述待检测图像中获取对应的人体框区域图像、人头框区域图像;
将所述人体框区域图像和所述人头框区域图像同时输入至神经网络模型中,判断所述待检测图像中的目标对象是否存在第二行为。
3.根据权利要求2所述的行为检测方法,其特征在于,若所述神经网络模型包括:卷积神经网络、全连接网络和softmax函数,则判断所述待检测图像中的目标对象是否存在第二行为的过程包括:
利用所述卷积神经网络对所述人体框区域图像和所述人头区域图像进行特征提取,得到多个特征图;
对所述多个特征图进行特征合并,并利用所述全连接网络和所述softmax函数对合并后的特征图进行分类,获取分类结果;所述分类结果包括:所述待检测图像中的目标对象存在第二行为、所述待检测图像中的目标对象不存在第二行为。
4.根据权利要求2或3所述的行为检测方法,其特征在于,还包括将存在第二行为的图像记为正例、不存在第二行为的图像记为负例;
若将存在第二行为的图像检测为负例,则将当次检测结果记为漏检;若将不存在第二行为的图像检测为正例,则将当次检测结果记为误检;
利用所述漏检和/或误检对应的图像训练优化所述神经网络模型,并在所述正例的召回率大于第二阈值以及所述负例的召回率大于第三阈值时,停止对所述神经网络模型的训练优化。
5.根据权利要求2或3所述的行为检测方法,其特征在于,还包括:
从视频流中抽取多帧图像作为所述待检测图像;
识别所抽取的多帧图像的行为判断结果,确定所述视频流中的目标对象是否存在第一行为和/或第二行为;其中,所述第一行为至少包括离岗,所述第二行为至少包括睡岗。
6.一种行为检测系统,其特征在于,包括有:
图像采集模块,用于获取待检测图像;
图像框模块,用于从所述待检测图像中获取人体框;
第一行为检测模块,用于判断所述待检测图像中满足预设条件的人体框与目标框的交并比值是否低于第一阈值,若低于第一阈值,则认定所述待检测图像中的目标对象存在第一行为,若大于等于第一阈值,则认定所述待检测图像中的目标对象不存在第一行为;若所述待检测图像中不存在人体框,则认定目标对象存在第一行为。
7.根据权利要求6所述的行为检测系统,其特征在于,还包括:
区域图像模块,用于根据人体框的坐标、从所述待检测图像中获取的人头框的坐标从所述待检测图像中获取对应的人体框区域图像、人头框区域图像;
第二行为检测模块,将所述人体框区域图像和所述人头框区域图像同时输入至神经网络模型中,判断所述待检测图像中的目标对象是否存在第二行为。
8.根据权利要求7所述的行为检测系统,其特征在于,若所述神经网络模型包括:卷积神经网络、全连接网络和softmax函数,则所述第二行为检测模块判断所述待检测图像中的目标对象是否存在第二行为的过程包括:
利用所述卷积神经网络对所述人体框区域图像和所述人头区域图像进行特征提取,得到多个特征图;
对所述多个特征图进行特征合并,并利用所述全连接网络和所述softmax函数对合并后的特征图进行分类,获取分类结果;所述分类结果包括:所述待检测图像中的目标对象存在第二行为、所述待检测图像中的目标对象不存在第二行为。
9.根据权利要求7或8所述的行为检测系统,其特征在于,还包括将存在第二行为的图像记为正例、不存在第二行为的图像记为负例;
若将存在第二行为的图像检测为负例,则将当次检测结果记为漏检;若将不存在第二行为的图像检测为正例,则将当次检测结果记为误检;
利用所述漏检和/或误检对应的图像训练优化所述神经网络模型,并在所述正例的召回率大于第二阈值以及所述负例的召回率大于第三阈值时,停止对所述神经网络模型的训练优化。
10.根据权利要求7或8所述的行为检测系统,其特征在于,还包括:
从视频流中抽取多帧图像作为所述待检测图像;
识别所抽取的多帧图像的行为判断结果,确定所述视频流中的目标对象是否存在第一行为和/或第二行为;其中,所述第一行为至少包括离岗,所述第二行为至少包括睡岗。
11.一种计算机设备,其特征在于,包括:
一个或多个处理器;和
存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行所述指令时,使得所述设备执行如权利要求1-5中任意一项所述的方法。
12.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行所述指令时,使得设备执行如权利要求1-5中任意一项所述的方法。
CN202110387220.4A 2021-04-09 2021-04-09 一种行为检测方法、系统、计算机设备及机器可读介质 Pending CN113052127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110387220.4A CN113052127A (zh) 2021-04-09 2021-04-09 一种行为检测方法、系统、计算机设备及机器可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110387220.4A CN113052127A (zh) 2021-04-09 2021-04-09 一种行为检测方法、系统、计算机设备及机器可读介质

Publications (1)

Publication Number Publication Date
CN113052127A true CN113052127A (zh) 2021-06-29

Family

ID=76518992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110387220.4A Pending CN113052127A (zh) 2021-04-09 2021-04-09 一种行为检测方法、系统、计算机设备及机器可读介质

Country Status (1)

Country Link
CN (1) CN113052127A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657150A (zh) * 2021-07-07 2021-11-16 浙江大华技术股份有限公司 一种跌倒检测方法、装置和计算机可读存储介质
CN113822259A (zh) * 2021-11-24 2021-12-21 深圳市万物云科技有限公司 一种离岗检测方法、装置、计算机设备及存储介质
CN115346169A (zh) * 2022-08-08 2022-11-15 航天神舟智慧系统技术有限公司 一种睡岗行为检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711320A (zh) * 2018-12-24 2019-05-03 兴唐通信科技有限公司 一种值班人员违规行为检测方法及系统
CN110348312A (zh) * 2019-06-14 2019-10-18 武汉大学 一种区域视频人体动作行为实时识别方法
CN110516538A (zh) * 2019-07-16 2019-11-29 广州中科凯泽科技有限公司 基于深度学习目标检测的监狱双人离岗违规评估方法
US20200184968A1 (en) * 2017-04-24 2020-06-11 Lg Electronics Inc. Artificial intelligence device
WO2020164282A1 (zh) * 2019-02-14 2020-08-20 平安科技(深圳)有限公司 基于yolo的图像目标识别方法、装置、电子设备和存储介质
CN112001230A (zh) * 2020-07-09 2020-11-27 浙江大华技术股份有限公司 睡觉行为的监控方法、装置、计算机设备和可读存储介质
CN112560649A (zh) * 2020-12-09 2021-03-26 广州云从鼎望科技有限公司 一种行为动作检测方法、系统、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184968A1 (en) * 2017-04-24 2020-06-11 Lg Electronics Inc. Artificial intelligence device
CN109711320A (zh) * 2018-12-24 2019-05-03 兴唐通信科技有限公司 一种值班人员违规行为检测方法及系统
WO2020164282A1 (zh) * 2019-02-14 2020-08-20 平安科技(深圳)有限公司 基于yolo的图像目标识别方法、装置、电子设备和存储介质
CN110348312A (zh) * 2019-06-14 2019-10-18 武汉大学 一种区域视频人体动作行为实时识别方法
CN110516538A (zh) * 2019-07-16 2019-11-29 广州中科凯泽科技有限公司 基于深度学习目标检测的监狱双人离岗违规评估方法
CN112001230A (zh) * 2020-07-09 2020-11-27 浙江大华技术股份有限公司 睡觉行为的监控方法、装置、计算机设备和可读存储介质
CN112560649A (zh) * 2020-12-09 2021-03-26 广州云从鼎望科技有限公司 一种行为动作检测方法、系统、设备及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657150A (zh) * 2021-07-07 2021-11-16 浙江大华技术股份有限公司 一种跌倒检测方法、装置和计算机可读存储介质
CN113822259A (zh) * 2021-11-24 2021-12-21 深圳市万物云科技有限公司 一种离岗检测方法、装置、计算机设备及存储介质
CN113822259B (zh) * 2021-11-24 2022-03-15 深圳市万物云科技有限公司 一种离岗检测方法、装置、计算机设备及存储介质
CN115346169A (zh) * 2022-08-08 2022-11-15 航天神舟智慧系统技术有限公司 一种睡岗行为检测方法及系统

Similar Documents

Publication Publication Date Title
CN113052127A (zh) 一种行为检测方法、系统、计算机设备及机器可读介质
EP3916627A1 (en) Living body detection method based on facial recognition, and electronic device and storage medium
Hsieh et al. A real time hand gesture recognition system using motion history image
WO2018028546A1 (zh) 一种关键点的定位方法及终端、计算机存储介质
CN110659397B (zh) 一种行为检测方法、装置、电子设备和存储介质
CN103164022B (zh) 多指触摸方法和装置、便携式终端设备
CN110476141A (zh) 视线跟踪方法及用于执行该方法的用户终端
CN105940434A (zh) 信息处理装置、信息处理方法及程序
CN108875667B (zh) 目标识别方法、装置、终端设备和存储介质
CN111209811B (zh) 一种实时检测眼球注意力位置的方法及系统
CN109934182A (zh) 对象行为分析方法、装置、电子设备及计算机存储介质
CN112560649A (zh) 一种行为动作检测方法、系统、设备及介质
CN113076903A (zh) 一种目标行为检测方法、系统、计算机设备及机器可读介质
CN106341659A (zh) 监控图像中重点监控区域的选取方法及装置
CN113411542A (zh) 一种智能化的工作状况监测设备
CN111814587A (zh) 人体行为检测方法、教师行为检测方法及相关系统和装置
CN112101123A (zh) 一种注意力检测方法及装置
CN110147752A (zh) 运动检测处理方法、装置、电子设备和存储介质
CN115798047A (zh) 行为识别方法和装置、电子设备、计算机可读存储介质
CN111339943A (zh) 一种对象管理方法、系统、平台、设备及介质
CN111402096A (zh) 一种在线授课质量管理方法、系统、设备和介质
CN114898443A (zh) 一种人脸数据获取方法及装置
CN111241926A (zh) 考勤与学情分析方法、系统、设备及可读存储介质
CN113869115A (zh) 一种人脸图像处理的方法及系统
CN112580472A (zh) 一种快速轻量的人脸识别方法、装置、机器可读介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination