CN112560649A - 一种行为动作检测方法、系统、设备及介质 - Google Patents

一种行为动作检测方法、系统、设备及介质 Download PDF

Info

Publication number
CN112560649A
CN112560649A CN202011448674.XA CN202011448674A CN112560649A CN 112560649 A CN112560649 A CN 112560649A CN 202011448674 A CN202011448674 A CN 202011448674A CN 112560649 A CN112560649 A CN 112560649A
Authority
CN
China
Prior art keywords
behavior
image
classification model
detection
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011448674.XA
Other languages
English (en)
Inventor
俞思诚
赵童
吴凡
刘航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yuncong Dingwang Technology Co Ltd
Original Assignee
Guangzhou Yuncong Dingwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yuncong Dingwang Technology Co Ltd filed Critical Guangzhou Yuncong Dingwang Technology Co Ltd
Priority to CN202011448674.XA priority Critical patent/CN112560649A/zh
Publication of CN112560649A publication Critical patent/CN112560649A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种行为动作检测方法、系统、设备及介质,通过从视频流中截取一帧或多帧图像;对一帧或多帧图像进行人体框标注和行为类别标注,并按照标注的人体框坐标从一帧或多帧图像中裁剪出对应的图像区域;将裁剪出的带人体框标注和行为类别标注的图像区域作为训练数据,并基于训练数据训练分类神经网络,生成行为分类模型;利用行为分类模型对待检测的图像进行检测,确定待检测的图像中是否存在目标行为动作。本发明利用深度学习算法进行翻越行为检测,可以大幅降低误检率和漏检率。并且本发明能够应用在多个场景中,可以针对人在栏杆附近的行为进行针对性学习区分,更精确地判断人是扶着栏杆还是正在翻越,使本发明的误报率能够小于1%。

Description

一种行为动作检测方法、系统、设备及介质
技术领域
本发明涉及图像识别技术领域,特别是涉及一种行为动作检测方法、系统、设备及介质。
背景技术
传统的翻越行为检测通常依赖于人工操作,需要利用人员现场值守来判断是否存在翻越行为,但该方法有很大局限性,例如对人力资源需求大,管理成本高,工作效率低下,且人的观察范围有限,精力有限,检测准确性十分依赖于精神集中度等主观因素。此外也有专门人员值守观察监控方法,同时负责多个监控,虽然效率高于现场值守方法,但也受限于人的主观能力。
随着社会经济和科学技术发展,人力检测的方法相比于其他自动检测方法缺点越发明显。例如现有技术提供有翻越检测方法,这些方法的思路是在栏杆或者围墙上,安装例如红外、微波等感应装置,导致这种方法设备成本和安装成本非常高,并且迁移性差,在很多场合下难以落地应用。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种行为动作检测方法、系统、设备及介质,用于解决现有技术中采用人工检测翻越行为动作时存在的技术问题。
为实现上述目的及其他相关目的,本发明提供一种行为动作检测方法,包括以下步骤:
从视频流中截取一帧或多帧图像;
对所述一帧或多帧图像进行人体框标注和行为类别标注,并按照标注的人体框坐标从所述一帧或多帧图像中裁剪出对应的图像区域;
将裁剪出的带人体框标注和行为类别标注的图像区域作为训练数据,并基于所述训练数据训练分类神经网络,生成行为分类模型;
利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在目标行为动作。
可选地,所述目标行为动作包括以下至少之一:翻越行为动作、爬行行为动作。
可选地,还包括将存在翻越行为动作的图像记为正例、不存在翻越行为动作的图像记为反例;
利用所述行为分类模型对待检测的图像进行检测时,若所述行为分类模型将存在翻越行为动作的图像检测为反例,则将所述行为分类模型的当次检测结果记为漏检;若所述行为分类模型将不存在翻越行为动作的图像检测为正例,则将所述行为分类模型的当次检测结果记为误检;
根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检和/或误检。
可选地,根据所述漏检和/或误检迭代优化所述行为分类模型,若所述正例的召回率大于第一阈值,以及所述负例的召回率大于第二阈值时,停止对所述行为分类模型的优化,并将此时的行为分类模型作为最终的行为分类模型;
利用最终的行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作。
可选地,利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作,包括:
将待检测的图像输入至人体检测工具包中,通过所述人体检测工具包将待检测图像的尺寸调整至目标尺寸后进行推理,返回所有人体在待检测的图像上的人体框坐标和对应的置信度;其中,所述人体检测工具包括有用于获取人体框坐标和对应置信度的人体检测模型和/或人体关键点模型;
按照人体框坐标从待检测的图像中裁剪出置信度大于预设阈值的人体框图像区域;
利用所述行为分类模型对裁剪出的人体框图像区域进行翻越行为动作检测,并将检测结果与人体框坐标进行结合后在所述待检测的图像上进行标注,确定所述待检测的图像中是否存在翻越行为动作。
可选地,还包括对所述训练数据进行离线增强,所述增强方式包括以下至少之一:
对带人体框标注和行为类别标注的图像区域进行旋转、对带人体框标注和行为类别标注的图像区域进行错切、对带人体框标注和行为类别标注的图像区域进行翻转、对带人体框标注和行为类别标注的图像区域进行色彩调整、对带人体框标注和行为类别标注的图像区域进行色调分离、对带人体框标注和行为类别标注的图像区域进行曝光度调整、对带人体框标注和行为类别标注的图像区域进行对比度调整、对带人体框标注和行为类别标注的图像区域进行亮度调整、对带人体框标注和行为类别标注的图像区域进行锐化。
本发明还提供一种行为动作检测系统,包括有:
采集模块,用于从视频流中截取一帧或多帧图像;
标注模块,用于对所述一帧或多帧图像进行人体框标注和行为类别标注;
裁剪模块,用于按照标注的人体框坐标从所述一帧或多帧图像中裁剪出对应的图像区域;
训练模块,用于将裁剪出的带人体框标注和行为类别标注的图像区域作为训练数据,并基于所述训练数据训练分类神经网络,生成行为分类模型;
检测模块,用于利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在目标行为动作。
可选地,所述目标行为动作包括以下至少之一:翻越行为动作、爬行行为动作。
可选地,还包括将存在翻越行为动作的图像记为正例、不存在翻越行为动作的图像记为反例;
利用所述行为分类模型对待检测的图像进行检测时,若所述行为分类模型将存在翻越行为动作的图像检测为反例,则将所述行为分类模型的当次检测结果记为漏检;若所述行为分类模型将不存在翻越行为动作的图像检测为正例,则将所述行为分类模型的当次检测结果记为误检;
根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检和/或误检。
可选地,根据所述漏检和/或误检迭代优化所述行为分类模型,若所述正例的召回率大于第一阈值,以及所述负例的召回率大于第二阈值时,停止对所述行为分类模型的优化,并将此时的行为分类模型作为最终的行为分类模型;
利用最终的行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作。
可选地,利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作,包括:
将待检测的图像输入至人体检测工具包中,通过所述人体检测工具包将待检测图像的尺寸调整至目标尺寸后进行推理,返回所有人体在待检测的图像上的人体框坐标和对应的置信度;其中,所述人体检测工具包括有用于获取人体框坐标和对应置信度的人体检测模型和/或人体关键点模型;
按照人体框坐标从待检测的图像中裁剪出置信度大于预设阈值的人体框图像区域;
利用所述行为分类模型对裁剪出的人体框图像区域进行翻越行为动作检测,并将检测结果与人体框坐标进行结合后在所述待检测的图像上进行标注,确定所述待检测的图像中是否存在翻越行为动作。
本发明还提供一种行为动作检测设备,包括:
一个或多个处理器;和
存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行所述指令时,使得所述设备执行如上述中任意一项所述的方法。
本发明还提供一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行所述指令时,使得设备执行如上述中任意一项所述的方法。
如上所述,本发明提供一种行为动作检测方法、系统、设备及介质,具有以下有益效果:通过从视频流中截取一帧或多帧图像;对一帧或多帧图像进行人体框标注和行为类别标注,并按照标注的人体框坐标从一帧或多帧图像中裁剪出对应的图像区域;将裁剪出的带人体框标注和行为类别标注的图像区域作为训练数据,并基于训练数据训练分类神经网络,生成行为分类模型;利用行为分类模型对待检测的图像进行检测,确定待检测的图像中是否存在目标行为动作。本发明针对现有技术存在的问题,利用深度学习算法进行翻越行为检测,可以取得优秀的性能指标;与传统的人工检测翻越行为的方法相比,本发明可以大幅降低误检率和漏检率。并且本发明提供了一种基于深度神经网络模型的算法,可以连续使用人体检测模型和行为分类模型对待检测的单帧或多帧图像进行检测,并在视频中将画面上的人体标出,判断待检测的图像中是否在进行翻越行为动作。此外,本发明能够应用在多个场景中,例如交通道路场景、家居安防场景、施工工地场景等。而且本发明还可以针对人在栏杆附近的行为进行针对性学习区分,能够更精确地判断人仅仅是扶着栏杆还是正在翻越,使行为分类模型整体误报率能够小于1%。
附图说明
图1为一实施例提供的行为动作检测方法的流程示意图;
图2为对某个场景下某一帧图像的行为动作检测结果示意图;
图3为对图2场景下另一帧图像的行为动作检测结果示意图;
图4为对图2场景下另一帧图像的行为动作检测结果示意图;
图5为对图2场景下另一帧图像的行为动作检测结果示意图;
图6为对图2场景下另一帧图像的行为动作检测结果示意图;
图7为对图2场景下另一帧图像的行为动作检测结果示意图;
图8为对图2场景下另一帧图像的行为动作检测结果示意图;
图9为对图2场景下另一帧图像的行为动作检测结果示意图;
图10为一实施例提供的ROC曲线示意图;
图11为一实施例提供的行为动作检测系统的硬件结构示意图;
图12为一实施例提供的终端设备的硬件结构示意图;
图13为另一实施例提供的终端设备的硬件结构示意图。
元件标号说明
M10 采集模块
M20 标注模块
M30 裁剪模块
M40 训练模块
M50 检测模块
1100 输入设备
1101 第一处理器
1102 输出设备
1103 第一存储器
1104 通信总线
1200 处理组件
1201 第二处理器
1202 第二存储器
1203 通信组件
1204 电源组件
1205 多媒体组件
1206 音频组件
1207 输入/输出接口
1208 传感器组件
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1所示,本发明提供一种行为动作检测方法,包括以下步骤:
S100,从视频流中截取一帧或多帧图像;
S200,对一帧或多帧图像进行人体框标注和行为类别标注,并按照标注的人体框坐标从这一帧或多帧图像中裁剪出对应的图像区域;
S300,将裁剪出的带人体框标注和行为类别标注的图像区域作为训练数据,并基于训练数据训练分类神经网络,生成行为分类模型;
S400,利用行为分类模型对待检测的图像进行检测,确定待检测的图像中是否存在目标行为动作。其中,目标行为动作包括以下至少之一:翻越行为动作、爬行行为动作。
本方法针对现有技术存在的问题,利用深度学习算法进行翻越行为检测,可以取得优秀的性能指标;与传统的人工检测翻越行为的方法相比,本方法可以大幅降低误检率和漏检率。并且本方法提供了一种基于深度神经网络模型的算法,可以连续使用人体检测模型和行为分类模型对待检测的单帧或多帧图像进行检测,并在视频中将画面上的人体标出,判断待检测的图像中是否在进行翻越行为动作。此外,本方法能够应用在多个场景中,例如交通道路场景、家居安防场景、施工工地场景等。而且本方法还可以针对人在栏杆附近的行为进行针对性学习区分,能够更精确地判断人仅仅是扶着栏杆还是正在翻越,使行为分类模型整体误报率能够小于1%。
在一示例性实施例中,还包括将存在翻越行为动作的图像记为正例、不存在翻越行为动作的图像记为反例。利用所述行为分类模型对待检测的图像进行检测时,若所述行为分类模型将存在翻越行为动作的图像检测为反例,则将所述行为分类模型的当次检测结果记为漏检;若所述行为分类模型将不存在翻越行为动作的图像检测为正例,则将所述行为分类模型的当次检测结果记为误检。根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检和/或误检;或者根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检率和/或误检率;其中,行为分类模型的漏检率=漏检次数÷总检测次数;行为分类模型的误检率=误检次数÷总检测次数。本申请实施例利用深度学习算法进行翻越行为检测,可以取得优秀的性能指标;与传统的人工检测翻越行为的方法相比,本申请实施例可以大幅降低误检率和漏检率。
在一示例性实施例中,根据所述漏检和/或误检迭代优化所述行为分类模型时,若所述正例的召回率recall大于第一阈值,以及所述负例的召回率recall大于第二阈值时,停止对所述行为分类模型的优化,并将此时的行为分类模型作为最终的行为分类模型;利用最终的行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作。本申请实施例中第一阈值和第二阈值可以根据实际应用场景进行设置,实际应用场景包括但不限于交通道路场景、家居安防场景、施工工地场景等。作为示例,例如设置第一阈值为0.9287,第二阈值为0.9934。在本申请实施例中,若正例的召回率recall大于0.9287,且负例的召回率recall大于0.9934时,将此时迭代优化后的行为分类模型作为最终的行为分类模型。
在一示例性实施例中,利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作,包括:将待检测的图像输入至人体检测工具包SDK中,通过所述人体检测工具包SDK将待检测图像的尺寸调整至目标尺寸后进行推理,返回所有人体在待检测的图像上的人体框坐标和对应的置信度。其中,所述人体检测工具包括有用于获取人体框坐标和对应置信度的人体检测模型和/或人体关键点模型。按照人体框坐标从待检测的图像中裁剪出置信度大于预设阈值的人体框图像区域;利用所述行为分类模型对裁剪出的人体框图像区域进行翻越行为动作检测,并将检测结果与人体框坐标进行结合后在所述待检测的图像上进行标注,确定所述待检测的图像中是否存在翻越行为动作。作为示例,本申请实施例中的目标尺寸可以为640像素*384像素。人体检测模型和/或人体关键点模型中的神经网络结构可以是基于CenterNet网络结构,分类神经网络或行为分类模型中的神经网络结构可以为EfficientNet-b2。本申请实施例中的检测模型基于CenterNet网络结构,其端到端可微且不需要非极大值抑制NMS后处理,速度和精度权衡性好。分类神经网络或行为分类模型使用EfficientNet-b2,模型比较小,且具有较高Acc。
在一示例性实施例中,还包括对所述训练数据进行离线增强,所述增强方式包括以下至少之一:对带人体框标注和行为类别标注的图像区域进行旋转、对带人体框标注和行为类别标注的图像区域进行错切、对带人体框标注和行为类别标注的图像区域进行翻转、对带人体框标注和行为类别标注的图像区域进行色彩调整、对带人体框标注和行为类别标注的图像区域进行色调分离、对带人体框标注和行为类别标注的图像区域进行曝光度调整、对带人体框标注和行为类别标注的图像区域进行对比度调整、对带人体框标注和行为类别标注的图像区域进行亮度调整、对带人体框标注和行为类别标注的图像区域进行锐化。本申请实施例可以利用离线数据增强扩充训练数据的数据集大小,从而减少行为类别不平衡度。作为示例,将带人体框标注和行为类别标注的图像区域记为目标图像,则对目标图像进行离线增强的方式包括:对目标图像进行旋转:将原目标图像以某点为中心,顺时针或逆时针旋转一定的角度,使目标图像中的像素点在空间中的位置发生改变。对目标图像进行错切:图像错切也叫图像倾斜,就是将目标图像按照指定的方向进行倾斜,使原本的矩阵目标图像转换成为平行四边形的目标图像。对目标图像进行翻转:将原目标图像进行左右或者上下的镜面翻转,使得转换后的目标图像与原目标图像关于翻转轴对称。对目标图像进行色彩调整:对原目标图像的色彩进行调整,使原目标图像的色彩增强或减弱。对目标图像进行色调分离:只保留原目标图像各像素点数值较高的比特位,使得目标图像出现相邻像素点颜色的跳变。对目标图像进行曝光度调整:对原目标图像的曝光度进行调整,将目标图像从RGB色彩空间转换到HSV色彩空间,调整目标图像在HSV色彩空间的第三个通道的数值。对目标图像进行对比度调整:对原目标图像的对比度进行调整,在保证平均亮度不变的情况下,扩大或缩小原目标图像中亮点和暗点的差异。对目标图像进行亮度调整:对原目标图像的亮度进行调整,将目标图像从RGB色彩空间转换到HSL色彩空间,调整目标图像在HSL色彩空间的第三个通道的数值。对目标图像进行锐化:对原目标图像的轮廓进行补偿,增强目标图像的边缘及灰度跳变的部分,使目标图像变得清晰。
根据上述记载,在一具体行为动作检测过程中,如图2至图10所示,有:
步骤1,图像的采集和获取。通过手动录制、监控提取、电影短视频截取等方法,收集翻越行为相关的视频数据,从视频数据中截取一帧或多帧图像,并对截取的一帧或多帧图像标注人体框和对应的行为类别,生成一系列和视频同分辨率的大图,再对截取的大图根据人体框坐标进行裁剪,将裁剪出的图像作为训练图像。在本申请实施例中,可以对存在翻越行为动作的人体框用红色框标注,并标注文字cnmb;对不存在翻越动作的人体框用绿色框标注,并标注文字normal。
步骤2,图像增强。首先对步骤1生成的训练图像做过滤清洗,提升标注质量;再根据行为类别数量比,利用离线数据增强扩充图像数据集大小,减少类别不平衡度。具体地,对训练图像进行旋转:将原训练图像以某点为中心,顺时针或逆时针旋转一定的角度,使训练图像中的像素点在空间中的位置发生改变。对训练图像进行错切:图像错切也叫图像倾斜,就是将训练图像按照指定的方向进行倾斜,使原本的矩阵训练图像转换成为平行四边形的训练图像。对训练图像进行翻转:将原训练图像进行左右或者上下的镜面翻转,使得转换后的训练图像与原训练图像关于翻转轴对称。对训练图像进行色彩调整:对原训练图像的色彩进行调整,使原训练图像的色彩增强或减弱。对训练图像进行色调分离:只保留原训练图像各像素点数值较高的比特位,使得训练图像出现相邻像素点颜色的跳变。对训练图像进行曝光度调整:对原训练图像的曝光度进行调整,将训练图像从RGB色彩空间转换到HSV色彩空间,调整训练图像在HSV色彩空间的第三个通道的数值。对训练图像进行对比度调整:对原训练图像的对比度进行调整,在保证平均亮度不变的情况下,扩大或缩小原训练图像中亮点和暗点的差异。对训练图像进行亮度调整:对原训练图像的亮度进行调整,将训练图像从RGB色彩空间转换到HSL色彩空间,调整训练图像在HSL色彩空间的第三个通道的数值。对训练图像进行锐化:对原训练图像的轮廓进行补偿,增强训练图像的边缘及灰度跳变的部分,使训练图像变得清晰。
步骤3,训练深度学习模型。利用一个基于一种深度学习框架进一步开发的训练工具来自动训练模型,该训练工具集成了多种基本模型架构和预训练权重、多种在线数据增强方式、学习率策略和loss计算公式。将增强后的训练图像送入训练工具,生成深度神经网络模型,即生成行为分类模型,同时输出相应指标。由于行为分类模型是一个二分类模型,所以本申请实施例会同时输出二分类混淆矩阵。
步骤4,难例挖掘。将存在翻越行为动作的图像记为正例、不存在翻越行为动作的图像记为反例。利用所述行为分类模型对待检测的图像进行检测时,若所述行为分类模型将存在翻越行为动作的图像检测为反例,则将所述行为分类模型的当次检测结果记为漏检;若所述行为分类模型将不存在翻越行为动作的图像检测为正例,则将所述行为分类模型的当次检测结果记为误检。根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检和/或误检;或者根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检率和/或误检率;其中,行为分类模型的漏检率=漏检次数÷总检测次数;行为分类模型的误检率=误检次数÷总检测次数。为了提高本申请实施例中行为分类模型的识别精度,需要降低负例被误判为正例的可能性,即降低误检率;以及降低正例被误判为负例的可能性,即降低漏检率。即在保证二分类混淆矩阵中负例的召回率recall要高的同时,正例的精确率precision也要尽可能高。根据步骤3中输出的混淆矩阵指标,获取出出现漏检FN以及误检FP的图像,对其进一步清洗并做数据增强,重新放入训练图像数据集对生成的行为分类模型进行迭代优化训练,并重复步骤3和步骤4,直至指标达标。本申请实施例中,指标达标可以是正例的召回率recall大于0.9287,且负例的召回率recall大于0.9934,将指标达标后的分类模型作为最终的行为分类模型。在测试集上测试行为分类模型放的二分类性能表现,如表1和图10所示,
表1使用pytorch在gpu上推理结果
Precision Recall F1-score
正例 0.9758(TP) 0.9287(FP) 0.9517
负例 0.9798(FN) 0.9934(TN) 0.9865
根据表1可知,本申请实施例中的行为分类模型的误报率小于1%,且翻越行为动作的检出率可以达到92.87%。
作为示例,使用onnx在cpu上推理结果,调整行为模型质量分softmax的得分阈值为0.2709以上判为正例时,当FPR值为0.00945时,TPR值为0.9364,即行为分类模型的调整质量分阈值后,使得行为分类模型的误报率在0.945%时其检出率能达到93.64%。其中,TPR=TP/(TP+FN);FPR=FP/(FP+TN)。根据图10可知,本申请实施例中的行为分类模型在ROC曲线下的AUC指标达到了0.9882,有着优秀的分类性能。
步骤5,对待检测图像进行行为动作检测。当获取到一帧需要检测的图片时,将图片输入到人体检测工具包SDK中,通过人体检测工具包SDK自动对图片的大小调整到640像素*384像素后并进行推理,返回所有可能的人体在原图上的人体框坐标及人体框对应的置信度,过滤掉置信度不满足阈值的人体框,并根据人体框坐标将剩下的人体框从原图中裁剪出来,完成人体在监控场景下的定位。将裁剪出的人体图片输入到训练好的行为分类模型中,判断这些人体图片是否在进行翻越行为动作,并将检测结果与人体框坐标进行结合后在原图像(即截取的图像)上做出标注。根据标注出的人体框颜色、文字判断截取的图像中是否存在翻越行为动作。作为示例,例如从某场景的监控视频中截取出8帧图像,然后利用行为分类模型对这8帧图像进行翻越行为动作标注判断,如图2至图9所示,其中图2、图3、图4、图8和图9这5帧图像判断为不存在翻越行为动作,图5、图6和图7这3帧图像判断为存在翻越行为动作。
综上所述,本方法针对现有技术存在的问题,利用深度学习算法进行翻越行为检测,可以取得优秀的性能指标;与传统的人工检测翻越行为的方法相比,本方法可以大幅降低误检率和漏检率。并且本方法提供了一种基于深度神经网络模型的算法,可以连续使用人体检测模型和行为分类模型对待检测的单帧或多帧图像进行检测,并在视频中将画面上的人体标出,判断待检测的图像中是否在进行翻越行为动作。此外,本方法能够应用在多个场景中,例如交通道路场景、家居安防场景、施工工地场景等。而且本方法还可以针对人在栏杆附近的行为进行针对性学习区分,能够更精确地判断人仅仅是扶着栏杆还是正在翻越,使行为分类模型整体误报率能够小于1%。
同时,由于现有技术中的运动侦测算法在序列图像(视频)中检测出变化区域并将运动目标从背景图像中提取出来,其依赖于帧间差分的算法、依赖于背景模型构建的算法等。但这种算法性能上依旧有很多不足:例如环境光线变化影响大,光线的变化很容易导致误检;背景环境和场景有限制,例如在交通道路场景下,运动的人和车同时出现在一帧画面上,难以区分;人的运动速度过慢可能会被误识别为背景,导致漏检;小物体(如小动物等)的运动容易导致误报,但某些场景监控范围大,近大远小的情况下很难设置阈值进行过滤。本方法通过提供一种翻越行为检测算法,可以部署在监控端并且衔接各种后处理方法。与现有技术中的运动侦测算法相比,本方法还有以下明显的优势:成本低,深度学习模型可以在各种场景下复用,部署简便。可以模块化,灵活性强,人体检测模型和行为分类模型可以分别替换,迭代更新,能实现在不同场景下使用针对性训练的不同模型。相比于其他算法,本方法有低误报率和高精度的特性,可以减少误检漏检带来的成本。
如图11所示,本发明还提供一种行为动作检测系统,包括有:
采集模块M10,用于从视频流中截取一帧或多帧图像;
标注模块M20,用于对所述一帧或多帧图像进行人体框标注和行为类别标注;
裁剪模块M30,用于按照标注的人体框坐标从所述一帧或多帧图像中裁剪出对应的图像区域;
训练模块M40,用于将裁剪出的带人体框标注和行为类别标注的图像区域作为训练数据,并基于所述训练数据训练分类神经网络,生成行为分类模型;
检测模块M50,用于利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在目标行为动作。其中,目标行为动作包括以下至少之一:翻越行为动作、爬行行为动作。
本系统针对现有技术存在的问题,利用深度学习算法进行翻越行为检测,可以取得优秀的性能指标;与传统的人工检测翻越行为的方法相比,本系统可以大幅降低误检率和漏检率。并且本系统提供了一种基于深度神经网络模型的算法,可以连续使用人体检测模型和行为分类模型对待检测的单帧或多帧图像进行检测,并在视频中将画面上的人体标出,判断待检测的图像中是否在进行翻越行为动作。此外,本系统能够应用在多个场景中,例如交通道路场景、家居安防场景、施工工地场景等。而且本系统还可以针对人在栏杆附近的行为进行针对性学习区分,能够更精确地判断人仅仅是扶着栏杆还是正在翻越,使行为分类模型整体误报率能够小于1%。
在一示例性实施例中,还包括将存在翻越行为动作的图像记为正例、不存在翻越行为动作的图像记为反例。利用所述行为分类模型对待检测的图像进行检测时,若所述行为分类模型将存在翻越行为动作的图像检测为反例,则将所述行为分类模型的当次检测结果记为漏检;若所述行为分类模型将不存在翻越行为动作的图像检测为正例,则将所述行为分类模型的当次检测结果记为误检。根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检和/或误检;或者根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检率和/或误检率;其中,行为分类模型的漏检率=漏检次数÷总检测次数;行为分类模型的误检率=误检次数÷总检测次数。本申请实施例利用深度学习算法进行翻越行为检测,可以取得优秀的性能指标;与传统的人工检测翻越行为的方法相比,本申请实施例可以大幅降低误检率和漏检率。
在一示例性实施例中,根据所述漏检和/或误检迭代优化所述行为分类模型时,若所述正例的召回率recall大于第一阈值,以及所述负例的召回率recall大于第二阈值时,停止对所述行为分类模型的优化,并将此时的行为分类模型作为最终的行为分类模型;利用最终的行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作。本申请实施例中第一阈值和第二阈值可以根据实际应用场景进行设置,实际应用场景包括但不限于交通道路场景、家居安防场景、施工工地场景等。作为示例,例如设置第一阈值为0.9287,第二阈值为0.9934。在本申请实施例中,若正例的召回率recall大于0.9287,且负例的召回率recall大于0.9934时,将此时迭代优化后的行为分类模型作为最终的行为分类模型。
在一示例性实施例中,利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作,包括:将待检测的图像输入至人体检测工具包SDK中,通过所述人体检测工具包SDK将待检测图像的尺寸调整至目标尺寸后进行推理,返回所有人体在待检测的图像上的人体框坐标和对应的置信度。其中,所述人体检测工具包括有用于获取人体框坐标和对应置信度的人体检测模型和/或人体关键点模型。按照人体框坐标从待检测的图像中裁剪出置信度大于预设阈值的人体框图像区域;利用所述行为分类模型对裁剪出的人体框图像区域进行翻越行为动作检测,并将检测结果与人体框坐标进行结合后在所述待检测的图像上进行标注,确定所述待检测的图像中是否存在翻越行为动作。作为示例,本申请实施例中的目标尺寸可以为640像素*384像素。人体检测模型和/或人体关键点模型中的神经网络结构可以是基于CenterNet网络结构,分类神经网络或行为分类模型中的神经网络结构可以为EfficientNet-b2。本申请实施例中的检测模型基于CenterNet网络结构,其端到端可微且不需要非极大值抑制NMS后处理,速度和精度权衡性好。分类神经网络或行为分类模型使用EfficientNet-b2,模型比较小,且具有较高Acc。
在一示例性实施例中,还包括对所述训练数据进行离线增强,所述增强方式包括以下至少之一:对带人体框标注和行为类别标注的图像区域进行旋转、对带人体框标注和行为类别标注的图像区域进行错切、对带人体框标注和行为类别标注的图像区域进行翻转、对带人体框标注和行为类别标注的图像区域进行色彩调整、对带人体框标注和行为类别标注的图像区域进行色调分离、对带人体框标注和行为类别标注的图像区域进行曝光度调整、对带人体框标注和行为类别标注的图像区域进行对比度调整、对带人体框标注和行为类别标注的图像区域进行亮度调整、对带人体框标注和行为类别标注的图像区域进行锐化。本申请实施例可以利用离线数据增强扩充训练数据的数据集大小,从而减少行为类别不平衡度。作为示例,将带人体框标注和行为类别标注的图像区域记为目标图像,则对目标图像进行离线增强的方式包括:对目标图像进行旋转:将原目标图像以某点为中心,顺时针或逆时针旋转一定的角度,使目标图像中的像素点在空间中的位置发生改变。对目标图像进行错切:图像错切也叫图像倾斜,就是将目标图像按照指定的方向进行倾斜,使原本的矩阵目标图像转换成为平行四边形的目标图像。对目标图像进行翻转:将原目标图像进行左右或者上下的镜面翻转,使得转换后的目标图像与原目标图像关于翻转轴对称。对目标图像进行色彩调整:对原目标图像的色彩进行调整,使原目标图像的色彩增强或减弱。对目标图像进行色调分离:只保留原目标图像各像素点数值较高的比特位,使得目标图像出现相邻像素点颜色的跳变。对目标图像进行曝光度调整:对原目标图像的曝光度进行调整,将目标图像从RGB色彩空间转换到HSV色彩空间,调整目标图像在HSV色彩空间的第三个通道的数值。对目标图像进行对比度调整:对原目标图像的对比度进行调整,在保证平均亮度不变的情况下,扩大或缩小原目标图像中亮点和暗点的差异。对目标图像进行亮度调整:对原目标图像的亮度进行调整,将目标图像从RGB色彩空间转换到HSL色彩空间,调整目标图像在HSL色彩空间的第三个通道的数值。对目标图像进行锐化:对原目标图像的轮廓进行补偿,增强目标图像的边缘及灰度跳变的部分,使目标图像变得清晰。
根据上述记载,在一具体行为动作检测过程中,如图2至图10所示,有:
步骤1,图像的采集和获取。通过手动录制、监控提取、电影短视频截取等方法,收集翻越行为相关的视频数据,从视频数据中截取一帧或多帧图像,并对截取的一帧或多帧图像标注人体框和对应的行为类别,生成一系列和视频同分辨率的大图,再对截取的大图根据人体框坐标进行裁剪,将裁剪出的图像作为训练图像。在本申请实施例中,可以对存在翻越行为动作的人体框用红色框标注,并标注文字cnmb;对不存在翻越动作的人体框用绿色框标注,并标注文字normal。
步骤2,图像增强。首先对步骤1生成的训练图像做过滤清洗,提升标注质量;再根据行为类别数量比,利用离线数据增强扩充图像数据集大小,减少类别不平衡度。具体地,对训练图像进行旋转:将原训练图像以某点为中心,顺时针或逆时针旋转一定的角度,使训练图像中的像素点在空间中的位置发生改变。对训练图像进行错切:图像错切也叫图像倾斜,就是将训练图像按照指定的方向进行倾斜,使原本的矩阵训练图像转换成为平行四边形的训练图像。对训练图像进行翻转:将原训练图像进行左右或者上下的镜面翻转,使得转换后的训练图像与原训练图像关于翻转轴对称。对训练图像进行色彩调整:对原训练图像的色彩进行调整,使原训练图像的色彩增强或减弱。对训练图像进行色调分离:只保留原训练图像各像素点数值较高的比特位,使得训练图像出现相邻像素点颜色的跳变。对训练图像进行曝光度调整:对原训练图像的曝光度进行调整,将训练图像从RGB色彩空间转换到HSV色彩空间,调整训练图像在HSV色彩空间的第三个通道的数值。对训练图像进行对比度调整:对原训练图像的对比度进行调整,在保证平均亮度不变的情况下,扩大或缩小原训练图像中亮点和暗点的差异。对训练图像进行亮度调整:对原训练图像的亮度进行调整,将训练图像从RGB色彩空间转换到HSL色彩空间,调整训练图像在HSL色彩空间的第三个通道的数值。对训练图像进行锐化:对原训练图像的轮廓进行补偿,增强训练图像的边缘及灰度跳变的部分,使训练图像变得清晰。
步骤3,训练深度学习模型。利用一个基于一种深度学习框架进一步开发的训练工具来自动训练模型,该训练工具集成了多种基本模型架构和预训练权重、多种在线数据增强方式、学习率策略和loss计算公式。将增强后的训练图像送入训练工具,生成深度神经网络模型,即生成行为分类模型,同时输出相应指标。由于行为分类模型是一个二分类模型,所以本申请实施例会同时输出二分类混淆矩阵。
步骤4,难例挖掘。将存在翻越行为动作的图像记为正例、不存在翻越行为动作的图像记为反例。利用所述行为分类模型对待检测的图像进行检测时,若所述行为分类模型将存在翻越行为动作的图像检测为反例,则将所述行为分类模型的当次检测结果记为漏检;若所述行为分类模型将不存在翻越行为动作的图像检测为正例,则将所述行为分类模型的当次检测结果记为误检。根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检和/或误检;或者根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检率和/或误检率;其中,行为分类模型的漏检率=漏检次数÷总检测次数;行为分类模型的误检率=误检次数÷总检测次数。为了提高本申请实施例中行为分类模型的识别精度,需要降低负例被误判为正例的可能性,即降低误检率;以及降低正例被误判为负例的可能性,即降低漏检率。即在保证二分类混淆矩阵中负例的召回率recall要高的同时,正例的精确率precision也要尽可能高。根据步骤3中输出的混淆矩阵指标,获取出出现漏检FN以及误检FP的图像,对其进一步清洗并做数据增强,重新放入训练图像数据集对生成的行为分类模型进行迭代优化训练,并重复步骤3和步骤4,直至指标达标。本申请实施例中,指标达标可以是正例的召回率recall大于0.9287,且负例的召回率recall大于0.9934,将指标达标后的分类模型作为最终的行为分类模型。在测试集上测试行为分类模型放的二分类性能表现,如表2和图10所示,
表2使用pytorch在gpu上推理结果
Precision Recall F1-score
正例 0.9758(TP) 0.9287(FP) 0.9517
负例 0.9798(FN) 0.9934(TN) 0.9865
根据表1可知,本申请实施例中的行为分类模型的误报率小于1%,且翻越行为动作的检出率可以达到92.87%。
作为示例,使用onnx在cpu上推理结果,调整行为模型质量分softmax的得分阈值为0.2709以上判为正例时,当FPR值为0.00945时,TPR值为0.9364,即行为分类模型的调整质量分阈值后,使得行为分类模型的误报率在0.945%时其检出率能达到93.64%。其中,TPR=TP/(TP+FN);FPR=FP/(FP+TN)。根据图10可知,本申请实施例中的行为分类模型在ROC曲线下的AUC指标达到了0.9882,有着优秀的分类性能。
步骤5,对待检测图像进行行为动作检测。当获取到一帧需要检测的图片时,将图片输入到人体检测工具包SDK中,通过人体检测工具包SDK自动对图片的大小调整到640像素*384像素后并进行推理,返回所有可能的人体在原图上的人体框坐标及人体框对应的置信度,过滤掉置信度不满足阈值的人体框,并根据人体框坐标将剩下的人体框从原图中裁剪出来,完成人体在监控场景下的定位。将裁剪出的人体图片输入到训练好的行为分类模型中,判断这些人体图片是否在进行翻越行为动作,并将检测结果与人体框坐标进行结合后在原图像(即截取的图像)上做出标注。根据标注出的人体框颜色、文字判断截取的图像中是否存在翻越行为动作。作为示例,例如从某场景的监控视频中截取出8帧图像,然后利用行为分类模型对这8帧图像进行翻越行为动作标注判断,如图2至图9所示,其中图2、图3、图4、图8和图9这5帧图像判断为不存在翻越行为动作,图5、图6和图7这3帧图像判断为存在翻越行为动作。
综上所述,本系统针对现有技术存在的问题,利用深度学习算法进行翻越行为检测,可以取得优秀的性能指标;与传统的人工检测翻越行为的方法相比,本系统可以大幅降低误检率和漏检率。并且本系统提供了一种基于深度神经网络模型的算法,可以连续使用人体检测模型和行为分类模型对待检测的单帧或多帧图像进行检测,并在视频中将画面上的人体标出,判断待检测的图像中是否在进行翻越行为动作。此外,本系统能够应用在多个场景中,例如交通道路场景、家居安防场景、施工工地场景等。而且本系统还可以针对人在栏杆附近的行为进行针对性学习区分,能够更精确地判断人仅仅是扶着栏杆还是正在翻越,使行为分类模型整体误报率能够小于1%。
同时,由于现有技术中的运动侦测算法在序列图像(视频)中检测出变化区域并将运动目标从背景图像中提取出来,其依赖于帧间差分的算法、依赖于背景模型构建的算法等。但这种算法性能上依旧有很多不足:例如环境光线变化影响大,光线的变化很容易导致误检;背景环境和场景有限制,例如在交通道路场景下,运动的人和车同时出现在一帧画面上,难以区分;人的运动速度过慢可能会被误识别为背景,导致漏检;小物体(如小动物等)的运动容易导致误报,但某些场景监控范围大,近大远小的情况下很难设置阈值进行过滤。本系统通过提供一种翻越行为检测算法,可以部署在监控端并且衔接各种后处理方法。与现有技术中的运动侦测算法相比,本系统还有以下明显的优势:成本低,深度学习模型可以在各种场景下复用,部署简便。可以模块化,灵活性强,人体检测模型和行为分类模型可以分别替换,迭代更新,能实现在不同场景下使用针对性训练的不同模型。相比于其他算法,本系统有低误报率和高精度的特性,可以减少误检漏检带来的成本。
本申请实施例还提供了一种行为动作检测设备,包括有:
从视频流中截取一帧或多帧图像;
对一帧或多帧图像进行人体框标注和行为类别标注,并按照标注的人体框坐标从一帧或多帧图像中裁剪出对应的图像区域;
将裁剪出的带人体框标注和行为类别标注的图像区域作为训练数据,并基于训练数据训练分类神经网络,生成行为分类模型;
利用行为分类模型对待检测的图像进行检测,确定待检测的图像中是否存在目标行为动作。其中,目标行为动作包括以下至少之一:翻越行为动作、爬行行为动作。
在本实施例中,该行为动作检测设备执行上述系统或方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中数据处理方法所包含步骤的指令(instructions)。
图12为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图13为本申请的另一个实施例提供的终端设备的硬件结构示意图。图13是对图12在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,音频组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述图1所示方法的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件1206被配置为输出和/或输入语音信号。例如,音频组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,音频组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图13实施例中所涉及的通信组件1203、音频组件1206以及输入/输出接口1207、传感器组件1208均可以作为图12实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (13)

1.一种行为动作检测方法,其特征在于,包括以下步骤:
从视频流中截取一帧或多帧图像;
对所述一帧或多帧图像进行人体框标注和行为类别标注,并按照标注的人体框坐标从所述一帧或多帧图像中裁剪出对应的图像区域;
将裁剪出的带人体框标注和行为类别标注的图像区域作为训练数据,并基于所述训练数据训练分类神经网络,生成行为分类模型;
利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在目标行为动作。
2.根据权利要求1所述的行为动作检测方法,其特征在于,所述目标行为动作包括以下至少之一:翻越行为动作、爬行行为动作。
3.根据权利要求2所述的行为动作检测方法,其特征在于,还包括将存在翻越行为动作的图像记为正例、不存在翻越行为动作的图像记为反例;
利用所述行为分类模型对待检测的图像进行检测时,若所述行为分类模型将存在翻越行为动作的图像检测为反例,则将所述行为分类模型的当次检测结果记为漏检;若所述行为分类模型将不存在翻越行为动作的图像检测为正例,则将所述行为分类模型的当次检测结果记为误检;
根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检和/或误检。
4.根据权利要求3所述的行为动作检测方法,其特征在于,根据所述漏检和/或误检迭代优化所述行为分类模型,若所述正例的召回率大于第一阈值,以及所述负例的召回率大于第二阈值时,停止对所述行为分类模型的优化,并将此时的行为分类模型作为最终的行为分类模型;
利用最终的行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作。
5.根据权利要求2所述的行为动作检测方法,其特征在于,利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作,包括:
将待检测的图像输入至人体检测工具包中,通过所述人体检测工具包将待检测图像的尺寸调整至目标尺寸后进行推理,返回所有人体在待检测的图像上的人体框坐标和对应的置信度;其中,所述人体检测工具包括有用于获取人体框坐标和对应置信度的人体检测模型和/或人体关键点模型;
按照人体框坐标从待检测的图像中裁剪出置信度大于预设阈值的人体框图像区域;
利用所述行为分类模型对裁剪出的人体框图像区域进行翻越行为动作检测,并将检测结果与人体框坐标进行结合后在所述待检测的图像上进行标注,确定所述待检测的图像中是否存在翻越行为动作。
6.根据权利要求1所述的行为动作检测方法,其特征在于,还包括对所述训练数据进行离线增强,所述增强方式包括以下至少之一:
对带人体框标注和行为类别标注的图像区域进行旋转、对带人体框标注和行为类别标注的图像区域进行错切、对带人体框标注和行为类别标注的图像区域进行翻转、对带人体框标注和行为类别标注的图像区域进行色彩调整、对带人体框标注和行为类别标注的图像区域进行色调分离、对带人体框标注和行为类别标注的图像区域进行曝光度调整、对带人体框标注和行为类别标注的图像区域进行对比度调整、对带人体框标注和行为类别标注的图像区域进行亮度调整、对带人体框标注和行为类别标注的图像区域进行锐化。
7.一种行为动作检测系统,其特征在于,包括有:
采集模块,用于从视频流中截取一帧或多帧图像;
标注模块,用于对所述一帧或多帧图像进行人体框标注和行为类别标注;
裁剪模块,用于按照标注的人体框坐标从所述一帧或多帧图像中裁剪出对应的图像区域;
训练模块,用于将裁剪出的带人体框标注和行为类别标注的图像区域作为训练数据,并基于所述训练数据训练分类神经网络,生成行为分类模型;
检测模块,用于利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在目标行为动作。
8.根据权利要求7所述的行为动作检测系统,其特征在于,所述目标行为动作包括以下至少之一:翻越行为动作、爬行行为动作。
9.根据权利要求8所述的行为动作检测系统,其特征在于,还包括将存在翻越行为动作的图像记为正例、不存在翻越行为动作的图像记为反例;
利用所述行为分类模型对待检测的图像进行检测时,若所述行为分类模型将存在翻越行为动作的图像检测为反例,则将所述行为分类模型的当次检测结果记为漏检;若所述行为分类模型将不存在翻越行为动作的图像检测为正例,则将所述行为分类模型的当次检测结果记为误检;
根据所述漏检和/或误检迭代优化所述行为分类模型,降低所述行为分类模型的漏检和/或误检。
10.根据权利要求9所述的行为动作检测系统,其特征在于,根据所述漏检和/或误检迭代优化所述行为分类模型,若所述正例的召回率大于第一阈值,以及所述负例的召回率大于第二阈值时,停止对所述行为分类模型的优化,并将此时的行为分类模型作为最终的行为分类模型;
利用最终的行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作。
11.根据权利要求8所述的行为动作检测系统,其特征在于,利用所述行为分类模型对待检测的图像进行检测,确定所述待检测的图像中是否存在翻越行为动作,包括:
将待检测的图像输入至人体检测工具包中,通过所述人体检测工具包将待检测图像的尺寸调整至目标尺寸后进行推理,返回所有人体在待检测的图像上的人体框坐标和对应的置信度;其中,所述人体检测工具包括有用于获取人体框坐标和对应置信度的人体检测模型和/或人体关键点模型;
按照人体框坐标从待检测的图像中裁剪出置信度大于预设阈值的人体框图像区域;
利用所述行为分类模型对裁剪出的人体框图像区域进行翻越行为动作检测,并将检测结果与人体框坐标进行结合后在所述待检测的图像上进行标注,确定所述待检测的图像中是否存在翻越行为动作。
12.一种行为动作检测设备,其特征在于,包括:
一个或多个处理器;和
存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行所述指令时,使得所述设备执行如权利要求1-6中任意一项所述的方法。
13.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行所述指令时,使得设备执行如权利要求1-6中任意一项所述的方法。
CN202011448674.XA 2020-12-09 2020-12-09 一种行为动作检测方法、系统、设备及介质 Pending CN112560649A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011448674.XA CN112560649A (zh) 2020-12-09 2020-12-09 一种行为动作检测方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011448674.XA CN112560649A (zh) 2020-12-09 2020-12-09 一种行为动作检测方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN112560649A true CN112560649A (zh) 2021-03-26

Family

ID=75061523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011448674.XA Pending CN112560649A (zh) 2020-12-09 2020-12-09 一种行为动作检测方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN112560649A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052127A (zh) * 2021-04-09 2021-06-29 上海云从企业发展有限公司 一种行为检测方法、系统、计算机设备及机器可读介质
CN113239939A (zh) * 2021-05-12 2021-08-10 北京杰迈科技股份有限公司 一种轨道信号灯识别方法、模块及存储介质
CN113610161A (zh) * 2021-08-09 2021-11-05 东南数字经济发展研究院 一种基于图像分类技术的目标检测数据标注方法
CN114972916A (zh) * 2022-05-26 2022-08-30 广州市影擎电子科技有限公司 消防逃生动作检测模型训练方法及其检测方法
WO2023071188A1 (zh) * 2021-10-29 2023-05-04 上海商汤智能科技有限公司 一种异常行为检测的方法、装置、电子设备及存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845374A (zh) * 2017-01-06 2017-06-13 清华大学 基于深度学习的行人检测方法及检测装置
CN109214241A (zh) * 2017-07-03 2019-01-15 中国科学院文献情报中心 基于深度学习算法的行人检测方法
CN109389068A (zh) * 2018-09-28 2019-02-26 百度在线网络技术(北京)有限公司 用于识别驾驶行为的方法和装置
CN109815881A (zh) * 2019-01-18 2019-05-28 成都旷视金智科技有限公司 行为识别模型的训练方法、行为识别方法、装置及设备
CN109815991A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN109815953A (zh) * 2019-01-30 2019-05-28 电子科技大学 一种基于车辆年检标的车辆识别匹配系统
CN110427807A (zh) * 2019-06-21 2019-11-08 诸暨思阔信息科技有限公司 一种时序事件动作检测方法
CN110580446A (zh) * 2019-07-16 2019-12-17 上海交通大学 行为语义细分化理解方法、系统、计算机装置以及介质
CN111242025A (zh) * 2020-01-13 2020-06-05 佛山科学技术学院 一种基于yolo的动作实时监测方法
CN111274930A (zh) * 2020-04-02 2020-06-12 成都鼎安华智慧物联网股份有限公司 一种基于深度学习的安全帽佩戴以及吸烟行为识别方法
CN111382708A (zh) * 2020-03-11 2020-07-07 广东工业大学 一种爬楼翻窗盗窃行为实时检测方法和装置
CN111401144A (zh) * 2020-02-26 2020-07-10 华南理工大学 一种基于视频监控的手扶电梯乘客行为识别方法
CN111724408A (zh) * 2020-06-05 2020-09-29 广东海洋大学 基于5g通信下异常驾驶行为算法模型的验证实验方法
CN111783716A (zh) * 2020-07-10 2020-10-16 中国科学院自动化研究所 基于姿态信息的行人检测方法、系统、装置
CN111914773A (zh) * 2020-08-07 2020-11-10 杭州微胜智能科技有限公司 一种抓拍违法上下客的设备、方法
CN111967433A (zh) * 2020-08-31 2020-11-20 重庆科技学院 一种基于自监督学习网络的动作识别办法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845374A (zh) * 2017-01-06 2017-06-13 清华大学 基于深度学习的行人检测方法及检测装置
CN109214241A (zh) * 2017-07-03 2019-01-15 中国科学院文献情报中心 基于深度学习算法的行人检测方法
CN109389068A (zh) * 2018-09-28 2019-02-26 百度在线网络技术(北京)有限公司 用于识别驾驶行为的方法和装置
CN109815991A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 机器学习模型的训练方法、装置、电子设备及存储介质
CN109815881A (zh) * 2019-01-18 2019-05-28 成都旷视金智科技有限公司 行为识别模型的训练方法、行为识别方法、装置及设备
CN109815953A (zh) * 2019-01-30 2019-05-28 电子科技大学 一种基于车辆年检标的车辆识别匹配系统
CN110427807A (zh) * 2019-06-21 2019-11-08 诸暨思阔信息科技有限公司 一种时序事件动作检测方法
CN110580446A (zh) * 2019-07-16 2019-12-17 上海交通大学 行为语义细分化理解方法、系统、计算机装置以及介质
CN111242025A (zh) * 2020-01-13 2020-06-05 佛山科学技术学院 一种基于yolo的动作实时监测方法
CN111401144A (zh) * 2020-02-26 2020-07-10 华南理工大学 一种基于视频监控的手扶电梯乘客行为识别方法
CN111382708A (zh) * 2020-03-11 2020-07-07 广东工业大学 一种爬楼翻窗盗窃行为实时检测方法和装置
CN111274930A (zh) * 2020-04-02 2020-06-12 成都鼎安华智慧物联网股份有限公司 一种基于深度学习的安全帽佩戴以及吸烟行为识别方法
CN111724408A (zh) * 2020-06-05 2020-09-29 广东海洋大学 基于5g通信下异常驾驶行为算法模型的验证实验方法
CN111783716A (zh) * 2020-07-10 2020-10-16 中国科学院自动化研究所 基于姿态信息的行人检测方法、系统、装置
CN111914773A (zh) * 2020-08-07 2020-11-10 杭州微胜智能科技有限公司 一种抓拍违法上下客的设备、方法
CN111967433A (zh) * 2020-08-31 2020-11-20 重庆科技学院 一种基于自监督学习网络的动作识别办法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATTEO FABBRI等: "Inter-Homines: Distance-Based Risk Estimation for Human Safety", 《ARXIV:2007.10243V1 [CS.CV]》 *
李瑞峰等: "人体动作行为识别研究综述", 《模式识别与人工智能》 *
魏丽冉等: "基于深度神经网络的人体动作识别方法", 《济南大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052127A (zh) * 2021-04-09 2021-06-29 上海云从企业发展有限公司 一种行为检测方法、系统、计算机设备及机器可读介质
CN113239939A (zh) * 2021-05-12 2021-08-10 北京杰迈科技股份有限公司 一种轨道信号灯识别方法、模块及存储介质
CN113610161A (zh) * 2021-08-09 2021-11-05 东南数字经济发展研究院 一种基于图像分类技术的目标检测数据标注方法
WO2023071188A1 (zh) * 2021-10-29 2023-05-04 上海商汤智能科技有限公司 一种异常行为检测的方法、装置、电子设备及存储介质
CN114972916A (zh) * 2022-05-26 2022-08-30 广州市影擎电子科技有限公司 消防逃生动作检测模型训练方法及其检测方法

Similar Documents

Publication Publication Date Title
CN112560649A (zh) 一种行为动作检测方法、系统、设备及介质
US8750573B2 (en) Hand gesture detection
US8792722B2 (en) Hand gesture detection
EP3152706B1 (en) Image capturing parameter adjustment in preview mode
CN109684980B (zh) 自动阅卷方法及装置
CN110059642B (zh) 人脸图像筛选方法与装置
CN106295638A (zh) 证件图像倾斜校正方法和装置
CN112052186B (zh) 目标检测方法、装置、设备以及存储介质
CN111444826B (zh) 视频检测方法、装置、存储介质及计算机设备
CN101393603A (zh) 一种识别和检测隧道火灾火焰的方法
WO2023025010A1 (zh) 频闪条带信息识别方法、装置和电子设备
CN110795975B (zh) 人脸误检优化方法及装置
CN113076903A (zh) 一种目标行为检测方法、系统、计算机设备及机器可读介质
CN115525140A (zh) 手势识别方法、手势识别装置及存储介质
CN113052127A (zh) 一种行为检测方法、系统、计算机设备及机器可读介质
CN106777071B (zh) 一种图像识别获取参考信息的方法和装置
CN103543916A (zh) 信息处理的方法及电子设备
CN113947613A (zh) 目标区域检测方法、装置、设备及存储介质
CN115410240A (zh) 智能人脸的痘痘和色斑分析方法、装置及存储介质
CN111050081B (zh) 拍摄方法及电子设备
CN114943976B (zh) 模型生成的方法、装置、电子设备和存储介质
WO2023001110A1 (zh) 神经网络训练方法、装置及电子设备
CN113269730B (zh) 图像处理方法、装置、计算机设备及存储介质
CN116977256A (zh) 缺陷检测模型的训练方法、装置、设备及存储介质
CN116188846A (zh) 一种基于振动图像的设备故障检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210326

RJ01 Rejection of invention patent application after publication