CN113065482A

CN113065482A - 基于图像识别的行为检测方法、系统、计算机设备及介质

Info

Publication number: CN113065482A
Application number: CN202110382539.8A
Authority: CN
Inventors: 潘雪; 宋佳兴; 吴凡; 赵童
Original assignee: Shanghai Yuncong Enterprise Development Co ltd
Current assignee: Shanghai Yuncong Enterprise Development Co ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-07-02

Abstract

本发明提供一种基于图像识别的行为检测方法、系统、计算机设备及介质，通过对待检测图像进行人体检测，获取人体框；改变人体框的框形区域面积，并根据改变后的人体框从待检测图像中截取出对应的人体图像；将人体图像输入至行为识别模型中进行行为识别，确定待检测图像是否存在目标行为；若人体图像的尺寸小于预设尺寸，则认定待检测图像不存在目标行为。本发明可以部署在任何具有监控摄像头的场所，不需要额外的安防人员，可以实时返回监测摄像头拍摄的图像，自动检测持刀棍行为并及时预警。本发明无需来往人员配合，不会造成拥堵，不给不法分子可趁之机。本发明对各类刀棍的鲁棒性较高，在不同场景、不同光线、不同姿态角度下检测效果较好。

Description

基于图像识别的行为检测方法、系统、计算机设备及介质

技术领域

本发明涉及图像检测技术领域，特别是涉及一种基于图像识别的行为检测方法、系统、计算机设备及介质。

背景技术

随着视频监控设备的普及，采用人力资源监督监控视频内容的成本急剧增加，因此基于视频监控的行为识别技术得到人们的广泛关注。同时为了维护社会治安，保障公共安全，及时发现并预警不法分子利用刀棍进行违法活动，是维护公众安全的必要任务。但是，一方面在人员密集的公共场合，例如公共交通枢纽等区域，利用有限的安防资源对拥挤的人流快速进行持刀棍行为检测是一个巨大的挑战；另一方面，在一些人烟稀少的监控场景，24小时异常监控对监督人员来说也是一件耗时耗力的工作。总的来说，现有的持刀棍行为检测方法主要有以下几种形式：

(1)安防人员通过监控摄像头对监控场景实时检测，发现持刀棍行为立即报警进行处理。但是这种以人为主体的检测方式存在极大的限制，当监控画面较多时需要大量的安防人员才能完成实时监测，用人成本高昂；而且安防人员无法保持持续的专注，出现疏漏在所难免。

(2)对于封闭的场所，安防人员通过设置安检关口对进入安防区域的人员进行检测，采用例如X光机、安检门、安检仪等设备检测是否携带刀棍。但这种方式最大的问题是只适用于特殊的封闭场所，在更多的一般公共区域(如医院、学校等)很难具备如此严密的安检措施。并且安检关口的设置会严重影响进出人流，对来往人员造成不便。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于图像识别的行为检测方法、系统、计算机设备及介质，用于解决现有技术难以在公共场所检测人员持刀和/或棍的问题。

为实现上述目的及其他相关目的，本发明提供一种基于图像识别的行为检测方法，包括以下步骤：

对待检测图像进行人体检测，获取人体框；

改变所述人体框，并根据改变后的人体框从所述待检测图像中截取出对应的人体图像；其中，改变前的人体框的框形区域位于改变后的人体框的框形区域内；

将所述人体图像输入至行为识别模型中进行行为识别，确定所述待检测图像是否存在目标行为。

可选地，确定所述待检测图像是否存在目标行为的过程还包括：

获取所述待检测图像中的人体关键点，并根据所述人体关键点从所述人体框中截取出人手框；

改变所述人手框，并根据改变后的人手框从所述待检测图像中截取出对应的人手图像；其中，改变前的人手框的框形区域位于改变后的人手框的框形区域内；

将所述人手图像输入至行为识别模型中进行行为识别，确定所述待检测图像是否存在目标行为。

可选地，所述行为识别模型的生成过程包括：

获取训练图像，并对所述训练图像进行人体检测，获取对应的人体框；

改变所述人体框，并根据改变后的人体框从所述训练图像中截取出对应的人体图像；

对所述人体图像进行标注，将存在目标行为的人体图像标注为正例，不存在目标行为的人体图像标注为负例；

利用标注后的人体图像训练一个或多个神经网络，生成所述行为识别模型；

和/或，

获取训练图像，并对所述训练图像进行人手检测，获取对应的人手框；

改变所述人手框，并根据改变后的人手框从所述训练图像中截取出对应的人手图像；

对所述人手图像进行标注，将存在目标行为的人手图像标注为正例，不存在目标行为的人手图像标注为负例；

利用标注后的人手图像训练一个或多个神经网络，生成所述行为识别模型。

可选地，在生成行为识别模型时，还包括：

获取一个或多个不存在目标行为的场景图像，并所述场景图像标注为负例；

将标注后的场景图像加入标注后的训练图像中共同训练所述一个或多个神经网络，并将生成的行为识别模型作为最终的行为识别模型；

和/或，利用标注后的场景图像优化基于所述训练图像生成的行为识别模型，并将优化后的行为识别模型作为最终的行为识别模型；

其中，所述场景图像包括以下至少之一：拉行李箱的图像、女士包带的图像、骑自行车的图像、打伞的图像、玩手机的图像、行人背景中有杆的图像。

可选地，将所述人体框的高和宽分别扩大20％，完成所述人体框的改变；

和/或，将所述人手框的高和宽分别扩大50％，完成所述人手框的改变。

可选地，若利用所述行为识别模型检测出所述待检测图像中存在目标行为，则生成目标信号，并将所述目标信号传输至预警系统；

若在预设时间段内，目标信号的出现频率小于预设阈值，则迭代优化所述行为识别模型；

若在所述预设时间段内，目标信号的出现频率大于预设阈值，则通过所述预警系统发出预警信号；

其中，所述目标行为包括以下至少之一：持刀行为、持棍行为。

可选地，若所述人体图像的尺寸小于预设尺寸，则认定所述待检测图像不存在目标行为。

本发明还提供一种基于图像识别的行为检测系统，包括有：

人体框模块，用于对待检测图像进行人体检测，获取人体框；

人体图像采集模块，用于改变所述人体框，并根据改变后的人体框从所述待检测图像中截取出对应的人体图像；其中，改变前的人体框的框形区域位于改变后的人体框的框形区域内；

第一行为检测模块，用于将所述人体图像输入至行为识别模型中进行行为识别，确定所述待检测图像是否存在目标行为；若所述人体图像的尺寸小于预设尺寸，则认定所述待检测图像不存在目标行为。

可选地，还包括有：

人手框模块，用于获取所述待检测图像中的人体关键点，并根据所述人体关键点从所述人体框中截取出人手框；

人手图像采集模块，用于改变所述人手框，并根据改变后的人手框从所述待检测图像中截取出对应的人手图像；其中，改变前的人手框的框形区域位于改变后的人手框的框形区域内；

第二行为检测模块，用于将所述人手图像输入至行为识别模型中进行行为识别，确定所述待检测图像是否存在目标行为。

可选地，所述行为识别模型的生成过程包括：

和/或，

可选地，在生成行为识别模型时，还包括：

本发明还提供一种计算机设备，包括：

一个或多个处理器；和

存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行所述指令时，使得所述设备执行如上述中任意一项所述的方法。

本发明还提供一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行所述指令时，使得设备执行如上述中任意一项所述的方法。

如上所述，本发明提供一种基于图像识别的行为检测方法、系统、计算机设备及介质，具有以下有益效果：通过对待检测图像进行人体检测，获取人体框；改变人体框，并根据改变后的人体框从待检测图像中截取出对应的人体图像；将人体图像输入至行为识别模型中进行行为识别，确定待检测图像是否存在目标行为；若人体图像的尺寸小于预设尺寸，则认定待检测图像不存在目标行为。其中，目标行为包括以下至少之一：持刀行为、持棍行为。本发明针对现有技术存在的技术问题，提供了一种基于图像识别的行为检测方案，该方案通过监控摄像头采集安防区域的视频或图像，并对采集的图像或对从视频中随机抽取的帧图像进行人体检测，获取对应的人体框，然后再改变人体框的框形区域面积，并根据改变框形区域面积后的人体框从对应的原始图像(即采集的图像或对从视频中随机抽取的帧图像)中截取出对应的人体图像，同时将截取出的人体图像传输给行为识别模型，利用行为识别模型来对图像进行特征提取与识别，自动监测安防区域中的人员是否携带有刀和/或棍，并在人员携带刀和/或棍的行为出现时及时向安防人员报警。相对于其他持刀棍行为检测方法，本发明可以部署在任何具有监控摄像头的场所，不需要额外的安防人员，可以实时返回监测摄像头拍摄的图像，自动检测持刀棍行为并及时预警。本发明提出的检测方式无需来往人员配合，不会造成拥堵，不给不法分子可趁之机。本发明对各类刀棍的鲁棒性较高，在不同场景、不同光线、不同姿态角度下检测效果较好。

附图说明

图1为一实施例提供的基于图像识别的行为检测方法的流程示意图；

图2为一实施例提供的基于图像识别的行为检测系统的硬件结构示意图；

图3为另一实施例提供的基于图像识别的行为检测系统的硬件结构示意图；

图4为一实施例提供的终端设备的硬件结构示意图；

图5为另一实施例提供的终端设备的硬件结构示意图。

元件标号说明

M10 人体框模块

M20 人体图像采集模块

M30 第一行为检测模块

M40 人手框模块

M50 人手图像采集模块

M60 第二行为检测模块

1100 输入设备

1101 第一处理器

1102 输出设备

1103 第一存储器

1104 通信总线

1200 处理组件

1201 第二处理器

1202 第二存储器

1203 通信组件

1204 电源组件

1205 多媒体组件

1206 音频组件

1207 输入/输出接口

1208 传感器组件

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1所示，本发明提供一种基于图像识别的行为检测方法，包括以下步骤：

S100，对待检测图像进行人体检测，获取人体框；例如从一个视频流中随机抽取单帧或多帧图像作为待检测图像，或者从多个视频流中随机抽取多帧图像作为待检测图像。

S200，改变人体框，并根据改变后的人体框从待检测图像中截取出对应的人体图像；其中，改变前的人体框的框形区域位于改变后的人体框的框形区域内；例如将人体框的高和宽分别扩大20％，使扩大后的人体框的框形区域包含了扩大前的人体框的框形区域，然后根据扩大后的人体框从待检测图像中截取出对应的人体图像。

S300，将人体图像输入至行为识别模型中进行行为识别，确定待检测图像是否存在目标行为；若人体图像的尺寸小于预设尺寸，则认定待检测图像不存在目标行为。其中，本申请实施例中的目标行为包括但不限于：持刀行为、持棍行为。

根据上述记载，本申请实施例针对监控场景下的目标对象进行持刀和/或持棍行为检测。由于监控场景下包含多个行人，因此本实施例首先按照抽帧频率从一个视频流中随机抽取单帧或多帧图像作为待检测图像，或者从多个视频流中随机抽取多帧图像作为待检测图像。然后再通过人体检测网络Centernet对抽取的视频帧图像进行人体检测，获取视频帧图像中的人体关键点坐标。然后基于人体关键点坐标获取人体框，并对人体框按比例扩大，使扩大后的人体框包括有刀棍。按照扩大后的人体框从视频帧图像中裁剪出对应的人体图像，然后将这些人体图像输入至行为识别模型中进行行为识别，确定抽取出的视频帧图像中是否存在目标行为；若根据扩大后裁剪出的人体图像的尺寸小于预设尺寸，则认定待检测图像不存在目标行为。作为示例，本申请实施例分别对人体框的高和宽扩大20％来完成对人体框的改变，使扩大后的人体框的框形区域包含了扩大前的人体框的框形区域，预设尺寸可以是该人体图像的高小于150像素或宽小于50像素。

在一示例性实施例中，还包括：获取待检测图像中的人体关键点，并根据人体关键点从人体框中截取出人手框；改变人手框，并根据改变后的人手框从待检测图像中截取出对应的人手图像；其中，改变前的人手框的框形区域位于改变后的人手框的框形区域内；将人手图像输入至行为识别模型中进行行为识别，确定待检测图像是否存在目标行为。具体地，本申请实施例还根据人体关键点坐标和人体关键点检测网络获得视频帧图像中的人体手部关键点坐标，然后基于人手关键点坐标从人体框中截取出人手框，并对人手框按比例扩大，使扩大后的人手框包括有刀棍。按照扩大后的人手框从抽取的视频帧图像中裁剪出对应的人手图像，然后将这些人手图像输入至行为识别模型中进行行为识别，确定抽取出的视频帧图像中是否存在目标行为。作为示例，本申请实施例分别对人手框的高和宽扩大50％来完成对人手框的改变，使扩大后的人手框的框形区域包含了扩大前的人手框的框形区域。

根据上述记载，本申请实施例中的行为识别模型的生成过程包括：获取训练图像，并对训练图像进行人体检测，获取对应的人体框和人手框；改变人体框和人手框的框形区域面积，并根据改变后的人体框和人手框从训练图像中分别截取出对应的人体图像和人手图像；对人体图像和人手图像进行标注，将存在目标行为的人体图像标注为正例，不存在目标行为的人体图像标注为负例；以及将存在目标行为的人手图像标注为正例，不存在目标行为的人手图像标注为负例；利用标注后的人体图像和/或人手图像训练一个或多个神经网络，生成行为识别模型。具体地，本申请实施例通过合法爬虫网络图片、影视作品和其他途径公开的图像和/或视频数据，以及拍摄同事表演的持刀和/或持棍的图像和/或视频来收集大量的持刀和/或持棍行为的图像、视频，以及不持刀和/或持棍的图像、视频。然后将这些图像或者从这些视频中抽取多帧图像作为训练图像，并对这些训练图像进行人体检测，获取对应的人体框和人手框；对人体框的高和宽分别扩大20％，以及对人手框的高和宽分别扩大50％，使扩大后的人体框和人手框都包括有刀和/或棍；然后按照扩大后的框形区域面积从训练图像中截取出对应的人体图像和人手图像。再对人体图像和人手图像进行标注，将存在目标行为的人体图像标注为正例，不存在目标行为的人体图像标注为负例；以及将存在目标行为的人手图像标注为正例，不存在目标行为的人手图像标注为负例；利用标注后的人体图像和/或人手图像训练一个或多个神经网络，生成行为识别模型。本申请实施例基于上述图像采集方式可以得到大量的训练数据，包括持刀和持棍正例、不持刀和不持棍负例各四万余张，然后利用这些训练数据训练一个或多个分类神经网络，在完成模型训练后生成行为识别模型。本申请实施例中的人体检测网络和人体关键点检测网络由Centernet构成，分类神经网络由efficientnet构成。

发明人在对行为识别模型进行测试过程中发现，行为识别模型容易对某些特定类型的行人发生误检，例如拉行李箱的行人图像、女士包带的行人图像、骑自行车的行人图像、打伞的行人图像、玩手机的行人图像、行人背景中有杆的图像等类型的图像数据。因此，本申请实施例有针对性地采集了一些对应类型的数据，并将这些类型的数据加入训练集中更新迭代行为识别模型，从而降低行为识别模型的误检；或者由这些类型的数据形成一个训练集，训练分类神经网络，形成一个行为识别模型；或者由这些类型的数据形成一个训练集，更新迭代行为识别模型，从而降低行为识别模型的误检。具体地，获取一个或多个不存在目标行为的场景图像，并所述场景图像标注为负例；将标注后的场景图像加入标注后的训练图像中共同训练一个或多个神经网络，并将生成的行为识别模型作为最终的行为识别模型；和/或，利用标注后的场景图像优化基于训练图像生成的行为识别模型，并将优化后的行为识别模型作为最终的行为识别模型；其中，场景图像包括以下至少之一：拉行李箱的图像、女士包带的图像、骑自行车的图像、打伞的图像、玩手机的图像、行人背景中有杆的图像。本申请实施例利用上述训练生成的最终的行为识别模型识别待检测图像时，可以降低行为识别模型的误检。

根据上述记载，若按照扩大后的框形区域截取出的人体图像为长方形，则对截取出的人体图像进行填充，将截取出的人体图像填充为正方形。作为示例，具体地，裁剪得到的人体图片多半都是长方形结构，为了不破坏人体持刀棍行为特征，本申请实施例在输入分类识别网络前首先将人体图片填补为正方形。填补方法是左右均匀填充上灰色，然后将填充后的图像resize到256*256的尺寸，之后经过归一化前处理，传递到检测持刀棍行为的行为识别模型中进行特征提取和分类。其中，按照扩大后的框形区域从待检测图像中截取对应的人体图像，若截取的人体图像尺寸小于预设图像尺寸，则判定人体图像和/或待检测图像中不存在目标对象。作为示例，当人体图片尺寸过小(长小于150像素或宽小于50像素)，则认为该人体图片不具备判别是否持刀棍的信息，跳过检测持刀棍行为的行为识别模型，直接将该人体图片判为不持刀棍的负例。

根据上述记载，在一示例性实施例中，若利用行为识别模型检测出待检测图像中存在目标行为，则生成目标信号，并将目标信号传输至预警系统；若在预设时间段内，目标信号的出现频率小于预设阈值，则迭代优化行为识别模型；若在预设时间段内，目标信号的出现频率大于预设阈值，则通过预警系统发出预警信号；其中，目标行为包括以下至少之一：持刀行为、持棍行为。作为示例，行为识别模型中的分类神经网络得到每个人体框的识别结果，对于一个视频帧图像内的所有人体框，若有一个人体框被判为持刀棍行为，则该视频帧图像就被判为持刀棍类别，并且当持刀棍行为识别网络(即行为识别模型)检测到安防区域有持刀棍行为出现时，生成一个关于刀棍的信号传递给报警系统。分类神经网络由efficientnet构成，efficientnet对输入的图片提取并融合特征，得到1280维特征向量后通过训练好的分类层获取分类结果，判断输入的图片中是否存在刀和/或棍。由于行为识别模型中的深度神经网络存在一定的误报概率，报警系统需要对视频序列进行进一步的分析。例如计算连续几秒内目标信号出现的频率，若出现的频率小于某个阈值，则认为是行为识别模型中的分类神经网络存在误报，则重新迭代优化行为识别模型。若出现的频率大于某个阈值，则由预警系统向安防人员发出报警信号。其中，本申请实施例利用行为识别模型检测刀棍前，还可以将行为识别模型部署在生产环境中，通过监控摄像头实时采集安防区域的监控图像，并将视频帧图像实时传输至行为识别模型中，检测视频帧图像是否存在刀棍。

综上所述，本方法针对现有技术存在的技术问题，提供了一种基于图像识别的持刀棍行为检测方案，该方案通过监控摄像头采集安防区域的视频或图像，并对采集的图像或对从视频中随机抽取的帧图像进行人体检测，获取对应的人体框，然后再改变人体框的框形区域面积，并根据改变框形区域面积后的人体框从对应的原始图像中截取出对应的人体图像，同时将截取出的人体图像传输给行为识别模型，利用行为识别模型来对图像进行特征提取与识别，自动监测安防区域中的人员是否携带有刀和/或棍，并在人员携带刀和/或棍的行为出现时及时向安防人员报警。相对于其他持刀棍行为检测方法，本发明可以部署在任何具有监控摄像头的场所，不需要额外的安防人员，可以实时返回监测摄像头拍摄的图像，自动检测持刀棍行为并及时预警。本发明提出的检测方式无需来往人员配合，不会造成拥堵，不给不法分子可趁之机。本发明对各类刀棍的鲁棒性较高，在不同场景、不同光线、不同姿态角度下检测效果较好。本方法基于图像识别方法提出检测持刀棍行为的行为识别模型，不仅检测速度快，而且行为识别模型还兼顾速度与精度。在GPU上运行行为识别模型，识别一张人体图片是否存在刀棍仅需2ms。而且本方法中行为识别模型部署成本低，可复用现存的大量监控摄像头，有效节约成本。同时本方法中行为识别模型适用范围广，不受场地影响，适用于各种封闭或开放场合，并且不需要来往人员配合安检。相较于安防人员实时观察监控视频，本发明能持续高效及时地处理监控数据，为被监控区域提供及时预警及安全保障。

如图2和图3所示，本发明还提供一种基于图像识别的行为检测系统，包括有：

人体框模块M10，用于对待检测图像进行人体检测，获取人体框；例如从一个视频流中随机抽取单帧或多帧图像作为待检测图像，或者从多个视频流中随机抽取多帧图像作为待检测图像。

人体图像采集模块M20，用于改变人体框，并根据改变后的人体框从待检测图像中截取出对应的人体图像；其中，改变前的人体框的框形区域位于改变后的人体框的框形区域内；例如将人体框的高和宽分别扩大20％，使扩大后的人体框的框形区域包含了扩大前的人体框的框形区域，然后根据扩大后的人体框从待检测图像中截取出对应的人体图像。

第一行为检测模块M30，用于将人体图像输入至行为识别模型中进行行为识别，确定待检测图像是否存在目标行为；若人体图像的尺寸小于预设尺寸，则认定待检测图像不存在目标行为。其中，本申请实施例中的目标行为包括但不限于：持刀行为、持棍行为。

在一示例性实施例中，如图3所示，还包括：人手框模块M40，用于获取待检测图像中的人体关键点，并根据人体关键点从人体框中截取出人手框；人手图像采集模块M50，用于改变人手框，并根据改变后的人手框从待检测图像中截取出对应的人手图像；第二行为检测模块M60，用于将人手图像输入至行为识别模型中进行行为识别，确定待检测图像是否存在目标行为。具体地，本申请实施例还根据人体关键点坐标和人体关键点检测网络获得视频帧图像中的人体手部关键点坐标，然后基于人手关键点坐标从人体框中截取出人手框，并对人手框按比例扩大，使扩大后的人手框包括有刀棍。按照扩大后的人手框从抽取的视频帧图像中裁剪出对应的人手图像，然后将这些人手图像输入至行为识别模型中进行行为识别，确定抽取出的视频帧图像中是否存在目标行为。作为示例，本申请实施例分别对人手框的高和宽扩大50％来完成对人手框的改变，使扩大后的人手框的框形区域包含了扩大前的人手框的框形区域。

综上所述，本系统针对现有技术存在的技术问题，提供了一种基于图像识别的持刀棍行为检测方案，该方案通过监控摄像头采集安防区域的视频或图像，并对采集的图像或对从视频中随机抽取的帧图像进行人体检测，获取对应的人体框，然后再改变人体框的框形区域面积，并根据改变框形区域面积后的人体框从对应的原始图像中截取出对应的人体图像，同时将截取出的人体图像传输给行为识别模型，利用行为识别模型来对图像进行特征提取与识别，自动监测安防区域中的人员是否携带有刀和/或棍，并在人员携带刀和/或棍的行为出现时及时向安防人员报警。相对于其他持刀棍行为检测系统，本发明可以部署在任何具有监控摄像头的场所，不需要额外的安防人员，可以实时返回监测摄像头拍摄的图像，自动检测持刀棍行为并及时预警。本发明提出的检测方式无需来往人员配合，不会造成拥堵，不给不法分子可趁之机。本发明对各类刀棍的鲁棒性较高，在不同场景、不同光线、不同姿态角度下检测效果较好。本系统基于图像识别方法提出检测持刀棍行为的行为识别模型，不仅检测速度快，而且行为识别模型还兼顾速度与精度。在GPU上运行行为识别模型，识别一张人体图片是否存在刀棍仅需2ms。而且本系统中行为识别模型部署成本低，可复用现存的大量监控摄像头，有效节约成本。同时本系统中行为识别模型适用范围广，不受场地影响，适用于各种封闭或开放场合，并且不需要来往人员配合安检。相较于安防人员实时观察监控视频，本发明能持续高效及时地处理监控数据，为被监控区域提供及时预警及安全保障。

本申请实施例还提供了一种计算机设备，该设备可以包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述设备执行图1所述的方法。在实际应用中，该设备可以作为终端设备，也可以作为服务器，终端设备的例子可以包括：智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3，Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4，Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等，本申请实施例对于具体的设备不加以限制。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的图1中数据处理方法所包含步骤的指令(instructions)。

图4为本申请一实施例提供的终端设备的硬件结构示意图。如图所示，该终端设备可以包括：输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，第一存储器1103中可以存储各种程序，用于完成各种处理功能以及实现本实施例的方法步骤。

可选的，上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit，简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。

可选的，上述输入设备1100可以包括多种输入设备，例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的，该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等)；可选的，该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等)；可选的，上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口，例如芯片的输入引脚接口或者输入接口等；输出设备1102可以包括显示器、音响等输出设备。

在本实施例中，该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能，具体功能和技术效果参照上述实施例即可，此处不再赘述。

图5为本申请的另一个实施例提供的终端设备的硬件结构示意图。图5是对图4在实现过程中的一个具体的实施例。如图所示，本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。

第二处理器1201执行第二存储器1202所存放的计算机程序代码，实现上述实施例中图1所述方法。

第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令，例如消息，图片，视频等。第二存储器1202可能包含随机存取存储器(random access memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

可选地，第二处理器1201设置在处理组件1200中。该终端设备还可以包括：通信组件1203，电源组件1204，多媒体组件1205，音频组件1206，输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定，本实施例对此不作限定。

处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令，以完成上述图1所示方法的全部或部分步骤。此外，处理组件1200可以包括一个或多个模块，便于处理组件1200和其他组件之间的交互。例如，处理组件1200可以包括多媒体模块，以方便多媒体组件1205和处理组件1200之间的交互。

电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统，一个或多个电源，及其他与为终端设备生成、管理和分配电力相关联的组件。

多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中，显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板，显示屏可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

音频组件1206被配置为输出和/或输入语音信号。例如，音频组件1206包括一个麦克风(MIC)，当终端设备处于操作模式，如语音识别模式时，麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中，音频组件1206还包括一个扬声器，用于输出语音信号。

输入/输出接口1207为处理组件1200和外围接口模块之间提供接口，上述外围接口模块可以是点击轮，按钮等。这些按钮可包括但不限于：音量按钮、启动按钮和锁定按钮。

传感器组件1208包括一个或多个传感器，用于为终端设备提供各个方面的状态评估。例如，传感器组件1208可以检测到终端设备的打开/关闭状态，组件的相对定位，用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在，包括检测用户与终端设备间的距离。在一些实施例中，该传感器组件1208还可以包括摄像头等。

通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个实施例中，该终端设备中可以包括SIM卡插槽，该SIM卡插槽用于插入SIM卡，使得终端设备可以登录GPRS网络，通过互联网与服务器建立通信。

由上可知，在图5实施例中所涉及的通信组件1203、音频组件1206以及输入/输出接口1207、传感器组件1208均可以作为图4实施例中的输入设备的实现方式。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于图像识别的行为检测方法，其特征在于，包括以下步骤：

对待检测图像进行人体检测，获取人体框；

2.根据权利要求1所述的基于图像识别的行为检测方法，其特征在于，确定所述待检测图像是否存在目标行为的过程还包括：

3.根据权利要求1或2所述的基于图像识别的行为检测方法，其特征在于，所述行为识别模型的生成过程包括：

和/或，

4.根据权利要求3所述的基于图像识别的行为检测方法，其特征在于，在生成行为识别模型时，还包括：

5.根据权利要求1所述的基于图像识别的行为检测方法，其特征在于，若利用所述行为识别模型检测出所述待检测图像中存在目标行为，则生成目标信号，并将所述目标信号传输至预警系统；

6.根据权利要求1所述的基于图像识别的行为检测方法，其特征在于，若所述人体图像的尺寸小于预设尺寸，则认定所述待检测图像不存在目标行为。

7.一种基于图像识别的行为检测系统，其特征在于，包括有：

8.根据权利要求7所述的基于图像识别的行为检测系统，其特征在于，还包括有：

9.根据权利要求7或8所述的基于图像识别的行为检测系统，其特征在于，所述行为识别模型的生成过程包括：

和/或，

10.根据权利要求9所述的基于图像识别的行为检测系统，其特征在于，在生成行为识别模型时，还包括：

11.一种计算机设备，其特征在于，包括：

一个或多个处理器；和

存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行所述指令时，使得所述设备执行如权利要求1-6中任意一项所述的方法。

12.一个或多个机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行所述指令时，使得设备执行如权利要求1-6中任意一项所述的方法。