CN112749677A

CN112749677A - 玩手机行为识别方法、装置和电子设备

Info

Publication number: CN112749677A
Application number: CN202110084427.4A
Authority: CN
Inventors: 王文雅; 林焕凯; 王祥雪; 陈利军; 董振江; 刘双广
Original assignee: Xidian University; Gosuncn Technology Group Co Ltd
Current assignee: Xidian University; Gosuncn Technology Group Co Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-04

Abstract

本申请是关于一种玩手机行为识别方法、装置和电子设备。该方法包括：提取监控视频中包含人物图像的视频帧；对视频帧进行人体检测；根据检测结果，截取包含人体的周围区域图片；采用注入了注意力机制的小目标识别算法对周围区域图片进行识别来判断周围区域图片是否包含手机；确认周围区域图片包含手机且周围区域图片对应的视频帧为预设视频帧，则判断监控视频中存在玩手机行为。本申请使用加入了注意力机制的小目标识别算法来识别图片中的手机，提高手机检测精度，进一步提高了办公环境玩手机行为识别的准确度。

Description

玩手机行为识别方法、装置和电子设备

技术领域

本申请涉及图像识别技术领域，尤其涉及玩手机行为识别方法、装置和电子设备。

背景技术

伴随着平安城市、智慧城市建设的推动、高清视频技术的应用和普及，如何对视频大数据进行分析并提取有效的信息，已经成为下一代信息技术发展的关键。其中如何对作为视频大数据核心的人的动作、行为进行快速、准确的分析与处理，从而对于突发异常事件进行实时检测，能够有效的进行预判并且及时处理，显得尤为重要。随着智能手机的快速发展与普及，它使人们的生活更加的便捷和丰富多彩，越来越多的人愿意把更多的时间花费在手机上。与此同时，由于人对于手机的依赖程度越来越严重，在实际场景中，由于玩手机造成的事故屡见不鲜。比如驾驶员在开车时因为玩手机而手离开方向盘，导致发生车祸；行人在过马路时因为玩手机与车辆相撞；一些特殊行业如铁路部门，需要对员工采用军事化的管理方式，对员工的一些违规行为要做到实时预警，其中就包括通过摄像头检测员工是否玩手机；在学校里面，需要监控课堂纪律，检测学生是否有玩手机行为。玩手机行为识别算法属于一个比较新的领域，相关技术还比较少。可以了解到的现有玩手机行为识别算法大部分都是采用基于深度学习的目标检测算法，做到人体检测和手机检测，在此基础上，添加人脸朝向识别系统等，实现办公区域工作人员玩手机的检测。玩手机行为识别算法主要依赖于目标检测算法，人脸朝向识别算法等，其中目标检测算法中主要使用了人体检测算法、手机检测算法等。人体检测大多采用Refinedet算法，手机检测一般为小目标检测，多采用AZ-NET或PGAN算法等；人脸朝向识别算法大多采用LBP算法。这些识别技术存在如下问题：在办公区域场景下，受摄像头拍摄角度影响，人脸会存在一定程度的遮挡，人脸朝向识别不清，容易出现误检情况，影响检测结果。在办公区域场景下，手机在每一帧图片里往往以一种小目标对象出现，且会存在不同程度的遮挡，容易出现漏检情况，影响检测结果。

发明内容

为克服相关技术中存在的问题，本申请提供一种玩手机行为识别方法、装置和电子设备，该方法使用加入了注意力机制的小目标识别算法来识别图片中的手机，提高手机检测精度，进一步提高了办公环境玩手机行为识别的准确度。

本申请第一方面提供一种玩手机行为识别方法，包括：提取监控视频中包含人物图像的视频帧；对所述视频帧进行人体检测；根据检测结果，截取包含人体的周围区域图片；采用注入了注意力机制的小目标识别算法对所述周围区域图片进行识别来判断所述周围区域图片是否包含手机；确认所述周围区域图片包含手机且所述周围区域图片对应的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为。

本方法还包括：对所述包含人体的周围区域图片按照预设大小进行裁剪得到包含手机的周围区域的待识别图片；其中，采用注入了注意力机制的小目标识别算法对所述周围区域图片进行识别来判断所述周围区域图片是否包含手机，包括：采用包含注意力机制的小目标识别算法对所述待识别图片进行识别来判断所述待识别图片是否包含手机；其中，确认所述周围区域图片包含手机且所述图片的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为，包括：

确认所述待识别图片包含手机且当前待识别图片对应的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为。

本方法还包括：对所述待识别图片放大；其中，采用包含注意力机制的小目标识别算法对待识图片进行识别来判断所述待识别图片是否包含手机，包括：采用包含注意力机制的小目标识别算法对放大后的待识别图片进行识别来判断所述待识别图片是否包含手机。

其中，确认所述待识别图片包含手机且当前待识别图片对应的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为包括：根据包含手机的待识别图片中的手机亮度判断所述待识别图片对应的视频帧是否为疑似玩手机视频帧；判断为是，则判断待识别图片对应的视频帧是否为预设视频帧；判断为是，则当前监控视频中存在玩手机行为。

其中，小目标识别算法为TinyDSOD算法，其中，注意力模块为SE注意力模块。

本申请第二方面提供一种玩手机行为识别装置，包括：监控图片提取单元、人体区域监测单元、周围区域图截取单元、手机识别单元和玩手机行为判断单元；监控图片提取单元，用于提取监控视频中包含人物图像的视频帧；人体区域监测单元，用于对所述视频帧进行人体检测；周围区域图截取单元，用于根据检测结果，截取包含人体的周围区域图片；手机识别单元，用于采用注入了注意力机制的小目标识别算法对所述周围区域图片进行识别来判断所述周围区域图片是否包含手机；玩手机行为判断单元，用于确认所述周围区域图片包含手机且所述周围区域对应的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为。

所述装置还包括：裁剪单元，用于所述对包含人体的周围区域图片按照预设大小进行裁剪得到包含手机的周围区域的待识别图片；其中，手机识别单元，用于采用包含注意力机制的小目标识别算法对所述待识别图片进行识别来判断所述待识别图片是否包含手机；其中，玩手机行为判断单元，用于确认所述待识别图片包含手机且当前待识别图片对应的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为。

所述装置还包括：图片放大单元；图片放大单元，用于对所述待识别图片放大；其中，手机识别单元，用于采用包含注意力机制的小目标识别算法对放大后的待识别图片进行识别来判断所述待识别图片是否包含手机。

其中，所述玩手机行为判断单元包括：第一判断模块和第二判断模块；第一判断模块，用于根据包含手机的待识别图片中的手机亮度判断所述待识别图片对应的视频帧是否为疑似玩手机视频帧；第二判断模块，用于根据第一判断模块判断出的疑似玩手机视频帧的帧数判断所述监控视频中是否存在玩手机行为。

本申请第三方面提供一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：使用加入了注意力机制的小目标识别算法来识别图片中的手机，提高手机检测精度，进一步提高了办公环境玩手机行为识别的准确度。

本申请的技术方案，在进行手机检测识别之前对图片进行裁剪，且放大包含手机的图片，即放大手机小目标，降低漏检率；改进小目标识别算法，加入注意力机制，提高手机检测精度；做完手机检测后，再做手机屏幕亮暗与否二分类进一步提高办案区场景下玩手机行为识别的精度，降低漏检和误检率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例示出的玩手机行为识别方法的流程示意图；

图2是本申请实施例示出的玩手机行为方法的另一流程示意图；

图3是本申请实施例示出的玩手机行为识别装置的结构示意图；

图4本申请实施例示出的玩手机行为装置中手机识别单元的详细结构示意图；

图5是本申请实施例示出的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的优选实施方式。虽然附图中显示了本申请的优选实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

针对上述问题，本申请实施例提供一种玩手机行为识别方法，使用加入了注意力机制的小目标识别算法来识别图片中的手机，提高了手机检测精度，进一步提高了办公环境玩手机行为识别的准确度。

以下结合附图详细描述本申请实施例的技术方案。

图1是本申请实施例示出的玩手机行为识别方法的流程示意图。

参见图1，一种玩手机行为识别方法，包括：

S101，提取监控视频中包含人物图像的视频帧。

本步骤可以是通过对监控区域的图像视频进行采集，从采集的视频中提取包含人物图像的视频帧。

S102，对视频帧进行人体检测。

S103，根据检测结果，截取包含人体的周围区域图片。

本步骤可以是根据视频帧中检测出来的人体框，截取视频帧中人体框周围区域的图片。

S104，采用注入了注意力机制的小目标识别算法对周围区域图片进行识别来判断周围区域图片是否包含手机。

本步骤的小目标识别算法可以是TinyDSOD算法，其中，注意力模块可以是SE注意力模块。即本步骤可以是采用了加入了SE注意力机制的TinyDSOD算法对周围区域图片进行识别，来判断周围区域图片中是否包含手机。本步骤中采用包含注意力机制的小目标识别算法识别出周围区域图片中可能有一部分包含手机，也有一部分不包含手机。如果一个视频帧裁剪出来的所有周围区域图片都不包含手机，则认为该视频帧不存在玩手机行为。如果一个视频帧裁剪出来的所有周围区域图片中有一部分包含手机，则进入最后一步，S105判断待识别图片对应的视频帧是否为预设视频帧，当判断为是时，则进入S106当前监控视频中存在玩手机行为。当判断为否时，则继续进行下一帧视频的识别，返回S101。本实施例的预设视频帧是根据实验得出的预设的视频帧，是在连续多个视频帧出现疑似玩手机行为时才确认当前监控视频中存在玩手机的行为。具体的本实施例预设视频帧可以设定为第40视频帧，即判断当前周围区域对应的频帧为第40视频帧时，则判断当前监控视频中存在玩手机行为。本实施例40帧对应的视频时间是8秒，即判断为玩手机行为的视频帧连续包含40帧，即手机亮屏时间持续8s，可以认为该视频存在玩手机行为。

本实施例的一种玩手机行为识别方法，包括：提取监控视频中包含人物图像的视频帧；对视频帧进行人体检测；根据检测结果，截取包含人体的周围区域图片；采用注入了注意力机制的小目标识别算法对周围区域图片进行识别来判断周围区域图片是否包含手机；确认周围区域图片包含手机且周围区域图片对应的视频帧为预设视频帧，则判断监控视频中存在玩手机行为。本实施例使用加入了注意力机制的小目标识别算法来识别图片中的手机，提高手机检测精度，进一步提高了办公环境玩手机行为识别的准确度。

图2是本申请实施例示出的玩手机行为方法的另一流程示意图。

参照图2，一种玩手机行为识别方法，包括：

S201，提取监控视频中包含人物图像的视频帧。

S202，对视频帧进行人体检测。

S203，根据检测结果，截取包含人体的周围区域图片。

之后，是S204，对周围区域图片按照预设大小进行裁剪得到包含手机的周围区域部分图片的待识别图片；本实施例的预设大小可以是384*384。即将周围区域图片按照384*384大小进行裁剪，得到多个384*384大小的待识别图片。这些待识别图片中有一部分图片是包含了手机的。

S204之后，S205，对待识别图片放大。本实施例对待识别图片进行放大处理可以降低漏检率。

完成S205之后进入S206，采用包含注意力机制的小目标识别算法对放大后的待识别图片进行识别来判断待识别图片是否包含手机。

本步骤的小目标识别算法可以是TinyDSOD算法，其中，注意力模块为SE注意力模块。即本步骤可以是采用了加入了SE注意力机制的TinyDSOD算法对待识别图片进行识别，来判断待识别图片中是否包含手机。本步骤中采用包含注意力机制的小目标识别算法识别出的待识别图片中可能有一部分包含手机，也有一部分不包含手机。如果一个视频帧分割出来的所有待识别图片都不包含手机，则认为该视频帧不存在玩手机行为。如果一个视频帧裁剪出来的所有待识别图片中有一部分包含手机，则进入，S207根据包含手机的待识别图片中的手机亮度判断待识别图片对应的视频帧是否为疑似玩手机视频帧。

本步骤可以采用ResNet-18网络来对包含手机的待识别图片中手机屏幕的亮暗进行判断。ResNet为了解决VGG网络达到19层后再增加层数就开始导致分类性能下降的问题，提出了深度残差学习模块，深度残差学习模块通过将输入分为两部分，identity mapping和residual mapping。如果网络已经到达最优，继续加深网络，residual mapping将被push为0，只剩下identity mapping，这样理论上网络一直处于最优状态了，网络的性能也就不会随着深度增加而降低了。

当S207判断为否时，则进入，S210当前监控视频帧中不存在玩手机行为。当判断为是时，则进入S208，判断待识别图片对应的视频帧是否为预设视频帧，当判断为是时，则进入S209，当前监控视频中存在玩手机行为。当判断为否时，则继续进行下一帧视频的识别，返回S201。S208中的预设视频帧是根据实验得出的预设的视频帧，是在连续多个视频帧出现疑似玩手机行为时才确认当前监控视频中存在玩手机的行为。具体的本实施例预设视频帧可以设定为第40视频帧，即判断当前周围区域对应的频帧为第40视频帧时，则判断当前监控视频中存在玩手机行为，即判断当前疑似玩手机视频帧为第40视频帧时则判断当前监控视频中存在玩手机行为。本实施例40帧对应的视频时间是8秒，即疑似玩手机行为的视频帧连续包含40帧，即手机亮屏时间持续8s，可以认为该视频存在玩手机行为。

本实施例在进行手机检测识别之前对图片进行裁剪，且放大包含手机的图片，即放大手机小目标，降低漏检率；改进小目标识别算法，加入注意力机制，提高手机检测精度；做完手机检测后，再做手机屏幕亮暗与否二分类进一步提高办案区场景下玩手机行为识别的精度，降低漏检和误检率。

与前述应用功能实现方法实施例相对应，本申请还提供了一种玩手机行为识别装置、电子设备及相应的实施例。

图3是本申请实施例示出的玩手机行为识别装置的结构示意图。

参见图3，一种玩手机行为识别装置，包括：监控图片提取单元301、人体区域监测单元302、周围区域图截取单元303、手机识别单元304和玩手机行为判断单元305。

监控图片提取单元301，用于提取监控视频中包含人物图像的视频帧。

人体区域监测单元302，用于对视频帧进行人体检测。

周围区域图截取单元303，用于根据检测结果，截取包含人体的周围区域图片。周围区域图截取单元303可以是根据视频帧中检测出来的人体框，截取视频帧中人体框周围区域的图片。

手机识别单元304，用于采用注入了注意力机制的小目标识别算法对周围区域图片进行识别来判断周围区域图片是否包含手机。手机识别单元304采用的小目标识别算法可以是TinyDSOD算法，其中，注意力模块为SE注意力模块。即手机识别单元304可以是采用了加入了SE注意力机制的TinyDSOD算法对周围区域图片进行识别，来判断周围区域图片中是否包含手机。手机识别单元304采用包含注意力机制的小目标识别算法识别出周围区域图片中可能有一部分包含手机，也有一部分不包含手机。如果一个视频帧裁剪出来的所有周围区域图片都不包含手机，则认为该视频帧不存在玩手机行为。如果一个视频帧裁剪出来的所有周围区域图片中有一部分包含手机，则认为该视频帧可能存在玩手机行为。

玩手机行为判断单元305，用于确认周围区域图片包含手机且周围区域对应的视频帧为预设视频帧，则判断监控视频中存在玩手机行为。

玩手机行为判断单元305可以是判断待识别图片对应的视频帧是否为预设视频帧，当判断为是时，则当前监控视频中存在玩手机行为。当判断为否时，则继续进行下一帧视频的识别。本实施例的预设视频帧是根据实验得出的预设的视频帧，是在连续多个视频帧出现疑似玩手机行为时才确认当前监控视频中存在玩手机的行为。具体的本实施例预设视频帧可以设定为第40视频帧，即判断当前周围区域对应的频帧为第40视频帧时，则判断当前监控视频中存在玩手机行为，即判断当前周围区域对应的频帧为第40帧时，则判断当前监控视频中存在玩手机行为。本实施例40帧对应的视频时间是8秒，即判断为玩手机行为的视频帧连续包含40帧，即手机亮屏时间持续8s，可以认为该视频存在玩手机行为。

本实施例的装置包括：用于提取监控视频中包含人物图像的视频帧的监控图片提取单元；用于对视频帧进行人体检测的人体区域监测单元。用于根据检测结果，截取包含人体的周围区域图片的周围区域图截取单元。用于采用注入了注意力机制的小目标识别算法对周围区域图片进行识别来判断周围区域图片是否包含手机的手机识别单元。本实施例玩手机行为使用加入了注意力机制的小目标识别算法来识别图片中的手机，提高手机检测精度，进一步提高了办公环境玩手机行为识别的准确度。

在优选实施方式中，本实施例的装置还包括：裁剪单元306；裁剪单元306，用于对包含人体的周围区域图片按照预设大小进行裁剪得到包含手机的周围区域的待识别图。

在优选实施方式中，还包括：图片放大单元307；图片放大单元307，用于对待识别图片放大。

图4本申请实施例示出的玩手机行为装置中手机识别单元的详细结构示意图。

参照图4，手机识别单元304包括：第一判断模块401和第二判断模块402。

第一判断模块401，用于根据包含手机的待识别图片中的手机亮度判断待识别图片对应的视频帧是否为疑似玩手机视频帧；

第二判断模块402，用于根据第一判断模块401判断出的疑似玩手机视频帧的帧数判断监控视频中是否存在玩手机行为。

结合方法实施例对本装置工作过程进行详细介绍，首先监控图片提取单元301提取监控视频中包含人物图像的视频帧。监控图片提取单元301可以是通过对监控区域的图像视频进行采集，从采集的视频中提取包含人物图像的视频帧。之后人体区域监测单元302对视频帧进行人体检测。周围区域图截取单元303根据检测结果，截取包含人体的周围区域图片。周围区域图截取单元303可以是根据视频帧中检测出来的人体框，截取视频帧中人体框周围区域的图片。之后，是裁剪单元306对周围区域图片按照预设大小进行裁剪得到包含手机的周围区域部分图片的待识别图片。本实施例预设大小可以是384*384。裁剪单元306将周围区域图片按照384*384大小进行裁剪，得到多个384*384大小的待识别图片。这些待识别图片中有一部分图片是包含了手机的。

之后，图片放大单元307对待识别图片放大。图片放大单元307对待识别图片进行放大处理可以降低漏检率。

之后手机识别单元304采用包含注意力机制的小目标识别算法对放大后的待识别图片进行识别来判断待识别图片是否包含手机。本实施例的手机识别单元304小目标识别算法可以是TinyDSOD算法，其中，注意力模块为SE注意力模块。即手机识别单元304可以是采用了加入了SE注意力机制的TinyDSOD算法对待识别图片进行识别来判断待识别图片中是否包含手机。手机识别单元304中采用包含注意力机制的小目标识别算法识别出的待识别图片中可能有一部分包含手机，也有一部分不包含手机。如果一个视频帧分割出来的所有待识别图片都不包含手机，则认为该视频帧不存在玩手机行为。如果一个视频帧裁剪出来的所有待识别图片中有一部分包含手机，则玩手机行为判断单元305的第一判断模块401根据包含手机的待识别图片中的手机亮度判断待识别图片对应的视频帧是否为疑似玩手机视频帧。

第一判断模块401采用ResNet-18网络来对包含手机的待识别图片中手机屏幕的亮暗进行判断。ResNet为了解决VGG网络达到19层后再增加层数就开始导致分类性能下降的问题，提出了深度残差学习模块，深度残差学习模块通过将输入分为两部分，identitymapping和residual mapping。如果网络已经到达最优，继续加深网络，residual mapping将被push为0，只剩下identity mapping，这样理论上网络一直处于最优状态了，网络的性能也就不会随着深度增加而降低了。

第一判断模块401判断为否时，则当前监控视频帧中不存在玩手机行为；当判断为是，则玩手机行为判断单元305的第二判断模块402根据第一判断模块401判断出的疑似玩手机视频帧的帧数判断监控视频中是否存在玩手机行为。即第二判断模块402判断待识别图片对应的视频帧是否为预设视频帧，当判断为是时，则当前监控视频中存在玩手机行为。当判断为否时，则继续进行下一帧视频的识别。第二判断模块402中预设视频帧是根据实验得出的预设的视频帧，是在连续多个视频帧出现疑似玩手机行为时才确认当前监控视频中存在玩手机的行为。具体的本实施例预设视频帧可以设定为第40视频帧，即判断当前周围区域对应的频帧为第40视频帧时，则判断当前监控视频中存在玩手机行为，即判断当前疑似玩手机视频帧为第40帧时则判断当前监控视频中存在玩手机行为。本实施例40帧对应的视频时间是8秒，即疑似玩手机行为的视频帧连续包含40帧，即手机亮屏时间持S续8s，可以认为该视频存在玩手机行为。做完手机检测，后再做手机屏幕亮暗与否二分类，进一步提高办案区场景下玩手机行为识别的精度，降低漏检和误检率。

本实施例的装置包括：用于提取监控视频中包含人物图像的视频帧的监控图片提取单元；用于对视频帧进行人体检测的人体区域监测单元。用于根据检测结果，截取包含人体的周围区域图片的周围区域图截取单元。用于采用注入了注意力机制的小目标识别算法对周围区域图片进行识别来判断周围区域图片是否包含手机的手机识别单元；用于对包含人体的周围区域图片按照预设大小进行裁剪得到包含手机的周围区域的待识别图的裁剪单元；用于对待识别图片放大的图片放大单元307。本实施例对图片进行裁剪，且放大包含手机的图片，即放大手机小目标，降低漏检率；改进小目标识别算法，加入注意力机制，提高手机检测精度；做完手机检测，后再做手机屏幕亮暗与否二分类，进一步提高办案区场景下玩手机行为识别的精度，降低漏检和误检率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图5是本申请实施例示出的电子设备的结构示意图。

参见图5，电子设备500包括存储器510和处理器520。

处理器520可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器510可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器510可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器510可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器510上存储有可执行代码，当可执行代码被处理器520处理时，可以使处理器520执行上文述及的方法中的部分或全部。

上文中已经参考附图详细描述了本申请的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本申请所必须的。另外，可以理解，本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

本领域技术人员还将明白的是，结合这里的申请所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本申请的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种玩手机行为识别方法，包括：

提取监控视频中包含人物图像的视频帧；

对所述视频帧进行人体检测；

根据检测结果，截取包含人体的周围区域图片；

采用注入了注意力机制的小目标识别算法对所述周围区域图片进行识别来判断所述周围区域图片是否包含手机；

确认所述周围区域图片包含手机且所述周围区域图片对应的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为。

2.根据权利要求1所述的方法，还包括：

对所述包含人体的周围区域图片按照预设大小进行裁剪得到包含手机的周围区域的待识别图片；

其中，采用注入了注意力机制的小目标识别算法对所述周围区域图片进行识别来判断所述周围区域图片是否包含手机，包括：

采用包含注意力机制的小目标识别算法对所述待识别图片进行识别来判断所述待识别图片是否包含手机；

其中，确认所述周围区域图片包含手机且所述图片的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为，包括：

3.根据权利要求2所述的方法，还包括：对所述待识别图片放大；

其中，采用包含注意力机制的小目标识别算法对待识图片进行识别来判断所述待识别图片是否包含手机，包括：

采用包含注意力机制的小目标识别算法对放大后的待识别图片进行识别来判断所述待识别图片是否包含手机。

4.根据权利要求2或3所述的方法，其中，确认所述待识别图片包含手机且当前待识别图片对应的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为包括：

根据包含手机的待识别图片中的手机亮度判断所述待识别图片对应的视频帧是否为疑似玩手机视频帧；

判断为是，则判断待识别图片对应的视频帧是否为预设视频帧；

判断为是，则当前监控视频中存在玩手机行为。

5.根据权利要求4所述的方法，其中，所述小目标识别算法为TinyDSOD算法，其中，所述注意力模块为SE注意力模块。

6.一种玩手机行为识别装置，包括：监控图片提取单元、人体区域监测单元、周围区域图截取单元、手机识别单元和玩手机行为判断单元；

监控图片提取单元，用于提取监控视频中包含人物图像的视频帧；

人体区域监测单元，用于对所述视频帧进行人体检测；

周围区域图截取单元，用于根据检测结果，截取包含人体的周围区域图片；

手机识别单元，用于采用注入了注意力机制的小目标识别算法对所述周围区域图片进行识别来判断所述周围区域图片是否包含手机；

玩手机行为判断单元，用于确认所述周围区域图片包含手机且所述周围区域对应的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为。

7.根据权利要求6所述的装置，还包括：裁剪单元；

裁剪单元，用于所述对包含人体的周围区域图片按照预设大小进行裁剪得到包含手机的周围区域的待识别图片；

手机识别单元，用于采用包含注意力机制的小目标识别算法对所述待识别图片进行识别来判断所述待识别图片是否包含手机；

玩手机行为判断单元，用于确认所述待识别图片包含手机且当前待识别图片对应的视频帧为预设视频帧，则判断所述监控视频中存在玩手机行为。

8.根据权利要求7所述的装置，还包括：图片放大单元；

图片放大单元，用于对所述待识别图片放大；其中，手机识别单元，用于采用包含注意力机制的小目标识别算法对放大后的待识别图片进行识别来判断所述待识别图片是否包含手机。

9.根据权利要求8所述的装置，其中，所述玩手机行为判断单元包括：第一判断模块和第二判断模块；

第一判断模块，用于根据包含手机的待识别图片中的手机亮度判断所述待识别图片对应的视频帧是否为疑似玩手机视频帧；

第二判断模块，用于根据第一判断模块判断出的疑似玩手机视频帧的帧数判断所述监控视频中是否存在玩手机行为。

10.一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-5中任一项所述的方法。