CN114187666A

CN114187666A - 边走路边看手机的识别方法及其系统

Info

Publication number: CN114187666A
Application number: CN202111590016.9A
Authority: CN
Inventors: 魏振生; 焦红艳; 陈守文; 段瑞霞; 肖思宇; 张祥; 乔寅; 李寅昌; 张泉; 崔雅然
Original assignee: CNOOC Information Technology Co Ltd
Current assignee: CNOOC Information Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-15
Anticipated expiration: 2041-12-23
Also published as: CN114187666B

Abstract

本申请涉及图像识别领域，公开了一种边走路边看手机的识别方法及其系统。该方法包括：使用卷积神经网络从包含运动目标的视频图像帧中检测行人和手机，得到行人目标框和手机目标框；确定行人目标框包围手机目标框；使用神经网络检测行人目标框中预先设定的多个人体关键点；在连续的视频图像帧上对多个人体关键点和手机框进行视频目标跟踪；如果在连续N个视频图像帧上，多个人体关键点和手机框相对于行人目标框的相对位置变化均小于预定的第一阈值，并且行人目标框在空间坐标系中的位移超过预设的第二阈值，则判定行人发生了边走路边看手机的行为，从而实现异常行为的自动识别。

Description

边走路边看手机的识别方法及其系统

技术领域

本申请涉及图像识别领域，特别涉及边走路边看手机的识别技术。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是已被公开的现有技术。

在很多工地生产场景下，生产的安全性至关重要，例如在工作场所都会要求带安全帽、穿工服装、手套、护目镜等，近些年除了劳保物品穿戴要求外，还对一些行为进行了约束，如走路不能看手机行为。因为一边走路一边看手机导致行人无法注意到环境中存在的危险，在生产工地这种有一定危险性的场景中，容易造成人身事故。

目前有两种方法识别该异常行为。方法一：在施工地雇佣大量的人力，在需要监控的地点实时监测，发现有该异常行为，则记录下产生的地点和时间，并对该异常行为产生预警和干预。方法二：在视频监控技术发达的今天，工地可以购买大量的网络摄像头和录像系统，并雇佣少量人力在录像系统中查看视频录像，人眼翻阅视频流。发现视频中有该异常行为，则产生告警记录，事后根据告警记录进行干预。

以上两种方法都会存在比较大问题。

方法一的问题在于，(1)人力消耗巨大，在多个点位需要多个安保人员实时侦察。(2)人工的工作强度大，工作环境不稳定，无论春夏秋冬、刮风下雨都需要保持警惕，及时通告告警事件。

方法二的问题在于：(1)虽然相比方法一减少了不少的人力，但仍需要一定量的人力查看视频；(2)人工查看视频工作量比较大，对眼睛负担太重，身体损害大。(3)因为人力是翻阅录像，告警有一定的延时，延时取决于人力数量和延时需求，无法做到当有违规事件产生时就告警。

发明内容

本申请的目的在于提供一种边走路边看手机的识别方法及其系统，可以自动识别出边走路边看手机的异常情况，且可以做到高度实时地告警。

本申请公开了一种，边走路边看手机的识别方法，包括：

获取视频图像帧；

使用卷积神经网络从包含运动目标的视频图像帧中检测行人和手机，得到行人目标框和手机目标框；

确定所述行人目标框包围所述手机目标框；

使用神经网络检测所述行人目标框中预先设定的多个人体关键点；

在连续的视频图像帧上对所述多个人体关键点和所述手机框进行视频目标跟踪；

如果在连续N个视频图像帧上，所述多个人体关键点和所述手机框相对于所述行人目标框的相对位置变化均小于预定的第一阈值，并且所述行人目标框在空间坐标系中的位移超过预设的第二阈值，则判定所述行人发生了边走路边看手机的行为，N为预先设定的大于1的整数。

在一个优选例中，所述使用卷积神经网络从包含运动目标的视频图像帧中检测行人和手机，之前还包括：

使用背景建模方法检测出所述包含运动目标的视频图像帧。

在一个优选例中，所述使用背景建模方法检测出所述包含运动目标的视频图像帧，进一步包括：

对视频图像帧的每一个点建立多个高斯模型；

在时间轴上不断更新所述高斯模型的均值和方差；

如果当前视频图像帧对应的像素点满足所述多个高斯模型的分布，则该像素点被判定为背景点，否则该像素点被判定为前景点。

在一个优选例中，所述多个人体关键点包括：左手、右手、左肘、右肘、左肩、右肩和头部。

在一个优选例中，所述在连续的视频图像帧上对所述多个人体关键点和所述手机框进行视频目标跟踪，进一步包括：

设定多个卡尔曼跟踪器分别跟踪多个目标，其中，目标包括所述多个人体关键点和所述手机框；

如果一个目标首次被检测出来，则将该目标的状态设置为候选目标；

对于每一个候选目标，如果在连续多帧的每一帧中跟踪位置和检测位置的匹配度均满足第一预设条件，则将该候选目标的状态设置为正式目标，否则删除该候选目标；

对于每一个正式目标，如果在连续多帧的每一帧中跟踪位置和检测位置的匹配度均不满足第二预设条件，则将该正式目标的状态设置为消失目标，否则维持该正式目标状态；

对于每一个消失目标，如果在连续多帧的每一帧中跟踪位置和检测位置的匹配度均满足第三预设条件，则将该消失目标的状态设置为正式目标，否则删除该消失目标。

在一个优选例中，所述获取视频图像帧，进一步包括：

获取视频码流；

对所获取的视频码流进行解码，得到视频图像帧。

本申请还公开了一种边走路边看手机的识别系统，包括：

图像获取单元，被配置为获取视频图像帧；

卷积神经网络，被配置为从包含运动目标的视频图像帧中检测行人和手机，得到行人目标框和手机目标框；

目标框关系识别单元，被配置为识别出所述行人目标框包围所述手机目标框的图像帧；

神经网络，被配置为在所述行人目标框包围所述手机目标框的图像帧中检测所述行人目标框中预先设定的多个人体关键点；

目标跟踪单元，被配置为在连续的视频图像帧上对所述多个人体关键点和所述手机框进行视频目标跟踪；

行为识别单元，被配置为，如果在连续N个视频图像帧上，所述多个人体关键点和所述手机框相对于所述行人目标框的相对位置变化均小于预定的第一阈值，并且所述行人目标框在空间坐标系中的位移超过预设的第二阈值，则判定所述行人发生了边走路边看手机的行为，N为预先设定的大于1的整数。

在一个优选例中，所述目标跟踪单元进一步包括多个卡尔曼跟踪器和状态机；

所述多个卡尔曼跟踪器被配置为分别跟踪多个目标，其中，目标包括所述多个人体关键点和所述手机框；

所述状态机被配置为：

对于每一个正式目标，如果在连续多帧的每一帧中跟踪位置和检测位置的匹配度均不满足第二预设条件，则将该正式目标的状态设置为消失目标，否则维持该正式目标的状态；

本申请还公开了一种边走路边看手机的识别系统，包括：

存储器，用于存储计算机可执行指令；以及，

处理器，与所述存储器耦合，用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。

本申请还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。

本申请的实施方式可以自动识别实时视频中边走路边看手机的行人。相较于现有技术的两种人工方法，本申请的技术方案完全摒弃了人工识别的方法，大大减少了人力，节省了工作量，并且确保了报警的实时性。

上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征，都可以自由地互相组合，从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载)，除非这种技术特征的组合在技术上是不可行的。例如，在一个例子中公开了特征A+B+C，在另一个例子中公开了特征A+B+D+E，而特征C和D是起到相同作用的等同技术手段，技术上只要择一使用即可，不可能同时采用，特征E技术上可以与特征C相组合，则，A+B+C+D的方案因技术不可行而应当不被视为已经记载，而A+B+C+E的方案应当视为已经被记载。

附图说明

图1是根据本申请的第一实施方式的边走路边看手机的识别方法流程示意图；

图2是根据本申请一个实施例的行人目标框包围手机目标框的示意图；

图3是根据本申请一个实施例的完整人体关键点的示意图；

图4是根据本申请一个实施例的目标跟踪实现方法示意图；

图5是根据本申请一个实施例的一个人边走路边看手机的由远及近的手机以及关键点的分布示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

本申请的第一实施方式涉及一种边走路边看手机的识别方法，其流程如图1所示，该方法包括以下步骤：

在步骤101中，获取视频图像帧。在该步骤中，可以先获取视频码流，然后对对所获取的视频码流进行解码，得到视频图像帧。可选的，在一个实施例中，从监控摄像头直接获取视频码流，然后采用以下各步骤实时检测边走路边看手机的异常状态，并触发相应的报警。可选的，在一个实施例中，可以从服务器获取历史的监控视频码流，检测边走路边看手机的异常状态，并生成相应的报告。

一张高清图片数据量比较大，监控摄像头采集图片的帧率也相对较高，每秒能采集25-60帧高清图像，每天需要传输的数据量就会很大。所以监控摄像头都会对视频帧进行编码后再传输，在接收端就需要在收到视频帧编码码流后解码得到单张的视频图像帧。可选的，在一个实施例中，可以采用rtsp协议对码流进行解析得到视频图像帧。

此后进入步骤102，使用背景建模方法检测出包含运动目标的视频图像帧。

此后进入步骤103，使用卷积神经网络从包含运动目标的视频图像帧中检测行人和手机，得到行人目标框和手机目标框。可选的，在一个实施例中，可以yolov5的目标检测框架。在其他实施例中，也可以使用其他基于卷积神经网络的算法完成目标检测，例如采用FOCS等anchor free的算法。

此后进入步骤104，判断行人目标框是否包围手机目标框(如图2所示)，如果是则进入步骤105，否则回到步骤101对后续视频图像帧继续进行处理。可选的，在一个实施例中，可以计算行人目标框和手机目标框的交集，如果该交集等于手机目标框，则可以判定行人目标框包围了手机目标框。

在步骤105中，使用神经网络检测行人目标框中预先设定的多个人体关键点。如图3所示，比较完整的人体关键点包含面部、手、胳膊、肩膀、腰部等18个关键检测点，可以采用自顶向下的HRNet在目标检测框中回归18个关键点的位置，也可以采用自低向上的方法直接回归多目标的人体关键点，例如由CMU提出的openpose算法。可选的，在一个实施例中，预先设定的多个人体关键点可以包括：左手、右手、左肘、右肘、左肩、右肩和头部。选择这些特征点可以满足边走路边看手机行为识别的识别需要，而且训练和推理的计算量较小，运算速度较快。在其他实施例中，也可以选择其他的人体关键点，例如可以用鼻子关键点代替头部。

此后进入步骤106，在连续的视频图像帧上对多个人体关键点和手机框进行视频目标跟踪。

此后进入步骤107，如果在连续N个视频图像帧上，多个人体关键点和手机框相对于行人目标框的相对位置变化均小于预定的第一阈值，并且行人目标框在空间坐标系中的位移超过预设的第二阈值，则判定行人发生了边走路边看手机的行为，N为预先设定的大于1的整数。

一个人边走路边看手机由远及近(从左到右)时，手机以及关键点的分布如图5所示，图5中示出了三张有代表性的视频图像帧。如果判定连续多帧内多个关键点和手机框相对行人框位置基本不发生变化，并且行人框在空间范围内有一定的位移，则可以判定行人发生了边走路边看手机的行为。

判定行人发生了边走路边看手机的行为之后的处理方式可以是多种多样的。可选的，在一个实施例中，如果确定发生了边走路边看手机的行为，可以直接在控制台报警。可选的，在一个实施例中，可以对行人进一步进行人脸识别，得到行人的标识，向该标识对应的移动终端(例如该行人使用的手机)发送警告信息，以实时提醒该行人。可选的，在一个实施例中，还可以将检测到边走路边看手机行为的图像存储到指定存储器。

可选的，在一个实施例中，步骤102还可以进一步包括以下子步骤：

对视频图像帧的每一个点建立多个高斯模型；

在时间轴上不断更新高斯模型的均值和方差；

如果当前视频图像帧对应的像素点满足多个高斯模型的分布，则该像素点被判定为背景点，否则该像素点被判定为前景点。前景点的集合就构成了动态目标。

边走路边看手机是个连续帧的动态行为，在视频画面中一定是因为动态前景引起的，本实施例中利用背景建模方法对背景进行建模，不满足模型分布的一定是前景，利用该方法可以检测到动态目标。背景模型采用对每个像素点进行建模，对每个像素点建立多个高斯，在时间轴上面不断更新高斯的均值和方差，当前帧对应像素点满足该多个高斯的分布时则为背景点，不满足该分布则为前景点。该算法计算量低，能过滤到大部分没有运动物体的图像帧，从而减少大量的计算量。一天24小时，有动态目标的场景只有很少时间才会有人经过摄像头，能过滤掉大部分无效的视频图像帧计算。

可选的，在一个实施例中，步骤102中，还可以采用其他模型进行背景建模，如vibe(Visual Background Extractor)将随机选择机制引入到背景建模中，通过随机选择样本估计背景模型的方式描述实际场景的随机波动性。通过调节时间二次抽样因子，使极少的样本值就能覆盖所有的背景样本，兼顾了准确率和计算负载。抑噪能力强，噪声等干扰信息在传播之前须与背景模型相匹配，显而易见，无法匹配，从而抑制了干扰信息的传播。

可选的，在一个实施例中，步骤106可以进一步包括以下子步骤(参见图4)：

设定多个卡尔曼跟踪器分别跟踪多个目标，目标包括多个人体关键点和手机框。

如果一个目标首次被检测出来，则将该目标的状态设置为候选目标。

对于每一个候选目标，如果在连续多帧的每一帧中跟踪位置和检测位置的匹配度均满足第一预设条件，则将该候选目标的状态设置为正式目标，否则删除该候选目标。跟踪位置为根据上一帧检测结果，利用卡尔曼跟踪器预测当前帧得到的位置；检测位置为用目标检测器检测得到的目标位置。利用检测位置和跟踪位置更新卡尔曼跟踪器的内部参数。

对于每一个正式目标，如果在连续多帧的每一帧中跟踪位置和检测位置的匹配度均不满足第二预设条件，则将该正式目标的状态设置为消失目标，否则维持该正式目标状态。

可选的，在一个实施例中，第一预设条件、第二预设条件和第三预设可以是预先设定的匹配度阈值，例如匹配度大于阈值时被认为是满足预设条件。

可选的，在一个实施例中，第一预设条件、第二预设条件和第三预设条件可以是不同的条件。例如第一预设条件比第三预设条件更严格(或者说更难以达到)。

可选的，在一个实施例中，第一预设条件、第二预设条件和第三预设条件可以是相同的条件。

本申请的第二实施方式涉及一种边走路边看手机的识别系统，该系统包括：

图像获取单元，被配置为获取视频图像帧。

卷积神经网络，被配置为从包含运动目标的视频图像帧中检测行人和手机，得到行人目标框和手机目标框。

目标框关系识别单元，被配置为识别出行人目标框包围手机目标框的图像帧。

神经网络，被配置为在行人目标框包围手机目标框的图像帧中检测行人目标框中预先设定的多个人体关键点。

目标跟踪单元，被配置为在连续的视频图像帧上对多个人体关键点和手机框进行视频目标跟踪。

行为识别单元，被配置为，如果在连续N个视频图像帧上，多个人体关键点和手机框相对于行人目标框的相对位置变化均小于预定的第一阈值，并且行人目标框在空间坐标系中的位移超过预设的第二阈值，则判定行人发生了边走路边看手机的行为，N为预先设定的大于1的整数。

可选的，在一个实施例中，目标跟踪单元可以进一步包括多个卡尔曼跟踪器和状态机。其中，

多个卡尔曼跟踪器被配置为分别跟踪多个目标，目标包括多个人体关键点和手机框。

状态机被配置为：

对于每一个候选目标，如果在连续多帧的每一帧中跟踪位置和检测位置的匹配度均满足第一预设条件，则将该候选目标的状态设置为正式目标，否则删除该候选目标。

对于每一个正式目标，如果在连续多帧的每一帧中跟踪位置和检测位置的匹配度均不满足第二预设条件，则将该正式目标的状态设置为消失目标，否则维持该正式目标的状态。

第一实施方式是与本实施方式相对应的方法实施方式，第一实施方式中的技术细节可以应用于本实施方式，本实施方式中的技术细节也可以应用于第一实施方式。

需要说明的是，本领域技术人员应当理解，上述边走路边看手机的识别系统的实施方式中所示的各模块的实现功能可参照前述边走路边看手机的识别方法的相关描述而理解。上述边走路边看手机的识别系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现，也可通过具体的逻辑电路而实现。本申请的实施例上述边走路边看手机的识别系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请的各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请的实施例不限制于任何特定的硬件和软件结合。

相应地，本申请的实施方式还提供一种计算机可读存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于，相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

此外，本申请的实施方式还提供一种边走路边看手机的识别系统，其中包括用于存储计算机可执行指令的存储器，以及，处理器；该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中，该处理器可以是中央处理单元(Central Processing Unit，简称“CPU”)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称“DSP”)、专用集成电路(Application SpecificIntegrated Circuit，简称“ASIC”)等。前述的存储器可以是只读存储器(read-onlymemory，简称“ROM”)、随机存取存储器(random access memory，简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

需要说明的是，在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本申请中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在描述方法的步骤时使用的序号本身并不对这些步骤的顺序构成任何的限定。例如，序号大的步骤并非一定要在序号小的步骤之后执行，也可以是先执行序号大的步骤再执行序号小的步骤，还可以是并行执行，只要这种执行顺序对于本领域技术人员来说是合理的即可。又如，拥有连续编号序号的多个步骤(例如步骤101，步骤102，步骤103等)并不限制其他步骤可以在其间执行，例如步骤101和步骤102之间可以有其他的步骤。

本说明书包括本文所描述的各种实施例的组合。对实施例的单独提及(例如“一个实施例”或“一些实施例”或“优选实施例”)；然而，除非指示为是互斥的或者本领域技术人员很清楚是互斥的，否则这些实施例并不互斥。应当注意的是，除非上下文另外明确指示或者要求，否则在本说明书中以非排他性的意义使用“或者”一词。

在本说明书提及的所有文献都被认为是整体性地包括在本申请的公开内容中，以便在必要时可以作为修改的依据。此外应理解，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

Claims

1.一种边走路边看手机的识别方法，其特征在于，包括：

获取视频图像帧；

确定所述行人目标框包围所述手机目标框；

2.如权利要求1所述的边走路边看手机的识别方法，其特征在于，所述使用卷积神经网络从包含运动目标的视频图像帧中检测行人和手机，之前还包括：

使用背景建模方法检测出所述包含运动目标的视频图像帧。

3.如权利要求2所述的边走路边看手机的识别方法，其特征在于，所述使用背景建模方法检测出所述包含运动目标的视频图像帧，进一步包括：

对视频图像帧的每一个点建立多个高斯模型；

在时间轴上不断更新所述高斯模型的均值和方差；

4.如权利要求1所述的边走路边看手机的识别方法，其特征在于，所述多个人体关键点包括：左手、右手、左肘、右肘、左肩、右肩和头部。

5.如权利要求1所述的边走路边看手机的识别方法，其特征在于，所述在连续的视频图像帧上对所述多个人体关键点和所述手机框进行视频目标跟踪，进一步包括：

6.如权利要求1所述的边走路边看手机的识别方法，其特征在于，所述获取视频图像帧，进一步包括：

获取视频码流；

对所获取的视频码流进行解码，得到视频图像帧。

7.一种边走路边看手机的识别系统，其特征在于，包括：

图像获取单元，被配置为获取视频图像帧；

8.如权利要求7所述的边走路边看手机的识别系统，其特征在于，所述目标跟踪单元进一步包括多个卡尔曼跟踪器和状态机；

所述状态机被配置为：

9.一种边走路边看手机的识别系统，其特征在于，包括：

存储器，用于存储计算机可执行指令；以及，

处理器，与所述存储器耦合，用于在执行所述计算机可执行指令时实现如权利要求1至6中任意一项所述的方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如权利要求1至6中任意一项所述的方法中的步骤。