CN114359825A

CN114359825A - 监测方法和相关产品

Info

Publication number: CN114359825A
Application number: CN202111517036.3A
Authority: CN
Inventors: 杨之乐; 郭媛君; 陈雪健; 左博文; 王尧; 冯伟; 吴承科
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-04-15
Also published as: WO2023109664A1

Abstract

本申请实施例提供了一种监测方法和相关产品，该方法通过获取包含目标场景的视频流，利用神经网络模型对该视频流中的视频帧进行特征提取，得到表征监测对象的运动状态特性和形状特性的第一特征向量集合，并基于所述第一特征向量集合，确定所述监测对象中是否存在坠落物。该方法可以基于计算机视觉技术对高空物体进行实时监测，在发生高空坠物事件时及时感应，可以在节约成本的同时最大程度上减少高空坠物事件的危害。

Description

监测方法和相关产品

技术领域

本申请涉及计算机视觉领域，尤其涉及一种监测方法和相关产品。

背景技术

在建筑施工过程中，高空作业存在坠物风险，例如，塔吊吊钩断裂、高空设备部件脱落、高空人员所携物品坠落、高空建材坠落等高空坠物风险，都很可能造成人员伤亡或是财产损失。

目前，大多是工地都是通过直接搭建防护装置来减少高空坠物对人员和工地设施的危害，但是，搭建防护装置所需要的成本过高，且防护装置无法对工地上方进行全覆盖，也就无法有效保障工地人员和工地设施的安全。因此，需要研究更经济、安全性更高的预防高空坠物危害的方法。

发明内容

本申请实施例公开了一种监测方法和相关产品，该方法能基于计算机视觉技术对高空坠物进行实时监测，在发生高空坠物事件时及时感应，可以在节约成本的同时最大程度上减少高空坠物事件的危害。

第一方面，本申请实施例提供了一种监测方法，所述方法包括：获取包含目标场景的视频流，所述视频流包括N个视频帧，所述目标场景中存在M个监测对象,所述N为大于1的整数，所述M为大于0的整数；利用神经网络模型对所述N个视频帧中的每个视频帧进行特征提取，得到第一特征向量集合，所述第一特征向量集合中的任一特征向量均表征所述M监测对象中每个监测对象的运动状态特性和形状特性；基于所述第一特征向量集合，确定所述M个监测对象中是否存在坠落物。

在本方法中，通过在所述目标场景的高处，例如脚手架、高空器械上，安装能够覆盖所述目标场景的全上空的一定数量的摄像机(数量由工地规模决定)，来获取上述视频流，并且通过例如CNN等神经网络模型对摄像机拍摄到的图像来对视频帧中出现的对象(即上述M个监测对象)进行实时地监测，进而获取能够表征这M个监测对象速度、加速度等运动状态特性以及表征这M个监测对象的形态、体积等形状特性的特征向量集合，再基于该特征向量集合中的特征向量来确定所述M个监测对象中是否存在坠落物，能够在在节约成本的同时最大程度上减少高空坠物事件的危害。

在第一方面的一种可选的实施方式中，所述基于所述第一特征向量集合，确定所述M个监测对象中是否存在坠落物之后，所述方法还包括：在所述M个监测对象中存在坠落物的情况下，输出警报信息，所述警报信息用于提醒用户对所述坠落物进行避让。

在本实施方式中，在确定所述M个监测对象中存在坠落物时，通过输出警报信息来通知下方人员注意避让。例如，可以在工地下方施工区域安装特定115分贝的声音警报器，则发出高分贝警报令。

在第一方面的一种可选的实施方式中，所述利用神经网络模型对所述N个视频帧中的各个视频帧进行特征提取，得到第一特征向量集合，包括：确定所述M个监测对象在所述各个视频帧中的对应的多个第一候选区域，所述M个监测对象中第一监测对象在所述N个视频帧中对应的第一候选区域包含所述第一监测对象的图像；利用所述神经网络模型对所述多个第一候选区域的图像进行特征提取，得到所述第一特征向量集合。

在本实施方式中，所述神经网络模型可以为卷积神经网络模型。具体的，通过多个尺度的窗口选择性搜索方法以及边缘监测算法，并搜寻共享纹理、颜色或强度的相邻像素，可以确定所述M个监测对象在所述各个帧中的所述第一候选区域即所述M个监测对象在所述各个是视频帧图像中的边界框。一般的，在所述N个视频帧中任一视频帧中，可以产生1000～2000个候选区域，通过对这些候选区域中所包含的监测对象的图像进行特征提取，即可得到能表征所述M个监测对象中每个监测对象的运动状态特性和形状特性的所述第一特征向量集合。

在第一方面的一种可选的实施方式中，所述神经网络模型包括支持向量机SVM，所述利用所述神经网络模型对所述多个第一候选区域的图像进行特征提取，得到所述第一特征向量集合，包括：利用所述神经网络模型对所述多个第一候选区域中的图像进行特征提取，得到第二特征向量集合，所述第二特征向量集合表征所述M个监测对象的每个监测对象的形态特征；基于所述支持向量机SVM对所述第二特征向量集合中的特征向量进行分类，得到多个物体类别；基于所述多个物体类别，对所述M个监测对象在所述N个视频帧中的对应的第一候选区域进行校准，得到所述M个监测对象在所述N个视频帧中对应的多个第二候选区域，所述M个监测对象中第一监测对象在所述N个视频帧中对应的第二候选区域包含所述第一监测对象的图像；利用所述神经网络模型对所述多个第二候选区域的图像进行特征提取，得到所述第一特征向量集合。

在本实施方式中，所述支持向量机SVM为一种分类算法，其侧重于模式识别方面，使用所述SVM可以大大提高分类的准确性。所述SVM可以简单地界定所述M个监测对象中某个物体是否为目标，以及是什么目标。例如，所述SVM可以所述M个监测对象中的某个对象是动物还是植物，某个对象是飞机或是船舰。可以理解的，传统的CNN神经网络模型表面是在分类，但真正目的其实只是提取特征。在提取特征之后，每个候选框可以得到一个多维的特征向量，将这些多维的特征向量所述SVM中训练分类器，在判断正样本(例如上述M个监测对象中为坠落物的对象)的时候条件比较宽松。这样，可以解决CNN过拟合的缺陷，提高所述神经网络模型预测结果的准确性。

第二方面，本申请实施例提供了一种监测装置，包括：获取单元，用于获取包含目标场景的视频流，所述视频流包括N个视频帧，所述目标场景中存在M个监测对象,所述N为大于1的整数，所述M为大于0的整数；提取单元，用于利用神经网络模型对所述N个视频帧中的每个视频帧进行特征提取，得到第一特征向量集合，所述第一特征向量集合中的任一特征向量均表征所述M监测对象中每个监测对象的运动状态特性和形状特性；确定单元，用于基于所述第一特征向量集合，确定所述M个监测对象中是否存在坠落物。

在第二方面的一种可选的实施方式中，所述装置还包括：警报单元，用于在所述M个监测对象中存在坠落物的情况下，输出警报信息，所述警报信息用于提醒用户对所述坠落物进行避让。

在第二方面的一种可选的实施方式中，所述提取单元，具体用于：确定所述M个监测对象在所述各个视频帧中的对应的多个第一候选区域，所述M个监测对象中第一监测对象在所述N个视频帧中对应的第一候选区域包含所述第一监测对象的图像；利用所述神经网络模型对所述多个第一候选区域的图像进行特征提取，得到所述第一特征向量集合。

在第二方面的一种可选的实施方式中，所述神经网络模型包括支持向量机SVM，所述提取单元，具体用于：利用所述神经网络模型对所述多个第一候选区域中的图像进行特征提取，得到第二特征向量集合，所述第二特征向量集合表征所述M个监测对象的每个监测对象的形态特征；基于所述支持向量机SVM对所述第二特征向量集合中的特征向量进行分类，得到多个物体类别；基于所述多个物体类别，对所述M个监测对象在所述N个视频帧中的对应的第一候选区域进行校准，得到所述M个监测对象在所述N个视频帧中对应的多个第二候选区域，所述M个监测对象中第一监测对象在所述N个视频帧中对应的第二候选区域包含所述第一监测对象的图像；利用所述神经网络模型对所述多个第二候选区域的图像进行特征提取，得到所述第一特征向量集合。

第三方面，本申请实施例提供了一种电子设备，所述电子设备包括：一个或多个处理器、存储器；所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如第一方面以及第一方面的任一中可选的实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如第一方面以及第一方面的任一中可选的实施方式中的方法。

本申请第二方面、第三方面以及第四方面所提供的技术方案，其有益效果可以参考第一方面所提供的技术方案的有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图作简单的介绍。

图1为本申请实施例提供的一种工地施工场景的示意图；

图2为本申请实施例提供的一种监测方法的流程图；

图3为本申请实施例提供的一种摄像头取景方式以及拍摄方向的示意图；

图4为本申请实施例提供的监测方法的流程图；

图5为本申请实施例提供的一种工地施工场景的示意图；

图6为本申请实施例提供一种图像候选区域的示意图；

图7为本申请实施例提供的一种系统架构的示意图；

图8为本申请实施例提供的一种监测装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地描述。

本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等仅用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等，没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元等，或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。

在本文中提及的“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”。

本发明实施例提供了一种监测方法及相关产品，为更清楚的描述本发明的方案。下面先介绍一些本申请实施例提供的监测方法及相关产品所涉及的知识。

(1)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者特征图(feature map)做卷积。

卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征图，每个特征图可以由一些矩形排列的神经单元组成。

(2)特征图

在CNN的每个卷积层，数据都是以三维形式存在的。可以把它看成许多个二维图片叠在一起，其中每一个称为一个特征图。

在卷积神经网络中，可以用一个网络模拟视觉通路的特性，分层的概念是自底向上构造简单到复杂的神经元。在卷积网中，特征图能够形成对于一个事物完备的描述，例如描述一个人的身高/体态/相貌等。

(3)选择性搜索算法

选择性搜索算法可以用于为物体检测算法提供候选区域，它速度快，召回率高。选择性搜索算法通过基于图的图像分割方法初始化原始区域，将图像分割成很多很多的小块。然后使用贪心策略，计算每两个相邻的区域的相似度，然后每次合并最相似的两块，直到最终只剩下一块完整的图片。然后这其中每次产生的图像块包括合并的图像块都保存下来，这样就得到图像的分层。

(4)边缘检测算法

边缘一般是指图像在某一局部强度剧烈变化的区域；而边缘检测算法是指利用灰度值的不连续性质，以灰度突变为基础分割出目标区域。

(5)AlexNet

AlexNet是2012年ILSVRC 2012(ImageNet Large Scale Visual RecognitionChallenge)竞赛的冠军网络，是一个卷积神经网络，由亚历克斯·克里泽夫斯基设计。该网络在LeNet的基础上加深了网络的结构，学习更丰富更高维的图像特征分类准确率由传统方法的70％+提升到80％+。

(6)支持向量机(support vector machines，SVM)：是一种二分类模型，它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。支持向量机最常见的应用场景就是解决二分类问题，也可以用于回归和异常值检测。

(7)边框回归

边框回归，即目标检测过程中对产生的候选框以标注好的真实框为目标进行逼近的过程。由于一幅图像上的框可以由中心点坐标(X，Y)和宽W高H唯一确定，所以这种逼近的过程可以建模为回归。通过对候选框做边框回归，可以使最终检测到的目标定位更加接近真实值，提高定位准确率。

(8)R-CNN算法

R-CNN是一种基于区域的卷积神经网络算法，它在卷积神经网络上应用区域推荐的策略，形成自底向上的目标定位模型。

在建筑施工过程中，高空作业存在坠物风险，例如塔吊吊钩断裂、高空设备部件脱落、高空人员所携物品坠落、高空建材坠落等高空坠物风险。高中坠物容易造成人员伤亡抑或是财产损失。

目前，大多是工地都是通过直接搭建防护装置来减少高空坠物对人员和工地设施的危害。图1为本申请实施例提供的一种工地施工场景的示意图。如图1所示，在进行建筑施工时，塔吊12需要经常用来包括钢筋、木楞、混凝土、钢管等吊运材料等重物。由于建筑工地的吊重往往变化较大，不能准确的估计例如水泥、砂石、钢筋等材料的重量，某些预制件重量误差也很大，所以重物从高空坠落的情况时有发生均。此外施工建筑11需要由底层向高层施工，然而在进行墙面施工过程中，容易发生建筑材料的掉落问题，从而影响地面的施工安全。虽然施工人员可以通过佩戴安全帽(如图1中的安全帽101)进行防护，或者通过在搭建防护装置(例如塔吊12上的挡板121以及施工建筑上的挡板111)来对高空坠物进行缓冲以减少高空坠物带来的伤害，但是，安全帽的防护效果仅限于对头部的安全防护，且防护面积有限；此外，搭建防护装置所需要的成本过高，且防护装置无法对工地上方进行全覆盖，也就无法有效保障工地人员和工地设施的安全。

基于上述预防高空坠物危害的方法中存在的问题，本申请实施例提供了一种监测方法，该方法可以基于计算机视觉技术对高空物体进行实时监测，在发生高空坠物事件时及时感应，可以在节约成本的同时最大程度上减少高空坠物事件的危害。具体请参阅图2。

图2为本申请实施例提供的一种监测方法的流程图。如图2所示，该方法可以包括以下步骤：

201、电子设备获取包含目标场景的视频流。

上述电子设备可以是手机(mobile phone)、车载设备(例如车载单元(On BoardUnit，OBU))、平板电脑(pad)、带数据收发功能的电脑(如笔记本电脑、掌上电脑等)、移动互联网设备(mobile internet device，MID)、工业控制(industrial control)中的终端、无人驾驶(self driving)中的无线终端、智慧城市(smart city)中的终端、智慧家庭(smarthome)中的终端、5G网络中的终端设备或者未来演进的公用陆地移动通信网络(publicland mobile network，PLMN)中的终端设备等。

此外，上述电子设备还可以是物联网(internet of things，IoT)系统中的装置。IoT是未来信息技术发展的重要组成部分，其主要技术特点是将物品通过通信技术与网络连接，从而实现人机互连，物物互连的智能化网络。可选的，IoT技术可以通过例如窄带(narrow band，NB)技术，做到海量连接、深度覆盖、终端省电。在另一种可能的实现方式中，本申请示出的终端装置可以包括接入点(Access Point，AP)等。可理解，对于终端装置的具体形态，本申请不作限定。

上述电子设备上还可以设有一个或多个摄像头，上述电子设备可以采用这一个或者多个摄像头对所述目标场景进行拍摄。

上述目标场景可以是上述电子设备在工地中通过摄像头由上向下拍摄所获取的场景，如图3中的(A)所示，摄像头3A1被安装在塔吊3A3上方，其取景方向为由工地上方向下取景，摄像头3A1对应的视场角为3A2，处于该视场角中的场景即可作为上述目标场景；上述目标场景也可以是上述电子设备在工地上方通过摄像头在水平方向中拍摄所获取的场景，如图3中的(B)所示，摄像头3B1被安装在施工建筑3B3上，其取景方向为由工地上方向水平方向取景，摄像头3B1对应的视场角为3B2，处于该视场角中的场景即可作为上述目标场景；此外，上述目标场景也可以是上述电子设备在工地中通过摄像头由下向上拍摄所获取的场景，如图3中的(C)所示，摄像头3C1和摄像头3C2被安装在工地地面上，其取景方向为由工地下方向上方取景，摄像头3C1对应的视场角为3C3，摄像头3C2对应的视场角为3C4，处于该视场角3C3以及视场角为3C4中的场景即可作为上述目标场景。

上述视频流包括N个视频帧，上述目标场景中存在M个监测对象，所述N为大于1的整数，上述M为大于0的整数。上述电子设备对上述目标对象进行拍摄，得到多帧包含上述M个监测对象的图像的视频流，并从该视频流中均匀采样，即从视频流中等时间间隔抽取帧存储为图像，得到上述N个视频帧。具体的，上述视频流可以为MPEG、AVI、MOV等格式；上述N个视频帧对应的图像可以为BMP、JPEG、TIF、GIF、PCX、PBM、PGM、PPM等格式；上述M个监测对象可以包括塔吊的塔勾、施工建筑上的围栏等等，本申请实施例对此不作限制。

202、上述电子设备利用神经网络模型对N个视频帧中的每个视频帧进行特征提取，得到第一特征向量集合。

上述神经网络模型可以是卷积神经网络模型CNN。上述第一特征向量集合中的任一特征向量均表征上述M个监测对象中每个监测对象的运动状态特性和形状特性。

具体的，上述电子设备可以先基于选择性搜索算法和边缘检测算法确定上述N个视频帧中上述M个监测对象的大致轮廓和位置，这些轮廓和位置在这N帧图像中可以体现为一个个的矩形框，即候选区域(具体请参阅后续实施例的说明)。其中，基于上述M个检测对象，在上述N个视频帧中的每一帧图像中均可以确定大致2000个候选区域。对每一帧图像中每一个候选区域进行一遍CNN前向特征提取，所得到的特征图(特征向量)即可作为上述第一特征向量集合。

203、上述电子设备基于上述第一特征向量集合，确定M个监测对象中是否存在坠落物。

可以理解的，在执行本方法之前，上述神经网络模型已经被训练好并被部署在上述电子设备中。在训练上述神经网络模型时，所使用的数据集中包含了大量的工地场景图，这些场景图中已经存在包含高空坠落物的图像的场景图。在训练的过程中，上述神经网络模型将对这些包含高空坠落物的图像的场景图进行特征提取，并存储得到特征向量集合(以下称为目标特征向量集合)。

因此，在上述电子设备得到上述第一特征向量集合之后，电子设备可以将该第一特征向量集合中的向量与上述目标特征向量集合中的向量进行比对。可选的，当上述第一特征向量集合中的向量与上述目标特征向量集合中的向量存在相似度大于预设阈值的特征向量时，则上述电子设备可以推断上述M个监测对象中存在坠落物。

为了对前述监测方法进行进一步的说明，本申请实施例提供了另一种监测方法的流程图，如图4所示，该方法可以包括以下步骤：

401、电子设备获取包含目标场景的视频流。

此外，上述电子设备还可以是物联网(internet of things，IoT)系统中的装置。IoT是未来信息技术发展的重要组成部分，其主要技术特点是将物品通过通信技术与网络连接，从而实现人机互连，物物互连的智能化网络。可选的，IoT技术可以通过例如窄带(narrow band，NB)技术，做到海量连接、深度覆盖、终端省电。在另一种可能的实现方式中，本申请示出的终端装置可以包括接入点(Access Point，AP)等。可理解，对于终端装置的具体形态，本申请不作限定。具体的，上述电子设备可以为图2中的电子设备。

关于本步骤的具体实施方式可以参考图2中步骤201的说明，这里不再赘述。

402、上述电子设备确定M个监测对象在各个视频帧中的对应的多个第一候选区域。

上述M个监测对象中第一监测对象在所述N个视频帧中对应的第一候选区域包含所述第一监测对象的图像。

具体的，上述电子设备可以基于选择性搜索算法和边缘检测算法确定上述N个视频帧中上述M个监测对象的大致轮廓和位置，这些轮廓和位置在这N帧图像中可以体现为一个个的矩形框，即候选区域。

例如，图5为本申请实施例提供的一种工地施工场景的示意图。图5中所示出的场景可以是上述N个视频帧中某个视频帧所对应的图像，该场景可以是上述目标场景。如图5所示，该场景包括施工人员501、路障502、施工建筑503、塔吊504、起重机505、沙丘506、施工人员507、挖掘机508、建筑509以及从施工建筑503上方坠落的坠落物510，这些物体均包含于上述M个目标对象。

上述电子设备可以基于选择性搜索算法和边缘检测算法确定图5对应的图像中确定中上述M个监测对象的大致轮廓和位置，这些轮廓和位置在可以体现为一个个的矩形框，具体可以参考图6。图6为本申请实施例提供的一种图像候选区域的示意图。如图6中的(A)所示，候选区域601A-610A即分别为电子设备为图5中施工人员501、路障502、施工建筑503、塔吊504、起重机505、沙丘506、施工人员507、挖掘机508、建筑509以及从施工建筑503上方坠落的坠落物510确定的候选区域(即上述多个第一候选区域)。

可以理解的，在视屏帧对应的图像中，这些候选区域可能存在重叠部分。如图6中的(A)所示，候选区域606A以及候选区域605A存在重叠部分(即图6中的(A)所示出的阴影部分)。因此，在一个可选的实施方式中，上述电子设备可以为上述多个第一候选区域去重叠，以便于后续边框回归过程的顺利进行。

可以理解的，图5所示出的场景以及图6所示出的候选区域仅为了便于读者理解，在实际的应用场景中，上述目标场景和上述N个视屏帧对应的图像还可以表现为其他形式，本申请对此不作限定。

403、上述电子设备利用神经网络模型对上述多个第一候选区域中的图像进行特征提取，得到第二特征向量集合。

上述神经网络模型可以是前述说明中的神经网络模型。具体的，该神经网络模型可以是卷积神经网络模型。上述第二特征向量集合表征上述M个监测对象的每个监测对象的形态特征。

在一个可选的实施方式中，在进行步骤402之前，上述电子设备可以将上述第二特征向量集合作为AlexNet分类器的输入，来完成对上述目标场景的分类。AlexNet分类器可以基于第二特征向量集合确定上述目标场景为工地、厨房、学校还是别的场景类型。在确定了上述目标场景的场景类型之后，上述电子设备可以对上述多个第一候选区域进行检测，来确定上述多个第一候选区域是否为有效区域。

可以理解的，在执行本方法之前，上述神经网络模型已经被训练好并被部署在上述电子设备中。在训练上述神经网络模型时，所使用的数据集中包含了大量的工地场景图。在一个可选的实施方式中，在训练上述神经网络模型的过程中，上述电子设备可以把所有工地场景图中每个场景图的候选区域微缩成相同大小，再对微缩后的图像进行特征提取，得到固定长度的特征向量。这样，预训练的模型参数从一开始就处于一个较好的位置，能够更快的使网络收敛。

404、上述电子设备基于支持向量机SVM对上述第二特征向量集合中的特征向量进行分类，得到多个物体类别。

上述支持向量机SVM位于上述神经网络模型的最后一层，它可以简单地界定物体是否为目标，以及是什么类型的目标。SVM通过将线性不可分的数据映射到高维，使其能够线性可分，再应用线性可分情况的方法完成分类。具体的，以图5中所示的场景为例，支持向量机SVM对上述第二特征向量集合中的特征向量进行分类之后，即可确定图5中的施工人员501以及施工人员507为人类，施工建筑503、以及建筑509为建筑类物体。

405、上述电子设备基于上述多个物体类别，对上述M个监测对象在N个视频帧中的对应的第一候选区域进行校准，得到上述M个监测对象在N个视频帧中对应的多个第二候选区域。

在得到上述M个监测对象所属的类别之后，上述电子设备可以使用边框回归模型(即回归器)修正上述多个第一候选区域的位置，得到上述M个监测对象在图像中更为准确的位置。

具体的，上述回归器的训练和使用过程可以包括：

1)输入为候选区域的坐标值{(Pⁱ，Gⁱ)}_{i＝1,2……N}，其中Pⁱ对应为第i个候选区域的框坐标，Gⁱ为第i个候选区域的对应实际区域的框坐标。其中，Pⁱ可以展开为：

(P_x，P_y，P_w，P_h)；

其中，P_x与P_y为候选区域的中心点的横坐标和纵坐标，P_w与P_h为候选区域的宽和高。

2)求出x，y平移量

以及

其中：

3)计算尺度放缩量S_w、S_h、

以及

其中：

S_w＝P_wd_w(P)；

S_h＝P_hd_h(P)；

4)计算回归器的损失函数Loss和优化目标ω_*，其中：

上式中的

可以通过如下公式求出：

t_x＝(G_x-P_x)/P_w；

t_y＝(G_y-P_y)/P_h；

t_w＝log(G_w/P_w)；

t_h＝log(G_h/P_h)；

上述公式中，d_x(P)以及d_y(P)是平移的尺寸除以P_w，d_w(P)以及d_h(P)为平移的尺寸除以P_w，它们均表示一个比例。通过d_x(P)、d_y(P)、d_w(P)以及d_h(P)这四个变换就可以得到候选区域估计框了。利用梯度下降法或者最小二乘法就可以计算得到ω_*，也就得到了上述回归器。

在利用上述回归器对上述第一候选区域进行边框回归之后，就可以得到上述M个监测对象在图像中更为准确的位置。以图6中的(A)以及图6中的(B)为例进行说明，图6中的(A)所示出的候选区域601A-610A即为上述电子设备分别为图5中施工人员501、路障502、施工建筑503、塔吊504、起重机505、沙丘506、施工人员507、挖掘机508、建筑509以及从施工建筑503上方坠落的坠落物510确定的候选区域(即上述多个第一候选区域)，在利用上述回归器对上述候选区域601A-610A进行边框回归之后，即可以得到如图6中的(B)所示出的候选区域601B-610B。可以看出，候选区域601B-610B中对应的边框与候选区域601A-610A中对应的边框相比，其边框的更贴近于图5中施工人员501、路障502、施工建筑503、塔吊504、起重机505、沙丘506、施工人员507、挖掘机508、建筑509以及从施工建筑503上方坠落的坠落物510的真正的轮廓。

406、上述电子设备利用上述神经网络模型对上述多个第二候选区域的图像进行特征提取，得到第一特征向量集合。

407、上述电子设备基于所述第一特征向量集合，确定上述M个监测对象中是否存在坠落物。

关于步骤406和步骤407的具体实施方式可以参考图2中步骤202和步骤203的说明，这里不再赘述。

408、在上述M个监测对象中存在坠落物的情况下，上述电子设备输出警报信息。

在本实施方式中，在确定所述M个监测对象中存在坠落物时，通过输出警报信息来通知下方人员注意避让。例如，可以在工地下方施工区域安装特定115分贝的声音警报器，则发出高分贝警报令。所述高分贝警报指令可以为鸣笛声，或者可以为语音指令，还可以表现为其他形式，本申请对此不作限定。

本申请实施例提供的监测方法可以基于计算机视觉技术对高空物体进行实时监测，在发生高空坠物事件时能够迅速及时感应并发出警报，可以在节约成本的同时最大程度上减少高空坠物事件的危害。

基于前述实施例中对上述神经网络模型的相关说明，下面介绍本申请实施例提供的系统架构。

请参阅图7，本发明实施例提供了一种系统架构700。如所述系统架构700所示，数据采集设备760用于采集训练数据，本申请实施例中训练数据包括：用于训练前述说明中的神经网络模型的数据集，这些数据集可以包括对工地场景进行拍摄所得的图像或视频流；此外，这些数据集还可以包括用于训练前述说明中支持向量机SVM以及AlexNet分类器的图像或者视频流；数据采集设备760将训练数据存入数据库730，训练设备720基于数据库730中维护的训练数据训练得到目标模型/规则701(即上述神经网络模型)。该目标模型701能够用于实现本申请实施例提供的监测方法，即，将包含目标场景的视频流通过相关预处理后输入该目标模型/规则701，即可得到表征场景中监测对象的运动状态特性和形状特性的特征向量集合。本申请实施例中的目标模型701具体可以为卷积神经网络模型。需要说明的是，在实际的应用中，所述数据库730中维护的训练数据不一定都来自于数据采集设备760的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备720也不一定完全基于数据库730维护的训练数据进行目标模型701的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备720训练得到的目标模型/规则701可以应用于不同的系统或设备中，如应用于图7所示的执行设备710，所述执行设备710可以是终端，如手机终端，平板电脑，笔记本电脑，AR/VR，车载终端等，还可以是服务器或者云端等。在图7中，执行设备710配置有I/O接口712，用于与外部设备进行数据交互，用户可以通过客户设备740向I/O接口712输入数据，所述输入数据在本申请实施例中可以包括：对工地场景进行拍摄所得的图像或视频流。在一些实施例中，执行设备710和训练设备所执行的功能可以实现在同一个电子设备上。具体的，该电子设备可以是前述说明中的电子设备。

预处理模块713用于根据I/O接口712接收到的输入数据(如所述对工地场景进行拍摄所得的图像或视频流)进行预处理，在本申请实施例中，预处理模块713可以用于对图像进行微缩操作。

在执行设备710对输入数据进行预处理，或者在执行设备710的计算模块711执行计算等相关的处理过程中，执行设备710可以调用数据存储系统750中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统750中。

最后，I/O接口712将处理结果，如上述得到的表征场景中监测对象的运动状态特性和形状特性的特征向量集合返回给客户设备740，从而提供给用户。

值得说明的是，训练设备720可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型701，该相应的目标模型701即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图7中，用户可以手动给定输入数据，该手动给定可以通过I/O接口712提供的界面进行操作。另一种情况下，客户设备740可以自动地向I/O接口712发送输入数据，如果要求客户设备740自动发送输入数据需要获得用户的授权，则用户可以在客户设备740中设置相应权限。用户可以在客户设备740查看执行设备710输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备740也可以作为数据采集端，采集如图所示输入I/O接口712的输入数据及输出I/O接口712的输出结果作为新的样本数据，并存入数据库730。当然，也可以不经过客户设备740进行采集，而是由I/O接口712直接将如图所示输入I/O接口712的输入数据及输出I/O接口712的输出结果，作为新的样本数据存入数据库730。

值得注意的是，图7仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图7中，数据存储系统750相对执行设备710是外部存储器，在其它情况下，也可以将数据存储系统750置于执行设备710中。

接下来介绍本申请实施例提供的一种监测装置的结构示意图，请参阅图8。图8中监控装置可以执行图2以及图4中监控方法的流程，如图8所示，该装置可以包括：

获取单元801，用于获取包含目标场景的视频流，上述视频流包括N个视频帧，上述目标场景中存在M个监测对象,上述N为大于1的整数，上述M为大于0的整数；提取单元802，用于利用神经网络模型对上述N个视频帧中的每个视频帧进行特征提取，得到第一特征向量集合，上述第一特征向量集合中的任一特征向量均表征上述M监测对象中每个监测对象的运动状态特性和形状特性；确定单元803，用于基于上述第一特征向量集合，确定上述M个监测对象中是否存在坠落物。

在一种可选的实施方式中，上述装置还包括：警报单元804，用于在上述M个监测对象中存在坠落物的情况下，输出警报信息，上述警报信息用于提醒用户对上述坠落物进行避让。

在一种可选的实施方式中，上述提取单元802，具体用于：确定上述M个监测对象在上述各个视频帧中的对应的多个第一候选区域，上述M个监测对象中第一监测对象在上述N个视频帧中对应的第一候选区域包含上述第一监测对象的图像；利用上述神经网络模型对上述多个第一候选区域的图像进行特征提取，得到上述第一特征向量集合。

在一种可选的实施方式中，上述神经网络模型包括支持向量机SVM，上述提取单元802，具体用于：利用上述神经网络模型对上述多个第一候选区域中的图像进行特征提取，得到第二特征向量集合，上述第二特征向量集合表征上述M个监测对象的每个监测对象的形态特征；基于上述支持向量机SVM对上述第二特征向量集合中的特征向量进行分类，得到多个物体类别；基于上述多个物体类别，对上述M个监测对象在上述N个视频帧中的对应的第一候选区域进行校准，得到上述M个监测对象在上述N个视频帧中对应的多个第二候选区域，上述M个监测对象中第一监测对象在上述N个视频帧中对应的第二候选区域包含上述第一监测对象的图像；利用上述神经网络模型对上述多个第二候选区域的图像进行特征提取，得到上述第一特征向量集合。

应理解，以上监控装置的各个单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个单元可以为单独设立的处理元件，也可以集成同一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由处理器的某一个处理元件调用并执行以上各个单元的功能。此外各个单元可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。上述处理元件可以是通用处理器，例如CPU，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application-specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field-programmable gate array，FPGA)等。

图9为本申请实施例提供的一种电子设备的结构示意图。如图9所示，该电子设备90包括处理器901、存储器902以及通信接口903；该处理器901、存储器902以及通信接口903通过总线相互连接。该电子设备90可以是图2中的电子设备或图4中的电子设备。

存储器902包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmablereadonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CDROM)，该存储器902用于相关指令及数据。通信接口903用于接收和发送数据，其可以实现图8中获取单元801的功能。

处理器901可以是一个或多个中央处理器(central processing unit，CPU)，在处理器901是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。上述实施例中由监测装置所执行的步骤可以基于该图9所示的电子设备的结构。具体的，处理器901可实现图8中提取单元802以及确定单元803的功能。

该电子设备90中的处理器901用于读取该存储器902中存储的程序代码，执行前述实施例中的监测方法。

在本申请的实施例中提供另一种计算机可读存储介质，该述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现：接收检测终端发送的心率值；根据该心率值进行目标动作，该目标动作的频率与所述心率值相对应。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述实施例所提供的监测方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种监测方法，其特征在于，包括：

获取包含目标场景的视频流，所述视频流包括N个视频帧，所述目标场景中存在M个监测对象,所述N为大于1的整数，所述M为大于0的整数；

利用神经网络模型对所述N个视频帧中的每个视频帧进行特征提取，得到第一特征向量集合，所述第一特征向量集合中的任一特征向量均表征所述M个监测对象中每个监测对象的运动状态特性和形状特性；

基于所述第一特征向量集合，确定所述M个监测对象中是否存在坠落物。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一特征向量集合，确定所述M个监测对象中是否存在坠落物之后，所述方法还包括：

在所述M个监测对象中存在坠落物的情况下，输出警报信息，所述警报信息用于提醒用户对所述坠落物进行避让。

3.根据权利要求1或2所述的方法，其特征在于，所述利用神经网络模型对所述N个视频帧中的各个视频帧进行特征提取，得到第一特征向量集合，包括：

确定所述M个监测对象在所述各个视频帧中的对应的多个第一候选区域，所述M个监测对象中第一监测对象在所述N个视频帧中对应的第一候选区域包含所述第一监测对象的图像；

利用所述神经网络模型对所述多个第一候选区域的图像进行特征提取，得到所述第一特征向量集合。

4.根据权利要求3所述的方法，其特征在于，所述神经网络模型包括支持向量机SVM，所述利用所述神经网络模型对所述多个第一候选区域的图像进行特征提取，得到所述第一特征向量集合，包括：

利用所述神经网络模型对所述多个第一候选区域中的图像进行特征提取，得到第二特征向量集合，所述第二特征向量集合表征所述M个监测对象的每个监测对象的形态特征；

基于所述支持向量机SVM对所述第二特征向量集合中的特征向量进行分类，得到多个物体类别；

基于所述多个物体类别，对所述M个监测对象在所述N个视频帧中的对应的第一候选区域进行校准，得到所述M个监测对象在所述N个视频帧中对应的多个第二候选区域，所述M个监测对象中第一监测对象在所述N个视频帧中对应的第二候选区域包含所述第一监测对象的图像；

利用所述神经网络模型对所述多个第二候选区域的图像进行特征提取，得到所述第一特征向量集合。

5.一种监测装置，其特征在于，包括：

获取单元，用于获取包含目标场景的视频流，所述视频流包括N个视频帧，所述目标场景中存在M个监测对象,所述N为大于1的整数，所述M为大于0的整数；

提取单元，用于利用神经网络模型对所述N个视频帧中的每个视频帧进行特征提取，得到第一特征向量集合，所述第一特征向量集合中的任一特征向量均表征所述M监测对象中每个监测对象的运动状态特性和形状特性；

确定单元，用于基于所述第一特征向量集合，确定所述M个监测对象中是否存在坠落物。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

警报单元，用于在所述M个监测对象中存在坠落物的情况下，输出警报信息，所述警报信息用于提醒用户对所述坠落物进行避让。

7.根据权利要求5或6所述的装置，其特征在于，所述提取单元，具体用于：

8.根据权利要求7所述的装置，其特征在于，所述神经网络模型包括支持向量机SVM，所述提取单元，具体用于：

9.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器、存储器；

所述存储器与所述一个或多个处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，所述一个或多个处理器调用所述计算机指令以使得所述电子设备执行如权利要求1至4中任一项所述的方法。

10.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1至4中任一项所述的方法。