CN111723773B

CN111723773B - 遗留物检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN111723773B
Application number: CN202010623755.2A
Authority: CN
Inventors: 张发恩; 胡太祥; 陈冰; 王梦秋
Original assignee: Ainnovation Hefei Technology Co ltd
Current assignee: Ainnovation Hefei Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-03-29
Anticipated expiration: 2040-06-30
Also published as: CN111723773A

Abstract

本申请提供一种遗留物检测方法、装置、电子设备及可读存储介质，涉及智能监控技术领域。该方法包括：获取目标监控区域的多张视频帧图像；从所述多张视频帧图像中确定未出现行人的目标视频帧图像；提取所述目标视频帧图像的目标图像特征；获取所述目标图像特征与针对所述目标监控区域预先确定的背景图像特征的相似程度；基于所述相似程度检测所述目标视频帧图像中是否出现遗留物。通过本申请的遗留物检测方法可无需预先收集大量的遗留物图像进行模型训练，也可实现针对多种不同的遗留物进行检测，从而可减少遗留物漏检或误检的情况，有效提高遗留物检测的准确性。

Description

遗留物检测方法、装置、电子设备及可读存储介质

技术领域

本申请涉及智能监控技术领域，具体而言，涉及一种遗留物检测方法、装置、电子设备及可读存储介质。

背景技术

随着网络监控摄像头的普及和广泛使用，遗留物检测技术成了安全防范领域中智能视频监控的一个重要分支。目前针对遗留物的检测方法一般是基于神经网络模型(如双背景模型和混合高斯模型等)的改进，但是在模型训练时，由于遗留物的种类繁多，各种遗留物的图像的采集较为困难，这样就难以训练出适合各种遗留物检测的模型，从而导致通过模型进行遗留物检测时容易出现漏检或误检等情况。

发明内容

本申请实施例的目的在于提供一种遗留物检测方法、装置、电子设备及可读存储介质，用以改善现有技术中遗留物检测时容易出现漏检或误检的问题。

第一方面，本申请实施例提供了一种遗留物检测方法，所述方法包括：获取目标监控区域的多张视频帧图像；从所述多张视频帧图像中确定未出现行人的目标视频帧图像；提取所述目标视频帧图像的目标图像特征；获取所述目标图像特征与针对所述目标监控区域预先确定的背景图像特征的相似程度，其中，所述背景图像特征为预先在预设时间段内对所述目标监控区域进行拍摄获得的背景图像，并对所述背景图像的图像特征进行聚类获得的聚类特征；基于所述相似程度检测所述目标视频帧图像中是否出现遗留物。

在上述实现过程中，通过将未出现行人的目标视频帧图像的目标图像特征与对应的针对目标监控区域的背景图像特征进行相似程度计算，获得两个特征之间的相似程度，然后可基于相似程度判断目标视频帧图像中是否出现遗留物，通过本申请的遗留物检测方法可无需预先收集大量的遗留物图像进行模型训练，也可实现针对多种不同的遗留物进行检测，从而可减少遗留物漏检或误检的情况，有效提高遗留物检测的准确性。

可选地，通过如下方式获取所述背景图像特征：

获取在预设时间段内对所述目标监控区域进行拍摄获得的背景图像；

提取每张背景图像的图像特征，并对所述图像特征进行聚类，获得至少一个聚类对应的聚类特征；

确定每个聚类对应的聚类特征的特征均值，所述特征均值为所述背景图像特征。

在上述实现过程中，通过将背景图像的图像特征进行聚类，然后将每个聚类对应的特征均值作为背景特征，可有效减少参与计算的特征点的数量，从而有效减少后续的计算量。

可选地，所述对所述图像特征进行聚类，获得至少一个聚类对应的聚类特征，包括：

对所述图像特征进行k均值聚类计算，获得k个聚类对应的聚类特征，k为大于或等于1的整数。

在上述实现过程中，由于k均值聚类在将相似的特征点进行聚类方面具有较好的效果，所以，通过对图像特征进行k均值聚类计算，可以提高特征点聚类的效果和准确性。

可选地，通过如下方式获取所述背景图像特征：

将所述预设时间段划分为多个时间段，获取每个时间段对应的背景图像；

提取每个时间段对应的每张背景图像的图像特征，对每个时间段对应的图像特征进行聚类，获得每个时间段对应的多个聚类的聚类特征；

计算获得每个时间段对应的聚类特征的特征均值，将所述特征均值作为所述背景图像特征。

在上述实现过程中，由于将预设时间段划分为粒度更小的多个时间段，从而可避免因环境因素变化而导致图像采集的差异使得特征聚类不准确，进而造成遗留物检测的误检率大的问题。

可选地，从所述多张视频帧图像中确定未出现行人的目标视频帧图像，包括：

采用YOLO网络对每张视频帧图像进行行人检测；

将未检测到行人的视频帧图像作为目标视频帧图像。

在上述实现过程中，通过YOLO网络进行行人检测能达到较好的检测效果。

可选地，所述基于所述相似程度检测所述目标视频帧图像中是否出现遗留物，包括：

若所述相似程度大于或等于预设相似程度，则确定所述目标视频帧图像中未出现遗留物；

若所述相似程度小于预设相似程度，则确定所述目标视频帧图像中出现遗留物。

可选地，所述提取所述目标视频帧图像的目标图像特征之后，所述获取所述目标图像特征与针对所述目标监控区域预先确定的背景图像特征的相似程度之前，还包括：

对所述目标图像特征与所述背景图像特征进行降维，获得预设维数的目标图像特征和背景图像特征。

在上述实现过程中，对特征进行降维后再进行相似程度计算，可有效减少数据计算量。

第二方面，本申请实施例提供了一种遗留物检测装置，所述装置包括：

图像获取模块，用于获取目标监控区域的多张视频帧图像；

图像检测模块，用于从所述多张视频帧图像中确定未出现行人的目标视频帧图像；

特征提取模块，用于提取所述目标视频帧图像的目标图像特征；

计算模块，用于获取所述目标图像特征与针对所述目标监控区域预先确定的背景图像特征的相似程度，其中，所述背景图像特征为预先在预设时间段内对所述目标监控区域进行拍摄获得的背景图像，并对所述背景图像的图像特征进行聚类获得的聚类特征；

遗留物检测模块，用于基于所述相似程度检测所述目标视频帧图像中是否出现遗留物。

可选地，所述特征提取模块，还用于获取在预设时间段内对所述目标监控区域进行拍摄获得的背景图像；提取每张背景图像的图像特征，并对所述图像特征进行聚类，获得至少一个聚类对应的聚类特征；确定每个聚类对应的聚类特征的特征均值，所述特征均值为所述背景图像特征。

可选地，所述特征提取模块，还用于对所述图像特征进行k均值聚类计算，获得k个聚类对应的聚类特征，k为大于或等于1的整数。

可选地，所述特征提取模块，还用于获取在预设时间段内对所述目标监控区域进行拍摄获得的背景图像；将所述预设时间段划分为多个时间段，获取每个时间段对应的背景图像；提取每个时间段对应的每张背景图像的图像特征，对每个时间段对应的图像特征进行聚类，获得每个时间段对应的多个聚类的聚类特征；计算获得每个时间段对应的聚类特征的特征均值，将所述特征均值作为所述背景图像特征。

可选地，所述图像检测模块，用于采用YOLO网络对每张视频帧图像进行行人检测；将未检测到行人的视频帧图像作为目标视频帧图像。

可选地，所述遗留物检测模块，用于若所述相似程度大于或等于预设相似程度，则确定所述目标视频帧图像中未出现遗留物；若所述相似程度小于预设相似程度，则确定所述目标视频帧图像中出现遗留物。

可选地，所述装置还包括：

特征降维模块，用于对所述目标图像特征与所述背景图像特征进行降维，获得预设维数的目标图像特征和背景图像特征。

第三方面，本申请实施例提供一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述第一方面提供的所述方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种用于执行遗留物检测方法的电子设备的结构示意图；

图2为本申请实施例提供的一种遗留物检测方法的流程图；

图3为本申请实施例提供的一种遗留物检测装置的结构框图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供一种遗留物检测方法，通过将未出现行人的目标视频帧图像的目标图像特征与对应的针对目标监控区域的背景图像特征进行相似程度计算，获得两个特征之间的相似程度，然后可基于相似程度判断目标视频帧图像中是否出现遗留物，也即，通过本申请的遗留物检测方法可无需预先收集大量的遗留物图像，也可实现对多种不同的遗留物进行检测，从而可减少遗留物误检的情况，有效提高遗留物检测的准确性。

请参照图1，图1为本申请实施例提供的一种用于执行遗留物检测方法的电子设备的结构示意图，所述电子设备可以包括：至少一个处理器110，例如CPU，至少一个通信接口120，至少一个存储器130和至少一个通信总线140。其中，通信总线140用于实现这些组件直接的连接通信。其中，本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器，也可以是非易失性的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令，当所述计算机可读取指令由所述处理器110执行时，电子设备执行下述图2所示方法过程，例如，存储器130可用于存储多张视频帧图像以及背景图像特征，处理器110在进行遗留物检测时，可以从存储器130中获取多张视频帧图像，然后从中确定出相应的目标视频帧图像，再提取目标视频帧图像的目标图像特征，然后计算目标图像特征与背景图像特征的相似程度，并基于相似程度检测目标视频帧图像中是否出现遗留物。

可以理解，图1所示的结构仅为示意，所述电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参照图2，图2为本申请实施例提供的一种遗留物检测方法的流程图，该方法包括如下步骤：

步骤S110：获取目标监控区域的多张视频帧图像。

本申请的应用场景可以是对商场的门口、地铁的楼梯等场景进行遗留物检测，相应的，可以在这些需要进行遗留物检测的区域安装摄像头，摄像头可用于对这些区域进行视频监控。本申请实施例中所指的目标监控区域可以是指摄像头的监控区域，如商场门口等，当然，在实际应用过程中，目标监控区域可以是指需要进行遗留物检测的任一区域，对这些区域进行遗留物检测时均可以按照本申请实施例提供的方法进行检测，为了描述的便利，本申请实施例中以一目标监控区域为例进行说明。

摄像头可以实时采集目标监控区域的视频图像，然后实时将视频图像发送至电子设备，电子设备可以与摄像头通过网络进行通信，当然，摄像头也可以按照一定周期向电子设备发送视频图像，或者电子设备在接收到用户触发的遗留物检测指令后，向摄像头发送视频图像获取指令，摄像头在接收到视频图像获取指令后将视频图像发送给电子设备。

电子设备在获得视频图像后，可以从视频图像中提取每帧图像，即可获得多张视频帧图像。

需要说明的是，在实际应用过程中，可能摄像头的监控区域很大，为了减少遗留物的监控范围，也可以划定相应的遗留物监控区域作为目标监控区域，如可以预先生成一矩形框，基于矩形框对视频图像进行相应处理，如基于矩形框对视频图像中的每帧图像进行截取，从而获得多张视频帧图像，这样可以截掉一些造成干扰的背景图像特征，并且由于图像大小变小了，使得在后续进行特征之间的相似程度计算时，可以减少特征计算量。

步骤S120：从所述多张视频帧图像中确定出未出现行人的目标视频帧图像。

遗留物是指行人离开后未拿走的物品，如包包、手机、纸箱等，所以，在获得多张视频帧图像后，还需从多张视频帧图像中确定出未出现行人的目标视频帧图像。

例如，可以对每张视频帧图像进行检测，以检测每张视频帧图像中是否出现行人，然后从中筛选出未出现行人的视频帧图像作为目标视频帧图像。其中，目标视频帧图像可以为至少一张视频帧图像。

作为一种实施方式，在上述对多张视频帧图像进行行人检测的过程中，可以通过神经网络模型对每张视频帧图像进行行人检测，即通过神经网络模型识别每张视频帧图像中是否存在人体，然后将未存在人体的视频帧图像筛选出来作为目标视频帧图像。神经网络模型可以为你只看一眼(You Only Look Once，YOLO)算法模型、YOLOv3算法模型、特征金字塔网络(Feature Pyramid Networks，FPN)等模型，上述这些算法模型均可用于检测每张视频帧图像中是否存在行人。

其中，由于采用YOLO网络对行人进行检测可以达到较好的检测效果，所以，本申请实施例中，可以采用YOLO网络对每张视频帧图像进行行人检测，在具体实现过程中，可以预先采集大量包含有行人的图像对YOLO网络进行训练，YOLO网络包括多个卷积层和池化层，在训练时，将大量的图像输入YOLO网络中，对卷积层和池化层的相关网络参数进行训练，在训练完成后，即可利用YOLO网络对每张视频帧图像进行行人检测，从而检测出每张视频帧图像中是否出现行人，电子设备可基于YOLO网络的检测结果将未检测到行人的视频帧图像筛选出来作为目标视频帧图像。

另外，作为一种实施方式，为了提高遗留物检测的准确性，避免其他物体造成对遗留物检测的干扰，还可以对多张视频帧图像中的相邻两帧视频帧图像进行行人检测，如在前一张视频帧图像检测到行人，且在后一张视频帧图像中未检测到行人时，表示行人当前离开目标监控区域，此时可以将该后一张视频帧图像筛选出来，作为进行遗留物检测的目标视频帧图像，若是前一张视频帧图像未检测到行人，而后一张视频帧图像也未检测到行人，则可以舍弃后一张视频帧图像，这样可以继续按照上述方式筛查符合要求的视频帧图像，这些视频帧图像即可用于进行遗留物检测，此时这些视频帧图像中若出现遗留物，其可以更加准确地表明是行人遗留的物品，从而可有效提高遗留物检测的准确性。

步骤S130：提取所述目标视频帧图像的目标图像特征。

在通过上述步骤获得目标视频帧图像后，可以提取目标视频帧图像的目标图像特征，目标图像特征是指可以表征目标视频帧图像中相关物体的属性的特征，如颜色、形状、纹理、空间关系等。目标图像特征的形式可以是特征图、特征向量等。

其中，特征提取方法有Fourier变换法、窗口变换法、小波变换法、最小二乘法、边界方向直方图法等，当然，也可以采用卷积神经网络模型来提取图像特征，提取的特征可包括传统特征如hog\sift、surf、lbp、haar特征，深度学习特征包括vgg、inception系列、resnet系列特征等，对于具体进行特征提取的过程在此不详细介绍，本领域技术人员可参照现有的特征提取方法的实现过程。

步骤S140：获取所述目标图像特征与针对所述目标监控区域预先确定的背景图像特征的相似程度。

其中，背景图像特征为预先在预设时间段内对目标监控区域进行拍摄获得的背景图像，并对背景图像的图像特征进行聚类获得的聚类特征。

可以理解地，背景图像是指相对于遗留物来说的背景图像，即背景图像是指图像中未出现遗留物的一些图像，在获取背景图像时，也可以通过摄像头实时采集目标监控区域的图像，如电子设备可以指示摄像头采集预设时间段(如一天)内目标监控区域的图像，然后摄像头将图像发送给电子设备，电子设备可将图像进行显示，由人工筛选出不包含遗留物的图像作为背景图像。

在获得背景图像后，可以通过上述列举的特征提取方法对每张背景图像进行图像特征提取，获得每张背景图像对应的图像特征，由于背景图像中可能存在多种物体，如包括行人、门、地毯等，为了对这些物体进行分类，还需对背景图像特征进行聚类，即将属于同一物体的特征分为一类，聚类的时候可以是针对每张背景图像的图像特征分别进行聚类，也可以将所有图像特征合并之后再进行聚类，如此可以分为多个聚类的聚类特征，这些聚类特征即可作为背景图像特征。

在获得背景图像特征后，为了检测目标视频帧图像中是否存在遗留物，则需将目标图像特征与背景图像特征进行相似程度计算，其中，计算目标图像特征和背景图像特征之间的相似程度的方式可以采用余弦相似度计算方法、欧式距离计算方法或者曼哈顿距离计算方法等。

以欧式距离计算方法为例，相似程度可以以特征之间的欧式距离来表征，由于目标图像特征包括多个特征点，背景图像特征也包括多个聚类的多个特征点，在计算欧式距离时，可以将目标图像特征中的每个特征点分别与背景图像特征中的每个聚类的每个特征点进行欧式距离计算，这样可获得多个欧式距离，在确定相似程度时，可以选取多个欧式距离中的最小欧式距离作为相似程度，也可以将多个欧式距离的均值作为相似程度，还可以选取多个欧式距离中的中值作为相似程度。

对于其他距离计算方法也可以按照该方式确定目标图像特征和背景图像特征之间的相似程度，为了描述的简洁，在此不一一详细描述。

步骤S150：基于所述相似程度检测所述目标视频帧图像中是否出现遗留物。

上述确定目标图像特征与背景图像特征之间的相似程度实际上是确定目标图像特征是否与背景图像特征中的多个聚类特征属于同一类，若属于同一类，则表示目标视频帧图像中未出现遗留物，若不属于同一类，则表示目标视频帧图像中出现了遗留物。

可以理解地，若目标图像特征与背景图像特征中的多个聚类特征属于同一类，表示目标图像特征与背景图像特征的相似程度较大，则确定目标视频帧图像中未出现遗留物，若目标图像特征与背景图像特征中的多个聚类特征不属于同一类，表示目标图像特征与背景图像特征的相似程度较小，则确定目标视频帧图像中出现遗留物。

在实际应用时，可以设置一个预设相似程度，在相似程度大于或等于预设相似程度时，确定目标视频帧图像中未出现遗留物，在相似程度小于预设相似程度时，确定目标视频帧图像中出现遗留物。也就是说，在相似程度大于或等于预设相似程度时，表明目标视频帧图像很可能也是背景图像，其未出现遗留物，在相似程度小于预设相似程度时，表明目标视频帧图像中出现了背景图像中所包含的物体以外的物品，即认为目标视频帧图像中出现了遗留物。

以上述的欧式距离表征相似程度的情况下，预设相似程度即以预设欧式距离来表征，如可以预先设置一预设欧式距离，在目标图像特征与背景图像特征之间的最小欧式距离小于预设欧式距离时，表明两个特征的相似程度较大，表征相似程度大于或等于预设相似程度，则确定目标视频帧图像中未出现遗留物，若目标图像特征与背景图像特征之间的最小欧式距离大于或等于预设欧式距离时，表明两个特征之间的相似程度较小，表征相似程度小于预设相似程度，则确定目标视频帧图像中出现了遗留物。

可以理解地，在采用其他方式表征目标图像特征与背景图像特征之间的相似程度时，也可以按照上述方式判断目标视频帧图像中是否出现遗留物，为了避免重复描述，在此不详细介绍其他实现方法。

作为一种实施方式，在上述获取背景图像特征的过程中，还可以采用如下方式获得：获取在预设时间段内对目标监控区域进行拍摄获得的背景图像，提取每张背景图像的图像特征，并对图像特征进行聚类，获得至少一个聚类对应的聚类特征，确定每个聚类对应的聚类特征的特征均值，该特征均值作为背景图像特征。

其中，由于每个聚类包含有多个特征点，每个特征点具有相应的特征值，在进行相似程度计算时，需要将目标图像特征中的每个特征点的特征值与每个聚类中的每个特征点的特征值进行欧式距离计算，然后可找出最小欧式距离，再将最小欧式距离与预设欧式距离进行比较，这样需要参与计算的特征点的数量较大，使得计算效率较低，而对每个聚类中的特征进行均值计算后，每个聚类对应一个特征均值，这样目标图像特征中的每个特征点只需要与每个聚类对应的特征均值进行欧式距离计算，从而参与计算的特征点减少，使得计算量也相应减少。

其中，计算每个聚类的聚类特征的特征均值是指计算各个聚类特征的特征值的均值。

由于在实际应用中，摄像头采集的图像可能会受到不同时间段的光线变化、天气等因素的影响，导致对背景图像的图像特征进行聚类时可能会将不属于同一物体的特征点也聚为一类，所以，为了提高遗留物检测的准确性，还可以将预设时间段划分为多个时间段，然后对多个时间段采集的背景图像的图像特征进行聚类，即先获取在预设时间段内对目标监控区域进行拍摄获得的背景图像，然后将预设时间段划分为多个时间段，获取每个时间段对应的背景图像，提取每个时间段对应的每张背景图像的图像特征，对每个时间段对应的图像特征进行聚类，获得每个时间段对应的多个聚类的聚类特征，再计算获得每个时间段对应的聚类特征的特征均值，该特征均值即为背景图像特征。

例如，预设时间段为一天，则可以将预设时间段划分为24小时，即每个时间段为一小时，这样获取每一个小时内的背景图像，然后对这一小时内的背景图像进行特征提取，获得这一小时内的背景图像的图像特征，然后再对这一小时内的图像特征进行聚类，获得多个聚类的聚类特征，然后计算每个聚类的聚类特征的特征均值，也就是每个小时的背景图像对应一个特征均值，24个小时即对应24个特征均值，这样在进行相似程度计算时，可以将目标图像特征中的每个特征点分别与这24个特征均值进行欧式距离计算，从而可按照上述方式确定出目标视频帧图像中是否出现遗留物。

需要说明的是，对于预设时间段的划分可以根据实际情况而定，如可以将预设时间段按照每小时划分，也可以将预设时间段按照每两小时划分等方式，具体的划分方式可根据实际需求而定，在本申请实施例中不做具体限定。

在上述实现过程中，由于将预设时间段划分为粒度更小的多个时间段，从而可避免因环境因素变化而导致图像采集的差异，使得遗留物检测的误检率大的问题。

在上述实施例中，对特征进行聚类的方式可以采用Kmeans聚类方式，即对图像特征进行k均值聚类计算，获得k个聚类对应的聚类特征，k为大于或等于1的整数。

其中，Kmeans聚类方法的实现流程大致为：先选取k个特征点作为k个聚类中心，计算每个特征点跟k个聚类中心的距离，然后把特征点分配给距离最近的一个聚类中心，计算新的聚类中心(即对该聚类中心的所有特征点取均值)，然后又计算每个特征点跟新的聚类中心的距离，重复上述过程，直到满足终止条件后终止迭代(如达到最大迭代数或所有聚类中心移动小于预设值)，这样即可将图像特征分为k个聚类。

上述对背景图像的图像特征进行聚类的方式均可按照上述Kmeans聚类方法，当然，还可以采用其他聚类方法，如层次聚类方法、最大最小距离聚类法等，对于其他聚类方法的实现过程在此不详细赘述，本领域技术人员可参照现有技术中的相关实现过程。

作为一种实施方式，由于通过卷积神经网络提取的特征的维数较大，造成后续相似程度计算时的计算量较大，所以，为了减少计算量，还可以对特征进行降维，即可以对目标图像特征与背景图像特征进行降维，获得预设维数的目标图像特征和背景图像特征。

例如，在通过卷积神经网络进行特征提取后，其特征维数为2048维，可以通过主成分分析(Principal Component Analysis，PCA)法对其进行降维，如将2048维降为128维，通过该方法进行降维后，可使得新的低维数的数据集尽可能保留原始数据的变量，即有效保留特征信息，在减少计算量的同时，也能有利于后续的相似程度的计算。

可以理解地，具体的降维数可以依据实际情况而定，不仅仅限于128维，在此不一一举例说明。

另外，在上述实施例中，若确定目标视频帧图像中出现遗留物后，电子设备还可以输出提示信息，以提示工作人员目标监控区域中出现遗留物，使得工作人员可基于提示信息及时发现遗留物，然后可提示目标监控区域现场的工作人员对遗留物进行保管，以便于失主可以尽快找回遗留物。

请参照图3，图3为本申请实施例提供的一种遗留物检测装置200的结构框图，该装置200可以是电子设备上的模块、程序段或代码。应理解，该装置200与上述图2方法实施例对应，能够执行图2方法实施例涉及的各个步骤，该装置200具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。

可选地，所述装置200包括：

图像获取模块210，用于获取目标监控区域的多张视频帧图像；

图像检测模块220，用于从所述多张视频帧图像中确定未出现行人的目标视频帧图像；

特征提取模块230，用于提取所述目标视频帧图像的目标图像特征；

计算模块240，用于获取所述目标图像特征与针对所述目标监控区域预先确定的背景图像特征的相似程度，其中，所述背景图像特征为预先在预设时间段内对所述目标监控区域进行拍摄获得的背景图像，并对所述背景图像的图像特征进行聚类获得的聚类特征；

遗留物检测模块250，用于基于所述相似程度检测所述目标视频帧图像中是否出现遗留物。

可选地，所述特征提取模块230，还用于获取在预设时间段内对所述目标监控区域进行拍摄获得的背景图像；提取每张背景图像的图像特征，并对所述图像特征进行聚类，获得至少一个聚类对应的聚类特征；确定每个聚类对应的聚类特征的特征均值，所述特征均值为所述背景图像特征。

可选地，所述特征提取模块230，还用于对所述图像特征进行k均值聚类计算，获得k个聚类对应的聚类特征，k为大于或等于1的整数。

可选地，所述特征提取模块230，还用于获取在预设时间段内对所述目标监控区域进行拍摄获得的背景图像；将所述预设时间段划分为多个时间段，获取每个时间段对应的背景图像；提取每个时间段对应的每张背景图像的图像特征，对每个时间段对应的图像特征进行聚类，获得每个时间段对应的多个聚类的聚类特征；计算获得每个时间段对应的聚类特征的特征均值，将所述特征均值作为所述背景图像特征。

可选地，所述图像检测模块220，用于采用YOLO网络对每张视频帧图像进行行人检测；将未检测到行人的视频帧图像作为目标视频帧图像。

可选地，所述遗留物检测模块250，用于若所述相似程度大于或等于预设相似程度，则确定所述目标视频帧图像中未出现遗留物；若所述相似程度小于预设相似程度，则确定所述目标视频帧图像中出现遗留物。

可选地，所述装置200还包括：

本申请实施例提供一种可读存储介质，所述计算机程序被处理器执行时，执行如图2所示方法实施例中电子设备所执行的方法过程。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如，包括：获取目标监控区域的多张视频帧图像；从所述多张视频帧图像中确定未出现行人的目标视频帧图像；提取所述目标视频帧图像的目标图像特征；获取所述目标图像特征与针对所述目标监控区域预先确定的背景图像特征的相似程度，其中，所述背景图像特征为预先在预设时间段内对所述目标监控区域进行拍摄获得的背景图像，并对所述背景图像的图像特征进行聚类获得的聚类特征；基于所述相似程度检测所述目标视频帧图像中是否出现遗留物。

综上所述，本申请实施例提供一种遗留物检测方法、装置、电子设备及可读存储介质，通过将未出现行人的目标视频帧图像的目标图像特征与对应的针对目标监控区域的背景图像特征进行相似程度计算，获得两个特征之间的相似程度，然后可基于相似程度判断目标视频帧图像中是否出现遗留物，通过本申请的遗留物检测方法可无需预先收集大量的遗留物图像进行模型训练，也可实现针对多种不同的遗留物进行检测，从而可减少遗留物漏检或误检的情况，进而可有效提高遗留物检测的准确性。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种遗留物检测方法，其特征在于，所述方法包括：

获取目标监控区域的多张视频帧图像；

从所述多张视频帧图像中确定未出现行人的目标视频帧图像；

提取所述目标视频帧图像的目标图像特征；

获取所述目标图像特征与针对所述目标监控区域预先确定的背景图像特征的相似程度，其中，所述背景图像特征为预先在预设时间段内对所述目标监控区域进行拍摄获得的背景图像，并对所述背景图像的图像特征进行聚类获得的聚类特征；

基于所述相似程度检测所述目标视频帧图像中是否出现遗留物；

所述基于所述相似程度检测所述目标视频帧图像中是否出现遗留物，包括：若所述相似程度大于或等于预设相似程度，则确定所述目标视频帧图像中未出现遗留物；若所述相似程度小于预设相似程度，则确定所述目标视频帧图像中出现遗留物；

其中，所述目标图像特征与背景图像特征的相似程度的计算方式包括：

将所述目标图像特征中的每个特征点分别与所述背景图像特征中聚类获得的每个聚类特征进行相似度计算，获得多个相似度距离；

基于所述多个相似度距离，确定所述目标图像特征与所述背景图像特征的相似程度。

2.根据权利要求1所述的方法，其特征在于，通过如下方式获取所述背景图像特征：

3.根据权利要求2所述的方法，其特征在于，所述对所述图像特征进行聚类，获得至少一个聚类对应的聚类特征，包括：

4.根据权利要求1所述的方法，其特征在于，通过如下方式获取所述背景图像特征：

5.根据权利要求1所述的方法，其特征在于，从所述多张视频帧图像中确定未出现行人的目标视频帧图像，包括：

采用YOLO网络对每张视频帧图像进行行人检测；

将未检测到行人的视频帧图像作为目标视频帧图像。

6.根据权利要求1所述的方法，其特征在于，所述提取所述目标视频帧图像的目标图像特征之后，所述获取所述目标图像特征与针对所述目标监控区域预先确定的背景图像特征的相似程度之前，还包括：

7.一种遗留物检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取目标监控区域的多张视频帧图像；

遗留物检测模块，用于基于所述相似程度检测所述目标视频帧图像中是否出现遗留物；

所述遗留物检测模块，用于若所述相似程度大于或等于预设相似程度，则确定所述目标视频帧图像中未出现遗留物；若所述相似程度小于预设相似程度，则确定所述目标视频帧图像中出现遗留物；

所述计算模块，还用于将所述目标图像特征中的每个特征点分别与所述背景图像特征中聚类获得的每个聚类特征进行相似度计算，获得多个相似度距离；基于所述多个相似度距离，确定所述目标图像特征与所述背景图像特征的相似程度。

8.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-6任一所述的方法。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1-6任一所述的方法。