CN112906594B

CN112906594B - 一种布防区域生成方法、装置、设备及存储介质

Info

Publication number: CN112906594B
Application number: CN202110234977.XA
Authority: CN
Inventors: 施登科
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2022-06-03
Anticipated expiration: 2041-03-03
Also published as: CN112906594A

Abstract

本发明实施例提供了一种布防区域生成方法、装置、设备及存储介质，方法包括：对视频进行语义分割得到分割结果；对视频进行目标检测及定位得到视频的目标信息；将该分割结果和该目标信息输入至预先训练得到的第一热力图生成模型，得到第一热力图生成模型输出的第一布防区域热力图；确定第一布防区域热力图中置信度满足预设条件的像素点，作为目标像素点；根据目标像素点所在位置，确定布防区域。可见，本方案中，通过语义分割、目标检测及定位和第一热力图生成模型三部分，实现了自动生成布防区域。

Description

一种布防区域生成方法、装置、设备及存储介质

技术领域

本发明涉及监控技术领域，特别是涉及一种布防区域生成方法、装置、设备及存储介质。

背景技术

布防区域（Protection area），是指需要布置监控的区域，例如人脸抓拍区域、周界防范区域等等。当人员或者其他监控目标出现在布防区域中时，可以触发相应的事件，例如，人脸出现在人脸抓拍区域时，触发人脸抓拍事件，再例如，人员或车辆出现在周界防范区域时，触发报警事件、或者人员身份识别事件、或者车牌识别事件等等。

相关方案中，通常是由相关人员根据现场环境划定布防区域，例如，相关人员勘察现场环境，确定哪个区域适合进行人脸抓拍，将这个区域划定为人脸抓拍区域，再例如，相关人员根据实际情况设定周界防范区域等等。

目前亟需一种能够自动生成布防区域的方案。

发明内容

本发明实施例的目的在于提供一种布防区域生成方法、装置、设备及存储介质，以自动生成布防区域。

为达到上述目的，本发明实施例提供了一种布防区域生成方法，包括：

获取第一视频；

对所述第一视频进行语义分割，得到所述第一视频的分割结果；

对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息；

将所述第一视频的分割结果和所述第一视频的目标信息输入至预先训练得到的第一热力图生成模型，得到所述第一热力图生成模型输出的第一布防区域热力图；所述第一热力图生成模型为：以样本视频对应的布防区域热力图为监督，以样本视频的分割结果和目标信息为训练数据，对预设结构的第一神经网络进行训练得到的；所述第一布防区域热力图中包括每个像素点属于布防区域的置信度；

确定所述第一布防区域热力图中置信度满足预设条件的像素点，作为目标像素点；

根据所述目标像素点所在位置，确定布防区域。

可选的，所述第一视频中包括多帧第一图像，所述对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息，包括：

利用目标检测模型，对所述每帧第一图像进行目标检测，并对所述每帧第一图像的检测结果进行连接，得到第一连接检测结果；

将所述第一连接检测结果输入至预先训练得到的第二热力图生成模型，得到所述第二热力图生成模型输出的目标位置热力图，作为所述第一视频的目标信息；所述第二热力图生成模型为：以样本视频对应的目标位置热力图为监督，以样本视频的连接检测结果为训练数据，对预设结构的第二神经网络进行训练得到的；所述目标位置热力图中包括每个像素点属于目标的置信度。

可选的，所述确定由所述目标像素点组成的布防区域之后，还包括：

获取第二视频，所述第二视频与所述第一视频为针对同一场景采集的视频；

对所述第二视频进行语义分割，得到所述第二视频的分割结果，所述第二视频的分割结果中包括所述第二视频中各像素点的类别；

通过将所述布防区域映射至所述第二视频中，得到所述第二视频中的目标区域；

根据所述第二视频的分割结果，判断所述目标区域中是否存在预设类别的像素点，所述预设类别为预设遮挡物的类别；如果存在，确定所述预设类别的像素点映射至所述布防区域中的区域，作为待剔除区域；将所述待剔除区域从所述布防区域中剔除。

可选的，所述根据所述第二视频的分割结果，判断所述目标区域中是否存在预设类别的像素点之前，还包括：

确定所述第二视频的分割结果与所述第一视频的分割结果之间的差异，作为第一差异，判断所述第一差异是否大于第一预设阈值；

如果大于，再执行所述根据所述第二视频的分割结果，判断所述目标区域中是否存在预设类别的像素点的步骤。

可选的，所述对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息，包括：

利用预设尺寸的过滤框，对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息；

所述确定由所述目标像素点组成的布防区域之后，还包括：

获取第三视频，所述第三视频与所述第一视频为针对同一场景采集的视频，所述第三视频中包括多帧第三图像；

利用所述预设尺寸的过滤框，对所述第三视频进行目标检测及定位，得到所述第三视频的目标信息；

确定所述第三视频的目标信息与所述第一视频的目标信息中包括的目标的尺寸差异，判断所述尺寸差异是否大于第二预设阈值；

如果大于，调整所述过滤框的尺寸，得到调整后的过滤框；

获取第四视频，所述第四视频与所述第三视频为针对同一场景采集的视频，所述第四视频中包括多帧第四图像；

利用所述调整后的过滤框，对所述第四视频进行目标检测及定位，得到所述第四视频的目标信息；

对所述第四视频进行语义分割，得到所述第四视频的分割结果；

将所述第四视频的目标信息和所述第四视频的分割结果输入至所述第一热力图生成模型，得到所述第一热力图生成模型输出的第二布防区域热力图；所述第二布防区域热力图中包括每个像素点属于布防区域的置信度；

根据所述第二布防区域热力图，对所述布防区域进行调整。

获取第五视频，所述第五视频与所述第一视频为针对同一场景采集的视频；

对所述第五视频进行目标检测及定位，得到所述第五视频的目标信息；

确定所述第五视频的目标信息与所述第一视频的目标信息中包括的目标的位置差异，判断所述位置差异是否大于第三预设阈值；

如果大于，根据所述位置差异，对所述布防区域进行调整。

为达到上述目的，本发明实施例还提供了一种布防区域生成装置，包括：

第一获取模块，用于获取第一视频；

第一语义分割模块，用于对所述第一视频进行语义分割，得到所述第一视频的分割结果；

第一目标检测定位模块，用于对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息；

第一热力图生成模块，用于将所述第一视频的分割结果和所述第一视频的目标信息输入至预先训练得到的第一热力图生成模型，得到所述第一热力图生成模型输出的第一布防区域热力图；所述第一热力图生成模型为：以样本视频对应的布防区域热力图为监督，以样本视频的分割结果和目标信息为训练数据，对预设结构的第一神经网络进行训练得到的；所述第一布防区域热力图中包括每个像素点属于布防区域的置信度；

第一确定模块，用于确定所述第一布防区域热力图中置信度满足预设条件的像素点，作为目标像素点；

第二确定模块，用于根据所述目标像素点所在位置，确定布防区域。

可选的，所述第一视频中包括多帧第一图像，所述第一目标检测定位模块，具体用于：

可选的，所述装置还包括：

第二获取模块，用于获取第二视频，所述第二视频与所述第一视频为针对同一场景采集的视频；

第二语义分割模块，用于对所述第二视频进行语义分割，得到所述第二视频的分割结果，所述第二视频的分割结果中包括所述第二视频中各像素点的类别；

映射模块，用于通过将所述布防区域映射至所述第二视频中，得到所述第二视频中的目标区域；

第三确定模块，用于确定所述第二视频的分割结果与所述第一视频的分割结果之间的差异，作为第一差异；

第一判断模块，用于判断所述第一差异是否大于第一预设阈值；如果大于，则触发第二判断模块；

第二判断模块，用于根据所述第二视频的分割结果，判断所述目标区域中是否存在预设类别的像素点，所述预设类别为预设遮挡物的类别；如果存在，触发第四确定模块；

第四确定模块，用于确定所述预设类别的像素点映射至所述布防区域中的区域，作为待剔除区域；

剔除模块，用于将所述待剔除区域从所述布防区域中剔除。

可选的，所述第一目标检测定位模块还用于：利用预设尺寸的过滤框，对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息；

所述装置还包括：

第三获取模块，用于获取第三视频，所述第三视频与所述第一视频为针对同一场景采集的视频，所述第三视频中包括多帧第三图像；

第二目标检测定位模块，用于利用所述预设尺寸的过滤框，对所述第三视频进行目标检测及定位，得到所述第三视频的目标信息；

第五确定模块，用于确定所述第三视频的目标信息与所述第一视频的目标信息中包括的目标的尺寸差异；

第三判断模块，用于判断所述尺寸差异是否大于第二预设阈值；如果大于，触发第一调整模块；

第一调整模块，用于调整所述过滤框的尺寸，得到调整后的过滤框；

第四获取模块，用于获取第四视频，所述第四视频与所述第三视频为针对同一场景采集的视频，所述第四视频中包括多帧第四图像；

第三目标检测定位模块，用于利用所述调整后的过滤框，对所述第四视频进行目标检测及定位，得到所述第四视频的目标信息；

第三语义分割模块，用于对所述第四视频进行语义分割，得到所述第四视频的分割结果；

第二热力图生成模块，用于将所述第四视频的目标信息和所述第四视频的分割结果输入至所述第一热力图生成模型，得到所述第一热力图生成模型输出的第二布防区域热力图；所述第二布防区域热力图中包括每个像素点属于布防区域的置信度；

第二调整模块，用于根据所述第二布防区域热力图，对所述布防区域进行调整。

可选的，所述装置还包括：

第五获取模块，用于获取第五视频，所述第五视频与所述第一视频为针对同一场景采集的视频；

第四目标检测定位模块，用于对所述第五视频进行目标检测及定位，得到所述第五视频的目标信息；

第六确定模块，用于确定所述第五视频的目标信息与所述第一视频的目标信息中包括的目标的位置差异；

第四判断模块，用于判断所述位置差异是否大于第三预设阈值；如果大于，触发第三调整模块；

第三调整模块，用于根据所述位置差异，对所述布防区域进行调整。

为达到上述目的，本发明实施例还提供了一种电子设备，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任意一种布防区域生成方法。

为达到上述目的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种布防区域生成方法。

应用本发明所示实施例，对视频进行语义分割得到分割结果；对视频进行目标检测及定位得到视频的目标信息；将该分割结果和该目标信息输入至预先训练得到的第一热力图生成模型，得到第一热力图生成模型输出的第一布防区域热力图；确定第一布防区域热力图中置信度满足预设条件的像素点，作为目标像素点；根据目标像素点所在位置，确定布防区域。可见，本方案中，通过语义分割、目标检测及定位和第一热力图生成模型三部分，实现了自动生成布防区域。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种布防区域生成方法的流程示意图；

图2为本发明实施例提供的一种语义分割网络的结构示意图；

图3为本发明实施例提供的一种第二热力图生成模型的结构示意图；

图4为本发明实施例提供的一种第一热力图生成模型的结构示意图；

图5为本发明实施例提供的一种具体实施方式的示意图；

图6为本发明实施例提供的一种布防区域生成装置的结构示意图；

图7为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了达到上述目的，本发明实施例提供了一种布防区域生成方法、装置、设备及存储介质，该方法及装置可以应用于各种电子设备，例如图像采集设备，或者与图像采集设备通信连接的后端处理设备，具体电子设备的类型不做限定。下面首先对该布防区域生成方法进行详细介绍。以下方法实施例中的各个步骤按照合乎逻辑的顺序执行即可，步骤标号或者对各步骤进行介绍的先后顺序，并不对各步骤的执行顺序构成限定。

图1为本发明实施例提供的一种布防区域生成方法的流程示意图，包括：

S101：获取第一视频。

为了与后续内容中的视频相区分，将生成布防区域的过程中涉及的视频称为第一视频。举例来说，一些用于监控的图像采集设备可以持续地进行图像采集，形成视频流，可以将视频流中的任意一段视频作为第一视频。第一视频中包括多帧图像，为了区分描述，将第一视频中的图像称为第一图像，第一视频中包括的第一图像的数量不做限定。

S102：对第一视频进行语义分割，得到第一视频的分割结果。

举例来说，可以对每帧第一图像进行语义分割，并对每帧第一图像的分割结果进行融合，得到第一视频的分割结果。

对图像进行语义分割可以理解为：对图像中每个像素点进行分类，确定每个像素点的类别，例如，像素点的类别可以包括背景、人员、车辆等等，然后根据每个像素点的类别进行区域划分。

本实施例中进行语义分割有利于更准确地对场景进行识别，可以将场景中的一些目标分割出来，场景中的目标可以包括人、机动车、非机动车、植被、道路、围墙、路灯、斑马线、墙体、桌子、椅子、门、栏杆等等，不再一一列举。

对图像进行语义分割的方式有多种：例如，可以将多帧第一图像输入至PSPNet(Pyramid Scene Parsing Network，金字塔场景分析网络)，第一图像可以为RGB(RedGreen Blue，红绿蓝)图像，通过PSPNet对每帧图像进行语义分割，并对每帧第一图像的分割结果进行融合，得到第一视频的分割结果。

PSPNet的结构可以参考图2所示，输入图像(多帧第一图像)先进入一个卷积神经网络，卷积神经网络输出特征图，该特征图进入金字塔池化模块中的池化层，池化层依次与卷积层、上采样层和连接层相连接，金字塔池化模块中的连接层输出的数据进入与金字塔池化模块外的卷积层，该卷积层输出第一视频的分割结果。

再例如，也可以利用FCN(Fully Convolutional Networks for SemanticSegmentation，用于语义分割的全卷积网络)对图像进行语义分割。具体语义分割的方式不做限定。

S103：对第一视频进行目标检测及定位，得到第一视频的目标信息。

举例来说，可以先对第一视频进行目标检测，再对检测到的目标进行定位，这样既能得到目标的尺寸、特征等信息，也可以得到目标的位置信息。第一视频的目标信息可以包括第一视频中出现目标的尺寸、特征、位置等信息。

S103中检测的目标可以为场景中需要关注的目标，例如，人、机动车、非机动车等等。S103中得到的目标信息有利于确定目标的运动情况。一种情况下，S103中可以生成表示目标位置的热力图，为了区分描述，将该热力图称为目标位置热力图，该目标位置热力图可以反应目标的运动情况。目标位置热力图中包括每个像素点属于某一目标的置信度，或者说，目标位置热力图中像素点的像素值可以为该像素点属于某一目标的概率，某像素点的置信度越大，则该像素值属于某一目标的概率越大，这样，便能反应出该目标的运动情况。换句话说，目标信息的表现形式可以为目标位置热力图。

一种实施方式中，S103可以包括：利用目标检测模型，对所述每帧第一图像进行目标检测，并对所述每帧第一图像的检测结果进行连接，得到第一连接检测结果；

举例来说，可以先采用目标检测模型cascadeR-CNN对每帧第一图像进行目标检测，然后将每帧第一图像的检测结果连接在一起得到第一连接检测结果，将该第一连接检测结果输入至第二热力图生成模型，得到第二热力图生成模型输出的目标位置热力图。

或者，也可以采用其他目标检测模型，例如，Faster R-CNN(Faster Region-Convolutional Neural Networks，快速区域-卷积神经网络)、YOLO(You Only Look Once，你只需要看一次)等等，不再一一列举。

举例来说，假设第一视频中包括N帧第一图像，每帧图像中检测得到多个检测框，对于每帧图像来说，将该帧图像中检测得到的检测框按照面积由大到小进行排序，取排序靠前的前K个检测框，或者不足K个，则用0补齐。每个检测框可以表示为四个元素(x，y，w，h)，其中，x和y表示检测框中指定点的坐标值，指定点可以为中心点、或者左上角点、或者右下角点等等，具体指定点的位置不做限定，w表示检测框的宽度，h表示检测框的高度。第一连接结果的维度可以表示为N×K×4，N表示第一视频图像中包括的图像帧数， K表示每帧图像中所取的检测框个数，4表示检测框的四个元素。将该N×K× 4维度的数据输入至第二热力图生成模型。

第二热力图生成模型可以参考图3所示，包括两个reshape函数层和3个FC (FullyConnected)层，输入的N×K×4维的数据经第一个reshape函数层处理后，得到1×1×1×4NK维的数据，该1×1×1×4NK维的数据经第一个FC层处理后，得到1×1×1×8NK维的数据，该1×1×1×8NK维的数据经第二个 FC层处理后，得到1×1×1×16NK维的数据，该1×1×1×16NK维的数据经第三个FC层处理后，得到1×1×1×HW维的数据，该1×1×1×HW维的数据经第二个reshape函数层处理后，输出1×1×HW维的数据。目标位置热力图为 1×1×HW维的数据，H表示目标位置热力图的高度，W表示目标位置热力图的宽度。

训练第二热力图生成模型时可以采用L2-Norm loss(L2范数作为正则项的损失函数)作为损失函数，训练过程可以理解为对第二热力图生成模型中的参数进行迭代调整的过程，当调整至该第二热力图生成模型收敛时，训练完成。训练第二热力图生成模型可以采用有监督的训练，以样本视频对应的目标位置热力图为监督(样本视频对应的目标位置热力图可以为人工标注的真值，或者为通过其他方式获取的真值)，以样本视频的连接检测结果为训练数据，对第二热力图生成模型中的参数进行调整。具体的训练过程、以及训练过程采用的损失函数不做限定。

S104：将第一视频的分割结果和第一视频的目标信息输入至预先训练得到的第一热力图生成模型，得到第一热力图生成模型输出的第一布防区域热力图。第一热力图生成模型为：以样本视频对应的布防区域热力图为监督，以样本视频的分割结果和目标信息为训练数据，对预设结构的第一神经网络进行训练得到的；第一布防区域热力图中包括每个像素点属于布防区域的置信度。

为了区分描述，将输出布防区域热力图的模型称为第一热力图生成模型，将输出目标位置热力图的模型称为第二热力图生成模型。参考图4所示，将第一视频的分割结果和目标信息一并输入至第一热力图生成模型中，该分割结果和该目标信息分别经过三层卷积层的卷积处理：第一层卷积层1-1、第二层卷积层2-1和第三层卷积层3-1分别对该分割结果进行卷积处理，第一层卷积层 1-2、第二层卷积层2-2和第三层卷积层3-2分别对该分割结果进行卷积处理；然后连接层对第三层卷积层3-1输出的卷积结果与第三层卷积层3-2输出的卷积结果进行连接，并将连接结果输入到第四层卷积层(卷积层4)进行卷积处理，第四层卷积层输出第一布防区域热力图。

为了区分描述，将布防区域生成过程中得到的布防区域热力图称为第一布防区域热力图，将后续布防区域调整过程中得到的布防区域热力图称为第二布防区域热力图。

训练第一热力图生成模型时可以采用L2-Norm loss(L2范数作为正则项的损失函数)作为损失函数，训练过程可以理解为对第一热力图生成模型中的参数进行迭代调整的过程，当调整至该第一热力图生成模型收敛时，训练完成。训练第一热力图生成模型可以采用有监督的训练，以样本视频的分割结果和目标信息为训练数据，并以样本视频的布防区域热力图为监督(样本视频的布防区域热力图可以为人工标注的真值，或者为通过其他方式获取的真值)，对第一热力图生成模型中的参数进行调整。具体的训练过程、以及训练过程采用的损失函数不做限定。

S105：确定第一布防区域热力图中置信度满足预设条件的像素点，作为目标像素点。

如上所述，第一布防区域热力图中包括每个像素点属于布防区域的置信度，或者说，第一布防区域热力图中像素点的像素值可以为该像素点属于布防区域的概率。某像素点的置信度越大，则该像素值属于布防区域的概率越大。可以设定一个概率阈值，将置信度大于该概率阈值的像素点确定为目标像素点。

S106：根据目标像素点所在位置，确定布防区域。

举例来说，可以将目标像素点所在位置连通，将得到的连通区域确定为布防区域。或者，可以先确定目标像素点形成的小区域，然后将这些小区域进行合并，得到布防区域。

在得到布防区域后，可以根据实际情况对该布防区域进行自适应调整，自适应调整方案可以包括：屏蔽遮挡区域、调整目标过滤框尺寸、根据目标位置调整布防区域位置等等。

下面首先对该“屏蔽遮挡区域”的方案进行介绍：

一种实施方式中，S106之后可以获取第二视频，所述第二视频与所述第一视频为针对同一场景采集的视频；对所述第二视频进行语义分割，得到所述第二视频的分割结果，所述第二视频的分割结果中包括所述第二视频中各像素点的类别；通过将所述布防区域映射至所述第二视频中，得到所述第二视频中的目标区域；根据所述第二视频的分割结果，判断所述目标区域中是否存在预设类别的像素点，所述预设类别为预设遮挡物的类别；如果存在，确定所述预设类别的像素点映射至所述布防区域中的区域，作为待剔除区域；将所述待剔除区域从所述布防区域中剔除。

上述一种情况下，一些用于监控的图像采集设备持续地进行图像采集，形成视频流，将视频流中的任意一段视频作为第一视频。这种情况下，可以在确定布防区域后，将视频流中的任意一段视频作为第二视频，第一视频与第二视频针对的场景相同，第二视频中包括的图像数量不做限定。举例来说，可以在确定布防区域后，每隔预设时间段，获取第二视频，并利用本实施方式对布防区域进行调整，该预设时间段可以为1天、2天、12小时等等，具体时长不做限定。为了区分描述，将本实施方式中获取的视频称为第二视频。

S106中确定的布防区域可以理解为在视频画面中划定出一个区域，由于第一视频与第二视频针对的场景相同，因此，S106中确定的布防区域同样适用于第二视频，可以基于第二视频的视频画面对布防区域进行调整。将布防区域映射至第二视频中，一种情况下，可以将映射得到的区域直接作为目标区域，另一种情况下，可以对映射得到的区域进行扩大，将扩大后的区域作为目标区域，具体的扩大情况不做限定。

本实施方式中，对第二视频进行语义分割，得到所述第二视频的分割结果。如上所述，对图像进行语义分割可以理解为：对图像中每个像素点进行分类，确定每个像素点的类别，例如，像素点的类别可以包括背景、人员、车辆等等，然后根据每个像素点的类别进行区域划分。第二视频的分割结果中包括第二视频中各像素点的类别。

判断目标区域中是否存在预设类别的像素点，所述预设类别为预设遮挡物的类别。举例来说，预设类别可以为树叶、或者处于静止状态的车辆等等，一些场景下，树叶、或者处于静止状态的车辆通常会对需要进行布防的区域形成遮挡。可以根据实际情况设定预设遮挡物的类别，具体类别不做限定。

如果目标区域中存在预设类别的像素点，则确定所述预设类别的像素点映射至所述布防区域中的区域，作为待剔除区域；将所述待剔除区域从所述布防区域中剔除。

可以理解，如果树叶、或者处于静止状态的车辆等物体对布防区域形成遮挡，则可以将布防区域进行调整，剔除该遮挡区域，也就是屏蔽遮挡区域，这样可以合理利用布防相关的资源。如上所述，可以每隔预设时间段，利用本实施方式对布防区域进行调整，如果下一次获取到第二视频时，该遮挡消失，则可以重新执行图1所示实施例，重新确定布防区域，或者也可以恢复之前确定的布防区域。

一种实施方式中，对所述第二视频进行语义分割，得到所述第二视频的分割结果后，可以先确定所述第二视频的分割结果与所述第一视频的分割结果之间的差异，作为第一差异，判断所述第一差异是否大于第一预设阈值；如果大于，再根据所述第二视频的分割结果，判断所述目标区域中是否存在预设类别的像素点。

本实施方式中，得到第二视频的分割结果后，仅在第一视频的分割结果与第一视频的分割结果存在较大差异的情况下，再继续判断是否需要对布防区域进行调整，这样，可以减少不必要的调整，节省计算资源。

下面对该“调整目标过滤框尺寸”的方案进行介绍：

一种实施方式中，S103包括：利用预设尺寸的过滤框，对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息。

本实施方式中，可以将目标检测过程中检测出的尺寸小于过滤框的目标过滤掉。举例来说，可以采用目标检测模型对每帧第一图像进行目标检测，得到多个检测框，然后判断该检测框是否小于过滤框的尺寸，如果小于，则将该检测框过滤掉，不作为检测结果。

本实施方式中，S106之后可以获取第三视频，所述第三视频与所述第一视频为针对同一场景采集的视频，所述第三视频中包括多帧第三图像；利用所述预设尺寸的过滤框，对所述第三视频进行目标检测及定位，得到所述第三视频的目标信息。

上述一种情况下，一些用于监控的图像采集设备持续地进行图像采集，形成视频流，将视频流中的任意一段视频作为第一视频。这种情况下，可以在确定布防区域后，将视频流中的任意一段视频作为第三视频，第一视频与第三视频针对的场景相同。为了区分描述，将第三视频中包括的图像称为第三图像，第三视频中包括的第三图像的数量不做限定。举例来说，可以在确定布防区域后，每隔预设时间段，获取第三视频，该预设时间段可以为1天、 2天、12小时等等，具体时长不做限定。

可以将对第三视频进行目标检测过程中检测出的尺寸小于过滤框的目标过滤掉。举例来说，可以采用目标检测模型对每帧第三图像进行目标检测，得到多个检测框，然后判断该检测框是否小于过滤框的尺寸，如果小于，则将该检测框过滤掉，不作为检测结果。

确定所述第三视频的目标信息与所述第一视频的目标信息中包括的目标的尺寸差异，判断所述尺寸差异是否大于第二预设阈值；如果大于，调整所述过滤框的尺寸，得到调整后的过滤框。

如上所述，目标信息可以包括目标的尺寸、特征、位置等信息，如果第一视频中目标的尺寸与第三视频中目标的尺寸差异过大，说明设定的过滤框的尺寸已经不再合适，可以对该过滤框的尺寸进行调整，调整之后再重新执行图1所示实施例中的S101-S104，重新生成布防区域热力图。

例如，如果第三视频中目标的尺寸明显大于第一视频中目标的尺寸，表示图像采集设备向更靠近目标的方向进行了移动，原设定的过滤框的尺寸偏小，可以将该过滤框的尺寸调大。再例如，如果第三视频中目标的尺寸明显小于第一视频中目标的尺寸，表示图像采集设备向更远离目标的方向进行了移动，原设定的过滤框的尺寸偏大，可以将该过滤框的尺寸调小。

但重新执行图1所示实施例中的S101-S104时，实时获取的视频已不再是第一视频，为了区分描述，将获取的视频称为第四视频。此外，生成的布防区域热力图也不再是第一布防区域热力图，为了区分描述，将生成的布防区域热力图称为第二布防区域热力图。重新生成布防区域热力图的方案如下：

获取第四视频，所述第四视频与所述第三视频为针对同一场景采集的视频，所述第四视频中包括多帧第四图像；利用所述调整后的过滤框，对所述第四视频进行目标检测及定位，得到所述第四视频的目标信息；对所述第四视频进行语义分割，得到所述第四视频的分割结果；将所述第四视频的目标信息和所述第四视频的分割结果输入至所述第一热力图生成模型，得到所述第一热力图生成模型输出的第二布防区域热力图；所述第二布防区域热力图中包括每个像素点属于布防区域的置信度。

图1实施例中已经详细介绍过这部分内容，这里不再赘述。

根据所述第二布防区域热力图，对所述布防区域进行调整。举例来说，可以确定所述第二布防区域热力图中置信度满足预设条件的像素点，根据这些像素点所在位置，重新确定布防区域。或者，一种情况下，还可以将原布防区域与重新确定的布防区域进行整合，形成最终的布防区域，例如，可以将原布防区域与重新确定的布防区域之间的交集作为最终的布防区域，再例如，也可以将原布防区域与重新确定的布防区域之间的并集作为最终的布防区域，具体整合情况不做限定。

下面对该“根据目标位置调整布防区域位置”的方案进行介绍：

一种实施方式中，S106之后，可以获取第五视频，所述第五视频与所述第一视频为针对同一场景采集的视频；对所述第五视频进行目标检测及定位，得到所述第五视频的目标信息；确定所述第五视频的目标信息与所述第一视频的目标信息中包括的目标的位置差异，判断所述位置差异是否大于第三预设阈值；如果大于，根据所述位置差异，对所述布防区域进行调整。

上述一种情况下，一些用于监控的图像采集设备持续地进行图像采集，形成视频流，将视频流中的任意一段视频作为第一视频。这种情况下，可以在确定布防区域后，将视频流中的任意一段视频作为第五视频，第一视频与第五视频针对的场景相同，第五视频中包括的图像数量不做限定。举例来说，可以在确定布防区域后，每隔预设时间段，获取第五视频，并利用本实施方式对布防区域进行调整，该预设时间段可以为1天、2天、12小时等等，具体时长不做限定。为了区分描述，将本实施方式中获取的视频称为第五视频。

如上所述，目标信息可以包括目标的尺寸、特征、位置等信息，如果第一视频中目标的位置与第五视频中目标的位置差异过大，说明确定的布防区域的位置已经不再合适。举例来说，理想情况下，目标应该位于布防区域中靠近中心的位置，如果第五视频中，目标持续偏向右下角，则可以将布防区域向右下方向移动，以使得目标靠近布防区域的中心位置，或者，如果第五视频中，目标持续偏向左上角，则可以将布防区域向左上方向移动，以使得目标靠近布防区域的中心位置。具体情况不再列举。

再举一例，人脸抓拍场景中，如果在第五视频中检测出目标所在的一块区域，但该区域不属于S106中确定出的布防区域，这种情况下，可以修改布防区域以覆盖这部分区域。

或者，如果第五视频的目标信息与第一视频的目标信息中包括的目标的位置差异大于第三预设阈值，可以重新执行图1所示实施例，重新确定布防区域。

应用上述各种实施方式，实现了对布防区域的自适应调整，方案更加智能，由设备感知环境转向了设备认知环境。一些场景中，相机拍摄的场景会随着时间不断变化，这种情况下，应用上述各种实施方式，能够实现对布防区域进行动态调整。

一些情况下，在对布防区域进行自适应调整后，可以获取对调整后的布防性能的反馈，以判断该调整是否有助于提升布防性能。例如，设定周界防范区域的场景中，可以在对布防区域进行自适应调整后，判断误报率、漏报率是否降低，再例如，人脸抓拍场景中，可以在对布防区域进行自适应调整后，判断检出率是否提高、误检率是否降低，等等。根据这种反馈，可以输出提示信息，以提示相关人员重新调整布防区域，或提示相关人员对调整布防区域的方案进行检查。

下面参考图5介绍一种具体的实施方式：

获取第一视频，第一视频中包括多帧第一图像。

分别将第一视频输入至语义分割网络和目标检测模型。

下面先对语义分割网络进行介绍：

将第一视频中的每帧第一图像输入至语义分割网络，得到语义分割网络输出的第一视频的分割结果。

该语义分割网络可以为PSPNet，可以通过PSPNet对每帧图像进行语义分割，并对每帧第一图像的分割结果进行融合，得到第一视频的分割结果。

训练语义分割网络可以采用有监督的训练，以样本视频的分割结果为监督(样本视频的分割结果可以为人工标注的真值，或者为通过其他方式获取的真值)，以样本视频为训练数据，对语义分割网络中的参数进行迭代调整。具体的训练过程、以及训练过程采用的损失函数不做限定。

下面再对目标检测模型进行介绍：

利用目标检测模型，对每帧第一图像进行目标检测，并对每帧第一图像的检测结果进行连接，得到第一连接检测结果。

举例来说，可以先采用目标检测模型cascadeR-CNN对每帧第一图像进行目标检测，然后将每帧第一图像的检测结果连接在一起得到第一连接检测结果，将该第一连接检测结果输入至第二热力图生成模型。

下面再对第二热力图生成模型进行介绍：

将第一连接检测结果输入至预先训练得到的第二热力图生成模型，得到所述第二热力图生成模型输出的目标位置热力图，作为所述第一视频的目标信息；所述第二热力图生成模型为：以样本视频对应的目标位置热力图为监督，以样本视频的连接检测结果为训练数据，对预设结构的第二神经网络进行训练得到的；所述目标位置热力图中包括每个像素点属于目标的置信度。

下面对第一热力图生成模型进行介绍：

将语义分割网络输出的第一视频的分割结果、以及第二热力图生成模型输出的目标位置热力图一并输入至预先训练得到的第一热力图生成模型，得到所述第一热力图生成模型输出的第一布防区域热力图。

所述第一热力图生成模型为：以样本视频对应的布防区域热力图为监督，以样本视频的分割结果和目标信息为训练数据，对预设结构的第一神经网络进行训练得到的；所述第一布防区域热力图中包括每个像素点属于布防区域的置信度。

参考图4所示，将第一视频的分割结果和目标信息一并输入至第一热力图生成模型中，该分割结果和该目标信息分别经过三层卷积层的卷积处理：第一层卷积层1-1、第二层卷积层2-1和第三层卷积层3-1分别对该分割结果进行卷积处理，第一层卷积层1-2、第二层卷积层2-2和第三层卷积层3-2分别对该分割结果进行卷积处理；然后连接层对第三层卷积层3-1输出的卷积结果与第三层卷积层3-2输出的卷积结果进行连接，并将连接结果输入到第四层卷积层 (卷积层4)进行卷积处理，第四层卷积层输出第一布防区域热力图。

确定第一布防区域热力图中置信度满足预设条件的像素点，作为目标像素点，根据目标像素点所在位置，确定布防区域。

应用上述实施方式，通过语义分割网络、目标检测模型、第二热力图生成模型和第一热力图生成模型，实现了自动生成布防区域。

与上述方法实施例相对应，本发明实施例还提供了一种布防区域生成装置，参考图6所示，包括：

第一获取模块601，用于获取第一视频；

第一语义分割模块602，用于对所述第一视频进行语义分割，得到所述第一视频的分割结果；

第一目标检测定位模块603，用于对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息；

第一热力图生成模块604，用于将所述第一视频的分割结果和所述第一视频的目标信息输入至预先训练得到的第一热力图生成模型，得到所述第一热力图生成模型输出的第一布防区域热力图；所述第一热力图生成模型为：以样本视频对应的布防区域热力图为监督，以样本视频的分割结果和目标信息为训练数据，对预设结构的第一神经网络进行训练得到的；所述第一布防区域热力图中包括每个像素点属于布防区域的置信度；

第一确定模块605，用于确定所述第一布防区域热力图中置信度满足预设条件的像素点，作为目标像素点；

第二确定模块606，用于根据所述目标像素点所在位置，确定布防区域。

一种实施方式中，所述第一视频中包括多帧第一图像，第一目标检测定位模块603具体用于：

一种实施方式中，所述装置还包括：第二获取模块、第二语义分割模块、映射模块、第三确定模块、第一判断模块、第二判断模块、第四确定模块和剔除模块(图中未示出)，其中，

剔除模块，用于将所述待剔除区域从所述布防区域中剔除。

一种实施方式中，第一目标检测定位模块603还用于：利用预设尺寸的过滤框，对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息。

所述装置还包括：第三获取模块、第二目标检测定位模块、第五确定模块、第三判断模块、第一调整模块、第四获取模块、第三目标检测定位模块、第三语义分割模块、第二热力图生成模块和第二调整模块(图中未示出)，其中，

一种实施方式中，所述装置还包括：第五获取模块、第四目标检测定位模块、第六确定模块、第四判断模块和第三调整模块(图中未示出)，其中，

本发明实施例还提供了一种电子设备，如图7所示，包括处理器701和存储器702，

存储器702，用于存放计算机程序；

处理器701，用于执行存储器702上所存放的程序时，实现上述任意一种布防区域生成方法。

上述电子设备提到的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一种布防区域生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任意一种布防区域生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等) 方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、 “包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、设备实施例、计算机可读存储介质实施例、以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种布防区域生成方法，其特征在于，包括：

获取第一视频；

根据所述目标像素点所在位置，确定布防区域。

2.根据权利要求1所述的方法，其特征在于，所述第一视频中包括多帧第一图像，所述对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息，包括：

利用目标检测模型，对每帧第一图像进行目标检测，并对所述每帧第一图像的检测结果进行连接，得到第一连接检测结果；

3.根据权利要求1所述的方法，其特征在于，所述确定由所述目标像素点组成的布防区域之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二视频的分割结果，判断所述目标区域中是否存在预设类别的像素点之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息，包括：

所述确定由所述目标像素点组成的布防区域之后，还包括：

如果大于，调整所述过滤框的尺寸，得到调整后的过滤框；

根据所述第二布防区域热力图，对所述布防区域进行调整。

6.根据权利要求1所述的方法，其特征在于，所述确定由所述目标像素点组成的布防区域之后，还包括：

如果大于，根据所述位置差异，对所述布防区域进行调整。

7.一种布防区域生成装置，其特征在于，包括：

第一获取模块，用于获取第一视频；

8.根据权利要求7所述的装置，其特征在于，所述第一视频中包括多帧第一图像，所述第一目标检测定位模块，具体用于：

将所述第一连接检测结果输入至预先训练得到的第二热力图生成模型，得到所述第二热力图生成模型输出的目标位置热力图，作为所述第一视频的目标信息；所述第二热力图生成模型为：以样本视频对应的目标位置热力图为监督，以样本视频的连接检测结果为训练数据，对预设结构的第二神经网络进行训练得到的；所述目标位置热力图中包括每个像素点属于目标的置信度；

所述装置还包括：

剔除模块，用于将所述待剔除区域从所述布防区域中剔除；

所述第一目标检测定位模块还用于：利用预设尺寸的过滤框，对所述第一视频进行目标检测及定位，得到所述第一视频的目标信息；

所述装置还包括：

第二调整模块，用于根据所述第二布防区域热力图，对所述布防区域进行调整；

所述装置还包括：

9.一种电子设备，其特征在于，包括处理器和存储器；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。