CN116994084A

CN116994084A - 区域入侵检测模型训练方法及区域入侵检测方法

Info

Publication number: CN116994084A
Application number: CN202310716218.6A
Authority: CN
Inventors: 赵逢波; 陆仲达; 贺霆; 王越; 刘亚军
Original assignee: Beijing Baolande Software Co ltd
Current assignee: Beijing Baolande Software Co ltd
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-11-03

Abstract

本发明提供一种区域入侵检测模型训练方法及区域入侵检测方法，涉及计算机技术领域，该方法包括：获取第一训练数据集，第一训练数据集包括多个第一样本行人图像、第一样本行人图像的第一标注信息和第一标签数据，第一样本行人图像是基于图像生成模型得到的，图像生成模型是基于第二样本行人图像和第二样本行人图像的第二标签数据训练得到的；基于第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。通过图像生成模型实现了多模态大模型生成样本图像，增强了样本数据，而且样本图像更加符合真实环境图像数据，使用增强后的样本数据训练模型，使得模型的性能较高，提升了模型的检测精度和泛化能力。

Description

区域入侵检测模型训练方法及区域入侵检测方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种区域入侵检测模型训练方法及区域入侵检测方法。

背景技术

随着计算机技术的发展，计算机视觉技术在各行各业中得到广泛应用，其中包括施工工地、社区安防和重点区域检测等场景，这些场景需要对人员目标的入侵进行提前防范和告警，以确保人身安全和财产不受损失。区域入侵检测是一种常见的技术，其目的是及时发现并报警任何非法入侵行为，以保障场所的安全。

相关技术中，采用深度学习模型对人员目标进行入侵检测，而数据是深度学习模型训练的关键，也是决定模型精度的上限。在实际应用中，数据采集成本高、获取难度大和质量不高等问题制约了模型的训练和性能提升，数据增强是一种解决数据匮乏的有效手段，通过对原始数据进行旋转、裁剪和缩放等操作，生成更多的样本来扩充数据集。

然而，当前的数据增强方法还存在一些不足，例如不能很好地保持图像质量，难以应对不同场景下的数据增强需求等，使得深度学习模型的目标检测精度低。

发明内容

本发明提供一种区域入侵检测模型训练方法及区域入侵检测方法，用以解决深度学习模型的目标检测精度低的问题。

本发明提供一种区域入侵检测模型训练方法，包括：

获取第一训练数据集，所述第一训练数据集包括多个第一样本行人图像、所述第一样本行人图像的第一标注信息和第一标签数据，所述第一样本行人图像是基于图像生成模型得到的，所述图像生成模型是基于第二样本行人图像和所述第二样本行人图像的第二标签数据训练得到的；

基于所述第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。

根据本发明提供的一种区域入侵检测模型训练方法，所述获取第一训练数据集，包括：

获取第二训练数据集，所述第二训练数据集包括多个所述第二样本行人图像和所述第二样本行人图像的所述第二标签数据，各所述第二样本行人图像的尺寸大小相同；

基于所述第二训练数据集，对初始图像生成模型进行训练，得到图像生成模型；

基于各所述第二标签数据和所述图像生成模型，获取所述第一训练数据集。

根据本发明提供的一种区域入侵检测模型训练方法，所述基于各所述第二标签数据和所述图像生成模型，获取所述第一训练数据集，包括：

基于各所述第二标签数据，确定多个第三标签数据；

基于各所述第二标签数据、各所述第三标签数据和所述图像生成模型，确定各所述第一样本行人图像；

基于各所述第一样本行人图像，获取所述第一训练数据集。

根据本发明提供的一种区域入侵检测模型训练方法，所述基于各所述第一样本行人图像，获取所述第一训练数据集，包括：

分别对各所述第一样本行人图像进行标注，得到各所述第一样本行人图像的所述第一标注信息；

基于各所述第一样本行人图像、各所述第一样本行人图像的所述第一标注信息和第一标签数据，获取第一训练数据集。

本发明还提供一种区域入侵检测方法，包括：

获取目标检测区域的待检测行人图像；

将所述待检测行人图像输入至区域入侵检测模型，得到所述区域入侵检测模型输出的行人目标；所述区域入侵检测模型是基于上述任一种方式中所述的区域入侵检测模型训练方法训练得到的；

基于所述行人目标对应的目标框的至少一个目标点，确定所述行人目标是否入侵所述目标检测区域。

根据本发明提供的一种区域入侵检测方法，所述基于所述行人目标对应的目标框的至少一个目标点，确定所述行人目标是否入侵所述目标检测区域，包括：

基于所述行人目标对应的目标框的各所述目标点，采用点边交叉次数法则确定所述行人目标是否入侵所述目标检测区域。

根据本发明提供的一种区域入侵检测方法，所述基于所述行人目标对应的目标框的各所述目标点，采用点边交叉次数法则确定所述行人目标是否入侵所述目标检测区域，包括：

基于所述行人目标对应的目标框的各所述目标点，分别对每个所述目标点沿着水平方向确定一条射线；

分别统计各所述目标点对应的所述射线和所述目标检测区域的边界之间的交点数量；

基于各所述交点数量，确定所述行人目标是否入侵所述目标检测区域。

根据本发明提供的一种区域入侵检测方法，所述基于各所述交点数量，确定所述行人目标是否入侵所述目标检测区域，包括：

基于各所述交点数量，确定各所述目标点是否位于所述目标检测区域；

基于各所述目标点是否位于所述目标检测区域，确定所述行人目标是否入侵所述目标检测区域。

根据本发明提供的一种区域入侵检测方法，所述基于各所述交点数量，确定各所述目标点是否位于所述目标检测区域，包括：

在各所述交点数量分别为奇数的情况下，确定各所述目标点位于所述目标检测区域内部；

在各所述交点数量分别为偶数的情况下，确定各所述目标点位于所述目标检测区域外部。

根据本发明提供的一种区域入侵检测方法，所述基于各所述目标点是否位于所述目标检测区域，确定所述行人目标是否入侵所述目标检测区域，包括：

基于各所述目标点是否位于所述目标检测区域，确定行人目标与所述目标检测区域之间的状态关系；所述状态关系包括以下任一项：正常区域外；区域边界预警状态；区域内部告警状态；

基于所述状态关系，确定所述行人目标是否入侵所述目标检测区域。

本发明还提供一种区域入侵检测模型训练装置，包括：

第一获取模块，用于获取第一训练数据集，所述第一训练数据集包括多个第一样本行人图像、所述第一样本行人图像的第一标注信息和第一标签数据，所述第一样本行人图像是基于图像生成模型得到的，所述图像生成模型是基于第二样本行人图像和所述第二样本行人图像的第二标签数据训练得到的；

训练模块，用于基于所述第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。

本发明还提供一种区域入侵检测装置，包括：

第二获取模块，用于获取目标检测区域的待检测行人图像；

检测模块，用于将所述待检测行人图像输入至区域入侵检测模型，得到所述区域入侵检测模型输出的行人目标；所述区域入侵检测模型是基于上述任一种方式中所述的区域入侵检测模型训练方法训练得到的；

确定模块，用于基于所述行人目标对应的目标框的至少一个目标点，确定所述行人目标是否入侵所述目标检测区域。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述区域入侵检测模型训练方法或区域入侵检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述区域入侵检测模型训练方法或区域入侵检测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述区域入侵检测模型训练方法或区域入侵检测方法。

本发明提供的区域入侵检测模型训练方法及区域入侵检测方法，通过获取第一训练数据集，第一训练数据集包括多个第一样本行人图像、第一样本行人图像的第一标注信息和第一标签数据，第一样本行人图像是基于图像生成模型得到的，图像生成模型是基于第二样本行人图像和第二样本行人图像的第二标签数据训练得到的；基于第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。通过图像生成模型可以生成多个第一样本行人图像，实现了多模态大模型生成样本图像，增强了样本数据，样本扩充真实高效，而且样本图像更加符合真实环境图像数据，以及使用增强后的样本数据训练区域入侵检测模型，使得区域入侵检测模型的性能较高，从而提升了模型的检测精度和泛化能力。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的区域入侵检测模型训练方法的流程示意图之一；

图2是本发明提供的区域入侵检测模型训练方法的流程示意图之二；

图3是本发明提供的区域入侵检测方法的流程示意图之一；

图4是本发明提供的目标点进入目标检测区域的示意图；

图5是本发明提供的点与多边形的关系示意图；

图6是本发明提供的区域入侵检测方法的流程示意图之二；

图7是本发明提供的区域入侵检测模型训练装置；

图8是本发明提供的区域入侵检测装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于更加清晰地理解本申请各实施例，首先对一些相关的背景知识进行如下介绍。

数据增强在计算机视觉模型的训练过程中被广泛应用，其主要作用是通过对现有的图像数据进行变换和扩充，帮助模型更好地学习图像特征，提高模型的准确率和鲁棒性。其中，数据增强方法包括但不限于：旋转、翻转、裁剪、缩放、填充、色彩变换、仿射变换和噪声添加等。

然而，当前深度学习模型训练过程中的数据增强存在一些不足。

其中，一些常见的不足包括以下几个方面：

1、标注信息不准确。某些数据增强方法(如旋转、翻转和裁剪等)会使原本正确的标签信息不准确，影响模型的训练和性能。

2、产生不合理的样本。某些数据增强方法(如仿射变换和噪声添加等)会产生不符合实际情况的样本，导致模型的性能下降，并产生误判。

3、过拟合。某些数据增强方法(如强制裁剪和颜色变换等)会导致模型对于某些变化不具有鲁棒性，从而过度拟合训练集数据。

4、增加训练时间和计算成本。某些数据增强方法(如仿射变换和噪声添加等)需要额外的计算资源和时间，会增加模型的训练时间和计算成本。

5、不同的数据增强方法需要不同的参数，如果参数选择不当会导致模型的性能下降或过拟合。

6、原始图像包含的实质内容没有改变，模型真实能力没有得到较大提升。

当前智能监控设备所采用的区域入侵检测算法主要有以下两种：

1、区域图像掩膜。首先，对待检测的图片做掩膜处理，即掩盖掉检测区域以外的图像(一般将像素值赋0)；然后，针对于掩膜后的图片，通过模型推理完成人物目标的检测。

2、人物目标框选占比计算方法。利用算法模型对于检测到的人物目标进行框选，然后再根据检测区域和目标框的计算占比，通过预设阈值进行判断，最终得出区域入侵检测结果。

然而，现有的区域入侵检测算法存在以下不足：

1、区域图像掩膜逻辑较为复杂，掩膜区域检测时容易产生角度误差，从而导致检测精度降低，漏报率和误报率增高。

2、人物目标占比框选计算时间花费大，依靠预设阈值判断，同样会引起模型检测精度的损失。

下面结合图1-图6描述本发明的区域入侵检测模型训练方法和区域入侵检测方法。

图1是本发明提供的区域入侵检测模型训练方法的流程示意图之一，如图1所示，方法包括步骤101-步骤102；其中，

步骤101，获取第一训练数据集，所述第一训练数据集包括多个第一样本行人图像、所述第一样本行人图像的第一标注信息和第一标签数据，所述第一样本行人图像是基于图像生成模型得到的，所述图像生成模型是基于第二样本行人图像和所述第二样本行人图像的第二标签数据训练得到的。

需要说明的是，本发明提供的区域入侵检测模型训练方法可应用于入侵检测的场景中。本发明提供的区域入侵检测模型训练方法的执行主体可以为本发明提供的区域入侵检测模型训练装置，例如电子设备或者该区域入侵检测模型训练装置中的用于执行区域入侵检测模型训练方法的控制模块。

具体地，第一标注信息表示第一样本行人图像中行人框的每个点的位置坐标，第一标签数据表示第一样本行人图像中行人的类别标签，且类别标签为类别名称或类别索引，例如，类别名称为person，类别索引为01；第一样本行人图像是基于图像生成模型得到的，图像生成模型是基于第二样本行人图像和第二样本行人图像的第二标签数据训练得到的，第二标签数据表示对第二样本图像的描述，例如，第二标签数据为[在户外(outdoors)，平视显示(heads-up_display)，机动车(motor_vehicle)，地面车辆(ground_vehicle)，伪造的屏幕截图(fake_screenshot)，健康条形图(health_bar)，汽车(car)，用户界面(user_interface),白天(day),一个女孩(1girl)，建筑(building)，风景(scenery)]；图像生成模型可以为低秩自适应语言大模型(Low-Rank Adaptation of Large Language Models，LoRA)。

可选地，第一训练数据集中的第一样本行人图像还可以是开源数据集和真实数据集中的样本图像；其中，开源数据集中的样本图像的标注信息的格式为COCO格式，除了人物框选目标之外还包括其他的目标，利用自动化筛选脚本进行初筛，只留下人物目标标注信息；然后对标注信息表示的位置坐标进行校验，确保每个位置坐标准确，并剔除一些错误标注信息对应的样本图像；对真实数据集中的样本图像采用图像标注(labelimg)工具进行标注，只对样本图像中的行人进行框选。

实际中，还需要对标注格式进行转换(即COCO格式转换为YOLOv5格式)。将COCO格式的数据转换为YOLOv5格式需要进行一定的转换和映射。以下是从COCO格式到YOLOv5格式的转换公式：

a、转换图像尺寸：YOLOv5使用的是网络输入图像的尺寸，通常是正方形。将COCO数据集中的图像按照比例调整为指定的输入尺寸。

b、转换标注坐标：开源数据集(COCO数据集)中的边界框标注信息是使用绝对坐标表示的，而YOLOv5使用的是归一化坐标。

转换公式如下：

x_center＝(x_min+x_max)/(2×i_w) (1)

y_center＝(y_min+y_max)/(2×i_h) (2)

b_w＝(x_max-x_min)/i_w (3)

b_h＝(y_max-y_min)/i_h (4)

其中，(x_center，y_center)是边界框中心点的归一化坐标，b_w和b_h表示边界框的宽度和高度的归一化值。

c、转换类别标签：COCO数据集中的类别标签是整数形式的类别标识(ID)，而YOLOv5使用的是类别名称或类别索引。因此，需要根据COCO数据集中的类别标签，将类别ID转换为对应的类别名称或类别索引。

在实际转换过程中，还需要处理数据集的其他元信息，如图像路径、图像ID等。具体的转换过程还需要考虑数据预处理和后处理的细节，以及根据实际情况进行适当的调整。

步骤102，基于所述第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。

具体地，初始区域入侵检测模型为经过预训练的YOLOv5训练检测模型，根据第一训练数据集中包括的多个第一样本行人图像、第一样本行人图像的第一标注信息和第一标签数据，对初始区域入侵检测模型进行训练，得到区域入侵检测模型，即使用经过预训练的YOLOv5训练检测模型作为基础模型，在第一训练数据集上进行微调。通过反向传播算法和优化技术，不断更新模型参数，使其能够更好地适应目标检测任务。在微调过程中，调整学习率、批次大小和训练迭代次数等超参数，以获得更好的模型性能和收敛效果。

在训练完成后，对训练得到的区域入侵检测模型进行评估和测试，以验证其在新样本上的泛化能力和准确性，可以通过计算指标评估模型的性能，例如精确度、召回率和F1分数等。

需要说明的是，在训练得到区域入侵检测模型之后，即利用YOLOv5的高效性和准确性，可以使用区域入侵检测模型，在区域入侵检测任务中实现精确的目标行人识别和边界框定位。

本发明提供的区域入侵检测模型训练方法，通过获取第一训练数据集，第一训练数据集包括多个第一样本行人图像、第一样本行人图像的第一标注信息和第一标签数据，第一样本行人图像是基于图像生成模型得到的，图像生成模型是基于第二样本行人图像和第二样本行人图像的第二标签数据训练得到的；基于训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。通过图像生成模型可以生成多个第一样本行人图像，实现了多模态大模型生成样本图像，增强了样本数据，样本扩充真实高效，而且样本图像更加符合真实环境图像数据，以及使用增强后的样本数据训练区域入侵检测模型，使得区域入侵检测模型的性能较高，从而提升了模型的检测精度和泛化能力。

可选地，上述步骤101的具体实现方式包括：

(1)获取第二训练数据集，所述第二训练数据集包括多个所述第二样本行人图像和所述第二样本行人图像的所述第二标签数据，各所述第二样本行人图像的尺寸大小相同。

具体地，针对符合区域入侵模型检测的真实业务场景，收集一部分(例如，50张左右)的现场样本行人图像，对收集的样本行人图像进行统一剪裁处理，将不同尺寸分辨率的样本行人图像处理为统一尺寸(例如，768*768)。选择稳定扩散(Stable Diffusion)V2.1作为基座模型对样本行人图像进行标注，即将样本行人图像输入至Stable Diffusion，得到Stable Diffusion输出的第二标注信息。

进一步，需要对基座模型生成的第二标注信息进行校验，检查每一个第二标注信息是否与样本行人图像描述一致，如果不一致则进行修改。对所有的样本行人图像的第二标注信息全部完成校验和修改后，基于第二样本行人图像和第二样本行人图像的第二标注信息，得到第二训练数据集。

(2)基于所述第二训练数据集，对初始图像生成模型进行训练，得到图像生成模型。

具体地，为了定制化训练LoRA模型，以生成适合特定场景的区域入侵图像数据，将第二训练数据集作为Stable Diffusion基座模型训练LoRA模型的训练数据，根据第二训练数据集对初始图像生成模型进行训练，设置微调学习率参数为1e-4，并采用混合精度FP16以加速计算，最终得到图像生成模型，即实现了根据业务场景选择预训练模型和相关参数条件，对Stable Diffusion进行定制化生成LoRA模型。

需要说明的是，对于大型语言模型(例如GPT-3等)，微调以适应特定任务或领域的成本非常高。为此，LoRA提出了一种冻结预训练模型权重的方法，并在每个转换(Transformer)块中注入可训练层(称为秩分解矩阵)。这种方法大大减少了可训练参数的数量和图形处理器(Graphics Processing Unit，GPU)内存需求，因为大部分模型权重不需要计算梯度。并且使用LoRA进行微调，可以获得与完整模型相当的微调质量，同时速度更快，计算需求更低。

LoRA技术也可用于微调Stable Diffusion模型，通过在预训练模型StableDiffusion参数被冻结的情况下注入新的可训练层，最终保存该层的参数。相比微调完整模型，LoRA的参数量相对很小。

(3)基于各所述第二标签数据和所述图像生成模型，获取所述第一训练数据集。

具体地，在训练得到图像生成模型之后，可以根据各第二标签数据和图像生成模型，获取第一训练数据集。

本发明提供的区域入侵检测模型训练方法，通过获取第二训练数据集，第二训练数据集包括多个第二样本行人图像和第二样本行人图像的第二标签数据，各第二样本行人图像的尺寸大小相同；基于第二训练数据集，对初始图像生成模型进行训练，得到图像生成模型；基于各第二标签数据和所述图像生成模型，获取第一训练数据集。通过图像生成模型生成大量的样本图像，实现了样本数据的扩充，而且样本扩充真实高效，进而能够实现区域入侵检测模型的训练，使得区域入侵检测模型的性能较高，从而提升了模型的检测精度和泛化能力。

可选地，所述基于各所述第二标签数据和所述图像生成模型，获取所述第一训练数据集，包括：

(3-1)基于各所述第二标签数据，确定多个第三标签数据。

具体地，第三标签数据表示提示语料，根据第二训练数据集中的第二标签数据，对第二标签数据表示对第二样本图像的描述进行改变，或者根据第二标签数据，新增与第二标签数据相似的标签数据，从而得到多个第三标签数据。

(3-2)基于各所述第二标签数据、各所述第三标签数据和所述图像生成模型，确定各所述第一样本行人图像。

具体地，根据各第二标签数据和各第三标签数据，构建提示语料，保证提示语料在场景光线、角度、人物数量、姿势等方面的差异化，这样做可以确保生成的第三标签数据(区域入侵训练样本)具有更广泛的覆盖范围，并且能够更好地应对不同的入侵情况。提示语料用于Stable Diffusion的LoRA模型进行推理，以生成与区域入侵对应场景的数据样本。通过这些提示语料，LoRA模型可以更好地理解特定场景的要求，并生成符合这些要求的数据样本。

将多个第二标签数据和多个第三标签数据中的任一标签数据分别输入至图像生成模型，可以得到图像生成模型输出的第一样本行人图像，从而得到多个第一样本图像。

实际中，通过在未修改的Stable Diffusion模型权重之上加载额外LoRA权重，利用Hugging Face应用程序接口(Application Programming Interface，API)调取模型，通过调整参数设置以控制生成样本的分辨率，以适应不同的应用场景和需求。同时，调整推理步数可以影响生成样本的细节和多样性。

(3-3)基于各所述第一样本行人图像，获取所述第一训练数据集。

具体地，根据图像生成模型得到多个第一样本行人图像，可以获取第一训练数据集，从而扩充了训练样本库，进而能够显著提高模型的精度。

可选地，所述基于各所述第一样本行人图像，获取所述第一训练数据集，包括：

分别对各所述第一样本行人图像进行标注，得到各所述第一样本行人图像的所述第一标注信息；基于各所述第一样本行人图像、各所述第一样本行人图像的所述第一标注信息和第一标签数据，获取第一训练数据集。

具体地，使用labelimg标注工具对每个第一样本行人图像进行标注，只对第一样本行人图像中的行人进行框选，得到每个第一样本行人图像的第一标注信息。并且，为每个第一样本行人图像设置第一标签数据。根据各第一样本行人图像、各第一样本行人图像的第一标注信息和第一标签数据，可以获取第一训练数据集；其中，第一训练数据集包括多个第一样本行人图像、所述第一样本行人图像的第一标注信息和第一标签数据。

图2是本发明提供的区域入侵检测模型训练方法的流程示意图之二，如图2所示，方法包括步骤201-步骤206；其中，

步骤201，图像生成模型的训练数据准备。获取第二训练数据集，其中，第二训练数据集包括多个第二样本行人图像和第二样本行人图像的第二标签数据，各第二样本行人图像的尺寸大小相同。

步骤202，定制化训练图像生成模型(LoRA模型)。使用第二训练数据集，对初始图像生成模型进行训练，得到图像生成模型。

步骤203，构建提示语料库。基于各第二标签数据，确定多个第三标签数据；将多个第二标签数据和多个第三标签数据确定为提示语料库。

步骤204，图像生成模型生成第一样本行人图像。将各第二标签数据和各第三标签数据输入至图像生成模型，可以得到图像生成模型输出的各第一样本行人图像。

步骤205，区域入侵检测模型的训练数据准备，即获取第一训练数据集。分别对各第一样本行人图像进行标注，得到各第一样本行人图像的第一标注信息；对各第一样本行人图像设置标签数据，得到各第一样本行人图像的第一标签数据；根据第一样本行人图像、第一样本行人图像的第一标注信息和第一样本行人图像的第一标签数据，确定第一训练数据集。

步骤206，区域入侵检测模型(YOLOv5模型)训练。使用第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。

本发明利用Stable Diffusion多模态大模型，基于潜在扩散模型、感知压缩和多模态模型对比语言-图像预训练(Contrastive Language-Image Pre-Training，CLIP)文本编码等技术点。在实际操作中，根据业务场景选择预训练Stable Diffusion多模态大模型和相关参数条件，对Stable Diffusion进行定制化生成LoRA模型，然后基于定制LoRA模型利用提示语料(Prompt)进行文图生成以及文字和图片结合的方式生成大量样本数据，从而扩充训练样本库，进而显著提高了模型的精度。

图3是本发明提供的区域入侵检测方法的流程示意图之一，如图3所示，方法包括步骤301-步骤303；其中，

步骤301，获取目标检测区域的待检测行人图像。

需要说明的是，本发明提供的区域入侵检测方法可应用于入侵检测的场景中。本发明提供的区域入侵检测方法的执行主体可以为本发明提供的区域入侵检测装置，例如电子设备或者该区域入侵检测装置中的用于执行区域入侵检测方法的控制模块。

具体地，根据场景分析的结果，根据不同的功能、安全需求或其他因素，将监控区域划分为不同的区域。例如，划分为入口区域、走廊区域和重要设备区域等。对于每个划分出的区域，可以使用矩形框、多边形或其他形状来定义区域的边界，可以使用测量工具和几何计算来确定每个区域的边界，实现区域的准确定位和标定，最终得到一组边界点坐标值。

目标检测区域为划分的多个区域中的任一区域，根据目标检测区域对应的视频流的输入，可以获取目标检测区域的待检测行人图像。

步骤302，将所述待检测行人图像输入至区域入侵检测模型，得到所述区域入侵检测模型输出的行人目标；所述区域入侵检测模型是基于前述各实施例中所述的方式训练得到的。

具体地，在训练得到区域入侵检测模型之后，将获取的待检测行人图像输入至区域入侵检测模型，可以得到区域入侵检测模型输出的行人目标，行人目标采用目标框进行标注。

实际中，区域入侵检测模型可根据输入视频流进行检测，输入到模型的每一帧图像经过一系列卷积和池化层，提取图像中的特征表示，这些特征表示具有不同的层级和语义信息，用于检测不同尺寸的行人目标。将区域入侵检测模型输出的特征图与预定义的锚框(Anchor Box)进行匹配，对于每个Anchor Box，通过分类和回归网络预测目标的类别和位置。最后，应用非极大值抑制(Non-Maximum Suppression，NMS)算法，筛选出最具代表性的目标框(坐标点形式)。

步骤303，基于所述行人目标对应的目标框的至少一个目标点，确定所述行人目标是否入侵所述目标检测区域。

具体地，选定行人目标对应的目标框的至少一个目标点，每个目标点可以为行人目标对应的目标框的底部目标点。根据多个目标点，可以确定行人目标是否位于目标检测区域。

图4是本发明提供的目标点进入目标检测区域的示意图，如图4所示，以行人目标对应的目标框的下边框作为示例，目标点为目标框底部边界的4个点(0，1/4，3/4，1)，其中，[0，1/4]区间和[3/4，1]区间视为预警区间，[1/4，3/4]区间视为告警区间。0点的位置坐标为[x，h]，1点的位置坐标为[w，h]，w和h分别为目标框的宽和高，1/4点的位置坐标的计算公式为公式(5)，3/4点的位置坐标的计算公式为公式(6)，其中：

[x+(w-x)/4,h](5)

[x+3*(w-x)/4,h](6)

判断目前入侵情况分为预警、告警和其他三类，其中，

预警：0点或1点在目标检测区域内，且1/4和3/4点不在吗，目标检测区域内；

告警：1/4和3/4点在目标检测区域内；

其他：4个点都不在目标检测区域内。

本发明提供的区域入侵检测方法，通过将获取的目标检测区域的待检测行人图像输入至区域入侵检测模型，得到区域入侵检测模型输出的行人目标；再根据行人目标对应的目标框的至少一个目标点，确定行人目标是否入侵目标检测区域，实现了行人目标入侵目标检测区域的判断，提升了入侵检测的准确率和效率。

可选地，上述步骤302的具体实现方式包括：

具体地，点边交叉次数法则用于确定目标点对应的射线与目标检测区域的边界之间的交点数量。根据行人目标对应的目标框的各目标点，可以采用点边交叉次数法则进一步确定行人目标是否入侵目标检测区域。

本发明提供的区域入侵检测方法，通过行人目标对应的目标框的各目标点，采用点边交叉次数法则确定行人目标是否入侵目标检测区域，实现了行人目标入侵目标检测区域的判断，提升了入侵检测的准确率和效率。

可选地，所述基于所述行人目标对应的目标框的各所述目标点，采用点边交叉次数法则确定所述行人目标是否入侵所述目标检测区域，包括：

基于所述行人目标对应的目标框的各所述目标点，分别对每个所述目标点沿着水平方向确定一条射线；分别统计各所述目标点对应的所述射线和所述目标检测区域的边界之间的交点数量；基于各所述交点数量，确定所述行人目标是否入侵所述目标检测区域。

具体地，根据行人目标对应的目标框的各目标点，每个目标点沿着水平方向发出一条射线，例如，向右发出发出，可以得到每个目标点对应的一条射线。统计每个目标点对应的射线和目标检测区域的边界之间的交点数量，再根据交点数量确定行人目标是否入侵目标检测区域。

图5是本发明提供的点与多边形的关系示意图，如图5所示，点P1和P2分别向右沿着水平方向发出一条射线，点P1对应的射线和多边形的边界之间的交点数量为1，点P2对应的射线和多边形的边界之间的交点数量为2。

可选地，所述基于各所述交点数量，确定所述行人目标是否入侵所述目标检测区域，包括：

基于各所述交点数量，确定各所述目标点是否位于所述目标检测区域；基于各所述目标点是否位于所述目标检测区域，确定所述行人目标是否入侵所述目标检测区域。

具体地，根据目标点对应的交点数量，可以确定该目标点是否位于目标检测区域。再根据各目标点是否位于目标检测区域，可以综合确定行人目标是否入侵目标检测区域。

可选地，所述基于各所述交点数量，确定各所述目标点是否位于所述目标检测区域，包括：

在各所述交点数量分别为奇数的情况下，确定各所述目标点位于所述目标检测区域内部；在各所述交点数量分别为偶数的情况下，确定各所述目标点位于所述目标检测区域外部。

具体地，根据图5表示的点与多边形的关系示意图可以得到，点P1对应的对应的射线和多边形的边界之间的交点数量为奇数，点P1位于多边形内部，点P2对应的对应的射线和多边形的边界之间的交点数量为偶数，点P2位于多边形外部。因此，在各交点数量分别为奇数的情况下，确定各目标点位于目标检测区域内部；在各交点数量分别为偶数的情况下，确定各目标点位于所述目标检测区域外部。

可选地，所述基于各所述目标点是否位于所述目标检测区域，确定所述行人目标是否入侵所述目标检测区域，包括：

基于各所述目标点是否位于所述目标检测区域，确定行人目标与所述目标检测区域之间的状态关系；所述状态关系包括以下任一项：正常区域外；区域边界预警状态；区域内部告警状态；基于所述状态关系，确定所述行人目标是否入侵所述目标检测区域。

具体地，根据各目标点是否位于目标检测区域，可以确定行人目标与目标检测区域之间的状态关系；其中，状态关系包括以下任一项：正常区域外；区域边界预警状态；区域内部告警状态。例如，当0点、1/4点、3/4点和1点均在目标检测区域外部时，可以确定行人目标与目标检测区域之间的状态关系为正常区域外；当0点或1点在目标检测区域内部、且1/4点和3/4点不在目标检测区域内部时，可以确定行人目标与目标检测区域之间的状态关系为区域边界预警状态；当1/4点或3/4点在目标检测区域内部时，可以确定行人目标与目标检测区域之间的状态关系为区域内部告警状态。

当行人目标与目标检测区域之间的状态关系为正常区域外时，可以确定行人目标没有入侵目标检测区域；当行人目标与目标检测区域之间的状态关系为区域边界预警状态时，可以确定行人目标即将入侵目标检测区域；当行人目标与目标检测区域之间的状态关系为区域内部告警状态时，可以确定行人目标已经入侵目标检测区域。

本发明提供的区域入侵检测方法，通过利用检测目标框的目标点的位置与目标检测区域的边界位置联合计算判断行人目标的入侵情况，计算简单、快速以及易于实现，而且计算资源消耗低、准确率高，有效地降低了入侵检测的错误率。

图6是本发明提供的区域入侵检测方法的流程示意图之二，如图6所示，方法包括步骤601-步骤607；其中，

步骤601，获取目标检测区域的待检测行人图像。

步骤602，将待检测行人图像输入至区域入侵检测模型，得到区域入侵检测模型输出的行人目标。

步骤603，基于行人目标对应的目标框的各目标点，分别对每个目标点沿着水平方向确定一条射线。

步骤604，分别统计各目标点对应的射线和目标检测区域的边界之间的交点数量。

步骤605，在各交点数量分别为奇数的情况下，确定各目标点位于所述目标检测区域内部；在各交点数量分别为偶数的情况下，确定各目标点位于目标检测区域外部。

步骤606，基于各目标点是否位于目标检测区域，确定行人目标与目标检测区域之间的状态关系；状态关系包括以下任一项：正常区域外；区域边界预警状态；区域内部告警状态。

步骤607，基于状态关系，确定行人目标是否入侵目标检测区域。

本发明提供的区域入侵检测方法，提出点边交叉次数法则，利用检测的目标框的目标点位置与目标检测区域的边界位置，联合计算判断行人目标的入侵情况，有效地降低了检测错误率，该方法在区域入侵检测场景中被证实具有较高的实用性和有效性，可以为相关领域的安全防范提供重要的技术支持。

下面对本发明提供的区域入侵检测模型训练装置和区域入侵检测装置进行描述，下文描述的区域入侵检测模型训练装置与上文描述的区域入侵检测模型训练方法可相互对应参照，下文描述的区域入侵检测装置与上文描述的区域入侵检测方法可相互对应参照。

图7是本发明提供的区域入侵检测模型训练装置的结构示意图，如图7所示，区域入侵检测模型训练装置700包括第一获取模块701和训练模块702；其中，

第一获取模块701，用于获取第一训练数据集，所述第一训练数据集包括多个第一样本行人图像、所述第一样本行人图像的第一标注信息和第一标签数据，所述第一样本行人图像是基于图像生成模型得到的，所述图像生成模型是基于第二样本行人图像和所述第二样本行人图像的第二标签数据训练得到的；

训练模块702，用于基于所述第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。

本发明提供的区域入侵检测模型训练装置，通过获取第一训练数据集，第一训练数据集包括多个第一样本行人图像、第一样本行人图像的第一标注信息和第一标签数据，第一样本行人图像是基于图像生成模型得到的，图像生成模型是基于第二样本行人图像和第二样本行人图像的第二标签数据训练得到的；基于第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。通过图像生成模型得到多个第一样本行人图像，实现了多模态大模型生成样本图像，增强了样本数据，样本扩充真实高效，而且样本图像更加符合真实环境图像数据，使用增强后的样本数据训练区域入侵检测模型，使得区域入侵检测模型的性能较高，从而提升了模型的检测精度和泛化能力。

可选地，所述第一获取模块701，具体用于：

可选地，所述第一获取模块701，还用于：

基于各所述第二标签数据，确定多个第三标签数据；

基于各所述第一样本行人图像，获取所述第一训练数据集。

可选地，所述第一获取模块701，还用于：

图8是本发明提供的区域入侵检测装置的结构示意图，如图8所示，区域入侵检测装置800包括第二获取模块801、检测模块802和确定模块803；其中，

第二获取模块801，用于获取目标检测区域的待检测行人图像；

检测模块802，用于将所述待检测行人图像输入至区域入侵检测模型，得到所述区域入侵检测模型输出的行人目标；所述区域入侵检测模型是基于图7所示的区域入侵检测模型训练装置训练得到的；

确定模块803，用于基于所述行人目标对应的目标框的至少一个目标点，确定所述行人目标是否入侵所述目标检测区域。

本发明提供的区域入侵检测装置，通过将获取的目标检测区域的待检测行人图像输入至区域入侵检测模型，得到区域入侵检测模型输出的行人目标；再根据行人目标对应的目标框的至少一个目标点，确定行人目标是否入侵目标检测区域，实现了行人目标入侵目标检测区域的判断，提升了入侵检测的准确率和效率。

可选地，所述确定模块803，具体用于：

可选地，所述确定模块803，还用于：

图9是本发明提供的一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行区域入侵检测模型训练方法，该方法包括：获取第一训练数据集，所述第一训练数据集包括多个第一样本行人图像、所述第一样本行人图像的第一标注信息和第一标签数据，所述第一样本行人图像是基于图像生成模型得到的，所述图像生成模型是基于第二样本行人图像和所述第二样本行人图像的第二标签数据训练得到的；基于所述第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。

处理器910可以调用存储器930中的逻辑指令，以执行区域入侵检测方法，该方法包括：获取目标检测区域的待检测行人图像；将所述待检测行人图像输入至区域入侵检测模型，得到所述区域入侵检测模型输出的行人目标；所述区域入侵检测模型是基于前述任一实施例中所述的区域入侵检测模型训练方法训练得到的；基于所述行人目标对应的目标框的至少一个目标点，确定所述行人目标是否入侵所述目标检测区域。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的区域入侵检测模型训练方法，该方法包括：获取第一训练数据集，所述第一训练数据集包括多个第一样本行人图像、所述第一样本行人图像的第一标注信息和第一标签数据，所述第一样本行人图像是基于图像生成模型得到的，所述图像生成模型是基于第二样本行人图像和所述第二样本行人图像的第二标签数据训练得到的；基于所述第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。

所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的区域入侵检测方法，该方法包括：获取目标检测区域的待检测行人图像；将所述待检测行人图像输入至区域入侵检测模型，得到所述区域入侵检测模型输出的行人目标；所述区域入侵检测模型是基于前述任一实施例中所述的区域入侵检测模型训练方法训练得到的；基于所述行人目标对应的目标框的至少一个目标点，确定所述行人目标是否入侵所述目标检测区域。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的区域入侵检测模型训练方法，该方法包括：获取第一训练数据集，所述第一训练数据集包括多个第一样本行人图像、所述第一样本行人图像的第一标注信息和第一标签数据，所述第一样本行人图像是基于图像生成模型得到的，所述图像生成模型是基于第二样本行人图像和所述第二样本行人图像的第二标签数据训练得到的；基于所述第一训练数据集，对初始区域入侵检测模型进行训练，得到区域入侵检测模型。

该计算机程序被处理器执行时实现以执行上述各方法提供的区域入侵检测方法，该方法包括：获取目标检测区域的待检测行人图像；将所述待检测行人图像输入至区域入侵检测模型，得到所述区域入侵检测模型输出的行人目标；所述区域入侵检测模型是基于前述任一实施例中所述的区域入侵检测模型训练方法训练得到的；基于所述行人目标对应的目标框的至少一个目标点，确定所述行人目标是否入侵所述目标检测区域。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种区域入侵检测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的区域入侵检测模型训练方法，其特征在于，所述获取第一训练数据集，包括：

3.根据权利要求2所述的区域入侵检测模型训练方法，其特征在于，所述基于各所述第二标签数据和所述图像生成模型，获取所述第一训练数据集，包括：

基于各所述第二标签数据，确定多个第三标签数据；

基于各所述第一样本行人图像，获取所述第一训练数据集。

4.根据权利要求3所述的区域入侵检测模型训练方法，其特征在于，所述基于各所述第一样本行人图像，获取所述第一训练数据集，包括：

5.一种区域入侵检测方法，其特征在于，包括：

获取目标检测区域的待检测行人图像；

将所述待检测行人图像输入至区域入侵检测模型，得到所述区域入侵检测模型输出的行人目标；所述区域入侵检测模型是基于权利要求1-4任一项所述的区域入侵检测模型训练方法训练得到的；

6.根据权利要求5所述的区域入侵检测方法，其特征在于，所述基于所述行人目标对应的目标框的至少一个目标点，确定所述行人目标是否入侵所述目标检测区域，包括：

7.根据权利要求6所述的区域入侵检测方法，其特征在于，所述基于所述行人目标对应的目标框的各所述目标点，采用点边交叉次数法则确定所述行人目标是否入侵所述目标检测区域，包括：

8.根据权利要求7所述的区域入侵检测方法，其特征在于，所述基于各所述交点数量，确定所述行人目标是否入侵所述目标检测区域，包括：

9.根据权利要求8所述的区域入侵检测方法，其特征在于，所述基于各所述交点数量，确定各所述目标点是否位于所述目标检测区域，包括：

10.根据权利要求8所述的区域入侵检测方法，其特征在于，所述基于各所述目标点是否位于所述目标检测区域，确定所述行人目标是否入侵所述目标检测区域，包括：