CN117292247A

CN117292247A - 基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法

Info

Publication number: CN117292247A
Application number: CN202311233201.1A
Authority: CN
Inventors: 万秭濛; 段章领; 杨建文; 王梦然; 张鲁川; 范旭昊; 宋乐怡
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-26

Abstract

本发明公开了基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，至少包括以下步骤：数据收集、数据准备、模型选择、模型训练、实时检测、多功能性、误报减少和成本效益。本发明涉及计算机视觉及各种传感器领域，具体基于基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法。

Description

基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法

技术领域

本发明涉及计算机视觉及各种传感器领域，具体涉及基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法。

背景技术

室外场景下的智能监控系统已经广泛应用了YOLOv8算法以及跟踪算法，以实现诸如停车场管理和其他安全监控应用的高效检测与跟踪功能。这些技术的应用在室外环境中已经取得了显著的成功，并在提高公共安全和资源管理方面发挥了关键作用。

然而，在室内环境中，特别是在商场、学校或办公场所等室内空间中，存在着新的挑战和潜在的安全威胁。突发危险场景，如火灾、烟雾、爆炸等，可能对人员和财产造成严重的危害。迅速准确地检测和识别这些室内危险场景至关重要，但迄今为止，室内火灾等危险事件的自动识别和响应技术尚未达到与室外场景监控相媲美的水平。

现有技术在室内环境中的应用受到一系列限制：首次，室内环境的复杂性和多样性增加了检测和识别危险场景的难度。室内可能存在各种光照条件、视角问题以及遮挡物。其次，相对于室外场景，室内的监控数据通常较少，这导致了训练和改进模型的挑战。最后，在室内危险场景中，实时响应至关重要。因此，需要一种高效的检测和识别系统，以最小化响应时间。

发明内容

针对上述存在的技术不足，本发明的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法。

为解决上述技术问题，本发明采用如下技术方案：基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，至少包括以下步骤：

步骤一：数据收集，通过从多个来源收集包含商场，学校，办公场所等地的危险场景和非危险场景图像的图像和视频，包括社交媒体、新闻网站、专用相机或传感器，建立大型数据集。

步骤二：数据准备：对数据进行标记、去重和拆分，以创建用于训练和测试的数据集，并确保数据集平衡，包含相同数量的危险场景和非危险场景图像。

步骤三：模型选择：选择对象检测算法，包括YOLOv8和DeepSort，以学习和检测火灾等危险场景的特定特征，提高探测的准确性和时效性。

步骤四：模型训练：在标记的数据集上使用深度卷积神经网络(CNN)对所选算法进行多轮训练，以适应不同室内危险场景，并使用数据增强技术来减少过度拟合。

步骤五：实时检测：使用YOLOv8算法的实时性能和DeepSort算法的跟踪性能，实现对火灾等危险的实时检测，并跟踪危险场景的发展情况和持续时间。

步骤六：多功能性：适应不同室内公共场所，包括安全隐患检测、煤气泄漏检测、火灾、踩踏和行人流量监测等。

步骤七：误报减少：通过深度学习减少误报，提高火灾探测系统的准确性。

步骤八：成本效益：实现成本效益，使用低成本摄像机和硬件，降低系统部署成本。

其中，在步骤一中包含以下步骤：

1、确定数据收集目标：在开始数据收集之前，明确定义数据集的目标，包括要收集的场景类型(商场、学校、办公场所)、检测目标(火灾、烟雾、人流拥挤)以及所需的图像和视频数量。

2、数据来源和渠道选择：由于限制和隐私问题，无法获取市场数据,所以选择合适的数据来源和渠道，包括社交媒体、新闻网站、专用相机、传感器等。确保数据来源广泛，以涵盖不同场景和条件。

3、数据采集工具和设备准备：获取适当的数据采集工具和设备，如网络爬虫、相机、传感器等。确保这些工具能够捕获高质量的图像和视频，特别是在不同光照和环境条件下。

4、数据采集和存储：开始采集数据，包括拍摄图像和录制视频。数据需要按照场景类型(火灾、烟雾、人流拥挤)和条件(室内、室外、不同光照)进行组织和存储。确保数据的完整性和准确性。

5、数据标注和分类：对采集的图像和视频进行标注和分类。标注包括识别是否存在火灾、烟雾，以及是否存在人流拥挤。同时，可以添加额外的信息，如时间戳、地点等，以帮助后续的数据分析和模型训练。

6、数据集划分：将数据集划分为训练集和测试集，确保模型的评估是可靠的。根据需要，还可以考虑将数据集划分为验证集，以进行模型的超参数调优。

其中，在步骤二中包含以下步骤：

1、标记数据：使用LabelImg等工具或手动在图像和视频中绘制边界框，标记出火灾等危险场景的位置和范围，并给每个边界框分配一个类别标签(如火灾、烟雾等)。

2、去重数据：检查数据集中是否有重复的图像或视频，如果有，删除其中一个，以避免数据冗余。

3、拆分数据：将数据集划分为训练集和测试集，按照一定的比例(如80％和20％)分配数据，以便用于训练和测试模型的性能。

4、预处理数据。对图像和视频进行一些必要的预处理步骤，如调整大小、裁剪、旋转、翻转、灰度化、归一化等，以提高数据的质量和多样性，并减少计算量。

5、平衡数据：确保训练集和测试集中包含相同数量的危险场景和非危险场景图像，以防止模型偏向一类图像。如果某一类图像过多，可以删除一些或者使用数据增强技术(如随机噪声、模糊、对比度调整等)来生成更多的另一类图像。

其中，在步骤三中包含以下步骤：

1、了解对象检测算法。研究不同的对象检测算法，如YOLOv8，Faster R-CNN和SSD，了解它们的原理、优点和缺点，以及在不同的数据集和任务上的性能。

2、比较对象检测算法。使用一些标准指标，如平均精度(mAP)，平均召回率(mAR)，每秒帧数(FPS)等，来比较不同的对象检测算法在收集的数据集上的效果，以及它们在处理不同的火灾等危险场景时的鲁棒性和准确性。

YOLOv8模型已经在数据集上使用迁移学习进行了训练，其中我们在COCO数据集上使用预先训练好的权重初始化了模型，并在我们的数据集上进行了微调。我们使用批量大小为16，在初始学习率为0.01的情况下训练了300个时间点的模型。

3、选择对象检测算法。根据室内危险场景探测系统的性能和要求，选择一个或多个合适的对象检测算法来训练危险场景探测模型。考虑到速度和准确性的平衡，本发明选择YOLOv8算法作为基础模型。

YOLOv8模型是无锚的。这意味着它不是预测一个物体到已知锚框的距离，而是明确地估计物体的中心。无锚检测降低了框预测的数量，从而加速了非最大抑制(NMS)，这是一种具有挑战性的后处理程序，可对推理后的潜在检测进行排序。在识别、分割和分类方面，分别有5种模型(YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x)。YOLOv8x是它们中最精确但速度最慢的，YOLOv8 Nano是最快和最小的。与YOLOv5的区别如下：

1)C2f模块代替C3模块。

2)改变骨干网的初始6×6Conv为3×3Conv。

3)从YOLOv5配置中删除Convs编号10和14。

4)将瓶颈中的初始1×1Conv更改为3×3Conv。

5)使用解耦头移除对象步骤。

基本构建块被改变，C2f取代了C3，并且茎的初始6×6conv被3×3取代。CBS是由Conv、BatchNorm和SiLU组成的块。初始卷的内核维度从1×1调整为3×3。在骨干架构中，YOLOv8使用基于跨阶段部分(CSP)的C2f模块，而YOLOv5使用的是C3模块。CSP的架构增强了CNN的学习能力，减少了模型的计算工作量。C2f模块由两个Conv模块和n个瓶颈组成，通过Split和Concat连接。骨干公园的其余部分与YOLOv5相同。在骨干的最后一层，使用SPPF模块。

4、了解DeepSort算法。研究DeepSort算法，了解它是如何使用深度特征和卡尔曼滤波器来实现多目标跟踪的，以及它在不同的数据集和任务上的性能。

5、结合DeepSort算法。将DeepSort算法与YOLOv8算法结合起来，形成一个带有DeepSort算法的YOLOv8模型，以提高危险场景探测的准确性和时效性。具体而言，使用YOLOv8模型来检测图像中的火灾等危险场景，并生成边界框和类别标签；然后使用DeepSort模型来跟踪视频中的火灾等危险场景，并生成唯一的身份标识。

其中，在步骤四包含以下步骤：

1、加载数据集。使用torchvision.datasets.ImageFolder等函数，将训练集和测试集的图像文件加载到内存中，并将它们转换为PyTorch张量(Tensor)格式。

2、定义模型结构。使用torch.nn.Module等类，定义YOLOv8模型的结构，包括卷积层(Convolutional Layer)，池化层(Pooling Layer)，激活层(Activation Layer)，全连接层(Fully Connected Layer)等，并指定它们的参数和超参数，如卷积核大小(KernelSize)，步长(Stride)，填充(Padding)，激活函数(Activation Function)等。

3、定义损失函数和优化器。使用torch.nn.BCELoss等类，定义模型的损失函数(Loss Function)，用于衡量模型的预测结果和真实标签之间的差异，并使用torch.optim.Adam等类，定义模型的优化器(Optimizer)，用于更新模型的权重和偏置，以减少损失函数的值。

4、训练模型。使用torch.utils.data.DataLoader等类，将训练集的数据分批(Batch)输入模型，并在每个批次后计算损失函数的值，并使用优化器更新模型的参数。同时使用数据增强技术(Data Augmentation)，如随机裁剪(Random Crop)，随机翻转(RandomFlip)，随机旋转(Random Rotation)等，对输入的图像进行一些变换，以增加数据的多样性和模型的泛化能力。重复这个过程多轮(Epoch)，直到模型达到预期的性能或满足停止条件。

其中，在步骤五包含以下步骤：

1、评估模型。使用torchvision.models.detection.evaluation等函数，计算模型在测试集上的各种指标(如准确性、精度、召回率和F1分数)，以评估模型在识别危险场景和非危险场景方面的表现，并与其他对象检测算法进行比较。

召回百分比和精确百分比平均值之间的加权平均值称为FM评分。因此，该评分同时考虑了假阳性和假阴性。虽然调频比精度更普遍，但精度并不是立刻就能简单理解的。当假阳性和假阴性的成本相当时，准确性表现良好。如果假阳性和假阴性的代价不同，最好同时考虑召回和准确性。就阳性结果而言，精确度是指准确预测的观察结果占所有预测的阳性结果的比例。召回率是真阳性预测占所有实际阳性预测的比例。其计算方法如下。

精确度是真阳性预测占所有阳性预测的比例。计算公式如下

TP代表真阳性，FP代表假阳性，TN代表真阴性，FN代表假阴性。计算F-Measure时考虑精度和召回率，简称FM，计算公式如下：

2、调整模型。根据评估结果，分析模型的优点和缺点，以及可能存在的问题，如过度拟合(Overfitting)或欠拟合(Underfitting)。如果模型的性能不理想，尝试调整模型的超参数(Hyperparameters)，如学习率(Learning Rate)，批次大小(Batch Size)，权重衰减(Weight Decay)等，或者添加更多的训练数据，以提高模型的性能和泛化能力。

在YOLOv8中，置信度被描述为Pr(对象)×IOU，其中Pr(对象)表示对象存在的概率，IOU表示交集over Union(IOU)，即推断和地面真实之间的重叠区域。每个网格单元生成5个预测(x、y、w、h和一个置信度评分)。此外，每个网格产生p个条件类概率，表示为Pr(类|对象)。下面的公式演示了在测试阶段为每个框获得类特定的置信度分数的方法。

最后的层同时预测它们的边界框的坐标和它们相关的类概率。然后，将边界框标准化，使其落在0到1之间。除最后一层采用线性激活函数外，其余各层均采用漏整改线性激活函数增加非线性，如下式所示:

3、实时检测。使用torchvision.models.detection.transform等函数，将实时输入的图像或视频转换为适合模型输入的格式，并使用YOLOv8模型和DeepSort模型对其进行实时检测和跟踪。使用torchvision.utils.draw_bounding_boxes等函数，将检测和跟踪的结果可视化为边界框和标签，并实时显示在屏幕上。同时记录危险场景的发展情况和持续时间，并在发现危险场景时发出警报。

其中，在步骤六包含以下步骤：

1、选择部署平台。根据实时系统的需求和资源，选择一个合适的部署平台，如计算机、服务器、云端服务等，以运行经过训练的模型，并处理来自相机的实时视频流。部署平台应具有高计算能力和GPU支持，以保证模型的实时性能和效率。

2、加载模型。使用torch.load等函数，将经过训练的模型文件(如.pth或.pkl)加载到内存中，并将其转换为评估模式(Evaluation Mode)，以关闭梯度计算和随机性，并提高模型的推理速度。

3、检测和跟踪视频流。使用YOLOv8模型和DeepSort模型对视频流中的每一帧进行检测和跟踪，并生成边界框、标签、置信度和身份标识等信息，以表示视频中的危险场景和非危险场景。

4、设置阈值和警报。根据实时系统的要求，设置一个阈值(Threshold)，用于确定模型检测危险场景所需的最低置信度(Confidence)，低于此阈值的检测将作为误报(FalsePositive)丢弃。同时设置一个警报(Alarm)，用于在检测到危险场景时发出声音或视觉信号，以提醒人员注意并采取措施。

5、显示和记录结果。使用OpenCV等库，将检测和跟踪的结果可视化为边界框和标签，并实时显示在屏幕上。同时使用torchvision.utils.save_image等函数，将检测和跟踪的结果保存为图像文件，并记录危险场景的发展情况和持续时间。

其中，步骤七中包含以下步骤：

1、选择集成系统。根据室内危险场景检测模型的目的和功能，选择一些合适的系统来与其集成，如火灾报警器、自动喷水灭火系统和应急响应系统，以提高火灾等室内探测和处理的效率和安全性。

2、实现集成方案。使用网络协议、接口定义、编程语言，实现集成方案，并将室内危险场景检测模型与其他系统连接起来，形成一个完整的火灾探测和处理系统。

3、测试和验证集成系统。使用测试用例和数据，对集成系统进行测试和验证，检查是否存在任何问题或错误，并评估集成系统的性能和效果，如准确性、实时性、稳定性等，并与其他探测系统进行比较。

4、优化集成系统。根据测试和验证的结果，分析集成系统的优点和缺点，以及可能存在的改进空间，优化集成系统的各个方面，减少误报、提高响应速度、降低成本。

其中，步骤八中包含以下步骤：

1、选择低成本摄像机和硬件。根据室内危险场景检测模型的需求和资源，选择一些低成本但高效的摄像机和硬件，以降低系统部署和运营的成本。

2、部署模型到摄像机和硬件。使用工具和技术，如TensorRT，ONNX等，将经过训练的模型文件转换为适合摄像机和硬件运行的格式，并将其部署到摄像机和硬件上，以实现实时检测和跟踪。

3、更新模型。使用迁移学习(Transfer Learning)，增量学习(IncrementalLearning)，定期使用新数据更新模型，以适应新数据和场景的变化，以维护系统的长期有效性和性能。

4、测试模型。使用测试用例和数据，定期测试模型在摄像机和硬件上的性能和效果，检查是否存在任何问题或错误，并评估模型的准确性、实时性、稳定性等，并与其他探测系统进行比较。

5、维护摄像机和硬件。定期检查摄像机和硬件的状态和功能，确保它们正常工作，并及时修复或更换任何损坏或故障的部件。

本发明的有益效果在于：本发明介绍了基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，该模型利用深度学习的优势实时检测火灾等危险场景的特定特征。与传统的探测方法相比，该模型的方法有可能提高火灾等室内场景的探测的准确性，减少误报，并且具有成本效益。它还可以检测室内外其他感兴趣的对象，例如燃气泄漏或洪水。该方法具有多种潜在应用，包括公共区域的消防安全管理、森林火灾监测和智能安全系统。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的步骤流程图；

图2为本发明的YOLOv8 C2f模块图；

图3为本发明的算法流程图；

图4为本发明的基于区域的CNN流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法的步骤流程图，实施过程可以分为八大步骤：

步骤一：此步骤涉及收集包含火灾等室内危险场景和非危险场景图像和视频的大型数据集。通过从公共来源(如社交媒体和新闻网站)收集图像和视频，和使用专用相机或传感器捕获镜头来完成。同时仔细策划了数据集，检查重复项，并使用自动标记工具或手动标记来适当标记是否存在火灾等其他危险状况。确保了数据集与相同数量的危险场景和非危险场景图像保持平衡，以防止模型偏向一类图像。

步骤二：此步骤使用LabelImg等工具或手动在图像和视频中绘制边界框，标记出火灾等危险场景的位置和范围，并给每个边界框分配一个类别标签(如火灾、烟雾等)。检查数据集中是否有重复的图像或视频，如果有，删除其中一个，以避免数据冗余。将数据集划分为训练集和测试集，按照一定的比例(如80％和20％)分配数据，以便用于训练和测试模型的性能。对图像和视频进行一些必要的预处理步骤，如调整大小、裁剪、旋转、翻转、灰度化、归一化等，以提高数据的质量和多样性，并减少计算量。确保训练集和测试集中包含相同数量的危险场景和非危险场景图像，以防止模型偏向一类图像。如果某一类图像过多，可以删除一些或者使用数据增强技术(如随机噪声、模糊、对比度调整等)来生成更多的另一类图像。数据集用于训练深度CNN，以生成高精度的火灾和烟雾检测模型。

步骤三：模型选择，此步骤涉及选择适当的对象检测算法来训练危险场景探测模型。有几种算法可供选择，例如YOLOv8，Faster R-CNN和SSD，每种算法都有自己的优点和缺点。所选算法在收集的数据集上应具有良好的性能，并且能够处理不同的火灾等危险场景，具体取决于室内危险场景探测系统的性能和要求。本发明选择YOLOv8算法和DeepSort算法，带有DeepSort算法的YOLOv8速度和准确性更加优越，该算法在众多的MOS数据集中表现突出。

步骤四：模型训练，在此步骤中，YOLOv8模型在步骤二中准备的标记数据集上进行训练。模型训练涉及教导深度学习模型识别危险场景和非危险场景图像的特征并准确区分它们。YOLOv8模型使用了PyTorch深度学习框架进行训练，该框架提供了构建和训练神经网络所需的工具和库。训练过程中采用数据增强技术，减少过度拟合风险，确保模型的鲁棒性。

步骤五：模型评估，使用各种指标(如准确性、精度、召回率和F1分数)评估训练模型的性能。该指标用于衡量模型在识别危险场景和非危险场景方面的表现。当模型的性能不理想，通过调整超参数或添加更多训练数据来进行了微调。在过度拟合和欠拟合之间找到了平衡，以确保模型能够很好地泛化到新数据。

步骤六：此步骤涉及在实时系统中部署经过训练的模型，该模型可以处理来自相机的实时视频流。高计算能力和GPU的计算机或服务器来实时处理视频流。模型应该能够从摄像机或视频流中读取视频帧，通过经过训练的模型处理它们，并在检测到火灾时生成警报。可以使用阈值来处理误报，该阈值确定模型检测火灾所需的最低置信度，低于此阈值的检测将作为误报丢弃。该方法具备多功能性，可用于检测多种感兴趣的物体，提高系统的适用性。

步骤七，此步骤涉及将室内危险场景检测模型与其他系统集成，例如火灾报警器、自动喷水灭火系统和应急响应系统。当检测到火灾时，应触发火灾报警系统，以提醒建筑物内的人员并疏散他们。还可以激活自动喷水灭火系统以扑灭火灾。此外，应急响应系统可以通知关键信息，例如火灾的位置和严重程度，以提供及时有效的响应。这些系统的正确集成对于避免误报和确保对火灾的无缝和高效响应非常重要。应进行测试和验证，以确保系统有效地协同工作。使用低成本摄像机和硬件实现成本效益，减少系统部署和运营成本

步骤八，此步骤涉及维护部署的室内危险场景模型，以确保其长期有效性。这包括使用新数据更新模型、定期测试模型以及维护模型的硬件和软件组件。定期维护有助于降低误报风险并提高整体安全性。该方法包括定期更新训练模型，以适应新数据和场景的变化，以维护系统的长期有效性和性能。

如图2所示，在步骤三中：

选择对象检测算法。根据室内危险场景探测系统的性能和要求，选择一个或多个合适的对象检测算法来训练危险场景探测模型。考虑到速度和准确性的平衡，本发明选择YOLOv8算法作为基础模型。YOLOv8模型是无锚的。这意味着它不是预测一个物体到已知锚框的距离，而是明确地估计物体的中心。无锚检测降低了框预测的数量，从而加速了非最大抑制(NMS)，这是一种具有挑战性的后处理程序，可对推理后的潜在检测进行排序。在识别、分割和分类方面，分别有5种模型(YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x)。YOLOv8x是它们中最精确但速度最慢的，YOLOv8 Nano是最快和最小的。与YOLOv5的区别如下：

1)C2f模块代替C3模块。

2)改变骨干网的初始6×6Conv为3×3Conv。

3)从YOLOv5配置中删除Convs编号10和14。

4)将瓶颈中的初始1×1Conv更改为3×3Conv。

5)使用解耦头移除对象步骤。

如图4所示，在步骤5中：

精确度是真阳性预测占所有阳性预测的比例。计算公式如下

TP代表真阳性。FP代表假阳性，TN代表真阴性，FN代表假阴性。计算F-Measure时考虑精度和召回率，简称FM，计算公式如下：

如图3所示，在步骤4中：

1、加载数据集.使用torchvision.datasets.ImageFolder等函数，将训练集和测试集的图像文件加载到内存中，并将它们转换为PyTorch张量(Tensor)格式。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员，在不脱离本发明的精神所做的非实质性改变或改进，都应该属于本发明权利要求保护的范围。

Claims

1.基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，其特征在于：至少包括以下步骤：

2.根据权利要求1所述的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，其特征在于：

在步骤一中包含以下步骤：

3.根据权利要求1所述的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，其特征在于：

在步骤二中包含以下步骤：

4.根据权利要求1所述的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，其特征在于：

在步骤三中包含以下步骤：

1)C2f模块代替C3模块。

2)改变骨干网的初始6×6Conv为3×3Conv。

3)从YOLOv5配置中删除Convs编号10和14。

4)将瓶颈中的初始1×1Conv更改为3×3Conv。

5)使用解耦头移除对象步骤。

5.根据权利要求1所述的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，其特征在于：

在步骤四包含以下步骤：

3、定义损失函数和优化器。使用torch.nn.BCELoss等类，定义模型的损失函数(LossFunction)，用于衡量模型的预测结果和真实标签之间的差异，并使用torch.optim.Adam等类，定义模型的优化器(Optimizer)，用于更新模型的权重和偏置，以减少损失函数的值。

4、训练模型。使用torch.utils.data.DataLoader等类，将训练集的数据分批(Batch)输入模型，并在每个批次后计算损失函数的值，并使用优化器更新模型的参数。同时使用数据增强技术(Data Augmentation)，如随机裁剪(Random Crop)，随机翻转(Random Flip)，随机旋转(Random Rotation)等，对输入的图像进行一些变换，以增加数据的多样性和模型的泛化能力。重复这个过程多轮(Epoch)，直到模型达到预期的性能或满足停止条件。。

6.根据权利要求1所述的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，其特征在于：

在步骤五包含以下步骤：

召回百分比和精确百分比平均值之间的加权平均值称为FM评分。因此，该评分同时考虑了假阳性和假阴性。虽然调频比精度更普遍，但精度并不是立刻就能简单理解的。当假阳性和假阴性的成本相当时，准确性表现良好。如果假阳性和假阴性的代价不同，最好同时考虑召回和准确性。就阳性结果而言，精确度是指准确预测的观察结果占所有预测的阳性结果的比例。召回率是真阳性预测占所有实际阳性预测的比例。其计算方法如下：

精确度是真阳性预测占所有阳性预测的比例。计算公式如下：

在YOLO中，置信度被描述为Pr(对象)×IOU，其中Pr(对象)表示对象存在的概率，IOU表示交集over Union(IOU)，即推断和地面真实之间的重叠区域。每个网格单元生成5个预测(x、y、w、h和一个置信度评分)。此外，每个网格产生p个条件类概率，表示为Pr(类|对象)。下面的公式演示了在测试阶段为每个框获得类特定的置信度分数的方法。

7.根据权利要求1所述的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，其特征在于：

在步骤六包含以下步骤：

8.根据权利要求1所述的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，其特征在于：

步骤七中包含以下步骤：

9.根据权利要求1所述的基于YOLOv8算法和跟踪算法的改进型室内危险场景检测方法，其特征在于：

在步骤八中包含以下步骤：