CN117253110A

CN117253110A - 一种基于扩散模型的目标检测模型泛化能力提升方法

Info

Publication number: CN117253110A
Application number: CN202311460978.1A
Authority: CN
Inventors: 刘利非; 杨吉利; 王庆峰
Original assignee: Shanghai Xiding Artificial Intelligence Research Center Co ltd
Current assignee: Shanghai Xiding Artificial Intelligence Research Center Co ltd
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2023-12-19

Abstract

本发明属于目标检测技术领域，本发明公开了一种基于扩散模型的目标检测模型泛化能力提升方法，包括基于扩散模型生成多样性的目标图片，基于目标图片生成目标训练数据集；将目标图片输入初始目标检测模型进行目标检测，筛选出高质量目标图片，删除低质量目标图片；对保留的高质量目标图片进行数据增广，使用最小矩形框覆盖目标物进行标注目标物的位置，从而获得高质量标注图片；重复上述步骤，将高质量标注图片加入扩散模型的目标训练数据集中，对扩散模型进行局部微调训练，生成多样性的高质量标注图片；将同样的过滤后并标注的高质量标注图片加入目标检测模型的训练集中，然后进行目标检测模型的训练，以提高目标检测算法的性能。

Description

一种基于扩散模型的目标检测模型泛化能力提升方法

技术领域

本发明涉及目标检测技术领域，更具体地说，本发明涉及一种基于扩散模型的目标检测模型泛化能力提升方法。

背景技术

目前基于神经网络的目标检测算法需要大量的包含目标图片数据作为训练数据，用于目标检测算法模型的训练。在特定目标的识别场景中如电表(电流表、电压表)更是需要大量的人工数据标注，同时随着场景目标物(电流表、电压表)型号、样式等变化，需要时刻扩充训练集中无相同类型、样式的数据集。

因此，在特定场景下的目标识别物中，目标物的型号、样式等变化多种多样，人们在扩充数据集时，通过数据采集获取到的目标物种类非常有限。在利用有限种类的目标物训练集进行模型训练情况下，获取的模型识别能力非常有限，基于神经网络的目标检测算法需要大量的训练数据，特别是在同一目标物的多种形态下，容易出现模型检测目标的泛化能力欠佳的问题。

鉴于此，本发明提供一种基于扩散模型的目标检测模型泛化能力提升方法。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于扩散模型的目标检测模型泛化能力提升方法，解决了在特定场景下的目标识别物中，由于目标物的型号、样式等变化多种多样问题，人为采集和标注数据获取的训练集非常有限问题。

根据本发明的一个方面，提供了一种基于扩散模型的目标检测模型泛化能力提升方法，包括以下步骤：

步骤S1：基于扩散模型生成多样性的目标图片，基于目标图片生成目标训练数据集；

步骤S2：将目标图片输入初始目标检测模型进行目标检测，筛选出高质量目标图片，删除低质量目标图片；

步骤S3：对保留的高质量目标图片进行数据增广，使用最小矩形框覆盖目标物进行标注目标物的位置，从而获得高质量标注图片；

步骤S4：重复步骤S1-S3，将高质量标注图片加入扩散模型的目标训练数据集中，对扩散模型进行局部微调训练，生成多样性的高质量标注图片；

步骤S5：将同样的过滤后并标注的高质量标注图片加入目标检测模型的训练集中，然后进行目标检测模型的训练，以提高目标检测算法的性能。

在一个优选的实施方式中，基于扩散模型生成多样性的目标图片的具体应用逻辑为：

将原始图片基于扩散模型进行训练，训练目标是最大化似然估计，基于扩散模型调整目标参数，所述目标参数包括但不限于温度或噪声水平；

随机选择目标参数和原始图片，使用扩散模型来逐步生成目标图片。

在一个优选的实施方式中，过滤掉不包含目标物或检测置信度较低的图片的具体步骤：

将生成的目标图片输入目标检测模型，并获取目标检测结果，包括目标的坐标框和置信度分数，对于目标图片设置一个置信度阈值；

若目标图片的置信度分数大于或等于置信度阈值时，则将所述目标图片作为高质量目标图片；

若目标图片的置信度分数小于置信度阈值时，则将所述目标图片为低质量目标图片。

在一个优选的实施方式中，数据增广包括但不限于图片水平翻转、颜色变换、旋转、缩放或剪裁中的一种或多种组合增广。

在一个优选的实施方式中，自动标注目标物的位置的获取逻辑：

基于目标检测算法检测和定位目标图像中的目标物，为图像中的目标物体创建标注信息，使用标注框覆盖目标物体；

使用语义分割模型来为图像中的每个像素分配标签，然后可以从中提取目标的边界框，基于边界框获得目标物的位置；

其中，目标检测算法包括但不限于YOLO算法或Faster R-CNN算法。

在一个优选的实施方式中，局部微调训练的具体逻辑为：

以扩散模型为基础模型，基于目标训练数据集对目标图片进行预设定义任务，所述任务包括但不限于文本分类和图像生成，本实施例主要以图像生成为例进行表述，同样适用于文本分类；

根据定义任务选择扩散模型微调的模型层，模型层为目标图片中最接近任务的目标特征层；基于目标特征层选择损失函数；

冻结扩散模型的其他目标特征，只训练您模型层对应的目标特征进行微调，通过反向传播来更新参数。

在一个优选的实施方式中，根据过滤后的高质量标注图片，训练具有更强泛化能力的目标检测模型；

基于目标检测模型生成的二级高质量标注图片，将二级高质量标注图片更新为目标图片，作为下一轮次新的扩散模型的训练数据。

根据本发明的又一个方面，提供了一种智能实验平台快速赋分方法，基于一种基于扩散模型的目标检测模型泛化能力提升方法的实现，包括以下步骤：

用于采集实验中操作人员的实验视频；

将实验视频根据时间帧获取对应的视频窗口图像，将所述视频窗口图像的每一帧图像进行编码和压缩成固定大小的token序列图像；

将token序列图像输入到深度学习模型中，基于深度学习模型获得关键得分点视频片段以及当前关键得分点视频片段的起始时间和结束时间；

对关键得分点视频片段通过目标检测模型进行目标识别，获得目标识别结果；

基于目标识别结果，计算关键得分点视频片段每一帧内的多个目标框之间的空间位置关系，并根据目标框中的空间位置信息与预设得分位置信息进行分析，判断当前目标框在是否符合赋分要求，并根据赋分要求获得当前目标框的赋分权重；

获得当前目标框在不同场景下的赋分权重；并将多个目标框的赋分结果进行累计输出，将累计后的赋分发送至数据接收端。

根据本发明的再一个方面，提供了一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行一种基于扩散模型的目标检测模型泛化能力提升方法。

根据本发明的另一个方面，提供了一种电子设备，包括：处理器和存储器，其中，所述存储器中存储有可供处理器调用的计算机程序；

所述处理器通过调用所述存储器中存储的计算机程序，执行一种基于扩散模型的目标检测模型泛化能力提升方法。

本发明一种基于扩散模型的目标检测模型泛化能力提升方法的技术效果和优点：

本发明使用扩散模型进行目标图的自动生成，并使用目标检测模型进行生成图的过滤、筛选，再将筛选后的目标图分别加入扩散模型训练集和目标检测模型训练集进行模型的训练。反复迭代地进行上述生成图过程以及模型的训练，从而提升扩散模型生成有效目标图的能力和目标检测模型的泛化能力，最终实现在整个训练迭代过程无需人为参与，达到目标检测模型的泛化能力自动有效提升的效果。

附图说明

图1为本发明的目标检测模型泛化能力提升方法流程图。

图2为本发明的智能实验平台快速赋分方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明利用现有的扩散模型，进行特定场景下目标物图像数据生成，并利用目标检测基础模型进行生成图像数据的初步识别及过滤，将筛选出来的高置信度的生成图像作为训练集进行下一轮次的扩散模型、目标检测模型训练，从而提升扩散模型生成目标物图像的质量和目标检测模型识别的准确率，并将获得的目标检测模型再次对扩散模型重新生成的图像数据进行识别和过滤，将筛选出的高置信度的生成图像加入训练集进行下一次扩散模型和目标检测模型的训练，如此反复迭代多次，实现目标检测模型的自监督学习过程。

这里需要说明的是：扩散模型为生成数据的机器学习模型；目标检测模型用于检测目标的机器学习模型；通过协同工作以处理不同的任务；本实施例的目标是通过不断改进数据集质量，同时使用不同类型的模型来处理不同的任务，以提高目标检测模型在特定场景下的性能，用于改善计算机视觉任务。

为处理该问题，现有技术主要做法是人工扩展、补充同一目标物的不同类型、形态数据，并对扩展采集的数据集进行人工标注。当识别场景出现新的类型或形态的同一目标物时，仍需要进行数据采集和标注，非常费时费力。本发明为进一步解决上述问题，利用扩散模型对同一目标物的不同形态进行图像自动生成，将生成的图像输入到初始目标检测模型进行图像的筛选和过滤，并进行自动标注。再将筛选出的图像进行数据增广和标注框的重新修正，最后加入训练集进行目标检测模型、扩散模型的进一步训练，如此进行多次迭代。该方案可以进一步增强目标检测模型的泛化能力，减小为了扩充数据集带来的人力成本，使得新模型能够更好得识别同一目标物的不同类型、形态。

实施例1

请参阅图1所示，本实施例一种基于扩散模型的目标检测模型泛化能力提升方法，包括以下步骤：

步骤S1：生成目标图片：基于扩散模型生成多样性的目标图片；

具体来说，所述目标图片包括不同于原始训练集图片的风格、角度和条件下的目标图，并将采集到的目标图片整合至训练数据集中，以扩充训练数据集。

其中，基于扩散模型生成多样性的目标图片的具体应用逻辑为：

这里需要说明的是：扩散模型是一种生成模型，用于生成高质量的图像；随机选择目标参数会影响对原始图片的处理，从而实现多样性目标图片。

使用扩散模型和参数控制来生成多样性的目标图片。通过调整目标参数和选择不同的起始点，您可以获得一系列具有多样性的图像，适用于各种应用，如艺术生成、图像增强。

步骤S2：初步过滤：将生成的目标图片输入初始目标检测模型进行目标检测，筛选出高质量目标图片，删除低质量目标图片。

这里需要说明的是：过滤掉不包含目标物或检测置信度较低的图片的具体步骤：

将生成的目标图片输入目标检测模型，并获取目标检测结果，包括目标的坐标框和置信度分数。

对于目标图片设置一个置信度阈值，若目标图片的置信度分数大于或等于置信度阈值时，则将所述目标图片作为高质量目标图片；若目标图片的置信度分数小于置信度阈值时，则将所述目标图片为低质量目标图片；

具体示例性的，置信度阈值是一个预先定义的值，如0.5。如果图片中的目标物置信度分数大于这个阈值，那么该图片被认为包含目标物，否则被视为不包含目标物。将那些置信度高于阈值的图片保留下来，可以选择将它们保存到磁盘或者将它们传递给后续的处理流程。

将高质量目标图片保存到磁盘或者将它们传递给后续的处理流程，将低质量目标图片进行删除。

这里需要说明的是：获得目标检测模型的置信度通常取决于使用的检测模型和框架。不同的目标检测模型可能具有不同的输出结构，但通常，置信度分数是检测结果中的一个元素，使用目标检测模型对输入图像进行检测。产生一个检测结果列表，每个结果对应一个检测到的目标，使用目标物的边界框坐标标识目标物在图像中的位置。

具体示例性的，基于目标物所属的类别，如"汽车"、"行人"等描述目标物的类别标签。

置信度分数是一个浮点数，表示目标检测模型对该检测结果的置信度。该分数通常表示为0到1之间，越高表示模型越有信心该检测结果是正确的。

具体通过使用目标检测框架和编程语言访问检测结果的置信度分数。实际的代码可能会根据使用的模型和框架而有所不同。确保查阅文档以了解在特定情况下获取置信度分数。获得置信度分数后，你可以使用它来决定是否筛选或采取其他后续操作，以满足你的应用需求，如前面提到的目标检测筛选。

步骤S3：数据增广和自动标注：对保留的高质量目标图片进行数据增广，数据增广包括但不限于图片水平翻转和图片颜色变化，并自动标注目标物的位置，通常使用最小矩形框覆盖目标物来标注。

这里需要说明的是：数据增广的具体方式包括以下内容：

图片水平翻转：将图像水平翻转，通常适用于具有镜像对称性的任务。

颜色变换：通过调整图像的亮度、对比度、饱和度等来生成新的图像。

旋转和缩放：对图像进行旋转或缩放，以模拟不同角度和尺寸的目标。

剪裁：随机裁剪图像的一部分，以改变图像的视野。

基于目标检测算法检测和定位目标图像中的目标物，为图像中的目标物体创建标注信息，使用标注框覆盖目标物体，可以减轻手动标注数据的负担。

使用语义分割模型来为图像中的每个像素分配标签，然后可以从中提取目标的边界框。

目标检测算法包括但不限于YOLO算法或Faster R-CNN算法，

步骤S4：训练扩散模型：重复步骤S1-S3，将高质量标注图片加入扩散模型的目标训练数据集中，对扩散模型进行微调训练，生成多样性的高质量标注图片，以改进生成目标图片的质量和多样性。

这里需要说明的是：选择生成高质量标注图片的基础扩散模型，如stablediffusion、DALLE2等。再将上述筛选、过滤的高质量标注图片输入到扩散模型训练集中进行局部微调训练，其中选择局部微调训练(模型的局部参数参与训练)，而不是全局模型参数训练的原因是：

1、使用全局模型训时，在有限训练数据量情况下模型容易过拟合；

2、使用模型局部参数训练可以保证模型生成图不失一般性且具有多样性。采用局部微调进行模型训练的方法有：LORA、Hypernetwork等。

局部微调训练的具体逻辑为：

调整超参数以优化性能，所述超参数包括但不限于学习率和批处理大小；

使用验证集来评估模型的性能，若模型性能符合任务要求，将其部署用于实际任务；若模型性能不符合任务要求，可以继续微调至符合任务要求，若无法微调至符合任务要求，则重新删除对应的任务。

步骤S5：训练目标检测模型：将同样的过滤后并标注的高质量标注图片加入目标检测模型的训练集中，然后进行目标检测模型的训练，以提高目标检测算法的性能。

根据过滤后的高质量标注图片，训练具有更强泛化能力的目标检测模型；

基于目标检测模型生成的二级高质量标注图片，将二级高质量标注图片更新为目标图片，作为下一轮次新的扩散模型的训练数据；

这里需要说明的是：基于当前轮次生成、过滤后的高质量标注图片用于训练扩散模型，起到过滤器的作用，筛选出高质量的生成目标图像。

依次反复迭代训练扩散模型和目标检测模型，最终获取与初始目标检测模型相比具有较强的泛化能力的目标检测模型。整个训练过程如图1所示。

本实施例的整个过程可以自发迭代地进行数据生成以及扩散模型、目标检测模型的训练和自我优化，不需要人工参与，本方法减低了为提高目标检测模型的泛化能力而带来的人力成本，如针对不同样式的同一目标进行的大量人工标注。

本发明通过不断迭代生成和过滤的过程，同时利用自动标注来改进生成数据集的质量，以帮助目标检测模型在特定场景下的性能提升，同时应用了扩散模型和目标检测模型以处理不同方面的任务。

实施例2

基于实施例1通过扩散模型和目标检测模型提取智能实验中识别到的实验器材、实验动作输入到精细化赋分后处理逻辑，最终输出图像赋分结果。当视频内容存在大量非实验操作内容或视频内容的大量非实验赋分图像较为分散，使用上述赋分方法虽然可以较为准确的给出实验赋分结果，而且对视频中的每一帧图像无需进行目标检测和后处理计算，利用自动标注来改进生成数据集的质量，以帮助目标检测模型在特定场景下的性能提升，同时应用了扩散模型和目标检测模型以处理不同方面的任务，从而提高智能实验中快速赋分方式。

如图2所示，本实施例提供一种智能实验平台快速赋分方法，其基于一种基于扩散模型的目标检测模型泛化能力提升方法的实现，还包括：

用于采集实验中操作人员的实验视频；

优选地，将视频窗口图像压缩转换成token序列图像的具体过程为：

将视频窗口图像压缩成大小为固定大小的维度语义向量；

再将固定大小的维度语义向量压缩为token序列图像。

优选地，所述深度学习模型的具体识别逻辑为：

对视频窗口图像的数量进行预置获得预设窗口数量；将token序列图像输入到深度学习模型中；

基于预设窗口数量将所有的token序列图像以连续序列的形式输入到深度学习模型中进行学习训练，若token序列图像中检测到预设目标物体，将token序列图像标记为关键得分点视频片段；若token序列图像中未检测到预设目标物体，将token序列图像标记为无效得分点视频片段；

基于预设目标得分点获得当前token序列图像中关键得分点视频片段，基于关键得分点视频片段对应的时间序列获得关键得分点视频片段的起始时间和结束时间。

优选地，将关键得分点视频片段输入目标检测模型中；所述目标检测模型根据预设目标得分点对关键得分点视频片段进行识别，获取预设目标得分点对应的空间位置信息；并根据位置坐标以目标框形式输出；将目标得分点对应的空间位置信息标记为目标识别结果。

优选地，对目标识别结果的具体分析逻辑为：

每一时间帧序列对应的关键得分点视频片段中含有N个目标框；基于目标框对应的空间位置信息确定不同目标框之间的空间位置关系；

预设得分位置信息表征当前关键得分点视频片段中期望的目标框之间的理想位置关系；

将计算得到的目标框的空间位置关系与预设得分位置信息进行比较和分析；基于分析的结果，判断当前目标框的位置关系是否满足赋分要求；

如果当前目标框的空间位置关系符合赋分要求，根据赋分要求的严格程度和目标的重要性，可以为该目标框分配一个赋分权重。

优选地，还包括：对关键得分点视频片段每一帧检测都未发现对应匹配的得分点时，具体步骤如下；

所述关键得分点视频片段经过目标检测模型，未检测到预设目标物体，将关键得分点视频片段重新标记为无效得分点视频片段；

将被重新标记为无效得分点视频片段的数据，重新作为深度学习模型的数据训练集的；

通过迭代的训练和修正过程，逐步改进模型的性能。

本发明通过使用深度学习模型(例如Transformer编码)和目标识别模型，对可能包含得分点的视频片段进行处理，避免浪费计算资源在无效图像上，这样能够显著降低计算成本，使计算资源更高效地用于有意义的分析。

由于对可能的得分点视频片段进行处理，整个实验视频的处理时间大幅减少。这对于实时性要求高的应用或需要大量处理的场景特别有益。再对得分点进行集中处理，减少了处理无效图像的噪声干扰，从而增加了智能赋分的准确性。只对重要的片段进行分析，可以更精确地判断得分点。

将目标识别模型和空间关系计算相结合，能够更准确地判断是否应该对某个视频片段赋分。这有助于降低误判率，避免将无关的片段错误地认定为得分点。在实验视频中有大量非得分点图像的情况下，提高了智能赋分的效率，可以使得对实验结果的分析更迅速和准确。这可以提升用户在实验教学、评估等场景下的体验。

还可以适应不同类型的实验视频，因为它是基于预设目标和空间关系进行处理的。无论实验视频的内容和场景如何变化，这种方法都可以调整以适应新的情况，能够在处理存在大量非得分点视频图像的实验视频时，实现更高效、更准确的智能赋分，从而为用户提供更好的体验和分析结果。

实施例3

一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行一种基于扩散模型的目标检测模型泛化能力提升方法。

实施例4

一种电子设备，包括：处理器和存储器，其中，所述存储器中存储有可供处理器调用的计算机程序；

因配置或性能不同而产生比较大的差异，能够包括一个或一个以上处理器(Central Processing Units，CPU)和一个或一个以上的存储器，其中，该存储器中存储有至少一条计算机程序，该至少一条计算机程序由该处理器加载并执行以实现上述各个方法实施例提供的一种基于扩散模型的目标检测模型泛化能力提升方法。该电子设备还能够包括其他用于实现设备功能的部件，例如，该电子设备还能够具有线或无线网络接口以及输入输出接口等部件，以便进行输入输出。本申请实施例在此不做赘述。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于扩散模型的目标检测模型泛化能力提升方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于扩散模型的目标检测模型泛化能力提升方法，其特征在于，基于扩散模型生成多样性的目标图片的具体应用逻辑为：

3.根据权利要求2所述的一种基于扩散模型的目标检测模型泛化能力提升方法，其特征在于，过滤掉不包含目标物或检测置信度较低的图片的具体步骤：

4.根据权利要求3所述的一种基于扩散模型的目标检测模型泛化能力提升方法，其特征在于，数据增广包括但不限于图片水平翻转、颜色变换、旋转、缩放或剪裁中的一种或多种组合增广。

5.根据权利要求4所述的一种基于扩散模型的目标检测模型泛化能力提升方法，其特征在于，自动标注目标物的位置的获取逻辑：

其中，目标检测算法包括但不限于YOLO算法或Faster R-CNN算法。

6.根据权利要求5所述的一种基于扩散模型的目标检测模型泛化能力提升方法，其特征在于，局部微调训练的具体逻辑为：

7.根据权利要求6所述的一种基于扩散模型的目标检测模型泛化能力提升方法，其特征在于，根据过滤后的高质量标注图片，训练具有更强泛化能力的目标检测模型；

8.一种智能实验平台快速赋分方法，其特征在于，基于权利要求1-7任意一项所述的一种基于扩散模型的目标检测模型泛化能力提升方法的实现，包括以下步骤：

用于采集实验中操作人员的实验视频；

9.一种计算机可读存储介质，其特征在于：储存有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述的一种基于扩散模型的目标检测模型泛化能力提升方法。

10.一种电子设备，其特征在于，包括：处理器和存储器，其中，所述存储器中存储有可供处理器调用的计算机程序；

所述处理器通过调用所述存储器中存储的计算机程序，执行如权利要求1-7任意一项所述的一种基于扩散模型的目标检测模型泛化能力提升方法。