CN117593230A

CN117593230A - 一种图像数据增强方法、装置、电子设备及存储介质

Info

Publication number: CN117593230A
Application number: CN202311418252.1A
Authority: CN
Inventors: 周轩宇; 李敏; 王荣; 赵卿; 马永杰
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-02-23

Abstract

本发明公开了一种图像数据增强方法、装置、电子设备及存储介质，方法包括：获取目标场景的图片数据集；基于图片数据集进行分割识别，得到目标场景中所有物体的掩膜对；掩膜对包括日间掩膜和夜间掩膜；根据掩膜对所对应的图像部分的图像值，得到目标场景中各个物体的图像参数；基于各个物体的掩膜对的图像参数，得到转换参数；通过转换参数对待处理的目标日间图片进行数据增强，得到目标夜间图片。本发明实施例通过对日间图片和夜间图片的分割识别，结合相应的图像处理得到转换参数，进而基于转换参数能够将日间图片生成具有夜间特征的新图像，可以有效地扩充训练数据集，提高目标检测器在夜间条件下的性能，可广泛应用于图像处理技术领域。

Description

一种图像数据增强方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像数据增强方法、装置、电子设备及存储介质。

背景技术

目标检测是计算机视觉中的一个重要任务，它的目的是在图像中定位和识别不同类别的物体。目标检测的应用场景很多，例如自动驾驶、人脸识别、视频监控等。然而，目标检测的性能受到图像采集条件的影响，例如光照、天气、季节等。在不同的光照条件下，图像的颜色、对比度、纹理等特征会发生变化，导致目标检测器的泛化能力下降。而且，夜间场景的目标样本数据获取比白天的时候更是困难得多，夜间场景的目标样本数据不足是影响目标检测器的性能精度的最重要原因。

为了提高目标检测器在夜间场景下的性能，一种常见的方法是使用数据增强技术，即通过对训练数据进行变换或合成，增加数据的多样性和难度。数据增强技术可以分为传统的方法和基于深度学习的方法。传统的方法包括旋转、裁剪、缩放、翻转、噪声添加、颜色变换等操作；基于深度学习的方法包括生成对抗网络(GAN)和图像到图像翻译网络(Image-to-Image Translation)，这些方法可以利用神经网络学习图像之间的映射关系，从而生成具有夜间风格或属性的新图像。

然而，以上两种方法在实践中都无法有效提升目标检测器的性能，因为传统方法的操作虽然可以改变图像的几何形状或像素值，但简单的改变并不能将将白天图像转为有效的夜间图像；基于深度学习的方法改变了图像的语义内容，偏离了原本的场景语义。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明提出一种图像数据增强方法、装置、电子设备及存储介质，能够准确进行图像数据增强。

一方面，本发明实施例提供了一种图像数据增强方法，包括：

获取目标场景的图片数据集；图片数据集包括目标场景的日间图片和夜间图片；

基于图片数据集进行分割识别，得到目标场景中所有物体的掩膜对；掩膜对包括日间掩膜和夜间掩膜；

根据掩膜对所对应的图像部分的图像值，得到目标场景中各个物体的图像参数；

基于各个物体的掩膜对的图像参数，得到转换参数；

通过转换参数对待处理的目标日间图片进行数据增强，得到目标夜间图片。

可选地，图像值包括像素值、颜色通道的值、颜色分量值和灰度值；图像参数包括对比度、亮度、色调、饱和度和噪声；根据掩膜对所对应的图像部分的图像值，得到目标场景中各个物体的图像参数，包括：

基于对掩膜对所对应的图像部分中像素值的极值计算，得到目标场景中各个物体的对比度；

对掩膜对所对应的图像部分的所有像素值进行累加求和，进而对累加求和的结果进行平均计算，得到目标场景中各个物体的对比度；

基于掩膜对所对应的图像部分中各个颜色通道的值，计算得到目标场景中各个物体的色调；

基于对掩膜对所对应的图像部分中颜色分量值的极值计算，得到目标场景中各个物体的饱和度；

基于掩膜对所对应的图像部分的灰度值进行结构相似性指数计算，得到目标场景中各个物体的噪声。

可选地，颜色通道包括红色通道、绿色通道和蓝色通道；基于掩膜对所对应的图像部分中各个颜色通道的值，计算得到目标场景中各个物体的色调，包括：

基于掩膜对所对应的图像部分中各个颜色通道的值，结合反三角函数计算得到目标场景中各个物体的色调；

其中，色调的表达式为：

式中，H表示色调；arctan表示反三角函数中的反正切函数；R表示红色通道的值；G表示绿色通道的值；B表示蓝色通道的值。

可选地，基于掩膜对所对应的图像部分的灰度值进行结构相似性指数计算，得到目标场景中各个物体的噪声，包括：

基于日间掩膜及夜间掩膜所对应的图像部分的灰度值，分别得到日间掩膜所对应的图像部分的第一平均值和第一标准差以及夜间掩膜所对应的图像部分的第二平均值和第二标准差；

基于第一平均值和第二平均值，得到日间掩膜及夜间掩膜所对应的图像部分的协方差；

根据第一平均值、第一标准差、第二平均值、第二标准差和协方差，通过结构相似性指数计算得到目标场景中各个物体在日间掩膜及夜间掩膜所对应的图像部分的噪声；

结构相似性指数计算的表达式为：

式中，SSIM(x,y)表示噪声；x和y分别表示日间掩膜及夜间掩膜所对应的图像部分；μ_x表示第一平均值；μ_y表示第二平均值；σ_x表示第一标准差；σ_y表示第二标准差；σ_xy表示协方差；C₁和C₂均为常数。

可选地，图像参数包括第一图像参数和第二图像参数，第一图像参数包括日间掩膜所对应的图像部分对应的第三图像参数以及夜间掩膜所对应的图像部分对应的第四图像参数，第三图像参数和第四图像参数均包括对比度、亮度、色调和饱和度，第二图像参数包括噪声，转换参数包括第一差异系数和第二差异系数；基于各个物体的掩膜对的图像参数，得到转换参数，包括：

基于目标场景中各个物体的第三图像参数和第四图像参数，得到第一差异系数；

基于目标场景中各个物体的第二图像参数，得到第二差异系数。

可选地，基于目标场景中各个物体的第三图像参数和第四图像参数，得到第一差异系数，包括：

基于目标场景中各个物体的第三图像参数和第四图像参数进行第一累加平均计算，得到第一差异系数；第一差异系数包括对比度差异系数、亮度差异系数、色调差异系数和饱和度差异系数；

其中，第一差异系数的表达式为：

式中，X_o表示第一差异系数；X_od表示第三图像参数；X_on表示第四图像参数；n表示目标场景中物体的数量。

可选地，基于目标场景中各个物体的第二图像参数，得到第二差异系数，包括：

基于目标场景中各个物体的第二图像参数进行第二累加平均计算，得到第二差异系数；其中，第二差异系数的表达式为：

式中，SS_o表示第二差异系数；SS_oi表示目标场景中第i个物体的第二图像参数；n表示目标场景中物体的数量。

另一方面，本发明实施例提供了一种图像数据增强装置，包括：

第一模块，用于获取目标场景的图片数据集；图片数据集包括目标场景的日间图片和夜间图片；

第二模块，用于基于图片数据集进行分割识别，得到目标场景中所有物体的掩膜对；掩膜对包括日间掩膜和夜间掩膜；

第三模块，用于根据掩膜对所对应的图像部分的图像值，得到目标场景中各个物体的图像参数；

第四模块，用于基于各个物体的掩膜对的图像参数，得到转换参数；

第五模块，用于通过转换参数对待处理的目标日间图片进行数据增强，得到目标夜间图片。

另一方面，本发明实施例提供了一种电子设备，包括：处理器以及存储器；存储器用于存储程序；处理器执行程序实现上述图像数据增强方法。

另一方面，本发明实施例提供了一种计算机存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于实现上述图像数据增强方法。

本发明实施例通过获取目标场景的图片数据集；图片数据集包括目标场景的日间图片和夜间图片；基于图片数据集进行分割识别，得到目标场景中所有物体的掩膜对；掩膜对包括日间掩膜和夜间掩膜；根据掩膜对所对应的图像部分的图像值，得到目标场景中各个物体的图像参数；基于各个物体的掩膜对的图像参数，得到转换参数；通过转换参数对待处理的目标日间图片进行数据增强，得到目标夜间图片。本发明实施例通过对日间图片和夜间图片的分割识别，结合相应的图像处理得到转换参数，进而基于转换参数能够将日间图片生成具有夜间特征的新图像，可以有效地扩充训练数据集，提高目标检测器在夜间条件下的性能。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明实施例提供的进行图像数据增强的一种实施环境示意图；

图2是本发明实施例提供的一种图像数据增强方法的流程示意图；

图3为本发明实施例提供的日间图片示例的示意图；

图4为本发明实施例提供的夜间图片示例的示意图；

图5为本发明实施例提供的图像分割识别示例的示意图；

图6为本发明实施例提供的Semantic-SAM模型的架构原理流程示意图；

图7为本发明实施例提供的图像数据增强的总体流程示意图；

图8为本发明实施例提供的一种图像数据增强装置的结构示意图；

图9为本发明实施例提供的一种电子设备的结构示意图；

图10为本发明实施例提供的适于用来实现本发明实施例的电子设备的计算机系统结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一/S100”、“第二/S200”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为便于本发明实施例技术方案的理解，对本发明实施例可能出现的专业技术名称进行解释说明：

Semantic-SAM(Semantic Segment and Recognize Anything Model，基于语义的分割与识别万物模型)：是一个通用的图像分割和识别大模型，它可以根据不同的输入提示(如文本、图像、框等)分割和识别任意物体，并且可以在多个粒度上进行分割。

Mask：指的是图像分割中一种用于标记和分离出感兴趣区域的图像二值化掩膜。它可以用来表示图像中的某个或多个对象，或者图像中的某个或多个类别。Mask通常是一个与原始图像大小相同的矩阵，其中每个元素(或像素)的值为0或1，0表示背景，1表示前景。有时候，Mask也可以用不同的颜色或灰度值来表示不同的对象或类别。

SSIM(Structural Similarity Index，结构相似性指数)：是一种用于测量图像质量的指标，它不仅考虑像素间的亮度差异，还考虑了图像的结构信息。

还需要说明的是，图像处理是一种对数字图像进行操作或变换的技术，它可以用于改善图像的质量、提取图像的信息、增强图像的视觉效果等。下面对本发明实施例可能应用到的图像处理技术进行解释说明：

(1)对比度：对比度是指图像中明暗区域之间的差异程度，对比度越大，图像越清晰，细节越丰富。对比度可以用以下公式定义：

其中，L_max和L_min分别是图像中最亮和最暗的像素值。对比度的取值范围是[0,1]，0表示没有对比度，1表示最大对比度。

(2)亮度：亮度是指图像中的总体亮度水平，亮度越高，图像越明亮。亮度可以用以下公式定义：

其中，N是图像中的像素总数，L_i是第i个像素的亮度值。亮度的取值范围取决于图像的数据类型，例如8位无符号整数类型的图像，亮度的取值范围是[0,255]。

(3)色调：色调是指图像中的颜色属性，色调越高，颜色越鲜艳。色调可以用以下公式定义：

其中，R,G,B分别是图像中红色、绿色和蓝色通道的值。色调的取值范围是[0,360]，单位是角度。

(4)饱和度：饱和度是指图像中的颜色纯度，饱和度越高，颜色越纯净。饱和度可以用以下公式定义：

其中，C_max和C_min分别是图像中最大和最小的颜色分量值。饱和度的取值范围是[0,1]，0表示没有饱和度，1表示最大饱和度。

(5)噪声：噪声在此是指夜间图像中相对白天图像，由于光线变化、传感器、压缩等原因造成的成像差别，噪声越大，图像相差越大。噪声可以用结构相似性指数来计算。

SSIM与峰值信噪比(PSNR)相比，SSIM更能反映人眼对图像质量的主观感受，因为它考虑了人眼感知中的对比度、亮度和结构等因素。

SSIM的计算基于三个主要因素：亮度(Luminance)、对比度(Contrast)和结构(Structure)。它使用了一个局部窗口，比较原始图像和处理后图像在该窗口内的亮度、对比度和结构差异。

SSIM的计算公式如下：

其中，x和y是两个要比较的图像，μ_x和μ_y分别是这两个图像在局部窗口内的平均值，σ_x和σ_y是它们的标准差，σ_xy是它们的协方差，C₁和C₂是常数用于防止分母为零。

SSIM的值范围在-1到1之间，越接近1表示两个图像越相似，越接近-1表示差异越大。

可以理解的是，本发明实施例提供的图像数据增强方法，是能够应用于任意一种具备数据处理计算能力计算机设备，而这一计算机设备可以是各类终端或是服务器。当实施例中的计算机设备是服务器时，该服务器是独立的物理服务器，或者，是多个物理服务器构成的服务器集群或者分布式系统，或者，是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，该终端是智能手机、平板电脑、笔记本电脑以及台式计算机等，但也并不局限于此。

如图1所示，是发明实施例提供的一种实施环境示意图。参照图1，该实施环境包括至少一个终端102和服务器101。终端102和服务器101之间可以通过无线或者有线的方式进行网络连接，完成数据传输交换。

服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

另外，服务器101还可以是区块链网络中的一个节点服务器。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。

终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端102以及服务器101可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例在此不做限制。

示例性地基于图1所示的实施环境，本发明实施例提供了一种图像数据增强方法，下面以该图像数据增强方法应用于服务器101中为例子进行说明，可以理解的是，该图像数据增强方法也可以应用于终端102中。

参照图2，图2为本发明实施例提供的应用于服务器的图像数据增强方法的流程图，该图像数据增强方法的执行主体可以是前述的任意一种计算机设备(包括服务器或者终端)。参照图2，该方法包括以下步骤：

S100、获取目标场景的图片数据集；

需要说明的是，图片数据集包括目标场景的日间图片和夜间图片；

示例性地，一些具体实施例中，可以分别获取摄像头在同一场景的白天(日间)图片和夜间图片，如图3(白天图片)和图4(夜间图片)所示。

S200、基于图片数据集进行分割识别，得到目标场景中所有物体的掩膜对；

需要说明的是，掩膜对包括日间掩膜和夜间掩膜；

示例性地，一些具体实施例中，可以使用Semantic-SAM大模型进行图像分割识别，首先对白天图片使用Semantic-SAM大模型进行图像分割和识别，把白天图片里面所有的物体进行分割，生成不同物体的日间掩膜Mask_od，即分割出物体的轮廓，如图5所示；因白天与夜间图片大小和位置是对应的，因此也得到夜间图片的对应夜间掩膜Mask_on。

S300、根据掩膜对所对应的图像部分的图像值，得到目标场景中各个物体的图像参数；

需要说明的是，图像值包括像素值、颜色通道的值、颜色分量值和灰度值；图像参数包括对比度、亮度、色调、饱和度和噪声；一些实施例中，步骤S300可以包括：基于对掩膜对所对应的图像部分中像素值的极值计算，得到目标场景中各个物体的对比度；对掩膜对所对应的图像部分的所有像素值进行累加求和，进而对累加求和的结果进行平均计算，得到目标场景中各个物体的对比度；基于掩膜对所对应的图像部分中各个颜色通道的值，计算得到目标场景中各个物体的色调；基于对掩膜对所对应的图像部分中颜色分量值的极值计算，得到目标场景中各个物体的饱和度；基于掩膜对所对应的图像部分的灰度值进行结构相似性指数计算，得到目标场景中各个物体的噪声。

其中，一些实施例中，颜色通道包括红色通道、绿色通道和蓝色通道；基于掩膜对所对应的图像部分中各个颜色通道的值，计算得到目标场景中各个物体的色调，可以包括：基于掩膜对所对应的图像部分中各个颜色通道的值，结合反三角函数计算得到目标场景中各个物体的色调；

其中，色调的表达式为：

其中，一些实施例中，基于掩膜对所对应的图像部分的灰度值进行结构相似性指数计算，得到目标场景中各个物体的噪声，可以包括：基于日间掩膜及夜间掩膜所对应的图像部分的灰度值，分别得到日间掩膜所对应的图像部分的第一平均值和第一标准差以及夜间掩膜所对应的图像部分的第二平均值和第二标准差；基于第一平均值和第二平均值，得到日间掩膜及夜间掩膜所对应的图像部分的协方差；根据第一平均值、第一标准差、第二平均值、第二标准差和协方差，通过结构相似性指数计算得到目标场景中各个物体在日间掩膜及夜间掩膜所对应的图像部分的噪声；结构相似性指数计算的表达式为：

示例性地，一些具体实施例中，计算Mask_o(即掩膜对，包括Mask_od和Mask_on)的对比度、亮度、色调、饱和度和噪声的值：根据前面说明的图像处理的相关公式分别计算掩膜Mask_od部分图片的对比度为C_od，亮度为B_od，色调为H_od，饱和度为S_od；分别计算掩膜Mask_on部分图片的对比度为C_on，亮度为B_on，色调为H_on，饱和度为S_on；使用SSIM公式计算掩膜Mask_od与掩膜Mask_on部分图片的噪声为SS_oi。

S400、基于各个物体的掩膜对的图像参数，得到转换参数；

需要说明的是，图像参数包括第一图像参数和第二图像参数，第一图像参数包括日间掩膜所对应的图像部分对应的第三图像参数以及夜间掩膜所对应的图像部分对应的第四图像参数，第三图像参数和第四图像参数均包括对比度、亮度、色调和饱和度，第二图像参数包括噪声，转换参数包括第一差异系数和第二差异系数；一些实施例中，步骤S400可以包括：基于目标场景中各个物体的第三图像参数和第四图像参数，得到第一差异系数；基于目标场景中各个物体的第二图像参数，得到第二差异系数。

其中，一些实施例中，基于目标场景中各个物体的第三图像参数和第四图像参数，得到第一差异系数，可以包括：基于目标场景中各个物体的第三图像参数和第四图像参数进行第一累加平均计算，得到第一差异系数；第一差异系数包括对比度差异系数、亮度差异系数、色调差异系数和饱和度差异系数；其中，第一差异系数的表达式为：

其中，一些实施例中，基于目标场景中各个物体的第二图像参数，得到第二差异系数，可以包括：基于目标场景中各个物体的第二图像参数进行第二累加平均计算，得到第二差异系数；其中，第二差异系数的表达式为：

式中，SS_o表示第二差异系数；SS_oi表示目标场景中第i个物体的第二图像参数；n表示目标场景中物体的数量

示例性地，一些具体实施例中，首先计算Mask_o(即掩膜对，包括Mask_od和Mask_on)的对比度差异系数、亮度差异系数、色调差异系数、饱和度差异系数：分别计算不同物体的对比度差异系数亮度差异系数为色调差异系数为饱和度差异系数为

然后计算Mask_o对的噪声差异系数：计算不同物体的噪声差异系数为

S500、通过转换参数对待处理的目标日间图片进行数据增强，得到目标夜间图片。

示例性地，一些具体实施例中，首先对(待处理的)白天图片(即目标日间图片)应用Semantic-SAM大模型得到所有物体分割Mask；进而对不同物体的Mask范围像素值分别乘以对比度差异系数C_o、亮度差异系数B_o、色调差异系数H_o、饱和度差异系数S_o和噪声差异系数SS_o，得到新像素值，最后组合得到对应的夜间图片(即目标夜间图片)。

为详细解释本发明技术方案的原理，下面结合一些具体实施例对本发明的整体流程进行说明，容易理解的是，下述为对本发明技术原理的解释，不能看做对本发明的限制。

本发明实施例鉴于现有图像转换增强技术的问题，提出了一种白天图像转夜间图像的数据增强方法。该方法相比传统的数据增强方法，融合了分割识别大模型和图像处理算法，生成具有夜间特征的新图像，可以有效地扩充训练数据集，提高目标检测器在夜间条件下的性能。

本发明实施例的技术方案的基本思路如下：

首先，分别获取摄像头在同一场景的白天和夜间图片，如图3(白天图片)和图4(夜间图片)所示；

接着，对白天图片使用Semantic-SAM大模型进行图像分割和识别，把白天图片里面所有的物体进行分割，生成不同物体的日间掩膜Mask_od，即分割出物体的轮廓，如图5所示；因白天与夜间图片大小和位置是对应的，因此也得到夜间图片的对应夜间掩膜Mask_on；

然后，分别计算Mask对((即掩膜对，包括Mask_od和Mask_on))的亮度差比例、对比度差比例、色调差比例、饱和度差比例和噪声，最后计算得到所有物体Mask对的亮度差异系数、对比度差异系数、色调差异系数、饱和度差异系数和噪声差异系数。

最后，对新增的白天图片的Mask部分像素乘以上述参数生成对应的夜间图像，从而达到数据增强的目的。

其中，需要说明的是，Semantic-SAM大模型：

Semantic-SAM模型是一个通用的图像分割和识别大模型，它可以根据不同的输入提示(如文本、图像、框等)分割和识别任意物体，并且可以在多个粒度上进行分割，从对象的整体到细节部分。Semantic-SAM模型有两个主要的优势：

(1)语义感知性：Semantic-SAM模型利用了多个数据集，包括SA-1B、COCO全景、ADE20k全景、PASCAL部分、PACO、PartImageNet和Objects365，这些数据集提供了丰富的语义信息，涵盖了对象级别和部分级别的掩码以及类别标签。Semantic-SAM模型使用共享的文本编码器对对象和部分进行编码，并对解耦的对象和部分分类进行训练，从而实现了语义信息的知识传递。

(2)多粒度丰富性：Semantic-SAM模型使用了多选择学习方案，使每个点击点能够生成与多个真值掩码相对应的多个级别的掩码。这种多粒度丰富性使得Semantic-SAM模型能够更好地适应不同的分割任务和应用场景。

Semantic-SAM模型的结构基于DETR框架，使用可变形解码器来生成查询特征，每个查询特征包含预测的语义类别和掩码。Semantic-SAM模型的整体流程如图6所示；

在Semantic-SAM中，点击表示的统一格式的anchor boxes b＝(x,y,w,h)分别被编码成K个内容嵌入和一个位置嵌入。内容嵌入表示为一组查询向量Q＝(q₁,...,q_K)，其中每个查询向量q_i由粒度级别嵌入和查询类型嵌入组成。位置嵌入通过正弦编码实现:

使用图像编码器的输出特征F作为输入，Semantic-SAM的掩码解码器将输入图像上的点击表示为:

O＝DeformDec(Q,b,F)withO＝(o₁,...,o_K)；

DeformDec(.,.,.)是一个可变形解码器，它接受查询特征、参考框和图像特征，并输出查询特征。每个查询特征o_i＝(c_i,m_i)包含预测的语义类别c_i和掩码m_i，用于构建概念识别损失和掩码预测损失。

其中，一些具体实施例中，为了贴合实际应用环境，还可以在图片数据集中进行噪声模拟，噪声模拟可以通过如下技术原理实现：

泊松噪声是一种常见的图像噪声类型，通常用于模拟在低光条件下拍摄的图像中的噪声。它的产生过程基于泊松分布，该分布描述了稀疏事件发生的次数的概率分布。在图像中，泊松噪声可以被视为光子数量的随机波动，因此在暗部区域中会更加显著。

泊松噪声的产生过程如下：

1).对于每个像素位置，首先计算在该位置的平均光子数量(可以是原始图像像素值除以一个常数)。

2).然后，在该位置上生成一个泊松分布随机数，表示在该位置光子发生的数量。

3).将生成的泊松随机数添加到原始像素值上，得到有噪声的像素值。

泊松噪声的数学表达式如下：

假设I为原始图像的像素值(亮度)，λ为平均光子数量，k为泊松随机数。则有：

I_noisy＝Poisson(I*λ)+k

其中，Poisson(I*λ)表示在像素位置的泊松分布随机数，k表示额外的均值为0的噪声项。

在实际应用中，为了模拟不同强度的泊松噪声，可以调整λ的值。较大的λ值会导致更轻微的噪声，而较小的λ值会导致更明显的噪声。

示例性地，一些具体实施例中，如图7所示，本发明实施例实现图像数据增强的步骤如下：

S1、数据准备：分别采集摄像头在同一场景的白天和夜间图片数据集D，数量为2n，白天图片记为P_d，夜间图片记为P_n；

S2、图片分割识别：

S2-1、得到所有物体的掩膜Mask_o对和标签名称Label_o：对白天图片P_d应用Semantic-SAM大模型得到所有物体分割后的掩膜Mask_od和标签名称Label_o，因白天与夜间图片大小和位置是完全对应的，同时也得到夜间图片的对应掩膜Mask_on；

S2-2、计算Mask_o的对比度、亮度、色调、饱和度和噪声的值：根据技术方案公式分别计算掩膜Mask_od部分图片的对比度为C_od，亮度为B_od，色调为H_od，饱和度为S_od；分别计算掩膜Mask_on部分图片的对比度为C_on，亮度为B_on，色调为H_on，饱和度为S_on；使用SSIM公式计算掩膜Mask_od与掩膜Mask_on部分图片的噪声为SS_oi；

S3、转换参数计算：

S3-1、计算Mask_o对的对比度差异系数、亮度差异系数、色调差异系数、饱和度差异系数：分别计算不同物体的对比度差异系数亮度差异系数为色调差异系数为饱和度差异系数为其中，可以通过标签名称区分不同物体在不同时期的各项参数。

S3-2、计算Mask_o对的噪声差异系数：计算不同物体的噪声差异系数为

S4、白天图片转夜间图片应用：

S4-1、对白天图片应用Semantic-SAM大模型得到所有物体分割Mask和识别标签；

S4-2、对不同物体的Mask范围像素值分别乘以对比度差异系数C_o、亮度差异系数B_o、色调差异系数H_o、饱和度差异系数S_o和噪声差异系数SS_o，得到新像素值，最后组合得到对应的夜间图片。

相较于现有技术，本发明实施例的有益效果至少包括：

1)数据增强：通过生成对应的夜间图片，实现了数据的增强，从而提升模型的稳定性、鲁棒性和泛化性能。

2)光照条件适应：利用差异系数调整像素值，能够让模型在不同光照条件下进行更好的预测，增强模型的适应性。

3)减少数据采集成本：通过合成生成夜间图片，减少了实际采集不同光照条件下图片的成本，节省时间和资源。

5)可定制性强：可通过调整差异系数的计算方式和权重，实现不同程度的数据增强，满足不同应用场景的需求。

6)场景保持一致性：由于白天和夜间图片在大小和位置上是对应的，生成的夜间图片能够保持场景的一致性，增加了数据增强的有效性。

综上所述，本发明通过差异系数计算和合成夜间图片的方法，有效地进行数据增强，提升了模型的鲁棒性、泛化性和稳定性，同时降低了数据采集成本，促进了模型的实际应用。

另一方面，如图8所示，本发明实施例提供了一种图像数据增强装置800，包括：第一模块810，用于获取目标场景的图片数据集；图片数据集包括目标场景的日间图片和夜间图片；第二模块820，用于基于图片数据集进行分割识别，得到目标场景中所有物体的掩膜对；掩膜对包括日间掩膜和夜间掩膜；第三模块830，用于根据掩膜对所对应的图像部分的图像值，得到目标场景中各个物体的图像参数；第四模块840，用于基于各个物体的掩膜对的图像参数，得到转换参数；第五模块850，用于通过转换参数对待处理的目标日间图片进行数据增强，得到目标夜间图片。

本发明方法实施例的内容均适用于本装置实施例，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

另一方面，如图9所示，本发明实施例还提供了一种电子设备900，该电子设备包括至少一个处理器910，还包括至少一个存储器920，用于存储至少一个程序，处理器用于执行程序实现前面的图像数据增强方法；以一个处理器910及一个存储器920为例。

处理器910和存储器920可以通过总线或者其他方式连接。

存储器920作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器920可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器920可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

以上所描述的电子设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

具体地，图10示意性地示出了用于实现本发明实施例的电子设备的计算机系统结构框图。

需要说明的是，图10示出的电子设备的计算机系统1000仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，计算机系统1000包括中央处理器1001(Central Processing Unit，CPU)，其可以根据存储在只读存储器1002(Read-Only Memory，ROM)中的程序或者从存储部分1008加载到随机访问存储器1003(Random Access Memory，RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中，还存储有系统操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口，即I/O接口)也连接至总线1004。

以下部件连接至输入/输出接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

特别地，根据本发明的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理器1001执行时，执行本发明的系统中限定的各种功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例的另一方面还提供了一种计算机可读存储介质，存储介质存储有程序，程序被处理器执行实现前面的方法。

本发明方法实施例的内容均适用于本计算机可读存储介质实施例，本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用，或结合这些指令执行装置、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种图像数据增强方法，其特征在于，包括：

获取目标场景的图片数据集；所述图片数据集包括所述目标场景的日间图片和夜间图片；

基于所述图片数据集进行分割识别，得到所述目标场景中所有物体的掩膜对；所述掩膜对包括日间掩膜和夜间掩膜；

根据所述掩膜对所对应的图像部分的图像值，得到所述目标场景中各个所述物体的图像参数；

基于各个所述物体的所述掩膜对的所述图像参数，得到转换参数；

通过所述转换参数对待处理的目标日间图片进行数据增强，得到目标夜间图片。

2.根据权利要求1所述的图像数据增强方法，其特征在于，所述图像值包括像素值、颜色通道的值、颜色分量值和灰度值；所述图像参数包括对比度、亮度、色调、饱和度和噪声；所述根据所述掩膜对所对应的图像部分的图像值，得到所述目标场景中各个所述物体的图像参数，包括：

基于对所述掩膜对所对应的图像部分中像素值的极值计算，得到所述目标场景中各个所述物体的所述对比度；

对所述掩膜对所对应的图像部分的所有像素值进行累加求和，进而对所述累加求和的结果进行平均计算，得到所述目标场景中各个所述物体的所述对比度；

基于所述掩膜对所对应的图像部分中各个颜色通道的值，计算得到所述目标场景中各个所述物体的所述色调；

基于对所述掩膜对所对应的图像部分中颜色分量值的极值计算，得到所述目标场景中各个所述物体的所述饱和度；

基于所述掩膜对所对应的图像部分的灰度值进行结构相似性指数计算，得到所述目标场景中各个所述物体的所述噪声。

3.根据权利要求2所述的图像数据增强方法，其特征在于，所述颜色通道包括红色通道、绿色通道和蓝色通道；所述基于所述掩膜对所对应的图像部分中各个颜色通道的值，计算得到所述目标场景中各个所述物体的所述色调，包括：

基于所述掩膜对所对应的图像部分中各个所述颜色通道的值，结合反三角函数计算得到所述目标场景中各个所述物体的所述色调；

其中，所述色调的表达式为：

4.根据权利要求2所述的图像数据增强方法，其特征在于，所述基于所述掩膜对所对应的图像部分的灰度值进行结构相似性指数计算，得到所述目标场景中各个所述物体的所述噪声，包括：

基于所述日间掩膜及所述夜间掩膜所对应的图像部分的灰度值，分别得到所述日间掩膜所对应的图像部分的第一平均值和第一标准差以及所述夜间掩膜所对应的图像部分的第二平均值和第二标准差；

基于所述第一平均值和所述第二平均值，得到所述日间掩膜及所述夜间掩膜所对应的图像部分的协方差；

根据所述第一平均值、所述第一标准差、所述第二平均值、所述第二标准差和所述协方差，通过结构相似性指数计算得到所述目标场景中各个所述物体在所述日间掩膜及所述夜间掩膜所对应的图像部分的所述噪声；

所述结构相似性指数计算的表达式为：

5.根据权利要求1所述的图像数据增强方法，其特征在于，所述图像参数包括第一图像参数和第二图像参数，所述第一图像参数包括所述日间掩膜所对应的图像部分对应的第三图像参数以及所述夜间掩膜所对应的图像部分对应的第四图像参数，所述第三图像参数和所述第四图像参数均包括对比度、亮度、色调和饱和度，所述第二图像参数包括噪声，所述转换参数包括第一差异系数和第二差异系数；所述基于各个所述物体的所述掩膜对的所述图像参数，得到转换参数，包括：

基于所述目标场景中各个所述物体的所述第三图像参数和所述第四图像参数，得到所述第一差异系数；

基于所述目标场景中各个所述物体的所述第二图像参数，得到所述第二差异系数。

6.根据权利要求5所述的图像数据增强方法，其特征在于，所述基于所述目标场景中各个所述物体的所述第三图像参数和所述第四图像参数，得到所述第一差异系数，包括：

基于所述目标场景中各个所述物体的所述第三图像参数和所述第四图像参数进行第一累加平均计算，得到所述第一差异系数；所述第一差异系数包括对比度差异系数、亮度差异系数、色调差异系数和饱和度差异系数；

其中，所述第一差异系数的表达式为：

7.根据权利要求5所述的图像数据增强方法，其特征在于，所述基于所述目标场景中各个所述物体的所述第二图像参数，得到所述第二差异系数，包括：

基于所述目标场景中各个所述物体的所述第二图像参数进行第二累加平均计算，得到所述第二差异系数；

其中，所述第二差异系数的表达式为：

8.一种图像数据增强装置，其特征在于，包括：

第一模块，用于获取目标场景的图片数据集；所述图片数据集包括所述目标场景的日间图片和夜间图片；

第二模块，用于基于所述图片数据集进行分割识别，得到所述目标场景中所有物体的掩膜对；所述掩膜对包括日间掩膜和夜间掩膜；

第三模块，用于根据所述掩膜对所对应的图像部分的图像值，得到所述目标场景中各个所述物体的图像参数；

第四模块，用于基于各个所述物体的所述掩膜对的所述图像参数，得到转换参数；

第五模块，用于通过所述转换参数对待处理的目标日间图片进行数据增强，得到目标夜间图片。

9.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1至7任一项所述的方法。