CN117853863A

CN117853863A - 一种训练目标检测模型的方法、装置及电子设备

Info

Publication number: CN117853863A
Application number: CN202311865832.5A
Authority: CN
Inventors: 尤政; 史慧宇; 戴宇翔; 纪兴龙; 浦一雯; 丁皓伦; 韩毓; 邢飞; 鲁文帅
Original assignee: Qiyuan Laboratory
Current assignee: Qiyuan Laboratory
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-09

Abstract

本申请属于无人系统的技术领域，具体提出了一种训练目标检测模型的方法：获取Bayer图像数据和RGB图像数据，Bayer图像数据和RGB图像数据为相同视角下的图像数据；训练Bayer目标检测模型和训练RGB目标检测模型；通过Bayer目标检测模型识别Bayer待测图像和通过RGB目标检测模型识别RGB图像待测数据；判断第一目标识别结果和第二目标识别结果是否一致，若是，则将确定Bayer目标检测模型为目标检测模型。本申请训练目标检测模型的方法获得的微模型，可使用摄像头传感器得到的原始数据(Bayer格式数据)进行计算，无需更多的传输、存储及编码、解码过程；Bayer目标检测模型减少计算量，解放存储空间，提高运算速度；Bayer格式的图像不涉及具体的数据封装格式，有利于隐私计算。

Description

一种训练目标检测模型的方法、装置及电子设备

技术领域

本申请属于无人系统目标识别的技术领域，尤其涉及一种训练目标检测模型的方法、装置及电子设备。

背景技术

基于无人系统视觉的目标检测具有广泛的应用领域，基于深度学习的目标检测和识别得到深入的研究。目前，基于深度学习的目标检测算法分为端到端和两阶段算法。两阶段算法将目标检测任务分成两步：基于区域建议网络首先对图片提取特征并提取出可能存在目标的区域，然后再从提取出来的区域，进行内容的分类和目标边框的回归。端到端算法省略区域建议网络，直接由特征图预测目标类别的分类和位置框的回归。在相同能力计算下，两种算法皆有利弊，单阶段的网络比两阶段网络的检测速度更快，两阶段网络比端到端网络的检测精度更高。但对于微纳无人系统来说，大部分的目标检测神经网络模型计算量庞大，参数过多，很难实现算法的部署。

在无人系统等端侧设备应用目标识别算法时，一般将视觉传感器采集的原始数据(Bayer格式数据)经过ISP等图像处理模块转为RGB图像(涉及图像编解码、白平衡等过程)，再传输到神经网络模型中做推理和计算。但对于微纳型无人系统，机身重量通常限制在百克以下，可适配的芯片通常内存小、计算量有限，考虑到重量和资源分配等问题通常仅装配视觉传感器，且可选取的图像传感器通常不再配置特定的ISP处理模块，导致获取的图像质量较低，极大地影响检测效果。此外，若想使得深度学习跟踪算法达到高实时性的要求，需要将模型的计算量限制在1GFLOPs以下，参数量限制在2M以下，整套算法耗时控制在100ms以内。”

因此，如何在微纳无人系统上占用存算资源少、运算时间短的实现目标检测成为亟待解决的问题。

发明内容

本申请的目的是提供一种训练目标检测模型的方法、装置及电子设备，以解决如何在微纳无人系统上占用存算资源少、运算时间短的实现目标检测的问题。

为解决上述技术问题，根据一些实施例，本申请提供的一种训练目标检测模型的方法，包括：

获取Bayer图像数据，生成所述Bayer图像数据对应的第一标签，获取RGB图像数据，生成所述RGB图像数据对应的第二标签，所述Bayer图像数据和所述RGB图像数据为相同视角下的图像数据；

从所述Bayer图像数据提取第一训练集，从所述RGB图像数据提取第二训练集，所述第一训练集的第一标签与所述第二训练集的第二标签根据相同视角关系一一对应；利用所述第一训练集训练Bayer目标检测模型；利用所述第二训练集训练RGB目标检测模型；

通过所述Bayer目标检测模型识别Bayer待测图像，得到第一目标识别结果，通过所述RGB目标检测模型识别RGB图像待测数据，得到第二目标识别结果；所述Bayer待测图像和RGB图像待测数据为相同设定角度捕捉的图像；

判断所述第一目标识别结果和所述第二目标识别结果是否一致，若是，则将确定所述Bayer目标检测模型为目标检测模型，若否，则重新训练Bayer目标检测模型和所述RGB目标检测模型，直到所述第一目标识别结果和所述第二目标识别结果一致为止。

进一步地，通过所述Bayer目标检测模型识别Bayer待测图像得到第一目标识别结果包括：将所述Bayer目标检测模型的输出结果进行非极大值抑制处理，得到第一目标识别结果，所述第一目标识别结果包括：Bayer目标检测框坐标、Bayer目标置信度和Bayer目标类别；

所述通过所述RGB目标检测模型识别RGB图像待测数据，得到第二目标识别结果，包括：非极大值抑制处理所述RGB目标检测模型的输出结果，得到第二目标识别结果，所述第二目标识别结果包括：RGB目标检测框坐标、RGB目标置信度和RGB目标类别。

进一步地，所述获取RGB图像数据，包括：从COCO数据集中，提取所述RGB图像数据；所述COCO数据集中包含多个目标类别和多个场景的图像数据。

进一步地，通过单目摄像设备捕捉所述Bayer待测图像。

进一步地，所述Bayer目标检测模型的类型为深度神经网络，所述深度神经网络包括网络主干和检测头；

所述网络主干包括17层卷积网络层、17层归一化层和2层池化层；

所述检测头包括5层卷积网络层、5层归一化层、3层池化层和1层下采样层。

进一步地，所述卷积神经网络的算子为卷积算子、平均池化算子、批归一化算子、激活函数算子和下采样算子。

进一步地，在每一层所述卷积网络层中包括激活函数层。

进一步地，所述利用所述第一训练集训练Bayer目标检测模型包括：

随机初始化所述深度神经网络中的神经元偏置和权重值；

使用损失函数通过梯度下降法，通过所述第一训练集、前向传播和反向传播更新权重和偏置，训练所述Bayer目标检测模型。

进一步地，所述损失函数为以下公式1：

L ＝ L_box+L_obj+L_cis 公式1；

其中，L_box为目标检测框的损失函数，L_obj为目标置信度的损失函数，L_cis为目标类别的损失函数。

进一步地，使用损失函数通过梯度下降法，通过所述第一训练集、前向传播和反向传播更新权重和偏置包括：

在前向传播后固定Bayer目标检测模型中神经元的偏置和权重值；

通过所述第一训练集，获取输出层损失函数的梯度；

获取每一层卷积网络层对应的梯度；

根据所述每一层卷积网络层对应的梯度，通过梯度下降法，更新每个神经元的偏置和权重值。

进一步地，所述RGB图像待测数据与所述Bayer待测图像为相同场景和相同视角的图像数据；或，所述RGB图像待测数据由Bayer待测图像转化而成。

进一步地，所述Bayer目标检测模型与所述RGB目标检测模型的网络结构相同。

进一步地，所述通过第一训练集训练Bayer目标检测模型与所述通过第二训练集训练RGB目标检测模型的训练步骤相同。

本申请的另一方面提出了一种目标检测模型训练装置，采用如上述任一技术方案中的训练目标检测模型的方法对模型进行训练。

本申请的又一方面提出了一种电子设备，包括存储器、显示器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一技术方案中训练目标检测模型的方法的步骤。

本申请的上述技术方案至少具有如下有益的技术效果：

本申请提出的一种训练目标检测模型的方法得到的微模型，可直接使用摄像头传感器获得的原始数据(Bayer格式数据)进行计算，无需图像的更多的传输、存储及编码、解码过程；相对于利用RGB图像数据，减少数据占用内存约67％，减轻图像质量对检测效果的影响；设计的Bayer目标检测模型大幅减少计算量，解放存储空间，大幅提高运算速度，有利于在超低功耗的微纳无人系统上实现高实时性的目标检测算法。此外，Bayer格式数据不涉及具体的数据封装格式(图像格式等)，是纯二进制格式数据，有利于实现端侧设备的隐私计算。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例中一种训练目标检测模型的方法的流程图。

图2是本申请一个实施例中Bayer图像数据图。

图3是本申请一个实施例中目标检测模型模块图。

图4是本申请一个实施例中卷积神经网络结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合，相互引用。

目前，现有技术中如何在微纳无人系统上占用存算资源少、运算时间短的实现目标检测的问题。

为解决上述问题，本申请一实施例提供了一种训练目标检测模型的方法，图1是用于在本申请一个实施方式中训练目标检测模型方法的流程图。如图1所示，方法包括步骤S1，在步骤S1中获取Bayer图像数据用于训练本申请最终的目标检测的模型，并对应的标记上带有序号的第一标签；获取RGB图像数据用于训练验证模型，并对应的标记上带有序号的第二标签；Bayer图像数据和RGB图像数据都具有种类和数量规模上的要求，因此在现有的历史数据中进行选择，且由于RGB格式的数据比较常见且较容易获得，故可以先获取RGB图像数据，然后将RGB图像数据格式逐一转换为Bayer图像格式，即得到了相同视角的Bayer图像数据和RGB图像数据；；且Bayer图像数据和RGB图像数据均为包括一部分含有既定目标的数据和另一部分不含有既定目标的数据。可选地，考虑到测试和结果统计的便捷性，本申请仅将人作为检测目标。

附图2为Bayer图像数据图，图中R是红色格式的像素，G是绿色格式的像素，B是蓝色格式的像素。Bayer格式数据是图像传感器将捕捉到的光源信号转化为数字信号的原始数据，无需图像编辑器的转化。

本步骤在本申请的一个实施场景中，Bayer图像数据作为后续步骤中模型训练的第一训练集，数量规模上要求训练具有较大的基数，因此，在该步骤中Bayer图像数据由比较常见的RGB图像数据转化而成；同样，RGB图像数据作为后续步骤中模型训练的第二训练集，数量规模上也要求训练具有较大的基数，可以选择COCO数据集作为元数据基础库，COCO数据集是微软公司开发的，包含多个目标类别和多个场景的图像数据的数据库，本申请将将COCO数据集中的全部或部分RGB格式数据作为RGB图像数据，并对应标记第二标签；然后，将RGB图像数据的格式转化为Bayer格式，得到Bayer图像数据，对Bayer图像数据标记第一标签，且第一标签与第二标签一一对应，以方便后续步骤中对目标检测结果的对比统计分析。

本步骤中RGB图像数据转化Bayer图像数据过程为：参照Bayer图像数据每个空间点的排列按照RG、GB或BR序列，在每个空间位置依次从R、G、B三个通道上分别抽取对应的通道，以此组成新的Bayer图像数据。

本申请提供的方法还包括步骤S2：从Bayer图像数据提取第一训练集，从RGB图像数据提取第二训练集，第一训练集的第一标签与第二训练集的第二标签根据相同视角关系一一对应，或者，第一标签和第二标签直接根据Bayer图像数据与RGB图像数据转化关系一一对应。

本申请提供的方法还包括步骤S3：利用第一训练集训练本申请构建的Bayer目标检测模型；利用第二训练集训练本申请构建的RGB目标检测模型；

构建的Bayer目标检测模型的神经网络为卷积神经网络，如图3的目标检测模型模块图和图4的卷积神经网络结构图所示，卷积神经网络模型具有网络主干(backbone)和检测头；backbone由17层卷积网络、17层归一化层和2层池化层构成；检测头由5层卷积网络、5层归一化层、3层池化层和1层下采样层构成；其中，每一个卷积网络层、一个归一化层和激活函数构成一个块。卷积神经网络的算子为卷积算子、平均池化算子、批归一化算子、激活函数算子(LeakyRELU)和下采样算子。由于Bayer格式数据为单通道数据，Bayer目标检测模型的输入层通道维度为1，此模型的计算量为154MOPs，参数量为0.28M。

卷积网络层的每一个卷积滤波器反复的作用于整个感受野中，对输入数据进行卷积，卷积结果构成了输入数据的特征图，提取出图像的局部特征。池化层周期性地插入连续的卷积层(或由卷积层、批归一化层和激活函数构成的块)之间，逐渐降低数据的空间尺寸，能减少网络中参数的数量，使得计算资源耗费变少，也能有效控制过拟合。归一化层作用在于：经过归一化之后的数据变成了均值为零，方差为一的分布，在零的周围，梯度相对在离零远的地方大，这样在训练反向传播的过程中不断的前向传播不至于梯度消失；在反向传播的过程中，每一层的梯度的计算都要用本层的数据乘以上层传过来的梯度得到本层的梯度，本层的数据被归一化限制在均值为零，那么相乘的时候就不会发生梯度爆炸；下采样层负责特征提取。

本步骤在本申请的一个实施场景中，Bayer目标检测模型还具有输入层和输出层，在输入层输入bayer图像数据(第一训练集)，利用第一训练集训练Bayer目标检测模型包括：

随机初始化深度神经网络中的神经元偏置和权重值；

使用损失函数通过梯度下降法，通过第一训练集、前向传播和反向传播更新权重和偏置，训练Bayer目标检测模型。

其中，神经网络的前向传播包括：对卷积神经网络模型中神经元之间的权重和偏置进行初始化，深度神经网络进行前向传播；

利用激活函数增加神经网络之间的非线性关系，最后能够生成Bayer图像数据输入与目标检测输出结果间的非线性映射。

进一步地，反向传播包括：

计算卷积神经网络模型中深度神经网络的损失函数；每个网络的损失函数为：

L ＝ L_box+L_obj+L_cis 公式1；

其中，L_box为目标检测框的损失函数，L_obj为目标的损失函数，L_cis为目标类别的损失函数；

通过梯度下降法更新卷积神经网络模型中深度神经网络的参数，具体步骤包括：在预设时间内固定深度神经网络参数，计算输出层损失函数的梯度；计算卷积网络层数l＝L-1,L-2,…,2时每一层所对应的梯度；更新每个深度神经网络的权重和偏置参数；最终获得的深度神经网络作为Bayer目标检测模型。

本申请提供的方法还包括步骤S4：将Bayer待测图像作为第一测试集，Bayer待测图像可以为无人系统的单目摄像设备实时获得的原始数据，并利用Bayer目标检测模型对Bayer待测图像进行目标检测，得到对应的第一目标识别结果；将RGB图像待测数据作为第二测试集，通过RGB目标检测模型对RGB图像待测数据进行目标检测，得到对应的第二目标识别结果；Bayer待测图像和RGB图像待测数据为相同设定角度捕捉的图像；

优选地，Bayer目标检测模型输出的测试识别结果中对于图像的目标检测中通常包含多个目标，且在同一目标的位置上会产生大量的候选框，候选框相互之间可能会有重叠，此时需要利用非极大值抑制找到最佳的目标边界框，消除冗余的边界框，优选地，采用非极大值抑制(non maximum suppression)对Bayer目标检测模型的测试识别结果进行处理，得到的第一目标识别结果中包括：目标检测框坐标(Bayer)、目标置信度(Bayer)和目标类别(Bayer)。

同理，通过RGB目标检测模型识别RGB图像待测数据，得到第二目标识别结果，包括：将RGB目标检测模型的输出结果进行non maximum suppression处理，得到第二目标识别结果；其中，第二目标识别结果包括：RGB目标检测框坐标、RGB目标置信度和RGB目标类别。

本申请提供的方法还包括步骤S5：判断第一目标识别结果和第二目标识别结果是否一致，若是，则将确定Bayer目标检测模型为目标检测模型；若否，则重新训练Bayer目标检测模型和RGB目标检测模型，直到第一目标识别结果和第二目标识别结果一致为止。目标识别结果的一致可以通过两者的相似度进行表示，并设定相似度阈值，当第一目标识别结果和第二目标识别结果的相似度高于阈值时，则认为两者达到了一致的要求，其相似度可以根据第一目标识别结果和第二目标识别结果中目标检测框坐标、目标置信度和目标类别进行比较判定获得。

需要说明的是，步骤S1中Bayer图像数据、RGB图像数据的获取过程、过程中RGB图像数据逐一转化为Bayer图像数据、以及步骤S2、步骤S3中RGB目标检测模型自身结构及训练过程、步骤S4中RGB目标检测模型识别RGB图像待测数据，均是为了训练目标检测模型和模型验证，其过程可以在微纳无人系统在实时对目标检测之前完成，或者由其他系统或工具完成转化；而在无人系统实时目标检测时，只需将无人系统的摄像设备获得的Bayer格式数据导入步骤S5中确定了的目标检测模型中进行目标检测，并得到检测结果，前述获取训练集、数据转化程序、转化及训练集的训练过程不占用微纳无人系统的存储资源和运算资源；其中的数据转化过程也仅是为了满足获得大量的历史Bayer图像数据和RGB图像数据作为训练集的需要，COCO图像数据集被选择是因为比较容易获取且基数足够大、种类较多而被选择为元数据基础库；可选地，其他的、能够满足训练规模要求的Bayer图像数据的获取方式也是可以的，例如：也可以由RGB图像以外的其他的图像数据(TIFF/GIF/JPEG等)转化为Bayer图像数据；可选地，不通过其他图像数据转化而图像传感器直接获取的Bayer图像数据作为训练集也是可以的，但此种方式获得的数据数量规模有限；其中，第一训练集、第二训练集、RGB目标检测模型和训练过程，及RGB图像数据转化为Bayer图像数据的过程，均不在微纳无人系统实时运行服役过程中运行，实时对目标检测过程仅需通过无人系统的单目摄像设备获得的Bayer格式数据，将其输入至训练好并确定的目标检测模型进行目标检测。

在本申请的一个实施例中，步骤4中的Bayer待测图像为微纳无人系统的单目摄像设备接收的原始数据，而RGB图像待测数据是由Bayer待测图像一一对应转化得到。

在现有的无人系统中，无人系统获得的Bayer待测图像是从ADC输出，只经过了LENS SHADING，GAMMA等模块处理而后就直接输出，Bayer图像数据一个像素点由三种颜色合成：R&G&B。RGB图像待测数据是Bayer待测图像经过ISP模块的处理，再经过YUV422的数据转化获得，RGB图像待测数据一个像素点只有一种颜色：R/G/B。无人系统的单目摄像设备获得的是Bayer待测图像是Bayer格式的数据，需要ISP处理才能转成RGB图像数据；ISP处理过程可以包括：

DPC：坏点矫正,坏点由于芯片制造工艺等问题产生的，坏点是指亮度或者色彩与周围其他像素的点有非常大的区别，常用检测方法是在全黑环境下看亮点和彩点和在盖白板的情况下看黑点和彩点，ISP端一般通过在亮度域上取其他周围像素点均值来消除坏点。

BLC：黑电平矫正(Black level corr)，黑电平是指图像数据为0时对应的信号电平，进行黑电平矫正的目的；一是由于传感器(sensor)本身会存在暗电流，导致在没有光照进来的条件下pixel也有电压输出，不过这部分一般在传感器端就已经处理掉了，还有一个原因是因为传感器进行模数转换时精度不够，以8bit为例，每个pixel有效范围是0-255，传感器可能无法将接近于0的信息转化出来，由于人眼特性(对暗处细节比较敏感，)转换时会加一个固定的偏移量使像素输出在5(非固定值)—255之间，然后传输在ISP端再做一个减法，将5(非固定值)变为0。

Denosice：降噪，噪声在图像上常表现为一引起较强视觉效果的孤立像素点或像素块，一般在暗态下噪声表现尤为明显,影响人的主观视觉感受及对目标的观测，所以进行降噪，但是降噪一般伴随着细节的损失。

LSC：镜头亮度矫正(lens shadingcorr)由于镜头光学系统原因(CRA)，sensor中心光轴附件的pixle感光量比四周多，所以导致呈现出来的画面会中心亮四周暗(同时由于边缘入射角大，会造成相邻像素间串扰，严重时会导致角落偏色)，所以进行LSC的主要目的是为了让画面四周亮度与中心亮度一直，简单理解就是用过增加四周像素的gain值，来达到亮度一致。

AWB：自动白平衡(auto white balance)，是白平衡的目的就是白色物体在任何色问下都是R＝G＝B呈现出白色，比较常用的AWB算法有灰度世界，完美反射法等。

Demosica：颜色插值，sensor每个pixel只感知一种颜色分量(如流程图一开始所示)，由于人眼对绿色比较敏感所以G的分量是R与B的两倍，所形成的图像称之为Bayer格式图，所以要通过颜色插值使每个pixel上同时包含RGB三个分量。

CCM：色彩校正(color corrmatrix)，AWB已经将白色校准了，CCM用来校准白色除白色以外其他颜色的准确度；用一个3X3的CCM矩阵来校准，其中每一列系数r1+g1+b1等于一个恒定值1；CCM矫正最终结果可以通过拍摄24色卡图片然后用imatest分析来做分析参考。

Ygamma：由于gamma曲线的存在，摄像头暗部才能信息更好保留显示，更符合人眼视觉感受，可以通过调整gamma曲线来调整摄像头的亮度，对比度，动态范围等等的效果。

EE：锐化，当物体锐化值过低时会出现边缘模糊，图像给人感觉不清晰，锐化过高就会导致图像出现锯齿白边等现象CSM：色彩空间转化(color space matrix)，RGB图像通过一个转转举止向SRGB等色彩空间转化的过程。

步骤S4中的，选择与Bayer待测图像相同场景和相同视角的RGB图像数据作为第二测试集仅为验证测试作用，而在实时目标检测识别时不进行该转化；利用Bayer图像数据直接进行目标检测正是省略上述ISP处理等步骤，因此，数据占用资源较少，并且，本申请构建的目标检测模型结构本身和计算过程占用存储资源较少。

本步骤在本申请的一个实施场景中，步骤S4中的Bayer待测图像和RGB图像待测数据的获取过程为：使用OV5647摄像头在室内和室外采集的1000张不同环境和人物的图像，并分别保存为Bayer格式和RGB格式，同时可以对Bayer格式的图像标记第三标签，对RGB格式的图像标记第四标签，第三标签与第四标签一一对应；Bayer格式的图像作为第一测试集输入至Bayer目标检测模型并输出第一目标识别结果，RGB格式的图像作为第二测试集输入至RGB目标检测模型并输出第二目标识别结果；然后，判断第一目标识别结果和第二目标识别结果是否一致。

Bayer目标检测模型应用在微纳无人系统时，步骤S1中的Bayer图像数据和RGB图像数据获取阶段及相互转化、S2步骤中的提取第一训练集和第二训练集、S3步骤中Bayer目标检测模型和RGB目标检测模型的训练过程，S4和S5步骤中的第一测试集和第二测试集匹配及验证过程，均是在无人系统对应的产品出厂前、运行实时检测前完成的，或由其他系统或工具完成转化，仅用于前期的模型训练，而在产品服役或实时目标检测时，主要运行是无人系统的单目摄像设备直接获得待检测的Bayer格式数据、该Bayer格式数据在被确定为目标检测模型的Bayer目标检测模型中自我和监督训练的过程，以及对该Bayer格式数据进行目标检测识别的过程；即可直接使用摄像头传感器原始数据(Bayer图像数据)进行目标检测计算，无需图像的更多的传输、存储及编码、解码过程；在现有的检测方法中(如：对RGB图像数据的目标检测)，由于原始图像质量差，加入了额外的图像优化算法，再送入模型，增加了目标检测识别的运行时间，占用较多的内存，而应用本实施例的目标检测模型的微纳无人系统中无需引入ISP模块对图像做额外优化，减轻图像质量对检测效果的影响。

另一方面，隐私计算已然成为端侧设备运算的一个重要需求，而传统目标检测算法的输入图像均是PNG、JPEG等可视化的图像格式文件，无法实现隐私计算；由于RGB图像数据也是可直观看到画面中所有场景，若是被非用户方得到RGB图像数据，不利于用户隐私保护；而本申请中使用的Bayer格式数据不涉及具体的数据封装格式(图像格式等)，是纯二进制格式数据；直接上传至无人系统外网络的bayer格式数据，不管是用户还是其他获取方，即使得到数据，也无法直接看到画面，可在一定程度上保护用户及被拍摄人或物的隐私。

步骤S5中，判断第一目标识别结果和第二目标识别结果是否一致，若是，则将确定Bayer目标检测模型为目标检测模型；若否，则重新训练Bayer目标检测模型和RGB目标检测模型，直到第一目标识别结果和第二目标识别结果一致为止。其中，为了更准确的验证，采用Bayer待测图像后获得的第一目标识别结果，对第一目标识别结果的验证，选择与Bayer待测图像为相同场景和相同视角的RGB图像待测数据作为第二测试集；或者，第二测试集中的RGB图像待测数据由第一测试集中的Bayer待测图像转化而成。

在本申请的一个实施例中，将第二训练集输入至RGB目标检测模型进行训练，优选地，为了验证本申请采用Bayer待测图像和Bayer目标检测模型的目标检测效果是否达到要求，选择与Bayer目标检测模型相同的神经网络模型作为RGB目标检测模型，且对RGB目标检测模型的训练过程和训练方式也与Bayer目标检测模型相同，仅输入的数据由第一训练集替换为第二训练集，得到的为RGB目标检测模型；且在步骤S5中在进行判断验证时，将RGB图像待测数据作为第二测试集输入至RGB目标检测模型。

第二训练集对应的RGB目标检测模型结构及训练过程为:

构建的RGB目标检测模型为卷积神经网络，且与Bayer目标检测模型的卷积神经网络结构相同，卷积神经网络模型具有网络主干(backbone)和检测头；backbone由17层卷积网络、17层归一化层和2层池化层构成；检测头由5层卷积网络、5层归一化层、3层池化层和1层下采样层构成。卷积神经网络模型的算子为卷积算子、平均池化算子、批归一化算子、LeakyRELU算子和下采样算子。RGB图像数据为三通道数据，RGB目标检测模型的输入层通道维度为3，此模型的计算量为153MOPs，参数量为0.28M。

RGB目标检测模型还具有输入层和输出层，在输入层输入RGB图像数据(第二训练集)，利用第二训练集训练RGB目标检测模型包括：随机初始化深度神经网络中的神经元偏置和权重值；使用损失函数通过梯度下降法，通过第二训练集、前向传播和反向传播更新权重和偏置，训练RGB目标检测模型。

利用激活函数增加神经网络之间的非线性关系，最后能够生成RGB图像数据输入与目标检测输出结果间的非线性映射。

进一步地，反向传播包括：

计算卷积神经网络模型中深度神经网络的损失函数；每个网络的损失函数为公式1：

L ＝ L_box+L_obj+L_cis 公式1；

其中，L_box为目标检测框的损失函数，L_obj为目标的损失函数，L_cis为目标类别的损失函数；通过梯度下降法更新卷积神经网络模型中深度神经网络的参数。进一步地，通过梯度下降法更新卷积神经网络模型中深度神经网络的参数，包括：

在预设时间内固定深度神经网络参数，计算输出层损失函数的梯度；

计算卷积网络层数l＝L-1,L-2,…,2时每一层所对应的梯度；

更新每个深度神经网络的权重和偏置参数；最终获得RGB目标检测模型。

在本申请的一个实施例中，检验第一目标识别结果和第二目标识别结果的相似度；优选的将同一场景、同一视角的RGB目标检测框坐标与Bayer目标检测框坐标、RGB目标置信度与Bayer目标置信度、RGB目标类别与Bayer目标类别，分别一对比分析两者相似度；若两者的相似度或准确度达到预设阈值，则确定第一目标识别结果和第二目标识别结果是匹配的，进一步将确定Bayer目标检测模型为目标检测模型；若两者的相似度或准确度未达到预设阈值，则确定第一目标识别结果和第二目标识别结果不一致，则重新训练Bayer目标检测模型和RGB目标检测模型，调整模型的参数，直到第一目标识别结果和第二目标识别结果一致为止。

本申请进行实验，对于同源的Bayer待测图像和RGB图像待测数据，及利用本申请构建的具有相同卷积神经网络的Bayer目标检测模型和RGB目标检测模型检测获得第一目标识别结果和第二目标识别结果进行对比分析表明：直接对Bayer待测图像进行目标检测获得的第一目标识别结果和对RGB图像待测数据进行目标检测获得的第二目标识别结果进行对比分析，两者的目标检测框坐标、目标置信度和目标类别相似度均较高，相似率为95.68％，即表明本申请中利用微纳无人系统的单目摄像设备直接保存为Bayer待测图像和Bayer目标检测模型进行检测，与保存为RGB图像待测数据和RGB目标检测模型的目标检测效果一致；并且，对于相同尺寸(320*256像素)的Bayer格式的数据和RGB格式的数据进行目标识别：采用Bayer待测图像和Bayer目标检测模型相较于RGB图像待测数据和RGB目标检测模型减少数据占用内存67％，减少运算量0.98MOPs，节省时间为10ms，表明本申请中直接对待测Bayer待测图像进行目标检测节省了数据存储空间(包括多存储的RGB图像数据和转化程序)和数据转化的时间，且Bayer目标检测模型的自身结构相较于现有神经网络模型更小，进一步节省了存储空间和总体运算时间。

本申请的另一方面提出了一种目标检测模型训练装置，采用上述任一技术方案中的训练目标检测模型的方法对模型进行训练；同时提出一种运行该训练方法获得的目标检测模型的装置。

本申请的又一方面提出了一种电子设备，包括存储器、显示器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一技术方案中的训练目标检测模型的方法的步骤，及利用获得的目标检测模型在无人系统上对进行目标检测识别。

因此，本申请中目标检测模型训练方法装置及电子设备具有上述任一技术方案中训练方法的所有优点和有益效果，在此不再赘述。

应当理解的是，本申请的上述具体实施方式仅仅用于示例性说明或解释本申请的原理，而不构成对本申请的限制。因此，在不偏离本申请的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。此外，本申请所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种训练目标检测模型的方法，其特征在于，包括：

从所述Bayer图像数据提取第一训练集，从所述RGB图像数据提取第二训练集，所述第一训练集的第一标签与所述第二训练集的第二标签根据相同视角关系一一对应；

利用所述第一训练集训练Bayer目标检测模型，利用所述第二训练集训练RGB目标检测模型；

通过所述Bayer目标检测模型识别Bayer待测图像，得到第一目标识别结果，通过所述RGB目标检测模型识别RGB图像待测数据，得到第二目标识别结果，所述Bayer待测图像和所述RGB图像待测数据为相同设定角度捕捉的图像；

2.根据权利要求1所述的方法，其特征在于，所述通过所述Bayer目标检测模型识别Bayer待测图像，得到第一目标识别结果包括：

将所述Bayer目标检测模型的输出结果进行非极大值抑制处理，得到第一目标识别结果，所述第一目标识别结果包括：Bayer目标检测框坐标、Bayer目标置信度和Bayer目标类别；

3.根据权利要求1所述的方法，其特征在于，所述获取RGB图像数据，包括：从COCO数据集中提取所述RGB图像数据，所述COCO数据集中包含多个目标类别和多个场景的图像数据。

4.根据权利要求1所述的方法，其特征在于，通过单目摄像设备捕捉所述Bayer待测图像。

5.根据权利要求1所述的方法，其特征在于，所述Bayer目标检测模型的类型为深度神经网络，所述深度神经网络包括网络主干和检测头；

6.根据权利要求5所述的方法，其特征在于，所述卷积神经网络的算子为卷积算子、平均池化算子、批归一化算子、激活函数算子和下采样算子。

7.根据权利要求5所述的方法，其特征在于，在每一层所述卷积网络层中包括激活函数层。

8.根据权利要求5所述的方法，其特征在于，所述利用所述第一训练集训练Bayer目标检测模型包括：

随机初始化所述深度神经网络中的神经元偏置和权重值；

9.根据权利要求8所述的方法，其特征在于，所述损失函数为以下公式1：

L ＝ L_box+L_obj+L_cis 公式1；

10.根据权利要求5所述的方法，其特征在于，使用损失函数通过梯度下降法，通过所述第一训练集、前向传播和反向传播更新权重和偏置包括：

通过所述第一训练集，获取输出层损失函数的梯度；

获取每一层卷积网络层对应的梯度；

11.根据权利要求1所述的方法，其特征在于，所述RGB图像待测数据与所述Bayer待测图像为相同场景和相同视角的图像数据；或，所述RGB图像待测数据由Bayer待测图像转化而成。

12.根据权利要求11所述的方法，其特征在于，所述Bayer目标检测模型与所述RGB目标检测模型的网络结构相同。

13.根据权利要求11所述的方法，其特征在于，所述通过第一训练集训练Bayer目标检测模型与所述通过第二训练集训练RGB目标检测模型的训练步骤相同。

14.一种目标检测模型训练装置，其特征在于，采用如权利要求1-13任一项所述训练目标检测模型的方法对模型进行训练。

15.一种电子设备，其特征在于，包括存储器、显示器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-13中任意一项所述训练目标检测模型的方法的步骤。