CN114626503A

CN114626503A - 模型的训练方法、目标检测方法、装置、电子设备及介质

Info

Publication number: CN114626503A
Application number: CN202111642695.XA
Authority: CN
Inventors: 何振军; 蒋乐; 李国明; 刘洋; 刘敏; 宋勇; 欧阳晔
Original assignee: Asiainfo Technologies China Inc
Current assignee: Asiainfo Technologies China Inc
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-06-14

Abstract

本申请实施例提供了一种模型的训练方法、目标检测方法、装置、电子设备及介质，涉及计算机领域。该模型的训练方法包括：从预设的神经网络中筛选出符合预设的性能效率条件的神经卷积网络，对筛选出的神经卷积网络进行参数重构，得到包含跳跃连接结构的残差网络，对残差网络进行训练，将训练后的残差网络重构成等效的视觉几何组VGG网络，以便基于视觉几何组VGG网络构建所述主干网络。该目标检测方法包括：获取待处理图像，利用由如上所述的模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，得到目标信息。本申请实施例用于解决现有边缘设备在运行目标检测算法的过程中存在运行速度慢和资源消耗大的问题。

Description

模型的训练方法、目标检测方法、装置、电子设备及介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种模型的训练方法、目标检测方法、装置、电子设备、介质及产品。

背景技术

随着深度学习在各个领域的深入应用，尤其是边缘设备对于人工智能算法需求的日益强烈，算法本身的性能和算法结合硬件平台的效率变得越来越重要。ResNet(ResidualNetwork，残差网络)的网络结构具备有效抑制梯度消失、精度高等特点，因此以ResNet为基础的目标检测算法具备精度高的特点。目前，搭载有ResNet类的网络结构的边缘设备，如英伟达nano、海思nnie系列产品、瑞芯微rk3399等，在运行目标检测算法的过程中均存在运行速度慢和资源消耗大的问题。

发明内容

本申请实施例提供了一种模型的训练方法、目标检测方法、装置、电子设备、介质及产品，用于解决现有边缘设备在运行目标检测算法的过程中存在运行速度慢和资源消耗大的问题。

根据本申请实施例的一个方面，提供了一种模型的训练方法，模型包括主干网络；所述主干网络的训练步骤，包括：

从预设的神经网络中筛选出符合预设的性能效率条件的神经卷积网络；

对筛选出的神经卷积网络进行参数重构，得到包含跳跃连接结构的残差网络；

对所述残差网络进行训练；

将训练后的残差网络重构成等效的视觉几何组VGG网络，以便基于所述视觉几何组VGG网络构建所述主干网络。

在一个可能的实现方式中，所述将训练后的残差网络重构成等效的视觉几何组VGG网络，包括：

对训练后的残差网络中的卷积层和BN层进行合并；

基于合并后的残差网络中的第一卷积结构，对合并后的残差网络中的第二卷积结构和直连结构进行填充；

将所述第一卷积结构、填充后的第二卷积结构及填充后的直连结构进行组合，获得等效的视觉几何组VGG网络。

在一个可能的实现方式中，模块还包括与所述主干网络连接的金字塔注意力网络；

其中，所述主干网络包括级联排序的多个第一特征层；所述金字塔注意力网络包括上采样单元和下采样单元；所述上采样单元包括级联排序布设的多个第二特征层；所述下采样单元包括级联排序布设的多个第三特征层；所述第一特征层与所述第二特征层之间至少一层具有横向连接结构；所述第二特征层与所述第三特征层之间至少一层具有横向连接结构；

所述金字塔注意力网络的训练步骤，包括：

将所述第一特征层所提取到的特征信息传输到相应的第二特征层，以进行特征融合，使得更新所述第二特征层对应的特征信息；

将所述第二特征层对应的特征信息传输到相应的第三特征层，以进行特征融合，使得更新所述第三特征层对应的特征信息，并将其作为所述金字塔注意力网络的输出结果。

在一个可能的实现方式中，所述将所述第一特征层所提取到的特征信息传输到相应的第二特征层，以进行特征融合，使得更新所述第二特征层对应的特征信息，包括：

每一第二特征层执行下述上采样步骤：针对与其连接的第一特征层输出的特征信息，和/或，上一级的第二特征层输出的特征信息进行上采样处理，得到所述第二特征层输出的特征信息；

所述将所述第二特征层对应的特征信息传输到相应的第三特征层，以进行特征融合，使得更新所述第三特征层对应的特征信息，包括：

每一第三特征层执行下述下采样步骤：针对与其连接的第二特征层输出的特征信息，和/或，上一级的第三特征层输出的特征信息进行下采样处理，得到所述第三特征层输出的特征信息。

在一个可能的实现方式中，所述模块还包括基于SSH框架布设的检测网络；所述检测网络与所述金字塔注意力网络连接，将至少一个所述金字塔注意力网络的输出结果作为所述检测网络的输入；

所述检测网络包括激活函数层及至少一个处理通道，所述处理通道均与所述激活函数层连接；每个所述处理通道包括至少一个卷积单元，所述卷积单元包括并联连接的第三卷积结构、第四卷积结构及直连结构。

在一个可能的实现方式中，所述方法还包括：

将排序在末端的第一特征层的输出作为所述检测网络的输入；和/或

将排序在首端的第一特征层的输入作为所述检测网络的输入。

根据本申请实施例的另一个方面，提供了一种目标检测方法，包括：

获取待处理图像；

利用由如上述实施例所述的模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，得到目标信息。

在一个可能的实现方式中，所述目标检测模型包括依次连接的主干网络、金字塔注意力网络以及检测网络，所述利用由所述模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，包括：

基于所述主干网络对所述待处理图像进行特征提取，获得特征图；

基于所述金字塔注意力网络对所述特征图进行融合，得到融合特征图；

基于所述检测网络对所述融合特征图进行检测，得到所述待处理图像中不同尺寸的目标对应的目标信息，所述目标信息包括目标图像、目标位置信息及关键点信息。

根据本申请实施例的另一个方面，提供了一种模型的训练装置，包括：

网络筛选模块，用于从预设的神经网络中筛选出符合预设的性能效率条件的神经卷积网络；

残差网络构建模块，用于对筛选出的神经卷积网络进行参数重构，得到包含跳跃连接结构的残差网络；

训练模块，用于对所述残差网络进行训练；

主干网络构建模块，用于将训练后的残差网络重构成等效的视觉几何组VGG网络，以便基于所述视觉几何组VGG网络构建所述主干网络。

根据本申请实施例的另一个方面，提供了一种目标检测装置，包括：

图像获取模块，用于获取待处理图像；

目标检测模块，用于利用由如上述实施例所述的模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，得到目标信息。

根据本申请实施例的另一个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现上述实施例所述方法的步骤。

根据本申请实施例的另一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例所述方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述实施例所述方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请提供一种模型的训练方法，具体地，模型包括主干网络，通过从预设的神经网络中筛选出符合预设的性能效率条件的神经卷积网络，对筛选出的神经卷积网络进行参数重构，得到包含跳跃连接结构的残差网络，对残差网络进行训练，将训练后的残差网络重构成等效的视觉几何组VGG网络，以便基于视觉几何组VGG网络构建所述主干网络，这样该模型能够具备残差网络的高精度的特点，同时具备视觉几何组VGG网络的运行推理速度高和资源消耗小的特点。

本申请提供一种目标检测方法，具体地，通过获取待处理图像，利用由上述模型的训练方法生成的目标检测模型对待处理图像进行目标检测，得到目标信息，这样，能够解决现有边缘设备在运行目标检测算法的过程中存在运行速度慢和资源消耗大的问题，从而提高了目标检测的准确度和效率，以及降低了边缘设备运行过程中的计算量，节省了边缘设备的资源。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的计算机系统架构示意图；

图2为本申请实施例提供的一种模型的训练方法的流程示意图；

图3为本申请一个示例性实施例提供的残差网络结构的示意图；

图4a为本申请实施例提供的合并卷积层和BN层的操作示意图；

图4b为本申请实施例提供的合并卷积层和BN层后的残差网络结构的示意图；

图5为本申请实施例提供的填充后的1*1卷积结构和直连结构的结构示意图；

图6为本申请实施例提供的模型的结构示意图；

图7为本申请实施例提供的金字塔注意力网络的一个结构示意图；

图8为本申请实施例提供的金字塔注意力网络的另一个结构示意图；

图9为本申请实施例提供的SSH框架的结构示意图；

图10为本申请实施例提供的检测网络的结构示意图；

图11为本申请实施例提供的目标检测方法的流程示意图；

图12为本申请实施例提供的一种模型的训练装置的结构示意图；

图13为本申请实施例提供的一种目标检测装置的结构示意图；

图14为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1为本申请实施例提供的计算机系统架构示意图。该计算机系统100包括终端101、边缘设备102和云服务器103，其中，终端通过网络协议接入边缘设备，实现与边缘设备进行数据交互。边缘设备与云服务器连接，实现数据交互。

终端101可以为安装有应用程序的任意终端设备，诸如智能手机、平板电脑、笔记本电脑、台式计算机、智能可穿戴式设备等，本申请实施例并不对此进行限定。其中，该应用程序为用户提供服务的计算机程序和指令的集合，如应用app及通过第三方应用加载的小程序。

云服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，用以提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务。

边缘设备102可以为路由器、交换机或网管设备等，也可以为边缘服务器。边缘设备102部署在中心云边缘侧，提供了边缘计算和资源存储，用以就近为终端101提供各种需要的计算服务，加快了对终端101发送的指令的处理，实现了快速响应，降低延迟。同时，利用边缘资源为终端101提供大量资源或服务接口，减少上传至云服务器103的计算量，从而缓解了网络带宽压力以及云服务器103的计算压力。

在本申请中，边缘设备102和云服务器103为终端101中运行的应用程序提供后台服务器。本申请实施例涉及用于目标检测的机器学习模型(即目标检测模型)的训练过程，该过程可以通过云服务器103训练并构建目标检测模型，将该目标检测模型的模型参数下发到边缘设备102中，使得边缘设备102所配置的边缘计算模块基于该模型参数加载该目标检测模型，也可以通过边缘设备102构建该目标检测模型，本申请不对此做出限定。其中，边缘设备102获取待处理图像，利用所构建的目标检测模型对待处理图像进行目标检测，得到目标信息。由于该目标检测模型能够具备残差网络的高精度的特点，同时具备视觉几何组VGG网络的运行推理速度高和资源消耗小的特点，使得边缘设备102在目标检测的过程中保证了较高的准确度和较快的运行速度，同时节省了边缘设备102的资源，提高了边缘设备102的响应效率。

图2为本申请实施例提供的一种模型的训练方法的流程示意图。该模型的训练方法用于图1所示的云服务器103或边缘设备102，本申请中模型包括主干网络，所述主干网络的训练步骤包括S201至S204。

S201、从预设的神经网络中筛选出符合预设的性能效率条件的神经卷积网络。

S202、对筛选出的神经卷积网络进行参数重构，得到包含跳跃连接结构的残差网络。

S203、对所述残差网络进行训练。

S204、将训练后的残差网络重构成等效的视觉几何组VGG网络，以便基于所述视觉几何组VGG网络构建所述主干网络。

在本申请中，采用参数重构技术对主干网络(BackBone)进行搭建。示例性的，将所选取的性能效率较高的神经卷积网络，重构为包含跳跃连接结构的残差网络，并利用包含跳跃连接结构的残差网络进行训练，利用参数重构技术将训练后的残差网络转化为完全等效的包含plain型结构的视觉几何组VGG网络，从而按照视觉几何组VGG网络构建主干网络。这样，本申请实施例所构建的主干网络同时具备残差网络跳跃连接结构的高精度的特点，以及视觉几何组VGG网络plain型结构的运行推理速度高和资源消耗小的特点，从而利于在边缘设备运行基于由该主干网络构建而成的模型的目标检测算法，提高了目标检测的准确度和速度，实现了边缘设备的高效响应。

需要说明的是，目前边缘设备中运行的目标检测算法，其所使用的目标检测模型常以残差网络结构作为基础，这导致该目标检测算法存在内存占用高和资源消耗大的问题，其中，通常大量采用1*1卷积、分组卷积来降低模型的参数量，但降低参数量的同时并没有起到提高模型运行速度的效果。因此，本申请针对高并行度和对内存输入输出敏感的设备，如边缘设备，提出了轻量级的目标检测加速算法，其在具备残差网络的高精度的同时，具备VGG网络结构的推理速度和资源消耗小的特点。

具体的，示例性的，针对执行目标检测步骤的边缘设备，选取计算单元以构建网络，其中对计算单元及其对应的神经卷积网络进行性能测试，以便判断所选取的计算单元及神经卷积网络是否达到预设的性能效率条件，若是，则确定所选取的计算单元及神经卷积网络。否则，重新执行选取步骤，直至所选取的计算单元及神经卷积网络的效率最高。可选地，利用参数重构技术对所选取的神经卷积网络搭建等效的包含跳跃连接结构的残差网络，并对具有该包含跳跃连接结构的残差网络进行训练。可选地，利用参数重构技术对训练得到的残差网络进行重构，以将残差网络结构(即跳跃连接结构)转化为等效的视觉几何组VGG网络结构，获得具有等效的视觉几何组VGG网络的主干网络，使得由该主干网络构建而成的模型在边缘设备上具备高效运行的特点。将该具有等效的视觉几何组VGG网络的主干网络进行模型转化、量化等操作，使其能够在边缘设备上推理运行。

本申请实施例提供的模型的训练方法，模型包括主干网络，通过从预设的神经网络中筛选出符合预设的性能效率条件的神经卷积网络，对筛选出的神经卷积网络进行参数重构，得到包含跳跃连接结构的残差网络，对所述残差网络进行训练，将训练后的残差网络重构成等效的视觉几何组VGG网络，以便基于所述视觉几何组VGG网络构建所述主干网络，这样该模型能够具备残差网络的高精度的特点，同时具备视觉几何组VGG网络的运行推理速度高和资源消耗小的特点。

在一些实施例中，所述将训练后的残差网络重构成等效的视觉几何组VGG网络，包括：

对训练后的残差网络中的卷积层和BN层进行合并；

在一示例性实施例中，图3为本申请一个示例性实施例提供的残差网络结构的示意图，该残差网络包括结构1和结构2，结构1包括3*3卷积分支和1*1卷积分支，结构2包括3*3卷积分支、1*1卷积分支和直连分支。其中，3*3卷积分支包括3*3卷积层和BN层，1*1卷积分支包括1*1卷积层和BN层。

在本实施例中，合并卷积层与BN层的原理如下：假设将x依次输入到卷积(权重为w，偏置为b)和BN层(均值为μ，方差为δ，学习参数β、γ)，输出结果y。

其中，卷积计算公式如下：

conv(x)＝w*x+b#(1)

BN层计算公式如下：

BN(x)＝γ*x+β#(2)

由公式(1)和(2)可以推出，输入x依次经过卷积和BN后输出为：

对公式(3)进行变型，得到以下公式：

将上述公式(4)中参数

视为新的权值w′，参数

是为新的偏置b′，则公式(4)转化为如下公式：

y＝w′*x+b′#(5)

因此，从公式(5)可以看出，将残差网络结构中的卷积层和BN层的操作流程融合成为一个卷积流程。更具体的，参见图4a为本申请实施例提供的合并卷积层和BN层的操作示意图，将3*3卷积层和BN层合并成一个3*3卷积结构。由此，参见图4b为本申请实施例提供的合并卷积层和BN层后的残差网络结构的示意图，以图3中的结构2为例进行说明，将3*3卷积分支中的3*3卷积层和BN层合并为一个3*3卷积结构，以及将1*1卷积分支中的1*1卷积层和BN层合并为一个1*1卷积结构，由此将结构2转化为结构3。

可选地，第一卷积结构可以是3*3卷积结构，第二卷积结构可以是1*1卷积结构，合并分支的原理如下：以上述结构3为例进行说明，假设结构3的输入为x，3*3卷积结构权重和偏置分别为ω₃和b₃，1*1卷积结构权重和偏置分别为ω₁和b₁，即结构3最终输出为：

y＝(x*ω₃+b₃)+(x*ω₁+b₁)+x#(6)

对公式(6)进行调整，得到以下公式：

y＝x*(ω₁+ω₃+1)+(b₁+b₃)#(7)

上述可见，从公式(7)可以看出，若将(ω₁+ω₃+1)和(b₁+b₃)合并为一个新的权重ω和偏置b，即可将结构3简化为一个卷积操作。在本实施例中，参见图5为本申请实施例提供的填充后的1*1卷积结构和直连结构的结构示意图，基于图5中(a)的3*3卷积结构，将图5中(b)的1*1卷积结构每一个值用0填充成一个3*3卷积结构的矩阵，对图5中(c)的直连结构添加一个中心值为1，周围用0填充，使其填充为一个3*3卷积结构的矩阵。这样，经过0填充后的3个卷积结构，大小一致，即可将3个卷积结构对应的权值和偏置进行相加，使其合并为一个卷积操作。因此，将具体不同卷积核的卷积结构均转换为具有3*3大小的卷积核的卷积结构，实现将结构2中的3*3卷积分支、1*1卷积分支和直连分支转化为一个新的3*3卷积结构，使得将包含跳跃连接结构的残差网络转化为等效的包含plain型结构的视觉几何组VGG网络。

同理的，针对图3中的结构1，将3*3卷积分支中的3*3卷积层和BN层合并为一个3*3卷积结构，以及将1*1卷积分支中的1*1卷积层和BN层合并为一个1*1卷积结构，实现合并卷积层和BN层。其中，结构1中的3*3卷积结构和1*1卷积结构转化为单个卷积结构(如新的3*3卷积结构)，使得将包含跳跃连接结构的残差网络转化为等效的包含plain型结构的视觉几何组VGG网络。

因此，本实施例通过将BN层合并到卷积层，减少了BN层所占用的运算内存空间，以提高了目标检测的运行速度，以及节省了边缘设备的资源空间。以及，通过将残差网络转化为具有单分支结构的网络，实现将残差网络结构重构为等效的VGG网络结构，能够在边缘设备推理阶段更好地提升设备的内存利用率，从而提升目标检测模型的推理速度。

在一些实施例中，参见图6，为本申请实施例提供的模型的结构示意图，以及参见图7，为本申请实施例提供的金字塔注意力网络的一个结构示意图，模块还包括与所述主干网络连接的金字塔注意力网络。

其中，所述主干网络包括级联排序的多个第一特征层；所述金字塔注意力网络包括上采样单元和下采样单元；所述上采样单元包括级联排序布设的多个第二特征层；所述下采样单元包括级联排序布设的多个第三特征层；所述第一特征层与所述第二特征层之间至少一层具有横向连接结构；所述第二特征层与所述第三特征层之间至少一层具有横向连接结构。

所述金字塔注意力网络的训练步骤，包括：

在本实施例中，金字塔注意力网络中第二特征层与第三特征层之间的横向连接结构不设置卷积模块，使得在第二特征层与第三特征层进行特征传播时无需执行卷积操作，这样保留金字塔注意力网络能够融合多个特征层的特性，同时有效降低了计算量，从而提高了模型运行的精度以及推理速度。此外，本实施例通过设置该金字塔注意力网络，能够利用主干网络的不同特征层实现目标多尺度检测，以及利于检测网络实现对不同尺寸目标的检测，提高了检测范围以及检测准确度。

基于上述实施例，在一些实施例中，所述将所述第一特征层所提取到的特征信息传输到相应的第二特征层，以进行特征融合，使得更新所述第二特征层对应的特征信息，包括：

示例性的，如图6所示，模型包括主干网络(BackBone)、金字塔注意力网络(PAN)及检测网络。其中，主干网络用以通过下采样操作提取通用特征，如图像中的颜色、形状和纹理等，为后续的检测提供相应的特征。具体的，主干网络包括级联排序的多个第一特征层，每一第一特征层对所输入的待处理图像进行卷积处理，生成若干不同尺度的卷积特征图，该主干网络可以为RepVGG-A1网络，在此不做限定。该主干网络与金字塔注意力网络连接，以传输所提取的特征信息，金字塔注意力网络用以将高层特征图与低层特征图的语义信息进行融合，进一步提高图像特征的准确度。如图6所示，金字塔注意力网络包括上采样单元及下采样单元，上采样单元包括级联排序布设的多个第二特征层，下采样单元包括级联排序布设的多个第三特征层，第二特征层与第三特征层之间至少一层具有横向连接结构。

可选的，位于第一特征层与第二特征层之间的横向连接结构设置有卷积模块，该卷积模块可以包括至少一个卷积层。示例性的，在主干网络中，排序在末端的第一特征层使用卷积层模块对其特征信息P1进行卷积处理，使得金字塔注意力网络中位于首端的第二特征层针对上述处理后的特征信息P1进行上采样处理，得到该位于首端的第二特征层的特征信息。按照主干网络的结构，使用该卷积模块对位于次末端的第一特征层的特征信息P2进行处理，使得位于次首端的第二特征层针对其上一级第二特征层的特征信息和上述处理后的特征信息P2进行上采样处理，实现该位于首端的第二特征层的特征信息与特征信息P2的特征融合，以得到该位于次首端的第二特征层的特征信息。以此类推，重复执行上述步骤，实现获取每一第二特征层的特征信息。

可选地，通过位于第二特征层与第三特征层之间的横向连接结构，实现上采样单元与下采样单元之间的特征传输，以便针对与第三特征层连接的第二特征层所传输的特征信息，和/或，上一级的第三特征层输出的特征信息进行下采样处理，以得到该第三特征层输出的特征信息。其中，金字塔注意力网络与检测网络连接，用以传输融合特征，以便检测特征图像中不同尺寸的目标，从而提高了检测的精度及运行速度。

示例性的，参见图8为本申请实施例提供的金字塔注意力网络的另一个结构示意图，位于第二特征层与第三特征层之间的横向连接结构中不具有卷积模块，使得第二特征层与第三特征层之间的特征传输无需做卷积处理。具体的，如图8所示，在上采样单元中，将排序在次末端的第二特征层的特征信息及与其连接的第一特征层所传输的特征信息P4的特征融合结果，作为下采样网络中排序在首端的第三特征层的输入，这样位于首端的第三特征层针对上述处理后的特征信息P1进行下采样处理，得到该位于首端的第二特征层的特征信息，同时作为该第二特征层的输出结果out4。按照下采样网络的结构，排序在次首端的第三特征层针对与其连接的第二特征层所传输的特征信息和排序在首端的第三特征层的特征信息进行下采样处理，得到该排序在次首端的第三特征层的特征信息，实现该排序在次首端的第三特征层的特征信息与相应第二特征层所传输的特征信息的特征融合，同时该排序在次首端的第三特征层的特征信息作为该第二特征层的输出结果out3。以此类推，重复上述步骤，直至获取到排序在次末端的第三特征层的特征信息将该排序在次末端的第三特征层的特征信息及与其连接的第二特征层所传输的特征信息进行下采样处理，所输出的特征信息作为该金字塔注意力网络的一个输出结果out1。

在一些实施例中，所述模块还包括基于SSH框架布设的检测网络；所述检测网络与所述金字塔注意力网络连接，将至少一个所述金字塔注意力网络的输出结果作为所述检测网络的输入；

在本实施例中，为实现扩大候选区域周围区域来整合上下文，在SSH框架的上下文结构中设置多个处理通道，具体为3*3卷积通道、5*5卷积通道和7*7卷积通道，该3*3卷积通道包括3*3卷积单元及激活函数，该5*5卷积通道包括5*5卷积单元及激活函数，该7*7卷积通道包括7*7卷积单元及激活函数。其中，该激活函数可以是ReLU非线性激活函数。但由于5*5卷积单元和7*7卷积单元在边缘设备等硬件内的运行效率较低，则参见图9为本申请实施例提供的SSH框架的结构示意图，SSH框架包括三个处理通道，在5*5卷积通道中采用两个3*3卷积单元替换5*5卷积单元，在7*7卷积通道中采用三个3*3卷积单元替换7*7卷积单元，以此构建SSH框架。因此，本实施例利用由SSH框架构建的检测网络，能够提高目标感受野的丰富度，利用不同尺度的卷积来提高目标检测模型对多尺度目标的检测能力。

可选地，参见图10，为本申请实施例提供的检测网络的结构示意图，检测网络包括激活函数层及三个处理通道，该处理通道分别是3*3卷积通道、5*5卷积通道及7*7卷积通道，该处理通道均与该激活函数层连接，使得以至少一个金字塔注意力网络的输出结果作为检测网络的输入，在各处理通道中对该输入进行卷积处理，方才利用激活函数层一并对该处理通道输出的处理结果进行非线性处理。这样，本实施例通过统一对卷积处理后的数据进行非线性处理，无需在各处理通道中执行多次重复的非线性处理，大大简化了计算量。

更具体的，上述可知，3*3卷积单元为单个3*3卷积结构，因此将跳跃连接结构(如图4b所示的结构3)替换图9中3*3卷积单元中的单个3*3卷积结构，使得当前的网络在目标检测过程中具有高精度的特点。这样，卷积单元包括并联连接的第三卷积结构、第四卷积结构及直连结构，第三卷积结构可以是3*3卷积结构，第四卷积结构可以是1*1卷积结构。如图9所示，每个卷积单元由3*3卷积结构、1*1卷积结构及直连结构并联构成，3*3卷积通道包括一个卷积单元，5*5卷积通道包括两个卷积单元，7*7卷积通道包括三个卷积单元。

可选地，在上述实施例的基础上，将多个卷积分支结构转化为单分支结构，如将结构2的3*3卷积分支、1*1卷积分支和直连分支合并为一个3*3卷积结构。具体的，可参见上述实施例中将训练后的残差网络重构成等效的视觉几何组VGG网络的步骤，通过合并图10所示的检测网络的多个处理通道，得到单个分支的卷积结构，实现将该检测网络中各处理通道的操作的集合转化为单个卷积操作。这样，本实施例能有效提高目标检测的推理速度，同时保留SSH检测网络利用不同大小的卷积核来提高目标检测精度的特点。

在一些实施例中，所述方法还包括：

在本实施中，本实施例通过丰富了检测网络的输入特征信息，使得提高了检测网络的准确度。

参见图11，为本申请实施例提供的目标检测方法的流程示意图，该目标检测方法用于图1所示的边缘设备，该方法包括步骤S301至S302。

S301、获取待处理图像。

S302、利用由如上实施例所述的模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，得到目标信息。

在本申请中，目标检测包括但不限于人脸检测、行人检测及车辆检测。具体的，经终端(如摄像装置)获取原始视频图像，对该原始视频图像进行预处理，如图像信号处理等，以形成所需的图像，即待处理图像。对待处理图像进行归一化等图像预处理操作，进而将预处理后的图像输入到上述目标检测模型进行计算，对该模型的输出结果进行后处理，以获得目标信息，该目标信息包括目标在该待处理图像中的目标图像、位置信息和关键点信息。此外，在边缘设备上显示该目标信息，并将该目标信息通过网络传输到终端，使得该目标信息显示于终端。

在一些实施例中，所述目标检测模型包括依次连接的主干网络、金字塔注意力网络以及检测网络，所述利用由所述模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，包括：

本实施例通过设置主干网络、金字塔注意力网络以及检测网络，增强了信息融合，提高了目标检测的准确度，同时实现对小目标的精准检测，从而提高了该目标检测模型的检测精度及适用范围。

本申请实施例提供的目标检测方法，通过获取待处理图像，利用由上述模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，得到目标信息，这样，能够解决现有边缘设备在运行目标检测算法的过程中存在运行速度慢和资源消耗大的问题，从而提高了目标检测的准确度和效率，以及降低了边缘设备运行过程中的计算量，节省了边缘设备的资源。

参见图12为本申请实施例提供的一种模型的训练装置的结构示意图，所述模型的训练装置400包括：

网络筛选模块401，用于从预设的神经网络中筛选出符合预设的性能效率条件的神经卷积网络；

残差网络构建模块402，用于对筛选出的神经卷积网络进行参数重构，得到包含跳跃连接结构的残差网络；

训练模块403，用于对所述残差网络进行训练；

主干网络构建模块404，用于将训练后的残差网络重构成等效的视觉几何组VGG网络，以便基于所述视觉几何组VGG网络构建所述主干网络。

在一些实施例中，主干网络构建模块404包括：

卷积层与BN层合并单元，用于对训练后的残差网络中的卷积层和BN层进行合并；

填充单元，用于基于合并后的残差网络中的第一卷积结构，对合并后的残差网络中的第二卷积结构和直连结构进行填充；

组合单元，用于将所述第一卷积结构、填充后的第二卷积结构及填充后的直连结构进行组合，获得等效的视觉几何组VGG网络。

在一些实施例中，模块还包括与所述主干网络连接的金字塔注意力网络；

所述模型的训练装置400还包括：

第一特征融合单元，用于将所述第一特征层所提取到的特征信息传输到相应的第二特征层，以进行特征融合，使得更新所述第二特征层对应的特征信息；

第二特征融合单元，用于将所述第二特征层对应的特征信息传输到相应的第三特征层，以进行特征融合，使得更新所述第三特征层对应的特征信息，并将其作为所述金字塔注意力网络的输出结果。

在一些实施例中，第一特征融合单元包括：

上采样单元，用于每一第二特征层执行下述上采样步骤：针对与其连接的第一特征层输出的特征信息，和/或，上一级的第二特征层输出的特征信息进行上采样处理，得到所述第二特征层输出的特征信息；

第一特征融合单元包括：

下采样单元，用于每一第三特征层执行下述下采样步骤：针对与其连接的第二特征层输出的特征信息，和/或，上一级的第三特征层输出的特征信息进行下采样处理，得到所述第三特征层输出的特征信息。

在一些实施例中，所述模型的训练装置400还包括：

第一检测网络输入单元，用于将排序在末端的第一特征层的输出作为所述检测网络的输入；和/或

第二检测网络输入单元，用于将排序在首端的第一特征层的输入作为所述检测网络的输入。

参见图13，为本申请实施例提供的一种目标检测装置的结构示意图，所述目标检测装置500包括：

图像获取模块501，用于获取待处理图像；

目标检测模块502，用于利用由如权利要求1至6任一项所述的模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，得到目标信息。

在一些实施例中，所述目标检测模型包括依次连接的主干网络、金字塔注意力网络以及检测网络，目标检测模块502包括：

特征提取单元，用于基于所述主干网络对所述待处理图像进行特征提取，获得特征图；

特征融合单元，用于基于所述金字塔注意力网络对所述特征图进行融合，得到融合特征图；

目标检测单元，用于基于所述检测网络对所述融合特征图进行检测，得到所述待处理图像中不同尺寸的目标对应的目标信息，所述目标信息包括目标图像、目标位置信息及关键点信息。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现目标检测方法的步骤，与相关技术相比可实现：所训练的模型能够具备残差网络的高精度的特点，同时具备视觉几何组VGG网络的运行推理速度高和资源消耗小的特点。以及，利用上述模型进行目标检测，能够解决现有边缘设备在运行目标检测算法的过程中存在运行速度慢和资源消耗大的问题，从而提高了目标检测的准确度和效率，以及降低了边缘设备运行过程中的计算量，节省了边缘设备的资源。

在一个可选实施例中提供了一种电子设备，如图14所示，图14所示的电子设备600包括：处理器601和存储器603。其中，处理器601和存储器603相连，如通过总线602相连。可选地，电子设备600还可以包括收发器604，收发器604可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器604不限于一个，该电子设备600的结构并不构成对本申请实施例的限定。

处理器601可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器601也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线602可包括一通路，在上述组件之间传送信息。总线602可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线602可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器603可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器603用于存储执行本申请实施例的计算机程序，并由处理器601来控制执行。处理器601用于执行存储器603中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种模型的训练方法，其特征在于，模型包括主干网络；所述主干网络的训练步骤，包括：

对所述残差网络进行训练；

2.根据权利要求1所述的模型的训练方法，其特征在于，所述将训练后的残差网络重构成等效的视觉几何组VGG网络，包括：

对训练后的残差网络中的卷积层和BN层进行合并；

3.根据权利要求1所述的模型的训练方法，其特征在于，模块还包括与所述主干网络连接的金字塔注意力网络；

所述金字塔注意力网络的训练步骤，包括：

4.根据权利要求3所述的模型的训练方法，其特征在于，所述将所述第一特征层所提取到的特征信息传输到相应的第二特征层，以进行特征融合，使得更新所述第二特征层对应的特征信息，包括：

5.根据权利要求3所述的模型的训练方法，其特征在于，所述模块还包括基于SSH框架布设的检测网络；所述检测网络与所述金字塔注意力网络连接，将至少一个所述金字塔注意力网络的输出结果作为所述检测网络的输入；

6.根据权利要求5所述的模型的训练方法，其特征在于，所述方法还包括：

7.一种目标检测方法，其特征在于，包括：

获取待处理图像；

利用由如权利要求1至6任一项所述的模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，得到目标信息。

8.根据权利要求7所述的目标检测方法，其特征在于，所述目标检测模型包括依次连接的主干网络、金字塔注意力网络以及检测网络，所述利用由所述模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，包括：

9.一种模型的训练装置，其特征在于，包括：

训练模块，用于对所述残差网络进行训练；

10.一种目标检测装置，其特征在于，包括：

图像获取模块，用于获取待处理图像；

目标检测模块，用于利用由如权利要求1至6任一项所述的模型的训练方法生成的目标检测模型对所述待处理图像进行目标检测，得到目标信息。

11.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-8任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。