CN116051850A

CN116051850A - 神经网络目标检测方法、装置、介质和嵌入式电子设备

Info

Publication number: CN116051850A
Application number: CN202211640024.4A
Authority: CN
Inventors: 王赟; 张官兴
Original assignee: Shanghai Ewa Intelligent Technology Co ltd; Shaoxing Ewa Technology Co ltd
Current assignee: Shanghai Ewa Intelligent Technology Co ltd; Shaoxing Ewa Technology Co ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-05-02

Abstract

本申请提供一种神经网络目标检测方法、装置、介质和嵌入式电子设备，应用于人工智能技术领域，其中目标检测方法包括：将单通道图像下采样拓展为多通道图像；基于神经网络的卷积网络对多通道图像形成初步特征层；基于特征金字塔网络对初步特征层进行特征语义融合后获得输出特征层。通过将单通道数据形成多通道数据，既可以降低处理数据量，又能够减少卷积处理层数量，有利于嵌入式设备部署应用神经网络模型。

Description

神经网络目标检测方法、装置、介质和嵌入式电子设备

技术领域

本申请涉及人工智能技术领域，具体涉及一种神经网络目标检测方法、装置、介质和嵌入式电子设备。

背景技术

随着计算机、微电子、人工智能、物联网等技术的发展，基于低功耗嵌入式平台的AIoT(人工智能物联网，Artificial Intelligence&Internet of Things)终端、移动终端等基于嵌入式平台架构的设备，对智能化水平要求越来越高。虽然目标检测与识别已成为人工智能技术应用的主要方向之一，但现有基于神经网络算法的目标检测识别算法通常部署应用在具有强大计算资源和算力的应用平台，却难以在带宽有限、算力紧张的低功耗嵌入式平台进行部署。因此，目标检测识别技术向微小化、超低功耗化的发展进程受到阻碍。

发明内容

有鉴于此，本说明书实施例提供一种数据处理及目标检测方法、装置、介质和嵌入式电子设备，通过将单通道数据形成多通道数据，既可以降低处理数据量，又能够减少卷积处理层数量，有利于嵌入式设备部署应用神经网络模型。

本说明书实施例提供以下技术方案：

本说明书实施例提供一种神经网络目标检测方法，包括：

将单通道图像下采样拓展为多通道图像，其中单通道图像拓展的通道数对应于神经网络输入层所需的输入通道数，下采样的单元窗中采样像素的数量与通道数相同，以及在每次下采样中，将单元窗的采样像素依次采样至对应的多通道图像中；

基于所述神经网络的卷积网络对所述多通道图像形成初步特征层；

基于特征金字塔网络对初步特征层进行特征语义融合后获得输出特征层，所述输出特征层用于目标检测。

优选地，将单通道图像下采样拓展为多通道图像包括：自单通道图像的左上角开始，采用第一单元窗按预设第一滑窗步长进行滑窗遍历，并在每次滑窗遍历中，当前第一单元窗中的采样像素分别采样至对应的多通道图像；

其中，单通道图像拓展后的通道数与单元窗尺寸满足以下关系：C_in＝w×h，w×h为单元窗的尺寸，w为单元窗的宽，h为单元窗的高，C_in为单通道图像拓展后的通道数。

优选地，将单通道图像下采样拓展为多通道图像包括：自单通道图像的左上角开始，基于预设第二滑窗步长和预设第二单元窗，将单通道图像划分为若干第一单元格，并按像素坐标将每个所述第一单元格的像素采样至对应的多通道图像中。

优选地，特征金字塔网络包括第一特征金字塔、第一横向连接层和第二特征金字塔；

其中，神经网络对多通道图像进行卷积得到的初步特征层作为第一特征金字塔，其中第一特征金字塔至少包含两层卷积特征层，且在自下向上的方向上，相邻两特征层中的后一特征层的空间尺度相比于前一特征层的空间尺度缩小α倍；

第一横向连接层由第一特征金字塔各特征层分别通过通道映射操作生成，以及第一横向连接层各层与第一金字塔各层相对应；其中，第一横向连接层各层通道数相同，且第一横向连接层的各层尺寸与第一特征金字塔各特征层的尺寸相同；

第二特征金字塔的方向与第一特征金字塔的方向相反，以及第二特征金字塔包括第一特征层、第一特征编码层和第一特征融合层；其中，第一特征层为第一特征金字塔的最顶一层，且第一特征层的数据与同一层对应的横向连接层的数据相同；第一特征编码层各层分别与横向连接层对应，其中第一特征编码层接收对应横向连接层特征数据进行通道合并、编码及上采样操作生成对应特征编码层输出；第一特征融合层由当前第一特征编码层与对应横向连接层的上一层的横向连接层各通道数据分别通过逐元素相乘输出获得。

优选地，特征金字塔网络包括第三特征金字塔、第二横向连接层和第四特征金字塔；

其中，神经网络对多通道图像进行卷积得到的初步特征层作为第三特征金字塔，其中第三特征金字塔至少包含两层卷积特征层，且在自下向上的方向上，相邻两特征层中的后一特征层的空间尺度相比于前一特征层的空间尺度缩小α倍；

第二横向连接层由第三特征金字塔各特征层分别通过通道映射操作生成，以及第二横向连接层各层与第三金字塔各层相对应；其中，第二横向连接层各层通道数相同，且第二横向连接层的各层尺寸与第三特征金字塔各特征层的尺寸相同；

第四特征金字塔的方向与第三特征金字塔的方向相反，以及第四特征金字塔包括第二特征层、第二特征编码层和第二特征融合层；其中，第二特征层为第三特征金字塔的最顶一层，且第二特征层的数据与同一层对应的横向连接层的数据相同；第二特征编码层各层分别与横向连接层对应，其中第二特征编码层接收对应的同一级特征融合层数据进行通道合并、编码及上采样操作生成对应特征编码层输出；第二特征融合层由当前第二特征编码层与对应横向连接层的上一层的横向连接层各通道数据分别通过逐元素相乘输出获得。

优选地，在特征金字塔网络中根据特征金字塔映射生成横向连接层时，若映射前后层数一致，则不需要进行映射操作；

和/或，用于编码的编码函数包括以下任意一种函数：二元编码函数、分段编码函数、量化编码函数、三元编码函数。

优选地，针对编码层coding_n，通道合并操作是指将对应的横向连接层采用大小为1×1的单通道卷积核进行卷积运算处理，生成单通道特征图e'_n；编码操作是指对单通道特征图数据通过编码函数进行编码生成第一编码特征数据；上采样操作是指对所述第一编码特征数据进行上采样，使其输出的特征尺寸与对应横向连接层的下一层横向连接层尺寸一致，以便当前输出的特征编码层与对应横向连接层的下一层横向连接层融合。

本说明书实施例还提供一种神经网络目标检测装置，包括：

通道拓展模块，用于将单通道图像下采样拓展为多通道图像，其中单通道图像拓展的通道数对应于神经网络输入层所需的输入通道数，下采样的单元窗中采样像素的数量与通道数相同，以及在每次下采样中，将单元窗的采样像素依次采样至对应的多通道图像中；

特征提取模块，用于基于所述神经网络的卷积网络对所述多通道图像形成初步特征层；

特征融合模块，用于基于特征金字塔网络对初步特征层进行特征语义融合后获得输出特征层，所述输出特征层用于目标检测。

本说明书实施例还提供一种嵌入式电子设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：权利要求1-7中任一项所述的神经网络目标检测方法。

本说明书实施例还提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时执行权利要求1-7中任一项所述的神经网络目标检测方法。

与现有技术相比，本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括：

通过在神经网络的输入阶段，直接基于单通道图像进行降采样的通道拓展操作，能够减少数据输入量及卷积层计算操作，实现降低处理器的计算量和内存存储需求，提高了神经网络在嵌入式平台设备上运行的效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请中神经网络目标检测方案的结构示意图；

图2是本申请中单通道图像拓展为多通道图像的示意图；

图3是特征金字塔进行特征融合的结构示意图；

图4是特征融合中数据参与计算的示意图；

图5是本申请中一种改进型特征金字塔网络的结构示意图；

图6是本申请中一种改进型特征金字塔网络进行编码及特征融合的结构示意图；

图7是本申请中一种改进型特征金字塔网络中数据参与计算的示意图；

图8是本申请中另一种改进型特征金字塔网络的结构示意图；

图9是本申请中另一种改进型特征金字塔网络进行编码及特征融合的结构示意图；

图10是本申请中神经网络目检检测装置的结构示意图。

具体实施方式

下面结合附图对本申请实施例进行详细描述。

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本申请，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目和方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践。

目前，神经网络的运算通常需要输入多个通道的图像数据，然后经过CNN(Convolutional Neural Network，卷积神经网络)处理后输出目标位置、分类结果等。

这时，在单通道图像(如红外图像、深度图、点云数据图、灰度图等)的目标检测、识别任务中，需要先对单通道的原始图像数据进行处理，即一般需要对该单通道图像预处理为多通道图像以作为神经网络的输入数据。

而在拓展为多通道后，一方面导致处理的数据量激增，二方面对激增的数据需要进行相应的卷积、池化、激活等计算，同样需要大量的卷积处理层，消耗大量计算资源和算力。

例如，针对原80×80＝640的单通道输入图像，需要拓展为多通道图像后作为神经网络的输入，比如通过上采样(如采用最近邻插值法)一般拓展为4通道，拓展后的数据量将增加到4倍，即4×80×80＝2560。

又例如，仍以原80×80的单通道输入图像为例，在拓展后大小为4×80×80，其输入至卷积神经网络后需要经过多层卷积网络后，才能使得输出的特征图尺寸降为40×40大小。

因此，不仅需要平台能够提供满足激增数据处理所需的计算能力，也需要为激增数据提供大量相应内存资源、计算资源等等。

综上，虽然神经网络在各类项目标检测、识别任务等场景中能够表现出色，但这些出色表现是需要依赖于强大计算性能平台的支撑，即需要部署应用的平台能够提供神经网络所需的各种计算资源和算力。

但是，现有嵌入式设备往往受限于处理器的架构、功耗、体积等，其能够提供的带宽有限且算力紧张，因而神经网络在嵌入式设备上进行部署应用时受到较多限制，且部署后运行表现一般。

因此，在面向嵌入式平台设备部署应用神经网络模型时，为了在有限的计算资源条件下实时输出神经网络运算结果，如何提高神经网络在应用部署中的运算效率，已经成为当前神经网络在嵌入式设备运行部署时需要攻克的主要攻关方向。

现有攻关方向主要有两大类：提升嵌入式设备的性能和缩减神经网络模型的规模，但是嵌入式设备的性能提升并非短期内能够做到，而缩减的神经网络模型在检测及识别方面性能相应降低，均不能满足当前应用需要。

另外，在一般的目标检测任务中，神经网络的特征层大部分区域均为非敏感区域，即无目标区域，常规神经网络目标检测任务需要对该部分区域数据进行运算，但这种运算随着感受野的增大一般是无效计算，因而浪费了大量计算资源。常见做法主要有以下几种方案：

方案a：只使用最高层即神经网络的最后一层的特征层作为目标检输出层，但最高特征层的感受野太大，难以识别到小尺寸的目标；

方案b：选取特定的特征层，选取的每个特征层均作为目标检测输出预测层，鉴于较低特征层可以检测小尺寸或特征简单的目标，高层特征可以检测特征复杂的大目标，但该操作对较小的目标检测效果虽然有一定提升，但实际运行过程中，随着特征层的加深，目标语义信息丢失较多，对小目标检测仍然不友好；

方案c：在方案b基础上，对选取的特定特征层中的最高层的特征层进行向上采样，使其与选定的低层特征层尺寸一致，并将该新的高分辨率特征层与对应的低层特征进行融合，得到高分辨率、强语义的融合特征层，然后重复上述过程将最高层的特征传下来，与对应的底层特征层融合，以此补充低层的语义，从而获得高分辨率、强语义的特征，相比方案b对于大小目标的检测性能有提高，但仍需要极大的计算量和内存需求，在面向嵌入式设备部署时有很大限制；尤其在实时应用场景中，降低计算量及内存消耗、提高计算速度等仍是当前嵌入式设备部署神经网络检测模型的重要考虑因素之一。

因此，神经网络在面向软硬件性能一般的嵌入式平台设备进行部署时，不仅需要满足场景进行目标检测的应用要求，而且所需计算量及内存的消耗、计算速度、实时性等方案同样需要能够适用于嵌入式设备的部署应用场景。

基于以上两点，通过神经网络及其在嵌入式设备部署应用等方案进行深入研究及改进探索，本说明书实施例中提出了一种能够应用部署于嵌入式平台设备的目标检测识别方案：如图1所示，针对神经网络的输入层所需的通道数量(比如k通道，k大于1的整数)，对单通道输入图像采样单元窗口及步长滑动方式进行下采样操作，将单通道图像拓展为多通道图像，能够有效地降低数据量、卷积层数量等，从而降低神经网络在部署应用中所需的资源开销，同时提高神经网络在应用部署中的运算效率；进一步，针对目标进行检测及识别时，先利用神经网络对上述下采样拓展得到的多通道图像进行卷积运算，提取到目标特征，即获得第一特征层，然后将第一特征层作为特征金字塔的输入，利用特征金字塔进行多层次的特征语义信息的提取及融合，即通过特征金字塔将低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图进行融合，从而能够在增加较少计算量的前提下，获得高分辨率、强语义的每一层级特征并在每一层级上进行预测。

如图2所示，单通道图像拓展为多通道，是指采样单元窗滑动的下采样操作，多通道拓展的下采样示意如下：

W×H：W为原输入单通道图像宽，H为原输入单通道图像高，同时亦代表神经网络特征图的宽和高；

X(i,j)：表示原单通图像像素(对于特征图表示特征数据)及坐标，其中i为原输入通道图像横坐标，i∈[1，W]；j原输入通道图像纵坐标，其中j∈[1，H]；

w×h；单元窗尺寸，其中w为单元窗的宽，h为单元窗的高；

X’_k(I,J)：拓展后的像素，表示第k个通道坐标为(I,J)的像素值；

拓展示意如下：对输入的单通道图像经过下采样操作，转为低分辨率的多通道输入图像，即将输入的原单通道图像采用尺寸为w×h的单元窗进行下采样操作：假设采样窗口滑动步长为step，在原单通道图像按从左到右从上到下依次下采样，采样操作包括：将采样窗口中的像素数据依次采样至对应的多通道输入图像，每个采样窗口中各像素对应一个多通道输入图像。

在一种示例中，针对图2示意的单通道输入图像，首先根据拓展后的通到数为4，构建一个尺寸大小为w×h＝2×2的下采样单元窗口，窗口滑动步长step＝2；初始时下采样窗口位于原图像左上角，窗口中原图像像素(分别是X1:1、X1:2、X2:1、X2:2)，则依次将该窗口内的四个元素分别采样至对应的输入通道，即像素X1:1作为第一通道输入图像的第一个像素，像素X1:2作为第二通道输入图像第一行的第一个像素，像素X2:1作为第三通道输入图像第一行的第一个像素，像素X2:2作为第四通道输入图像第一行的第一个像素；当下采样窗口按步长2向右侧滑动后，窗口中原图像像素(分别是X1:3、X1:4、X2:3、X2:4)，则依次将该窗口内的四个元素分别采样至对应的输入通道，即像素X1:2作为第一通道输入图像第二行的第二个像素，像素X1:4作为第二通道输入图像第二行的第二个像素，像素X2:3作为第三通道输入图像第二行的第二个像素，像素X2:4作为第二行第四通道输入图像的第二个像素；直至下采样窗口在原图像第1、第2行上完成遍历，然后下采样窗口按步长2下移，重新在原输入图像第3、第4行上进行下采样操作，此时所采样的像素作为各自对应通道第二行数据；直至在整个单通道输入图像上完成采样遍历，生成对应四个通道的图像数据，作为神经网络输入数据。

在一种示例中，仍以前述图2示意的单通道输入图像为例，首先根据拓展后的通到数为4，构建一个尺寸大小为w×h＝2×2的下采样单元窗口，窗口滑动步长step＝2；然后按单元窗大小将单通道图像划分为若干第一单元格(如图2示出的虚线单元格)，从而依次根据第一单元格中像素坐标将像素采样至对应的多通道图像中。例如，在下采样中，针对第一次下采样，位于单通道图像左上角的第一个虚线框示出的第一个单元格，该第一个单元格含有像素4个像素(分别是X1:1、X1:2、X2:1、X2:2)，因而可以根据坐标顺序将这4个像素依次采样至对应的多通道图像中，如像素X1:1采样至第一个多通道图像的第一个像素位置，像素X1:2采样至第二个多通道图像的第一个像素位置，像素X2:1采样至第三个多通道图像的第一个像素位置，像素X2:2采样至第四个多通道图像的第一个像素位置；针对第二次下采样，第二个单元格含有像素4个像素(分别是X1:3、X1:4、X2:3、X2:4)，因而可以根据坐标顺序将这4个像素依次采样至对应的多通道图像中，如像素X1:3采样至第一个多通道图像的第二个像素位置，像素X1:4采样至第二个多通道图像的第二个像素位置，像素X2:3采样至第三个多通道图像的第二个像素位置，像素X2:4采样至第四个多通道图像的第二个像素位置。依次类推，在其他下采样中，对应单元格的像素采样至对应多通道图像，不再展开。

因此，单通道图像拓展为多通道图像后，至少可以得到以下技术效果：

一是，直接降低了处理器处理的数据量。如原80×80＝640的单通道输入图像，需要拓展为多通道图像后作为神经网络的输入，一般拓展为4通道，因此拓展后的数据量将增加4倍，即4×80×80＝2560；而本发明提出的降采样通道拓展操作，是通过将原图像采用单元格划分后，一次从每个单元格中采样对应通道的数据，如拓展为4通道，则采用2×2的单元格对单通道图像进行划分后，以此采样每个单元格不同位置像素作为对应通道图像的像素，如此，4个输入通道图像数据总量仍为4×40×40＝640。相比比传统拓展方案，数据处理量降低了4倍；

二是，减少了卷积处理层数。仍以80×80的输入单通道图像为例，在原方案中图像通道拓展后大小为4×80×80，输入至卷积神经网络后需要经过多层卷积网络后才可将输出特征图尺寸降为40×40大小。而采用本发明方案后，在经过降采样通道拓展后输入图像尺寸为40×40，从而减少了卷积处理层数；)。

综上在神经网络输入阶段，基于本发明对单通道图像进行下采样形成神经网络所需的多通道图像，能够减少数据输入量及卷积层及这些数据、卷积层的大量计算操作，实现降低处理器的计算量和内存存储需求，提高了神经网络在嵌入式设备(如AIoT设备)上运行的效率。

再次列举示例来说：对于尺寸为512×256＝131072大小的单通道输入图像，需要拓展为多通道图像后作为神经网络的输入，以拓展为4通道为例，拓展后的数据量为4×512*216＝524288，是原输入单通道图像数据量的四倍；而本发明提出的下采样通道拓展操作，是将原图像通过固定尺寸的下采样滑动窗口，依次从每个下采样窗口中采样对应通道的数据，同样以拓展为4通道为例，则下采样滑动窗口大小为2×2，用该窗口对原单通道图像进行采样操作，依次将每个采样窗口中的元素作为对应输出通道图像的像素，则采样完成后，每个输出的图像大小变为256×128，4个经下采样操作后的输入通道图像数据总量为4×256×128＝131072，比原方法数据处理量降低了4倍，在实时应用场景中，该方法可降低计算数据量及内存消耗，同时为算法部署在AIoT设备端提供技术支撑；

同时，还可以进一步减少卷积层数，还是以512×256的输入图像为例，在原方法中图像通道拓展后图像大小仍为512×216，输入至卷积神经网络后需要经过多层卷积网络计算处理后输出的特征图尺寸才可降为128×64大小的第一特征层，以便用于后续特征提取及目标检测定位；以及，在经过下采样通道拓展操作后输入图像尺寸为256×128，只需经过一层卷积及池化操作即可将输出的特征图尺寸才可降为128×64大小的第一特征层；

综上在神经网络输入阶段，基于本发明改进点可大幅减少输入数据的处理量及卷积层计算操作，从而提高了神经网络在嵌入式设备上运行的效率。

需要说明的是，特征金字塔(Feature Pyramid Network，FPN)是一种可以同时利用低层特征高分辨率和高层特征的高语义信息，以便在融合不同层的特征后能够达到好的预测效果，而且预测是在每个融合后的特征层上单独进行的；以及，在融合中，是通过结合自下而上(bottom-up)的第一特征金字塔和自上而下(top-down)的第二特征金字塔，基于两个特征金字塔在融合层上获得较强的语义特征，从而基于每个融合层进行预测时能够获得好的目标检测性能表现。因此，特征金字塔是对基于卷积神经网络进行目标检测方法的一种改进，通过提取多尺度的特征信息进行融合，进而提高目标检测的精度，特别是在小物体检测上的精度。

需要说明的是，第一特征金字塔与第二特征金字塔相对应，在第一特征金字塔与第二特征金字塔之间还设置有横向连接网络，即横向连接位于第二特征金字塔和相应的第一特征金字塔之间。以及，第一特征金字塔、第二特征金字塔及横向连接层可以为现有技术中的特征金字塔网络，这里不对采用现有技术中的特征金字塔网络进行展开说明。

另外，通过对特征金字塔进行分析和改进探索后，本说明书中还提供改进后的特征金字塔网络，用于目标检测识别中的特征提取及融合，进一步降低神经网络对资源占用，以及提高神经网络运算效率。

本说明书实施例中，特征金字塔整体网络结构可以包括：自下而上的第一特征金字塔，自上而下的第二特征金字塔，以及第一特征金字塔和第二特征金字塔之间的横向连接网络；

具体地，整体网络结构中进行特征处理的结构为自下而上的第一特征金字塔和自上而下的第二特征金字塔两大部分，其中第一特征金字塔是自下而上的传统卷积网络做特征提取，随着卷积的深入，空间分辨率减少，空间信息丢失，但是高级语义信息被更多地检测到，因而第一特征金字塔每层信息融合到第二特征金字塔中，即第二特征金字塔是自上而下的卷积网络用于特征语义融合，并且第二特征金字塔的每层输出均分别作预测；

如图3所示，一种现有特征金字塔网络进行特征提取及融合时，神经网络对图片进行卷积运算(conv1)后获得第一特征图，然后由第一特征金字塔(如C2至C5构成自底向上的特征金字塔)、横向连接(即1×1卷积)和第二特征金字塔(如M5至M2构成自顶向下的特征金字塔)完成特征提取及融合，最终得到预测用的特征层P5至P2(通常先进行3×3卷积)。其中，特征融合的示意如下：C5层经1x 1卷积后统一特征图通道数(比如d＝256)；然后M5层通过上采样后得到的特征图，再加上C4层经过1x 1卷积后的特征图，从而得到M4层特征图，其中相加是特征图中每一个相同位置元素直接相加。以此类推，得到M3、M2层。另外，第二特征金字塔的每层特征图再经过3x 3卷积得到最终预测用的特征图P2，P3，P4，P5层。

需要说明的是，在特征融合时，是将上采样的结果和自下而上生成的特征图进行融合。因此，如图4所示，M5层特征图经2倍上采样后得到的特征图，在与C4层经1×1卷积后得到的特征图进行运算(比如相加、相乘等)时，是这两个特征图中所有对应元素参与到计算中，因而需要消耗一定数量的内存资源及计算资源。

因此，本说明书实施例还进一步针对特征金字塔进行改进，以降低特征金字塔对资源的消耗，更方便后续进行部署应用，以及提高整体效率。

图5至图6为本说明书提供的一种改进型特征金字塔网络，网络如下：

第一特征金字塔的构建示意如下：

第一特征金字塔接收第一特征层的数据，即神经网络对多通道图像进行卷积得到的第一特征层作为第一特征金字塔，其中神经网络对多通道图像执行卷积运算，自下向上依次输出多层卷积特征层，该第一特征金字塔至少包含两层卷积特征层，且各卷积特征层空间尺度以α倍缩小，进一步的随着特征层空间尺度变小，第一特征金字塔各特征层自下向上依次表示为集合{f_1、……、f_n-1、f_n}；

举例来说：一个单通道图像经过通道拓展及卷积运算处理后，在特定层顺序输出多个不同尺度的特征层作为第一特征金字塔，其中各特征层通道数依次成2倍增加，而各特征层尺寸依次成2倍(即此时α＝2)减小，构成金字塔形状，以四层特征金字塔为例，各特征层具体可表示为集合{f_1：64×128×64，f_2：128×64×32，f_3：256×32×16，f_4：512×16×8}；其中f_1：64×128×64表示由64个通道，长为128、宽为64的特征层构成，以此类推，其中f_1层为第一特征图，f_4表示第一金字塔的最后一层特征层。

横向连接层的构建示意如下：

由第一特征金字塔各特征层{f_1、……、f_n-1、f_n}分别通过通道映射操作生成，各横向连接层可表示为集合{e_1、……、e_n-1、e_n}，且横向连接层各层与第一金字塔各层相对应；其中横向连接层各层通道数相同，且各横向连接层尺寸与第一特征金字塔各特征层尺寸相同；

实施中，通道映射操作是指采用尺寸为1×1，C_out个一维卷积核对第一特征金字塔各特征层进行卷积计算，从而将第一特征金字塔各特征层通道数映射到同一大小即C_out；

举例来说：将f_4层：64×128×64，采用1×1，C_out＝256个一维卷积核进行卷积计算后，f_4层的的通道数从64映射为256，即生成通道数为256、空间尺度为128×64的卷积结果输出作为横向连接层e_4：256×128×64；

将f_3层：128×64×32，采用1×1，C_out＝256个一维卷积核进行卷积计算后，f_3层的的通道数从128映射为256，即生成通道数为256、空间尺度为64×32的卷积结果输出作为横向连接层e_3：256×64×32；

将f_2层：256×32×16，采用1×1，C_out＝256个一维卷积核进行卷积计算后，f_2层的的通道数从256映射为256，即生成通道数为256、空间尺度为32×16的卷积结果输出作为横向连接层e_2：256×32×16；在另一中实施方式中若映射前后层数一致，则不需要进行映射操作。

将f_1层：512×16×8，采用1×1，C_out＝256个一维卷积核进行卷积计算后，f_1层的的通道数从512映射为256，即生成通道数为256、空间尺度为16×8的卷积结果输出作为横向连接层e_1：256×16×8。

第二特征金字塔的构建示意如下：

第二特征金字塔自上向下传播，方向与第一特征金字塔方向相反，其中第二特征金字塔包括：第二特征层、特征编码层、特征融合层；

其中，第二特征层为第一特征金字塔的纵向第一层，且第二特征层数据与横向连接层e_n数据相同记为p_n(即e_n＝p_n)；进一步，特征融合层集合可表示为{p_n-1、p_n-2、……、p_2、p_1}；

特征编码层各层分别与横向连接层对应；所述特征编码层接收对应横向连接层特征数据进行通道合并、编码及上采样操作生成对应特征编码层输出，特征编码层输出结果可表示为集合{coding_n、coding_n-1、……、coding_2}；如图6所示，针对编码层coding_n，所述通道合并操作是指将对应的横向连接层采用大小为1×1的单通道卷积核进行卷积运算处理，生成单通道特征图e'_n；编码操作是指对单通道特征图数据通过编码函数进行编码(比如重新赋值)，生成第一编码特征数据；上采样操作是指对所述前一步生成的第一编码特征数据上采样，使其输出的特征尺寸与对应横向连接层的下一层横向连接层尺寸一致，以便当前输出的特征编码层与对应横向连接层的下一层横向连接层融合；

特征融合层由当前特征编码层与对应横向连接层的上一层的横向连接层各通道数据分别通过逐元素相乘输出获得。如图6所示，比如特征融合层p_n-1＝coding_n×e_n-1，即融合计算为：编码层coding_n各编码元素数据与横向连接层e_n-1各通道元素数据对应相乘，从而生成融合层p_n-1。

例如，如图7示意，当编码层p_4采用二元编码进行编码及2倍上采样后，编码值为零的数据(如上采样后的空白区域)是无效信息区域(图7示意中颜色深的为有效区域，颜色浅的为无效区域)，正如前述图4示意时原来这一块信息也参与融合计算，而现在通过编码，使其不再或通过其他形式参与计算，即只有编码值为非零的有效数据，才参与到与横向连接层e_3传输过来的对应数据进行融合运算。

因此，采用改进后的特征金字塔后，不仅数据对内存消耗得到进一步降低，而且无效计算也得到减少，计算资源开销及效率得到改善。

图8至图9为本说明书提供的第二种改进型特征金字塔网络，其中第二种改进型特征金字塔网络与前述第一种改进型特征金字塔网络的不同处在于：前述图5至图6示出的网络中，编码层接收横向连接层进行编码后与对应横向连接层的下一层融合；前述图8至图9示出的网络中，编码层接收同级的融合层作为输入编码后与对应横向连接层的下一层融合。

具体地，本说明书提供的另一种改进型特征金字塔网络如下：

在图8至图9示出的网络中，特征编码层各层分别与横向连接层对应，其中特征编码层接收对应的同一级特征融合层数据进行通道合并、编码及上采样操作生成对应特征编码层输出，特征编码层输出结果可表示为集合{coding_n、coding_n-1、…、coding_2}；

其中，通道合并操作指将对应的同级特征融合层采用大小为1×1的单通道卷积核进行卷积运算处理，生成单通道特征图；编码操作是指对所述单通道特征图数据通过编码函数进行编码，生成第一编码特征数据；上采样操作是指，对所述前一步生成的第一编码特征数据上采样，使其输出的特征尺寸与对应横向连接层的下一层横向连接层尺寸一致，以便当前输出的特征编码层与与对应横向连接层的下一层横向连接层融合；

特征融合层由当前特征编码层与对应横向连接层的上一层通过逐元素相乘输出获得，即特征融合层p_n-1＝coding_n×e_n-1。

针对上述两种改进型特征金字塔的编码层，进行如下示意：

举例来说：前述图5至图6示出的第一种改进型特征金字塔网络

第p_n-1层由第e_n层经过编码操作及α倍上采样后生成的特征编码层coding_n，然后将coding_n数据与对应的同尺寸横向连接层e_n-1各通道特征数据对应相乘生成；

第p_n-2层由第e_n-1层经过编码操作及α倍上采样后生成的特征编码层coding_n-1，然后将coding_n-1数据与对应的同尺寸横向连接层e_n-2各通道特征数据对应相乘生成；

第p_1层由第e_2层经过编码操作及α倍上采样后生成的特征编码层coding_2，然后将coding_2数据与对应的同尺寸横向连接层e_1各通道特征数据对应相乘生成；

进一步举例来说：前述图8至图9示出的第二种改进型特征金字塔网络

第p_n-1层由第p_n层经过编码操作及α倍上采样后生成的特征编码层coding_n，然后将coding_n数据与对应的同尺寸横向连接层e_n-1各通道特征数据对应相乘生成；

第p_n-2层由第p_n-1层经过编码操作及α倍上采样后生成的特征编码层coding_n-1，然后将coding_n-1数据与对应的同尺寸横向连接层e_n-2各通道特征数据对应相乘生成；

第p_1层由第p_2层经过编码操作及α倍上采样后生成的特征编码层coding_2，然后将coding_2数据与对应的同尺寸横向连接层e_1各通道特征数据对应相乘生成。

另外，通道合并操做举例来说：两种改进型特征金字塔网络中，编码层接收数据均为256个通道，因此采用单个1×1卷积将输入的数据的通道数合并至单通道，用于后续融合计算。

还有，两种改进型特征金字塔网络中，融合层的示意如下：

以图5至图6的示意，生成融合层p_3为例，首先e_4层:256×16×8经过通道合并后变为e'_4:1×16×8，然后对该尺寸的特征数据经过编码函数编码后，按照2倍上采样进行采样处理，使其尺寸扩大为原来的两倍，变为coding_4：1×32×16，然后与对应的横向连接层e_4层的下一层e_3：256×32×16各通道特征数据进行乘法运算实现融合，输出第p_3层特征融合结果p_3：256×32×16；

以图8至图9的示意，生成融合层p_3为例，首先p_4层:256×16×8经过通道合并后变为p'_4:1×16×8，然后对该尺寸的特征数据经过编码函数编码后，按照2倍上采样进行采样处理，使其尺寸扩大为原来的两倍，变为coding_4：1×32×16，然后与对应的横向连接层e_4层的下一层e_3：256×32×16各通道特征数据进行乘法运算，输出第p_3层特征融合结果p_3：256×32×16；

需要说明的是，其他层融合过程可以进行类推，不再一一展开。

在一些实施方式中，在上述特征融合层输出后，还可以通过卷积处理后形成用于预测的特征层输出至检测预测单元，预测输出目标位置、属性、类别、概率。

需要说明的是，可以将第二特征金字塔的每个融合层输出用于预测，比如先进行3×3卷积后预测(即形成前述图3示出的P2至P5特征层)，这里不对预测作限定。

在一些实施方式中，编码函数可以包括以下任意一种函数：二元编码函数、分段编码函数、量化编码函数等。其中，二元编码函数是指将经过通道合并后的单通道特征图数据≤阈值T的数据赋值为0，大于阈值T的数据赋值为1；分段编码函数是指将经过通道合并后的单通道特征图数据处在某一范围内的数映射到新的值；量化编码函数是指将经过通道合并后的单通道特征图数据近似为有限多个(或较少的)离散整数值(举例来说：该单通道特征图中各元素数据处于-1到1之间，且均为浮点数，则可将其映射到整数0-128之间)。

在一些实施方式中，除了上述一些编码函数外，还可以包括三元编码函数，比如将数据映射为-1、0、1，这里不再展开说明。

基于相同发明构思，本说明书实施例提供与前述方法对应的神经网络目标检测装置，以在部署应用的嵌入式平台中基于神经网络目标检测装置进行目标检测。

如图10所示，一种神经网络目标检测装置，包括：

通道拓展模块1001，用于将单通道图像下采样拓展为多通道图像，其中单通道图像拓展的通道数对应于神经网络输入层所需的输入通道数，下采样的单元窗中采样像素的数量与通道数相同，以及在每次下采样中，将单元窗的采样像素依次采样至对应的多通道图像中；

特征提取模块1003，用于基于所述神经网络的卷积网络对所述多通道图像形成初步特征层；

特征融合模块1005，用于基于特征金字塔网络对初步特征层进行特征语义融合后获得输出特征层，所述输出特征层用于目标检测。

基于相同发明构思，本说明书实施例提供与前述方法对应的一种嵌入式电子设备，所述电子设备包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行：如本说明书中任意一项实施例所述的神经网络目标检测方法的步骤。

基于相同发明构思，本说明书实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时执行如本说明书中任意一实施例提供的神经网络目标检测方法的步骤。

需要说明的是，所述计算机存储介质可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本申请还可以提供将数据处理实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行前述任意一个实施例所述方法中的若干步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本申请中的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

本说明书中，各个实施例之间相同相似的部分互相参见即可，每个实施例侧重说明的都是与其他实施例的不同之处。尤其，对于后面说明的产品实施例而言，由于其与方法是对应的，描述比较简单，相关之处参见系统实施例的部分说明即可。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种神经网络目标检测方法，其特征在于，包括：

2.根据权利要求1所述的神经网络目标检测方法，其特征在于，将单通道图像下采样拓展为多通道图像包括：自单通道图像的左上角开始，采用第一单元窗按预设第一滑窗步长进行滑窗遍历，并在每次滑窗遍历中，当前第一单元窗中的采样像素分别采样至对应的多通道图像；

3.根据权利要求1所述的神经网络目标检测方法，其特征在于，将单通道图像下采样拓展为多通道图像包括：自单通道图像的左上角开始，基于预设第二滑窗步长和预设第二单元窗，将单通道图像划分为若干第一单元格，并按像素坐标将每个所述第一单元格的像素采样至对应的多通道图像中。

4.根据权利要求1所述的神经网络目标检测方法，其特征在于，特征金字塔网络包括第一特征金字塔、第一横向连接层和第二特征金字塔；

5.根据权利要求1所述的神经网络目标检测方法，其特征在于，特征金字塔网络包括第三特征金字塔、第二横向连接层和第四特征金字塔；

6.根据权利要求4或5所述的神经网络目标检测方法，其特征在于，在特征金字塔网络中根据特征金字塔映射生成横向连接层时，若映射前后层数一致，则不需要进行映射操作；

7.根据权利要求4或5所述的神经网络目标检测方法，其特征在于，针对编码层coding_n，通道合并操作是指将对应的横向连接层采用大小为1×1的单通道卷积核进行卷积运算处理，生成单通道特征图e'_n；编码操作是指对单通道特征图数据通过编码函数进行编码生成第一编码特征数据；上采样操作是指对所述第一编码特征数据进行上采样，使其输出的特征尺寸与对应横向连接层的下一层横向连接层尺寸一致，以便当前输出的特征编码层与对应横向连接层的下一层横向连接层融合。

8.一种神经网络目标检测装置，其特征在于，包括：

9.一种嵌入式电子设备，其特征在于，包括：

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令被处理器执行时执行权利要求1-7中任一项所述的神经网络目标检测方法。