CN114067108A

CN114067108A - 一种基于神经网络的目标检测方法、装置

Info

Publication number: CN114067108A
Application number: CN202210036200.7A
Authority: CN
Inventors: 张宁; 杨作兴; 房汝明; 向志宏
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-02-18
Anticipated expiration: 2042-01-13
Also published as: CN114067108B

Abstract

本申请公开了一种基于神经网络的目标检测方法，所述神经网络对输入数据进行目标检测，对神经网络卷积运算输出结果中特征点的特征值，进行第一操作，其中，第一操作用于对特征值的组织形式进行处理，基于第一操作的结果，计算特征点的置信度；按照特征点在第一操作结果中的第一位置信息，通过所述第一操作的反向操作，得到所述特征点在卷积运算输出结果中的第二位置信息，将特征点的置信度、以及特征点的第二位置信息输出，得到目标检测结果。本申请减少了检测过程中的算力消耗。

Description

一种基于神经网络的目标检测方法、装置

技术领域

本发明涉及深度学习领域，特别地，涉及一种基于神经网络的目标检测方法、装置。

背景技术

在机器学习和深度学习中，基于神经网络的目标检测有着广泛的应用。尽管基于神经网络的目标检测效果好，但依赖于大量的计算量，这导致了在硬件上对算力和带宽的消耗。

以深度学习检测网络中的一段式多目标检测方法（SSD，Single Shot Multi-BoxDetector）为例。参见图1所示，图1为SSD神经网络结构的一种示意图。SSD的神经网络结构包括基础网络和金字塔网络。基础网络是视觉几何组（Visual Geometry Group，VGG）例如VGG-16的前4层网络。金字塔网络是特征图逐渐变小的简单卷积网络。SSD的检测包括两路，一路是特征点的置信度（confidence）计算，另一路是特征点的坐标位置的计算。

虽然置信度和坐标位置的计算共享骨干（backbone）网络，但由于置信度和坐标位置本身特性的差异，所以相当一部分的计算是独立的。不论是置信度的计算，还是坐标位置的计算，都需要耗费大量的算力和带宽。

发明内容

本发明提供了一种基于神经网络的目标检测方法、装置，以节省检测过程中的算力。

本发明第一方面提供一种基于神经网络的目标检测方法，所述神经网络对输入数据进行目标检测，包括：

对神经网络中卷积运算输出结果中特征点的特征值，进行第一操作，其中，第一操作用于对特征值的组织形式进行处理，

基于第一操作的结果，计算特征点的置信度；

按照特征点在第一操作结果中的第一位置信息，通过所述第一操作的反向操作，得到所述特征点在卷积运算输出结果中的第二位置信息，

将特征点的置信度、以及特征点的第二位置信息输出，得到目标检测结果。

较佳地，该方法进一步包括，

从所述特征点中挑选出置信度大于设定置信度阈值的特征点，得到第一特征点，

所述按照特征点在第一操作结果中的第一位置信息，通过所述第一操作的反向操作，得到所述特征点在卷积运算输出结果中的第二位置信息，包括，

按照所述第一特征点在第一操作结果中的第一位置信息，通过所述第一操作的反向操作，得到所述第一特征点在卷积运算输出结果中的第二位置信息。

较佳地，所述对神经网络中卷积运算输出结果中特征点的特征值，进行第一操作，包括：

将卷积运算输出结果中特征点的特征值，进行重排操作，所述重排操作用于将高维矩阵中特征值进行维度位置交换；

将重排操作的结果，进行平铺操作，所述平铺操作用于将高维矩阵中每一维度的特征值分别展开为一维数组，

将平铺操作的结果，进行合并操作，所述合并操作用于将每维数组合并。

较佳地，所述按照所述第一特征点在第一操作结果中的第一位置信息，通过所述第一操作的反向操作，得到所述第一特征点在卷积运算输出结果中的第二位置信息，包括，

根据第一特征点在合并操作结果中的第一位置信息，确定第一特征点在平铺操作结果中的位置信息，

根据第一特征点在平铺操作结果中的位置信息，确定第一特征点在重排操作结果中的位置信息，

根据第一特征点在重排操作结果中的位置信息，确定第一特征点在卷积结果中的第二位置信息。

较佳地，所述基于第一操作的结果，计算特征点的置信度，包括，

将第一操作的结果进行再成形操作，所述再成形操作用于调整第一操作结果的维度和形状，

对再成形操作结果进行归一化函数的计算，得到特征点的置信度。

较佳地，所述将卷积运算输出结果中特征点的特征值，进行重排操作，包括，

将n个卷积运算输出结果中的特征值，分别进行重排操作，得到n个重排操作结果；

所述将重排操作的结果，进行平铺操作，包括，

将n个重排操作结果，分别进行平铺操作，得到n个平铺操作结果；

所述将平铺操作的结果，进行合并操作，包括，

将n个平铺操作结果予以合并；

其中，n为大于1的自然数，由神经网络的结构决定。

较佳地，所述输入数据为图像数据、声音数据、文本数据之一，所述神经网络为一段式多目标检测SSD网络。

本申请第二方面提供一种基于神经网络的目标检测装置，包括，

置信度确定单元，用于对神经网络中卷积运算输出结果中特征点的特征值，进行第一操作，其中，第一操作用于对特征值的组织形式进行处理，基于第一操作的结果，计算特征点的置信度并输出，

位置确定单元，用于按照特征点在第一操作结果中的第一位置信息，通过所述第一操作的反向操作，得到所述特征点在卷积运算输出结果中的第二位置信息，

目标检测单元，用于根据特征点的置信度、以及特征点的第二位置信息，得到目标检测结果。

较佳地，该装置进一步包括，

过滤单元，用于从所述特征点中挑选出置信度大于设定置信度阈值的特征点，得到第一特征点，提供给位置确定单元。

较佳地，所述置信度确定单元包括，

重排模块，用于将卷积运算输出结果中特征点的特征值，进行重排操作，所述重排操作用于将高维矩阵中特征值进行维度位置交换；

平铺模块，用于将重排操作的结果，进行平铺操作，所述平铺操作用于将高维矩阵中每一维度的特征值分别展开为一维数组，

合并模块，用于将平铺操作的结果，进行合并操作，所述合并操作用于将每维数组合并；

再成形模块，用于将合并操作的结果进行再成形操作，所述再成形操作用于调整第一操作结果的维度和形状，

归一化模块，对再成形操作结果进行归一化函数的计算，得到特征点的置信度。

较佳地，所述位置确定单元包括，

第一模块，用于根据第一特征点在合并操作结果中的第一位置信息，确定第一特征点在平铺操作结果中的位置信息，

第二模块，用于根据第一特征点在平铺操作结果中的位置信息，确定第一特征点在重排操作结果中的位置信息，

第三模块，用于根据第一特征点在重排操作结果中的位置信息，确定第一特征点在卷积结果中的第二位置信息。

较佳地，所述重排模块包括n个重排算子子模块，每个重排算子子模块分别对每个卷积运算结果中的特征点的特征值进行重排操作，

所述平铺子模块包括有n个平铺算子子模块，每个平铺算子子模块分别对每个重排算子的结果进行平铺操作；

所述合并子模块将来自每个平铺算子子模块的结果予以合并，并输出至所述再成形子模块。本申请实施例基于神经网络的目标检测方法，利用置信度计算过程中用于对特征值的组织形式进行处理的第一操作的反向操作，来确定特征点的位置信息，避免了现有技术中重复地进行相同算子操作，大大减少了检测过程中的算力消耗。

附图说明

图1为SSD神经网络结构的一种示意图。

图2为特征点置信度计算的一种示意图。

图3为特征点坐标位置计算的一种示意图。

图4为本申请基于神经网络的目标检测方法的一种流程示意图。

图5为重排操作、平铺操作、合并操作过程以及反向操作过程中特征点映射关系的一种示意图。

图6为本申请基于神经网络的目标检测方法的一种流程示意图。

图7为本申请基于神经网络的目标检测装置的一种示意图。

图8为本申请基于神经网络的目标检测装置的另一种示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

本申请利用置信度和坐标位置之间的因果关系，先行计算置信度，利用置信度计算过程中用于对特征数据的组织形式进行处理的第一操作的反向操作，来确定该特征点的坐标位置。本申请可大大降低坐标位置计算的需求，从而达到降低算力和带宽的需求。

参见图4所示，图4为本申请基于神经网络的目标检测方法的一种流程示意图。该方法包括，

步骤401，对神经网络中卷积运算输出结果中特征点的特征值，进行第一操作，其中，第一操作用于对特征值的组织形式进行处理，

步骤402，基于第一操作的结果，计算特征点的置信度；

步骤403，按照特征点在第一操作结果中的第一位置信息，通过所述第一操作的反向操作，得到所述特征点在卷积运算输出结果中的第二位置信息，

步骤404，将特征点的置信度、以及特征点的第二位置信息输出，得到目标检测结果。

由于本申请在确定位置信息过程中无需象计算置信度那样进行第一操作，因此，能够降低坐标位置计算的需求。

为便于理解本申请，以下对本申请的原理予以说明。

由于当置信度未达到设定的置信度阈值时，则该置信度在特征映射（featuremap）上对应的特征点必然是背景点，而背景点可以不必计算其坐标位置，这样，置信度和坐标位置的计算之间形成因果关系，坐标位置是否需要计算由置信度决定。

通过对坐标位置的计算过程的研究发现，以SSD网络的坐标计算为例，位置信息是由卷积结果依次进行重排操作、平铺操作、合并操作而获得，这三个算子操作并没有对特征值本身的数值进行计算，而是对特征值的组织形式进行处理，即，用于改变特征数据在内存中的排布，在上述三个操作皆为一一对应的关系，即：重排操作的输入中一个特征点一一对应重排操作的输出中的一个特征点，并不存在一对多或多对一的关系；同样地，平铺操作和合并操作也有相同的特性。用函数表示这个关系：

Y = P(X)

Z = F(Y)

T= C(Z)

即：T = C(F(P(X)))

其中，P(), F(), C()分别代表重排操作、平铺操作、合并操作，X，Y，Z，T分别为卷积结果中的特征点的位置、重排操作结果中的特征点位置、平铺操作结果中的特征点位置、合并操作结果中的特征点位置。

由于一一对应关系，定义P’(),F’(),C’()为分别为重排操作的反向操作、平铺操作的反向操作、合并操作的反向操作，则有：

X=P’(F’(C’(T)))

参见图5所示，图5为重排操作、平铺操作、合并操作过程以及反向操作过程中特征点映射关系的一种示意图。如图中实线所示，卷积运算输出结果中一特征点的位置为X，经过重排操作，对应于重排结果中的位置Y，经过平铺操作，对应于平铺操作结果中的Z，经过合并操作，对应于合并操作结果中的T。如图中虚线所示，合并操作结果中一像素点的位置为T，经过合并操作的反向操作，对应于合并操作的反向操作结果中的Z，经过平铺操作的反向操作，对应于平铺操作的反向操作结果中的Y，经过重排操作的反向操作，对应于卷积运算输出结果中的X。

由此，利用上述一一对应的映射关系，通过反向操作便可得到卷积运算输出结果中的坐标位置，从而得到检测结果中目标的位置。

以SSD检测网络为例来予以说明，所应理解的是，本申请可不限于此，其它类似网络模型也可适用。

参见图6所示，图6为本申请基于神经网络的目标检测方法的一种流程示意图。包括，对于待检测的输入数据，

步骤601，提取输入数据的特征数据，并进行预测，

作为一种示例，输入数据可以是图像数据、声音数据、文本数据之一。

在输入数据是图像数据的情形下，所提取的特征数据为图像特征，即像素点的像素值，

在输入数据是声音数据的情形下，所提取的特征数据为声音特征，即频点/频段的信号，

在输入数据是文本数据的情形下，所提取的特征数据为文本特征。

步骤602，对神经网络中卷积运算输出结果中特征点的特征值，进行第一操作。

在SSD检测网络中，第一操作包括，重排操作、平铺操作、合并操作。作为一种示例，将卷积运算输出结果中特征点的特征值，进行重排操作，所述重排操作用于将高维矩阵中特征值进行维度位置交换；将重排操作的结果，进行平铺操作，所述平铺操作用于将高维矩阵中每一维度的特征值分别展开为一维数组，将平铺操作的结果，进行合并操作，所述合并操作用于将每维数组合并。

具体地，将n个卷积运算输出结果中的特征值，分别进行重排操作，得到n个重排操作结果，将n个重排操作结果分别进行平铺操作，得到n个平铺操作结果，将n个平铺操作结果予以合并，得到第一操作的结果，其中，n为大于1的自然数，具体有神经网络结构决定。例如，在SSD检测网络中，n通常为6。步骤603，基于第一操作的结果，计算特征点的置信度，

作为一种示例，将第一操作的结果进行再成形操作，所述再成形操作用于调整第一操作结果的维度和形状，

对再成形操作结果进行softmax算子的计算，得到特征点的置信度。

上述步骤602、603完成了输入数据特征点的置信度的计算。

参见图2所示，图2为特征点置信度计算的一种示意图。每个卷积运算的输出结果中的每个特征值分别依次经过重排操作、平铺操作之后，将平铺操作的结果进行合并操作，合并操作的结果被进行用于调整矩阵的维度和形状的再成形操作，再成形操作的结果被进行softmax算子操作，得到输入数据的各个特征点的置信度。

参见图3所示，图3为特征点坐标位置计算的一种示意图。每个卷积运算的输出结果中的每个特征值依次经过重排操作、平铺操作之后，将平铺操作的结果进行合并操作，得到输入数据的各个特征点的坐标位置信息。

其中，

重排操作用于对高维矩阵（2维以上）中的元素进行维度位置交换，例如，将矩阵中的第i列与第j列进行交换，在神经网络中又称之为轴之间的交换；在代码中对应为permute算子操作；

平铺操作用于将高维矩阵展开为一维数组形式，在代码中对应为flatten算子操作，

合并操作用于将多个数组予以合并，在代码中对应为concat算子操作，

再成形操作在代码中对应为reshape算子操作，

归一化操作在代码中对应为softmax算子操作。

从SSD的检测部分来看，两路有几乎相同的算子操作。其中，

合并操作：由于改变数据在内存中的排布，需要耗费内存、和带宽来搬运数据。

平铺操作：如果数据的组织方式是常规的NCHW（N，分支方向；C，通道方向；H，高度方向，W，宽度方向）或NHWC方式，则平铺操作并不会耗费计算量，因为不需要改变数据在内存中的排布，仅仅更改维度信息即可。但当数据的组织方式为非常规方式，比如，每行数据起始位置存在16字节内存对齐，又比如NC4HW4等方式，则平铺操作会改变数据在内存中的排布，导致耗费内存和带宽来搬运数据。在NPU操作中，为了迎合硬件计算的特性，往往采用NC4HW4等变形的数据组织方式。

合并操作：在基于浮点的推理（inference）中，合并操作仅仅把多个数组叠加在一起，这时没有额外的算力开销，但会导致数据的搬运，会消耗一定的带宽。但如果是基于定点的推理中，不仅数据需要搬运，由于定点量化存在，导致输入数据和输出数据的定浮点转换的缩放因子（Scale factor）不一致，合并操作需要耗费一定计算力把输入数据转换到输出数据上去，所需计算力和数据规模成正比。

步骤604，按照置信度对特征点进行过滤，得到第一特征点，

作为一种示例，判断各个特征点的置信度是否大于设定的置信度阈值，

如果是，则说明该特征点不是背景点，将该特征点作为有效点予以保留，为行文方便，后文称之为第一特征点，

否则，说明该特征点为背景点，可不进行其坐标位置的计算，这样，可以减少需要计算坐标位置的特征点的数量，有利于减少算力的消耗。

步骤605，对于每个第一特征点，根据第一特征点在第一操作结果中的第一位置信息，分别进行第一操作的反向操作，得到所述第一特征点在卷积运算输出结果中的第二位置信息，

作为一种示例，根据第一特征点在合并操作结果中的第一位置信息，确定第一特征点在平铺操作结果中的位置信息，根据第一特征点在平铺操作结果中的位置信息，确定第一特征点在重排操作结果中的位置信息，第一特征点在重排操作结果中的位置信息，确定第一特征点在卷积结果中的位置信息。

在该步骤中，不必进行与置信度计算相同的第一操作，有利于节省检测过程中对算力和带宽。

步骤606，反复执行步骤605，直至获取到所有第一特征点在卷积运算输出结果中的第二位置信息。

步骤607，将特征点的置信度以及第一特征点的第二位置信息输出，得到目标检测结果。

本申请实施例的目标检测，通过对置信度是否达到设定的置信度阈值作为前提条件，来判断是否需要计算坐标位置，这样，无需对卷积输出结果中的所有特征点都进行反向操作，只是对大于置信度阈值的有效点单独进行反向操作，即可达到相同的结果。当有效点远远小于特征点总数时，本申请实施例更优。特别是，在实际稀疏场景的检测中，即待检测的输入数据中没有正样本，或只有少数的正样本的情形下，可大量节省算力和带宽。

参见图7所示，图7为基于神经网络的目标检测装置的一种示意图。该装置包括：

置信度确定单元，用于对神经网络中卷积运算输出结果中特征点的特征值，进行第一操作，其中，第一操作用于对特征值的组织形式进行处理，基于第一操作的结果，计算特征点的置信度，并将特征点的置信度输出；

位置确定单元，用于按照特征点在第一操作结果中的第一位置信息，通过所述第一操作的反向操作，得到所述特征点在卷积运算输出结果中的第二位置信息；

该装置还包括，

过滤单元，从所述特征点中挑选出置信度大于设定置信度阈值的特征点，得到第一特征点，以提供给位置确定模块。

所述置信度确定单元，包括，

再成形模块，用于将第一操作的结果进行再成形操作，所述再成形操作用于调整第一操作结果的维度和形状，

归一化模块，用于对再成形操作结果进行归一化函数的计算，得到特征点的置信度。

在本发明实施例中，所述重排模块包括有n个重排算子子模块，每个重排算子子模块分别用于对每个卷积运算结果中的特征点的特征值，进行重排操作。

所述平铺模块包括有n个平铺算子子模块，每个平铺算子分别用于对每个重排算子子模块的结果进行平铺操作。

所述合并模块将来自每个平铺算子子模块的结果予以合并，并输出至再成形子模块。

在本发明实施例中，所示位置确定单元，包括，

参见图8所示，图8为基于神经网络的目标检测装置的另一种示意图。包括处理器，用于存储所述处理器的可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以实现任一基于神经网络的目标检测方法。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessing，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一基于神经网络的目标检测方法。

对于装置/网络侧设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于神经网络的目标检测方法，所述神经网络对输入数据进行目标检测，其特征在于，该方法包括，

对神经网络卷积运算输出结果中特征点的特征值，进行第一操作，其中，第一操作用于对特征值的组织形式进行处理，

基于第一操作的结果，计算特征点的置信度；

2.如权利要求1所述的目标检测方法，其特征在于，该方法进一步包括，

3.如权利要求2所述的目标检测方法，其特征在于，所述对神经网络中卷积运算输出结果中特征点的特征值，进行第一操作，包括：

4.如权利要求3所述的目标检测方法，其特征在于，所述按照所述第一特征点在第一操作结果中的第一位置信息，通过所述第一操作的反向操作，得到所述第一特征点在卷积运算输出结果中的第二位置信息，包括，

5.如权利要求1所述的目标检测方法，其特征在于，所述基于第一操作的结果，计算特征点的置信度，包括，

6.如权利要求3所述的目标检测方法，其特征在于，所述将卷积运算输出结果中特征点的特征值，进行重排操作，包括，

所述将重排操作的结果，进行平铺操作，包括，

所述将平铺操作的结果，进行合并操作，包括，

将n个平铺操作结果予以合并；

其中，n为大于1的自然数，由神经网络的结构决定。

7.如权利要求1所述的目标检测方法，其特征在于，所述输入数据为图像数据、声音数据、文本数据之一，所述神经网络为一段式多目标检测SSD网络。

8.一种基于神经网络的目标检测装置，其特征在于，包括，

9.如权利要求8所述的目标检测装置，其特征在于，该装置进一步包括，

10.如权利要求8所述的目标检测装置，其特征在于，所述置信度确定单元包括，

11.如权利要求9所述的目标检测装置，其特征在于，所述位置确定单元包括，

12.如权利要求10所述的目标检测装置，其特征在于，

所述重排模块包括n个重排算子子模块，每个重排算子子模块分别对每个卷积运算结果中的特征点的特征值进行重排操作，

所述合并子模块将来自每个平铺算子子模块的结果予以合并，并输出至所述再成形子模块。