CN114067125A

CN114067125A - 基于全推理神经网络的目标检测方法、系统及装置

Info

Publication number: CN114067125A
Application number: CN202111357503.0A
Authority: CN
Inventors: 金京爱; 孙国辉
Original assignee: Hangzhou Xinhe Shengshi Technology Co ltd
Current assignee: Hangzhou Xinhe Shengshi Technology Co ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-18

Abstract

本发明公开一种基于全推理神经网络的目标检测方法，包括以下步骤：获取目标图像数据库；基于目标图像数据库对全推理目标检测网络模型进行训练及验证，得到训练好的全推理目标检测网络模型，全推理目标检测网络模型通过获取初始目标检测网络模型；基于胶囊推理子网络模型进行目标位置和类别信息挖掘得到的；将待检测目标图像输入至训练好的全推理目标检测网络模型中，得到待检测目标信息。采用构建差值注意力提取方法，用于实现特征图信息的增强，通过提取提取大分辨率特征图并和小分辨率图的信息进行对比，提取他们中间被过滤掉的信息，用于对大分辨率特征图中，将大小分辨率特征图进行合并用于后续的目标检测。

Description

基于全推理神经网络的目标检测方法、系统及装置

技术领域

本发明涉及目标检测技术领域，尤其涉及一种基于全推理神经网络的目标检测方法、系统及装置。

背景技术

在现有技术中，目标检测的目标是为每个感兴趣的对象预测一组框及其对应的类别标签。目前的目标检测算法主要通过在大量proposals、anchors或窗口中心上定义回归和分类问题，以间接的方式完成任务。这些算法通过采用后处理方法去除重复的预测框，性能容易受到后处理步骤、anchors的设计，以及目标框和anchor的匹配算法的设计。

在Transformer基础上新提出的DETR将检测视为集合预测问题，简化了目标检测的整体流程。它没有现在主流的目标检测器中的anchor、label assign、nms等操作，做到了真正的end-to-end。它主要采用了Transformer的编解码结构，它在序列预测任务上大获成功。Transformer中的自注意力机制显示地界定了序列中元素间的相互作用，因此可以用于约束集合的预测结果。DETR可一次性预测多个目标，并通过损失函数唯一地匹配预测结果和标注信息，整个结构仅由Transformer和ResNet组成，同时，在最后的二分匹配过程可以看到，产生的预测结果中不包含感兴趣目标类别时，它与空匹配。

图像检测通用的技术为DETR，将检测视为集合预测问题，简化了目标检测的整体流程。没有现在主流的目标检测器中的anchor、label assign、nms等操作，做到了真正的end-to-end。尽管DETR有着有趣的设计和好的表现，但是DETR也有着他自己的问题：

在网络最后的分类和定位过程中，使用全连接层的堆积实现，而全连接用于分类和定位破坏了图像的相对位置关系，这尤其对于目标检测方法的影响是比较大的；

DETR在小物体检测上性能较差，现存的检测器通常带有多尺度的特征，小物体目标通常在高分辨率特征图上检测，而DETR没有采用多尺度特征来检测，主要是高分辨率的特征图会对DETR增加不可接受的计算复杂度。

发明内容

本发明针对现有技术中的缺点，提供了一种基于全推理神经网络的目标检测方法、系统及装置。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种基于全推理神经网络的目标检测方法，包括以下步骤：

获取目标图像数据库；

基于目标图像数据库对全推理目标检测网络模型进行训练及验证，得到训练好的全推理目标检测网络模型，其中，所述全推理目标检测网络模型通过获取初始目标检测网络模型，基于差值注意力算法所述初始目标检测网络模型进行初始改进；基于胶囊推理子网络模型进行目标位置和类别信息挖掘得到的；

将待检测目标图像输入至训练好的全推理目标检测网络模型中，得到待检测目标信息。

作为一种可实施方式，所述基于差值注意力算法所述初始目标检测网络模型进行初始改进，包括以下步骤：

基于初始目标检测网络模型得到最后两层的特征图，第一特征图和第二特征图，其中第一特征图为倒数第二层的特征图，第二特征图为倒数第一层的特征图；

对第二特征图进行上采样和卷积处理，得到第三特征图；

将第三特征图和第一特征图进行对比，得到相应的差值，并将所述差值进行sigmoid处理，作为mask结果；

基于mask结果并以乘积附加到第一特征图上，得到第四特征图；

将第四特征图和第二特征图进行求和，得到第五特征图。

作为一种可实施方式，所述基于胶囊推理子网络模型进行目标位置和类别信息挖掘，包括以下步骤：

将第五特征图作为倒数第一层的特征图并转换为胶囊，将此作为输入胶囊，将输入胶囊进行扩充得到输出胶囊；

基于多头注意力得到输出胶囊经过仿射变换后和输入胶囊的相关性；

采用匈牙利算法进行二分匹配并得到匹配结果，分别计算损失结果，根据损失结果进行梯度计算和参数更新，其中，所述损失结果包括giou损失、交叉熵损失和匹配损失。

作为一种可实施方式，所述基于多头注意力得到输出胶囊经过仿射变换后和输入胶囊间的相关性，包括以下步骤：

将输入胶囊的对应的胶囊个数作为多头注意力机制的头，沿着胶囊个数所在的维度，采用多头注意力计算输出胶囊经过仿射变换后和输入胶囊间的相关性，获取输出胶囊分配到输入胶囊的概率值，通过以下公式实现：

其中，S是查询向量，设置为DCaps，Z为key和value向量，设置为Pcaps，尺度因子

为内积值，d表示键值向量的维度；

将输出胶囊作为下层特征图，基于注意力路由传递方式推断图像中所包含的语义信息，其中，语义信息至少包括图片中的目标个数信息，每个目标的所属类别信息以及每个目标在图片中的位置。

作为一种可实施方式，所述将输入胶囊进行扩充得到输出胶囊，具体如下：

将输入胶囊的维度形状表示为[bs,100,head,dim]，则输出胶囊的维度形状表示为[bs,100,head,dim,classes+coord]，其中，100表示输出胶囊的个数，classes+coord表示输出胶囊的维度，head表示输入胶囊的个数，dim表示输入胶囊的维度。

一种基于全推理神经网络的目标检测系统，包括数据获取模块、模型获取模块及结果检测模块；

所述数据获取模块，用于获取目标图像数据库；

所述模型获取模块，用于基于目标图像数据库对全推理目标检测网络模型进行训练及验证，得到训练好的全推理目标检测网络模型，其中，所述全推理目标检测网络模型通过获取初始目标检测网络模型，基于差值注意力算法所述初始目标检测网络模型进行初始改进；基于胶囊推理子网络模型进行目标位置和类别信息挖掘得到的；

所述结果检测模块，用于将待检测目标图像输入至训练好的全推理目标检测网络模型中，得到待检测目标信息。

作为一种可实施方式，所述模型获取模块，被设置为：

对第二特征图进行上采样和卷积处理，得到第三特征图；

将第四特征图和第二特征图进行求和，得到第五特征图。

作为一种可实施方式，所述模型获取模块，被设置为：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下所述的方法步骤：

获取目标图像数据库；

一种基于全推理神经网络的目标检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下的方法步骤：获取目标图像数据库；

本发明由于采用了以上技术方案，具有显著的技术效果：

本发明采用构建差值注意力提取方法，用于实现特征图信息的增强，主要通过提取backbone网络中的大尺度的特征图，提取大分辨率特征图，并和小分辨率图的信息进行对比，提取他们中间被过滤掉的信息，并将其作为mask，用于对大分辨率特征图中，进一步增强特征图中包含的小目标的信息。最后，将大小分辨率特征图进行合并，用于后续的目标检测。

本发明在胶囊网络的启发下，构建推理胶囊推理子网络，对于目标所属类别和位置信息的提取基于胶囊构建和注意力信息传递的方式实现。采用胶囊去实现目标部件的挖掘，并利用注意力信息传递的方式进行目标类别和位置的预测，最终获取目标的类别和位置信息；

本发明提出一种可实现全推理模式的目标检测网络框架，该框架在DETR目标检测网络的基础上，首先，提出了一种层间差值注意力方法，用于实现特征信息的增强，进而提高DETR方法的小目标检测准确率；接着针对目标检测任务对于目标间相对位置关系的特殊需求，构建胶囊推理子网络用于实现目标位置和类别信息挖掘，进一步提高了检测的性能；

针对小目标检测性能较差的问题，充分利用大尺度的特征图信息，同时避免增加模型训练的负担，提出一种层间差值注意力提取方法，用于实现特征图信息的增强，以提升了模型的检测性能；

为提高检测的性能，充分利用目标的相对位置关系和类别关系，构建推理胶囊推理子网络，并利用注意力路由提取全局信息，实现目标类别和位置信息的推理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法的流程示意图；

图2是本发明系统的结构示意图；

图3是本发明的层间差值注意力实现原理图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1：

一种基于全推理神经网络的目标检测方法，如图1所示，包括以下步骤：

S100、获取目标图像数据库；

S200、基于目标图像数据库对全推理目标检测网络模型进行训练及验证，得到训练好的全推理目标检测网络模型，其中，所述全推理目标检测网络模型通过获取初始目标检测网络模型，基于差值注意力算法所述初始目标检测网络模型进行初始改进；基于胶囊推理子网络模型进行目标位置和类别信息挖掘得到的；

S300、将待检测目标图像输入至训练好的全推理目标检测网络模型中，得到待检测目标信息。

在一个实施例中，所述基于差值注意力算法所述初始目标检测网络模型进行初始改进，包括以下步骤：

对第二特征图进行上采样和卷积处理，得到第三特征图；

将第四特征图和第二特征图进行求和，得到第五特征图。

以上步骤可以参见附图3所示，为了充分利用大尺度的特征图信息，同时避免增加模型训练的负担，本发明提出一种层间差值注意力提取方法，用于实现特征图信息的增强，主要通过挖掘大尺度特征图和小尺度特征图之间的差异，并利用该差异性实现特征图信息的增强，最终提升了模型的检测性能。具体实现细节如下：输入图像经过CNN卷积神经网络，得到不同网络最后两层的特征图，记为：第l-1层的特征F₁，第l层的特征F₂；接着，对F₂经过上采样和卷积处理之后，和F₁进行对比，求取差值，那么差值即代表了上一层到下层优化过程中丢失的信息。而网络越深，其小目标信息的损失越明显，所以该差值信息可认为是包含了较多的小目标信息的；然后，我们将差值结果经过sigmoid激活之后，作为小目标的mask结果，并以乘积附加到F₁上，用于增强F₁中的小目标信息；最后，将F₁经过处理之后得到的F₄和F₂求和，实现差值注意力在网络结构方面的应用。

在一个实施例中，所述基于胶囊推理子网络模型进行目标位置和类别信息挖掘，包括以下步骤：

将第五特征图作为倒数第一层的特征图并转换为胶囊，将此作为输入胶囊，将输入胶囊进行扩充得到输出胶囊，具体为将输入胶囊的维度形状表示为[bs,100,head,dim]，则输出胶囊的维度形状表示为[bs,100,head,dim,classes+coord]，其中，100表示输出胶囊的个数，classes+coord表示输出胶囊的维度，head表示输入胶囊的个数，dim表示输入胶囊的维度；

具体地，所述基于多头注意力得到输出胶囊经过仿射变换后和输入胶囊间的相关性，包括以下步骤：

为内积值，d表示键值向量的维度；

也就是说，在此实施例中，本发明其实是将目标检测问题转化为对图片的语义分析问题，即：该图像当中有多少个目标，分别所属哪个类别，位置在哪。为实现该思路，我们在胶囊网络的启发下，构建推理胶囊推理子网络，其中，目标个数的实现通过经典的Transformer编解码器就可以实现，目标所属类别和位置信息的提取，通过构建胶囊结构以及注意力信息传递的方式实现。具体细节如下：目标检测方法中，采用Transformer实现了从单张图片到目标个数的推理过程，但是后续的目标类别和位置的获取，采用了多层全连接的形式。为了引入目标的相对位置信息和类别关系，在推理的过程中，捕捉全局信息，以增强目标检测的性能。我们借鉴了胶囊网络的构建思想，采用胶囊的信息推理方式，实现了目标检测的全推理构建方法，即以集合预测形式，将该图片的描述转换成：图片当中的目标有几个，每个目标的所属类别是什么，以及每个目标在图片中的位置是什么，在此，初始目标检测网络模型可以选择Transformer，具体实现如下：

将Transformer编码器得到的特征表示进行胶囊转换，得到PCaps表示，那么Feat特征就可转化为胶囊表示PCaps，大小为[bs,100,head,dim]，其中head表示胶囊的个数，而dim表示每个胶囊的向量表示，用于表示胶囊的姿态、纹理、方向等等，至此，得到了PCaps表示。

以PCaps特征图作为下层，通过注意力路由传递方式，去推断出图片当中所包含的语义信息，包括:图片当中的目标有几个，每个目标的所属类别是什么，以及每个目标在图片中的位置是什么，表示为数字胶囊DCaps，大小为[bs,100,classes+coord]，其中classes代表目标类别个数，coord代表目标框的坐标数目，值为4。其中，注意力路由的实现方法如下：首先将PCaps的维度形状为[bs,100,head,dim]，将其扩充至[bs,100,head,dim,classes+coord]，其中输出胶囊的个数和维度分别为100和classes+coord，输入胶囊的个数和维度分别为head和dim。为了获取下层胶囊分配到上层胶囊的概率值，将输入胶囊的对应的胶囊个数head作为多头注意力机制的头，沿着head所在的维度，采用多头注意力去计算输出胶囊经过仿射变换后和输入胶囊间的相关性，即可实现输入到输出的信息传递，计算如式(1)。

其中其中，S是查询向量，这里设置为DCaps，Z为key和value向量，这里设置为Pcaps，尺度因子

是为了调节以避免过大的内积值，d是键值向量的维度。

对于上述输出的结果，采用匈牙利算法进行二分匹配，获取匹配结果，分别计算giou损失、交叉熵损失和匹配损失，根据损失结果进行梯度计算和参数更新，最终得到全推理目标检测网络模型并在后续应用过程中可以对此模型进行更新，获得全推理目标检测网络模型之后就可以应用于对图像中的物体进行检测了。

实施例2：

一种基于全推理神经网络的目标检测系统，包括数据获取模100、模型获取模块200及结果检测模块300；

所述数据获取模块100，用于获取目标图像数据库；

所述模型获取模块200，用于基于目标图像数据库对全推理目标检测网络模型进行训练及验证，得到训练好的全推理目标检测网络模型，其中，所述全推理目标检测网络模型通过获取初始目标检测网络模型，基于差值注意力算法所述初始目标检测网络模型进行初始改进；基于胶囊推理子网络模型进行目标位置和类别信息挖掘得到的；

所述结果检测模块300，用于将待检测目标图像输入至训练好的全推理目标检测网络模型中，得到待检测目标信息。

所述模型获取模块200，被设置为：

对第二特征图进行上采样和卷积处理，得到第三特征图；

将第四特征图和第二特征图进行求和，得到第五特征图。

所述模型获取模块200，被设置为：

实施例3：

S100、获取目标图像数据库；

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是：

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

此外，需要说明的是，本说明书中所描述的具体实施例，其程序中的功能函数表现形式、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于全推理神经网络的目标检测方法，其特征在于，包括以下步骤：

获取目标图像数据库；

2.根据权利要求1所述的基于全推理神经网络的目标检测方法，其特征在于，所述基于差值注意力算法所述初始目标检测网络模型进行初始改进，包括以下步骤：

对第二特征图进行上采样和卷积处理，得到第三特征图；

将第四特征图和第二特征图进行求和，得到第五特征图。

3.根据权利要求1所述的基于全推理神经网络的目标检测方法，其特征在于，所述基于胶囊推理子网络模型进行目标位置和类别信息挖掘，包括以下步骤：

4.根据权利要求3所述的基于全推理神经网络的目标检测方法，其特征在于，所述基于多头注意力得到输出胶囊经过仿射变换后和输入胶囊间的相关性，包括以下步骤：

为内积值，d表示键值向量的维度；

5.根据权利要求4所述的基于全推理神经网络的目标检测方法，其特征在于，所述将输入胶囊进行扩充得到输出胶囊，具体如下：

6.一种基于全推理神经网络的目标检测系统，其特征在于，包括数据获取模块、模型获取模块及结果检测模块；

所述数据获取模块，用于获取目标图像数据库；

7.根据权利要求6所述的基于全推理神经网络的目标检测系统，其特征在于，所述模型获取模块，被设置为：

对第二特征图进行上采样和卷积处理，得到第三特征图；

将第四特征图和第二特征图进行求和，得到第五特征图。

8.根据权利要求6所述的基于全推理神经网络的目标检测系统，其特征在于，所述模型获取模块，被设置为：

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述的方法步骤。

10.一种基于全推理神经网络的目标检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述的方法步骤。