CN117809293B

CN117809293B - 一种基于深度神经网络的小样本图像目标计数方法

Info

Publication number: CN117809293B
Application number: CN202410233942.8A
Authority: CN
Inventors: 王静; 翟超; 屈鸿
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-05-03
Anticipated expiration: 2044-03-01
Also published as: CN117809293A

Abstract

本发明公开了一种基于深度神经网络的小样本图像目标计数方法，属于计算机视觉技术领域。本发明包括：对输入的查询支持图像进行图像预处理；使用预训练的骨干网络分别对支持和查询图像进行多尺度特征提取；将各级尺度提取的支持和查询图像特征分别送入特征交互模块进行特征匹配；得到类未知匹配特征，将类未知匹配特征送入解码器，输出预测密度图；初训练阶段基于预测密度图和密度图标签的密度预测损失对的密度模型进行网络参数更新；迁移训练阶段基于迁移损失对密度模型的解码器进行迁移学习，以获取目标域的查询图像的目标类别实体的密度分布估计和计数。本发明可迁移到训练数据集中未出现过的新类别上直接推理，实现对任意类别的通用目标计数。

Description

一种基于深度神经网络的小样本图像目标计数方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于深度神经网络的小样本图像目标计数方法。

背景技术

图像目标计数旨在对图像中的目标实体通过目标检测、机器学习等方法进行数量统计，在实际生活中有着广泛的应用。例如，在生物学中通过细胞计数辅助生物研究，在交通系统中通过车辆计数统计车流量，在客流密集场景下通过人群计数对人流量进行预警和控制，避免人群踩踏事件的发生。

图像目标计数任务早期技术路线是通过传统图像数字处理方法提取图像特征，然后利用人工设计的算子或者机器学习模型对图像到计数值之间的映射函数进行学习。随着人工智能技术的发展，深度学习模型在计算机视觉领域取得了巨大的突破。由于强大的表征学习能力，深度学习被广泛地用于图像目标计数任务。

然而现有的基于峰值查找算法的目标计数模型多集中于对某一特定类别目标的计数，一般需要大量的标注数据并且不能很好的泛化到其他域，缺乏对通用类别目标计数的泛化能力。

发明内容

本发明针对现有技术的不足，提出了一种基于深度神经网络的小样本图像目标计数方法，以实现通过少量样本使深度神经网络模型快速掌握学习图像目标计数的能力，并在新域上实现泛化的图像目标计数。

本发明采用的技术方案为：

一种基于深度神经网络的小样本图像目标计数方法，该方法包括下列步骤：

步骤1，对输入的查询图像和支持图像进行图像预处理；

步骤2，使用预训练的骨干网络对图像预处理后的支持图像和查询图像进行多级特征提取，分别得到每级尺度下的支持图像特征和查询图像特征/>，其中，下标i为尺度区分符；

步骤3，将步骤2提取的支持图像特征和查询图像特征/>送入特征交互模块，得到类未知匹配特征；

步骤4，将类未知匹配特征送入解码器，输出预测密度图；

步骤5，在初训练阶段，基于预测密度图和密度图标签的密度预测损失对骨干网络、特征交互模块和解码器组成的密度模型进行网络参数更新，得到初训练好的密度模型；

步骤6，在迁移训练阶段，迭代使用密度图峰值查找算法查找预测密度图的图像目标区域并计算迁移损失，对初训练好的密度模型的解码器进行迁移学习，得到用于目标域图像的密度模型，以基于该密度模型输出的预测密度图获取目标域的查询图像的目标类别实体的密度分布估计和计数。

进一步的，步骤1的图像预处理包括：

对输入的支持图像和查询图像进行图像尺寸归一化处理和数据增强处理。

进一步的，步骤1的数据增强处理包括高斯模糊、旋转平移、随机水平和垂直翻转。

进一步的，步骤2采用的骨干网络为层数为50层的深度残差网络，选取其中间阶段输出的不同尺度的特征图作为骨干网络的多级特征提取结果。

进一步的，步骤3具体包括：

步骤31，对于每级尺度下的支持图像特征和查询图像特征/>，将查询图像特征输入到一个卷积核为3×3的可变性卷积神经网络，并将支持图像特征/>作为权重向量，经过卷积计算得到第i个尺度的第一响应特征/>；

步骤32，对第一响应特征使用卷积注意力模块进行通道维和空间维的注意力计算，得到第一响应特征/>的空间注意力图和通道注意力图，再将两者进行像素级相乘，得到第二响应特征/>；

步骤33，对第二响应特征进行特征聚合得到类未知匹配特征（聚合特征/>）。

进一步的，步骤33中，特征聚合具体为：将不同尺度的第二响应特征中的最小尺度作为目标尺度，将非目标尺度的第二响应特征/>下采样至目标尺度，再进行通道维度拼接。

进一步的，步骤4的解码器包括若干个堆叠的解码模块，每个解码模块依次包括：上采样层、卷积核为3×3的卷积层和Relu激活函数。

进一步的，步骤5中的密度预测损失具体设置为：

其中，为密度预测损失，/>为第j个训练样本的预测密度图，/>为第j个训练样本的密度图标签，/>为均方误差函数，N为批训练样本数。

进一步的，步骤6中使用密度图峰值查找算法查找预测密度图的目标图像区域具体为：

对预测密度图进行池化核为s×s的最大池化操作，s为输入的支持图像的平均边长；

对最大池化操作前后的预测密度图进行对比，找到池化前后密度值相等的像素点位置，将其标记为图像峰值点；

过滤预测密度值小于预置阈值的图像峰值点，基于保留的图像峰值点得到图像目标区域。

进一步的，步骤6中的迁移损失具体为：

其中，为迁移损失，/>为高斯分布损失，/>为前景密度局部损失；

高斯分布损失和前景密度局部损失/>的计算公式分别为：

；

其中，A为图像目标区域的坐标点集合，为(x,y)位置处的服从标准二维正态分布的值，/>是密度模型输出的(x,y)位置处的预测密度值。

本发明提供的技术方案至少带来如下有益效果：

本发明可迁移到训练数据集中未出现过的新类别上直接推理，实现对任意类别的通用目标计数；且对于新类别无需专门制作标注数据集，可以直接应用小样本计数模型对其推理，节省对目标类别数据集的标注成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的一种基于深度神经网络的小样本图像目标计数方法的处理流程图。

图2为本发明实施例中的密度模型的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优势更加清楚，下面将结合本发明实施中的附图，对本发明实施例中的技术方案进行详细、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常情况下，在附图中描述和展示的本发明实施例的组件能够使用不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非只在限制要求保护的本申请的范围，而是仅仅表示本发明的选定实施例。

本发明实施例公开了一种基于深度神经网络的小样本图像目标计数方法，参见图1与图2，本发明实施例方法具体包括下列步骤：

步骤1，对输入的查询图像和支持图像进行图像预处理；

步骤4，将类未知匹配特征送入解码器，输出预测密度图；

作为一种可能的实现方式，本发明实施例的步骤1的图像预处理包括：

以方便对图像进行批量化训练，提高模型学习效率，对输入的支持图像和查询图像进行图像尺寸归一化处理，优选的，可将输入的支持图像和查询图像裁剪为128×128分辨率大小；

为了实现数据的增广、克服样本数量少导致的特征稀疏问题，图像预处理还包括对查询图像和支持图像进行数据增强操作，具体包括高斯模糊、旋转平移、随机水平和垂直翻转等操作；

作为一种可能的实现方式，本发明实施例的步骤2具体为：

使用在ImageNet数据集（用于视觉对象识别的可视化数据库）上预训练好的公开模型ResNet50（包括50层的深度残差网络）作为骨干网络，其中，ResNet50网络可以分为五个阶段，起始阶段（Layer1）和四个卷积残差阶段（Layer2~Layer5），起始阶段包括一层卷积操作和最大池化操作，各卷积残差阶段由若干个残差块堆叠而成，该残差块的主支路依次包括卷积核为1×1、卷积核为3×3和卷积核为1×1的卷积操作，残差块的输入和第三个卷积操作之间存在短连接，且前两个卷积操作后还包括激活函数Relu。具体的，卷积残差阶段Layer2~Layer5堆叠的残差块数量依次为：3、4、6和3。本发明实施例中，选取ResNet50的中间阶段（即layer2，layer3和layer4）的输出作为提取的多尺度特征。

将图像预处理后的查询图像和支持图像分别输入ResNet50网络（即将ResNet50作为查询图像和支持图像的共享的深度残差网络ResNet）并收集在中间阶段layer2，layer3和layer4的输出，如图2所示，分别得到支持图像和查询图像在第i个尺度下的特征表示，即得到支持图像特征和查询图像特征/>。

作为一种可能的实现方式，本发明实施例的步骤3具体为：

步骤31，对于每级尺度下的支持图像特征和查询图像特征/>，将查询图像特征输入到一个卷积核为3×3的可变性卷积神经网络(Deformable convolution)，并将支持图像特征/>作为权重向量，经过卷积计算得到第i个尺度的第一响应特征/>；

步骤32，对第一响应特征使用卷积注意力模块（Convolutional BlockAttention Module，CBAM）进行通道维和空间维的注意力计算，得到第一响应特征/>的空间注意力图和通道注意力图，再将两者进行像素级相乘，得到第二响应特征/>；

步骤33，将多尺度的第二响应特征进行聚合得到聚合特征/>（即类未知匹配特征），本发明实施例中，具体聚合方式为：将layer2、layer3阶段的第二响应特征/>分别下采样至layer4阶段的第二响应特征/>的特征图的分辨率后，再与layer4阶段的第二响应特征/>进行通道维度拼接，得到聚合特征/>，如图2所示。本实施例中，通过将layer2、layer3阶段的/>分别进行4倍和2倍下采样并与layer4阶段的第二响应特征/>进行通道维度拼接，得到聚合特征/>。

作为一种可能的实现方式，本发明实施例的步骤4具体为：

构建解码器，解码器由连续的4个解码模块串联组成，每个解码模块由一个上采样层、3×3尺寸的卷积层和Relu激活函数串联组成，将聚合特征输入解码器，得到预测的单通道密度图，即预测密度图，从而可以将预测密度图中的值相加得到查询图像中的目标数量估计值。

作为一种可能的实现方式，本发明实施例的步骤5具体为：

对密度模型预测的密度图和标签进行损失计算然后使用梯度反向传播算法对密度模型权重（网络参数）进行更新，损失计算公式如下：

其中，步骤5中，初训练的结束条件可以设置为：密度预测损失收敛或者初训练次数达到预设上限。

作为一种可能的实现方式，本发明实施例的步骤6包括：

在迁移训练阶段，迭代使用峰值查找算法定位查询图像中对应的目标区域，在每一轮迭代中对这些区域进行迁移损失计算；

其中，本发明实施例中采用的迭代峰值查找算法具体为：首先对预测密度图进行池化核为s×s的最大池化操作，s为输入的支持图像的平均边长，然后对最大池化操作前后的预测密度图进行对比，找到池化前后密度值相等的像素点位置，将其标记为图像峰值点，为了防止噪声干扰，对图像峰值点的预测密度值小于预设阈值的点进行过滤丢弃，保留剩下的图像峰值点为图像目标区域。

对预测密度图上的这些图像目标区域进行损失计算并使用梯度反向传播算法对解码器进行网络参数更新。损失包括高斯分布损失和前景密度局部损失/>，计算公式如下：

其中，表示迁移损失。

高斯分布损失使得图像目标区域的密度分布趋近于二维高斯分布，计算公式如下：

其中，A为图像目标区域的坐标点集合，是(x,y)位置处的服从标准二维正态分布的值，/>是密度模型输出的(x,y)位置处的预测密度值；

前景密度局部损失使得图像目标区域的密度值和趋近于1，计算公式如下：

其中，表示2范数。

迁移训练阶段的训练结束条件可以设置为迁移损失小于预设值或者迁移训练次数达到预设上限。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于深度神经网络的小样本图像目标计数方法，其特征在于，包括下列步骤：

步骤1，对输入的查询图像和支持图像进行图像预处理；

步骤4，将类未知匹配特征送入解码器，输出预测密度图；

步骤6，在迁移训练阶段，迭代使用密度图峰值查找算法查找预测密度图的图像目标区域并计算迁移损失，对初训练好的密度模型的解码器进行迁移学习，得到用于目标域图像的密度模型，以基于该密度模型输出的预测密度图获取目标域的查询图像的目标类别实体的密度分布估计和计数；

其中，步骤3具体包括：

步骤31，对于每级尺度下的支持图像特征和查询图像特征/>，将查询图像特征/>输入到一个卷积核为3×3的可变性卷积神经网络，并将支持图像特征/>作为权重向量，经过卷积计算得到第i个尺度的第一响应特征/>；

步骤33，对第二响应特征进行特征聚合得到类未知匹配特征；

特征聚合具体为：将不同尺度的第二响应特征中的最小尺度作为目标尺度，将非目标尺度的第二响应特征/>下采样至目标尺度，再进行通道维度拼接。

2.如权利要求1所述的一种基于深度神经网络的小样本图像目标计数方法，其特征在于，步骤1的图像预处理包括：

3.如权利要求2所述的一种基于深度神经网络的小样本图像目标计数方法，其特征在于，数据增强处理包括高斯模糊、旋转平移、随机水平和垂直翻转。

4.如权利要求1所述的一种基于深度神经网络的小样本图像目标计数方法，其特征在于，步骤2采用的骨干网络为层数为50层的深度残差网络，选取其中间阶段输出的不同尺度的特征图作为骨干网络的多级特征提取结果。

5.如权利要求1所述的一种基于深度神经网络的小样本图像目标计数方法，其特征在于，步骤4的解码器包括若干个堆叠的解码模块，每个解码模块依次包括：上采样层、卷积核为3×3的卷积层和Relu激活函数。

6.如权利要求1所述的一种基于深度神经网络的小样本图像目标计数方法，其特征在于，步骤5中的密度预测损失具体设置为：

；

7.如权利要求1所述的一种基于深度神经网络的小样本图像目标计数方法，其特征在于，步骤6中使用密度图峰值查找算法查找预测密度图的目标图像区域具体为：

8.如权利要求7所述的一种基于深度神经网络的小样本图像目标计数方法，其特征在于，步骤6中的迁移损失具体为：

；

高斯分布损失和前景密度局部损失/>的计算公式分别为：

；