CN117934910A

CN117934910A - 一种对目标部位进行子区域图像识别的方法

Info

Publication number: CN117934910A
Application number: CN202311785790.4A
Authority: CN
Inventors: 武军安; 高宁; 郭锐
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-04-26

Abstract

本发明公开了一种对目标部位进行子区域图像识别的方法，涉及目标识别领域。本发明创新点主要包含两部分，一部分为目标子区域的划分，生成目标子区域标签。另一部分为目标子区域图像损失函数的定义。首先建立数据集，将数据集图像通过CBS模块增强其特征表达能力。引入注意力机制来替换传统卷积来自动获取每个通道的重要程度并分别赋予各自的权重。之后使用深度可分离卷积，其能大大减少模型参数量缩短计算时间。在网络损失函数中增加了目标子区域图像回归损失，在保留从属关系的基础上实现了目标子区域图像检测。该方法能够显著的提升目标识别的准确率和可靠性，有助于提升系统的整体性能，满足了不同应用场景需求。

Description

一种对目标部位进行子区域图像识别的方法

技术领域

本发明属于目标识别领域，具体涉及一种对目标部位进行子区域图像识别的方法。

背景技术

目前，人脸识别、工业检测、航空航天等领域对目标识别方法的要求越来越高。传统的识别方法只能够对目标的总体进行识别和判断，无法对目标的子区域图像进行关联识别。例如在对人体或者飞机进行识别分类时，只能够将目标看成一个质点来进行判断，无法将整体图像和子区域图像进行关联并对人体的子部位和飞机的机翼进行进一步的分析。在实际应用中无法充分的发挥出目标识别的效果。北京大学第一医院提出过一种图像区域识别的方法和装置，但是其必须预先设定感兴趣目标的形状信息，具有一定的局限性。联想(北京)有限公司也提出了一种图像区域识别的方法及电子设备，其主要是确定试卷中图像单元和文本单元所处的区域，其应用范围过小而且无法判断子区域与整体区域的从属关系。

如果能够将图像区域识别方法应用范围扩大并且能够在判断识别分类时给出从属关系，那么就能够大大的提升该方法的应用范围，例如：对人体的子区域图像进行识别分类后，可以分辨出人体的活动姿态，进一步对人体的身体活动进行行为预测。对飞机的识别分类中加入子区域图像识别后，能够准确的对飞机机翼和整体进行关联分析，进而推断出飞机的飞行状态。

发明内容

本发明提出了一种对目标部位进行子区域图像识别的方法，该方法主要包含两部分，一部分为目标子区域的划分，生成目标子区域标签。另一部分为目标子区域图像损失函数的定义。将数据集图像首先通过CBS模块处理，增强其特征表达能力，其中包括BN层的缩放因子对该通道的重要尺度来裁剪相应通道，然后对剪枝后的网络模型进行重训练恢复精度。引入注意力机制来替换传统卷积来自动获取每个通道的重要程度并分别赋予各自的权重。将单个卷积运算转换成包含逐通道卷积运算和逐点卷积运算的深度可分离卷积，其能在保证检测检测精度的同时大大的减少模型的计算量和参数量，缩短模型计算时间。在网络的检测头部加上子区域图像预测项，在网络损失函数中增加了子区域图像回归损失，在保留从属关系的基础上实现了整体目标图像检测和子区域图像检测。这种方法能够显著的提升识别的准确率和可靠性，有助于保证系统的整体性能，提高效率，满足了不同应用场景的需求。

实现本发明的技术解决方案为：一种对目标部位进行子区域图像识别的方法，包括以下步骤：

步骤1：采集n张红外目标图像，红外目标图像作为原始图像，并构建原始图像数据集，将原始图像数据集按照3：1划分为原始训练集和原始测试集；对原始训练集中的原始图像进行处理，得到具有从属关系的目标子区域图像，利用子区域图像构建训练集；

步骤2：构建目标子区域图像识别网络：

所述目标子区域图像识别网络包括CBS模块、注意力机制、深度可分离卷积网络、Softmax分类层；

步骤3：利用训练集训练构建的目标子区域图像识别网络，得到目标子区域图像识别网络模型：

将训练集使用CBS模块进行处理得到第一特征图；将第一特征图经过注意力机制来自动获取每个通道的重要程度，并对其分别赋予各自的权重，再利用深度可分离卷积网络进行卷积运算得到精简后的第二特征图；

第二特征图在Softmax分类层引入损失函数来进行反向传播，对权重和偏置进行修正，得到目标子区域图像识别网络模型；

步骤4：使用原始测试集来检验目标子区域图像识别网络模型，验证其目标准确率，召回率和精确率。

本发明与现有技术相比，其显著优点在于：

(1)与传统目标识别技术相比较，本发明能够进一步对识别目标的子区域图像进行识别并与主体图像关联，使得目标检测和目标子区域图像检测合二为一，并且该方法能够很容易移植到现有的基于CNN的网络模型中，使得目标识别技术得到更深层次的应用。

(2)本发明创新性的提出了目标子区域图像识别定位下的损失函数，该损失函数能够在提升目标识别速度的同时增强对子区域图像的辨别能力。

附图说明

图1为本发明的一种对目标部位进行子区域图像识别的方法流程图。

图2为本发明的目标识别的矩形预测框和子区域图像划分。

图3为人工标注的人体目标子区域图像示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

结合图1，本发明所述的一种对目标部位进行子区域图像识别的方法，包括以下步骤：

步骤1：构建目标子区域图像数据集，并同时提供具有从属关系的目标子区域图像。具体如下：

步骤1-1：采集n张红外图像，红外目标图像作为原始图像，10000＜n＜100000，分辨率为288×288，构建原始图像数据集，将原始图像数据集按照3：1划分为原始训练集和原始测试集。根据目标的类别对原始训练集中的原始图像进行划分。为了增加输入特征的多样性，让网络更容易学习到目标特征。

步骤1-2：对原始训练集中的原始图像进行划分，利用矩形检测框对其定位并对内部子区域进行划分，得到对应的目标子区域图像，利用目标子区域图像构建训练集。具体如下：

原始图像的宽为w，原始图像的高为h。矩形检测框左上角坐标为(x_a，y_a)、右下角坐标为(x_b，y_b)，生成图像目标的标签时，矩形检测框标签宽高表示为(w_R，h_R)，矩形检测框标签中心点坐标为(x_R，y_R)。矩形检测框内的目标子区域图像设置为圆形，其半径设置为r_rm，圆心坐标设置为(x_rm，y_m)，圆心标签(x′_rm，y′_rm，r′_rm)，利用下式求得目标子区域的位置和大小：

将矩形检验框内的目标划分为m个目标子区域，m的取值范围取决于划分的子区域的多少，其标签定义为：

(R，x_R,_yR,w_R，h_R，x′_r1，_y′_r1，r′_r1，x′_r2，y′_r2，r′_r2，x′_r3，y′_r3，r′_r3...x′_rm，y′_rm，r′_rm)

该标签的第1位R表示是否检测到目标，如果为1，则说明检测到目标，第2-5位表示目标检测框的位置和大小，后面的3m位则表示m个目标子区域对应的圆心标签。

步骤1-3：将原始训练集进行步骤1-2处理生成目标子区域图像，将其作为训练集。

步骤2：构建目标子区域图像识别网络，将训练集图像使用CBS模块处理，将处理过的图像使用深度可分离卷积模块进行特征提取。具体如下：

步骤2-1：构建目标子区域图像识别网络，将训练集图像使用CBS模块进行四次处理得到第一特征图，CBS模块包括卷积层、BN层和激活函数层。增强卷积神经网络处理后图像的特征表达能力。

步骤2-2：将第一特征图经过注意力机制来自动获取每个通道的重要程度并分别赋予各自的权重，将处理过的第一特征图使用深度可分离卷积进行4次卷积运算得到精简后的第二特征图，每次深度可分离卷积运算后特征图的尺寸缩减一半，深度扩大一倍。该方法在保证检测精度的同时大大减少运算的计算量和参数量。

步骤3：最后Softmax分类层引入损失函数来进行反向传播，以修正前面各层参数权重和偏置，在损失函数中引入了子区域图像损失函数loss_part和损失系数λ_part，实现对目标的整体检测并对目标子区域进行识别定位，得到目标子区域图像识别网络模型。具体如下：

步骤3-1：第二特征图在最后的Softmax分类层引入损失函数来进行反向传播，以修正权重和偏置，在损失函数中引入了子区域图像损失函数loss_part和损失系数λ_part，实现对目标的整体检测同时还对目标子区域进行识别定位，得到目标子区域图像识别网络模型，其损失函数loss表示为：

loss＝λ_boxloss_box+λ_objloss_obj+λ_clsloss_cls+λ_partloss_part (3)

式中的前三项loss_box、loss_obj、loss_cls与YOLO模型中损失函数定义相同，分别为边界框损失、置信度损失和类别损失；第四项loss_part为子区域图像损失函数，用于实现对m个目标子区域进行识别定位；(λ_box，λ_obj，λ_cls，λ_part)为四项损失的权重系数。目标子区域图像是相对矩形检测框的左上角标注的，在计算损失时需要把矩形检测框与目标子区域相关联，再计算预测值和真实值间的均方误差，从而使目标子区域和目标的整体建立起约束关系，目标子区域的损失计算如下式所示：

式中：i表示第i张目标图像，m表示第m个目标子区域；表示网络预测输出的目标长宽；/>表示真实目标矩形检测框的宽和高；(x_rm，y_rm，r_rm)表示真实子区域在矩形检测框内的中心位置和区域半径；/>表示经过激活函数输出的目标子区域在预测边界框中的位置和区域半径。

步骤3-2：用训练集图像充分训练构建的目标子区域图像识别网络，得到目标子区域图像识别网络模型，进一步提高网络模型的准确性和稳定性。设置优化器为随机梯度下降，设置训练周期S和初始学习率Lr，学习率在前几轮训练时，初始学习率Lr较小，通常为0.1或0.001，然后逐渐增加学习率，直至接近最优解时再逐渐减小学习率，一直迭代到最优解；然后再使用余弦退火策略逐步降低学习率至0.001，最后设置损失函数中的权重系数(λ_box，λ_obj，λ_cls，λ_part)。

步骤4：使用原始测试集来检验目标子区域图像识别网络模型，验证其目标准确率，召回率和精确率。具体如下：

准确率表示在所有测试样本中，预测正确的样本所占的比例，计算公式如下：

其中I(·)表示指示函数，当x为真时，I(x)＝1，x为假时I(x)＝0。

召回率表示实际属于c类的测试样本中，被预测为c的样本所占的比例，计算公式如下：

其中TP_c表示被预测为c类实际也确实属于c类的样本数量，FN_c表示未被预测为c类实际属于c类的样本数量。

精确率表示被预测为c类的样本中，确实为c类的样本所占的比例，计算公式如下：

其中TP_c表示被预测为c类实际也确实是c类的样本数量，FP_c表示被预测为c类实际却不属于c类的样本数量。

实施例1

结合图1～图3，本发明所述的一种对目标部位进行子区域图像识别的方法，包括以下步骤：

步骤1：构建人体目标子区域图像数据集，并同时提供具有从属关系目标子区域图像。

步骤1-1：采集n张红外人体图像，n＝40000，分辨率为288×288，构建人体原始图像数据集，并同时提供具有从属关系的人体目标子区域图像，其中30000张图像为原始训练集图像，另外的10000张为原始测试集图像。根据人体特征对原始训练集中的原始图像进行划分。为了增加输入特征的多样性，让网络更容易学习到目标特征。

原始图像的宽为w，原始图像的高为h。矩形检测框左上角坐标为(x_a，y_a)、右下角坐标为(x_b，y_b)，生成图像目标的标签时，矩形检测框标签宽高表示为(w_R，h_R)，矩形检测框标签中心点坐标为(x_R，y_R)。矩形检测框内的目标子区域图像设置为圆形，其半径设置为r_rm，圆心坐标设置为(x_rm，y_rm)，圆心标签(x′_rm，y′_rm，r′_rm)，利用下式求得目标子区域的位置和大小：

(R，x_R，y_R,w_R，h_R，x′_r1，y′_r1，r′_r1，x′_r2，y′_r2，r′_r2，x′_r3，y′_r3，r′_r3...x′_rm，y′_rm，r′_rm)

步骤1-3：将30000张原始训练集进行步骤1-2处理生成目标子区域图像，将其作为训练集。

步骤2：构建目标子区域图像识别网络。

步骤2-1：构建实例级人体目标子区域图像识别网络，将训练集图像使用CBS模块进行四次处理得到第一特征图，CBS模块包括卷积层、BN层和激活函数层，第一次处理卷积核K＝11大小为3×3步长S＝2，第二次处理卷积核K＝22大小为1×1步长S＝1，第三次处理卷积核K＝22大小为3×3步长S＝2，第四次处理卷积核K＝44大小为3×3步长S＝2。输出第一特征图大小为72×72×44。增强卷积神经网络处理后图像的特征表达能力。

步骤2-2：将第一特征图经过注意力机制来自动获取每个通道的重要程度并分别赋予各自的权重，将处理过的第一特征图使用深度可分离卷积进行4次卷积运算得到精简后的第二特征图，每次深度可分离卷积运算后特征图的尺寸缩减一半，深度扩大一倍，第二特征图的尺寸为9×9×352。该方法在保证检测精度的同时大大减少运算的计算量和参数量。

步骤3：最后的Softmax分类层引入损失函数来进行反向传播，以修正前面各层参数权重和偏置，在损失函数中引入了子区域图像损失函数loss_part和损失系数λ_part，实现对目标的整体检测并对目标子区域进行识别定位。得到目标子子区域图像识别网络模型。具体如下：

步骤3-1：第二特征图在最后的Sofimax分类层引入损失函数来进行反向传播，以修正权重和偏置，在损失函数中引入了子区域图像损失函数loss_part和损失系数λ_part，实现对目标的整体检测同时还对目标子区域进行识别定位，得到目标子区域图像识别网络模型，其损失函数loss表示为：

loss＝λ_boxloss_box+λ_objloss_obj+λ_clsloss_cls+λ_partloss_part (3)

式中的前三项与YOLO模型中损失函数定义相同，分别为边界框损失、置信度损失和类别损失；第四项loss_part为子区域图像部位位置损失函数，用于实现对m个目标子区域图像进行识别定位；(λ_box，λ_obj，λ_cls，λ_part)为四项损失的权重系数。目标子区域是相对矩形检测框的左上角标注的，在计算损失时需要把矩形检测框与目标子区域相关联，再计算预测值和真实值间的均方误差，从而使目标子区域和目标的整体建立起约束关系，目标子区域的损失计算如下式所示：

步骤3-2：用训练集图像充分训练构建的目标子区域图像识别网络模型，进一步提高网络模型的准确性和稳定性。网络训练的主要参数如下：训练优化器为随机梯度下降；训练周期200个；初始学习率为0.01，学习率的在前几轮训练时从一个较小的学习率线性增加至初始学习率，然后再使用余弦退火策略逐步降低学习率，最终学习率为0.001；损失函数中的权重系数(λ_box，λ_obj，λ_cls，λ_part)取(0.05，1.0，0.5，0.1)。

步骤4：使用原始测试集来检验人体目标子区域图像识别网络模型，验证其目标准确率，召回率和精确率。具体如下：

其中TP_c表示被预测为c类实际也确实是c类的样本数量，FP_c表示被预测为c类实际却不属于c类的样本数量。其训练的环境如下：

将该算法模型命名为Fast-CNN与主流的YOLO-V3模型相比较，计算比较结果如下：

由测试结果可知，经过本发明提出的网络模型处理后得到的计算大大缩短，识别分辨能力显著提升。在目标检测性能上，该模型与YOLO-V3模型相比，目标准确率提高了1.6％，召回率提高了2.2％，精确率提高了1.6％。在对目标子区域图像的识别上的精确率为98.9％，完全满足实验预期。

综上所述，本发明所述一种能够对目标子区域图像进行识别的方法，该方法不仅能够识别出总体目标还能够对目标的子区域图像进行划分和识别，并且该方法能够灵活的移植到已知的目标识别技术中去，大大提高了目标识别模型的准确率和普及率。

Claims

1.一种对目标部位进行子区域图像识别的方法，其特征在于，包括以下步骤：

步骤1：采集n张红外目标图像，将红外目标图像作为原始图像，并构建原始图像数据集，将原始图像数据集按照3：1划分为原始训练集和原始测试集；对原始训练集中的原始图像进行处理，得到具有从属关系的目标子区域图像，利用目标子区域图像构建训练集；

步骤2：构建目标子区域图像识别网络：

2.根据权利要求1所述的一种对目标部位进行子区域图像识别的方法，其特征在于，步骤1中，采集n张红外目标图像，红外目标图像作为原始图像，并构建原始图像数据集，将原始图像数据集按照3：1划分为原始训练集和原始测试集；对原始训练集中的原始图像进行处理，得到具有从属关系的目标子区域图像。具体如下：

步骤1-1：采集n张红外目标图像，红外目标图像作为原始图像，10000<n<100000，分辨率为288×288，并构建原始图像数据集，将原始图像数据集按照3：1划分为原始训练集和原始测试集；

设原始图像的宽为w，原始图像的高为h；矩形检测框左上角坐标为(x_a,y_a)、右下角坐标为(x_b,y_b)，生成目标图像标签时，矩形检测框标签宽高表示为(w_R,h_R)，矩形检测框标签中心点坐标为(x_R,y_R)；将矩形检测框内的目标子区域图像设置为圆形，其半径设置为r_rm，圆心坐标设置为(x_rm,y_rm)，圆心标签为(x'_rm,y'_rm,r'_rm)，利用下式求得目标子区域的位置和大小：

(R,x_R,y_R,w_R,h_R,x'_r1,y'_r1,r'_r1,x'_r2,y'_r2,r'_r2,x'_r3,y'_r3,r'_r3…x'_rm,y'_rm,r'_rm)

该标签的第1位R表示是否检测到目标，如果为1，则说明检测到目标，第2-5位表示矩形检测框的位置和大小，后面的3m位则表示m个目标子区域对应的圆心标签；

3.根据权利要求2所述的一种对目标部位进行子区域图像识别的方法，其特征在于，步骤2中，CBS模块包括卷积层、BN层和激活函数层。

4.根据权利要求3所述的一种对目标部位进行子区域图像识别的方法，其特征在于，步骤3中，利用训练集训练构建的目标子区域图像识别网络，得到目标子区域图像识别网络模型，具体如下：

步骤3-1：CBS模块对训练集中的子区域图像进行四次特征提取，得到第一特征图；

步骤3-2：将第一特征图经过注意力机制来自动获取每个通道的重要程度并分别赋予各自的权重，再通过深度可分离卷积网络进行4次卷积运算得到精简后的第二特征图，每次深度可分离卷积运算后特征图的尺寸缩减一半，深度扩大一倍；

步骤3-3：在Softmax分类层引入损失函数来进行反向传播，以修正前面各层参数权重和偏置，在损失函数中引入了子区域图像损失函数loss_part和损失系数λ_part，实现对目标的整体检测并对目标子区域进行识别定位，得到目标子区域图像识别网络。

5.根据权利要求4所述的一种对目标部位进行子区域图像识别的方法，其特征在于，步骤3-3中，在Softmax分类层引入损失函数来进行反向传播，以修正权重和偏置，在损失函数中引入了子区域图像损失函数loss_part和损失系数λ_part，实现对目标整体检测同时还对目标子区域进行识别定位，得到目标子区域图像识别网络模型，具体如下：

损失函数loss表示为：

loss＝λ_boxloss_box+λ_objloss_obj+λ_clsloss_cls+λ_partloss_part (3)

式中的前三项loss_box、loss_obj、loss_cls与YOLO模型中损失函数定义相同，分别为边界框损失、置信度损失和类别损失；第四项loss_part为子区域图像损失函数，用于实现对m个目标子区域进行识别定位；(λ_box,λ_obj,λ_cls,λ_part)为四项损失的权重系数；目标子区域是相对矩形检测框的左上角标注的，在计算损失时需要把矩形检测框与目标子区域相关联，再计算预测值和真实值间的均方误差，从而使目标子区域和目标图像建立起约束关系，目标子区域的损失计算如下式所示：

式中：i表示第i张目标图像，m表示第m个目标子区域；表示网络预测输出的目标长宽；/>表示真实目标矩形检测框的宽和高；(x_rm,y_rm,r_rm)表示真实子区域在矩形检测框内的中心位置和区域半径；/>表示经过激活函数输出的目标子区域在预测边界框中的位置和区域半径；

设置优化器为随机梯度下降，设置训练周期S和初始学习率Lr，在前几轮训练时，初始学习率Lr学习率为0.01或0.001，然后逐渐增加学习率，直至接近最优解时再逐渐减小学习率，一直迭代到最优解；然后再使用余弦退火策略逐步降低学习率至0.001，进而设置损失函数中的权重系数(λ_box,λ_obj,λ_cls,λ_part)；通过优化器对权重和偏置进行修正，得到目标子区域图像识别网络模型。

6.根据权利要求5所述的一种对目标部位进行子区域图像识别的方法，其特征在于，步骤4中，使用原始测试集来检验目标子区域图像识别网络模型，验证其目标准确率、召回率和精确率。