CN112215303A

CN112215303A - 一种基于自学属性的图像理解方法及系统

Info

Publication number: CN112215303A
Application number: CN202011220857.6A
Authority: CN
Inventors: 费泽松; 杨舒; 仲顺安
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-01-12
Anticipated expiration: 2040-11-05
Also published as: CN112215303B

Abstract

本发明涉及一种基于自学属性的图像理解方法及系统，属于计算机视觉以及图像理解技术领域。所述图像理解系统，包括输入模块、属性标签生成模块、卷积神经网络模块和输出模块；卷积神经网络模块包括主干网络、图像理解任务模型及自学属性模型；所述方法的训练阶段，对训练样本A进行解码和预处理，得到图像矩阵和任务标签；对解码后的训练样本A进行扩充，得到样本B和样本C，并基于样本A、B及C间的关系生成属性标签，再得到最优的模型参数；测试阶段，对测试图像进行解码和预处理，得到图像矩阵，再对输入的测试图像进行预测，得到图像理解的结果。所述方法无需额外人工标注，能得到更具有表征能力的特征，进一步提升图像理解的结果。

Description

一种基于自学属性的图像理解方法及系统

技术领域

本发明涉及一种基于自学属性的图像理解方法及系统，属于图像理解技术领域。

背景技术

图像理解是指利用计算机系统对输入系统的图像数据进行分析，提取出可以被人理解的描述信息。典型的图像理解任务包括图像识别、目标检测、场景理解等。随着深度学习的发展，基于卷积神经网络的图像理解方法逐渐成为主流，这些方法从训练样本中挖掘有效的图像特征，再将特征映射到具体的图像理解任务空间中。

但是，基于卷积神经网络的图像理解方法依然存在很多问题。首先，这些方法基于大量的训练样本，对于人工标注的需求大；其次，训练过程中会不可避免地会学习到一些无效甚至有干扰的特征，例如由于“猫”通常在室内，模型会将沙发、床、电视等物体视为决定性特征，从而无法正确识别出草地上的“猫”。

发明内容

本发明的目的在于针对现有图像理解方法存在训练样本需求大、人工标注困难、背景中包含干扰特征等技术缺陷，提出了一种基于自学属性的图像理解方法及系统，在基于卷积神经网络的图像理解模型中引入自学属性约束，以提取到更优的图像特征，从而提升图像理解任务的准确率。

其中，属性是指一系列用来描述物体特征的语义描述；一方面，属性能在不同类别物体间迁移，另一方面，属性关注物体所在的区域，对背景中的干扰特征有一定抵抗力。

本发明的核心思想是对训练样本中的目标进行不同等级的遮挡，从而自动生成属性监督信息，以应对训练样本对于人工标注需求大的问题；通过引入自学属性作为辅助任务，约束特征提取模型的训练过程，以应对干扰特征的问题。

为了达到上述目的，本发明采取如下技术方案。

一种基于自学属性的图像理解方法及系统，包括一种基于自学属性的图像理解方法及其依托的图像理解系统；

所述图像理解系统，包括输入模块、属性标签生成模块、卷积神经网络模块和输出模块；

卷积神经网络模块包括特征提取模型、图像理解任务模型以及自学属性模型；

所述图像理解方法包括训练阶段和测试阶段；

训练阶段，输入模块同时与属性标签生成模块和卷积神经网络模块相连，属性标签生成模块与卷积神经网络模块相连；输入模块对输入的训练样本A进行解码和预处理，得到图像矩阵和任务标签；属性标签生成模块的功能是对解码后的训练样本A进行扩充，得到第一次遮挡的样本B和第二次遮挡的样本C，并基于样本A,B，C之间的关系生成属性标签；卷积神经网络模块实现图像特征提取与图像理解任务，在训练阶段，该模块基于训练样本A,B和C得到最优的模型参数；

测试阶段，输入模块与卷积神经网络模块相连，卷积神经网络模块与输出模块相连；输入模块对输入的测试图像进行解码和预处理，得到图像矩阵；卷积神经网络模块在测试阶段对输入的测试图像进行预测，得到图像理解的结果；输出模块的功能是输出图像理解任务的结果。

所述基于自学属性的图像理解方法，包括以下步骤：

步骤一：输入模块对输入系统的训练样本A进行解码和预处理，输出处理后的训练样本A；

其中，训练样本A来自于训练集，训练集是指针对特定图像理解任务所采集到的可用于训练的全部样本，每个训练样本包括训练图像和对应的图像理解任务标签；

具体的：对输入系统的训练图像进行解码及图像预处理，得到图像矩阵I；对任务标签进行数据编码，得到转化后的标签label，使其能够被用于训练；

处理后的训练样本A记为(I_A,label_A)，包括解码及图像预处理后的图像和对应任务标签转化后的标签；

图像预处理包括图像尺寸调整和像素值归一化；

任务标签进行数据编码由图像理解任务决定，包括符号数字化、独热编码和二值化；转化后的标签label可为数字、向量和矩阵；

步骤二：将步骤一处理后的训练样本A送入属性标签生成模块生成扩充样本B和扩充样本C，再依据训练样本A、扩充样本B和扩充样本C生成关系及属性标签；

其中，扩充样本B，记为(I_B,label_B)，扩充样本C，记为(I_C,label_C)；

步骤二，生成扩充样本B和扩充样本C，具体包括如下子步骤：

步骤2.1获取目标所在的矩形区域，并将该区域平均划分为N个部分；

其中，N>2，区域被划分的N个部分，标记为1到N；

其中，目标所在矩形区域获取方法包括直接从样本的任务标签中获取和图像显著性检测方法；

步骤2.2随机从N个区域中选取一个区域进行遮挡并对样本标签进行处理，得到扩充样本B；

其中，对区域进行遮挡，具体为：将选中区域的像素值置为训练集像素均值；

对样本标签处理具体根据标签的物理意义保持标签不变或进行特定处理；

步骤2.3在扩充样本B的基础上，随机从剩余N-1个区域中选取一个区域进行遮挡，并对样本标签进行处理，得到扩充样本C；

其中，对区域进行遮挡以及对样本标签的处理方法与步骤2.2相同；

步骤2.4基于训练样本A、扩充样本B、扩充样本C的关系生成属性标签a_A,a_B,a_C；

其中，训练样本A、扩充样本B、扩充样本C的关系如下：

0≤||a_A-a_B||≤||a_A-a_C||

其中，a_A,a_B,a_C为属性标签；||a_A-a_B||表示图像B与图像A在属性分布上的差异，||a_A-a_C||表示图像C与图像A在属性分布上的差异；图像A、图像B与图像C分别为训练样本A、扩充样本B、扩充样本C中的图像；由于目标被遮挡，图像A中原有的一些属性无法展示出来，因此被遮挡图像B和图像C所展示的属性要少于等于图像A中的属性，同时由于图像C比图像B遮挡更多，因此“图像C与图像A在属性分布上的差异”大于等于“图像B与图像A在属性分布上的差异”；

步骤三：基于步骤一和步骤二生成的训练样本A、扩充样本B和扩充样本C及属性标签对卷积神经网络进行参数调整；

其中，卷积神经网络包括进行特征提取的特征提取模型、图像理解任务模型以及自学属性模型；

参数调整采用梯度下降来减小代价函数的方法；

其中，代价函数等于训练样本A、扩充样本B和扩充样本C的任务损失之和与自学属性损失相加得到；

其中，任务损失是指卷积神经网络由样本图像预测到的结果与样本任务标签之间的差异度量；

其中，自学属性损失是指卷积网络由图像A、图像B、图像C预测到的属性构成的三元组与属性标签构成的三元组(a_A,a_B,a_C)之间的差异度量；

步骤四：在训练集上抽取不同的训练样本A作为输入替换步骤一中的训练样本A，再跳至步骤一，顺序执行步骤一至步骤三，重复步骤四直至代价函数收敛，得到训练好的卷积神经网络，该卷积神经网络中包含最优的网络参数；

步骤五：将测试图像送入输入模块进行预处理，得到的图像矩阵送入训练好的卷积神经网络中进行特征提取和任务预测，预测结果送入输出模块；

步骤六：输出模块将预测结果转化为图像理解任务的结果并输出；

至此，通过步骤一到步骤六，完成了一种基于自学属性的图像理解方法。

有益效果

本发明一种基于自学属性的图像理解方法及系统，与现有技术相比，具有如下有益效果：

1.所述方法及系统可自动生成属性标签，与现有属性学习方法相比，无需额外的人工标注工作；

2.所述方法及系统引入自学属性作为辅助任务来约束卷积神经网络中的特征提取模型，得到更具有表征能力的特征；

3.所述方法及系统引入自学属性，能够进一步提升图像理解的结果。

附图说明

图1是本发明一种基于自学属性的图像理解方法依托系统的模块组成示意图；

图2是本发明一种基于自学属性的图像理解方法及系统具体实施例中的属性标签生成过程示意图；

图3是本发明一种基于自学属性的图像理解方法及系统具体实施例中的卷积神经网络结构图；

图4是本发明一种基于自学属性的图像理解方法及系统具体实施例中的特征可视化对比图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

实施例1

本实施例是对本发明一种基于自学属性的图像理解方法及系统，具体实施时基于ResNet50网络实现鸟类图像的识别和分割任务为例进行说明。

本实施例同时针对图像识别和图像分割两个图像理解任务；

其中，图像识别是指根据图像中出现的目标将图像划分到对应的类别，这里的类别指鸟的具体种类，例如“海鸥”、“蜂鸟”、“啄木鸟”和“信天翁”；

其中，图像分割是指对图像中的目标区域进行提取，区分出哪些像素属于前景目标，哪些像素属于背景，这里的前景目标指鸟；

本实施例采用的ResNet50网络是指由Kaiming He等人在2015年的论文DeepResidual Learning for Image Recognition中提出的卷积网络模型，该模型被广泛应用于图像理解任务；

本实施例采用的数据集来自Caltech-UCSD-Birds 200-2011，该数据集包含200种鸟类，共11788张图像，每张图像中至少包含一只鸟，同时该数据集提供了每只鸟的类别名称和分割图像。本实施例采用其中的5994张图像作为训练集，剩余5794张图像作为测试集。

本实施例中的鸟类具有一些属性，例如“条纹状的翅膀”、“钩状的鸟喙”、“蓝色的眼眶”等，一方面，这些属性能够在不同类别物体间迁移，例如两只不同类的鸟都拥有“褐色的眼睛”；另一方面，这些属性关注物体本身，例如天空背景和草地背景都不会改变一只啄木鸟“尖尖的喙”。因此本实例引入自学属性作为辅助任务，以优化特征提取模型，从而提高识别与分割的准确率。

为了达到上述目的，本实施例采取如下技术方案。

所述图像理解系统，包括输入模块、属性标签生成模块、卷积神经网络模块和输出模块，如图1所示。

所述基于自学属性的图像理解方法，包括以下步骤：

步骤A：输入模块对输入系统的鸟类训练样本A进行解码和预处理，输出处理后的训练样本A；

其中，训练样本A来自于训练集，即Caltech-UCSD-Birds 200-2011鸟类数据集中的5994个训练样本构成的集合，每个训练样本包括一幅包含鸟类的RGB彩色图像和该鸟类的类别名称和轮廓坐标；

具体的：对RGB图像文件进行解码处理，调整为统一尺寸224*224并归一化得到图像矩阵I_A；查找类别名称在200类鸟类列表中的位置得到样本的类别标号c_A；根据目标轮廓绘制二值分割掩膜s_A，其中前景像素取值为1，背景像素取值为0；

处理后的训练样本A记为(I_A,c_A,s_A)；

步骤B：将步骤一处理后的训练样本A送入属性标签生成模块生成扩充样本B和扩充样本C，再依据训练样本A、扩充样本B和扩充样本C生成关系及属性标签；

图2展示了本实施例中的生成扩充样本B和扩充样本C的过程，具体包括如下子步骤：

步骤B.1基于二值分割掩膜s_A获取目标所在的矩形区域，并将该区域平均划分为3×3＝9个部分，分别标记为1-9；

步骤B.2随机从9个区域中选取一个区域进行遮挡并对样本标签进行处理，得到扩充样本B，记为(I_B,c_B,s_B)；

其中，对图像的遮挡方法采用将选中区域的像素值置为：

对于类别标签处理，由于遮挡区域仅占原始区域的1/9，因此该鸟类的类别标签不变，即c_B＝c_A，对于分割标签处理，由于目标区域被局部遮挡，因此分割掩膜中对应的位置也需要做遮挡处理，即s(i,j)＝0；

上述j和i分别表示被遮挡的像素的横和纵坐标；

步骤B.3在扩充样本B的基础上，随机从剩余8个区域中选取一个区域进行遮挡，得到扩充样本C，记为(I_C,c_C,s_C)；

其中，对图像和样本标签的处理方法与B.2相同；

步骤B.4基于训练样本A、扩充样本B、扩充样本C的关系生成属性标签a_A,a_B,a_C；

其中，训练样本A、扩充样本B、扩充样本C的关系如下：

0≤||a_A-a_B||≤||a_A-a_C||

其中，a_A,a_B,a_C为属性标签；其中，||a_A-a_B||表示图像B与图像A在属性分布上的差异，||a_A-a_C||表示图像C与图像A在属性分布上的差异；图像A、图像B与图像C分别为训练样本A、扩充样本B、扩充样本C中的图像；

在图像B中，由于鸟的翅膀被局部遮挡，因此与图像A相比，缺少了“黑色的翅膀”这一属性信息，因此“图像B与图像A在属性分布上存在差异”；同时在图像C中鸟的脚也被遮挡，因此图像C中同时缺少了“黑色的翅膀”和“褐色的鸟爪”两个属性信息，因此“图像C与图像A在属性分布上的差异”大于等于“图像B与图像A在属性分布上的差异”；

步骤C：基于步骤A和步骤B生成的训练样本A、扩充样本B和扩充样本C及属性标签对卷积神经网络进行参数调整；

其中，卷积神经网络包括特征提取模型、自学属性模型、识别任务模型和分割任务模型构成，如图3所示；

首先，特征提取模型基于ResNet50的主干网络提取Layer3、Layer4和Layer5共三个网络层的特征，这些特征映射被使用卷积层映射为固定维度输出；

然后，上述特征被送入由一个卷积层构成的共享的自学属性模型中，输出三个属性特征编码，该编码经过全局池化并求和得到属性向量；

上述属性特征编码和属性向量被分别送入分割任务模型和识别任务模型中，其中，在分割任务模型中，属性特征编经过卷积和上采样，得到多个分割图谱，融合后得到前景置信度；在识别任务模型中，属性向量与经过全局池化的Layer5网络层特征串联，再使用全连接层将串联后的特征映射为类别置信度；

该网络的参数调整以采用梯度下降来减小以下代价函数：

表示该卷积神经网络的参数集合，L_task(·)包含两个图像理解任务的损失，定义如下：

L_task＝L_r(f_r(I),c)+L_s(f_s(I),s)

其中识别任务损失采用由图像预测的类别置信度f_r(I)与实际类别标签c之间的softmax交叉熵函数L_r，图像分割任务损失采用由图像预测的前景置信度f_s(I)与分割掩膜s之间的sigmoid交叉熵函数L_s；

L_att(A,B,C)表示属性代价函数，其定义如下：

L_att(A,B,C)

＝[||f(I_A)-f(I_B)||₂-||f(I_A)-f(I_C)||₂+α]₊+[-||f(I_A)-f(I_B)||₂+α]₊

其中，f(·)表示卷积神经网络由样本图像预测到的属性向量，||·||₂表示求欧式距离，α是一个大于0的常数，这里取值为1，表示两个欧式距离之间存在一个最小间隔，[·]₊表示取正数，当中括号内的值大于等于0时取该值，当其小于0时取0；

步骤D：在鸟类训练集上抽取不同的训练样本作为输入替换步骤A中的训练样本，再跳至步骤A，顺序执行步骤A至步骤C，重复步骤D,以0.01的学习率迭代10000次，至代价函数

平稳，得到训练好的卷积神经网络，该卷积神经网络中包含最优的网络参数；

步骤E：将测试图像I_x送入输入模块进行预处理，得到的图像矩阵送入训练好的卷积神经网络中，得到类别置信度f_r(I_x)和前景置信度f_s(I_x)送入输出模块；

步骤F：输出模块根据200个鸟类名称列表，找到类别置信度最高的类别名称作为识别结果输出，对前景置信度进行二值化处理，得到目标的轮廓作为分割结果输出。

至此，通过步骤A到步骤F，完成了一种基于自学属性的鸟类图像识别与分割方法。

在本实施例中，引入自学属性作为辅助任务来优化图像理解任务模型，与现有的属性学习方法(基于属性学习的图像识别研究与实现，李华盛等，2016)采用人工标注的属性标签相比，本实施例采用步骤B实现了属性标签的自动生成，无需额外的人工标注工作；

与现有采用ResNet50主干网络作为特征提取模型，提取到的图像特征直接送入识别模型和分割模型的方法(以下简称现有方法)相比，本实施例引入自学属性作为辅助任务来约束特征提取模型，从而得到更具有表征能力的特征，如图4所示，在训练完成后提取骨干网络中layer5的特征，采用t-SNE算法映射到二维平面，并按照训练样本的类别标签给特征点涂色。显然，本实施例方法与现有方法相比，得到的特征点更容易被划分到正确的类别，说明本实施例方法得到的特征具有更强的表征能力。

表1对本实施例方法和现有方法进行了定量对比。在5794张鸟类测试图像上执行步骤E和步骤F，得到的结果与数据集提供的标准结果相比，计算出识别准确率和分割准确率。其中识别准确率采用识别正确的样本个数除以样本总数得到，分割准确率采用交集除以并集的评测方法。由表1可知，与现有方法相比，本实施例方法在识别和分割任务上分别有6.1％和4.1％的性能提升。

表1图像理解结果对比

方法	识别准确率	分割准确率
			现有方法	71.5％	82.6％
本实施例方法	77.6％	86.7％

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自学属性的图像理解方法，其特征在于：依托的图像理解系统，包括输入模块、属性标签生成模块、卷积神经网络模块和输出模块；

所述图像理解方法包括训练阶段和测试阶段；

训练阶段，输入模块同时与属性标签生成模块和卷积神经网络模块相连，属性标签生成模块与卷积神经网络模块相连；输入模块对输入的训练样本A进行解码和预处理，得到图像矩阵和任务标签；属性标签生成模块的功能是对解码后的训练样本A进行扩充，得到第一次遮挡的样本B和第二次遮挡的样本C，并基于样本A，B，C之间的关系生成属性标签；卷积神经网络模块实现图像特征提取与图像理解任务，在训练阶段，该模块基于训练样本A，B和C得到最优的模型参数；

测试阶段，输入模块与卷积神经网络模块相连，卷积神经网络模块与输出模块相连；输入模块对输入的测试图像进行解码和预处理，得到图像矩阵；卷积神经网络模块在测试阶段对输入的测试图像进行预测，得到图像理解的结果；输出模块的功能是输出图像理解任务的结果；

所述基于自学属性的图像理解方法，包括以下步骤：

其中，区域被划分的N个部分，标记为1到N；

步骤2.3在扩充样本B的基础上，随机从剩余N-1个区域中选取一个区域进行遮挡并对样本标签进行处理，得到扩充样本C；

步骤2.4基于训练样本A、扩充样本B、扩充样本C的关系生成属性标签a_A，a_B，a_C；

其中，训练样本A、扩充样本B、扩充样本C的关系如下：

0≤||a_A-a_B||≤||a_A-a_C||

其中，a_A，a_B，a_C为属性标签，||a_A-a_B||表示图像B与图像A在属性分布上的差异，||a_A-a_C||表示图像C与图像A在属性分布上的差异；图像A、图像B与图像C分别为训练样本A、扩充样本B、扩充样本C中的图像；由于目标被遮挡，图像A中原有的一些属性无法展示出来，因此被遮挡图像B和图像C所展示的属性要少于等于图像A中的属性，同时由于图像C比图像B遮挡更多，因此“图像C与图像A在属性分布上的差异”大于等于“图像B与图像A在属性分布上的差异”；

参数调整采用梯度下降来减小代价函数的方法；

其中，自学属性损失是指卷积网络由图像A、图像B、图像C预测到的属性构成的三元组与属性标签构成的三元组(a_A，a_B，a_C)之间的差异度量；

步骤六：输出模块将预测结果转化为图像理解任务的结果并输出。

2.根据权利要求1所述的一种基于自学属性的图像理解方法，其特征在于：步骤一中，训练样本A来自于训练集，训练集是指针对特定图像理解任务所采集到的可用于训练的全部样本，每个训练样本包括训练图像和对应的图像理解任务标签。

3.根据权利要求2所述的一种基于自学属性的图像理解方法，其特征在于：步骤一，具体的：对输入系统的训练图像进行解码及图像预处理，得到图像矩阵I；对任务标签进行数据编码，得到转化后的标签label，使其能够被用于训练。

4.根据权利要求3所述的一种基于自学属性的图像理解方法，其特征在于：处理后的训练样本A记为(I_A，label_A)，包括解码及图像预处理后的图像和对应任务标签转化后的标签。

5.根据权利要求4所述的一种基于自学属性的图像理解方法，其特征在于：图像预处理包括图像尺寸调整和像素值归一化。

6.根据权利要求5所述的一种基于自学属性的图像理解方法，其特征在于：任务标签进行数据编码由图像理解任务决定，包括符号数字化、独热编码和二值化；转化后的标签label可为数字、向量和矩阵。

7.根据权利要求6所述的一种基于自学属性的图像理解方法，其特征在于：步骤二中，扩充样本B，记为(I_B，label_B)，扩充样本C，记为(I_C，label_C)。

8.根据权利要求7所述的一种基于自学属性的图像理解方法，其特征在于：步骤2.2中，对区域进行遮挡，具体为：将选中区域的像素值置为训练集像素均值；

其中，对样本标签处理具体根据标签的物理意义保持标签不变或进行特定处理。

9.根据权利要求8所述的一种基于自学属性的图像理解方法，其特征在于：步骤2.3中，对区域进行遮挡以及对样本标签的处理方法与步骤2.2相同。

10.根据权利要求9所述的一种基于自学属性的图像理解方法，其特征在于：步骤2.1中，N＞2。