CN114241380A

CN114241380A - 一种基于类别标签和属性注释的多任务属性场景识别方法

Info

Publication number: CN114241380A
Application number: CN202111547952.1A
Authority: CN
Inventors: 保罗; 李晓晨; 张吉
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-25
Anticipated expiration: 2041-12-16
Also published as: CN114241380B

Abstract

本发明涉及场景识别技术领域，尤其涉及一种基于类别标签和属性注释的多任务属性场景识别方法，基于多任务属性场景识别网络MASR，利用并计算对象属性分数对对象属性进行筛选精简，简化属性注释流程，减小由数据引起的训练偏差，此外，在MASR网络中设计并运用了一种属性损失函数与一个属性层，以充分利用上述筛选与精简后的属性特征，根据对象检测分数的重要性级别，对对象属性进行重新加权。本发明有效地注释了四个大规模数据集的属性标签，实验结果表明，与最先进的方法相比，本发明学习了更具辨别力的表示并实现了有竞争力的识别性能。

Description

一种基于类别标签和属性注释的多任务属性场景识别方法

技术领域

本发明涉及场景识别技术领域，尤其涉及一种基于类别标签和属性注释的多任务属性场景识别方法。

背景技术

场景识别，又名场景分类，旨在通过强调理解其全局属性来确定整体场景类别，是一种高级计算机视觉任务。语义分割、结构布局和对象属性等上下文信息是提高场景识别准确率的关键。特别地，语义属性用于实现更丰富的场景描述，而语义分割可表述场景中对象之间的空间关系。同样地，属性信息对于区分相似图像和提高场景识别性能非常重要。仅使用视觉特征，很难区分视觉相似的图像。另一方面，属性是跨类的语义描述性的。然而，提取对象属性或构建有效的语义表示已被证明是非常具有挑战性的，尤其是当对象属性注释必须通过人工进行时。鉴于使用准确的每像素标签标记场景的任务非常耗时，语义分割也具有挑战性。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于类别标签和属性注释的多任务属性场景识别方法，其具体技术方案如下：

一种基于类别标签和属性注释的多任务属性场景识别方法，基于多任务属性场景识别网络MASR，具体包括以下步骤：

1)给定场景图像x_i，使用CNN网络提取其特征表示为

θ_I为CNN网络参数；

2)采用属性标注策略计算对象属性分数，基于对象属性分数对v_i中的属性对象按照对象筛选逻辑进行精简；

3)将精简后的特征v_i输入到全连接层L^|K|进行分类预测，其中K为场景分类的类数；同时，将精简后的特征v_i输入全连接层L^|A|预测属性概率p_att，其中A为检测到的属性集；

4)将预测的属性概率p_att与从外部数据单独学习的属性表示，输入属性层对v_i重新进行权重分配，同时运用属性任务损失函数对属性层的任务进行加速；

5)将修正后的v_i反馈给全连接层L^|K|，对多任务属性场景识别任务效果进行提升。

进一步的，所述属性标注策略是将两个概率分布p_s与p_t简单合并且将对象检测分数P作为置信度分数即对象属性分数，具体为：

从COCO Object与COCO Panoptic数据集中收集对象属性和上下文信息，对stuff与thing类型做独立处理，设S与T分别为stuff与thing的集合，F_s与F_t为针对各自任务的预训练CNN模型，设{x₁,x₂,...,x_n}∈X表示只有类别标签的以场景为中心的数据集，使用X上的F_s与F_t预测S与T上的分布，p_s＝F_s(X)与p_t＝F_t(X)，其中，p_s∈R^|S|与p_t∈R^|T|分别是S与T的概率分布预测，给定数据集X，最终的stuff+thing预测P∈R^|S|+|T|，在给定的场景数据集上定义为P＝p_s∪p_t，其中，P不会增加至1且不代表概率分布，对两个概率分布p_s与p_t求平均以合并它们，

其中，S与T并不总有交集，表示不同的数据源。

进一步的，所述对象筛选是根据对象检测分数与对象频率对S与T中的对象做进一步筛选，具体为包括：

基于对象检测分数：丢弃对象检测分数小于阈值的对象实例，只有对象检测分数高于阈值的对象才会被选为场景属性，在此过程中，将P重新定义为：

其中ξ是阈值，当检测分数为0时，对象被认为不存在于场景中；

基于对象频率：进一步考虑给定场景类别的属性频率并删除不常见的对象，对于每个类别c，将相对属性频率定义为覆盖类别图像的非零分数的数量，如果{a₁,a₂,...,a_m}∈A_c是c的检测属性集，最优

定义为：

其中f_c(a^j)是给定类别c的值为a^j的属性的相对频率，β是最小频率，

是c的最终属性列表。

进一步的，所述属性任务损失函数，具体为：

定义多类交叉熵损失函数：

其中，p_att(x_i,j)是训练样本x_i的第j个属性上的预测类别概率，

是属性的标注，其定义为：

再明引入正则项β^j，它反映了训练数据中第j个属性的相对频率，即它的正负属性标签的比率，公式(3)即可变为：

其中||a^j||是持有第j个属性的第k个类别标签的样本数，即第k个场景类别的第j个属性的大小，其中，不同属性特征的分类器不共享。

进一步的，所述属性层，具体为：

引入一个根据检测分数对属性重新加权的层，其由一系列线性变换组成，所述一系列线性变换将所有属性信息聚合到一个向量v_i中，使用

表示来自属性分类器f_A的属性分数，然后学习其预测

的置信分数c_i为：

其中σ为sigmoid激活函数，W_*∈R^m×m与b_i∈R^m×1为可训练的参数，v_i通过c_i与a_i逐元素相乘得到。

有益效果是：本发明首先提出了一种部分监督的注释策略，其中减少了人工监督和干预，提高了任务的效率；采用基于置信度分数机制的对象筛选逻辑，提高了由于训练数据偏差导致的属性预测的低可信度，与最先进的方法相比，本发明的多任务属性场景识别网络MASR学习了更具辨别力的表示并实现了有竞争力的识别性能。

附图说明

图1是本发明的MASR架构概述图；

图2是属性重加权层应用于sigmoid前从每个预测获得的级联预测的过程图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

本发明的一种基于类别标签和属性注释的多任务属性场景识别方法，基于多任务属性场景识别MASR网络，如图1所示，属性信息从预先训练的以对象为中心的模型中获取，获取的属性信息用于通过正则化损失和重新加权层支持CNN特征的学习，对于所述的多任务属性场景的识别方法，具体包括以下步骤：

1)给定场景图像x_i，使用类似CNN的网络提取其特征表示为

θ_i为CNN网络参数；

2)使用属性标注策略计算对象属性分数，基于对象属性分数对v_i中的属性对象按照对象筛选逻辑进行精简，该步骤简化的属性注释流程，减小由数据引起的训练偏差；

其中，所述属性标注策略，具体为：

首先，本发明从两个流行的以对象为中心的数据集：COCO Object与COCOPanoptic中收集对象属性和上下文信息，对stuff与thing类型做独立处理以提高场景识别能力，其包含的实例示例如表1所示。

表1：

Groups	Attributes
		Things	bottle，cup，apple，sheep，dog，suitca\|se，tv，toilet...
Stuff	sea，river，road，sand，snow，wall，window，wall...

设S与T分别为stuff与thing的集合，F_s与F_t为针对各自任务的预训练CNN模型。设{x₁,x₂,...,x_n}∈X表示只有类别标签的以场景为中心的数据集。本发明的目标是使用X上的F_s与F_t预测S与T上的分布，p_s＝F_s(X)与p_t＝F_t(X)。其中，p_s∈R^|S|与p_t∈R^|T|分别是S与T的概率分布预测。给定数据集X，最终的stuff+thing预测P∈R^|S|+|T|，在给定的场景数据集上定义为P＝p_s∪p_t，其中，P不会增加至1且不代表概率分布。对两个概率分布p_s与p_t求平均以合并它们，

其中，S与T并不总有交集，它们通常用来表示不同的数据源。总的来说，本发明将p_s与p_t简单合并且将对象检测分数P作为置信度分数。

所述对象筛选，具体为：

当对象的属性与关系等信息过多时，反而不利于场景识别任务的进行，为克服这一问题，本发明根据对象检测分数与对象频率对S与T中的对象做进一步筛选，具体包括：

基于对象检测分数：丢弃对象检测分数小于阈值的对象实例。只有对象检测分数高于阈值的对象才会被选为场景属性。在此过程中，将P重新定义为：

其中ξ是阈值，当检测分数为0时，对象被认为不存在于场景中。

基于对象频率：进一步考虑给定场景类别的属性频率并删除不常见的对象。对于每个类别c，将相对属性频率定义为覆盖类别图像的非零分数的数量。如果{a₁,a₂,...,a_m}∈A_c是c的检测属性集，最优

定义为：

是c的最终属性列表。

所述属性任务损失函数，具体为：

由于属性之间并不完全互斥，因此多属性的预测是一个多标签分类问题。预测属性的层结构不同于传统的包含损失函数的单标签分类层。为使属性层能够适配多标签分类问题，本发明提出了如下定义的多类交叉熵损失函数：

是属性的标注，其定义为：

公式(3)中的损失通常受到训练数据的数据倾斜问题的影响，且无法简单地通过数据采样来补偿，这是因为平衡一个属性的出现频率会改变其他属性。为解决这一问题，本发明引入一个正则项β^j，它反映了训练数据中第j个属性的相对频率，即它的正负属性标签的比率。公式(3)即可变为：

所述属性层，具体为：

由于属性表示是在单独的数据上学习的，因此可以预见某些属性比其他属性更加重要。本发明引入一个根据检测分数对属性重新加权的层，其由一系列线性变换组成，所述一系列线性变换将所有属性信息聚合到一个向量v_i中，使用

表示来自属性分类器f_A的属性分数，然后学习其预测

的置信分数c_i为：

其中σ为sigmoid激活函数，W_*∈R^m×m与b_i∈R^m×1为可训练的参数。v_i通过c_i与a_i逐元素相乘得到，以上操作构成了属性重加权层ARL，其操作过程如图2所示。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。