CN112801162A

CN112801162A - 基于图像属性先验的自适应软标签正则化方法

Info

Publication number: CN112801162A
Application number: CN202110088346.1A
Authority: CN
Inventors: 程乐超; 冯尊磊; 单海军; 宋明黎
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-14
Anticipated expiration: 2041-01-22
Also published as: CN112801162B

Abstract

本发明公开了一种基于图像属性先验的自适应软标签正则化方法，包括如下步骤：S1，通过神经网络中间特征层聚合构建图像的属性表达；S2，利用重参数化方法对属性概率先验进行软采样；S3，利用现有真值标签对采样软标签进行修正和截断；S4，多尺度属性先验正则化。通过模仿人眼进行图像分类是依据图像局部属性重要性的能力，在利用少量参数的情况下，有效地缓解在图像分类任务中由于方法模型对于结果的过于自信导致的过拟合问题，有效的提升图像分类的准确性。本发明实现方法简单，手段灵活，可以比较容易地应用到一般性图像分类任务中。

Description

基于图像属性先验的自适应软标签正则化方法

技术领域

本发明涉及图像分类领域，尤其是涉及基于图像属性先验的自适应软标签正则化方法。

背景技术

随着基础硬件的发展，各种模态形式的信息(文本、语音、图像、视频等)呈现爆炸式增长。海量的数据给各种基于数据驱动的方法带来了巨大的挑战。但同时也为大数据下的人工智能发展提供了一定的机遇。最典型的就是，近几年快速发展的深度学习相关技术使得人工智能技术的发展迈上了新的台阶。图像和视频作为重要的视觉信息载体在人工智能技术的发展过程中发挥了重要的作用。面向视觉感知的人工智能算法也在近些年取得了巨大的成就，代表性的工作涵盖目标识别与检测，运动行为识别等等。针对这些工作的研究也在不断催生着产业界的各种应用，同时也作为基础研究工作推动着前沿技术的发展。在大规模图像识别挑战中，基于深度神经网络的方法也早已超过了人类的水平。尽管通用图像识别研究任务取得了一定的进展，然而在现实生活中，往往存在着一些需要更加精细化分析的任务，而这些任务由于其挑战性也受到了越来越多的关注。

然而，现有的深度学习技术在实际应用场景中由于数据的复杂性、理论的不完备性依然存在诸多不足。例如，现有的图像分类任务中，一个经常出现的问题是算法模型对于图像数据的学习陷入局部最优解后错误预测的图像过于自信使得算法模型精度难以提升。这个问题通常又被称之为深度学习模型的不确定性问题。为了缓解这个问题，例如知识蒸馏中经常用到的Temperature Scaling(TS)通常会将图像特征除以一个常数T(通常通过验证集来确定)，用来控制训练和测试时图像分类时概率置信度的平缓程度。TS方法在原有的交叉熵损失函数中往往扮演着伸缩正样本而忽略负样本的角色。除此以外，LabelSmoothing(LS)标签平滑也是一种常见而有效的手段。LS方法通过将原本的硬标签和一个均匀分布混合后作为真值标签进行交叉熵计算。更进一步地，DisturbLabel(DL)则是通过随机替换真值标签达到扰动的效果。然而，现有的这些方法都没有合适地考虑图像数据本身的影响。图像的属性特征揭示了图像间的内在联系，这原本可以更好的约束图像分类任务。

发明内容

为解决现有技术的不足，实现充分利用图像属性的目的，本发明采用如下的技术方案：

本发明主要解决当前基于深度学习的图像分类方法中模型过自信(over-confident)的问题。人眼在图像分类时往往首先从图像的局部属性来辨别种类，然而现有的图像分类方法均基于图像全局特征实现图像的分类。为缓解深度学习模型的不确定性导致的过自信问题以及现有标签软化没有充分利用图像属性的不足，本发明设计了一种基于图像属性先验的自适应软标签正则化方法。该方法通过利用图像的属性先验来自适应地约束全局概率类别分布，已有的非目标类别开源分割图像数据集中的内外边缘分割知识，实现图像数据驱动的模型校准，提高图像分类的准确度。

基于图像属性先验的自适应软标签正则化方法，包括如下步骤：

S1，结合图像属性特征的先验条件概率进行算法构建，对于图像经过神经网络后的特征图

计算图像局部聚合特征的统计信息

和聚类中心v_m，将

通过线性层

后进行softmax操作，计算基于图像属性的概率质量函数

S2，根据先验条件概率进行自适应软标签采样，根据

采样出应用于算法训练的软标签，此时的软标签考虑了图像的属性统计特征，由于离散采样过程不可导，因此首先利用Gumbel Max来近似随机采样过程；

S3，根据真值标签样本对采样软标签进行修正，步骤S2中的过程得到的采样软标签在算法模型训练的初步阶段往往是不准确的，为了纠正软标签的偏差，首先判断软标签

最大值对应的类别是否与给定的真值标签一致，对于不一致的情况，通过真值标签

来强化软标签

其次，对于软标签中概率值小于阈值

的尾部分布进行置零截断后重新归一化，使得软标签可以有效地对图像分类任务进行正则化，所述K是图像分类的类别数；

S4，多尺度属性先验正则化，为了充分利用图像在不同尺度上的属性先验信息，可以考虑综合图像在模型不同尺度上的特征图属性表达。

进一步的，所述步骤S2中，根据

采样得到标签

是均匀分布。

进一步的，所述步骤S2中，Gumbel Max采用Gumbel Softmax重参数化采样得到软标签

解决训练参数不可导的问题，使训练过程中梯度得以回传，所述

表示概率的形式化表达，所述K是图像分类的类别数，通过重参数化的软标签采样，将原本位于概率单纯形Δ^K-1顶点位置的采样离散硬标签松弛到了内部连续点上，获得图像基于属性的软标签。

进一步的，所述步骤S1中，传统图像分类的似然估计没有很好地利用图像的先验信息，本方法利用一般监督性分类学习中，每个样本图像都对应了一个固定的标签，而标签是从真实离散类别概率分布中采样得到，因此对于给定的样本图像和采样标签利用最大后验概率

评估基于类别的概率分布，其中N为训练样本数，每一个样本及其标签对(x_n,y_n)，θ,

为训练参数，z为真实标签因变量分布，p(；)是概率分布函数，对最大后验损失分解得到

其中

是交叉熵损失，

是数据依赖的概率先验表达，将基于样例替换成基于属性的表达，即

进一步的，所述步骤S1中，为了更好的结合图像属性先验，在神经网络特征层输出时利用

个视觉单词v_m来表达聚类中心，

表示基于图像x_n特征描述的统计信息

可学习参数

表示特征图Φ_ψ(x_n)在d维的第i个特征向量，α是一个常量。

进一步的，所述步骤S3中，由于在前期训练过程中存在训练初期条件先验不准确的问题，利用标签y_n的one-hot形式

进行初步修正，

进一步的，所述步骤S3中，在训练后期，逐渐舍弃低于阈值的类别概率值，即

所述t为1/K。

进一步的，所述步骤S4中，对于多尺度属性先验，通过两种形式来进行正则化：

S41，渐进增量式正则化，从浅层属性先进行约束训练，待全局分类收敛后再利用下一层的特征图进行正则；

S42，直接式正则化，对所有特征层同时进行属性正则约束。

无论是渐进式还是直接式属性先验正则，都有效的利用了图像属性知识，有效的校准了图像分类模型。

进一步的，所述步骤S4中，一般神经网络特征图不同层往往记录了图像不同尺度的信息，因此这里可以将基于属性的软标签正则化方法扩展到多个特征图，定义网络层l₁,l₂,…,l_{n_layer}，在神经网络训练过程中，从l₁层开始进行正则化约束训练，随后增量式层层叠加进行约束。

本发明的优势和有益效果在于：

本发明充分有效地利用图像属性，提高网络模型的鲁棒性，提升图像分类的准确性，并且适配于目前几乎所有的神经网络模型，在现有的神经网络图像分类框架中可以无缝引入本发明提出的方法，适用性广；此外，本发明无需引入额外的复杂的计算和数据，充分利用现有图像，充分挖掘神经网络模型的能力，缓解神经网络过自信的问题，提升图像分类的准确性。

附图说明

图1是本发明的方法流程图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

1)基于最大化后验概率的图像分类形式化表达；

在一般性图像分类任务中，输入图像经过神经网络得到特征表达后利用softmax得到类别概率置信度，将其与真值标签的one-shot形式进行交叉熵计算。在本发明中，则认为这种似然估计没有很好地利用图像的先验信息。考虑到一般监督性分类学习中，每个样本图像都对应了一个固定的标签，本发明则认为该标签是从真实离散类别概率分布中采样得到，因此对于给定的样本图像和采样标签利用最大后验概率

评估基于类别的概率分布。N为训练样本数，每一个样本及其标签对(x_n,y_n)，θ,

为训练参数，z为真实标签因变量分布，p(；)是概率分布函数。对最大后验损失分解可得到

这时第一项就成了常见的交叉熵损失，而后一项则是数据依赖的概率先验表达。

2)结合图像属性的条件概率先验表达；

为了更好的结合图像属性先验，在神经网络特征层输出时利用

个视觉单词v_m来表达属性中心，

表示相应特征图，

表示基于图像x_n特征描述的统计信息

同时可学习参数

这里的

表示了特征图Φ_ψ(x_n)的d维的第i个特征向量，α是一个常量。在神经网络学习的过程中，利用属性特征

接入线性层

后利用现有标签进行分类。此时对于1)中的第二项概率先验则由基于样例替换成基于属性的表达。也即

3)标签采样随机梯度近似；

由2)中的过程，可以依据学习到的条件概率先验对标签进行采样，定义依据属性预测的条件概率先验

根据

采样得到标签

是均匀分布。这里利用Gumbel Max来近似随机采样过程。然而采样过程是不可导的，为了使训练过程中梯度得以回传，更进一步地这里使用Gumbel Softmax进一步地平滑近似argmax过程，即

这里的τ的范围从0到正无穷。

表示概率的形式化表达，所述K是图像分类的类别数。

4)图像属性软标签重组；

本发明在网络模型训练过程中，同时优化全局分类概率的交叉熵损失和条件先验损失。在前期训练过程中存在一个问题就是训练初期条件先验的不准确。因为在本阶段需要输入图像伴随标签的修正。修正的过程分为2个步骤，首先，利用标签y_n的one-hot形式

进行初步修正，

除此以外，在训练后期，逐渐的舍弃低于一定阈值的类别概率值，即

一般地，t设置为1/K。

5)多尺度图像属性自适应正则化；

一般神经网络特征图不同层往往记录了图像不同尺度的信息，因此这里可以将上述基于属性的软标签正则化方法扩展到多个特征图。定义网络层l₁,l₂,…,l_{n_layer}，在神经网络训练过程中，从l₁层开始利用上述过程进行正则化约束训练，随后增量式层层叠加进行约束。

本发明的方法是一种基于图像属性先验的自适应软标签正则化方法，通过有效利用图像属性来对分类结果进行正则化约束，可以实现缓解图像分类任务中神经网络过自信(over-confident)问题，提升图像分类准确率。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于图像属性先验的自适应软标签正则化方法，其特征在于包括如下步骤：

计算图像局部聚合特征的统计信息

和聚类中心v_m，将

通过线性层

后进行softmax操作，计算基于图像属性的概率质量函数

S2，根据先验条件概率进行自适应软标签采样，根据

采样出应用于算法训练的软标签，利用GumbelMax来近似随机采样过程；

S3，根据真值标签样本对采样软标签进行修正，首先判断软标签

来强化软标签

其次，对于软标签中概率值小于阈值

的尾部分布进行置零截断后重新归一化，所述K是图像分类的类别数；

S4，多尺度属性先验正则化，综合图像在模型不同尺度上的特征图属性表达。

2.如权利要求1所述的基于图像属性先验的自适应软标签正则化方法，其特征在于所述步骤S2中，根据

采样得到标签

是均匀分布。

3.如权利要求1所述的基于图像属性先验的自适应软标签正则化方法，其特征在于所述步骤S2中，Gumbel Max采用Gumbel Softmax重参数化采样得到软标签

所述

4.如权利要求1所述的基于图像属性先验的自适应软标签正则化方法，其特征在于所述步骤S1中，对于给定的样本图像和采样标签利用最大后验概率

其中

是交叉熵损失，

5.如权利要求1所述的基于图像属性先验的自适应软标签正则化方法，其特征在于所述步骤S1中，在神经网络特征层输出时利用

个视觉单词v_m来表达聚类中心，

表示基于图像x_n特征描述的统计信息

可学习参数

表示特征图Φ_ψ(x_n)在d维的第i个特征向量，α是一个常量。

6.如权利要求1所述的基于图像属性先验的自适应软标签正则化方法，其特征在于所述步骤S3中，利用标签y_n的one-hot形式

进行初步修正，

7.如权利要求1所述的基于图像属性先验的自适应软标签正则化方法，其特征在于所述步骤S3中，在训练后期，逐渐舍弃低于阈值的类别概率值，即

所述t为1/K。

8.如权利要求1所述的基于图像属性先验的自适应软标签正则化方法，其特征在于所述步骤

S4中，对于多尺度属性先验，通过两种形式来进行正则化：

S42，直接式正则化，对所有特征层同时进行属性正则约束。

9.如权利要求1所述的基于图像属性先验的自适应软标签正则化方法，其特征在于所述步骤S4中，将基于属性的软标签正则化方法扩展到多个特征图，定义网络层l₁,l₂,…,l_{n_layer}，在神经网络训练过程中，从l₁层开始进行正则化约束训练，随后增量式层层叠加进行约束。