CN111461265B

CN111461265B - 基于粗-细粒度多图多标签学习的场景图像标注方法

Info

Publication number: CN111461265B
Application number: CN202010459805.8A
Authority: CN
Inventors: 赵宇海; 王业江; 印莹
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2023-07-25
Anticipated expiration: 2040-05-27
Also published as: CN111461265A

Abstract

本发明提供一种基于粗‑细粒度多图多标签学习的场景图像标注方法，涉及图像分类技术领域。该方法首先获得原始场景图像数据集与对应的标签集，并对原始场景图像数据集进行数据预处理得到多图数据结构即图包；定义基于图核的图级分值函数和每个标签的包级分值函数；构建基于排序损失的目标函数；通过次梯度下降算法优化基于排序损失的目标函数，得到每个标签的最优权重值，进而构建图级和包级的分类器，从而实现对未知多图数据包的标签集和包中图的标签集进行预测，完成场景图像的标注。本发明方法基于定义的图级和包级分值函数，允许在粗粒度(包级)和细粒度(包中的图)上同时进行标签预测，扩展了传统多图多标签分类的范畴。

Description

基于粗-细粒度多图多标签学习的场景图像标注方法

技术领域

本发明涉及图像分类技术领域，尤其涉及一种基于粗-细粒度多图多标签学习的场景图像标注方法。

背景技术

随着摄影设备的广泛应用以及互联网服务的发展，每天都会产生大量的场景图像。这些场景图像中的单幅场景图像一般会涉及多个主题，语义比较复杂。同时，互联网所产生的大量场景图像一般不具有能够充分描述图像内容的分类标签。对于这些语义复杂且不具备分类标签的海量场景图像，如何利用这些图像为互联网用户提供相关的服务，这是场景图像标注的核心任务。

目前的场景图像标注技术总是假设每个样本都可以表示为一个或多个特征向量(示例)的形式。但是图像往往具有复杂的语义，不仅包含局部信息还具有全局空间信息，这样示例表示会造成信息损失，无法准确描述图像的语义，从而无法准确预测图像标记。现实应用中，很多数据是以具有结构的图来表示的，而非特征向量。

多图多标签(MGML)分类方法可以很自然的应用在许多现实的学习任务中。在该框架下，研究对象被表示为多个图组成的包，并带有多个标签，学习任务是从训练样本中获得标签概念，为未标签的样本预测所有可能的标签。例如在基于内容的图像标注任务中，一幅图像往往有多个标签。一幅图像被划分为若干个区域，每个区域基于像素点或超像素点表示为一个图，这样一幅图像被表示为多个图组成的一个包。

然而，当前的多图多标签方法的缺点有两个方面。首先，所有现有的多图学习算法只能预测粗粒度级别(包)的标签，而不能预测细粒度级别(每个包中的图)。其次，目前研究工作中常用的预测多图包的标签的方法是找到最有代表性的子图，去掉那些不经常出现的子图，这样会丢失一些关键的分类信息。同时，发现最有代表性的子图的复杂度几乎总是NP(非确定性多项式)难的。为了在多实例多标签学习(MIML)中自动标签粗粒度和细粒度(如包和实例)级别的标签，已经进行了大量的研究工作。但MIML中使用的现有方法不能直接应用于MGML学习环境，因为图没有MIML学习模型所需的特征示例向量。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于粗-细粒度多图多标签学习的场景图像标注方法，实现对多图数据包的标签集和包中图的标签集进行预测。

为解决上述技术问题，本发明所采取的技术方案是：基于粗-细粒度多图多标签学习的场景图像标注方法，包括以下步骤：

步骤1：获得原始场景图像数据集与对应的标签集；

步骤2：对原始场景图像数据集进行数据预处理，得到多图数据结构即图包，并选取一部分作为训练集；

首先按场景图像的各个标签把图像切割成多个区域，每个区域对应于一个标签；然后使用超像素分割算法(SLIC)将图像的每个区域分割成多个超像素结点，相邻的超像素结点之间有边相连；每个超像素结点的标签取颜色直方图特征和方向梯度直方图特征的向量合值；因此图像的每个区域被转化为一个图，则一个场景图像则被表示为多图结构，即图包；

步骤3：将多图数据映射到高维特征空间，并通过定义基于图核的图级分值函数对图包中各个图进行评分，以此建模标签与图之间的关系；

为标签一个图，对图中每个标签定义基于图核的图级分值函数，如下公式所示：

f_c(g)＝＜w_c，φ(g)＞ (1)

其中，f_c(.g)为标签c的图级分值函数，w_c是标签c的权重向量，g是训练集中的图包里的图，φ(·)表示使用特定的图核函数将图空间映射到具有内积＜·，·＞的Hilbert空间；

步骤4：从图包中选取最有价值的图作为代表图来定义每个标签的包级分值函数；

图包的标签是图包内图标签的并集，即如果标签c是包B的标签，则包含c类的包B中至少存在一个标签为c的图，因此定义每个标签的包级分值函数，如下公式所示：

其中，B为图包，F_c(B)为标签c的包级分值函数，表示在标签c上实现图包B的最大分值的代表图，即/>为图包B中最有价值的图；

步骤5：设定与图包相关的标签的排名总在与图包不相关的标签之前，构建基于排序损失的目标函数；

排序损失建立了预测标签与每个标签的排序得分之间的关系模型，若标签排序不正确会对目标函数进行惩罚，则基于排序损失的目标函数如下公式所示：

其中，W^*为目标函数的最优解，W为每个标签对应的权重向量构成的权重矩阵，λ表示正则化参数，C代表训练集中类标签的总个数，n代表训练集中图包的总个数，Y_i ⁺表示与图包B_i相对应的相关标签的索引集，Y_i ^-是Y_i ⁺的补集，l_i表示|Y_i ⁺|·|Y_i ^-|，|·|表示基数，w_q、w_p分别表示标签q、p的权重向量，/>分别表示在标签q、p上实现第i个图包的最大分值的代表图；另外对|a|₊，如果a＞0，则|a|₊＝a，否则|a|₊＝0；目标函数的第一项通过惩罚权重矩阵W的范数来控制模型的复杂度；第二项度量图g上的标签超平面/>在相关标签与非相关标签之间的差异；

步骤6：通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数，得到每个标签的最优权重值，进而构建图级和包级的分类器，从而实现对未知多图数据包的标签集和包中图的标签集进行预测，完成场景图像的标注；

步骤6.1：采用次梯度下降算法通过两个阶段R轮迭代优化基于排序损失的目标函数，得到每个标签的最优权重值；

第一阶段，若此阶段在第一轮迭代中，随机从一个图包中选择一个图作为代表图；若在其它轮迭代中，使用上一轮迭代中第二阶段采用次梯度下降算法得到的最终权重值更新训练集中的代表图；

第二阶段，使用第一阶段得到的代表图运行次梯度下降算法，通过迭代更新每个标签的权重值得到每个标签的最优权重；

设定次梯度下降算法总共迭代T次，在第t次迭代时，基于排序损失的目标函数关于标签c的权重向量w_c的次梯度计算如下公式所示：

其中，表示第t次迭代时标签c的权重向量w_c的次梯度，对于/>若标签c＝p，则若c＝q，则/>否则/>

则第t+1次迭代时，标签c的权重向量其中，η_t＝1/(λt)为迭代步长；

通过消除递归，第t+1次迭代时标签c的权重向量重写为如下公式所示：

对上式(5)互换求和顺序，并定义：

将上式(6)转换为迭代公式：

再令与z_i＝λtnl_i，则第t+1次迭代时，标签c的权重向量/>改写成如下式所示：

由上式，将标签对应的权重w视为代表图在高维空间的加权和，其中μ代表权值，换言之，权重w用变量μ进行表示，不需要显示访问权重w；在第一次迭代时，变量μ初始化为零，并使用上一轮计算得到的标签对应的权重值对其进行更新；

在t+2次迭代时，使用计算次梯度计算公式(7)中的/>为：

其中，为核函数；

步骤6.2、通过对图级分值函数与包级分值函数设定阈值，并利用每个标签的最优权重值，分别构建图级分类器和包级分类器，从而实现对未知多图数据包的标签集和包中图的标签集进行预测，完成场景图像的标注；

如果有新的图G或图包D要进行标签预测，则利用步骤6.1得到的每个标签的最优权重值，计算该图G对应标签c的图级分值函数值f_c(G)或图包D对应标签c的包级分值函数值F_c(D)，如果图级分值函数f_c(G)或包级分值函数F_c(D)的函数值大于等于阈值，则对应标签c预测为1，表示该图或图包具有标签c，否则，如果其值小于阈值，则标记标签c的预测为-1，表示该图或图包没有这个标签。

采用上述技术方案所产生的有益效果在于：本发明提供的基于粗-细粒度多图多标签学习的场景图像标注方法，通过使用基于图核的分值函数来选择图和包级别的标签，不仅实现图级和包级的标签预测功能，而且足够通用，即可以对不同的标注问题采用不同的图核。基于定义的图级和包级分值函数，允许在粗粒度(包级)和细粒度(包中的图)上同时进行标签预测，扩展了传统多图多标签分类的范畴。同时，提出了一种有效的次梯度下降优化方法，解决了损失目标函数中的非凸优化问题，大大降低了计算的时间复杂度。本发明方法把转化为多图多标签数据，使数据复杂语义得到合理表示，提高了场景图像标注的精确度。

附图说明

图1为本发明实施例提供的基于粗-细粒度多图多标签学习的场景图像标注方法的流程图；

图2为本发明实施例提供的优化目标函数得到每个标签的最优权重值的训练过程示意图；

图3为本发明实施例提供的更新参数值的具体过程示意图。

图4为本发明实施例提供的待标注图像及标注后的结果图，其中，(a)为待标注图像，(b)为标注结果图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例中，基于粗-细粒度多图多标签学习的场景图像标注方法，如图1所示，包括以下步骤：

步骤1：获得原始场景图像数据集与对应的标签集；

本发明实施例中，以真实图像数据集：PASCAL VISUAL Object Challenge 2012数据集(VOC12)作为原始场景图数据集；该数据集共有1073个图像，每个图像都有相应的多个对象，每个对象都有一个标签。该数据集中共包括20类对象，如“汽车”、“船”、“狗”、“人”、“羊”和“椅子”等。

首先按场景图像的各个标签把图像切割成多个区域，每个区域对应于一个标签；例如一张图像中包含的羊和狗分别切割成两个区域。然后使用超像素分割算法(SLIC)将图像的每个区域分割成多个超像素结点，相邻的超像素结点之间有边相连；每个超像素结点的标签取颜色直方图特征和方向梯度直方图特征的向量合值；因此图像的每个区域被转化为一个图，则一个场景图像则被表示为多图结构，即图包；另外，对于不同的多图多标签数据集，选取训练集的数目不一样，所得模型的泛化性能会有一定的差别。如果训练集包括绝大多数样本，训练出来的模型可能更准确；如果训练集的样本过少，训练出来模型的泛化性能就不太好。因此，选取的训练集大小为多图多标签数据集的2/3～4/5。

步骤3：将多图数据映射到高维特征空间，并通过定义图级分值函数对图包中各个图进行评分，以此建模标签与图之间的关系；

为标签一个图，对图中每个标签定义基于图核的图级分值函数，如下所示：

f_c(g)＝＜w_c，φ(g)＞ (1)

其中，f_c(g)为标签c的图级分值函数，w_c是标签c的权重向量，g是训练集中的图包里的图，φ(·)表示使用特定的图核函数将图空间映射到具有内积＜·，·＞的Hilbert空间；图级分值函数f_c(g)能够对标签和图形之间的相关性建模，其中该分值函数的较高分值表示较高的相关性。该策略对不同的分类问题采用相应的图核函数，保证了算法的通用性，因为可以对不同的分类问题采用相应的图核函数。如对于可用于表示图像数据的节点属性图，使用Graph Hopper核，对于用于表示文本数据的节点标签图，使用Weisfeiler Lehman(WL)核。

其中，B为图包，F_c(B)为标签c的包级分值函数，表示在标签c上实现图包B的最大分值的代表图，因为分值越大表示这个图越有可能具有该类标签，即/>为图包B中最有价值的图；具体地说，如果图包中的图与标签相关，则该图包的标签集必包含该标签。

其中，W^*为目标函数的最优解，W为每个标签对应的权重向量构成的权重矩阵，λ表示正则化参数，C代表训练集中类标签的总个数，n代表训练集中图包的总个数，Y_i+表示与图包Bi相对应的相关标签的索引集，Y_i ^-是Y_i ⁺的补集，l_i表示|Y_i ⁺|·|Y_i ^-|，|·|表示基数，w_q、w_p分别表示标签q、p的权重向量，/>分别表示在标签q、p上实现第i个图包的最大分值的代表图；另外对|a|₊，如果a＞0，则|a|₊＝a，否则|a|₊＝0。目标函数的第一项通过惩罚权重矩阵W的范数来控制模型的复杂度；第二项度量图g上的标签超平面/>在相关标签与非相关标签之间的差异；

步骤6.1：采用次梯度下降算法通过两个阶段R轮迭代(对上述数据集R＝10时算法收敛)优化基于排序损失的目标函数，得到每个标签的最优权重值；

由于该正则化损失函数是非凸的，为解决这个问题，我们第一阶段先找到代表图于是所有代表图都可以被当作常数。然后第二阶段使用一种新的次梯度下降算法来优化损失函数。本发明通过反复迭代这两个过程得到最优权重值，假设优化算法一共迭代R轮。

设定次梯度下降算法总共迭代T次(对上述数据集T＝100时目标函数收敛)，在第t次迭代时，基于排序损失的目标函数关于标签c的权重向量w_c的次梯度计算如下公式所示：

通过消除递归，第t+1次迭代时标签c的权重向量重写为：

对上式(5)互换求和顺序，并定义：

将上式(6)转换为迭代公式：

再令与z_i＝λtnl_i，则第t+1次迭代时，标签c的权重向量/>改写成：

在t+2次迭代时，使用计算次梯度计算公式(7)中的/>为：

其中，为核函数；

因此，此过程对目标函数中权重进行更新不需要直接访问高维特征表示和权重向量/>而仅需提供核函数计算；

总言之，在每一次的次梯度下降迭代t中，均使用上一次迭代t-1中更新的参数变量μ来执行次梯度下降过程。通过足够次数的迭代得到最优权重值。

一般将阈值设置为0，如果有新的图G或图包D要进行标签预测，则利用步骤6.1得到的每个标签的最优权重值，计算该图G对应标签c的图级分值函数值f_c(G)或图包D对应标签c的包级分值函数值F_c(D)，如果图级分值函数f_c(G)或F_c(D)的函数值大于等于阈值0，则对应标签c预测为1，表示该图或图包具有标签c，否则，如果其值小于阈值0，则标记标签c的预测为-1，表示该图或图包没有这个标签。

本实施例中，对步骤6.1通过次梯度下降算法优化步骤5构建的基于排序损失的目标函数得到每个标签的最优权重值的训练如图2所示，具体过程为：

步骤S1：对代表图在高维空间的加权的权值参数μ赋初值并随机初始化每个图包的代表图；首先将参数μ初始化为零，对于每个图包，随机选取图包中的一个图作为该图包的代表图；

步骤S2：从训练集选取一幅图像B_i(即图包)，并获得他的相关标签集Y_i ⁺与非相关标签集Y_i ^-；

步骤S3：从图包B_i的相关标签集Y_i ⁺与非相关标签集Y_i ^-中分别取出一个相关标签p和非相关标签q，使用当前代表图计算图包B_i对应的参数μ_p，i与μ_q，i是否符合标签排序要求，若不符合，则更新参数值μ_p，i与μ_q，i，否则继续执行步骤S4，如图3所示；

从图包B_i的相关标签集Y_i ⁺与非相关标签集Y_i ^-中分别取出一个相关标签p和非相关标签q；使用当前代表图计算图包B_i对应的参数μ_p，i与μ_q，i是否符合标签排序要求，即计算是否满足条件F_q(B_i)＞F_p(B_i)-1，如果满足该条件，则非相关标签q的分值排在相关标签p之前，违背了标签排序要求，因此需要更新参数μ_q，i＝μ_q，i-1；μ_p，i＝μ_p，i+1；

步骤S4：继续从Y_i ⁺与Y_i ^-中选取标签p和q，并更新图包对应的参数直至全部遍历选完所有相关标签和非相关标签；具体而言，判断是否已经全部从Y_i ⁺与Y_i ^-中遍历取完标签p和q，若是则执行S5，否则重新执行步骤S3执行。

步骤S5：判断是否已经全部遍历完所有训练集中的图包，若是则执行S6，否则重新执行步骤S2。

步骤S6：反复迭代运行步骤S2至步骤S5，直至迭代次数达到设定的迭代次数T，然后执行步骤S7；

步骤S7：使用步骤S6得到的最新参数值μ更新每个图包的代表图然后将参数μ清零；

通过计算更新所有图包的代表图，其中μ_c，：代表类标签c下的对于所有图包的参数向量，/>代表类标签c下的对于所有图包的代表图组成的向量，然后将参数μ清零。

步骤S8：判断迭代轮数是否达到设定的R轮，若是则结束训练过程，否则重新执行步骤S2。

本实施例中，给定待标注场景图像如图4(a)所示，将该图经过本发明方法进行标注后的结果图如图4(b)所示，从图中可以看出，本发明方法能够对场景图中的各对象进行准确标注。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于粗-细粒度多图多标签学习的场景图像标注方法，其特征在于：包括以下步骤：

步骤1：获得原始场景图像数据集与对应的标签集；

首先按场景图像的各个标签把图像切割成多个区域，每个区域对应于一个标签；然后使用超像素分割算法将图像的每个区域分割成多个超像素结点，相邻的超像素结点之间有边相连；每个超像素结点的标签取颜色直方图特征和方向梯度直方图特征的向量合值；因此图像的每个区域被转化为一个图，则一个场景图像则被表示为多图结构，即图包；

基于图核的图级分值函数，如下公式所示：

f_c(g)＝<w_c,φ(g)> (1)

其中，f_c(g)为标签c的图级分值函数，w_c是标签c的权重向量，g是训练集中的图包里的图，φ(·)表示使用特定的图核函数将图空间映射到具有内积<·,·>的Hilbert空间；

每个标签的包级分值函数，如下公式所示：

如果有新的图或图包要进行标签预测，则利用步骤6.1得到的每个标签的最优权重值，计算该图对应标签的图级分值函数值或图包对应标签的包级分值函数值，如果图级分值函数或包级分值函数的函数值大于等于阈值，则对应标签预测为1，表示该图或图包具有标签，否则，如果其值小于阈值，则标记对应标签的预测为-1，表示该图或图包没有这个标签。

2.根据权利要求1所述的基于粗-细粒度多图多标签学习的场景图像标注方法，其特征在于：所述步骤5的具体方法为：

其中，W^*为目标函数的最优解，W为每个标签对应的权重向量构成的权重矩阵，λ表示正则化参数，C代表训练集中类标签的总个数，n代表训练集中图包的总个数，/>表示与图包B_i相对应的相关标签的索引集，/>是/>的补集，l_i表示/>|·|表示基数，w_q、w_p分别表示标签q、p的权重向量，/>分别表示在标签q、p上实现第i个图包的最大分值的代表图；另外对|a|₊，如果a>0，则|a|₊＝a，否则|a|₊＝0；目标函数的第一项通过惩罚权重矩阵W的范数来控制模型的复杂度；第二项度量图g上的标签超平面/>在相关标签与非相关标签之间的差异。

3.根据权利要求2所述的基于粗-细粒度多图多标签学习的场景图像标注方法，其特征在于：步骤6.1所述运行次梯度下降算法，通过迭代更新每个标签的权重值得到每个标签的最优权重的具体方法为：

对上式(5)互换求和顺序，并定义：

将上式(6)转换为迭代公式：

再令与z_i＝λtnl_i，则第t+1次迭代时，标签c的权重向量改写成如下式所示：

在t+2次迭代时，使用计算次梯度/>为：

其中，为核函数。