CN107766873A

CN107766873A - 基于排序学习的多标签零样本分类方法

Info

Publication number: CN107766873A
Application number: CN201710794232.2A
Authority: CN
Inventors: 冀中; 李慧慧
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-09-06
Filing date: 2017-09-06
Publication date: 2018-03-06

Abstract

本发明涉及面向多媒体内容理解和分析领域的多标签图像分类技术，为构造出新的分类模型，实现基于相关性等级的多标签分类算法设计。本发明采用的技术方案是，基于排序学习的多标签零样本分类方法，步骤如下：特征提取阶段：利用已有的特征提取器进行不同模态的特征描述，得出训练数据集；多模态特征变换阶段给定训练样本集合对，包含原始图像及其对应标签，且两者间的标注信息确定，以此对模型进行训练；分类标注阶段，给定测试样本的原始图像，以及可能的标签，此时两者对应关系不确定，进行测试。本发明主要应用于多标签图像分类场合。

Description

基于排序学习的多标签零样本分类方法

技术领域

本发明涉及面向多媒体内容理解和分析领域的多标签图像分类技术，具体讲,涉及基于排序学习的多标签零样本分类方法。

背景技术

随着信息技术的快速发展，图像和视频等多媒体数据大量涌现，成为人们获取信息的重要途径之一。人类对图像信息的认知，是将其所反映的不同类别的目标区分开来并赋予标签。然而，由于事物种类剧增，且种类不断细化，图像与标签信息的不对等，使得传统图像分类技术难以满足实际需求，零样本学习的出现一定程度上解决了标签缺失问题。实际应用中，一幅图像不同的区域往往对应若干类别，如何将区域划归为若干类别中的某一种，即多标签图像分类技术，结合零样本学习，既能满足实际需求，又能解决标签缺失问题。

对于给定观察样本x，可能包含类别数为r个，传统多标签图像分类将其看作r个独立的单标签分类问题，过程冗余且精度低，如何高效精确地实现类别的标注，关键在于有效地利用类与类之间的内在语义联系，对于给定样本x，所有可能的标签组合个数为2^r-1，根据某个准则，利用标签间联系，找到最恰当的一个组合，即为给定样本的标注信息。

目前标签信息的表现形式主要为词向量法，即将某一文本表示为一特定维度向量，其中两个常用的模型为Word2Vec及Glove。因零样本学习是对未见类别的预测，需借助辅助信息，或称为中间语义层特征才能实现。词向量即可作为一种中间语义层特征，另一为属性特征。此外，给定观察样本的视觉表示称之为视觉特征，记作x∈R^D，表示视觉特征向量为D维。直接对样本进行分析处理存在如下两大问题：1)计算复杂度高、维数灾难；2)语义鸿沟，这成为严重制约多媒体内容分析和检索领域的关键问题。为有效缓解这些问题，可对视觉语义信息进行特征变换，其目标是通过对原始数据进行变换而得到有效的低维表示，并保持数据的几何结构。在过去的几十年中，人们提出大量的跨模态映射方法，如经典的典型相关分析(CCA)、线性映射(LR)等，随着深度学习(Deep Learning)的兴起与不断发展，非线性人工神经网络为特征变换算法提供了新思路。

原始视觉/语义特征约简至特定映射空间，该映射空间可能为语义特征空间，也可能为某一特定维度的公共空间，在映射空间中对目标样本进行分类标注。目前常用的分类技术有相似度量法(如欧式距离、余弦相似度量)、softmax分类以及支持向量机(SVM)等。上述技术主要用于常见的单标签分类问题，对于多标签零样本标注的泛化能力不足，样本对应标注结果仅有一个标签，无法满足用户的实际要求。为改善分类的准确性以提高用户满意度，在映射空间中结合可利用的辅助信息来训练新的分类模型，利用新的模型对样本进行重新标注。辅助信息的选取主要基于文本，目标样本x可能对应的所有标签组合个数为2ⁿ-1，所有组合与样本间存在相关性等级信息，大多数情况下，根据与样本的相关性的高低手动或自动地对每个标签组合进行不同等级的标注，如“非常相关”、“相关”、“一般相关”、“不相关”等，排序学习正是基于这种特殊标注的研究领域。

排序学习(LTR，Learning to rank)是一种基于监督学习的排序方法，广泛应用于文本挖掘的诸多领域，如信息检索(IR，Information Retrieval)中排序返回文档，推荐系统中候选产品、用户排序，机器翻译中排序候选翻译结果等。排序模型的训练过程为先选定LTR方法，确定损失函数，以最小化损失函数为目标进行优化即可得模型相关参数。预测过程则将待预测样本输入所得排序模型中，即可得到结果相关得分，利用该得分进行排序即可得到待预测结果的最终顺序。LTR一般来说有三类方法：基于数据点方法(Pointwise)，基于数据对方法(Pairwise)，基于列表方法(Listwise)。Pointwise处理对象是单一数据点，将样本转化为特征向量后，将排序问题转化为机器学习中常规的分类或回归问题；Pairwise是目前比较流行的方法，其主要思想是将排序问题归结为二元分类问题，此时对应实现的机器学习的方法较多，如RankBoost、SVM Rank、RankNet等；相比于前两种方法而言,Listwise方不再将Ranking问题形式化为分类或回归问题，而是直接对排序结果(list)进行优化。

发明内容

为克服现有技术的不足，本发明旨在提出一种基于深度排序的多标签零样本分类方法。由于传统单标签分类方式将各个标签看作独立个体，泛化至多标签问题中无法取得满意效果，本发明利用深度学习技术进行特征变换的同时，充分利用标签间相互存在的关系，针对某两两标签组合间特征非常接近的情况，构造出新的分类模型，实现基于相关性等级的多标签分类算法设计。本发明采用的技术方案是，基于排序学习的多标签零样本分类方法，步骤如下：

特征提取阶段：利用已有的特征提取器进行不同模态的特征描述，得出训练数据集(x_i,y_i)∈R^p×R^q，i＝1,…,n，其中x_i和y_i即为视觉特征和语义特征，n为训练样本个数，多标签学习中，y_i不再是单个标签的语义表征，而是样本所对应标签的语义向量间的线性组合；

多模态特征变换阶段：采用回归/嵌套法进行特征变换，给定训练数据集(x_i,y_i)∈R^p×R^q，i＝1,…,n，将x_i,y_i分别记作X＝[x₁,…,x_n]∈R^p×n和Y＝[y₁,…,y_n]∈R^q×n，寻找两组基向量w_x∈R^p与w_y∈R^q，对于任意训练集中对应关系已知的样本对(x,y)，使得随机向量和在某一特定维度空间中相关性最大，从而得出最佳的公共空间W。测试阶段，给定测试样本X＝[x₁,…,x_m]∈R^p×m，i＝1,…,m，m为测试样本个数，利用已训练空间进行特征变换，将变换后所得特征向量记作对于测试样本，所有可能对应的类别数为r，则所有可能的标签组合为s＝2^r-1个，记作集合T＝[t₁,…,t_s]∈{-1,1}^r×s，其中1，-1表征某一标签在某组合中存在与否，此时各标签组合的语义特征即可通过各标签词向量经线性组合得出，记作Y＝[y₁,…,y_s]∈R^q×s，约简后所得特征向量记为此时特征变换满足关系：v＝u；其中p,q分别为特征变换前视觉特征、语义特征向量维度；u，v分别为特征变换后的视觉特征、语义特征向量维度。

分类标注阶段：采取Learning to rank算法，基于数据对法Pairwise，通过支持向量机SVM来实现最终的多标签标注，具体分类模型又分为两个步骤：排序模型训练和标签预测，排序模型训练阶段，选取多模态特征变换阶段所得数据数据和T，其中两者间对应关系已知，得如下关系：

r(y_j)表示相关性程度，w和b分别为模型的权重和偏置参数，若特征向量和标签信息t_j是已知对应关系，则相关性最大；两者不完全对应，但标签信息非常接近，则相关性次之；标签信息完全不相关，则相关性最小。最终通过两两间的的排序对比得出一个相关性等级排序，基于这一假设，通过最小化某一排序损失函数，训练得出模型参数w和b。标签预测时，以为输入送入已训练的分类模型中，得最终预测标签信息至此多标签标注任务完成。

多模态特征变换阶段，给定训练样本集合对，包含原始图像及其对应标签，且两者间的标注信息确定，以此对模型进行训练；

分类标注阶段，给定测试样本的原始图像，以及可能的标签，此时两者对应关系不确定，进行测试。

多模态特征变换阶段具体步骤如下：

1)原始图像输入视觉特征提取器，得出高维特征向量X＝[x₁,…,x_n]∈R^p×n，p为视觉空间维度，n为样本个数；

2)标签信息输入语言模型，每一标签词向量根据图像标注信息进行线性组合，得出组合后的语义特征向量Y＝[y₁,…,y_n]∈R^q×n，q为语义空间维度；

3)视觉特征X到语义空间的特征变换，具体结构为l层全连接层FC及每层后的激活函数层f，损失函数选择有效的最小均方误差，最终目标函数为：

其中W₁，W₂和W₃是三个全连接层对应权重，λ是正则化项同均方误差间的平衡超参，不断优化模型最终得出超参W₁，W₂和W₃。

分类标注阶段具体步骤是：

1)原始图像输入视觉特征提取器，得高维特征向量X＝[x₁,…,x_m]∈R^p×m，p为视觉空间维度，m为样本个数；

2)假定所有可能类别数为r，对标签进行组合，则所有可能的组合个数为s＝2^r-1，记作集合T＝[t₁,…,t_s]∈{-1,1}^r×s，其中1，-1表征某一标签在某组合中存在与否；

3)标签信息输入语言模型，每一标签词向量根据集合T进行线性组合，得出组合后的语义特征向量Y＝[y₁,…,y_s]∈R^q×s；

4)利用训练阶段3)中所训练模型对特征X＝[x₁,…,x_m]∈R^p×m进行视觉特征变换，得变换后向量

5)进行排序学习模型训练，以语义特征向量Y＝[y₁,…,y_s]∈R^q×s和集合T＝[t₁,…,t_s]∈{-1,1}^r×s作为训练样本对，满足关系：

r(y_j)＝<w,y_j>+b

其中r(y_j)为相关性程度，y_j和t_j若为确定对应关系，则相关性最大，反之则反，利用SVM来实现改排序模型的训练，选取目标函数：

ξ_j≥0,j,l＝1,…,s

其中C是数据对间相关性约束和最大间隔间的平衡参数；和表示第j个标签组合的语义特征，前者表示特征和标签信息对应，后者表示两者之间非对应关系；ξ为松弛变量。最终得出最优化参数w和b，模型训练完成；

6)利用排序学习模型经行预测，样本作为输入，得出标签组合预测结果

采用回归/嵌套方法进行特征变换，其中回归/嵌套模型可选用包括典型相关分析法CCA、线性回归LR法的线性方法中的一种，或选用神经网络回归模型来实现。

本发明的特点及有益效果是：

本发明主要针对多标签零样本图像分类问题，考虑传统单标签分类技术泛化至其该领域时存在的问题，对具体分类标注技术进行改进，充分利用多标签间的语义上的联系，使之对各可能的标签组合方式同样本视觉信息进行相关性等级排序，从而实现最终标注。其优势主要体现在：

(1)新颖性：将基于数据对的排序学习引入到多标签零样本图像分类问题，对图像标注分类方法提出改进，同时充分利用标签间的语义联系，使其能够对样本对应的异常接近的各标签组合进行相关性等级排序。

(2)多模态性：零样本学习属于多模态学习领域，要实现对未见过类别的学习与预测，必须借助除视觉信息外，从其他渠道所获得的辅助信息，因此不论单标签或多标签零样本分类问题，均具有多模态性。具体来说，特征变换阶段涉及两个模态；另一方面，在样本标注阶段，相关性等级排序时是对不同模态信息间相关程度的表征。

(3)有效性：通过充分的实验证明了排序模型在多标签零样本图像分类问题中的有效性，同已有方法相比性能有明显提升，为多标签分类问题的解决提供了新思路。

(4)实用性：简单可行，旨在解决更符合实际需求的多标签标注问题，同时也可以应用于多媒体检索中的视觉搜索重排序、个性化推荐等与排序相关的领域。

附图说明：

图1是本发明用于解决多标签零样本分类问题的总体框架图；

图2是本发明所提供的一种特征变换模型；

图3是本发明用于解决多标签零样本分类问题训练过程流程图；

图4是本发明用于解决多标签零样本分类问题预测过程流程图。

具体实施方式

本发明涉及一种面向多媒体内容理解和分析领域的多标签图像分类技术，它针对多媒体图像类别多、标注信息匮乏等特点，利用各标签类别内部的语义信息联系，对现有的多标签图像分类技术进行改进，设计适用于零样本分类的基于深度排序的跨模态分类技术，提高了图像标注的精度，并在一定程度上解决了标签缺失问题。

本发明在分析单标签分类及多标签分类问题的基础上，充分利用标签间的相互关系，进行特征变换后，将排序学习引入多标签零样本分类问题中，设计新的多标签分类算法，根据相关性等级信息得出与样本相关性最大的标注信息，从而实现多类图像标注。

单标签零样本图像分类技术中，给定成对的训练数据集(x_i,y_i)∈R^p×R^q，i＝1,…,n，其中x_i,y_i分别表示视觉和语义特征，记为X＝[x₁,…,x_n]∈R^p×n和Y＝[y₁,…,y_n]∈R^q×n，以典型相关分析CCA为例进行特征变换，寻找两组基向量w_x∈R^p与w_x∈R^p，对于任意训练集中对应关系已知的样本对(x,y)，使得随机向量和在某一特定维度空间W中相关性最大。测试阶段，给定测试数据集(x_i,y_i)∈R^p×R^q，i＝1,…,m，其中训练集语义特征Y＝[y₁,…,y_n]∈R^q×n与测试集语义特征Y＝[y₁,…,y_m]∈R^q×m交集为空，且视觉特征同语义特征间的对应关系未知。将测试样本输入训练好的CCA模型中，得出随机向量和根据同类样本间相关性最大，异类间的相关性最小的准则，对随机向量和进行相似性度量(如余弦距离)，即可实现对未见类样本进行标注。

传统零样本图像分类主要包括特征提取、特征变换，以及分类标注三个阶段。就多标签图像分类而言，实现过程基本遵循上述三个阶段，由于此时一幅图像同时对应多个标签，各阶段的实现与单标签分类问题有所差别。

特征提取阶段：同传统法一致，利用已有的特征提取器进行不同模态的特征描述，区别在于对于此时的训练数据集(x_i,y_i)∈R^p×R^q，i＝1,…,n，语义特征y_i不再是单个标签的语义表征，而是样本x_i所有标签的语义向量间的线性组合。

多模态特征变换阶段：实现视觉特征空间同语义特征空间之间的跨模态映射，具体可通过线性方法，例如典型相关分析法CCA、线性回归法LR，或非线性的方法，例如神经网络来实现。以CCA为例，给定训练数据集(x_i,y_i)∈R^p×R^q，i＝1,…,n，注意此时语义特征y_i是样本x_i所有标签的语义向量的线性组合，与单标签分类问题训练原理一致，得出最佳的公共空间W。测试阶段，给定测试样本X＝[x₁,…,x_m]∈R^p×m,经特征变换后所得特征向量记作若所有可能类别数为r，则所有可能的标签组合为s＝2^r-1个，记作集合T＝[t₁,…,t_s]∈{-1,1}^r×s，其中1，-1表征某一标签在某组合中存在与否。此时各标签组合的语义特征即可通过各标签词向量经线性组合得出，记作Y＝[y₁,…,y_s]∈R^q×s，约简后所得特征向量记为值得说明的是，选取CCA进行特征变换时满足：v＝u。至此第二阶段的工作全部完成。

分类标注阶段：传统单标签分类问题直接对和进行相似性度量以得出标注结果，实验证明该方法并不适用与多标签分类问题，对此本发明采取Learning to rank算法，基于数据对法(Pairwise)，通过支持向量机SVM来实现最终的多标签标注。模型分为两个步骤：训练和预测。训练阶段，选取数据和T，两者的对应关系已知，可得如下关系：

r(y_j)表示相关性程度，w和b分别为模型的权重和偏置参数。若特征向量和标签信息t_j是已知对应关系，则相关性最大；两者不完全对应，但标签信息非常接近，则相关性次之；标签信息完全不相关，则相关性最小。最终通过两两间的的排序对比可得出一个相关性等级排序。基于这一假设，通过最小化排序损失函数，训练得出模型参数w和b。预测阶段，以为输入送入已训练模型，即可得最终预测标签信息至此多标签标注任务完成。

图1所示为实现多标签零样本分类问题的整体结构图，由三个环节构成：特征提取，特征变换，以及排序学习阶段，其中特征变换的最优实施模型如图2所示，模型具体训练及测试过程分别如图3,4所示，步骤如下：

多模态特征变换阶段：如图3所示，给定训练样本集合对，包含原始图像及其对应标签，且两者间的标注信息确定。

3)视觉特征X到语义空间的特征变换，实验证明图2所示深度回归网络具有优越的特征变换效果，具体结构为三层(以三层为例，不限于三层)全连接层FC及每层后的激活函数层f，损失函数选择有效的最小均方误差，最终目标函数为：

其中W₁,W₂和W₃是三个全连接层对应权重，λ是正则化项同均方误差间的平衡超参。不断优化模型最终得出超参W₁,W₂和W₃。

分类标注阶段：如图4所示，给定测试样本的原始图像，以及可能的标签，此时两者对应关系不确定。

4)利用训练阶段3)中所训练模型对特征X＝[x₁,…,x_m]∈R^p×m进行视觉特征变换，取FC₃后结果得变换后向量

r(y_j)＝<w,y_j>+b

其中r(y_j)为相关性程度，y_j和t_j若为确定对应关系，则相关性最大，反之则反。利用SVM来实现改排序模型的训练，选取目标函数：

ξ_j≥0,j,l＝1,…,s

其中C是数据对间相关性约束和最大间隔间的平衡参数；和表示第j个标签组合的语义特征，前者表示特征和标签信息对应，后者表示两者之间非对应关系；ξ为松弛变量。最终得出最优化参数w和b，模型训练完成。

Claims

1.一种基于排序学习的多标签零样本分类方法，其特征是，步骤如下：特征提取阶段：利用已有的特征提取器进行不同模态的特征描述，得出训练数据集(x_i,y_i)∈R^p×R^q，i＝1,…,n，其中x_i和y_i即为视觉特征和语义特征，n为训练样本个数，多标签学习中，y_i不再是单个标签的语义表征，而是样本所对应标签的语义向量间的线性组合；

多模态特征变换阶段：采用回归/嵌套法进行特征变换，给定训练数据集(x_i,y_i)∈R^p×R^q，i＝1,…,n，将x_i,y_i分别记作X＝[x₁,…,x_n]∈R^p×n和Y＝[y₁,…,y_n]∈R^q×n，寻找两组基向量w_x∈R^p与w_y∈R^q，对于任意训练集中对应关系已知的样本对(x,y)，使得随机向量和在某一特定维度空间中相关性最大，从而得出最佳的公共空间W；测试阶段，给定测试样本X＝[x₁,…,x_m]∈R^p×m，i＝1,…,m，m为测试样本个数，利用已训练空间进行特征变换，将变换后所得特征向量记作对于测试样本，所有可能对应的类别数为r，则所有可能的标签组合为s＝2^r-1个，记作集合T＝[t₁,…,t_s]∈{-1,1}^r×s，其中1，-1表征某一标签在某组合中存在与否，此时各标签组合的语义特征即可通过各标签词向量经线性组合得出，记作Y＝[y₁,…,y_s]∈R^q×s，约简后所得特征向量记为此时特征变换满足关系：v＝u；其中p,q分别为特征变换前视觉特征、语义特征向量维度；u，v分别为特征变换后的视觉特征、语义特征向量维度；

2.如权利要求1所述的基于排序学习的多标签零样本分类方法，其特征是，多模态特征变换阶段，给定训练样本集合对，包含原始图像及其对应标签，且两者间的标注信息确定，以此对模型进行训练；分类标注阶段，给定测试样本的原始图像，以及可能的标签，此时两者对应关系不确定，进行测试。

3.如权利要求1所述的基于排序学习的多标签零样本分类方法，其特征是，多模态特征变换阶段具体步骤如下：

其中W₁,W₂和W₃是三个全连接层对应权重，λ是正则化项同均方误差间的平衡超参，不断优化模型最终得出超参W₁,W₂和W₃。

4.如权利要求1所述的基于排序学习的多标签零样本分类方法，其特征是，分类标注阶段具体步骤是：

r(y_j)＝<w,y_j>+b

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>w</mi> <mo>,</mo> <mi>&xi;</mi> </mrow> </munder> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>+</mo> <mi>C</mi> <munderover> <mo>&Sigma;</mo> <mi>j</mi> <mi>s</mi> </munderover> <msub> <mi>&xi;</mi> <mi>j</mi> </msub> </mrow>

<mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <mo><</mo> <mi>w</mi> <mo>,</mo> <msubsup> <mi>y</mi> <mi>j</mi> <mi>j</mi> </msubsup> <mo>-</mo> <msubsup> <mi>y</mi> <mi>j</mi> <mi>l</mi> </msubsup> <mo>></mo> <mo>&GreaterEqual;</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&xi;</mi> <mi>j</mi> </msub> </mrow>

ξ_j≥0,j,l＝1,…,s

5.如权利要求1所述的基于排序学习的多标签零样本分类方法，其特征是，采用回归/嵌套方法进行特征变换，其中回归/嵌套模型可选用包括典型相关分析法CCA、线性回归LR法的线性方法中的一种，或选用神经网络回归模型来实现。