CN106250925B

CN106250925B - 一种基于改进的典型相关分析的零样本视频分类方法

Info

Publication number: CN106250925B
Application number: CN201610606117.3A
Authority: CN
Inventors: 冀中; 郭威辰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-07-25
Filing date: 2016-07-25
Publication date: 2019-06-11
Anticipated expiration: 2036-07-25
Also published as: CN106250925A

Abstract

一种基于改进的典型相关分析的零样本视频分类方法，包括：通过将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间，在这个公共空间中，视频的视觉特征和相应的语义特征具有良好的对应关系，对于新输入的测试视频，将它的视觉特征映射到公共空间，找到对应的语义特征，就可以确定测试视频的所属类别。本发明通过局部线性的方法达到解决非线性问题的目的，在零样本视频分类中可以取得更高的准确率，同时也能适应其他的多模态分类、检索问题。

Description

一种基于改进的典型相关分析的零样本视频分类方法

技术领域

本发明涉及一种零样本视频分类方法。特别是涉及一种基于改进的典型相关分析的零样本视频分类方法。

背景技术

对于传统的视频分类系统，要想准确识别出某类视频，必须给出相应的带标签的训练数据。但训练数据的标签往往是难以获得的，零样本视频分类就是解决类别标签缺失问题的一种有效手段，其目的在于模仿人类无需看过实际视觉样例，就能认出新的类别的能力。传统的分类方法是将给定的数据集划分为训练集和测试集，用在训练集上学到的模型来识别测试集中的数据，其中训练集和测试集有着相同的类别数。与传统的方法不同的是，零样本视频分类是在没有训练样本的情况下识别新的类别，也就是说训练集和测试集在数据的类别上没有交集，如图1所示。零样本学习旨在通过已有的辅助信息(属性、类别名称等)来训练识别未知类别的分类器，因此可以认为零样本学习对未知类别的识别是建立在人类对类别的描述之上，而不是大量的训练数据。

在零样本视频分类中，类别名称所组成的语义空间是最常用的辅助信息，对于未见过的类别的测试视频和其相应的类别名称，需要借助语义空间建立联系。在语义空间中，每一个类别名称都被表示成一个高维向量，这一高维向量又可被称为词向量(wordvector)。常用的词向量提取方法是Mikolov等人提出的word2vec，它是一种无监督的方法，可以将语料库中的单词用向量来表示，并且向量之间的相似度可以很好的模拟单词语义上的相似度。

在给定的语义空间中求得已见过的和未见过的类别的语义特征向量后，各类别间的语义相关性就可以由语义特征向量之间的距离求出。然而，视频是由视觉空间中的视觉特征向量表示的，由于语义鸿沟的存在，它不能与语义空间的特征向量直接建立联系。现有的方法大多通过已见过的类别视频的视觉特征和相应标签的语义特征，学习一个从视觉空间到语义空间的映射函数。然后，通过这个映射函数，将测试视频的视觉特征映射至语义空间，得到预测的语义特征，再找出离它最近的未见过类别的语义特征，从而确定所属类别。

用典型相关分析解决零样本视频分类的方法是学习一个从视觉空间V到公共空间T的映射矩阵w_x，以及从语义空间S到公共空间T的映射矩阵w_y，使得映射后的两个特征之间相关性最大。具体可表述为求如下相关系数的最大值：

这里x∈R^p，是视频的视觉特征，y∈R^q，是视频类别的语义特征，E[·]表示数学期望，C_xx＝E[xx^T]＝XX^T∈R^p×p和C_yy＝E[yy^T]＝YY^T∈R^q×q表示集合内协方差矩阵，C_xy＝E[xy^T]＝XY^T∈R^p×q表示集合间协方差矩阵，且有其中X∈R^p×n是所有训练视频的视觉特征组成的矩阵，Y∈R_q×n是所有训练视频类别的语义特征组成的矩阵，n是训练视频总数。注意这里我们把观察样本的统计值作为数学期望的合理近似，并忽略协方差矩阵的系数1/n，这对CCA计算并无影响，本文以后也采用这种做法。

从公式(3.1)可以发现，ρ关于w_x和w_y尺度无关，则CCA可表述为如下问题的解：

求得映射矩阵w_x,w_y之后，对于未见过的类别的测试数据，将其视觉特征x'映射到公共空间，得到然后，将所有的未见过的类别的语义特征映射到公共空间，得到其中m是测试数据的类别数。找出与相关性最大的对应的类别，它就是测试数据的分类结果。

通常的零样本视频分类方法是将视频的视觉特征映射到类别名称的语义特征空间，然后进行分类。但是，类别名称的语义特征构成的原始空间往往不能很好的描绘数据集的类别结构。

发明内容

本发明所要解决的技术问题是，提供一种能够有效确定测试视频所属类别的基于改进的典型相关分析的零样本视频分类方法。

本发明所采用的技术方案是：一种基于改进的典型相关分析的零样本视频分类方法，包括如下步骤：

1)提取训练数据的视频特征X以及训练数据类别名称的语义特征Y；

训练数据的视频特征X＝[x₁,x₂,...,x_n]，其中n是训练数据的个数；训练数据类别名称的语义特征为Y＝[y₁,y₂,...,y_n]

2)计算相似度矩阵S^X,S^Z

训练类别名称的语义特征Z＝[z₁,z₂,...,z_t]，其中t是训练集的类别数；

3)依据相似度矩阵构建矩阵L^X,D^X以及L^Z,D^Z；

4)求如下方程的特征值λ：

其中，α,β是权重系数，λ₁,λ₂是拉格朗日乘子，设λ＝λ₁＝λ₂，w_x是从视觉空间到公共空间的映射矩阵；w_y是从语义空间到公共空间的映射矩阵；

根据公共空间的维数d，分别选择λ最大的d个特征值对应的d维特征向量，从而得到映射矩阵W_x、W_y；

5)对于输入的测试数据，分别提取视频特征x'，并映射到公共空间，得到

6)将所有候选的测试数据类别名称的语义特征映射到公共空间，得到其中m是测试数据的类别数；

7)在公共空间中，找出与距离最近的这个所对应的类别就是测试数据的分类结果。

步骤2)所述的计算相似度矩阵S^X,S^Z是采用如下公式计算：

这里参数t_x取为均方距离或同量级的实数，参数t_z取为均方距离或同量级的实数，记号ne(i)表示x_i或者z_i的局部近邻样本下标集，x_i和z_i，的局部近邻以k-近邻定义法来定义：若x_j是x_i的k-近邻样本，则称x_j是x_i的局部近邻，同样，若z_j是z_i的k-近邻样本，则称z_j是z_i的局部近邻，n为样本数量。

步骤3)所述的构建矩阵L^X,D^X以及L^Z,D^Z是采用下述公式：

L^X＝D^X-S^X，其中

L^Z＝D^Z-S^Z，其中

本发明的一种基于改进的典型相关分析的零样本视频分类方法，具有以下有益效果：

1、新颖性：将流形约束引入目标函数，这种局部化方法保持了样本的局部特征，通过降维，揭示出隐藏于原始高维空间的低维流形结构，从而通过局部线性的方法达到解决非线性问题的目的。

2、有效性：经过实验验证，与其他未用流形的方法和将视觉特征映射到语义特征空间的方法相比，本发明设计的算法在零样本视频分类中可以取得更高的准确率，因此是一种有效的零样本视频分类方法。

3、实用性：本方法简单易行，效果优良。除了零样本视频分类问题，同时也能适应其他的多模态分类、检索问题。

附图说明

图1a是零样本分类在训练和测试类别上的示意图；

图1b普通分类在训练和测试类别上的示意图；

图2是本发明的零样本分类示意图；

图3是本发明一种基于改进的典型相关分析的零样本视频分类方法的流程图。

具体实施方式

下面结合实施例和附图对本发明的一种基于改进的典型相关分析的零样本视频分类方法做出详细说明。

零样本视频分类属于机器学习中的视频分类问题。分类问题是指，根据已知的训练数据集学习一个分类器，然后利用这个分类器对新的输入实例进行分类。零样本视频分类也是分类问题，只是在测试数据集中没有出现过训练数据中已知的类别。本发明通过一种改进的典型相关分析方法，建立视频的视觉空间与视频类别的语义空间之间的联系，从而实现零样本视频分类。

首先，可以将典型相关分析的目标函数(公式3.2)写成：

于是，在零样本视频分类问题中，典型相关分析(公式3.3)的物理意义就是：让视频的视觉特征与其类别的语义特征在映射到公共空间后的欧式距离最接近。

但是，CCA只是抽取了两组数据之间的线性相关关系。然而，这样的线性学习方式不足以学习真实世界中大量存在的非线性相关现象，当用这样的线性模型来学习非线性相关现象时，将不可避免地出现欠拟合现象。因此这个目标函数还不够完善，所以本发明对典型相关分析进行了如下改进：

(1)采用局部化方法，即加入流形约束。这种局部化方法保持了样本的局部特征，通过降维，揭示出隐藏于原始高维空间的低维流形结构，使人们可以在更易于观察与感知的低维空间把握数据集内在的规律性，寻找与人类认知观念相似的性质或发现新的知识，或根据问题的需要做出相应的灵活处理。

(2)一般地，一个复杂的全局非线性问题，可以划分为许多局部小片区域，在该局部区域内可视为线性问题。在本发明中，我们将样本的局部结构信息引入到CCA中，考察一个小邻域内的典型相关问题，将原来的全局非线性问题变成许多局部线性问题，然后对这些子问题求和，通过优化计算得到一组样本投影基向量，通过局部线性的方法达到解决非线性问题的目的。

该方法在保持各样本集的局部结构信息的同时得到两组样本之间的最大化相关信息。于是，可以将目标函数写成下面形式：

公式(3.4)中，第一项是典型相关分析的目标函数，第二项使得视觉空间中相似的样本经过映射之后在公共空间中的距离依然较近，第三项使得语义空间中的语义点经过映射之后依然保持局部结构。其中，t是训练集的类别数，Z＝[z₁,z₂,...,z_t]是训练的类别标签所对应语义特征，α,β是权重系数，相似度矩阵和中的元素定义如下：

这里参数t_x一般取为均方距离或同量级的实数，参数t_z也做类似处理，记号ne(i)表示x_i(或者y_i)的局部近邻样本下标集。x_i的局部近邻以k-近邻定义法来定义：若x_j是x_i的k-近邻样本，则称x_j是x_i的局部近邻。

将公式(3.4)进一步化简，得到：

其中，L^X＝D^X-S^X，这里的L^Z有着与L^X相似的定义。

用拉格朗日乘子法解公式(3.7)，得到以下方程：

其中，λ₁,λ₂是拉格朗日乘子，这里我们假设λ＝λ₁＝λ₂。这样，就把最优化问题转化为了特征值的求解问题。求出方程(3.8)的特征值λ，根据公共空间的维数d，分别选择特征值λ最大的d个特征值对应的d个特征向量W_x,W_y，这就是要求的映射矩阵。

对于未见过的类别的测试数据，将其视觉特征x'映射到公共空间，得到然后，将所有未见过的类别的语义特征映射到公共空间，得到m是测试数据的类别数。找出与相关性最大的对应的类别，它就是测试数据的分类结果。

如图3所示，本发明的一种基于改进的典型相关分析的零样本视频分类方法，包括如下步骤：

训练数据的视频特征X＝[x₁,x₂,...,x_n]，其中n是训练数据的个数；训练数据类别名称的语义特征为Y＝[y₁,y₂,...,y_n]；

2)计算相似度矩阵S^X,S^Z；

所述的计算相似度矩阵S^X,S^Z是采用如下公式计算：

3)依据相似度矩阵构建矩阵L^X,D^X以及L^Z,D^Z

所述的构建矩阵L^X,D^X以及L^Z,D^Z是采用下述公式：

L^X＝D^X-S^X，其中

L^Z＝D^Z-S^Z，其中

4)求如下方程的特征值λ：

本发明的一种基于改进的典型相关分析的零样本视频分类方法，可以将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间，如图2所示。在这个公共空间中，视频的视觉特征和相应的语义特征具有良好的对应关系。对于新输入的测试视频，将它的视觉特征映射到公共空间，找到对应的语义特征，就可以确定测试视频的所属类别。

Claims

1.一种基于改进的典型相关分析的零样本视频分类方法，其特征在于，包括如下步骤：

2)计算相似度矩阵S^X,S^Z

所述的计算相似度矩阵S^X,S^Z是采用如下公式计算：

这里参数t_x取为均方距离或同量级的实数，参数t_z取为均方距离或同量级的实数，记号ne(i)表示x_i或者z_i的局部近邻样本下标集，x_i和z_i，的局部近邻以k-近邻定义法来定义：若x_j是x_i的k-近邻样本，则称x_j是x_i的局部近邻，同样，若z_j是z_i的k-近邻样本，则称z_j是z_i的局部近邻，n为样本数量；

3)依据相似度矩阵构建矩阵L^X,D^X以及L^Z,D^Z；所述的构建矩阵L^X,D^X以及L^Z,D^Z是采用下述公式：

4)求如下方程的特征值λ：