CN106250925B - 一种基于改进的典型相关分析的零样本视频分类方法 - Google Patents
一种基于改进的典型相关分析的零样本视频分类方法 Download PDFInfo
- Publication number
- CN106250925B CN106250925B CN201610606117.3A CN201610606117A CN106250925B CN 106250925 B CN106250925 B CN 106250925B CN 201610606117 A CN201610606117 A CN 201610606117A CN 106250925 B CN106250925 B CN 106250925B
- Authority
- CN
- China
- Prior art keywords
- classification
- video
- public space
- matrix
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000010219 correlation analysis Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012360 testing method Methods 0.000 claims abstract description 32
- 230000000007 visual effect Effects 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于改进的典型相关分析的零样本视频分类方法,包括:通过将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间,在这个公共空间中,视频的视觉特征和相应的语义特征具有良好的对应关系,对于新输入的测试视频,将它的视觉特征映射到公共空间,找到对应的语义特征,就可以确定测试视频的所属类别。本发明通过局部线性的方法达到解决非线性问题的目的,在零样本视频分类中可以取得更高的准确率,同时也能适应其他的多模态分类、检索问题。
Description
技术领域
本发明涉及一种零样本视频分类方法。特别是涉及一种基于改进的典型相关分析的零样本视频分类方法。
背景技术
对于传统的视频分类系统,要想准确识别出某类视频,必须给出相应的带标签的训练数据。但训练数据的标签往往是难以获得的,零样本视频分类就是解决类别标签缺失问题的一种有效手段,其目的在于模仿人类无需看过实际视觉样例,就能认出新的类别的能力。传统的分类方法是将给定的数据集划分为训练集和测试集,用在训练集上学到的模型来识别测试集中的数据,其中训练集和测试集有着相同的类别数。与传统的方法不同的是,零样本视频分类是在没有训练样本的情况下识别新的类别,也就是说训练集和测试集在数据的类别上没有交集,如图1所示。零样本学习旨在通过已有的辅助信息(属性、类别名称等)来训练识别未知类别的分类器,因此可以认为零样本学习对未知类别的识别是建立在人类对类别的描述之上,而不是大量的训练数据。
在零样本视频分类中,类别名称所组成的语义空间是最常用的辅助信息,对于未见过的类别的测试视频和其相应的类别名称,需要借助语义空间建立联系。在语义空间中,每一个类别名称都被表示成一个高维向量,这一高维向量又可被称为词向量(wordvector)。常用的词向量提取方法是Mikolov等人提出的word2vec,它是一种无监督的方法,可以将语料库中的单词用向量来表示,并且向量之间的相似度可以很好的模拟单词语义上的相似度。
在给定的语义空间中求得已见过的和未见过的类别的语义特征向量后,各类别间的语义相关性就可以由语义特征向量之间的距离求出。然而,视频是由视觉空间中的视觉特征向量表示的,由于语义鸿沟的存在,它不能与语义空间的特征向量直接建立联系。现有的方法大多通过已见过的类别视频的视觉特征和相应标签的语义特征,学习一个从视觉空间到语义空间的映射函数。然后,通过这个映射函数,将测试视频的视觉特征映射至语义空间,得到预测的语义特征,再找出离它最近的未见过类别的语义特征,从而确定所属类别。
用典型相关分析解决零样本视频分类的方法是学习一个从视觉空间V到公共空间T的映射矩阵wx,以及从语义空间S到公共空间T的映射矩阵wy,使得映射后的两个特征之间相关性最大。具体可表述为求如下相关系数的最大值:
这里x∈Rp,是视频的视觉特征,y∈Rq,是视频类别的语义特征,E[·]表示数学期望,Cxx=E[xxT]=XXT∈Rp×p和Cyy=E[yyT]=YYT∈Rq×q表示集合内协方差矩阵,Cxy=E[xyT]=XYT∈Rp×q表示集合间协方差矩阵,且有其中X∈Rp×n是所有训练视频的视觉特征组成的矩阵,Y∈Rq×n是所有训练视频类别的语义特征组成的矩阵,n是训练视频总数。注意这里我们把观察样本的统计值作为数学期望的合理近似,并忽略协方差矩阵的系数1/n,这对CCA计算并无影响,本文以后也采用这种做法。
从公式(3.1)可以发现,ρ关于wx和wy尺度无关,则CCA可表述为如下问题的解:
求得映射矩阵wx,wy之后,对于未见过的类别的测试数据,将其视觉特征x'映射到公共空间,得到然后,将所有的未见过的类别的语义特征映射到公共空间,得到其中m是测试数据的类别数。找出与相关性最大的对应的类别,它就是测试数据的分类结果。
通常的零样本视频分类方法是将视频的视觉特征映射到类别名称的语义特征空间,然后进行分类。但是,类别名称的语义特征构成的原始空间往往不能很好的描绘数据集的类别结构。
发明内容
本发明所要解决的技术问题是,提供一种能够有效确定测试视频所属类别的基于改进的典型相关分析的零样本视频分类方法。
本发明所采用的技术方案是:一种基于改进的典型相关分析的零样本视频分类方法,包括如下步骤:
1)提取训练数据的视频特征X以及训练数据类别名称的语义特征Y;
训练数据的视频特征X=[x1,x2,...,xn],其中n是训练数据的个数;训练数据类别名称的语义特征为Y=[y1,y2,...,yn]
2)计算相似度矩阵SX,SZ
训练类别名称的语义特征Z=[z1,z2,...,zt],其中t是训练集的类别数;
3)依据相似度矩阵构建矩阵LX,DX以及LZ,DZ;
4)求如下方程的特征值λ:
其中,α,β是权重系数,λ1,λ2是拉格朗日乘子,设λ=λ1=λ2,wx是从视觉空间到公共空间的映射矩阵;wy是从语义空间到公共空间的映射矩阵;
根据公共空间的维数d,分别选择λ最大的d个特征值对应的d维特征向量,从而得到映射矩阵Wx、Wy;
5)对于输入的测试数据,分别提取视频特征x',并映射到公共空间,得到
6)将所有候选的测试数据类别名称的语义特征映射到公共空间,得到其中m是测试数据的类别数;
7)在公共空间中,找出与距离最近的这个所对应的类别就是测试数据的分类结果。
步骤2)所述的计算相似度矩阵SX,SZ是采用如下公式计算:
这里参数tx取为均方距离或同量级的实数,参数tz取为均方距离或同量级的实数,记号ne(i)表示xi或者zi的局部近邻样本下标集,xi和zi,的局部近邻以k-近邻定义法来定义:若xj是xi的k-近邻样本,则称xj是xi的局部近邻,同样,若zj是zi的k-近邻样本,则称zj是zi的局部近邻,n为样本数量。
步骤3)所述的构建矩阵LX,DX以及LZ,DZ是采用下述公式:
LX=DX-SX,其中
LZ=DZ-SZ,其中
本发明的一种基于改进的典型相关分析的零样本视频分类方法,具有以下有益效果:
1、新颖性:将流形约束引入目标函数,这种局部化方法保持了样本的局部特征,通过降维,揭示出隐藏于原始高维空间的低维流形结构,从而通过局部线性的方法达到解决非线性问题的目的。
2、有效性:经过实验验证,与其他未用流形的方法和将视觉特征映射到语义特征空间的方法相比,本发明设计的算法在零样本视频分类中可以取得更高的准确率,因此是一种有效的零样本视频分类方法。
3、实用性:本方法简单易行,效果优良。除了零样本视频分类问题,同时也能适应其他的多模态分类、检索问题。
附图说明
图1a是零样本分类在训练和测试类别上的示意图;
图1b普通分类在训练和测试类别上的示意图;
图2是本发明的零样本分类示意图;
图3是本发明一种基于改进的典型相关分析的零样本视频分类方法的流程图。
具体实施方式
下面结合实施例和附图对本发明的一种基于改进的典型相关分析的零样本视频分类方法做出详细说明。
零样本视频分类属于机器学习中的视频分类问题。分类问题是指,根据已知的训练数据集学习一个分类器,然后利用这个分类器对新的输入实例进行分类。零样本视频分类也是分类问题,只是在测试数据集中没有出现过训练数据中已知的类别。本发明通过一种改进的典型相关分析方法,建立视频的视觉空间与视频类别的语义空间之间的联系,从而实现零样本视频分类。
首先,可以将典型相关分析的目标函数(公式3.2)写成:
于是,在零样本视频分类问题中,典型相关分析(公式3.3)的物理意义就是:让视频的视觉特征与其类别的语义特征在映射到公共空间后的欧式距离最接近。
但是,CCA只是抽取了两组数据之间的线性相关关系。然而,这样的线性学习方式不足以学习真实世界中大量存在的非线性相关现象,当用这样的线性模型来学习非线性相关现象时,将不可避免地出现欠拟合现象。因此这个目标函数还不够完善,所以本发明对典型相关分析进行了如下改进:
(1)采用局部化方法,即加入流形约束。这种局部化方法保持了样本的局部特征,通过降维,揭示出隐藏于原始高维空间的低维流形结构,使人们可以在更易于观察与感知的低维空间把握数据集内在的规律性,寻找与人类认知观念相似的性质或发现新的知识,或根据问题的需要做出相应的灵活处理。
(2)一般地,一个复杂的全局非线性问题,可以划分为许多局部小片区域,在该局部区域内可视为线性问题。在本发明中,我们将样本的局部结构信息引入到CCA中,考察一个小邻域内的典型相关问题,将原来的全局非线性问题变成许多局部线性问题,然后对这些子问题求和,通过优化计算得到一组样本投影基向量,通过局部线性的方法达到解决非线性问题的目的。
该方法在保持各样本集的局部结构信息的同时得到两组样本之间的最大化相关信息。于是,可以将目标函数写成下面形式:
公式(3.4)中,第一项是典型相关分析的目标函数,第二项使得视觉空间中相似的样本经过映射之后在公共空间中的距离依然较近,第三项使得语义空间中的语义点经过映射之后依然保持局部结构。其中,t是训练集的类别数,Z=[z1,z2,...,zt]是训练的类别标签所对应语义特征,α,β是权重系数,相似度矩阵和中的元素定义如下:
这里参数tx一般取为均方距离或同量级的实数,参数tz也做类似处理,记号ne(i)表示xi(或者yi)的局部近邻样本下标集。xi的局部近邻以k-近邻定义法来定义:若xj是xi的k-近邻样本,则称xj是xi的局部近邻。
将公式(3.4)进一步化简,得到:
其中,LX=DX-SX,这里的LZ有着与LX相似的定义。
用拉格朗日乘子法解公式(3.7),得到以下方程:
其中,λ1,λ2是拉格朗日乘子,这里我们假设λ=λ1=λ2。这样,就把最优化问题转化为了特征值的求解问题。求出方程(3.8)的特征值λ,根据公共空间的维数d,分别选择特征值λ最大的d个特征值对应的d个特征向量Wx,Wy,这就是要求的映射矩阵。
对于未见过的类别的测试数据,将其视觉特征x'映射到公共空间,得到然后,将所有未见过的类别的语义特征映射到公共空间,得到m是测试数据的类别数。找出与相关性最大的对应的类别,它就是测试数据的分类结果。
如图3所示,本发明的一种基于改进的典型相关分析的零样本视频分类方法,包括如下步骤:
1)提取训练数据的视频特征X以及训练数据类别名称的语义特征Y;
训练数据的视频特征X=[x1,x2,...,xn],其中n是训练数据的个数;训练数据类别名称的语义特征为Y=[y1,y2,...,yn];
2)计算相似度矩阵SX,SZ;
训练类别名称的语义特征Z=[z1,z2,...,zt],其中t是训练集的类别数;
所述的计算相似度矩阵SX,SZ是采用如下公式计算:
这里参数tx取为均方距离或同量级的实数,参数tz取为均方距离或同量级的实数,记号ne(i)表示xi或者zi的局部近邻样本下标集,xi和zi,的局部近邻以k-近邻定义法来定义:若xj是xi的k-近邻样本,则称xj是xi的局部近邻,同样,若zj是zi的k-近邻样本,则称zj是zi的局部近邻,n为样本数量。
3)依据相似度矩阵构建矩阵LX,DX以及LZ,DZ
所述的构建矩阵LX,DX以及LZ,DZ是采用下述公式:
LX=DX-SX,其中
LZ=DZ-SZ,其中
4)求如下方程的特征值λ:
其中,α,β是权重系数,λ1,λ2是拉格朗日乘子,设λ=λ1=λ2,wx是从视觉空间到公共空间的映射矩阵;wy是从语义空间到公共空间的映射矩阵;
根据公共空间的维数d,分别选择λ最大的d个特征值对应的d维特征向量,从而得到映射矩阵Wx、Wy;
5)对于输入的测试数据,分别提取视频特征x',并映射到公共空间,得到
6)将所有候选的测试数据类别名称的语义特征映射到公共空间,得到其中m是测试数据的类别数;
7)在公共空间中,找出与距离最近的这个所对应的类别就是测试数据的分类结果。
本发明的一种基于改进的典型相关分析的零样本视频分类方法,可以将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间,如图2所示。在这个公共空间中,视频的视觉特征和相应的语义特征具有良好的对应关系。对于新输入的测试视频,将它的视觉特征映射到公共空间,找到对应的语义特征,就可以确定测试视频的所属类别。
Claims (1)
1.一种基于改进的典型相关分析的零样本视频分类方法,其特征在于,包括如下步骤:
1)提取训练数据的视频特征X以及训练数据类别名称的语义特征Y;
训练数据的视频特征X=[x1,x2,...,xn],其中n是训练数据的个数;训练数据类别名称的语义特征为Y=[y1,y2,...,yn]
2)计算相似度矩阵SX,SZ
训练类别名称的语义特征Z=[z1,z2,...,zt],其中t是训练集的类别数;
所述的计算相似度矩阵SX,SZ是采用如下公式计算:
这里参数tx取为均方距离或同量级的实数,参数tz取为均方距离或同量级的实数,记号ne(i)表示xi或者zi的局部近邻样本下标集,xi和zi,的局部近邻以k-近邻定义法来定义:若xj是xi的k-近邻样本,则称xj是xi的局部近邻,同样,若zj是zi的k-近邻样本,则称zj是zi的局部近邻,n为样本数量;
3)依据相似度矩阵构建矩阵LX,DX以及LZ,DZ;所述的构建矩阵LX,DX以及LZ,DZ是采用下述公式:
4)求如下方程的特征值λ:
其中,α,β是权重系数,λ1,λ2是拉格朗日乘子,设λ=λ1=λ2,wx是从视觉空间到公共空间的映射矩阵;wy是从语义空间到公共空间的映射矩阵;
根据公共空间的维数d,分别选择λ最大的d个特征值对应的d维特征向量,从而得到映射矩阵wx、wy;
5)对于输入的测试数据,分别提取视频特征x',并映射到公共空间,得到
6)将所有候选的测试数据类别名称的语义特征映射到公共空间,得到其中m是测试数据的类别数;
7)在公共空间中,找出与距离最近的这个所对应的类别就是测试数据的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610606117.3A CN106250925B (zh) | 2016-07-25 | 2016-07-25 | 一种基于改进的典型相关分析的零样本视频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610606117.3A CN106250925B (zh) | 2016-07-25 | 2016-07-25 | 一种基于改进的典型相关分析的零样本视频分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106250925A CN106250925A (zh) | 2016-12-21 |
CN106250925B true CN106250925B (zh) | 2019-06-11 |
Family
ID=57605081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610606117.3A Expired - Fee Related CN106250925B (zh) | 2016-07-25 | 2016-07-25 | 一种基于改进的典型相关分析的零样本视频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250925B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845533B (zh) * | 2017-01-05 | 2020-11-24 | 天津大学 | 基于自训练的零样本视频分类方法 |
WO2018161217A1 (en) * | 2017-03-06 | 2018-09-13 | Nokia Technologies Oy | A transductive and/or adaptive max margin zero-shot learning method and system |
CN107516109B (zh) * | 2017-08-21 | 2021-01-19 | 天津大学 | 一种基于非线性语义嵌入的零样本分类方法 |
CN108304866A (zh) * | 2018-01-22 | 2018-07-20 | 西南交通大学 | 一种多视图特征判别方法 |
CN113705315B (zh) * | 2021-04-08 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、设备及存储介质 |
CN113128467B (zh) * | 2021-05-11 | 2022-03-29 | 临沂大学 | 基于面部先验知识的低分辨率人脸超分辨与识别的方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718940B (zh) * | 2016-01-15 | 2019-03-29 | 天津大学 | 基于多组间因子分析的零样本图像分类方法 |
CN105701514B (zh) * | 2016-01-15 | 2019-05-21 | 天津大学 | 一种用于零样本分类的多模态典型相关分析的方法 |
CN105740879B (zh) * | 2016-01-15 | 2019-05-21 | 天津大学 | 基于多模态判别分析的零样本图像分类方法 |
-
2016
- 2016-07-25 CN CN201610606117.3A patent/CN106250925B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN106250925A (zh) | 2016-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106250925B (zh) | 一种基于改进的典型相关分析的零样本视频分类方法 | |
CN105022835B (zh) | 一种群智感知大数据公共安全识别方法及系统 | |
CN111967294B (zh) | 一种无监督域自适应的行人重识别方法 | |
CN106203483B (zh) | 一种基于语义相关多模态映射方法的零样本图像分类方法 | |
CN106339416B (zh) | 基于网格快速搜寻密度峰值的教育数据聚类方法 | |
CN105205501B (zh) | 一种多分类器联合的弱标注图像对象检测方法 | |
CN110135459B (zh) | 一种基于双三元组深度度量学习网络的零样本分类方法 | |
Kim et al. | Color–texture segmentation using unsupervised graph cuts | |
CN108985380B (zh) | 一种基于聚类集成的转辙机故障识别方法 | |
CN105389326B (zh) | 基于弱匹配概率典型相关性模型的图像标注方法 | |
CN103456013B (zh) | 一种表示超像素以及度量超像素之间相似性的方法 | |
CN110659378B (zh) | 基于对比相似性损失函数的细粒度图像检索方法 | |
CN110222560B (zh) | 一种嵌入相似性损失函数的文本人员搜索方法 | |
CN105718940B (zh) | 基于多组间因子分析的零样本图像分类方法 | |
CN104657718A (zh) | 一种基于人脸图像特征极限学习机的人脸识别方法 | |
CN105701514A (zh) | 一种用于零样本分类的多模态典型相关分析的方法 | |
CN108960142B (zh) | 基于全局特征损失函数的行人再识别方法 | |
CN102663447A (zh) | 基于判别相关分析的跨媒体检索方法 | |
CN108960342A (zh) | 基于改进SoftMax损失函数的图像相似度计算方法 | |
CN109145083A (zh) | 一种基于深度学习的候选答案选取方法 | |
CN109214430A (zh) | 一种基于特征空间拓扑分布的行人重识别方法 | |
CN109934852B (zh) | 一种基于对象属性关系图的视频描述方法 | |
CN105740879A (zh) | 基于多模态判别分析的零样本图像分类方法 | |
CN109886315A (zh) | 一种基于核保持的图像相似性度量方法 | |
CN103049570B (zh) | 基于相关保持映射和一分类器的图像视频搜索排序方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190611 |