CN106845533B - 基于自训练的零样本视频分类方法 - Google Patents
基于自训练的零样本视频分类方法 Download PDFInfo
- Publication number
- CN106845533B CN106845533B CN201710007310.XA CN201710007310A CN106845533B CN 106845533 B CN106845533 B CN 106845533B CN 201710007310 A CN201710007310 A CN 201710007310A CN 106845533 B CN106845533 B CN 106845533B
- Authority
- CN
- China
- Prior art keywords
- video
- training
- test
- space
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器学习中的视频分类,为将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间,对于新输入的测试视频,将它的视觉特征映射到公共空间,找到对应的语义特征,就可以确定测试视频的所属类别。为此,本发明,基于典型相关分析CCA和自训练的零样本视频分类方法,将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间,在这个公共空间中,视频的视觉特征和相应的语义特征具有良好的对应关系,对于新输入的测试视频,将它的视觉特征映射到公共空间,找到对应的语义特征,确定测试视频的所属类别;其中,采用CCA和自训练的方法使得测试样本的映射分布于原型点周围。本发明主要应用于视频分类场合。
Description
技术领域
零样本视频分类涉及机器学习中的视频分类问题,具体讲,涉及基于自训练的零样本视频分类方法。
背景技术
对于传统的视频分类系统,要想准确识别出某类视频,必须给出相应的带标签的训练数据。但训练数据的标签往往是难以获得的,零样本视频分类就是解决类别标签缺失问题的一种有效手段,其目的在于模仿人类无需看过实际视觉样例,就能认出新的类别的能力。传统的分类方法是将给定的数据集划分为训练集和测试集,用在训练集上学到的模型来识别测试集中的数据,其中训练集和测试集有着相同的类别数。与传统的方法不同的是,零样本视频分类是在没有训练样本的情况下识别新的类别,也就是说训练集和测试集在数据的类别上没有交集,如图1所示。零样本学习旨在通过已有的辅助信息(属性、类别名称等)来训练识别未知类别的分类器,因此可以认为零样本学习对未知类别的识别是建立在人类对类别的描述之上,而不是大量的训练数据。
在零样本视频分类中,类别名称所组成的语义空间是最常用的辅助信息,对于未见过的类别的测试视频和其相应的类别名称,需要借助语义空间建立联系。在语义空间中,每一个类别名称都被表示成一个高维向量,这一高维向量又可被称为词向量(wordvector)。常用的词向量提取方法是Mikolov等人提出的word2vec,它是一种无监督的方法,可以将语料库中的单词用向量来表示,并且向量之间的相似度可以很好的模拟单词语义上的相似度。
在给定的语义空间中求得已见过的和未见过的类别的语义特征向量后,各类别间的语义相关性就可以由语义特征向量之间的距离求出。然而,视频是由视觉空间中的视觉特征向量表示的,由于语义鸿沟的存在,它不能与语义空间的特征向量直接建立联系。现有的方法大多通过已见过的类别视频的视觉特征和相应标签的语义特征,学习一个从视觉空间到语义空间的映射函数。然后,通过这个映射函数,将测试视频的视觉特征映射至语义空间,得到预测的语义特征,再找出离它最近的未见过类别的语义特征,从而确定所属类别。
用典型相关分析(Canonical Correlation Analysis,CCA)解决零样本视频分类的方法是学习一个从视觉空间V到公共空间T的映射矩阵wx,以及从语义空间S到公共空间T的映射矩阵wy,使得映射后的两个特征之间相关性最大。具体可表述为求如下相关系数的最大值:
这里x∈Rp是视频的视觉特征,y∈Rq是视频类别的语义特征,E[·]表示数学期望,Cxx=E[xxT]=XXT∈Rp×p和Cyy=E[yyT]=YYT∈Rq×q表示集合内协方差矩阵,Cxy=E[xyT]=XYT∈Rp×q表示集合间协方差矩阵,且有其中X∈Rp×n是所有训练视频的视觉特征组成的矩阵,Y∈Rq×n是所有训练视频类别的语义特征组成的矩阵,n是训练视频总数。注意这里我们把观察样本的统计值作为数学期望的合理近似,并忽略协方差矩阵的系数1/n,这对CCA计算并无影响,本专利以后也采用这种做法。
从公式(3.1)可以发现,ρ关于wx和wy尺度无关,则CCA可表述为如下问题的解:
于是,在零样本视频分类问题中,CCA(公式(3.2))的物理意义就是:让视频的视觉特征与其类别的语义特征在映射到公共空间后的欧式距离最接近。
求解这个优化问题,定义Lagrange函数
这样,CCA转化为求解两个大小分别为p×p和q×q的矩阵的广义特征值—特征向量问题。在一些文献中,常将CCA问题等价地刻画为如下广义特征值问题:
简记为Aw=λBw,这里A,B分别对应与公式(3.7)中左右两个矩阵。设特征值λ按非递增顺序排列为λ1≥λ2≥...≥λd≥λd+1≥...≥λr≥0,对应于非零特征值的特征向量为wxi和wyi,i=1,...,d,这里d≤r≤min(p,q),则可利用任一对特征向量(即基向量)wxi和wyi进行形如和的特征抽取,这里抽取的特征和可称之为典型变量(canonical variate)或典型成分(canonical component)。
求得映射矩阵wx,wy之后,对于未见过的类别的测试数据,将其视觉特征x'映射到公共空间,得到然后,将所有的未见过的类别的语义特征映射到公共空间,得到其中y'是测试数据的语义特征,m是测试数据的类别数。找出与相关性最大的对应的类别,它就是测试数据的分类结果。
发明内容
为克服现有技术的不足,本发明旨在提出一种有效的零样本视频分类方法,通过本方法可以将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间,在这个公共空间中,视频的视觉特征和相应的语义特征具有良好的对应关系。对于新输入的测试视频,将它的视觉特征映射到公共空间,找到对应的语义特征,就可以确定测试视频的所属类别。为此,本发明采用的技术方案是,基于自训练的零样本视频分类方法,将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间,在这个公共空间中,视频的视觉特征和相应的语义特征具有良好的对应关系,对于新输入的测试视频,将它的视觉特征映射到公共空间,找到对应的语义特征,确定测试视频的所属类别;其中,采用CCA和自训练的方法使得测试样本的映射分布于原型点周围:首先在测试样本的映射点中寻找K个距离测试样本原型点最近的点,然后将这K个点求平均之后所得的点作为调整后的原型点,令表示原型点的K近邻集合,表示调整后的原型点,自训练的过程用如下公式表述:
对于未见过的类别的测试数据,将其视觉特征x’映射到公共空间,得到然后,将所有未见过的类别的语义特征映射到公共空间,得到y'是测试数据的语义特征,m是测试数据的类别数,找出与相关性最大的对应的类别,从而得到测试数据的分类结果。
具体步骤细化为:
输入:测试样本的视频特征Xte=[x1,x2,...,xn],其中n是测试数据的个数;测试样本类别名称的语义特征Zte=[z1,z2,...,zm],其中m是测试集的类别数;
第一步:确定最近邻范围参数K;
第二步:选取每个原型点的K近邻;
第三步:依据公式5.1求出经过调整之后的原型点。
用上述CCA和自训练的方法进行零样本视频分类的步骤如下所述:
(1)提取训练数据的视频特征X以及训练数据类别名称的语义特征Y;
(2)由CCA计算得到视觉空间向公共空间的映射矩阵Wx,以及语义空间向公共空间的映射矩阵Wy;
本发明的特点及有益效果是:
通常的零样本视频分类方法是将视频的视觉特征映射到类别名称的语义特征空间,然后进行分类。但是,类别名称的语义特征构成的原始空间往往不能很好的描绘数据集的类别结构。一种更好的方式是寻求视觉特征空间和语义特征空间之间的一个公共空间。CCA可以满足这个寻找公共空间的需求。并且,经过特征空间的映射之后,域转化问题也不可避免,本专利采用的自训练方法可以很好地弥补域转换所带来的不足。
此外,基于自训练的零样本视频分类技术还具有以下有益效果:
(1)新颖性:自训练的方法通过调整语义原型点,弥补了域转换所带来的不足,更进一步地提升了分类的准确率。
(2)有效性:经过实验验证,与未采用自训练的方法相比,本发明设计的算法在零样本视频分类中可以取得更高的准确率,因此是一种有效的零样本视频分类方法。
(3)实用性:本方法简单易行,效果优良。
附图说明:
图1零样本分类与普通分类之间的区别。
图2零样本分类示意图。
图3自训练示意图。
图4整体算法流程图。
具体实施方式
零样本视频分类属于机器学习中的视频分类问题。分类问题是指,根据已知的训练数据集学习一个分类器,然后利用这个分类器对新的输入实例进行分类。零样本视频分类也是分类问题,只是在测试数据集中没有出现过训练数据中已知的类别。本发明通过典型相关分析(Canonical Correlation Analysis,CCA),建立视频的视觉空间与视频类别的语义空间之间的联系,从而实现零样本视频分类。在此基础之上,本发明通过自训练的方法进一步提升分类的准确率。
本发明旨在提供一种有效的零样本视频分类方法,通过本方法可以将训练视频的视觉特征和视频类别名称的语义特征映射到一个公共空间,如图2所示。在这个公共空间中,视频的视觉特征和相应的语义特征具有良好的对应关系。对于新输入的测试视频,将它的视觉特征映射到公共空间,找到对应的语义特征,就可以确定测试视频的所属类别。
当测试样本通过从映射矩阵映射到公共空间后,视觉特征映射后的数据点并不一定会整齐地分布在语义特征映射点的周围,从而导致测试样本被错分到其他类别中,这便是域转换带来的不利影响,这里语义特征映射点又被称为原型点(prototype),本发明将延续这一说法。
本发明采用自训练(self training)的方法来降低域转换带来的不利影响。自训练是指调整测试样本的原型点,使得测试样本的映射分布于原型点周围,从而提高分类的准确率,如图3所示。首先需要在测试样本的映射点中寻找K个距离测试样本原型点最近的点,上标T表示转置,然后将这K个点求平均之后所得的点作为调整后的原型点。令表示原型点的K近邻集合,表示调整后的原型点,自训练的过程可用如下公式表述:
下面结合附图和具体实施例进一步详细说明本发明。
本发明设计的自训练的方法如下所述:
输入:测试样本的视频特征Xte=[x1,x2,...,xn],其中n是测试数据的个数;测试样本类别名称的语义特征Zte=[z1,z2,...,zm]Y={y1,y2,...,ym},其中m是测试集的类别数;
第一步:确定最近邻范围参数K(可依据经验或实验结果选取)
第二步:选取每个原型点的K近邻
第三步:依据公式5.1求出经过调整之后的原型点
用上述CCA和自训练的方法进行零样本视频分类的步骤如下所述,整体算法流程如图4所示:
(7)提取训练数据的视频特征X以及训练数据类别名称的语义特征Y;
(8)由CCA计算得到视觉空间向公共空间的映射矩阵Wx,以及语义空间向公共空间的映射矩阵Wy;
Claims (1)
1.一种基于自训练的零样本视频分类方法,其特征是,将训练视频的视觉特征X和训练视频类别名称的语义特征Y映射到一个公共空间,在这个公共空间中,训练视频的视觉特征X和相应的语义特征Y具有对应关系,对于新输入的测试视频,将新输入的测试视频的视觉特征映射到公共空间,找到对应的语义特征,确定测试视频的所属类别;其中,采用CCA和自训练的方法使得测试样本的映射分布于原型点周围:首先在测试样本的映射点中寻找K个距离测试样本原型点y′∈Yte最近的点,然后将这K个点求平均之后所得的点作为调整后的原型点,令表示所述测试视频原型点的K个点的近邻集合,表示调整后的测试视频原型点,自训练的过程用如下公式表述:
对于未见过的类别的测试数据,将其视觉特征x′映射到公共空间,得到然后,将所有未见过的类别的语义特征映射到公共空间,得到y'是测试视频的语义特征,m是测试数据的类别数,找出与相关性最大的对应的类别,从而得到测试数据的分类结果;
具体步骤细化如下:
输入:测试视频的视觉特征Xte=[x1,x2,...,xn],其中n是视觉特征中的数据的个数;测试视频类别名称的语义特征Zte=[z1,z2,...,zm];
第一步:确定最近邻范围参数即近邻点个数K;
第二步:选取每个原型点的K个点的近邻集合;
第三步:依据公式5.1求出经过调整之后的原型点;
用CCA和自训练的方法进行零样本视频分类的步骤如下所述:
(1)提取训练视频的视觉特征X和训练视频类别名称的语义特征Y;
(2)由CCA计算得到视觉空间向公共空间的映射矩阵Wx,以及语义空间向公共空间的映射矩阵Wy;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710007310.XA CN106845533B (zh) | 2017-01-05 | 2017-01-05 | 基于自训练的零样本视频分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710007310.XA CN106845533B (zh) | 2017-01-05 | 2017-01-05 | 基于自训练的零样本视频分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106845533A CN106845533A (zh) | 2017-06-13 |
CN106845533B true CN106845533B (zh) | 2020-11-24 |
Family
ID=59118533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710007310.XA Expired - Fee Related CN106845533B (zh) | 2017-01-05 | 2017-01-05 | 基于自训练的零样本视频分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845533B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135459B (zh) * | 2019-04-15 | 2023-04-07 | 天津大学 | 一种基于双三元组深度度量学习网络的零样本分类方法 |
WO2022110158A1 (en) * | 2020-11-30 | 2022-06-02 | Intel Corporation | Online learning method and system for action recongition |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202329A (zh) * | 2016-07-01 | 2016-12-07 | 北京市商汤科技开发有限公司 | 样本数据处理、数据识别方法和装置、计算机设备 |
CN106203483A (zh) * | 2016-06-29 | 2016-12-07 | 天津大学 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
CN106250925A (zh) * | 2016-07-25 | 2016-12-21 | 天津大学 | 一种基于改进的典型相关分析的零样本视频分类方法 |
-
2017
- 2017-01-05 CN CN201710007310.XA patent/CN106845533B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203483A (zh) * | 2016-06-29 | 2016-12-07 | 天津大学 | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
CN106202329A (zh) * | 2016-07-01 | 2016-12-07 | 北京市商汤科技开发有限公司 | 样本数据处理、数据识别方法和装置、计算机设备 |
CN106250925A (zh) * | 2016-07-25 | 2016-12-21 | 天津大学 | 一种基于改进的典型相关分析的零样本视频分类方法 |
Non-Patent Citations (2)
Title |
---|
"Semantic embedding space for zero-shot action recognition";Xun Xu etal.;《2015 IEEE International Conference on Image Processing (ICIP)》;20151231;全文 * |
"基于网络流特征的P2P网络流量分类文学研究";赵伟;《中国优秀硕士学位论文全文数据库信息科技辑》;20140131(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN106845533A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Similarity learning on an explicit polynomial kernel feature map for person re-identification | |
CN109063565B (zh) | 一种低分辨率人脸识别方法及装置 | |
Liu et al. | Learning deep features via congenerous cosine loss for person recognition | |
CN111126482B (zh) | 一种基于多分类器级联模型的遥感影像自动分类方法 | |
CN109063649B (zh) | 基于孪生行人对齐残差网络的行人重识别方法 | |
CN105389326B (zh) | 基于弱匹配概率典型相关性模型的图像标注方法 | |
CN107943856A (zh) | 一种基于扩充标记样本的文本分类方法及系统 | |
CN110097060B (zh) | 一种面向树干图像的开集识别方法 | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
Kan et al. | Learning prototype hyperplanes for face verification in the wild | |
CN106250925B (zh) | 一种基于改进的典型相关分析的零样本视频分类方法 | |
CN105718940A (zh) | 基于多组间因子分析的零样本图像分类方法 | |
CN113554100B (zh) | 异构图注意力网络增强的Web服务分类方法 | |
CN107633264B (zh) | 基于空谱多特征极限学习的线性共识集成融合分类方法 | |
CN106845533B (zh) | 基于自训练的零样本视频分类方法 | |
CN113779283B (zh) | 一种深度监督与特征融合的细粒度跨媒体检索方法 | |
Song et al. | Two-level hierarchical feature learning for image classification | |
Bouguila et al. | Discrete visual features modeling via leave-one-out likelihood estimation and applications | |
CN115661539A (zh) | 一种嵌入不确定性信息的少样本图像识别方法 | |
JP2014146207A (ja) | コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法 | |
CN111931788A (zh) | 基于复值的图像特征提取方法 | |
CN104951833A (zh) | 一种神经网络及该神经网络的学习方法 | |
Thollard et al. | Content-based re-ranking of text-based image search results | |
Li et al. | Strangeness based feature selection for part based recognition | |
Huang et al. | Unconstrained face verification by optimally organizing multiple classifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201124 Termination date: 20220105 |
|
CF01 | Termination of patent right due to non-payment of annual fee |