CN103473308A - 基于最大间隔张量学习的高维多媒体数据分类方法 - Google Patents

基于最大间隔张量学习的高维多媒体数据分类方法 Download PDF

Info

Publication number
CN103473308A
CN103473308A CN2013104106049A CN201310410604A CN103473308A CN 103473308 A CN103473308 A CN 103473308A CN 2013104106049 A CN2013104106049 A CN 2013104106049A CN 201310410604 A CN201310410604 A CN 201310410604A CN 103473308 A CN103473308 A CN 103473308A
Authority
CN
China
Prior art keywords
medium data
tensor
alpha
data
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013104106049A
Other languages
English (en)
Other versions
CN103473308B (zh
Inventor
张寅�
汤斯亮
谭谞
邵健
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310410604.9A priority Critical patent/CN103473308B/zh
Publication of CN103473308A publication Critical patent/CN103473308A/zh
Application granted granted Critical
Publication of CN103473308B publication Critical patent/CN103473308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于最大间隔张量学习的高维多媒体数据分类方法。它包括如下步骤:1)建立多媒体数据的训练数据集;2)对训练数据集建模,进行分析,得到分类模型;3)根据用户查询数据集及分类模型,对查询数据集分类。本发明针对多媒体的高维性和结构性,利用张量来表达多媒体数据,并通过最大间隔分类器的方法,对高维的多媒体数据进行分类。在对多媒体数据进行分解分析的同时完成分类,不仅保留了多媒体数据中的结构信息,而且避免了传统的通过拼合的方法产生的高维数据所引发的“维数灾难”,因此比传统的多媒体数据分类方法更加准确,并易于计算。

Description

基于最大间隔张量学习的高维多媒体数据分类方法
技术领域
本发明涉及多媒体分类,尤其涉及一种基于最大间隔张量学习的高维多媒体数据分类方法。
背景技术
随着计算机存储技术和网络技术的发展,信息不再仅仅是单一的文字或语言,而是以更加多样化的多媒体形式呈现,包括文本,图片,声音,视频,如图像数据库Picasa,视频数据库YouTube等。如何有效地获取、管理和利用这些多媒体数据成为计算机应用技术中越来越重要的研究问题。多媒体分类技术可以帮助用户有效地查询、管理这些海量的多媒体数据。一般来说,多媒体数据具有两个特点。第一,高维性,多媒体数据通常数据量巨大,特征维数高;第二,结构性:多媒体数据存在内部结构关系,如图像中物体的位置关系,视频中动作的先后关系。由于传统的分类方法往往将提取的特征进行简单的拼合,产生了非常高维的数据,从而在数据的分析中产生“维数灾难”。此外,传统的方法没有考虑多媒体数据中存在的内部结构信息,因此不能很好地处理和分析海量的高维多媒体数据,从而无法很好地适应用户需求。
针对多媒体数据的特点,张量可以用来表达和分析多媒体数据。张量,即多为数组,是对向量和矩阵的自然扩展。多媒体数据可以自然地表达成张量数据,如自然图像可以认为是由场景结构、光照及主体形象三方面因素共同作用的结果,因此,可以将自然图像表达成一个三阶张量;又如视频片断可以表达成“长×宽×时间”的三阶张量。在张量的表达中,多媒体数据中所包含的同一类型媒体数据特征被表达为张量的一阶。利用张量表达多媒体数据,一定程度避免了从不同类型媒体数据中所提取特征因为拼合而产生的维数灾难及过压缩问题,而且通过张量的表达可以自然地保留多媒体数据中的结构信息。通过对表达成张量的多媒体数据进行分解,可以得到多媒体数据分量的多维线性组合,很好地保留了多媒体数据内部的结构信息。
另一方面,在数据分类方面,近年来最大间隔的分类器,如支持向量机(support vector machines),最大间隔马尔科夫网络(maximum margin MarkovNetworks)被广泛地应用于许多多媒体分类的问题中,并显示出了很好的分类效果。最大间隔的方法通常将数据映射到一个再生核希尔伯特空间(reproducingkernel Hilbert space)中,建立一个最优的分割超平面,将数据间的间隔最大化。最大间隔的分类器由于核的运用,具有很强的扩展性,因而近年来成为一个研究的热点。
本发明针对多媒体的高维性和结构性,利用张量来表达多媒体数据,并通过最大间隔分类器的方法,对高维的多媒体数据进行分类。在对多媒体数据进行分解分析的同时完成分类,不仅保留了多媒体数据中的结构信息,而且避免了传统的通过拼合的方法产生的高维数据所引发的“维数灾难”。
发明内容
本发明的目的在于对多媒体数据进行分类,使得相同主题图像标注为一类,以方便用户进行管理、检索多媒体数据,提出一种基于最大间隔张量学习的高维多媒体数据分类方法基于最大间隔张量学习的高维多媒体数据分类方法包括如下步骤:
(1)建立多媒体数据的训练数据集,提取不同种类的特征,并对多媒体数据进行标注;
(2)将训练数据集表达成张量,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数,并对目标函数进行分析,优化,得到分类模型;
(3)对用户查询数据集提取不同种类的特征,根据分类模型,对查询数据集标注分类。
所述的步骤(1)包括:
所述的建立多媒体数据的训练数据集,其步骤如下:
1)编写爬虫程序下载用户所需的多媒体数据,构成多媒体数据集合
Figure BDA0000380030770000022
其中IN是集合DATA中的多媒体数据个数;
2)对DATA中的多媒体数据提取不同种类的特征,T1,...,TN-1,N-1为特征的种类数;
3)对DATA中的多媒体数据进行标注,正例为“1”,反例为“0”;
4)建立训练张量
Figure BDA0000380030770000023
其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为多媒体数据个数。
所述的步骤(2)包括:
1)根据训练张量X,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数:
min U 1 , . . . U N | | X - C × 1 U 1 × 2 . . . × N U N | | 2 + Ω ( X ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中Ω(X)表示训练数据的监督信息,Un(1≤n≤N)为张量分解后得到的矩阵,C为核张量,其n阶展开矩阵C(n)满足以下条件:
a)C(n)的元素全由“0”或“1”组成;
b)C(n)的所有行相互正交;
c)对于任意的n,C(n)为满秩;
2)根据张量展开,可以将公式(1)写作:
min U N | | X ( n ) - U N B ( n ) | | 2 + Ω ( X ( n ) ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中,B(n)=C×1U1×2...×n-1Un-1×n+1Un+1×n+2...×NUN,X(n)为训练张量X的n阶展开矩阵;
X ( n ) = [ x 1 , x 2 , . . . , x I n ] T , U ( n ) = [ u 1 , u 2 , . . . , u I n ] T 将公式(1)中每一个矩阵Ui转置并分成Ii个独立的优化问题:
min u i | | x i - B ( n ) T u i | | 2 + Ω ( x i ) - - - ( 2 )
s.t.ui>0,1≤i≤In
3)将公式(2)中有监督信息,即n=N时的分量引入最大间隔的分类器作为监督信息,得到如下的优化函数:
min u i ( N ) , α γ | | x i ( N ) - B ( N ) T u i ( N ) | | 2 + λα T Kα + Σ i = 1 I N L ( y i , K i T α ) - - - ( 3 )
U i ( N ) > 0,1 ≤ i ≤ I N
其中,γ为控制近似误差的权重参数,λ为控制分类误差的权重参数,yi为相应的标注标签,α为待优化的分类参数,L为损失函数L(y,t)=max(0,1-yt)2,K为核矩阵,其元素kij=k(ui,uj),k为核函数;
4)使用共轭梯度下降的方法,迭代地优化参数α与矩阵分量
Figure BDA0000380030770000041
在优化分类参数α的过程中首先计算α的梯度:
▿ α = 2 ( λKα + K I 0 ( Kα - Y ) )
其中I0为IN×IN的对角矩阵,其中前nv(支持向量的各数)个元素为1,其余为0。
然后计算α的Hessian矩阵:
Hα=2(λK+KI0K)
在优化矩阵分量的过程中,首先假定使用内积核:
k ( u i ( N ) , u j ( N ) ) = u i ( N ) T · u j ( N )
计算
Figure BDA0000380030770000044
的梯度:
▿ u i ( N ) = - 2 γ B ( N ) x i ( N ) + 2 γ ( B ( N ) B ( N ) T ) u i ( N ) + 2 λ α i Σ j = 1 I s α j u j ( N ) + 2 ( Σ j = 1 n v l j α j u j ( N ) [ i ∈ n v ] + α i Σ j = 1 n v l j u j ( N ) )
然后计算
Figure BDA0000380030770000046
的Hessian矩阵:
H u i ( N ) = 2 γ ( B ( N ) B ( N ) T ) + ( 2 λ α i 2 + 4 l i α i [ i ∈ n v ] ) I ns
其中,Ins是大小为Is的单位矩阵,[i∈nv]是一个指示函数,当且仅当i属于支持向量的集合时函数值为1,其余为0;
5)对于公式(2)中无监督信息的模态,即n≠N时,加入稀疏选择的约束,即I1范数:
min u i ( n ) | | x i ( n ) - B ( n ) T u i ( n ) | | 2 + η ( n ) | u i ( n ) | - - - ( 4 )
s . t . u i ( n ) ≥ 0 , n ≠ N
其中,η(n)是控制模态n中的稀疏度;
6)使用如下方法求解公式(4)
u ij ( n ) = t - η ( n ) b j b j T , t > η ( n ) 0 , t ≤ η ( n )
其中,
Figure BDA0000380030770000052
Figure BDA0000380030770000053
中的元素,
B ( n ) = [ b 1 T , b 2 T , . . . , b R n T ] T
t = b j ( B ( n ) T u i ( n ) - b j T x i )
7)根据步骤4)与步骤6)求得的ui,拼合成U,反复迭代,直至收敛,得到分类模型的参数{U1,...,UN;α}。
所述的步骤(3)包括:
1)编写爬虫程序下载用户所需的待分类的多媒体数据,构成多媒体数据测试集合
Figure BDA0000380030770000055
其中INt是集合TEST中的待分类的多媒体数据个数;
2)对TEST中的多媒体数据提取不同种类的特征,与训练时所提取的特征一致,Tt1,...,TtN-1,N-1为特征的种类数;
3)建立测试张量
Figure BDA0000380030770000056
其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为待分类的多媒体数据个数;
4)根据步骤3中得到的分类模型参数{U1,...,UN;α},以及公式(3),计算待分类的多媒体数据的yi
5)根据步骤4)中得到的yi,进行以0.5为阈值的二值化操作,获得待分类的多媒体数据的标签及分类结果。
本发明提出了一种新的针对多媒体数据分类的方法。针对多媒体的高维性和结构性,利用张量来表达多媒体数据,并通过最大间隔分类器的方法,对高维的多媒体数据进行分类。在对多媒体数据进行分解分析的同时完成分类,不仅保留了多媒体数据中的结构信息,而且避免了传统的通过拼合的方法产生的高维数据所引发的“维数灾难”,因此比传统的多媒体数据分类方法更加准确,并易于计算。
附图说明
图1是基于最大间隔张量学习的高维多媒体数据分类方法示意图。
具体实施方式
基于最大间隔张量学习的高维多媒体数据分类方法,包括如下步骤:
(1)建立多媒体数据的训练数据集,提取不同种类的特征,并对多媒体数据进行标注;
(2)将训练数据集表达成张量,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数,并对目标函数进行分析,优化,得到分类模型;
(3)对用户查询数据集提取不同种类的特征,根据分类模型,对查询数据集标注分类。
所述的步骤(1)包括:
1)编写爬虫程序下载用户所需的多媒体数据,构成多媒体数据集合
Figure BDA0000380030770000062
其中IN是集合DATA中的多媒体数据个数;
2)对DATA中的多媒体数据提取不同种类的特征,T1,...,TN-1,N-1为特征的种类数;
3)对DATA中的多媒体数据进行标注,正例为“1”,反例为“0”;
4)建立训练张量
Figure BDA0000380030770000063
其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为多媒体数据个数。
所述的步骤(2)包括:
1)根据训练张量X,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数:
min U 1 , . . . U N | | X - C × 1 U 1 × 2 . . . × N U N | | 2 + Ω ( X ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中Ω(X)表示训练数据的监督信息,Un(1≤n≤N)为张量分解后得到的矩阵,C为核张量,其n阶展开矩阵C(n)满足以下条件:
a)C(n)的元素全由“0”或“1”组成;
b)C(n)的所有行相互正交;
c)对于任意的n,C(n)为满秩;
2)根据张量展开,可以将公式(1)写作:
min U N | | X ( n ) - U N B ( n ) | | 2 + Ω ( X ( n ) ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中,B(n)=C×1U1×2...×n-1UN-1×n+1Un+1×n+2...×NUN,X(n)为训练张量X的n阶展开矩阵;
X ( n ) = [ x 1 , x 2 , . . . , x I n ] T , U ( n ) = [ u 1 , u 2 , . . . , u I n ] T 将公式(1)中每一个矩阵Ui转置并分成Ii个独立的优化问题:
min u i | | x i - B ( n ) T u i | | 2 + Ω ( x i ) - - - ( 2 )
s.t.ui>0,1≤i≤In
3)将公式(2)中有监督信息,即n=N时的分量引入最大间隔的分类器作为监督信息,得到如下的优化函数:
min u i ( N ) , α γ | | x i ( N ) - B ( N ) T u i ( N ) | | 2 + λα T K α + Σ i = 1 I N L ( y i , K i T α ) - - - ( 3 )
s . t . U i ( N ) > 0,1 ≤ i ≤ I N
其中,γ为控制近似误差的权重参数,λ为控制分类误差的权重参数,yi为相应的标注标签,α为待优化的分类参数,L为损失函数L(yt)=max(0,1-yt)2,K为核矩阵,其元素kij=k(ui,uj),k为核函数;
4)使用共轭梯度下降的方法,迭代地优化参数α与矩阵分量
Figure BDA0000380030770000075
在优化分类参数α的过程中首先计算α的梯度:
▿ α = 2 ( λKα + KI 0 ( Kα - Y ) )
其中I0为IN×IN的对角矩阵,其中前nv(支持向量的各数)个元素为1,其余为0;
然后计算α的Hessian矩阵:
Hα=2(λK+KI0K)
在优化矩阵分量
Figure BDA0000380030770000081
的过程中,首先假定使用内积核:
k ( u i ( N ) , u j ( N ) ) = u i ( N ) T · u j ( N )
计算的梯度:
▿ u i ( N ) = - 2 γ B ( N ) x i ( N ) + 2 γ ( B ( N ) B ( N ) T ) u i ( N ) + 2 λ α i Σ i = 1 I s α j u j ( N ) + 2 ( Σ j = 1 n v l j α j u j ( N ) [ i ∈ n v ] + α i Σ j = 1 n v l j u j ( N ) )
然后计算
Figure BDA0000380030770000085
的Hessian矩阵:
H u i ( N ) = 2 γ ( B ( N ) B ( N ) T ) + ( 2 λα i 2 + 4 l i α i [ i ∈ n v ] ) I ns
其中,Ins是大小为Is的单位矩阵,[i∈nv]是一个指示函数,当且仅当i属于支持向量的集合时函数值为1,其余为0;
5)对于公式(2)中无监督信息的模态,即n≠N时,加入稀疏选择的约束,即I1范数:
min u i ( n ) | | x i ( n ) - B ( n ) T u i ( n ) | | 2 + η ( n ) | u i ( n ) | - - - ( 4 )
s . t . u i ( n ) ≥ 0 , n ≠ N
其中,η(n)是控制模态n中的稀疏度;
6)使用如下方法求解公式(4)
u ij ( n ) = t - η ( n ) b j b j T , t > η ( n ) 0 , t ≤ η ( n )
其中,
Figure BDA0000380030770000089
Figure BDA00003800307700000810
中的元素,
B ( n ) = [ b 1 T , b 2 T , . . . , b R n T ] T
t = b j ( B ( n ) T u i ( n ) - b j T x i )
7)根据步骤4)与步骤6)求得的ui,拼合成U,反复迭代,直至收敛,得到分类模型的参数{U1,...,UN;α}。
所述的步骤(3)包括:
1)编写爬虫程序下载用户所需的待分类的多媒体数据,构成多媒体数据测试集合
Figure BDA0000380030770000093
其中INt是集合TEST中的待分类的多媒体数据个数;
2)对TEST中的多媒体数据提取不同种类的特征,与训练时所提取的特征一致,Tt1,...,TtN-1,N-1为特征的种类数;
3)建立测试张量
Figure BDA0000380030770000091
其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为待分类的多媒体数据个数;
4)根据权利要求步骤3中得到的分类模型参数{U1,...,UN;α},以及公式(3),计算待分类的多媒体数据的yi
5)根据步骤4)中得到的yi,进行以0.5为阈值的二值化操作,获得待分类的多媒体数据的标签及分类结果。
实施例:
假设动作数据的分类问题,动作数据具有重要的结构信息。编写爬虫程序下载有关数据集中的动作数据50000个做训练,假设拥有49个类,提取其x,y,z三个方向的坐标作为其三种特征,构成的训练张量X∈R3×49×50000
对训练数据集建模,进行分析,得到分类模型,其步骤如下:
1)根据训练张量X,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数:
min U 1 , . . . U N | | X - C × 1 U 1 × 2 . . . × N U N | | 2 + Ω ( X ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中Ω(X)表示训练数据的监督信息,Un(1≤n≤N)为张量分解后得到的矩阵,C为核张量,其n阶展开矩阵C(n)满足以下条件:
a)C(n)的元素全由“0”或“1”组成;
b)C(n)的所有行相互正交;
c)对于任意的n,C(n)为满秩;
2)根据张量展开,可以将公式(1)写作:
min U N | | X ( n ) - U N B ( n ) | | 2 + Ω ( X ( n ) ) - - - ( 1 )
s.t.Un>0,1≤n≤N
其中,B(n)=C×1U1×2...×n-1Un-1×n+1Un+1×n+2...×NUN,X(n)为训练张量X的n阶展开矩阵;
X ( n ) = [ x 1 , x 2 , . . . , x I n ] T , U ( n ) = [ u 1 , u 2 , . . . , u I n ] T 将公式(1)中每一个矩阵Ui转置并分成Ii个独立的优化问题:
min u i | | x i - B ( n ) T u i | | 2 + Ω ( x i ) - - - ( 2 )
s.t.ui>0,1≤i≤In
3)将公式(2)中有监督信息,即n=N时的分量引入最大间隔的分类器作为监督信息,得到如下的优化函数:
min u i ( N ) , α γ | | x i ( N ) - B ( N ) T u i ( N ) | | 2 + λα T Kα + Σ i = 1 I N L ( y i , K i T α ) - - - ( 3 )
s . t . U i ( N ) > 0,1 ≤ i ≤ I N
其中,γ为控制近似误差的权重参数,λ为控制分类误差的权重参数,yi为相应的标注标签,α为待优化的分类参数,L为损失函数L(y,t)=max(0,1-yt)2,K为核矩阵,其元素kij=k(ui,uj),k为核函数。
4)使用共轭梯度下降的方法,迭代地优化参数α与矩阵分量
Figure BDA0000380030770000105
在优化分类参数α的过程中首先计算α的梯度:
▿ α = 2 ( λKα + KI 0 ( Kα - Y ) )
其中I0为IN×IN的对角矩阵,其中前nv(支持向量的各数)个元素为1,其余为0。
然后计算α的Hessian矩阵:
Hα=2(λK+KI0K)
在优化矩阵分量
Figure BDA0000380030770000111
的过程中,首先假定使用内积核:
k ( u i ( N ) , u j ( N ) ) = u i ( N ) T · u j ( N )
计算
Figure BDA0000380030770000113
的梯度:
▿ u i ( N ) = - 2 γ B ( N ) x i ( N ) + 2 γ ( B ( N ) B ( N ) T ) u i ( N ) + 2 λ α i Σ j = 1 I s α j u j ( N ) + 2 ( Σ j = 1 n v l j α j u j ( N ) [ i ∈ n v ] + α i Σ j = 1 n v l j u j ( N ) )
然后计算
Figure BDA0000380030770000115
的Hessian矩阵:
H u i ( N ) = 2 γ ( B ( N ) B ( N ) T ) + ( 2 λ α i 2 + 4 l i α i [ i ∈ n v ] ) I ns
其中,Ins是大小为Is的单位矩阵,[i∈nv]是一个指示函数,当且仅当i属于支持向量的集合时函数值为1,其余为0。
5)对于公式(2)中无监督信息的模态,即n≠N时,加入稀疏选择的约束,即l1范数:
min u i ( n ) | | x i ( n ) - B ( n ) T u i ( n ) | | 2 + η ( n ) | u i ( n ) | - - - ( 4 ) s . t . u i ( n ) ≥ 0 , n ≠ N
其中,η(n)是控制模态n中的稀疏度。
6)使用如下方法求解公式(4)
u ij ( n ) = t + η ( n ) b j b j T , t > η ( n ) 0 , t ≤ η ( n )
其中,
Figure BDA0000380030770000121
Figure BDA0000380030770000122
中的元素,
B ( n ) = [ b 1 T , b 2 T , . . . , b R n T ] T
t = b j ( B ( n ) T u i ( n ) - b j T x i )
7)根据步骤4)与步骤6)求得的ui,拼合成U,反复迭代,直至收敛。得到分类模型的参数{U1,...,UN;α}。
根据用户查询数据集及分类模型,对查询数据集分类,其步骤如下:
1)编写爬虫程序下载有关数据集中的动作数据剩余的19363个做训练,提取其x,y,z三个方向的坐标作为其三种特征,构成的测试张量Xt∈R3×49×19363
2)根据之前得到的分类模型参数{U1,...,UN;α},以及公式(3),计算待分类的多媒体数据的yi
3)根据步骤2)中得到的yi,进行以0.5为阈值的二值化操作,获得待分类的多媒体数据的标签及分类结果;
4)结果经过Accuracy,MacroF1,MicroF1,MacroAUC,MicroAUC五个分类评价标准的结果如下:
Accuracy MacroF1 MicroF1 MacroAUC MicroAUC
0.8879 0.7616 0.7857 0.7212 0.7407

Claims (4)

1.一种基于最大间隔张量学习的高维多媒体数据分类方法,其特征在于包括如下步骤:
(1)建立多媒体数据的训练数据集,提取不同种类的特征,并对多媒体数据进行标注;
(2)将训练数据集表达成张量,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数,并对目标函数进行分析,优化,得到分类模型;
(3)对用户查询数据集提取不同种类的特征,根据分类模型,对查询数据集标注分类。
2.根据权利要求1所述的一种基于最大间隔张量学习的高维多媒体数据分类方法,其特征在于所述的步骤(1)包括:
1)编写爬虫程序下载用户所需的多媒体数据,构成多媒体数据集合
Figure FDA0000380030760000013
其中IN是集合DATA中的多媒体数据个数;
2)对DATA中的多媒体数据提取不同种类的特征,T1,...,TN-1,N-1为特征的种类数;
3)对DATA中的多媒体数据进行标注,正例为“1”,反例为“0”;
4)建立训练张量
Figure FDA0000380030760000011
其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为多媒体数据个数。
3.根据权利要求1所述的一种基于最大间隔张量学习的高维多媒体数据分类方法,其特征在于所述的步骤(2)包括:
1)根据训练张量X,得到基于最大间隔张量学习的高维多媒体数据分类的目标函数:
min U 1 , . . . U N | | X - C × 1 U 1 × 2 . . . × N U N | | 2 + Ω ( X ) s . t . U n > 0,1 ≤ n ≤ N - - - ( 1 )
其中Ω(X)表示训练数据的监督信息,Un(1≤n≤N)为张量分解后得到的矩阵,C为核张量,其n阶展开矩阵C(n)满足以下条件:
a)C(n)的元素全由“0”或“1”组成;
b)C(n)的所有行相互正交;
c)对于任意的n,C(n)为满秩;
2)根据张量展开,可以将公式(1)写作:
min U N | | X ( n ) - U N B ( n ) | | 2 + Ω ( X ( n ) ) s . t . U n > 0,1 ≤ n ≤ N - - - ( 1 )
其中,B(n)=C×1U1×2...×n-1Un-1×n+1Un+1×n+2...×NUN,X(n)为训练张量X的n阶展开矩阵;
X ( n ) = [ x 1 , x 2 , . . . , x I n ] T , U ( n ) = [ u 1 , u 2 , . . . , u I n ] T 将公式(1)中每一个矩阵Ui转置并分成Ii个独立的优化问题:
min u i | | x i - B ( n ) T u i | | 2 + Ω ( x i ) s . t . u i > 0,1 ≤ i ≤ I n - - - ( 2 )
3)将公式(2)中有监督信息,即n=N时的分量引入最大间隔的分类器作为监督信息,得到如下的优化函数:
min u i ( N ) , α γ | | x i ( N ) - B ( N ) T u i ( N ) | | 2 + λ α T Kα + Σ i = 1 I N L ( y i , K i T α ) s . t . U i ( N ) > 0,1 ≤ i ≤ I N - - - ( 3 )
其中,γ为控制近似误差的权重参数,λ为控制分类误差的权重参数,yi为相应的标注标签,α为待优化的分类参数,L为损失函数L(y,t)=max(0,1-yt)2,K为核矩阵,其元素kij=k(ui,uj),k为核函数;
4)使用共轭梯度下降的方法,迭代地优化参数α与矩阵分量
Figure FDA0000380030760000025
在优化分类参数α的过程中首先计算α的梯度:
▿ α = 2 ( λKα + K I 0 ( Kα - Y ) )
其中I0为IN×IN的对角矩阵,其中前nv(支持向量的各数)个元素为1,其余为0。
然后计算α的Hessian矩阵:
Hα=2(λK+KI0K)
在优化矩阵分量
Figure FDA0000380030760000031
的过程中,首先假定使用内积核:
k ( u i ( N ) , u j ( N ) ) = u i ( N ) T · u j ( N )
计算
Figure FDA0000380030760000033
的梯度:
▿ u i ( N ) = - 2 γ B ( N ) x i ( N ) + 2 γ ( B ( N ) B ( N ) T ) u i ( N ) + 2 λ α i Σ j = 1 I s α j u j ( N ) + 2 ( Σ j = 1 n v l j α j u j ( N ) [ i ∈ n v ] + α i Σ j = 1 n v l j u j ( N ) )
然后计算
Figure FDA0000380030760000035
的Hessian矩阵:
H u i ( N ) = 2 γ ( B ( N ) B ( N ) T ) + ( 2 λ α i 2 + 4 l i α i [ i ∈ n v ] ) I ns
其中,Ins是大小为Is的单位矩阵,[i∈nv]是一个指示函数,当且仅当i属于支持向量的集合时函数值为1,其余为0;
5)对于公式(2)中无监督信息的模态,即n≠N时,加入稀疏选择的约束,即I1范数:
min u i ( n ) | | x i ( n ) - B ( n ) T u i ( n ) | | 2 + η ( n ) | u i ( n ) | s . t . u i ( n ) ≥ 0 , n ≠ N - - - ( 4 )
其中,η(n)是控制模态n中的稀疏度;
6)使用如下方法求解公式(4)
u ij ( n ) = t - η ( n ) b j b j T , t > η ( n ) 0 , t ≤ η ( n )
其中,
Figure FDA0000380030760000041
Figure FDA0000380030760000042
中的元素,
B ( n ) = [ b 1 T , b 2 T , . . . , b R n T ] T
t = b j ( B ( n ) T u i ( n ) - b j T x i )
7)根据步骤4)与步骤6)求得的ui,拼合成U,反复迭代,直至收敛。得到分类模型的参数{U1,...,UN;α}。
4.根据权利要求1所述的一种基于最大间隔张量学习的高维多媒体数据分类方法,其特征在于所述的步骤(3)包括:
1)编写爬虫程序下载用户所需的待分类的多媒体数据,构成多媒体数据测试集合
Figure FDA0000380030760000044
其中INt是集合TEST中的待分类的多媒体数据个数
2)对TEST中的多媒体数据提取不同种类的特征,与训练时所提取的特征一致,Tt1,...,TtN-1,N-1为特征的种类数;
3)建立测试张量其中I1,...,IN-1模态对应为步骤2)中多媒体数据的特征T1,...,TN-1,IN模态对应为待分类的多媒体数据个数;
4)根据得到的分类模型参数{U1,...,UN;α},以及公式(3),计算待分类的多媒体数据的yi
5)根据步骤4)中得到的yi,进行以0.5为阈值的二值化操作,获得待分类的多媒体数据的标签及分类结果。
CN201310410604.9A 2013-09-10 2013-09-10 基于最大间隔张量学习的高维多媒体数据分类方法 Active CN103473308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310410604.9A CN103473308B (zh) 2013-09-10 2013-09-10 基于最大间隔张量学习的高维多媒体数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310410604.9A CN103473308B (zh) 2013-09-10 2013-09-10 基于最大间隔张量学习的高维多媒体数据分类方法

Publications (2)

Publication Number Publication Date
CN103473308A true CN103473308A (zh) 2013-12-25
CN103473308B CN103473308B (zh) 2017-02-01

Family

ID=49798156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310410604.9A Active CN103473308B (zh) 2013-09-10 2013-09-10 基于最大间隔张量学习的高维多媒体数据分类方法

Country Status (1)

Country Link
CN (1) CN103473308B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160699A (zh) * 2015-09-06 2015-12-16 电子科技大学 一种基于张量近似的海量数据多分辨率体绘制方法
CN105184316A (zh) * 2015-08-28 2015-12-23 国网智能电网研究院 一种基于特征权学习的支持向量机电网业务分类方法
CN105760427A (zh) * 2016-01-28 2016-07-13 中国科学院遥感与数字地球研究所 一种高维数据模式分类方法、装置及系统
CN107480879A (zh) * 2017-08-09 2017-12-15 郑州星睿水利科技有限公司 水文职工业务知识考评方法及系统
CN107566383A (zh) * 2017-09-12 2018-01-09 南京师范大学 一种有限网络带宽约束下的高维时空场数据实时传输方法
CN108780462A (zh) * 2016-03-13 2018-11-09 科尔蒂卡有限公司 用于对多媒体内容元素进行聚类的系统和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080063285A1 (en) * 2006-09-08 2008-03-13 Porikli Fatih M Detecting Moving Objects in Video by Classifying on Riemannian Manifolds
CN101299241A (zh) * 2008-01-14 2008-11-05 浙江大学 基于张量表示的多模态视频语义概念检测方法
CN102143001A (zh) * 2011-04-02 2011-08-03 西南科技大学 一种基于语义理解的音频资源管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080063285A1 (en) * 2006-09-08 2008-03-13 Porikli Fatih M Detecting Moving Objects in Video by Classifying on Riemannian Manifolds
CN101299241A (zh) * 2008-01-14 2008-11-05 浙江大学 基于张量表示的多模态视频语义概念检测方法
CN102143001A (zh) * 2011-04-02 2011-08-03 西南科技大学 一种基于语义理解的音频资源管理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘亚楠: "多模态特征融合和变量选择的视频语义理解", 《中国博士学位论文全文数据库》, no. 201012, 15 December 2010 (2010-12-15) *
吴飞,刘亚楠,庄越挺: "基于张量表示的直推式多模态视频语义概念检测", 《软件学报》, no. 200811, 15 November 2008 (2008-11-15) *
孙明芳: "基于张量的图像识别方法的研究", 《中国优秀硕士学位论文全文数据库》, no. 201210, 15 October 2012 (2012-10-15) *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184316A (zh) * 2015-08-28 2015-12-23 国网智能电网研究院 一种基于特征权学习的支持向量机电网业务分类方法
CN105184316B (zh) * 2015-08-28 2019-05-14 国网智能电网研究院 一种基于特征权学习的支持向量机电网业务分类方法
CN105160699A (zh) * 2015-09-06 2015-12-16 电子科技大学 一种基于张量近似的海量数据多分辨率体绘制方法
CN105160699B (zh) * 2015-09-06 2018-07-10 电子科技大学 一种基于张量近似的海量数据多分辨率体绘制方法
CN105760427A (zh) * 2016-01-28 2016-07-13 中国科学院遥感与数字地球研究所 一种高维数据模式分类方法、装置及系统
CN105760427B (zh) * 2016-01-28 2019-04-30 中国科学院遥感与数字地球研究所 一种高维数据模式分类方法、装置及系统
CN108780462A (zh) * 2016-03-13 2018-11-09 科尔蒂卡有限公司 用于对多媒体内容元素进行聚类的系统和方法
CN108780462B (zh) * 2016-03-13 2022-11-22 科尔蒂卡有限公司 用于对多媒体内容元素进行聚类的系统和方法
CN107480879A (zh) * 2017-08-09 2017-12-15 郑州星睿水利科技有限公司 水文职工业务知识考评方法及系统
CN107566383A (zh) * 2017-09-12 2018-01-09 南京师范大学 一种有限网络带宽约束下的高维时空场数据实时传输方法
CN107566383B (zh) * 2017-09-12 2019-10-18 南京师范大学 一种有限网络带宽约束下的高维时空场数据实时传输方法

Also Published As

Publication number Publication date
CN103473308B (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
US11157550B2 (en) Image search based on feature values
CN109614979B (zh) 一种基于选择与生成的数据增广方法及图像分类方法
CN105975573B (zh) 一种基于knn的文本分类方法
CN104966104B (zh) 一种基于三维卷积神经网络的视频分类方法
CN103473308A (zh) 基于最大间隔张量学习的高维多媒体数据分类方法
US10713298B2 (en) Video retrieval methods and apparatuses
CN102693299B (zh) 一种并行视频拷贝检测系统和方法
CN103049526B (zh) 基于双空间学习的跨媒体检索方法
US9218531B2 (en) Image identification apparatus, image identification method, and non-transitory computer readable medium
CN102722713B (zh) 一种基于李群结构数据的手写体数字识别方法及系统
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
CN102663401B (zh) 一种图像特征提取和描述方法
CN107545038B (zh) 一种文本分类方法与设备
US11841839B1 (en) Preprocessing and imputing method for structural data
US8204889B2 (en) System, method, and computer-readable medium for seeking representative images in image set
CN103324929B (zh) 基于子结构学习的手写中文识别方法
CN103440508B (zh) 基于视觉词袋模型的遥感图像目标识别方法
CN107219510B (zh) 基于无限最大间隔线性判别投影模型的雷达目标识别方法
CN103258217A (zh) 一种基于增量学习的行人检测方法
CN105205135A (zh) 一种基于主题模型的3d模型检索方法及其检索装置
Zhang et al. Automatic discrimination of text and non-text natural images
CN106601235A (zh) 一种半监督多任务特征选择的语音识别方法
CN105005616A (zh) 基于文本图片特征交互扩充的文本图解方法及系统
CN105654122A (zh) 基于核函数匹配的空间金字塔物体识别方法
CN106203508A (zh) 一种基于Hadoop平台的图像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant