CN110533078B - 基于字典对的多视角识别方法 - Google Patents

基于字典对的多视角识别方法 Download PDF

Info

Publication number
CN110533078B
CN110533078B CN201910712287.3A CN201910712287A CN110533078B CN 110533078 B CN110533078 B CN 110533078B CN 201910712287 A CN201910712287 A CN 201910712287A CN 110533078 B CN110533078 B CN 110533078B
Authority
CN
China
Prior art keywords
matrix
dictionary
num
sample set
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910712287.3A
Other languages
English (en)
Other versions
CN110533078A (zh
Inventor
王磊
张帆
李丹萍
裴庆祺
马立川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910712287.3A priority Critical patent/CN110533078B/zh
Publication of CN110533078A publication Critical patent/CN110533078A/zh
Application granted granted Critical
Publication of CN110533078B publication Critical patent/CN110533078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于字典对的多视角识别方法,旨在同时考虑视角特征间的互补信息和视角特征内的判别信息,提高多视角识别精度。实现步骤:获取训练样本集和待识别样本集;构建训练样本集的字典对集;构建对角化约束矩阵集;构建系数嵌入矩阵、标签矩阵和常数矩阵;构建非负矩阵和投影矩阵;构建基于字典对的多视角识别模型;对基于字典对的多视角识别模型进行训练;对待识别样本集中的样本数据进行分类。本发明同时考虑了视角特征间的互补信息和视角特征内的判别信息,进而提高多视角识别的准确度,可用于动作识别、人脸识别和文本识别。

Description

基于字典对的多视角识别方法
技术领域
本发明属于图像处理技术领域,涉及一种多视角识别方法,具体涉及一种基于字典对的多视角识别方法,可用于动作识别、人脸识别和文本识别。
背景技术
随着信息技术以及传感器技术的发展,通过不同的传感器可以获取到一个样本的多种视角特征。大量研究表明,单一视角特征所拥有的样本信息不如多视角特征拥有的样本信息完整,利用视角特征间的互补特性,并通过深入挖掘每种视角特征内的判别信息,可以更加准确对样本的类别进行判别。多视角识别的主要任务是根据提取的同一待识别目标样本的不同视角特征,将其和数据库中的样本进行匹配,然后判别待识别目标样本的类别。
目前,多视角识别主要分为基于子空间学习的多视角识别方法、基于协同训练的多视角识别方法、基于核学习的多视角识别方法和基于特征融合的多视角识别方法。其中基于特征融合的多视角识别方法是为不同种类的视角特征学习一种高效的融合方式,然后根据所学的融合方式分别将训练样本和待识别样本的视角特征进行融合,并以训练样本中视角特征融合的结果为匹配模板,对待识别样本中视角特征的融合结果进行类别判别,并将判别结果作为待识别样本的类别判别结果。特征融合需要高效的特征学习,字典学习作为特征学习的一种表现形式,因其优越的学习结果而被应用于特征融合中。然而,影响多视角识别精度的关键点:视角间的互补信息和视角内的判别信息,依然没有得到全面考虑。稀疏多模态生物识别SMBR和联合动态稀疏表示分类JDSRC直接用多视角特征构建字典,充分考虑了视角间的互补信息,但是,以全部视角特征作为字典会自动的弱化视角特征内的判别信息,从而导致多视角识别精度受到抑制。有监督多模态字典学习SMDL12和无监督多模态字典学习UMDL12为每类视角特征学习一种字典,并通过样本数据的标签进行限制,使得视角特征内的判别信息得到利用,但是,因为每一种字典只包含对应视角特征的判别信息,所以视角特征间的互补信息没有被充分考虑,从而导致多视角识别精度受到抑制。
Q Wang,Y Guo,J Wang,X Luo,X Kong在其发表的论文“Multi-View AnalysisDictionary Learning for Image Classification”(IEEE Access),6,20174-20183(2018)中,公开了一种基于多视角解析字典模型MVADL的图像分类方法。该方法首先构建一个投影矩阵、标签矩阵,同时为训练样本集中的每种视角特征构建解析字典和表示系数,然后将每种视角特征的表示系数按行放置,利用多视角解析字典模型对投影矩阵、每种视角特征的解析字典和表示系数进行更新,最后,利用投影矩阵以及每种视角特征的解析字典的最终更新结果对待识别样本集中的样本进行识别分类。该方法根据多视角特征拥有相同的标签这一特性,利用投影矩阵将所有视角特征的表示系数进行投影,充分考虑了视角特征间的互补信息,但是,该方法并没有考虑到每种视角特征的表示系数应当具有的判别特性,使得每种视角特征内部的判别信息没有得到有效利用,从而影响了对待识别样本集中的样本的识别精度。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于字典对的多视角识别方法,旨在同时考虑视角特征间的互补信息和视角特征内的判别信息,提高多视角识别精度。
其主要的技术思路是:获取训练样本集和待识别样本集;构建训练样本集的字典对集;构建对角化约束矩阵集;构建系数嵌入矩阵、标签矩阵和常数矩阵;构建非负矩阵和投影矩阵;构建基于字典对的多视角识别模型;对基于字典对的多视角识别模型进行训练;对待识别样本集中的样本数据进行分类。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集X和待识别样本集Xtest
从多视角特征数据库中随机选取V种视角特征,每种视角特征包含Ntotal个样本数据,每个样本数据的类别数为m,并随机选取每种视角特征的N个样本数据构成训练样本集X,剩余的样本数据构成待识别样本集Xtest,其中,V≥1,Ntotal≥1,m≥1,1≤N<Ntotal,X={X1,X2,···,Xv,···,XV},
Figure BDA0002154178200000021
Xv表示训练样本集中的第v种视角特征,
Figure BDA0002154178200000031
v=1,2,···,V,
Figure BDA0002154178200000032
表示Xv中的第n个样本数据,
Figure BDA0002154178200000033
n=1,2,···,N,dv表示第v种视角特征中样本数据的维度,dv>1,
Figure BDA0002154178200000034
表示待识别样本集中的第v种视角特征,
Figure BDA0002154178200000035
(2)构建训练样本集X的字典对集B:
(2a)对训练样本集X中的每一种视角特征Xv进行奇异值分解,得到Xv的左酉矩阵Uv、特征值矩阵Sv和右酉矩阵Vv,其中,
Figure BDA0002154178200000036
Sv∈Rk×k,Vv∈RN×k,k表示Xv的大于零的特征值的数目,k≥1;
(2b)设置Xv的合成字典为Dv,解析字典为Pv,Dv和Pv构成Xv的字典对Bv,Bv={Dv,Pv},并令
Figure BDA0002154178200000037
令Pv中每一个位置的值均满足均值为0且方差为1的正态分布,再将V种字典对Bv组成训练样本集X的字典对集B,B={B1,B2,···Bv,···,BV},其中,
Figure BDA0002154178200000038
Figure BDA0002154178200000039
表示Dv中的字典原子数目,Uv(1:dv,1)表示Uv中的第一列数据,Sv(1,1)表示Sv中位于(1,1)位置的值,
Figure BDA00021541782000000310
表示Vv中位于第1列前
Figure BDA00021541782000000311
行的数据的转置;
(3)构建对角化约束矩阵集A:
(3a)统计训练样本集X中的每一种视角特征Xv中属于第j类的样本数目nj,以及Xv对应的合成字典Dv中属于第j类的字典原子数目bj
Figure BDA00021541782000000312
(3b)设置Xv的对角化约束矩阵为Av,并令
Figure BDA00021541782000000313
然后将V种视角特征的对角化约束矩阵组合成对角化约束矩阵集A,A={A1,A2,···,Av,···,AV},其中,
Figure BDA00021541782000000314
Figure BDA00021541782000000315
表示每一个位置的值均为1的列向量,
Figure BDA00021541782000000316
Figure BDA00021541782000000317
表示每一位置的值均为1的行向量,
Figure BDA00021541782000000318
Figure BDA00021541782000000319
表示每一个位置的值均为1的矩阵,
Figure BDA00021541782000000320
(4)构建系数嵌入矩阵S、标签矩阵Y和常数矩阵E:
构建每一个位置的值均为0的系数嵌入矩阵S,同时采用one-hot编码方法,并通过训练样本集X中的任意一种视角特征包含的样本数据的类别,构建标签矩阵Y,并通过Y构建常数矩阵E,
Figure BDA0002154178200000041
其中,
Figure BDA0002154178200000042
Y∈Rm×N,E∈Rm×N
Figure BDA0002154178200000043
E(i,j)表示E中位于(i,j)位置的值,Y(i,j)表示Y中位于(i,j)位置的值,1≤i≤m,1≤j≤N;
(5)构建非负矩阵M和投影矩阵W:
构建每一个位置的值均为零的非负矩阵M,同时构建投影矩阵W,其中,M∈Rm×N
Figure BDA0002154178200000044
(6)构建基于字典对的多视角识别模型:
Figure BDA0002154178200000045
Figure BDA0002154178200000046
其中,
Figure BDA0002154178200000047
表示Xv-DvPvXv的Frobenius范数,PvXvΘAv表示PvXv与Av对应位置的元素值相乘,
Figure BDA0002154178200000048
表示PvXvΘAv的Frobenius范数,
Figure BDA0002154178200000049
表示PX-S的Frobenius范数,PX=[P1X1;P2X2;···;PvXv;···;PVXV],
Figure BDA00021541782000000410
Figure BDA00021541782000000411
表示WS-(Y+EΘM)的Frobenius范数,EΘM表示E与M对应位置的元素相乘,
Figure BDA00021541782000000412
表示W的Frobenius范数,
Figure BDA00021541782000000413
表示Dv中的第t列数据,
Figure BDA00021541782000000414
Figure BDA00021541782000000415
Figure BDA00021541782000000416
的l2范数,表示矩阵中所有元素平方的和,
Figure BDA00021541782000000417
表示
Figure BDA00021541782000000418
的l2范数结果应当小于等于1,M≥0表示M中每一个位置的元素是非负的,λ表示对角化结构约束参数,α表示控制PX与S相似程度的约束参数,β表示控制WS与Y+EΘM相似程度的约束参数,τ表示防止W过拟合的约束参数;
(7)对基于字典对的多视角识别模型进行训练:
(7a)设置迭代次数为Tnum,最大迭代次数为Tmax,第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果为
Figure BDA0002154178200000051
第Tnum次迭代后第v种视角特征Xv的合成字典Dv的更新结果为
Figure BDA0002154178200000052
第Tnum次迭代后投影矩阵W的更新结果为
Figure BDA0002154178200000053
第Tnum次迭代后非负矩阵M的更新结果为
Figure BDA0002154178200000054
第Tnum次迭代后非负矩阵S的更新结果为
Figure BDA0002154178200000055
并令Tnum=0,
Figure BDA0002154178200000056
(7b)采用最优方向法,并通过标签矩阵Y、常数矩阵E、V种视角特征Xv以及每种视角特征Xv的解析字典
Figure BDA0002154178200000057
投影矩阵
Figure BDA0002154178200000058
和非负矩阵
Figure BDA0002154178200000059
对系数嵌入矩阵S进行更新,得到更新后的系数嵌入矩阵
Figure BDA00021541782000000510
(7c)采用最优方向法,并通过第v种视角特征Xv和Xv的解析字典
Figure BDA00021541782000000511
对Xv的合成字典Dv进行更新,得到更新后的合成字典
Figure BDA00021541782000000512
(7d)采用最优方向法,并通过第v种视角特征Xv、Xv的对角化约束矩阵Av
Figure BDA00021541782000000513
Figure BDA00021541782000000514
对Xv的解析字典Pv进行更新,得到更新后的解析字典
Figure BDA00021541782000000515
(7e)采用最优方向法,并通过标签矩阵Y、常数矩阵E、
Figure BDA00021541782000000516
Figure BDA00021541782000000517
对投影矩阵W进行更新,得到更新后的投影矩阵
Figure BDA00021541782000000518
(7f)采用最优方向法,并通过标签矩阵Y、常数矩阵E、
Figure BDA00021541782000000519
Figure BDA00021541782000000520
对非负矩阵M进行更新,得到更新后的非负矩阵
Figure BDA00021541782000000521
(7g)判断Tnum=Tmax是否成立,若是,计算训练样本集的投影变换矩阵C,否则,令Tnum=Tnum+1,并执行步骤(7b),其中,C的计算公式为:
C=W[P1X1;P2X2;···;PvXv;···;PVXV]
其中,
Figure BDA00021541782000000522
C∈Rm×N
Figure BDA00021541782000000524
表示最后一次迭代投影矩阵W更新的结果,
Figure BDA00021541782000000523
表示最后一次迭代后训练样本集中第v种视角特征Xv的解析字典Pv的更新结果;
(8)对待识别样本集Xtest中的样本数据进行分类:
计算待识别样本集Xtest的投影变换矩阵Ctest,并采用最邻近分类方法,以C为匹配模板,确定Ctest中每一列数据的类别,并将该结果作为待识别样本集Xtest中样本数据的分类结果,其中,Ctest的计算公式为:
Figure BDA0002154178200000061
其中,
Figure BDA0002154178200000062
Figure BDA0002154178200000063
本发明与现有技术相比,具有以下优点:
本发明由于在构建基于字典对的多视角识别模型的过程中,通过对每种视角特征的表示系数PvXv进行了对角化结构约束,有效的利用了每种视角特征内部的判别信息,同时,通过将系数嵌入矩阵投影到多视角特征共享的标签矩阵中,考虑到了视角特征间的互补信息,从而克服了现有技术中因未能全面考虑多视角特征间的互补信息和视角特征内的判别信息而导致识别精度受到抑制的缺陷,有效提高了多视角识别的精度。
附图说明
图1是本发明的实现流程图;
图2是本发明和现有技术在Oxford Flowers 17数据库上的多视角识别准确率随视角特征种类数变化的曲线图。
具体实施步骤
下面结合附图和具体实施例,对本发明作进一步的详细描述。
参照图1,本发明包括以下步骤:
步骤1)获取训练样本集X和待识别样本集Xtest
从多视角特征数据库中随机选取V种视角特征,每种视角特征包含Ntotal个样本数据,每个样本数据的类别数为m,并随机选取每种视角特征的N个样本数据构成训练样本集X,剩余的样本数据构成待识别样本集Xtest,其中,V≥1,Ntotal≥1,m≥1,1≤N<Ntotal,X={X1,X2,···,Xv,···,XV},
Figure BDA0002154178200000071
Xv表示训练样本集中的第v种视角特征,
Figure BDA0002154178200000072
v=1,2,···,V,
Figure BDA0002154178200000073
表示Xv中的第n个样本数据,
Figure BDA0002154178200000074
n=1,2,···,N,dv表示第v种视角特征中样本数据的维度,dv>1,
Figure BDA0002154178200000075
表示待识别样本集中的第v种视角特征,
Figure BDA0002154178200000076
步骤2)构建训练样本集X的字典对集B:
步骤2a)对训练样本集X中的每一种视角特征Xv进行奇异值分解,得到Xv的左酉矩阵Uv、特征值矩阵Sv和右酉矩阵Vv,其中,
Figure BDA0002154178200000077
Sv∈Rk×k,Vv∈RN×k,k表示Xv的大于零的特征值的数目,k≥1;
步骤2b)设置Xv的合成字典为Dv,解析字典为Pv,Dv和Pv构成Xv的字典对Bv,Bv={Dv,Pv},并令
Figure BDA0002154178200000078
令Pv中每一个位置的值均满足均值为0且方差为1的正态分布,再将V种字典对Bv组成训练样本集X的字典对集B,B={B1,B2,···Bv,···,BV},其中,
Figure BDA0002154178200000079
Figure BDA00021541782000000710
表示Dv中的字典原子数目,Uv(1:dv,1)表示Uv中的第一列数据,Sv(1,1)表示Sv中位于(1,1)位置的值,
Figure BDA00021541782000000711
表示Vv中位于第1列前
Figure BDA00021541782000000712
行的数据的转置;
步骤3)构建对角化约束矩阵集A:
步骤3a)统计训练样本集X中的每一种视角特征Xv中属于第j类的样本数目nj,以及Xv对应的合成字典Dv中属于第j类的字典原子数目bj
Figure BDA00021541782000000713
步骤3b)设置Xv的对角化约束矩阵为Av,并令
Figure BDA00021541782000000714
然后将V种视角特征的对角化约束矩阵组合成对角化约束矩阵集A,A={A1,A2,···,Av,···,AV},其中,
Figure BDA00021541782000000715
Figure BDA00021541782000000716
表示每一个位置的值均为1的列向量,
Figure BDA00021541782000000717
Figure BDA00021541782000000718
表示每一位置的值均为1的行向量,
Figure BDA00021541782000000719
Figure BDA00021541782000000720
表示每一个位置的值均为1的矩阵,
Figure BDA00021541782000000721
步骤4)构建系数嵌入矩阵S、标签矩阵Y和常数矩阵E:
构建每一个位置的值均为0的系数嵌入矩阵S,同时采用one-hot编码方法,并通过训练样本集X中的任意一种视角特征包含的样本数据的类别,构建标签矩阵Y,并通过Y构建常数矩阵E,
Figure BDA0002154178200000081
其中,
Figure BDA0002154178200000082
Y∈Rm×N,E∈Rm×N
Figure BDA0002154178200000083
E(i,j)表示E中位于(i,j)位置的值,Y(i,j)表示Y中位于(i,j)位置的值,1≤i≤m,1≤j≤N;
步骤5)构建非负矩阵M和投影矩阵W:
构建每一个位置的值均为零的非负矩阵M,同时构建投影矩阵W,其中,M∈Rm×N
Figure BDA0002154178200000084
步骤6)构建基于字典对的多视角识别模型:
Figure BDA0002154178200000085
Figure BDA0002154178200000086
其中,
Figure BDA0002154178200000087
表示Xv-DvPvXv的Frobenius范数,PvXvΘAv表示PvXv与Av对应位置的元素值相乘,
Figure BDA0002154178200000088
表示PvXvΘAv的Frobenius范数,
Figure BDA0002154178200000089
表示PX-S的Frobenius范数,PX=[P1X1;P2X2;···;PvXv;···;PVXV],
Figure BDA00021541782000000810
Figure BDA00021541782000000811
表示WS-(Y+EΘM)的Frobenius范数,EΘM表示E与M对应位置的元素相乘,
Figure BDA00021541782000000812
表示W的Frobenius范数,
Figure BDA00021541782000000813
表示Dv中的第t列数据,
Figure BDA00021541782000000814
Figure BDA00021541782000000815
Figure BDA00021541782000000816
的l2范数,表示矩阵中所有元素平方的和,
Figure BDA00021541782000000817
表示
Figure BDA00021541782000000818
的l2范数结果应当小于等于1,M≥0表示M中每一个位置的元素是非负的,λ表示对角化结构约束参数,α表示控制PX与S相似程度的约束参数,β表示控制WS与Y+EΘM相似程度的约束参数,τ表示防止W过拟合的约束参数;
步骤7)对基于字典对的多视角识别模型进行训练:
步骤7a)设置迭代次数为Tnum,最大迭代次数为Tmax,第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果为
Figure BDA0002154178200000091
第Tnum次迭代后第v种视角特征Xv的合成字典Dv的更新结果为
Figure BDA0002154178200000092
第Tnum次迭代后投影矩阵W的更新结果为
Figure BDA0002154178200000093
第Tnum次迭代后非负矩阵M的更新结果为
Figure BDA0002154178200000094
第Tnum次迭代后非负矩阵S的更新结果为
Figure BDA0002154178200000095
并令Tnum=0,
Figure BDA0002154178200000096
步骤7b)采用最优方向法,并通过标签矩阵Y、常数矩阵E、V种视角特征Xv以及每种视角特征Xv的解析字典
Figure BDA0002154178200000097
投影矩阵
Figure BDA0002154178200000098
和非负矩阵
Figure BDA0002154178200000099
对系数嵌入矩阵S进行更新,得到更新后的系数嵌入矩阵
Figure BDA00021541782000000910
更新公式为:
Figure BDA00021541782000000911
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,
Figure BDA00021541782000000912
表示第Tnum次迭代后投影矩阵W的更新结果,
Figure BDA00021541782000000913
表示第Tnum次迭代后非负矩阵M的更新结果,
Figure BDA00021541782000000914
表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,
Figure BDA00021541782000000915
表示
Figure BDA00021541782000000916
的转置,
Figure BDA00021541782000000917
表示
Figure BDA00021541782000000918
的逆矩阵,
Figure BDA00021541782000000919
表示E与
Figure BDA00021541782000000920
对应位置的元素相乘,
Figure BDA00021541782000000921
I∈RN×N,N表示Xv中的样本数目,α表示控制
Figure BDA00021541782000000922
Figure BDA00021541782000000923
相似程度的约束参数,β表示控制
Figure BDA00021541782000000924
Figure BDA00021541782000000925
相似程度的约束参数。
步骤7c)采用最优方向法,并通过第v种视角特征Xv和Xv的解析字典
Figure BDA00021541782000000926
对Xv的合成字典Dv进行更新,得到更新后的合成字典
Figure BDA00021541782000000927
更新公式为:
Figure BDA00021541782000000928
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,
Figure BDA00021541782000000929
表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,
Figure BDA0002154178200000101
表示
Figure BDA0002154178200000102
的转置,
Figure BDA0002154178200000103
表示
Figure BDA0002154178200000104
的逆矩阵,γ表示扰动参数,其大小为0.0001,I1为单位矩阵,
Figure BDA0002154178200000105
Figure BDA0002154178200000106
表示
Figure BDA0002154178200000107
中的字典原子数目。
步骤7d)采用最优方向法,并通过第v种视角特征Xv、Xv的对角化约束矩阵Av
Figure BDA0002154178200000108
Figure BDA0002154178200000109
对Xv的解析字典Pv进行更新,得到更新后的解析字典
Figure BDA00021541782000001010
更新公式为:
Figure BDA00021541782000001011
Figure BDA00021541782000001012
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,
Figure BDA00021541782000001013
表示Xv的转置,
Figure BDA00021541782000001014
表示第Tnum+1次迭代后第v种视角特征Xv的合成字典Dv的更新结果,
Figure BDA00021541782000001015
表示
Figure BDA00021541782000001016
的转置,
Figure BDA00021541782000001017
表示
Figure BDA00021541782000001018
与Av对应位置的元素相乘,Av表示第v种视角特征Xv的对角化矩阵,
Figure BDA00021541782000001019
表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,
Figure BDA00021541782000001020
Figure BDA00021541782000001021
表示第Tnum+1次迭代后非负矩阵S的更新结果,
Figure BDA00021541782000001022
表示取
Figure BDA00021541782000001023
的第
Figure BDA00021541782000001024
行到第
Figure BDA00021541782000001025
行的数据,
Figure BDA00021541782000001026
表示
Figure BDA00021541782000001027
中的字典原子数目,
Figure BDA00021541782000001028
nS表示
Figure BDA00021541782000001029
的行数,I2为单位矩阵,
Figure BDA00021541782000001030
I3为单位矩阵,
Figure BDA00021541782000001031
dv表示第v种视角特征Xv的维度,
Figure BDA00021541782000001032
表示
Figure BDA00021541782000001033
的逆矩阵,
Figure BDA00021541782000001034
表示
Figure BDA00021541782000001035
的逆矩阵,λ表示对角化结构约束参数,α表示控制
Figure BDA00021541782000001036
Figure BDA00021541782000001037
相似程度的约束参数,
Figure BDA00021541782000001038
γ表示扰动参数,其大小为0.0001。
步骤7e)采用最优方向法,并通过标签矩阵Y、常数矩阵E、
Figure BDA0002154178200000111
Figure BDA0002154178200000112
对投影矩阵W进行更新,得到更新后的投影矩阵
Figure BDA0002154178200000113
更新公式为:
Figure BDA0002154178200000114
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,
Figure BDA0002154178200000115
表示第Tnum次迭代后非负矩阵M的更新结果,
Figure BDA0002154178200000116
表示E与
Figure BDA0002154178200000117
对应位置的元素相乘,
Figure BDA0002154178200000118
表示第Tnum+1次迭代后非负矩阵S的更新结果,
Figure BDA0002154178200000119
表示
Figure BDA00021541782000001110
的转置,
Figure BDA00021541782000001111
表示
Figure BDA00021541782000001112
的逆矩阵,I4表示单位矩阵,
Figure BDA00021541782000001113
nS表示
Figure BDA00021541782000001114
的行数,β表示控制
Figure BDA00021541782000001115
Figure BDA00021541782000001116
相似程度的约束参数,τ表示防止
Figure BDA00021541782000001117
过拟合的约束参数。
步骤7f)采用最优方向法,并通过标签矩阵Y、常数矩阵E、
Figure BDA00021541782000001118
Figure BDA00021541782000001119
对非负矩阵M进行更新,得到更新后的非负矩阵
Figure BDA00021541782000001120
更新公式为:
Figure BDA00021541782000001121
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,
Figure BDA00021541782000001122
表示第Tnum+1次迭代后投影矩阵W的更新结果,
Figure BDA00021541782000001123
表示第Tnum+1次迭代后非负矩阵S的更新结果,M1表示所有元素均为零的矩阵,M1∈Rm×N,m和N分别表示训练样本集X中的任意一种视角特征包含的样本数据的类别和样本数据的个数,
Figure BDA00021541782000001124
表示
Figure BDA00021541782000001125
与E对应位置的元素相乘,
Figure BDA00021541782000001126
表示令
Figure BDA00021541782000001127
与E对应位置的元素相乘的结果大于等于0。
步骤7g)判断Tnum=Tmax是否成立,若是,计算训练样本集的投影变换矩阵C,否则,令Tnum=Tnum+1,并执行步骤7b),其中,C的计算公式为:
C=W[P1X1;P2X2;···;PvXv;···;PVXV]
其中,
Figure BDA00021541782000001128
C∈Rm×N
Figure BDA0002154178200000121
表示最后一次迭代投影矩阵W更新的结果,
Figure BDA0002154178200000122
表示最后一次迭代后训练样本集中第v种视角特征Xv的解析字典Pv的更新结果;
步骤8)对待识别样本集Xtest中的样本数据进行分类:
计算待识别样本集Xtest的投影变换矩阵Ctest,并采用最邻近分类方法,以C为匹配模板,确定Ctest中每一列数据的类别,并将该结果作为待识别样本集Xtest中样本数据的分类结果,其中,Ctest的计算公式为:
Figure BDA0002154178200000123
其中,
Figure BDA0002154178200000124
Figure BDA0002154178200000125
以下结合仿真实验,对本发明的技术效果作进一步详细的分析。
1.仿真实验条件:
本发明的仿真实验是在Hp Compaq 6280 Pro MT PC、内存4GB的硬件环境和MATLAB 2014a软件环境下进行的。
测试对象为Oxford Flowers 17数据库、IXMAS数据库、Animals with Attributes数据库和雷达辐射源数据库。
所述Oxford Flowers 17数据库是从牛津大学Visual Geometry Group的牛津花卉数据库中获取,Oxford Flowers 17数据库含有17类花的1360张彩色图片,每类花有80张图片,每张图片有7种视角特征距离矩阵,分别为1360维的HSV特征距离矩阵、1360维的HOG特征距离矩阵、1360维的正面区域SIFT特征距离矩阵、1360维的图像边界SIFT特征矩阵、1360维的颜色距离矩阵和1360维的形状距离矩阵和1360维的纹理距离矩阵。本发明选用HSV特征矩阵、HOG特征矩阵、正面区域SIFT特征距离矩阵和图像边界SIFT特征矩阵。
所述IXMAS数据库是从洛桑联邦理工学院运动数据库中获取,IXMAS数据库包含了13类日常动作的1950幅图片,每类动作有150张图片,每张图片有5种不同角度的视角特征。本发明选用IXMAS数据库中前11类动作的5种视角特征。
所述Animals with Attributes数据库是从图宾根大学的动物分类数据库中获取,Animals with Attributes数据库包含了50类动物的37322张图片,每张图片含有6种视角特征,分别为2688维的颜色直方图特征、2000维的局部自相似性特征、2000维的金字塔HOG特征、2000维的SIFT特征、2000维的颜色SIFT特征和2000维的SURF特征。本发明选用局部自相似性特征、SIFT特征、SURF特征和颜色直方图特征。
所述雷达辐射源数据库由西安电子科技大学智能感知与信息处理课题组提供,该数据库包含了30类雷达辐射源的2400个样本,每个样本有5种视角特征,分别为449维的模糊函数零切片特征、481维的包络特征、225维的循环谱零切片特征、512维的welch功率谱特征和512维的频谱特征。本发明选用512维welch功率谱特征和512维的频谱特征。
2.仿真实验内容:
仿真实验1:采用本发明和现有技术的有监督多模态字典学习SMDL12、无监督多模态字典学习UMDL12、联合动态稀疏表示分类JDSRC、稀疏多模态生物识别SMBR和多视角解析字典模型MVADL分别对Caltech101-20数据库、Oxford Flowers 17数据库、IXMAS数据库、Animals with Attributes数据库和雷达辐射源数据库在不同训练样本数量的情况下进行10次仿真实验,将10次仿真实验的平均识别率作为最终多视角识别率。
在Oxford Flowers 17数据库中,分别随机选取每类花的20个,30个,40个样本的视角特征。在IXMAS数据库中,分别随机选取每类动作的4个,7个,10个样本的视角特征。在Animals with Attributes数据库中,分别随机选取每类动物的25个,50个,100个样本的视角特征。在雷达辐射源数据库中,分别随机选取每类雷达辐射源信号的5个,10个,15个样本的视角特征。
本发明在对Oxford Flowers 17数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=1,控制PX与S相似程度的约束参数α=100,防止W过拟合的约束参数τ=0.001,控制WS与Y+EΘM相似程度的约束参数β=0.1。
本发明在对IXMAS数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=0.001,控制PX与S相似程度的约束参数α=0.001,防止W过拟合的约束参数τ=1,控制WS与Y+EΘM相似程度的约束参数β=0.01。
本发明在对Animals with Attributes数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=0.1,控制PX与S相似程度的约束参数α=10,防止W过拟合的约束参数τ=0.1,控制WS与Y+EΘM相似程度的约束参数β=0.001。
本发明在对雷达辐射源数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=1,控制PX与S相似程度的参数α=100,防止W过拟合的约束参数τ=0.001,控制WS与Y+EΘM相似程度的约束参数β=0.01。
在上述四个数据库上的多视角识别结果分别如表1、表2、表3和表4所示。
表1.在Oxford Flowers 17数据库上的平均识别率
20number/class 30number/class 40number/class
本发明 88.96±1.29 91.99±0.96 93.54±0.93
MVADL 88.24±1.09 90.79±0.94 91.99±1.09
SMDL<sub>12</sub> 79.67±1.91 84.96±1.42 88.62±0.88
UMDL<sub>12</sub> 82.07±1.22 85.22±1.08 87.28±0.73
SMBR 88.69±0.60 90.79±0.58 93.03±0.61
JDSRC 46.83±1.73 50.18±2.65 54.71±1.72
表2.在IXMAS数据库上的平均识别率
4number/class 7number/class 10number/class
本发明 93.29±1.21 96.80±1.02 97.91±0.79
MVADL 89.34±2.12 94.86±1.35 96.91±1.25
SMDL<sub>12</sub> 92.41±1.07 95.34±1.75 97.27±0.84
UMDL<sub>12</sub> 92.41±1.07 93.91±2.40 95.14±1.24
SMBR 88.60±1.69 94.66±1.72 96.14±0.84
JDSRC 56.33±4.26 56.68±3.05 53.59±2.62
表3.在Animals with Attributes数据库上的平均识别率
Figure BDA0002154178200000141
Figure BDA0002154178200000151
表4.在雷达辐射源数据库上的平均识别率
5number/class 10number/class 15number/class
本发明 69.84±1.43 78.60±1.22 82.14±0.59
MVADL 64.52±0.97 75.95±1.99 79.78±1.30
SMDL<sub>12</sub> 60.56±1.02 74.57±0.96 78.23±1.05
UMDL<sub>12</sub> 60.56±1.02 65.89±2.00 68.03±1.01
SMBR 35.55±1.73 48.23±2.11 67.84±1.36
JDSRC 46.01±1.34 53.08±1.57 55.69±1.33
由表1、表2、表3和表4的结果可知,本发明在Oxford Flowers 17数据库、IXMAS数据库、Animals with Attributes数据库、雷达辐射源数据库选取不同训练样本数量的情况下均取得最优结果,由此得到的结论:本发明在同时考虑视角特征间的互补信息和视角特征内的判别信息后,可以有效提高多视角识别精度。
仿真实验2:采用本发明和现有技术的有监督多模态字典学习SMDL12、无监督多模态字典学习UMDL12、联合动态稀疏表示分类JDSRC、稀疏多模态生物识别SMBR和多视角解析字典模型MVADL对Oxford Flowers 17数据库在选取不同种类数目的视角特征的情况下进行10次仿真实验,将10次仿真实验的平均识别率作为最终多视角识别率。
在Oxford Flowers 17数据库中,随机选取每类花的20个样本的视角特征构成训练样本集,视角特征种类数分别设置为1、2、3、4。
本发明在对Oxford Flowers 17数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=1,控制PX与S相似程度的约束参数α=100,防止W过拟合的约束参数τ=0.001,控制WS与Y+EΘM相似程度的约束参数β=0.1。
图2是本发明和现有技术在Oxford Flowers 17数据库上的多视角识别准确率随视角特征种类数变化的曲线图,其中,横坐标表示视角特征种类数,纵坐标表示识别率,以“正方形”标识的曲线表示本发明的多视角识别率随视角特征种类数变化的变化曲线,以“o”标示的曲线表示SMDL12的多视角识别率随视角特征种类数变化的变化曲线,以“+”标示的曲线表示UMDL12的多视角识别率随视角特征种类数变化的变化曲线,以“五角星”标示的曲线表示MVADL的多视角识别率随视角特征种类数变化的变化曲线,以“六角星”标示的曲线表示SMBR的多视角识别率随视角特征种类数变化的变化曲线。
由图2可以得到如下结论:本发明在不同视角特征种类数的情况下,多视角识别精度均优于现有技术。
以上仿真实验结果表明,采用本发明,能有效提升多视角识别精度。

Claims (6)

1.一种基于字典对的多视角识别方法,其特征在于,包括如下步骤:
(1)获取训练样本集X和待识别样本集Xtest
从多视角特征数据库中随机选取V种视角特征,每种视角特征包含Ntotal个样本数据,每个样本数据的类别数为m,并随机选取每种视角特征的N个样本数据构成训练样本集X,剩余的样本数据构成待识别样本集Xtest,其中,V≥1,Ntotal≥1,m≥1,1≤N<Ntotal,X={X1,X2,···,Xv,···,XV},
Figure FDA0002154178190000011
Xv表示训练样本集中的第v种视角特征,
Figure FDA0002154178190000012
v=1,2,···,V,
Figure FDA0002154178190000013
表示Xv中的第n个样本数据,
Figure FDA0002154178190000014
n=1,2,···,N,dv表示第v种视角特征中样本数据的维度,dv>1,
Figure FDA0002154178190000015
表示待识别样本集中的第v种视角特征,
Figure FDA0002154178190000016
(2)构建训练样本集X的字典对集B:
(2a)对训练样本集X中的每一种视角特征Xv进行奇异值分解,得到Xv的左酉矩阵Uv、特征值矩阵Sv和右酉矩阵Vv,其中,
Figure FDA0002154178190000017
Sv∈Rk×k,Vv∈RN×k,k表示Xv的大于零的特征值的数目,k≥1;
(2b)设置Xv的合成字典为Dv,解析字典为Pv,Dv和Pv构成Xv的字典对Bv,Bv={Dv,Pv},并令
Figure FDA0002154178190000018
令Pv中每一个位置的值均满足均值为0且方差为1的正态分布,再将V种字典对Bv组成训练样本集X的字典对集B,B={B1,B2,···Bv,···,BV},其中,
Figure FDA0002154178190000019
Figure FDA00021541781900000110
表示Dv中的字典原子数目,Uv(1:dv,1)表示Uv中的第一列数据,Sv(1,1)表示Sv中位于(1,1)位置的值,
Figure FDA00021541781900000111
表示Vv中位于第1列前
Figure FDA00021541781900000112
行的数据的转置;
(3)构建对角化约束矩阵集A:
(3a)统计训练样本集X中的每一种视角特征Xv中属于第j类的样本数目nj,以及Xv对应的合成字典Dv中属于第j类的字典原子数目bj
Figure FDA0002154178190000021
(3b)设置Xv的对角化约束矩阵为Av,并令
Figure FDA0002154178190000022
然后将V种视角特征的对角化约束矩阵组合成对角化约束矩阵集A,A={A1,A2,···,Av,···,AV},其中,
Figure FDA0002154178190000023
Figure FDA0002154178190000024
表示每一个位置的值均为1的列向量,
Figure FDA0002154178190000025
Figure FDA0002154178190000026
表示每一位置的值均为1的行向量,
Figure FDA0002154178190000027
Figure FDA0002154178190000028
表示每一个位置的值均为1的矩阵,
Figure FDA0002154178190000029
(4)构建系数嵌入矩阵S、标签矩阵Y和常数矩阵E:
构建每一个位置的值均为0的系数嵌入矩阵S,同时采用one-hot编码方法,并通过训练样本集X中的任意一种视角特征包含的样本数据的类别,构建标签矩阵Y,并通过Y构建常数矩阵E,
Figure FDA00021541781900000210
其中,
Figure FDA00021541781900000211
Y∈Rm×N,E∈Rm×N
Figure FDA00021541781900000212
E(i,j)表示E中位于(i,j)位置的值,Y(i,j)表示Y中位于(i,j)位置的值,1≤i≤m,1≤j≤N;
(5)构建非负矩阵M和投影矩阵W:
构建每一个位置的值均为零的非负矩阵M,同时构建投影矩阵W,其中,M∈Rm×N
Figure FDA00021541781900000213
(6)构建基于字典对的多视角识别模型:
Figure FDA00021541781900000214
Figure FDA00021541781900000215
其中,
Figure FDA00021541781900000216
表示Xv-DvPvXv的Frobenius范数,PvXvΘAv表示PvXv与Av对应位置的元素值相乘,
Figure FDA00021541781900000217
表示PvXvΘAv的Frobenius范数,
Figure FDA00021541781900000218
表示PX-S的Frobenius范数,PX=[P1X1;P2X2;···;PvXv;···;PVXV],
Figure FDA00021541781900000219
Figure FDA0002154178190000031
表示WS-(Y+EΘM)的Frobenius范数,EΘM表示E与M对应位置的元素相乘,
Figure FDA0002154178190000032
表示W的Frobenius范数,
Figure FDA0002154178190000033
表示Dv中的第t列数据,
Figure FDA0002154178190000034
Figure FDA0002154178190000035
Figure FDA0002154178190000036
Figure FDA00021541781900000327
范数,表示矩阵中所有元素平方的和,
Figure FDA0002154178190000037
表示
Figure FDA0002154178190000038
Figure FDA00021541781900000328
范数结果应当小于等于1,M≥0表示M中每一个位置的元素是非负的,λ表示对角化结构约束参数,α表示控制PX与S相似程度的约束参数,β表示控制WS与Y+EΘM相似程度的约束参数,τ表示防止W过拟合的约束参数;
(7)对基于字典对的多视角识别模型进行训练:
(7a)设置迭代次数为Tnum,最大迭代次数为Tmax,第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果为
Figure FDA0002154178190000039
第Tnum次迭代后第v种视角特征Xv的合成字典Dv的更新结果为
Figure FDA00021541781900000310
第Tnum次迭代后投影矩阵W的更新结果为
Figure FDA00021541781900000311
第Tnum次迭代后非负矩阵M的更新结果为
Figure FDA00021541781900000312
第Tnum次迭代后非负矩阵S的更新结果为
Figure FDA00021541781900000313
并令Tnum=0,
Figure FDA00021541781900000314
(7b)采用最优方向法,并通过标签矩阵Y、常数矩阵E、V种视角特征Xv以及每种视角特征Xv的解析字典
Figure FDA00021541781900000315
投影矩阵
Figure FDA00021541781900000316
和非负矩阵
Figure FDA00021541781900000317
对系数嵌入矩阵S进行更新,得到更新后的系数嵌入矩阵
Figure FDA00021541781900000318
(7c)采用最优方向法,并通过第v种视角特征Xv和Xv的解析字典
Figure FDA00021541781900000319
对Xv的合成字典Dv进行更新,得到更新后的合成字典
Figure FDA00021541781900000320
(7d)采用最优方向法,并通过第v种视角特征Xv、Xv的对角化约束矩阵Av
Figure FDA00021541781900000321
Figure FDA00021541781900000322
对Xv的解析字典Pv进行更新,得到更新后的解析字典
Figure FDA00021541781900000323
(7e)采用最优方向法,并通过标签矩阵Y、常数矩阵E、
Figure FDA00021541781900000324
Figure FDA00021541781900000325
对投影矩阵W进行更新,得到更新后的投影矩阵
Figure FDA00021541781900000326
(7f)采用最优方向法,并通过标签矩阵Y、常数矩阵E、
Figure FDA0002154178190000041
Figure FDA0002154178190000042
对非负矩阵M进行更新,得到更新后的非负矩阵
Figure FDA0002154178190000043
(7g)判断Tnum=Tmax是否成立,若是,计算训练样本集的投影变换矩阵C,否则,令Tnum=Tnum+1,并执行步骤(7b),其中,C的计算公式为:
C=W[P1X1;P2X2;···;PvXv;···;PVXV]
其中,
Figure FDA0002154178190000044
C∈Rm×N
Figure FDA0002154178190000045
表示最后一次迭代投影矩阵W更新的结果,
Figure FDA0002154178190000046
表示最后一次迭代后训练样本集中第v种视角特征Xv的解析字典Pv的更新结果;
(8)对待识别样本集Xtest中的样本数据进行分类:
计算待识别样本集Xtest的投影变换矩阵Ctest,并采用最邻近分类方法,以C为匹配模板,确定Ctest中每一列数据的类别,并将该结果作为待识别样本集Xtest中样本数据的分类结果,其中,Ctest的计算公式为:
Figure FDA0002154178190000047
其中,
Figure FDA0002154178190000048
Figure FDA0002154178190000049
2.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7b)中所述的采用最优方向法,并通过标签矩阵Y、常数矩阵E、V种视角特征Xv以及每种视角特征Xv的解析字典
Figure FDA00021541781900000410
投影矩阵
Figure FDA00021541781900000411
非负矩阵
Figure FDA00021541781900000412
对系数嵌入矩阵进行更新,得到更新后的系数嵌入矩阵
Figure FDA00021541781900000413
更新公式为:
Figure FDA00021541781900000414
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,
Figure FDA00021541781900000415
表示第Tnum次迭代后投影矩阵W的更新结果,
Figure FDA0002154178190000051
表示第Tnum次迭代后非负矩阵M的更新结果,
Figure FDA0002154178190000052
表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,
Figure FDA0002154178190000053
表示
Figure FDA0002154178190000054
的转置,
Figure FDA0002154178190000055
表示
Figure FDA0002154178190000056
的逆矩阵,
Figure FDA0002154178190000057
表示E与
Figure FDA0002154178190000058
对应位置的元素相乘,
Figure FDA0002154178190000059
I∈RN×N,N表示Xv中的样本数目,α表示控制
Figure FDA00021541781900000510
Figure FDA00021541781900000511
相似程度的约束参数,β表示控制
Figure FDA00021541781900000512
Figure FDA00021541781900000513
相似程度的约束参数。
3.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7c)中所述的采用最优方向法,并通过第v种视角特征Xv,Xv的解析字典
Figure FDA00021541781900000514
对Xv的合成字典进行更新,得到更新后的合成字典
Figure FDA00021541781900000515
更新公式为:
Figure FDA00021541781900000516
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,
Figure FDA00021541781900000517
表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,
Figure FDA00021541781900000518
表示
Figure FDA00021541781900000519
的转置,
Figure FDA00021541781900000520
表示
Figure FDA00021541781900000521
的逆矩阵,γ表示扰动参数,其大小为0.0001,I1为单位矩阵,
Figure FDA00021541781900000522
Figure FDA00021541781900000523
表示
Figure FDA00021541781900000524
中的字典原子数目。
4.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7d)中所述的采用最优方向法,并通过第v种视角特征Xv,Xv的对角化约束矩阵Av
Figure FDA00021541781900000525
Figure FDA00021541781900000526
对Xv的解析字典进行更新,得到更新后的解析字典
Figure FDA00021541781900000527
更新公式为:
Figure FDA00021541781900000528
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,
Figure FDA0002154178190000061
表示Xv的转置,
Figure FDA0002154178190000062
表示第Tnum+1次迭代后第v种视角特征Xv的合成字典Dv的更新结果,
Figure FDA0002154178190000063
表示
Figure FDA0002154178190000064
的转置,
Figure FDA0002154178190000065
Figure FDA0002154178190000066
表示
Figure FDA0002154178190000067
与Av对应位置的元素相乘,Av表示第v种视角特征Xv的对角化矩阵,
Figure FDA0002154178190000068
表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,
Figure FDA0002154178190000069
Figure FDA00021541781900000610
表示第Tnum+1次迭代后非负矩阵S的更新结果,
Figure FDA00021541781900000611
表示取
Figure FDA00021541781900000612
的第
Figure FDA00021541781900000613
行到第
Figure FDA00021541781900000614
行的数据,
Figure FDA00021541781900000615
表示
Figure FDA00021541781900000616
中的字典原子数目,
Figure FDA00021541781900000639
nS表示
Figure FDA00021541781900000617
的行数,I2为单位矩阵,
Figure FDA00021541781900000618
I3为单位矩阵,
Figure FDA00021541781900000619
dv表示第v种视角特征Xv的维度,
Figure FDA00021541781900000620
表示
Figure FDA00021541781900000621
的逆矩阵,
Figure FDA00021541781900000622
表示
Figure FDA00021541781900000623
的逆矩阵,λ表示对角化结构约束参数,α表示控制
Figure FDA00021541781900000624
Figure FDA00021541781900000625
相似程度的约束参数,
Figure FDA00021541781900000626
γ表示扰动参数,其大小为0.0001。
5.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7e)中所述的采用最优方向法,并通过标签矩阵Y,常数矩阵E,
Figure FDA00021541781900000627
Figure FDA00021541781900000628
对投影矩阵进行更新,得到更新后的投影矩阵
Figure FDA00021541781900000629
更新公式为:
Figure FDA00021541781900000630
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,
Figure FDA00021541781900000631
表示第Tnum次迭代后非负矩阵M的更新结果,
Figure FDA00021541781900000632
表示E与
Figure FDA00021541781900000633
对应位置的元素相乘,
Figure FDA00021541781900000634
表示第Tnum+1次迭代后非负矩阵S的更新结果,
Figure FDA00021541781900000635
表示
Figure FDA00021541781900000636
的转置,
Figure FDA00021541781900000637
表示
Figure FDA00021541781900000638
的逆矩阵,I4表示单位矩阵,
Figure FDA0002154178190000071
nS表示
Figure FDA0002154178190000072
的行数,β表示控制
Figure FDA0002154178190000073
Figure FDA0002154178190000074
相似程度的约束参数,τ表示防止
Figure FDA0002154178190000075
过拟合的约束参数。
6.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7f)中所述的采用最优方向法,并通过标签矩阵Y,常数矩阵E,
Figure FDA0002154178190000076
Figure FDA0002154178190000077
对非负矩阵进行更新,得到更新后的非负矩阵
Figure FDA0002154178190000078
更新公式为:
Figure FDA0002154178190000079
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,
Figure FDA00021541781900000710
表示第Tnum+1次迭代后投影矩阵W的更新结果,
Figure FDA00021541781900000711
表示第Tnum+1次迭代后非负矩阵S的更新结果,M1表示所有元素均为零的矩阵,M1∈Rm×N,m和N分别表示训练样本集X中的任意一种视角特征包含的样本数据的类别和样本数据的个数,
Figure FDA00021541781900000712
表示
Figure FDA00021541781900000713
与E对应位置的元素相乘,
Figure FDA00021541781900000714
表示令
Figure FDA00021541781900000715
与E对应位置的元素相乘的结果大于等于0。
CN201910712287.3A 2019-08-02 2019-08-02 基于字典对的多视角识别方法 Active CN110533078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910712287.3A CN110533078B (zh) 2019-08-02 2019-08-02 基于字典对的多视角识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910712287.3A CN110533078B (zh) 2019-08-02 2019-08-02 基于字典对的多视角识别方法

Publications (2)

Publication Number Publication Date
CN110533078A CN110533078A (zh) 2019-12-03
CN110533078B true CN110533078B (zh) 2022-03-22

Family

ID=68661216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910712287.3A Active CN110533078B (zh) 2019-08-02 2019-08-02 基于字典对的多视角识别方法

Country Status (1)

Country Link
CN (1) CN110533078B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861688B (zh) * 2022-11-22 2023-08-11 首都医科大学宣武医院 一种药品包装和容器外形建模识别和计数方法及系统
CN117237748B (zh) * 2023-11-14 2024-02-23 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258577A (ja) * 2004-03-09 2005-09-22 Olympus Corp 文字入力装置、文字入力方法、文字入力プログラム及び記録媒体
CN105224942A (zh) * 2015-07-09 2016-01-06 华南农业大学 一种rgb-d图像分类方法及系统
CN106022351A (zh) * 2016-04-27 2016-10-12 天津中科智能识别产业技术研究院有限公司 一种基于非负字典对学习的鲁棒多视角聚类方法
CN106778807A (zh) * 2016-11-22 2017-05-31 天津大学 基于公共字典对和类依赖字典对的细粒度图像分类方法
CN107423767A (zh) * 2017-08-01 2017-12-01 西安电子科技大学 基于正则化图的多视角识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792712B2 (en) * 2015-06-16 2017-10-17 Misapplied Sciences, Inc. Computational pipeline and architecture for multi-view displays

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258577A (ja) * 2004-03-09 2005-09-22 Olympus Corp 文字入力装置、文字入力方法、文字入力プログラム及び記録媒体
CN105224942A (zh) * 2015-07-09 2016-01-06 华南农业大学 一种rgb-d图像分类方法及系统
CN106022351A (zh) * 2016-04-27 2016-10-12 天津中科智能识别产业技术研究院有限公司 一种基于非负字典对学习的鲁棒多视角聚类方法
CN106778807A (zh) * 2016-11-22 2017-05-31 天津大学 基于公共字典对和类依赖字典对的细粒度图像分类方法
CN107423767A (zh) * 2017-08-01 2017-12-01 西安电子科技大学 基于正则化图的多视角识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Multi-View Analysis Dictionary Learning for Image Classification;Qianyu Wang 等;《IEEE Access》;IEEE;20180110;第6卷;20174-20183 *

Also Published As

Publication number Publication date
CN110533078A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
Bach et al. On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation
Gao et al. Discriminant saliency, the detection of suspicious coincidences, and applications to visual recognition
Zhang et al. Detecting densely distributed graph patterns for fine-grained image categorization
CN107563442B (zh) 基于稀疏低秩正则图张量化嵌入的高光谱图像分类方法
CN106446933B (zh) 基于上下文信息的多目标检测方法
CN110659665B (zh) 一种异维特征的模型构建方法及图像识别方法、装置
Lee et al. EMMIX-uskew: an R package for fitting mixtures of multivariate skew t-distributions via the EM algorithm
CN103440512A (zh) 一种基于张量局部保持投影的大脑认知状态的识别方法
CN103345744B (zh) 一种基于多图像的人体目标部件自动解析方法
CN109993214B (zh) 基于拉普拉斯正则化和秩约束的多视图聚类方法
CN106971197A (zh) 基于差异性与一致性约束的多视数据的子空间聚类方法
CN101551855A (zh) 自适应核匹配追踪辅助诊断系统及其辅助诊断方法
CN110533078B (zh) 基于字典对的多视角识别方法
CN111062928A (zh) 一种医学ct图像中病变的识别方法
CN106250918B (zh) 一种基于改进的推土距离的混合高斯模型匹配方法
CN110135364A (zh) 一种地物识别方法及装置
US11804029B2 (en) Hierarchical constraint (HC)-based method and system for classifying fine-grained graptolite images
Su et al. Detection, classification and estimation of individual shapes in 2D and 3D point clouds
Wang et al. A novel sparse boosting method for crater detection in the high resolution planetary image
CN103456017B (zh) 基于种子集的半监督权重核模糊聚类的图像分割方法
Qi et al. Visual stylometry using background selection and wavelet-HMT-based Fisher information distances for attribution and dating of impressionist paintings
CN114332136B (zh) 人脸属性数据标注方法、计算机设备及存储介质
CN105894035B (zh) 基于sar-sift和dbn的sar图像分类方法
Narmatha et al. Skin cancer detection from dermoscopic images using Deep Siamese domain adaptation convolutional Neural Network optimized with Honey Badger Algorithm
CN110070485A (zh) 一种高光谱图像降维方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant