CN110533078A - 基于字典对的多视角识别方法 - Google Patents

基于字典对的多视角识别方法 Download PDF

Info

Publication number
CN110533078A
CN110533078A CN201910712287.3A CN201910712287A CN110533078A CN 110533078 A CN110533078 A CN 110533078A CN 201910712287 A CN201910712287 A CN 201910712287A CN 110533078 A CN110533078 A CN 110533078A
Authority
CN
China
Prior art keywords
matrix
indicate
dictionary
visual angle
num
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910712287.3A
Other languages
English (en)
Other versions
CN110533078B (zh
Inventor
王磊
张帆
李丹萍
裴庆祺
马立川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Electronic Science and Technology
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201910712287.3A priority Critical patent/CN110533078B/zh
Publication of CN110533078A publication Critical patent/CN110533078A/zh
Application granted granted Critical
Publication of CN110533078B publication Critical patent/CN110533078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于字典对的多视角识别方法,旨在同时考虑视角特征间的互补信息和视角特征内的判别信息,提高多视角识别精度。实现步骤:获取训练样本集和待识别样本集;构建训练样本集的字典对集;构建对角化约束矩阵集;构建系数嵌入矩阵、标签矩阵和常数矩阵;构建非负矩阵和投影矩阵;构建基于字典对的多视角识别模型;对基于字典对的多视角识别模型进行训练;对待识别样本集中的样本数据进行分类。本发明同时考虑了视角特征间的互补信息和视角特征内的判别信息,进而提高多视角识别的准确度,可用于动作识别、人脸识别和文本识别。

Description

基于字典对的多视角识别方法
技术领域
本发明属于图像处理技术领域,涉及一种多视角识别方法,具体涉及一种基于字典对的多视角识别方法,可用于动作识别、人脸识别和文本识别。
背景技术
随着信息技术以及传感器技术的发展,通过不同的传感器可以获取到一个样本的多种视角特征。大量研究表明,单一视角特征所拥有的样本信息不如多视角特征拥有的样本信息完整,利用视角特征间的互补特性,并通过深入挖掘每种视角特征内的判别信息,可以更加准确对样本的类别进行判别。多视角识别的主要任务是根据提取的同一待识别目标样本的不同视角特征,将其和数据库中的样本进行匹配,然后判别待识别目标样本的类别。
目前,多视角识别主要分为基于子空间学习的多视角识别方法、基于协同训练的多视角识别方法、基于核学习的多视角识别方法和基于特征融合的多视角识别方法。其中基于特征融合的多视角识别方法是为不同种类的视角特征学习一种高效的融合方式,然后根据所学的融合方式分别将训练样本和待识别样本的视角特征进行融合,并以训练样本中视角特征融合的结果为匹配模板,对待识别样本中视角特征的融合结果进行类别判别,并将判别结果作为待识别样本的类别判别结果。特征融合需要高效的特征学习,字典学习作为特征学习的一种表现形式,因其优越的学习结果而被应用于特征融合中。然而,影响多视角识别精度的关键点:视角间的互补信息和视角内的判别信息,依然没有得到全面考虑。稀疏多模态生物识别SMBR和联合动态稀疏表示分类JDSRC直接用多视角特征构建字典,充分考虑了视角间的互补信息,但是,以全部视角特征作为字典会自动的弱化视角特征内的判别信息,从而导致多视角识别精度受到抑制。有监督多模态字典学习SMDL12和无监督多模态字典学习UMDL12为每类视角特征学习一种字典,并通过样本数据的标签进行限制,使得视角特征内的判别信息得到利用,但是,因为每一种字典只包含对应视角特征的判别信息,所以视角特征间的互补信息没有被充分考虑,从而导致多视角识别精度受到抑制。
Q Wang,Y Guo,J Wang,X Luo,X Kong在其发表的论文“Multi-View AnalysisDictionary Learning for Image Classification”(IEEE Access),6,20174-20183(2018)中,公开了一种基于多视角解析字典模型MVADL的图像分类方法。该方法首先构建一个投影矩阵、标签矩阵,同时为训练样本集中的每种视角特征构建解析字典和表示系数,然后将每种视角特征的表示系数按行放置,利用多视角解析字典模型对投影矩阵、每种视角特征的解析字典和表示系数进行更新,最后,利用投影矩阵以及每种视角特征的解析字典的最终更新结果对待识别样本集中的样本进行识别分类。该方法根据多视角特征拥有相同的标签这一特性,利用投影矩阵将所有视角特征的表示系数进行投影,充分考虑了视角特征间的互补信息,但是,该方法并没有考虑到每种视角特征的表示系数应当具有的判别特性,使得每种视角特征内部的判别信息没有得到有效利用,从而影响了对待识别样本集中的样本的识别精度。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种基于字典对的多视角识别方法,旨在同时考虑视角特征间的互补信息和视角特征内的判别信息,提高多视角识别精度。
其主要的技术思路是:获取训练样本集和待识别样本集;构建训练样本集的字典对集;构建对角化约束矩阵集;构建系数嵌入矩阵、标签矩阵和常数矩阵;构建非负矩阵和投影矩阵;构建基于字典对的多视角识别模型;对基于字典对的多视角识别模型进行训练;对待识别样本集中的样本数据进行分类。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集X和待识别样本集Xtest
从多视角特征数据库中随机选取V种视角特征,每种视角特征包含Ntotal个样本数据,每个样本数据的类别数为m,并随机选取每种视角特征的N个样本数据构成训练样本集X,剩余的样本数据构成待识别样本集Xtest,其中,V≥1,Ntotal≥1,m≥1,1≤N<Ntotal,X={X1,X2,···,Xv,···,XV},
Xv表示训练样本集中的第v种视角特征,v=1,2,···,V,表示Xv中的第n个样本数据,n=1,2,···,N,dv表示第v种视角特征中样本数据的维度,dv>1,表示待识别样本集中的第v种视角特征,
(2)构建训练样本集X的字典对集B:
(2a)对训练样本集X中的每一种视角特征Xv进行奇异值分解,得到Xv的左酉矩阵Uv、特征值矩阵Sv和右酉矩阵Vv,其中,Sv∈Rk×k,Vv∈RN×k,k表示Xv的大于零的特征值的数目,k≥1;
(2b)设置Xv的合成字典为Dv,解析字典为Pv,Dv和Pv构成Xv的字典对Bv,Bv={Dv,Pv},并令令Pv中每一个位置的值均满足均值为0且方差为1的正态分布,再将V种字典对Bv组成训练样本集X的字典对集B,B={B1,B2,···Bv,···,BV},其中, 表示Dv中的字典原子数目,Uv(1:dv,1)表示Uv中的第一列数据,Sv(1,1)表示Sv中位于(1,1)位置的值,表示Vv中位于第1列前行的数据的转置;
(3)构建对角化约束矩阵集A:
(3a)统计训练样本集X中的每一种视角特征Xv中属于第j类的样本数目nj,以及Xv对应的合成字典Dv中属于第j类的字典原子数目bj
(3b)设置Xv的对角化约束矩阵为Av,并令然后将V种视角特征的对角化约束矩阵组合成对角化约束矩阵集A,A={A1,A2,···,Av,···,AV},其中, 表示每一个位置的值均为1的列向量, 表示每一位置的值均为1的行向量, 表示每一个位置的值均为1的矩阵,
(4)构建系数嵌入矩阵S、标签矩阵Y和常数矩阵E:
构建每一个位置的值均为0的系数嵌入矩阵S,同时采用one-hot编码方法,并通过训练样本集X中的任意一种视角特征包含的样本数据的类别,构建标签矩阵Y,并通过Y构建常数矩阵E,其中,Y∈Rm×N,E∈Rm×NE(i,j)表示E中位于(i,j)位置的值,Y(i,j)表示Y中位于(i,j)位置的值,1≤i≤m,1≤j≤N;
(5)构建非负矩阵M和投影矩阵W:
构建每一个位置的值均为零的非负矩阵M,同时构建投影矩阵W,其中,M∈Rm×N
(6)构建基于字典对的多视角识别模型:
其中,表示Xv-DvPvXv的Frobenius范数,PvXvΘAv表示PvXv与Av对应位置的元素值相乘,表示PvXvΘAv的Frobenius范数,表示PX-S的Frobenius范数,PX=[P1X1;P2X2;···;PvXv;···;PVXV], 表示WS-(Y+EΘM)的Frobenius范数,EΘM表示E与M对应位置的元素相乘,表示W的Frobenius范数,表示Dv中的第t列数据, 的l2范数,表示矩阵中所有元素平方的和,表示的l2范数结果应当小于等于1,M≥0表示M中每一个位置的元素是非负的,λ表示对角化结构约束参数,α表示控制PX与S相似程度的约束参数,β表示控制WS与Y+EΘM相似程度的约束参数,τ表示防止W过拟合的约束参数;
(7)对基于字典对的多视角识别模型进行训练:
(7a)设置迭代次数为Tnum,最大迭代次数为Tmax,第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果为第Tnum次迭代后第v种视角特征Xv的合成字典Dv的更新结果为第Tnum次迭代后投影矩阵W的更新结果为第Tnum次迭代后非负矩阵M的更新结果为第Tnum次迭代后非负矩阵S的更新结果为并令Tnum=0,
(7b)采用最优方向法,并通过标签矩阵Y、常数矩阵E、V种视角特征Xv以及每种视角特征Xv的解析字典投影矩阵和非负矩阵对系数嵌入矩阵S进行更新,得到更新后的系数嵌入矩阵
(7c)采用最优方向法,并通过第v种视角特征Xv和Xv的解析字典对Xv的合成字典Dv进行更新,得到更新后的合成字典
(7d)采用最优方向法,并通过第v种视角特征Xv、Xv的对角化约束矩阵Av对Xv的解析字典Pv进行更新,得到更新后的解析字典
(7e)采用最优方向法,并通过标签矩阵Y、常数矩阵E、对投影矩阵W进行更新,得到更新后的投影矩阵
(7f)采用最优方向法,并通过标签矩阵Y、常数矩阵E、对非负矩阵M进行更新,得到更新后的非负矩阵
(7g)判断Tnum=Tmax是否成立,若是,计算训练样本集的投影变换矩阵C,否则,令Tnum=Tnum+1,并执行步骤(7b),其中,C的计算公式为:
C=W[P1X1;P2X2;···;PvXv;···;PVXV]
其中,C∈Rm×N表示最后一次迭代投影矩阵W更新的结果,表示最后一次迭代后训练样本集中第v种视角特征Xv的解析字典Pv的更新结果;
(8)对待识别样本集Xtest中的样本数据进行分类:
计算待识别样本集Xtest的投影变换矩阵Ctest,并采用最邻近分类方法,以C为匹配模板,确定Ctest中每一列数据的类别,并将该结果作为待识别样本集Xtest中样本数据的分类结果,其中,Ctest的计算公式为:
其中,
本发明与现有技术相比,具有以下优点:
本发明由于在构建基于字典对的多视角识别模型的过程中,通过对每种视角特征的表示系数PvXv进行了对角化结构约束,有效的利用了每种视角特征内部的判别信息,同时,通过将系数嵌入矩阵投影到多视角特征共享的标签矩阵中,考虑到了视角特征间的互补信息,从而克服了现有技术中因未能全面考虑多视角特征间的互补信息和视角特征内的判别信息而导致识别精度受到抑制的缺陷,有效提高了多视角识别的精度。
附图说明
图1是本发明的实现流程图;
图2是本发明和现有技术在Oxford Flowers 17数据库上的多视角识别准确率随视角特征种类数变化的曲线图。
具体实施步骤
下面结合附图和具体实施例,对本发明作进一步的详细描述。
参照图1,本发明包括以下步骤:
步骤1)获取训练样本集X和待识别样本集Xtest
从多视角特征数据库中随机选取V种视角特征,每种视角特征包含Ntotal个样本数据,每个样本数据的类别数为m,并随机选取每种视角特征的N个样本数据构成训练样本集X,剩余的样本数据构成待识别样本集Xtest,其中,V≥1,Ntotal≥1,m≥1,1≤N<Ntotal,X={X1,X2,···,Xv,···,XV},
Xv表示训练样本集中的第v种视角特征,v=1,2,···,V,表示Xv中的第n个样本数据,n=1,2,···,N,dv表示第v种视角特征中样本数据的维度,dv>1,表示待识别样本集中的第v种视角特征,
步骤2)构建训练样本集X的字典对集B:
步骤2a)对训练样本集X中的每一种视角特征Xv进行奇异值分解,得到Xv的左酉矩阵Uv、特征值矩阵Sv和右酉矩阵Vv,其中,Sv∈Rk×k,Vv∈RN×k,k表示Xv的大于零的特征值的数目,k≥1;
步骤2b)设置Xv的合成字典为Dv,解析字典为Pv,Dv和Pv构成Xv的字典对Bv,Bv={Dv,Pv},并令令Pv中每一个位置的值均满足均值为0且方差为1的正态分布,再将V种字典对Bv组成训练样本集X的字典对集B,B={B1,B2,···Bv,···,BV},其中, 表示Dv中的字典原子数目,Uv(1:dv,1)表示Uv中的第一列数据,Sv(1,1)表示Sv中位于(1,1)位置的值,表示Vv中位于第1列前行的数据的转置;
步骤3)构建对角化约束矩阵集A:
步骤3a)统计训练样本集X中的每一种视角特征Xv中属于第j类的样本数目nj,以及Xv对应的合成字典Dv中属于第j类的字典原子数目bj
步骤3b)设置Xv的对角化约束矩阵为Av,并令然后将V种视角特征的对角化约束矩阵组合成对角化约束矩阵集A,A={A1,A2,···,Av,···,AV},其中, 表示每一个位置的值均为1的列向量, 表示每一位置的值均为1的行向量, 表示每一个位置的值均为1的矩阵,
步骤4)构建系数嵌入矩阵S、标签矩阵Y和常数矩阵E:
构建每一个位置的值均为0的系数嵌入矩阵S,同时采用one-hot编码方法,并通过训练样本集X中的任意一种视角特征包含的样本数据的类别,构建标签矩阵Y,并通过Y构建常数矩阵E,其中,Y∈Rm×N,E∈Rm×NE(i,j)表示E中位于(i,j)位置的值,Y(i,j)表示Y中位于(i,j)位置的值,1≤i≤m,1≤j≤N;
步骤5)构建非负矩阵M和投影矩阵W:
构建每一个位置的值均为零的非负矩阵M,同时构建投影矩阵W,其中,M∈Rm×N
步骤6)构建基于字典对的多视角识别模型:
其中,表示Xv-DvPvXv的Frobenius范数,PvXvΘAv表示PvXv与Av对应位置的元素值相乘,表示PvXvΘAv的Frobenius范数,表示PX-S的Frobenius范数,PX=[P1X1;P2X2;···;PvXv;···;PVXV], 表示WS-(Y+EΘM)的Frobenius范数,EΘM表示E与M对应位置的元素相乘,表示W的Frobenius范数,表示Dv中的第t列数据, 的l2范数,表示矩阵中所有元素平方的和,表示的l2范数结果应当小于等于1,M≥0表示M中每一个位置的元素是非负的,λ表示对角化结构约束参数,α表示控制PX与S相似程度的约束参数,β表示控制WS与Y+EΘM相似程度的约束参数,τ表示防止W过拟合的约束参数;
步骤7)对基于字典对的多视角识别模型进行训练:
步骤7a)设置迭代次数为Tnum,最大迭代次数为Tmax,第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果为第Tnum次迭代后第v种视角特征Xv的合成字典Dv的更新结果为第Tnum次迭代后投影矩阵W的更新结果为第Tnum次迭代后非负矩阵M的更新结果为第Tnum次迭代后非负矩阵S的更新结果为并令Tnum=0,
步骤7b)采用最优方向法,并通过标签矩阵Y、常数矩阵E、V种视角特征Xv以及每种视角特征Xv的解析字典投影矩阵和非负矩阵对系数嵌入矩阵S进行更新,得到更新后的系数嵌入矩阵更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,表示第Tnum次迭代后投影矩阵W的更新结果,表示第Tnum次迭代后非负矩阵M的更新结果,表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,表示的转置,表示的逆矩阵,表示E与对应位置的元素相乘,I∈RN×N,N表示Xv中的样本数目,α表示控制相似程度的约束参数,β表示控制相似程度的约束参数。
步骤7c)采用最优方向法,并通过第v种视角特征Xv和Xv的解析字典对Xv的合成字典Dv进行更新,得到更新后的合成字典更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,表示的转置,表示的逆矩阵,γ表示扰动参数,其大小为0.0001,I1为单位矩阵, 表示中的字典原子数目。
步骤7d)采用最优方向法,并通过第v种视角特征Xv、Xv的对角化约束矩阵Av对Xv的解析字典Pv进行更新,得到更新后的解析字典更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,表示Xv的转置,表示第Tnum+1次迭代后第v种视角特征Xv的合成字典Dv的更新结果,表示的转置,表示与Av对应位置的元素相乘,Av表示第v种视角特征Xv的对角化矩阵,表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果, 表示第Tnum+1次迭代后非负矩阵S的更新结果,表示取的第行到第行的数据,表示中的字典原子数目,nS表示的行数,I2为单位矩阵,I3为单位矩阵,dv表示第v种视角特征Xv的维度,表示的逆矩阵,表示的逆矩阵,λ表示对角化结构约束参数,α表示控制相似程度的约束参数,γ表示扰动参数,其大小为0.0001。
步骤7e)采用最优方向法,并通过标签矩阵Y、常数矩阵E、对投影矩阵W进行更新,得到更新后的投影矩阵更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,表示第Tnum次迭代后非负矩阵M的更新结果,表示E与对应位置的元素相乘,表示第Tnum+1次迭代后非负矩阵S的更新结果,表示的转置,表示的逆矩阵,I4表示单位矩阵,nS表示的行数,β表示控制相似程度的约束参数,τ表示防止过拟合的约束参数。
步骤7f)采用最优方向法,并通过标签矩阵Y、常数矩阵E、对非负矩阵M进行更新,得到更新后的非负矩阵更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,表示第Tnum+1次迭代后投影矩阵W的更新结果,表示第Tnum+1次迭代后非负矩阵S的更新结果,M1表示所有元素均为零的矩阵,M1∈Rm×N,m和N分别表示训练样本集X中的任意一种视角特征包含的样本数据的类别和样本数据的个数,表示与E对应位置的元素相乘,表示令与E对应位置的元素相乘的结果大于等于0。
步骤7g)判断Tnum=Tmax是否成立,若是,计算训练样本集的投影变换矩阵C,否则,令Tnum=Tnum+1,并执行步骤7b),其中,C的计算公式为:
C=W[P1X1;P2X2;···;PvXv;···;PVXV]
其中,C∈Rm×N表示最后一次迭代投影矩阵W更新的结果,表示最后一次迭代后训练样本集中第v种视角特征Xv的解析字典Pv的更新结果;
步骤8)对待识别样本集Xtest中的样本数据进行分类:
计算待识别样本集Xtest的投影变换矩阵Ctest,并采用最邻近分类方法,以C为匹配模板,确定Ctest中每一列数据的类别,并将该结果作为待识别样本集Xtest中样本数据的分类结果,其中,Ctest的计算公式为:
其中,
以下结合仿真实验,对本发明的技术效果作进一步详细的分析。
1.仿真实验条件:
本发明的仿真实验是在Hp Compaq 6280 Pro MT PC、内存4GB的硬件环境和MATLAB 2014a软件环境下进行的。
测试对象为Oxford Flowers 17数据库、IXMAS数据库、Animals with Attributes数据库和雷达辐射源数据库。
所述Oxford Flowers 17数据库是从牛津大学Visual Geometry Group的牛津花卉数据库中获取,Oxford Flowers 17数据库含有17类花的1360张彩色图片,每类花有80张图片,每张图片有7种视角特征距离矩阵,分别为1360维的HSV特征距离矩阵、1360维的HOG特征距离矩阵、1360维的正面区域SIFT特征距离矩阵、1360维的图像边界SIFT特征矩阵、1360维的颜色距离矩阵和1360维的形状距离矩阵和1360维的纹理距离矩阵。本发明选用HSV特征矩阵、HOG特征矩阵、正面区域SIFT特征距离矩阵和图像边界SIFT特征矩阵。
所述IXMAS数据库是从洛桑联邦理工学院运动数据库中获取,IXMAS数据库包含了13类日常动作的1950幅图片,每类动作有150张图片,每张图片有5种不同角度的视角特征。本发明选用IXMAS数据库中前11类动作的5种视角特征。
所述Animals with Attributes数据库是从图宾根大学的动物分类数据库中获取,Animals with Attributes数据库包含了50类动物的37322张图片,每张图片含有6种视角特征,分别为2688维的颜色直方图特征、2000维的局部自相似性特征、2000维的金字塔HOG特征、2000维的SIFT特征、2000维的颜色SIFT特征和2000维的SURF特征。本发明选用局部自相似性特征、SIFT特征、SURF特征和颜色直方图特征。
所述雷达辐射源数据库由西安电子科技大学智能感知与信息处理课题组提供,该数据库包含了30类雷达辐射源的2400个样本,每个样本有5种视角特征,分别为449维的模糊函数零切片特征、481维的包络特征、225维的循环谱零切片特征、512维的welch功率谱特征和512维的频谱特征。本发明选用512维welch功率谱特征和512维的频谱特征。
2.仿真实验内容:
仿真实验1:采用本发明和现有技术的有监督多模态字典学习SMDL12、无监督多模态字典学习UMDL12、联合动态稀疏表示分类JDSRC、稀疏多模态生物识别SMBR和多视角解析字典模型MVADL分别对Caltech101-20数据库、Oxford Flowers 17数据库、IXMAS数据库、Animals with Attributes数据库和雷达辐射源数据库在不同训练样本数量的情况下进行10次仿真实验,将10次仿真实验的平均识别率作为最终多视角识别率。
在Oxford Flowers 17数据库中,分别随机选取每类花的20个,30个,40个样本的视角特征。在IXMAS数据库中,分别随机选取每类动作的4个,7个,10个样本的视角特征。在Animals with Attributes数据库中,分别随机选取每类动物的25个,50个,100个样本的视角特征。在雷达辐射源数据库中,分别随机选取每类雷达辐射源信号的5个,10个,15个样本的视角特征。
本发明在对Oxford Flowers 17数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=1,控制PX与S相似程度的约束参数α=100,防止W过拟合的约束参数τ=0.001,控制WS与Y+EΘM相似程度的约束参数β=0.1。
本发明在对IXMAS数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=0.001,控制PX与S相似程度的约束参数α=0.001,防止W过拟合的约束参数τ=1,控制WS与Y+EΘM相似程度的约束参数β=0.01。
本发明在对Animals with Attributes数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=0.1,控制PX与S相似程度的约束参数α=10,防止W过拟合的约束参数τ=0.1,控制WS与Y+EΘM相似程度的约束参数β=0.001。
本发明在对雷达辐射源数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=1,控制PX与S相似程度的参数α=100,防止W过拟合的约束参数τ=0.001,控制WS与Y+EΘM相似程度的约束参数β=0.01。
在上述四个数据库上的多视角识别结果分别如表1、表2、表3和表4所示。
表1.在Oxford Flowers 17数据库上的平均识别率
20number/class 30number/class 40number/class
本发明 88.96±1.29 91.99±0.96 93.54±0.93
MVADL 88.24±1.09 90.79±0.94 91.99±1.09
SMDL<sub>12</sub> 79.67±1.91 84.96±1.42 88.62±0.88
UMDL<sub>12</sub> 82.07±1.22 85.22±1.08 87.28±0.73
SMBR 88.69±0.60 90.79±0.58 93.03±0.61
JDSRC 46.83±1.73 50.18±2.65 54.71±1.72
表2.在IXMAS数据库上的平均识别率
4number/class 7number/class 10number/class
本发明 93.29±1.21 96.80±1.02 97.91±0.79
MVADL 89.34±2.12 94.86±1.35 96.91±1.25
SMDL<sub>12</sub> 92.41±1.07 95.34±1.75 97.27±0.84
UMDL<sub>12</sub> 92.41±1.07 93.91±2.40 95.14±1.24
SMBR 88.60±1.69 94.66±1.72 96.14±0.84
JDSRC 56.33±4.26 56.68±3.05 53.59±2.62
表3.在Animals with Attributes数据库上的平均识别率
表4.在雷达辐射源数据库上的平均识别率
5number/class 10number/class 15number/class
本发明 69.84±1.43 78.60±1.22 82.14±0.59
MVADL 64.52±0.97 75.95±1.99 79.78±1.30
SMDL<sub>12</sub> 60.56±1.02 74.57±0.96 78.23±1.05
UMDL<sub>12</sub> 60.56±1.02 65.89±2.00 68.03±1.01
SMBR 35.55±1.73 48.23±2.11 67.84±1.36
JDSRC 46.01±1.34 53.08±1.57 55.69±1.33
由表1、表2、表3和表4的结果可知,本发明在Oxford Flowers 17数据库、IXMAS数据库、Animals with Attributes数据库、雷达辐射源数据库选取不同训练样本数量的情况下均取得最优结果,由此得到的结论:本发明在同时考虑视角特征间的互补信息和视角特征内的判别信息后,可以有效提高多视角识别精度。
仿真实验2:采用本发明和现有技术的有监督多模态字典学习SMDL12、无监督多模态字典学习UMDL12、联合动态稀疏表示分类JDSRC、稀疏多模态生物识别SMBR和多视角解析字典模型MVADL对Oxford Flowers 17数据库在选取不同种类数目的视角特征的情况下进行10次仿真实验,将10次仿真实验的平均识别率作为最终多视角识别率。
在Oxford Flowers 17数据库中,随机选取每类花的20个样本的视角特征构成训练样本集,视角特征种类数分别设置为1、2、3、4。
本发明在对Oxford Flowers 17数据库的待识别样本进行识别时,参数选择如下:
对角化结构约束参数λ=1,控制PX与S相似程度的约束参数α=100,防止W过拟合的约束参数τ=0.001,控制WS与Y+EΘM相似程度的约束参数β=0.1。
图2是本发明和现有技术在Oxford Flowers 17数据库上的多视角识别准确率随视角特征种类数变化的曲线图,其中,横坐标表示视角特征种类数,纵坐标表示识别率,以“正方形”标识的曲线表示本发明的多视角识别率随视角特征种类数变化的变化曲线,以“o”标示的曲线表示SMDL12的多视角识别率随视角特征种类数变化的变化曲线,以“+”标示的曲线表示UMDL12的多视角识别率随视角特征种类数变化的变化曲线,以“五角星”标示的曲线表示MVADL的多视角识别率随视角特征种类数变化的变化曲线,以“六角星”标示的曲线表示SMBR的多视角识别率随视角特征种类数变化的变化曲线。
由图2可以得到如下结论:本发明在不同视角特征种类数的情况下,多视角识别精度均优于现有技术。
以上仿真实验结果表明,采用本发明,能有效提升多视角识别精度。

Claims (6)

1.一种基于字典对的多视角识别方法,其特征在于,包括如下步骤:
(1)获取训练样本集X和待识别样本集Xtest
从多视角特征数据库中随机选取V种视角特征,每种视角特征包含Ntotal个样本数据,每个样本数据的类别数为m,并随机选取每种视角特征的N个样本数据构成训练样本集X,剩余的样本数据构成待识别样本集Xtest,其中,V≥1,Ntotal≥1,m≥1,1≤N<Ntotal,X={X1,X2,···,Xv,···,XV},Xv表示训练样本集中的第v种视角特征,v=1,2,···,V,表示Xv中的第n个样本数据,n=1,2,···,N,dv表示第v种视角特征中样本数据的维度,dv>1,表示待识别样本集中的第v种视角特征,
(2)构建训练样本集X的字典对集B:
(2a)对训练样本集X中的每一种视角特征Xv进行奇异值分解,得到Xv的左酉矩阵Uv、特征值矩阵Sv和右酉矩阵Vv,其中,Sv∈Rk×k,Vv∈RN×k,k表示Xv的大于零的特征值的数目,k≥1;
(2b)设置Xv的合成字典为Dv,解析字典为Pv,Dv和Pv构成Xv的字典对Bv,Bv={Dv,Pv},并令令Pv中每一个位置的值均满足均值为0且方差为1的正态分布,再将V种字典对Bv组成训练样本集X的字典对集B,B={B1,B2,···Bv,···,BV},其中, 表示Dv中的字典原子数目,Uv(1:dv,1)表示Uv中的第一列数据,Sv(1,1)表示Sv中位于(1,1)位置的值,表示Vv中位于第1列前行的数据的转置;
(3)构建对角化约束矩阵集A:
(3a)统计训练样本集X中的每一种视角特征Xv中属于第j类的样本数目nj,以及Xv对应的合成字典Dv中属于第j类的字典原子数目bj
(3b)设置Xv的对角化约束矩阵为Av,并令然后将V种视角特征的对角化约束矩阵组合成对角化约束矩阵集A,A={A1,A2,···,Av,···,AV},其中, 表示每一个位置的值均为1的列向量, 表示每一位置的值均为1的行向量, 表示每一个位置的值均为1的矩阵,
(4)构建系数嵌入矩阵S、标签矩阵Y和常数矩阵E:
构建每一个位置的值均为0的系数嵌入矩阵S,同时采用one-hot编码方法,并通过训练样本集X中的任意一种视角特征包含的样本数据的类别,构建标签矩阵Y,并通过Y构建常数矩阵E,其中,Y∈Rm×N,E∈Rm×NE(i,j)表示E中位于(i,j)位置的值,Y(i,j)表示Y中位于(i,j)位置的值,1≤i≤m,1≤j≤N;
(5)构建非负矩阵M和投影矩阵W:
构建每一个位置的值均为零的非负矩阵M,同时构建投影矩阵W,其中,M∈Rm×N
(6)构建基于字典对的多视角识别模型:
其中,表示Xv-DvPvXv的Frobenius范数,PvXvΘAv表示PvXv与Av对应位置的元素值相乘,表示PvXvΘAv的Frobenius范数,表示PX-S的Frobenius范数,PX=[P1X1;P2X2;···;PvXv;···;PVXV], 表示WS-(Y+EΘM)的Frobenius范数,EΘM表示E与M对应位置的元素相乘,表示W的Frobenius范数,表示Dv中的第t列数据, 范数,表示矩阵中所有元素平方的和,表示范数结果应当小于等于1,M≥0表示M中每一个位置的元素是非负的,λ表示对角化结构约束参数,α表示控制PX与S相似程度的约束参数,β表示控制WS与Y+EΘM相似程度的约束参数,τ表示防止W过拟合的约束参数;
(7)对基于字典对的多视角识别模型进行训练:
(7a)设置迭代次数为Tnum,最大迭代次数为Tmax,第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果为第Tnum次迭代后第v种视角特征Xv的合成字典Dv的更新结果为第Tnum次迭代后投影矩阵W的更新结果为第Tnum次迭代后非负矩阵M的更新结果为第Tnum次迭代后非负矩阵S的更新结果为并令Tnum=0,
(7b)采用最优方向法,并通过标签矩阵Y、常数矩阵E、V种视角特征Xv以及每种视角特征Xv的解析字典投影矩阵和非负矩阵对系数嵌入矩阵S进行更新,得到更新后的系数嵌入矩阵
(7c)采用最优方向法,并通过第v种视角特征Xv和Xv的解析字典对Xv的合成字典Dv进行更新,得到更新后的合成字典
(7d)采用最优方向法,并通过第v种视角特征Xv、Xv的对角化约束矩阵Av对Xv的解析字典Pv进行更新,得到更新后的解析字典
(7e)采用最优方向法,并通过标签矩阵Y、常数矩阵E、对投影矩阵W进行更新,得到更新后的投影矩阵
(7f)采用最优方向法,并通过标签矩阵Y、常数矩阵E、对非负矩阵M进行更新,得到更新后的非负矩阵
(7g)判断Tnum=Tmax是否成立,若是,计算训练样本集的投影变换矩阵C,否则,令Tnum=Tnum+1,并执行步骤(7b),其中,C的计算公式为:
C=W[P1X1;P2X2;···;PvXv;···;PVXV]
其中,C∈Rm×N表示最后一次迭代投影矩阵W更新的结果,表示最后一次迭代后训练样本集中第v种视角特征Xv的解析字典Pv的更新结果;
(8)对待识别样本集Xtest中的样本数据进行分类:
计算待识别样本集Xtest的投影变换矩阵Ctest,并采用最邻近分类方法,以C为匹配模板,确定Ctest中每一列数据的类别,并将该结果作为待识别样本集Xtest中样本数据的分类结果,其中,Ctest的计算公式为:
其中,
2.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7b)中所述的采用最优方向法,并通过标签矩阵Y、常数矩阵E、V种视角特征Xv以及每种视角特征Xv的解析字典投影矩阵非负矩阵对系数嵌入矩阵进行更新,得到更新后的系数嵌入矩阵更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,表示第Tnum次迭代后投影矩阵W的更新结果,表示第Tnum次迭代后非负矩阵M的更新结果,表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,表示的转置,表示的逆矩阵,表示E与对应位置的元素相乘,I∈RN×N,N表示Xv中的样本数目,α表示控制相似程度的约束参数,β表示控制相似程度的约束参数。
3.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7c)中所述的采用最优方向法,并通过第v种视角特征Xv,Xv的解析字典对Xv的合成字典进行更新,得到更新后的合成字典更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果,表示的转置,表示的逆矩阵,γ表示扰动参数,其大小为0.0001,I1为单位矩阵, 表示中的字典原子数目。
4.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7d)中所述的采用最优方向法,并通过第v种视角特征Xv,Xv的对角化约束矩阵Av 对Xv的解析字典进行更新,得到更新后的解析字典更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,v=1,2,3···,V,V表示视角特征的种类数,Xv表示训练样本集中的第v种视角特征,表示Xv的转置,表示第Tnum+1次迭代后第v种视角特征Xv的合成字典Dv的更新结果,表示的转置, 表示与Av对应位置的元素相乘,Av表示第v种视角特征Xv的对角化矩阵,表示第Tnum次迭代后第v种视角特征Xv的解析字典Pv的更新结果, 表示第Tnum+1次迭代后非负矩阵S的更新结果,表示取的第行到第行的数据,表示中的字典原子数目,nS表示的行数,I2为单位矩阵,I3为单位矩阵,dv表示第v种视角特征Xv的维度,表示的逆矩阵,表示的逆矩阵,λ表示对角化结构约束参数,α表示控制相似程度的约束参数,γ表示扰动参数,其大小为0.0001。
5.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7e)中所述的采用最优方向法,并通过标签矩阵Y,常数矩阵E, 对投影矩阵进行更新,得到更新后的投影矩阵更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,表示第Tnum次迭代后非负矩阵M的更新结果,表示E与对应位置的元素相乘,表示第Tnum+1次迭代后非负矩阵S的更新结果,表示的转置,表示的逆矩阵,I4表示单位矩阵,nS表示的行数,β表示控制相似程度的约束参数,τ表示防止过拟合的约束参数。
6.根据权利要求1所述的基于字典对的多视角识别方法,其特征在于:步骤(7f)中所述的采用最优方向法,并通过标签矩阵Y,常数矩阵E, 对非负矩阵进行更新,得到更新后的非负矩阵更新公式为:
其中,Tnum∈[0,Tmax],Tnum为迭代次数,Tmax为最大迭代次数,表示第Tnum+1次迭代后投影矩阵W的更新结果,表示第Tnum+1次迭代后非负矩阵S的更新结果,M1表示所有元素均为零的矩阵,M1∈Rm×N,m和N分别表示训练样本集X中的任意一种视角特征包含的样本数据的类别和样本数据的个数,表示与E对应位置的元素相乘,表示令与E对应位置的元素相乘的结果大于等于0。
CN201910712287.3A 2019-08-02 2019-08-02 基于字典对的多视角识别方法 Active CN110533078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910712287.3A CN110533078B (zh) 2019-08-02 2019-08-02 基于字典对的多视角识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910712287.3A CN110533078B (zh) 2019-08-02 2019-08-02 基于字典对的多视角识别方法

Publications (2)

Publication Number Publication Date
CN110533078A true CN110533078A (zh) 2019-12-03
CN110533078B CN110533078B (zh) 2022-03-22

Family

ID=68661216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910712287.3A Active CN110533078B (zh) 2019-08-02 2019-08-02 基于字典对的多视角识别方法

Country Status (1)

Country Link
CN (1) CN110533078B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861688A (zh) * 2022-11-22 2023-03-28 首都医科大学宣武医院 一种药品包装和容器外形建模识别和计数方法及系统
CN117237748A (zh) * 2023-11-14 2023-12-15 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258577A (ja) * 2004-03-09 2005-09-22 Olympus Corp 文字入力装置、文字入力方法、文字入力プログラム及び記録媒体
CN105224942A (zh) * 2015-07-09 2016-01-06 华南农业大学 一种rgb-d图像分类方法及系统
CN106022351A (zh) * 2016-04-27 2016-10-12 天津中科智能识别产业技术研究院有限公司 一种基于非负字典对学习的鲁棒多视角聚类方法
US20160371866A1 (en) * 2015-06-16 2016-12-22 Misapplied Sciences, Inc. Computational Pipeline and Architecture for Multi-View Displays
CN106778807A (zh) * 2016-11-22 2017-05-31 天津大学 基于公共字典对和类依赖字典对的细粒度图像分类方法
CN107423767A (zh) * 2017-08-01 2017-12-01 西安电子科技大学 基于正则化图的多视角识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005258577A (ja) * 2004-03-09 2005-09-22 Olympus Corp 文字入力装置、文字入力方法、文字入力プログラム及び記録媒体
US20160371866A1 (en) * 2015-06-16 2016-12-22 Misapplied Sciences, Inc. Computational Pipeline and Architecture for Multi-View Displays
CN105224942A (zh) * 2015-07-09 2016-01-06 华南农业大学 一种rgb-d图像分类方法及系统
CN106022351A (zh) * 2016-04-27 2016-10-12 天津中科智能识别产业技术研究院有限公司 一种基于非负字典对学习的鲁棒多视角聚类方法
CN106778807A (zh) * 2016-11-22 2017-05-31 天津大学 基于公共字典对和类依赖字典对的细粒度图像分类方法
CN107423767A (zh) * 2017-08-01 2017-12-01 西安电子科技大学 基于正则化图的多视角识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIANYU WANG 等: "Multi-View Analysis Dictionary Learning for Image Classification", 《IEEE ACCESS》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861688A (zh) * 2022-11-22 2023-03-28 首都医科大学宣武医院 一种药品包装和容器外形建模识别和计数方法及系统
CN115861688B (zh) * 2022-11-22 2023-08-11 首都医科大学宣武医院 一种药品包装和容器外形建模识别和计数方法及系统
CN117237748A (zh) * 2023-11-14 2023-12-15 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置
CN117237748B (zh) * 2023-11-14 2024-02-23 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置

Also Published As

Publication number Publication date
CN110533078B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
Bansal et al. An efficient technique for object recognition using Shi-Tomasi corner detection algorithm
Dewi et al. Synthetic Data generation using DCGAN for improved traffic sign recognition
Larios et al. Automated insect identification through concatenated histograms of local appearance features: feature vector generation and region detection for deformable objects
Shen et al. Multiple instance subspace learning via partial random projection tree for local reflection symmetry in natural images
CN110991532B (zh) 基于关系视觉注意机制的场景图产生方法
CN104751175B (zh) 基于增量支持向量机的sar图像多类标场景分类方法
Afsari et al. Group action induced distances for averaging and clustering linear dynamical systems with applications to the analysis of dynamic scenes
CN106055573A (zh) 一种多示例学习框架下的鞋印图像检索方法及系统
Liu et al. Learning robust similarity measures for 3D partial shape retrieval
Srivastava et al. Looking for shapes in two-dimensional cluttered point clouds
CN109726725A (zh) 一种基于大间隔类间互异性多核学习的油画作者识别方法
Lu et al. Computer aided diagnosis using multilevel image features on large-scale evaluation
CN106250918B (zh) 一种基于改进的推土距离的混合高斯模型匹配方法
CN110533078A (zh) 基于字典对的多视角识别方法
Li et al. Inlier extraction for point cloud registration via supervoxel guidance and game theory optimization
Yan et al. Exposing semantic segmentation failures via maximum discrepancy competition
Lin et al. Two stream active query suggestion for active learning in connectomics
Wei et al. Food image classification and image retrieval based on visual features and machine learning
Perbet et al. Random Forest Clustering and Application to Video Segmentation.
Tang et al. Learning extremely shared middle-level image representation for scene classification
He et al. Midcn: A multiple instance deep convolutional network for image classification
Shin et al. Unsupervised 3d object discovery and categorization for mobile robots
Gao et al. How frontal is a face? Quantitative estimation of face pose based on CNN and geometric projection
Corso Discriminative modeling by boosting on multilevel aggregates
Hu et al. Point sets joint registration and co-segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant