CN107392233A - 基于解析型字典学习的多模态模式分类方法 - Google Patents

基于解析型字典学习的多模态模式分类方法 Download PDF

Info

Publication number
CN107392233A
CN107392233A CN201710512836.3A CN201710512836A CN107392233A CN 107392233 A CN107392233 A CN 107392233A CN 201710512836 A CN201710512836 A CN 201710512836A CN 107392233 A CN107392233 A CN 107392233A
Authority
CN
China
Prior art keywords
sample
modal
classification
dictionary
updated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710512836.3A
Other languages
English (en)
Inventor
郭艳卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710512836.3A priority Critical patent/CN107392233A/zh
Publication of CN107392233A publication Critical patent/CN107392233A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种可提高分类精确率的基于解析型字典学习的多模态模式分类方法,强化了不同模态数据的特有信息及共有类别信息,将多模态图像特征信息置于一个同时进行字典和分类器学习的框架下进行判决性精炼,有利于后续基于分类器回归结果最大位置索引的分类。同时,应用间隔化的目标策略学习到具有灵活性的分类目标,提升整个模型的判决能力和鲁邦性,提高了分类精确率。

Description

基于解析型字典学习的多模态模式分类方法
技术领域
本发明涉及一种模式分类技术,尤其是一种可提高分类精确率的基于解析型字典学习的多模态模式分类方法。
背景技术
模式分类技术是模式识别学科中极为重要的理论,已广泛应用于各个领域,如生物身份认证、手势识别、数据挖掘、信息检索、信号处理等。常规的模式分类技术主要包含两个主要过程,即训练过程和测试过程。训练过程有提取训练样本的特征及建立分类模型;测试过程为提取测试样本及利用训练阶段得到的分类模型对测试样本进行分类预测。
随着多媒体技术迅速发展,一个主体广泛存在多个模态的信息,例如网页有链接和内容的两种模态信息,一个人有各个角度的图像信息等,利用多模态数据间的互补信息,基于多模态场景的技术可以更好地进行模式分类任务。然而处理多模态数据同样存在挑战,包括不同模态间存在的语义鸿沟,同模态特征与同类别特征间的空间近邻结构模糊和同类特征具有一定分散度等,都影响着多模态方法的性能。
稀疏表示理论与行为识别的结合是近些年被提出的。稀疏表示理论是将待预测的样本用训练集中的少量样本进行线性组合表示,然后根据线性组合的系数进行分类判决,达到预测其类别的目的。稀疏表示理论的核心思想是:首先构造一个过完备字典,其中包含足够的具有代表性的样本,然后对于任意一个测试样本(一般是一个向量),用这个字典中少数几个样本的线性组合进行表示,这样就可以得到一个非零元素很少的编码系数向量,实现最终的稀疏表示。
稀疏表示的性能在很大程度上依赖于字典的学习方法,在稀疏表示理论发展的初期,大多采用预设的固定字典,如:训练集特征组成的字典、Curvelet基组成的字典、Gabor基组成的字典等,这样的字典在不同数据集上的重构效果不一,在不同数据集中的识别准确率也有很大波动。因此,根据训练数据集自适应学习得到的字典往往比预设的固定字典更加符合行为识别的需求。
为了利用字典学习解决识别问题,研究者们将传统的字典学习方法修正为适合分类识别的监督字典学习方法。监督字典学习方法大致可以分为两类:一类是直接学习具有判决力的字典;另一类是稀疏化编码系数,使稀疏编码作为新的特征具有区分性,继而使得到的字典具有判决力。前者主要是利用重构误差来进行最终的分类识别,后者主要是利用稀疏编码系数作为新的特征用于分类识别。
作为字典学习的另外一个主流方向,解析型字典学习模型引起了国内外学者的高度关注。解析型字典是综合型字典的对偶形式,综合型字典学习的是一组用于线性组合表示的基,而解析型字典学习的是一个映射矩阵,使得信号经过映射以后的表示是稀疏的。解析型字典学习模型具有良好的信号表示能力,并且,其训练阶段的优化问题易于求解,测试阶段测试速度十分快捷。
然而,目前的解析型字典学习方法不能够解决多模态模式分类问题。
发明内容
本发明是为了解决现有技术所存在的上述技术问题,提供一种可提高分类精确率的基于解析型字典学习的多模态模式分类方法。
本发明的技术解决方案是:一种基于解析型字典学习的多模态模式分类方法,包括多模态特征提取、模型训练及分类判决,其特征在于:
所述多模态特征提取是提取个样本不同模态的特征,使每个样本均得到种特征列向量,即样本原始数据矩阵;然后对所得到样本原始数据矩阵进行列归一化预处理;
所述模型训练的求解模型为:
(1)
式(1)中:
是含有个样本的第个模态的原始数据矩阵;是对应第个模态的解析型字典;是对应第个模态的编码稀疏;是线性分类器,其中表示样本类别个数;的串联;是分类器的回归目标矩阵;是标量常数,取值范围是关于解析型字典的约束集合;是对编码系数稀疏度的约束;是回归目标矩阵的每一列中,正确索引位置与错误索引位置值的差;为第个样本点正确位置的索引,为第个样本点非正确位置的索引;
基于交替搜索策略,交替最小化优化求解(1)的目标函数:
a. 保持不变,更新,将对的约束具化成log-det正则项加到目标函数中,通过公式推导,得到关于的闭式解;
b. 保持不变,更新,令目标函数关于的一阶偏导数为零,得到关于的闭式解;
c. 保持不变,更新,其中包含n个独立的子问题;引入通过学习得到的参数,再应用KKT条件,得到关于每个子问题的解;
d. 保持不变,更新,先求解,然后提取其对应位置的块矩阵并且通过硬门限算子稀疏处理得到
所述分类判决是提取测试样本的各模态特征并进行预处理,将预处理后的各模态特征通过模型训练过程中获得的解析型字典,获得编码系数,将所得的测试样本的编码系数串联为,再将通过模型训练过程中获得的分类器,获得测试样本的估计标签向量,找到估计标签向量中的最大值的位置,通过这个位置确定此样本点的类别,获得最终的分类结果。
本发明强化了不同模态数据的特有信息及共有类别信息,将多模态图像特征信息置于一个同时进行字典和分类器学习的框架下进行判决性精炼,有利于后续基于分类器回归结果最大位置索引的分类。同时,应用间隔化的目标策略学习到具有灵活性的分类目标,提升整个模型的判决能力和鲁邦性,提高了分类精确率。
附图说明
图1是本发明实施例的流程图。
具体实施方式
本发明的一种基于解析型字典学习的多模态模式分类方法,如图1所示:与现有技术相同,包括多模态特征提取、模型训练及分类判决,与现有技术所不同的是:
所述多模态特征提取是对个样本通过不同的特征提取方法提取不同模态的特征,使每个样本均得到种不同提取方法对应的特征列向量,即样本的原始数据矩阵;然后对所得到的各模态样本数据矩阵进行列归一化预处理;
所述模型训练的求解模型为:
(1)
式(1)中:
是含有个样本的第个模态的原始数据矩阵;是对应第个模态的解析型字典;是对应第个模态的编码稀疏;是线性分类器,其中表示样本类别个数;的串联;是分类器的回归目标矩阵;是标量常数,取值范围是关于解析型字典的约束集合;是对编码系数稀疏度的约束;是回归目标矩阵的每一列中,正确索引位置与错误索引位置值的差;为第个样本点正确位置的索引,为第个样本点非正确位置的索引;
模型(1)中的第一部分是多模态解析型字典学习模型:
其中,代表稀疏重构误差,表示字典属于某一特定集合,而表示第个样本点对应的系数的非零元素值的个数小于
模型(1)中的第二部分是基于线性分类器的训练模型:
分类器对所有的串联进行映射,保证参考了所有模态的特征所对应的编码系数,达到参考所有模态的信息进行分类的目的。的第为对应第个样本点的回归目标,其最大值的位置对应样本点的类别信息。为变量,在目标求解的过程中使用间隔化的目标学习策略对其进行更新优化,主要实现方式为通过来约束中的正确索引位置的元素值要至少比其它非正确位置的元素值大间隔
基于交替搜索策略,交替最小化优化求解(1)的目标函数:
a.保持不变,更新,将对的约束具化成log-det正则项加到目标函数中,得到
, (2)
这里的是个折衷参数,消除中如全零行或者重复行等退化解,避免字典的规模不定,两个惩罚放到一起共同提升字典的条件数,表示正则项的权重。
将(2)写成迹的形式, 得到
(3)
然后应用切比雪夫分解,将分解为,问题(3)被简化为
(4)
定义,则有
,所以
(5)
通过奇异值分解,得到
定义分别是对角矩阵的对角元,已知矩阵的行列式等于其奇异值的积,又有,上述问题可以变形为
  (6)
,问题(6)可以变形为
设上式对于的一阶偏导数为零,获得
因此,得到关于的闭式解:
b.保持不变,更新,此时关于的目标函数为
,设关于的一阶偏导数值为零,得到关于的闭式解
c.保持不变,更新,其中包含个独立的子问题,定义,则第个子问题为
(7)
这里设,引入一个辅助变量,其第个元素。假设通过得到,这里为一个学习得到的参数,对于,应有,二次规划问题的解为
(8)
将(8)代入(7),有。设,可以得到。定义一个指示算子,当时,,否则为0。因此有,这样可以得到有关的解为:
求得后,通过式(8)更新
d.保持不变,更新。先求解,然后提取其对应位置的块矩阵并且通过硬门限算子稀疏处理得到。定义为所有模态的串联,和相关的求解问题是:
先不考虑稀疏约束,求解
令其关于的一阶偏导数为零,得到:
提取中的相应块矩阵,然后通过一个硬门限算子保持稀疏性后,得到
交替执行上述a、b、c、d,直到算法收敛。
所述分类判决是提取测试样本的各模态特征并进行预处理,将预处理后的各模态特征通过模型训练过程中获得的解析型字典,获得编码系数,将所得的测试样本的编码系数串联为,再将通过模型训练过程中获得的分类器,获得测试样本的估计标签向量,找到估计标签向量中的最大值的位置,通过这个位置确定此样本点的类别,获得最终的分类结果。
实验例:
为了详细说明本发明具体实施方式及验证本发明的有效性,将本发明提出的方法应用于一个公开的目标图像库,即NUS-WIDE-OBJECT数据库。该数据库包含31个类别的30000张图像,充分模拟了实际环境。所提取的特征为64维颜色直方图特征,144维颜色相关图特征,73维边缘方向直方图特征,128维小波纹理特征,225维块颜色矩特征和500维的SIFT特征共6个模态的特征。随机从此数据库选取17927个图像作为训练样本点,剩下的12073个图像作为测试样本点。
首先将所有样本数据输入本发明实施例的分类模型函数进行训练,其中参数分别通过交叉验证在范围内选取。训练完成后得到字典学习和分类器训练的结果:解析型字典和线性分类器;然后使测试样本通过字典和分类器,获得预估标签,判断测试样本点的类别。
下表展示了本发明实验例在分类精确度(ACC)指标上和其他方法的对比,其中LPboost-和LPboost-B来自于Gehler, P., Nowozin, S.;的文章《基于多类目标分类的特征组合》,Multiview CCA来自于Rupnik, J., Shawe-Taylor, J.;的文章《多视角典型相关分析》,Multi-Classification来自于Guo, H., Viktor, H.L.:;的文章《多相关分类:一个多视角方法》,MVCS来自于Xue, X., Nie, F., Wang, S., Chang, X., Stantic, B.,Yao, M.;的文章《通过揭露共享成分的多视角相关特征学习》。结果表明本发明实施例在模式分类准确率上与现有技术相比取得明显优势。

Claims (1)

1.一种基于解析型字典学习的多模态模式分类方法,包括多模态特征提取、模型训练及分类判决,其特征在于:
所述多模态特征提取是提取个样本不同模态的特征,使每个样本均得到种特征列向量,即样本原始数据矩阵;然后对所得到样本原始数据矩阵进行列归一化预处理;
所述模型训练的求解模型为:
(1)
式(1)中:
是含有个样本的第v个模态的原始数据矩阵;是对应第v个模态的解析型字典;是对应第v个模态的编码稀疏;是线性分类器,其中表示样本类别个数;的串联;是分类器的回归目标矩阵;是标量常数,取值范围是关于解析型字典的约束集合;是对编码系数稀疏度的约束;是回归目标矩阵的每一列中,正确索引位置与错误索引位置值的差;m为第i个样本点正确位置的索引,为第i个样本点非正确位置的索引;
基于交替搜索策略,交替最小化优化求解(1)的目标函数:
a. 保持不变,更新,将对的约束具化成log-det正则项加到目标函数中,通过公式推导,得到关于的闭式解;
b. 保持不变,更新,令目标函数关于的一阶偏导数为零,得到关于的闭式解;
c. 保持不变,更新,其中包含n个独立的子问题;引入通过学习得到的参数,再应用KKT条件,得到关于每个子问题的解;
d. 保持不变,更新,先求解,然后提取其对应位置的块矩阵并且通过硬门限算子稀疏处理得到
所述分类判决是提取测试样本的各模态特征并进行预处理,将预处理后的各模态特征通过模型训练过程中获得的解析型字典,获得编码系数,将所得的测试样本的编码系数串联为,再将通过模型训练过程中获得的分类器,获得测试样本的估计标签向量,找到估计标签向量中的最大值的位置,通过这个位置确定此样本点的类别,获得最终的分类结果。
CN201710512836.3A 2017-06-29 2017-06-29 基于解析型字典学习的多模态模式分类方法 Pending CN107392233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710512836.3A CN107392233A (zh) 2017-06-29 2017-06-29 基于解析型字典学习的多模态模式分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710512836.3A CN107392233A (zh) 2017-06-29 2017-06-29 基于解析型字典学习的多模态模式分类方法

Publications (1)

Publication Number Publication Date
CN107392233A true CN107392233A (zh) 2017-11-24

Family

ID=60334546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710512836.3A Pending CN107392233A (zh) 2017-06-29 2017-06-29 基于解析型字典学习的多模态模式分类方法

Country Status (1)

Country Link
CN (1) CN107392233A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110940524A (zh) * 2019-12-06 2020-03-31 西安交通大学 一种基于稀疏理论的轴承故障诊断方法
CN111368665A (zh) * 2020-02-25 2020-07-03 西华大学 一种基于竞争与协作机制的高抗哄骗多模态身份验证方法
CN111401440A (zh) * 2020-03-13 2020-07-10 重庆第二师范学院 目标分类识别方法、装置、计算机设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110940524A (zh) * 2019-12-06 2020-03-31 西安交通大学 一种基于稀疏理论的轴承故障诊断方法
CN110940524B (zh) * 2019-12-06 2021-07-06 西安交通大学 一种基于稀疏理论的轴承故障诊断方法
CN111368665A (zh) * 2020-02-25 2020-07-03 西华大学 一种基于竞争与协作机制的高抗哄骗多模态身份验证方法
CN111368665B (zh) * 2020-02-25 2022-08-02 西华大学 一种基于竞争与协作机制的高抗哄骗多模态身份验证方法
CN111401440A (zh) * 2020-03-13 2020-07-10 重庆第二师范学院 目标分类识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
Sevillano et al. Improving classification of pollen grain images of the POLEN23E dataset through three different applications of deep learning convolutional neural networks
CN107657279B (zh) 一种基于少量样本的遥感目标检测方法
CN108171209B (zh) 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
CN109308485B (zh) 一种基于字典域适应的迁移稀疏编码图像分类方法
CN103150580B (zh) 一种高光谱图像半监督分类方法及装置
CN106462746B (zh) 分析数字全息显微术数据以用于血液学应用
Chen et al. Region-based object recognition by color segmentation using a simplified PCNN
CN111814584A (zh) 基于多中心度量损失的多视角环境下车辆重识别方法
CN113011357B (zh) 基于时空融合的深度伪造人脸视频定位方法
CN112528928B (zh) 一种基于自注意力深度网络的商品识别方法
CN106919980B (zh) 一种基于神经节分化的增量式目标识别系统
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
CN103544499B (zh) 一种基于机器视觉的表面瑕疵检测的纹理特征降维方法
CN108734199B (zh) 基于分段深度特征及低秩表示的高光谱图像鲁棒分类方法
CN109583482A (zh) 一种基于多特征融合与多核迁移学习的红外人体目标图像识别方法
CN109598711B (zh) 一种基于特征挖掘和神经网络的热图像缺陷提取方法
CN106682696A (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
CN104834941A (zh) 基于计算机输入下的稀疏自编码的脱机手写体识别方法
CN105095863A (zh) 基于相似性权值的半监督字典学习的人体行为识别方法
CN110378911B (zh) 基于候选区域和邻域分类器的弱监督图像语义分割方法
CN113076994A (zh) 一种开集域自适应图像分类方法及系统
CN114692732B (zh) 一种在线标签更新的方法、系统、装置及存储介质
CN110414587A (zh) 基于渐进学习的深度卷积神经网络训练方法与系统
CN108268890A (zh) 一种高光谱图像分类方法
CN107392233A (zh) 基于解析型字典学习的多模态模式分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124

RJ01 Rejection of invention patent application after publication