CN107392233A

CN107392233A - 基于解析型字典学习的多模态模式分类方法

Info

Publication number: CN107392233A
Application number: CN201710512836.3A
Authority: CN
Inventors: 郭艳卿
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-06-29
Filing date: 2017-06-29
Publication date: 2017-11-24

Abstract

本发明公开一种可提高分类精确率的基于解析型字典学习的多模态模式分类方法，强化了不同模态数据的特有信息及共有类别信息，将多模态图像特征信息置于一个同时进行字典和分类器学习的框架下进行判决性精炼，有利于后续基于分类器回归结果最大位置索引的分类。同时，应用间隔化的目标策略学习到具有灵活性的分类目标，提升整个模型的判决能力和鲁邦性，提高了分类精确率。

Description

基于解析型字典学习的多模态模式分类方法

技术领域

本发明涉及一种模式分类技术，尤其是一种可提高分类精确率的基于解析型字典学习的多模态模式分类方法。

背景技术

模式分类技术是模式识别学科中极为重要的理论，已广泛应用于各个领域，如生物身份认证、手势识别、数据挖掘、信息检索、信号处理等。常规的模式分类技术主要包含两个主要过程，即训练过程和测试过程。训练过程有提取训练样本的特征及建立分类模型；测试过程为提取测试样本及利用训练阶段得到的分类模型对测试样本进行分类预测。

随着多媒体技术迅速发展，一个主体广泛存在多个模态的信息，例如网页有链接和内容的两种模态信息，一个人有各个角度的图像信息等，利用多模态数据间的互补信息，基于多模态场景的技术可以更好地进行模式分类任务。然而处理多模态数据同样存在挑战，包括不同模态间存在的语义鸿沟，同模态特征与同类别特征间的空间近邻结构模糊和同类特征具有一定分散度等，都影响着多模态方法的性能。

稀疏表示理论与行为识别的结合是近些年被提出的。稀疏表示理论是将待预测的样本用训练集中的少量样本进行线性组合表示，然后根据线性组合的系数进行分类判决，达到预测其类别的目的。稀疏表示理论的核心思想是：首先构造一个过完备字典，其中包含足够的具有代表性的样本，然后对于任意一个测试样本（一般是一个向量），用这个字典中少数几个样本的线性组合进行表示，这样就可以得到一个非零元素很少的编码系数向量，实现最终的稀疏表示。

稀疏表示的性能在很大程度上依赖于字典的学习方法，在稀疏表示理论发展的初期，大多采用预设的固定字典，如：训练集特征组成的字典、Curvelet基组成的字典、Gabor基组成的字典等，这样的字典在不同数据集上的重构效果不一，在不同数据集中的识别准确率也有很大波动。因此，根据训练数据集自适应学习得到的字典往往比预设的固定字典更加符合行为识别的需求。

为了利用字典学习解决识别问题，研究者们将传统的字典学习方法修正为适合分类识别的监督字典学习方法。监督字典学习方法大致可以分为两类：一类是直接学习具有判决力的字典；另一类是稀疏化编码系数，使稀疏编码作为新的特征具有区分性，继而使得到的字典具有判决力。前者主要是利用重构误差来进行最终的分类识别，后者主要是利用稀疏编码系数作为新的特征用于分类识别。

作为字典学习的另外一个主流方向，解析型字典学习模型引起了国内外学者的高度关注。解析型字典是综合型字典的对偶形式，综合型字典学习的是一组用于线性组合表示的基，而解析型字典学习的是一个映射矩阵，使得信号经过映射以后的表示是稀疏的。解析型字典学习模型具有良好的信号表示能力，并且，其训练阶段的优化问题易于求解，测试阶段测试速度十分快捷。

然而，目前的解析型字典学习方法不能够解决多模态模式分类问题。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种可提高分类精确率的基于解析型字典学习的多模态模式分类方法。

本发明的技术解决方案是：一种基于解析型字典学习的多模态模式分类方法，包括多模态特征提取、模型训练及分类判决，其特征在于：

所述多模态特征提取是提取个样本不同模态的特征，使每个样本均得到种特征列向量，即样本原始数据矩阵；然后对所得到样本原始数据矩阵进行列归一化预处理；

所述模型训练的求解模型为：

（1）

式（1）中：

是含有个样本的第个模态的原始数据矩阵；是对应第个模态的解析型字典；是对应第个模态的编码稀疏；是线性分类器，其中，表示样本类别个数；是的串联；是分类器的回归目标矩阵；是标量常数，取值范围；是关于解析型字典的约束集合；是对编码系数稀疏度的约束；是回归目标矩阵的每一列中，正确索引位置与错误索引位置值的差；为第个样本点正确位置的索引，为第个样本点非正确位置的索引；

基于交替搜索策略，交替最小化优化求解（1）的目标函数：

a. 保持，和不变，更新，将对的约束具化成log-det正则项加到目标函数中，通过公式推导，得到关于的闭式解；

b. 保持，，不变，更新，令目标函数关于的一阶偏导数为零，得到关于的闭式解；

c. 保持，，不变，更新，其中包含n个独立的子问题；引入通过学习得到的参数，再应用KKT条件，得到关于每个子问题的解；

d. 保持，，不变，更新，先求解，然后提取其对应位置的块矩阵并且通过硬门限算子稀疏处理得到；

所述分类判决是提取测试样本的各模态特征并进行预处理，将预处理后的各模态特征通过模型训练过程中获得的解析型字典，获得编码系数，将所得的测试样本的编码系数串联为，再将通过模型训练过程中获得的分类器，获得测试样本的估计标签向量，找到估计标签向量中的最大值的位置，通过这个位置确定此样本点的类别，获得最终的分类结果。

本发明强化了不同模态数据的特有信息及共有类别信息，将多模态图像特征信息置于一个同时进行字典和分类器学习的框架下进行判决性精炼，有利于后续基于分类器回归结果最大位置索引的分类。同时，应用间隔化的目标策略学习到具有灵活性的分类目标，提升整个模型的判决能力和鲁邦性，提高了分类精确率。

附图说明

图1是本发明实施例的流程图。

具体实施方式

本发明的一种基于解析型字典学习的多模态模式分类方法，如图1所示：与现有技术相同，包括多模态特征提取、模型训练及分类判决，与现有技术所不同的是：

所述多模态特征提取是对个样本通过不同的特征提取方法提取不同模态的特征，使每个样本均得到种不同提取方法对应的特征列向量，即样本的原始数据矩阵；然后对所得到的各模态样本数据矩阵进行列归一化预处理；

所述模型训练的求解模型为：

（1）

式（1）中：

模型（1）中的第一部分是多模态解析型字典学习模型：

其中，代表稀疏重构误差，表示字典属于某一特定集合，而表示第个样本点对应的系数的非零元素值的个数小于；

模型（1）中的第二部分是基于线性分类器的训练模型：

分类器对所有的串联进行映射，保证参考了所有模态的特征所对应的编码系数，达到参考所有模态的信息进行分类的目的。的第列为对应第个样本点的回归目标，其最大值的位置对应样本点的类别信息。为变量，在目标求解的过程中使用间隔化的目标学习策略对其进行更新优化，主要实现方式为通过，来约束中的正确索引位置的元素值要至少比其它非正确位置的元素值大间隔。

基于交替搜索策略，交替最小化优化求解（1）的目标函数：

a.保持，和不变，更新，将对的约束具化成log-det正则项加到目标函数中，得到

，（2）

这里的是个折衷参数，消除中如全零行或者重复行等退化解，避免字典的规模不定，两个惩罚放到一起共同提升字典的条件数，表示正则项的权重。

将（2）写成迹的形式，得到

（3）

然后应用切比雪夫分解，将分解为，问题（3）被简化为

（4）

定义，则有

，所以

（5）

通过奇异值分解，得到，。

定义和分别是对角矩阵和的对角元，已知矩阵的行列式等于其奇异值的积，又有，上述问题可以变形为

　　（6）

设，

有，问题（6）可以变形为

设上式对于的一阶偏导数为零，获得。

因此，得到关于的闭式解：

b.保持，，不变，更新，此时关于的目标函数为

，设关于的一阶偏导数值为零，得到关于的闭式解；

c.保持，，不变，更新，其中包含个独立的子问题，定义，则第个子问题为

（7）

这里设，引入一个辅助变量，其第个元素。假设通过得到，这里为一个学习得到的参数，对于，应有，二次规划问题的解为

（8）

将（8）代入（7），有。设，可以得到。定义一个指示算子，当时，，否则为0。因此有，这样可以得到有关的解为：

求得后，通过式（8）更新；

d.保持，，不变，更新。先求解，然后提取其对应位置的块矩阵并且通过硬门限算子稀疏处理得到。定义，为所有模态的串联，和相关的求解问题是：

先不考虑稀疏约束，求解

令其关于的一阶偏导数为零，得到：

提取中的相应块矩阵，然后通过一个硬门限算子保持稀疏性后，得到；

交替执行上述a、b、c、d，直到算法收敛。

实验例：

为了详细说明本发明具体实施方式及验证本发明的有效性，将本发明提出的方法应用于一个公开的目标图像库，即NUS-WIDE-OBJECT数据库。该数据库包含31个类别的30000张图像，充分模拟了实际环境。所提取的特征为64维颜色直方图特征，144维颜色相关图特征，73维边缘方向直方图特征，128维小波纹理特征，225维块颜色矩特征和500维的SIFT特征共6个模态的特征。随机从此数据库选取17927个图像作为训练样本点，剩下的12073个图像作为测试样本点。

首先将所有样本数据输入本发明实施例的分类模型函数进行训练，其中参数，，，分别通过交叉验证在范围内选取。训练完成后得到字典学习和分类器训练的结果：解析型字典和线性分类器；然后使测试样本通过字典和分类器，获得预估标签，判断测试样本点的类别。

下表展示了本发明实验例在分类精确度（ACC）指标上和其他方法的对比，其中LPboost-和LPboost-B来自于Gehler, P., Nowozin, S.；的文章《基于多类目标分类的特征组合》，Multiview CCA来自于Rupnik, J., Shawe-Taylor, J.；的文章《多视角典型相关分析》，Multi-Classification来自于Guo, H., Viktor, H.L.:；的文章《多相关分类：一个多视角方法》，MVCS来自于Xue, X., Nie, F., Wang, S., Chang, X., Stantic, B.,Yao, M.；的文章《通过揭露共享成分的多视角相关特征学习》。结果表明本发明实施例在模式分类准确率上与现有技术相比取得明显优势。

。

Claims

1.一种基于解析型字典学习的多模态模式分类方法，包括多模态特征提取、模型训练及分类判决，其特征在于：

所述模型训练的求解模型为：

（1）

式（1）中：

是含有个样本的第v个模态的原始数据矩阵；是对应第v个模态的解析型字典；是对应第v个模态的编码稀疏；是线性分类器，其中，表示样本类别个数；是的串联；是分类器的回归目标矩阵；是标量常数，取值范围；是关于解析型字典的约束集合；是对编码系数稀疏度的约束；是回归目标矩阵的每一列中，正确索引位置与错误索引位置值的差；m为第i个样本点正确位置的索引，为第i个样本点非正确位置的索引；

基于交替搜索策略，交替最小化优化求解（1）的目标函数：