CN108304866A

CN108304866A - 一种多视图特征判别方法

Info

Publication number: CN108304866A
Application number: CN201810058394.4A
Authority: CN
Inventors: 杨燕; 张芳娟; 杜圣东; 张熠玲
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2018-01-22
Filing date: 2018-01-22
Publication date: 2018-07-20

Abstract

本发明公开了一种多视图特征判别方法，属于数据挖掘领域。该方法针对分类预测任务，构建视图的典型相关分析优化目标并对优化目标进行求解，从视图组合特征和类别相关性两方面优化目标，得到更具有判别性的属性特征。该方法的实施思路分为两个过程：首先构建优化目标，计算相关参数：类内和类间相关矩阵、视图组合特征的类内和类间散布矩阵、视图的协方差矩阵等；然后求解优化目标，得到新的空间投影矩阵，利用目标投影矩阵将原始多视图特征映射到新的特征空间，得到更具判别性的多视图特征，最后信息融合得到一个视图。本发明可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类问题的特征判别分析以及降维，能显著提升分类准确率。

Description

一种多视图特征判别方法

技术领域

本发明属于数据挖掘技术领域。

背景技术

随着信息技术的快速发展，基于大数据的科学研究和生产实践已经普遍化，面对海量数据，获取隐藏在他们背后的关键特征信息具有重要的意义。传统的对单一视图的数据分析已经不能满足当前科学进步发展要求。

基于多视图的学习可以得到海量数据内在的联系以及隐藏在这些数据背后的有价值信息，同时可以解决“维数灾难”问题。其中，判别型的典型相关分析方法作为二元视图特征学习以及降维的主要方法，在疾病诊断、文本分类、人脸识别、语音识别、网页分类等研究领域得到了广泛的应用。然而，已有的判别典型相关分析方法并没有专门针对分类预测任务优化目标。大部分方法的优化目标考虑的因素比较单一，有些算法只考虑了视图类内和类间的相关性大小，忽略了用于分类任务的组合特征判别性能，有些方法只在视图相关性的基础上考虑了视图特征的判别性，忽略了类别之间的相关性，不能很好地应用于分类任务。

因此，专门针对分类预测任务，综合考虑特征的判别性和类别之间的相关性，提出一种多视图特征判别方法，获得更具有判别性和相关性的判别性特征，提高后续分类预测任务的准确率。

通过对现有的专利及相关技术的检索发现，现有的关于二元视图特征学习方法主要有：

(1)葛洪伟，顾高升等.一种利用特征信息的加权典型相关分析方法，CN106709508A[p].2017.

提出一种利用特征信息的加权典型相关分析方法，首先对视图中的属性计算特征方差，利用该特征方差对原始属性加权计算，典型相关分析的特征从加权后的数据集中抽取，得到多组特征投影向量，再计算各个投影向量的典型相关系数并利用该系数对投影向量加权，组合成最终用于模式识别任务的加权典型相关分析投影集。

(2)冀中，郭威辰.一种基于改进的典型相关分析的零样本视频分类方法，CN106250925A[p].2016.

一种基于改进的典型相关分析的零样本视频分类方法，该方法将视频的视觉特征和语义特征映射到一个公共空间，在该空间视频的视觉特征和语义特征具有良好的对应关系。该方法通过局部线性的方法解决非线性问题，也可以用于多模态分类，检索任务。

通过上面已有的方法可以看出，现有的基于鉴别性典型相关分析方法基本都是在传统典型相关分析方法中优化的。虽然都有各自的优点但也存在一些不足：首先，有些方法计算过程比较复杂，面对高维度数据样本耗时耗资源；另外，大多数方法并非专门针对后续分类任务输入的组合特征进行优化，而且没有充分考虑视图类别之间的相关性。

针对分类预测任务，本发明的主要目标是增强视图特征的鉴别性，因此，优化目标同时考虑了视图类别之间的相关性和作为分类任务输入的组合特征的鉴别性。类别相关性用类内相关矩阵和类间相关矩阵刻画，并在此基础上加入视图组合特征的判别准则项，提高分类预测的准确性。本发明跟已有的方法相比，优化目标考虑的更全面，且计算复杂度并不是太高，能获得更强的鉴别性特征，更适合分类任务，高维数据可同时达到降维的目的。

发明内容

本发明的目的是提供一种多视图特征判别方法，它能有效地解决提高分类预测准确率的问题。

本发明所采用的技术方案为：针对分类任务，为了增强视图鉴别性，提出了一种多视图特征判别方法：在类别相关性的优化基础上同时将视图组合特征的判别准则项考虑进来。该方案的实施步骤如下：

步骤一、构建视图的典型相关分析优化目标并对优化目标进行求解，具体实现步骤如下：

(1)获得二元视图数据，记样本集X＝[x₁,x₂,...,x_n]∈R^p×n，样本集Y＝[y₁,y₂,...,y_n]∈R^q×n，设样本集X的均值样本集Y的均值即视图X、Y均已数据中心化；其中，n为视图X、Y的样本个数，p、q分别为视图X、Y的属性个数，x_i和y_i分别表示视图X、Y的第i个样本；

(2)构建优化目标，该优化目标针对分类预测任务，在优化视图类别相关性的同时考虑了视图组合特征的判别分析能力，在充分考虑视图属性类别相关性和判别性的目标下获得两个视图的特征投影矩阵w_x和w_y；视图组合特征的判别性可用判别准则项来优化，判别准则项可以利用边界费舍尔分析或者线性判别分析项，此时，优化目标函数刻画为：

其中，η为控制常量；C_w、C_b分别为类内相关矩阵和类间相关矩阵；f(w,S_b,S_w)为判别准则函数，是目标函数的约束条件，s.t.是“subject to”的缩写，意思是“受限于”，W表示两个视图投影矩阵的组合数据集,投影矩阵的组合方式采用并行化组合或者串行组合；S_b、S_w分别是组合特征的类间散布矩阵和类内散布矩阵，C_xx、C_yy分别为样本集X、Y的自协方差矩阵，上标T表示矩阵的转置；

(3)针对优化目标，利用拉格朗日乘子法，建立拉格朗日函数L(λ,w_x,w_y)：

其中，乘数λ是参数；

(4)用②式分别对w_x和w_y求偏导，然后计算变量，E[.]为数学期望，计算视图X和视图Y的自协方差矩阵C_xx＝E[xx^T]＝XX^T、C_yy＝E[yy^T]＝YY^T，再计算类内相关矩阵C_w和类间相关矩阵C_b；

(5)基于视图X和视图Y的组合样本集计算类内散布矩阵S_w和类间散布矩阵S_b；

(6)求解优化目标，得到视图X、Y的特征投影矩阵w_x和w_y；

步骤二、在步骤一求解得到的投影矩阵w_x和w_y基础上选择目标投影矩阵，利用目标投影矩阵将原始多视图属性投影到新的特征空间，并将得到的多视图判别特征融合为一个视图；

(1)选择视图的前d个特征向量，获得新的判别性典型相关特征，通过步骤一的求解可以得到w_x、w_y和λ，λ是由特征值组成的对角矩阵，将特征值矩阵λ对角线的值按大小排序，然后抽取出前d个特征值对应的特征向量，w_xi、w_yi，i＝1,2,...d(d≤min(p,q))，得到目标投影矩阵W_x＝[w_x1,w_x2,...,w_xd]∈R^p×d和W_y＝[w_y1,w_y2,...,w_yd]∈R^q×d；原始样本集X、Y被目标投影空间映射为W_x ^TX和W_y ^TY，则高维数据可同时到达降维的目的；

(2)将第(1)步得到的典型相关特征W_x ^TX和W_y ^TY进行并行或者串行组合，方便被后续任务利用。

在方案实际的操作中，视图特征的组合方式、判别准则方法可根据具体问题、数据集分布等情况择优选择。

与现有技术相比，本发明的优点和效果：

本发明主要针对分类预测任务，基于视图组合特征判别性和视图类别相关性两方面来增强分类任务输入特征的鉴别性，引入判别准则项来刻画组合特征的判别性。与已有的方法对比，该方法从多方面考虑特征鉴别性，能得到判别性更好的特征；并且能根据具体问题选择判别准则方法，具有良好的扩展性。

附图说明

图1为本发明的方案实施流程图。

具体实施方式

以下结合附图实施对本发明作进一步详细描述。

针对分类任务，为了增强视图特征鉴别性，提出了一种实施方案：在类别相关性的优化基础上同时将视图组合特征的判别准则项考虑进来。如图1该方案的实施步骤如下：

(2)构建优化目标，该优化目标针对分类预测任务，为了提升分类预测任务的准确性，在优化视图类别相关性的同时考虑了视图组合特征的判别分析能力，在充分考虑视图属性类别相关性和判别性的目标下获得两个视图的特征投影矩阵w_x和w_y；视图组合特征的判别性可用判别准则项来优化，判别准则项可以利用边界费舍尔分析或者线性判别分析项，此时，优化目标函数刻画为：

其中，乘数λ是参数；

(4)构建拉格朗日函数的目的是求解w_x、w_y，因此用②式分别对w_x和w_y求偏导，然后计算变量，E[.]为数学期望，计算视图X和视图Y的自协方差矩阵C_xx＝E[xx^T]＝XX^T、C_yy＝E[yy^T]＝YY^T，再计算类内相关矩阵C_w和类间相关矩阵C_b；

(6)求解优化目标，得到视图X、Y的特征投影矩阵w_x、w_y和参数λ；

步骤二、在步骤一求解得到的投影矩阵w_x和w_y基础上选择目标投影矩阵W_x和W_y，利用目标投影矩阵将原始多视图属性投影到新的特征空间，并将得到的多视图判别特征融合为一个视图；

(1)选择视图的前d个特征向量，获得新的判别性典型相关特征，通过步骤一的求解可以得到w_x、w_y和λ，这里参数λ是由特征值组成的对角矩阵，将特征值矩阵λ对角线的值按大小排序，然后抽取出前d个特征值对应的特征向量，w_xi、w_yi，i＝1,2,...d(d≤min(p,q))，得到目标投影矩阵W_x＝[w_x1,w_x2,...,w_xd]∈R^p×d和W_y＝[w_y1,w_y2,...,w_yd]∈R^q×d；原始样本集X、Y被目标投影空间映射为W_x ^TX和W_y ^TY，则高维数据可同时到达降维的目的；

(2)将第(1)步得到的典型相关特征W_x ^TX和W_y ^TY进行并行或者串行组合，方便被后续任务利用，最终完成多视图特征提取。

对本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。

Claims

1.一种多视图特征判别方法，包括以下步骤：

其中，η为控制常量；C_w、C_b分别为类内相关矩阵和类间相关矩阵；f(w,S_b,S_w)为判别准则函数，是目标函数的约束条件，s.t.是“subject to”的缩写，意思是“受限于”，W表示两个视图投影矩阵的组合数据集,投影矩阵的组合方式采用并行组合或者串行组合；S_b、S_w分别是组合特征的类间散布矩阵和类内散布矩阵，C_xx、C_yy分别为样本集X、Y的自协方差矩阵，上标T表示矩阵的转置；

其中，乘数λ是参数；

(6)求解优化目标，得到视图X、Y的特征投影矩阵w_x和w_y；

(1)选择视图的前d个特征向量，获得新的判别性典型相关特征，通过步骤一的求解可以得到w_x、w_y和λ，λ是由特征值组成的对角矩阵，将特征值矩阵λ对角线的值按大小排序，然后抽取出前d个特征值对应的特征向量，w_xi、w_yi，i＝1,2,...d(d≤min(p,q))，得到目标投影矩阵W_x＝[w_x1,w_x2,...,w_xd]∈R^p×d和W_y＝[w_y1,w_y2,...,w_yd]∈R^q×d；原始样本集X、Y被目标投影空间映射为和则高维数据可同时到达降维的目的；

将第(1)步得到的典型相关特征和进行并行或者串行组合，方便被后续任务利用。