CN106779090A

CN106779090A - 一种基于自适应Dropout非负矩阵分解的特征学习模型

Info

Publication number: CN106779090A
Application number: CN201611159985.8A
Authority: CN
Inventors: 刘杰; 何志成; 刘才华; 王嫄
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2016-12-15
Filing date: 2016-12-15
Publication date: 2017-05-31
Anticipated expiration: 2036-12-15
Also published as: CN106779090B

Abstract

一种基于自适应Dropout非负矩阵分解的特征学习模型。本发明基于对NMF中隐藏特征之间关系的分析，提出一种基于自适应Dropout非负矩阵分解的特征学习模型(Adaptive Dropout Non‑negative Matrix Factorization)，能够主动学习隐藏特征之间的相异度，并将其转化为隐藏特征的数据表示能力。然后在此基础上构造概率函数，并对隐藏特征进行Dropout，从而降低隐藏特征在优化过程中的相互影响，提高隐藏特征的语义独立性。本发明具有良好的可解释性和泛化性，能够在文本和图像数据上取得明显的性能提升，并能够应用到已有的基于NMF的算法中。此外，本发明还具有良好的可并行性，可以部署到并行平台上运行，用来处理大规模数据。

Description

一种基于自适应Dropout非负矩阵分解的特征学习模型

技术领域

本发明属于计算机应用技术领域，具体涉及数据挖掘和机器学习，特别是基于自适应Dropout非负矩阵分解的特征学习模型。

背景技术

随着互联网技术的发展，社交网络的兴起，信息的获取和分享手段越来越便捷，互联网中充斥着大量的文本、图像等非结构化数据。同时，由于数据发布时的随意性、不规范性等问题，数据中存在大量的噪声。即使在经过数据清洗之后，数据也面临着数据稀疏、维度过高等问题。因此，在进行聚类、分类、推荐等任务之前，往往先需要进行特征学习。

非负矩阵分解(Non-negative Matrix Factorization，NMF)是近年来较为流行的多变量分析模型,因其在文本和图像等数据上具有良好的可解释性，在数据挖掘领域有着十分广泛的应用。通过对输入数据矩阵和输出隐藏特征矩阵以及系数矩阵采用非负约束，得到文本和图像的表示，并进行文本聚类和图像恢复^[1][2]。而Cai和He等人在此基础上，采用关系图来约束数据在隐含空间中的表示，提高了非负矩阵分解模型在文本聚类中的性能^[3]。而在[4]中，作者提出一种关系约束的矩阵分解模型，融合数据间关联关系和数据内容，抽取隐含特征，并在文本分类数据中取得良好效果。Takeuchi等人则将多个非负矩阵共同分解，融合用户记录、用户社交关系和歌曲标签，得到用户和歌曲的统一表示，并进行歌曲推荐^[5]。

然而，现有的NMF模型相关的研究成果，往往是通过对输入输出矩阵进行变换或对目标函数增加正则化因子来进行的，缺少对隐藏特征之间关系的分析和利用。在实际应用中，由于缺乏领域先验知识和辅助信息，现有的基于NMF的模型中所采用的矩阵变换和正则化因子往往无法构造，或受到数据稀疏、噪声等问题的影响，出现性能下降。

Dropout是一种来源于神经网络模型的优化方法，在迭代优化中通过随机选取隐藏特征的子集进行更新来打破隐藏层节点之间的共现关系，从而防止过拟合，提升模型性能^[6,7]。

从对数据重构的角度来看，NMF具有与浅层神经网络类似的结构，而Zhai等人也已经将Dropout算法应用到了传统的矩阵分解当中^[10]。而自适应Dropout算法通过学习隐藏特征之间的关系，来构造新的Dropout概率函数以取代传统的完全随机Dropout函数，从而实现性能的进一步提升^[8,9]。

因此，本发明采用来自于神经网络中的Dropout方法^[6,7]，通过学习和利用隐藏特征之间的关系，从一个全新的角度来提升NMF模型的性能，使数据的隐藏特征表示具有更好的可解释性。

发明内容

本发明目的是解决现有NMF模型中存在的隐藏特征语义模糊和语义重叠的问题，提供一种基于自适应Dropout非负矩阵分解的特征学习模型。

本发明采用自适应Dropout算法^[6,7,8]来对NMF模型进行改进，并提出基于自适应Dropout非负矩阵分解的特征学习模型(Adaptive Dropout Non-negative MatrixFactorization)，简称ADNMF模型，通过学习隐藏特征之间的相异度关系，使隐藏特征在语义上更加独立，从而改善样本在隐藏特征空间中的表示。

本发明将自适应Dropout算法应用到NMF模型中，显式地衡量隐藏特征在语义上的相关性，构造新的Dropout概率函数，提高隐藏特征的语义独立性，改善样本的特征表示。同时，本发明提出的算法具有很高的可并行性，能够部署到并行系统上，用以处理大规模数据。实验表明，本发明提出的算法在文本和图像数据的聚类任务上，均能明显的性能提升。

本发明技术方案

一种基于自适应Dropout非负矩阵分解的特征学习模型(ADNMF模型)。ADNMF模型包括：

1)：采用矩阵来表示输入数据中的所有样本和特征；

所述数据包括文本、图像或网络数据；对输入的数据集，根据数据类型进行不同的预处理，构建样本的特征表示矩阵，作为ADNMF模型的输入。

本发明可以应用到文本、图像、网络等多种数据处理任务中，在进行ADNMF建模之前，需要对数据进行预处理和格式化表示，具体如下：

1.1)、数据预处理。

数据预处理是指对数据进行特征抽取，并将所有的样本表示成相同维度的向量。因此，对文本数据，需要进行分词和词汇统计，再使用词频或tfidf算法得到每一篇文本在相同的字典空间中的向量表示。而对于图像数据，需要对图片进行剪切、拉伸和缩放处理，使图片具有相同的维度，然后可以采取灰度值或RGB值来将图片表示成相同维度的特征向量——作为图片的特征表示。而在网络数据处理任务中，则需要统计网络中包含的节点数量和节点之间的连接权重，得到每个节点的基于连接权重的表示。最后，对所有样本的特征表示进行非负处理，筛选出符合非负性要求的特征。

1.2)、数据格式化。

在数据预处理之后，需要将数据表示成矩阵，作为ADNMF模型的输入。因此，所有样本的特征表示将进一步格式化为相同维度的向量，向量的每一维表示样本在对应特维度上的权值，并将所有样本的特征向量组合为特征表示矩阵，矩阵的每一行表示一维特征，每一列表示一个样本。

2)：基于所述的特征表示矩阵，建立ADNMF模型的优化目标，设计合理的求解算法——采用自适应Dropout算法学习特征之间的关系，并进行优化求解，得到样本的隐藏特征表示，作为模型的输出；

所述ADNMF模型的优化目标包括3个方面：(1)最大可能的降低每个样本从原始特征空间映射到隐藏特征空间中的重构损失；(2)采用自适应Dropout算法降低隐藏特征之间的语义相似性；(3)保持输出矩阵的非负性，使得到的样本的隐藏特征表示具有较好的可解释性；

所述ADNMF模型优化目标的求解算法应当满足三个基本条件：(1)算法能够在可接受的时间内收敛，(2)算法对存储空间的需求要控制在合理范围内，(3)算法能够并行执行，以提高计算效率。

2.1)：所述的目标函数求解算法为自适应Dropout算法，具体处理过程是；

在迭代优化过程中，自适应Dropout算法根据隐藏特征的语义表达能力来进行Dropout，而每个隐藏特征的语义表达能力被形式化为该隐藏特征本身与所有其他隐藏特征之间的语义相异度。

首先计算所有隐藏特征两两之间的相异度，得到隐藏特征相异度矩阵。

其次对相异度矩阵的每一行进行线性融合(参数将在ADNMF算法中进行优化求解)，得到对应隐藏特征的语义表达能力。

然后采用Sigmoid函数将隐藏特征的语义表达能力转化为隐藏特征在迭代优化过程中，经过Dropout过程后被保留的概率。

最后求每个隐藏特征在优化过程中被保留的概率的期望值，作为隐藏特征在目标函数中的权值直接进行模型优化求解，从而降低所需的迭代次数。

2.2)：所述的求解样本的隐藏特征表示的方法(ADNMF算法)如下：

本项目提出一种基于梯度下降的ADNMF迭代优化算法，能够有效的求解ADNMF模型的目标函数，得到样本的隐藏特征表示。ADNMF模型需要优化求解的参数包括：隐藏特征矩阵、系数矩阵以及隐藏特征相异度的线性融合参数矩阵。在每次迭代过程中：

首先采用所述的自适应Dropout算法，计算隐藏特征在Dropout之后被保留的概率期望值；

然后按步骤分别计算目标函数的各个部分对隐藏特征矩阵、系数矩阵和线性融合参数矩阵的梯度；

最后将梯度矩阵中的正值和负值加以区分，据此分别对隐藏特征矩阵、系数矩阵和线性融合参数矩阵中不同的元素采用不同的步长进行更新，并防止出现负值。

本发明的优点和积极效果：

●隐藏特征学习

本发明能够显式衡量隐藏特征在语义上的相关关系，并进行Dropout，相比于传统的NMF算法，学习到的隐藏特征具有很强的可区分性，每一维隐藏特征均能独立且明确的表示一种语义信息。

●样本的隐藏特征表示

本发明增强了隐藏特征的语义独立性和可区分性，使样本的隐藏特征表示能够更明确的反映样本的语义构成，从而提升后续的聚类、分类和协同推荐任务的性能。

附图说明

图1是本发明的整体示意图。

图2是本发明提供的ADNMF优化求解流程图。

具体实施方式

实施例1：

下面结合附图对本发明提供的ADNMF特征学习模型进行详细的举例和说明。

本发明主要采用数据挖掘理论和方法对文本、图像和网络等数据进行分析，为了保证系统的正常运行，在具体实施中，要求所使用的计算机平台配备不低于8G的内存，CPU核心数不低于4个且主频不低2.6GHz、Windows 7及以上版本的64位操作系统，并安装Java1.7及以上版本等必备软件环境。

如图2所示，本发明提供的ADNMF模型包括按顺序执行的下列部分：

1)输入数据集(文本、图像或网络数据)，构建样本的特征表示矩阵：

假设输入数据集包含5个样本，每个样本包含10维特征，经过预处理后，构建10行5列的样本的特征表示矩阵例如：

2)基于1)中构建的特征表示矩阵X，建立ADNMF模型的优化目标，设计合理的目标函数求解算法——采用自适应Dropout算法并求解样本的隐藏特征表示：

ADNMF模型的目标函数包括3个方面：

(1)最大可能的降低每个样本的从原始特征空间映射到隐藏特征空间中的重构损失；

其中U表示隐藏特征矩阵，V为样本在隐藏空间中的表示即系数矩阵，U_*k表示矩阵U的第k列，V_k*表示矩阵V的第k行，u_ij表示矩阵U第i行第j列上的元素，采用欧式距离的平方来衡量信息损失。

(2)采用自适应Dropout算法降低隐藏特征之间的语义相似性；

在此对角矩阵Λ＝diag[λ₁,...,λ_K]的每一个元素λ_k∈{0,1}，用于指示第k个隐藏特征在经过Dropout后是否被保留。自适应Dropout函数为：

其中f(z)＝(exp(z)-exp(-z))/(exp(z)+exp(-z))将相异度转化为概率，表示两个隐藏特征之间的语义相异度，π_jk为线性融合权重。对Λ求期望值可得：

则目标函数的期望形式为：

(3)保持输出矩阵的非负性，使样本的特征表示具有较好的可解释性；

s.t.u_mk≥0,v_kn≥0

最终，通过融合和以上约束条件，我们得到ADNMF模型最终的目标函数：

其中表示每个隐藏特征在Dropout函数中被保留的概率期望值，K表示人为指定的隐藏特征的个数(正整数)。

所述ADNMF模型的目标函数求解算法应当满足三个基本条件：(1)算法能够在可接受的时间内收敛，(2)算法对存储空间的需求要控制在合理范围内，(3)算法能够并行执行，以提高计算效率。

为了优化目标函数L并求解隐藏特征矩阵U、样本的隐藏表示矩阵V以及相异度参数矩阵Π，同时提高算法的可并行性，加快求解速率，并降低算法对存储空间的需求，采用基于梯度下降的迭代更新算法来求解，如图2所示，目标函数的求解包含如下阶段：

S2.1阶段：初始化矩阵和

以1)中输入的X为例，隐藏特征的个数K设为2，矩阵U、V和Π中的每个元素被随机初始化为非负实数，例如：

S2.2阶段：计算辅助矩阵A；

辅助矩阵A在矩阵V和Π的更新过程中均有用到，具体的计算公式为

S2.3阶段：计算辅助对角矩阵B；

辅助对角矩阵B在矩阵V和Π的更新过程中均有用到，具体的计算公式为

S2.4阶段：计算辅助概率期望矩阵Q；

辅助概率期望矩阵Q中包含隐藏特征在Dropout之后被保留的概率期望值

Q:q_kk＝P(λ_k＝1|U)＝f(b_kk)，

S2.5阶段：计算矩阵V的梯度矩阵E；

矩阵E中包含矩阵V中每个元素的梯度的正数部分，具体公式为

S2.6阶段：计算矩阵V的梯度矩阵H；

矩阵H中包含矩阵V中每个元素的梯度的负数部分，具体公式为

S2.7阶段：根据矩阵E和矩阵H更新矩阵V；

采用梯度下降算法同时保持矩阵V中元素非负更新公式为

S2.8阶段：释放矩阵E和矩阵H，节约内存；

S2.9阶段：计算辅助矩阵C；

辅助矩阵C在矩阵Π和U的更新过程中均有用到，具体的计算公式为

S2.10阶段：计算辅助矩阵R；

辅助矩阵R在矩阵Π和U的更新过程中均有用到，具体的计算公式为

S2.11阶段：计算辅助矩阵D；

辅助矩阵D用于辅助矩阵Π的梯度的计算，具体的计算公式为

S2.12阶段：计算辅助矩阵O；

辅助矩阵O在矩阵Π和U的更新过程中均有用到，具体的计算公式为

O:o_kk＝(CU)_kk，

S2.13阶段：计算矩阵Π的梯度矩阵S；

矩阵S中包含矩阵Π中每个元素的梯度的正数部分，具体公式为

S:s_ij＝o_jjd_ij，

S2.14阶段：计算矩阵Π的梯度矩阵W；

矩阵W中包含矩阵Π中每个元素的梯度的负数部分，具体公式为

S2.15阶段：根据矩阵S和矩阵W更新矩阵Π；

采用梯度下降算法同时保持矩阵Π中元素非负更新公式为

S2.16阶段：释放矩阵A、B、D、O、S、W，节约内存；

S2.17阶段：计算矩阵U的梯度矩阵Y；

矩阵Y中包含矩阵U中每个元素的梯度的正数部分，具体公式为

Y:y_ij＝c_jiq_jj，

S2.18阶段：计算矩阵U的梯度矩阵Z；

矩阵Z中包含矩阵U中每个元素的梯度的负数部分，具体公式为

S2.19阶段：根据矩阵Y和矩阵Z更新矩阵U；

采用梯度下降算法同时保持矩阵U中元素非负更新公式为

S2.20阶段：释放矩阵Q、R、Y、Z，节约内存；

S2.21阶段：判断算法是否收敛；

若算法收敛，则进行S2.22阶段，否则返回S2.2阶段；

S2.22阶段：输出结果，本流程结束。

最终，经过10次迭代，优化过程收敛，输出结果为

在图2中，所有可并行的步骤被放在了同一行，同时，算法中S2.2至Ss2.7，S2.9至S2.15以及S2.17至S2.19中所有关于矩阵的计算，均可以并行执行。可以看出，本发明提出的算法具有很高的可并行性，能够部署到并行平台上，加速对大规模数据的处理速度。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

参考文献：

[1]Lee D D,Seung H S.Algorithms for non-negative matrix factorization[C]//Advances in neural information processing systems.2001:556-562.

[2]Lee D D,Seung H S.Learning the parts of objects by non-negativematrix factorization[J].Nature,1999,401(6755):788-791.

[3]Cai D,He X,Han J,et al.Graph regularized nonnegative matrixfactorization for data representation[J].Pattern Analysis and MachineIntelligence,IEEE Transactions on,2011,33(8):1548-1560.

[4]Li W J,Yeung D Y.Relation regularized matrix factorization[C]//21ST INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE(IJCAI-09),PROCEEDINGS.2009.

[5]Takeuchi K,Ishiguro K,Kimura A,et al.Non-negative multiple matrixfactorization[C]//Proceedings of the Twenty-Third international jointconference on Artificial Intelligence.AAAI Press,2013:1713-1720.

[6]Hinton G E,Srivastava N,Krizhevsky A,et al.Improving neuralnetworks by preventing co-adaptation of feature detectors[J].arXiv preprintarXiv:1207.0580,2012.

[7]Srivastava N.Improving neural networks with dropout[D].Universityof Toronto,2013.

[8]Ba J,Frey B.Adaptive dropout for training deep neural networks[C]//Advances in Neural Information Processing Systems.2013:3084-3092.

[9]Wager S,Wang S,Liang P S.Dropout training as adaptiveregularization[C]//Advances in neural information processing systems.2013:351-359.

[10]Zhai S,Zhang Z.Dropout Training of Matrix Factorization andAutoencoder for Link Prediction in Sparse Graphs[J].arXiv preprint arXiv:1512.04483,2015.。

Claims

1.一种基于自适应Dropout非负矩阵分解的特征学习模型(Adaptive Dropout Non-negative Matrix Factorization)，简称ADNMF模型，其特征在于所述ADNMF模型主要包括：

1)：采用矩阵来表示输入数据中的所有样本和特征；

所述数据包括文本、图像或网络数据；对输入的数据集，根据数据类型进行不同的预处理，构建样本的特征表示矩阵，作为ADNMF模型的输入；

2)：基于特征表示矩阵，建立ADNMF模型的优化目标，采用自适应Dropout算法学习特征之间的关系，并进行优化求解，得到样本的隐藏特征表示，作为模型的输出；

所述ADNMF模型的优化目标包括3个方面：(1)能够最大可能的降低每个样本从原始特征空间映射到隐藏特征空间中的重构损失；(2)采用自适应Dropout算法降低隐藏特征之间的语义相似性；(3)保证输出矩阵的非负特性，使得到的样本的隐藏特征表示具有较好的可解释性；

2.根据权利要求1所述的基于自适应Dropout非负矩阵分解的特征学习模型，其特征在于1)中所述的根据数据类型建立不同的特征表示矩阵包括：

1.1)、数据预处理

指对数据进行特征抽取，将样本表示成相同维度的向量；对文本数据，需要进行分词和词汇统计，再使用词频或tfidf算法得到每一篇文本在相同的字典空间中的向量表示；对于图像数据，需要对图片进行剪切、拉伸和缩放处理，使图片具有相同的维度，然后采取灰度值或RGB值来将图片表示成相同维度的特征向量；对于网络数据，需要统计网络中包含的节点数量和节点之间的连接权重，得到每个节点的基于连接权重的表示；最后，对所有样本的特征表示进行非负处理，筛选出符合非负性要求的特征；

1.2)、数据格式化；

在数据预处理之后，需要将数据表示成矩阵，作为ADNMF模型的输入；因此，所有样本的特征表示将进一步格式化为相同维度的向量，向量的每一维表示样本在该维特征上的权值，并将所有样本的特征向量组合为特征表示矩阵，矩阵的每一行表示一维特征，每一列表示一个样本。

3.根据权利要求1或2所述的基于自适应Dropout非负矩阵分解的特征学习模型，其特征在于模型在优化目标求解过程采用了自适应Dropout算法，所述的自适应Dropout算法的具体处理过程是：

在迭代优化过程中，自适应Dropout算法根据隐藏特征的语义表达能力来进行Dropout，而每个隐藏特征的语义表达能力被形式化为该隐藏特征本身与所有其他隐藏特征之间的语义相异度；

首先计算所有隐藏特征两两之间的相异度，得到隐藏特征相异度矩阵；

其次对相异度矩阵的每一行进行线性融合，得到对应隐藏特征的语义表达能力；

然后采用Sigmoid函数将隐藏特征的语义表达能力转化为隐藏特征在迭代优化过程中、经过Dropout过程后被保留的概率；

最后求隐藏特征在优化过程中被保留的概率期望值，作为隐藏特征在目标函数中的权值直接进行模型优化求解，从而降低所需的迭代次数。

4.根据权利要求3所述的基于自适应Dropout非负矩阵分解的特征学习模型，其特征在于所述自适应Dropout算法中，对隐藏特征进行Dropout之后，需要采取基于梯度下降的迭代优化算法来求解ADNMF模型的目标函数，具体如下：

所述基于梯度下降的迭代优化算法，能够有效的求解ADNMF模型的目标函数，得到样本的隐藏特征表示；ADNMF模型需要优化求解的参数包括：隐藏特征矩阵、系数矩阵以及隐藏特征相异度的线性融合参数矩阵；在每次迭代过程中：