CN115810108B

CN115810108B - 一种基于regnmf的大数据审计中图像特征提取方法

Info

Publication number: CN115810108B
Application number: CN202211165357.6A
Authority: CN
Inventors: 郭红建; 蔡明秀; 万鸣华
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-08-08
Anticipated expiration: 2042-09-23
Also published as: CN115810108A

Abstract

本发明公开了一种基于REGNMF的大数据审计中图像特征提取方法。本发明在GNMF算法基础上进行改进得到REGNMF算法，REGNMF算法将流形学习与非负矩阵分解融合，在降维的过程中仍然保持了数据空间的流形几何结构，同时考虑到矩阵奇异带来的小样本问题对图像识别率的影响，通过在GNMF的目标函数中加入矩阵指数，使原来的Laplacian矩阵变为非奇异的矩阵，并通过拉格朗日进行非贪婪迭代的方法得到REGNMF算法的最优解，这一方法成功解决了小样本问题，极大的增加了算法的鲁棒性和判别力，该算法在多个图像数据库上的实验证明，REGNMF算法对于图像特征提取具有更高的识别率，能够有效提取图特征用于大数据审计中，以确保大数据审计中图像特征提取的准确性。

Description

一种基于REGNMF的大数据审计中图像特征提取方法

技术领域

本发明涉及图像特征提取技术领域，具体涉及一种基于REGNMF的大数据审计中图像特征提取方法。

背景技术

随着大数据的快速发展，审计也有传统的人工+计算机辅助审计，逐步向大数据审计转变，审计所需的纸质账本、文件等，逐步向图像、视频、数据库表单等结构化、非结构化的电子数据转换，大数据审计的主要工作将基于结构化、非结构化的电子数据进行深度的分析，从中提取有效信息进行审计疑点分析，因此，要实现快速、全面的大数据审计，大数据审计中的图像特征提取尤为重要。

而在许多图像特征提取的应用场景中，需要处理的数据矩阵维数都很高，例如一张100×100的照片在计算机中就有10000维，这大大增加了数据处理的难度，为解决“维数灾难”带来的问题，学界提出了许多降维方法，如主成分分析PCA、线性判别分析LDA等一系列经典的线性降维算法，线性降维算法具有运算简单，易于分析等优点，但是当数据存在非线性结构时，则不再有效，而现实中的高维数据通常是非线性的结构，在使用PCA和LDA等线性降维算法对高维数据进行特征提取的时候，往往得不到较好的降维效果。

对于处理高维非线性数据，流形学习算法表现出较为理想的结果，诸如拉普拉斯映射LE、局部线性投影LLE、局部保持投影LPP、邻域保留嵌入NPE和Fisher边际分析MFA等都是经典的流形学习算法，LPP通过构造样本点的邻域图，保留了数据集中样本的局部邻域信息，经过映射后，在高维空间具有近邻关系的点，在低维空间，样本点的近邻关系仍然得到保持，MFA通过构造内类图和惩罚图的形式，有效的保留了数据的几何结构，并且消除了传统线性判别分析在使用时要求数据样本呈高斯分布的条件。

除了流形学习算法，矩阵分解也可以达到降维的目的，矩阵分解即是希望找到两个或更多的低维矩阵，它们的乘积能很好地逼近原矩阵，典型的矩阵分解技术包括奇异值分解SVD、非负矩阵分解NMF等算法，对于任意给定的一个矩阵A，NMF算法能够寻找到两个非负矩阵U和V，使得满足A等于U和V的乘积，从而将一个矩阵分解为左右两个非负矩阵的乘积，与SVD不同，SVD分解得到的矩阵可正可负，而NMF分解得到的均是非负的矩阵，且NMF只允许相加而不允许相减，然而，传统的NMF方法存在一些问题，诸如对噪声和遮挡数据的鲁棒性较差、没有包含鉴别信息等，近年来，对NMF算法的改进成为研究热点，Lu Y等人提出了低秩非负分解算法LRNF，LRNF将低秩与非负分解学习集成到一个模型中，消除了噪声数据对降维的影响，在LRNF的基础上，Lu Y等人又引入了结构不一致性，提出了结构非相干低阶NMF，可以捕捉数据的全局结构，并且加入样本的判别信息，确保了来自不同类别的干净数据点尽可能独立，Lee H等人提出半监督非负矩阵分解算法SSNMF，将标签信息与数据矩阵融合到传统的NMF算法中，Wang J等人提出的鲁棒半监督非负矩阵分解算法RSSNMF，采用L2,1范式作为损失函数，并将标签信息合并为附加约束，可以更好的容纳噪声和异常值，Jia Y等人提出相异和相似正则化的半监督非负矩阵分解算法，通过引入一对互补的正则化器，能够更好地利用标签信息进行矩阵分解。

然而，上述的NMF算法在进行矩阵分解时，都没有考虑到数据空间内的几何结构，而数据内部的几何结构在实际应用中起着至关重要的作用，为了提高NMF的识别率，引入了图正则化的形式，Cai D等人提出GNMF算法，将NMF与LPP的目标函数结合，在原本的NMF的基础上，增加了一个正则化参数，Huang等人提出了鲁棒图正则化非负矩阵分解算法RGNMF，在GNMF的基础上，利用L1范式增加了对噪声矩阵的约束，杜海顺等人提出图嵌入正则化投影非负矩阵分解算法GEPNMF，在目标函数中引入了图嵌入正则项，从而使其求得的子空间能够在保持数据空间流形几何结构的同时，使得类间间距尽可能大，Yi Y等人提出局部约束自适应图的非负矩阵分解算法NMF-LCAG，使用两个局部约束项自适应优化图结构，可以同时学习图的权重矩阵和数据的低维特征。

综上所述，目前的图嵌入非负矩阵分解算法大都没有考虑到矩阵奇异的问题，因此，图嵌入往往会造成小样本SSS问题，在GNMF中，LPP会存在小样本问题，这极大的影响了降维效果，针对此问题，本文提出了鲁棒指数图正则化非负矩阵分解算法REGNMF，REGNMF是通过在GNMF的目标函数中加入矩阵指数，使原来的Laplacian矩阵不会存在奇异的情况，并通过拉格朗日进行非贪婪迭代的方法得到REGNMF算法的最优解，这一方法成功解决了小样本问题，该算法在多个数据库上的实验证明，其图像特征提取的效果优于其他的一些算法。

发明内容

本发明的目的是解决目前的图嵌入非负矩阵分解算法大都没有考虑到矩阵奇异的问题，因此，图嵌入往往会造成小样本SSS问题，在GNMF中，LPP会存在小样本问题，这极大的影响了降维效果的问题。

为了达到上述目的，本发明所采用的技术方案是：

一种基于REGNMF的大数据审计中图像特征提取方法，包括以下步骤，

步骤(A)，基于LPP的目标函数与NMF的目标函数，将LPP的目标函数化简，再引入约束条件，防止出现平凡解及转化降维问题，再将NMF的目标函数利用迭代更新规则进行优化；

步骤(B)，将NMF的目标函数与LPP的目标函数结合，并在NMF的基础上增加一个图正则化参数，以构成GNMF的目标函数；

步骤(C)，在GNMF的目标函数中加入矩阵指数构成REGNMF的目标函数；

步骤(D)，对REGNMF进行算法优化，再使REGNMF具备收敛性；

步骤(E)，利用不同的图像数据库，检验REGNMF的图像特征提取性能和对噪声以及离群值的鲁棒性。

前述的一种基于REGNMF的大数据审计中图像特征提取方法，步骤(A)中，基于LPP的目标函数与NMF的目标函数，该LPP的目标函数如下：

设X＝[x₁,x₂,...,x_n]为原始空间的样本数据集，Y＝[y₁,y₂,...,y_n]为映射后的数据集，LPP是对非线性拉普拉斯特征映射的一种线性近似，算法思想是寻找一个投影矩阵A，将高维数据映射到低维空间中，即Y＝A^TX，A^T的上标T表示矩阵的转置，并且要求在原始高维空间中具有近邻关系的点在映射后的低维空间仍然得到保持，基于上述思想，首先构建了一个包含数据集邻域信息的图W，如公式(1)所示：

其中，W_ij的下标用于指代矩阵的行和列，exp表示矩阵指数，N_k(x_i)表示x_i的K近邻点组成的集合，t为实数，为最优地保持数据集的近邻结构，使投影前后结点之间的结构关系得到保持，因此，LPP算法的目标函数如公式(2)所示：

前述的一种基于REGNMF的大数据审计中图像特征提取方法，步骤(A)中，将LPP的目标函数化简，再引入约束条件，防止出现平凡解及转化降维问题，具体如下：

将LPP的目标函数化简，即公式(2)化简得到公式(3)：

公式(2)化简得到公式(3)的化简过程如下所示：

公式(3)中，将公式(2)中的平方打开，再将向量矩阵化得到Y^T，tr表示矩阵的迹，L为样本数据的Laplacian矩阵，L＝D-W，D为对角矩阵，对角线上的元素为权重矩阵W中各列的和，即D_ii的下标表示D矩阵对角线中的第i个元素，再引入约束条件Y^TDY＝1，得到公式(4)，防止出现平凡解，并将降维问题转化为求公式(4)的最优化问题，其中，公式(4)如下所示：

mintr(Y^TLY)

S.t. Y^TDY＝1 (4)。

前述的一种基于REGNMF的大数据审计中图像特征提取方法，步骤(A)中，基于LPP的目标函数与NMF的目标函数，该NMF的目标函数如下：

设X＝[x₁,x₂,...,x_n]为原始空间的样本数据集，NMF的目标是找到两个非负矩阵U和Y，令U和Y的积逼近X，即X≈UY^T，用欧式距离表示矩阵分解后的损失，因此，NMF算法的目标函数公式(5)所示：

O＝min||X-UY^T||² (5)。

前述的一种基于REGNMF的大数据审计中图像特征提取方法，步骤(A)中，再将NMF的目标函数利用迭代更新规则进行优化，具体如下：

利用迭代更新规则优化NMF的目标函数，即利用迭代更新规则得到U和Y的优化解，如公式(6)与公式(7)所示：

前述的一种基于REGNMF的大数据审计中图像特征提取方法，步骤(B)中，将NMF的目标函数与LPP的目标函数结合，并在NMF的基础上增加一个图正则化参数，以构成GNMF的目标函数，即结合公式(4)与公式(5)，并增加一个图正则化参数，得到GNMF的目标函数如公式(8)所示：

O＝||X-UY^T||²+λtr(Y^TLY) (8)

其中，λ≥0，是正则化参数，Y^TLY是LPP的目标函数。

前述的一种基于REGNMF的大数据审计中图像特征提取方法，步骤(C)中，在GNMF的目标函数中加入矩阵指数构成REGNMF的目标函数，即在公式(8)中加入矩阵指数，得到REGNMF的目标函数如公式(9)所示：

O＝||X-UV^T||²+λTr(V^Texp(L)V)，λ>0 (9)

其中，X为训练样本按列排列构成的矩阵，U和V均为非负矩阵，U为基矩阵，V为系数矩阵，令U和V的乘积逼近X，V^T表示非负矩阵分解中的系数矩阵，描述样本在基矩阵U下的坐标，并用于后续的特征提取，λ为正则化参数，为防止数据降维过程中出现过拟合的现象，使λ>0，Tr表示矩阵的迹，V^Texp(L)V即是在LPP的目标函数中加入一个矩阵指数，LPP的目标函数中加入一个矩阵指数后，根据矩阵指数的性质可知，exp(L)为满秩矩阵，因此，exp(L)为非奇异矩阵；

公式(9)中的第一项表示分解后的矩阵与原矩阵的重构误差，重构误差越小，则分解后的数据保留越多的原始数据信息，第二项表示利用正则化参数引入数据的流形结构，并添加矩阵指数，以此增加REGNMF的鲁棒性。

前述的一种基于REGNMF的大数据审计中图像特征提取方法，步骤(D)中，对REGNMF进行算法优化，具体如下：

REGNMF的目标函数公式(9)中U和V不都是凸的，因此使用迭代算法获得局部的最小值，将公式(9)重写为公式(10)：

O＝Tr((X-UV^T)(X-UV^T)^T)+λTr(V^Texp(L)V) (10)

应用矩阵属性Tr(AB)＝Tr(BA)，Tr(A)＝Tr(A^T)将公式(8)改写为公式(11)：

O＝Tr(XX^T)-2Tr(XVU^T)+Tr(UV^TVU^T)+λTr(V^Texp(L)V) (11)

设ψ_ik和φ_jk为约束的拉格朗日乘子，且u_ik≥0,v_jk≥0，Ψ＝[ψ_ik],Φ＝[φ_jk]，将拉格朗日乘子引入公式(11)得到目标函数F如公式(12)所示：

F＝Tr(XX^T)-2Tr(XVU^T)+Tr(UV^TVU^T)+λTr(V^Texp(L)V)+Tr(ψU^T)+Tr(ΦV^T) (12)

则F对U和V的偏导数分别如公式(13)和公式(14)所示：

再使用KKT条件，令ψ_iku_ik＝0和φ_jkv_jk＝0，得到u_ik和v_jk的公式，如公式(15)和公式(16)所示：

-(XV)_iku_ik+(UV^TV)_iku_ik＝0 (15)

-(XV)_jkv_jk+(VU^TU)_jkv_jk+λ(exp(L)V)_jkv_jk＝0 (16)

根据上述公式得到更新后的规则如公式(17)和公式(18)所示：

前述的一种基于REGNMF的大数据审计中图像特征提取方法，步骤(D)中，使REGNMF具备收敛性，具体如下：

公式(9)中的目标函数在公式(18)中的更新规则下是不递增的，为使REGNMF具备收敛性，要求矩阵U或V中每列向量的欧式距离长度为1，矩阵V或U则相应地进行调整，以防止U改变，实现方式如公式(19)所示：

前述的一种基于REGNMF的大数据审计中图像特征提取方法，步骤(E)中，利用不同的图像数据库，检验REGNMF的图像特征提取性能和对噪声以及离群值的鲁棒性，该图像数据库分别为AR数据库、COIL数据库、含有随机噪声的Yale数据库以及含有遮挡的AR数据库。

本发明的有益效果是：本发明在GNMF算法基础上进行改进得到REGNMF算法，REGNMF算法将流形学习与非负矩阵分解融合，在降维的过程中仍然保持了数据空间的流形几何结构，同时考虑到矩阵奇异带来的小样本问题对图像识别率的影响，通过在GNMF的目标函数中加入矩阵指数，使原来的Laplacian矩阵变为非奇异的矩阵，并通过拉格朗日进行非贪婪迭代的方法得到REGNMF算法的最优解，这一方法成功解决了小样本问题，极大的增加了算法的鲁棒性和判别力，该算法在多个图像数据库上的实验证明，REGNMF算法对于图像特征提取具有更高的识别率，能够有效提取图特征用于大数据审计中，以确保大数据审计中图像特征提取的准确性。

附图说明

图1是本发明基于REGNMF的大数据审计中图像特征提取方法的流程图；

图2是重构误差与迭代次数关系图；

图3是AR数据库部分图像；

图4是AR数据库上不同算法的图像识别率曲线比较图；

图5是COIL数据库部分图像；

图6是COIL数据库上不同算法的图像识别率曲线比较图；

图7中(a)(b)(c)分别为Yale干净图像和加入高斯噪声与椒盐噪声后的图像；

图8中(a)(b)分别为AR数据库加入5×5遮挡块与10×10遮挡块后的图像；

图9是AR数据库在5×5遮挡块下不同算法的图像识别率曲线比较图；

图10是AR数据库在10×10遮挡块下不同算法的图像识别率曲线比较图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明的一种基于REGNMF的大数据审计中图像特征提取方法，包括以下步骤，

步骤(A)，基于LPP的目标函数与NMF的目标函数，将LPP的目标函数化简，再引入约束条件，防止出现平凡解及转化降维问题，再将NMF的目标函数利用迭代更新规则进行优化，其中LPP表示局部保持投影算法，NMF表示非负矩阵分解算法；

步骤(A)中，基于LPP的目标函数与NMF的目标函数，该LPP的目标函数如下：

设X＝[x₁,x₂,...,x_n]为原始空间的样本数据集，Y＝[y₁,y₂,...,y_n]为映射后的数据集，LPP是对非线性拉普拉斯特征映射的一种线性近似，算法思想是寻找一个投影矩阵A，将高维数据映射到低维空间中，即Y＝A^TX，Y＝A^TX，A^T的上标T表示矩阵的转置，并且要求在原始高维空间中具有近邻关系的点在映射后的低维空间仍然得到保持，基于上述思想，首先构建了一个包含数据集邻域信息的图W，如公式(1)所示：

步骤(A)中，将LPP的目标函数化简，再引入约束条件，防止出现平凡解及转化降维问题，具体如下：

将LPP的目标函数化简，即公式(2)化简得到公式(3)：

公式(2)化简得到公式(3)的化简过程如下所示：

公式(3)中，将公式(2)中的平方打开，再将向量矩阵化得到Y^T，tr表示矩阵的迹，L＝D-W，D为对角矩阵，对角线上的元素为权重矩阵W中各列的和，即D_ii的下标表示D矩阵对角线中的第i个元素，再引入约束条件Y^TDY＝1，得到公式(4)，防止出现平凡解，并将降维问题转化为求公式(4)的最优化问题，其中，公式(4)如下所示：

mintr(Y^TLY)

S.t. Y^TDY＝1 (4)；

步骤(A)中，基于LPP的目标函数与NMF的目标函数，该NMF的目标函数如下：

O＝min||X-UY^T||² (5)；

步骤(A)中，再将NMF的目标函数利用迭代更新规则进行优化，具体如下：

步骤(B)，将NMF的目标函数与LPP的目标函数结合，并在NMF的基础上增加一个图正则化参数，以构成GNMF的目标函数，其中，GNMF表示图正则化非负矩阵分解算法；

步骤(B)中，将NMF的目标函数与LPP的目标函数结合，并在NMF的基础上增加一个图正则化参数，以构成GNMF的目标函数，即结合公式(4)与公式(5)，并增加一个图正则化参数，得到GNMF的目标函数如公式(8)所示：

O＝||X-UY^T||²+λtr(Y^TLY) (8)

其中，λ≥0，是正则化参数，Y^TLY是LPP的目标函数，与传统的NMF相比，GNMF在进行降维时，仍然保持原始数据空间的底层几何结构，GNMF算法通过将NMF算法与基于几何的正则化器相结合，在投影的同时保留了样本结点之间的几何结构；

步骤(C)，在GNMF的目标函数中加入矩阵指数构成REGNMF的目标函数，REGNMF表示鲁棒指数图正则化非负矩阵分解算法；

步骤(C)中，在GNMF的目标函数中加入矩阵指数构成REGNMF的目标函数，即在公式(8)中加入矩阵指数，得到REGNMF的目标函数如公式(9)所示：

O＝||X-UV^T||²+λTr(V^Texp(L)V)，λ>0 (9)

其中，X为训练样本按列排列构成的矩阵，U和V均为非负矩阵，U为基矩阵，V为系数矩阵，令U和V的乘积逼近X，V^T表示非负矩阵分解中的系数矩阵，描述样本在基矩阵U下的坐标，并用于后续的特征提取，λ为正则化参数，为防止数据降维过程中出现过拟合的现象，使λ>0，Tr表示矩阵的迹，V^Texp(L)V即是在LPP的目标函数中加入一个矩阵指数，L为样本数据的Laplacian矩阵，LPP的目标函数中加入一个矩阵指数后，根据矩阵指数的性质可知，exp(L)为满秩矩阵，因此，exp(L)为非奇异矩阵；

公式(9)中的第一项表示分解后的矩阵与原矩阵的重构误差，重构误差越小，则分解后的数据保留越多的原始数据信息，第二项表示利用正则化参数引入数据的流形结构，并添加矩阵指数，以此增加REGNMF的鲁棒性，因此，REGNMF在对数据降维的过程中，在保持了数据内部的几何结构的同时，同样也降低了对噪声和异常值的敏感性；

步骤(D)，对REGNMF进行算法优化，再使REGNMF具备收敛性；

步骤(D)中，对REGNMF进行算法优化，具体如下：

O＝Tr((X-UV^T)(X-UV^T)^T)+λTr(V^Texp(L)V) (10)

O＝Tr(XX^T)-2Tr(XVU^T)+Tr(UV^TVU^T)+λTr(V^Texp(L)V) (11)

F＝Tr(XX^T)-2Tr(XVU^T)+Tr(UV^TVU^T)+λTr(V^Texp(L)V)+Tr(ψU^T)+Tr(ΦV^T) (12)

则F对U和V的偏导数分别如公式(13)和公式(14)所示：

再使用KKT条件，KKT条件是指一组条件，它是一组解成为原问题最优解的必要条件。如果原问题是凸问题，那么这个条件也是充分条件，也是拉格朗日乘数法在带不等式约束优化问题上的推广，令ψ_iku_ik＝0和φ_jkv_jk＝0，得到u_ik和v_jk的公式，如公式(15)和公式(16)所示：

-(XV)_iku_ik+(UV^TV)_iku_ik＝0 (15)

-(XV)_jkv_jk+(VU^TU)_jkv_jk+λ(exp(L)V)_jkv_jk＝0 (16)

根据上述公式得到更新后的规则如公式(17)和公式(18)所示：

步骤(D)中，使REGNMF具备收敛性，具体如下：

通过实验对提出的REGNMF的收敛性进行证明，如图2所示，为了在同一幅图中更清楚的展示迭代次数与重构误差之间的关系，将Yale噪声数据库上的重构误差放大100倍，将COIL数据库上的重构误差放大10倍，可以看出在不同的数据库上，当算法迭代到200次的时候，目标函数的重构误差几乎不变，因此，使用200作为实验的迭代次数；

步骤(E)，利用不同的图像数据库，检验REGNMF的图像特征提取性能和对噪声以及离群值的鲁棒性；

步骤(E)中，利用不同的图像数据库，检验REGNMF的图像特征提取性能和对噪声以及离群值的鲁棒性，该图像数据库分别为AR数据库、COIL数据库、含有随机噪声的Yale数据库以及含有遮挡的AR数据库。

REGNMF算法流程如下所示：

迭代法解决问题

输入：训练集X，样本行数m，样本列数n，近邻节点数1，降维后的矩阵维数k，迭代次数iter，当前迭代次数s，正则项系数λ，矩阵U和V，权重矩阵W和拉普拉斯矩阵L；

初始化：U＝0，V＝0，iter＝100,W＝L＝0,l＝5,λ＝1，s＝0；

1.利用随机函数产生U和V的矩阵U＝rand(m,k),V＝rand(n,k)；

2.利用KNN算法选择数据点xi的近邻节点，构造邻域图W；

3.根据L＝D-W，构造拉普拉斯矩阵L；

4.当s<＝iter时，循环：

①迭代更新U：

②迭代更新V：

③s＝s+1；

5.如果s>iter时：结束循环

6.标准化矩阵U和V：

7.输出：基矩阵U和系数矩阵V。

下面介绍本发明的一种基于REGNMF的大数据审计中图像特征提取方法应用于不同图像数据库的实验如下：

为检验REGNMF的特征提取的性能和对噪声以及离群值的鲁棒性，在AR数据库、COIL数据库、含有随机噪声的Yale数据库以及含有遮挡的AR数据库上，分别采用REGNMF、GNMF、NMF、LPP等算法提取主要特征进行识别实验；

1、AR数据库实验

AR人脸数据库由126个人的超过4000张的图像组成，126张人脸对应70名男性和56名女性，图像以正面视图的人脸为特征，具有不同的面部表情、照明条件和遮挡，遮挡物为太阳镜和围巾，每幅图像的像素为50×40，AR数据库的部分图像如图3所示，在AR数据库上，随机选择24个样本作为训练集，图4给出了各个算法在不同的特征维数下的识别率曲线。

2、COIL数据库实验

COIL数据库包含20个对象物体，每个物体有72幅图像，分别采集自物体的不同角度，每幅图像的分辨率为128×128，COIL数据库的部分图像如图5所示，在COIL数据库上，随机选择60个样本作为训练集，12个样本作为测试集，图6出了各个算法在不同特征维数下的识别率比较。

3、随机像素破坏的鲁棒性实验

为了进一步测试REGNMF算法对噪声和离群值的鲁棒性，在Yale数据库中分别加入密度为0.2的高斯噪声和密度为0.1的椒盐噪声，图7中(a)(b)(c)分别为Yale干净图像和加入密度为0.2的高斯噪声和密度为0.1的椒盐噪声后的图像，Yale数据库中包含15类165张图像，每类中含有11张图像，来自不同的光照、表情以及拍摄角度，每幅图像的分辨率为80

×100，本文随机选取不同的样本数2,3,4,5,6作为训练集，检测在降到相同维数6维的情况下各个算法的鲁棒性，表1给出了各个算法的图像识别率；

表1，不同噪声密度下各个算法的图像识别率

4、连续像素遮挡的鲁棒性实验

为了测试RGNMF算法对遮挡数据的敏感性，采用在AR数据库上分别加上5×5和10×10的遮挡块进行图像识别率的实验，图8中(a)(b)分别为AR加入不同遮挡块后的图像，本文选取24个样本作为训练集，检测在不同特征维数下各个算法的鲁棒性，图9和图10分别表示各个算法在不同遮挡下的图像识别率

5、结果分析

对于无噪声的数据，图3和图5显示了在AR和COIL数据库上各个算法随着特征维数的变化，可以看出在大多数情况下，REGNMF的效果明显优于其他算法，并且成功解决了小样本问题，在加入噪声的实验中，如表1所示，不同噪声密度下，REGNMF算法的效果要远远超过其他算法，人脸识别的分类精度高于其他算法1％-8％左右，在有遮挡的实验中，从图9和图10可以明显看出，REGNMF算法的鲁棒性更好，人脸识别率更高，因此更具有判别力，且在大多数情况中，REGNMF和GNMF的分类准确率远远高于其他算法，这是由于REGNMF和GNMF加入了图形正则化器，在降维的同时考虑了数据的结构，因此准确率更高。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：包括以下步骤，

步骤(B)，将优化后的NMF的目标函数与化简后的LPP的目标函数结合，并在NMF的基础上增加一个图正则化参数，以构成GNMF的目标函数；

步骤(D)，对REGNMF进行算法优化，再使REGNMF具备收敛性；

步骤(E)，利用不同的图像数据库，检验优化后的REGNMF的图像特征提取性能和对噪声以及离群值的鲁棒性。

2.根据权利要求1所述的一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：步骤(A)中，基于LPP的目标函数与NMF的目标函数，该LPP的目标函数如下：

3.根据权利要求2所述的一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：步骤(A)中，将LPP的目标函数化简，再引入约束条件，防止出现平凡解及转化降维问题，具体如下：

将LPP的目标函数化简，即公式(2)化简得到公式(3)：

公式(2)化简得到公式(3)的化简过程如下所示：

min tr(Y^TLY)

S.t.Y^TDY＝1 (4)。

4.根据权利要求1所述的一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：步骤(A)中，基于LPP的目标函数与NMF的目标函数，该NMF的目标函数如下：

O＝min||X-UY^T||² (5)。

5.根据权利要求4所述的一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：步骤(A)中，再将NMF的目标函数利用迭代更新规则进行优化，具体如下：

6.根据权利要求1所述的一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：步骤(B)中，将NMF的目标函数与LPP的目标函数结合，并在NMF的基础上增加一个图正则化参数，以构成GNMF的目标函数，即结合公式(4)与公式(5)，并增加一个图正则化参数，得到GNMF的目标函数如公式(8)所示：

O＝||X-UY^T||²+λtr(Y^TLY) (8)

其中，λ≥0，是正则化参数，Y^TLY是LPP的目标函数。

7.根据权利要求1所述的一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：步骤(C)中，在GNMF的目标函数中加入矩阵指数构成REGNMF的目标函数，即在公式(8)中加入矩阵指数，得到REGNMF的目标函数如公式(9)所示：

O＝||X-UV^T||²+λTr(V^Texp(L)V)，λ>0 (9)

8.根据权利要求1所述的一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：步骤(D)中，对REGNMF进行算法优化，具体如下：

O＝Tr((X-UV^T)(X-UV^T)^T)+λTr(V^Texp(L)V) (10)

O＝Tr(XX^T)-2Tr(XVU^T)+Tr(UV^TVU^T)+λTr(V^Texp(L)V) (11)

F＝Tr(XX^T)-2Tr(XVU^T)+Tr(UV^TVU^T)+λTr(V^Texp(L)V)+Tr(ψU^T)+Tr(ΦV^T) (12)

则F对U和V的偏导数分别如公式(13)和公式(14)所示：

-(XV)_iku_ik+(UV^TV)_iku_ik＝0 (15)

-(XV)_jkv_jk+(VU^TU)_jkv_jk+λ(exp(L)V)_jkv_jk＝0 (16)

根据上述公式得到更新后的规则如公式(17)和公式(18)所示：

9.根据权利要求1所述的一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：步骤(D)中，使REGNMF具备收敛性，具体如下：

10.根据权利要求1所述的一种基于REGNMF的大数据审计中图像特征提取方法，其特征在于：步骤(E)中，利用不同的图像数据库，检验REGNMF的图像特征提取性能和对噪声以及离群值的鲁棒性，该图像数据库分别为AR数据库、COIL数据库、含有随机噪声的Yale数据库以及含有遮挡的AR数据库。