CN109754008B

CN109754008B - 基于矩阵分解的高维对称稀疏网络缺失信息的估计方法

Info

Publication number: CN109754008B
Application number: CN201811620484.4A
Authority: CN
Inventors: 宋燕; 李明; 杨桂松
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2022-07-19
Anticipated expiration: 2038-12-28
Also published as: CN109754008A

Abstract

本发明公开了一种基于矩阵分解的高维对称稀疏网络缺失信息的估计方法，本方法首先初始化低维潜在特征矩阵，确定其个数和矩阵内部元素的初始化数值；基于高维对称稀疏网络中的已知元素设计目标函数；利用梯度学习方法，设计目标函数的求解算法；通过求解算法，最小化目标函数，得到潜在特征矩阵；将潜在特征矩阵相乘，得到高维对称稀疏网络的估计矩阵，由估计矩阵得到高维对称稀疏网络中的缺失信息。本方法克服现有从高维稀疏矩阵中提取有用信息的缺陷，提高缺失信息估计准确度和计算效率，并保证满足预测对称性和非负性。

Description

基于矩阵分解的高维对称稀疏网络缺失信息的估计方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于矩阵分解的高维对称稀疏网络缺失信息的估计方法。

背景技术

随着工业4.0时代的到来，许多工业中的应用，如社会服务网络、电子商务系统、生物信息应用、无线传感网络等，其规模也呈现爆炸式增长。在某些情况下，由于观察这些应用的内部实体之间的关系存在困难。因此高维稀疏矩阵成为描述这种不完全关系的一种常见形式。

尽管高维稀疏矩阵是稀疏的，但是仍然包含着大量的有用信息。例如，在推荐系统中的用户偏好、生物工程中的蛋白质连接、无线传感网络中的相对距离等。目前，已经有大量的模型已经被提出并用来从这类高维稀疏矩阵中提出有用信息，其中基于矩阵二分解的潜在特征模型就是重要的一种。首先，初始化低维潜在特征矩阵时，即将原来的矩阵分解为两个潜在特征矩阵，由于潜在特征矩阵中自由变量的个数较少，故此预测出来的数据往往准确度较低，不够理想。其次，基于高维对称稀疏矩阵设计目标函数时，需要将已知稀疏矩阵预填充，这种计算方式的效率较低。

尽管某些工业中的数据可以为负数，然而对于某些数据而言，如用户的偏爱程度、潜在的蛋白质连接、可能的结点距离等，这些数据都是非负的。在某些情况下，如对于特定的社会服务网络、特定结点下的无线传感网络，表示这些网络的高维稀疏矩阵不仅内部元素是非负的而且是对称的，则此时基于矩阵二分解的潜在特征估计模型不能同时兼顾满足这两个约束条件。

如何高效合理地利用已知网络中的有效信息，同时满足对称性和非负性两个特征，已成为研究针对高维对称稀疏网络的缺失信息估计方法的一个重要课题。因此，本领域的技术人员致力于开发一种针对高维对称稀疏网络的缺失信息估计方法，以提高现有方法的估计准确度和计算效率，并保证满足预测对称性和非负性。

发明内容

本发明所要解决的技术问题是提供一种基于矩阵分解的高维对称稀疏网络缺失信息的估计方法，本方法克服现有从高维稀疏矩阵中提取有用信息的缺陷，提高缺失信息估计准确度和计算效率，并保证满足预测对称性和非负性。

为解决上述技术问题，本发明基于矩阵分解的高维对称稀疏网络缺失信息的估计方法包括如下步骤：

步骤一、初始化低维潜在特征矩阵，确定低维潜在特征矩阵的个数和矩阵内部元素的初始化数值；

步骤二、基于高维对称稀疏网络中的已知元素设计目标函数；

步骤三、依据设计的目标函数，利用梯度学习方法，设计目标函数的求解算法；

步骤四、通过求解算法，最小化目标函数，得到潜在特征矩阵；

步骤五、将潜在特征矩阵相乘，得到高维对称稀疏网络的估计矩阵，由估计矩阵得到高维对称稀疏网络中的缺失信息。

进一步，所述初始化低维潜在特征矩阵包括如下步骤：

1)确定潜在特征矩阵分别为V_|N|×d,S_d×d和

其中，N为高维对称稀疏矩阵的维数，d为潜在特征矩阵的维数，且d<<N；V_|N|×d是一个行数为N、列数为d且内部元素为[0,1]之间的随机数矩阵；S_d×d是一个行数为d、列数为d且内部元素为[0,1]之间的随机数对称矩阵，

是V_|N|×d的转置矩阵；

2)对潜在特征矩阵的元素初始化时，随机赋予[0,1]之间的数值。

进一步，所述目标函数引入正则化项，用Q_|N|×|N|表示高维对称稀疏网络，Λ表示已知元素的集合，则目标函数可以表示为：

其中，q_i,j为已知的高维对称稀疏网络Q_|N|×|N|中第(i,j)位置上的元素；v_i,k为潜在特征矩阵V_|N|×d中第(i,k)位置上的元素；s_k,m为潜在特征矩阵S_d×d中第(k,m)位置上的元素；v_j,m为潜在特征矩阵V_|N|×d中第(j,m)位置上的元素；λ_v为目标函数中关于潜在特征矩阵V_|N|×d和

的正则化项参数；λ_s为目标函数中关于潜在特征矩阵S_d×d的正则化项参数。

进一步，所述梯度学习方法通过合理设计关于潜在特征矩阵V_|N|×d的学习率η_i,k：

和关于潜在特征矩阵S_d×d的学习率η_k,m：

来消除迭代更新公式中的负数项，从而保证潜在特征的非负性。

由于本发明基于矩阵分解的高维对称稀疏网络缺失信息的估计方法采用了上述技术方案，即本方法首先初始化低维潜在特征矩阵，确定其个数和矩阵内部元素的初始化数值；基于高维对称稀疏网络中的已知元素设计目标函数；利用梯度学习方法，设计目标函数的求解算法；通过求解算法，最小化目标函数，得到潜在特征矩阵；将潜在特征矩阵相乘，得到高维对称稀疏网络的估计矩阵，由估计矩阵得到高维对称稀疏网络中的缺失信息。本方法克服现有从高维稀疏矩阵中提取有用信息的缺陷，提高缺失信息估计准确度和计算效率，并保证满足预测对称性和非负性。

附图说明

下面结合附图和实施方式对本发明作进一步的详细说明：

图1为本方法的流程框图；

图2为本发明实施例中的验证对称效果图；

图3为本发明实施例中的计算迭代收敛图。

具体实施方式

实施例如图1所示，本发明基于矩阵分解的高维对称稀疏网络缺失信息的估计方法包括如下步骤：

优选的，所述初始化低维潜在特征矩阵包括如下步骤：

1)确定潜在特征矩阵分别为V_|N|×d,S_d×d和

是V_|N|×d的转置矩阵；

优选的，所述目标函数引入正则化项，用Q_|N|×|N|表示高维对称稀疏网络，Λ表示已知元素的集合，则目标函数可以表示为：

优选的，所述梯度学习方法通过合理设计关于潜在特征矩阵V_|N|×d的学习率η_i,k：

和关于潜在特征矩阵S_d×d的学习率η_k,m：

本方法在设计的相关算法的作用下，可以充分利用网络中存在的已知信息，从而有效提高计算效率，利用潜在特征矩阵与其转置及中间数据关系对称矩阵三者相乘，保证估计出的矩阵具有对称性，合理地设计学习率η，保证潜在特征矩阵为非负矩阵，本方法针对现实工业中存在的高维对称稀疏网络可以直接应用。

在本发明的一个较佳的实施案例中，首先初始化低维潜在特征矩阵，并在此基础上依据高维对称稀疏网络中的已知元素，设计目标函数；其次利用梯度学习法设计算法，通过使得目标函数值最小，而获得潜在特征矩阵，最终通过潜在特征矩阵相乘，得到原来高维对称稀疏网络的估计矩阵，从而得到原来相对应的矩阵的估计值。

本方法具体包括以下步骤：

第一步：初始化低维潜在特征矩阵；

所谓的初始化是指：确定潜在特征矩阵为V_|N|×d，S_d×d和

其中d为三个矩阵的维数，并且将三个矩阵内的元素赋予[0,1]之间的随机初始值；

第二步：基于高维对称稀疏网络中的已知元素设计目标函数；

所谓的已知元素是指：只需考虑高维对称稀疏网路中的已知元素，因此针对高维对称稀疏网络不需要进行预填充处理。

所谓的设计目标函数是指：为防止估计过程出现过拟合现象，此引入正则化原则，用Q_|N|×|N|表示高维对称稀疏网络，L表示已知元素的集合，则目标函数可以表示为：

第三步：依据以上提出的目标函数，利用梯度学习法，设计目标函数的求解算法；

所谓的利用梯度学习法：就是利用优化方法中的梯度学习方法，推导潜在特征矩阵V_|N|×d，S_d×d和

内的元素v_i,k，v_j,m和s_k,m的迭代更新公式，得到目标函数J的全局极小值，具体公式如下：

和

其中：J为目标函数，q_i,j为已知的高维对称稀疏网络Q_|N|×|N|中第(i,j)位置上的元素；v_i,k为潜在特征矩阵V_|N|×d中第(i,k)位置上的元素；s_k,m为潜在特征矩阵S_d×d中第(k,m)位置上的元素；v_j,m为潜在特征矩阵V_|N|×d中第(j,m)位置上的元素；λ_v为目标函数中关于潜在特征矩阵V_|N|×d和

的正则化项参数；λ_s为目标函数中关于潜在特征矩阵S_d×d的正则化项参数，η_i,k为关于潜在特征元素v_i,k的迭代更新学习率，η_k,m为关于潜在特征元素s_k,m的迭代更新学习率，η_j,m为关于潜在特征元素v_j,m的迭代更新学习率；

第四步：通过以上设计算法最小化目标函数，得到潜在特征矩阵；

所谓的设计算法指的是：由于v_i,k和v_j,m两项等价，所以只需更新迭代v_i,k和s_k,m两项，在v_i,k中，由第三步中的公式可以看出，其中的负数项为：

则，设学习率η为：

在s_k,m中，由第三步的公式可以看出，其中的负数项为

则，设置学习率η为：

根据以上可以推导出来更新公式为：

所谓的得到潜在特征矩阵指的是：对以上公式进行迭代，当出现以下两种情况之一时，将会停止迭代，则此时得到的矩阵V和S，即为潜在特征矩阵。(1)当迭代的次数达到1000次，(2)当迭代前后两次的矩阵对应位置的数值之差小于10^-6；

第五步：将初始化低维潜在特征矩阵相乘，得到高维对称稀疏网络的估计矩阵，从而得到高维对称稀疏网络中的缺失信息的估计值。

所谓的潜在特征矩阵相乘是指：将得到的潜在特征矩阵V和S，根据公式

得到Q的估计矩阵

依据矩阵的对应位置查找之前矩阵中缺失数据的估计值。

本方法采用矩阵三分解的思路，算法设计简单，依据原有的高维稀疏网络中的已有信息来设计目标函数，从而避免了将现有稀疏矩阵进行预填充的过程，从而提高了计算效率。在设计目标函数时，引入正则化项，从而避免了过拟合现象的发生，提高了预测数据的精准度。在潜在矩阵更新迭代时，利用梯度法并设计学习率η,从而巧妙地保证预测信息的非负性。

以下结合附图对本方法的构思，具体算法结构及产生的技术效果做进一步说明，以充分了解本发明的目的、特征和效果。

按照算法结构，本方法的步骤如下：

1、以某一声呐探测数据集为例，它是由美国索尔克研究所和加州大学及盟军信号航空航天技术中心共同公布的，这批数据由111个传感器在不同角度和不同状态下的金属声呐反射信号中采集，具体来说这个数据集包含1081600个数据，数据的大小范围为[0,1]，数据集的数据密度为43.04％(已知数据的个数占数据集大小的百分比)；

2、选取评价指标式

来评价估计准确度，其中，|·|_abs表示内部元素的绝对值，q_i,j为高维对称稀疏网络Q_i,j中第(i,j)位置上真实的缺失数据元素数据值，

为高维对称稀疏网络Q_i,j中第(i,j)位置上通过本发明提出的矩阵分解预测方法的缺失数据的估计预测值，Г表示缺失数据的集合，|Г|表示为缺失数据的集合中元素的个数；；NMAE越小则代表预测的准确度越高，反之，则表示预测精准度较差；设置参数n＝3000，d＝15，λ_v＝λ_s＝0.6，N＝104,为方便计算将数据的大小范围扩充为[0,5]；

3、按照以上参数及图1中的算法框架进行计算，与此同时，选取相同的参数和评价指标，将本方法与现有的基于矩阵二分解的针对高维对称稀疏网络的信息估计方法进行比较，并且重复实验五十次；

4、将计算结果

和

分别以横纵坐标进行分布绘图，如图2所示，可以看出数据沿着x＝y这条直线分布，说明预测的数据满足矩阵对称的条件。

5、选取五十次实验结果中最好、最差和平均的NMAE并记录如下表1中，在d＝15时，记录计算收敛过程，如图3所示；

表1

从表1和图3可以看出，本方法在预测精度方面，优于现有的矩阵二分解的信息估计模型，由此可看出，本方法可对高维对称稀疏网络中的缺失信息进行较高精度的预测。

本方法利用矩阵三分解技术进行稀疏数据估计，并且相关模型及算法设计简单易行，适用于相关工业数据分析，可以直接工作于现有的实际网络环境，具有计算效率高、数据存储量低、估计的数据分布对称、数据估计准确度高的特点。

Claims

1.一种基于矩阵分解的高维对称稀疏网络缺失信息的估计方法，其特征在于本方法包括如下步骤：

步骤一、由若干传感器采集的声呐探测数据集构成高维对称稀疏网络，V_|N|×d,S_d×d和

是关于声呐探测数据集构成的高维对称稀疏网络的潜在特征矩阵，

其中，N为高维对称稀疏矩阵的维数，d为潜在特征矩阵的维数，且d＜＜N；V_|N|×d是一个行数为N、列数为d且内部元素为[0,1]之间的随机数矩阵；S_d×d是一个行数为d、列数为d且内部元素为[0,1]之间的随机数对称矩阵，

是V_|N|×d的转置矩阵，初始化低维潜在特征矩阵，并随机赋予[0,1]之间的数值；

步骤五、将潜在特征矩阵相乘，得到高维对称稀疏网络的估计矩阵，由估计矩阵得到高维对称稀疏网络中的缺失信息；

其中，所述目标函数引入正则化项，用Q_|N|×|N|表示高维对称稀疏网络，Λ表示已知元素的集合，则目标函数可以表示为：

2.根据权利要求1所述的基于矩阵分解的高维对称稀疏网络缺失信息的估计方法，其特征在于：所述梯度学习方法通过合理设计关于潜在特征矩阵V_|N|×d的学习率η_i,k和关于潜在特征矩阵S_d×d的学习率η_k,m来消除迭代更新公式中的负数项，从而保证潜在特征的非负性，学习率η_i,k和学习率η_k,m的表达式分别为：

。