CN112770013B

CN112770013B - 一种基于边采样的异质信息网络嵌入方法

Info

Publication number: CN112770013B
Application number: CN202110055438.XA
Authority: CN
Inventors: 王梦惟; 利强; 潘晔; 王沙飞; 邵怀宗; 林静然
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2022-05-20
Anticipated expiration: 2041-01-15
Also published as: CN112770013A

Abstract

本发明公开了一种基于边采样的异质信息网络嵌入方法，包括以下步骤：S1、对情报数据集中每一条边的权重进行预处理，得到游走权重；S2、从情报元素节点集中选取第i个情报元素节点作为游走起点，对游走起点基于边采样进行额定长度的多次游走，得到游走数组；S3、重复步骤S2，直到i等于情报元素节点集V中节点的总数|V|，将多个游走数组构建为游走数组集；S4、选取游走数组集中的一个游走数组，并基于该游走数组构建训练样本，训练单隐层神经网络；S5、将情报元素节点集中的情报元素节点输入训练完成的单隐层神经网络，得到嵌入向量；本发明解决了目前已有的图嵌入算法中不能处理带权图和游走受限的问题。

Description

一种基于边采样的异质信息网络嵌入方法

技术领域

本发明涉及数据安全技术领域，具体涉及一种基于边采样的异质信息网络嵌入方法。

背景技术

现有技术中关于情报数据层次分级的方法很少，仅有根据用户属性或特定行为进行划分的方法，该类方法依赖于用户属性和行为，扩展性不强。现有技术中存在情报分析的方法，基于内容相似度的推送方法中使用关键词及专家打分建立用户兴趣模型，并计算相似度后进行推荐，其本质还是基础矩阵分解的内容，缺点是无法解决矩阵稀疏性的问题；基于检索系统的方法中使用不同的国际和国内联机联合检索系统，对于关键词进行筛选、对比、分类等操作，缺点是无法针对每个用户做出个性化的推荐；基于情报定制服务的方法中，根据用户属性和特点进行主动的情报推送，缺点是没有挖掘并利用用户的隐式需求。

现有技术中的图嵌入算法包括基于相似度保留、消息传递和关系学习的图嵌入算法。

基于相似度保留的图嵌入算法有metapathvec，由元路径约束，在关系网络中进行随机游走，并使用skip-gram算法进行训练。缺点是游走结果必须匹配元路径，捕捉到的节点结构信息不够全面。基于消息传递的图嵌入使用图神经网络，HAN在第k层卷积使用聚合邻点信息得到节点向量。缺点是图神经网络开销较大，在图卷积过程中需要将整张图输入到内存中。并且只针对同类型节点之间的边效果较好。基于关系学习的图嵌入将关系网络中每个边看成一个三元组，transE优化一个打分函数，对任意三元组进行评估。缺点是只对处理一对一的关系有效，不能处理一对多或多对一的关系。

上述方法共同缺点是没有考虑到处理边带权的异质信息网络，均将带权边作为不加权的边进行处理。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于边采样的异质信息网络嵌入方法解决了目前已有的图嵌入算法中不能处理带权图和游走受限的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于边采样的异质信息网络嵌入方法，包括以下步骤：

S1、对情报数据集中每一条边的权重进行预处理，得到游走权重；

S2、从情报元素节点集中选取第i个情报元素节点作为游走起点，基于游走权重，对游走起点基于边采样进行额定长度的多次游走，得到游走数组；

S3、判断i是否等于|V|，若是，将得到的多个游走数组构建为游走数组集，并跳转至步骤S4，若否，则将i自加1，返回步骤S2，其中，|V|为情报元素节点集V中情报元素节点的总数，1≤i≤|V|；

S4、选取游走数组集中的一个游走数组，并基于该游走数组构建训练样本，将训练样本输入单隐层神经网络，并采用随机梯度下降法进行训练，得到训练完成的单隐层神经网络；

S5、将情报元素节点集中的情报元素节点输入训练完成的单隐层神经网络，得到嵌入向量。

进一步地：步骤S1中游走权重的计算公式为：

其中，w′为游走权重，a_p,q(n_pre,n_next)为游走偏移，

为当前情报元素节点n_cur和下一跳情报元素节点n_next间所连边的权重，n_pre为当前情报元素节点n_cur的上一跳情报元素节点，p为控制游走偏向DFS的参数，q为控制游走偏向BFS的参数，

为从上一跳情报元素节点n_pre到下一跳情报元素节点n_next的跳数。

进一步地：步骤S2中对游走起点基于边采样进行额定长度的多次游走，得到游走数组包括以下分步骤：

A1、对游走起点n_i的每条邻边构建矩形，将面积大于1的游走起点n_i的第j条邻边的矩形大于1的部分分配至面积小于1的矩形中，得到面积为1的多个矩形；

A2、将多个矩形构建为矩形框，并基于矩形框构建第一数组accept和第二数组alias，其中，accept[j]为游走起点n_i的第j条邻边对应的邻情报元素节点

占矩形框第j列矩形的面积比例，alias[j]为矩形框的第j列矩形中另一个邻情报元素节点的编号；

A3、生成两组随机数random_ri∈[0,N-1]和a_ri～U(0,1)，其中，N为游走起点n_i的邻情报元素节点总数，U(0,1)为服从0到1的均匀分布，ri为游走起点n_i当前游走的第ri次；

A4、判断随机数a_ri是否小于面积比例accept[j]，若是，则将邻情报元素节点

加入游走数组walk_i，若否，则将邻情报元素节点

加入游走数组walk_i；

A5、判断游走数组walk_i中的元素数量是否小于额定长度，若是，则返回步骤A3，若否，则得到的游走数组walk_i。

上述进一步方案的有益效果为：使用较低时间复杂度的方法根据边权重对情报元素节点进行有偏游走，令采样得到的游走数组能够更好表征该异质信息网络的结构。

进一步地：步骤A2中未分配前构建的游走起点n_i的第j条邻边对应的矩形面积为：

其中，

为游走起点n_i的第j条邻边对应权重，

为游走起点n_i的第m条邻边对应权重，M为矩形的数量，j为游走起点n_i的第j条邻边，m为游走起点n_i的第m条邻边。

进一步地：步骤A1中的矩形容纳不超过2个邻边的矩形的面积。

进一步地：步骤S4中单隐层神经网络包括：输入层、隐层和输出层；所述输入层、隐层和输出层依次连接，所述输入层的输入端作为单隐层神经网络的输入端，所述输出层的输出端作为单隐层神经网络的输出端。

进一步地：步骤S4包括以下分步骤：

S41、取游走数组walk_i中的情报元素节点w_im为中心词，其中，walk_i为游走数组集中第i个游走数组，walk_i＝[w_i1,w_i2,w_i3,…,w_il]，1≤m≤l，m初值为1，l为游走数组walk_i中的元素的数量；

S42、取中心词w_im前后的游走数组walk_i中的k个情报元素节点，结合中心词w_im组成节点总长为2*k+1的序列

S43、将序列

与中心词w_im作为训练样本

S44、随机初始化输入层的节点向量为|V|*d的输入层到隐层权重矩阵X∈R^|V|*d，其中，d为每个节点向量维度，R^|V|*d为|V|*d维向量空间，权重矩阵X∈R^|V|*d中元素的取值范围为

S45、将隐层到输出层的权重矩阵进行初始化，得到维度为|V|*d的全0的权重矩阵Y∈R^|V|*d；

S46、采用随机梯度下降法对目标函数进行优化，使目标函数最大化并更新权重矩阵X∈R^|V|*d和Y∈R^|V|*d，得到训练完成的单隐层神经网络。

进一步地：步骤S46中目标函数为：

其中，O(x)为目标函数，v为情报元素节点集V中的情报元素节点，T_v为情报元素节点类型集，t为节点类型集T_v中的情报元素节点类型，c_t为情报元素节点v的邻点中并其类型属于t的情报元素节点，X_ct为情报元素节点c_t的嵌入向量，X_v为情报元素节点v的嵌入向量，u为情报元素节点集V中的情报元素节点，X_u为情报元素节点u的嵌入向量，N_t(v)为v的邻点集中类型是t的所有情报元素节点。

上述进一步方案的有益效果为：将游走数组等效为句子文本，将情报元素节点等效为单词，对文本进行词嵌入。通过训练一个单隐层神经网络，得到情报元素节点的低维嵌入。

综上，本发明的有益效果为：在随机游走的基础上提出了基于有偏采样的游走，使用较低时间复杂度的方法根据边权重对情报元素节点进行有偏采样的游走，得到的游走数组能够更好表征该异质信息网络的结构；并改进了原有词嵌入算法的目标函数，通过训练一个单隐层神经网络，得到情报元素节点的低维嵌入。

附图说明

图1为一种基于边采样的异质信息网络嵌入方法的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于边采样的异质信息网络嵌入方法，包括以下步骤：

步骤S1中游走权重的计算公式为：

其中，w′为游走权重，a_p,q(n_pre,n_next)为游走偏移，

为当前情报元素节点n_cur和下一跳情报元素节点n_next间所连边的权重，n_pre为当前情报元素节点n_cur的上一跳情报元素节点，p为控制游走偏向DFS的参数，p越小则游走的下一个节点离情报元素节点v越近，即维持游走序列在点n_cur周围，q为控制游走偏向BFS的参数，q越小则游走的下一个节点距离点n_cur越远，

步骤S2中对游走起点基于边采样进行额定长度的多次游走，得到游走数组包括以下分步骤：

步骤A1中的矩形容纳不超过2个邻边的矩形的面积。

步骤A2中未分配前构建的游走起点n_i的第j条邻边对应的矩形面积为：

其中，

为游走起点n_i的第j条邻边对应权重，

加入游走数组walk_i，若否，则将邻情报元素节点

加入游走数组walk_i；

步骤S4中单隐层神经网络包括：输入层、隐层和输出层；所述输入层、隐层和输出层依次连接，所述输入层的输入端作为单隐层神经网络的输入端，所述输出层的输出端作为单隐层神经网络的输出端。

步骤S4包括以下分步骤：

S43、将序列

与中心词w_im作为训练样本

步骤S46中目标函数为：

其中，O(x)为目标函数，v为情报元素节点集V中的情报元素节点，T_v为情报元素节点类型集，t为节点类型集T_v中的情报元素节点类型，c_t为情报元素节点v的邻点中并其类型属于t的情报元素节点，

为情报元素节点c_t的嵌入向量，X_v为情报元素节点v的嵌入向量，u为情报元素节点集V中的情报元素节点，X_u为情报元素节点u的嵌入向量，N_t(v)为v的邻点集中类型是t的所有情报元素节点。