CN107729290A

CN107729290A - 一种利用局部敏感哈希优化的超大规模图的表示学习方法

Info

Publication number: CN107729290A
Application number: CN201710857844.1A
Authority: CN
Inventors: 李笑宇; 陈修司; 周畅; 高军
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2018-02-23
Anticipated expiration: 2037-09-21
Also published as: CN107729290B

Abstract

本发明公开了一种利用局部敏感哈希优化的超大规模图的表示学习方法。本方法为：使用局部敏感哈希函数对目标图的每一节点进行计算，并根据计算结果定义该节点的节点向量；从该目标图的图结构中获取训练样本；基于所述训练样本，采用skip‑gram模型对该目标图中各节点的节点向量进行训练，得到该目标图中各节点对应的节点向量表示。本发明解决了现实网络结构中普遍存在的“长尾现象”带来的困扰，同时考虑到网络中的内容信息和结构信息，适合分布式实现，具有高可扩展性。

Description

一种利用局部敏感哈希优化的超大规模图的表示学习方法

技术领域

本发明属于信息技术领域，涉及大规模图结构的表示学习方法，尤其涉及一种利用局部敏感哈希优化的超大规模图的表示学习方法。

背景技术

图上的表示学习，又称“图嵌入”(Graph Embedding)，是指将图中的每个节点映射为可以保持节点特征的低维向量表示的算法。“图嵌入”算法得到的节点向量表示可以视为图中节点的基本特征，作为图上的其他机器学习任务的一般性输入。

之前的有关“图嵌入”算法的研究工作大多着重利用图的网络结构信息进行学习，比较典型的方法包括DeepWalk,LINE,node2vec等。然而，现实世界的网络结构常常是稀疏且分布不均衡的。少量“热门”节点连接着大部分的边，结构信息紧密，而大量的“冷门”节点连接的边数很少，结构信息稀疏，也即“长尾效应”。因此，仅基于网络结构信息的方法对于大量的结构信息稀疏的“长尾节点”的表示效果往往不尽如人意。

发明内容

本发明提出了一种适用于计算大规模网络的节点向量表示的方案，尤其旨在解决现实网络结构中普遍存在的“长尾现象”带来的困扰。该算法同时考虑到网络中的内容信息和结构信息，适合分布式实现，具有高可扩展性。

本发明使用局部敏感哈希函数在图中节点之间建立基于节点内容信息的关联，再从原图结构中使用随机游走方法生成训练样本，使用skip-gram模型训练对应的节点向量。该方法可以同时利用每个节点的内容信息和整体网络结构来进行表示学习，具有高可扩展性，在结构长尾效应显著的图上尤其具有较好的效果。

本专利申请是以节点内容信息作为输入的局部敏感哈希函数。局部敏感哈希的特质保证了节点内容信息相近的节点的哈希映射也是接近的，从而，内容接近的节点通过共享哈希输出建立了联系。本发明基于每个节点的哈希输出重新定义了其对应的向量，重定义的方式可以确保内容信息接近的节点将拥有相近的最终表示向量。本发明使用随机游走方法从原图结构中获取训练样本，然后采用skip-gram模型在重定义的节点向量上进行训练。该方法在大规模的结构长尾效应明显的图上相比基于纯结构的方法具有明显优势，体现了融合内容信息的优势，且适用于分布式架构实现，有高度可扩展性。

本发明针对现有基于纯结构的图表示学习的方法的不足，创新地提出了利用局部敏感哈希函数来融合内容信息。相较于基于纯结构的方法，本发明具有以下优点：

1)本发明同时利用了网络内容信息和结构信息。结合方法为先使用局部敏感哈希的输出在内容信息接近的节点之间建立关联，然后使用从网络结构中通过随机游走方式生成的训练样本进行训练。这样的结合方式可以关联那些图中距离较远而内容相近的节点，这是基于结构的方法所无法做到的。而且本发明利用内容信息的关联增强了原先可能较为稀疏的图结构，且经过内容信息关联后，原本结构稀疏的冷门节点也可以共享热门节点的结构信息，从而能够有效地解决基于纯结构的“图嵌入”方案在“长尾效应”明显的图结构上效果较差的问题。

2)本发明能够节省冗余空间。本发明利用以节点内容信息作为输入的局部敏感哈希函数重定义了节点向量，改变了之前方法中每个节点都对应其独有的向量的方式。在现实网络中往往存在大量的同质节点，例如电商网站的商品图中，存在大量不同店家出售的基本一致的商品。如果每个节点都占据其独有的存储空间则会造成同质节点向量的反复存储。本发明改变了节点向量定义，内容信息相近的节点有大概率共享向量参数，因此可以节省同质节点带来的冗余空间问题。

3)本发明适用于分布式计算框架，具有高可扩展性。本发明中的算法已经在阿里云分布式计算框架odps ps(阿里云参数服务器)上有过顺利实现，图规模达到千万级别。

附图说明

图1为基于局部敏感哈希重定义节点向量表示的示意图；

图2为训练过程中，单个样本的梯度更新过程示意图。

具体实施方式

下文通过具体实施例，并配合附图，对本发明方法的算法流程进行说明。

首先，本发明介绍算法中使用到的局部敏感哈希函数的设计，然后介绍本发明是如何重定义每个节点的向量的，最后本发明将介绍算法最终训练节点向量表示的过程。

(1)以节点内容信息作为输入的局部敏感哈希函数

step a.本发明将节点内容信息处理为低维实数向量，作为后续哈希函数的输入。将内容信息处理为低维实数向量的过程可以利用已有的算法。例如，本发明在阿里云的实验中，图结构为从用户点击序列中抽取构造的商品图，每个商品对应图中一个节点，将商品的标题文本作为对应节点的内容信息。本发明将商品标题文本处理为低维向量的过程如下：先将所有商品的标题文本分词，然后以所有标题文本作为训练语料库，利用word2vec中的skip-gram模型，将每个商品的标题文本视作一个window进行训练，训练得到词库中所有词的d维词向量。由于标题通常为短文本，本发明将标题中包含的所有词的词向量的平均作为标题向量，也即对应节点的内容向量。

step b.本发明采用超平面切分的方式设计局部敏感哈希函数。局部敏感哈希函数需要具有输入值(节点内容向量)越接近，则输出到同一桶号的概率越大的特性。本发明的设计方法是随机生成k个d维超平面，由于在d维空间中，一个将空间划分为两部分的超平面可以由一个d维实数向量表示，因而事实上即为随机生成k个d维实数向量，记作这k个超平面共同构成了一个局部敏感的哈希函数。对于两个输入的d维节点内容向量，如果他们均在k个超平面的同一侧，则认为它们在这一哈希函数下最终具有相同的输出值。具体的哈希函数计算方法是，输入某个节点的d维内容向量让它与每一个超平面对应的向量都分别做内积内积大于等于0则记录为1，否则记录为0。于是对于一个输入内容向量可以得到一个k维0/1向量，也即一个k位二进制数，该k位二进制数即为该节点在这一哈希函数下的输出。两个输入向量和在该哈希函数下具有相同的输出值当且仅当对于所有的i＝1,2,..,k，与的正负符号相同。可以看出，本发明设计的每个哈希函数的桶数为2^k。

step c.由局部敏感哈希得到图中每个节点的m维离散编码表示。本发明m次使用上一步中的构建方式，可以得到一个哈希函数族{h^(j)},j∈{1,2,…,m}，其中每个哈希函数h^(j)的值域都有0,1,…,2^k-1这2^k个取值(这里的每个哈希函数都随机生成了k个超平面，也即整个哈希函数族中共使用了m*k个超平面)。将图中所有节点的内容信息向量都分别输入到这m个哈希函数中计算后，每个节点会得到m个桶号，即每个节点有了一个新的m维离散编码表示，这个m维离散编码表示是由节点内容信息经过局部敏感哈希映射后得到的。由于局部敏感哈希函数的特性，内容上相近的节点的m维离散编码表示也是接近的。接下来本发明将介绍如何基于每个节点的m维离散编码来重定义节点的向量。

(2)节点向量的重新定义

在之前的基于纯结构的“图嵌入”算法中，每个节点u都被映射为两个向量s_u和t_u，即“源向量”和“目的向量”。在本发明的算法中仍然保留了“源向量”和“目的向量”的概念，区别在于每个节点不再独立拥有它们各自的向量，而是哈希函数族{h^(j)}中每个哈希函数的每一个哈希桶都对应一对“源向量”和“目的向量”。具体来说，哈希函数h^(j)(j∈{1,2,…,m})的编号为i(i∈{0,1,…,2^k-1})的哈希桶对应的“源向量”和“目的向量”分别为和

对于图中的某一节点u，记其对应的“内容向量”为e_u，记其经过哈希函数映射后得到的m维离散编码表示为ind表示index，即索引的意思；本发明如下定义该节点的“源向量”和“目的向量”s_u和t_u：

也即，本发明定义某个节点的“源向量”为其经过哈希函数族{h^(j)}映射后得到的对应的m个哈希桶的“源向量”的平均，“目的向量”为其经过哈希函数族{h^(j)}映射后得到的对应的m个哈希桶的“目的向量”的平均。在上一节中本发明已经分析过，内容信息越相似的节点经过映射后会共享数目越多的哈希桶，而每个节点的向量又直接等于其对应哈希桶的向量的平均，因此内容信息越相似的节点，它们对应“源向量”和“目的向量”也会分别越接近。本发明通过这种方式利用节点内容信息，在内容信息接近的节点的向量表示之间通过共享的哈希桶来建立联系，哈希函数的计算过程能够自动完成确定哪些节点的内容信息接近。接下来，本发明再将这种新的定义方式纳入到基于结构的训练框架中，从而达到文本和结构信息的结合。

节点向量重定义的图示如图1。

(3)训练过程介绍

在完成节点向量的重定义后，本发明可以将新的定义方式纳入基于结构的训练框架中，得到本发明需要的节点向量表示。本发明采用的模型是近年来在自然语言处理领域非常流行的skip-gram模型。在原图中，采用使用带有终止概率的随机游走策略从图结构中生成训练样本。

随机游走策略的具体介绍(随机游走策略属于已有成果，不属于本发明的贡献)如下：从某个节点u出发进行游走，设当前到达的节点为t，有p的概率在t处终止游走；有1-p的概率继续游走，前往与t有边连接的任一节点，前往哪一个节点的概率与t和这些点之间的边的权值成正比(现实图中边的权值通常反映了边两端的节点所代表的实体联系的紧密程度，因此让前往概率与边权成正比是合理的)。游走持续进行，直到在某一点v处算法选择终止游走。最终，(u,v)点对便是我们在这条路径中得到的正样本。p是算法设计者可以人为控制的参数，p越大则随机游走得到的路径的平均长度越短。

对于正样本(u,v)，本发明使用softmax函数来定义源节点u预测到目标节点v的概率：

其中V是图中的顶点集，s_u和t_v分别为重定义后的u节点“源向量”和v节点“目的向量”。尝试直接优化上面这一概率公式是非常耗时的，因为公式需要计算该节点的源向量与图中所有节点的目的向量的内积之和。为了提高训练的效率，本发明采用了随机负例(negative sampling)的策略来优化，重定义了源节点u预测到目标节点v的概率：

其中，σ是sigmoid函数，P_D是一个预先设定好的节点分布，通常即为节点的均匀分布(所有点被采样到的概率都相等)，表示的是从节点分布P_D中，随机采样出点n的过程，t_n即为采样得到的点n的“目的向量”。对于每个正例，本发明从该分布中随机采样k个负例。记为在整个采样过程中我们采样得到的正样本(u,v)的个数，则训练的全局的目标函数如下式所示。

注意到上式中s_u,t_v,t_n都不是独立的参数，而是由节点经过局部敏感哈希映射到的哈希桶对应的向量计算得来的。因此，本发明将之前部分中介绍的节点向量的重定义方式代入，即将我们重定义后的节点向量纳入上述基于结构的训练框架中，得到最终的全局目标函数：

全局目标函数以最大化观测到的所有实例概率对数和为目标，更新每个哈希函数的每个哈希桶所对应的“源向量”和“目的向量”。训练的最终结果得到的是每个哈希函数的每个哈希桶对应的“源向量”和“目的向量”，并进而可以依据节点的重定义计算得到图中所有节点的向量表示。

全局的目标函数看上去比较繁琐，但是在训练过程中，参数的更新过程事实上并不复杂。例如给定一个训练正例(u,v)，本发明通过最大化从节点u预测得到节点v的概率，进而更新节点u对应的m个“源向量”和节点v对应的m个“目的向量”。具体更新过程如图2所示：本发明首先通过u和v的哈希桶索引找到节点u对应的m个“源向量”和节点v对应的m个“目的向量”，取平均后得到它们各自对应的向量s_u和t_v，然后用得到的s_u,t_v代入求导后的公式，计算得到每个参数上需要更新的梯度数值，再反向更新回各个哈希桶对应的向量即可。

实施例

淘宝商品图表示学习实例：

以淘宝网的线上商品作为图节点，依据淘宝用户一天内的点击序列构建节点之间的边(在点击序列中紧邻的前后两个商品之间连一条边)，形成一张商品关系图，图规模达到千万级别。

本发明使用每个节点对应的淘宝商品的“标题”作为该节点的“内容信息”(例如“鸿星尔克男鞋网面气垫跑鞋夜光慢跑”)。在实验中，本发明将“标题”转化为200维的实数向量。转化方法为先对全网商品的标题文本进行分词，然后以所有商品的标题作为训练语料库，将每个标题作为一个window，套用word2vec中的skip-gram中得到语料库中所有词的向量表示。由于商品标题都是短文本，本发明采用标题中所有词的向量表示的平均作为对应节点的“内容向量”。

在得到各节点的内容向量后，采用本发明中提到的方法构造局部敏感的哈希函数并训练各个商品的向量表示。实验结果表明，将本发明中的方法计算得到的向量表示应用到实际的线上推荐中，相比于基于“纯结构”的图表示学习方法得到的结果(APP,ScalableGraph Embedding for Asymmetric Proximity,AAAI2017)，在点击率指标上有明显的提升。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种利用局部敏感哈希优化的超大规模图的表示学习方法，其步骤包括：

使用局部敏感哈希函数对目标图的每一节点进行计算，并根据计算结果定义该节点的节点向量；

从该目标图的图结构中获取训练样本；

基于所述训练样本，采用skip-gram模型对该目标图中各节点的节点向量进行训练，得到该目标图中各节点对应的节点向量表示。

2.如权利要求1所述的方法，其特征在于，采用超平面切分的方式设计m个所述局部敏感哈希函数，得到一个哈希函数族{h^(j)},j∈{1,2,…,m}；其中，每一所述局部敏感哈希函数包括随机生成的k个d维超平面，如果两个输入的d维向量均在该k个d维超平面的同一侧，则这两个d维向量在这一哈希函数下具有相同的输出值。

3.如权利要求2所述的方法，其特征在于，所述局部敏感哈希函数的桶数为2^k。

4.如权利要求2所述的方法，其特征在于，所述局部敏感哈希函数的计算方法为：对于输入的d维向量，将该d维向量与该d维向量在每一超平面对应的向量分别做内积，内积大于等于0则记录为1，否则记录为0，得到该d维向量的输出结果，即一k位二进制数。

5.如权利要求2或3所述的方法，其特征在于，使用局部敏感哈希函数对目标图的每一节点进行计算，并根据计算结果定义该节点的节点向量的方法为：

1)将该目标图的节点内容信息处理为d维向量分别输入所述哈希函数族{h^(j)}中的每一所述局部敏感哈希函数；其中，第j个所述局部敏感哈希函数h^(j)将节点u的d维向量e_u映射到编号为i的哈希桶，即该哈希桶的源向量和目的向量与该节点u对应；

2)对该目标图的每一节点，对该节点对应的m个哈希桶的源向量取平均值作为该节点的源向量、对该节点对应的m个哈希桶的目的向量取平均值作为对该节点的目的向量。

6.如权利要求5所述的方法，其特征在于，将节点向量最相近的两节点作为内容信息相似节点，在内容信息相似节点的向量表示之间通过共享的哈希桶来建立关联。

7.如权利要求5所述的方法，其特征在于，基于所述训练样本，采用skip-gram模型对该目标图中各节点的节点向量进行训练的方法为：对于训练样本(u,v)，训练样本(u,v)为一正例，采用公式计算源节点u预测到目标节点v的概率；其中，表示的是从节点分布P_D中，随机采样出点n的过程，s_u为源节点u的源向量，t_v为目标节点u节点的目的向量，t_n为采样得到的点n的目的向量；P_D是一个预先设定好的节点分布，对于每一训练样本(u,v)，从该节点分布P_D中随机采样k个负例；然后采用全局目标函数更新每个所述局部敏感哈希函数的每个哈希桶所对应的源向量和目的向量；进而依据更新结果计算该目标图中各节点对应的节点向量表示；其中，为正例(u,v)的个数。

8.如权利要求5所述的方法，其特征在于，基于所述训练样本，采用skip-gram模型对该目标图中各节点的节点向量进行训练的方法为：对于训练样本(u,v)，训练样本(u,v)为一正例，采用公式计算源节点u预测到目标节点v的概率；其中，表示的是从节点分布P_D中，随机采样出点n的过程，s_u为源节点u的源向量，t_v为目标节点u节点的目的向量，t_n为采样得到的点n的目的向量；P_D是一个预先设定好的节点分布，对于每一训练样本(u,v)，从该节点分布P_D中随机采样k个负例；然后采用全局目标函数更新每个所述局部敏感哈希函数的每个哈希桶所对应的源向量和目的向量；进而依据更新结果计算该目标图中各节点对应的节点向量表示；其中，为正例(u,v)的个数。

9.如权利要求1所述的方法，其特征在于，从该目标图的图结构中使用随机游走方法生成训练样本。