CN107451613A

CN107451613A - 异构信息网络的半监督学习方法及装置

Info

Publication number: CN107451613A
Application number: CN201710639781.2A
Authority: CN
Inventors: 姜和; 宋阳秋; 王晨光; 张铭; 孙怡舟
Original assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Current assignee: Guangzhou HKUST Fok Ying Tung Research Institute
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-12-08

Abstract

本发明实施例提供了一种异构信息网络的半监督学习方法及装置，先根据多个实体的类型构建所述异构信息网络的概要图；将异构信息网络的概要图划分为若干个子图，每一所述子图对应一元图，分别计算每一所述元图的邻接矩阵；其中，所述子图包括预设的实体类型；对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量，将所述第一预测标签向量进行集成获得所述类别的第二预测标签向量，从而根据第二预测标签向量预测未标记节点的标记结果，克服了现有的基于图的半监督学习仅适用于同构信息网络的局限性，且能有效解决现有采用元路径进行随机游走存在不稳定的问题，能有效提高半监督学习的效率。

Description

异构信息网络的半监督学习方法及装置

技术领域

本发明涉及机器学习领域，尤其涉及一种异构信息网络的半监督学习方法及装置。

背景技术

机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能，机器学习方法例如监督学习方法，通常要求历史数据都有明确的概念标记(称为有标记数据)且要求有大量的有标记数据。在很多现实任务中，由于概念标记的获取需要耗费大量的人力物力资源，因此有标记数据通常是稀少的，而大量没有概念标记的历史数据(称为未标记数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题，而半监督学习方法是应用部分标记的数据进行训练的一种机器学习算法。一种主流的半监督学习方法为图的半监督学习，所谓的图主要是基于数据相似度的k最近邻度，但是这种方法将图中的实体和边看作是同一类型。

在真实世界中，存在各种类型的数据，从而构成了异构信息网络，异构信息网络的半监督学习方法已经得到广泛关注。现有技术通过预设元路径进行异构信息网络的半监督学习，随机游走的路径需由元路径的类型来限定，例如，如图1b所示，当随机游走的路径为v1→v2→v3→v4→v5，其中，v1的类别为A1,v2的类别为A2,v3的类别为A3,v4的类别为A4,v5的类别为A5,可以理解的是，对于图1a所示的元路径A1→A2→A3→A2，获得的邻接矩阵的次级矩阵分别是W_A1,A2,W_A2,A3和W_A3,A2，如图1c所示，而对于A2→A1，如果所述邻接矩阵也包括次级矩阵W_A1,A2，则当随机游走执行A2→A3，也存在一定的可能性执行A2→A1，因此采用元路径进行半监督学习的随机游走存在不稳定缺点。

发明内容

本发明实施例的目的是提供一种异构信息网络的半监督学习方法及装置，能有效解决现有的半监督学习局限于同构信息网络，且能有效解决现有采用元路径进行随机游走存在不稳定的问题，能有效提高半监督学习的效率。

为实现上述目的，本发明实施例提供了一种异构信息网络的半监督学习方法，包括步骤：

获取多个实体的信息构建异构信息网络，并根据所述多个实体的类型构建所述异构信息网络的概要图；其中，所述异构信息网络中的每一节点与每一实体相对应；

将异构信息网络的概要图划分为若干个子图，每一所述子图对应一元图，分别计算每一所述元图的邻接矩阵；其中，所述子图包括预设的实体类型；

根据每一所述元图的邻接矩阵，对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量；

根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。

与现有技术相比，本发明公开的异构信息网络的半监督学习方法通过基于构建的异构信息网络的概要图划分为若干个子图，以每一子图作为一个元图基于预设的类别进行标记传递过程，从而获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量技术，然后根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果，能有效克服了现有的基于图的半监督学习仅适用于同构信息网络的局限性，且能有效解决现有采用元路径进行随机游走存在不稳定的问题，能有效提高半监督学习的效率。

作为上述方案的改进，所述标记传递过程为惰性随机游走过程，所述惰性随机游走过程的转移概率矩阵为：

P＝(1-α)I+αWD^-1

其中，P为所述惰性随机游走过程的转移概率矩阵，α为控制标记向邻居节点传递的概率，W为邻接矩阵，D为对角阵，且对角元素D_ii＝∑W_ij。

作为上述方案的改进，所述惰性随机游走过程具体为：从已标记节点出发进行惰性随机游走，直到所有未标记节点的第一预测标记向量不再改变时则停止；其中，所述所有未标记节点的第一预测标记向量不再改变需满足存在稳态分布概率π使得P＝πP。

作为上述方案的改进，对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量具体为：

基于预设的类别，根据每一所述元图的邻接矩阵通过以下公式进行迭代运算：

其中，所述为时刻t+1已学习的标记向量，为时刻t已学习的标记向量，为元图S_i的邻接矩阵，为对角阵，且对角元素I_k初始标记向量；

当迭代至所述获得所述类别的若干个第一预测标记向量，具体为：

其中，所述为基于类别k和元图S_i的第一预测标记向量。

作为上述方案的改进，将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为：

通过支持向量机模型将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。通过支持向量机算法可实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。

通过期望最大化算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。该算法能有效考虑未标记数据的作用，使学习到的参数更能反映真实的分布。

通过协同训练算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。该算法可以简便地处理标记置信度估计问题以及对未见示例的预测问题,还可以利用集成学习来提高泛化能力。

通过投票表决算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。

本发明实施例还提供了一种异构信息网络的半监督学习装置，包括：

异构信息网络构造模块，用于获取多个实体的信息构建异构信息网络，并根据所述多个实体的类型构建所述异构信息网络的概要图；其中，所述异构信息网络中的每一节点与每一实体相对应；

元图构造模块，用于将异构信息网络的概要图划分为若干个子图，每一所述子图对应一元图，分别计算每一所述元图的邻接矩阵；其中，所述子图包括预设的实体类型；

标记传递执行模块，用于根据每一所述元图的邻接矩阵，对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量；；

预测模块，用于根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。

与现有技术相比，本发明公开的异构信息网络的半监督学习装置通过异构信息网络构造模块构造异构信息网络的概要图，然后通过元图构造模块基于构建的异构信息网络的概要图划分为若干个子图，以每一子图作为一个元图，分别计算每一元图的邻接矩阵，再通过标记传递执行模块基于预设的类别对每一元图进行标记传递过程，从而获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量，接着通过预测模块根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果，解决了现有的半监督学习局限于同构信息网络，且能有效解决现有采用元路径进行随机游走存在不稳定的问题，能有效提高半监督学习的效率。

P＝(1-α)I+αWD^-1

附图说明

图1a是现有技术中元路径一实施例的示意图。

图1b是现有技术采用基于元路径进行随机游走的示意图。

图1c是现有技术中与元路径对应的邻接矩阵的示意图。

图2是本发明实施例1中一种异构信息网络的半监督学习方法的流程示意图。

图3a是本发明提供的元图的一优选实施例示意图。

图3b是本发明基于元图进行随机游走的示意图。

图3c是本发明中与元图对应的邻接矩阵的示意图。

图4是本发明实施例2中一种异构信息网络的半监督学习装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图2，是本发明实施例1中一种异构信息网络的半监督学习方法的流程示意图，包括步骤：

S1、获取多个实体的信息构建异构信息网络，并根据所述多个实体的类型构建所述异构信息网络的概要图；其中，所述异构信息网络中的每一节点与每一实体相对应；

其中，信息网络，Information Network,可以用一个有向图G＝(V,E)来表示，其中V代表节点Object，E代表边Edge。并且用映射函数φ:V→A来表示每一Object v∈V属于Object类型集合A:φ(v)∈A，用映射函数Ψ：E→R。表示每条边e∈E属于边的类型集合R:ψ(e)∈R。应该说明的是，如果两条边连接的起始节点和终止节点的type都相同，则这两条边是同一种类型。特别的，如果|A|>1或者|R|>1，即节点的类型和边的类型大于1时，则该信息网络为异构信息网络，Heterogeneous Information Network，简称HIN，否则为同构信息网络，Homogeneous Information Network。异构信息网络的概要图即用类型表示的异构信息网络T_G＝(A,R)。

S2、将异构信息网络的概要图划分为若干个子图，每一所述子图对应一元图，分别计算每一所述元图的邻接矩阵；其中，所述子图包括预设的实体类型；

例如，T_s＝(As,Rs)是异构信息网络概要图T_G＝(A,R)的子图，其中，As属于A，Rs属于R。可以理解的，所述元图为包括一入度为0度的源节点和一出度为0度的目标节点的有向无环图。

S3、根据每一所述元图的邻接矩阵，对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量；

其中，对类别k和元图s₁进行标记传播后得到的第一预测标记向量可用表示，可以理解的，通过对第一预测向量进行集成获得所述类别k的第二预测向量可用下面的式子表示：

其中，g_k为集成运算，为对基于多个元图进行标记传播得到的第一预测向量进行集成后获得第二预测向量；分别是基于元图s₁,…,s_G获得的第一预测向量。

S4、根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。

通过步骤S3得到若干个第二预测标记向量分别为I₁,…,I_K，可选取最大值作为节点v_j的类别标记结果。

基于上述方案，本实施例提出了元图的概念，通过基于构建的异构信息网络的概要图划分为若干个子图，以每一子图作为一个元图基于预设的类别进行标记传递过程，从而获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量技术，然后根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果，能有效克服了现有的基于图的半监督学习仅适用于同构信息网络的局限性，且能有效解决现有采用元路径进行随机游走存在不稳定的问题，能有效提高半监督学习的效率。

在一优选实施例中，所述标记传递过程为惰性随机游走过程，所述惰性随机游走过程的转移概率矩阵为：

P＝(1-α)I+αWD^-1

图的随机游走(Random Walk)是指给定一个图和一个出发点，加入有一个粒子，随机选择一个节点作为初始节点开始出发，移动到邻居节点上，然后把当前节点作为出发点，重复以上过程，而被随机选出的节点序列就构成了一个在图上的随机游走过程。可以理解的，惰性随机游走是指，在粒子移动过程中，在下一时刻除了可移动到邻居节点，还可以停留在当前节点。

P中i行j列元素标识x_j从x_i上学习获得标记的概率，因为在标记传递算法中，数据的标记是从近邻传递过来的，则有则步骤S3中所述对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量具体为：

其中，所述为时刻t+1已学习的标记向量，为时刻t已学习的标记向量，为元图S_i的邻接矩阵，为对角阵，且对角元素I_k初始标记向量；在初始标记向量中，其中已标记节点用1表示，未标记节点用0表示；

其中，所述为基于类别k和元图s_i的第一预测标记向量。

可以理解的，所述惰性随机游走过程具体为：从已标记节点出发进行惰性随机游走，直到所有未标记节点的第一预测标记向量不再改变时则停止；其中，所述所有未标记节点的第一预测标记向量不再改变需满足存在稳态分布概率π使得P＝πP。

设G为矩阵D-αW的倒数，则对于任一元图和未标记节点v_i，其第一预测标记向量为设T_i,j＝min{t≥0|V_t＝v_j,V₀＝v_i,v_i≠v_j}为从节点v_i到节点v_j的第一碰撞时间，T_i,i＝min{t≥0|V_t＝v_j,V₀＝v_i,v_i≠v_j}从节点v_i到节点v_j的第一返回时间，用H_ij表示T_i,j的期望值，则节点v_i和节点v_j之间的交换时间C_ij＝H_ij+H_ji，则可得到C_ij∝G_ii+G_jj-G_ij-G_ji。上述关系与欧几里得空间的规律相对应，即m维空间中两个点的距离越近，则两个点越相似。其中，本方案节点v_i和节点v_j之间的交换时间越短，则节点v_i和节点v_j之间的距离越短，则根据上述的式子，节点v_i和节点v_j之间的相似度越高。

为了便于说明，下面以一个异构信息网络为例对本案进行进一步的解析。如图2所示，异构信息网络HIN的其中一个元图包括A1，A2和A3三种类别，基于该元图的随机游走如图3b所示，由此可见两条典型的随机游走路线。图3a为与图2相对应的全连通双向元图，其对应的邻接矩阵如图3c所示，其证明了一种稳定的马尔科夫链，因此本方案能有效解决采用元路径进行半监督学习的随机游走存在不稳定缺点。

通过上述的标记传递过程，每迭代依次，类别标记就会更新一次。类别标记以标记数据为起点，最先传递到其近邻的未标记数据，而后传递给次级近邻，标记的最终状态时所有未标记数据的类别向量不再变动，即类别标记在所有未标记数据上实现平滑分布。

可以理解的，对于集成算法g_k存在多种实现的方式，使用于本方案的可优选为支持向量机、期望最大化算法、协同训练算法和投片表决算法等。下面，将对这些算法进行详细的说明。

投票表决法(Majority Voting)是一种最简单的分类器组合方法。其基本思想为，由基分类器对样本进行预测，每一个基分类器对自己所预测的类投一票，得到票数最多的类就是该样本的最终预测结果。

期望最大化算法(Expectation Maximization,EM)是一种迭代算法，用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。在本方案中，可采用软投票算法估计每个标签向量的质量，从而为每一第一预测标记向量进行投票获得所有兴趣节点的最终标记分配结果。

协同训练算法(Co-training)是通过数据集的两个视图对数据进行分类，其具体为：首先在标记数据集L的x1和x2上训练出两个分类器h1和h2；从未标记数据集U上随机的选取u个示例放入集合U’中；用h1对U’中所有元素进行标记，从中选出p个正标记和n个负标记，用h2对U中所有元素进行标记，从中选出p个正标记和n个负标记，将上面选出的2p+2n个标记加入L中，随机从U中选取2p+2n个数据补充到U’中；重复上述过程直到满足条件。在本方案中，每个元图携带不同的语义信息，每个元图可为某些样本进行分类并获得其他样本的随机结果，因此，本发明可通过采用协同训练算法将特定元图中高可信度的标记结果传递至其他元图。

支持向量机((Support Vector Machines，SVM)其含义是通过支持向量运算的分类器，其中心思想是要找到一个线性分类的最佳超平面。具体的，其通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。在本方案中，基于元图的随机游走的输出分数，使用标记数据学习输出分数的线性组合。基于已知的S_G个元图和K个类别，可学习具有S_G×K维度特征的K-类别支持向量机。

优选地，考虑到图的拉普拉斯矩阵的半正定属性，本发明实施例提供的异构信息网络的半监督学习可采用共轭梯度下降算法(conjugate gradient descent，CGD)进行时间复杂度的计算。

参见图4，是本发明实施例2提供的一种异构信息网络的半监督学习装置的结构示意图，包括：

异构信息网络构造模块101，用于获取多个实体的信息构建异构信息网络，并根据所述多个实体的类型构建所述异构信息网络的概要图；其中，所述异构信息网络中的每一节点与每一实体相对应；

元图构造模块102，用于将异构信息网络的概要图划分为若干个子图，每一所述子图对应一元图，分别计算每一所述元图的邻接矩阵；其中，所述子图包括预设的实体类型；

标记传递执行模块103，用于根据每一所述元图的邻接矩阵，对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量；

其中，g_k为集成运算，为基于多个元图进行随机游走得到的第一预测向量进行集成后获得第二预测向量；

预测模块104，用于根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。

P＝(1-α)I+αWD^-1

P中i行j列元素标识x_j从x_i上学习获得标记的概率，因为在标记传递算法中，数据的标记是从近邻传递过来的，则标记传递执行模块103对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量具体为：

其中，所述为基于类别k和元图S_i的第一预测标记向量。

可以理解的，对于集成算法g_k存在多种实现的方式，使用于本方案的可优选为支持向量机、期望最大化算法、协同训练算法和投片表决算法等。

本发明实施例提供的异构信息网络的半监督学习装置的具体实施过程可参考上述对异构信息网络的半监督学习方法的具体描述，在此不再赘述。

综上，本发明实施例提供了一种异构信息网络的半监督学习方法及装置，通过基于构建的异构信息网络的概要图划分为若干个子图，以每一子图作为一个元图基于预设的类别进行标记传递过程，从而获得所述类别的若干个第一预测标记向量，将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量技术，然后根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果，能有效克服了现有的基于图的半监督学习仅适用于同构信息网络的局限性，且能有效解决现有采用元路径进行随机游走存在不稳定的问题，能有效提高半监督学习的效率。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种异构信息网络的半监督学习方法，其特征在于，包括步骤：

2.如权利要求1所述的异构信息网络的半监督学习方法，其特征在于，所述标记传递过程为惰性随机游走过程，所述惰性随机游走过程的转移概率矩阵为：

P＝(1-α)I+αWD^-1

3.如权利要求2所述的异构信息网络的半监督学习方法，其特征在于，所述惰性随机游走过程具体为：从已标记节点出发进行惰性随机游走，直到所有未标记节点的第一预测标记向量不再改变时则停止；其中，所述所有未标记节点的第一预测标记向量不再改变需满足存在稳态分布概率π使得P＝πP。

4.如权利要求2所述的异构信息网络的半监督学习方法，其特征在于，对预设的类别执行每一所述元图的标记传递过程，获得所述类别的若干个第一预测标记向量具体为：

<mrow> <msubsup> <mi>f</mi> <mi>k</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> </msubsup> <mo>=</mo> <msup> <mi>&alpha;W</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </msup> <msup> <mi>D</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </msup> <msubsup> <mi>f</mi> <mi>k</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>t</mi> </msup> </msubsup> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <msub> <mi>I</mi> <mi>k</mi> </msub> </mrow>

<mrow> <msubsup> <mi>f</mi> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mi>I</mi> <mo>-</mo> <msup> <mi>&alpha;W</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </msup> <msup> <mi>D</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </msup> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>I</mi> <mi>k</mi> </msub> </mrow>

其中，所述为基于类别k和元图s_i的第一预测标记向量。

5.如权利要求1所述的异构信息网络的半监督学习方法，其特征在于，将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为：

通过支持向量机模型将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。

6.如权利要求1所述的异构信息网络的半监督学习方法，其特征在于，将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为：

通过期望最大化算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。

7.如权利要求1所述的异构信息网络的半监督学习方法，其特征在于，将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为：

通过协同训练算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。

8.如权利要求1所述的异构信息网络的半监督学习方法，其特征在于，将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为：

9.一种异构信息网络的半监督学习装置，其特征在于，包括：

预测模块，用于根据据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。

10.如权利要求9所述的异构信息网络的半监督学习装置，其特征在于，所述标记传递过程为惰性随机游走过程，所述惰性随机游走过程的转移概率矩阵为：

P＝(1-α)I+αWD^-1