CN107451613A - 异构信息网络的半监督学习方法及装置 - Google Patents

异构信息网络的半监督学习方法及装置 Download PDF

Info

Publication number
CN107451613A
CN107451613A CN201710639781.2A CN201710639781A CN107451613A CN 107451613 A CN107451613 A CN 107451613A CN 201710639781 A CN201710639781 A CN 201710639781A CN 107451613 A CN107451613 A CN 107451613A
Authority
CN
China
Prior art keywords
mrow
classification
vector
information network
heterogeneous information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710639781.2A
Other languages
English (en)
Inventor
姜和
宋阳秋
王晨光
张铭
孙怡舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou HKUST Fok Ying Tung Research Institute
Original Assignee
Guangzhou HKUST Fok Ying Tung Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou HKUST Fok Ying Tung Research Institute filed Critical Guangzhou HKUST Fok Ying Tung Research Institute
Priority to CN201710639781.2A priority Critical patent/CN107451613A/zh
Publication of CN107451613A publication Critical patent/CN107451613A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种异构信息网络的半监督学习方法及装置,先根据多个实体的类型构建所述异构信息网络的概要图;将异构信息网络的概要图划分为若干个子图,每一所述子图对应一元图,分别计算每一所述元图的邻接矩阵;其中,所述子图包括预设的实体类型;对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量,将所述第一预测标签向量进行集成获得所述类别的第二预测标签向量,从而根据第二预测标签向量预测未标记节点的标记结果,克服了现有的基于图的半监督学习仅适用于同构信息网络的局限性,且能有效解决现有采用元路径进行随机游走存在不稳定的问题,能有效提高半监督学习的效率。

Description

异构信息网络的半监督学习方法及装置
技术领域
本发明涉及机器学习领域,尤其涉及一种异构信息网络的半监督学习方法及装置。
背景技术
机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能,机器学习方法例如监督学习方法,通常要求历史数据都有明确的概念标记(称为有标记数据)且要求有大量的有标记数据。在很多现实任务中,由于概念标记的获取需要耗费大量的人力物力资源,因此有标记数据通常是稀少的,而大量没有概念标记的历史数据(称为未标记数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题,而半监督学习方法是应用部分标记的数据进行训练的一种机器学习算法。一种主流的半监督学习方法为图的半监督学习,所谓的图主要是基于数据相似度的k最近邻度,但是这种方法将图中的实体和边看作是同一类型。
在真实世界中,存在各种类型的数据,从而构成了异构信息网络,异构信息网络的半监督学习方法已经得到广泛关注。现有技术通过预设元路径进行异构信息网络的半监督学习,随机游走的路径需由元路径的类型来限定,例如,如图1b所示,当随机游走的路径为v1→v2→v3→v4→v5,其中,v1的类别为A1,v2的类别为A2,v3的类别为A3,v4的类别为A4,v5的类别为A5,可以理解的是,对于图1a所示的元路径A1→A2→A3→A2,获得的邻接矩阵的次级矩阵分别是WA1,A2,WA2,A3和WA3,A2,如图1c所示,而对于A2→A1,如果所述邻接矩阵也包括次级矩阵WA1,A2,则当随机游走执行A2→A3,也存在一定的可能性执行A2→A1,因此采用元路径进行半监督学习的随机游走存在不稳定缺点。
发明内容
本发明实施例的目的是提供一种异构信息网络的半监督学习方法及装置,能有效解决现有的半监督学习局限于同构信息网络,且能有效解决现有采用元路径进行随机游走存在不稳定的问题,能有效提高半监督学习的效率。
为实现上述目的,本发明实施例提供了一种异构信息网络的半监督学习方法,包括步骤:
获取多个实体的信息构建异构信息网络,并根据所述多个实体的类型构建所述异构信息网络的概要图;其中,所述异构信息网络中的每一节点与每一实体相对应;
将异构信息网络的概要图划分为若干个子图,每一所述子图对应一元图,分别计算每一所述元图的邻接矩阵;其中,所述子图包括预设的实体类型;
根据每一所述元图的邻接矩阵,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量;
根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。
与现有技术相比,本发明公开的异构信息网络的半监督学习方法通过基于构建的异构信息网络的概要图划分为若干个子图,以每一子图作为一个元图基于预设的类别进行标记传递过程,从而获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量技术,然后根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果,能有效克服了现有的基于图的半监督学习仅适用于同构信息网络的局限性,且能有效解决现有采用元路径进行随机游走存在不稳定的问题,能有效提高半监督学习的效率。
作为上述方案的改进,所述标记传递过程为惰性随机游走过程,所述惰性随机游走过程的转移概率矩阵为:
P=(1-α)I+αWD-1
其中,P为所述惰性随机游走过程的转移概率矩阵,α为控制标记向邻居节点传递的概率,W为邻接矩阵,D为对角阵,且对角元素Dii=∑Wij
作为上述方案的改进,所述惰性随机游走过程具体为:从已标记节点出发进行惰性随机游走,直到所有未标记节点的第一预测标记向量不再改变时则停止;其中,所述所有未标记节点的第一预测标记向量不再改变需满足存在稳态分布概率π使得P=πP。
作为上述方案的改进,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量具体为:
基于预设的类别,根据每一所述元图的邻接矩阵通过以下公式进行迭代运算:
其中,所述为时刻t+1已学习的标记向量,为时刻t已学习的标记向量,为元图Si的邻接矩阵,为对角阵,且对角元素Ik初始标记向量;
当迭代至所述获得所述类别的若干个第一预测标记向量,具体为:
其中,所述为基于类别k和元图Si的第一预测标记向量。
作为上述方案的改进,将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为:
通过支持向量机模型将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。通过支持向量机算法可实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。
作为上述方案的改进,将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为:
通过期望最大化算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。该算法能有效考虑未标记数据的作用,使学习到的参数更能反映真实的分布。
作为上述方案的改进,将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为:
通过协同训练算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。该算法可以简便地处理标记置信度估计问题以及对未见示例的预测问题,还可以利用集成学习来提高泛化能力。
作为上述方案的改进,将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为:
通过投票表决算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。
本发明实施例还提供了一种异构信息网络的半监督学习装置,包括:
异构信息网络构造模块,用于获取多个实体的信息构建异构信息网络,并根据所述多个实体的类型构建所述异构信息网络的概要图;其中,所述异构信息网络中的每一节点与每一实体相对应;
元图构造模块,用于将异构信息网络的概要图划分为若干个子图,每一所述子图对应一元图,分别计算每一所述元图的邻接矩阵;其中,所述子图包括预设的实体类型;
标记传递执行模块,用于根据每一所述元图的邻接矩阵,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量;;
预测模块,用于根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。
与现有技术相比,本发明公开的异构信息网络的半监督学习装置通过异构信息网络构造模块构造异构信息网络的概要图,然后通过元图构造模块基于构建的异构信息网络的概要图划分为若干个子图,以每一子图作为一个元图,分别计算每一元图的邻接矩阵,再通过标记传递执行模块基于预设的类别对每一元图进行标记传递过程,从而获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量,接着通过预测模块根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果,解决了现有的半监督学习局限于同构信息网络,且能有效解决现有采用元路径进行随机游走存在不稳定的问题,能有效提高半监督学习的效率。
作为上述方案的改进,所述标记传递过程为惰性随机游走过程,所述惰性随机游走过程的转移概率矩阵为:
P=(1-α)I+αWD-1
其中,P为所述惰性随机游走过程的转移概率矩阵,α为控制标记向邻居节点传递的概率,W为邻接矩阵,D为对角阵,且对角元素Dii=∑Wij
附图说明
图1a是现有技术中元路径一实施例的示意图。
图1b是现有技术采用基于元路径进行随机游走的示意图。
图1c是现有技术中与元路径对应的邻接矩阵的示意图。
图2是本发明实施例1中一种异构信息网络的半监督学习方法的流程示意图。
图3a是本发明提供的元图的一优选实施例示意图。
图3b是本发明基于元图进行随机游走的示意图。
图3c是本发明中与元图对应的邻接矩阵的示意图。
图4是本发明实施例2中一种异构信息网络的半监督学习装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图2,是本发明实施例1中一种异构信息网络的半监督学习方法的流程示意图,包括步骤:
S1、获取多个实体的信息构建异构信息网络,并根据所述多个实体的类型构建所述异构信息网络的概要图;其中,所述异构信息网络中的每一节点与每一实体相对应;
其中,信息网络,Information Network,可以用一个有向图G=(V,E)来表示,其中V代表节点Object,E代表边Edge。并且用映射函数φ:V→A来表示每一Object v∈V属于Object类型集合A:φ(v)∈A,用映射函数Ψ:E→R。表示每条边e∈E属于边的类型集合R:ψ(e)∈R。应该说明的是,如果两条边连接的起始节点和终止节点的type都相同,则这两条边是同一种类型。特别的,如果|A|>1或者|R|>1,即节点的类型和边的类型大于1时,则该信息网络为异构信息网络,Heterogeneous Information Network,简称HIN,否则为同构信息网络,Homogeneous Information Network。异构信息网络的概要图即用类型表示的异构信息网络TG=(A,R)。
S2、将异构信息网络的概要图划分为若干个子图,每一所述子图对应一元图,分别计算每一所述元图的邻接矩阵;其中,所述子图包括预设的实体类型;
例如,Ts=(As,Rs)是异构信息网络概要图TG=(A,R)的子图,其中,As属于A,Rs属于R。可以理解的,所述元图为包括一入度为0度的源节点和一出度为0度的目标节点的有向无环图。
S3、根据每一所述元图的邻接矩阵,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量;
其中,对类别k和元图s1进行标记传播后得到的第一预测标记向量可用表示,可以理解的,通过对第一预测向量进行集成获得所述类别k的第二预测向量可用下面的式子表示:
其中,gk为集成运算,为对基于多个元图进行标记传播得到的第一预测向量进行集成后获得第二预测向量;分别是基于元图s1,…,sG获得的第一预测向量。
S4、根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。
通过步骤S3得到若干个第二预测标记向量分别为I1,…,IK,可选取最大值作为节点vj的类别标记结果。
基于上述方案,本实施例提出了元图的概念,通过基于构建的异构信息网络的概要图划分为若干个子图,以每一子图作为一个元图基于预设的类别进行标记传递过程,从而获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量技术,然后根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果,能有效克服了现有的基于图的半监督学习仅适用于同构信息网络的局限性,且能有效解决现有采用元路径进行随机游走存在不稳定的问题,能有效提高半监督学习的效率。
在一优选实施例中,所述标记传递过程为惰性随机游走过程,所述惰性随机游走过程的转移概率矩阵为:
P=(1-α)I+αWD-1
其中,P为所述惰性随机游走过程的转移概率矩阵,α为控制标记向邻居节点传递的概率,W为邻接矩阵,D为对角阵,且对角元素Dii=∑Wij
图的随机游走(Random Walk)是指给定一个图和一个出发点,加入有一个粒子,随机选择一个节点作为初始节点开始出发,移动到邻居节点上,然后把当前节点作为出发点,重复以上过程,而被随机选出的节点序列就构成了一个在图上的随机游走过程。可以理解的,惰性随机游走是指,在粒子移动过程中,在下一时刻除了可移动到邻居节点,还可以停留在当前节点。
P中i行j列元素标识xj从xi上学习获得标记的概率,因为在标记传递算法中,数据的标记是从近邻传递过来的,则有则步骤S3中所述对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量具体为:
基于预设的类别,根据每一所述元图的邻接矩阵通过以下公式进行迭代运算:
其中,所述为时刻t+1已学习的标记向量,为时刻t已学习的标记向量,为元图Si的邻接矩阵,为对角阵,且对角元素Ik初始标记向量;在初始标记向量中,其中已标记节点用1表示,未标记节点用0表示;
当迭代至所述获得所述类别的若干个第一预测标记向量,具体为:
其中,所述为基于类别k和元图si的第一预测标记向量。
可以理解的,所述惰性随机游走过程具体为:从已标记节点出发进行惰性随机游走,直到所有未标记节点的第一预测标记向量不再改变时则停止;其中,所述所有未标记节点的第一预测标记向量不再改变需满足存在稳态分布概率π使得P=πP。
设G为矩阵D-αW的倒数,则对于任一元图和未标记节点vi,其第一预测标记向量为设Ti,j=min{t≥0|Vt=vj,V0=vi,vi≠vj}为从节点vi到节点vj的第一碰撞时间,Ti,i=min{t≥0|Vt=vj,V0=vi,vi≠vj}从节点vi到节点vj的第一返回时间,用Hij表示Ti,j的期望值,则节点vi和节点vj之间的交换时间Cij=Hij+Hji,则可得到Cij∝Gii+Gjj-Gij-Gji。上述关系与欧几里得空间的规律相对应,即m维空间中两个点的距离越近,则两个点越相似。其中,本方案节点vi和节点vj之间的交换时间越短,则节点vi和节点vj之间的距离越短,则根据上述的式子,节点vi和节点vj之间的相似度越高。
为了便于说明,下面以一个异构信息网络为例对本案进行进一步的解析。如图2所示,异构信息网络HIN的其中一个元图包括A1,A2和A3三种类别,基于该元图的随机游走如图3b所示,由此可见两条典型的随机游走路线。图3a为与图2相对应的全连通双向元图,其对应的邻接矩阵如图3c所示,其证明了一种稳定的马尔科夫链,因此本方案能有效解决采用元路径进行半监督学习的随机游走存在不稳定缺点。
通过上述的标记传递过程,每迭代依次,类别标记就会更新一次。类别标记以标记数据为起点,最先传递到其近邻的未标记数据,而后传递给次级近邻,标记的最终状态时所有未标记数据的类别向量不再变动,即类别标记在所有未标记数据上实现平滑分布。
可以理解的,对于集成算法gk存在多种实现的方式,使用于本方案的可优选为支持向量机、期望最大化算法、协同训练算法和投片表决算法等。下面,将对这些算法进行详细的说明。
投票表决法(Majority Voting)是一种最简单的分类器组合方法。其基本思想为,由基分类器对样本进行预测,每一个基分类器对自己所预测的类投一票,得到票数最多的类就是该样本的最终预测结果。
期望最大化算法(Expectation Maximization,EM)是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。在本方案中,可采用软投票算法估计每个标签向量的质量,从而为每一第一预测标记向量进行投票获得所有兴趣节点的最终标记分配结果。
协同训练算法(Co-training)是通过数据集的两个视图对数据进行分类,其具体为:首先在标记数据集L的x1和x2上训练出两个分类器h1和h2;从未标记数据集U上随机的选取u个示例放入集合U’中;用h1对U’中所有元素进行标记,从中选出p个正标记和n个负标记,用h2对U中所有元素进行标记,从中选出p个正标记和n个负标记,将上面选出的2p+2n个标记加入L中,随机从U中选取2p+2n个数据补充到U’中;重复上述过程直到满足条件。在本方案中,每个元图携带不同的语义信息,每个元图可为某些样本进行分类并获得其他样本的随机结果,因此,本发明可通过采用协同训练算法将特定元图中高可信度的标记结果传递至其他元图。
支持向量机((Support Vector Machines,SVM)其含义是通过支持向量运算的分类器,其中心思想是要找到一个线性分类的最佳超平面。具体的,其通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。在本方案中,基于元图的随机游走的输出分数,使用标记数据学习输出分数的线性组合。基于已知的SG个元图和K个类别,可学习具有SG×K维度特征的K-类别支持向量机。
优选地,考虑到图的拉普拉斯矩阵的半正定属性,本发明实施例提供的异构信息网络的半监督学习可采用共轭梯度下降算法(conjugate gradient descent,CGD)进行时间复杂度的计算。
参见图4,是本发明实施例2提供的一种异构信息网络的半监督学习装置的结构示意图,包括:
异构信息网络构造模块101,用于获取多个实体的信息构建异构信息网络,并根据所述多个实体的类型构建所述异构信息网络的概要图;其中,所述异构信息网络中的每一节点与每一实体相对应;
元图构造模块102,用于将异构信息网络的概要图划分为若干个子图,每一所述子图对应一元图,分别计算每一所述元图的邻接矩阵;其中,所述子图包括预设的实体类型;
标记传递执行模块103,用于根据每一所述元图的邻接矩阵,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量;
其中,对类别k和元图s1进行标记传播后得到的第一预测标记向量可用表示,可以理解的,通过对第一预测向量进行集成获得所述类别k的第二预测向量可用下面的式子表示:
其中,gk为集成运算,为基于多个元图进行随机游走得到的第一预测向量进行集成后获得第二预测向量;
预测模块104,用于根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。
在一优选实施例中,所述标记传递过程为惰性随机游走过程,所述惰性随机游走过程的转移概率矩阵为:
P=(1-α)I+αWD-1
其中,P为所述惰性随机游走过程的转移概率矩阵,α为控制标记向邻居节点传递的概率,W为邻接矩阵,D为对角阵,且对角元素Dii=∑Wij
P中i行j列元素标识xj从xi上学习获得标记的概率,因为在标记传递算法中,数据的标记是从近邻传递过来的,则标记传递执行模块103对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量具体为:
基于预设的类别,根据每一所述元图的邻接矩阵通过以下公式进行迭代运算:
其中,所述为时刻t+1已学习的标记向量,为时刻t已学习的标记向量,为元图Si的邻接矩阵,为对角阵,且对角元素Ik初始标记向量;
当迭代至所述获得所述类别的若干个第一预测标记向量,具体为:
其中,所述为基于类别k和元图Si的第一预测标记向量。
可以理解的,对于集成算法gk存在多种实现的方式,使用于本方案的可优选为支持向量机、期望最大化算法、协同训练算法和投片表决算法等。
本发明实施例提供的异构信息网络的半监督学习装置的具体实施过程可参考上述对异构信息网络的半监督学习方法的具体描述,在此不再赘述。
综上,本发明实施例提供了一种异构信息网络的半监督学习方法及装置,通过基于构建的异构信息网络的概要图划分为若干个子图,以每一子图作为一个元图基于预设的类别进行标记传递过程,从而获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量技术,然后根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果,能有效克服了现有的基于图的半监督学习仅适用于同构信息网络的局限性,且能有效解决现有采用元路径进行随机游走存在不稳定的问题,能有效提高半监督学习的效率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种异构信息网络的半监督学习方法,其特征在于,包括步骤:
获取多个实体的信息构建异构信息网络,并根据所述多个实体的类型构建所述异构信息网络的概要图;其中,所述异构信息网络中的每一节点与每一实体相对应;
将异构信息网络的概要图划分为若干个子图,每一所述子图对应一元图,分别计算每一所述元图的邻接矩阵;其中,所述子图包括预设的实体类型;
根据每一所述元图的邻接矩阵,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量;
根据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。
2.如权利要求1所述的异构信息网络的半监督学习方法,其特征在于,所述标记传递过程为惰性随机游走过程,所述惰性随机游走过程的转移概率矩阵为:
P=(1-α)I+αWD-1
其中,P为所述惰性随机游走过程的转移概率矩阵,α为控制标记向邻居节点传递的概率,W为邻接矩阵,D为对角阵,且对角元素Dii=∑Wij
3.如权利要求2所述的异构信息网络的半监督学习方法,其特征在于,所述惰性随机游走过程具体为:从已标记节点出发进行惰性随机游走,直到所有未标记节点的第一预测标记向量不再改变时则停止;其中,所述所有未标记节点的第一预测标记向量不再改变需满足存在稳态分布概率π使得P=πP。
4.如权利要求2所述的异构信息网络的半监督学习方法,其特征在于,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量具体为:
基于预设的类别,根据每一所述元图的邻接矩阵通过以下公式进行迭代运算:
<mrow> <msubsup> <mi>f</mi> <mi>k</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> </msubsup> <mo>=</mo> <msup> <mi>&amp;alpha;W</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </msup> <msup> <mi>D</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </msup> <msubsup> <mi>f</mi> <mi>k</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>t</mi> </msup> </msubsup> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&amp;alpha;</mi> <mo>)</mo> </mrow> <msub> <mi>I</mi> <mi>k</mi> </msub> </mrow>
其中,所述为时刻t+1已学习的标记向量,为时刻t已学习的标记向量,为元图si的邻接矩阵,为对角阵,且对角元素Ik初始标记向量;
当迭代至所述获得所述类别的若干个第一预测标记向量,具体为:
<mrow> <msubsup> <mi>f</mi> <mi>k</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mi>I</mi> <mo>-</mo> <msup> <mi>&amp;alpha;W</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </msup> <msup> <mi>D</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> </msup> <mo>)</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>I</mi> <mi>k</mi> </msub> </mrow>
其中,所述为基于类别k和元图si的第一预测标记向量。
5.如权利要求1所述的异构信息网络的半监督学习方法,其特征在于,将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为:
通过支持向量机模型将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。
6.如权利要求1所述的异构信息网络的半监督学习方法,其特征在于,将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为:
通过期望最大化算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。
7.如权利要求1所述的异构信息网络的半监督学习方法,其特征在于,将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为:
通过协同训练算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。
8.如权利要求1所述的异构信息网络的半监督学习方法,其特征在于,将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量具体为:
通过投票表决算法将每一所述第一预测标签向量进行集成获得所述类别对应的第二预测标签向量。
9.一种异构信息网络的半监督学习装置,其特征在于,包括:
异构信息网络构造模块,用于获取多个实体的信息构建异构信息网络,并根据所述多个实体的类型构建所述异构信息网络的概要图;其中,所述异构信息网络中的每一节点与每一实体相对应;
元图构造模块,用于将异构信息网络的概要图划分为若干个子图,每一所述子图对应一元图,分别计算每一所述元图的邻接矩阵;其中,所述子图包括预设的实体类型;
标记传递执行模块,用于根据每一所述元图的邻接矩阵,对预设的类别执行每一所述元图的标记传递过程,获得所述类别的若干个第一预测标记向量,将每一所述第一预测标签向量进行集成获得所述类别的第二预测标签向量;;
预测模块,用于根据据若干个预设类别的第二预测标记向量预测未标记节点的标记结果。
10.如权利要求9所述的异构信息网络的半监督学习装置,其特征在于,所述标记传递过程为惰性随机游走过程,所述惰性随机游走过程的转移概率矩阵为:
P=(1-α)I+αWD-1
其中,P为所述惰性随机游走过程的转移概率矩阵,α为控制标记向邻居节点传递的概率,W为邻接矩阵,D为对角阵,且对角元素Dii=∑Wij
CN201710639781.2A 2017-07-31 2017-07-31 异构信息网络的半监督学习方法及装置 Pending CN107451613A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710639781.2A CN107451613A (zh) 2017-07-31 2017-07-31 异构信息网络的半监督学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710639781.2A CN107451613A (zh) 2017-07-31 2017-07-31 异构信息网络的半监督学习方法及装置

Publications (1)

Publication Number Publication Date
CN107451613A true CN107451613A (zh) 2017-12-08

Family

ID=60490582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710639781.2A Pending CN107451613A (zh) 2017-07-31 2017-07-31 异构信息网络的半监督学习方法及装置

Country Status (1)

Country Link
CN (1) CN107451613A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523415A (zh) * 2018-11-14 2019-03-26 南京邮电大学 异构信息网络关系预测装置
CN109543893A (zh) * 2018-11-14 2019-03-29 南京邮电大学 异构信息网络关系预测方法、可读存储介质和终端
CN110019653A (zh) * 2019-04-08 2019-07-16 北京航空航天大学 一种融合文本和标签网络的社交内容表征方法和系统
CN110598061A (zh) * 2019-09-20 2019-12-20 东北大学 一种多元图融合的异构信息网嵌入方法
CN111144577A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN113010687A (zh) * 2021-03-03 2021-06-22 广州视源电子科技股份有限公司 一种习题标签预测方法、装置、存储介质以及计算机设备
CN116094955A (zh) * 2022-11-25 2023-05-09 上海天旦网络科技发展有限公司 基于自演化网络知识库的运维故障链标注系统及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523415A (zh) * 2018-11-14 2019-03-26 南京邮电大学 异构信息网络关系预测装置
CN109543893A (zh) * 2018-11-14 2019-03-29 南京邮电大学 异构信息网络关系预测方法、可读存储介质和终端
CN110019653A (zh) * 2019-04-08 2019-07-16 北京航空航天大学 一种融合文本和标签网络的社交内容表征方法和系统
CN110019653B (zh) * 2019-04-08 2021-07-02 北京航空航天大学 一种融合文本和标签网络的社交内容表征方法和系统
CN110598061A (zh) * 2019-09-20 2019-12-20 东北大学 一种多元图融合的异构信息网嵌入方法
CN111144577A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN111144577B (zh) * 2019-12-26 2022-04-22 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN113010687A (zh) * 2021-03-03 2021-06-22 广州视源电子科技股份有限公司 一种习题标签预测方法、装置、存储介质以及计算机设备
CN116094955A (zh) * 2022-11-25 2023-05-09 上海天旦网络科技发展有限公司 基于自演化网络知识库的运维故障链标注系统及方法
CN116094955B (zh) * 2022-11-25 2024-06-11 上海天旦网络科技发展有限公司 基于自演化网络知识库的运维故障链标注系统及方法

Similar Documents

Publication Publication Date Title
CN107451613A (zh) 异构信息网络的半监督学习方法及装置
CN105117429B (zh) 基于主动学习和多标签多示例学习的场景图像标注方法
Luo et al. Significance-aware information bottleneck for domain adaptive semantic segmentation
Pelikan et al. Estimation of distribution algorithms
CN107330461A (zh) 基于情感与信任的协同过滤推荐方法
Niknami et al. Tractable pathfinding for the stochastic on-time arrival problem
Xiang et al. A* Lasso for learning a sparse Bayesian network structure for continuous variables
Kolasa et al. A survey of algorithms for paper-reviewer assignment problem
Liang et al. Review–a survey of learning from noisy labels
US20180336482A1 (en) Social prediction
Bradley et al. Learning tree conditional random fields
CN104050245A (zh) 一种基于活跃度的社交网络影响力最大化方法
CN105184326A (zh) 基于图数据的主动学习多标签社交网络数据分析方法
CN110096979A (zh) 模型的构建方法、人群密度估计方法、装置、设备和介质
Singh et al. Study of variation in TSP using genetic algorithm and its operator comparison
CN107391577A (zh) 一种基于表示向量的作品标签推荐方法和系统
Chaudhari et al. A few good predictions: selective node labeling in a social network
Ye et al. Influence maximization in social networks: Theories, methods and challenges
Zhang et al. Augmenting naive bayes for ranking
CN110060102A (zh) 基于偏标记学习的用户所在商铺定位大数据预测方法
CN110457387A (zh) 一种应用于网络中用户标签确定的方法及相关装置
CN109754000A (zh) 一种基于依赖度的半监督多标签分类方法
Cui et al. Graph bayesian optimization: Algorithms, evaluations and applications
Li et al. ANN: a heuristic search algorithm based on artificial neural networks
Du et al. Enhancing Deep Reinforcement Learning: A Tutorial on Generative Diffusion Models in Network Optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171208

RJ01 Rejection of invention patent application after publication