CN110516146A

CN110516146A - 一种基于异质图卷积神经网络嵌入的作者名字消歧方法

Info

Publication number: CN110516146A
Application number: CN201910635799.4A
Authority: CN
Inventors: 杜一; 乔子越; 周园春
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-29
Anticipated expiration: 2039-07-15
Also published as: CN110516146B

Abstract

本发明公开了一种基于异质图卷积神经网络嵌入的作者名字消歧方法，其步骤为：1)对于一待消歧的目标作者名，收集以该目标作者名所著的出版物，然后根据所收集出版物的标题、作者列表和出版刊物信息构建出版物异质属性网络；2)根据所述出版物异质属性网络，通过基于元路径随机游走策略生成包含出版物节点邻居节点文本信息的路径；3)根据所述出版物异质属性网络以及所述路径，基于异质图卷积神经网络嵌入模型学习每一出版物的表征向量；4)根据所述出版物异质属性网络和所述出版物的表征向量，构建该目标作者名的出版物同质网络；5)对所述出版物同质网络进行划分，得到若干簇；其中同一簇中的出版物为同一人的出版物集合。

Description

一种基于异质图卷积神经网络嵌入的作者名字消歧方法

技术领域

本发明涉及大数据，知识图谱，实体消歧，图神经网络，异质网络嵌入技术领域，具体是一种基于非监督的异质图卷积神经网络和元路径随机游走策略的网络嵌入方法进行学者名字消歧的技术。

背景技术

如今，数字文献库中的学术信息挖掘变得越来越重要。当一个用户在数字文献库中搜索一个作者名字的时候，他想要得到的是既快速又准确而且与这个名字相关的搜索结果。然而，许多数字文献库中的搜索服务只是检索出一个宽泛的出版物集合，这样就引发了作者重名问题，即这个集合中的出版物都有一个相同的作者名，但这些作者并不一定是同一个人。使用作者名消歧技术来自动的区分出同名作者之间的出版物可以帮助用户花费更少的时间来定位到他想要的搜索结果。通常的作者消歧任务是指将属于同一个作者名或者属于高度相似的作者名的出版物划分给不同的作者实体。

为了解决这一问题，通常对于某一个需要消歧的名字所发行的所有出版物，研究者们使用出版物的不同特征(如题目、摘要、作者列表、关键词、发行机构、出版刊物等)来获取出版物的表征向量，从而根据表征向量比较不同出版物的相似性，然后使用聚类的方法将这些出版物划分为不同的簇，每个簇中的出版物即代表同一个作者实体发行的出版物。然而这样的解决思路中咎待解决的技术难点在于，如何利用出版物的多种特征以及出版物之间的关系信息学习到高质量的出版物表征向量。对此许多研究者提出了解决思路，一个较为流行和有效的解决思路是通过构建出版物之间的不同网络，将出版物之间的关系转化为网络中的边，将出版物的特征信息转化为网络中的节点属性。进一步的，通过对网络的表征学习，将出版物投影到连续的隐空间中，使得在这样的空间中，相似性更高的出版物的分布更加接近，而相似度不高或者不相关的出版物之间的分布更远。

发明内容

根据现有数字文献库中作者名消歧发明的不足之处，本发明提供了一种基于异质图卷积神经网络和元路径随机游走策略的网络嵌入方法的作者名字消歧方法。该方法利用出版物的标题、作者列表、以及发行机构等特征信息构建出版物的异质属性网络，并通过对异质属性网络的嵌入学习得到出版物的表征向量，并根据这些向量对出版物进行聚类来达到对作者名字消歧的目的。

本发明具体包括以下步骤：

步骤一：对于某一需要消歧的作者名，在数字文献库中收集所有以该作者名所著的出版物，通过这些出版物的标题、作者列表和出版刊物等信息构建出版物异质属性网络。

步骤二：根据步骤一所述生成的出版物异质属性网络，通过基于元路径随机游走策略生成包含出版物节点邻居节点文本信息的路径，并将这些路径保存为下一步中异质图卷积神经网络嵌入模型的训练路径库。

步骤三：根据所述步骤一构建的出版物异质属性网络以及所述步骤二生成随机游走的路径生成的路径库，基于异质图卷积神经网络嵌入模型学习每一出版物的表征向量。

步骤四：根据所述步骤一中构建的出版物异质属性网络和所述步骤三中生成的出版物表征向量，对于步骤一中所述需要消歧的作者名称，构建出版物同质网络，使用社区发现infomap方法，对出版物同质网络进行划分，划分后的不同簇，代表同名但不同作者所写的出版物集合(即同一簇为同一人的出版物集合)，从而实现了对该作者名字的消歧。

相对于以往的相关方法，本发明的基于异质网络嵌入的学者名字消歧方法，其优点和贡献主要在于：

1.提出了一种异质图卷积神经网络嵌入方法，此方法将出版物之间的多层异质关系和出版物的文本语义信息整合为高质量的出版物低维表征向量。使得共同作者更多的、同一个期刊的、标题相似性更高的出版物在空间上的分布更加接近，同时不满足这些条件的出版物分布的更远。

2.通过基于元路径和关系权值的随机游走策略，在生成的路径库中保留了出版物之间的关系信息，同时通过出版物文本信息嵌入，保留了出版物的语义信息，异质图卷积神经网络将这两种不同的信息编码为出版物的最终表征向量，提高了出版物表征向量的代表性。

3.通过在基准数据集上实验表明，这个作者名消歧方法的效果相对于大部分方法提高了9.9％到39.6％。

附图说明

图1为本发明的方法流程图；

图2为出版物异质属性网络的示意图；

图3为元路径示意图；

图4为根据元路径和权值生成路径的示意图。

具体实施方式

下面将结合附图以及实施例对本发明做进一步的阐述说明。

本发明采取一种非监督的异质图卷积神经网络和元路径随机游走策略的网络嵌入的方法进行学者名字消歧。以下实施例中，选取名字消歧出版物基准数据库作为出版物库，并结合附图，对本发明进一步的阐述。本发明方法流程如图1所示。

把每一篇出版物作为异质属性网络中的节点，如果它们之间有共同作者，那么就在它们之间构建一条关系名为CoAuthor的边，同时这条边具有共同作者数目的属性，如果有1个共同作者，这个关系的属性就为1，如果有2个共同作者，那么属性就为2，以此类推。

如果两篇出版物来自同一个期刊，那么就在这两个出版物之间建立一条关系名为CoVenue的边，由于往往一个出版物只能属于一个期刊，所以这个关系的属性值都为1。

如果两篇出版物的标题，有相同出现的关键词，且这个词不是停用词，那么就在它们之间构建一条CoTitle的边，这边相应的也有数目的属性，如果有一个共现词，那么属性值为1，如果有两个共现词，那么属性为2，以此类推。

对于每一个出版物节点，提取该出版物的文本信息，例如标题、摘要等。然后使用Doc2Vec模型将这些文本信息转化为一个等长的语义表征向量，并将这个语义表征向量作为该出版物节点的属性。

这样就构建出了一个有一种节点类型、三种关系类型且节点和边都有属性出版物异质属性网络。网络的示意图如图2所示。

在该步骤中，构建的关系除CoAuthor(共同作者)、CoTitle(同关键词)、CoVenue(同出版刊物)外，还可根据其它成果信息进行构建，如出版物之间的引用关系、共同发行机构、针对全文进行主题分类后的相同主题词等，即首先设置若干关系以及对应的关系属性；如果两出版物之间存在某一设置的关系，则在两出版物对应的节点之间构建一条边，并根据关系设置该边的名称，以及根据该关系的关系属性设置该边的属性值。

根据步骤一生成的出版物异质属性网络，在该出版物异质属性网络中任意选一节点，以该节点为初始节点，以边为路径进行随机游走。

规定在元路径指导下的随机游走的过程中，元路径中包括多个不同关系名的边并设置这些边的出现顺序，比如按照p1-CoAuthor-p2-CoTitle-p3-CoVunue-p4这样的元路径顺序进行随机游走(即随机游走中的随机指的是在走到某个关系的时候，随机选取与当前节点通过该关系相连的节点)，每一次游走过程中，按照当前元路径规定的边的类型通过一种随机选取规则，随机选取一个通过该类型边与当前节点相连的节点作为下一个节点，即首先随机选择一个出版物节点作为起始路径点，然后通过上述随机选取规则选择与该节点边的类型为CoAuthor的节点作为下一个路径点，再通过上述随机选取规则选择与该路径节点边的类型为CoTitle的节点作为下一个路径点，最后通过上述随机选取规则选择与该路径节点边的类型为CoVunue的节点作为下一个路径点，这样就组成了一个元路径的游走序列。再将上述元路径的最后一个节点作为起始节点按照上述步骤生成一个新的元路径，经过N次这样迭代之后，变生成了一条长路径，其中每个路径节点存储的是出版物的标识id。然后迭代M次生成这样的长路径，每次生成长路径时，按顺序选择网络中的节点作为长路径的起始节点，并将每个长路径按行存储，每个路径节点id用分隔符(比如空格或者制表符)隔开，生成训练路径库。

元路径示意图如图3所示。在元路径指导下的随机游走过程中，游走到当前某个节点并朝着元路径规定的某类边随机游走的过程中，会考虑到该关系的属性信息，这个属性相当于边的权值，权值越大，说明两个节点的关系越密切，因此这个边的属性值越大，那么节点沿着这条边跳转的概率就越大，例如，图2中，若p1为当前节点，下一跳的关系是CoAuthor，那么与p1有该关系的两个节点分别是p4和p2，根据它们之间关系的属性值，那么从p1游走到p4的概率是1/3，游走到p2的概率是2/3。

在某些情况下，有些关系对于一些出版物来说是缺失的，例如某个出版物的标题中所有的词并没有出现在其他任意一个出版物的标题中，那么对它来说CoTitle这个关系是缺少的，当出现这种情况时，就采用更灵活的策略，即根据元路径中当前缺失关系的下一个关系游走，对于上面说的那篇出版物来说，就转而根据它的CoVunue关系进行游走。

根据元路径和权值生成路径的示意图如图4所示。游走策略并不是固定的，可以通过对元路径重新设计，而设计出新的游走策略，例如对于上述类型的异质网络中，将元路径设计为p1-CoAuthor-p2-CoVunue-p3-CoAuthor-p4-CoTitle–p5，通过这样的设计可以生成新的随机游走路径，继而形成新的训练路径库。

这样的异质网络设计也是有多种多样的，例如当出版物库中的信息包括有引用信息时，可以在上述的异质网络中构建出一种新的类型的边，这样就构建出一个有一种节点类型，四种关系类型的异质网络，通过设计新的元路径，可以生成该网络的随机游走路径库。同理当出版物库中的出版物缺少某项特征信息时，可以不使用该特征构建关系。

步骤三：根据所述步骤一构建的出版物异质属性网络以及所述步骤二生成随机游走的路径生成的路径库，基于异质图卷积神经网络嵌入模型学习出版物表征向量。

图卷积神经网络是一种近年来提出的比较流行的神经网络架构，它把传统的卷积神经网络与图的结构信息相结合，将神经网络推广到图结构的数据中。图卷积神经网络以及其变种可以被看作是一种信息传播模型的特例，目的是将节点周围的邻居信息以及节点自身的属性信息转化为节点的嵌入表示。

根据步骤一生成的出版物异质属性网络，提出一种多层的且区别于关系类型的异质图卷积神经网络来将不同类型关系的不同距离的邻居节点的特征信息整合为每个节点的表征向量。首先，异质图卷积神经网络第l层的定义如下：

其中，表示出版物节点p_i在第l层异质图卷积神经网络的隐层状态，该隐层对应的维度为m^(l)。ReLU(·)＝max(0,·)为激活函数，“·”代表变量，表示任意值或函数。为所有边类型的集合，表示与节点p_i的关系类型为r的邻居节点集合。代表节点p_i和节点p_j之间关系类型为r的边的归一化系数，其中是与节点p_i相连的关系类型为r的边的权值之和。是异质图卷积神经网络第l层关系r的传播矩阵。同时，为了确保每个节点在每一层的表征也对自己在下一层的表征有影响，在此模型中，假设每个节点上对于每条关系都有一个权值为1的自连接边。

本发明设计的异质图卷积神经网络与公知的图卷积神经网络的不同之处在于在每一层网路中，对于每一种异质网络中的关系定义一个传播矩阵，即在本例中属性异质网络的关系有3种，则第l层异质图卷积神经网络中的传播矩阵有3个。而公知的图卷积神经网络每层中只有一个传播矩阵，若应用在此则不能很好的区分的不同关系。

然后，再定义L层的异质图卷积神经网络，且每一层的结构都如上式定义，即上一层的输出作为下一层的输入，作为第一层的输入则是出版物异质属性网络上所有节点的属性向量。这样经过L层的前向传播，异质图卷积神经网络将每个节点p_i的语义表征和它的邻居信息编码成了最终的表征向量u_i，公式表述为：

其中，θ表示异质图卷积神经网络的所有参数，即表示节点p_i的属性向量，即该出版物的语义表征向量，G表示出版物异质属性网络。对于所有节点来说，在每一层上的对应每个关系的传播矩阵的参数是共享的。当连接了多层的异质图卷积神经网络，在某一层中一个节点接受到的邻居传递的信息已经在上一层中包含了邻居的邻居信息，因此，经过L层的前向传播，每个节点最终的表征向量能够接受到L度以内所有邻居的信息。

接着根据步骤二生成随机游走的路径生成的路径库RW，结合上述所定义的异质图卷积神经网络，通过一个加权异质的skip-gram模型来使用这些路径信息来训练这个异质图卷积神经网络，从而使得每个出版物被编码为一个高质量的表征向量。将异质图卷积神经网络的嵌入模型的损失函数定义为：

其中

其中，w代表RW中的每条路径，k代表skip-gram模型的窗口大小，是节点p_i在路径w中的前k个和后k个上下文节点，表示sigmoid函数，代表相对于p_i负采样的节点的集合，包含n个节点，负采样规则是使用alias table方法根据节点的度的大小对所有节点进行采样。参数λ是正则化参数，避免过拟合。u_i表示节点p_i的表征向量，u_c ^T和u_j ^T表示节点p_c和p_j的表征向量的转置。

最终对模型的参数θ进行优化，首先随机初始化参数，然后采用mini-batch Adam优化器最小化损失函数来优化参数，这样通过优化参数后的异质图卷积神经网络便得到了出版物的表征向量。

以上所述步骤三中的各项超参数L,k,n,λ都可根据实际效果进行调整。

步骤四：对于一个需要消歧的作者，在已有数据库中收集包含该作者名字的所有出版物由步骤一、二、三学习到的表征向量，并根据所述步骤一构建的出版物异质属性网络，构建一个出版物同质网络，该网络的创建规则为：将任一出版物看作为一个节点，对于任意两个出版物节点p_i和p_j，若在出版物异质属性网络中两者之间存在任一种关系的边，则在出版物同质网络上构建一条边，且这条边根据出版物异质属性网络以及出版物的表征向量计算该条边的权值，其定义如下：。

其中|e_ij|为该条边的权值，(p_i,p_j)^r表示节点p_i和p_j在出版物异质属性网络中关系类型为r的边，|(p_i,p_j)^r|表示该条边上的属性值，若不存在该边则值为0。||u_i||表示u_i的二范数。

然后根据构建的出版物同质网络，使用社区发现算法infomap方法(具体使用python中igraph库的community_infomap方法)对这个出版物同质网络进行划分，这样不同的出版物节点被换分为不同的簇团，即代表不同作者所拥有的出版物集合。从而实现了对该作者名的消歧。

对于本发明的实验采用论文(Jie Tang,A.C.M.Fong,Bo Wang,and Jing Zhang.AUnified Probabilistic Framework for Name Disambiguation in DigitalLibrary.IEEE Transaction on Knowledge and Data Engineering,Volume 24,Issue 6,2012,Pages 975-987.以及Xuezhi Wang,Jie Tang,Hong Cheng,and Philip S.Yu.ADANA:Active Name Disambiguation.In Proceedings of 2011IEEE InternationalConference on Data Mining.pp.794-803.)中的论文数据集，该数据中有100个需要消歧的作者名，共计7447篇论文，论文名和作者信息是完备的，4％的论文缺少期刊名。

首先，对于某个需要消歧的作者，将其论文构建成一个出版物异质属性网络，然后根据本发明对该网络进行嵌入学习，最终学习到每个论文的表征向量。根据出版物表征向量和异质属性网络重建出版物同质网络，使用infomap对其进行社区划分得到聚类结果。对聚类结果采用Pairwise F1的评估指标进行评估，并求均值。

使用的对比方法有：论文(ZHANG1:Zhang,Yutao,Fanjin Zhang,Peiran Yao,andJie Tang."Name Disambiguation in AMiner:Clustering,Maintenance,and Human inthe Loop."In Proceedings of the 24th ACM SIGKDD International Conference onKnowledge Discovery&Data Mining,pp.1002-1011.ACM,2018.XU:J Xu,Jun,Siqi Shen,Dongsheng Li,and Yongquan Fu."A Network-embedding Based Method for AuthorDisambiguation."In Proceedings of the 27th ACM International Conference onInformation and Knowledge Management,pp.1735-1738.ACM,2018.和ZHANG2.Zhang,Baichuan,and Mohammad Al Hasan."Name disambiguation in anonymized graphsusing network embedding."In Proceedings of the 2017ACM on Conference onInformation and Knowledge Management,pp.1239-1248.ACM,2017.)中提出的名字消歧方法，除此外，还有DeepWalk，LINE，Metapath2Vec，Hin2Vec，GraphSAGE，这五种方法都是网络嵌入方法，实验中用这些方法在出版物异质属性网络上学到出版物表征向量，使用凝聚层次聚类得到消歧结果。下表为不同方法的消歧效果。

由此可见，本发明的方法明显优于其他的方法。主要原因在于，使用本发明提出的异质图卷积神经网络嵌入学习到的高质量出版物表征向量具有的表征能力更强，因此提高了消歧的效果。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于异质图卷积神经网络嵌入的作者名字消歧方法，其步骤为：

1)对于一待消歧的目标作者名，收集以该目标作者名所著的出版物，然后根据所收集出版物的标题、作者列表和出版刊物信息构建出版物异质属性网络；

2)根据所述出版物异质属性网络，通过基于元路径随机游走策略生成包含出版物节点邻居节点文本信息的路径，并将这些路径保存为异质图卷积神经网络嵌入模型的训练路径库；

3)根据所述出版物异质属性网络以及所述训练路径库中的路径，基于异质图卷积神经网络嵌入模型学习每一出版物的表征向量；

4)根据所述出版物异质属性网络和所述出版物的表征向量，构建该目标作者名的出版物同质网络；

5)对所述出版物同质网络进行划分，得到若干簇；其中同一簇中的出版物为同一人的出版物集合。

2.如权利要求1所述的方法，其特征在于，构建出版物异质属性网络的方法为：将每一篇出版物作为异质属性网络中的一节点并设置若干关系以及对应的关系属性；如果两出版物之间存在某一设置的关系，则在两出版物对应的节点之间构建一条边，并根据关系设置该边的名称，以及根据该关系的关系属性设置该边的属性值。

3.如权利要求2所述的方法，其特征在于，所述设定关系包括共同作者CoAuthor、同关键词CoTitle、同出版刊物CoVenue；如果两出版物之间有A个共同作者，则在该两出版物之间构建一条关系名为CoAuthor的边并设置该边的属性值为A；如果两出版物来自同一期刊，则该两出版物之间建立一条关系名为CoVenue的边并设置该边的属性值为1；如果两出版物的标题中有T个相同的关键词且该关键词不是停用词，则该两出版物之间构建一条关系名为CoTitle的边并设置该边的属性值为T。

4.如权利要求1所述的方法，其特征在于，基于元路径随机游走策略生成包含出版物节点邻居节点文本信息的路径的方法为：在出版物异质属性网络中任意选一节点，以该节点为初始节点，在元路径指导下进行游走生成一路径；更改初始节点继续生成一新的路径；其中，元路径中包括多个不同关系名的边并设置这些边的出现顺序。

5.权利要求1所述的方法，其特征在于，所述异质图卷积神经网络嵌入模型包括异质图卷积神经网络和加权异质的skip-gram模型，该skip-gram模型来使用所述训练路径库中的路径信息来训练所述异质图卷积神经网络，得到每一出版物的表征向量；其中，异质图卷积神经网络上一层的输出作为下一层的输入，作为第一层的输入是异质属性网络中所有节点的表征向量；异质图卷积神经网络第l层的定义为表示节点p_i在异质图卷积神经网络第l层的隐层状态，该隐层对应的维度为m^(l)，ReLU(·)为激活函数，为所有边类型的集合，表示与节点p_i的关系类型为r的邻居节点集合，代表节点p_i和节点p_j之间关系类型为r的边的归一化系数，是与节点p_i相连的关系类型为r的边的权值之和，是异质图卷积神经网络第l层关系r的传播矩阵。

6.如权利要求5所述的方法，其特征在于，经过L层的前向传播，异质图卷积神经网络将每个节点p_i的语义表征与节点p_i的邻居信息编码成表征向量u_i；其中，θ表示异质图卷积神经网络的所有参数，即表示节点p_i的表征向量，G表示出版物异质属性网络。

7.如权利要求5所述的方法，其特征在于，异质图卷积神经网络嵌入模型的损失函数定义为其中，w代表RW中的每条路径，k代表skip-gram模型的窗口大小，是节点p_i在路径w中的前k个和后k个上下文节点，σ(·)表示sigmoid函数，代表相对于节点p_i负采样的节点集合，λ是正则化参数，u_i表示节点p_i的表征向量，u_c ^T表示节点p_c的表征向量的转置，u_j ^T表示节点p_j的表征向量的转置。

8.如权利要求7所述的方法，其特征在于，采用mini-batch Adam优化器最小化损失函数来优化参数。

9.如权利要求1所述的方法，其特征在于，所述出版物同质网络的创建规则为：将任一出版物看作为一个节点，对于任意两个出版物节点p_i和p_j，若在出版物异质属性网络中两者之间存在任一种关系的边，则在出版物同质网络上构建一条边，且根据出版物异质属性网络以及出版物的表征向量计算该条边的权值。

10.如权利要求9所述的方法，其特征在于，根据公式计算为该条边的权值|e_ij|；其中，(p_i，p_j)^r表示节点p_i和p_j在出版物异质属性网络中关系类型为r的边，|(p_i，p_j)^r|表示该条边上的属性值，若不存在该边则值为0，||u_i||表示u_i的二范数。