CN109086373B

CN109086373B - 一种构建公平的链接预测评估系统的方法

Info

Publication number: CN109086373B
Application number: CN201810812169.5A
Authority: CN
Inventors: 汪鹏; 肖君彦; 孟越
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2021-01-12
Anticipated expiration: 2038-07-23
Also published as: CN109086373A

Abstract

本发明公开了一种可构建公平有效评估不同链接预测方法评测系统的方法。提出了一种自动收集、选取和生成测试数据集的通用方法，其中包含两种算法：基于层次聚类的数据集二叉聚类树构建算法和基于最深叶节点优先的数据集选择算法。提出了一种基于网络拓扑指标的数据集难度系数度量方法，其中利用了最优子集回归算法进行难度系数的科学度量。提供了一套易用的访问接口和操作数据集的API的设计标准和具体实现，使得新链接预测方法可方便地进行评测。相较于其他评测方法，本发明方法可公平地比较不同链接预测方法之间的性能优劣，并且能够有效地评估链接预测方法的通用性。

Description

一种构建公平的链接预测评估系统的方法

技术领域

本发明涉及评测系统构建领域，特别是涉及一种构建公平的链接预测评估系统的方法。

背景技术

社交网络链接预测作为数据挖掘领域的热门问题之一，在线上社交网络中的好友推荐、电子商务中的商品推荐等领域中拥有重要的应用前景。应用链接预测的技术可以帮助公司挖掘潜在的社交关系，增加用户粘性，提升公司用户给公司带来的商业价值。

至今，已有许多基于不同视角的社交网络链接预测技术和相关工作被相继提出。这些方法和工作虽都声称自己提出的链接预测技术具有良好的性能，但由于不存在一种公平有效地统一评估平台，因此无法客观地比较这些不同的链接预测技术之间的优劣，因而对筛选这些链接预测技术带来了困难。同时，现在仍没有一种有效的评估技术，可以对每一种链接预测技术其适用领域进行明确界定，导致很难根据实际应用场景的不同选择最合适该场景的链接预测技术，进而带来性能上的损失。

本发明的目的是对现有的链接预测技术进行公平评估，对比不同链接预测技术的优劣。在本领域现有的技术仅是发明人根据先验知识，主观地选取的固定的若干评测数据集，并使用这些评测数据集对链接预测方法进行评估，缺乏一套系统化的、客观的流程来收集、选择评测数据集。由于实验表明评测数据集的选取对链接预测方法的实验结果有很大影响，缺少这套系统化客观的流程会导致利用现有技术评测不同链接预测方法的不公平性。并且，现有的技术缺乏对链接预测方法通用性的研究，即缺少对特定链接预测方法是否会在不同类网络数据集上呈现性能差异性的分析。

发明内容

为了以上问题，本发明提供一种构建公平的链接预测评估系统的方法，可公平地比较不同链接预测方法之间的性能优劣，并且能够有效地评估链接预测方法的通用性，为达此目的，本发明提供一种构建公平的链接预测评估系统的方法，具体步骤如下：

1)收集原始数据集的方法：评测系统用以评估不同链接预测方法的测试数据集应是公开、被广泛接受的数据集，使用爬虫程序抓取互联网公开数据集仓库相应网页，并构造网页对应HTML代码的DOM树，依据该DOM树中下载标签对应的超链接爬取满足该要求的数据集，并根据其应用场景将收集得到的数据集分为若干类别；

2)计算每一类别应选数据集数量：有效的评测系统应保证数据集冗余度较小，因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制，每一类别对应的科研文献数量越多，则可说明该类别的研究热度越高，所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多，以满足有效评估该类别中过往和将来提出的链接预测方法的需求，使用交叉熵来衡量应选数据集数量在类别上的分布与科研文献在类别上的分布之间的相似程度，并以该相似程度为目标函数，使用最优化算法计算得到最优的应选数据集数量在类别上的分布；

3)基于层次聚类的数据集二叉聚类树构建算法：自每一类别选出的评测数据集应具有代表性，亦即选出的评测数据集应与尽可能多的同类数据集相似，为衡量同类数据集间的相似度，采用层次聚类的思想，自顶向下根据同类数据集的数据集特性和网络拓扑属性对同类数据集进行划分进而构建二叉聚类树；

4)基于最深叶节点优先的数据集选择算法：构建完二叉聚类树后，需根据每一类别对应的聚类树空间结构，从中选取出代表该类别的若干数据集，选择过程自聚类树根节点的较大子节点开始，递归地对每一非叶节点选择代表该非叶节点的数据集，直到已选择出2)中所计算出的该类别应选数据集数量的数据集为止；

5)基于最优子集回归的数据集难度系数度量：设定数据集的难度系数值与其网络拓扑结构的若干不同度量值线性相关，从1)中收集出的所有数据集中简单抽样出若干数据集，并利用若干经典的链接预测方法在这些数据集上的实验表现，使用最优子集回归法建立数据集难度系数值与网络拓扑结构度量值之间的线性关系，将得到的难度系数值进行0-1标准化，并将0-1区间划分为5个部分，分别为难、中难、中等、中易、易，对4)中选择出的数据集进行难度标定；

6)生成测试数据集：由于所有评测数据集均为公开获取的，为保证公平性，需对评测数据集进行变换，以生成供评估新链接预测方法的测试数据集；

7)操作数据集：提供了三个操作数据集的API：1.网络连通性：提供了自动获取最大连通分量的API；2.节点度：提供了根据节点度获得子图的API；3.聚集系数：提供了根据节点聚集系数获得子图的API

8)结果评估：在各类别中满足需评估的链接预测方法要求的评测数据集上运行该链接预测方法，使用AUC和准确率作为实验结果度量，结合各评测数据集的难度系数，给出最终的结果评估，根据链接预测方法在各类别评测数据集上的表现差异，评估预测方法的通用性。

作为本发明进一步改进，所述步骤2)中的最优化算法，在数据集类数<10且每一类应选数据集的数量变化区间长度<8的情况下，直接使用网格搜索法获得全局最优解，如果复杂度高于上述情况，则可使用遗传算法等最优化算法进行求解。

作为本发明进一步改进，所述步骤3)中的数据集特性，指网络数据集是否为有向图、是否为时序网络、是否为有权重网络。

作为本发明进一步改进，所述步骤3)中的网络拓扑属性，指依据网络拓扑计算出了若干度量的值，例如图的最大度、图的基尼系数。

作为本发明进一步改进，步骤3)中的层次聚类，根据网络拓扑属性对节点进行划分时，利用的是基于欧几里得距离的2-mean聚类算法。

作为本发明进一步改进，步骤5)中的难度系数，其绝对数值无直接意义，但不同数据集的难度系数值之间的相对数量关系可用来反映不同数据集之间的难度差异。

作为本发明进一步改进，步骤6)变换方法如下：首先使用一对一随机映射将原数据集中的顶点标号进行替换，然后打乱替换后的数据集中每一条边的记录，最后按照7-2-1原则对数据集进行划分，得到供训练的训练集、验证集和供评估的测试集，此变换保证了无法根据提供的训练集和验证集和网上公开的原数据集推测出测试集，并且变换前后不影响预测结果。

作为本发明进一步改进，步骤8)中的AUC，指的是ROC曲线下的面积，ROC曲线是描述真正例率和假正例率之间数量关系的曲线。

本发明一种构建公平的链接预测评估系统的方法，与现有技术相比，具有以下优点：

本发明方法提出了一种新型的构建链接预测评估系统的解决思路，相较于其他评估链接预测方法的技术，本发明方法更具易用性和公平性，并且可以根据用户的需求对评测的数据集进行修改。相较于其他技术，本发明方法还可以指出链接预测方法在不同类别的网络数据集上的相对优劣，进而可评估该方法的通用性。

本发明提出的构建链接预测评估系统的方法具有较好的通用性，据本方法构建出的链接预测评估系统可对现有绝大部分链接预测的方法进行评估。因此本发明具有较好的应用和推广范围。

附图说明

图1为本发明方法的逻辑流程图。

图2为本发明聚类树生成示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种构建公平的链接预测评估系统的方法，可公平地比较不同链接预测方法之间的性能优劣，并且能够有效地评估链接预测方法的通用性。

本发明的构建公平有效评估不同链接预测方法评测系统的方法，具体流程如图1所示包括步骤为：

1)收集原始数据集：自四个被广泛接受的公开在线网络数据集数据库中收集了218个数据集。这四个在线数据集数据库网站分别为：1.KONECT数据库(http://konect.uni-koblenz.de/)；2.SNAP数据库(http://snap.stanford.edu/)；3.UCI网络数据库(http://networkdata.ics.uci.edu)；4.ASU社交数据库(http://socialcomputing.asu.edu)。若收集得到的数据集，其来源网站已对其进行了分类，则该数据集的应用场景与数据库网站的分类保持一致。若无预先标注，则根据数据集描述信息对其进行分类。据此将数据集分为12类。收集了122篇2007至2017年间链接预测相关的科研文献，根据其研究领域也将其分为12类，与数据集分类一一对应。考虑到热度因素，删除了科研文献数量小于5的数据集类别。由于二部图的链接预测方法难以复现，删去了全部数据集均为二部图的评价网络类别和作家网络类别。

2)计算每一类别应选数据集数量：有效的评测系统应保证数据集冗余度较小，因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制。考虑到实际操作性，限定每一类别评测数据集数量应落于[3,10]区间范围内。如果每一类别对应的科研文献数量越多，则可说明该类别的研究热度越高，所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多，以满足有效评估该类别中过往和将来提出的链接预测方法的需求。基于此思想，使用网格搜索算法，计算科研文献数量在各类别上的分布P(x)和评测数据集数量在各类别上的分布Q(x)之间的Kullback-Leibler散度；

最小值和其对应的最优评测数据集数量分布Q(x)。

3)基于层次聚类的数据集二叉聚类树构建算法：自每一类别选出的评测数据集应具有代表性，亦即选出的评测数据集应与尽可能多的同类数据集相似。为衡量同类数据集间的相似度，采用层次聚类的思想，自顶向下根据同类数据集的数据集特性和网络拓扑属性对同类数据集进行划分进而构建二叉聚类树。其中，数据集特性指的是一个网络数据集是否为有向图、是否为时序图、是否为有权值图；网络拓扑属性指从五种角度去描述一个网络数据集的网络拓扑的14个度量，分别为：(1)网络大小属性：节点数量、边数量、谱半径、二星节点数和三星节点数；(2)网络密度属性：平均节点度和填充度；(3)网络差异属性：基尼系数和相对边分布熵；(4)网络联通程度：最大连通分量和聚集系数；(5)网络直径：最长最短路径长、平均路径长度、90％有效直径。该二叉聚类树的根节点包含所有属于该树对应数据集类别的数据集，而所有叶节点中均只含一个数据集。构造该树的时候，首先先根据数据集特性对节点进行分割。如果分割完成后还存在叶节点中含有超过一个数据集的情况，则根据网络拓扑属性，利用基于欧几里得距离的2-mean算法对包含超过一个数据集的叶节点进行分割。对于生物网络类的数据集，构造出的二叉聚类树如附图2所示，图中节点内的序号表示生物网络类各原始数据集，黄色椭圆内的序号表示该节点在二叉聚类树中的索引。

4)基于最深叶节点优先的数据集选择算法：构建完二叉聚类树后，需根据每一类别对应的聚类树空间结构，从中选取出代表该类别的若干数据集。选择过程自聚类树根节点的较大子节点开始进行递归，直到选出步骤2)中计算出的该类评测数据集数量个数据集。具体递归过程如下，对当前所指的树节点，如果其为叶节点，则将该叶节点中的数据集加入到评测数据集集合中；如果其只有一个孩子节点，则以该孩子节点为当前节点重复该过程；如果其有两个孩子节点，且当前节点中不含有已选评测数据集集合中的任一数据集，则以该节点的较大子节点为当前节点重复该过程；如果其有两个孩子节点，且当前节点中含有已选评测数据集集合中的某一数据集，则以该节点的不含已选评测数据集集合中任一数据集的孩子节点为当前节点重复该过程。对于生物网络，在二叉聚类树的基础上对数据集进行选择的过程如附图2)所示，用深灰色标出的叶节点为所选评测数据集所在叶节点。

5)基于最优子集回归的数据集难度系数度量：认为数据集的难度系数值与步骤3)中所述的14种网络拓扑属性中的部分属性线性相关。从1)中收集出的所有数据集中简单抽样出若干数据集，并基于Katz、RA(Resource Allocation)、RPR(Rooted Page Rank)等链接预测方法在这些数据集上的AUC和准确率评估结果，使用最优子集回归法建立数据集难度系数值与网络拓扑结构度量值之间的线性关系。具体过程如下：将步骤3)中所述的14个网络拓扑属性对每一种可能都进行线性回归，进而选出回归的残差和最小的网络拓扑属性组合和该组合与实验结果之间的线性关系。根据该线性关系计算出所有评测数据集的难度系数，将得到的难度系数值进行0-1标准化。将0-1区间划分为5个部分，分别为难、中难、中等、中易、易，进而对步骤4)中选择出的数据集完成难度标定。

6)生成测试数据集：由于所有评测数据集均为公开获取的，为保证公平性，需对评测数据集进行变换，以生成供评估新链接预测方法的测试数据集。变换方法如下：首先使用一对一随机映射将原数据集中的顶点标号进行替换，然后打乱替换后的数据集中每一条边的记录，最后按照7-2-1原则对数据集进行划分，得到供训练的训练集、验证集和供评估的测试集。此变换保证了无法根据提供的训练集和验证集和网上公开的原数据集推测出测试集，并且变换前后不影响预测结果。

7)操作数据集：提供了三个操作数据集的API：1.网络连通性：由于研究链接预测问题时，许多研究者使用最大连通分支来评估算法，因此提供了自动获取最大连通分量的API，具体实现步骤如下，首先调用networkx中的两个API:connected_component_subgraphs()和strongly_connected_component_subgraphs()，通过这两个API分别可以得到无向图和有向图中的所有连通分量。然后选出节点数最多的连通分量既是最大连通分支；2.节点度：由于有些研究者认为节点度为1的节点不重要，为了方便科研人员根据节点度对网络进行修改，提供了根据节点度获得子图的API，具体实现步骤如下，首先用户输入子图中节点需满足的条件，如节点的度大于2，然后使用networkx的degree()函数可得到图中每一节点的度，遍历所有节点并将不满足条件的节点添加到一个数组中，接着删除所有与数组中节点相关联的边，最后返回修改后的数据集；3.聚集系数：局部聚类系数表示图中某一个点与它的邻居节点集结成团的程度的系数，可用于判断一个图是否是小世界网络，因此提供了根据节点聚集系数获得子图的API。具体实现步骤如下，首先用户输入子图中节点需满足的条件，如节点的局部聚类系数大于0.5，然后使用networkx的clustering()函数可得到图中每一节点的聚类系数，遍历所有节点，并将不满足条件的节点添加到一个数组中，接着删除所有与数组中节点相关联的边，最后返回修改后的数据集。

8)结果评估：对于需要评估的链接预测方法，在每一类别中，选择满足需该方法要求的评测数据集上运行该链接预测方法。例如，若此链接预测方法是时序链接预测的方法，则选择时序评测数据集对其进行评测。使用AUC和准确率作为实验结果度量，AUC的值和准确率的值均在[0,1]区间范围内，该方法的实验得分为AUC和准确率的平均值。结合各评测数据集的难度系数，给出最终的结果评估。对两个不同的链接预测方法之间的效果比较，先比较这两个方法在难度系数高的数据集上的实验得分，如果实验得分相差在0.03以内，则再比较难度系数次高的数据集，以此类推。根据链接预测方法在每一类别评测数据集上的表现差异，可评估预测方法的通用性。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种构建公平的链接预测评估系统的方法，具体步骤如下，其特征在于：

1）收集原始数据集的方法：评测系统用以评估不同链接预测方法的测试数据集应是公开、被广泛接受的数据集，使用爬虫程序抓取互联网公开数据集仓库相应网页，并构造网页对应HTML代码的DOM树，依据该DOM树中下载标签对应的超链接爬取满足该要求的数据集，并根据其应用场景将收集得到的数据集分为若干类别；

2）计算每一类别应选数据集数量：有效的评测系统应保证数据集冗余度较小，因此需对每一类别中应选出的作为评测数据集的数据集数量加以限制，每一类别对应的科研文献数量越多，则可说明该类别的研究热度越高，所以该类别所选出的评测数据集数量应比研究热度小的类别所选出的数量要多，以满足有效评估该类别中过往和将来提出的链接预测方法的需求，使用交叉熵来衡量应选数据集数量在类别上的分布与科研文献在类别上的分布之间的相似程度，并以该相似程度为目标函数，使用最优化算法计算得到最优的应选数据集数量在类别上的分布；

3）基于层次聚类的数据集二叉聚类树构建算法：自每一类别选出的评测数据集应具有代表性，亦即选出的评测数据集应与尽可能多的同类数据集相似，为衡量同类数据集间的相似度，采用层次聚类的思想，自顶向下根据同类数据集的数据集特性和网络拓扑属性对同类数据集进行划分进而构建二叉聚类树，其中数据集特性，指网络数据集是否为有向图、是否为时序网络、是否为有权重网络，其中网络拓扑属性，指依据网络拓扑计算出了若干度量的值，其中度量的值包括图的最大度和图的基尼系数；

4）基于最深叶节点优先的数据集选择算法：构建完二叉聚类树后，需根据每一类别对应的聚类树空间结构，从中选取出代表该类别的若干数据集，选择过程自聚类树根节点的较大子节点开始，递归地对每一非叶节点选择代表该非叶节点的数据集，直到已选择出2）中所计算出的该类别应选数据集数量的数据集为止；

5）基于最优子集回归的数据集难度系数度量：设定数据集的难度系数值与其网络拓扑结构的若干不同度量值线性相关，其中度量的值包括图的最大度和图的基尼系数，从1）中收集出的所有数据集中简单抽样出若干数据集，并利用若干经典的链接预测方法在这些数据集上的实验表现，使用最优子集回归法建立数据集难度系数值与网络拓扑结构度量值之间的线性关系，将得到的难度系数值进行0-1标准化，并将0-1区间划分为5个部分，分别为难、中难、中等、中易、易，对4）中选择出的数据集进行难度标定；

6）生成测试数据集：由于所有评测数据集均为公开获取的，为保证公平性，需对评测数据集进行变换，以生成供评估新链接预测方法的测试数据集；

变换方法如下：首先使用一对一随机映射将评测数据集中的顶点标号进行替换，然后打乱替换后的数据集中每一条边的记录，最后按照7-2-1原则对数据集进行划分，得到供训练的训练集、验证集和供评估的测试集，此变换保证了无法根据提供的训练集和验证集和网上公开的原始数据集推测出测试集，并且变换前后不影响预测结果；

7）操作数据集：提供了三个操作数据集的API：1. 网络连通性：提供了自动获取最大连通分量的API；2. 节点度：提供了根据节点度获得子图的API；3. 聚集系数：提供了根据节点聚集系数获得子图的API；

8）结果评估：在各类别中满足需评估的链接预测方法要求的测试数据集上运行该链接预测方法，使用AUC和准确率作为实验结果度量，结合各评测数据集的难度系数，给出最终的结果评估，根据链接预测方法在各类别测试数据集上的表现差异，评估预测方法的通用性。

2.根据权利要求1所述的一种构建公平的链接预测评估系统的方法，其特征在于：所述步骤2）中的最优化算法，在数据集类数<10且每一类应选数据集的数量变化区间长度<8的情况下，直接使用网格搜索法获得全局最优解，如果复杂度高于上述情况，则可使用遗传算法作为最优化算法进行求解。

3.根据权利要求1所述的一种构建公平的链接预测评估系统的方法，其特征在于：步骤3）中的层次聚类，根据网络拓扑属性对节点进行划分时，利用的是基于欧几里得距离的2-mean聚类算法。

4.根据权利要求1所述的一种构建公平的链接预测评估系统的方法，其特征在于：步骤5）中的难度系数，其绝对数值无直接意义，但不同数据集的难度系数值之间的相对数量关系可用来反映不同数据集之间的难度差异。

5.根据权利要求1所述的一种构建公平的链接预测评估系统的方法，其特征在于：步骤8）中的AUC，指的是ROC曲线下的面积，ROC曲线是描述真正例率和假正例率之间数量关系的曲线。