CN110011862B - 基于时间平衡的网络节点识别方法、装置及计算机设备 - Google Patents
基于时间平衡的网络节点识别方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN110011862B CN110011862B CN201910327217.6A CN201910327217A CN110011862B CN 110011862 B CN110011862 B CN 110011862B CN 201910327217 A CN201910327217 A CN 201910327217A CN 110011862 B CN110011862 B CN 110011862B
- Authority
- CN
- China
- Prior art keywords
- node
- time
- delta
- nodes
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请涉及一种基于时间平衡的网络节点识别方法、装置、计算机设备及存储介质,其中该方法包括:获取原始网络数据,根据所述原始网络数据构建含时网络;将所述含时网络按照时间间隔进行划分得到多个子网;分别计算子网中每个节点的PageRank值;将所述子网中的每个节点按照时间进行排序,通过设置一滑动窗口时间,计算所述子网中所有节点的PageRank值的平均值和方差;根据所述平均值和方差将所述每个节点的PageRank值进行归一化处理,并根据归一化的结果从所述每个节点中识别出重要节点。本发明解决了在动态含时网络中重要节点识别的时间平衡性问题。
Description
技术领域
本发明涉及计算机网络技术领域,特别是涉及一种基于时间平衡的网络节点识别方法、装置、计算机设备及存储介质。
背景技术
目前,人们生活中常常伴随着形形色色的网络,小到细胞代谢网络,大到电力网络,航空网络。如何识别网络中的重要节点,成了网络科学领域研究的重要课题。复杂网络的重要节点是指相比网络中的其他节点而言,能够在更大程度上影响网络的结构和功能的一些特殊节点,近年来,节点重要性排序研究受到越来越广泛的关注,不仅因为其重大的理论研究意义,更因其广泛的实际应用价值。
在传统技术中,节点重要性挖掘的排序算法大多基于一个静态的网络结构来分析和评价节点的重要性,而在动态的含时网络中使用传统的排序算法会导致筛选出来的重要节点都倾向于聚集在较早加入网络的节点中,因为它们有足够的时间来积累结构优势,而一般情况下在网络发展的各个时期都会出现一些具有重要影响力的节点。相对于传统的静态网络,含时网络可以看作是一个在动态演化的网络,传统的方法会导致识别出的重要节点大多聚集在相对网络初始时期加入的,有充足时间来积累优势的节点,而相对较新的同样有重要意义节点则很少被识别出来。
发明内容
基于此,有必要针对上述技术问题,提供一种可以解决在动态含时网络中重要节点识别的时间平衡性问题的基于时间平衡的网络节点识别方法、装置、计算机设备及存储介质。
一种基于时间平衡的网络节点识别方法,所述方法包括:
获取原始网络数据,根据所述原始网络数据构建含时网络;
将所述含时网络按照时间间隔进行划分得到多个子网;
分别计算子网中每个节点的PageRank值;
将所述子网中的每个节点按照时间进行排序,通过设置一滑动窗口时间,计算所述子网中所有节点的PageRank值的平均值和方差;
根据所述平均值和方差将所述每个节点的PageRank值进行归一化处理,并根据归一化的结果从所述每个节点中识别出重要节点。
在其中一个实施例中,所述根据所述平均值和方差将所述每个节点的PageRank值进行归一化,并根据归一化的结果从所述每个节点中识别出重要节点的步骤包括:
根据所述平均值和方差计算所述每个节点的PageRank值的归一化标准差;
将所有的节点按照所述每个节点的PageRank值的归一化标准差的大小进行排序;
设置一识别阈值,并从排序结果中筛选出所述识别阈值排序范围内的节点作为重要节点。
在其中一个实施例中,所述将所述含时网络按照时间间隔进行划分得到多个子网的步骤包括:
根据所述原始网络数据中的时间标签将所述原始网络的初始时刻记为t0,最终状态时刻记为te;
设置一时间间隔Δt,所述原始网络从初始时刻到最终状态时刻共经历了k*Δt个时间间隔;
构建节点从t0时刻到t0+i*Δt时刻的k个子网,其中i∈[1,k]。
在其中一个实施例中,所述将所述子网中的每个节点按照时间进行排序,通过设置一滑动窗口时间,计算所述子网中所有节点的PageRank值的平均值和方差的步骤还包括:
将网络中的每个节点按照时间进行排序,得到每个节点的时间序号t(i),其中t(i)∈[1,n];
设置一滑动时间窗口Δp;
判断节点的时间序号是否位于Δp/2和n-Δp/2之间;
若所述节点的时间序号位于Δp/2和n-Δp/2之间,则将所述节点的时间窗口范围固定在[t(i)-Δp/2,t(i)+Δp/2]之间。
在其中一个实施例中,在所述判断所述节点的时间序号是否位于Δp/2和n-Δp/2之间的步骤之后还包括:
若所述节点的时间序号不位于Δp/2和n-Δp/2之间,则判断所述节点的时间序号是否小于Δp/2;
若所述节点的时间序号小于Δp/2,则将所述节点的时间窗口范围固定在[1,Δp]之间;
若所述节点的时间序号不小于Δp/2,则将所述节点的时间窗口范围固定在[n-Δp,n]之间。
在其中一个实施例中,所述方法还包括:
计算每个节点在其时间窗口范围内的所有节点的PageRank值的平均值μi(p)和方差σi(p);
设置一识别阈值,根据排序结果将排序的名次位于识别阈值内的节点识别为重要节点。
一种基于时间平衡的网络节点识别装置,所述基于时间平衡的网络节点识别装置包括:
获取模块,所述获取模块用于获取原始网络数据,根据所述原始网络数据构建含时网络;
划分模块,所述划分模块用于将所述含时网络按照时间间隔进行划分得到多个子网;
第一计算模块,所述第一计算模块用于分别计算子网中每个节点的PageRank值;
第二计算模块,所述第二计算模块用于将所述子网中的每个节点按照时间进行排序,通过设置一滑动窗口时间,计算所述子网中所有节点的PageRank值的平均值和方差;
识别模块,所述识别模块用于根据所述平均值和方差将所述每个节点的PageRank值进行归一化处理,并根据归一化的结果从所述每个节点中识别出重要节点。
在一个实施例中,所述识别模块还用于:
根据所述平均值和方差计算所述每个节点的PageRank值的归一化标准差;
将所有的节点按照所述每个节点的PageRank值的归一化标准差的大小进行排序;
设置一识别阈值,并从排序结果中筛选出所述识别阈值排序范围内的节点作为重要节点。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项方法的步骤。
上述基于时间平衡的网络节点识别方法、装置、计算机设备及存储介质,通过将含时网络的演化过程节点的重要性变化情况具象成经过若干个时间间隔后的构成的若干个子网内节点中心性指标的变化情况。同时对每个子网将节点按加入网络的年龄来排序,为每个节点引入一个滑动时间窗口的概念来降低年龄不同对节点排序造成的影响,给不同年龄段的节点一个更加公平的竞争机制,在减少时间偏好的同时也能保证较高的识别率。于此同时,通过权威的重要节点名单来实际检验了算法有效性,相比于利用传播模型或攻击模型等模拟方法来验证算法具有更大的说服力。此外,这种将动态网络划分成若干子网,同时又将每个子网中的节点划分出时间窗口的办法,在研究动态含时网络的有关问题时具有通用性,能够在一定程度上连接静态网络与动态网络。
附图说明
图1为一个实施例中基于时间平衡的网络节点识别方法的应用场景图;
图2为一个实施例中基于时间平衡的网络节点识别方法的流程示意图;
图3为另一个实施例中基于时间平衡的网络节点识别方法的流程示意图;
图4为再一个实施例中基于时间平衡的网络节点识别方法的流程示意图;
图5为又一个实施例中基于时间平衡的网络节点识别方法的流程示意图;
图6为又一个实施例中基于时间平衡的网络节点识别方法的流程示意图;
图7为一个实施例中基于时间平衡的网络节点识别方法中算法实现的流程示意图;
图8为基于时间平衡的网络节点识别的一个识别结果分析图;
图9为基于时间平衡的网络节点识别的另一个识别结果分析图;
图10为基于时间平衡的网络节点识别的再一个识别结果分析图;
图11为一个实施例中基于时间平衡的网络节点识别装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一计算模块称为第二计算模块,且类似地,可将第二计算模块称为第一计算模块。第一计算模块和第二计算模块两者都是计算模块,但其不是同一计算模块。
本发明实施例所提供的基于时间平衡的网络节点识别方法可应用到如图1所示的应用环境中。计算机设备110通过网络与数据库120连接,数据库120中包括存储有原始网络数据。其中,该计算机设备110包括:个人电脑、大型计算机等任意一种计算机设备。计算机设备110通过网络获取数据库120中存储的原始网络数据,根据原始网络数据构建含时网络。然后,计算机设备110将含时网络按照时间间隔进行划分得到多个子网,分别计算子网中每个节点的PageRank值,将子网中的每个节点按照时间进行排序,通过设置一滑动窗口时间,计算子网中所有节点的PageRank值的平均值和方差,根据平均值和方差将每个节点的PageRank值进行归一化处理,并根据归一化的结果从每个节点中识别出重要节点。
在一个实施例中,如图2所示,提供了一种基于时间平衡的网络节点识别方法,以该方法应用于图1中的计算机设备中为例进行说明,该方法包括:
步骤202,获取原始网络数据,根据原始网络数据构建含时网络;
步骤204,将含时网络按照时间间隔进行划分得到多个子网;
步骤206,分别计算子网中每个节点的PageRank值;
步骤208,将子网中的每个节点按照时间进行排序,通过设置一滑动窗口时间,计算子网中所有节点的PageRank值的平均值和方差;
步骤210,根据平均值和方差将每个节点的PageRank值进行归一化处理,并根据归一化的结果从每个节点中识别出重要节点。
具体地,计算机设备通过网络获取数据库存储的原始网络数据,根据原始网络数据构建含时网络。具体地,例如:在引文网络中,每个篇论文视为一个节点,如果论文a引用了论文b,则视为a到b有一条边,我们把不同时期发表的论文构成的引用关系构建一个含时的引文网络。
计算机设备通过设置一时间间隔,将含时网络按照时间间隔进行划分得到多个子网,通过设定一个时间间隔将含时网络的演化过程节点的重要性变化情况具象成经过若干个时间间隔后的构成的若干个子网内节点中心性指标的变化情况。例如:如果最早的论文发表于2000年,最晚的论文发表于2010年,假设我们以一年为划分单位,可以把这个最终的引文网络划分为2000年至2001年间发表的论文构成的一个子网,2000年到2002年构成的子网,依次类推的10个子网,其中每个子网又都是后一个子网的子网,最终演变成整个网络。
对于每个子网,计算机设备计算子网中每个节点的PageRank值。其中,PageRank算法是谷歌搜索引擎的核心算法,在网页排名的应用上取到了巨大成功,它基于随机游走的策略来分配各个节点的权值,通过多次迭代计算,使得整个网络中的节点的权值最终达到稳态,此时节点的权值大小就反应了节点的重要性。PageRank相比于度中心性更加差异化的体现了不同的节点对相邻节点的重要性的贡献,在度中心性中某一节点对其所有邻居的连边贡献的重要性都一视同仁,但显然不同邻居贡献的重要性是不一样的,而PageRank基于随机游走的策略分发权值就可以在一定程度上使得不同节点拥有不同的权值,从而使其分发的给相邻节点的权值也不一样,这样能在一定程度上让那些度不是很大但是邻居节点的重要性较高的这些“低调”的重要节点的排名相对较高,但是这种方法原本是用来分析静态的网页网络的,它无法有效的针对动态含时网络中不同时期的重要节点进行有效识别。因此,在本实施例中通过加入设置一滑动窗口时间,计算子网中所有节点的PageRank值的平均值和方差,然后根据平均值和方差将每个节点的PageRank值进行归一化处理,并根据归一化的结果从所有节点中识别出重要节点。以引文网络为例,通过解决排序算法的时间平衡性的问题,使得排名靠前的论文中既有年龄较大的经典论文又有年龄较小的有创新性贡献的杰出论文。这样识别出的重要论文更具有参考价值,因为对于科研工作者来说既向往看到各时期的优质的论文又希望看到前沿的成果,这就需要排序算法具有较高的时间平衡性。而那些相对的重要节点它们没有足够的时间来积累充分的关注,这就需要我们摒弃传统的从整个网络静态来衡量节点的重要性的思维方式,用动态的和局部的的视角来考察节点的重要性。这里我们给出一种rescaled的方法来减小排序算法的时间偏好,我们对比了传统的排序算法和rescaled后的排序算法对不同时期的重要节点的识别情况,发现经过rescaled的排序算法表现的更好。
在本实施例中,通过将含时网络的演化过程节点的重要性变化情况具象成经过若干个时间间隔后的构成的若干个子网内节点中心性指标的变化情况。同时对每个子网将节点按加入网络的年龄来排序,为每个节点引入一个滑动时间窗口的概念来降低年龄不同对节点排序造成的影响,给不同年龄段的节点一个更加公平的竞争机制,在减少时间偏好的同时也能保证较高的识别率。于此同时,通过权威的重要节点名单来实际检验了算法有效性,相比于利用传播模型或攻击模型等模拟方法来验证算法具有更大的说服力。此外,这种将动态网络划分成若干子网,同时又将每个子网中的节点划分出时间窗口的办法,在研究动态含时网络的有关问题时具有通用性,能够在一定程度上连接静态网络与动态网络。
在一个实施例中,如图3所示,提供了一种基于时间平衡的网络节点识别方法,该方法中根据平均值和方差将每个节点的PageRank值进行归一化,并根据归一化的结果从每个节点中识别出重要节点的步骤包括:
步骤302,根据平均值和方差计算每个节点的PageRank值的归一化标准差;
步骤304,将所有的节点按照每个节点的PageRank值的归一化标准差的大小进行排序;
步骤306,设置一识别阈值,并从排序结果中筛选出识别阈值排序范围内的节点作为重要节点。
具体的,计算机首先计算每个节点在其时间窗口范围内的所有节点的PageRank值的平均值μi(p)和方差σi(p)。
设置一识别阈值,根据排序结果将排序的名次位于识别阈值内的节点识别为重要节点。具体地,例如:设置一个识别阈值z,如果节点i按Ri(p)排序的名次处于top-z之内,就将其识别为重要节点,否则为非重要节点。
在一个具体的实施例中,在引文网络中,每个篇论文视为一个节点,如果论文a引用了论文b,则视为a到b有一条边,把不同时期发表的论文构成的引用关系构建一个含时的引文网络,如果最早的论文发表于2000年,最晚的论文发表于2010年,假设以一年为划分单位,可以把这个最终的引文网络划分为2000年至2001年间发表的论文构成的一个子网,2000年到2002年构成的子网,依次类推的10个子网,其中每个子网又都是后一个子网的子网,最终演变成整个网络,对于每一个子网,计算每篇论文的PageRank值。然后把每篇论文按照发表年龄排序,计算每篇论文前后Δp/2篇论文PageRank值的平均值和方差,然后通过Ri(p)计算每篇论文的R(p)值,将每个节点的R(p)值按照大小排序,假设我们任务排在前1%的论文为重要的论文,这样我们就可以得到网络演化不同时期不同年龄的论文的排名和识别情况的变化,通过获取各个年份专家评选出来的best paper,来对比算法识别出来的重要论文,就可以评价算法识别情况的好坏。
我们通过选取了dblp引文网络数据和计算机领域77个会议历史上颁发的bestpaper奖来验证该算法的效果,dblp是计算机领域全面的文献数据数据库集成系统,收录了计算机发展的不同时期不同领域的文献。为了显示各排序算法的时间偏好,我们把网络中的论文按照年龄顺序排序,并将所有论文平均分为40个年龄组,通过观察每个排序算法前1%的论文在40个年龄组的分布来考察算法的时间平衡性。
参考图8,可以看出Citation count(引文网络中引用计数Citation count就是度中心性概念)和PageRank算法top1%的论文大多分布在年龄较大的组中,而相对年轻的组论文排名靠前的数量越来越少,表现出较强的时间偏好。CiteRank有所改善但在各个年龄组的分布依然不算均匀,时间偏好依然存在。Rescaled Citation count和rescaledPageRank算法排名靠前的论文在各个年龄组的分布是比较均匀的,时间偏好性小。由此可以看到经过rescaled的排序算法相对于传统算法具有较好的时间平衡性。
参考图9,通过进一步的量化各算法排序的时间偏好程度,我可以看到经过rescaled PageRank和rescaled Citation count具有更低的时间偏好程度。而传统方法的时间偏好程度较高。
参考图10,通过考察了一千多篇best paper在发表了若干年后各算法平均识别率的变化情况,可以看到,rescaled Citation Count(图中的R(c)和rescaled PageRank(图中的R(p))能够在较短的时间内识别出重要论文,而传统的算法由于倾向于年龄较大的节点导致这些重要论文需要发表较长一段时间后才能被识别,而rescaled PageRank不仅能够在较短的时间内识别出重要论文而且随着时间的推移识别率相较于其他算法也有较为显著的提高。
在一个实施例中,如图4所示,提供了一种基于时间平衡的网络节点识别方法,该方法中将含时网络按照时间间隔进行划分得到多个子网的步骤包括:
步骤402,根据原始网络数据中的时间标签将原始网络的初始时刻记为t0,最终状态时刻记为te;
步骤404,设置一时间间隔Δt,所述原始网络从初始时刻到最终状态时刻共经历了k*Δt个时间间隔;
步骤406,构建节点从t0时刻到t0+i*Δt时刻的k个子网,其中i∈[1,k]。
在一个实施例中,如图5所示,提供了一种基于时间平衡的网络节点识别方法,该方法中将子网中的每个节点按照时间进行排序,通过设置一滑动窗口时间,计算子网中所有节点的PageRank值的平均值和方差的步骤还包括:
步骤502,将网络中的每个节点按照时间进行排序,得到每个节点的时间序号t(i),其中t(i)∈[1,n];
步骤504,设置一滑动时间窗口Δp;
步骤506,判断节点的时间序号是否位于Δp/2和n-Δp/2之间;
步骤508,若节点的时间序号位于Δp/2和n-Δp/2之间,则将节点的时间窗口范围固定在[t(i)-Δp/2,t(i)+Δp/2]之间。
在一个实施例中,如图6所示,提供了一种基于时间平衡的网络节点识别方法,该方法在判断节点的时间序号是否位于Δp/2和n-Δp/2之间的步骤之后还包括:
步骤602,若节点的时间序号不位于Δp/2和n-Δp/2之间,则判断节点的时间序号是否小于Δp/2;
步骤604,若节点的时间序号小于Δp/2,则将节点的时间窗口范围固定在[1,Δp]之间;
步骤606,若节点的时间序号不小于Δp/2,则将节点的时间窗口范围固定在[n-Δp,n]之间。
具体地,参考图7,在本实施例中,描述了计算机实现基于时间平衡的网络节点识别的算法步骤,具体包括:
首先,通过带时间标签的原始数据构建一个含时网络结构,记网络的最早的时刻为t0,最近的时刻为te,我们把t0到te的网络演化整个时间平均划分为k份,每份的时间间隔记为Δt,构建节点在t0到i*Δt,i∈[1,k]的k个子网,即每个子网经过Δt时间后就演化成了下一个更大的子网,经过k*Δt时间后演化成了现在的网络。
然后,对于每个时期的子网,计算网络中每个节点的PageRank值pi。
接着,对网络中的每个节点按照时间顺序排序,得到每个节点的排序序号t(i),t(i)∈[1,n]。
接着,设置一个滑动时间窗口Δp,对于时间序号处于前Δp/2和后n-Δp/2的节点,窗口范围依次固定在[1,Δp]和[n-Δp/,n],中间的每个节点i,其窗口范围在[t(i)-Δp/2,t(i)+Δp/2]之间。计算每个节点i在其时间窗口内的所有节点的PageRank值的平均值μi(p)和方差σi(p)。
最后,设置一个识别阈值z,如果节点i按Ri(p)排序的名次处于top-z之内,就将其识别为重要节点,否则为非重要节点。
可以理解的是本算法不仅仅可以用于上述实施例中论文检索系统,以适应科研人员对搜索结果既要高质量又有一定程度的新鲜度的需求。本算法同样可以应用于电子商务领域对商品的检索系统中以呈现出既有新颖性又具有高质量的商品。
在本实施例中,通过设定一个时间间隔将含时网络的演化过程节点的重要性变化情况具象成经过若干个时间间隔后的构成的若干个子网内节点中心性指标的变化情况。同时对每个子网将节点按加入网络的年龄来排序,为每个节点引入一个滑动时间窗口的概念来降低年龄不同对节点排序造成的影响,利用Ri(p)的计算方式让在各局部时期内表现突出的节点有较好的名次,给不同年龄段的节点一个更加公平的竞争机制,在减少时间偏好的同时也能保证较高的识别率。于此同时,通过权威的重要节点名单来实际检验了算法有效性,相比于利用传播模型或攻击模型等模拟方法来验证算法具有更大的说服力。最后通过对静态的PageRank算法加以改变让rescaled PageRank算法能有更快更好的识别出网络不同时期的重要节点,一定程度上解决了重要节点在加入网络不久,结构优势不明显的情况下的冷启动问题。这种将动态网络划分成若干子网,同时又将每个子网中的节点划分出时间窗口的办法。在研究动态含时网络的有关问题时具有通用性。能够在一定程度上连接静态网络与动态网络。
应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种基于时间平衡的网络节点识别装置1100,该装置包括:
获取模块1101,用于获取原始网络数据,根据原始网络数据构建含时网络;
划分模块1102,用于将含时网络按照时间间隔进行划分得到多个子网;
第一计算模块1103,用于分别计算子网中每个节点的PageRank值;
第二计算模块1104,用于将子网中的每个节点按照时间进行排序,通过设置一滑动窗口时间,计算子网中所有节点的PageRank值的平均值和方差;
识别模块1105,用于根据平均值和方差将每个节点的PageRank值进行归一化处理,并根据归一化的结果从每个节点中识别出重要节点。
在一个实施例中,识别模块1105还用于:
根据平均值和方差计算每个节点的PageRank值的归一化标准差;
将所有的节点按照每个节点的PageRank值的归一化标准差的大小进行排序;
设置一识别阈值,并从排序结果中筛选出识别阈值排序范围内的节点作为重要节点。
在一个实施例中,划分模块1102还用于:
根据原始网络数据中的时间标签将原始网络的初始时刻记为t0,最终状态时刻记为te;
设置一时间间隔Δt,原始网络从初始时刻到最终状态时刻共经历了k*Δt个时间间隔;
构建节点从t0时刻到t0+i*Δt时刻的k个子网,其中i∈[1,k]。
在一个实施例中,第二计算模块1104还用于:
将网络中的每个节点按照时间进行排序,得到每个节点的时间序号t(i),其中t(i)∈[1,n];
设置一滑动时间窗口Δp;
判断节点的时间序号是否位于Δp/2和n-Δp/2之间;
若所述节点的时间序号位于Δp/2和n-Δp/2之间,则将所述节点的时间窗口范围固定在[t(i)-Δp/2,t(i)+Δp/2]之间。
在一个实施例中,第二计算模块1104还用于:
若所述节点的时间序号不位于Δp/2和n-Δp/2之间,则判断所述节点的时间序号是否小于Δp/2;
若所述节点的时间序号小于Δp/2,则将所述节点的时间窗口范围固定在[1,Δp]之间;
若所述节点的时间序号不小于Δp/2,则将所述节点的时间窗口范围固定在[n-Δp,n]之间。
在一个实施例中,第二计算模块1104还用于:
计算每个节点在其时间窗口范围内的所有节点的PageRank值的平均值μi(p)和方差σi(p);
设置一识别阈值,根据排序结果将排序的名次位于识别阈值内的节点识别为重要节点。
关于基于时间平衡的网络节点识别装置的具体限定可以参见上文中对于基于时间平衡的网络节点识别方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器以及网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于时间平衡的网络节点识别方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以上各个方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以上各个方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于时间平衡的网络节点识别方法,所述方法包括:
获取原始网络数据,根据所述原始网络数据构建含时网络;
根据所述原始网络数据中的时间标签将原始网络的初始时刻记为t0,最终状态时刻记为te;
设置一时间间隔Δt,所述原始网络从初始时刻到最终状态时刻共经历了k*Δt个时间间隔;
构建节点从t0时刻到t0+i*Δt时刻的k个子网,其中i∈[1,k],k为大于1的整数;
分别计算子网中每个节点的PageRank值;
将所述子网中的每个节点按照时间进行排序,通过设置一滑动时间窗口,计算所述子网中所有节点的PageRank值的平均值和方差;
将网络中的每个节点按照时间进行排序,得到每个节点的时间序号t(i),其中t(i)∈[1,n],n为大于1的整数;
设置一滑动时间窗口Δp;
判断节点的时间序号是否位于Δp/2和n-Δp/2之间;
若所述节点的时间序号位于Δp/2和n-Δp/2之间,则将所述节点的时间窗口范围固定在[t(i)-Δp/2,t(i)+Δp/2]之间;
若所述节点的时间序号不位于Δp/2和n-Δp/2之间,则判断所述节点的时间序号是否小于Δp/2;
若所述节点的时间序号小于Δp/2,则将所述节点的时间窗口范围固定在[1,Δp]之间;
若所述节点的时间序号不小于Δp/2,则将所述节点的时间窗口范围固定在[n-Δp,n]之间;
根据所述平均值和方差将所述每个节点的PageRank值进行归一化处理,并根据归一化的结果从所述每个节点中识别出重要节点。
2.根据权利要求1所述的基于时间平衡的网络节点识别方法,其特征在于,所述根据所述平均值和方差将所述每个节点的PageRank值进行归一化,并根据归一化的结果从所述每个节点中识别出重要节点的步骤包括:
根据所述平均值和方差计算所述每个节点的PageRank值的归一化标准差;
将所有的节点按照所述每个节点的PageRank值的归一化标准差的大小进行排序;
设置一识别阈值,并从排序结果中筛选出识别阈值排序范围内的节点作为重要节点。
4.一种基于时间平衡的网络节点识别装置,其特征在于,所述基于时间平衡的网络节点识别装置包括:
获取模块,所述获取模块用于获取原始网络数据,根据所述原始网络数据构建含时网络;
划分模块,所述划分模块用于根据所述原始网络数据中的时间标签将所述原始网络的初始时刻记为t0,最终状态时刻记为te,设置一时间间隔Δt,所述原始网络从初始时刻到最终状态时刻共经历了k*Δt个时间间隔,构建节点从t0时刻到t0+i*Δt时刻的k个子网,其中i∈[1,k],k为大于1的整数;
第一计算模块,所述第一计算模块用于分别计算子网中每个节点的PageRank值;
第二计算模块,所述第二计算模块用于将所述子网中的每个节点按照时间进行排序,通过设置一滑动时间窗口,计算所述子网中所有节点的PageRank值的平均值和方差,将网络中的每个节点按照时间进行排序,得到每个节点的时间序号t(i),其中t(i)∈[1,n],n为大于1的整数,设置一滑动时间窗口Δp,判断节点的时间序号是否位于Δp/2和n-Δp/2之间,若所述节点的时间序号位于Δp/2和n-Δp/2之间,则将所述节点的时间窗口范围固定在[t(i)-Δp/2,t(i)+Δp/2]之间,若所述节点的时间序号不位于Δp/2和n-Δp/2之间,则判断所述节点的时间序号是否小于Δp/2;若所述节点的时间序号小于Δp/2,则将所述节点的时间窗口范围固定在[1,Δp]之间;若所述节点的时间序号不小于Δp/2,则将所述节点的时间窗口范围固定在[n-Δp,n]之间;
识别模块,所述识别模块用于根据所述平均值和方差将所述每个节点的PageRank值进行归一化处理,并根据归一化的结果从所述每个节点中识别出重要节点。
5.根据权利要求4所述的基于时间平衡的网络节点识别装置,其特征在于,所述识别模块还用于:
根据所述平均值和方差计算所述每个节点的PageRank值的归一化标准差;
将所有的节点按照所述每个节点的PageRank值的归一化标准差的大小进行排序;
设置一识别阈值,并从排序结果中筛选出识别阈值排序范围内的节点作为重要节点。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327217.6A CN110011862B (zh) | 2019-04-23 | 2019-04-23 | 基于时间平衡的网络节点识别方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910327217.6A CN110011862B (zh) | 2019-04-23 | 2019-04-23 | 基于时间平衡的网络节点识别方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110011862A CN110011862A (zh) | 2019-07-12 |
CN110011862B true CN110011862B (zh) | 2022-03-11 |
Family
ID=67173600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910327217.6A Active CN110011862B (zh) | 2019-04-23 | 2019-04-23 | 基于时间平衡的网络节点识别方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110011862B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853739A (zh) * | 2012-11-29 | 2014-06-11 | 中国移动通信集团公司 | 动态社会关系网络社区演化识别以及稳定社区提取方法 |
CN105740452A (zh) * | 2016-02-03 | 2016-07-06 | 北京工业大学 | 基于PageRank和时间衰减的科技文献重要度评价方法 |
CN107292751A (zh) * | 2017-05-31 | 2017-10-24 | 杭州师范大学 | 一种时序网络中节点重要性的挖掘方法和装置 |
CN107977386A (zh) * | 2016-10-25 | 2018-05-01 | 航天信息股份有限公司 | 一种识别审计事件中的敏感用户的方法及装置 |
CN108764546A (zh) * | 2018-05-17 | 2018-11-06 | 鞍山师范学院 | 一种基于学术大数据的论文影响力预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7076483B2 (en) * | 2001-08-27 | 2006-07-11 | Xyleme Sa | Ranking nodes in a graph |
-
2019
- 2019-04-23 CN CN201910327217.6A patent/CN110011862B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853739A (zh) * | 2012-11-29 | 2014-06-11 | 中国移动通信集团公司 | 动态社会关系网络社区演化识别以及稳定社区提取方法 |
CN105740452A (zh) * | 2016-02-03 | 2016-07-06 | 北京工业大学 | 基于PageRank和时间衰减的科技文献重要度评价方法 |
CN107977386A (zh) * | 2016-10-25 | 2018-05-01 | 航天信息股份有限公司 | 一种识别审计事件中的敏感用户的方法及装置 |
CN107292751A (zh) * | 2017-05-31 | 2017-10-24 | 杭州师范大学 | 一种时序网络中节点重要性的挖掘方法和装置 |
CN108764546A (zh) * | 2018-05-17 | 2018-11-06 | 鞍山师范学院 | 一种基于学术大数据的论文影响力预测方法 |
Non-Patent Citations (1)
Title |
---|
《量化文献长期影响力的研究》;黎凡;《西南大学硕士学位论文》;20190131;16-32 * |
Also Published As
Publication number | Publication date |
---|---|
CN110011862A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nepusz et al. | Fuzzy communities and the concept of bridgeness in complex networks | |
Ruan et al. | An efficient spectral algorithm for network community discovery and its applications to biological and social networks | |
Zhao et al. | Measuring academic influence using heterogeneous author-citation networks | |
Davletov et al. | High impact academic paper prediction using temporal and topological features | |
CN111258767A (zh) | 复杂系统仿真应用的云计算资源智能分配方法与装置 | |
CN111666494B (zh) | 分群决策模型生成、分群处理方法、装置、设备及介质 | |
Ahlgren et al. | The correlation between citation-based and expert-based assessments of publication channels: SNIP and SJR vs. Norwegian quality assessments | |
Bennett et al. | Online stratified sampling: evaluating classifiers at web-scale | |
CN113282409B (zh) | 边缘计算任务的处理方法、装置和计算机设备 | |
WO2016188498A1 (zh) | 一种无线网络吞吐量的评估方法及装置 | |
Coppi et al. | Fuzzy unsupervised classification of multivariate time trajectories with the Shannon entropy regularization | |
JP3792879B2 (ja) | 並列実行システム | |
Zhang et al. | Comparing paper level classifications across different methods and systems: an investigation of Nature publications | |
CN110011862B (zh) | 基于时间平衡的网络节点识别方法、装置及计算机设备 | |
CN111461440A (zh) | 链路预测方法、系统及终端设备 | |
Brusco et al. | A comparison of spectral clustering and the walktrap algorithm for community detection in network psychometrics. | |
Liu et al. | Detecting community structure for undirected big graphs based on random walks | |
Li et al. | Extremal optimization-based semi-supervised algorithm with conflict pairwise constraints for community detection | |
Gou et al. | Encoding the citation life-cycle: the operationalization of a literature-aging conceptual model | |
Wu et al. | Community detection with topological structure and attributes in information networks | |
CN111310822A (zh) | 一种基于pu学习和随机游走的链接预测方法及装置 | |
Bihari et al. | Year based EM-index: a new approach to evaluate the scientific impact of scholars | |
Zehnalova et al. | Local representatives in weighted networks | |
CN115374019A (zh) | 分布式ui测试用例的测试方法、系统及计算机存储介质 | |
Enduri et al. | Does diversity of papers affect their citations? Evidence from American Physical Society Journals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |