CN109949164A - 一种基于投资关系网络的重要节点挖掘方法及装置 - Google Patents
一种基于投资关系网络的重要节点挖掘方法及装置 Download PDFInfo
- Publication number
- CN109949164A CN109949164A CN201910245563.XA CN201910245563A CN109949164A CN 109949164 A CN109949164 A CN 109949164A CN 201910245563 A CN201910245563 A CN 201910245563A CN 109949164 A CN109949164 A CN 109949164A
- Authority
- CN
- China
- Prior art keywords
- node
- network
- scale value
- inferiority
- superiority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012217 deletion Methods 0.000 claims abstract description 24
- 230000037430 deletion Effects 0.000 claims abstract description 24
- 239000012141 concentrate Substances 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 6
- 230000006855 networking Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000006399 behavior Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于投资关系网络的重要节点挖掘方法及装置,该装置用于实现本方法,本方法包括建立基于投资行为的投资关系网络;以鲁棒性指标为衡量节点重要性排序的优劣R,定义优劣R;将优劣R中删除节点的当前网络最大连通规模值反向为添加节点的当前网络最大连通规模值,采用反向生成网络法BGN计算该节点i的cost[i]添加入网节点的当前网络最大连通规模值,对优劣R求最小排序,挖掘排序序列前k个节点为重要节点集。本发明采用反向生成网络算法挖掘重要节点,更具新颖性、高精度性及高效率性。
Description
技术领域
本发明涉及数据挖掘领域,特别涉及一种基于投资关系网络的重要节点挖掘方法及装置。
背景技术
近几年来,随着风险投资机制在全球经济发展中的作用日趋突显,风险投资问题成为资本市场关注的重点,与之相关的研究也随之兴起。由于存在着代理问题和信息不对称问题,我国的上市公司或多或少会存在过度投资或者投资不足。提高企业的投资效率具有重要的意义。
投资网络是由网络上的节点与连线构成,在节点与连线的共同作用下,形成了多层次的复杂的网络。每一个节点可作为个体、小组、组织,代表了关系网络中的利益相关者。节点与节点之间的连线,体现了节点的联系。这种联系可呈现出方向性和权重关系,在投资关系网络中可表现为交易关系、信任关系及其程度等。
本发明所研究的投资关系网络,是狭义上的投资关系网络,仅包括风险投资机构之间存在的关系网络。这种风险投资关系网络可以是风险投资机构之间所固有的,也可以是由关系网络内各个风险投资机构通过各种互动行为所建立起来的。这种关系网络的建立,为网络内部各个风险投资机构进行信息交流、资源共享提供了渠道。风险投资关系网络具有资源配置的功能,使得它在风险投资资本市场中具有不可替代的作用,对于风险投资机构的投资行为有着重要影响。
重要节点挖掘是指在大规模网络中寻找一些关键的节点。节点在网络中发挥着不同的作用。例如,在社交网络中一条谣言的传播,一个核心大号的转发可能带来巨大的影响。同样的,在投资关系网络中,我们希望识别出一些可能导致金融风险的或者极具影响力的重要投资人和企业。这对金融领域的投资行为提供了理论上的指导。
重要节点挖掘算法已受到多学科的广泛关注,至今已提出可各种各样的方法。如度中心性、k-shell分解、介数中心性、接近中心性、PageRank等。度中心性简单快速,但只考虑了邻居节点的信息,排序精度差。k-shell算法排序过于粗粒度,无法区分在同层的节点的重要性。介数中心性衡量了节点在网络中的信息流的控制能力。接近中心性利用信息在网络中的平均传播时长来确定节点的重要性。虽然这两种方法考虑了全局的信息,但时间复杂度极高,限制了其在大规模网络中的应用。PageRank是谷歌搜索引擎核心算法,算法中的参数c的选取往往需要通过实验获得,并且在不同的应用背景下最优的参数不具有普适性。
当前,对所有节点的重要性的较为客观的评价标准极为困难,常用来评价各种排序算法的准则有基于网络鲁棒性以及基于网络传播动力学模型的准则。网络鲁棒性着重考察节点对网络结构的影响,通过排序方法得到的节点序列,按序列依次将节点从网络中移除,网络崩塌的越迅速说明该排序方法越好。传播动力学模型分为SIS模型和SIR模型两种,其主要思想是将排序得到的Top-K个节点作为种子节点集,如果种子节点集传播又快又广,则算法越优。
发明内容
本发明的主要目的是提出一种基于投资关系网络的重要节点挖掘方法,旨在克服以上问题。
为实现上述目的,本发明提出的一种基于投资关系网络的重要节点挖掘方法,包括如下步骤:
S10将参与投资行为的对象抽象为节点,对对象间存在交易的节点连边,生成投资关系的网络;
S20以鲁棒性指标为衡量节点重要性排序的优劣R,定义p为节点的移除节点比,σ为删除预添加入网节点i的当前网络最大连通规模值cost[i],采用反向生成网络法BG设p比例的节点之后当前网络中最大连通集团的规模值,优劣R公式为:其中,n为网络节点个数,为删除比例为的节点之后当前网络的最大连通规模值,以p为横坐标,σ为纵坐标,得优劣R的曲线,鲁棒性指标为该曲线下的面积;
S30将反向为N计算该节点i的cost[i],对优劣R求最小排序,挖掘排序序列前k个节点为重要节点集。
优选地,所述S30中采用反向生成网络法BGN计算cost[i]的具体步骤为:
S301先判断该节点是否为孤立节点,若为孤立节点,则为该节点分配一个新的集团;若不为孤立节点,则访问该节点的邻居点,并将该节点合并至邻居点所在集团,并更新该集团的最大连通规模值;
S302若集团的最大连通规模值大于当前网络的最大连通规模值,更新当前最大连通规模值为该集团的最大连通规模值。
优选地,所述S30之后还包括S40采用顶堆反向HeapBGN法将该节点的最大规模值的时间复杂度O(n+m)降到O(d),d为节点度,即该节点的所有邻居节点数,则反向生成网络BGN的时间复杂度降为O(n2d),:
将候选节点集用堆构建:建堆时间复杂度O(n),调整堆的时间复杂度为
O(logn),弹出堆顶节点时间复杂度为O(1),n为节点集的节点总数;
判断该节点是否为添中节点的受影响节点,若该节点是受影响的节点则更新该点的cost值,并对其标记已更新放入堆中;若该节点是受影响的节点且cost值已被更新,则弹出该节点的优劣R为最小,该节点为可选添加节点;若该节点是未受影响的节点,该节点为可选添加节点;
更新所有受影响节点所需的时间复杂度为O(nmdlogn),m为节点集中受影响的节点数,且受添加节点的影响而动态变化;
由于m的平均值通常远小于n,故忽略m,得到顶堆反向HerpBGN的所有受影响节点所需的平均时间复杂度O(nlogn)。
优选地,所述S30之前还包括:
S50对S20所删除节点按其连通规模值进行最小排序得到初始节点集;
S60对初始节点集中连通规模值相等的所删除节点按其重要性进行最小排序得到初始候选节点集。
优选地,所述S30之前还包括:
S70采用不同的初始化方法通过归一化后再加权求和得到节点重要性,按节点重要性进行最小排序得到初始候选节点集,其中所述的初始化方法有且不限于度中心性、PageRank算法、k-shell算法。
本发明还公开了一种基于投资关系网络的重要节点挖掘装置,用于实现上述方法,其包括:
网络生成模块10,用于将参与投资行为的对象抽象为节点,对对象间存交易的节点连边,生成投资关系的网络;
优劣模块20,用于以鲁棒性指标为衡量节点重要性排序的优劣R,定义p为节点的移除节点比,σ为删除预设p比例的节点之后当前网络中最大连通集团的规模值,优劣R公式为:其中,n为网络节点个数,为删除比例为的节点之后当前网络的最大连通规模值,以p为横坐标,σ为纵坐标,得优劣R的曲线,鲁棒性指标为该曲线下的面积;
排序模块30,用于将反向为添加入网节点i的当前网络最大连通规模值cost[i],采用反向生成网络法BGN计算该节点i的cost[i],对优劣R求最小排序,挖掘排序序列前k个节点为重要节点集。
优选地,所述排序模块30还包括:
判断单元301,用于先判断该节点是否为孤立节点,若为孤立节点,则为该节点分配一个新的集团;若不为孤立节点,则访问该节点的邻居点,并将该节点合并至邻居点所在集团,并更新该集团的最大连通规模值;
更新单元301,用于若集团的最大连通规模值大于当前网络的最大连通规模值,更新当前最大连通规模值为该集团的最大连通规模值。
优选地,还包括:
优化模块40,用于采用顶堆反向HeapBGN法将该节点的最大规模值的时间复杂度O(n+m)降到O(d),d为节点度,即该节点的所有邻居节点数,则反向生成网络BGN的时间复杂度降为O(n2d);
将候选节点集用堆构建:建堆时间复杂度O(n),调整堆的时间复杂度为O(logn),弹出堆顶节点时间复杂度为O(1),n为节点集的节点总数;
判断该节点是否为添中节点的受影响节点,若该节点是受影响的节点则更新该点的cost值,并对其标记已更新放入堆中;若该节点是受影响的节点且cost值已被更新,则弹出该节点的优劣R为最小,该节点为可选添加节点;若该节点是未受影响的节点,该节点为可选添加节点;
更新所有受影响节点所需的时间复杂度为O(nmdlogn),m为节点集中受影响的节点数,且受添加节点的影响而动态变化;
由于m的平均值通常远小于n,故忽略m,得到顶堆反向HerpBGN的所有受影响节点所需的平均时间复杂度O(nlogn)。
优选地,还包括:
初始模块50,用于对优劣模块中所删除节点按其连通规模值进行最小排序得到初始节点集,及对初始节点集中连通规模值相等的所删除节点按其重要性进行最小排序得到初始候选节点集,或者是,用于采用不同的初始化方法通过归一化后再加权求和得到节点重要性,按节点重要性进行最小排序得到初始候选节点集,其中所述的初始化方法有且不限于度中心性、PageRank算法、k-shell算法。
本发明提出了一种新颖的高精度、高效率的重要节点挖掘算法—反向生成网络算法(BGN)。具体体现在:1.新颖:不同与传统方法,先对网络中的节点定义重要性,再计算排序,本发明不需要通过计算重要性,通过每一步都做出当前状态的最优选择,获得节点的选取序列。2.高精度:本发明提出了以评价指标为目标函数的贪心方法,理论上可以得到近似最优解。3.高效率:本发明在时间效率上做了很多优化,利用了最小堆构建和延迟更新技术。时间性能上优于一些现有的方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明方法一实施例的方法流程图;
图2为步骤S30一实施例的方法流程图;
图3为本发明装置一实施例的功能模块图;
图4为本发明装置一实施例的功能模块细化图,
图5为鲁棒性指标曲线图;
图6为最大连通规模的计算示例;
图7为节点的添加与集团的合并变化图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
如图1-7,本发明提出的一种基于投资关系网络的重要节点挖掘方法,包括如下步骤:
S10将参与投资行为的对象抽象为节点,对对象间存在交易的节点连边,生成投资关系的网络;
S20以鲁棒性指标为衡量节点重要性排序的优劣R,定义p为节点的移除节点比,σ为删除预添加入网节点i的当前网络最大连通规模值cost[i],采用反向生成网络法BG设p比例的节点之后当前网络中最大连通集团的规模值,优劣R公式为:其中,n为网络节点个数,为删除比例为的节点之后当前网络的最大连通规模值,以p为横坐标,σ为纵坐标,得优劣R的曲线,鲁棒性指标为该曲线下的面积;
S30将反向为N计算该节点i的cost[i],对优劣R求最小排序,挖掘排序序列前k个节点为重要节点集。
优选地,所述S30中采用反向生成网络法BGN计算cost[i]的具体步骤为:
S301先判断该节点是否为孤立节点,若为孤立节点,则为该节点分配一个新的集团;若不为孤立节点,则访问该节点的邻居点,并将该节点合并至邻居点所在集团,并更新该集团的最大连通规模值;
S302若集团的最大连通规模值大于当前网络的最大连通规模值,更新当前最大连通规模值为该集团的最大连通规模值。
优选地,所述S30之后还包括S40采用顶堆反向HeapBGN法将该节点的最大规模值的时间复杂度O(n+m)降到O(d),d为节点度,即该节点的所有邻居节点数,则反向生成网络BGN的时间复杂度降为O(n2d),:
将候选节点集用堆构建:建堆时间复杂度O(n),调整堆的时间复杂度为
O(logn),弹出堆顶节点时间复杂度为O(1),n为节点集的节点总数;
判断该节点是否为添中节点的受影响节点,若该节点是受影响的节点则更新该点的cost值,并对其标记已更新放入堆中;若该节点是受影响的节点且cost值已被更新,则弹出该节点的优劣R为最小,该节点为可选添加节点;若该节点是未受影响的节点,该节点为可选添加节点;
更新所有受影响节点所需的时间复杂度为O(nmdlogn),m为节点集中受影响的节点数,且受添加节点的影响而动态变化;
由于m的平均值通常远小于n,故忽略m,得到顶堆反向HerpBGN的所有受影响节点所需的平均时间复杂度O(nlogn)。
优选地,所述S30之前还包括:
S50对S20所删除节点按其连通规模值进行最小排序得到初始节点集;
S60对初始节点集中连通规模值相等的所删除节点按其重要性进行最小排序得到初始候选节点集。
优选地,所述S30之前还包括:
S70采用不同的初始化方法通过归一化后再加权求和得到节点重要性,按节点重要性进行最小排序得到初始候选节点集,其中所述的初始化方法有且不限于度中心性、PageRank算法、k-shell算法。
本发明还公开了一种基于投资关系网络的重要节点挖掘装置,用于实现上述方法,其包括:
网络生成模块10,用于将参与投资行为的对象抽象为节点,对对象间存交易的节点连边,生成投资关系的网络;
优劣模块20,用于以鲁棒性指标为衡量节点重要性排序的优劣R,定义p为节点的移除节点比,σ为删除预设p比例的节点之后当前网络中最大连通集团的规模值,优劣R公式为:其中,n为网络节点个数,为删除比例为的节点之后当前网络的最大连通规模值,以p为横坐标,σ为纵坐标,得优劣R的曲线,鲁棒性指标为该曲线下的面积;
排序模块30,用于将反向为添加入网节点i的当前网络最大连通规模值cost[i],采用反向生成网络法BGN计算该节点i的cost[i],对优劣R求最小排序,挖掘排序序列前k个节点为重要节点集。
优选地,所述排序模块30还包括:
判断单元301,用于先判断该节点是否为孤立节点,若为孤立节点,则为该节点分配一个新的集团;若不为孤立节点,则访问该节点的邻居点,并将该节点合并至邻居点所在集团,并更新该集团的最大连通规模值;
更新单元301,用于若集团的最大连通规模值大于当前网络的最大连通规模值,更新当前最大连通规模值为该集团的最大连通规模值。
优选地,还包括:
优化模块40,用于采用顶堆反向HeapBGN法将该节点的最大规模值的时间复杂度O(n+m)降到O(d),d为节点度,即该节点的所有邻居节点数,则反向生成网络BGN的时间复杂度降为O(n2d);
将候选节点集用堆构建:建堆时间复杂度O(n),调整堆的时间复杂度为O(logn),弹出堆顶节点时间复杂度为O(1),n为节点集的节点总数;
判断该节点是否为添中节点的受影响节点,若该节点是受影响的节点则更新该点的cost值,并对其标记已更新放入堆中;若该节点是受影响的节点且cost值已被更新,则弹出该节点的优劣R为最小,该节点为可选添加节点;若该节点是未受影响的节点,该节点为可选添加节点;
更新所有受影响节点所需的时间复杂度为O(nmdlogn),m为节点集中受影响的节点数,且受添加节点的影响而动态变化;
由于m的平均值通常远小于n,故忽略m,得到顶堆反向HerpBGN的所有受影响节点所需的平均时间复杂度O(nlogn)。
优选地,还包括:
初始模块50,用于对优劣模块中所删除节点按其连通规模值进行最小排序得到初始节点集,及对初始节点集中连通规模值相等的所删除节点按其重要性进行最小排序得到初始候选节点集,或者是,用于采用不同的初始化方法通过归一化后再加权求和得到节点重要性,按节点重要性进行最小排序得到初始候选节点集,其中所述的初始化方法有且不限于度中心性、PageRank算法、k-shell算法。
本发明提出了一种基于投资关系网络的重要节点挖掘方法。主要包括三个部分:第一部分将投资关系抽象为具体的网络结构,第二部分提出了反向生成网络算法BGN(Backward Generate Network Greedy algorithm)用于挖掘重要节点,第三部分是对反向生成网络算法进行优化。
(一)投资关系网络
我们将参与投资的行为的不同对象抽象为网络中的每一个节点。这里的对象包含投资人、公司等利益相关者。根据这些对象是否存在交易构造节点与节点之间的连边。存在交易则构建连边,否则,不连边。由此我们得到投资关系网络,用数学符号形式化为G=(V,E),其中V表示节点集,E表示边集。
(二)重要节点挖掘
本发明提出了反向生成网络算法(BGN)用于挖掘重要节点。BGN是一种排序算法,它根据节点在网络中的重要程度,对所有节点进行排序。我们根据排序的位次关系就能得到哪些是重要的节点。本小节内容包括两部分,第一部分介绍与BGN算法相关的鲁棒性指标,第二部分是BGN算法的具体内容。
2.1鲁棒性指标
鲁棒性指标(Robustness)是2011年由Schneider等人提出的。它是用来衡量节点重要性排序算法的优劣。定义p为移除节点的比例,σ为删除比例为p的节点之后剩余网络中最大连通集团的规模(用比例表示):以p为横坐标,σ为纵坐标,就可以得到σ-p曲线,鲁棒性指标就可以计算为曲线下的面积,公式表示为:
其中,n为网络节点个数,为删除比例为的节点之后当前网络的最大连通集团的规模值。
鲁棒性指标的物理意义是当我们将最重要的节点从网络中删除,网络会变成若干个小的连通集团,即网络会“崩塌”的很快,相反,我们先删除的是最不重要的节点,则网络可能只发生了微小的变化。如图2所示,原网络中有6个节点,假设某一种排序方法,将节点1排在了第一位,认为节点1是网络中最重要的节点,可以看到当删除节点1后,网络变成了5个联通集团{4,5},{2},{3},{6}。最大的联通集团的规模(即公式中的)为2。假设另一种排序方法,认为节点2是网络中最重要的节点,可以看到删除节点后,剩余网络的最大连通集团的规模为5。从直观的评判,前者的排序算法要比后者的更合理,因为在原网络中我们认为节点1比节点2更重要。鲁棒性指标用具体的数值量化了一个排序算法好坏。它根据排序顺序累加剩余网络的最大连通集团的规模,因此更小的R值表示排序算法更优。
2.2反向生成网络算法(BGN)
R值越小,排序算法越优,因此我们希望通过最小化R值来得到排序结果。根据R值的计算方式,它是通过累加得到的,我们利用贪心的策略,希望每次的都尽可能的小,从而使得最终的累加值R达到最小。也即每次选择被删除的点能使得剩余网络中最大连通规模尽可能的小。正向的删除节点复杂度很高,需要选择n个节点,而每次选择节点都需要计算候选节点的最大连通规模值,用数组表示添加节点i的当前网络最大连通规模值。计算最大连通规模通常有广度优先搜索算法(BFS),广度优先搜索是从图的某个顶点i0出发,在访问i0之后,依次搜索访问i0的各个未被访问过的邻居节点i1,i2,…。然后顺序搜索访问i1的各未被访问过的邻接点,i2的各未被访问过的邻接点,…,即从i0开始,由近至远,按层次依次访问与i0有路径相通且路径长度分别为1,2,…的顶点,直至连通图中所有顶点都被访问一次。广度优先搜索的时间复杂度为O(n+m),我们一共需要选择n个节点,而每次选择节点都需要计算所有候选节点的最大连通规模值,候选节点规模由n逐渐减少为0。因此正向删点贪心算法时间复杂度为O(n2(n+m)),n为节点数,m为边数。
反向生成网络的核心思想:在空网络中逐渐添加节点,每次添加的节点使得网络的最大连通规模尽可能的小。将最后的添加节点序列逆序,就得到了最终的排序结果。反向生成网络的优势在于在不断添加节点的过程中,维护节点所属的集团,如果节点是孤立的,就为该节点分配一个新的集团。如果节点不是孤立的,访问节点的邻居,将邻居所在的集团合并。因此,若合并后的集团大小大于当前网络的最大连通规模值,当前最大连通规模值更新为合并后的集团大小。所以计算最大连通规模的时间复杂度为O(d),d为节点的度,节点的度表示的是该节点所有邻居的数目。与正向删点算法不同的地方是反向生成网络算法将计算最大连通规模的时间复杂度从O(n+m)降到了O(d)。因此反向生成网络算法的总体时间复杂度为O(n2d)。
(三)算法优化
将对第二节提出的反向生成网络算法进行优化。优化的内容包括对时间复杂度的优化,以及对排序精度的优化。
3.1优化时间复杂度
BGN算法优化了计算最大连通规模的时间,但仍然需要频繁的更新cost数组,从而选出cost最小的节点。我们提出了HeapBGN做进一步的优化。如果一个节点是孤立的,那么将它添加到网络中,它影响邻居的cost值,而其他节点的cost值不变。如果节点非孤立,那么将它添加到网络中,将合并后的集团看作一个大的节点,集团的邻居即为受影响节点。因此,对于cost的更新,只需计算受影响的节点,未受影响的节点cost值不变。其次,随着节点的添加,cost数组是一个单调不减函数,可以利用这一性质用堆实现优化。小顶堆,是一种经过排序的完全二叉树,其中任一非终端节点的数据值均不大于其左子节点和右子节点的值。建堆的时间复杂度为O(n),调整堆的时间复杂度为O(logn),弹出堆顶节点时间复杂度O(1)。将候选节点集用堆构建,每次弹出cost最小的节点,如果该节点是受影响的节点则需要更新该点的cost值,标记为已更新放入堆中;如果该节点是受影响的节点,且cost值已被更新。根据cost单调不减性质,不需要再更新其他受影响节点的cost值了,弹出的该点是最小的,可作为被选节点;如果该点是未受影响的节点,显然可以作为被选节点。HeapBGN最坏情况,更新了所有受影响的节点O(nmdlogn),m为受影响的节点数,m平均意义上通常远小于n,HeapBGN的平均时间复杂度O(nlogn)。
3.2优化排序精度
为了得到更高的排序精度,我们对算法进行优化,提出了初始化和混合初始式化这两种方法。
3.2.1初始化方法(initial)
对于上述的算法BGN及HeapBGN,候选点集为默认顺序即节点的编号。在每次选取能使连通规模尽可能小的点时,显然这样的点不止一个,在最开始的时候,所有节点cost值都为1,都可以被当作被选节点,如果候选点集为默认,算法会先选择节点0,但如果编号为0的节点又很重要,这样的贪心结果不会是最优的结果,因此,在节点cost值相同的时候我们更倾向于选择重要性更小的,即初始的候选点集应该初具重要节点顺序(重要性从小到大)。通过对初始候选点集的排序,可获得更小的R值。
3.2.2混合初始化方法(Hybrid-initial)
目前的重要节点挖掘算法都可以做为初始化方法,在有多个cost值相同的情况下以提供辅助的判断。选取合适的初始化方法会提高整体的排序精度。选取的准则是在时间效率上要求尽可能的快。不同的网络可能在不同的初始化上表现的不同。初始化方法是模型的超参数。需要不断的选择并实验才能得出,在该网络下的某一种初始化方式是最优的。为避免繁琐的调参过程,同时也能得到较优的结果。本发明提出了混合初始化方法,用不同的初始化方法(例如,度中心性、PageRank值、k-shell数等)通过归一化后再加权求和的方式来综合的描述节点的重要性。
以上所述仅为本发明的优选实施例,并非因此限制本发明的发明范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的发明保护范围内。
Claims (9)
1.一种基于投资关系网络的重要节点挖掘方法,其特征在于,包括如下步骤:
S10将参与投资行为的对象抽象为节点,对对象间存在交易的节点连边,生成投资关系的网络;
S20以鲁棒性指标为衡量节点重要性排序的优劣R,定义p为节点的移除节点比,σ为删除预设p比例的节点之后当前网络中最大连通集团的规模值,优劣R公式为:其中,n为网络节点个数,为删除比例为的节点之后当前网络的最大连通规模值,以p为横坐标,σ为纵坐标,得优劣R的曲线,鲁棒性指标为该曲线下的面积;
S30将反向为添加入网节点i的当前网络最大连通规模值cost[i],采用反向生成网络BGN算法计算该节点i的cost[i],对优劣R求最小排序,挖掘排序序列前k个节点为重要节点集。
2.如权利要求1所述的基于投资关系网络的重要节点挖掘方法,其特征在于,所述S30中采用反向生成网络法BGN计算cost[i]的具体步骤为:
S301先判断该节点是否为孤立节点,若为孤立节点,则为该节点分配一个新的集团;若不为孤立节点,则访问该节点的邻居点,并将该节点合并至邻居点所在集团,并更新该集团的最大连通规模值;
S302若集团的最大连通规模值大于当前网络的最大连通规模值,更新当前最大连通规模值为该集团的最大连通规模值。
3.如权利要求1或2所述的基于投资关系网络的重要节点挖掘方法,其特征在于,所述S30之后还包括S40采用顶堆反向HeapBGN法将该节点的最大规模值的时间复杂度O(n+m)降到O(d),d为节点度,即该节点的所有邻居节点数,则反向生成网络BGN的时间复杂度降为O(n2d),
将候选节点集用堆构建:建堆时间复杂度O(n),调整堆的时间复杂度缩进O(logn),弹出堆顶节点时间复杂度为O(1),n为节点集的节点总数;
判断该节点是否为添中节点的受影响节点,若该节点是受影响的节点则更新该点的cost值,并对其标记已更新放入堆中;若该节点是受影响的节点且cost值已被更新,则弹出该节点的优劣R为最小,该节点为可选添加节点;若该节点是未受影响的节点,该节点为可选添加节点;
更新所有受影响节点所需的时间复杂度为O(nmd logn),m为节点集中受影响的节点数,且受添加节点的影响而动态变化;
由于m的平均值通常远小于n,故忽略m,得到顶堆反向HerpBGN的所有受影响节点所需的平均时间复杂度O(nlogn)。
4.如权利要求3所述的基于投资关系网络的重要节点挖掘方法,其特征在于,所述S30之前还包括:
S50对S20所删除节点按其连通规模值进行最小排序得到初始节点集;
S60对初始节点集中连通规模值相等的所删除节点按其重要性进行最小排序得到初始候选节点集。
5.如权利要求3所述的基于投资关系网络的重要节点挖掘方法,其特征在于,所述S30之前还包括:
S70采用不同的初始化方法通过归一化后再加权求和得到节点重要性,按节点重要性进行最小排序得到初始候选节点集,其中所述的初始化方法有且不限于度中心性、PageRank算法、k-shell算法。
6.一种基于投资关系网络的重要节点挖掘装置,其特征在于,包括:
网络生成模块,用于将参与投资行为的对象抽象为节点,对对象间存在交易的节点连边,生成投资关系的网络;
优劣模块,用于以鲁棒性指标为衡量节点重要性排序的优劣R,定义p为节点的移除节点比,σ为删除预设p比例的节点之后当前网络中最大连通集团的规模值,优劣R公式为:其中,n为网络节点个数,为删除比例为的节点之后当前网络的最大连通规模值,以p为横坐标,σ为纵坐标,得优劣R的曲线,鲁棒性指标为该曲线下的面积;
排序模块,用于将反向为添加入网节点i的当前网络最大连通规模值cost[i],采用反向生成网络法BGN计算该节点i的cost[i],对优劣R求最小排序,挖掘排序序列前k个节点为重要节点集。
7.如权利要求6所述的基于投资关系网络的重要节点挖掘装置,其特征在于,所述排序模块还包括:
判断单元,用于先判断该节点是否为孤立节点,若为孤立节点,则为该节点分配一个新的集团;若不为孤立节点,则访问该节点的邻居点,并将该节点合并至邻居点所在集团,并更新该集团的最大连通规模值;
更新单元,用于若集团的最大连通规模值大于当前网络的最大连通规模值,更新当前最大连通规模值为该集团的最大连通规模值。
8.如权利要求6所述的基于投资关系网络的重要节点挖掘装置,其特征在于,还包括:
优化模块,用于采用顶堆反向HeapBGN法将该节点的最大规模值的时间复杂度O(n+m)降到O(d),d为节点度,即该节点的所有邻居节点数,则反向生成网络BGN的时间复杂度降为O(n2d);
将候选节点集用堆构建:建堆时间复杂度O(n),调整堆的时间复杂度为O(logn),弹出堆顶节点时间复杂度为O(1),n为节点集的节点总数;
判断该节点是否为添中节点的受影响节点,若该节点是受影响的节点则更新该点的cost值,并对其标记已更新放入堆中;若该节点是受影响的节点且cost值已被更新,则弹出该节点的优劣R为最小,该节点为可选添加节点;若该节点是未受影响的节点,该节点为可选添加节点;
更新所有受影响节点所需的时间复杂度为O(nmd logn),m为节点集中受影响的节点数,且受添加节点的影响而动态变化;
由于m的平均值通常远小于n,故忽略m,得到顶堆反向HerpBGN的所有受影响节点所需的平均时间复杂度O(nlogn)。
9.如权利要求8所述的基于投资关系网络的重要节点挖掘装置,其特征在于,还包括:
初始模块,用于对优劣模块中所删除节点按其连通规模值进行最小排序得到初始节点集,及对初始节点集中连通规模值相等的所删除节点按其重要性进行最小排序得到初始候选节点集,或者是,用于采用不同的初始化方法通过归一化后再加权求和得到节点重要性,按节点重要性进行最小排序得到初始候选节点集,其中所述的初始化方法有且不限于度中心性、PageRank算法、k-shell算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910245563.XA CN109949164A (zh) | 2019-03-28 | 2019-03-28 | 一种基于投资关系网络的重要节点挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910245563.XA CN109949164A (zh) | 2019-03-28 | 2019-03-28 | 一种基于投资关系网络的重要节点挖掘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109949164A true CN109949164A (zh) | 2019-06-28 |
Family
ID=67012633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910245563.XA Pending CN109949164A (zh) | 2019-03-28 | 2019-03-28 | 一种基于投资关系网络的重要节点挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109949164A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021174693A1 (zh) * | 2020-03-05 | 2021-09-10 | 平安科技(深圳)有限公司 | 一种数据分析方法、装置、计算机系统及可读存储介质 |
CN114297585A (zh) * | 2022-01-06 | 2022-04-08 | 中国人民解放军国防科技大学 | 社交网络中重要节点排序方法、装置和计算机设备 |
-
2019
- 2019-03-28 CN CN201910245563.XA patent/CN109949164A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021174693A1 (zh) * | 2020-03-05 | 2021-09-10 | 平安科技(深圳)有限公司 | 一种数据分析方法、装置、计算机系统及可读存储介质 |
CN114297585A (zh) * | 2022-01-06 | 2022-04-08 | 中国人民解放军国防科技大学 | 社交网络中重要节点排序方法、装置和计算机设备 |
CN114297585B (zh) * | 2022-01-06 | 2023-10-13 | 中国人民解放军国防科技大学 | 社交网络中重要节点排序方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8914491B2 (en) | Assigning telecommunications nodes to community of interest clusters | |
CN107451393B (zh) | 基于随机变邻域搜索算法的护士排班方法和装置 | |
CN108809697A (zh) | 基于影响力最大化的社交网络关键节点识别方法及系统 | |
CN104657418A (zh) | 一种基于隶属度传播的复杂网络模糊社团挖掘方法 | |
Chen et al. | An adaptive trust model based on recommendation filtering algorithm for the Internet of Things systems | |
CN112580217A (zh) | 基于复杂网络的通信体系结构参数化建模方法 | |
CN109949164A (zh) | 一种基于投资关系网络的重要节点挖掘方法及装置 | |
CN110213164A (zh) | 一种基于拓扑信息融合的识别网络关键传播者的方法及装置 | |
CN110232819B (zh) | 一种基于复杂网络的城市关键道路的发掘方法 | |
Dou et al. | Interorganizational diffusion of prefabricated construction technology: Two-stage evolution framework | |
CN113052713B (zh) | 基于敏感节点免疫的负面信息级联阻挡方法 | |
CN100493001C (zh) | G比特流率下多粒度的网络自动聚类方法 | |
CN110162716A (zh) | 一种基于社区检索的影响力社区搜索方法和系统 | |
CN116303082B (zh) | 一种操作系统内核模糊测试种子调度与评估方法 | |
CN107704364A (zh) | 后台应用程序管控方法、装置、存储介质及电子设备 | |
CN114448659B (zh) | 基于属性探索的黄河坝岸监测物联网访问控制优化方法 | |
Thimm | Stochastic local search algorithms for abstract argumentation under stable semantics | |
CN112711535B (zh) | 基于粒子群优化的约束下组合测试数据生成方法 | |
CN112380267B (zh) | 一种基于隐私图的社区发现方法 | |
Crowther et al. | A flexible parametric accelerated failure time model | |
Raman et al. | Performance-driven MCM partitioning through an adaptive genetic algorithm | |
Pelikan et al. | Hybrid evolutionary algorithms on minimum vertex cover for random graphs | |
US20060020639A1 (en) | Engine for validating proposed changes to an electronic entity | |
Bekmezci et al. | A novel genetic algorithm-based improvement model for online communities and trust networks | |
Cheng et al. | Diagnosis of weak points in the distribution network based on association rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |