CN108182265A - 针对关系网络的多层迭代筛选方法及装置 - Google Patents
针对关系网络的多层迭代筛选方法及装置 Download PDFInfo
- Publication number
- CN108182265A CN108182265A CN201810019799.7A CN201810019799A CN108182265A CN 108182265 A CN108182265 A CN 108182265A CN 201810019799 A CN201810019799 A CN 201810019799A CN 108182265 A CN108182265 A CN 108182265A
- Authority
- CN
- China
- Prior art keywords
- node
- value
- subgraph
- screening
- extension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对关系网络的多层迭代筛选方法及装置,其中方法包括:获取社交关系网络图;根据每个节点的属性值筛选出社交关系网络图的多个种子节点;根据每个节点的属性值的平均值与边属性值的平均值得到初始筛选值;根据初始筛选值对多个种子节点进行多次扩展,并在满足扩展停止条件时,停止扩展,以得到社交关系网络图的子图;获取子图的节点数目,并判断子图的节点数目是否大于目标扩展数目;如果大于目标扩展数目,则输出子图,否则将扩展后的节点作为种子节点,并调整初始筛选值,以继续筛选,直至子图的节点数目大于目标扩展数目。该方法有效提高推荐算法的准确度和覆盖率,使得到的子图更加直观同时更具参考价值。
Description
技术领域
本发明涉及计算机网路技术领域,特别涉及一种针对关系网络的多层迭代筛选方法及装置。
背景技术
目前,随着互联网技术和社交网站的不断发展,数据挖掘受到极大重视,同时信息过载问题越来越突出,如何能够从海量的关系网络数据中更加精确地筛选出更加简洁的子网络成为当前面临的一个重要问题,对于关系网络的精确筛选能够帮助用户更好的进行网络分析和信息搜索工作。
相关技术中,为了实现对社交关系网络的筛选压缩,业界普遍采用如下方法:贪心算法、一种双端网络简化方法等,这些方法虽然有很多优点,比如在考虑了节点的属性值、节点之间的连接关系等要素,但是并未对节点的核心影响力、节点之间的合作紧密程度、整体结构性以及结构性节点之间做一个整体均衡考虑,在针对大规模的社交网络,这些算法就不太合适。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种针对关系网络的多层迭代筛选方法,该方法可以提高推荐算法的准确度和覆盖率,使得到的子图更加直观同时更具参考价值。
本发明的另一个目的在于提出一种针对关系网络的多层迭代筛选装置。
为达到上述目的,本发明一方面实施例提出了一种针对关系网络的多层迭代筛选方法,包括以下步骤:获取社交关系网络图;根据每个节点的属性值筛选出所述社交关系网络图的多个种子节点;根据所述每个节点的属性值的平均值与边属性值的平均值得到初始筛选值;根据所述初始筛选值对所述多个种子节点进行多次扩展,并在满足扩展停止条件时,停止扩展,以得到所述社交关系网络图的子图;获取所述子图的节点数目,并判断所述子图的节点数目是否大于目标扩展数目;如果大于所述目标扩展数目,则输出所述子图,否则将扩展后的节点作为所述种子节点,并调整所述初始筛选值,以继续筛选,直至所述子图的节点数目大于所述目标扩展数目。
本发明实施例的针对关系网络的多层迭代筛选方法,对节点的核心影响力、节点之间的合作紧密程度、整体结构性以及关键性节点之间做了一个整体均衡考虑,实现了较好的生成抽取关系网络的功能,更好地反映原始网络结构,从而提高推荐算法的准确度和覆盖率,使得到的子图更加直观同时更具参考价值。
另外,根据本发明上述实施例的针对关系网络的多层迭代筛选方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述扩展停止条件为当每个节点的扩展点及其对应扩展边的属性值和均值的乘积大于筛选值,或者当扩展次数超过预设扩展次数,且未找到满足预设条件的节点,从而停止扩展并删除对应的扩展节点及扩展边。
进一步地,在本发明的一个实施例中,所述调整所述初始筛选值,进一步包括:获取最后一次扩展后所述子图的节点数目在所述社交关系网络图的节点数目比例;判断所述节点数目比例大于预设比例;如果所述节点数目比例大于所述预设比例,则降低所述筛选值,否则升高所述筛选值。
进一步地,在本发明的一个实施例中,所述预设比例可以为5%。
进一步地,在本发明的一个实施例中,所述社交关系网络图G(V,h,E,w),其中,V代表节点的集合;h代表对应节点属性的集合,各节点具有至少一种第一属性值,属性值包括影响力、paper数、活跃度、关注度;E代表边的集合;w表示边的权重,且所述各节点之间的连线具有至少一种第二属性值,所述第二属性值包括合作次数和关系密切程度。
为达到上述目的,本发明另一方面实施例提出了一种针对关系网络的多层迭代筛选装置,包括:获取模块,用于获取社交关系网络图;筛选模块,用于根据每个节点的属性值筛选出所述社交关系网络图的多个种子节点;计算模块,用于根据所述每个节点的属性值的平均值与边属性值的平均值得到初始筛选值;扩展模块,用于根据所述初始筛选值对所述多个种子节点进行多次扩展,并在满足扩展停止条件时,停止扩展,以得到所述社交关系网络图的子图;获取判断模块,用于获取所述子图的节点数目,并判断所述子图的节点数目是否大于目标扩展数目;处理模块,用于如果大于所述目标扩展数目,则输出所述子图,否则将扩展后的节点作为所述种子节点,并调整所述初始筛选值,以继续筛选,直至所述子图的节点数目大于所述目标扩展数目。
本发明实施例的针对关系网络的多层迭代筛选装置,对节点的核心影响力、节点之间的合作紧密程度、整体结构性以及关键性节点之间做了一个整体均衡考虑,实现了较好的生成抽取关系网络的功能,更好地反映原始网络结构,从而提高推荐算法的准确度和覆盖率,使得到的子图更加直观同时更具参考价值。
另外,根据本发明上述实施例的针对关系网络的多层迭代筛选装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述扩展停止条件为当每个节点的扩展点及其对应扩展边的属性值和均值的乘积大于筛选值,或者当扩展次数超过预设扩展次数,且未找到满足预设条件的节点,从而停止扩展并删除对应的扩展节点及扩展边。
进一步地,在本发明的一个实施例中,所述处理模块还用于获取最后一次扩展后所述子图的节点数目在所述社交关系网络图的节点数目比例,并判断所述节点数目比例大于预设比例,如果所述节点数目比例大于所述预设比例,则降低所述筛选值,否则升高所述筛选值。
进一步地,在本发明的一个实施例中,所述预设比例可以为5%。
进一步地,在本发明的一个实施例中,所述社交关系网络图G(V,h,E,w),其中,V代表节点的集合;h代表对应节点属性的集合,各节点具有至少一种第一属性值,属性值包括影响力、paper数、活跃度、关注度;E代表边的集合;w表示边的权重,且所述各节点之间的连线具有至少一种第二属性值,所述第二属性值包括合作次数和关系密切程度。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为相关技术的贪心算法的示意图;
图2为相关技术的双端网络图G的示意图;
图3为根据本发明一个实施例的针对关系网络的多层迭代筛选方法地流程图;
图4为根据本发明一个具体实施例的针对关系网络的多层迭代筛选方法地流程图;
图5为根据本发明一个实施例的扩展筛选示意图;
图6为根据本发明一个实施例的应用场景的示意图;
图7为根据本发明一个实施例的针对关系网络的多层迭代筛选装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在介绍针对关系网络的多层迭代筛选方法及装置之前,结合图1和图2,先简单介绍一下传统贪心算法与双端网络。
首先,贪心算法:在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,其所做出的是在某种意义上的局部最优解。如图1所示,传统的贪心算法由于算法的局限性,不考虑边的属性值,只关注结点属性值,我们以上图为例进行算法分析步骤如下:
步骤一、输入一个社交网络图G;
步骤二、筛选出属性值较大的n个节点作为种子节点,放入子图集合V中,如图:n=3时,红色节点作为第一篇种子节点放入到子图集合V中;
步骤三、从种子节点出发,找出与之相连的节点中属性值最大的节点,放入子图集合V,如图:绿色节点作为第二批种子结点放入到子图集合V中;
步骤四、将扩展后的节点作为种子点重复步骤3进行迭代扩展,如图:蓝色结点作为第三批种子结点放入到子图集合V中;
步骤五、当节点数目满足所限定的数目时,停止扩展;
步骤六、输出子图G’,如图:所有有颜色的子图即为G’。
上述算法中结点属性值为14的点,被遗留掉,核心问题就是由于贪心算法只关注临近一跳的结点,会有一些重要的网络关系分支被遗漏掉,而导致社交网络关系分析的不全面。
其次,如图2所示,双端网络是指有起点和终点的无向图,各节点之间有边互连,双端网络简化主要是指去除掉一些边缘节点,识别出主干的网络图,便于观察主要的节点和它们之间的关系,步骤如下:
步骤一:计算关节点集合,其采用如下方法步骤:
1)所谓关节点就是在双端网络中删除某个顶点及其附属的边,双端网络变为非连通的;
2)根据定义可以对网络中的每个顶点采用删除并检测是否连通的方法判定该顶点是否是关节点,从而找出所有关节点;
步骤二:计算无效顶点集合;其采用如下方法步骤:
1)从原始双端网络中,删除步骤一所获得的所有关节点以及和从这些关节点出发的边,得到若干个非连通的子网;
2)如果一个子网不包含顶点s或顶点t,则该子网的所有顶点都认定为无效顶点;
步骤三:生成精简双端网络;其采用如下方法步骤:
1)从原始双端网络中,删除步骤二所获得的所有无效顶点;
2)从这些无效顶点出发的边得到的唯一连通子网就是所要求的精简双端网络。
双端网络简化方法比较简单,只考虑了节点之间的连通性问题,不能体现出节点之间的关系强弱关系,只能得到基本的社交连通关系图。
正是基于上述原因,本发明实施例提出了一种针对关系网络的多层迭代筛选方法及装置。
下面参照附图描述根据本发明实施例提出的针对关系网络的多层迭代筛选方法及装置,首先将参照附图描述根据本发明实施例提出的针对关系网络的多层迭代筛选方法。
图3是本发明一个实施例的针对关系网络的多层迭代筛选方法地流程图。
如图3所示,该针对关系网络的多层迭代筛选方法包括以下步骤:
在步骤S301中,获取社交关系网络图。
进一步地,在本发明的一个实施例中,社交关系网络图G(V,h,E,w),其中,V代表节点的集合;h代表对应节点属性的集合,各节点具有至少一种第一属性值,属性值包括影响力、paper数、活跃度、关注度;E代表边的集合;w表示边的权重,且各节点之间的连线具有至少一种第二属性值,第二属性值包括合作次数和关系密切程度。
可以理解的是,如图4所示,本发明实施例输入一个社交关系网络图G(V,h,E,w),其中,V代表节点的集合;h代表对应节点属性的集合,各节点可以具有如下某种属性值,如影响力、paper数、活跃度、关注度等;E代表边的集合;w表示边的权重,各节点之间的连线具有有某属性值,如合作次数、关系密切程度等。同时输入一个目标筛选比例a%,计算目标网络的节点数。
在步骤S302中,根据每个节点的属性值筛选出社交关系网络图的多个种子节点。
具体而言,种子节点为用于扩展的初始节点。如图4所示,对整个网络图G的节点按照h值的大小进行比较,选出n(5<n<10)个h属性值最高的节点作为种子节点。
在步骤S303中,根据每个节点的属性值的平均值与边属性值的平均值得到初始筛选值。
可以理解的是,如图4所示,本发明实施例计算出整个网络的节点属性值的平均值和边属性值的平均值并且以两个值的乘积作为初始筛选值k。
在步骤S304中,根据初始筛选值对多个种子节点进行多次扩展,并在满足扩展停止条件时,停止扩展,以得到社交关系网络图的子图。
进一步地,在本发明的一个实施例中,扩展停止条件为当每个节点的扩展点及其对应扩展边的属性值和均值的乘积大于筛选值,或者当扩展次数超过预设扩展次数,且未找到满足预设条件的节点,从而停止扩展并删除对应的扩展节点及扩展边。
可以理解的是,本发明实施例可以对种子节点进行多次扩展,当每个节点的扩展点及其对应扩展边的属性值均值的乘积大于筛选值,则对该点停止扩展。或者当扩展次数超过规定扩展次数,还未找到满足条件的点,则停止扩展并删除对应的扩展节点及扩展边。
如图5所示,为了便于观察,这里特意将一个节点的多条分支拆开,以单链形式显示。首先第一行为种子节点,当进行第一次扩展之后,有了第二行节点,这时计算点和边各自的属性值加权平均之后,然后将两数相乘。以第一列为例,即[(10+10)/2]*(5/1)=250,然后将该值与筛选值进行比较。如果大于筛选值,则该条分支扩展停止,否则同理继续扩展,当扩展到一定次数后,若计算后的权值之积仍然小于筛选值,则将该分支删除。
在步骤S305中,获取子图的节点数目,并判断子图的节点数目是否大于目标扩展数目。
可以理解的是,本发明实施例可以对扩展后的子图节点数目进行判断,判断子图的节点数目是否大于目标扩展数目。
在步骤S306中,如果大于目标扩展数目,则输出子图,否则将扩展后的节点作为种子节点,并调整初始筛选值,以继续筛选,直至子图的节点数目大于目标扩展数目。
进一步地,在本发明的一个实施例中,调整初始筛选值,进一步包括:获取最后一次扩展后子图的节点数目在社交关系网络图的节点数目比例;判断节点数目比例大于预设比例;如果节点数目比例大于预设比例,则降低筛选值,否则升高筛选值。
可选地,在本发明的一个实施例中,预设比例可以为5%。
可以理解的是,如大于目标扩展数目,则输出经过筛选后的子图G’(v,h,e,w),否则,将扩展后的节点作为种子节点,同时调整筛选值,计算最后一次扩展节点的数目在原网络图中的节点数目比例,若高于一定范围如5%左右,则降低筛选值,否则升高筛选值。
在本发明的一个具体实施例中,如应用在著名的权威学术服务网站Aminer中,它基于现有的服务器端和MongoDB数据库,其核心任务是对从数据库中获取任一领域的所有专家的个人信息及其合作关系网络集合进行筛选,生成一个具有代表性的简洁的子图,从而在客户端进行网络图的可视化展示。本发明可以运用到多种场景中,如社交关系网络等。本发明实施例充分展示了对专家合作者关系网络的简化过程。
预处理:根据领域标签从数据库中读取Datamining领域的所有学者的id,h-index,pape数,然后根据不同作者共同发表的paper数,计算出各个专家之间的合作次数,共同发表过一篇记为1。边为两个专家学者的id键值对,最后,得出一个带有合作次数的关系网络G,边以(id1,id2,w)形式存储,节点以(id,h-index)形式存储,下面介绍筛选过程:
步骤1、输入学者网络G=(V,h,E,w)及筛选比例5%,W为合作次数,H为H-index(学者的权威度)。
步骤2、对该网络中的所有节点进行检索,选取H-index值最高的5个节点,作为初始节点。
步骤3、计算筛选值k和目标子图节点数。
A、计算节点H-index平均值合作次数均值
计算初始筛选值按照比例计算目标子图节点数。
步骤4获取种子节点的合作者
对种子节点进行多次扩展,当每个节点的扩展点及其对应扩展边的均值的乘积大于k,则对该点停止扩展。或者当扩展次数超过3时,还未找到满足条件的点,则停止扩展并删除对应的扩展节点及扩展边。
步骤5、对扩展后的子图节点数目进行判断,如大于目标扩展数目,则执行步骤六,否则,将扩展后的节点作为种子节点,同时调整筛选值,计算最后一次扩展节点的数目在原网络图中的节点数目比例,若高于一定范围如5%,则降低筛选值k=k-5,否则升高筛选值k=k+5。重复步骤4。
步骤6、输出经过筛选后的子图G’(v,h,e,w)。
经过筛选后获得子图边的集合,再结合其对应的h-index值以json的形式发到web(World Wide Web,全球广域网)服务器,最后在客户端基于d3.js插件,将获得的子图进行可视化展示。
对大规模的专家关系网络图进行了有效的简化,在满足网络数量简化要求的前提下,既保留了原始网络的基本结构,又突出显示了权威专家,使人们对该领域的专家关系分布有了一个更加清晰的了解,从而能够更加精确的选出合适的相关专家。
该具体实施例区别于现有技术的改进之处为:
(1)以节点与边各自均值的乘积作为初始筛选值,同时考虑了节点自身的h-index属性和节点间的合作次数,优先保留了高h-index值和高合作频率的专家及合作关系;
(2)、结合每次迭代筛选结果,对筛选值进行动态调整,使得网络不至于扩展过快或过慢,使网络结构被破坏;
(3)、每次迭代过程中都有多次节点扩展,保留了两个权威学者之间的结构节点,避免了贪心算法丢失结构节点的缺陷;
(4)、相比于贪心算法,本算法不是每次只选择一个最优节点,而是以一个筛选值为界,每次获得一批节点,迭代次数更少。
另外,本发明实施例的方法应用于场景时,如图6所示,包含了web服务器,数据库服务器,服务器接口,json格式转换,数据查询api,关系网络预处理,网络筛选模块,它们的功能如下:
(1)Web服务器:生成网页,网络图的可视化展示。
(2)数据库服务器:提供网络图相关数据的存取服务。
(3)服务器接口:为业务逻辑提供统一出口。
(4)Json格式转换:将生成的网络图数据以json形式发到web服务器端;(也可以根据客户具体格式完成转换)。
(5)数据查询API(Application Programming Interface,应用程序编程接口):提供API结构,从数据库获得图数据格式;关系网络预处理:将从数据库获得的数据预处理,为网络图筛选做准备。
(6)网络筛选模块:对网络图进行筛选,本发明的程序代码主要是网络筛选模块。如何更加有效地对关系网络进行筛选是本发明的核心内容,其基本思想是通过多层扩展、不断迭代、动态调整等操作实现网络图的简化。
此外,本发明实施例是多层迭代筛选算法,每次迭代都是通过多层扩展,在一个相对大范围的局部进行筛选,同时,此算法并非是寻找最优,而是判断当前扩展是否满足筛选条件,和相关技术对比如下:
(1)贪心算法是基于节点单次扩展后,寻找局部最优,然后多次进行迭代,而本发明实施例的方法在以下四个方面有所区别:
a、从每次筛选范围上来说,一个是单次扩展的局部,一个是多层扩展的局部;
b、从筛选标准来说,一个是找属性值最大的节点,一个是找属性值高于筛选值的所有节点;
c、从迭代次数来说,一个由于每次扩展点数较少,需要相当多的扩展,另一个是每次迭代获取一批节点,迭代次数较少;
d、从获取节点种类来说,一个是只获取相对最优的,另一个不仅获取相对最优而且对于属性值较低但起连接作用的结构节点也有所保留。
(2)双端网络简化方法是针对于有一个起点和终点的网络,依据是否为关节点进行筛选。而本发明实施例的多层迭代筛选算法是针对大规模网络下的所有节点都处于同等位置,无起点终点之分,而且筛选的方式也不同,一个是挨个遍历节点,一个是按照连线进行扩展。
进一步地,本发明实施例的方法需要满足以下几个要点:
(1)保持网络的总体结构和聚集状态;
(2)优先保留核心节点;
(3)优先保留在结构节点;
(4)优先保留关系强度高的节点。
本发明的目的就是在满足将节点筛选到一定比例的前提下,平衡以上四个条件,从而比较准确的获得该关系网络的子网。
综上,本发明实施例的主要创新技术点总结如下:
(1)对于每个节点进行多层扩展再剪枝,不断迭代的筛选方式。同时考虑节点的权值和边的权值,且是N跳的加权计算,避免一跳的信息缺失;
(2)对于筛选值的确定以及筛选值的动态调整,本发明实施例可以根据客户的需要,进行关系强弱的设定,从而决定最终的简化网络图的大小。
根据本发明实施例提出的针对关系网络的多层迭代筛选方法,对节点的核心影响力、节点之间的合作紧密程度、整体结构性以及关键性节点之间做了一个整体均衡考虑,实现了较好的生成抽取关系网络的功能,更好地反映原始网络结构,从而提高推荐算法的准确度和覆盖率,使得到的子图更加直观同时更具参考价值。
其次参照附图描述根据本发明实施例提出的针对关系网络的多层迭代筛选装置。
图7是本发明一个实施例的针对关系网络的多层迭代筛选装置的结构示意图。
如图7所示,该针对关系网络的多层迭代筛选装置10包括:获取模块100、筛选模块200、计算模块300、扩展模块400、获取判断模块500和处理模块600。
其中,获取模块100用于获取社交关系网络图。筛选模块200用于根据每个节点的属性值筛选出社交关系网络图的多个种子节点。计算模块300用于根据每个节点的属性值的平均值与边属性值的平均值得到初始筛选值。扩展模块400用于根据初始筛选值对多个种子节点进行多次扩展,并在满足扩展停止条件时,停止扩展,以得到社交关系网络图的子图。获取判断模块500用于获取子图的节点数目,并判断子图的节点数目是否大于目标扩展数目。处理模块600用于如果大于目标扩展数目,则输出子图,否则将扩展后的节点作为种子节点,并调整初始筛选值,以继续筛选,直至子图的节点数目大于目标扩展数目。本发明实施例的装置10对于节点的多层扩展再剪枝,不断迭代的筛选方式,并对于筛选值的确定以及筛选值的动态调整,从而有效提高推荐算法的准确度和覆盖率,使得到的子图更加直观同时更具参考价值。
进一步地,在本发明的一个实施例中,扩展停止条件为当每个节点的扩展点及其对应扩展边的属性值和均值的乘积大于筛选值,或者当扩展次数超过预设扩展次数,且未找到满足预设条件的节点,从而停止扩展并删除对应的扩展节点及扩展边。
进一步地,在本发明的一个实施例中,处理模块600还用于获取最后一次扩展后子图的节点数目在社交关系网络图的节点数目比例,并判断节点数目比例大于预设比例,如果节点数目比例大于预设比例,则降低筛选值,否则升高筛选值。
进一步地,在本发明的一个实施例中,预设比例可以为5%。
进一步地,在本发明的一个实施例中,社交关系网络图G(V,h,E,w),其中,V代表节点的集合;h代表对应节点属性的集合,各节点具有至少一种第一属性值,属性值包括影响力、paper数、活跃度、关注度;E代表边的集合;w表示边的权重,且各节点之间的连线具有至少一种第二属性值,第二属性值包括合作次数和关系密切程度。
需要说明的是,前述对针对关系网络的多层迭代筛选方法实施例的解释说明也适用于该实施例的针对关系网络的多层迭代筛选装置,此处不再赘述。
根据本发明实施例提出的针对关系网络的多层迭代筛选装置,对节点的核心影响力、节点之间的合作紧密程度、整体结构性以及关键性节点之间做了一个整体均衡考虑,实现了较好的生成抽取关系网络的功能,更好地反映原始网络结构,从而提高推荐算法的准确度和覆盖率,使得到的子图更加直观同时更具参考价值。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种针对关系网络的多层迭代筛选方法,其特征在于,包括以下步骤:
获取社交关系网络图;
根据每个节点的属性值筛选出所述社交关系网络图的多个种子节点;
根据所述每个节点的属性值的平均值与边属性值的平均值得到初始筛选值;
根据所述初始筛选值对所述多个种子节点进行多次扩展,并在满足扩展停止条件时,停止扩展,以得到所述社交关系网络图的子图;
获取所述子图的节点数目,并判断所述子图的节点数目是否大于目标扩展数目;以及
如果大于所述目标扩展数目,则输出所述子图,否则将扩展后的节点作为所述种子节点,并调整所述初始筛选值,以继续筛选,直至所述子图的节点数目大于所述目标扩展数目。
2.根据权利要求1所述的针对关系网络的多层迭代筛选方法,其特征在于,所述扩展停止条件为当每个节点的扩展点及其对应扩展边的属性值和均值的乘积大于筛选值,或者当扩展次数超过预设扩展次数,且未找到满足预设条件的节点,从而停止扩展并删除对应的扩展节点及扩展边。
3.根据权利要求1所述的针对关系网络的多层迭代筛选方法,其特征在于,所述调整所述初始筛选值,进一步包括:
获取最后一次扩展后所述子图的节点数目在所述社交关系网络图的节点数目比例;
判断所述节点数目比例大于预设比例;
如果所述节点数目比例大于所述预设比例,则降低所述筛选值,否则升高所述筛选值。
4.根据权利要求3所述的针对关系网络的多层迭代筛选方法,其特征在于,所述预设比例为5%。
5.根据权利要求1-4任一项所述的针对关系网络的多层迭代筛选方法,其特征在于,所述社交关系网络图G(V,h,E,w),其中,V代表节点的集合;h代表对应节点属性的集合,各节点具有至少一种第一属性值,属性值包括影响力、paper数、活跃度、关注度;E代表边的集合;w表示边的权重,且所述各节点之间的连线具有至少一种第二属性值,所述第二属性值包括合作次数和关系密切程度。
6.一种针对关系网络的多层迭代筛选装置,其特征在于,包括:
获取模块,用于获取社交关系网络图;
筛选模块,用于根据每个节点的属性值筛选出所述社交关系网络图的多个种子节点;
计算模块,用于根据所述每个节点的属性值的平均值与边属性值的平均值得到初始筛选值;
扩展模块,用于根据所述初始筛选值对所述多个种子节点进行多次扩展,并在满足扩展停止条件时,停止扩展,以得到所述社交关系网络图的子图;
获取判断模块,用于获取所述子图的节点数目,并判断所述子图的节点数目是否大于目标扩展数目;以及
处理模块,用于如果大于所述目标扩展数目,则输出所述子图,否则将扩展后的节点作为所述种子节点,并调整所述初始筛选值,以继续筛选,直至所述子图的节点数目大于所述目标扩展数目。
7.根据权利要求6所述的针对关系网络的多层迭代筛选装置,其特征在于,所述扩展停止条件为当每个节点的扩展点及其对应扩展边的属性值和均值的乘积大于筛选值,或者当扩展次数超过预设扩展次数,且未找到满足预设条件的节点,从而停止扩展并删除对应的扩展节点及扩展边。
8.根据权利要求6所述的针对关系网络的多层迭代筛选装置,其特征在于,所述处理模块还用于获取最后一次扩展后所述子图的节点数目在所述社交关系网络图的节点数目比例,并判断所述节点数目比例大于预设比例,如果所述节点数目比例大于所述预设比例,则降低所述筛选值,否则升高所述筛选值。
9.根据权利要求8所述的针对关系网络的多层迭代筛选装置,其特征在于,所述预设比例为5%。
10.根据权利要求6-9任一项所述的针对关系网络的多层迭代筛选装置,其特征在于,所述社交关系网络图G(V,h,E,w),其中,V代表节点的集合;h代表对应节点属性的集合,各节点具有至少一种第一属性值,属性值包括影响力、paper数、活跃度、关注度;E代表边的集合;w表示边的权重,且所述各节点之间的连线具有至少一种第二属性值,所述第二属性值包括合作次数和关系密切程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810019799.7A CN108182265B (zh) | 2018-01-09 | 2018-01-09 | 针对关系网络的多层迭代筛选方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810019799.7A CN108182265B (zh) | 2018-01-09 | 2018-01-09 | 针对关系网络的多层迭代筛选方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108182265A true CN108182265A (zh) | 2018-06-19 |
CN108182265B CN108182265B (zh) | 2021-06-29 |
Family
ID=62550292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810019799.7A Active CN108182265B (zh) | 2018-01-09 | 2018-01-09 | 针对关系网络的多层迭代筛选方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108182265B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359199A (zh) * | 2018-08-27 | 2019-02-19 | 平安科技(深圳)有限公司 | 基金经理社团划分方法、系统、计算机设备和存储介质 |
CN109903079A (zh) * | 2019-01-21 | 2019-06-18 | 中国人民财产保险股份有限公司 | 信息处理方法、设备及存储介质 |
CN109952742A (zh) * | 2018-12-04 | 2019-06-28 | 区链通网络有限公司 | 图结构处理方法、系统、网络设备及存储介质 |
CN110059085A (zh) * | 2019-03-18 | 2019-07-26 | 浙江工业大学 | 一种面向Web 2.0的JSON数据解析与建模方法 |
CN111177192A (zh) * | 2019-12-11 | 2020-05-19 | 北京明略软件系统有限公司 | 一种确定团体成员的方法及装置 |
CN112148989A (zh) * | 2020-10-16 | 2020-12-29 | 重庆理工大学 | 基于局部节点以及度折扣的社交网络节点影响力推荐系统 |
CN112668034A (zh) * | 2019-10-16 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 数据的混淆方法、数据的切分方法、装置及设备 |
CN113032636A (zh) * | 2019-12-25 | 2021-06-25 | 中移动信息技术有限公司 | 完全子图数据的搜索方法、装置、设备及介质 |
CN114707040A (zh) * | 2022-04-08 | 2022-07-05 | 中国电信股份有限公司 | 企业合作群体数据分类方法及装置、存储介质及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN103412917A (zh) * | 2013-08-08 | 2013-11-27 | 广西大学 | 一种可扩展的多类型领域数据协调管理的数据库系统和管理方法 |
CN105426375A (zh) * | 2014-09-22 | 2016-03-23 | 阿里巴巴集团控股有限公司 | 一种关系网络的计算方法及装置 |
US20170140058A1 (en) * | 2013-10-25 | 2017-05-18 | Sysomos L.P. | Systems and Methods for Identifying Influencers and Their Communities in a Social Data Network |
US20170277907A1 (en) * | 2016-03-28 | 2017-09-28 | Dataspark Pte, Ltd. | Abstracted Graphs from Social Relationship Graph |
CN107316247A (zh) * | 2017-06-24 | 2017-11-03 | 深圳源广安智能科技有限公司 | 一种社会网络中的社会成员挖掘系统 |
-
2018
- 2018-01-09 CN CN201810019799.7A patent/CN108182265B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024017A (zh) * | 2012-12-04 | 2013-04-03 | 武汉大学 | 一种社交网络重要目标及社区群体识别方法 |
CN103136337A (zh) * | 2013-02-01 | 2013-06-05 | 北京邮电大学 | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 |
CN103412917A (zh) * | 2013-08-08 | 2013-11-27 | 广西大学 | 一种可扩展的多类型领域数据协调管理的数据库系统和管理方法 |
US20170140058A1 (en) * | 2013-10-25 | 2017-05-18 | Sysomos L.P. | Systems and Methods for Identifying Influencers and Their Communities in a Social Data Network |
CN105426375A (zh) * | 2014-09-22 | 2016-03-23 | 阿里巴巴集团控股有限公司 | 一种关系网络的计算方法及装置 |
US20170277907A1 (en) * | 2016-03-28 | 2017-09-28 | Dataspark Pte, Ltd. | Abstracted Graphs from Social Relationship Graph |
CN107316247A (zh) * | 2017-06-24 | 2017-11-03 | 深圳源广安智能科技有限公司 | 一种社会网络中的社会成员挖掘系统 |
Non-Patent Citations (2)
Title |
---|
ADAM PERER: "Balancing Systematic and Flexible Exploration of Social Networks", 《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 * |
林旺群: "社会网络社团挖掘若干关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109359199A (zh) * | 2018-08-27 | 2019-02-19 | 平安科技(深圳)有限公司 | 基金经理社团划分方法、系统、计算机设备和存储介质 |
CN109952742A (zh) * | 2018-12-04 | 2019-06-28 | 区链通网络有限公司 | 图结构处理方法、系统、网络设备及存储介质 |
CN109952742B (zh) * | 2018-12-04 | 2022-02-22 | 区链通网络有限公司 | 图结构处理方法、系统、网络设备及存储介质 |
CN109903079A (zh) * | 2019-01-21 | 2019-06-18 | 中国人民财产保险股份有限公司 | 信息处理方法、设备及存储介质 |
CN110059085A (zh) * | 2019-03-18 | 2019-07-26 | 浙江工业大学 | 一种面向Web 2.0的JSON数据解析与建模方法 |
CN112668034A (zh) * | 2019-10-16 | 2021-04-16 | 阿里巴巴集团控股有限公司 | 数据的混淆方法、数据的切分方法、装置及设备 |
CN111177192A (zh) * | 2019-12-11 | 2020-05-19 | 北京明略软件系统有限公司 | 一种确定团体成员的方法及装置 |
CN113032636A (zh) * | 2019-12-25 | 2021-06-25 | 中移动信息技术有限公司 | 完全子图数据的搜索方法、装置、设备及介质 |
CN112148989A (zh) * | 2020-10-16 | 2020-12-29 | 重庆理工大学 | 基于局部节点以及度折扣的社交网络节点影响力推荐系统 |
CN114707040A (zh) * | 2022-04-08 | 2022-07-05 | 中国电信股份有限公司 | 企业合作群体数据分类方法及装置、存储介质及电子设备 |
CN114707040B (zh) * | 2022-04-08 | 2023-08-18 | 中国电信股份有限公司 | 企业合作群体数据分类方法及装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108182265B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108182265A (zh) | 针对关系网络的多层迭代筛选方法及装置 | |
Szabó et al. | Structural transitions in scale-free networks | |
CN110321999A (zh) | 神经网络计算图优化方法 | |
CN106250457B (zh) | 大数据平台物化视图的查询处理方法及系统 | |
CN109933539A (zh) | 一种基于主成分分析和组合采样的软件缺陷预测方法 | |
CN110492526A (zh) | 一种基于可调负荷的孤岛划分方法 | |
CN110232178A (zh) | 报表生成方法及装置 | |
CN104615716B (zh) | 基于优先序列的分布式社交网络信息采集方法及系统 | |
CN106815260A (zh) | 一种索引建立方法及设备 | |
CN106685745B (zh) | 一种网络拓扑构建方法及装置 | |
CN104850712B (zh) | 实物表面采样数据拓扑邻域查询方法 | |
CN108388564A (zh) | 查询处理方法、装置及其设备 | |
CN110505080A (zh) | 基于混合结构的指挥控制超网络动态演化模型构建方法 | |
CN105049315B (zh) | 一种基于虚拟网络分割的虚拟网络改进映射方法 | |
CN112464040B (zh) | 图结构识别、可视化展示及显示操作方法及装置 | |
CN107276807B (zh) | 一种基于社区动态紧密度的层次化网络社区树剪枝方法 | |
CN107679107A (zh) | 一种基于图数据库的电网设备可达性查询方法及系统 | |
CN109558518A (zh) | 一种确定社交网络中社区发现的方法、装置及存储介质 | |
CN115687304A (zh) | 一种Flink状态存储优化方法及装置 | |
CN109740763A (zh) | 一种量子线路近邻化二维网格形态选择方法 | |
CN109952742A (zh) | 图结构处理方法、系统、网络设备及存储介质 | |
CN112507210A (zh) | 一种属性网络上事件检测的交互式可视化方法 | |
CN103748578B (zh) | 数据分布的方法、装置及系统 | |
Benguigui et al. | Scaling and urban growth | |
CN112531741B (zh) | 一种柔性负荷参与调频的决策方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |