CN112131435B - 超级节点确定方法、装置、电子设备和存储介质 - Google Patents

超级节点确定方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112131435B
CN112131435B CN202011025755.9A CN202011025755A CN112131435B CN 112131435 B CN112131435 B CN 112131435B CN 202011025755 A CN202011025755 A CN 202011025755A CN 112131435 B CN112131435 B CN 112131435B
Authority
CN
China
Prior art keywords
data
super node
database
determining
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011025755.9A
Other languages
English (en)
Other versions
CN112131435A (zh
Inventor
邬俊
谢永恒
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202011025755.9A priority Critical patent/CN112131435B/zh
Publication of CN112131435A publication Critical patent/CN112131435A/zh
Priority to PCT/CN2021/119748 priority patent/WO2022063147A1/zh
Application granted granted Critical
Publication of CN112131435B publication Critical patent/CN112131435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种超级节点确定方法、装置、电子设备和存储介质。所述方法包括:扫描初始图数据库中的数据;确定所述初始图数据库中的数据的网页级别值;当各数据的所述网页级别值大于预设网页级别阈值时,确定所述网页级别值所对应的数据的节点为超级节点。以实现高效、精确的确定超级节点的效果。

Description

超级节点确定方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及大数据处理技术,尤其涉及一种超级节点确定方法、装置、电子设备和存储介质。
背景技术
随着大数据时代的到来,对图数据的研究和挖掘可以生成很多有价值的数据,例如很多社交企业的推荐认识人、可能认识的人等,外卖的可能喜欢的菜等。这种推荐认识人的业务是基于一个目标,对其推荐可能认识的人,也就是该目标与推荐的人存在关系,当存在一个节点与很多节点存在关系,这种节点我们称为超级节点。只有确定了超级节点,才可为该超级节点进行推荐人等业务,在海量数据中,如何确定超级节点是目前的重要内容。
现有技术中,都是通过人为的查询各节点,然后将各节点之间的关系确定出来,若一个节点与其他多个节点均有关系,则可确定该节点为超级节点,但这种方式,针对数量少的节点可以使用,当面对海量数据时,则上述方式效率低下,且可能存在查到超级节点错误的问题。
发明内容
本发明实施例提供一种超级节点确定方法、装置、电子设备和存储介质,以实现高效、精确的确定超级节点的效果。
第一方面,本发明实施例提供了一种超级节点确定方法,该方法包括:
扫描初始图数据库中的数据;
确定所述初始图数据库中的数据的网页级别值;
当各数据的所述网页级别值大于预设网页级别阈值时,确定所述网页级别值所对应的数据的节点为超级节点。
第二方面,本发明实施例还提供了一种超级节点确定装置,该装置包括:
数据扫描模块,用于扫描初始图数据库中的数据;
网页级别值确定模块,用于确定所述初始图数据库中的数据的网页级别值;
超级节点确定模块,用于当各数据的所述网页级别值大于预设网页级别阈值时,确定所述网页级别值所对应的数据的节点为超级节点。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中任一所述的超级节点确定方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例中任一所述的超级节点确定方法。
本发明实施例的技术方案,通过扫描初始图数据库中的数据,确定初始图数据库中的数据的网页级别值,当各数据的网页级别值大于预设网页级别阈值时,确定网页级别值所对应的数据的节点为超级节点,这样可高效、快速、精确的确定出超级节点,解决了现有技术中人为查询各节点,超级节点查找方式效率低下,且可能存在查找超级节点错误的问题。
附图说明
图1是超级节点的确定示意图;
图2是本发明实施例一中的超级节点确定方法的流程图
图3是本发明实施例二中的超级节点确定方法的流程图;
图4是本发明实施例二中的当前数据的网页级别值的确定方法示意图;
图5是本发明实施例三中的超级节点确定方法的流程图;
图6是本发明实施例四中的超级节点确定方法的流程图;
图7是本发明实施例四中的超级节点确定方法的执行流程示意图;
图8是本发明实施例五中的超级节点确定装置的结构示意图;
图9是本发明实施例六中的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在介绍本发明实施例的具体实施方式之前,先简单介绍一下超级节点的概念,参考图1所述的超级节点的确定示意图,图1是一个有向图,该图中包含了5个节点(node0、node1、node2、node3和node4),以及5条边,边的起点可以看做一个对象,终点可以看做另一个对象,例如,对象也是node0、node1、node2、node3和node4。有向边可以看做是两个对象之间的关系,关系越多,说明该对象的影响力越大,影响力越大的节点,称之为超级节点。
实施例一
图2为本发明实施例一提供的超级节点确定方法的流程图,本实施例可适用于快速、高效、精确的确定超级节点的情况,该方法可以由超级节点确定装置来执行,该超级节点确定装置可以由软件和/或硬件来实现,该超级节点确定装置可以配置在电子计算设备上,具体包括如下步骤:
S110、扫描初始图数据库中的数据。
示例性的,初始图数据库可以是一个用于存储各数据,以及各数据的关系图的数据库。例如这里的初始图数据可以是janusgraph图数据库,其是依赖于hbase存储的图数据库。
扫描初始图数据库中的所有数据,具体的可以是直接通过hbase的api全表扫描初始图数据库中的所有数据。这样就可将各数据、各数据的类型和各数据的关系结构等提取出来。
S120、确定初始图数据库中的数据的网页级别值。
示例性的,当提取出初始图数据库中的各数据,以及各数据间的关系结构后,可确定初始图数据库中各数据的网页级别值,即pagerank值。
具体的计算各数据的网页级别值,可以是调用pagerank算法来对各数据的网页级别值进行计算。具体的计算方式在下面的实施例中再详细描述。
S130、当各数据的网页级别值大于预设网页级别阈值时,确定网页级别值所对应的数据的节点为超级节点。
示例性的,预设网页级别阈值可以是预先设置的网页级别值的阈值,当数据的网页级别值大于该值时,确定数据对应的节点为超级节点。
当计算出各数据的网页级别值后,将其与预设网页级别阈值进行比对,若某一数据的网页级别值大于预设网页级别阈值,则确定该数据所对应的节点为超级节点。
这样可高效、快速、精确的确定出超级节点,解决了现有技术中人为查询各节点,超级节点查找方式效率低下,且可能存在查找超级节点错误的问题。
本发明实施例的技术方案,通过扫描初始图数据库中的数据,确定初始图数据库中的数据的网页级别值,当各数据的网页级别值大于预设网页级别阈值时,确定网页级别值所对应的数据的节点为超级节点,这样可高效、快速、精确的确定出超级节点,解决了现有技术中人为查询各节点,超级节点查找方式效率低下,且可能存在查找超级节点错误的问题。
实施例二
图3为本发明实施例二提供的超级节点确定方法的流程图,本发明实施例与上述实施例中各个可选方案可以结合。在本发明实施例中,可选的,所述确定所述初始图数据库中的数据的网页级别值,包括:对于初始图数据库中的任一当前数据执行如下步骤,确定当前数据的网页级别值:确定当前数据的关联数据;基于当前数据和关联数据之间的关联关系,确定当前数据的网页级别值。
如图3所示,本发明实施例的方法具体包括如下步骤:
S210、扫描初始图数据库中的数据。
S220、对于初始图数据库中的任一当前数据,确定当前数据的关联数据;基于当前数据和关联数据之间的关联关系,确定当前数据的网页级别值。
示例性的,关联数据可以是与当前数据具有关联关系的数据。例如,如图1中的node1这个数据而言,若其为当前数据,则与该node1数据具有关联关系的数据为node0、node2、node3和node4。
当提取出初始图数据库中的各数据,以及各数据间的关系结构后,可确定与当前数据有关系的关联数据。
当确定出与当前数据具有关联关系的关联数据后,根据当前数据和关联数据之间的关联关系,根据一定的计算规则,则可确定当前数据的网页级别值。
可选的,所述基于当前数据和关联数据之间的关联关系,确定当前数据的网页级别值,具体可以是:基于当前关联数据的网页级别值、当前关联数据指向当前数据的预设概率值、当前数据的第一数量和关联数据的第二数量之和,以及当前关联数据的出边数量,确定当前数据相对于当前关联数据的网页级别值;将当前数据相对于各关联数据的网页级别值的和,确定为当前数据的网页级别值。
示例性的,当前关联数据可以是任一当前与当前数据具有关联关系的关联数据。
当前关联数据指向当前数据的预设概率值可以是预先设置的在有向图中当前关联数据指向当前数据的概率值。这里的预设概率值可根据当前关联数据与当前数据,以及其他关联数据的对应关系来自行进行设定。其相当于一个系数,一般这里取0.85。
具体的,预设概率值根据当前关联数据与当前数据,以及其他关联数据的对应关系来进行设定,具体可以是:如图1所示,以node1为当前数据为例,则node1的关联数据为:node0、node2、node3和node4。若以node3作为当前关联数据,从图1中可看出,node3指向node1和node4,即相当于node3有一半给了node1,则这里的预设概率值可以是0.5。再例如,若以node2作为当前关联数据,从图1中可看出,node2只指向node1,即相当于node2全部给了node1,则这里的预设概率值可以是1。
第一数量可以是当前数据的数量。
第二数量可以是与当前数据具有关联关系的关联数据的数量。
当前数据的第一数量和关联数据的第二数量之和可以是第一数量和第二数量的和。即所有可形成关联关系的数据的数量之和。
当前关联数据的出边数量可以是当前关联数据指向其他数据的数量,例如,图1中,对于node2而言,其指向了node1,则node2的出边数量为1,对于node3而言,其指向了node1和node4,则node3的出边数量为2。
根据基于当前关联数据的网页级别值、当前关联数据指向当前数据的预设概率值、当前数据的第一数量和关联数据的第二数量之和,以及当前关联数据的出边数量,即可确定当前数据相对于当前关联数据的网页级别值;将当前数据相对于各当前关联数据的网页级别值加起来,即可得到当前数据的网页级别值。
具体的,可以是根据如下公式(1),确定当前数据的网页级别值:
Figure BDA0002702065580000071
其中,S(X)表示指向当前数据X的所有关联数据的集合,ni表示当前关联数据Yi的出边数量,N表示当前数据和关联数据的数量之和,α表示当前关联数据指向当前数据的预设概率值。
对于上述公式(1),可应用于如下几种情况,具体可参考图4所述的当前数据的网页级别值的确定方法示意图:
(a)当前关联数据全部指向了当前数据。
如图4中的(a)图所示,计算数据A的网页级别值,即数据A为当前数据,数据B、数据C和数据D为关联数据。从图4中的(a)图可以看出,数据B和数据C均全部指向了数据A,则对于当前关联数据B和当前关联数据而言,α均为1。则数据A的网页级别值为:PR(A)=PR(B)+PR(C),其中,数据A的网页级别值为PR(A),数据B的网页级别值为PR(B),数据C的网页级别值为PR(C)。
(b)当前关联数据局部指向了当前数据。
如图4中的(b)图所示,计算数据A的网页级别值,即数据A为当前数据,数据B、数据C和数据D为关联数据。从图4中的(b)图可以看出,数据C全部指向了数据A,数据B一部分指向了数据A,则对于当前关联数据C而言,α为1,对于当前关联数据B而言,α为1/2。则数据A的网页级别值为:
Figure BDA0002702065580000081
其中,数据A的网页级别值为PR(A),数据B的网页级别值为PR(B),数据C的网页级别值为PR(C)。
(c)对于没有出边的数据。
如图4中的(c)图所示,计算数据A的网页级别值,即数据A为当前数据,数据B、数据C和数据D为关联数据。从图4中的(c)图可以看出,当前关联数据B一部分指向了当前数据A,其α为1/2;对于当前关联数据C而言,其没有指向任何数据,则规定将其网页级别值平均分配给其他数据,其α为1/4。则数据A的网页级别值为:
Figure BDA0002702065580000082
其中,数据A的网页级别值为PR(A),数据B的网页级别值为PR(B),数据C的网页级别值为PR(C)。
(d)数据链接中存在环形。
如图4中的(d)图所示,计算数据A的网页级别值,即数据A为当前数据,数据B、数据C和数据D为关联数据。从图4中的(d)图可以看出,当前关联数据B一部分指向了当前数据A,其α为1/2;对于当前关联数据C而言,其指向自己,则规定以某一预设概率β随机指向其他任意一个数据,每个数据的概率是相等的。则数据A的网页级别值为:
Figure BDA0002702065580000091
其中,α表示用户从数据B以概率α链接到数据A,后面的(1-α)表示用户从数据C以概率(1-α)链接到数据A。即:数据B的PageRank值分配情况为:α*1/2给A,α*1/2给D,(1-α)/4分别给4个数据A、B、C和D。数据C的PageRank值分配情况为:α*1给自己C,(1-α)*1/4分别给其他数据。数据A的网页级别值为PR(A),数据B的网页级别值为PR(B)。
综合上述的图4中的几种情况,可总结出公式(1),这样根据公式(1),即可得到精确的各数据的网页级别值。
S230、当各数据的网页级别值大于预设网页级别阈值时,确定网页级别值所对应的数据的节点为超级节点。
本发明实施例技术方案,对于初始图数据库中的任一当前数据,通过确定当前数据的关联数据;基于当前数据和关联数据之间的关联关系,确定当前数据的网页级别值,这样即可得到精确的各数据的网页级别值。
实施例三
图5为本发明实施例三提供的超级节点确定方法的流程图,本发明实施例与上述实施例中各个可选方案可以结合。在本发明实施例中,可选的,在确定超级节点之后,所述方法还包括:将超级节点所对应的数据与热点数据库中的数据进行匹配,若匹配成功,则确定超级节点所对应的数据为热点数据,并扫描匹配成功的超级节点所对应的数据的第一关联节点数据,将匹配成功的超级节点所对应的数据、第一关联节点数据,以及匹配成功的超级节点所对应的数据与第一关联节点数据的第一关联关系放入热点数据库中;若匹配不成功,则确定超级节点所对应的数据为黑名单数据,并将与热点数据库中的数据匹配不成功的超级节点所对应的数据放入黑名单数据库中。在将超级节点所对应的数据与热点数据库中的数据进行匹配,基于匹配结果,将超级节点所对应的数据分别加入热点数据库或黑名单数据库后,所述方法还包括:确定超级节点所对应的数据的第二关联节点数据,以及超级节点所对应的数据和第二关联节点数据的第二关联关系;将初始图数据库中的超级节点所对应的数据,以及第二关联关系进行删除。
如图5所示,本发明实施例的方法具体包括如下步骤:
S310、扫描初始图数据库中的数据。
S320、对于初始图数据库中的任一当前数据,确定当前数据的关联数据;基于当前数据和关联数据之间的关联关系,确定当前数据的网页级别值。
S330、当各数据的网页级别值大于预设网页级别阈值时,确定网页级别值所对应的数据的节点为超级节点。
S340、将超级节点所对应的数据与热点数据库中的数据进行匹配,若匹配成功,则确定超级节点所对应的数据为热点数据,并扫描匹配成功的超级节点所对应的数据的第一关联节点数据,将匹配成功的超级节点所对应的数据、第一关联节点数据,以及匹配成功的超级节点所对应的数据与第一关联节点数据的第一关联关系放入热点数据库中;若匹配不成功,则确定超级节点所对应的数据为黑名单数据,并将与热点数据库中的数据匹配不成功的超级节点所对应的数据放入黑名单数据库中。
示例性的,热点数据库可以是预先设置的存储有正确的热点数据的数据库。
黑名单数据库可以是预先设置的存储有错误数据的数据库。
第一关联节点数据可以是与热点数据库中的数据匹配成功的超级节点所对应的数据的关联数据。
第一关联关系可以是与热点数据库中的数据匹配成功的超级节点所对应的数据,与第一关联节点数据的关联关系。
确定了超级节点后,对超级节点所对应的数据进行扫描,将超级节点所对应的数据与热点数据库中的数据进行匹配,当超级节点所对应的数据与热点数据库中的数据匹配成功后,则确定该超级节点所对应的数据为热点数据,扫描该匹配成功的超级节点所对应的数据的第一关联节点数据,将与热点数据库中的数据匹配成功的超级节点所对应的数据、第一关联节点数据,以及第一关联关系放入热点数据库中。
由于在确定超级节点时,对于超级节点,可能是由于该节点处所对应的数据是错误的,所以导致该节点处具有很多关联关系,因此,对于错误的数据,将其放入黑名单数据库中。应用于本实施例中,即是将与热点数据库中的数据匹配不成功的超级节点所对应的数据放入到黑名单数据库中。
这样可精确确定超级节点所对应的数据的类型,将错误的超级节点所对应的数据挑选出来。
S350、确定超级节点所对应的数据的第二关联节点数据,以及超级节点所对应的数据和第二关联节点数据的第二关联关系;将初始图数据库中的超级节点所对应的数据,以及第二关联关系进行删除。
示例性的,第二关联节点数据可以是与确定的超级节点所对应的数据的关联数据。
第二关联关系可以是超级节点所对应的数据与第二关联节点数据的关联关系。
在将各超级节点所对应的数据分别放入热点数据库或黑名单数据库后,可确定各超级节点所对应的数据的第二关联节点数据,以及各超级节点所对应的数据与第二关联节点数据的第二关联关系。
由于在将各超级节点所对应的数据分别放入热点数据库或黑名单数据库后,在初始图数据库中还保存有个超级节点所对应的数据,以及第二关联节点数据和第二关联关系,当确定了第二关联节点数据和第二关联关系后,可将超级节点所对应的数据和第二关联关系从初始图数据库中删除。
需要说明的是,在删除超级节点所对应的数据和第二关联关系时,删除原则为:先删除第二关联关系,再删除超级节点所对应的数据。例如,如图1中,node1为超级节点所对应的数据,则先删除node1指向其他数据的箭头,以及指向node1的所有箭头,然后再删除node1。
这样可保证在初始图数据库中存储较少的数据,这样初始图数据库中就没有很复杂的关系网,减小了初始图数据库的存储压力。
本发明实施例的技术方案,通过将超级节点所对应的数据与热点数据库中的数据进行匹配,根据匹配结果,将超级节点所对应的数据分别放入热点数据库或黑名单数据库中,这样可精确确定超级节点所对应的数据的类型,将错误的超级节点所对应的数据挑选出来。在将超级节点所对应的数据分别放入热点数据库或黑名单数据库中之后,确定超级节点所对应的数据的第二关联节点数据,以及超级节点所对应的数据和第二关联节点数据的第二关联关系;将初始图数据库中的超级节点所对应的数据,以及第二关联关系进行删除,这样可保证在初始图数据库中存储较少的数据,这样初始图数据库中就没有很复杂的关系网,减小了初始图数据库的存储压力。
实施例四
图6为本发明实施例四提供的超级节点确定方法的流程图,本发明实施例与上述实施例中各个可选方案可以结合。在本发明实施例中,可选的,在所述将初始图数据库中的所述超级节点所对应的数据,以及第二关联关系进行删除之后,所述方法还包括:基于接收的数据查询请求,从初始图数据库或热点数据库中查询对应的数据的关系图。当检测到黑名单数据库中的数据配置错误,和/或,热点数据库中的数据配置错误时,对应调整黑名单数据库中的数据和/或热点数据库中的数据。
如图6所示,本发明实施例的方法具体包括如下步骤:
S410、扫描初始图数据库中的数据。
S420、对于初始图数据库中的任一当前数据,确定当前数据的关联数据;基于当前数据和关联数据之间的关联关系,确定当前数据的网页级别值。
S430、当各数据的网页级别值大于预设网页级别阈值时,确定网页级别值所对应的数据的节点为超级节点。
S440、将超级节点所对应的数据与热点数据库中的数据进行匹配,若匹配成功,则确定超级节点所对应的数据为热点数据,并扫描匹配成功的超级节点所对应的数据的第一关联节点数据,将匹配成功的超级节点所对应的数据、第一关联节点数据,以及匹配成功的超级节点所对应的数据与第一关联节点数据的第一关联关系放入热点数据库中;若匹配不成功,则确定超级节点所对应的数据为黑名单数据,并将与热点数据库中的数据匹配不成功的超级节点所对应的数据放入黑名单数据库中。
S450、确定超级节点所对应的数据的第二关联节点数据,以及超级节点所对应的数据和第二关联节点数据的第二关联关系;将初始图数据库中的超级节点所对应的数据,以及第二关联关系进行删除。
S460、基于接收的数据查询请求,从初始图数据库或热点数据库中查询对应的数据的关系图。
示例性的,数据查询请求可以是查询任一数据,以及该数据的关系图。
参考图7所述的超级节点确定方法的执行流程示意图,当接收到某一应用发送的数据查询请求时,可从初始图数据库或热点数据库中查询对应的数据的关系图。
这样提高了数据关系图的获取效率,以及提高了获取的数据关系图的精确度,避免了现有技术中初始图数据库中数据存储较多,直接从初始图数据库中获取数据关系图导致获取效率低下,且可能获取都错误数据关系图的问题。
具体的,从初始图数据库或热点数据库中获取对应的数据的关系图可以是,通过应用发送数据查询请求,经过大数据中间件来进行转发该数据查询请求,以及经过大数据中间件来接收初始图数据库或热点数据库反馈的数据的关系图。这里的大数据中间件可以是相当于一个数据转换的接口,利用大数据中间件的API与初始图数据库或热点数据库连接,这样避免了应用与初始图数据库或热点数据库的直接接触,避免造成应用的数据冗余。
需要说明的是,在将初始图数据库中的超级节点所对应的数据,以及第二关联关系进行删除之后,还可以将从外部正在源源不断流入初始图数据库中数据进行清洗和过滤。
需要说明的是,其实在初始图数据库外部还有源源不断往初始图数据库中流入的数据(图7中未示出),具体的清洗和过滤方式如下:对加入黑名单数据库中的数据进行扫描,将其与正在源源不断流入初始图数据库中的数据进行比对,若比对成功,则将这些数据剔除,不让其流入初始图数据库中。
这样加入黑名单数据库中的数据为上游的模块提供提取过滤和数据入库过滤的依据。这样清洗后的数据加入到初始图数据库中,减少了初始图数据库中各数据的关系图,间接减小了初始图数据库的存储压力。
需要说明的是,在对上游的模块提供提取过滤和数据入库过滤的依据时,可对上游的模块设置每隔预设时间段对其进入初始图数据库中的数据进行一次过滤清洗。
可选的,当将初始图数据库中的超级节点所对应的数据,以及第二关联关系进行删除之后,所述方法还包括:当检测到黑名单数据库中的数据配置错误,和/或,热点数据库中的数据配置错误时,对应调整黑名单数据库中的数据和/或热点数据库中的数据。
示例性的,随着时间的推移,可能在黑名单数据库中的数据过段时间可能会成为热点数据,此时,检测到黑名单数据库中的数据配置错误,则可对应调整黑名单数据库中的数据,具体的可以是将黑名单数据库中的该数据放入热点数据库中。
当然,也有可能存在热点数据库中的数据过段时间可能会成为错误数据的情况,此时,检测到热点数据库中的数据配置错误时,可对应调整热点数据库中的数据,具体的可以是将热点数据库中的该数据放入黑名单数据库中。
即当检测到黑名单数据库中的数据配置错误,和/或,热点数据库中的数据配置错误时,可直接在数据库中对数据进行数据类型的更改,这样提高了数据更改的效率。
需要说明的是,当检测到黑名单数据库中的数据配置错误,和/或,热点数据库中的数据配置错误时,对应调整黑名单数据库中的数据和/或热点数据库中的数据,还可以是在超级节点所对应的数据分别放入热点数据库或黑名单数据库之后执行,即可以是在S440之后执行,这里不做限定。
本发明实施例的技术方案,通过基于接收的数据查询请求,从初始图数据库或热点数据库中查询对应的数据的关系图,这样提高了数据关系图的获取效率,以及提高了获取的数据关系图的精确度,避免了现有技术中初始图数据库中数据存储较多,直接从初始图数据库中获取数据关系图导致获取效率低下,且可能获取都错误数据关系图的问题。当检测到黑名单数据库中的数据配置错误,和/或,热点数据库中的数据配置错误时,对应调整黑名单数据库中的数据和/或热点数据库中的数据,这样提高了数据更改的效率。
实施例五
图8为本发明实施例五提供的超级节点确定装置的结构示意图,如图8所示,该装置包括:数据扫描模块31、网页级别值确定模块32和超级节点确定模块33。
数据扫描模块31,用于扫描初始图数据库中的数据;
网页级别值确定模块32,用于确定所述初始图数据库中的数据的网页级别值;
超级节点确定模块33,用于当各数据的所述网页级别值大于预设网页级别阈值时,确定所述网页级别值所对应的数据的节点为超级节点。
在上述实施例的技术方案的基础上,网页级别值确定模块32包括:
关联数据确定单元,用于对于所述初始图数据库中的任一当前数据,确定当前数据的关联数据;
网页级别值确定单元,用于对于所述初始图数据库中的任一当前数据,基于所述当前数据和所述关联数据之间的关联关系,确定当前数据的网页级别值。
在上述实施例的技术方案的基础上,网页级别值确定单元具体用于:
基于当前关联数据的网页级别值、当前关联数据指向所述当前数据的预设概率值、当前数据的第一数量和关联数据的第二数量之和,以及当前关联数据的出边数量,确定当前数据相对于所述当前关联数据的网页级别值;将当前数据相对于各关联数据的网页级别值的和,确定为所述当前数据的网页级别值。
在上述实施例的技术方案的基础上,该装置还包括:
数据匹配模块,用于将所述超级节点所对应的数据与热点数据库中的数据进行匹配,若匹配成功,则确定所述超级节点所对应的数据为热点数据,并扫描匹配成功的所述超级节点所对应的数据的第一关联节点数据,将所述匹配成功的所述超级节点所对应的数据、所述第一关联节点数据,以及所述匹配成功的超级节点所对应的数据与所述第一关联节点数据的第一关联关系放入所述热点数据库中;若匹配不成功,则确定所述超级节点所对应的数据为黑名单数据,并将与所述热点数据库中的数据匹配不成功的超级节点所对应的数据放入黑名单数据库中。
在上述实施例的技术方案的基础上,该装置还包括:
信息删除模块,用于确定所述超级节点所对应的数据的第二关联节点数据,以及所述超级节点所对应的数据和所述第二关联节点数据的第二关联关系;将初始图数据库中的所述超级节点所对应的数据,以及所述第二关联关系进行删除。
在上述实施例的技术方案的基础上,该装置还包括:
查询模块,用于基于接收的数据查询请求,从所述初始图数据库或热点数据库中查询对应的数据的关系图。
在上述实施例的技术方案的基础上,该装置还包括:
数据更改模块,用于当检测到黑名单数据库中的数据配置错误,和/或,热点数据库中的数据配置错误时,对应调整所述黑名单数据库中的数据和/或所述热点数据库中的数据。
本发明实施例所提供的超级节点确定装置可执行本发明任意实施例所提供的超级节点确定方法,具备执行方法相应的功能模块和有益效果。
实施例六
图9为本发明实施例六提供的一种电子设备的结构示意图,如图9所示,该电子设备包括处理器70、存储器71、输入装置72和输出装置73;电子设备中处理器70的数量可以是一个或多个,图9中以一个处理器70为例;电子设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图9中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的超级节点确定方法对应的程序指令/模块(例如,数据扫描模块31、网页级别值确定模块32和超级节点确定模块33)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的超级节点确定方法。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例七
本发明实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种超级节点确定方法。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的超级节点确定方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述超级节点确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种超级节点确定方法,其特征在于,包括:
扫描初始图数据库中的数据;
确定所述初始图数据库中的数据的网页级别值;
当各数据的所述网页级别值大于预设网页级别阈值时,确定所述网页级别值所对应的数据的节点为超级节点;
在确定超级节点之后,所述方法还包括:
将所述超级节点所对应的数据与热点数据库中的数据进行匹配,若匹配成功,则确定所述超级节点所对应的数据为热点数据,并扫描匹配成功的所述超级节点所对应的数据的第一关联节点数据,将所述匹配成功的所述超级节点所对应的数据、所述第一关联节点数据,以及所述匹配成功的超级节点所对应的数据与所述第一关联节点数据的第一关联关系放入所述热点数据库中;
若匹配不成功,则确定所述超级节点所对应的数据为黑名单数据,并将与所述热点数据库中的数据匹配不成功的超级节点所对应的数据放入黑名单数据库中。
2.根据权利要求1所述的方法,其特征在于,所述确定所述初始图数据库中的数据的网页级别值,包括:
对于所述初始图数据库中的任一当前数据执行如下步骤,确定所述当前数据的网页级别值:
确定当前数据的关联数据;
基于所述当前数据和所述关联数据之间的关联关系,确定当前数据的网页级别值。
3.根据权利要求2所述的方法,其特征在于,所述关联关系包括:所述关联数据指向所述当前数据;
所述基于所述当前数据和所述关联数据之间的关联关系,确定当前数据的网页级别值,包括:
基于当前关联数据的网页级别值、当前关联数据指向所述当前数据的预设概率值、当前数据的第一数量和关联数据的第二数量之和,以及当前关联数据的出边数量,确定当前数据相对于所述当前关联数据的网页级别值;
将当前数据相对于各关联数据的网页级别值的和,确定为所述当前数据的网页级别值。
4.根据权利要求1所述的方法,其特征在于,在将所述超级节点所对应的数据与热点数据库中的数据进行匹配,基于匹配结果,将所述超级节点所对应的数据分别加入热点数据库或黑名单数据库后,所述方法还包括:
确定所述超级节点所对应的数据的第二关联节点数据,以及所述超级节点所对应的数据和所述第二关联节点数据的第二关联关系;
将初始图数据库中的所述超级节点所对应的数据,以及所述第二关联关系进行删除。
5.根据权利要求4所述的方法,其特征在于,在所述将初始图数据库中的所述超级节点所对应的数据,以及所述第二关联关系进行删除之后,所述方法还包括:
基于接收的数据查询请求,从所述初始图数据库或热点数据库中查询对应的数据的关系图。
6.根据权利要求4所述的方法,其特征在于,在所述将初始图数据库中的所述超级节点所对应的数据,以及所述第二关联关系进行删除之后,所述方法还包括:
当检测到黑名单数据库中的数据配置错误,和/或,热点数据库中的数据配置错误时,对应调整所述黑名单数据库中的数据和/或所述热点数据库中的数据。
7.一种超级节点确定装置,其特征在于,包括:
数据扫描模块,用于扫描初始图数据库中的数据;
网页级别值确定模块,用于确定所述初始图数据库中的数据的网页级别值;
超级节点确定模块,用于当各数据的所述网页级别值大于预设网页级别阈值时,确定所述网页级别值所对应的数据的节点为超级节点;
数据匹配模块,用于将所述超级节点所对应的数据与热点数据库中的数据进行匹配,若匹配成功,则确定所述超级节点所对应的数据为热点数据,并扫描匹配成功的所述超级节点所对应的数据的第一关联节点数据,将所述匹配成功的所述超级节点所对应的数据、所述第一关联节点数据,以及所述匹配成功的超级节点所对应的数据与所述第一关联节点数据的第一关联关系放入所述热点数据库中;若匹配不成功,则确定所述超级节点所对应的数据为黑名单数据,并将与所述热点数据库中的数据匹配不成功的超级节点所对应的数据放入黑名单数据库中。
8.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的超级节点确定方法。
9.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-6中任一所述的超级节点确定方法。
CN202011025755.9A 2020-09-25 2020-09-25 超级节点确定方法、装置、电子设备和存储介质 Active CN112131435B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011025755.9A CN112131435B (zh) 2020-09-25 2020-09-25 超级节点确定方法、装置、电子设备和存储介质
PCT/CN2021/119748 WO2022063147A1 (zh) 2020-09-25 2021-09-23 超级节点确定方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011025755.9A CN112131435B (zh) 2020-09-25 2020-09-25 超级节点确定方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112131435A CN112131435A (zh) 2020-12-25
CN112131435B true CN112131435B (zh) 2023-05-30

Family

ID=73840260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011025755.9A Active CN112131435B (zh) 2020-09-25 2020-09-25 超级节点确定方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN112131435B (zh)
WO (1) WO2022063147A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131435B (zh) * 2020-09-25 2023-05-30 北京锐安科技有限公司 超级节点确定方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064649A (zh) * 2007-02-02 2007-10-31 华为技术有限公司 选举超级节点、搜索网络节点或资源的方法、装置及系统
CN102368253A (zh) * 2011-10-08 2012-03-07 大连高成网络科技有限公司 一种网络节点评级的方法
CN109150600A (zh) * 2018-08-14 2019-01-04 中国信息安全测评中心 一种电子邮件网络中节点关系的分析方法及系统
CN109840286A (zh) * 2019-01-31 2019-06-04 中国农业银行股份有限公司 一种识别海量数据构建的关系图中超级节点的方法及装置
US10742670B1 (en) * 2018-04-18 2020-08-11 NortonLifeLock Inc. Detecting and preventing execution of a malicious computer application using utility driven graph summarization

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131435B (zh) * 2020-09-25 2023-05-30 北京锐安科技有限公司 超级节点确定方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064649A (zh) * 2007-02-02 2007-10-31 华为技术有限公司 选举超级节点、搜索网络节点或资源的方法、装置及系统
CN102368253A (zh) * 2011-10-08 2012-03-07 大连高成网络科技有限公司 一种网络节点评级的方法
US10742670B1 (en) * 2018-04-18 2020-08-11 NortonLifeLock Inc. Detecting and preventing execution of a malicious computer application using utility driven graph summarization
CN109150600A (zh) * 2018-08-14 2019-01-04 中国信息安全测评中心 一种电子邮件网络中节点关系的分析方法及系统
CN109840286A (zh) * 2019-01-31 2019-06-04 中国农业银行股份有限公司 一种识别海量数据构建的关系图中超级节点的方法及装置

Also Published As

Publication number Publication date
CN112131435A (zh) 2020-12-25
WO2022063147A1 (zh) 2022-03-31

Similar Documents

Publication Publication Date Title
US9646060B2 (en) Method and server for pushing information proactively
US9064002B1 (en) Social identity clustering
US10652187B2 (en) System and method for relevance-based electronic message presentation
WO2017143930A1 (zh) 一种搜索结果排序方法及其设备
CN109241451B (zh) 一种内容组合推荐方法、装置及可读存储介质
CN103246713A (zh) 一种网页浏览方法及装置
KR102086936B1 (ko) 사용자 데이터 공유 방법 및 디바이스
US20230126706A1 (en) Information traceability method and system based on blockchain
CN112131435B (zh) 超级节点确定方法、装置、电子设备和存储介质
US20160248724A1 (en) Social Message Monitoring Method and Apparatus
US9928313B2 (en) Seasonal query suggestion system and method
US20150074121A1 (en) Semantics graphs for enterprise communication networks
US10318594B2 (en) System and method for enabling related searches for live events in data streams
CN102915313A (zh) 网络搜索中的纠错关系生成方法及系统
CN113556368A (zh) 用户识别方法、装置、服务器及存储介质
CN112364243B (zh) 一种基于大数据的信息推荐系统
CN114547440A (zh) 基于互联网大数据的用户画像挖掘方法及人工智能云系统
CN112667886A (zh) 不当评论检测方法、装置、设备及介质
CN112905871A (zh) 热点关键词推荐方法、装置、终端及存储介质
CN111597396A (zh) 异构网络社群检测方法、装置、计算机设备及存储介质
US20140089438A1 (en) Method and device for processing information
CN112307289A (zh) 搜索方法、节点及存储介质
JP6429755B2 (ja) 相互関連イベント抽出プログラム、装置及び方法
CN116155692B (zh) 告警解决方案推荐方法、装置、电子设备及存储介质
CN110443493B (zh) 路线相似度确定方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant