CN106095843B - 社交账号挖掘方法及装置 - Google Patents
社交账号挖掘方法及装置 Download PDFInfo
- Publication number
- CN106095843B CN106095843B CN201610387718.XA CN201610387718A CN106095843B CN 106095843 B CN106095843 B CN 106095843B CN 201610387718 A CN201610387718 A CN 201610387718A CN 106095843 B CN106095843 B CN 106095843B
- Authority
- CN
- China
- Prior art keywords
- social
- cluster set
- group
- cluster
- account
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种社交账号挖掘方法与装置,属于互联网领域,所述方法包括:将N个社交网络群组进行聚类,得到n个第一聚类集合;将M个网络地址群组进行聚类,得到m个第二聚类集合;对于该n个第一聚类集合中的每个第一聚类集合,基于该n个第一聚类集合包括的社交账号之间的关系链、该m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与该第一聚类集合包括的社交账号之间的关系链,从该m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。本发明通过确定对该第一聚类集合中每个社交账号挖掘得到的社交账号,从而使挖掘社交账号的计算量较小,提高了挖掘社交账号的效率。
Description
技术领域
本发明涉及互联网领域,特别涉及一种社交账号挖掘方法及装置。
背景技术
随着互联网的普及,用户可以通过社交应用随时进行日常交流、信息发布等操作。通常用户在使用社交应用进行通信时,往往需要对社交账号进行挖掘,从而进行人际关系的扩展。
为了便于描述,将当前需要进行社交账号挖掘的社交账号称为第一社交账号,当对第一社交账号进行社交账号挖掘时,可以获取与第一社交账号具有好友关系或群组关系的多个第二社交账号,对于该多个第二社交账号中的每个第二社交账号,获取与该第二社交账号具有好友关系或群组关系的多个第三社交账号,且该多个第三社交账号与第一社交账号不存在好友关系或者群组关系,但是该多个第三社交账号对应的用户信息与第一社交账号对应的用户信息之间存在交集,将获取的多个第三社交账号推送给第一社交账号。重复上述步骤,实现社交账号的挖掘。
在进行社交账号挖掘时,需要获取与第一社交账号具有好友关系或群组关系的第二社交账号,然后通过第二社交账号,获取与该第一社交账号对应的用户信息存在交集的第三社交账号,并且当第一社交账号的数量较多时,需要进行大量的计算,不仅对时间需求较大,同时给服务器带来负担,降低了挖掘社交账号的效率。
发明内容
为了解决上述技术的问题,本发明实施例提供了一种社交账号挖掘方法及装置。所述技术方案如下:
一方面,提供了一种社交账号挖掘方法,所述方法包括:
将N个社交网络群组进行聚类,得到n个第一聚类集合,所述N个社交网络群组中的每个社交网络群组为在社交应用中将多个社交账号组成的群组,所述N和所述n均大于或等于1,且所述N大于或等于所述n;
将M个网络地址群组进行聚类,得到m个第二聚类集合,所述M个网络地址群组中的每个网络地址群组为通过同一地址信息登录所述社交应用的多个社交账号组成的群组,所述M和所述m均大于或等于1,且所述M大于或等于所述m;
对于所述n个第一聚类集合中的每个第一聚类集合,基于所述n个第一聚类集合包括的社交账号之间的关系链、所述m个第二聚类集合包括的社交账号之间的关系链和所述m个第二聚类集合包括的社交账号与所述第一聚类集合包括的社交账号之间的关系链,从所述m个第二聚类集合包括的社交账号中,确定对所述第一聚类集合中每个社交账号挖掘得到的社交账号。
另一方面,提供了一种社交账号挖掘装置,所述装置包括:
第一聚类模块,用于将N个社交网络群组进行聚类,得到n个第一聚类集合,所述N个社交网络群组中的每个社交网络群组为在社交应用中将多个社交账号组成的群组,所述N和所述n均大于或等于1,且所述N大于或等于所述n;
第二聚类模块,用于将M个网络地址群组进行聚类,得到m个第二聚类集合,所述M个网络地址群组中的每个网络地址群组为通过同一地址信息登录所述社交应用的多个社交账号组成的群组,所述M和所述m均大于或等于1,且所述M大于或等于所述m;
第一确定模块,用于对于所述n个第一聚类集合中的每个第一聚类集合,基于所述n个第一聚类集合包括的社交账号之间的关系链、所述m个第二聚类集合包括的社交账号之间的关系链和所述m个第二聚类集合包括的社交账号与所述第一聚类集合包括的社交账号之间的关系链,从所述m个第二聚类集合包括的社交账号中,确定对所述第一聚类集合中每个社交账号挖掘得到的社交账号。
本发明实施例提供的技术方案带来的有益效果是:在本发明实施例中,服务器通过将该N个社交网络群组进行聚类得到n个第一聚类集合,并通过将该M个社交网络群组进行聚类得到m个第二聚类集合后,对于该n个第一聚类集合中的每个第一聚类集合,可以基于n个第一聚类集合包括的社交账号之间的关系链、m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与第一聚类集合包括的社交账号之间的关系链,从m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号,从而使服务器不需要通过对每个社交账号进行扩展计算,就可以得到一个较大的关系网,并从该关系网中可以进行社交账号的挖掘。同时,由于服务器通过第一聚类集合、第二聚类集合以及社交账号之间的关系链进行社交账号的挖掘,对社交账号挖掘的准确度更高。并且在该社交账号挖掘的过程中,该服务器只进行了第一聚类集合的获取、第二聚类集合的获取和根据关系链从m个第二聚类集合包括的社交账号中,确定挖掘得到的社交账号这3次计算过程,该挖掘社交账号的计算量较小,计算次数也较少,从而提高了挖掘社交账号的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种社交账号挖掘方法流程图;
图2A是本发明实施例提供的另一种社交账号挖掘方法流程图;
图2B(a)是本发明实施例提供的一种第一聚类集合的示意图;
图2B(b)是本发明实施例提供的另一种第一聚类集合的示意图;
图2C(a)是本发明实施例提供的第一种第二聚类集合的示意图;
图2C(b)是本发明实施例提供的第二种第二聚类集合的示意图;
图2C(c)是本发明实施例提供的第三种第二聚类集合的示意图;
图3A是本发明实施例提供的一种社交账号挖掘装置结构示意图;
图3B是本发明实施例提供的一种第一确定模块的结构示意图;
图3C是本发明实施例提供的一种第一聚类模块的结构示意图;
图3D是本发明实施例提供的一种第二聚类模块的结构示意图;
图4是本发明实施例提供的另一种社交账号挖掘装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种社交账号挖掘方法的流程图,参见图1,该方法包括:
步骤101:将N个社交网络群组进行聚类,得到n个第一聚类集合,该N个社交网络群组中的每个社交网络群组为在社交应用中将多个社交账号组成的群组,该N和该n均大于或等于1,且该N大于或等于该n。
步骤102:将M个网络地址群组进行聚类,得到m个第二聚类集合,该M个网络地址群组中的每个网络地址群组为通过同一地址信息登录该社交应用的多个社交账号组成的群组,该M和该m均大于或等于1,且该M大于或等于该m。
步骤103:对于该n个第一聚类集合中的每个第一聚类集合,基于该n个第一聚类集合包括的社交账号之间的关系链、该m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与该第一聚类集合包括的社交账号之间的关系链,从该m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。
在本发明实施例中,服务器通过将该N个社交网络群组进行聚类得到n个第一聚类集合,并通过将该M个社交网络群组进行聚类得到m个第二聚类集合后,对于该n个第一聚类集合中的每个第一聚类集合,可以基于该n个第一聚类集合包括的社交账号之间的关系链、m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与第一聚类集合包括的社交账号之间的关系链,从m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号,从而使服务器不需要通过对每个社交账号进行扩展计算,就可以得到一个较大的关系网,并从该关系网中可以进行社交账号的挖掘。同时,由于服务器通过第一聚类集合、第二聚类集合以及社交账号之间的关系链进行社交账号的挖掘,对社交账号挖掘的准确度更高。并且在该社交账号挖掘的过程中,该服务器只进行了第一聚类集合的获取、第二聚类集合的获取和根据关系链从m个第二聚类集合包括的社交账号中,确定挖掘得到的社交账号这3次计算过程,该挖掘社交账号的计算量较小,计算次数也较少,从而提高了挖掘社交账号的效率。
可选地,基于该n个第一聚类集合包括的社交账号之间的关系链、该m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与该第一聚类集合包括的社交账号之间的关系链,从该m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号,包括:
计算该第一聚类集合分别与该m个第二聚类集合之间的相似度;
从该m个第二聚类集合中,选择至少一个第二聚类集合,该至少一个第二聚类集合为与该第一聚类集合之间的相似度大于或等于相似度阈值的第二聚类集合;
将该第一聚类集合分别与该至少一个第二聚类集合进行合并,得到至少一个第三聚类集合;
基于该至少一个第三聚类集合包括的社交账号之间的关系链,从该至少一个第三聚类集合中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。
可选地,基于该至少一个第三聚类集合包括的社交账号之间的关系链,从该至少一个第三聚类集合中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号,包括:
对于该至少一个第三聚类集合中的每个第三聚类集合,基于该第三聚类集合包括的社交账号之间的关系链,确定该第三聚类集合中每个社交账号的关联系数,该每个社交账号的关联系数为与该每个社交账号具有社交关系的社交账号个数;
从该第三聚类集合中选择关联系数大于或等于系数阈值的社交账号;
对于该第三聚类集合中的任一社交账号,将选择的社交账号中除与该任一社交账号存在社交关系之外的社交账号确定为对该任一社交账号挖掘得到的社交账号。
可选地,该将N个社交网络群组进行聚类,得到n个第一聚类集合,包括:
将该N个社交网络群组划分为n组,每组包括存在相同社交账号的至少两个社交网络群组;
将该n组中每组包括的至少两个社交网络群组进行合并,得到n个第一聚类集合。
可选地,该方法还包括:
在合并得到该n个第一聚类集合的过程中,对于该n个第一聚类集合中的每个第一聚类集合,对于构成该第一聚类集合的至少两个社交网络群组中的每个社交网络群组,对该社交网络群组与构成该第一聚类集合的至少两个社交网络群组中其他社交网络群组之间存在相同社交账号的个数进行统计,得到X个个数,X为该第一聚类集合中至少两个社交网络群组的个数减1;
将该X个个数进行相加,得到第一数值;
将该第一数值除以该社交网络群组包括的社交账号的个数,得到第二数值;
将该至少两个社交网络群组中第二数值最大的社交网络群组的属性信息确定为该第一聚类集合的属性信息。
可选地,将M个网络地址群组进行聚类,得到m个第二聚类集合,包括:
将该M个网络地址群组划分为m组,每组包括存在相同社交账号的至少两个网络地址群组;
对于该m组中每组包括的至少两个网络地址群组进行合并,得到m个第二聚类集合。
可选地,该方法还包括:
在合并得到该m个第二聚类集合的过程中,对于该m个第二聚类集合中的每个第二聚类集合,对于构成该第二聚类集合的至少两个网络地址群组中的每个网络地址群组,对该网络地址群组与构成该第二聚类集合的至少两个网络地址群组中其他网络地址群组之间存在相同社交账号的个数进行统计,得到Y个个数,Y为该第二聚类集合中至少两个网络地址群组的个数减1;
将该Y个个数进行相加,得到第三数值;
将该第三数值除以该网络地址群组包括的社交账号的个数,得到第四数值;
将该构成该第一聚类集合的至少两个网络地址群组中第四数值最大的网络地址群组的属性信息确定为该第一聚类集合的属性信息。
上述所有可选技术方案,均可按照任意结合形成本发明的可选技术方案,本发明实施例对此不再一一赘述。
图2A是本发明实施例提供的一种社交账号挖掘方法的流程图,参见图2A,该方法包括:
步骤201:服务器将N个社交网络群组进行聚类,得到n个第一聚类集合,该N个社交网络群组中的每个社交网络群组为在社交应用中将多个社交账号组成的群组,该N和n均大于或等于1,且该N大于或等于n。
具体地,服务器将该N个社交网络群组划分为n组,每组包括存在相同社交账号的至少两个社交网络群组;将该n组中每组包括的至少两个社交网络群组进行合并,得到n个第一聚类集合。
比如,服务器将5个社交网络群组进行聚类,该5个社交网络群组分别为社交群组A1、社交群组B1、社交群组C1、社交群组D1和社交群组E1,由于该社交群组A1、社交群组B1和社交群组C1相互之间存在相同社交账号,社交群组D1和社交群组E1之间存在相同社交账号。因此,将社交群组A1、社交群组B1和社交群组C1进行合并,得到第一聚类集合ID1,将该社交群组D1和社交群组E进行合并,得到第二聚类ID2。
需要说明的是,服务器将该N个社交网络群组进行聚类时,可以通过聚类算法将该N个社交网络群组进行聚类,也可以通过其他方式将该N个社交网络群组进行聚类,本发明实施例对此不做具体限定。
还需要说明的是,服务器通过聚类算法将该N个社交网络群组进行聚类的操作可以参考相关技术,本发明实施例对此不再进行一一赘述。
其中,在合并得到该n个第一聚类集合的过程中,对于该n个第一聚类集合中的每个第一聚类集合,对于构成该第一聚类集合的至少两个社交网络群组中的每个社交网络群组,服务器还可以对该社交网络群组与构成该第一聚类集合的至少两个社交网络群组中其他社交网络群组之间存在相同社交账号的个数进行统计,得到X个个数,X为该第一聚类集合中至少两个社交网络群组的个数减1;并将该X个个数进行相加,得到第一数值;将该第一数值除以该社交网络群组包括的社交账号的个数,得到第二数值;将该至少两个社交网络群组中第二数值最大的社交网络群组的属性信息确定为该第一聚类集合的属性信息。
需要说明的是,由于第二数值越大,证明该社交网络群组中存在相同的社交账号的个数越多,对该第一聚类集合的属性信息的影响越大,因此,将该至少两个社交网络群组中第二数值最大的社交网络群组的属性信息确定为该第一聚类集合的属性信息。
比如,对于构成第一聚类集合ID1中的社交网络群组A1,该社交网络群组A1中包括的社交账号为10个,该社交网络群组A1和社交网络群组B1之间存在的相同社交账号个数为4个,该社交网络群组A1和社交网络群组C1之间存在的相同社交账号个数为5个,将4和5相加得到第一数值9,将第一数值9除以社交网络群组A1包括的社交账号的个数10,得到第二数值0.9;对于构成第一聚类集合ID1中的社交网络群组B1,该社交网络群组B1中包括的社交账号为8个,该社交网络群组B1和社交网络群组A1之间存在的相同社交账号个数为4个,该社交网络群组B1和社交网络群组C1之间存在的相同社交账号个数为6个,将4和6相加得到第一数值10,将第一数值10除以社交网络群组B1包括的社交账号的个数8,得到第二数值1.25;对于构成第一聚类集合ID1中的社交网络群组C1,该社交网络群组C1中包括的社交账号为20个,该社交网络群组C1和社交网络群组A1之间存在的相同社交账号个数为5个,该社交网络群组C1和社交网络群组B1之间存在的相同社交账号个数为6个,将5和6相加得到第一数值11,将第一数值11除以社交网络群组C1包括的社交账号的个数20,得到第二数值0.55;其中,该第一聚类集合ID1中第二数值最大的社交网络群组为社交网络群组B1,因此,将该社交网络群组B1的属性信息确定为第一聚类集合ID1的属性信息。
需要说明的是,属性信息用于描述对应的社交网络群组的属性,比如,社交网络群组A为同学群,则该社交网络群组A的属性信息为同学或老乡,本发明实施例对此不做具体限定。
还需要说明的是,对于该n个第一聚类集合中的每个第一聚类集合,对于构成该第一聚类集合的至少两个社交网络群组中的每个社交网络群组,当该至少两个社交网络群组的第二数值均相同时,将该至少两个社交网络群组中的任一个社交网络群组的属性信息确定为该第一聚类集合的属性信息。当然,还可以通过其他方式确定该第一聚类集合的属性信息,本发明实施例对此不做具体限定。
另外,对于n个第一聚类集合中的每个第一聚类集合,该第一聚类集合可能包括多个社交网络群组,也可能包括一个社交网络群组,本发明实施例对此不做具体限定。
需要说明的是,当该第一聚类集合中只包括一个社交网络群组时,可以直接将该社交网络群组的属性信息确定为该第一聚类集合的属性信息,而无需通过上述的方法进行确定,可以减少计算量。
另外,在本发明实施例中,服务器可以将该N个社交网络群组中的每个社交网络群组作为一个节点,将该N个社交网络群组转化为n个网络图,从而便于对该n个网络图进行操作,降低了服务器的运行负担。
比如,如图2B(a)所示,该节点A1为该社交网络群组A1转化为网络图后的节点,节点B1为该社交网络群组B1转换为网络图后的节点,该节点C1为该社交网络群组C1转化为网络图后的节点,该节点A1、节点B1和节点C1构成一个第一聚类集合ID1。如图2B(b),节点D1为该社交网络群组D1转换为网络图后的节点,该节点E1为该社交网络群组E1转化为网络图后的节点,节点D1和节点E1构成另一个第一聚类集合ID2。
还需要说明的是,在本发明实施例中,服务器对步骤201和步骤202的执行次序不分先后。也即是,在该服务器执行上述步骤201的过程中,可以同时执行下述步骤202的操作,或者,该服务器可以首先执行上述步骤201的操作,然后继续执行下述步骤202的操作。当然,该服务器还可以首先执行下述步骤202的操作,然后执行上述步骤201的操作,本发明实施例对此不做具体限定。
步骤202:服务器将M个网络地址群组进行聚类,得到m个第二聚类集合,该M个网络地址群组中的每个网络地址群组为通过同一地址信息登录该社交应用的多个社交账号组成的群组,该M和该m均大于或等于1,且该M大于或等于该m。
需要说明的是,该地址信息可以为接入点的MAC(MediaAccess Control,媒体访问控制)地址,也可以是其他地址,且该接入点可以为路由器等可以提供无线网络的设备,该无线网络可以为wifi(Wireless Fidelity,无线保真)等,本发明实施例对此不作具体限定。
其中,服务器将M个网络地址群组进行聚类,得到m个第二聚类集合的操作可以为:将该M个网络地址群组划分为m组,每组包括存在相同社交账号的至少两个网络地址群组;对于该m组中每组包括的至少两个网络地址群组进行合并,得到m个第二聚类集合。
比如,服务器将7个网络地址群组进行聚类,该7个网络地址群组分别为网络地址群组A2、网络地址群组B2、网络地址群组C2、网络地址群组D2、网络地址群组E2、网络地址群组F2和网络地址群组G2,由于网络地址群组A2、网络地址群组B2和网络地址群组D2之间存在相同的社交账号,网络地址群组C2和网络地址群组E2之间存在相同的社交账号,网络地址群组F2和网络地址群组G2之间存在相同的社交账号。因此,将网络地址群组A2、网络地址群组B2和网络地址群组C2进行合并,得到第二聚类集合ID1,将该网络地址群组D2和网络地址群组E2进行合并,得到第二聚类集合ID2,将该网络地址群组F2和网络地址群组G2进行合并,得到第三聚类集合ID3。
需要说明的是,服务器将该M个网络地址群组进行聚类时,可以通过聚类算法将该M个网络地址群组进行聚类,也可以通过其他方式将该M个网络地址群组进行聚类,本发明实施例对此不做具体限定。
还需要说明的是,服务器通过聚类算法将该M个网络地址群组进行聚类的操作可以参考相关技术,本发明实施例对此不再进行一一赘述。
其中,在合并得到该m个第二聚类集合的过程中,对于该m个第二聚类集合中的每个第二聚类集合,对于构成该第二聚类集合的至少两个网络地址群组中的每个网络地址群组,服务器对该网络地址群组与构成该第二聚类集合的至少两个网络地址群组中其他网络地址群组之间存在相同社交账号的个数进行统计,得到Y个个数,Y为该第二聚类集合中至少两个网络地址群组的个数减1;将该Y个个数进行相加,得到第三数值;并将该第三数值除以该网络地址群组包括的社交账号的个数,得到第四数值;将构成该第一聚类集合的至少两个网络地址群组中第四数值最大的网络地址群组的属性信息确定为该第一聚类集合的属性信息。
需要说明的是,由于第四数值越大,证明该网络地址群组中存在相同的社交账号的个数越多,对该第二聚类集合的属性信息的影响越大,因此,将该至少两个网络地址群组中第四数值最大的网络地址群组的属性信息确定为该第二聚类集合的属性信息。
比如,对于构成第二聚类集合ID1中的网络地址群组A2,该网络地址群组A2中包括的社交账号为15个,该网络地址群组A2和网络地址群组B2之间存在的相同社交账号个数为10个,该网络地址群组A2和网络地址群组D2之间存在的相同社交账号个数为5个,将10和5相加得到第三数值15,将第三数值15除以网络地址群组A2包括的社交账号的个数15,得到第四数值1;对于构成第二聚类集合ID1中的网络地址群组B2,该网络地址群组B2中包括的社交账号为12个,该网络地址群组B2和网络地址群组A2之间存在的相同社交账号个数为10个,该网络地址群组B2和网络地址群组D2之间存在的相同社交账号个数为3个,将10和3相加得到第三数值13,将第三数值13除以网络地址群组B包括的社交账号的个数12,得到第四数值1.08;对于构成第二聚类集合ID1中的网络地址群组D2,该网络地址群组D2中包括的社交账号为15个,该网络地址群组D2和网络地址群组A2之间存在的相同社交账号个数为5个,该网络地址群组D2和网络地址群组B2之间存在的相同社交账号个数为3个,将5和3相加得到第三数值8,将第三数值8除以网络地址群组D2包括的社交账号的个数15,得到第二数值0.53;其中,该第二聚类集合ID1中第四数值最大的网络地址群组为网络地址群组B2,因此,将该网络地址群组B2的属性信息确定为第二聚类集合ID1的属性信息。
还需要说明的是,对于该M个第二聚类集合中的每个第二聚类集合,对于构成该第二聚类集合的至少两个网络地址群组中的每个网络地址群组,当该至少两个网络地址群组的第四数值相同时,将该至少两个网络地址群组中的任一个网络地址群组的属性信息为该第二聚类集合的属性信息。当然,还可以通过其他方式确定该第二聚类集合的属性信息,本发明实施例对此不做具体限定。
另外,对于m个第二聚类集合中的每个第二聚类集合,该第二聚类集合可能包括多个网络地址群组,也可能包括一个网络地址群组,本发明实施例对此不做具体限定。
需要说明的是,当该第二聚类集合中只包括一个网络地址群组时,可以直接将该网络地址群组的属性信息确定为该第二聚类集合的属性信息,而无需通过上述的方法进行确定,可以减少计算量。
另外,在本发明实施例中,服务器同样可以将该M个网络地址群组中的每个网络地址群组作为一个节点,并将该M个网络地址群组转化为m个网络图,从而便于对该m个网络图进行操作,降低了服务器的运行负担。
比如,如图2C(a)所示,该节点A2为该网络地址群组A2转化为网络图后的节点,节点B2为该网络地址群组B2转换为网络图后的节点,节点D2为该网络地址群组D2转换为网络图后的节点,该节点A2、节点B2和节点D2构成第一个第一聚类集合ID1。参见图2C(b),该节点C2为该网络地址群组C2转化为网络图后的节点,该节点E2为该网络地址群组E2转化为网络图后的节点,节点C和节点E构成第二个第一聚类集合ID2。参见图2C(c),节点F2为该网络地址群组F2转换为网络图后的节点,该节点G2为该网络地址群组G2转化为网络图后的节点。节点F2和节点G2构成第三个第一聚类集合ID2。
步骤203:对于该n个第一聚类集合中的每个第一聚类集合,服务器基于该n个第一聚类集合包括的社交账号之间的关系链、该m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与该第一聚类集合包括的社交账号之间的关系链,从该m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。
具体地,对于该n个第一聚类集合中的每个第一聚类集合,服务器可以计算该第一聚类集合分别与该m个第二聚类集合之间的相似度;从该m个第二聚类集合中,选择至少一个第二聚类集合,该至少一个第二聚类集合为与该第一聚类集合之间的相似度大于或等于相似度阈值的第二聚类集合;将该第一聚类集合分别与该至少一个第二聚类集合进行合并,得到至少一个第三聚类集合;基于该至少一个第三聚类集合包括的社交账号之间的关系链,从该至少一个第三聚类集合中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。
其中,服务器计算该第一聚类集合分别与该m个第二聚类集合之间的相似度的操作可以为:对于该m个第二聚类集合中的每个第二聚类集合,获取该第一聚类集合与该第二聚类集合之间存在的相同社交账号的个数,得到第五数值,以及获取该第一聚类集合包括的社交账号和该第二聚类集合包括的社交账号的总个数,将该总个数减去第五数值,得到第六数值,将第五数值除以第六数值,得到该第一聚类集合与该第二聚类集合之间的相似度。也即是,用第一聚类集合包括的社交账号与第二聚类集合包括的社交账号之间的交集除以第一聚类集合包括的社交账号与第二聚类集合包括的社交账号之间的并集,得到该第一聚类集合与该第二聚类集合之间的相似度。
需要说明的是,在本发明实施例中,服务器计算该第一聚类集合分别与该m个第二聚类集合之间的相似度的操作不仅可以包括上述方法,还可以包括其他方法,本发明实施例对此不做具体限定。
还需要说明的是,相似度阈值用于筛选可与第一聚类集合进行合并的第二聚类集合,且该相似度阈值可以事先设置,比如,该相似度阈值可以为0.4、0.5、0.6等,本发明实施例对此不做具体限定。
另外,在本发明实施例中,当该服务器获取该至少一个第三聚类集合后,对于该至少一个第三聚类集合中的每个第三聚类集合,由于该第三聚类集合中可能包括一些与其他社交账号只是临时关系的社交账号,比如当某一个用户临时通过某一地址信息登录该社交应用,该用户的社交账号可能就与该地址信息对应的网络地址群中的社交账号为临时关系。因此,该服务器可以基于该第三聚类集合包括的社交账号之间的关系链,对该第三聚类集合中社交账号之间的关系进行修正,从而从该至少一个第三聚类集合中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。
需要说明的是,在本发明实施例中,该临时关系的社交账号可以是为了进行一次合作而临时加入的社交账号,或者,通过路由器只进行一次临时登录的社交账号等,本发明实施例对此不做具体限定。
其中,服务器基于该至少一个第三聚类集合包括的社交账号之间的关系链,从该至少一个第三聚类集合中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号的操作可以为:对于该至少一个第三聚类集合中的每个第三聚类集合,基于该第三聚类集合包括的社交账号之间的关系链,确定该第三聚类集合中每个社交账号的关联系数,该每个社交账号的关联系数为与该每个社交账号具有社交关系的社交账号个数;从该第三聚类集合中选择关联系数大于或等于系数阈值的社交账号;对于该第三聚类集合中的任一社交账号,将选择的社交账号中除与该任一社交账号存在社交关系之外的社交账号确定为对该社交账号任一挖掘得到的社交账号。
需要说明的是,系数阈值用于从第三聚类集合中选择出与其他社交账号关系最少的社交账号,且该系数阈值可以事先设置,比如该系数阈值可以为1、2等,本发明实施例对此不做具体限定。
由于服务器可以将该M个网络地址群组和N个社交网络群组转化为网络图,同样,服务器还可以将第三聚类集合中每个社交账号作为节点,从而将该第三聚类集合转换为网络图的形式,因此,该服务器可以从该网络图中确定每个社交账号节点的度数,从而确定该第三聚类集合中每个社交账号的关联系数。
需要说明的是,度数在网络图中是指该网络图中任一节点的分支个数,由于该度数对应于本发明实施例中的关联系数,因此,对于第三聚类集合中的每个社交账号,该关联系数是指与该社交账号具有直接关系的其他社交账号的个数。
另外,该服务器还可以通过该关联系数,将关联系数小于系数阈值的社交账号从该第三聚类集合中滤除,从而保证了该第三聚类集合包括的社交账号之间的关联性。
还需要说明的是,在本发明实施例中,服务器不仅可以通过上述方式确定每个社交账号的关联系数,还可以通过其他的方式确定,本发明实施例对此不做具体限定。
再者,当该服务器获取得到该至少一个第三聚类集合后,对于该至少一个第三聚类集合中的每个第三聚类集合,该服务器可以在指定时间段内对该第三聚类集合进行检测,当第三聚类集合发生变化时,对该第三聚类集合进行更新。进一步地,该服务器还可以对该第三聚类集合进行检测,当对该第三聚类集合的更新次数大于或等于指定更新次数时,停止对该第三聚类集合的检测,本发明实施例对此不做具体限定。
由于该第三聚类集合是通过第一聚类集合和第二聚类集合合并构成,因此,当该第一聚类集合或第二聚类集合包括的社交账号发生变化时,都可以认为该第三聚类集合发生变化。当然,在实际应用中,还可以通过其他方式判断该第三聚类集合是否发生变化,本发明实施例对此不做具体限定。
需要说明的是,指定时间段用于限制服务器更新第三聚类集合的更新时间,且该指定时间段可以事先设置,比如,该指定时间段可以为1小时、2小时等,本发明实施例对此不做具体限定。
还需要说明的是,指定次数用于限制服务器更新第三聚类集合的更新次数,且该指定更新次数同样可以事先设置,比如,该指定更新次数可以为5次10次等,本发明实施例对此不做具体限定。
进一步地,当该服务器将该第一聚类集合分别与该至少一个第二聚类集合进行合并,得到至少一个第三聚类集合之后,对于该至少一个第三聚类集合中的每个第三聚类集合,该服务器可以通过LDA(Latent DirichletAllocation,文档主题生成模块)确定该第三聚类集合的属性信息。
其中,由于在构成第一聚类集合和第二聚类集合的过程中已经取得了该第一聚类集合和第二聚类集合的属性信息,因此,该服务器可以获取构成该第三聚类集合的第一聚类集合的属性信息以及第二聚类集合的属性信息,通过LDA对该第一聚类集合的属性信息和第二聚类集合的属性信息进行聚类分析,从而确定该第三聚类集合的属性信息。
需要说明的是,服务器可以通过LDA确定该第三聚类集合的属性信息,也可以通过其他方式确定,本发明实施例对此不做具体限定。
另外,在本发明实施例中,服务器还可以在通过N个社交网络群组进行聚类得到n个第一聚类集合,并通过M个网络地址群组进行聚类得到m个第二聚类集合时,不确定该n个第一聚类集合和m个第二聚类集合的属性信息,而是在服务器确定该至少一个第三聚类集合后,通过LDA对该第三聚类集合中包括的多个社交网络群组和多个网络地址群组的属性信息进行聚类分析,从而确定该第三聚类集合的属性信息。
在本发明实施例中,服务器通过将该N个社交网络群组进行聚类得到n个第一聚类集合,并通过将该M个网络地址群组进行聚类得到m个第二聚类集合后,对于该n个第一聚类集合中的每个第一聚类集合,通过计算该第一聚类集合分别与该m个第二聚类集合之间的相似度,从而选择与第一聚类集合之间的相似度大于相似度阈值的至少一个第二聚类集合,将该至少一个第二聚类集合分别与该第一聚类集合进行合并,得到至少一个第三聚类集合,从而提高了第三聚类集合中多个社交账号之间的关联性,同时,由于将该第一聚类集合和第二聚类集合进行合并得到第三聚类集合的计算量较小,计算次数也较少,从而提高了获取至少一个第三聚类集合的效率,并且根据该第三聚类集合包括的社交账号之间的关系链,可以进行账号的挖掘,进而提高了挖掘社交账号的效率。
图3A是本发明实施例提供的一种社交账号挖掘装置的结构示意图,参见图3A,该装置包括:第一聚类模块301、第二聚类模块302和第三聚类模块303。
第一聚类模块301,用于将N个社交网络群组进行聚类,得到n个第一聚类集合,该N个社交网络群组中的每个社交网络群组为在社交应用中将多个社交账号组成的群组,该N和该n均大于或等于1,且该N大于或等于该n。
第二聚类模块302,用于将M个网络地址群组进行聚类,得到m个第二聚类集合,该M个网络地址群组中的每个网络地址群组为通过同一地址信息登录该社交应用的多个社交账号组成的群组,该M和该m均大于或等于1,且该M大于或等于该m。
第一确定模块303,用于对于该n个第一聚类集合中的每个第一聚类集合,基于该n个第一聚类集合包括的社交账号之间的关系链、该m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与该第一聚类集合包括的社交账号之间的关系链,从该m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。
可选地,参见图3B,该第一确定模块303包括:
计算单元3031,用于计算该第一聚类集合分别与该m个第二聚类集合之间的相似度;
选择单元3032,用于从该m个第二聚类集合中,选择至少一个第二聚类集合,该至少一个第二聚类集合为与该第一聚类集合之间的相似度大于或等于相似度阈值的第二聚类集合;
第一合并单元3033,用于将该第一聚类集合分别与该至少一个第二聚类集合进行合并,得到至少一个第三聚类集合;
确定单元3034,用于基于该至少一个第三聚类集合包括的社交账号之间的关系链,从该至少一个第三聚类集合中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。
可选地,该确定单元3034包括:
第一确定子单元30341,用于对于该至少一个第三聚类集合中的每个第三聚类集合,基于该第三聚类集合包括的社交账号之间的关系链,确定该第三聚类集合中每个社交账号的关联系数,该每个社交账号的关联系数为与该每个社交账号具有社交关系的社交账号个数;
选择子单元30342,用于从该第三聚类集合中选择关联系数大于或等于系数阈值的社交账号;
第二确定子单元30343,用于对于该第三聚类集合中的任一社交账号,将选择的社交账号中除与该任一社交账号存在社交关系之外的社交账号确定为对该任一社交账号挖掘得到的社交账号。
可选地,参见图3C,该第一聚类模块301包括:
第一划分单元3011,用于将该N个社交网络群组划分为n组,每组包括存在相同社交账号的至少两个社交网络群组;
第二合并单元3012,用于将该n组中每组包括的至少两个社交网络群组进行合并,得到n个第一聚类集合。
可选地,该装置还包括:
第一统计模块304,用于在合并得到该n个第一聚类集合的过程中,对于该n个第一聚类集合中的每个第一聚类集合,对于构成该第一聚类集合的至少两个社交网络群组中的每个社交网络群组,对该社交网络群组与构成该第一聚类集合的至少两个社交网络群组中其他社交网络群组之间存在相同社交账号的个数进行统计,得到X个个数,X为该第一聚类集合中至少两个社交网络群组的个数减1;
第一计算模块305,用于将该X个个数进行相加,得到第一数值;
第二计算模块,用于将该第一数值除以该社交网络群组包括的社交账号的个数,得到第二数值;
第二确定模块306,用于将该至少两个社交网络群组中第二数值最大的社交网络群组的属性信息确定为该第一聚类集合的属性信息。
可选地,参见图3D,该第二聚类模块302包括:
第二划分单元3021,用于将该M个网络地址群组划分为m组,每组包括存在相同社交账号的至少两个网络地址群组;
第三合并单元3022,用于对于该m组中每组包括的至少两个网络地址群组进行合并,得到m个第二聚类集合。
可选地,该装置还包括:
第二统计模块307,用于在合并得到该m个第二聚类集合的过程中,对于该m个第二聚类集合中的每个第二聚类集合,对于构成该第二聚类集合的至少两个网络地址群组中的每个网络地址群组,对该网络地址群组与构成该第二聚类集合的至少两个网络地址群组中其他网络地址群组之间存在相同社交账号的个数进行统计,得到Y个个数,Y为该第二聚类集合中至少两个网络地址群组的个数减1;
第三计算模块308,用于将该Y个个数进行相加,得到第三数值;
第四计算模块309,将该第三数值除以该网络地址群组包括的社交账号的个数,得到第四数值;
第三确定模块310,用于将该构成该第二聚类集合的至少两个网络地址群组中第四数值最大的网络地址群组的属性信息确定为该第二聚类集合的属性信息。
综上所述,在本发明实施例中,服务器通过将该N个社交网络群组进行聚类得到n个第一聚类集合,并通过将该M个社交网络群组进行聚类得到m个第二聚类集合后,对于该n个第一聚类集合中的每个第一聚类集合,通过计算该第一聚类集合分别与该m个第二聚类集合之间的相似度,从而选择与第一聚类集合之间的相似度大于相似度阈值的至少一个第二聚类集合,将该至少一个第二聚类集合分别与该第一聚类集合进行合并,得到至少一个第三聚类集合,从而提高了第三聚类集合中多个社交账号之间的关联性,同时,由于将该第一聚类集合和第二聚类集合进行合并得到第三聚类集合的计算量较小,计算次数也较少,从而提高了获取至少一个第三聚类集合的效率,并且根据该第三聚类集合包括的社交账号之间的关系链,可以进行账号的挖掘,进而提高了挖掘社交账号的效率。
图4是本发明实施例提供的一种社交账号挖掘装置的服务器结构示意图。该服务器可以是后台服务器集群中的服务器。具体来讲:
服务器400包括中央处理单元(CPU)401、包括随机存取存储器(RAM)402和只读存储器(ROM)403的系统存储器404,以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)406,和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。
基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说,大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。
根据本发明的各种实施例,服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412,或者说,也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。所述一个或者一个以上程序包含用于进行本发明实施例提供的如下所述的社交账号挖掘方法的指令,包括:
将N个社交网络群组进行聚类,得到n个第一聚类集合,该N个社交网络群组中的每个社交网络群组为在社交应用中将多个社交账号组成的群组,该N和该n均大于或等于1,且该N大于或等于该n。
将M个网络地址群组进行聚类,得到m个第二聚类集合,该M个网络地址群组中的每个网络地址群组为通过同一地址信息登录该社交应用的多个社交账号组成的群组,该M和该m均大于或等于1,且该M大于或等于该m。
对于该n个第一聚类集合中的每个第一聚类集合,基于该m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与该第一聚类集合包括的社交账号之间的关系链,从该m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。
可选地,基于该m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与该第一聚类集合包括的社交账号之间的关系链,从该m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号,包括:
计算该第一聚类集合分别与该m个第二聚类集合之间的相似度;
从该m个第二聚类集合中,选择至少一个第二聚类集合,该至少一个第二聚类集合为与该第一聚类集合之间的相似度大于或等于相似度阈值的第二聚类集合;
将该第一聚类集合分别与该至少一个第二聚类集合进行合并,得到至少一个第三聚类集合;
基于该至少一个第三聚类集合包括的社交账号之间的关系链,从该至少一个第三聚类集合中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号。
可选地,基于该至少一个第三聚类集合包括的社交账号之间的关系链,从该至少一个第三聚类集合中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号,包括:
对于该至少一个第三聚类集合中的每个第三聚类集合,基于该第三聚类集合包括的社交账号之间的关系链,确定该第三聚类集合中每个社交账号的关联系数,该每个社交账号的关联系数为与该每个社交账号具有社交关系的社交账号个数;
从该第三聚类集合中选择关联系数大于或等于系数阈值的社交账号;
对于该第三聚类集合中的每个社交账号,将选择的社交账号中除与该社交账号存在社交关系之外的社交账号确定为对该社交账号挖掘得到的社交账号。
可选地,将N个社交网络群组进行聚类,得到n个第一聚类集合,包括:
将该N个社交网络群组划分为n组,每组包括存在相同社交账号的至少两个社交网络群组;
将该n组中每组包括的至少两个社交网络群组进行合并,得到n个第一聚类集合。
可选地,该方法还包括:
在合并得到该n个第一聚类集合的过程中,对于该n个第一聚类集合中的每个第一聚类集合,对于构成该第一聚类集合的至少两个社交网络群组中的每个社交网络群组,对该社交网络群组与构成该第一聚类集合的至少两个社交网络群组中其他社交网络群组之间存在相同社交账号的个数进行统计,得到X个数值;
将该X个数值进行相加,得到第一数值;
将该第一数值除以该社交网络群组包括的社交账号的个数,得到第二数值;
将该至少两个社交网络群组中第二数值最大的社交网络群组的属性信息确定为该第一聚类集合的属性信息。
可选地,将M个网络地址群组进行聚类,得到m个第二聚类集合,包括:
将该M个网络地址群组划分为m组,每组包括存在相同社交账号的至少两个网络地址群组;
对于该m组中每组包括的至少两个网络地址群组进行合并,得到m个第二聚类集合。
可选地,该方法还包括:
在合并得到该m个第二聚类集合的过程中,对于该m个第二聚类集合中的每个第二聚类集合,对于构成该第二聚类集合的至少两个网络地址群组中的每个网络地址群组,对该网络地址群组与构成该第二聚类集合的至少两个网络地址群组中其他网络地址群组之间存在相同社交账号的个数进行统计,得到Y个数值;
将该Y个数值进行相加,得到第三数值;
将该第三数值除以该网络地址群组包括的社交账号的个数,得到第四数值;
将该构成该第一聚类集合的至少两个网络地址群组中第四数值最大的网络地址群组的属性信息确定为该第一聚类集合的属性信息。
在本发明实施例中,服务器通过将该N个社交网络群组进行聚类得到n个第一聚类集合,并通过将该M个社交网络群组进行聚类得到m个第二聚类集合后,对于该n个第一聚类集合中的每个第一聚类集合,可以基于n个第一聚类集合包括的社交账号之间的关系链、m个第二聚类集合包括的社交账号之间的关系链和该m个第二聚类集合包括的社交账号与第一聚类集合包括的社交账号之间的关系链,从m个第二聚类集合包括的社交账号中,确定对该第一聚类集合中每个社交账号挖掘得到的社交账号,从而使服务器不需要通过对每个社交账号进行扩展计算,就可以得到一个较大的关系网,并从该关系网中可以进行社交账号的挖掘。同时,由于服务器通过第一聚类集合、第二聚类集合以及社交账号之间的关系链进行社交账号的挖掘,对社交账号挖掘的准确度更高。并且在该社交账号挖掘的过程中,该服务器只进行了第一聚类集合的获取、第二聚类集合的获取和根据关系链从m个第二聚类集合包括的社交账号中,确定挖掘得到的社交账号这3次计算过程,该挖掘社交账号的计算量较小,计算次数也较少,从而提高了挖掘社交账号的效率。
需要说明的是:上述实施例提供的社交账号挖掘装置在挖掘社交账号时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的社交账号挖掘装置与社交账号挖掘方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (14)
1.一种社交账号挖掘方法,其特征在于,所述方法包括:
将N个社交网络群组进行聚类,得到n个第一聚类集合,所述N个社交网络群组中的每个社交网络群组为在社交应用中将多个社交账号组成的群组,所述N和所述n均大于或等于1,且所述N大于或等于所述n;
将M个网络地址群组进行聚类,得到m个第二聚类集合,所述M个网络地址群组中的每个网络地址群组为通过同一地址信息登录所述社交应用的多个社交账号组成的群组,所述M和所述m均大于或等于1,且所述M大于或等于所述m;
对于所述n个第一聚类集合中的每个第一聚类集合,均按照下述方法确定所述第一聚类集合中每个社交账号挖掘得到的社交账号:基于所述m个第二聚类集合包括的社交账号与所述第一聚类集合包括的社交账号之间的关系链、所述n个第一聚类集合包括的社交账号之间的关系链以及所述m个第二聚类集合包括的社交账号之间的关系链,从所述m个第二聚类集合包括的社交账号中,确定对所述第一聚类集合中每个社交账号挖掘得到的社交账号。
2.如权利要求1所述的方法,其特征在于,所述基于所述m个第二聚类集合包括的社交账号与所述第一聚类集合包括的社交账号之间的关系链、所述n个第一聚类集合包括的社交账号之间的关系链以及所述m个第二聚类集合包括的社交账号之间的关系链,从所述m个第二聚类集合包括的社交账号中,确定对所述第一聚类集合中每个社交账号挖掘得到的社交账号,包括:
计算所述第一聚类集合分别与所述m个第二聚类集合之间的相似度;
从所述m个第二聚类集合中,选择至少一个第二聚类集合,所述至少一个第二聚类集合为与所述第一聚类集合之间的相似度大于或等于相似度阈值的第二聚类集合;
将所述第一聚类集合分别与所述至少一个第二聚类集合进行合并,得到至少一个第三聚类集合;
基于所述至少一个第三聚类集合包括的社交账号之间的关系链,从所述至少一个第三聚类集合中,确定对所述第一聚类集合中每个社交账号挖掘得到的社交账号。
3.如权利要求2所述的方法,其特征在于,所述基于所述至少一个第三聚类集合包括的社交账号之间的关系链,从所述至少一个第三聚类集合中,确定对所述第一聚类集合中每个社交账号挖掘得到的社交账号,包括:
对于所述至少一个第三聚类集合中的每个第三聚类集合,基于所述第三聚类集合包括的社交账号之间的关系链,确定所述第三聚类集合中每个社交账号的关联系数,所述每个社交账号的关联系数为与所述每个社交账号具有社交关系的社交账号个数;
从所述第三聚类集合中选择关联系数大于或等于系数阈值的社交账号;
对于所述第三聚类集合中的任一社交账号,将选择的社交账号中除与所述任一社交账号存在社交关系之外的社交账号确定为对所述第一聚类集合中每个社交账号挖掘得到的社交账号。
4.如权利要求1所述的方法,其特征在于,所述将N个社交网络群组进行聚类,得到n个第一聚类集合,包括:
将所述N个社交网络群组划分为n组,每组包括存在相同社交账号的至少两个社交网络群组;
将所述n组中每组包括的至少两个社交网络群组进行合并,得到n个第一聚类集合。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
在合并得到所述n个第一聚类集合的过程中,对于所述n个第一聚类集合中的每个第一聚类集合,均按照下述方法确定所述第一聚类集合的属性信息:
对于构成所述第一聚类集合的至少两个社交网络群组中的每个社交网络群组,对所述社交网络群组与构成所述第一聚类集合的至少两个社交网络群组中其他社交网络群组中每个社交网络群组之间存在的相同社交账号的个数进行统计,得到X个社交账号个数,所述X为所述第一聚类集合中至少两个社交网络群组的个数减1;
将所述X个社交账号个数进行相加,得到第一数值;
将所述第一数值除以所述社交网络群组包括的社交账号的个数,得到第二数值;
将所述至少两个社交网络群组中第二数值最大的社交网络群组的属性信息确定为所述第一聚类集合的属性信息。
6.如权利要求1所述的方法,其特征在于,所述将M个网络地址群组进行聚类,得到m个第二聚类集合,包括:
将所述M个网络地址群组划分为m组,每组包括存在相同社交账号的至少两个网络地址群组;
对于所述m组中每组包括的至少两个网络地址群组进行合并,得到m个第二聚类集合。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:
在合并得到所述m个第二聚类集合的过程中,对于所述m个第二聚类集合中的每个第二聚类集合,均按照下述方法确定所述第二聚类集合的属性信息:
对于构成所述第二聚类集合的至少两个网络地址群组中的每个网络地址群组,对所述网络地址群组与构成所述第二聚类集合的至少两个网络地址群组中其他网络地址群组中每个网络地址群组之间存在的相同社交账号的个数进行统计,得到Y个社交账号个数,所述Y为所述第二聚类集合中至少两个网络地址群组的个数减1;
将所述Y个社交账号个数进行相加,得到第三数值;
将所述第三数值除以所述网络地址群组包括的社交账号的个数,得到第四数值;
将所述构成所述第二聚类集合的至少两个网络地址群组中第四数值最大的网络地址群组的属性信息确定为所述第二聚类集合的属性信息。
8.一种社交账号挖掘装置,其特征在于,所述装置包括:
第一聚类模块,用于将N个社交网络群组进行聚类,得到n个第一聚类集合,所述N个社交网络群组中的每个社交网络群组为在社交应用中将多个社交账号组成的群组,所述N和所述n均大于或等于1,且所述N大于或等于所述n;
第二聚类模块,用于将M个网络地址群组进行聚类,得到m个第二聚类集合,所述M个网络地址群组中的每个网络地址群组为通过同一地址信息登录所述社交应用的多个社交账号组成的群组,所述M和所述m均大于或等于1,且所述M大于或等于所述m;
第一确定模块,用于对于所述n个第一聚类集合中的每个第一聚类集合,均按照下述方法确定所述第一聚类集合中每个社交账号挖掘得到的社交账号:基于所述m个第二聚类集合包括的社交账号与所述第一聚类集合包括的社交账号之间的关系链、所述n个第一聚类集合包括的社交账号之间的关系链以及所述m个第二聚类集合包括的社交账号之间的关系链,从所述m个第二聚类集合包括的社交账号中,确定对所述第一聚类集合中每个社交账号挖掘得到的社交账号。
9.如权利要求8所述的方法,其特征在于,所述第一确定模块包括:
计算单元,用于计算所述第一聚类集合分别与所述m个第二聚类集合之间的相似度;
选择单元,用于从所述m个第二聚类集合中,选择至少一个第二聚类集合,所述至少一个第二聚类集合为与所述第一聚类集合之间的相似度大于或等于相似度阈值的第二聚类集合;
第一合并单元,用于将所述第一聚类集合分别与所述至少一个第二聚类集合进行合并,得到至少一个第三聚类集合;
确定单元,用于基于所述至少一个第三聚类集合包括的社交账号之间的关系链,从所述至少一个第三聚类集合中,确定对所述第一聚类集合中每个社交账号挖掘得到的社交账号。
10.如权利要求9所述的装置,其特征在于,所述确定单元包括:
第一确定子单元,用于对于所述至少一个第三聚类集合中的每个第三聚类集合,基于所述第三聚类集合包括的社交账号之间的关系链,确定所述第三聚类集合中每个社交账号的关联系数,所述每个社交账号的关联系数为与所述每个社交账号具有社交关系的社交账号个数;
选择子单元,用于从所述第三聚类集合中选择关联系数大于或等于系数阈值的社交账号;
第二确定子单元,用于对于所述第三聚类集合中的任一社交账号,将选择的社交账号中除与所述任一社交账号存在社交关系之外的社交账号确定为对所述第一聚类集合中每个社交账号挖掘得到的社交账号。
11.如权利要求8所述的装置,其特征在于,所述第一聚类模块包括:
第一划分单元,用于将所述N个社交网络群组划分为n组,每组包括存在相同社交账号的至少两个社交网络群组;
第二合并单元,用于将所述n组中每组包括的至少两个社交网络群组进行合并,得到n个第一聚类集合。
12.如权利要求11所述的装置,其特征在于,所述装置还包括:
第一统计模块,用于在合并得到所述n个第一聚类集合的过程中,对于所述n个第一聚类集合中的每个第一聚类集合,均按照下述方法确定所述第一聚类集合的属性信息:对于构成所述第一聚类集合的至少两个社交网络群组中的每个社交网络群组,对所述社交网络群组与构成所述第一聚类集合的至少两个社交网络群组中其他社交网络群组中每个社交网络群组之间存在的相同社交账号的个数进行统计,得到X个社交账号个数,所述X为所述第一聚类集合中至少两个社交网络群组的个数减1;
第一计算模块,用于将所述X个社交账号个数进行相加,得到第一数值;
第二计算模块,用于将所述第一数值除以所述社交网络群组包括的社交账号的个数,得到第二数值;
第二确定模块,用于将所述至少两个社交网络群组中第二数值最大的社交网络群组的属性信息确定为所述第一聚类集合的属性信息。
13.如权利要求8所述的装置,其特征在于,所述第二聚类模块包括:
第二划分单元,用于将所述M个网络地址群组划分为m组,每组包括存在相同社交账号的至少两个网络地址群组;
第三合并单元,用于对于所述m组中每组包括的至少两个网络地址群组进行合并,得到m个第二聚类集合。
14.如权利要求13所述的装置,其特征在于,所述装置还包括:
第二统计模块,用于在合并得到所述m个第二聚类集合的过程中,对于所述m个第二聚类集合中的每个第二聚类集合,均按照下述方法确定所述第二聚类集合的属性信息:对于构成所述第二聚类集合的至少两个网络地址群组中的每个网络地址群组,对所述网络地址群组与构成所述第二聚类集合的至少两个网络地址群组中其他网络地址群组中每个网络地址群组之间存在的相同社交账号的个数进行统计,得到Y个社交账号个数,所述Y为所述第二聚类集合中至少两个网络地址群组的个数减1;
第三计算模块,用于将所述Y个社交账号个数进行相加,得到第三数值;
第四计算模块,将所述第三数值除以所述网络地址群组包括的社交账号的个数,得到第四数值;
第三确定模块,用于将所述构成所述第二聚类集合的至少两个网络地址群组中第四数值最大的网络地址群组的属性信息确定为所述第二聚类集合的属性信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610387718.XA CN106095843B (zh) | 2016-06-02 | 2016-06-02 | 社交账号挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610387718.XA CN106095843B (zh) | 2016-06-02 | 2016-06-02 | 社交账号挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106095843A CN106095843A (zh) | 2016-11-09 |
CN106095843B true CN106095843B (zh) | 2018-06-08 |
Family
ID=57448194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610387718.XA Active CN106095843B (zh) | 2016-06-02 | 2016-06-02 | 社交账号挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095843B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780062B (zh) * | 2016-11-30 | 2021-02-09 | 华南师范大学 | 基于社交网络和大数据分析的用户群组更新方法及系统 |
CN106685809B (zh) * | 2017-02-24 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种社交圈子的生成方法和装置 |
CN107886112B (zh) * | 2017-10-26 | 2020-09-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种对象聚类方法、装置及存储设备 |
CN109255077B (zh) * | 2018-09-10 | 2021-11-30 | 北京一点网聚科技有限公司 | 账号推送方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102448048A (zh) * | 2011-09-20 | 2012-05-09 | 宇龙计算机通信科技(深圳)有限公司 | 终端和数据管理方法 |
CN102710755A (zh) * | 2012-05-18 | 2012-10-03 | 华为技术有限公司 | 终端用户社交网的数据挖掘方法、相关方法、装置和系统 |
CN103136303A (zh) * | 2011-11-24 | 2013-06-05 | 北京千橡网景科技发展有限公司 | 在社交网络服务网站中划分用户群组的方法和设备 |
CN104424187A (zh) * | 2013-08-19 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种向客户端用户推荐好友的方法及装置 |
CN104794656A (zh) * | 2014-01-16 | 2015-07-22 | 朱开一 | 一种应用于社交网络的推荐方法和推荐系统 |
CN105630904A (zh) * | 2015-12-21 | 2016-06-01 | 中国电子科技集团公司第十五研究所 | 一种互联网账户信息挖掘的方法和装置 |
-
2016
- 2016-06-02 CN CN201610387718.XA patent/CN106095843B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102448048A (zh) * | 2011-09-20 | 2012-05-09 | 宇龙计算机通信科技(深圳)有限公司 | 终端和数据管理方法 |
CN103136303A (zh) * | 2011-11-24 | 2013-06-05 | 北京千橡网景科技发展有限公司 | 在社交网络服务网站中划分用户群组的方法和设备 |
CN102710755A (zh) * | 2012-05-18 | 2012-10-03 | 华为技术有限公司 | 终端用户社交网的数据挖掘方法、相关方法、装置和系统 |
CN104424187A (zh) * | 2013-08-19 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种向客户端用户推荐好友的方法及装置 |
CN104794656A (zh) * | 2014-01-16 | 2015-07-22 | 朱开一 | 一种应用于社交网络的推荐方法和推荐系统 |
CN105630904A (zh) * | 2015-12-21 | 2016-06-01 | 中国电子科技集团公司第十五研究所 | 一种互联网账户信息挖掘的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106095843A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095843B (zh) | 社交账号挖掘方法及装置 | |
Herings et al. | Farsightedly stable networks | |
Radicchi et al. | Leveraging percolation theory to single out influential spreaders in networks | |
CN102968498B (zh) | 数据处理方法及装置 | |
Yusof et al. | Solving job shop scheduling problem using a hybrid parallel micro genetic algorithm | |
US20160203235A1 (en) | Striping of directed graphs and nodes with improved functionality | |
US20110295855A1 (en) | Graph-Processing Techniques for a MapReduce Engine | |
CN105528407B (zh) | 一种获取l个具有最佳传播影响力用户的方法和装置 | |
CN109840533A (zh) | 一种应用拓扑图识别方法及装置 | |
US20120188249A1 (en) | Distributed graph system and method | |
Jiang et al. | An incremental decision tree algorithm based on rough sets and its application in intrusion detection | |
Rees et al. | Overlapping community detection using a community optimized graph swarm | |
CN106326002A (zh) | 资源调度方法、装置及设备 | |
Angelelli et al. | Congestion avoiding heuristic path generation for the proactive route guidance | |
CN106599725B (zh) | 图数据发布的随机化隐私保护方法 | |
Jiang et al. | Towards max-min fair resource allocation for stream big data analytics in shared clouds | |
CN105205052B (zh) | 一种数据挖掘方法及装置 | |
EP3427163B1 (en) | Node-centric analysis of dynamic networks | |
Miriam et al. | A double min min algorithm for task metascheduler on hypercubic p2p grid systems | |
Ke et al. | Aggregation on the fly: Reducing traffic for big data in the cloud | |
Guerrieri et al. | DFEP: Distributed funding-based edge partitioning | |
Paul et al. | Optimal harvesting of two species mutualism model with interval parameters | |
Xie | A cooperative game model for the multimodality of coauthorship networks | |
CN103002067A (zh) | 虚拟机的ip地址的获取方法 | |
Hambrusch et al. | Edge weight reduction problems in directed acyclic graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |