CN110929141A - 团伙挖掘方法、装置、设备及存储介质 - Google Patents

团伙挖掘方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110929141A
CN110929141A CN201811102774.XA CN201811102774A CN110929141A CN 110929141 A CN110929141 A CN 110929141A CN 201811102774 A CN201811102774 A CN 201811102774A CN 110929141 A CN110929141 A CN 110929141A
Authority
CN
China
Prior art keywords
users
association
user
behavior data
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811102774.XA
Other languages
English (en)
Other versions
CN110929141B (zh
Inventor
杨双全
张阳
刘畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811102774.XA priority Critical patent/CN110929141B/zh
Publication of CN110929141A publication Critical patent/CN110929141A/zh
Application granted granted Critical
Publication of CN110929141B publication Critical patent/CN110929141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种团伙挖掘方法、装置、设备及存储介质。本发明的团伙挖掘方法,通过获取各个用户的第一行为数据和第二行为数据,根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重,使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,根据所述任意两个用户之间的权重信息构建待挖掘的关联网络,通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。本发明实施例可以提升团伙识别的准确率。

Description

团伙挖掘方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种团伙挖掘方法、装置、设备及存储介质。
背景技术
随着科技的不断发展,互联网特别是移动互联网行为普及到社会生活的各个方面。越来越多团伙不仅仅使用线下碰头,还采用互联网线上接触等多种方式联系,甚至有些通过网盘、邮箱共享等方式进行联系的趋势呈现井喷式增长。
在此背景下,结合用户线上行为和线下行为,挖掘团伙并找出团伙中的关键骨干人员成为亟需解决的难题。
挖掘团伙通常采用几个条件做简单的筛选和挖掘,由于筛选条件太过于单一,缺乏全面的分析和挖掘,导致挖掘出来的团伙的准确性不高。
发明内容
本发明实施例提供一种团伙挖掘方法、装置、设备及存储介质,以提升团伙的识别准确率。
第一方面,本发明实施例提供一种团伙挖掘方法,包括:获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据;根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重;使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,所述多个调节参数为对包括已知团伙信息的训练样本进行学习后获取的;根据所述任意两个用户之间的权重信息构建待挖掘的关联网络;通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重,包括:根据所述各个用户的第一行为数据和第二行为数据,分别获取任意两个用户之间的关联频次,所述关联频次包括多个类型的关联关系的关联频次;根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重。
结合第一方面或第一方面的一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重,包括:对于第d个类型的关联关系,根据所述任意两个用户的第一关联频次与所述任意两个用户的第二关联频次的比值,确定任意两个用户之间的第d个类型的关联关系的权重;其中,所述任意两个用户的第一关联频次为所述任意两个用户之间的所述第d个类型的关联关系的关联频次,所述任意两个用户的第二关联频次为所述任意两个用户与其他用户之间的所述第d个类型的关联关系的关联频次,d分别取1至关联关系的类型总个数。
结合第一方面或第一方面的任一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述方法还包括:
对于第k个用户和第1个用户,根据公式
Figure BDA0001807094160000021
确定第k个用户与第1个用户的第二关联频次;
其中,xkl表示第k个用户与第1个用户之间的第d个类型的关联关系的关联频次,N为所述各个用户的总个数,k和1分别取1至N中任意两个数。
结合第一方面或第一方面的任一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,包括:
对于第k个用户和第1个用户,根据公式w(k,l)=α1*w1(k,l)+α2*w2(k,l)+…+αD*wD(k,l)确定第k个用户和第1个用户之间的权重信息w(k,l);
其中,wd(k,l)表示第d个类型的关联关系中,第k个用户和第1个用户之间的权重信息,D为关联关系的类型总个数,α1、α2、....、αD分别表示一个类型的关联关系的调节参数。
结合第一方面或第一方面的任一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述根据所述任意两个用户之间的权重信息构建待挖掘的关联网络,包括:分别根据所述任意两个用户之间的权重信息构建两个结点之间的带权值的边,获取待挖掘的关联网络,其中,每个结点表示一个用户。
结合第一方面或第一方面的任一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息,包括:将每个结点作为一个初始团伙,分别计算所述结点加入到各个邻居结点后的模块度的变化量;根据所述模块度的变化量,对初始团伙进行更新,获取更新后的团伙,将更新后的团伙作为新的结点,分别计算所述新的结点加入到各个邻居结点后的模块度的变化量;当模块度不再变化时,输出更新后的团伙的团伙信息。
结合第一方面或第一方面的任一种可能的实现方式,在第一方面的另一种可能的实现方式中,所述团伙信息包括属于同一团伙的各个用户的信息。
第二方面,本申请实施例提供一种团伙挖掘装置,包括:获取模块,用于获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据;权重确定模块,用于根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重;权重拟合模块,用于使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,所述多个调节参数为对包括已知团伙信息的训练样本进行学习后获取的;关联网络确定模块,用于根据所述任意两个用户之间的权重信息构建待挖掘的关联网络;输出模块,用于通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。
结合第二方面,在第二方面的一种可能的实现方式中,所述权重确定模块,用于:根据所述各个用户的第一行为数据和第二行为数据,分别获取任意两个用户之间的关联频次,所述关联频次包括多个类型的关联关系的关联频次;根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重。
结合第二方面或第二方面的一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述权重确定模块,用于:对于第d个类型的关联关系,根据所述任意两个用户的第一关联频次与所述任意两个用户的第二关联频次的比值,确定任意两个用户之间的第d个类型的关联关系的权重;其中,所述任意两个用户的第一关联频次为所述任意两个用户之间的所述第d个类型的关联关系的关联频次,所述任意两个用户的第二关联频次为所述任意两个用户与其他用户之间的所述第d个类型的关联关系的关联频次,d分别取1至关联关系的类型总个数。
结合第二方面或第二方面的任一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述装置还包括关联频次确定模块,用于:
对于第k个用户和第1个用户,根据公式
Figure BDA0001807094160000041
确定第k个用户与第1个用户的第二关联频次;
其中,xkl表示第k个用户与第1个用户之间的第d个类型的关联关系的关联频次,N为所述各个用户的总个数,k和1分别取1至N中任意两个数。
结合第二方面或第二方面的任一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述权重拟合模块,用于:
对于第k个用户和第1个用户,根据公式w(k,1)=α1*w1(k,l)+α2*w2(k,l)+…+αD*wD(k,l)确定第k个用户和第1个用户之间的权重信息w(k,l);
其中,wd(k,l)表示第d个类型的关联关系中,第k个用户和第1个用户之间的权重信息,D为关联关系的类型总个数,α1、α2、....、αD分别表示一个类型的关联关系的调节参数。
结合第二方面或第二方面的任一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述关联网络确定模块,用于:分别根据所述任意两个用户之间的权重信息构建两个结点之间的带权值的边,获取待挖掘的关联网络,其中,每个结点表示一个用户。
结合第二方面或第二方面的任一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述输出模块,用于:将每个结点作为一个初始团伙,分别计算所述结点加入到各个邻居结点后的模块度的变化量;根据所述模块度的变化量,对初始团伙进行更新,获取更新后的团伙,将更新后的团伙作为新的结点,分别计算所述新的结点加入到各个邻居结点后的模块度的变化量;当模块度不再变化时,输出更新后的团伙的团伙信息。
结合第二方面或第二方面的任一种可能的实现方式,在第二方面的另一种可能的实现方式中,所述团伙信息包括属于同一团伙的各个用户的信息。
第三方面,本申请实施例提供一种电子设备,包括:存储器和处理器;所述存储器用于指令,以使所述处理器执行所述指令,以实现如第一方面或第一方面的任一种可能的实现方式所述的团伙挖掘方法。
第四方面,本申请实施例提供一种存储介质,其特征在于,包括:所述存储介质包括:指令,所述指令用于实现如第一方面或第一方面的任一种可能的实现方式所述的团伙挖掘方法。
本发明实施例的团伙挖掘方法、装置、设备及存储介质,通过获取各个用户的多个类型的关联关系的数据,根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重,使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,根据所述任意两个用户之间的权重信息构建待挖掘的关联网络,通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。其综合来自线上和线下的多个类型的关联关系的数据,进行团伙挖掘,相较于设置简单条件进行筛选的方式,可以提升团伙识别的准确率。
附图说明
下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。
图1为本申请一实施例提供的一种团伙挖掘方法的流程图;
图2为本申请一实施例提供的另一种团伙挖掘方法的流程图;
图3为本申请一实施例提供的用户之间的关联频次的示意图;
图4为本申请一实施例提供的关联关系的权重的示意图;
图5为本申请一实施例提供的待挖掘的关联网络的示意图;
图6为本申请一实施例提供的另一种团伙挖掘方法的流程图;
图7为本申请一实施例提供的一种团伙挖掘装置700的示意图;
图8为本申请一实施例提供的一种电子设备800的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本文所涉及的“第一行为数据”和“第二行为数据”用于区分不同来源的行为数据。其中,“第一行为数据”具体指用户使用互联网、通信网络所产生的数据,例如,用户使用即时通讯类应用程序(Application,APP)所产生的数据,该数据包括与所述用户进行通信的用户的标识、时间、内容等信息。该通信网络可以包括2G、3G、LTE等无线通信网络,用户使用该通信网络所产生的数据可以包括进行语音通话的用户的标识、时间等信息,发送/接收短信的用户的标识、时间等信息。“第二行为数据”具体指用户与其他用户在现实环境中接触所产生的数据,例如,用户与其他用户在咖啡馆见面所产生的数据,该数据可以是对视频进行解析获取的,该数据可以包括与所述用户见面的用户的标识、时间、地点等信息。
其中,将每一种第一行为数据作为一个类型的关联关系的数据,例如,将用户使用即时通讯类应用程序(APP)所产生的数据作为一个类型的关联关系的数据,将用户使用电子邮箱所产生的数据作为另一个类型的关联关系的数据。同理,将每一种第二行为数据作为一个类型的关联关系的数据,例如,将用户在A市与其他用户碰面所产生的数据作为一个类型的关联关系的数据,将用户在B市与其他用户碰面所产生的数据作为另一个类型的关联关系的数据,将用户与其他用户未碰面但到达过相同地点所产生的数据作为另一个类型的关联关系的数据。
需要说明的是,第一行为数据也可以称之为线上行为数据,第二行为数据也可以称之为线下行为数据,其名称不以此作为限制。
本申请技术方案的一种应用场景,将公安部门所获取的第二行为数据和线上所产生的第一行为数据,通过本申请所提供的团伙挖掘方法进行处理,以确定团伙信息,本申请的团伙挖掘方法识别团伙的准确率高,可以协助公安部门快速且准确地锁定团伙,维护社会稳定发展。
图1为本申请一实施例提供的一种团伙挖掘方法的流程图,本实施例的执行主体可以是团伙挖掘装置,该装置可以是电子设备或电子设备的内部芯片,如图1所示,本实施例的方法可以包括:
步骤101、获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据。
举例而言,该多个类型的关联关系的数据可以包括用户使用即时通讯类应用程序1所产生的数据、使用即时通讯类应用程序2所产生的数据和用户与其他用户在A市碰面的数据,该数据包括与所述用户产生关联事件的用户的标识、时间、内容等信息。
步骤102、根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重。
具体的,对于每一个类型的关联关系,分别确定所有用户中任意两个用户之间的该类型的关联关系的权重。
以上述举例做进一步举例说明,根据如上述的关联关系数据,分别确定任意两个用户之间的使用即时通讯类应用程序1的权重,分别确定任意两个用户之间的使用即时通讯类应用程序2的权重,以及分别确定任意两个用户之间在A市碰面的权重。
步骤103、使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,所述多个调节参数为对包括已知团伙信息的训练样本进行学习后获取的。
其中,调节参数的个数与关联关系的类型的个数相同。
具体的,任意两个用户之间存在多个类型的关联关系的权重,通过本步骤将多个类型的关联关系的权重进行拟合,以确定任意两个用户之间的唯一的权重信息。由此可见,该权重信息融合有各个类型的关联关系的数据。
该多个调节参数可以是使用决策树模型对包括已知团伙信息的训练样本进行学习后获取的。可以理解的,其也可以是其他机器学习模型,本申请实施例对此不做具体限定。
步骤104、根据所述任意两个用户之间的权重信息构建待挖掘的关联网络。
以各个用户包括用户A、用户B、用户C和用户D为例进行举例说明,该任意两个用户之间的权重信息包括:用户A与用户B之间的权重信息、用户A与用户C之间的权重信息、用户A与用户D之间的权重信息、用户B与用户C之间的权重信息,用户B与用户D之间的权重信息。基于此构建待挖掘的关联网络,该待挖掘的关联网络是一种图数据。
步骤105、通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。
一种可实现方式,可以使用Louvain算法对该待挖掘的关联网络中团伙的模块度进行优化,以获取具有最大模块度的团伙,输出团伙信息。
其中,该团伙信息团可以包括属于同一团伙的各个用户的信息。以上述各个用户包括用户A、用户B、用户C和用户D为例做进一步举例说明,通过步骤105输出的团伙信息可以为团伙1和团伙2,团伙1:{用户A、用户B},团伙2:{用户C、用户D}。
本实施例,通过获取各个用户的多个类型的关联关系的数据,根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重,使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,根据所述任意两个用户之间的权重信息构建待挖掘的关联网络,通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。其综合来自线上和线下的多个类型的关联关系的数据,进行团伙挖掘,相较于设置简单条件进行筛选的方式,可以提升团伙识别的准确率。
下面采用几个具体的实施例,对图1所示方法实施例的技术方案进行详细说明。
图2为本申请一实施例提供的另一种团伙挖掘方法的流程图,如图2所示,本实施例的方法可以包括:
步骤201、获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据。
其中,步骤201的具体解释说明可以参见图1所示实施例的步骤101,此处不再赘述。
步骤202、根据所述各个用户的第一行为数据和第二行为数据,分别获取任意两个用户之间的关联频次,所述关联频次包括多个类型的关联关系的关联频次。
具体的,根据各个用户的第一行为数据和第二行为数据,分别获取任意两个用户之间的多个类型的关联关系的关联频次,其中,该关联频次可以是次数,也可以是时长,例如,对于使用即时通讯类应用程序1的关联关系,关联频次可以包括用户A使用即时通讯类应用程序1与用户B进行通信的次数。
本实施例以通过步骤202得到如图3所示的用户之间的关联频次,其中,一个结点表示一个用户,虚线的边表示第一个类型的关联关系,其上的值表示两个用户之间的该第一个类型的关联关系的关联频次,实色的边表示第二个类型的关联关系,其上的值表示两个用户之间的该第二个类型的关联关系的关联频次,本实施例以两个类型的关联关系进行举例说明。
步骤203、根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重。
以上述图3的举例做进一步举例说明,通过步骤203可以得到如图4所示的任意两个用户之间的第一个类型和第二类型的关联关系的权重。其中,w1(1,6)表示用户1和用户6之间的第一个类型的关联关系的权重,w1(2,6)表示用户2和用户6之间的第一个类型的关联关系的权重,w2(1,6)表示用户1和用户6之间的第二个类型的关联关系的权重。
其中,上述步骤203的一种具体的可实现方式,对于第d个类型的关联关系,根据所述任意两个用户的第一关联频次与所述任意两个用户的第二关联频次的比值,确定任意两个用户之间的第d个类型的关联关系的权重;其中,所述任意两个用户的第一关联频次为所述任意两个用户之间的所述第d个类型的关联关系的关联频次,所述任意两个用户的第二关联频次为所述任意两个用户与其他用户之间的所述第d个类型的关联关系的关联频次,d分别取1至关联关系的类型总个数。
可选的,本实施例的方法还可以包括:
对于第k个用户和第1个用户,根据公式
Figure BDA0001807094160000101
确定第k个用户与第1个用户的第二关联频次;
其中,xkl表示第k个用户与第1个用户之间的第d个类型的关联关系的关联频次,N为所述各个用户的总个数,k和1分别取1至N中任意两个数。
即可以通过TF-IDF的方式计算任意两个用户之间的各个类型的关联关系的权重,具体公式可以表示如下:
Figure BDA0001807094160000102
其中,wd(k,l)表示第k个用户与第1个用户之间的第d个类型的关联关系的权重,D为关联关系的类型集合。
需要说明的是,上述公式(1)中的ln也可以替换为lg,其可以根据需求进行灵活设置。
步骤204、使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息。
其中,一种具体的可实现方式,对于第k个用户和第1个用户,根据公式w(k,l)=α1*w1(k,l)+α2*w2(k,l)+…+αD*wD(k,l)确定第k个用户和第1个用户之间的权重信息w(k,1);
其中,wd(k,l)表示第d个类型的关联关系中,第k个用户和第1个用户之间的权重信息,D为关联关系的类型总个数,α1、α2、....、αD分别表示一个类型的关联关系的调节参数。
k和1分别取1至N中任意两个数,即确定任意两个用户之间的权重信息。
步骤205、根据所述任意两个用户之间的权重信息构建待挖掘的关联网络。
其中,一种具体的可实现方式,分别根据所述任意两个用户之间的权重信息构建两个结点之间的带权值的边,获取待挖掘的关联网络,其中,每个结点表示一个用户。
以上述图3和图4为例作进一步举例说明,通过步骤205得到如图5所示的待挖掘的关联网络,其中,一个结点表示一个用户,两个结点之间的边上的值表示两个用户之间的权重信息。
该待挖掘的关联网络也可以采用其他形式进行表示,例如,使用结点数、边数、各边权重等信息唯一表示该待挖掘的关联网络。
步骤206、通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。
其中,步骤206的具体解释说明可以参见上述图1所示实施例的步骤105,此处不再赘述。
对上述多个调节参数做进一步解释说明,该多个调节参数可以是使用决策树模型对包括已知团伙信息的训练样本进行学习后获取的,举例而言,训练样本包括3个结点,共有3个团伙,具体的,团伙A(用户A1,用户A2),团伙B(用户B1,用户B2,用户B3,用户B4),团伙C(用户C1),根据各个用户的各个类型的关联关系的权重构建D维向量空间的训练样本,使用决策树模型,对该训练样本进行充分训练,获取该多个调节参数。
本实施例,通过获取各个用户的多个类型的关联关系的数据,根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重,使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,根据所述任意两个用户之间的权重信息构建待挖掘的关联网络,通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。其综合来自线上和线下的多个类型的关联关系的数据,进行团伙挖掘,相较于设置简单条件进行筛选的方式,可以提升团伙识别的准确率。
其中,通过TF-IDF的方式计算任意两个用户之间的各个类型的关联关系的权重,该权重可以有效反映两个用户之间的各个类型的关联关系的亲密程度,从而可以提升团伙识别的准确率。
使用决策树模型对包括已知团伙信息的训练样本进行学习后获取多个调节参数,从而自动拟合各个类型的关联关系的权重,无需人工设置拟合权重,提升团伙识别的效率和准确率。
图6为本申请一实施例提供的另一种团伙挖掘方法的流程图,本实施例为在上述任一方法实施例的基础上,对通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息的具体实现方式进行解释说明,如图6所示,本实施例的方法可以包括:
步骤301、将每个结点作为一个团伙,分别计算所述结点加入到各个邻居结点后的模块度的变化量。
举例而言,可以将图5中的每个结点作为一个独立的团伙,初始的团伙的数目与结点个数相同。
对每个结点i,依次计算将结点i加入到其邻居结点所在团伙,计算其模块度的变化量。
其中,模块度Q计算方式可以如下:
Figure BDA0001807094160000121
Figure BDA0001807094160000122
其中,Aij表示结点i和结点j之间边的权重;ki=∑jAij表示所有与结点i相连的边的权重之和;ci表示结点i所属的团伙;
Figure BDA0001807094160000123
表示所有边的权重之和。
步骤302、根据所述模块度的变化量,对团伙进行更新,获取更新后的团伙,将更新后的团伙作为新的结点。
具体的,选取步骤301中模块度的变化量中的最大值ΔQ的邻居结点,如果ΔQ>0,则把结点i分配至该邻居节点所在的团伙,否则保持不变。
对图进行压缩,将所有在同一个团伙的结点压缩成一个新的结点;具体压缩方式可以根据需求进行灵活设置。
重复执行步骤301,直至整个图的模块度不再变化,执行步骤303。
步骤303、输出更新后的团伙的团伙信息。
本实施例,通过对模块度的优化,确定该待挖掘的关联网络的团伙信息,可以提升团伙识别的效率和准确率。
图7为本申请一实施例提供的一种团伙挖掘装置700的示意图,如图7所示,该装置包括:
获取模块701,用于获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据;
权重确定模块702,用于根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重;
权重拟合模块703,用于使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,所述多个调节参数为对包括已知团伙信息的训练样本进行学习后获取的;
关联网络确定模块704,用于根据所述任意两个用户之间的权重信息构建待挖掘的关联网络;
输出模块705,用于通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。
可选的,所述权重确定模块702,用于:根据所述各个用户的第一行为数据和第二行为数据,分别获取任意两个用户之间的关联频次,所述关联频次包括多个类型的关联关系的关联频次;根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重。
可选的,所述权重确定模块702用于:对于第d个类型的关联关系,根据所述任意两个用户的第一关联频次与所述任意两个用户的第二关联频次的比值,确定任意两个用户之间的第d个类型的关联关系的权重;
其中,所述任意两个用户的第一关联频次为所述任意两个用户之间的所述第d个类型的关联关系的关联频次,所述任意两个用户的第二关联频次为所述任意两个用户与其他用户之间的所述第d个类型的关联关系的关联频次,d分别取1至关联关系的类型总个数。
可选的,所述装置还包括关联频次确定模块705,用于:
对于第k个用户和第1个用户,根据公式
Figure BDA0001807094160000141
确定第k个用户与第1个用户的第二关联频次;
其中,xkl表示第k个用户与第1个用户之间的第d个类型的关联关系的关联频次,N为所述各个用户的总个数,k和1分别取1至N中任意两个数。
可选的,所述权重拟合模块703,用于:
对于第k个用户和第1个用户,根据公式w(k,l)=α1*w1(k,l)+α2*w2(k,l)+…+αD*wD(k,l)确定第k个用户和第1个用户之间的权重信息w(k,l);
其中,wd(k,l)表示第d个类型的关联关系中,第k个用户和第1个用户之间的权重信息,D为关联关系的类型总个数,α1、α2、....、αD分别表示一个类型的关联关系的调节参数。
可选的,所述关联网络确定模块704,用于:分别根据所述任意两个用户之间的权重信息构建两个结点之间的带权值的边,获取待挖掘的关联网络,其中,每个结点表示一个用户。
可选的,所述输出模块705用于:将每个结点作为一个初始团伙,分别计算所述结点加入到各个邻居结点后的模块度的变化量;根据所述模块度的变化量,对初始团伙进行更新,获取更新后的团伙,将更新后的团伙作为新的结点,分别计算所述新的结点加入到各个邻居结点后的模块度的变化量;当模块度不再变化时,输出更新后的团伙的团伙信息。
可选的,所述团伙信息包括属于同一团伙的各个用户的信息。
本申请提供的团伙挖掘装置可以用于执行上述的团伙挖掘方法,其内容和效果在此不再赘述。
图8为本申请一实施例提供的一种电子设备800的示意图,如图8所示,该设备包括:存储器801、处理器802和收发器803。
存储器801用于指令,以使处理器802执行指令,以实现上述的团伙挖掘方法。
收发器803用于与其他设备之间实现通信。
处理器802可以被一个或多个应用专用集成电路(Application SpecificIntegrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理设备(Digital Signal Processing Device,DSPD)、可编程逻辑器件(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
存储器801可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM),可编程只读存储器(Programmable read-only memory,PROM),只读存储器(Read-Only Memory,ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请提供的电子设备可以用于执行上述的团伙挖掘方法,其内容和效果在此不再赘述。
本申请还提供一种存储介质,包括:存储介质包括:指令,指令用于实现上述的团伙挖掘方法。其内容和效果在此不再赘述。
本申请提供一种计算机程序产品,该计算机程序产品包括指令,该指令用于实现上述的团伙挖掘方法。其内容和效果在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (18)

1.一种团伙挖掘方法,其特征在于,包括:
获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据;
根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重;
使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,所述多个调节参数为对包括已知团伙信息的训练样本进行学习后获取的;
根据所述任意两个用户之间的权重信息构建待挖掘的关联网络;
通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重,包括:
根据所述各个用户的第一行为数据和第二行为数据,分别获取任意两个用户之间的关联频次,所述关联频次包括多个类型的关联关系的关联频次;
根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重。
3.根据权利要求2所述的方法,其特征在于,所述根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重,包括:
对于第d个类型的关联关系,根据所述任意两个用户的第一关联频次与所述任意两个用户的第二关联频次的比值,确定任意两个用户之间的第d个类型的关联关系的权重;
其中,所述任意两个用户的第一关联频次为所述任意两个用户之间的所述第d个类型的关联关系的关联频次,所述任意两个用户的第二关联频次为所述任意两个用户与其他用户之间的所述第d个类型的关联关系的关联频次,d分别取1至关联关系的类型总个数。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对于第k个用户和第l个用户,根据公式
Figure FDA0001807094150000021
确定第k个用户与第l个用户的第二关联频次;
其中,xkl表示第k个用户与第l个用户之间的第d个类型的关联关系的关联频次,N为所述各个用户的总个数,k和l分别取1至N中任意两个数。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,包括:
对于第k个用户和第l个用户,根据公式w(k,l)=α1*w1(k,l)+α2*w2(k,l)+…+αD*wD(k,l)确定第k个用户和第l个用户之间的权重信息w(k,l);
其中,wd(k,l)表示第d个类型的关联关系中,第k个用户和第l个用户之间的权重信息,D为关联关系的类型总个数,α1、α2、....、αD分别表示一个类型的关联关系的调节参数。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述任意两个用户之间的权重信息构建待挖掘的关联网络,包括:
分别根据所述任意两个用户之间的权重信息构建两个结点之间的带权值的边,获取待挖掘的关联网络,其中,每个结点表示一个用户。
7.根据权利要求6所述的方法,其特征在于,所述通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息,包括:
将每个结点作为一个初始团伙,分别计算所述结点加入到各个邻居结点后的模块度的变化量;
根据所述模块度的变化量,对初始团伙进行更新,获取更新后的团伙,将更新后的团伙作为新的结点,分别计算所述新的结点加入到各个邻居结点后的模块度的变化量;
当模块度不再变化时,输出更新后的团伙的团伙信息。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述团伙信息包括属于同一团伙的各个用户的信息。
9.一种团伙挖掘装置,其特征在于,包括:
获取模块,用于获取各个用户的行为数据,所述行为数据包括第一行为数据和第二行为数据,所述第一行为数据和第二行为数据包括多个类型的关联关系的数据;
权重确定模块,用于根据所述各个用户的第一行为数据和第二行为数据,分别确定任意两个用户之间的多个类型的关联关系的权重;
权重拟合模块,用于使用多个调节参数,分别对所述任意两个用户之间的多个类型的关联关系的权重进行拟合处理,确定任意两个用户之间的权重信息,所述多个调节参数为对包括已知团伙信息的训练样本进行学习后获取的;
关联网络确定模块,用于根据所述任意两个用户之间的权重信息构建待挖掘的关联网络;
输出模块,用于通过计算模块度的方式对所述待挖掘的关联网络进行挖掘,输出团伙信息。
10.根据权利要求9所述的装置,其特征在于,所述权重确定模块,用于:
根据所述各个用户的第一行为数据和第二行为数据,分别获取任意两个用户之间的关联频次,所述关联频次包括多个类型的关联关系的关联频次;
根据所述任意两个用户之间的关联频次,分别确定任意两个用户之间的多个类型的关联关系的权重。
11.根据权利要求10所述的装置,其特征在于,所述权重确定模块,用于:
对于第d个类型的关联关系,根据所述任意两个用户的第一关联频次与所述任意两个用户的第二关联频次的比值,确定任意两个用户之间的第d个类型的关联关系的权重;
其中,所述任意两个用户的第一关联频次为所述任意两个用户之间的所述第d个类型的关联关系的关联频次,所述任意两个用户的第二关联频次为所述任意两个用户与其他用户之间的所述第d个类型的关联关系的关联频次,d分别取1至关联关系的类型总个数。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括关联频次确定模块,用于:
对于第k个用户和第l个用户,根据公式
Figure FDA0001807094150000041
确定第k个用户与第l个用户的第二关联频次;
其中,xkl表示第k个用户与第l个用户之间的第d个类型的关联关系的关联频次,N为所述各个用户的总个数,k和l分别取1至N中任意两个数。
13.根据权利要求9至12任一项所述的装置,其特征在于,所述权重拟合模块,用于:
对于第k个用户和第l个用户,根据公式w(k,l)=α1*w1(k,l)+α2*w2(k,l)+…+αD*wD(k,l)确定第k个用户和第l个用户之间的权重信息w(k,l);
其中,wd(k,l)表示第d个类型的关联关系中,第k个用户和第l个用户之间的权重信息,D为关联关系的类型总个数,α1、α2、....、αD分别表示一个类型的关联关系的调节参数。
14.根据权利要求9至13任一项所述的装置,其特征在于,所述关联网络确定模块,用于:
分别根据所述任意两个用户之间的权重信息构建两个结点之间的带权值的边,获取待挖掘的关联网络,其中,每个结点表示一个用户。
15.根据权利要求14所述的装置,其特征在于,所述输出模块,用于:
将每个结点作为一个初始团伙,分别计算所述结点加入到各个邻居结点后的模块度的变化量;
根据所述模块度的变化量,对初始团伙进行更新,获取更新后的团伙,将更新后的团伙作为新的结点,分别计算所述新的结点加入到各个邻居结点后的模块度的变化量;
当模块度不再变化时,输出更新后的团伙的团伙信息。
16.根据权利要求9至15任一项所述的装置,其特征在于,所述团伙信息包括属于同一团伙的各个用户的信息。
17.一种电子设备,其特征在于,包括:
存储器和处理器;
所述存储器用于指令,以使所述处理器执行所述指令,以实现如权利要求1-8任一项所述的团伙挖掘方法。
18.一种存储介质,其特征在于,包括:所述存储介质包括指令,所述指令用于实现如权利要求1-8任一项所述的团伙挖掘方法。
CN201811102774.XA 2018-09-20 2018-09-20 团伙挖掘方法、装置、设备及存储介质 Active CN110929141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811102774.XA CN110929141B (zh) 2018-09-20 2018-09-20 团伙挖掘方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811102774.XA CN110929141B (zh) 2018-09-20 2018-09-20 团伙挖掘方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110929141A true CN110929141A (zh) 2020-03-27
CN110929141B CN110929141B (zh) 2022-11-01

Family

ID=69855565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811102774.XA Active CN110929141B (zh) 2018-09-20 2018-09-20 团伙挖掘方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110929141B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798304A (zh) * 2020-07-08 2020-10-20 中国建设银行股份有限公司 一种风险贷款确定方法、装置、电子设备及存储介质
CN112100452A (zh) * 2020-09-17 2020-12-18 京东数字科技控股股份有限公司 数据处理的方法、装置、设备及计算机可读存储介质
CN112910888A (zh) * 2021-01-29 2021-06-04 杭州迪普科技股份有限公司 非法域名注册团伙挖掘方法及装置
CN113205129A (zh) * 2021-04-28 2021-08-03 五八有限公司 一种作弊团伙识别方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246719A (zh) * 2013-04-27 2013-08-14 北京交通大学 一种基于Web的网络信息资源整合方法
US20130216982A1 (en) * 2012-02-17 2013-08-22 Good Measures, Llc Systems and methods for user-specific modulation of nutrient intake
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
CN105404890A (zh) * 2015-10-13 2016-03-16 广西师范学院 一种顾及轨迹时空语义的犯罪团伙判别方法
CN106570082A (zh) * 2016-10-19 2017-04-19 浙江工业大学 一种结合网络拓扑特征和用户行为特征的朋友关系挖掘方法
CN107294974A (zh) * 2017-06-26 2017-10-24 阿里巴巴集团控股有限公司 识别目标团伙的方法和装置
CN108509551A (zh) * 2018-03-19 2018-09-07 西北大学 一种基于Spark环境下的微博网络关键用户挖掘系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130216982A1 (en) * 2012-02-17 2013-08-22 Good Measures, Llc Systems and methods for user-specific modulation of nutrient intake
CN103246719A (zh) * 2013-04-27 2013-08-14 北京交通大学 一种基于Web的网络信息资源整合方法
CN104408149A (zh) * 2014-12-04 2015-03-11 威海北洋电气集团股份有限公司 基于社交网络分析的犯罪嫌疑人挖掘关联方法及系统
CN105404890A (zh) * 2015-10-13 2016-03-16 广西师范学院 一种顾及轨迹时空语义的犯罪团伙判别方法
CN106570082A (zh) * 2016-10-19 2017-04-19 浙江工业大学 一种结合网络拓扑特征和用户行为特征的朋友关系挖掘方法
CN107294974A (zh) * 2017-06-26 2017-10-24 阿里巴巴集团控股有限公司 识别目标团伙的方法和装置
CN108509551A (zh) * 2018-03-19 2018-09-07 西北大学 一种基于Spark环境下的微博网络关键用户挖掘系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MUHAMMAD AL-QURISHI ET AL.: "Leveraging Analysis of User Behavior to Identify Malicious Activities in Large-Scale Social Networks", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》 *
徐志明 等: ""微博用户的相似性度量及其应用"", 《计算机学报》 *
白维珊: "基于用户行为分析的作弊预警模型研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798304A (zh) * 2020-07-08 2020-10-20 中国建设银行股份有限公司 一种风险贷款确定方法、装置、电子设备及存储介质
CN112100452A (zh) * 2020-09-17 2020-12-18 京东数字科技控股股份有限公司 数据处理的方法、装置、设备及计算机可读存储介质
CN112100452B (zh) * 2020-09-17 2024-02-06 京东科技控股股份有限公司 数据处理的方法、装置、设备及计算机可读存储介质
CN112910888A (zh) * 2021-01-29 2021-06-04 杭州迪普科技股份有限公司 非法域名注册团伙挖掘方法及装置
CN113205129A (zh) * 2021-04-28 2021-08-03 五八有限公司 一种作弊团伙识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110929141B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN110929141B (zh) 团伙挖掘方法、装置、设备及存储介质
CN108108821B (zh) 模型训练方法及装置
US11128582B2 (en) Emoji recommendation method and apparatus
CN110162717B (zh) 一种推荐好友的方法和设备
CN107798027B (zh) 一种信息热度预测方法、信息推荐方法及装置
CN109523237B (zh) 基于用户偏好的众包任务推送方法及相关装置
CN104091276B (zh) 在线分析点击流数据的方法和相关装置及系统
CN111339436A (zh) 一种数据识别方法、装置、设备以及可读存储介质
CN104184763B (zh) 一种反馈信息处理方法及系统、服务设备
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN110413867B (zh) 用于内容推荐的方法及系统
WO2018000281A1 (zh) 一种基于深度神经网络的用户画像表示学习系统及方法
CN111241502B (zh) 跨设备的用户识别方法及装置、电子设备、存储介质
CN103473036B (zh) 一种输入法皮肤推送方法及系统
JP2018014765A5 (zh)
CN111031017A (zh) 一种异常业务账号识别方法、装置、服务器及存储介质
CN106339507A (zh) 流媒体消息推送方法和装置
CN109658120B (zh) 一种业务数据处理方法以及装置
CN111191115B (zh) 基于用户数据的信息推送方法及装置
WO2013170817A1 (zh) 一种移动终端及其应用分类管理方法和系统
CN110968767A (zh) 排序引擎训练方法及装置、业务卡排序方法及装置
CN113572752A (zh) 异常流量的检测方法和装置、电子设备、存储介质
CN113205129B (zh) 一种作弊团伙识别方法、装置、电子设备及存储介质
US11470032B2 (en) Method for recommending groups and related electronic device
CN108763251B (zh) 核身产品的个性化推荐方法及装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant