CN110443265A - 一种基于社团的行为检测方法和装置 - Google Patents

一种基于社团的行为检测方法和装置 Download PDF

Info

Publication number
CN110443265A
CN110443265A CN201810419220.6A CN201810419220A CN110443265A CN 110443265 A CN110443265 A CN 110443265A CN 201810419220 A CN201810419220 A CN 201810419220A CN 110443265 A CN110443265 A CN 110443265A
Authority
CN
China
Prior art keywords
corporations
user behavior
similarity
user
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810419220.6A
Other languages
English (en)
Inventor
沙爱晖
金姿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810419220.6A priority Critical patent/CN110443265A/zh
Publication of CN110443265A publication Critical patent/CN110443265A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于社团的行为检测方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取用户行为特征数据,以构建相似度矩阵;计算所述相似度矩阵中的强连通图,将相似度为预设阈值的两两用户都合并到同一个社团,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数;对所述社团内的用户行为进行评估。该实施方式能够解决现有技术中对异常事件检测不准确的问题。

Description

一种基于社团的行为检测方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于社团的行为检测方法和装置。
背景技术
目前,网上购物已经成为人们生活中的重要消费习惯,用户只能通过店铺的信誉、成交量、买家评价等信息来判断店家是否可信。这些数据会影响到用户对商家信赖度,直接决定买家是否在该店铺进行消费。这些本应是真实体现商家经营状况的数据,却出现了大量的造假行为,影响了用户的判断力,达到商家的目的。
随着风控检测方法的不断提升,刷单行为已经从传统的机器批量刷单转变为雇人虚假交易,基于规则的传统风控策略某种程度上而言就产生了一定的局限性。在现有技术中,采用了聚集策略和分类预测的方法对上述事件进行检测。其中,聚集策略是通过IP、设备号、设备指纹等聚集程度单维度或少数维度设定阈值来评估订单的有效性。分类预测是通过训练打标好的训练样本数据,在用户的基本特征以及行为特征等构成的维度上去预测用户的有效性。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
用于刷单检测的聚集策略往往覆盖率和误杀率不可兼得,不能很好的兼顾二者。另外,分类预测的前提是需要有打标好的数据集,某种程度上而言,训练的数据集决定了预测的效果,因此检测的准确性不能保证。
发明内容
有鉴于此,本发明实施例提供一种基于社团的行为检测方法和装置,能够解决现有技术中对异常事件检测不准确的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于社团的行为检测方法,包括获取用户行为特征数据,以构建相似度矩阵;计算所述相似度矩阵中的强连通图,将相似度为预设阈值的两两用户都合并到同一个社团,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数;对所述社团内的用户行为进行评估。
可选地,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数,包括:
所述相似度矩阵的信息熵公式:
其中,Cwin表示第w个社团内的相似度之和;Cwout表示第w个社团与其他社团之间的相似度之和;∑Sij表示整体社团矩阵中的相似度之和;m为相似度矩阵中社团的个数;
其中,Di,Dj表示第i,j个用户分别与其相连用户的个数,Ni∩Nj表示第i,j个用户共同行为数。
可选地,对所述社团内的用户行为进行评估,包括:
设有m个社团,M个评价维度,计算评价维度的总得分作为对社团进行评价的结果,公式如下:
其中w=1,2,……,m,Dallk表示第k个维度其剔除白名单的记录数,Dk表示第k个维度其剔除白名单后再去重所得到的记录数;h(t)为阶跃函数,公式如下:
可选地,构建相似度矩阵之前,包括:
清洗用户行为数据,以填充缺失数据和排除异常数据;
对清洗后的用户行为数据进行预处理,获得筛选后的用户行为特征数据。
可选地,还包括:
根据对所述社团内用户行为的评估,对社团内的用户行为进行实时监控。
另外,根据本发明实施例的一个方面,提供了一种基于社团的行为检测装置,包括构建模块,用于获取用户行为特征数据,以构建相似度矩阵;评估模块,用于计算所述相似度矩阵中的强连通图,将相似度为预设阈值的两两用户都合并到同一个社团,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数;对所述社团内的用户行为进行评估。
可选地,所述评估模块通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数,包括:
所述相似度矩阵的信息熵公式:
其中,Cwin表示第w个社团内的相似度之和;Cwout表示第w个社团与其他社团之间的相似度之和;∑Sij表示整体社团矩阵中的相似度之和;m为相似度矩阵中社团的个数;
其中,Di,Dj表示第i,j个用户分别与其相连用户的个数,Ni∩Nj表示第i,j个用户共同行为数。
可选地,所述评估模块对所述社团内的用户行为进行评估,包括:
设有m个社团,M个评价维度,计算评价维度的总得分作为对社团进行评价的结果,公式如下:
其中w=1,2,……,m,Dallk表示第k个维度其剔除白名单的记录数,Dk表示第k个维度其剔除白名单后再去重所得到的记录数;h(t)为阶跃函数,公式如下:
可选地,所述构建模块构建相似度矩阵之前,包括:
清洗用户行为数据,以填充缺失数据和排除异常数据;
对清洗后的用户行为数据进行预处理,获得筛选后的用户行为特征数据。
可选地,所述评估模块,还用于:
根据对所述社团内用户行为的评估,对社团内的用户行为进行实时监控。
根据本发明实施例的另一个方面,还提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一基于社团的行为检测实施例所述的方法。
根据本发明实施例的另一个方面,还提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一基于社团的行为检测实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:本发明利用用户的行为特征构建用户间的相似度矩阵,发掘网络中的用户团体,利于用户画像。同时,提出一种新的模块化函数,通过迭代计算模块化函数值,使得社团划分达到最优,且能够避免常规聚类算法。通过对社团作弊程度的评分,可以针对不同的业务需要分级进行应用,以满足业务方的需求。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的基于社团的行为检测方法的主要流程的示意图;
图2是根据本发明可参考实施例的基于社团的行为检测方法的主要流程的示意图;
图3是根据本发明实施例的基于社团的行为检测装置的主要模块的示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的基于社团的行为检测方法,如图1所示,所述基于社团的行为检测方法包括:
步骤S101,获取用户行为特征数据,以构建相似度矩阵。
较佳地,在获取用户行为特征数据之后,可以清洗用户行为数据,以填充缺失数据和排除异常数据。当然,还可以对清洗后的用户行为数据进行预处理,获得筛选后的用户行为特征数据,以使用于构建相似度矩阵的用户行为特征数据更为准确。
步骤S102,根据所述相似度矩阵进行社团划分,以对所述社团内的用户行为进行评估。
其中,所述的社团(社团为Community,复杂网络分析中的属性)反映的是网络中的个体行为的局部性特征以及其相互之间的关联关系,研究网络中的社团对理解整个网络的结构和功能起到至关重要的作用,并且可分析及预测整个网络各元素件的交互关系。而网络中的社团结构是指网络中的顶点可以分成社团,社团内顶点间的连接比较稠密,社团间顶点的连接比较稀疏。而Community Detection社团发现算法就是区分出社交网络等关系网络中的连接比较紧密的组或群体。
在实施例中,根据所述相似度矩阵进行社团划分的具体实施过程包括:
计算所述相似度矩阵中的强连通图,以将相似度为预设阈值的两两用户都合并到同一个社团。然后,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数。优选地,计算所述相似度矩阵中的强连通图,以将相似度为1的两两用户都合并到同一个社团。
进一步地,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数,包括:
所述相似度矩阵的信息熵公式:
其中,Cwin表示第w个社团内的相似度之和;Cwout表示第w个社团与其他社团之间的相似度之和;∑Sij表示整体社团矩阵中的相似度之和;m为相似度矩阵中社团的个数;
其中,Di,Dj表示第i,j个用户分别与其相连用户的个数,Ni∩Nj表示第i,j个用户共同行为数。
在另一个实施例中,评估所述社团内用户行为的具体实施过程包括:
设有m个社团,M个评价维度,计算评价维度的总得分作为对社团进行评价的结果,公式如下:
其中w=1,2,……,m,Dallk表示第k个维度其剔除白名单的记录数,Dk表示第k个维度其剔除白名单后再去重所得到的记录数;h(t)为阶跃函数,公式如下:
还值得说明的是,在对所述社团内用户行为评估完之后,可以对社团内的用户行为进行实时监控,可以控制类似黄牛囤货,秒杀刷单等情况的发生。
根据上面的各种实施例,可以看出所述的基于社团的行为检测方法,可以利用用户的在网站行为特征构建用户间的相似度矩阵,发掘网络中的用户团体,利于用户画像。同时,提出一种新的模块化函数,通过迭代计算模块化函数值,使得社团划分达到最优,且能够避免常规聚类算法。通过对社团作弊程度的评分,可以针对不同的业务需要分级进行应用,以满足业务方的需求。通过计算社团内用户的特征唯一性得分来评价社团的作弊严重程度,当然也可以利用于刷单外的其他场景。另外,传统的规则方法属于硬划分,某种程度上不可避免会带来误杀,同时本方法属于软划分,某种程度上能降低误杀率。
图2是根据本发明可参考实施例的基于社团的行为检测方法的主要流程的示意图,所述基于社团的行为检测方法可以包括:
步骤S201,采集用户行为特征数据。
其中,用户行为特征数据采集主要是通过埋点采集用户行为的相关信息,可以包括:用户注册特征数据、浏览特征数据、下单特征数据等等。较佳地,用户自打开网站之后的整个行为都会被日志记录下来,在某些关键位置(注册,领券,下单等)上报用户访问接口时的相关数据。
步骤S202,清洗所述用户行为特征数据。
在实施例中,对用户行为特征数据的清洗主要是对缺失数据的填充,同时排除显著异常的数据。其中,所述显著异常的数据是指有违常规的数据,例如用户在网站的停留时长为负数的情况。
较佳地,在对缺失数据进行填充时,缺失值根据情况被填补为0或中位数,例如用户在网页的PV(PV是网站分析的一个术语,用以衡量网站用户访问的网页的数量)若为空,则可设置为0。
另外,还值得说明的是,由于用户访问行为的方式不尽相同以及网络等某些原因会造成用户数据缺失或数据漏报等情况发生,对于此类情况,还可以采用缺失占比来评价,当缺失占比大于预设的阈值时则可以直接丢弃该维度。其中,所述的缺失占比是指该维度缺失的数据占到总数据的比例。
步骤S203,对清洗后的用户行为特征数据进行预处理,以获得有价值的用户行为特征数据。
在实施例中,主要是对收集的数据进行特征筛选,筛选出有价值的特征数据,该部分需要考虑到各维度的区分度以及维度间的相关性(特征筛选)。
较佳地,预处理时采用计算维度信息熵的方法,剔除太过于分散或集中的维度(比如访问了首页,因为绝大多数用户的入口网站首页)。
作为具体的实施例:将原始数据进行处理,假设现有处理后的数据:{a1,a2,…,a13},共有13个用户,其中(a1,a2,a3,a4)四个用户当天登录时的设备都是A,(a5,a6,a7,a8)四个用户当天登录时的设备都是B,(a9,a10,a11,a12)当天登录时的设备都是C,a13当天登录时的设备都是D。另有下单IP信息:(a1,a2,a3,a4)四个用户当天下单IP都是IP1,(a5,a6,a7)三个用户当天下单IP都是IP2,(a8,a9)两个用户当天下单IP都是IP3,(a10,a11,a12)三个用户当天下单IP都是IP4,a13当天下单IP都是IP5。另外a1,a2,a3,a4,a5,a6,a7,a8用户没有浏览记录,a9,a10,a11,a12,a13都有浏览记录。
步骤S204,根据用户行为特征数据,构建相似度矩阵。
作为实施例,设有n个用户,取用户的N个行为特征(所述行为特征可以包括:注册,浏览,下单,搜索等),计算用户之间的行为相似度:
其中,Di,Dj表示第i,j个用户分别与其相连用户的个数,Ni∩Nj表示第i,j个用户共同行为数。至此即可将用户之间的相似度构建好了,同时此矩阵是稀疏矩阵。
值得说明的是,所述的相连用户指的是用户在某种行为上的一致即为在该行为上相连。而所述的共同行为指用户在某个时间节点的行为类似(例如访问了某个商品,点击了某个页面)。
作为一个具体的举例说明:根据步骤S203举出的实例,在步骤S204可以获得如下相似度矩阵:
步骤S205,计算出矩阵中的强连通图,以将相似度为预设阈值的两两用户都合并到同一个社团。
在实施例中,为了简化计算且降低算法复杂度,在合并之前计算矩阵中的强连通图。其中,强连通图本身就具有很强的属性,社团划分标准中强连通图中的用户属于一个社团的概率极大。优选地,在获得的强连通图中将相似度值为1的所对应的用户都合并为一个社团。
例如:A用户和B、C用户都在某网站买了同一个商品,并且访问了某几个页面(比如排除首页,购买的商品的详情页等),并且使用了共同的IP地址,收货地址等一切在网站的行为路径,则认为该几个用户属于同一个社团。
因此,步骤S205可以使整个矩阵中形成一些独立的社团,从而提高本实施过程的计算效率。
作为一个具体的举例说明,根据步骤S204获得的相似度矩阵,通过对强连通图的合并,得到分组:(a1,a2,a3,a4),(a5,a6,a7),(a10,a11,a12),a8,a9,a13。一共6个小的社团,接下来通过依次合并社团计算H值(独立节点不需要合并,例如节点a13),取最大值时的社团划分结果。
步骤S206,计算所述相似度矩阵的信息熵。
其中,信息熵表示信息所包含的信息量。较佳地,通过迭代计算所述相似度矩阵的信息熵来选择最优的社团个数。
所述相似度矩阵的信息熵公式:
其中
其中,Cwin表示第w个社团内的相似度之和。Cwout表示第w个社团与其他社团之间的相似度之和。∑Sij表示整体社团矩阵中的相似度之和。m为相似度矩阵中社团的个数。
值得说明的是,Cwout的获得可以通过如下过程:
计算第w个社团的总相似度值,以及计算其他社团中用户与第w个社团中用户具有的相似度值。然后求上述两者之和。
另外,在计算所述相似度矩阵的信息熵的过程中每次合并的前提为Cwin>Cwout。取熵值取得最大时所对应的社团划分结果即获得最优的社团个数。
作为一个具体的举例说明,可以根据公式
分别计算各种可能性情况下的社团情况:
(1)初始社团的熵值:(a1,a2,a3,a4),(a5,a6,a7),(a10,a11,a12),a8,a9,a13时的H值为:0.82。
(2)由于a8,a9情况一致,计算a8情况,a9同理。将a8归属到(a5,a6,a7),此时社团分割为:(a1,a2,a3,a4)、(a5,a6,a7,a8)、(a10,a11,a12)、a9、a13共五个社团,此时的H值为:0.94。
(3)将a8,a9分别归属到(a5,a6,a7)和(a10,a11,a12),此时社团分割为:(a1,a2,a3,a4)、(a5,a6,a7,a8)、(a9,a10,a11,a12)、a13共四个社团,此时的H值为:1.07。
(4)a13为独立节点,与其余三个社团没有任何相似度节点,至此运算结束。
步骤S207,根据预设的阈值,在所述社团划分结果中获取符合条件的社团。
在实施例中,通过步骤S206获得的社团划分结果中具有多个大小不同的社团,设定阈值取出符合条件的某些社团,再选用具体的场景进行应用。
其中,所述的符合条件:某种程度上可能会出现单个节点或少数几个节点的社团,很有可能是一个家庭成员的结果,这里设定阈值为了避免这种情况。
作为一个具体的举例说明,通过步骤S206的计算,可以发现,当分为4个社团时的H值最大,故取此时的划分结果。
步骤S208,对获取的符合条件的社团进行评价。
在实施例中,通过唯一性原则,对获取的符合条件的社团进行评价。进一步地,唯一性原则其原理是:对于正常用户而言,其行为具有多样性,而异常用户而言则总存在一些共同特征(例如多个用户在同一维度上具有同一行为)。
其中,所述的维度可以为社团用户在IP维度、注册时间等等维度。而在选用IP维度进行判定时需要剔除IP白名单,所述IP白名单是指白名单中的用户会优先处理。另外,所述的IP维度可以是指下单IP、登录IP、注册IP等等访问IP值的行为。
值得说明的是,在通过判断社团的作弊程度时选择的用户维度要与计算相似度时所选择的用户维度即行为特征不同。
在一个较佳地实施例中,设有m个社团,M个评价维度,计算维度的总得分作为对社团进行评价的结果,公式如下:
其中w=1,2,……,m,Dallk表示第k个维度其剔除白名单的记录数,Dk表示第k个维度其剔除白名单后再去重所得到的记录数;h(t)为阶跃函数,公式如下:
这样既可计算出社团在这些维度上的累积唯一性情况,得分越高社团的作弊的可能性越低。至此,各个社团有了不同的风险评分。
作为一个具体的举例说明,由于社团划分结果中的同一社团的用户不一定就是有问题的用户,此时需要对社团进行评判,
该公式用于计算各社团是否是作弊社团,对该四个社团分别计算该值,计算结果分别为:
(a1,a2,a3,a4)这个社团的得分为4/13*4+5/13*4=36/13;
(a5,a6,a7,a8)这个社团的得分为4/13*4+5/13*3=31/13;
(a9,a10,a11,a12)这个社团的得分为0,此时这种原因需要核查,可能是IP为公共出口等原因;
a13为独立节点,得分为0,(在真实数据中,这种量应该会大量存在,占比超过整体的50%)。至此,可以简单把得分大于0的社团认为是作弊团体(具体阈值得根据业务情况来定)。
步骤S209,根据社团的评价结果,对社团内的用户进行实时监控。
在实施例中,将数据的评价结果推送到实时系统,实时监控同一个社团内用户的联动性,可以控制类似黄牛囤货,秒杀刷单等情况的发生。
作为具体的实施例,根据步骤S208中具体实施例的计算结果,可以看出(a1,a2,a3,a4)以及(a5,a6,a7,a8)属于作弊团体的可能性(得分较高)较其余社团要高,而(a1,a2,a3,a4)比(a5,a6,a7,a8)又更高,一方面业务方使用时可以分风险级别来用于业务,保障业务的正常运行,另一方面由于社团内的账号往往有联动性,当社团内某个账号有某行为的时候可以观察限制其余关联账号,以便及时作出反应。
图3是根据本发明实施例的基于社团的行为检测装置,如图3所示,所述基于社团的行为检测装置300包括构建模块301和评估模块302。其中,构建模块301获取用户行为特征数据,以构建相似度矩阵。然后评估模块302根据所述相似度矩阵进行社团划分,以评估所述社团内用户行为。
进一步地,构建模块301在获取用户行为特征数据之后,可以清洗用户行为数据,以填充缺失数据和排除异常数据。当然,还可以对清洗后的用户行为数据进行预处理,获得筛选后的用户行为特征数据,以使用于构建相似度矩阵的用户行为特征数据更为准确。
作为一个较佳地的实施例,评估模块302根据所述相似度矩阵进行社团划分的具体实施过程包括:
计算所述相似度矩阵中的强连通图,以将相似度为预设阈值的两两用户都合并到同一个社团。然后,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数。
进一步地,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数,包括:
所述相似度矩阵的信息熵公式:
其中,Cwin表示第w个社团内的相似度之和;Cwout表示第w个社团与其他社团之间的相似度之和;∑Sij表示整体社团矩阵中的相似度之和;m为相似度矩阵中社团的个数;
其中,Di,Dj表示第i,j个用户分别与其相连用户的个数,Ni∩Nj表示第i,j个用户共同行为数。
在另一个实施例中,评估所述社团内用户行为的具体实施过程包括:
设有m个社团,M个评价维度,计算评价维度的总得分作为对社团进行评价的结果,公式如下:
其中w=1,2,……,m,Dallk表示第k个维度其剔除白名单的记录数,Dk表示第k个维度其剔除白名单后再去重所得到的记录数;h(t)为阶跃函数,公式如下:
还值得说明的是,评估模块302在对所述社团内用户行为评估完之后,可以对社团内的用户行为进行实时监控,可以控制类似黄牛囤货,秒杀刷单等情况的发生。
需要说明的是,在本发明所述基于社团的行为检测装置的具体实施内容,在上面所述基于社团的行为检测方法中已经详细说明了,故在此重复内容不再说明。
图4示出了可以应用本发明实施例的基于社团的行为检测方法或基于社团的行为检测装置的示例性系统架构400。或者图4示出了可以应用本发明实施例的基于社团的行为检测方法或基于社团的行为检测装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的基于社团的行为检测方法一般由服务器405执行,相应地,基于社团的行为检测装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本发明实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括构建模块和评估模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取用户行为特征数据,以构建相似度矩阵;计算所述相似度矩阵中的强连通图,将相似度为1的两两用户都合并到同一个社团,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数;对所述社团内的用户行为进行评估。根据本发明实施例的技术方案,能够解决现有技术中对异常事件检测不准确的问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (12)

1.一种基于社团的行为检测方法,其特征在于,包括:
获取用户行为特征数据,以构建相似度矩阵;
计算所述相似度矩阵中的强连通图,将相似度为预设阈值的两两用户都合并到同一个社团,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数;
对所述社团内的用户行为进行评估。
2.根据权利要求1所述的方法,其特征在于,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数,包括:
所述相似度矩阵的信息熵公式:
其中,Cwin表示第w个社团内的相似度之和;Cwout表示第w个社团与其他社团之间的相似度之和;∑Sij表示整体社团矩阵中的相似度之和;m为相似度矩阵中社团的个数;
其中,Di,Dj表示第i,j个用户分别与其相连用户的个数,Ni∩Nj表示第i,j个用户共同行为数。
3.根据权利要求1所述的方法,其特征在于,对所述社团内的用户行为进行评估,包括:
设有m个社团,M个评价维度,计算评价维度的总得分作为对社团进行评价的结果,公式如下:
其中w=1,2,……,m,Dallk表示第k个维度其剔除白名单的记录数,Dk表示第k个维度其剔除白名单后再去重所得到的记录数;h(t)为阶跃函数,公式如下:
4.根据权利要求1所述的方法,其特征在于,构建相似度矩阵之前,包括:
清洗用户行为数据,以填充缺失数据和排除异常数据;
对清洗后的用户行为数据进行预处理,获得筛选后的用户行为特征数据。
5.根据权利要求1所述的方法,其特征在于,还包括:
根据对所述社团内用户行为的评估,对社团内的用户行为进行实时监控。
6.一种基于社团的行为检测装置,其特征在于,包括:
构建模块,用于获取用户行为特征数据,以构建相似度矩阵;
评估模块,用于计算所述相似度矩阵中的强连通图,将相似度为预设阈值的两两用户都合并到同一个社团,通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数;对所述社团内的用户行为进行评估。
7.根据权利要求6所述的装置,其特征在于,所述评估模块通过迭代计算所述相似度矩阵的信息熵以获得最终的社团个数,包括:
所述相似度矩阵的信息熵公式:
其中,Cwin表示第w个社团内的相似度之和;Cwout表示第w个社团与其他社团之间的相似度之和;∑Sij表示整体社团矩阵中的相似度之和;m为相似度矩阵中社团的个数;
其中,Di,Dj表示第i,j个用户分别与其相连用户的个数,Ni∩Nj表示第i,j个用户共同行为数。
8.根据权利要求6所述的装置,其特征在于,所述评估模块对所述社团内的用户行为进行评估,包括:
设有m个社团,M个评价维度,计算评价维度的总得分作为对社团进行评价的结果,公式如下:
其中w=1,2,……,m,Dallk表示第k个维度其剔除白名单的记录数,Dk表示第k个维度其剔除白名单后再去重所得到的记录数;h(t)为阶跃函数,公式如下:
9.根据权利要求6所述的装置,其特征在于,所述构建模块构建相似度矩阵之前,包括:
清洗用户行为数据,以填充缺失数据和排除异常数据;
对清洗后的用户行为数据进行预处理,获得筛选后的用户行为特征数据。
10.根据权利要求6所述的装置,其特征在于,所述评估模块,还用于:
根据对所述社团内用户行为的评估,对社团内的用户行为进行实时监控。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201810419220.6A 2018-05-04 2018-05-04 一种基于社团的行为检测方法和装置 Pending CN110443265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810419220.6A CN110443265A (zh) 2018-05-04 2018-05-04 一种基于社团的行为检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810419220.6A CN110443265A (zh) 2018-05-04 2018-05-04 一种基于社团的行为检测方法和装置

Publications (1)

Publication Number Publication Date
CN110443265A true CN110443265A (zh) 2019-11-12

Family

ID=68427037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810419220.6A Pending CN110443265A (zh) 2018-05-04 2018-05-04 一种基于社团的行为检测方法和装置

Country Status (1)

Country Link
CN (1) CN110443265A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992059A (zh) * 2019-11-22 2020-04-10 浙江招天下招投标交易平台有限公司 一种基于大数据的围串标行为识别分析方法
CN111047453A (zh) * 2019-12-04 2020-04-21 兰州交通大学 基于高阶张量分解大规模社交网络社区的检测方法及装置
CN111666501A (zh) * 2020-06-30 2020-09-15 腾讯科技(深圳)有限公司 异常社团识别方法、装置、计算机设备和存储介质
CN113837879A (zh) * 2021-09-14 2021-12-24 上证所信息网络有限公司 一种指数行情的异常检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838803A (zh) * 2013-04-28 2014-06-04 电子科技大学 一种基于节点Jaccard相似度的社交网络社团发现方法
CN104102745A (zh) * 2014-07-31 2014-10-15 上海交通大学 基于局部最小边的复杂网络社团挖掘方法
CN106127595A (zh) * 2016-07-18 2016-11-16 安徽大学 一种基于正负边信息的社团结构检测方法
CN106570082A (zh) * 2016-10-19 2017-04-19 浙江工业大学 一种结合网络拓扑特征和用户行为特征的朋友关系挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838803A (zh) * 2013-04-28 2014-06-04 电子科技大学 一种基于节点Jaccard相似度的社交网络社团发现方法
CN104102745A (zh) * 2014-07-31 2014-10-15 上海交通大学 基于局部最小边的复杂网络社团挖掘方法
CN106127595A (zh) * 2016-07-18 2016-11-16 安徽大学 一种基于正负边信息的社团结构检测方法
CN106570082A (zh) * 2016-10-19 2017-04-19 浙江工业大学 一种结合网络拓扑特征和用户行为特征的朋友关系挖掘方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992059A (zh) * 2019-11-22 2020-04-10 浙江招天下招投标交易平台有限公司 一种基于大数据的围串标行为识别分析方法
CN110992059B (zh) * 2019-11-22 2023-08-29 浙江招天下招投标交易平台有限公司 一种基于大数据的围串标行为识别分析方法
CN111047453A (zh) * 2019-12-04 2020-04-21 兰州交通大学 基于高阶张量分解大规模社交网络社区的检测方法及装置
CN111666501A (zh) * 2020-06-30 2020-09-15 腾讯科技(深圳)有限公司 异常社团识别方法、装置、计算机设备和存储介质
CN111666501B (zh) * 2020-06-30 2024-04-12 腾讯科技(深圳)有限公司 异常社团识别方法、装置、计算机设备和存储介质
CN113837879A (zh) * 2021-09-14 2021-12-24 上证所信息网络有限公司 一种指数行情的异常检测方法
CN113837879B (zh) * 2021-09-14 2023-12-19 上证所信息网络有限公司 一种指数行情的异常检测方法

Similar Documents

Publication Publication Date Title
Yang et al. Friend or frenemy? Predicting signed ties in social networks
Nettleton Data mining of social networks represented as graphs
US20210042767A1 (en) Digital content prioritization to accelerate hyper-targeting
CN110443265A (zh) 一种基于社团的行为检测方法和装置
CN106027577A (zh) 一种异常访问行为检测方法及装置
CN110490625A (zh) 用户偏好确定方法及装置、电子设备、存储介质
CN109636430A (zh) 对象识别方法及其系统
CN110363427A (zh) 模型质量评估方法和装置
CN104077723A (zh) 一种社交网络推荐系统及方法
WO2018200295A1 (en) Chat conversation based on knowledge base specific to object
Khan Graph analysis of the ethereum blockchain data: A survey of datasets, methods, and future work
CN108932625A (zh) 用户行为数据的分析方法、装置、介质和电子设备
CN109711733A (zh) 用于生成聚类模型的方法、电子设备和计算机可读介质
CN110399479A (zh) 搜索数据处理方法、装置、电子设备及计算机可读介质
CN111127099A (zh) 一种基于大数据的电商用户分析系统及其分析方法
Liu et al. Extracting, ranking, and evaluating quality features of web services through user review sentiment analysis
CN111340601A (zh) 商品信息的推荐方法和装置、电子设备和存储介质
Li et al. Predicting best-selling new products in a major promotion campaign through graph convolutional networks
CN110347923A (zh) 一种可回溯的快速裂变式构建用户画像的方法
CN109858756A (zh) 一种服务质量缺陷诊断方法和装置
Prakash et al. A machine learning approach-based power theft detection using GRF optimization
CN118071400A (zh) 基于图计算技术在信息消费领域的应用方法及系统
CN104751234B (zh) 一种用户资产的预测方法及装置
CN110197316A (zh) 运营数据的处理方法、装置、计算机可读介质及电子设备
TW201234204A (en) Opportunity identification for search engine optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination