CN106161127A - 用户类别检测方法和装置 - Google Patents
用户类别检测方法和装置 Download PDFInfo
- Publication number
- CN106161127A CN106161127A CN201510164514.5A CN201510164514A CN106161127A CN 106161127 A CN106161127 A CN 106161127A CN 201510164514 A CN201510164514 A CN 201510164514A CN 106161127 A CN106161127 A CN 106161127A
- Authority
- CN
- China
- Prior art keywords
- group identification
- user account
- group
- set categories
- belonging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明涉及一种用户类别检测方法和装置,所述方法包括:获取属于预设类别的群组标识集合;从所述群组标识集合中查找待检测的用户账号所加入群组的群组标识;统计查找到的群组标识的数量,和/或,计算所述待检测的用户账号对应于查找到的群组标识的活跃度;当查找到的群组标识的数量超过第一预设数量和/或所述活跃度超过活跃度阈值时,将所述待检测的用户账号加入属于所述预设类别的用户账号库中。本发明提供的用户类别检测方法和装置,利用了同一类别的用户本身所具备的聚集性来检测用户是否属于预设类别,利用目前已有的手段难以避开,将该方法应用于黑色产业人员检测时可以有效地检测出黑色产业人员。
Description
技术领域
本发明涉及网络技术领域,特别是涉及一种用户类别检测方法和装置。
背景技术
互联网技术的发展,给人们之间的沟通交流带来了极大的便利,但与此同时,也给一些恶意用户从事非法活动提供了便利条件。目前将恶意用户从事破坏活动的集合称为黑色产业,简称黑产,而从事黑色产业的人员则称为黑色产业人员。黑色产业包括故意制作与传播计算机病毒、倒卖公民个人信息、架设钓鱼网站、电话诈骗以及短信诈骗等。
目前考虑到黑色产业人员需要通过互联网来传播黑色产业技术,并拓展自己的业务,因此可以通过查找关键词的方式来检测黑色产业人员。但这种方式检测黑色产业人员的准确率主要依赖于关键词是否准确以及关键词覆盖是否全面,黑色产业人员可以通过改换名称这样简单的方式就可以轻易避开关键词检测。因此,目前通过查找关键词的方式来检测黑色产业人员的方式并不能够有效地检测出黑色产业人员。
发明内容
基于此,有必要针对目前通过查找关键词的方式来检测黑色产业人员的方式并不能够有效地检测出黑色产业人员的问题,提供一种用户类别检测方法和装置。
一种用户类别检测方法,所述方法包括:
获取属于预设类别的群组标识集合;
从所述群组标识集合中查找待检测的用户账号所加入群组的群组标识;
统计查找到的群组标识的数量,和/或,计算所述待检测的用户账号对应于查找到的群组标识的活跃度;
当查找到的群组标识的数量超过第一预设数量和/或所述活跃度超过活跃度阈值时,将所述待检测的用户账号加入属于所述预设类别的用户账号库中。
一种用户类别检测装置,所述装置包括:
群组标识集合获取模块,用于获取属于预设类别的群组标识集合;
群组标识查找模块,用于从所述群组标识集合中查找待检测的用户账号所加入群组的群组标识;
群组标识处理模块,用于统计查找到的群组标识的数量,和/或,计算所述待检测的用户账号对应于查找到的群组标识的活跃度;
判别模块,用于当查找到的群组标识的数量超过第一预设数量和/或所述活跃度超过活跃度阈值时,将所述待检测的用户账号加入属于所述预设类别的用户账号库中。
上述用户类别检测方法和装置,利用了社交网络中可以体现用户共性的群组,获取已知属于预设类别的群组标识集合。通过统计待检测的用户账号所加入群组的群组标识的数量和/或计算待检测的用户账号对应于查找到的群组标识的活跃度,从而在统计的数量较多和/或计算的活跃度较高时,便可以认定待检测的用户账号也属于预设类别,将待检测的用户账号加入对应预设类别的用户账号库中,就可以利用该用户账号库来管理属于同一预设类别的用户。这样利用了同一类别的用户本身所具备的聚集性来检测用户是否属于预设类别,利用目前已有的手段难以避开,将该方法应用于黑色产业人员检测时可以有效地检测出黑色产业人员。
附图说明
图1为一个实施例中电子设备的结构示意图;
图2为一个实施例中用户类别检测方法的流程示意图;
图3为一个实施例中计算待检测的用户账号对应于查找到的群组标识的活跃度的步骤的流程示意图;
图4为一个实施例中获取属于预设类别的群组标识集合的步骤的流程示意图;
图5为一个具体应用场景中实现用户类别检测方法的流程示意图;
图6为一个实施例中用户类别检测装置的结构框图;
图7为一个实施例中图6中的群组标识集合获取模块的结构框图;
图8为一个实施例中图6中的群组标识处理模块的结构框图;
图9为另一个实施例中用户类别检测装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
发明人发现黑色产业人员需要通过互联网来摸索任何可能存在的漏洞,并加以利用以获取利益。同时黑色产业人员会通过网络来寻找自己的同类,一方面是为了从其它黑色产业人员那里学习最新的作恶手法和作恶途径;另一方面也是为了拓展自己的业务,拉取更多的人进入到黑色产业这个地下行业中。于是黑色产业人员需要利用各种社交网络的群组聚集到一起,本发明考虑到这一点,将社交网络中的群组应用到用户类别检测中。
如图1所示,在一个实施例中,提供了一种电子设备,该电子设备包括通过系统总线连接的处理器、内存储器、非易失性存储介质和网络接口。其中,该电子设备的非易失性存储介质存储有操作系统、数据库和一种用户类别检测装置,该用户类别检测装置用于实现一种用户类别检测方法。该电子设备的处理器用于提供计算和控制能力,被配置为执行一种用户类别检测方法。该电子设备可以是一个独立的设备,或者可以是多个可互联通信的电子设备组成的电子设备群,用户类别检测装置的各个功能模块可分别分布在电子设备群中的各个电子设备上。该电子设备可以是台式计算机或者服务器。
如图2所示,在一个实施例中,提供了一种用户类别检测方法,本实施以该方法应用于上述图1中的电子设备来举例说明。该方法具体包括如下步骤:
步骤202,获取属于预设类别的群组标识集合。
预设类别是预先设定的某一用户类别,用于标识出具有共同属性的用户集合。该用户类别检测方法,用于判断用户是否属于该预设类别。在一个实施例中,预设类别为黑色产业类别,这种情况下该用户类别检测方法应用于黑色产业人员检测,可检测出从事同类型的黑色产业的黑色产业人员。在其他实施例中,预设类别还可以是具有共同兴趣的类别,比如摄影爱好者、计算机技术爱好者、游戏玩家等。
群组是可表示多用户之间通信关系的数据对象,群组中的各个用户账号所对应的终端之间可以进行一对多、多对一以及多对多之间的通信。可利用群组标识将多个用户账号联系起来而用来表示群组,群组中的任意一个用户账号所对应的终端能够与该群组中的其它用户账号所对应的终端通信,从而可以实现多方通信。群组包括但不限于即时通信群组、基于社交网络的群组、多人语音通信组、多人视频通信组、基于已有的群组而建立的讨论组、多人会话组等。群组标识是指唯一标识出相应的群组的字符串,可以包括数字、字母或者指定符号中的至少一种,群组标识也可以称为群号或者分组号。
用户账号属于预设类别,是指该用户账号所对应的用户属于该预设类别。群组标识属于预设类别,则是指该群组标识所表示的群组中的全部或者部分成员属于预设类别。群组标识集合属于预设类别,则是指群组标识集合中的所有群组标识属于预设类别。群组标识集合用来检测其它用户或者群组是否属于预设类别。
步骤204,从群组标识集合中查找待检测的用户账号所加入群组的群组标识。
待检测的用户账号是指需要检测其是否属于预设类别的用户账号。用户账号是指能够唯一标识出用户身份的字符串,可以包括数字、字母或者指定符号中的至少一种。
具体地,在一个实施例中,可以遍历待检测的用户账号所加入所有群组的群组标识,逐个与群组标识集合中的群组标识比对,将经过比对判定一致的群组标识作为查找到的群组标识。
或者在另一个实施例中,可以遍历群组标识集合中的群组标识,逐个判断是否为待检测的用户账号所加入群组的群组标识,将判断为是的群组标识作为查找到的群组标识。
其中,一个用户账号加入某一群组,是指该用户账号所对应的用户具有在该群组内通信的权限,该用户账号和该群组的群组标识具有关联。第一用户终端可以向社交服务器发起携带有自身登录所用的用户账号和待加入的群组的群组标识的加入群组请求,使得社交服务器向该群组标识所对应的群组管理员账号所登录的第二用户终端发送该加入群组请求,社交服务器接收到第二用户终端响应于加入群组请求的确认反馈后,建立加入群组请求中的用户账号和群组标识的关联,这样第一用户就实现了加入群组的操作。
步骤206,统计查找到的群组标识的数量,和/或,计算待检测的用户账号对应于查找到的群组标识的活跃度。
具体地,可以只统计查找到的群组标识的数量,或者可以只计算待检测的用户账号对应于查找到的群组标识的活跃度,或者可以统计查找到的群组标识的数量的同时也计算待检测的用户账号对应于查找到的群组标识的活跃度,具体根据步骤208中所需要的数据来选择。
活跃度是指表示用户在一个群组中的活跃程度的量化数值,比如若采用百分制,则可以用0到100的数值来表示活跃度,数值越大表示活跃度越高。
如图3所示,在一个实施例中,计算待检测的用户账号对应于查找到的群组标识的活跃度的步骤,具体包括以下步骤:
步骤302,获取待检测的用户账号对应于查找到的群组标识的发言数量、发言频率以及发言数量占相应群组标识所对应的发言总量的比重中的至少一种。
具体地,对于待检测的用户账号所对应的查找到的群组标识,可以统计自相应的群组建立以来该待检测的用户账号所有的发言数量、发言频率以及发言数量占发言总量的比重,也可以统计自固定期限开始该待检测的用户账号所有的发言数量、发言频率以及发言数量占发言总量的比重,还可以统计固定时间范围内该待检测的用户账号所有的发言数量、发言频率以及发言数量占发言总量的比重。
其中,发言数量是指该用户账号所对应的用户在该群组中发送消息的次数,发言频率是指该用户的发言数量与相应的统计时间段的比值,发言数量占发言总量的比重是指该用户在该群组中发送消息的次数与该群组中所有用户发送消息的次数的比值。
步骤304,根据获取的发言数量、发言频率和发言数量占相应群组标识所对应的发言总量的比重中的至少一种计算待检测的用户账号对应于查找到的群组标识的活跃度。
具体地,可以仅将发言数量或者发言频率或者发言数量占发言总量的比重作为待检测的用户账号对应于查找到的群组标识的活跃度,当然也可以将发言数量、发言频率和发言数量占发言总量的比重中的任意一个加上或减去或乘以或除以预设常量后作为待检测的用户账号对应于查找到的群组标识的活跃度。
在一个实施例中,可以计算发言数量、发言频率和发言数量占发言总量的比重中的至少两项的和、平均值、加权和或者加权平均值,以作为待检测的用户账号对应于查找到的群组标识的活跃度。
在一个实施例中,还可以对发言数量、发言频率和发言数量占发言总量的比重中的至少两项进行归一化处理后,计算和、平均值、加权和或者加权平均值,以作为待检测的用户账号对应于查找到的群组标识的活跃度。对多个数据做归一化处理,可以用每个数据减去该多个数据中的最小值后再除以该多个数据中最大值和最小值的差,也可以用每个数据减去该多个数据的平均值后再除以该多个数据的标准差。
步骤208,当查找到的群组标识的数量超过第一预设数量和/或活跃度超过活跃度阈值时,将待检测的用户账号加入属于预设类别的用户账号库中。
具体地,若查找到的群组标识的数量超过第一预设数量,说明待检测的用户账号加入了多个属于预设类别的群组,这种情况下可以判定该用户账号属于预设类别。第一预设数量可大于等于2,优选可取值3~10。第一预设数量设置的较大可以避免误检,设置的较小可以避免漏检,可以根据需要设置。以预设类别为黑色产业类别为例,若待检测的用户账号加入了多个属于黑色产业类别的群组,则可以认为该用户账号所对应的用户为黑色产业人员。
若待检测的用户账号对应于查找到的群组标识的活跃度超过活跃度阈值,说明待检测的用户账号在属于预设类别的群组中非常活跃,这种情况下也可以判定该用户账号属于预设类别。活跃度阈值取决于活跃度的计算方式,可在活跃度最高值与最低值的差的20%~100%范围内取值,为了避免误检可以在活跃度最高值与最低值的差的50%~100%范围内取值。
在一个实施例中,若查找到的群组标识的数量超过第一预设数量,同时待检测的用户账号对应于每个查找到的群组标识的活跃度超过活跃度阈值,说明该用户账号活跃在多个属于预设类别的群组中,属于预设类别的可能性非常大,这种情况下误检和漏检的情况都很小。
在判定用户账号属于预设类别时,将待检测的用户账号加入属于预设类别的用户账号库中,该用户账号库可以用来监控属于预设类别的用户,尤其是当预设类别是黑色产业类别时。
具体来说,恶意用户使用的用户账号在黑色产业中会有一定的生命周期,有些黑色产业人员加入黑色产业后,接触过一段时间便不再从事这类黑色产业,或者找到其它更赚钱的方式,但是往往该用户账号仍然会停留在黑色产业群组中,因此黑色产业群组中的用户账号有多大程度在从事这类黑色产业,需要通过该用户账号在黑色产业群组中的活跃度来进行区分,还可以将活跃度进一步离散化,划分为黑色产业等级。当一个用户账号加入了多个黑色产业群组,同时在黑色产业群组中很活跃,可以认为该用户账号属于黑色产业类别,可以称该用户账号为黑色产业账号。
举例说明,用户账号A自7月份开始陆续加入了好几个手机木马交流群,并且在多个群中每天的发言频率均保持较高的水平,那么可以认定该用户账号为从事手机木马的黑色产业账号。
上述用户类别检测方法,利用了社交网络中可以体现用户共性的群组,获取已知属于预设类别的群组标识集合。通过统计待检测的用户账号所加入群组的群组标识的数量和/或计算待检测的用户账号对应于查找到的群组标识的活跃度,从而在统计的数量较多和/或计算的活跃度较高时,便可以认定待检测的用户账号也属于预设类别,将待检测的用户账号加入对应预设类别的用户账号库中,就可以利用该用户账号库来管理属于同一预设类别的用户。这样利用了同一类别的用户本身所具备的聚集性来检测用户是否属于预设类别,利用目前已有的手段难以避开,将该方法应用于黑色产业人员检测时可以有效地检测出黑色产业人员。
如图4所示,在一个实施例中,步骤202具体包括如下步骤:
步骤402,获取属于预设类别的样本用户账号。
具体地,样本用户账号是通过一些手段已经认定属于预设类别的用户账号。具体在预设类别为黑色产业类别时,可以通过用户举报、投诉或者其它可靠途径发现属于黑色产业类别的样本用户账号。
步骤404,查找样本用户账号所加入群组的群组标识所对应的用户账号。
具体地,考虑到属于预设类别的用户账号很有可能会加入其它属于预设类别但还未检测到的群组,因此这里可以通过扩散的手段,对样本用户账号所加入群组中的其它成员进行检测。
步骤406,当查找到的对应同一群组标识的属于预设类别的用户账号的数量超过第二预设数量时,将对应的同一群组标识加入属于预设类别的群组标识集合中。
具体地,如果一个群组中超过第二预设数量的用户账号属于预设类别,则说明该群组也属于预设类别。可以通过判断查找到的用户账号是否存在于属于预设类别的用户账号库来判断查找到的用户账号是否属于预设类别。在一个实施例中,还可以从群组标识集合中查询查找到的用户账号所加入群组的群组标识;统计查询到的群组标识的数量,和/或,计算查询到的用户账号对应于查询到的群组标识的活跃度;当查询到的群组标识的数量超过第一预设数量和/或活跃度超过活跃度阈值时,判定查找到的用户账号属于预设类别。第二预设数量可大于等于5,优选可取值10~100。
在一个实施例中,步骤406之后还包括:增大第二预设数量的值,并继续查找当前查找到的用户账号所加入群组的群组标识所对应的用户账号,并在当前查找到的对应同一群组标识的属于预设类别的用户账号的数量超过第二预设数量时,将当前查找到的用户账号对应的同一群组标识加入属于预设类别的群组标识集合中,直至循环达到预设次数或者直至当前查找到的对应同一群组标识的属于预设类别的用户账号均小于等于第二预设数量。
具体地,考虑到一个用户往往会加入多个属于预设类别的群组,从样本用户账号可以扩散到群组,从群组中的用户账号又可以扩散到其他群组,这样逐层扩散,即通过用户账号—>群组—>群组成员的用户账号—>群组……,可以扩散出可能属于预设类别的群组。
然而无限扩散会带来很大的计算负担,有必要对扩散进行收敛。这里可以采用循环达到预设次数作为循环终止条件,也可以在当前查找到的对应同一群组标识的属于预设类别的用户账号均小于等于第二预设数量作为循环终止条件。这里增大第二预设数量的值,可以按照一定步长或者比例进行增大,比如若第二预设数量为20,则按步长增大后第二预设数量为40,再次按步长增大后第二预设数量为60;或者若第二预设数量为20,则按比例100%增大后第二预设数量为40,再按比例100%增大后第二预设数量为80。
这里一次循环可包括如下步骤:查找某用户账号所加入群组的群组标识所对应的用户账号,当查找到的对应同一群组标识的属于预设类别的用户账号的数量超过第二预设数量时,将对应的同一群组标识加入属于预设类别的群组标识集合中,并增大第二预设数量的值。
本实施例中,将该群组的群组标识加入属于预设类别的群组标识集合中,这样可以在准备好样本用户账号后,自动对群组标识集合进行智能扩展,提高用户类别检测的适应性。
举例说明,制作手机木马的黑色产业人员,为了交流新的木马技术,或者出售自己的木马技术,通常会加入多个手机木马相关的交流群。通过一批从事手机木马的黑色产业样本用户账号,我们可以得到初始的手机木马交流群,显然的,手机木马交流群的群成员绝大部分也是从事手机木马的黑色产业用户账号,这些用户账号往往也会加入其他的手机木马交流群,将这些非常准的手机木马交流群汇集起来,形成属于预设类别的群组标识集合。
在一个实施例中,该用户类别检测方法还包括:监控用户账号库中的用户账号所加入的群组,获得新增的群组标识;当新增的群组标识所对应的属于预设类别的用户账号的数量超过第三预设数量时,将新增的群组标识加入群组标识集合中。
具体地,通过监控属于预设类别的用户账号库中的用户账号的所加入的群组的变化,可以获得新增的群组标识,新增的群组标识是指该用户新加入的群组的群组标识。当一个新增的群组标识所表示的群组中出现很多属于预设类别的用户账号时,则说明该新增的群组也是属于预设类别的,将该新增的群组标识加入群组标识集合中,进一步提高用户类别检测的适应性。
在一个实施例中,可以通过判断新增的群组标识所对应的用户账号是否存在于属于预设类别的用户账号库来判断新增的群组标识所对应的用户账号是否属于预设类别。在一个实施例中,还可以从群组标识集合中查询新增的群组标识所对应的用户账号所加入群组的群组标识;统计查询到的群组标识的数量,和/或,计算查询到的用户账号对应于查询到的群组标识的活跃度;当查询到的群组标识的数量超过第一预设数量和/或活跃度超过活跃度阈值时,判定新增的群组标识所对应的用户账号属于预设类别。第三预设数量可大于等于5,优选可取值10~100。
参照图5,下面用一个具体应用场景来说明上述用户类别检测方法的原理,本应用场景中预设类别为黑色产业类别。具体通过以下步骤实现:
预先通过用户举报、投诉或者其它可靠途径发现属于黑色产业类别的样本用户账号。然后分析这些样本用户账号所加入的所有群组。针对某一类黑色产业类别,恶意用户往往会加入多个这类黑色产业类别的交流群,通过群成员加入的其它群,可以发现一大批与该类黑色产业类别的交流群,即通过用户账号—>群组—>群组成员的用户账号—>群组……,扩散出属于黑色产业类别的群组,通过逐渐收敛,将很可能是黑色产业类别的群组加入黑色产业群组标识库,或将黑色产业群组标识库称为黑色产业群组标识集合。
恶意用户使用的用户账号在黑色产业中会有一定的生命周期,有些黑色产业人员加入黑色产业后,接触过一段时间便不再从事这类黑色产业,或者找到其它更赚钱的方式,但是往往该用户账号仍然会停留在黑色产业群组中,因此黑色产业群组中的用户账号有多大程度在从事这类黑色产业,需要通过该用户账号在黑色产业群组中的活跃度来进行区分,还可以将活跃度进一步离散化,划分为黑色产业等级。当一个用户账号加入了黑色产业群组标识库中记录的多个黑色产业群组,同时在黑色产业群组中很活跃,可以认为该用户账号命中黑色产业类别,将该用户账号加入黑色产业用户账号库。
然后监控黑色产业用户账号库中的用户账号所加入的群组变化,如果一个新增的群组中出现了很多属于黑色产业用户账号库的用户账号,说明该群组中聚集了大量从事黑色产业的人员,该群组是黑色产业群组,将其加入黑色产业群组标识库中。
如图6所示,在一个实施例中,提供了一种用户类别检测装置600,具有实现上述各个实施例的用户类别检测方法的功能。该用户类别检测装置600包括:群组标识集合获取模块601、群组标识查找模块602、群组标识处理模块603和判别模块604。
群组标识集合获取模块601,用于获取属于预设类别的群组标识集合。
具体地,预设类别是预先设定的某一用户类别,用于标识出具有共同属性的用户集合。该用户类别检测方法,用于判断用户是否属于该预设类别。在一个实施例中,预设类别为黑色产业类别,这种情况下该用户类别检测方法应用于黑色产业人员检测,可检测出从事同类型的黑色产业的黑色产业人员。在其他实施例中,预设类别还可以是具有共同兴趣的类别,比如摄影爱好者、计算机技术爱好者、游戏玩家等。
群组是可表示多用户之间通信关系的数据对象,群组中的各个用户账号所对应的终端之间可以进行一对多、多对一以及多对多之间的通信。可利用群组标识将多个用户账号联系起来而用来表示群组,群组中的任意一个用户账号所对应的终端能够与该群组中的其它用户账号所对应的终端通信,从而可以实现多方通信。群组包括但不限于即时通信群组、基于社交网络的群组、多人语音通信组、多人视频通信组、基于已有的群组而建立的讨论组、多人会话组等。群组标识是指唯一标识出相应的群组的字符串,可以包括数字、字母或者指定符号中的至少一种,群组标识也可以称为群号或者分组号。
用户账号属于预设类别,是指该用户账号所对应的用户属于该预设类别。群组标识属于预设类别,则是指该群组标识所表示的群组中的全部或者部分成员属于预设类别。群组标识集合属于预设类别,则是指群组标识集合中的所有群组标识属于预设类别。群组标识集合用来检测其它用户或者群组是否属于预设类别。
群组标识查找模块602,用于从群组标识集合中查找待检测的用户账号所加入群组的群组标识。
待检测的用户账号是指需要检测其是否属于预设类别的用户账号。用户账号是指能够唯一标识出用户身份的字符串,可以包括数字、字母或者指定符号中的至少一种。
具体地,在一个实施例中,群组标识查找模块602可用于遍历待检测的用户账号所加入所有群组的群组标识,逐个与群组标识集合中的群组标识比对,将经过比对判定一致的群组标识作为查找到的群组标识。
或者在另一个实施例中,群组标识查找模块602可用于遍历群组标识集合中的群组标识,逐个判断是否为待检测的用户账号所加入群组的群组标识,将判断为是的群组标识作为查找到的群组标识。
其中,一个用户账号加入某一群组,是指该用户账号所对应的用户具有在该群组内通信的权限,该用户账号和该群组的群组标识具有关联。第一用户终端可以向社交服务器发起携带有自身登录所用的用户账号和待加入的群组的群组标识的加入群组请求,使得社交服务器向该群组标识所对应的群组管理员账号所登录的第二用户终端发送该加入群组请求,社交服务器接收到第二用户终端响应于加入群组请求的确认反馈后,建立加入群组请求中的用户账号和群组标识的关联,这样第一用户就实现了加入群组的操作。
群组标识处理模块603,用于统计查找到的群组标识的数量,和/或,计算待检测的用户账号对应于查找到的群组标识的活跃度。
具体地,可以只统计查找到的群组标识的数量,或者可以只计算待检测的用户账号对应于查找到的群组标识的活跃度,或者可以统计查找到的群组标识的数量的同时也计算待检测的用户账号对应于查找到的群组标识的活跃度。活跃度是指表示用户在一个群组中的活跃程度的量化数值,比如若采用百分制,则可以用0到100的数值来表示活跃度,数值越大表示活跃度越高。
判别模块604,用于当查找到的群组标识的数量超过第一预设数量和/或活跃度超过活跃度阈值时,将待检测的用户账号加入属于预设类别的用户账号库中。
具体地,若查找到的群组标识的数量超过第一预设数量,说明待检测的用户账号加入了多个属于预设类别的群组,这种情况下可以判定该用户账号属于预设类别。第一预设数量可大于等于2,优选可取值3~10。第一预设数量设置的较大可以避免误检,设置的较小可以避免漏检,可以根据需要设置。以预设类别为黑色产业类别为例,若待检测的用户账号加入了多个属于黑色产业类别的群组,则可以认为该用户账号所对应的用户为黑色产业人员。
若待检测的用户账号对应于查找到的群组标识的活跃度超过活跃度阈值,说明待检测的用户账号在属于预设类别的群组中非常活跃,这种情况下也可以判定该用户账号属于预设类别。活跃度阈值取决于活跃度的计算方式,可在活跃度最高值与最低值的差的20%~100%范围内取值,为了避免误检可以在活跃度最高值与最低值的差的50%~100%范围内取值。
在一个实施例中,若查找到的群组标识的数量超过第一预设数量,同时待检测的用户账号对应于每个查找到的群组标识的活跃度超过活跃度阈值,说明该用户账号活跃在多个属于预设类别的群组中,属于预设类别的可能性非常大,这种情况下误检和漏检的情况都很小。
判别模块604用于在判定用户账号属于预设类别时,将待检测的用户账号加入属于预设类别的用户账号库中,该用户账号库可以用来监控属于预设类别的用户,尤其是当预设类别是黑色产业类别时。
具体来说,恶意用户使用的用户账号在黑色产业中会有一定的生命周期,有些黑色产业人员加入黑色产业后,接触过一段时间便不再从事这类黑色产业,或者找到其它更赚钱的方式,但是往往该用户账号仍然会停留在黑色产业群组中,因此黑色产业群组中的用户账号有多大程度在从事这类黑色产业,需要通过该用户账号在黑色产业群组中的活跃度来进行区分,还可以将活跃度进一步离散化,划分为黑色产业等级。当一个用户账号加入了多个黑色产业群组,同时在黑色产业群组中很活跃,可以认为该用户账号属于黑色产业类别,可以称该用户账号为黑色产业账号。
如图7所示,在一个实施例中,群组标识集合获取模块601,包括:样本用户账号获取模块601a和用户账号查找模块601b。
样本用户账号获取模块601a,用于获取属于预设类别的样本用户账号。具体地,样本用户账号是通过一些手段已经认定属于预设类别的用户账号。具体在预设类别为黑色产业类别时,可以通过用户举报、投诉或者其它可靠途径发现属于黑色产业类别的样本用户账号。
用户账号查找模块601b,用于查找样本用户账号所加入群组的群组标识所对应的用户账号,当查找到的对应同一群组标识的属于预设类别的用户账号的数量超过第二预设数量时,将对应的同一群组标识加入属于预设类别的群组标识集合中。
具体地,考虑到属于预设类别的用户账号很有可能会加入其它属于预设类别但还未检测到的群组,因此这里可以通过扩散的手段,对样本用户账号所加入群组中的其它成员进行检测。
如果一个群组中超过第二预设数量的用户账号属于预设类别,则说明该群组也属于预设类别。可以通过判断查找到的用户账号是否存在于属于预设类别的用户账号库来判断查找到的用户账号是否属于预设类别。在一个实施例中,还可以从群组标识集合中查询查找到的用户账号所加入群组的群组标识;统计查询到的群组标识的数量,和/或,计算查询到的用户账号对应于查询到的群组标识的活跃度;当查询到的群组标识的数量超过第一预设数量和/或活跃度超过活跃度阈值时,判定查找到的用户账号属于预设类别。第二预设数量可大于等于5,优选可取值10~100。
在一个实施例中,用户账号查找模块601b还用于增大第二预设数量的值,并继续查找当前查找到的用户账号所加入群组的群组标识所对应的用户账号,并在当前查找到的对应同一群组标识的属于预设类别的用户账号的数量超过第二预设数量时,将当前查找到的用户账号对应的同一群组标识加入属于预设类别的群组标识集合中,直至循环达到预设次数或者直至当前查找到的对应同一群组标识的属于预设类别的用户账号均小于等于第二预设数量。
具体地,考虑到一个用户往往会加入多个属于预设类别的群组,从样本用户账号可以扩散到群组,从群组中的用户账号又可以扩散到其他群组,这样逐层扩散,即通过用户账号—>群组—>群组成员的用户账号—>群组……,可以扩散出可能属于预设类别的群组。
然而无限扩散会带来很大的计算负担,有必要对扩散进行收敛。这里可以采用循环达到预设次数作为循环终止条件,也可以在当前查找到的对应同一群组标识的属于预设类别的用户账号均小于等于第二预设数量作为循环终止条件。这里增大第二预设数量的值,可以按照一定步长或者比例进行增大,比如若第二预设数量为20,则按步长增大后第二预设数量为40,再次按步长增大后第二预设数量为60;或者若第二预设数量为20,则按比例100%增大后第二预设数量为40,再按比例100%增大后第二预设数量为80。
这里一次循环可包括如下步骤:查找某用户账号所加入群组的群组标识所对应的用户账号,当查找到的对应同一群组标识的属于预设类别的用户账号的数量超过第二预设数量时,将对应的同一群组标识加入属于预设类别的群组标识集合中,并增大第二预设数量的值。
本实施例中,将该群组的群组标识加入属于预设类别的群组标识集合中,这样可以在准备好样本用户账号后,自动对群组标识集合进行智能扩展,提高用户类别检测的适应性。
如图8所示,在一个实施例中,群组标识处理模块603包括:参数获取模块603a和活跃度计算模块603b。
参数获取模块603a,用于获取待检测的用户账号对应于查找到的群组标识的发言数量、发言频率以及发言数量占相应群组标识所对应的发言总量的比重中的至少一种。
具体地,对于待检测的用户账号所对应的查找到的群组标识,可以统计自相应的群组建立以来该待检测的用户账号所有的发言数量、发言频率以及发言数量占发言总量的比重,也可以统计自固定期限开始该待检测的用户账号所有的发言数量、发言频率以及发言数量占发言总量的比重,还可以统计固定时间范围内该待检测的用户账号所有的发言数量、发言频率以及发言数量占发言总量的比重。
其中,发言数量是指该用户账号所对应的用户在该群组中发送消息的次数,发言频率是指该用户的发言数量与相应的统计时间段的比值,发言数量占发言总量的比重是指该用户在该群组中发送消息的次数与该群组中所有用户发送消息的次数的比值。
活跃度计算模块603b,用于根据获取的发言数量、发言频率和发言数量占相应群组标识所对应的发言总量的比重中的至少一种计算待检测的用户账号对应于查找到的群组标识的活跃度。
具体地,活跃度计算模块603b可用于仅将发言数量或者发言频率或者发言数量占发言总量的比重作为待检测的用户账号对应于查找到的群组标识的活跃度,当然也可以将发言数量、发言频率和发言数量占发言总量的比重中的任意一个加上或减去或乘以或除以预设常量后作为待检测的用户账号对应于查找到的群组标识的活跃度。
在一个实施例中,活跃度计算模块603b可用于计算发言数量、发言频率和发言数量占发言总量的比重中的至少两项的和、平均值、加权和或者加权平均值,以作为待检测的用户账号对应于查找到的群组标识的活跃度。
在一个实施例中,活跃度计算模块603b还可用于对发言数量、发言频率和发言数量占发言总量的比重中的至少两项进行归一化处理后,计算和、平均值、加权和或者加权平均值,以作为待检测的用户账号对应于查找到的群组标识的活跃度。对多个数据做归一化处理,可以用每个数据减去该多个数据中的最小值后再除以该多个数据中最大值和最小值的差,也可以用每个数据减去该多个数据的平均值后再除以该多个数据的标准差。
如图9所示,在一个实施例中,用户类别检测装置600还包括:监控模块605,用于监控用户账号库中的用户账号所加入的群组,获得新增的群组标识;当新增的群组标识所对应的属于预设类别的用户账号的数量超过第三预设数量时,将新增的群组标识加入群组标识集合中。
具体地,监控模块605可用于通过监控属于预设类别的用户账号库中的用户账号的所加入的群组的变化,获得新增的群组标识,新增的群组标识是指该用户新加入的群组的群组标识。当一个新增的群组标识所表示的群组中出现很多属于预设类别的用户账号时,则说明该新增的群组也是属于预设类别的,将该新增的群组标识加入群组标识集合中,进一步提高用户类别检测的适应性。
在一个实施例中,监控模块605可用于通过判断新增的群组标识所对应的用户账号是否存在于属于预设类别的用户账号库来判断新增的群组标识所对应的用户账号是否属于预设类别。在一个实施例中,监控模块605还可用于从群组标识集合中查询新增的群组标识所对应的用户账号所加入群组的群组标识;统计查询到的群组标识的数量,和/或,计算查询到的用户账号对应于查询到的群组标识的活跃度;当查询到的群组标识的数量超过第一预设数量和/或活跃度超过活跃度阈值时,判定新增的群组标识所对应的用户账号属于预设类别。第三预设数量可大于等于5,优选可取值10~100。
上述用户类别检测装置600,利用了社交网络中可以体现用户共性的群组,获取已知属于预设类别的群组标识集合。通过统计待检测的用户账号所加入群组的群组标识的数量和/或计算待检测的用户账号对应于查找到的群组标识的活跃度,从而在统计的数量较多和/或计算的活跃度较高时,便可以认定待检测的用户账号也属于预设类别,将待检测的用户账号加入对应预设类别的用户账号库中,就可以利用该用户账号库来管理属于同一预设类别的用户。这样利用了同一类别的用户本身所具备的聚集性来检测用户是否属于预设类别,利用目前已有的手段难以避开,将该方法应用于黑色产业人员检测时可以有效地检测出黑色产业人员。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (11)
1.一种用户类别检测方法,所述方法包括:
获取属于预设类别的群组标识集合;
从所述群组标识集合中查找待检测的用户账号所加入群组的群组标识;
统计查找到的群组标识的数量,和/或,计算所述待检测的用户账号对应于查找到的群组标识的活跃度;
当查找到的群组标识的数量超过第一预设数量和/或所述活跃度超过活跃度阈值时,将所述待检测的用户账号加入属于所述预设类别的用户账号库中。
2.根据权利要求1所述的方法,其特征在于,所述获取属于预设类别的群组标识集合,包括:
获取属于预设类别的样本用户账号;
查找所述样本用户账号所加入群组的群组标识所对应的用户账号;
当查找到的对应同一群组标识的属于预设类别的用户账号的数量超过第二预设数量时,将所述对应的同一群组标识加入属于预设类别的群组标识集合中。
3.根据权利要求2所述的方法,其特征在于,所述获取属于预设类别的群组标识集合,还包括:
增大所述第二预设数量的值,并继续查找当前查找到的用户账号所加入群组的群组标识所对应的用户账号,并在当前查找到的对应同一群组标识的属于预设类别的用户账号的数量超过所述第二预设数量时,将当前查找到的用户账号对应的同一群组标识加入属于预设类别的群组标识集合中,直至循环达到预设次数或者直至当前查找到的对应同一群组标识的属于预设类别的用户账号均小于等于所述第二预设数量。
4.根据权利要求1所述的方法,其特征在于,所述计算所述待检测的用户账号对应于查找到的群组标识的活跃度,包括:
获取所述待检测的用户账号对应于查找到的群组标识的发言数量、发言频率以及发言数量占相应群组标识所对应的发言总量的比重中的至少一种;
根据获取的所述发言数量、所述发言频率和所述发言数量占相应群组标识所对应的发言总量的比重中的至少一种计算所述待检测的用户账号对应于查找到的群组标识的活跃度。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
监控所述用户账号库中的用户账号所加入的群组,获得新增的群组标识;
当所述新增的群组标识所对应的属于预设类别的用户账号的数量超过第三预设数量时,将所述新增的群组标识加入所述群组标识集合中。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,所述预设类别为黑色产业类别。
7.一种用户类别检测装置,其特征在于,所述装置包括:
群组标识集合获取模块,用于获取属于预设类别的群组标识集合;
群组标识查找模块,用于从所述群组标识集合中查找待检测的用户账号所加入群组的群组标识;
群组标识处理模块,用于统计查找到的群组标识的数量,和/或,计算所述待检测的用户账号对应于查找到的群组标识的活跃度;
判别模块,用于当查找到的群组标识的数量超过第一预设数量和/或所述活跃度超过活跃度阈值时,将所述待检测的用户账号加入属于所述预设类别的用户账号库中。
8.根据权利要求7所述的装置,其特征在于,所述群组标识集合获取模块,包括:
样本用户账号获取模块,用于获取属于预设类别的样本用户账号;
用户账号查找模块,用于查找所述样本用户账号所加入群组的群组标识所对应的用户账号,当查找到的对应同一群组标识的属于预设类别的用户账号的数量超过第二预设数量时,将所述对应的同一群组标识加入属于预设类别的群组标识集合中。
9.根据权利要求8所述的装置,其特征在于,所述用户账号查找模块还用于增大所述第二预设数量的值,并继续查找当前查找到的用户账号所加入群组的群组标识所对应的用户账号,并在当前查找到的对应同一群组标识的属于预设类别的用户账号的数量超过所述第二预设数量时,将当前查找到的用户账号对应的同一群组标识加入属于预设类别的群组标识集合中,直至循环达到预设次数或者直至当前查找到的对应同一群组标识的属于预设类别的用户账号均小于等于所述第二预设数量。
10.根据权利要求7所述的装置,其特征在于,所述群组标识处理模块包括:
参数获取模块,用于获取所述待检测的用户账号对应于查找到的群组标识的发言数量、发言频率以及发言数量占相应群组标识所对应的发言总量的比重中的至少一种;
活跃度计算模块,用于根据获取的所述发言数量、所述发言频率和所述发言数量占相应群组标识所对应的发言总量的比重中的至少一种计算所述待检测的用户账号对应于查找到的群组标识的活跃度。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括监控模块,用于监控所述用户账号库中的用户账号所加入的群组,获得新增的群组标识;当所述新增的群组标识所对应的属于预设类别的用户账号的数量超过第三预设数量时,将所述新增的群组标识加入所述群组标识集合中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510164514.5A CN106161127B (zh) | 2015-04-08 | 2015-04-08 | 用户类别检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510164514.5A CN106161127B (zh) | 2015-04-08 | 2015-04-08 | 用户类别检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106161127A true CN106161127A (zh) | 2016-11-23 |
CN106161127B CN106161127B (zh) | 2019-09-17 |
Family
ID=57335634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510164514.5A Active CN106161127B (zh) | 2015-04-08 | 2015-04-08 | 用户类别检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106161127B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106911487A (zh) * | 2017-04-28 | 2017-06-30 | 广州市百果园网络科技有限公司 | 一种进行语音聊天的方法和装置 |
CN111080463A (zh) * | 2019-12-13 | 2020-04-28 | 厦门市美亚柏科信息股份有限公司 | 一种关键通讯节点识别方法、装置及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1930817A (zh) * | 2004-03-09 | 2007-03-14 | 思科技术公司 | 针对与高风险相关联的网络用户的隔离手段 |
US20070136798A1 (en) * | 2005-12-12 | 2007-06-14 | Microsoft Corporation | Special group logon tracking |
CN102523283A (zh) * | 2010-12-15 | 2012-06-27 | 微软公司 | 将活动动作应用于频繁的活动 |
CN102880637A (zh) * | 2012-08-07 | 2013-01-16 | 东南大学 | 一种基于用户诚实度的动态的Web服务信任评估方法 |
CN103036926A (zh) * | 2011-09-29 | 2013-04-10 | 中国电信股份有限公司 | 业务推送系统及方法 |
CN104079627A (zh) * | 2014-06-04 | 2014-10-01 | 大连民族学院 | 发送展示信息的方法和装置 |
-
2015
- 2015-04-08 CN CN201510164514.5A patent/CN106161127B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1930817A (zh) * | 2004-03-09 | 2007-03-14 | 思科技术公司 | 针对与高风险相关联的网络用户的隔离手段 |
US20070136798A1 (en) * | 2005-12-12 | 2007-06-14 | Microsoft Corporation | Special group logon tracking |
CN102523283A (zh) * | 2010-12-15 | 2012-06-27 | 微软公司 | 将活动动作应用于频繁的活动 |
CN103036926A (zh) * | 2011-09-29 | 2013-04-10 | 中国电信股份有限公司 | 业务推送系统及方法 |
CN102880637A (zh) * | 2012-08-07 | 2013-01-16 | 东南大学 | 一种基于用户诚实度的动态的Web服务信任评估方法 |
CN104079627A (zh) * | 2014-06-04 | 2014-10-01 | 大连民族学院 | 发送展示信息的方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106911487A (zh) * | 2017-04-28 | 2017-06-30 | 广州市百果园网络科技有限公司 | 一种进行语音聊天的方法和装置 |
CN106911487B (zh) * | 2017-04-28 | 2019-12-24 | 广州市网星信息技术有限公司 | 一种进行语音聊天的方法和装置 |
CN111080463A (zh) * | 2019-12-13 | 2020-04-28 | 厦门市美亚柏科信息股份有限公司 | 一种关键通讯节点识别方法、装置及介质 |
CN111080463B (zh) * | 2019-12-13 | 2022-09-02 | 厦门市美亚柏科信息股份有限公司 | 一种关键通讯节点识别方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106161127B (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105825138B (zh) | 一种敏感数据识别的方法和装置 | |
WO2016192495A1 (zh) | 账号被盗的风险识别方法、识别装置及防控系统 | |
CN108471429A (zh) | 一种网络攻击告警方法及系统 | |
CN107277036B (zh) | 基于多站点数据的登录验证方法、验证设备及存储介质 | |
CN112788066B (zh) | 物联网设备的异常流量检测方法、系统及存储介质 | |
CN107968730A (zh) | 监测物联网卡被盗用的方法和系统 | |
CN105824813B (zh) | 一种挖掘核心用户的方法及装置 | |
CN108683687A (zh) | 一种网络攻击识别方法及系统 | |
CN105491444B (zh) | 一种数据识别处理方法以及装置 | |
CN106209862A (zh) | 一种盗号防御实现方法及装置 | |
CN106445796B (zh) | 作弊渠道的自动检测方法及装置 | |
CN107515915A (zh) | 基于用户行为数据的用户标识关联方法 | |
CN108881263A (zh) | 一种网络攻击结果检测方法及系统 | |
CN111163065A (zh) | 异常用户检测方法及装置 | |
CN103297267B (zh) | 一种网络行为的风险评估方法和系统 | |
CN114003903B (zh) | 一种网络攻击追踪溯源方法及装置 | |
CN104852916A (zh) | 一种基于社会工程学的网页验证码识别方法及系统 | |
CN104901962B (zh) | 一种网页攻击数据的检测方法及装置 | |
CN106301979B (zh) | 检测异常渠道的方法和系统 | |
CN104967603B (zh) | 应用账号安全验证方法及装置 | |
CN110460611A (zh) | 基于机器学习的全流量攻击检测技术 | |
CN110225009B (zh) | 一种基于通信行为画像的代理使用者检测方法 | |
CN106161127A (zh) | 用户类别检测方法和装置 | |
CN111885011B (zh) | 一种业务数据网络安全分析挖掘的方法及系统 | |
WO2021212760A1 (zh) | 确定人员身份类型的方法、装置和电子系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |