CN112487250A - 识别养号账号群的方法及装置 - Google Patents

识别养号账号群的方法及装置 Download PDF

Info

Publication number
CN112487250A
CN112487250A CN201910859818.1A CN201910859818A CN112487250A CN 112487250 A CN112487250 A CN 112487250A CN 201910859818 A CN201910859818 A CN 201910859818A CN 112487250 A CN112487250 A CN 112487250A
Authority
CN
China
Prior art keywords
account
behavior
behaviors
similarity
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910859818.1A
Other languages
English (en)
Other versions
CN112487250B (zh
Inventor
王璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201910859818.1A priority Critical patent/CN112487250B/zh
Publication of CN112487250A publication Critical patent/CN112487250A/zh
Application granted granted Critical
Publication of CN112487250B publication Critical patent/CN112487250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据风控技术领域,尤其涉及识别养号账号群的方法及装置。所述方法包括:获取多个账号的多个养成行为,养成行为用于变更账号的养成数据;基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对;将所有同步行为对对应的所有账号中的每两个不同的账号作为一个账号对,分别确定每个账号对中两个账号之间的账号相似度;基于账号相似度大于相似度阈值的账号对,建立账号无向图;对所述账号无向图中的各个账号进行聚类,获得多个账号群;基于预设养号数量阈值,从所述多个账号群中确定出养号账户群。本发明实现了对账号间用于变更账号养成数据的养成行为的同步性的准确分析。

Description

识别养号账号群的方法及装置
技术领域
本发明涉及大数据风控技术领域,尤其涉及识别养号账号群的方法及装置。
背景技术
网络黑产是指以互联网为媒介、以网络技术为主要手段,对计算机信息系统安全和网络空间管理秩序造成威胁的非法行为。在直播平台上,网络黑产为了达到其目的往往会实施批量的养号操作。批量的养号操作是指:先基于虚假的用户身份批量注册出大量账号,再统一对这些账号进行养号,以提高这些账号的等级,当这些账号达到一定等级后,操控这些账号实施与账号等级匹配的行为。由于批量的养号操作通常被用于非法行为。因此,为了保证互联网安全,亟需一种能够准确识别出被黑产实施了养号操作的账号的方法。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别养号账号群的方法及装置。
依据本发明的第一个方面,本发明提供一种识别养号账户群的方法,所述方法包括:
获取多个账号的多个养成行为,所述养成行为用于变更所述账号的养成数据;
基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对;
将所有同步行为对对应的所有账号中的每两个不同的账号作为一个账号对,分别确定每个账号对中两个账号之间的账号相似度;
基于账号相似度大于相似度阈值的账号对,建立账号无向图;
对所述账号无向图中的各个账号进行聚类,获得多个账号群;
基于预设养号数量阈值,从所述多个账号群中确定出养号账户群。
优选的,所述基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对,包括:
将所述行为时间的间隔小于同步时间阈值且所述行为账号名不相同且所述行为网络协议地址相同的两个养成行为确定为同步行为对。
优选的,确定每个账号对中两个账号之间的账号相似度,包括以下公式:
Figure BDA0002199409390000021
其中,sim(u,v)为账号u和账号v之间的账号相似度,k为养成行为的类型,n为养成行为的类型的总数量,
Figure BDA0002199409390000022
为预设时间段内账号u发生类型为k的养成行为的集合,
Figure BDA0002199409390000023
为所述预设时间段内账号u发生类型为k的养成行为的次数,
Figure BDA0002199409390000024
为预设时间段内账号v发生类型为k的养成行为的集合,
Figure BDA0002199409390000025
为所述预设时间段内账号v发生类型为k的养成行为的次数,
Figure BDA0002199409390000026
是所述预设时间段内账号u和账号v发生类型为k的养成行为的对数,β为大于1的第一常数,α为大于0且小于1的第二常数,w1为第一权重系数,w2为第二权重系数,w1和w2均在0和1之间取值,且w1和w2之和等于1。
优选的,所述基于账号相似度大于相似度阈值的账号对,建立账号无向图,包括:
对每个账号相似度大于相似度阈值的账号对而言,将所述账号对中的两个账号分别作为顶点,并将这两个账号对应的两个顶点进行连线,形成边。
优选的,所述对所述账号无向图中的各个账号进行聚类,包括:
通过最大连通图方式对所述账号无向图中的各个账号进行聚类。
优选的,所述养成行为用于升级所述账号的经验。
依据本发明的第二个方面,提供了一种识别养号账户群的装置,所述装置包括:
获取模块,用于获取多个账号的多个养成行为,所述养成行为用于变更所述账号的养成数据;
行为对确定模块,用于基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对;
相似度确定模块,用于将所有同步行为对对应的所有账号中的每两个不同的账号作为一个账号对,分别确定每个账号对中两个账号之间的账号相似度;
建立模块,用于基于账号相似度大于相似度阈值的账号对,建立账号无向图;
聚类模块,用于对所述账号无向图中的各个账号进行聚类,获得多个账号群;
养号账户群确定模块,用于基于预设养号数量阈值,从所述多个账号群中确定出养号账户群。
优选的,所述行为对确定模块,具体用于:
将所述行为时间的间隔小于同步时间阈值且所述行为账号名不相同且所述行为网络协议地址相同的两个养成行为确定为同步行为对。
依据本发明的第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述第一个方面中的方法步骤。
依据本发明的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前述第一个方面中的方法步骤。
根据本发明的识别养号账号群的方法及装置,首先获取多个账号的多个养成行为,其中,养成行为用于变更账号的养成数据。接着基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对。再将所有同步行为对对应的所有账号中的每两个不同的账号作为一个账号对,分别确定每个账号对中两个账号之间的账号相似度。然后基于账号相似度大于相似度阈值的账号对,建立账号无向图。最后,对账号无向图中的各个账号进行聚类,获得多个账号群,基于预设养号数量阈值,从多个账号群中确定出养号账户群。本发明通过先利用行为时间、行为账号名和行为网络协议地址确定出同步行为对,再基于由同步行为对确定出的账号进行相似度分析,并在确定出两两账号之间的相似度之后,结合无向图聚类方式确定出养号账户群,实现了对账号间用于变更账号养成数据的养成行为的同步性的准确分析,从而能够准确地确定出被黑产实施了养号操作的账号,提高了互联网的安全性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考图形表示相同的部件。在附图中:
图1示出了本发明实施例中识别养号账户群的方法的流程图;
图2示出了本发明实施例中账号无向图的示意图;
图3示出了本发明实施例中识别养号账户群的装置的结构示意图;
图4示出了本发明第四实施例中计算机设备的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明第一实施例提供一种识别养号账户群的方法,该方法的目的在于:针对多个账号,识别出这些账号中哪些账号被实施了养号操作。如图1所示,所述方法包括:
步骤101:获取多个账号的多个养成行为,养成行为用于变更账号的养成数据。
步骤102:基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对。
步骤103:将所有同步行为对对应的所有账号中的每两个不同的账号作为一个账号对,分别确定每个账号对中两个账号之间的账号相似度。
步骤104:基于账号相似度大于相似度阈值的账号对,建立账号无向图。
步骤105:对账号无向图中的各个账号进行聚类,获得多个账号群。
步骤106:基于预设养号数量阈值,从多个账号群中确定出养号账户群。
对于步骤101而言,本发明中的养成行为属于用于变更账号的养成数据的行为。养成数据用于表征账号的养成情况。其中,账号的经验就属于一种养成数据,用户通过实施一定的养成行为能够提升或降低账号的经验。非法的养号操作的目的在于统一地、批量地提升或降低账号的经验,因此,本发明中的养成行为为用于变更账号的经验的行为,该养成行为可以是升级账号的经验的行为,也可以是降低账号的行为。然而,通常提升账号的经验能够使账号具有更多的功能,因此,在本发明中,优选的,该养成行为为升级账号的经验的行为,例如,签到行为和分享行为。
进一步来讲,在步骤101中,针对多个账号而言,分别采集预设时间段内每个账号的全部上述养成行为,从而得到多个账号的多个养成行为。例如,针对账号用户名为A的账号、账号用户名为B的账号以及账号用户名为C的账号而言,通过采集1个小时内上述三个账号的所有用于升级账号经验的养成行为,可以得到:与账号A对应的养成行为E11,与账号B对应的养成行为E21、养成行为E22和养成行为E23,与账号C对应的养成行为E31和养成行为E32。
需要说明的是,由于在很短的时间内一个账号可能会存在多个养成行为,为了降低计算复杂度,对于每个账号和每个IP而言,可以在预设时间周期下仅保留一个养成行为,如每5分钟的数据只保留一个养成行为。
在本发明实施例中,一个养成行为可以用一条养成行为信息表征,养成行为信息包含该养成行为对应的行为时间(Timestamp)、行为账号名、行为网络协议地址(InternetProtocol Address,IP)和行为的类型。其中,行为时间表征该养成行为发生的时间,行为账号名表征该养成行为对应的账号的用户名,行为网络协议地址表征实施该养成行为的IP。例如,针对养成行为E11而言,养成行为E11对应第一养成行为信息,第一养成行为信息包含行为时间-10:30、行为账号名-A、行为网络协议地址-IP1和行为的类型-签到。
在完成对养成行为的采集之后,执行步骤102。对于步骤102而言,将采集到的所有养成行为中的养成行为进行两两对比。例如,若采集到的所有养成行为包括:养成行为E11、养成行为E21和养成行为E22,则将养成行为E11和养成行为E21进行对比,将对比养成行为E11和养成行为E22进行对比,以及将对比养成行为E21和养成行为E22进行对比。
其中,对比的参数包括:行为时间、行为账号名和行为网络协议地址。采用上述三种参数作为同步行为对的确定依据理由如下:网络黑产为了达到大规模养号的目的,必须通过软件或者脚本做批量操作,基于上述操作原理,账号之间进行养号操作的时间间隔非常短,因此将行为时间作为对比参数。而行为网络协议地址是网络黑产进行养号需要的资源,由于养号的账号数量多,出于成本的考虑,在行为网络协议地址上不可避免地会产生重用,因此将行为网络协议地址作为对比参数。而行为账号名是账号区分的唯一标识,为了区分不同账号也必须将其作为对比参数。
在基于行为时间、行为账号名和行为网络协议地址对两个养成行为进行对比时,判断两个养成行为的行为时间之间的间隔是否小于同步时间阈值,以及判断两个养成行为的行为账号名是否相同,以及判断两个养成行为的IP是否相同。其中,同步时间阈值为预先设置的值,其可以基于业务特性确定,通常,可以将同步时间阈值设定为3600s。通过执行上述三个判断过程能够确定出同步行为对。同步行为对为养成行为时间的间隔小于同步时间阈值,且养成行为账号名不相同,且养成行为网络协议地址相同的两个养成行为。
在具体实施过程中,可以将一个行为类型为k的养成行为
Figure BDA0002199409390000071
用以下三元组的形式表征:
Figure BDA0002199409390000072
其中,ui为养成行为
Figure BDA0002199409390000073
的行为账号名,也即实施养成行为
Figure BDA0002199409390000074
的账号的用户名。ti为养成行为
Figure BDA0002199409390000075
的行为时间,也即养成行为
Figure BDA0002199409390000076
发生的时间。ipi为养成行为
Figure BDA0002199409390000077
的行为网络协议地址,也即实施养成行为
Figure BDA0002199409390000078
的IP。对于如何通过对两个养成行为进行对比确定出同步行为对,下面给出详细说明:
对于养成行为
Figure BDA0002199409390000079
和养成行为
Figure BDA00021994093900000710
而言,养成行为Ei可以用以下三元组表示:
Figure BDA00021994093900000711
养成行为Ej可以用以下三元组表示:
Figure BDA00021994093900000712
进一步,判断养成行为
Figure BDA00021994093900000713
的行为时间ti与养成行为
Figure BDA00021994093900000714
的行为时间tj之间的时间间隔是否小于同步时间阈值t0,以及判断养成行为
Figure BDA00021994093900000715
的行为账号名ui与养成行为
Figure BDA00021994093900000716
的行为账号名uj是否相同,以及判断养成行为
Figure BDA00021994093900000717
的行为网络协议地址ipi与养成行为
Figure BDA00021994093900000718
的行为网络协议地址ipj是否相同。若ui≠uj&|ti-tj|<t0&ipi=ipj,即,两个养成行为的养成行为账号名不相同且两个养成行为的养成行为时间间隔小于同步时间阈值且两个养成行为的养成行为网络协议地址相同,则,将这两个养成行为确定为同步行为对,记为
Figure BDA00021994093900000719
下面将结合一例子对确定同步行为对的过程进行说明:
当账号A在2019年1月1号12点在平台上通过签到行为获取了经验,其使用的IP为67.59.12.123,该行为记为E1。当账号B在2019年1月1号12点30分在平台上通过签到行为获取了经验,其使用的IP为67.59.12.123,该行为记为E2。若预设同步时间阈值为3600秒,由于账号A和账号B的行为账号名不相同,并且,账号A和账号B行为时间的间隔为1800秒,其小于3600秒,并且,账号A和账号B的IP相同,所以,可以将行为E1和行为E2确定为签到类型的行为下的同步行为对。
需要说明的是,在本发明实施例中,一个同步行为对中的两个养成行为归属于不同的账号。
在完成对所有养成行为的对比,确定出多个同步行为对之后,执行步骤103。在步骤103中,将所有同步行为对对应的所有账号中的每两个不同账号作为一个账号对。例如,若确定出的所有同步行为对包括:第一同步行为对和第二同步行为对,第一同步行为对包括第一养成行为和第二养成行为,第一养成行为对应第一账号,第二养成行为对应第二账号,第二同步行为对包括第三养成行为和第四养成行为,第三养成行为对应第三账号,第四养成行为对应第四账号。若第一账号至第四账号为不同的账号时,那么,将这四个账号中每两个账号作为一个账号对,最终形成6个账号对。若这四个账号中存在部分账号相同,如在这四个账号中第一账号和第四账号相同,那么,实际上是由三个账号建立账号对,从而最终形成3个账号对。
进一步,在确定出账号对之后,分别确定每个账号对中两个账号之间的账号相似度,一个账号对对应一个账号相似度,该账号相似度反映了该账号对中两个账号之间的相似程度。其中,账号对的账号相似度通过以下公式获得:
Figure BDA0002199409390000091
其中,sim(u,v)为账号u和账号v之间的账号相似度,k为养成行为的类型,n为养成行为的类型的总数量,
Figure BDA0002199409390000092
为预设时间段内账号u发生类型为k的养成行为的集合,
Figure BDA0002199409390000093
为所述预设时间段内账号u发生类型为k的养成行为的次数,
Figure BDA0002199409390000094
为预设时间段内账号v发生类型为k的养成行为的集合,
Figure BDA0002199409390000095
为所述预设时间段内账号v发生类型为k的养成行为的次数,
Figure BDA0002199409390000096
是所述预设时间段内账号u和账号v发生类型为k的养成行为的对数,β为大于1的第一常数,α为大于0且小于1的第二常数,w1为第一权重系数,w2为第二权重系数,w1和w2均在0和1之间取值,且w1和w2之和等于1。
对于上述公式而言,其由以下两个部分组成:
第一部分为:
Figure BDA0002199409390000097
第二部分为:
Figure BDA0002199409390000098
对于w1和w2而言,由于上述第一部分表征账号实施的各类升级经验的养成行为的次数的平均相似度,上述第二部分表征账号实施的各类升级经验养成行为时同步性的相似度,而两个账号同步性行为的趋同相较于次数趋同更能说明这两个账号被同一团伙实施了养号操作,因此在设定权重系数时,需保证w2>w1。进一步来讲,在保证w2>w1的基础上,还可以根据已确定的近期养号团伙和历史养号团伙的特征对权重系数进一步调整,以实现对相似度的动态调节,从而进一步提高公式的的准确性,以使根据由公式得到的相似度最终确定出的养号账户群更加准确。具体来讲,若预设w1为0.4且w2为0.6,那么,若根据第一部分中的
Figure BDA0002199409390000101
计算出近期养号团伙的第一平均值是0.3、历史养号团伙的第一平均值是0.2,同时,根据第二部分中的
Figure BDA0002199409390000102
计算出近期养号团伙的第二平均值是0.4,历史养号团伙的第二平均值是0.3。进一步,计算近期养号团伙相对于历史养号团伙针对第一部分的第一相似度增长率,即,0.3/0.2-1=50%,同时计算近期养号团伙相对于历史养号团伙针对第二部分的第二相似度增长率,即,0.4/0.3-1=33%。可见,第一相似度增长率大于第二相似度增长率,即,表明
Figure BDA0002199409390000103
相较于
Figure BDA0002199409390000104
更能表征养号团伙的特点,因此,可以将对应于
Figure BDA0002199409390000105
的w1在0.4的基础上调大,同时,将对应于
Figure BDA0002199409390000111
的w2在0.6的基础上调小,如,将w1调整至0.45,将w2调整至0.55。
其中,上述第一部分表示的是:账号实施的各类升级经验的养成行为的次数的平均相似度,如果两个账号实施的各类升级经验的养成行为的次数越接近,那么这两个相似度越高。因此,在第一部分中,采用
Figure BDA0002199409390000112
表示第k类升级经验的养成行为发生次数之差的绝对值。而,为了将其进行归一化,于是除以
Figure BDA0002199409390000113
之所以要除以两者之间的最大值是因为防止两者之间有一个取值较小而造成该部分相似度度量过分夸大。
其中,上述第二部分表示的是:账号实施的各类升级经验养成行为时同步性的相似度,同步性养成行为发生的次数越多,那么这一项的值就会越大。在第二部分的公式中将归一化后的升级经验的养成行为的次数最大值的指数作为权重,对同步性养成行为发生的次数进行加权,即,
Figure BDA0002199409390000114
表示的是第k种升级经验的养成行为的权重,其作用在于升级经验的养成行为的次数越多,两个账号产生同步性养成行为越可能是采用相同脚本或软件进行操作的。对各类升级经验的同步性养成行为次数进行加权,可以得到加权的同步性养成行为次数,此时还需要将这个次数进行一个映射从而得到该部分的相似度。在本专利采用
Figure BDA0002199409390000115
这种形式的函数进行映射,该形式是一种双曲正切曲线的扩展,该设计的优势在于当x>0时取值在[0,1]之间,并且是非线性变换。从而,当加权同步养成行为次数比较少时,相似度非常小,而一旦增加到一定的次数,相似度会快速增加,而加权同步养成行为次数非常高的时候,该部分的相似度就接近1。其中,常数β可以对变换的曲线进行调节,其取值与当前根据其他规则发现的养号账户群两两之间的同步性养成行为次数的平均值有关,该值越低说明当前有风险的养号账户群同步性养成行为次数较少。常数β的取值范围为大于1的整数,一般可以取2,其中,常数β的值越小,那么,将会使两个账号有比较少的同步养成行为次数时即有较高的相似度。另外,常数α的取值范围为0到1之间,一般可以取0.5,其中,常数α取决于所有养成行为的平均次数,平均次数越高,则需要将常数α设定得越小,从而,防止各养成行为权重的差异过大,使得加权的同步性养成行为次数计算更加合理,以提高识别的准确性。
针对上述公式而言,通过将第一部分和第二部分相加,使得在确定账号相似度时,综合考虑了养成行为的次数和实施养号行为的时间同步性,若只考虑养成行为次数的趋同,那么,那些行为次数不同但是某些行为具有高度同步性的账号相似度会被低估。同理,若只考虑养成行为的时间同步性,那么,那些时间上不同步但是次数相同的账号相似度也会被低估。从而,最终得到的账号相似度将会不准确。本发明通过将第一部分和第二部分相加,两者具有相互补充的并列关系,在确定账号相似度时不仅考虑了养成行为的次数,还考虑了实施养号行为的时间同步性,解决了单一的根据养成行为的次数或实施养号行为的时间同步性来确定账号相似度所存在的结果准确度低的问题,提高了确定出的账号相似度的准确性。
下面将结合一例子对账号相似度的确定过程进行详细说明:
若存在三种升级经验的养成行为,即,n=3。第一种升级经验的养成行为是签到,第二种升级经验的养成行为是分享,第三种升级经验的养成行为是持续登录超过1小时。
对于第一种升级经验的养成行为,账号u发生次数为
Figure BDA0002199409390000121
账号v发生次数为
Figure BDA0002199409390000122
同步性的升级经验养成行为次数为
Figure BDA0002199409390000123
对于第二种升级经验的养成行为,账号u发生次数为
Figure BDA0002199409390000124
账号v发生次数为
Figure BDA0002199409390000125
同步性的升级经验养成行为次数为
Figure BDA0002199409390000131
对于第三种升级经验的养成行为,账号u发生次数
Figure BDA0002199409390000132
账号v发生次数为
Figure BDA0002199409390000133
同步性的升级经验养成行为次数为
Figure BDA0002199409390000134
各常数取值为α=0.5、β=2、w1=0.4、w2=0.6。从而,账号u和账号v之间的相似度为:
Figure BDA0002199409390000135
在确定出各个账号对的账号相似度之后,根据各个账号对的账号相似度能够实现对账号的聚类,通过聚类能够确定出养号账户群。其中,可以采用层次聚类的方式对账号进行聚类,但是,上述聚类方式无法并行处理,从而存在效率低的问题。因此,本发明提供一种能够提高处理效率的聚类方式,即,在确定出各个账号对的账号相似度之后,依次执行步骤104-106。
对于步骤104而言,在确定出各个账号对的账号相似度之后,首先对账号对进行过滤,过滤依据的条件是预设的相似度阈值。其中,相似度阈值根据当前已发现的养号账户群确定,对于已发现的养号账户群,先计算出该养号用户群中各账号的平均相似度,将该平均相似度作为团体相似度,再计算团体相似度的均值和标准差,最后基于三西格玛准则确定出相似度阈值,具体地,该相似度阈值等于团体相似度均值减去3倍的团体相似度标准差。在过滤过程中,过滤掉账号相似度小于或等于相似度阈值的账号对,仅保留账号相似度大于相似度阈值的账号对。
在完成对账号对的过滤之后,基于保留下的账号相似度大于相似度阈值的账号对,建立账号无向图。对于如何建立无向图,具体地:对每个账号相似度大于相似度阈值的账号对而言,将账号对中的两个账号分别作为顶点,并将这两个账号对应的两个顶点进行连线,形成边。通过对每个账号对进行无向图化,最终形成账号无向图,账号无向图中的各个边没有指向。
下面结合一例子对步骤104进行详细说明:
对于第一账号对:账号A-账号B,第二账号对:账号B-账号C,第三账号对:账号A-账号C,通过计算相似度得到:sim(A,B)=0.7,sim(B,C)=0.4,sim(A,C)=0.3。若预设的相似度阈值为0.6,那么过滤掉,第二账号对和第三账号对,仅保留第一账号对。进一步,对于如何建立账号无向图,首先,可以将账号A编号为0,并作为一个顶点。同时,将账号B编号为1,并作为一个顶点。接着,将编号为0和编号为1的顶点连线,形成一条边,最终得到如图2所示的账号无向图。
在获得账号无向图之后,执行步骤105。对于如何对账号无向图中的各个账号进行聚类,在一种优选的实施方案中,可以通过最大连通图方式对账号无向图中的各个账号进行聚类,采用最大连通图可以找到在当前连通关系下最大规模的聚类团体,由于在生成的关联比较强,因此同一条边上的两个账号节点是一个团伙的可能性非常大。因此,采用这种方法的优点是实现简单,算法复杂度是线性,计算可以并行化,并且能够获得最大规模的团伙。。其中,最大连通图是指在无向图中的若干极大连通子图。而连通图的定义是:对于一个图G=(V,E)中的两点x和y,若存在交替的顶点和边序列,即,Γ=(x=v0-e1-v1-...-ek-vk=y),则表明x和y是连通的,而如果若图G中每两个点都是连通的,那么图G就是连通图,其中,V是图G所有顶点的集合,E是图G所有边的集合。对于本发明而言,在账号无向图中,若存在满足上述连通图条件的子图,那么该子图可以被称为连通子图,而极大连通子图是在满足连通子图的条件下,同时具备以下条件:加入任何一个不在它的点集中的点都会导致它不再连通。
结合本发明实施例而言,在建立出账号无向图之后,从编号最小的顶点出发进行宽度优先搜索操作(BFS),将遍历到的节点加入相同集合中,该集合即为通过聚类得到的一个账号群,账号群的名称可以用出发顶点的账号名表示。进一步,对于未加入任何账号群的顶点而言,从中选择编号最小的顶点重复上述步骤,不断迭代直到所有顶点都被加入了某个账号群中。最终形成多个账号群。
在通过聚类获得多个账号群之后,执行步骤106。对于步骤106而言,养号数量阈值根据当前已发现的养号账户群确定,通过统计这些养号账户群的成员数,按照成员数将其从大到小排序,根据统计学中的分位数原则,取95%的成员数分位数作为养号数量阈值。根据尺度的不同可以取不同的分位数,如90%分位数、99%分位数等。在通过聚类得到多个账号群之后,将账号群中账号数量大于养号数量阈值的账号群确定为养号账户群。
基于同一发明构思,本发明第二实施例提供一种识别养号账户群的装置,如图3所示,所述装置包括:
获取模块201,用于获取多个账号的多个养成行为,所述养成行为用于变更所述账号的养成数据;
行为对确定模块202,用于基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对;
相似度确定模块203,用于将所有同步行为对对应的所有账号中的每两个不同的账号作为一个账号对,分别确定每个账号对中两个账号之间的账号相似度;
建立模块204,用于基于账号相似度大于相似度阈值的账号对,建立账号无向图;
聚类模块205,用于对所述账号无向图中的各个账号进行聚类,获得多个账号群;
养号账户群确定模块206,用于基于预设养号数量阈值,从所述多个账号群中确定出养号账户群。
优选的,行为对确定模块202,具体用于:
将所述行为时间的间隔小于同步时间阈值,且所述行为账号名不相同,且所述行为网络协议地址相同的两个养成行为确定为同步行为对。
优选的,相似度确定模块203,包括以下公式:
Figure BDA0002199409390000161
其中,sim(u,v)为账号u和账号v之间的账号相似度,k为养成行为的类型,n为养成行为的类型的总数量,
Figure BDA0002199409390000162
为预设时间段内账号u发生类型为k的养成行为的集合,
Figure BDA0002199409390000163
为所述预设时间段内账号u发生类型为k的养成行为的次数,
Figure BDA0002199409390000164
为预设时间段内账号v发生类型为k的养成行为的集合,
Figure BDA0002199409390000165
为所述预设时间段内账号v发生类型为k的养成行为的次数,
Figure BDA0002199409390000166
是所述预设时间段内账号u和账号v发生类型为k的养成行为的对数,β为大于1的第一常数,α为大于0且小于1的第二常数,w1为第一权重系数,w2为第二权重系数,w1和w2均在0和1之间取值,且w1和w2之和等于1。
优选的,建立模块204,具体用于:
对每个账号相似度大于相似度阈值的账号对而言,将所述账号对中的两个账号分别作为顶点,并将这两个账号对应的两个顶点进行连线,形成边。
优选的,聚类模块205,具体用于:
通过最大连通图方式对所述账号无向图中的各个账号进行聚类。
优选的,所述养成行为用于升级所述账号的经验。
基于同一发明构思,本发明第三实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述实施例所述的方法步骤。
基于同一发明构思,本发明第四实施例还提供了一种计算机设备,如图4所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机设备可以为包括手机、平板电脑、PDA(Personal DigitalAssistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备,以计算机设备为手机为例:
图4示出的是与本发明实施例提供的计算机设备相关的部分结构的框图。参考图4,该计算机设备包括:存储器301和处理器302。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图4对计算机设备的各个构成部件进行具体的介绍:
存储器301可用于存储软件程序以及模块,处理器302通过运行存储在存储器301的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储数据(比如音频数据、电话本等)等。此外,存储器301可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器302是计算机设备的控制中心,通过运行或执行存储在存储器301内的软件程序和/或模块,以及调用存储在存储器301内的数据,执行各种功能和处理数据。可选的,处理器302可包括一个或多个处理单元;优选的,处理器302可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。
在本发明实施例中,该计算机设备所包括的处理器302可以具有前述实施例中任一方法步骤所对应的功能。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种识别养号账户群的方法,其特征在于,所述方法包括:
获取多个账号的多个养成行为,所述养成行为用于变更所述账号的养成数据;
基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对;
将所有同步行为对对应的所有账号中的每两个不同的账号作为一个账号对,分别确定每个账号对中两个账号之间的账号相似度;
基于账号相似度大于相似度阈值的账号对,建立账号无向图;
对所述账号无向图中的各个账号进行聚类,获得多个账号群;
基于预设养号数量阈值,从所述多个账号群中确定出养号账户群。
2.如权利要求1所述的方法,其特征在于,所述基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对,包括:
将所述行为时间的间隔小于同步时间阈值且所述行为账号名不相同且所述行为网络协议地址相同的两个养成行为确定为同步行为对。
3.如权利要求1所述的方法,其特征在于,所述确定每个账号对中两个账号之间的账号相似度,包括以下公式:
Figure FDA0002199409380000011
其中,sim(u,v)为账号u和账号v之间的账号相似度,k为养成行为的类型,n为养成行为的类型的总数量,
Figure FDA0002199409380000012
为预设时间段内账号u发生类型为k的养成行为的集合,
Figure FDA0002199409380000021
为所述预设时间段内账号u发生类型为k的养成行为的次数,
Figure FDA0002199409380000022
为预设时间段内账号v发生类型为k的养成行为的集合,
Figure FDA0002199409380000023
为所述预设时间段内账号v发生类型为k的养成行为的次数,
Figure FDA0002199409380000024
是所述预设时间段内账号u和账号v发生类型为k的养成行为的对数,β为大于1的第一常数,α为大于0且小于1的第二常数,w1为第一权重系数,w2为第二权重系数,w1和w2均在0和1之间取值,且w1和w2之和等于1。
4.如权利要求1所述的方法,其特征在于,所述基于账号相似度大于相似度阈值的账号对,建立账号无向图,包括:
对每个账号相似度大于相似度阈值的账号对而言,将所述账号对中的两个账号分别作为顶点,并将这两个账号对应的两个顶点进行连线,形成边。
5.如权利要求1所述的方法,其特征在于,所述对所述账号无向图中的各个账号进行聚类,包括:
通过最大连通图方式对所述账号无向图中的各个账号进行聚类。
6.如权利要求1所述的方法,其特征在于,所述养成行为用于升级所述账号的经验。
7.一种识别养号账户群的装置,其特征在于,所述装置包括:
获取模块,用于获取多个账号的多个养成行为,所述养成行为用于变更所述账号的养成数据;
行为对确定模块,用于基于行为时间、行为账号名和行为网络协议地址,对所有养成行为中的每两个养成行为进行对比,确定出同步行为对;
相似度确定模块,用于将所有同步行为对对应的所有账号中的每两个不同的账号作为一个账号对,分别确定每个账号对中两个账号之间的账号相似度;
建立模块,用于基于账号相似度大于相似度阈值的账号对,建立账号无向图;
聚类模块,用于对所述账号无向图中的各个账号进行聚类,获得多个账号群;
养号账户群确定模块,用于基于预设养号数量阈值,从所述多个账号群中确定出养号账户群。
8.如权利要求7所述的方法,其特征在于,所述行为对确定模块,具体用于:
将所述行为时间的间隔小于同步时间阈值且所述行为账号名不相同且所述行为网络协议地址相同的两个养成行为确定为同步行为对。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一权利要求所述的方法步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一权利要求所述的方法步骤。
CN201910859818.1A 2019-09-11 2019-09-11 识别养号账号群的方法及装置 Active CN112487250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910859818.1A CN112487250B (zh) 2019-09-11 2019-09-11 识别养号账号群的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910859818.1A CN112487250B (zh) 2019-09-11 2019-09-11 识别养号账号群的方法及装置

Publications (2)

Publication Number Publication Date
CN112487250A true CN112487250A (zh) 2021-03-12
CN112487250B CN112487250B (zh) 2022-06-21

Family

ID=74920378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910859818.1A Active CN112487250B (zh) 2019-09-11 2019-09-11 识别养号账号群的方法及装置

Country Status (1)

Country Link
CN (1) CN112487250B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965846A (zh) * 2014-12-31 2015-10-07 深圳市华傲数据技术有限公司 MapReduce平台上的虚拟人建立方法
CN109525595A (zh) * 2018-12-25 2019-03-26 广州华多网络科技有限公司 一种基于时间流特征的黑产账号识别方法及设备
CN109543040A (zh) * 2018-11-26 2019-03-29 北京知道创宇信息技术有限公司 相似账户识别方法及装置
CN110147491A (zh) * 2019-04-11 2019-08-20 微梦创科网络科技(中国)有限公司 一种引流信息识别方法和装置
CN110210883A (zh) * 2018-05-09 2019-09-06 腾讯科技(深圳)有限公司 群控账号识别方法、装置、服务器及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965846A (zh) * 2014-12-31 2015-10-07 深圳市华傲数据技术有限公司 MapReduce平台上的虚拟人建立方法
CN110210883A (zh) * 2018-05-09 2019-09-06 腾讯科技(深圳)有限公司 群控账号识别方法、装置、服务器及存储介质
CN109543040A (zh) * 2018-11-26 2019-03-29 北京知道创宇信息技术有限公司 相似账户识别方法及装置
CN109525595A (zh) * 2018-12-25 2019-03-26 广州华多网络科技有限公司 一种基于时间流特征的黑产账号识别方法及设备
CN110147491A (zh) * 2019-04-11 2019-08-20 微梦创科网络科技(中国)有限公司 一种引流信息识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊茜等: "社交网络账号的马甲关系辨识方法", 《中文信息学报》 *

Also Published As

Publication number Publication date
CN112487250B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN110166344B (zh) 一种身份标识识别方法、装置以及相关设备
CN108491720B (zh) 一种应用识别方法、系统以及相关设备
CN105718848B (zh) 一种指纹图像的质量评估方法及装置
CN104391879B (zh) 层次聚类的方法及装置
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN105335368B (zh) 一种产品聚类方法及装置
CN107818301A (zh) 更新生物特征模板的方法、装置和电子设备
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
CN112463859B (zh) 基于大数据和业务分析的用户数据处理方法及服务器
CN108805174A (zh) 聚类方法及装置
CN111626360A (zh) 用于检测锅炉故障类型的方法、装置、设备和存储介质
CN111986027A (zh) 基于人工智能的异常交易处理方法、装置
CN110324352A (zh) 识别批量注册账号群的方法及装置
CN114117421A (zh) 用户访问行为的异常检测方法及装置
CN110876072A (zh) 一种批量注册用户识别方法、存储介质、电子设备及系统
CN112487250B (zh) 识别养号账号群的方法及装置
CN113569162A (zh) 数据处理方法、装置、设备及存储介质
CN115309985A (zh) 推荐算法的公平性评估方法及ai模型选择方法
CN109063721A (zh) 一种行为特征数据提取的方法及装置
CN114358548A (zh) 一种确定评价指标的方法、装置及电子设备
CN110677309B (zh) 人群聚类方法及系统、终端以及计算机可读存储介质
CN110826904A (zh) 风机的数据处理方法、装置、处理设备及可读存储介质
CN110570025A (zh) 一种微信文章真实阅读率的预测方法、装置及设备
CN116541252B (zh) 一种机房故障日志数据处理方法及装置
CN110852767A (zh) 客流量聚类方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant