CN110210883A

CN110210883A - 群控账号识别方法、装置、服务器及存储介质

Info

Publication number: CN110210883A
Application number: CN201810436890.9A
Authority: CN
Inventors: 周忠
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2019-09-06
Anticipated expiration: 2038-05-09
Also published as: CN110210883B

Abstract

本申请公开了一种群控账号识别方法、装置、服务器及存储介质，属于互联网领域。该方法包括：获取m个账号对应的历史行为数据，历史行为数据是使用账号执行目标操作时采集到的数据，每个账号对应至少一条历史行为数据，m≥2，m为整数；对于每个账号对应的历史行为数据，通过k个哈希函数对历史行为数据进行最小哈希运算，得到账号对应的k个最小哈希值，k≥2，k为整数；根据各个账号对应的最小哈希值，对m个账号进行聚类；根据聚类结果确定m个账号中的群控账号。本申请实施例中。基于账号的历史行为数据并采用最小哈希算法进行群控账号识别，能够提高群控账号的识别准确性以及识别效率。

Description

群控账号识别方法、装置、服务器及存储介质

技术领域

本申请实施例涉及互联网技术领域，特别涉及一种群控账号识别方法、装置、服务器及存储介质。

背景技术

随着互联网技术的不断发展，越来越多的广告商开始通过社交平台进行广告投放，以此提高广告的曝光度和点击率。

一种常见的广告投放方式中，广告商将广告投放到社交平台的大流量社交账号中，并采用点击收费(CPC，Cost Per Click)的模式支付投放费用，即广告商根据投放广告的实际点击次数，向大流量社交账号支付投放费用。然而，部分大流量社交账号通过群控软件批量控制账号模拟用户点击广告的行为，以此伪造广告点击次数，提高收取的投放费用，而此类被群控软件控制的账号被称为群控账号。为了识别出群控账号，相关技术中通过分析账号名、头像或地域等用户特征是否存在聚集的方式，将存在聚集的用户账号确定为群控账号，进而将群控账号的点击行为识别为群控点击行为。

然而，基于用户特征识别群控账号时，由于用户特征与群控点击行为之间的关联较低，导致群控账号的识别准确率较低。

发明内容

本申请实施例提供了一种群控账号识别方法、装置、服务器及存储介质，可以解决基于用户特征识别群控账号时，由于用户特征与群控点击行为之间的关联较低，导致群控账号的识别准确率较低的问题。所述技术方案如下：

第一方面，提供了一种群控账号识别方法，所述方法包括：

获取m个账号对应的历史行为数据，所述历史行为数据是使用账号执行目标操作时采集到的数据，每个账号对应至少一条所述历史行为数据，m≥2，m为整数；

对于每个账号对应的所述历史行为数据，通过k个哈希函数对所述历史行为数据进行最小哈希运算，得到所述账号对应的k个最小哈希值，k≥2，k为整数；

根据各个账号对应的所述最小哈希值，对m个所述账号进行聚类；

根据聚类结果确定m个所述账号中的群控账号。

第二方面，提供了一种群控账号识别装置，所述装置包括：

第一获取模块，用于获取m个账号对应的历史行为数据，所述历史行为数据是使用账号执行目标操作时采集到的数据，每个账号对应至少一条所述历史行为数据，m≥2，m为整数；

运算模块，用于对于每个账号对应的所述历史行为数据，通过k个哈希函数对所述历史行为数据进行最小哈希运算，得到所述账号对应的k个最小哈希值，k≥2，k为整数；

聚类模块，用于根据各个账号对应的所述最小哈希值，对m个所述账号进行聚类；

第一确定模块，用于根据聚类结果确定m个所述账号中的群控账号。

第三方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如第一方面所述的群控账号识别方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如第一方面所述的群控账号识别方法。

第五方面，提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述第一方面所述的群控账号识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取账号对应的历史行为数据，并通过k个哈希函数对各个账号的历史行为数据进行最小哈希运算，得到各个账号对应的k个最小哈希值，从而根据各个账号对应的最小哈希值对账号进行聚类，进而根据聚类结果确定出群控账号；由于群控账号通常是在同一时间段内批量执行操作，因此群控账号的历史行为存在相似性，相应的，基于账号的历史行为数据并采用最小哈希算法进行群控账号识别，能够提高群控账号的识别准确性以及识别效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的群控账号识别方法所涉及实施环境的示意图；

图2是用户点击公众号发表文章过程的实施示意图；

图3示出了本申请一个实施例提供的群控账号识别方法的方法流程图；

图4是本申请实施例提供的群控账号识别方法实施过程的实施示意图；

图5示出了本申请另一个实施例提供的群控账号识别方法的方法流程图；

图6是根据哈希桶中账号相似对生成的目标图的示意图；

图7示出了本申请另一个实施例提供的群控账号识别方法的方法流程图；

图8示出了本申请一个实施例提供的群控账号识别装置的框图；

图9示出了本申请一个实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的群控账号识别方法，可以用于统计社交平台中广告点击次数的场景，或者统计视频网站中视频点击率的场景，或者统计直播网站中直播间人数的场景。当然也可以适用于其他需要统计大量用户操作行为的场景，本申请实施例对此不做限定。

统计社交平台中广告点击次数的场景

广告商通过社交平台中的大流量社交账号投放广告时，需要根据广告的点击次数进行付费。而不法分子可能通过群控账号模拟用户点击广告的操作，以此增加广告的点击次数。在这种场景下，本申请提供的群控账号识别方法可以用于社交平台的后台服务器。后台服务器通过接收各个账号上报的广告点击数据，并基于该广告点击数据对广告点击行为高度相似的账号进行聚类，从而识别出其中的群控账号，以便还原出广告的真实点击次数。

统计视频网站中视频点击率的场景

视频网站通常在首页显示点击率较高的视频，而某些视频上传者为了提高自身视频的点击率，通过群控账号模拟用户点击播放视频的操作，从而将自己上传的视频推送至首页。通过这种作弊行为推送至首页的视频往往质量较差，影响用户的观看体验。在这种场景下，本申请提供的群控账号识别方法可以用于视频网站的后台服务器。后台服务器通过获取各个账号的视频播放数据，并基于该视频播放数据对视频播放行为高度相似的账号进行聚类，从而识别出其中的群控账号，以便还原出视频的真实点击率，避免视频通过作弊手段被推送至首页。统计直播网站中直播间人数的场景

直播网站通常根据各个直播间的人数进行直播间推荐。某些直播者为了提高自身人气，通过注册机器人账号，并群控机器人账号进入直播间观看直播，以此增加直播间人数。在这种场景下，本申请提供的群控账号识别方法可以用于直播网站的后台服务器。后台服务器通过获取各个账号的直播观看数据，并基于该直播观看数据对观看行为高度相似的账号进行聚类，从而识别出其中的机器人账号，以便还原出各个直播间的真实人数。

为了方便理解，下面对本申请实施例中涉及的名词进行解释。

哈希(hash)函数：又称为散列函数，是一种通过散列算法，将任意长度的输入转化为固定长度输出的函数，其输出被称为散列值。这种转化的本质是一种压缩映射，即哈希函数输出值的空间通常小于输入值的空间。其中，不同输入值对应的输出值可能相同，而不同输出值对应的输入值肯定不同。基于哈希原理的常见哈希算法包括消息摘要算法第四版(Message Digest Algorithm 4，MD4)、MD5和安全哈希算法(Secure Hash Algorithm，SHA1)等等。

本申请实施例中涉及的k个哈希函数均用于将历史行为数据转化为固定长度的数值字符串，且不同哈希函数所采用的映射方式不同，即同一历史行为数据输入不同的哈希函数后，得到的输出可能不同。

连通图：连通图一种由若干个顶点以及顶点间连线组成的图，且连通图中任意两个顶点之间相互连通。连通图通常分为无向连通图和有向连通图，其中，无向连通图中，顶点之间的连线没有方向性，而有向连通图中，顶点之间的连线具有方向性。

最大连通子图(或称为极大连通子图)则是一张图的子图，该子图中的各个顶点之间相互连通，且加入任意一个不在其顶点集中的顶点后，该子图将不再连通。本申请实施例中最大连通子图的顶点即为账号，而顶点之间的连线表明账号的历史行为相似。

请参考图1，其示出了本申请一个实施例提供的群控账号识别方法的实施环境的示意图。该实施环境中包括至少一个终端110和服务器120。

终端110是具有互联网访问功能的电子设备，该电子设备可以为智能手机、平板电脑、台式计算机或个人便携式计算机等等。本申请实施例中，终端110中安装有社交类应用程序，并登陆有相应的(社交)账号。通过使用该账号，终端110可以对社交平台上其他用户或公众号发表的内容(包括文章、视频、广告、图片等等)进行操作(包括点赞、分享、评论、转发等等)。

终端110与服务器120之间通过有线或无线网路相连。

服务器120是一台服务器、若干台服务器构成的服务器集群或云计算中心。可选的，本申请实施例中，服务器120是终端110中社交类应用程序的后台服务器。下述各个实施例提供的群控账号识别方式即用于图1所示的服务器120中。

本申请实施例中，终端110使用账号执行特定操作时，会将执行特定操作时采集到的数据作为该账号的行为数据上报至服务器120，以便服务器120后续不同账号的历史行为数据识别其中的群控账号。

终端110使用账号执行特定操作时，会将执行特定操作时采集到的数据作为该账号的行为数据上报至服务器120，服务器120对接收到的行为数据进行存储，以便后续不同账号的历史行为数据识别其中的群控账号。

可选地，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

在一种可能的应用场景下，当广告商通过社交平台的公众号进行广告投放时，公众号发表的文章中会嵌入广告，而关注该公开号的用户通过社交账号浏览文章时，则有可能会点击文章中的广告。如图2所示，公众号A发表了嵌入有广告的文章a1、a2和a3，公众号B发表了嵌入有广告的文章a4和a5，公众号C发表了嵌入有广告的文章a6和a7。用户u1关注了公众号A和公众号B，并点击了文章a1、a2、a4和a6中的广告；用户u2关注了公众号A、公众号B和公众号C，并点击了文章a2、a4和a6；用户u3关注了公众号B和公众号C，并点击了文章a5和a6。

由于群控账号通常是批量执行相同的操作，且不同群控账号执行的操作相同或相似，因此，服务器可以根据账号的历史行为识别群控账号。比如，服务器可以基于不同用户(账号)点击文章的文章集合，通过计算文章集合间的Jaccard相似度来识别群控账号。其中，文章集合间的Jaccard相似度＝文章集合的交集/文章集合的并集。

结合图2所示，用户u1对应的文章集合A1＝{a1,a2,a4,a6}，用户u2对应的文章集合A2＝{a2,a4,a6}，用户u3对应的文章集合A3＝{a5,a6}，计算得到A1与A2的相似度＝3/4，A1和A3的相似度＝1/5，A2和A3的相似度＝1/4。

相应的，当文章集合间的Jaccard相似度大于相似度阈值时，服务器即将对应的账号确定为群控账号。比如，当相似度阈值为0.5时，由于A1和A2的Jaccard相似度大于相似度阈值，因此服务器将用户u1和用户u2对应的账户确定为群控账户。

采用上述方式识别群控账号时，根据账号的历史行为识别群控账号的准确率得到提升，但是当账号数量过大，或账号的点击操作行为次数过多时(数据的特征空间的维度过大)，计算Jaccard相似度会耗费大量时间，导致此方法无法适用于海量数据场景下的群控账号识别。

为了解决海量数据下识别速率较低这一问题，本申请实施例在基于账号的历史行为数据识别群控账号时，采用最小哈希算法降低数据维度，以此提高群控账号的识别速率，下面采用示意性的实施例进行说明。

请参考图3，其示出了本申请一个实施例提供的群控账号识别方法的方法流程图，该方法用于图1所示实施环境中的服务器120，该方法包括如下步骤。

步骤301，获取m个账号对应的历史行为数据，历史行为数据是使用账号执行目标操作时采集到的数据，每个账号对应至少一条历史行为数据，m≥2，m为整数。

可选的，该历史行为数据由终端使用账号执行目标操作时上报给服务器，并由服务器进行存储。

可选的，该目标操作包括对操作对象的分享操作、点击操作、评论操作、转发操作和收藏操作中的至少一种，且所述操作对象包括文章、广告、音频、视频和图片中的至少一种。本实施例仅以上述操作为例进行示意性说明，并不对目标操作的具体类型构成限定。

比如，账号A对应的一条历史行为数据用于指示用户使用账号A对某一篇文章的点赞操作。

其中，每条历史行为数据中包含执行目标操作时终端(登录有账号)本身的参数，和/或，目标操作对应操作对象的参数。

可选的，历史行为数据中包含执行目标操作时终端的互联网协议(InternetProtocol，IP)地址、接入无线保真(Wireless-Fidelity，WiFi)的WiFi标识(BSSID或SSID)和地理位置信息(GPS坐标)中的至少一种；和/或，历史行为数据中包含操作对象的对象标识，比如，该对象标识可以为文章标识、视频标识、广告标识和发布操作对象的发布方(例如公众号)的标识中的至少一种。

比如，账号A对应的一条历史行为数据中包含发布方标识“zhangsan”以及文章标识“article001”，表示用户使用账号A对公众号“zhangsan”发布的文章“article001”进行了点赞操作。

可选的，该历史行为数据中还包括目标操作的操作标识，本实施例并不对此进行限定。

步骤302，对于每个账号对应的历史行为数据，通过k个哈希函数对历史行为数据进行最小哈希运算，得到账号对应的k个最小哈希值，k≥2，k为整数。

由于存在海量账号，且每个账号可能对应大量历史行为数据，即历史行为数据的数据特征维度较大，为了降低数据特征维度，对于每个账号对应的历史行为数据，服务器使用预先设置的k个哈希函数对历史行为数据进行最小哈希(minhash)运算，以降低历史特征数据的数据特征维度。其中，经过最小哈希运算后，每个账号对应的历史行为数据被转化为k个最小哈希值，即历史特征数据的数据特征维度被降至k。

可选的，为了保证群控账号识别的准确性，k的值由开发人员根据经验预设设置，避免k过大(数据特征维度过大影响识别效率)或过小(数据特征维度过小影响识别准确性)。

可选的，各个哈希函数用于将输入的数据转化为8bit的数字字符串。

步骤303，根据各个账号对应的最小哈希值，对m个账号进行聚类。

经过最小哈希值运算后，服务器得到每个账号对应的k个最小哈希值(表征账号的历史行为特征)，进一步的，服务器通过最小哈希值，对m个账号进行聚类，其中，聚类后属于同一类的账号的历史行为特征相似。

步骤304，根据聚类结果确定m个账号中的群控账号。

根据聚类结果，服务器将属于同一类的账号确定为群控账号。

可选的，当用户间的相似度较高时，其账号对应的历史行为数据可能因高度相似而被聚类到同一类中，因此，为了提高识别准确性，服务器获取各个群控账号对应的账号特征，该账号特征包括账号头像特征、账号昵称特征、账号地域特征或账号等级特征中的至少一种，并筛选出账号特征符合预设账号特征的群控账号。其中，预设账号特征是分析样本群控账号得到的账号特征，包括头像特征(使用默认头像或无头像)、账号昵称特征(使用无意义的随机字符串)、账号地域特征或账号等级特征(等级低于等级阈值)中的至少一种。

综上所述，本实施例中，通过获取账号对应的历史行为数据，并通过k个哈希函数对各个账号的历史行为数据进行最小哈希运算，得到各个账号对应的k个最小哈希值，从而根据各个账号对应的最小哈希值对账号进行聚类，进而根据聚类结果确定出群控账号；由于群控账号通常是在同一时间段内批量执行操作，因此群控账号的历史行为存在相似性，相应的，基于账号的历史行为数据并采用最小哈希算法进行群控账号识别，能够提高群控账号的识别准确性以及识别效率。

在一种可能的实施方式中，如图5所示，服务器首先通过k个哈希函数，分别对各个账号对应的历史行为数据进行最小哈希运算，得到各个账号对应的k个最小哈希值。然后，服务器将k个最小哈希值划分到i个最小哈希组中，并使用目标哈希函数，对每个最小哈希组进行哈希运算。并将具有相同哈希值的最小哈希组对应的账号划分至同一哈希桶(同一哈希桶中账号的历史行为相似，属于同一类)中。进一步的，服务器将哈希桶中的账号组合为帐号对，从而根据账号对生成m个账号对应的目标图(表示账号之间历史行为的相似关系)，最终基于目标图的最大连通图识别m个账号中的群控账号。下面采用示意性的实施例进行说明。

请参考图5，其示出了本申请另一个实施例提供的群控账号识别方法的方法流程图，该方法用于图1所示实施环境中的服务器120，该方法包括如下步骤。

步骤501，接收并存储各个终端上报的行为数据。

在一种可能的实施方式中，当终端使用账号执行了目标操作时，终端即向服务器上报相关的行为数据，相应的，服务器接收该行为数据，并将行为数据与账号进行绑定存储。该行为数据包括执行目标操作时采集到的IP地址、WiFi标识、地理位置信息或操作对象的对象标识中的至少一种。

可选的，终端上报行为数据的同时，还上报执行目标操作时的执行时间以及账号标识，示意性的，服务器中行为数据与账号之间的对应关系如表一所示。

表一

账号标识	执行时间	IP地址	对象标识
				Zhangsan	2018/4/25 19:00:00	49.76.220.246	文章1
Lisi	2018/4/24 17:00:00	49.76.221.158	文章2
				Wangwu	2018/4/25 19:00:01	49.76.220.246	文章1

比如，当终端中的社交应用程序使用账号“zhangsan”登陆，并接收到用户对公众号中某篇文章的点赞操作时，社交应用程序获取该文章的标识(即对象标识)以及终端当前的IP地址，从而向服务器上报账号标识、执行时间、IP地址以及对象标识等数据。

步骤502，根据行为数据的上报时间，获取预定时段内m个账号对应的历史行为数据。

当账号对应的历史行为数据较少时，群控账号的识别准确率较低，为了提高群控账号的识别准确率，服务器根据行为数据的上报时间，获取当前时刻之前预定时段内各个账号对应的历史行为数据。比如，该预定时段为最近15天，服务器即获取当前时刻之前15天内终端上报的行为数据。

可选的，当获取到的历史行为数据的数据量过小时，服务器可以上调预定时段的时长，从而获取更多的历史行为数据，本实施例并不对此进行限定。

在一个示意性的例子中，以历史行为数据为文章标识时，服务器获取到m个账号对应的历史行为数据如表二所示。

表二

	u<sub>1</sub>	u<sub>2</sub>	…	u<sub>m-1</sub>	u<sub>m</sub>
						a<sub>1</sub>	0	1	…	1	1
a<sub>2</sub>	0	1	…	1	0
						…	…	…	…	…	…
a<sub>n-1</sub>	1	0	…	0	0
						a<sub>n</sub>	0	0	…	0	0

其中，u₁至u_m为账号标识，a₁至a_n为应历史行为数据中文章标识的合集，且表格中的0表示该账号未对文章进行操作，表格中的1表示该账号对文章进行过操作。

步骤503，通过k个哈希函数中的第i个哈希函数，对账号对应的各条历史行为数据进行哈希运算，得到各条历史行为数据对应的哈希值，1≤i≤k。

服务器获取各个账号对应历史行为数据的最小哈希值时，首先使用各个哈希函数对账号的各条历史行为数据进行哈希运算，得到相应的哈希值。

比如，账号u₁对应的历史行为数据集合表示为A1，A1中包含若干文章标识，服务器通过第i个哈希函数h_i对A1中的各个文章标识进行哈希运算，得到各个文章标识对应的哈希值h_i(a)，a∈A1。

步骤504，将哈希值中的最小值确定为第i个哈希函数对应的最小哈希值。

进一步的，对于各条历史行为数据对应的哈希值，服务器将其中的最小值确定为第i个哈希函数对应的最小哈希值，记做minhash_i，其中，

minhash_i＝min{h_i(a)，|a∈A1}。

在一个示意性的例子中，A1中包含文章标识a₃、a₈、a₁₁和a_n-1，通过第i个哈希函数对各个文章标识进行哈希运算后，得到h_i(a₃)＜h_i(a₁₁)＜h_i(a_n-1)＜h_i(a₈)，服务器将h_i(a₃)确定为minhash_i。

确定出第i个哈希函数对应的最小哈希值，服务器通过上述步骤503至504确定第i+1个哈希函数对应的最下哈希值，最终得到账号对应k个最小哈希值，记做{minhash₁，minhash₂，…，minhash_k}。

结合表二所示，服务器使用k个哈希函数对历史行为数据进行最小哈希运算后，将表二转化为表三。

表三

	u<sub>1</sub>	u<sub>2</sub>	…	u<sub>m-1</sub>	u<sub>m</sub>
						minhash<sub>1</sub>	0	1	…	1	3
minhash<sub>2</sub>	2	4	…	4	4
						…	…	…	…	…	…
minhash<sub>k-1</sub>	4	2	…	2	6
						minhash<sub>k</sub>	3	2	…	2	4

经过最小哈希运算后，历史行为数据的数据特征维度有n降低为k，得到了降维的效果。

步骤505，将各个账号对应的k个最小哈希值划分为j个最小哈希组，每个最小哈希组中包含k/j个最小哈希值，k/j≥2，且k/j为整数。

通过上述步骤，服务器计算得到每个账号对应的k个最小哈希值，进一步的，服务器采用局部敏感哈希算法(Locality Sensitive Hashing，LSH)，基于各个账号的最小哈希值，对账号进行聚类。

在一种可能的实施方式中，为了降低运算难度，服务器将各个账号对应的k个最小哈希值划分为j个最小哈希组，进而根据各个最小哈希组中的k/j个最小哈希值进行账号聚类。

在一个示意性的例子中，当每个账号对应60个最小哈希值时，服务器将相邻的3个最小哈希值划分到同一最小哈希组中，得到20个最小哈希组。其中，第1个最小哈希组中的最小哈希值表四所示。本申请实施例并不对最小哈希组的具体划分方式进行限定。

表四

	u<sub>1</sub>	u<sub>2</sub>	…	u<sub>m-1</sub>	u<sub>m</sub>
						minhash<sub>1</sub>	0	1	…	0	3
minhash<sub>2</sub>	2	4	…	2	4
						minhash<sub>3</sub>	4	5	…	4	1

步骤506，对于每个最小哈希组，根据k/j个最小哈希值生成最小哈希字符串。

对于每个最小哈希组中各个账号对应的k/j个最小哈希值，服务器采用预定方式对k/j个最小哈希值拼接为字符串，得到最小哈希字符串。

在一种可能的实施方式中，服务器采用预设连接符对k/j个最小哈希值进行拼接，从而得到最小哈希字符串。

比如，当预设连接符为“_”，且最小哈希组中包含3个最小哈希值时，拼接得到的最小哈希字符串被表示为“minhash_3b+1_minhash_3b+2_minhash_3b+3”，0≤b＜k/3。

步骤507，通过目标哈希函数，计算最小哈希字符串对应的目标哈希值。

对于同一最小哈希组中不同账号对应的最小哈希字符串，服务器使用目标哈希函数计算各个最小哈希字符串对应目标哈希值，以便后续基于目标哈希值确定最小哈希字符串的相似程度。

可选的，该目标哈希函数为LSH函数，用于将相似度较高的数据以较高的概率映射到同一哈希值中，即将相似度高于阈值(比如80％)的最小哈希字符串以较高的概率映射到同一哈希值中。

结合表四所示的数据，服务器通过目标哈希函数分别计算第1个最小哈希组中，u₁对应最小哈希字符串“0_2_4”的目标哈希值，u₂对应最小哈希字符串“1_4_5”的目标哈希值，u_m-1对应最小哈希字符串“0_2_4”的目标哈希值，u_m对应最小哈希字符串“3_4_1”的目标哈希值。

步骤508，将同一最小哈希组中具有相同目标哈希值的账号作为同一类账号，添加到同一哈希桶中。

本实施例中，以使用哈希桶进行聚类为例进行说明。对于同一最小哈希组中具有相同目标哈希值的账号，服务器将该账号添加到同一哈希桶中，其中，每个哈希桶中包含至少两个目标哈希值相同的账号。

结合表四中的数据，由于第1个最小哈希组中u₁和u_m-1对应的最小哈希字符串相同，因此将两个最小哈希字符输入目标哈希函数后得到的目标哈希值相同，相应的，服务器将u₁和u_m-1添加到同一哈希桶中。

服务器通过上述步骤对划分得到的各个最小哈希组进行处理，得到若干个哈希桶，其中，每个最小哈希组对应0个或至少一个哈希桶，且同一哈希桶中的账号的历史行为相似。

步骤509，对于每个哈希桶，根据哈希桶中的账号生成账号相似对，每个账号相似对包含两个账号。

本实施例中，哈希桶即对应聚类后的一个类。

在一种可能的实施方式中，服务器对每个哈希桶中的账号进行两两组合，从而生成若干个相似对。

比如，哈希桶B中包含5个账号，对5个账号进行两两组合，共生成5×(5-1)÷2＝10个账号相似对。

步骤510，根据m个账号和账号相似对，生成m个账号对应的目标图，目标图的顶点为账号，目标图的边为账号相似对。

可选的，服务器遍历每个哈希桶中的账号相似对，并以账号为图的顶点，以账号相似对为图中顶点之间的边，生成m个账号对应的目标图。本申请实施例并不对生成目标图的具体方式进行限定。

示意性的，服务器生成的目标图如图6所示。

步骤511，获取目标图中的最大连通子图。

可选的，服务器通过最大连通子图算法，获取目标图中的最大连通子图。本申请实施例并不对采用何种最大连通子图算法进行限定。

可选的，该目标图中最大连通子图的数量为至少一个，本申请并不对最大连通子图的数量进行限定。

示意性的，如图6所示，服务器获取到的最大连通子图中包含顶点u₁、u₂、u₃、u₄、u₅和u₆。

步骤512，将最大连通子图中各个顶点对应的账号确定为群控账号。

服务器基于获取到的最大连通子图，将最大连通子图中各个顶点对应的账号确定为群控账号。

可选的，由于群控账号的数量通常较多且分布密集，因此，终端检测最大连通子图的顶点数量是否达到数量阈值，并在顶点数量达到数量阈值时，将最大连通子图中各个顶点对应的账号确定为群控账号。比如，该数量阈值可以为200。

示意性的，如图6所示，服务器确定u₁、u₂、u₃、u₄、u₅和u₆为群控账号。

需要说明的是，上述实施例中，以历史行为数据为点击文章的文章标识为例进行说明，在其他可能的实施方式中，该历史行为数据还可以是发表文章的公众号的标识、点击操作时采集到的IP地址、WiFi标识或地理位置信息等等，本申请实施例在此不再赘述。

本实施例中，服务器根据账号的对应的最小哈希值，将具有相似历史行为的账号划分至同一哈希桶中，并基于哈希桶中的账号相似对生成目标图，最终基于目标图的最大连通子图识别出群控账号，提高了群控账号的识别准确性。

为了消除群控用户作弊行为所产生的影响，服务器对群控用户执行的操作进行过滤，可选的，在图5的基础上，如图7所示，步骤512之后还包括如下步骤。

步骤513，获取使用群控账号执行目标操作的无效执行次数。

对于识别出的群控账号，服务器根据群控账号的历史行为数据，统计使用该账号执行目标操作的执行次数，并将该执行次数确定为无效执行次数。可选的，服务器获取无效执行次数的同时，获取目标操作对应操作对象的对象标识。

比如，服务器根据群控账号u₁的历史行为数据，统计得到u₁对文章1的点击次数为10次，对文章2的点击次数为5次。

步骤514，根据无效执行次数和目标操作的实际执行次数，确定目标操作的有效执行次数。

进一步的，服务器获取操作对象所接收到目标操作的实际执行次数，并通过上述步骤得到的无效执行次数进行修正，得到目标操作的有效执行次数，其中，有效执行次数＝实际执行次数-无效执行次数。

比如，服务器获取到文章1的实际点击次数为1000次，且文章1的无效执行次数为200次，从而确定文章1的实际点击次数为800次。后续在终端上显示文章的点击数时，即显示800次，而非1000次。

通过上述方法，采用相同行为模式的账号将被识别为群控账号，而不法分子为了绕开上述识别策略，需要针对不同账号设置不同的行为模式，导致无法批量完成群控操作，极大提高了不法分子的作弊成本。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图8，其示出了本申请一个实施例提供的群控账号识别装置的框图。该装置可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

第一获取模块810，用于获取m个账号对应的历史行为数据，所述历史行为数据是使用账号执行目标操作时采集到的数据，每个账号对应至少一条所述历史行为数据，m≥2，m为整数；

运算模块820，用于对于每个账号对应的所述历史行为数据，通过k个哈希函数对所述历史行为数据进行最小哈希运算，得到所述账号对应的k个最小哈希值，k≥2，k为整数；

聚类模块830，用于根据各个账号对应的所述最小哈希值，对m个所述账号进行聚类；

第一确定模块840，用于根据聚类结果确定m个所述账号中的群控账号。

可选的，所述目标操作包括对操作对象的分享操作、点击操作、转发操作和收藏操作中的至少一种，所述操作对象包括文章、广告、音频、视频和图片中的至少一种；

所述历史行为数据包括执行所述目标操作时采集到的互联网协议IP地址、无线保真WiFi标识、地理位置信息和所述操作对象的对象标识中的至少一种。

可选的，所述运算模块820，包括：

哈希运算单元，通过k个所述哈希函数中的第i个哈希函数，对所述账号对应的各条所述历史行为数据进行哈希运算，得到各条所述历史行为数据对应的哈希值，1≤i≤k；

第一确定单元，用于将所述哈希值中的最小值确定为所述第i个哈希函数对应的所述最小哈希值。

可选的，所述聚类模块830，包括：

划分单元，用于将各个账号对应的k个所述最小哈希值划分为j个最小哈希组，每个最小哈希组中包含k/j个所述最小哈希值，k/j≥2，且k/j为整数；

第一生成单元，用于对于每个最小哈希组，根据k/j个所述最小哈希值生成最小哈希字符串；

计算单元，用于通过目标哈希函数，计算所述最小哈希字符串对应的目标哈希值；

添加单元，用于将同一最小哈希组中具有相同目标哈希值的账号作为同一类账号，添加到同一哈希桶中。

可选的，所述第一确定模块840，包括：

第二生成单元，用于对于聚类后的每个类，根据同一类中的账号生成账号相似对，每个账号相似对包含两个账号；

第三生成单元，用于根据m个所述账号和所述账号相似对，生成m个所述账号对应的目标图，所述目标图的顶点为所述账号，所述目标图的边为所述账号相似对；

第一获取单元，用于获取所述目标图中的最大连通子图；

第二确定单元，用于将所述最大连通子图中各个顶点对应的账号确定为所述群控账号。

可选的，所述装置包括：

第二获取模块，用于获取使用所述群控账号执行所述目标操作的无效执行次数；

第二确定模块，用于根据所述无效执行次数和执行所述目标操作的实际执行次数，确定执行所述目标操作的有效执行次数。

可选的，所述第一获取模块810，包括：

接收单元，用于接收并存储各个终端上报的行为数据；

第二获取单元，用于根据所述行为数据的上报时间，获取预定时段内m个所述账号对应的所述历史行为数据。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供一种服务器，该服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述各个实施例提供的群控账号识别方法。

请参考图9，其示出了本申请一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例提供的群控账号识别方法。具体来讲：

所述服务器900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904，以及连接系统存储器904和中央处理单元901的系统总线905。所述服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906，和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。

所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说，所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。

根据本发明的各种实施例，所述服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在所述系统总线1505上的网络接口单元911连接到网络912，或者说，也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统。

所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述方法中各个步骤的功能。

本申请实施例还提供一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述各个实施例提供的群控账号识别方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

Claims

1.一种群控账号识别方法，其特征在于，所述方法包括：

根据聚类结果确定m个所述账号中的群控账号。

2.根据权利要求1所述的方法，其特征在于，所述目标操作包括对操作对象的分享操作、点击操作、评论操作、转发操作和收藏操作中的至少一种，所述操作对象包括文章、广告、音频、视频和图片中的至少一种；

3.根据权利要求1或2所述的方法，其特征在于，所述通过k个哈希函数对所述历史行为数据进行最小哈希运算，得到所述账号对应的k个最小哈希值，包括：

通过k个所述哈希函数中的第i个哈希函数，对所述账号对应的各条所述历史行为数据进行哈希运算，得到各条所述历史行为数据对应的哈希值，1≤i≤k；

将所述哈希值中的最小值确定为所述第i个哈希函数对应的所述最小哈希值。

4.根据权利要求1或2所述的方法，其特征在于，所述根据各个账号对应的所述最小哈希值，对m个所述账号进行聚类，包括：

将各个账号对应的k个所述最小哈希值划分为j个最小哈希组，每个最小哈希组中包含k/j个所述最小哈希值，k/j≥2，且k/j为整数；

对于每个最小哈希组，根据k/j个所述最小哈希值生成最小哈希字符串；

通过目标哈希函数，计算所述最小哈希字符串对应的目标哈希值；

将同一最小哈希组中具有相同目标哈希值的账号作为同一类账号，添加到同一哈希桶中。

5.根据权利要求1或2所述的方法，其特征在于，所述根据聚类结果确定m个所述账号中的群控账号，包括：

对于聚类后的每一类，根据同一类中的账号生成账号相似对，每个账号相似对包含两个账号；

根据m个所述账号和所述账号相似对，生成m个所述账号对应的目标图，所述目标图的顶点为所述账号，所述目标图的边为所述账号相似对；

获取所述目标图中的最大连通子图；

将所述最大连通子图中各个顶点对应的账号确定为所述群控账号。

6.根据权利要求1或2所述的方法，其特征在于，所述根据聚类结果确定m个所述账号中的群控账号之后，所述方法还包括：

获取使用所述群控账号执行所述目标操作的无效执行次数；

根据所述无效执行次数和所述目标操作的实际执行次数，确定所述目标操作的有效执行次数。

7.根据权利要求1或2所述的方法，其特征在于，所述获取m个账号对应的历史行为数据，包括：

接收并存储各个终端上报的行为数据；

根据所述行为数据的上报时间，获取预定时段内m个所述账号对应的所述历史行为数据。

8.一种群控账号识别装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述目标操作包括对操作对象的分享操作、点击操作、转发操作和收藏操作中的至少一种，所述操作对象包括文章、广告、音频、视频和图片中的至少一种；

10.根据权利要求8或9所述的装置，其特征在于，所述运算模块，包括：

11.根据权利要求8或9所述的装置，其特征在于，所述聚类模块，包括：

12.根据权利要求8或9所述的装置，其特征在于，所述第一确定模块，包括：

第二生成单元，用于对于聚类后的每一类，根据同一类中的账号生成账号相似对，每个账号相似对包含两个账号；

第一获取单元，用于获取所述目标图中的最大连通子图；

13.根据权利要求8或9所述的装置，其特征在于，所述装置包括：

第二确定模块，用于根据所述无效执行次数和所述目标操作的实际执行次数，确定所述目标操作的有效执行次数。

14.根据权利要求8或9所述的装置，其特征在于，所述第一获取模块，包括：

接收单元，用于接收并存储各个终端上报的行为数据；

15.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至7任一所述的群控账号识别方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器执行以实现如权利要求1至7任一所述的群控账号识别方法。