CN111091391B - 用于识别作弊用户的方法、装置和电子设备 - Google Patents

用于识别作弊用户的方法、装置和电子设备 Download PDF

Info

Publication number
CN111091391B
CN111091391B CN201811241546.0A CN201811241546A CN111091391B CN 111091391 B CN111091391 B CN 111091391B CN 201811241546 A CN201811241546 A CN 201811241546A CN 111091391 B CN111091391 B CN 111091391B
Authority
CN
China
Prior art keywords
attribute
users
user
group
attribute value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811241546.0A
Other languages
English (en)
Other versions
CN111091391A (zh
Inventor
张宇仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811241546.0A priority Critical patent/CN111091391B/zh
Publication of CN111091391A publication Critical patent/CN111091391A/zh
Application granted granted Critical
Publication of CN111091391B publication Critical patent/CN111091391B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud

Landscapes

  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了用于识别作弊用户的方法、装置和电子设备。该方法的一具体实施方式包括:基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性;对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组;对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于所述多个用户的差异程度;基于所述相似度与所述差异程度确定该用户组是否为作弊用户组。一方面实现了对作弊群体进行识别,另一方面降低了识别作弊群体的计算量。

Description

用于识别作弊用户的方法、装置和电子设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种用于识别作弊用户的方法、装置和电子设备。
背景技术
随着互联网技术的不断发展,互联网上的作弊现象也越来越多。常见的作弊类型包括:曝光作弊,通过刷粉、刷赞、刷销量提高曝光率;转化作弊:在注册、激活、下单等不同场景下通过自动化程序的模拟真人行为等。互联网作弊会严重危害到互联网平台安全性、氛围以及公平性。黑色产业链发现通过互联网坐标获得大量收益,逐渐发展出日益专业化、协作化和规模化的群组作弊的趋势。
但目前对于群组作弊还没有较好的识别方法。
发明内容
本发明实施例提供了一种用于识别作弊用户的方法、装置和电子设备,实现了使用较少的计算量,来对作弊群体进行识别。
第一方面,本发明实施例提供了一种用于识别作弊用户的方法,该方法包括:基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,其中,所述目标组合属性包括至少一个所述属性;对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组,其中所述组合属性值包括该目标组合属性中的每一个属性所对应的属性值;对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于所述多个用户的差异程度;基于所述相似度与所述差异程度确定该用户组是否为作弊用户组。
可选地,基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,包括:所述基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,包括:从所述多个用户的历史用户日志中,确定出多个属性;对所述多个属性进行组合以得到多个组合属性,其中,每一个组合属性包括至少一个所述属性;基于各组合属性分别所对应的组合属性值的数量,确定出至少一个目标组合属性。
可选地,所述基于所述相似度与所述差异程度确定该用户组是否为作弊用户组,包括:基于所述相似度与所述差异程度的乘积确定该用户组的作弊置信度;响应于所述作弊置信度大于预设作弊置信度阈值,则确定该用户组为作弊用户组。
可选地,该方法还包括:对于每一个用户,从该用户所属的不同用户组分别对应的作弊置信度中查找作弊置信度的最大值,并将所述作弊置信度的最大值确定为该用户的作弊置信度,以确定该用户是否为作弊用户。
可选地,该方法还包括:对于每一个用户,将该用户的作弊置信度所对应的用户组中的其他用户作为该用户的关联作弊用户。
可选地,对于该用户组的历史用户日志中的每一属性,该组用户的相似度与该属性的、所对应的用户数量最大的属性值的占比正相关,其中,所述所对应的用户数量最大的属性值的占比为该属性值对应的用户数量与该用户组中的用户数量之比。
可选地,对于每一个用户组,该用户组的相似度与所述多个用户中,同时具有该用户组的目标组合属性值子组的各属性值的用户数量正相关;其中,所述目标组合属性值子组基于如下步骤确定:从该用户组的各用户的历史用户日志所具有的各个属性的属性值中确定出多个组合属性值子组,其中,所述组合属性值子组中所包括的属性值的数量大于该用户组所对应的组合属性值中的属性值的数量;将在该用户组中所对应的用户的数量大于其他组合属性值子组在该用户组中所对应的用户数量的组合属性值子组确定为该用户组的目标组合属性值子组。
可选地,对于每一个用户组,该组用户的差异程度与该组用户对应的历史用户日志的每一属性的分布直方图差异正相关;其中每一个属性的分布直方图差异由如下步骤确定:确定该用户组的该属性的分布直方图;确定所述多个用户的该属性的分布直方图;基于预设统计方法从所述该用户组的该属性的分布直方图和所述多个用户的该属性的分布直方图中统计出该属性的分布直方图差异。
可选地,对于每一个用户组的每一属性,该组用户的差异程度与该用户组的该属性的目标属性值的统计出现概率负相关;其中所述该用户组的该属性的目标属性值的统计出现概率由如下步骤确定:在所述多个用户中,确定该属性下的各属性值所对应的用户数量;对于每一属性值,基于该属性值所对应的用户数量与所述多个用户的数量之比确定该属性值的出现概率;将该属性的目标属性值的出现概率与该属性的多个所述属性值对应的出现概率中各小于所述目标属性值的出现概率的出现概率进行累加,得到目标属性值的统计出现概率;以及该用户组的目标属性值由如下步骤确定:对于该用户组各用户的历史用户日志的每一个属性,统计该属性的各属性值分别对应的用户数量;将所对应的用户数量最多的一个属性值作为该用户组的该属性的目标属性值。
可选地,对于每一用户组,该组用户的相似度S1由如下公式确定:S1=((c1+c2+…+ci+…+cn)/n)log(I);其中,I是该组用户的总数量;n是该组用户对应的目标组合属性中所包括的属性的总数量,n为大于等于1,且小于等于用户历史日志所对应的属性的总数量的正整数;c1是该组用户对应的目标组合属性中的第1个属性对应的用户数量最大的属性值的占比;c2是该组用户对应的目标组合属性中第2个属性对应的用户数量最大的属性值的占比;ci是该组用户对应的目标组合属性中的第i个属性对应的用户数量最大的属性值的占比;i为大于等于1小于等于n的正整数;cn是该组用户对应的目标组合属性中的第n个属性对应的用户数量最大的属性值的占比;ci大于等于零,小于等于1;S1大于等于零,小于等于1。
第二方面,本发明实施例提供了一种用于识别作弊用户的装置,包括:目标组合属性确定单元,用于基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,其中,目标组合属性包括至少一个属性;用户组确定单元,用于对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组,其中组合属性值包括该目标组合属性中的每一个属性所对应的属性值;相似度及差异程度确定单元,用于对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于多个用户的差异程度;作弊用户确定单元,用于基于相似度与差异程度确定该用户组是否为作弊用户组。
可选地,目标组合属性确定单元进一步用于:从多个用户的历史用户日志中,确定出多个属性;对多个属性进行组合以得到多个组合属性,其中,每一个组合属性包括至少一个属性;基于各组合属性分别所对应的组合属性值的数量,确定出至少一个目标组合属性。
可选地,所述作弊用户确定单元进一步用于:基于所述相似度与所述差异程度的乘积确定该用户组的作弊置信度;响应于所述作弊置信度大于预设作弊置信度阈值,则确定该用户组为作弊用户组。
可选地,作弊用户确定单元进一步用于:对于每一个用户,从该用户所属的不同用户组分别对应的作弊置信度中查找作弊置信度的最大值,并将作弊置信度的最大值确定为该用户的作弊置信度,以确定该用户是否为作弊用户。
可选地,作弊用户确定单元进一步用于:对于每一个用户,将该用户的作弊置信度所对应的用户组中的其他用户作为该用户的关联作弊用户。
可选地,对于每一用户组的历史用户日志中的每一属性,该组用户的相似度与该属性的、所对应的用户数量最大的属性值的占比正相关,其中,所述所对应的用户数量最大的属性值的占比为该属性值对应的用户数量与该用户组中的用户数量之比。
可选地,对于每一个用户组,该用户组的相似度与所述多个用户中,同时具有该用户组的目标组合属性值子组的各属性值的用户数量正相关;以及所述装置还包括目标组合属性值子组确定单元,所述目标组合属性值子组确定单元用于:从该用户组的各用户的历史用户日志所具有的各个属性的属性值中确定出多个组合属性值子组,其中,所述组合属性值子组中所包括的属性值的数量大于该用户组所对应的组合属性值中的属性值的数量;将在该用户组中所对应的用户的数量大于其他组合属性值子组在该用户组中所对应的用户数量的组合属性值子组确定为该用户组的目标组合属性值子组。
可选地,对于每一用户组,该组用户的差异程度与该组用户对应的历史用户日志的每一属性的分布直方图差异正相关;以及所述装置还包括分布直方图确定单元,所述分布直方图确定单元用于:确定该用户组的该属性的分布直方图;确定所述多个用户的该属性的分布直方图;基于预设统计方法从所述该用户组的该属性的分布直方图和所述多个用户的该属性的分布直方图中统计出该属性的分布直方图差异。
可选地,对于每一个用户组的每一属性,该组用户的差异程度与该用户组的该属性的目标属性值的统计出现概率负相关;以及所述装置还包括统计出现概率确定单元和目标属性值确定单元,其中所述统计出现概率确定单元用于:在所述多个用户中,确定该属性下的各属性值所对应的用户数量;对于每一属性值,基于该属性值所对应的用户数量与所述多个用户的数量之比确定该属性值的出现概率;将该属性的目标属性值的出现概率与该属性的多个所述属性值对应的出现概率中各小于所述目标属性值的出现概率的出现概率进行累加,得到目标属性值的统计出现概率;以及所述目标属性值确定单元用于:对于该用户组各用户的历史用户日志的每一个属性,统计该属性的各属性值分别对应的用户数量;将所对应的用户数量最多的一个属性值作为该用户组的该属性的目标属性值。
可选地,所述相似度及差异程度确定单元进一步用于:对于每一用户组,基于如下公式该组用户的相似度S1:
S1=((c1+c2+…+ci+…+cn)/n)log(I) (1);
其中,I是该组用户的总数量;n是该组用户对应的目标组合属性中所包括的属性的总数量,n为大于等于1,且小于等于用户历史日志所对应的属性的总数量的正整数;c1是该组用户对应的目标组合属性中的第1个属性对应的用户数量最大的属性值的占比;c2是该组用户对应的目标组合属性中第2个属性对应的用户数量最大的属性值的占比;ci是该组用户对应的目标组合属性中的第i个属性对应的用户数量最大的属性值的占比;i为大于等于1小于等于n的正整数;cn是该组用户对应的目标组合属性中的第n个属性对应的用户数量最大的属性值的占比;ci大于等于零,小于等于1;S1大于等于零,小于等于1。
第三方面,本发明实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述任意一种用于识别作弊用户的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现上述任意一种用于识别作弊用户的方法的步骤。
本发明实施例提供的用于识别作弊用户的方法、装置和电子设备,通过首先基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,其中,目标组合属性包括至少一个属性;接着,对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组,其中组合属性值包括该目标组合属性中的每一个属性所对应的属性值;之后,对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于多个用户的差异程度;最后,基于上述相似度和上述差异程度确定该组用户是否为作弊用户组;从而一方面实现了对作弊群体进行识别,另一方面由于仅采用用户的历史用户日志来识别作弊群体,可以降低识别作弊群体的计算量。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明的用于识别作弊用户的方法的一个实施例的流程图;
图2是根据本发明的用于识别作弊用户的方法的又一个实施例的流程图;
图3是根据本发明的用于识别作弊用户的装置的一个实施例的结构示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是根据本发明实施例提供的电子设备的基本结构的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解。应当将它们认为仅仅是示范性的。因此本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
请参考图1,图1其示出了根据本发明的用于识别作弊用户的方法的一个实施例的流程。如图1所示该用于识别作弊用户的方法,包括以下步骤:
步骤101,基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性。
通常,用户每次通过客户端的浏览器访问网络时,或者用户通过安装在终端设备的应用访问网络时,网络服务器都会产生一条访问记录。该条访问记录即为用户日志。通常用户日志可以包括用户标识、操作类型、访问时间、注册渠道、设备类型、网络类型、所在位置、IP地址、浏览器版本号或者应用版本号等属性。
对于每一个属性,可以对应多个属性值。例如操作类型属性的属性值可以包括:注册、登录、发稿、购买、评论、点赞等。
对于每一个属性,每一个用户可以对应一个属性值。不同用户所对应的属性值可能相同,也可能不相同。例如设备类型属性,不同用户所使用的设备的类型可能完全相同,也可能不完全相同,因此,对于设备类型属性,不同用户的设备类型属性值可以相同,也可以不相同。
在本实施例中,可以首先从目标页面的多个用户的历史用户日志中,确定出多个属性,然后再对多个属性进行组合,得到多个组合属性,最后从多个组合属性中确定出至少一个目标组合属性。其中,目标组合属性可以包括至少一个上述属性。
上述对多个属性进行组合,例如可以将上述多个属性的一个属性作为一个组合属性,还可以将上述多个属性值的任意两个属性作为一个组合属性等等。若上述历史用户日志的上述属性的数量为m,则上述组合属性的数量可以为2m-1个。这里的m为大于1的正整数。例如,若上述历史用户日志包括用户标识、操作类型、IP地址3个属性。则上述组合属性的数量可以包括23-1=7个。也就是说,可以将上述用户标识、操作类型、IP地址这3个属性进行组合,得到7个组合属性:用户标识;操作类型;IP地址;用户标识、操作类型;用户标识、IP地址;操作类型、IP地址;用户标识、操作类型、IP地址。
可以根据预设规则从多个组合属性中确定出至少一个目标组合属性。其中,目标组合属性可以包括上述多个属性中的至少一个属性。
也就是说,目标组合属性中可以包括上述历史用户日志的多个属性中的一个属性,也可以包括上述历史用户日志的多个属性中的两个以上的上述属性。
在一些实施例中,上述基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,包括如下步骤:
首先,从上述多个用户的历史用户日志中,确定出多个属性。
其次,对上述多个属性进行组合以得到多个组合属性。其中,每一个组合属性包括上述多个属性值的至少一个属性。
最后,基于各组合属性分别对应的组合属性值的数量,确定出至少一个目标组合属性。
这里的组合属性对应的组合属性值,包括上述组合属性中的每一个属性所对应的属性值。
可以首先确定每一个组合属性所对应的组合属性值的数量。然后,根据每一个组合属性所对应的组合属性值的数量,确定出至少一个目标组合属性。
需要说明的是,这里每一个组合属性所对应的组合属性值的数量是指该组合属性所对应的不相同的组合属性值的数量。任意两个组合属性值不相同,是指该两组的组合属性值中至少包括一个不相同的属性值。在一些应用场景中,可以预先设置一个数量阈值。若一个组合属性所对应的属性值的数量大于上述预设数量阈值,则该组合属性为目标组合属性。
仍以上述历史用户日志包括用户标识、操作类型、IP地址3个属性为例进行说明。若组合属性操作类型、IP地址对应所对应的不同组合属性值的数量大于上述预设数量阈值,则上述操作类型与IP地址组成的组合属性为目标组合属性。
在另外一些应用场景中,可以将各组合属性按照所对应的组合属性值的数量从多到少进行排序,可以将排序号小于预设序号阈值的至少一个组合属性作为目标组合属性。上述预设序号阈值可以是任意大于1的正整数。
步骤102,对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组。
在步骤102中,对于每一个目标组合属性,可以根据该目标组合属性的各个组合属性值将不同用户进行分组。对于每一个目标组合属性,可以得到对应该目标组合属性的不同组合属性值的多个用户组。其中,组合属性值包括该目标组合属性的每一个属性所对应的属性值。
进一步地,根据上述各个目标组合属性分别对应的组合属性值对应上述多个用户进行分组,可以得到多个用户组。
需要指出的是,对于任意两个分别属于不同目标组合属性的组合属性值而言,这两个组合属性值分别对应的用户组中可以包括相同的用户。
步骤103,对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于多个用户的差异程度。
对于每一用户组,可以使用现有的各种计算相似度的方法来对该组用户各自对应的历史用户日志进行计算,以得到该组用户的相似度。现有的计算相似度的方法例如可以包括:
在一些实现方式中,对于该组用户的历史用户日志中的每一属性,该组用户的相似度与该属性的、所对应的用户数量最大的属性值的占比正相关。其中,上述所对应的用户数量最大的属性值的占比为该组中该属性值对应的用户数量与该用户组中的总用户数量之比。也就是说,首先确定该属性中各属性值分别对应的用户数量,然后,从各属性值中确定出所对应的用户数量最大的一个属性值。并将所对应的用户数量最大的属性值对应的用户数量与该用户组的总用户数量之比作为该属性的、所对应的用户数量最大的属性值的占比。
例如,对于一个由操作类型对应属性值B1、IP地址对应的属性值D1所确定的用户组的用户数量为100。在该用户组中操作类型的属性值B1的占比和IP地址对应的属性值D1的占比均为1,而该用户组中其他属性的属性值例如注册渠道属性可以对应多个属性值F1、F2、F3。在该用户组中,具有注册渠道的属性值F1、F2、F3的用户数量分别为50,20、30。因此,对于注册渠道属性,所对应的用户数量最多的属性值为F1,确定F1的占比为50/100=1/2。该组用户的相似度与操作类型的属性值B1的占比、IP地址对应的属性值D1的占比、以及注册渠道属性F1的占比均正相关。
具体地,该组用户的相似度S1可以由如下公式来统计:
S1=((c1+c2+…+ci+…+cn)/n)log(I) (1);
其中,I是该组用户的总数量。n是该组用户对应的目标组合属性中所包括的属性的总数量,n为大于等于1,且小于等于用户历史日志所对应的属性的总数量的正整数。c1是该组用户对应的目标组合属性中的第1个属性对应的用户数量最大的属性值的占比;c2是该组用户对应的目标组合属性中第2个属性对应的用户数量最大的属性值的占比;ci是该组用户对应的目标组合属性中的第i个属性对应的用户数量最大的属性值的占比。i为大于等于1小于等于n的正整数。cn是该组用户对应的目标组合属性中的第n个属性对应的用户数量最大的属性值的占比。ci大于等于零,小于等于1。
在这些实施方式中,每一用户组的相似度除了与上述该组用户的历史用户日志中的每一属性所对应的用户数量最大的属性值的占比正相关之外,还与该组用户的用户数量相关。
在一些实现方式中,对于每一个用户组,该用户组的相似度与上述目标页面的多个用户中,同时具有该用户组的目标组合属性值子组的各属性值的用户数量正相关。其中,目标组合属性值子组基于如下步骤确定:从该用户组的各用户的历史用户日志所具有的各个属性的属性值中确定出多个组合属性值子组,其中,组合属性值子组中所包括的属性值的数量大于该用户组所对应的组合属性值中的属性值的数量;将在该用户组中所对应的用户的数量大于其他组合属性值子组在该用户组中所对应的用户数量的组合属性值子组确定为该用户组的目标组合属性值子组。
例如,一个用户组B,由组合属性操作类型、IP地址所对应的组合属性值a、b生成。也就是说,将目标页面的多个用户中同时具有属性值a、b的多个用户归为用户组B。该用户组B中的用户还具有其他属性的属性值。例如设备类型属性的属性值c,d。注册渠道属性的属性值e,f等。可以确定该用户组B的组合属性值子组:a、b、c;a、b、d;a、b、e;a、b、f;a、b、c、e;a、b、c、f;a、b、d、e;a、b、d、f等。可以分别确定在用户组B中,各组合属性值子组分别对应的用户的数量。每一个组合属性值子组所对应的用户的数量,也就是用户组B中,同时具有该组合属性值子组中的各属性值的用户的数量。若上述组合属性值子组a、b、c在用户组B中所对应的用户的数量大于其他属性值子组在用户组B所对应的用户的数量,则上述组合属性值子组a、b、c为用户组B的目标组合属性值子组。具体而言,对于每一个用户组,该用户组的相似度与上述目标页面的多个用户中,同时具有该用户组的目标组合属性值子组的各属性值的用户数量与上述多个用户的比值正相关。
在这些实现方式中,每一个用户组,该组用户的相似度S2可以用如下公式来表示:
S2=1-(1-j/N)log(I) (2);
其中,I为该用户组的用户的总数量。N为上述目标页面的多个用户的数量。j为上述N个用户中同时具有该用户组的目标组合属性值子组中各属性值的用户的数量。
从上述表达式中,可以看出,对于每一个用户组,该组用户的相似度还与该组用户的数量正相关。
在本实施例中,对于每一用户组,可以通过各种方法来确定该组用户相对于上述目标页面的多个用户的差异程度。
在一些实现方式中,对于每一用户组,该组用户的差异程度与该组用户对应的历史用户日志的每一个属性的分布直方图差异正相关;其中每一个属性的分布直方图差异由如下步骤确定:确定该用户组的该属性的分布直方图;确定多个用户的该属性的分布直方图;基于预设统计方法从该用户组的该属性的分布直方图和多个用户的该属性的分布直方图中统计出该属性的分布直方图差异。
在这些实现方式中,对于每一个用户组的每一个属性,可以首先使用统计方法确定该属性的分布直方图。可以使用上述统计方法确定上述目标页面的多个用户中的该属性的分布直方图。
然后再根据该用户组中该属性的分布直方图以及目标页面的多个用户的该属性的分布直方图来统计该属性的分布直方图差异。例如,使用海林格距离(Hellingerdistance)计算公式来计算上述该用户组中该属性的分布直方图以及目标页面的多个用户的该属性的分布直方图来统计该属性的分布直方图的距离,将上述距离作为该属性的分布直方图差异。需要说明的是海林格距离计算公式及其使用方法是目前广泛研究和应用的公知技术,此处不赘述。
在这些实现方式中,对于每一用户组,该组用户的差异程度A1可以由如下公式来表征:
Figure GDA0002981216680000131
其中,k为该组用户所对应的属性的总数量。i为大于等于1,小于等于k的正整数。ab(i)为第i个属性所对应的属性的分布直方图差异。
在一些实现方式中,对于每一个用户组的每一属性,该组用户的差异程度与该用户组的该属性的目标属性值的统计出现概率负相关。
其中,该用户组的该属性的目标属性值的统计出现概率由如下步骤确定:在多个用户中,确定该属性下的各属性值所对应的用户数量;对于每一属性值,基于该属性值所对应的用户数量与多个用户的数量之比确定该属性值的出现概率;将该属性的目标属性值的出现概率与该属性的多个属性值对应的出现概率中各小于目标属性值的出现概率的出现概率进行累加,得到目标属性值的统计出现概率。
该用户组的目标属性值可以由如下步骤确定:对于该用户组各用户的历史用户日志的每一个属性,统计该属性的各属性值分别对应的用户数量;将所对应的用户数量最多的一个属性值作为该用户组的该属性的目标属性值。
在这些实现方式中,对于每一用户组,该组用户的差异程度A2可以由如下公式来表征:
Figure GDA0002981216680000132
其中,k为该组用户所对应的属性的数量。i为大于等于1,小于等于k的正整数。cipf(i)为第i个属性所对应的目标属性值的统计出现概率。
也就是说,对于任意一个属性值,一个用户组中具有该属性值的用户最多,而同时上述目标页面的多个用户中,具有该属性值的用户的数量较少,则该用户组的异常程度较高。
步骤104,基于相似度与差异程度确定该用户组是否为作弊用户组。
对于每一组用户,可以基于该组用户的相似度与差异程度确定该组 用户是否为作弊用户。
作为一种实现方式,可以将所对应的相似度大于预设相似度阈值,以及差异程度也大于预设差异阈值的一个用户组确定为作弊用户组。
在一些实现方式中,上述步骤104的基于相似度与差异程度确定该用户组是否为作弊用户组,可以包括如下步骤:
首先,基于相似度与差异程度的乘积确定该用户组的作弊置信度。
在这些实现方式中,对于任一用户组,可以根据该用户的相似度,以及该组用户相对于上述目标页面的多个用户的差异程度的乘积来确定该组用户的作弊置信度。
在一些应用场景中,可以将上述该组用户的相似度与该组用户相对于上述目标页面的多个用户的差异程度的乘积作为该用户组的作弊置信度。
其次,响应于作弊置信度大于预设作弊置信度阈值,则确定该用户组为作弊用户组。
在这些实现方式中,对于任一用户组,可以首先将该用户组的作弊置信度与预设作弊置信度阈值进行比较。若作弊置信度大于预设作弊置信度阈值,则确定该用户组为作弊用户组。
上述预设作弊置信度阈值可以根据具体地应用场景进行设定,此处不进行限定。
例如,对于网站AA的目标页面AA1,可以获取在当前时间点之前的预设时间段之间的多个用户的历史用户日志。在上述预设时间段之间有1000个用户。这里1000个用户的历史用户日志可以包括多个属性。这里的历史用户日志多个属性例如可以包括用户标识、操作类型、注册渠道、设备类型。可以从上述多个属性中确定出目标组合属性:操作类型、注册渠道,操作类型、设备类型。对于目标组合属性操作类型和注册渠道,可以确定出组合属性值:操作类型1和注册渠道1;操作类型2和注册渠道2;操作类型3和注册渠道3。对于目标组合属性操作类型、设备类型,可以确定出组合属性值:操作类型1、设备类型1;操作类型2、设备类型2;操作类型3、设备类型3。对于每一个组合属性值,将同时具有该组合属性值的每一个属性值的不同用户归为同一用户组。例如对于组合属性值操作类型1、设备类型1,将在上述1000个用户中,同时具有操作类型1、设备类型1的不同用户归为同一用户组。这样,对于上述组合属性值:操作类型1、注册渠道1;操作类型2、注册渠道2;操作类型3、注册渠道3;操作类型1、设备类型1;操作类型2、设备类型2;操作类型3,设备类型3;可以得到6个用户组:用户组1、用户组2、用户组3、用户组4、用户组5和用户组6。不同的用户组可以包括相同的用户。对于上述6个用户组中的每一用户组,可以基于该用户组中各用户的历史用户日志所对应的各属性的属性值,确定该组用户的相似度,以及确定该组用户相对于上述1000个用户的差异程度。若用户组1、用户组2、用户组3、用户组4、用户组5和用户组6各组用户对应的相似度分别为0.6、0.5、0.4、0.2、0.4、0.3;若用户组1、用户组2、用户组3、用户组4、用户组5和用户组6各组用户相对于上述1000个用户的差异程度分别为0.3、0.4、0.2、0.1、0.2、0.5;若每一用户组的作弊置信度为该组用户相似度与该组用户相对于1000个用户的差异程度的乘积。可以得到用户组1、用户组2、用户组3、用户组4、用户组5和用户组6作弊置信度分别为:0.18,0.2,0.08,0.02,0.08,0.15。对于每一用户组,可以将该用户组对应的作弊置信度与预设作弊置信度阈值进行比较,若该用户组的作弊置信度大于上述预设坐标置信度阈值,则可以确定该用户组为作弊用户组。以预设作弊置信度阈值为0.17为例,上述用户组1、用户组2、用户组3、用户组4、用户组5和用户组6中的用户组1、用户组2均为作弊用户组。
本发明的上述实施例提供的方法通过首先基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,其中,目标组合属性包括至少一个属性;接着,对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组,其中组合属性值包括组合属性中的每一个属性所对应的属性值;之后,对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于多个用户的差异程度;最后,基于上述相似度和上述差异程度确定该组用户是否为作弊用户组;从而一方面实现了对作弊群体进行识别,另一方面由于仅采用用户的历史用户日志来识别作弊群体,可以降低识别作弊群体的计算量。
进一步参考图2,其示出了用于识别作弊用户的方法的又一个实施例的流程图。如图2所示,该用于识别作弊用户的方法的流程,包括以下步骤:
步骤201,基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性。
步骤201与图1所示实施例中的步骤101相同,此处不赘述。
步骤202,对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组。
步骤202与图1所示实施例中的步骤102相同,此处不赘述。
步骤203,对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于多个用户的差异程度。
步骤203与图1所示实施例中的步骤103相同,此处不赘述。
步骤204,基于相似度与差异程度的乘积确定该用户组的作弊置信度。
步骤204可以参考图1所示实施例中的相关说明,此处不赘述。
步骤205,响应于作弊置信度大于预设作弊置信度阈值,则确定该用户组为作弊用户组。
步骤205可以参考图1所示实施例中的相关说明,此处不赘述。
步骤206,对于每一个用户,从该用户所属的不同用户组分别对应的作弊置信度中查找作弊置信度的最大值,并将作弊置信度的最大值确定为该用户的作弊置信度,以确定该用户是否为作弊用户。
在本实施例中,对于每一个用户,可以从该用户所属的不同用户组分别对应的作弊置信度中,将最大的作弊置信度确定为该用户的作弊置信度。
对于任意一个用户可以通过上述方式确定出该用户的作弊置信度。
进一步地,对于每一个用户,可以将通过上述方式得到的该用户的作弊置信度与预设作弊置信度阈值进行比较,若该用户的作弊置信度大与上述预设作弊置信度阈值,则该用户为作弊用户。否则,该用户为非作弊用户。这样一来,对于任意一个用户,可以通过上述方式来确定该用户是否为作弊用户。从而对人工确认一个用户是否为作弊用户提供了便利。
在一些实现方式中,上述用于识别作弊用户的方法还包括:对于每一个用户,将该用户的作弊置信度所对应的用户组中的其他用户作为该用户的关联作弊用户。
在这些实现方式中,若确定一个用户为作弊用户,可以通过上述方式确定出与该用户关联的关联作弊用户。以便于对关联作弊用户集中进行干预,从而可以提高干预作弊用户的效率。
从图2中可以看出,与图1对应的实施例相比,本实施例中的用于识别作弊用户的方法的流程突出了确定单个用户的作弊置信度,根据用户的作弊置信度确定单个用户是否为作弊用户,为确认一个用户是否为作弊用户提供了便利。此外,图2所示实施例还提出了确定作弊用户的关联作弊用户的方法,可以提高对作弊用户进行干预的效率。
进一步参考图3,作为对上述各图所示方法的实现,本发明提供了一种用于识别作弊用户的装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例的用于识别作弊用户的装置包括:目标组合属性确定单元301、用户组确定单元302、相似度及差异程度确定单元303、和作弊用户确定单元304。其中,目标组合属性确定单元301,用于基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,其中,目标组合属性包括至少一个属性。用户组确定单元302,用于对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组,其中组合属性值包括该目标组合属性中的每一个属性所对应的属性值。相似度及差异程度确定单元302,用于对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于多个用户的差异程度。作弊用户确定单元304,用于基于相似度与差异程度确定该用户组是否为作弊用户组。
在本实施例中,用于识别作弊用户的装置的目标组合属性确定单元301、用户组确定单元302、相似度及差异程度确定单元303、和作弊用户确定单元304。的具体处理及其所带来的技术效果可分别参考图1对应实施例中步骤101、步骤102、步骤103和步骤104的相关说明,在此不再赘述。
在一些实现方式中,目标组合属性确定单元301进一步用于:从多个用户的历史用户日志中,确定出多个属性;对多个属性进行组合以得到多个组合属性,其中,每一个组合属性包括至少一个属性;基于各组合属性分别所对应的组合属性值的数量,确定出至少一个目标组合属性。
在一些实现方式中,作弊用户确定单元304进一步用于:基于相似度与差异程度的乘积确定该用户组的作弊置信度;响应于作弊置信度大于预设作弊置信度阈值,则确定该用户组为作弊用户组。
在一些实现方式中,作弊用户确定单元304进一步用于:对于每一个用户,从该用户所属的不同用户组分别对应的作弊置信度中查找作弊置信度的最大值,并将作弊置信度的最大值确定为该用户的作弊置信度,以确定该用户是否为作弊用户。
在一些实现方式中,作弊用户确定单元304进一步用于:对于每一个用户,将该用户的作弊置信度所对应的用户组中的其他用户作为该用户的关联作弊用户。
在一些实现方式中,对于每一用户组的历史用户日志中的每一属性,该组用户的相似度与该属性的、所对应的用户数量最大的属性值的占比正相关,其中,所述所对应的用户数量最大的属性值的占比为该属性值对应的用户数量与该用户组中的用户数量之比。
在一些实现方式中,对于每一个用户组,该用户组的相似度与多个用户中,同时具有该用户组的目标组合属性值子组的各属性值的用户数量正相关。以及该装置还包括目标组合属性值子组确定单元(图中未示出),目标组合属性值子组确定单元用于:从该用户组的各用户的历史用户日志所具有的各个属性的属性值中确定出多个组合属性值子组,其中,组合属性值子组中所包括的属性值的数量大于该用户组所对应的组合属性值中的属性值的数量;将在该用户组中所对应的用户的数量大于其他组合属性值子组在该用户组中所对应的用户数量的组合属性值子组确定为该用户组的目标组合属性值子组。
在一些实现方式中,对于每一用户组,该组用户的差异程度与该组用户对应的历史用户日志的每一属性的分布直方图差异正相关。以及该装置还包括分布直方图确定单元(图中未示出),分布直方图确定单元用于:确定该用户组的该属性的分布直方图;确定多个用户的该属性的分布直方图;基于预设统计方法从该用户组的该属性的分布直方图和多个用户的该属性的分布直方图中统计出该属性的分布直方图差异。
在一些实现方式中,对于每一个用户组的每一属性,该组用户的差异程度与该用户组的该属性的目标属性值的统计出现概率负相关。以及装置还包括统计出现概率确定单元(图中未示出)和目标属性值确定单元(图中未示出)。其中,统计出现概率确定单元用于:在多个用户中,确定该属性下的各属性值所对应的用户数量;对于每一属性值,基于该属性值所对应的用户数量与多个用户的数量之比确定该属性值的出现概率;将该属性的目标属性值的出现概率与该属性的多个属性值对应的出现概率中各小于目标属性值的出现概率的出现概率进行累加,得到目标属性值的统计出现概率;以及目标属性值确定单元用于:对于该用户组各用户的历史用户日志的每一个属性,统计该属性的各属性值分别对应的用户数量;将所对应的用户数量最多的一个属性值作为该用户组的该属性的目标属性值。
在一些实现方式中,对于每一用户组,该组用户的相似度S1由如下公式确定:
S1=((c1+c2+…+ci+…+cn)/n)log(I) (1);
其中,I是该组用户的总数量。n是该组用户对应的目标组合属性中所包括的属性的总数量,n为大于等于1,且小于等于用户历史日志所对应的属性的总数量的正整数。c1是该组用户对应的目标组合属性中的第1个属性对应的用户数量最大的属性值的占比;c2是该组用户对应的目标组合属性中第2个属性对应的用户数量最大的属性值的占比;ci是该组用户对应的目标组合属性中的第i个属性对应的用户数量最大的属性值的占比。i为大于等于1小于等于n的正整数。cn是该组用户对应的目标组合属性中的第n个属性对应的用户数量最大的属性值的占比。ci大于等于零,小于等于1。S1大于等于零,小于等于1。
请参考图4,图4示出了可以应用本发明的用于识别作弊用户的方法或用于识别作弊用户的装置的实施例的示例性系统架构。
如图4所示,系统架构可以包括终端设备401、402、403,网络404、406和第一服务器405、第二服务器407。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络406用以在第一服务器405和第二服务器407之间提供通信链路的介质。网络404、406可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备401、402、403可以通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种客户端应用,例如网页浏览器应用、搜索类应用、新闻资讯类应用、文本编辑类应用等。
终端设备401、402、403可以是具有显示屏并且支持文本编辑的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机、电子书阅读器等等。当终端设备401、42、403为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
终端设备401、402、403可以接收用户在终端设备的显示的网页页面或应用的显示页面的各种操作,并将用户的信息例如用户的标识信息以及终端设备的信息(例如设备类型、IP地址)等发送给服务器405。
第一服务器405可以提供各种服务,例如接收存储终端设备401、402、403发送的用户的操作信息以及用户信息、设备信息,并根据上述信息生成用户日志。
第二服务器406可以提供各种服务,例如可以从第一服务器获取多个用户的用户日志,并对多个用户的用户日志进行分析,从而确定作弊用户组。
需要说明的是,本发明实施例所提供的用于识别作弊用户的方法一般由第二服务器406执行,相应地,用于识别作弊用户的装置一般设置于第二服务器406中。
需要说明的是,在一些应用场景中,上述第一服务器405和第二服务器可以位于相同电子设备中。
应该理解,图4中的终端设备、网络和第一服务器、第二服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和第一服务器、第二服务器。
下面参考图5,其示出了适于用来实现本发明实施例的电子设备的基本结构示意图。图5示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备可以包括一个或多个处理器501,存储装置502。存储装置502用户存储一个或多个程序。存储装置502中的一个或多个程序可以被一个或多个处理器501执行。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器可以实现本发明任意实施例提供的方法。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括目标组合属性确定单元、用户组确定单元、相似度及差异程度确定单元和作弊用户确定单元。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,目标组合属性确定单元还可以被描述为“基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性的单元”。
作为另一方面,本发明实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。本发明的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行本发明任意实施例提供的用于识别作弊用户的方法。例如,基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,其中,目标组合属性包括至少一个属性;对于每一个目标组合属性,确定该组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组,其中组合属性值包括组合属性中的每一个属性所对应的属性值;对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于多个用户的差异程度;基于相似度与差异程度确定该用户组是否为作弊用户组。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (22)

1.一种用于识别作弊用户的方法,其特征在于,包括:
基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,其中,所述目标组合属性包括至少一个所述属性;
对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组,其中所述组合属性值包括该目标组合属性中的每一个属性所对应的属性值;
对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于所述多个用户的差异程度;
基于所述相似度是否大于预设相似度阈值与所述差异程度是否大于预设差异程度阈值,或者基于所述相似度与所述差异程度的乘积,确定该用户组是否为作弊用户组。
2.根据权利要求1所述的方法,其特征在于,所述基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,包括:
从所述多个用户的历史用户日志中,确定出多个属性;
对所述多个属性进行组合以得到多个组合属性,其中,每一个组合属性包括至少一个所述属性;
基于各组合属性分别所对应的组合属性值的数量,确定出至少一个目标组合属性。
3.根据权利要求1所述的方法,其特征在于,所述基于所述相似度是否大于预设相似度阈值与所述差异程度是否大于预设差异程度阈值,或者基于所述相似度与所述差异程度的乘积,确定该用户组是否为作弊用户组,包括:
基于所述相似度与所述差异程度的乘积确定该用户组的作弊置信度;
响应于所述作弊置信度大于预设作弊置信度阈值,则确定该用户组为作弊用户组。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对于每一个用户,从该用户所属的不同用户组分别对应的作弊置信度中查找作弊置信度的最大值,并将所述作弊置信度的最大值确定为该用户的作弊置信度,以确定该用户是否为作弊用户。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对于每一个用户,将该用户的作弊置信度所对应的用户组中的其他用户作为该用户的关联作弊用户。
6.根据权利要求1-5任一项所述的方法,其特征在于,对于该用户组的历史用户日志中的每一属性,该组用户的相似度与该属性的、所对应的用户数量最大的属性值的占比正相关,其中,所述所对应的用户数量最大的属性值的占比为该属性值对应的用户数量与该用户组中的用户数量之比。
7.根据权利要求1-5任一项所述的方法,其特征在于,
对于每一个用户组,该用户组的相似度与所述多个用户中,同时具有该用户组的目标组合属性值子组的各属性值的用户数量正相关;其中,所述目标组合属性值子组基于如下步骤确定:
从该用户组的各用户的历史用户日志所具有的各个属性的属性值中确定出多个组合属性值子组,其中,所述组合属性值子组中所包括的属性值的数量大于该用户组所对应的组合属性值中的属性值的数量;将在该用户组中所对应的用户的数量大于其他组合属性值子组在该用户组中所对应的用户数量的组合属性值子组确定为该用户组的目标组合属性值子组。
8.根据权利要求1-5任一项所述的方法,其特征在于,对于每一个用户组,该组用户的差异程度与该组用户对应的历史用户日志的每一属性的分布直方图差异正相关;其中
每一个属性的分布直方图差异由如下步骤确定:
确定该用户组的该属性的分布直方图;确定所述多个用户的该属性的分布直方图;基于预设统计方法从所述该用户组的该属性的分布直方图和所述多个用户的该属性的分布直方图中统计出该属性的分布直方图差异。
9.根据权利要求1-5任一项所述的方法,其特征在于,对于每一个用户组的每一属性,该组用户的差异程度与该用户组的该属性的目标属性值的统计出现概率负相关;其中
所述该用户组的该属性的目标属性值的统计出现概率由如下步骤确定:在所述多个用户中,确定该属性下的各属性值所对应的用户数量;对于每一属性值,基于该属性值所对应的用户数量与所述多个用户的数量之比确定该属性值的出现概率;将该属性的目标属性值的出现概率与该属性的多个所述属性值对应的出现概率中各小于所述目标属性值的出现概率的出现概率进行累加,得到目标属性值的统计出现概率;以及
该用户组的目标属性值由如下步骤确定:
对于该用户组各用户的历史用户日志的每一个属性,统计该属性的各属性值分别对应的用户数量;将所对应的用户数量最多的一个属性值作为该用户组的该属性的目标属性值。
10.根据权利要求1-5任一项所述的方法,其特征在于,对于每一用户组,该组用户的相似度S1由如下公式确定:
S1=((c1+c2+…+ci+…+cn)/n)log(I) (1);
其中,I是该组用户的总数量;n是该组用户对应的目标组合属性中所包括的属性的总数量,n为大于等于1,且小于等于用户历史日志所对应的属性的总数量的正整数;c1是该组用户对应的目标组合属性中的第1个属性对应的用户数量最大的属性值的占比;c2是该组用户对应的目标组合属性中第2个属性对应的用户数量最大的属性值的占比;ci是该组用户对应的目标组合属性中的第i个属性对应的用户数量最大的属性值的占比;i为大于等于1小于等于n的正整数;cn是该组用户对应的目标组合属性中的第n个属性对应的用户数量最大的属性值的占比;ci大于等于零,小于等于1;S1大于等于零,小于等于1。
11.一种用于识别作弊用户的装置,其特征在于,包括:
目标组合属性确定单元,用于基于从目标页面的多个用户的历史用户日志的多个属性中,确定出至少一个目标组合属性,其中,所述目标组合属性包括至少一个所述属性;
用户组确定单元,用于对于每一个目标组合属性,确定该目标组合属性对应的至少一个组合属性值,以及对于每一个组合属性值,将同时具有该组合属性值中的每一个属性值的不同用户归为同一用户组,其中所述组合属性值包括该目标组合属性中的每一个属性所对应的属性值;
相似度及差异程度确定单元,用于对于每一用户组,基于该用户组中各用户的历史用户日志所对应的各属性的属性值确定该组用户的相似度,以及确定该组用户相对于所述多个用户的差异程度;
作弊用户确定单元,用于基于所述相似度是否大于预设相似度阈值与所述差异程度是否大于预设差异程度阈值,或者基于所述相似度与所述差异程度的乘积确定该用户组是否为作弊用户组。
12.根据权利要求11所述的装置,其特征在于,所述目标组合属性确定单元进一步用于:
从所述多个用户的历史用户日志中,确定出多个属性;
对所述多个属性进行组合以得到多个组合属性,其中,每一个组合属性包括至少一个所述属性;
基于各组合属性分别所对应的组合属性值的数量,确定出至少一个目标组合属性。
13.根据权利要求11所述的装置,其特征在于,所述作弊用户确定单元进一步用于:
基于所述相似度与所述差异程度的乘积确定该用户组的作弊置信度;
响应于所述作弊置信度大于预设作弊置信度阈值,则确定该用户组为作弊用户组。
14.根据权利要求13所述的装置,其特征在于,所述作弊用户确定单元进一步用于:
对于每一个用户,从该用户所属的不同用户组分别对应的作弊置信度中查找作弊置信度的最大值,并将所述作弊置信度的最大值确定为该用户的作弊置信度,以确定该用户是否为作弊用户。
15.根据权利要求14所述的装置,其特征在于,所述作弊用户确定单元进一步用于:
对于每一个用户,将该用户的作弊置信度所对应的用户组中的其他用户作为该用户的关联作弊用户。
16.根据权利要求11-15任一所述的装置,其特征在于,对于每一用户组的历史用户日志中的每一属性,该组用户的相似度与该属性的、所对应的用户数量最大的属性值的占比正相关,其中,所述所对应的用户数量最大的属性值的占比为该属性值对应的用户数量与该用户组中的用户数量之比。
17.根据权利要求11所述的装置,其特征在于,
对于每一个用户组,该用户组的相似度与所述多个用户中,同时具有该用户组的目标组合属性值子组的各属性值的用户数量正相关;以及
所述装置还包括目标组合属性值子组确定单元,所述目标组合属性值子组确定单元用于:
从该用户组的各用户的历史用户日志所具有的各个属性的属性值中确定出多个组合属性值子组,其中,所述组合属性值子组中所包括的属性值的数量大于该用户组所对应的组合属性值中的属性值的数量;将在该用户组中所对应的用户的数量大于其他组合属性值子组在该用户组中所对应的用户数量的组合属性值子组确定为该用户组的目标组合属性值子组。
18.根据权利要求11所述的装置,其特征在于,对于每一用户组,该组用户的差异程度与该组用户对应的历史用户日志的每一属性的分布直方图差异正相关;以及
所述装置还包括分布直方图确定单元,所述分布直方图确定单元用于:
确定该用户组的该属性的分布直方图;确定所述多个用户的该属性的分布直方图;基于预设统计方法从所述该用户组的该属性的分布直方图和所述多个用户的该属性的分布直方图中统计出该属性的分布直方图差异。
19.根据权利要求11所述的装置,其特征在于,对于每一个用户组的每一属性,该组用户的差异程度与该用户组的该属性的目标属性值的统计出现概率负相关;以及
所述装置还包括统计出现概率确定单元和目标属性值确定单元,其中
所述统计出现概率确定单元用于:
在所述多个用户中,确定该属性下的各属性值所对应的用户数量;对于每一属性值,基于该属性值所对应的用户数量与所述多个用户的数量之比确定该属性值的出现概率;将该属性的目标属性值的出现概率与该属性的多个所述属性值对应的出现概率中各小于所述目标属性值的出现概率的出现概率进行累加,得到目标属性值的统计出现概率;以及
所述目标属性值确定单元用于:
对于该用户组各用户的历史用户日志的每一个属性,统计该属性的各属性值分别对应的用户数量;将所对应的用户数量最多的一个属性值作为该用户组的该属性的目标属性值。
20.根据权利要求11所述的装置,其特征在于,所述相似度及差异程度确定单元进一步用于:
对于每一用户组,基于如下公式该组用户的相似度S1:
S1=((c1+c2+…+ci+…+cn)/n)log(I) (1);
其中,I是该组用户的总数量;n是该组用户对应的目标组合属性中所包括的属性的总数量,n为大于等于1,且小于等于用户历史日志所对应的属性的总数量的正整数;c1是该组用户对应的目标组合属性中的第1个属性对应的用户数量最大的属性值的占比;c2是该组用户对应的目标组合属性中第2个属性对应的用户数量最大的属性值的占比;ci是该组用户对应的目标组合属性中的第i个属性对应的用户数量最大的属性值的占比;i为大于等于1小于等于n的正整数;cn是该组用户对应的目标组合属性中的第n个属性对应的用户数量最大的属性值的占比;ci大于等于零,小于等于1;S1大于等于零,小于等于1。
21.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
22.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN201811241546.0A 2018-10-24 2018-10-24 用于识别作弊用户的方法、装置和电子设备 Active CN111091391B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811241546.0A CN111091391B (zh) 2018-10-24 2018-10-24 用于识别作弊用户的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811241546.0A CN111091391B (zh) 2018-10-24 2018-10-24 用于识别作弊用户的方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111091391A CN111091391A (zh) 2020-05-01
CN111091391B true CN111091391B (zh) 2021-05-14

Family

ID=70392318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811241546.0A Active CN111091391B (zh) 2018-10-24 2018-10-24 用于识别作弊用户的方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111091391B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898462B (zh) * 2020-07-08 2023-04-07 浙江大华技术股份有限公司 对象属性的处理方法、装置、存储介质以及电子装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN106910101A (zh) * 2016-07-21 2017-06-30 阿里巴巴集团控股有限公司 群体虚假交易识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140180765A1 (en) * 2012-12-20 2014-06-26 Intellisurvey, Incorporated Web-based survey verification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN106910101A (zh) * 2016-07-21 2017-06-30 阿里巴巴集团控股有限公司 群体虚假交易识别方法及装置

Also Published As

Publication number Publication date
CN111091391A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN107809331B (zh) 识别异常流量的方法和装置
CN108280670B (zh) 种子人群扩散方法、装置以及信息投放系统
US20130159972A1 (en) Identifying components of a bundled software product
CN107784205B (zh) 一种用户产品审核的方法、装置、服务器和存储介质
CN110135978B (zh) 用户金融风险评估方法、装置、电子设备和可读介质
CN104468107A (zh) 校验数据处理方法及装置
CN105260913A (zh) 用于互联网广告投放的ctr预估方法、dsp服务器、系统
CN105550175A (zh) 恶意账户识别方法及装置
CN108768743B (zh) 一种用户识别方法、装置及服务器
CN106294406B (zh) 一种用于处理应用访问数据的方法与设备
US11568416B2 (en) Cryptocurrency transaction pattern based threat intelligence
CN111598713A (zh) 基于相似度权重更新的团伙识别方法、装置及电子设备
CN111091391B (zh) 用于识别作弊用户的方法、装置和电子设备
CN108876314B (zh) 一种职业生涯专业能力可追溯方法及平台
US10037417B1 (en) Transformation of network activity data for user identification
CN116663505B (zh) 一种基于互联网的评论区管理方法及系统
CN113065748A (zh) 业务风险评估方法、装置、设备及存储介质
CN112182520B (zh) 非法账号的识别方法、装置、可读介质及电子设备
CN110347973B (zh) 用于生成信息的方法和装置
KR101928822B1 (ko) 사물 인터넷 환경에서 낯선 기기에 대한 사용자 신뢰도 계산 시스템 및 방법
CN113886547A (zh) 基于人工智能的客户实时对话转接方法、装置和电子设备
CN112200644B (zh) 欺诈用户识别方法、装置、计算机设备以及存储介质
CN111309715B (zh) 通话场景的识别方法和装置
CN109885710B (zh) 基于差分演化算法的用户画像刻画方法及服务器
CN111882415A (zh) 一种质量检测模型的训练方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant