CN117033745B

CN117033745B - 一种作弊对象识别方法、系统、设备和存储介质

Info

Publication number: CN117033745B
Application number: CN202311306859.0A
Authority: CN
Inventors: 张月祥; 关涛; 涂志兵
Original assignee: Beijing Smart Technology Co Ltd
Current assignee: Beijing Smart Technology Co Ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-01-09
Anticipated expiration: 2043-10-10
Also published as: CN117033745A

Abstract

本申请实施例公开了一种作弊对象识别方法、系统、设备和存储介质，所述方法包括：获取待作弊识别的目标设备信息和目标平台的用户访问行为信息；根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图；基于设备和用户之间的异构图学习出设备和/或用户的行为表达；基于设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定作弊对象。针对小作弊团体作弊分散且范围小的特点，根据作弊设备信息和平台用户的访问行为构建异构图，并根据异构图学习到每个设备/平台用户的行为表达，快速识别具有相似行为表达的团体，随后根据团体累积行为特点进一步确定真正的作弊团体。

Description

一种作弊对象识别方法、系统、设备和存储介质

技术领域

本申请实施例涉及互联网技术领域，具体涉及一种作弊对象识别方法、系统、设备和存储介质。

背景技术

近年来随着互联网的发展，网络用户人数和网络流量急剧增长，巨大流量给用户带来便利的同时，也给人可乘之机。在互联网广告领域，广告流量作为互联网变现的重要方式，但虚假流量不仅破坏广告效果给广告主带来巨大的经济损失，而且掩盖了大多数用户的真实反馈，对进一步提升用户体验带来巨大的困扰。在社区、直播、评论等互动场景，作弊团体利用信息交流平台发送不合时宜的内容(广告、言论和图片等)破坏了积极正向的交流氛围，影响平台的正常运行。

反作弊是一个持续对抗的过程。早期反作弊通过监测各个用户的浏览/点击等网络行为的时间、频次等识别异常流量，后期作弊用户将自己伪装成多个“正常用户”来躲避反作弊系统的监测，如何从正常流量中识别出作弊团体构造的虚假流量成为当前反作弊急迫解决的问题。

同时作弊用户或作弊团体借由计算机、手机等智能设备在网络环境下构造虚假流量，考虑到作弊成本，智能设备相对有限和固定，在网络行为上呈现小范围聚集的特点。传统的反作弊方法能够有效识别一些有明显问题的作弊团体，但对于行为分散且稀疏的小团体存在误伤且解释差的问题。

发明内容

为此，本申请实施例提供一种作弊对象识别方法、系统、设备和存储介质，针对小作弊团体作弊分散且范围小的特点，根据作弊设备信息和平台用户的访问行为快速识别真正的作弊团体，以及时发现降低损失。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例的第一方面，提供了一种作弊对象识别方法，所述方法包括：

获取待作弊识别的目标设备信息和目标平台的用户访问行为信息；

根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图；

基于设备和用户之间的异构图学习出设备和/或用户的行为表达；

基于设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定作弊对象。

可选地，所述根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图，包括：

基于所述目标设备信息和用户访问行为信息确定设备边关系数据、用户边关系数据、设备和用户的边关系数据；

根据所述设备边关系数据、用户边关系数据以及设备和用户的边关系数据构建所述设备和用户之间的异构图。

可选地，所述基于所述目标设备信息和用户访问行为信息确定设备边关系数据、用户边关系数据、设备和用户的边关系数据，包括：

根据不同的目标设备信息对应的目标设备连接过相同的用户访问行为信息，则连接所述不同的目标设备信息对应的目标设备之间的节点，以构成设备边关系数据；其中目标设备节点之间的边的权重是根据目标设备连接过相同的用户访问行为信息的次数确定的；

根据不同的用户访问行为信息连接过相同的目标设备信息对应的目标设备，则连接所述不同的用户访问行为信息对应过的用户之间的节点，以构成用户边关系数据；其中用户节点之间的边的权重是根据用户连接过相同目标设备的次数确定的；

根据目标设备信息对应的目标设备连接过用户访问行为信息，则连接所述目标设备信息对应的目标设备与用户之间的节点，以构成设备和用户的边关系数据；其中目标设备与用户节点之间的边的权重是根据目标设备连接过用户访问行为信息的次数确定的。

可选地，所述基于设备和用户之间的异构图学习出设备和/或用户的行为表达，包括：

根据所述设备和用户之间的异构图以及邻域节点信息、所述目标设备信息和用户访问行为信息，学习出若干目标设备和/或用户之间的行为表达。

可选地，基于设备和/或用户行为表达识别具有相似行为的目标对象，包括：

基于设定行为表达相似度将设备和/或用户行为表达分类，识别出具有相似行为的目标对象，并更新到数据库中。

可选地，所述根据反作弊规则库确定作弊对象，包括：

在所述目标对象中根据反作弊规则库中的规则识别出作弊的设备和/或用户，作为作弊对象。

可选地，所述方法还包括：

根据线上实时流量更新对应的目标设备或用户的节点及邻接的边的信息，以更新异构图；

根据更新后的异构图学习出更新后的设备和/或用户的行为表达；

基于更新后的设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定更新后的作弊对象。

根据本申请实施例的第二方面，提供了一种作弊对象识别系统，所述系统包括：

信息获取模块，用于获取待作弊识别的目标设备信息和目标平台的用户访问行为信息；

异构图模块，用于根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图；

行为表达模块，用于基于设备和用户之间的异构图学习出设备和/或用户的行为表达；

作弊识别模块，用于基于设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定作弊对象。

根据本申请实施例的第三方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现上述第一方面所述的方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现上述第一方面所述的方法。

综上所述，本申请实施例提供了一种作弊对象识别方法、系统、设备和存储介质，通过获取待作弊识别的目标设备信息和目标平台的用户访问行为信息；根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图；基于设备和用户之间的异构图学习出设备和/或用户的行为表达；基于设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定作弊对象。针对小作弊团体作弊分散且范围小的特点，根据作弊设备信息和平台用户的访问行为构建异构图，并根据异构图学习到每个设备/平台用户的行为表达，快速识别具有相似行为表达的团体，随后根据团体累积行为特点进一步确定真正的作弊团体。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的作弊对象识别方法流程示意图；

图2为本申请实施例提供的作弊对象识别方法流程图；

图3为本申请实施例提供的异构图示例图；

图4为本申请实施例提供的作弊对象识别系统框图；

图5示出了本申请实施例提供的一种电子设备的结构示意图；

图6示出了本申请实施例提供的一种计算机可读存储介质的示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本申请实施例提供的一种作弊对象识别方法，所述方法包括：

步骤101：获取待作弊识别的目标设备信息和目标平台的用户访问行为信息；

步骤102：根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图；

步骤103：基于设备和用户之间的异构图学习出设备和/或用户的行为表达；

步骤104：基于设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定作弊对象。

在一种可能的实施方式中，在步骤101中，目标设备信息包括设备基础信息和设备访问信息；其中设备基础信息包括utdid(设备唯一标识符)、终端类型(计算机/手机等)、手机品牌、手机型号等；设备访问信息包括设定时间内使用的IP、网络类型(WiFi/2G/3G/4G/5G等)、操作系统(android、ios、windows、linux等)、注册账号等总次数、distinct个数、topK占比、集中度、分布(信息熵等)。

所述目标平台的用户访问行为信息包括平台用户基本信息和平台用户访问信息；其中平台用户基本信息包括账号ID、注册时间和是否匿名/登录；平台用户访问信息包括访问所在城市、访问时间、设定时间内的访问PV、VV、转化率、平均访问深度、平均访问时长、点击量分布等，最近7/14/30d活跃天数和活跃时长。

在一种可能的实施方式中，在步骤101之后，将上述信息中信息清洗并经过抽取、转换、加载等过程，并按照预先定义好的数据模式加载到数据仓库或数据库中。

在一种可能的实施方式中，在步骤102中，所述根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图，包括：

基于所述目标设备信息和用户访问行为信息确定设备边关系数据、用户边关系数据、设备和用户的边关系数据；根据所述设备边关系数据、用户边关系数据以及设备和用户的边关系数据构建所述设备和用户之间的异构图。

在一种可能的实施方式中，所述基于所述目标设备信息和用户访问行为信息确定设备边关系数据、用户边关系数据、设备和用户的边关系数据，包括：

在一种可能的实施方式中，在步骤103中，所述基于设备和用户之间的异构图学习出设备和/或用户的行为表达，包括：

在一种可能的实施方式中，在步骤104中，基于设备和/或用户行为表达识别具有相似行为的目标对象，包括：

在一种可能的实施方式中，在步骤104中，所述根据反作弊规则库确定作弊对象，包括：

在一种可能的实施方式中，在步骤105之后，所述方法还包括：

本申请实施例提供的方法中，根据IP、端口、用户代理等设备信息和访问时间、访问次数、访问深度等用户访问行为构建设备和平台用户两种类型的异构图；基于用户和设备构建的异构图通过图算法学习设备或平台用户的行为表达；通过SimHash等算法识别具有相似行为的团体，并根据反作弊规则库标识作弊用户/设备以及作弊团体；根据线上流量及时更新异构图，并发现新的作弊团体。

下面结合附图对本申请实施例提供的作弊对象识别方法进行详细描述。

图2示出了本申请实施例提供的作弊对象识别总流程。具体包括如下几个方面：

第一阶段，收集设备和平台用户数据。

为了精确识别到作弊团体和整个识别方法的实行，需要收集包含设备和平台用户信息等日志，可以包括：

（1）设备基础信息：utdid(设备唯一标识符)、终端类型(计算机/手机等)、手机品牌、手机型号等；

（2）设备访问信息：一段时间内使用的IP、网络类型(WiFi/2G/3G/4G/5G等)、操作系统(android、ios、windows、linux等)、注册账号等总次数、distinct个数、topK占比、集中度、分布(信息熵等)；

（3）平台用户基本信息：账号ID，注册时间，是否匿名/登录；

（4）平台用户访问信息：访问所在城市，访问时间，一段时间内的访问PV、VV、转化率、平均访问深度、平均访问时长、点击量分布等，最近7/14/30d活跃天数和活跃时长；

将上述日志信息中信息清洗并经过抽取、转换、加载等过程，并按照预先定义好的数据模式加载到数据仓库或数据库中。

第二阶段，构建异构图。

基于上一阶段收集的设备和平台用户信息，构建包含设备和平台用户两种类型的节点，图2是构建的异构图示例。节点间有三种类型的边：

（1）设备-设备边：如果两个设备使用过相同的IP/操作系统/手机品牌/手机型号，注册过/登录过相同的账号，则两个设备对应的节点间增加一条边，边的权重为两个设备使用相同IP/操作系统等特征的次数；

（2）平台用户-平台用户边：如果两个用户在相同的设备/IP/城市访问过，则两个平台用户对应的节点间增加一条边，边的权重为两个平台用户使用相同设备/IP等特征的次数；

（3）设备-平台用户边：如果某一用户在某一设备上注册/登录等，则在该平台用户和设备上增加一条边，边的权重的注册/登录的次数；

第三阶段，学习设备/平台用户的行为表示。

在包含设备和平台用户两种类型节点的异构图上，结合设备或平台账号自身的基础信息和访问信息以及图中邻域节点信息，通过GraphSage等GCN算法可以学习到各个设备和平台用户的embedding，具有相似基础信息和访问信息或相似的邻域信息的设备和平台用户可以学习到相近的embedding。

第四阶段，识别作弊团体。

图算法能够学习到各个设备或平台用户的embedding，embedding距离越近对应的设备或平台用户越相似。作弊用户通过伪装成多个“正常用户”来实现作弊目的，因此这些伪装用户具有相似的embedding，形成了疑似作弊团体。

为了快速识别具有相似embedding的多个设备或平台用户，使用SimHash等算法识别所有疑似作弊团体，并更新到数据库中。

使用根据人工经验积累的作弊规则库(如1分钟内同一设备上登录的用户个数不超过2等作弊规则)识别作弊的单个设备或平台用户，但无法找到伪装成多个作弊用户的作弊团体。因此，需要根据作弊规则库从疑似作弊团体中找到真正的作弊团体。

第五段，实时识别新增作弊团体。

根据反作弊持续对抗的特点，作弊用户或团体一旦被反作弊系统识别后，会尝试使用新的设备或注册新的账号继续实现作弊，同时作弊团体早期伪装正常用户数量少或处于潜伏阶段，与正常用户区分开。为了能够及时发现新增的作弊用户或团体，或伪装的作弊用户或团体行为次数增加开始作弊时，需要根据线上实时流量及时更新相关设备或平台用户的信息，进而快速发现作弊用户或团体。

根据线上实时流量更新相关设备或平台用户的节点及邻接信息。基于包含数百万甚至上千万个节点构建的大规模稀疏图重新学习各个节点的embedding耗时太长，且仅有部分节点的自身信息和邻接信息发生改变。因此，只需要基于更新的节点及邻接信息构建的子图学习它们的embedding，其他节点的embedding保持不变。

按照相同配置参数的SimHash算法为更新后的节点找到具有相似行为的疑似作弊团体，并根据作弊规则库对所有更新节点参与的疑似作弊团体进行一一甄别，找到真正的作弊团体。

综上所述，本申请实施例提供了一种作弊对象识别方法，通过获取待作弊识别的目标设备信息和目标平台的用户访问行为信息；根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图；基于设备和用户之间的异构图学习出设备和/或用户的行为表达；基于设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定作弊对象。针对小作弊团体作弊分散且范围小的特点，根据作弊设备信息和平台用户的访问行为构建异构图，并根据异构图学习到每个设备/平台用户的行为表达，快速识别具有相似行为表达的团体，随后根据团体累积行为特点进一步确定真正的作弊团体。

基于相同的技术构思，本申请实施例还提供了一种作弊对象识别系统，如图4所示，所述系统包括：

信息获取模块401，用于获取待作弊识别的目标设备信息和目标平台的用户访问行为信息；

异构图模块402，用于根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图；

行为表达模块403，用于基于设备和用户之间的异构图学习出设备和/或用户的行为表达；

作弊识别模块404，用于基于设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定作弊对象。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的电子设备。请参考图5，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。所述电子设备20可以包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的方法。

其中，存储器201可能包含高速随机存取存储器（RAM：Random Access Memory），也可能还包括非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。通过至少一个物理端口203（可以是有线或者无线）实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的方法对应的计算机可读存储介质，请参考图6，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序（即程序产品），所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

Claims

1.一种作弊对象识别方法，其特征在于，所述方法包括：

基于设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定作弊对象；

其中，根据所述目标设备信息和用户访问行为信息构建设备和用户之间的异构图，包括：

根据目标设备信息对应的目标设备连接过用户访问行为信息，则连接所述目标设备信息对应的目标设备与用户之间的节点，以构成设备和用户的边关系数据；其中目标设备与用户节点之间的边的权重是根据目标设备连接过用户访问行为信息的次数确定的；

2.如权利要求1所述的方法，其特征在于，所述基于设备和用户之间的异构图学习出设备和/或用户的行为表达，包括：

3.如权利要求1所述的方法，其特征在于，基于设备和/或用户行为表达识别具有相似行为的目标对象，包括：

4.如权利要求1所述的方法，其特征在于，所述根据反作弊规则库确定作弊对象，包括：

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

6.一种作弊对象识别系统，其特征在于，所述系统包括：

作弊识别模块，用于基于设备和/或用户行为表达识别具有相似行为的目标对象，并根据反作弊规则库确定作弊对象；

所述异构图模块，具体用于：

7.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1-5任一项所述的方法。