CN111915381A

CN111915381A - 检测作弊行为的方法、装置、电子设备和存储介质

Info

Publication number: CN111915381A
Application number: CN202010962524.4A
Authority: CN
Inventors: 俞怡; 陈应开泰; 蔡民超
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-11-10

Abstract

本公开涉及检测作弊行为的方法、装置、电子设备和存储介质。在一种方法中，分别获取第一账户和第二账户的第一行为数据和第二行为数据，第一行为数据和第二行为数据分别表示由第一账户和第二账户向服务对象的第一集合和第二集合提供服务的行为数据。分别基于第一行为数据和第二行为数据，确定第一账户和第二账户之间的行为相似度。基于行为相似度和通过训练形成的作弊检测模型，检测第一账户和第二账户的作弊行为，作弊检测模型描述多个账户向各自的服务对象集合提供服务的行为相似度与多个账户的作弊行为之间的关联关系。进一步，提供了相应的装置、电子设备和存储介质。以此方式，可以基于各个账户的行为数据，检测各个账户是否存在作弊行为。

Description

检测作弊行为的方法、装置、电子设备和存储介质

技术领域

本公开的各实现方式涉及账户管理，更具体地，涉及检测账户的作弊行为的方法、装置、电子设备和存储介质。

背景技术

随着计算机技术和网络技术的发展，目前已经为多种类型的工作人员开发了相应的应用程序。例如，自行车的运维人员可以利用运维应用来管理向自行车提供的运维服务，快递人员可以利用快递应用来管理包裹配送，等等。应用程序的提供者可以根据工作人员的行为数据来提供报酬和/或奖励。然而，有些不良用户可能会注册多个账户。这些用户可能会每天登录多个账户并经由多个账户提供服务，以达到骗取报酬和/或奖励的目的。识别作弊行为涉及大量人工操作并且准确性较低，此时如何以更为有效的方式检测作弊行为，成为一个研究热点。

发明内容

期望能够开发并实现一种以更为有效的方式来检测作弊行为的技术方案。期望该技术方案能够与现有应用程序相兼容，以更为有效的方式来检测应用程序账户的作弊行为，进而以更为有效的方式管理应用程序。

根据本公开的第一方面，提供了一种用于检测作弊行为的方法。在该方法中，分别获取第一账户和第二账户的第一行为数据和第二行为数据，第一行为数据和第二行为数据分别表示由第一账户和第二账户向服务对象的第一集合和第二集合提供服务的行为数据。分别基于第一行为数据和第二行为数据，确定第一账户和第二账户之间的行为相似度。基于行为相似度和通过训练形成的作弊检测模型，检测第一账户和第二账户的作弊行为，作弊检测模型描述多个账户向各自的服务对象集合提供服务的行为相似度与多个账户的作弊行为之间的关联关系。

根据本公开的第二方面，提供了一种用于检测作弊行为的装置。该装置包括：获取模块，配置用于分别获取第一账户和第二账户的第一行为数据和第二行为数据，第一行为数据和第二行为数据分别表示由第一账户和第二账户向服务对象的第一集合和第二集合提供服务的行为数据；确定模块，配置用于分别基于第一行为数据和第二行为数据，确定第一账户和第二账户之间的行为相似度；以及检测模块，配置用于基于行为相似度和通过训练形成的作弊检测模型，检测第一账户和第二账户的作弊行为，作弊检测模型描述多个账户向各自的服务对象集合提供服务的行为相似度与多个账户的作弊行为之间的关联关系。

根据本公开的第三方面，提供了一种电子设备，包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现根据本公开的第一方面的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行实现根据本公开的第一方面的方法。

附图说明

结合附图并参考以下详细说明，本公开各实现方式的特征、优点及其他方面将变得更加明显，在此以示例性而非限制性的方式示出了本公开的若干实现方式。在附图中：

图1示意性示出了其中可以使用根据本公开的示例性实现方式的应用环境的框图；

图2示意性示出了根据本公开的示例性实现方式的用于检测作弊行为的过程的框图；

图3示意性示出了根据本公开的示例性实现方式的用于检测作弊行为的方法的流程图；

图4A、图4B和图4C分别示意性示出了根据本公开的示例性实现方式的行为数据的框图；

图5示意性示出了根据本公开的示例性实现方式的行为相似度的数据结构的框图；

图6示意性示出了根据本公开的示例性实现方式的用于确定对象重复率的过程的框图；

图7示意性示出了根据本公开的示例性实现方式的用于确定轨迹重复率的过程的框图；

图8示意性示出了根据本公开的示例性实现方式的用于训练作弊检测模型的过程的框图；

图9示意性示出了根据本公开的示例性实现方式的用于基于决策树实现的作弊检测模型的框图；

图10示意性示出了根据本公开的示例性实现方式的用于基于神经网络实现的作弊检测模型的框图；以及

图11示意性示出了根据本公开的示例性实现的用于检测作弊行为的设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反，提供这些实现是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

目前已经为多种类型的工作人员开发了相应的应用程序，并且应用程序的提供者可以根据工作人员的服务数据来提供报酬和/或奖励。然而，有些用户可能会注册多个账户，并且通过登录多个账户以达到骗取报酬和/或奖励的目的。为了便于描述，在本公开的上下文中将仅以辅助自行车运维的运维应用作为具体的应用环境进行描述。

首先参见图1描述本公开的示例性实现方式的应用环境。图1示意性示出了其中可以使用根据本公开的示例性实现方式的应用环境的框图100。如图1所示，工作人员110可以是用于维护服务对象112(例如，自行车)的运维人员。具体地，工作人员110可以按照用户的需求将自行车投放到指定目的地，将自行车过剩的区域分散到周边区域，修理故障自行车，等等。

在正常情况下，每个工作人员注册一个账户。工作人员110登录自己的账户114，向多个服务对象112提供服务，并领取报酬116。当工作人员110的工作量满足最低要求时，可以向工作人员110支付基本工资。当工作人员110的工作量达到某个等级之后，将会支付额外的奖励。然而，某些不良用户可能会注册多个账户，并且使得多个账户都达到最低工作量要求来骗取报酬。

例如，工作人员110可以注册另一账户124，并且将向服务对象122等提供服务的工作量登记到账户124。此时，当两个账户的工作量都满足最低要求时，工作人员110将会得到两份报酬116和126。上述作弊行为可能会导致一人注册大量用户，这增加了运维应用的管理负担。此时，运维应用的提供者不得不花费大量人力资源和计算资源来检测作弊行为，以降低自身的经济损失。

将会理解，本文描述的自行车仅仅是在自行车运维的环境下的服务对象的示例。在本公开的上下文中，服务对象可以是与账户相关联的任意类型的被服务的对象。例如，在快递应用中，服务对象可以是包裹；在订餐应用中，服务对象可以是外卖食物；在安保应用中，服务对象可以是巡逻线路上的签到设备；在健身应用中，服务对象可以是健身房的打卡设备，等等。

目前已经提出了用于确定作弊行为的技术方案。例如，可以基于账户相关的运动轨迹来监视是否存在作弊行为。又例如，可以基于阈值条件来判断是否存在作弊行为。当两个账户的行为相似度高于预定阈值条件时，则判断存在作弊行为。然而，上述技术方案可能会造成误判，导致后期不得不基于大量人工操作来分辨作弊行为。另一方面，作弊手段花样繁多并且难以识别，基于运动轨迹和/或阈值条件的技术方案难以提供准确的检测。

为了至少部分地解决上述技术方案中的不足，根据本公开的示例性实现方式，提出了一种检测作弊行为的技术方案。在下文中，将首先参见图2描述根据本公开的示例性实现方式的概要。图2示意性示出了根据本公开的示例性实现方式的用于检测作弊行为的过程的框图200。如图2所示，可以监视多个账户的行为。假设第一工作人员210登录第一账户214，并且向服务对象的第一集合212提供运维服务。第二工作人员220登录第二账户224，并且向服务对象的第二集合222提供运维服务。此时，可以分别获取第一账户214和第二账户224的第一行为数据216和第二行为数据226。

可以确定第一行为数据216和第二行为数据226之间的行为相似度230。进一步，可以基于行为相似度230和作弊检测模型240，确定两个工作人员的账户是否存在作弊行为250。换言之，可以基于预先定义的作弊检测模型240来确定第一工作人员210和第二工作人员220是否是同一工作人员。

在此，行为数据可以包括工作人员提供运维服务的多方面信息，并且可以完整地反应运维服务过程。基于行为数据来确定行为相似度230，可以准确地确定两个工作人员的行为之间的相似性，进而确定两个工作人员是否是相同工作人员。以此方式，通过对海量的行为数据进行多方面的分析，可以挖掘其中存在的潜在作弊场景，并且可以有效地识别作弊行为并且降低运维成本。

在下文中，将参见图3描述本公开的示意性实现方式的更多细节。图3示意性示出了根据本公开的示例性实现方式的用于检测作弊行为的方法300的流程图。在框310处，分别获取第一账户214和第二账户224的第一行为数据216和第二行为数据226。将会理解，在此的第一行为数据216和第二行为数据226分别表示由第一账户214和第二账户224向服务对象的第一集合212和第二集合222提供服务的行为数据。假设第一工作人员210将修理某个自行车的工作量登记至第一账户214，则第一行为数据包括修理该自行车的相关行为的数据。

在本公开的上下文中，行为数据可以包括多方面的内容，例如，可以包括：服务记录、签到记录以及心跳记录，等等。在下文中，将参见图4A至图4C描述行为数据的内容。将会理解，行为数据的格式对于全部工作人员是相同的，在下文中，将仅以第一工作人员210的第一行为数据216为示例提供描述。图4A示意性示出了根据本公开的示例性实现方式的服务记录的数据结构的框图400A。如图4A所示，服务记录410A可以包括：账户标识符412A、对象标识符414A、服务类型416A、城市418A、位置420A、以及更新时间422A。

对于第一工作人员210而言，账户标识符412A可以表示该第一工作人员210的标识符(例如，工号)；对象标识符414A可以表示由该第一工作人员210提供服务的服务对象的标识符(例如，自行车编号)；服务类型416A可以表示由第一工作人员210提供服务的类型(例如，搬运或修理，等等)、城市418A可以表示第一工作人员210提供服务时所在的城市；位置420A可以表示第一工作人员210提供服务时所在的位置；以及更新时间422A可以表示本条服务记录被更新的时间。

根据本公开的示例性实现方式，可以在第一工作人员210每次服务于一个新的服务对象时，添加一条服务记录。此时，行为数据将包括由工作人员处理过的全部服务对象的标识符的集合。换言之，第一行为数据216和第二行为数据226分别包括第一集合212和第二集合222。

将会理解，图4A中所示的服务记录410A仅仅是示意性的。根据本公开的示例性实现方式，服务记录410A可以包括更多或者更少的字段。例如，一个服务记录可以不包括城市418A，另一服务记录可以包括工作人员所在的工作组的标识符。利用本公开的示例性实现方式，可以完整地记录有关每次服务操作的多方面信息，进而有助于获取更为丰富的行为数据。

根据本公开的示例性实现方式，行为数据可以包括签到记录。图4B示意性示出了根据本公开的示例性实现方式的签到记录的数据结构的框图400B。如图4B所示，签到记录410B可以包括：第一账户的标识符412B、签到时间414B、签退时间416B、签到城市418B、以及记录更新时间420B。根据本公开的示例性实现方式，可以获取工作人员每天上下班的签到数据和签退数据，进而有助于提取与上班期间的劳动相关的服务记录。

将会理解，图4B中所示的签到记录410B仅仅是示意性的。根据本公开的示例性实现方式，签到记录410B可以包括更多或者更少的字段。例如，一个签到记录可以不包括城市418B，另一服务记录可以包括工作人员所属于的运维企业的标识符。利用本公开的示例性实现方式，可以获取有关工作人员的上下班信息，进而有助于后续过滤行为数据。

根据本公开的示例性实现方式，行为数据可以包括心跳记录。图4C示意性示出了根据本公开的示例性实现方式的心跳记录的数据结构的框图400C。如图4C所示，心跳记录410C可以包括：第一账户的标识符412C、与第一账户相关联的城市414C、与第一账户相关联的实时位置416C(例如，GPS数据)、以及数据更新时间418C。

将会理解，图4C中所示的心跳记录410C仅仅是示意性的。根据本公开的示例性实现方式，服务记录410C可以包括更多或者更少的字段。例如，一个服务记录可以不包括城市418A，另一服务记录可以包括工作人员所在的工作组的标识符。根据本公开的示例性实现方式，可以在预定时间间隔(例如，每10秒或者其他时间间隔)采集心跳记录。利用本公开的示例性实现方式，可以获取有关工作人员的实时位置信息，进而有助于后续基于工作人员的运动轨迹中的各个位置信息，确定作弊行为。

将会理解，采集到的原始数据中可能会存在噪声数据，因而应当针对采集到的原始行为数据进行过滤。利用本公开的示例性实现方式，通过过滤操作可以消除行为数据中的噪声。以此方式可以确保作为确定行为相似度的基础是能够真实反映工作人员的工作状态的准确数据。根据本公开的示例性实现方式，可以基于签到时间和签退时间来过滤行为数据。

根据本公开的示例性实现方式，可以去除行为数据中的重复数据。例如，基于工作性质，仓库的工作人员的行为数据中可能会出现大量重复数据。例如，工作人员可以分为：搬运人员，负责将故障车辆搬运至仓库；维修人员，负责修理故障车辆；以及验收人员，负责检查是否已经排除车辆故障。此时，这三类工作人员的服务对象、位置等字段将会出现大量重复信息。鉴于这些行为数据属于正常数据而并不涉及作弊行为，应当去除此类重复数据，以避免出现误判。

根据本公开的示例性实现方式，可以去除行为数据中的空值数据。在工作人员的服务过程中，出于某些原因可能会导致出现空值数据。例如，自行车上的二维码可能模糊不清导致无法识别对象标识符、出于遮挡等原因导致定位模块暂时失灵，等等，进而造成行为数据中出现空值字段。此时，应当清除包括空值字段的记录。根据本公开的示例性实现方式，可以去除行为数据中的空异常数据。例如，定位模块可以会存在较大漂移并且导致出现位置异常，等等。此时，应当检测行为数据中的异常并且清除包括异常数据的记录。

已经参见图4A、图4B和图4C描述了有关行为数据的细节。在下文中，将返回图3描述如何基于行为数据确定行为相似度。在图3的框320处，分别基于第一行为数据216和第二行为数据226，确定第一账户214和第二账户224之间的行为相似度230。根据本公开的示例性实现方式，相似度可以包括多方面的内容，在下文中将参见图5提供更多细节。

图5示意性示出了根据本公开的示例性实现方式的行为相似度的数据结构的框图500。如图5所示，行为相似度230可以包括以下一个或多个方面的内容：对象重复率512、对象重复时间514、轨迹重复率516以及轨迹重复时间518。在下文中，将参见图6描述有关确定对象重复率512的更多细节。

图6示意性示出了根据本公开的示例性实现方式的用于确定对象重复率的过程的框图600。可以从行为数据中分别确定第一集合212和第二集合222。例如，可以从如图4A所示的服务记录410A中确定第一集合212包括10个服务对象：V1、V2、V3、V4、V5、V6、V7、V8、V9以及V10。类似地，可以确定第二集合222包括11个服务对象：V1、V3、V5、V7、V9、V12、V13、V14、V15、V16以及V17。

可以确定第一集合212和第二集合222之间的对象交集610包括5个元素：V1、V3、V5、V7以及V9。可以基于对象交集610来确定对象重复率512。例如，可以基于对象交集610包括的服务对象素数量与第一集合212包括的服务对象的第一数量的比值，来确定对象重复率512。此时，对象重复率＝5/10＝0.5。

将会理解，上文中确定对象重复率512的公式仅仅是示意性的。根据本公开的示例性实现方式，可以基于对象交集610包括的服务对象数量与第二集合222包括的服务对象的第二数量(或者，第一数量和第二数量中的最小值或者最大值)的比值，来确定对象重复率512。

将会理解，两个账户可能会涉及相同的服务对象。然而如果两个账户在一天之内处理了大量相同的服务对象，则有理由怀疑这两个账户存在作弊嫌疑。例如，对于搬运自行车的工作人员而言，可能会存在一个工作人员登录两个账户，利用一个账户将自行车从A地搬运至B地，再利用另一账户将自行车从B地搬运回到A地(或者其他位置)的情况。当按照搬运距离和搬运自行车的数量来发放报酬时，则该工作人员的作弊行为可以获取大量报酬。然而，上述搬运行为并未达到按照用户需求投放自行车的目的，因而应当被禁止。

利用本公开的示例性实现方式，可以以量化方式确定两个账户处理的多个服务对象的重复程度。以此方式，可以以更为全面的方式描述各个账户的行为的相似性，进而有助于检测到上文描述的作弊情况。

根据本公开的示例性实现方式，行为相似度230进一步包括对象重复时间514。可以设置预定的阈值(例如，0.3或者其他数值)，如果两个账户的行为数据在预定时间段内的对象重复率高于该阈值，则可以提高对象重复时间。假设预定时间段为1天，可以统计两个账户在多日(例如，一周或者其他天数)内的行为数据。如果发现两个账户在一天内的对象重复率高于预定阈值，则可以将对象重复时间加一。如果在一周中的5天内的对象重复度高于预定阈值，则此时对象重复时间可以被设置为5。根据本公开的示例性实现方式，可以将对象重复时间执行归一化处理，此时对象重复时间可以被设置为5/7。

利用本公开的示例性实现方式，可以以量化方式确定两个账户的行为的长期重复程度。以此方式，可以以更为全面的方式描述各个账户的行为的相似性。

根据本公开的示例性实现方式，行为相似度230可以包括轨迹重复率516。在下文中，将参见图7描述有关确定轨迹重复率的更多细节。图7示意性示出了根据本公开的示例性实现方式的用于确定轨迹重复率的过程的框图700。如图7所示，分别基于第一行为数据216和第二行为数据226确定第一账户214的第一轨迹710和第二账户224的第二轨迹720。

例如，可以从如图4A所示的服务记录410A中确定第一轨迹710包括10个位置：P1、P2、P3、P4、P5、P6、P7、P8、P9以及P10。类似地，可以确定第二轨迹720包括9个位置：P1、P3、P4、P5、P6、P12、P13、P14以及P17。可以确定第一轨迹710和第二轨迹720之间的公共子轨迹730包括5个元素：P1、P3、P4、P5以及P6。可以基于公共子序列730来确定轨迹重复率516。例如，可以基于公共子轨迹730包括的位置数量与第一轨迹710包括的位置的第一数量的比值，来确定轨迹重复率516。此时，对象重复率＝4/10＝0.4。

将会理解，上文中确定轨迹重复率516的公式仅仅是示意性的。根据本公开的示例性实现方式，可以基于最长公共子轨迹730包括的位置数量与第二轨迹720包括的位置的第二数量的比值(第一数量和第二数量中的最小值或者最大值)，来确定轨迹重复率516。根据本公开的示例性实现方式，当两个轨迹存在多个公共子序列时，可以基于最长公共子序列来确定轨迹重复率，还可以基于公共子序列的数量、或者各个公共子序列中所包括的公共位置的整体数量，来确定轨迹重复率。

将会理解，同一工作组中的两个工作人员的账户可能会涉及相似的轨迹。然而如果两个工作账户在一天之内的绝大部分轨迹完全相同，则有理由怀疑这两个账户存在作弊嫌疑。例如，对于搬运自行车的工作人员而言，一个工作人员可能登录两个账户，分别利用两个账户搬运自行车以便使得两个账户都达到最低工作量，进而骗取报酬。利用本公开的示例性实现方式，可以以量化方式确定两个账户的运动轨迹的重复程度。以此方式，可以以更为全面的方式描述各个账户的行为的相似性，进而有助于检测到上文描述的作弊情况。

根据本公开的示例性实现方式，行为相似度230可以进一步包括轨迹重复时间518。如果确定与预定时间段相关联的轨迹重复率高于预定轨迹重复率阈值，提高轨迹重复时间。可以基于与上文描述的确定对象重复时间相似的方式来确定轨迹重复时间518。例如，预定阈值可以被设置为0.7(或者其他数值)，如果在一周中的3天内的轨迹重复度高于预定阈值，则此时轨迹重复时间518可以被设置为3。根据本公开的示例性实现方式，可以将轨迹重复时间518执行归一化处理，此时轨迹重复时间518可以被设置为3/7。

利用本公开的示例性实现方式，可以以量化方式确定两个账户的运动轨迹的长期重复程度。以此方式，可以以更为全面的方式描述各个账户的行为的相似性。

上文已经参见图5至图7描述了有关确定行为相似度230的过程。在下文中，将返回图3描述如何确定作弊行为。在图3的框330处，基于行为相似度230和通过训练形成的作弊检测模型240，检测第一账户214和第二账户224的作弊行为。在此，作弊检测模型240描述多个账户向各自的服务对象集合提供服务的行为相似度与多个账户的作弊行为之间的关联关系。

根据本公开的示例性实现方式，可以基于训练过程来获得作弊检测模型240。可以利用训练集中的多个账户相关的数据来进行训练。具体地，可以在训练集中预先指定多个参考账户，例如可以将运维应用中的实际注册的多个账户来作为参考账户。可以基于多个参考账户来分别获取多个训练样本。在下文中，将参见图8描述更多细节。图8示意性示出了根据本公开的示例性实现方式的用于训练作弊检测模型的过程的框图800。针对多个参考账户中的两个参考账户，可以基于这两个参考账户来确定一个训练样本(例如，图8所示的训练样本810)。可以按照上文描述的方法来分别确定两个行为数据，并且确定两个行为数据之间的行为相似度812。

进一步，可以通过实际运维数据的工作记录、工作人员同事、工作人员的各级领导的实际评价，来确定两个账户是否分别是两个真实工作人员的账户。如果确定两个账户分别属于两个真实工作人员，则可以将作弊行为814设置为“假”；如果确定两个账户属于同一工作人员，则可以将作弊行为814设置为“真”。此时，训练样本810将包括行为相似度812(以多维向量表示)和作弊行为814(以布尔值表示)。

针对多个参考账户中的任意两个参考账户，可以按照类似的方式获得训练样本。此时，可以获得多个训练样本，并且每个训练样本将包括行为相似度和作弊行为。进一步，可以利用多个训练样本来训练作弊检测模型240。

根据本公开的示例性实现方式，可以基于目前已知的和/或将在未来开发的多种方法来获得作弊检测模型240。在训练过程结束之后，当向训练后的作弊检测模型输入多个参考账户中的两个参考人员之间的行为相似度时，可以输出两个参考人员的作弊行为。也即，训练后的作弊检测模型的输出结果与最初训练样本中的作弊行为相一致。根据本公开的示例性实现方式，可以将多个训练样本划分为训练集和测试集。可以利用训练集中的样本来训练作弊检测模型，并且可以利用测试集中的样本来测试训练后的作弊检测模型是否准确。

将会理解，尽管在此使用了训练集中的参考账户相关的数据来执行训练，训练集可以覆盖大量的账户并且具有多样性。此时，训练获得的作弊检测模型240即可反映多个账户提供服务的行为相似度与多个账户的作弊行为之间的关联关系。

根据本公开的示例性实现方式，可以基于多种机器学习技术来获得作弊检测模型240，例如可以基于决策树或者神经网络来获得作弊检测模型240。将会理解，作弊检测的实质是将多个行为相似度划分为“作弊”和“非作弊”两个分类。决策树是一种常用的分类方案，该方案可以将输入数据的整个空间划分为树状结构，并且每个叶节点表示一个分类。

图9示意性示出了根据本公开的示例性实现方式的用于基于决策树实现的作弊检测模型的框图900。如图9所示，节点910表示决策树的根节点，在根节点的下层可以存在一个或多个层级，其中非叶节点表示一个输出，而每个叶节点表示一个最终的分类。例如，非叶节点920的下层包括叶节点930和932，分别表示输入的行为相似度被分类为“分作弊”或者“作弊”。根节点910可以包括另一子节点922，为简化起见省略了该子节点922下层节点。

在图9的各个节点中，“样本数量”表示该层级所涉及的样本的数量。例如，根节点910的样本数量为64，表示使用64个样本来生成决策树。非叶节点920的样本数量为23，表示23个样本被输出至该分支。叶节点930的样本数量为22，表示22个样本被分类为“非作弊”；叶节点932的样本数量为1，表示1个样本被分类为“作弊”。在各个节点中，“取值”表示被分类至下层子节点的样本的数量。例如，根节点910的取值为“[41，23]”，表示23个样本被输出至左侧分支，41个样本被输出至右侧分支。

将会理解，上文仅参见图9描述了有关决策树的一般原理。为简单起见，在本公开的上下文中将省略有关创建决策树的更多细节。可以基于目前已知的和/或将在未来开发的有关决策树的更多技术来创建决策树。利用本公开的示例性实现方式，可以充分基于来自多个参考账户的行为相似度和相关的作弊行为来建立决策树。以此方式，决策树可以充分保留有关作弊行为的历史经验，并且用作预测其他账户是否涉嫌作弊的基础。

根据本公开的示例性实现方式，可以基于神经网络来确定作弊检测模型240。图10示意性示出了根据本公开的示例性实现方式的用于基于神经网络实现的作弊检测模型的框图1000。根据本公开的示例性实现方式，可以设置作弊检测函数1010(包括多个影响因子1020、1022、……、以及1024)，可以分别为每个影响因子设置相应的权重W1、W2、……、以及Wm。可以利用多个训练样本来迭代地训练该作弊检测模型240。具体地，可以将图8所示的行为相似度812中的各个分量分别输入至图10中的对象重复率512、对象重复时间514、轨迹重复率516以及轨迹重复时间518；可以将作弊行为814输入至图10中的作弊行为1030，以便获得各个权重的具体数值。以此方式，即可获得基于神经网络的作弊检测模型。

利用本公开的示例性实现方式，可以充分基于来自多个参考账户的行为相似度和相关的作弊行为来建立神经网络。以此方式，神经网络中的各个系数可以充分保留有关作弊行为的历史经验，并且用作预测其他账户是否涉嫌作弊的基础。

在已经获得了作弊检测模型240的情况下，可以基于当前需要检测的第一账户214和第二账户224之间的行为相似度230，确定两个账户是否涉嫌作弊。具体地，可以向作弊检测模型240输入基于有待判断的两个账户之间的行为相似度以获得作弊行为。如果作弊检测模型240输出“作弊”，则确定两个账户由相同的用户登录。利用本公开的示例性实现方式，可以基于作弊检测模型240中的成功历史经验来判断是否存在作弊行为。以此方式，可以降低检测过程中涉及的人工劳动，并且更加准确地检测涉嫌作弊行为的账户。

根据本公开的示例性实现方式，如果检测到作弊行为，可以将第一账户和第二账户标识为作弊账户。具体地，可以通知运维应用的管理员来暂停作弊账户的使用，并且可以通知使用该作弊账户的工作人员的各级领导进行审核，以便进行相应的处理。利用本公开的示例性实现方式，可以及时标记涉嫌作弊行为的账户，以避免这些账户扰乱正常的运维秩序。

将会理解，尽管上文在针对共享自行车进行运维的应用环境中描述了根据本公开的示例性实现方式，上文描述的方法300还可以适合于其他应用环境。例如，在订餐应用中，某个写字楼中的多个顾客都在同一餐馆点餐，此时将产生多个外卖任务。某些送餐人员可能会同时登录多个送餐应用，执行送餐任务并且骗取报酬。又例如，在安保应用中，安保公司要求安保人员定期巡逻，并且在指定的关键位置设置签到设备。某些安保人员可能会登录其他人员的账户，代为签到并且骗取报酬。再例如，在健身应用中，教练可能会要求学员到指定健身房打卡。某些学员可能会登录其他人员的账户并且代为打卡。可以利用上文描述的方法300来检测上述作弊情况。

上文已经参见图2至图10描述了有关检测作弊行的方法的过程。根据本公开的示例性实现方式，提供了一种用于检测作弊行为的装置。该装置包括：获取模块，配置用于分别获取第一账户和第二账户的第一行为数据和第二行为数据，第一行为数据和第二行为数据分别表示由第一账户和第二账户向服务对象的第一集合和第二集合提供服务的行为数据；确定模块，配置用于分别基于第一行为数据和第二行为数据，确定第一账户和第二账户之间的行为相似度；以及检测模块，配置用于基于行为相似度和通过训练形成的作弊检测模型，检测第一账户和第二账户的作弊行为，作弊检测模型描述多个账户向各自的服务对象集合提供服务的行为相似度与多个账户的作弊行为之间的关联关系。

根据本公开的示例性实现方式，第一行为数据和第二行为数据分别包括服务对象的第一集合和第二集合，行为相似度包括对象重复率，以及确定模块，配置用于包括：交集确定模块，配置用于确定第一集合和第二集合之间的对象交集；以及对象重复率确定模块，配置用于基于对象交集确定对象重复率。

根据本公开的示例性实现方式，行为相似度进一步包括对象重复时间，以及确定模块包括：重复时间确定模块，配置用于响应于确定与预定时间段相关联的对象重复率高于预定对象重复率阈值，提高对象重复时间。

根据本公开的示例性实现方式，行为相似度包括轨迹重复率，以及确定模块包括：轨迹确定模块，配置用于分别基于第一行为数据和第二行为数据确定第一账户的第一轨迹和第二账户的第二轨迹；公共子序列确定模块，配置用于确定第一轨迹和第二轨迹之间的公共子轨迹；以及轨迹重复率确定模块，配置用于基于公共子轨迹确定轨迹重复率。

根据本公开的示例性实现方式，行为相似度进一步包括轨迹重复时间，以及确定模块包括：轨迹重复时间确定模块，配置用于响应于确定与预定时间段相关联的轨迹重复率高于预定轨迹重复率阈值，提高轨迹重复时间。

根据本公开的示例性实现方式，获取模块包括服务记录获取模块，配置用于获取：第一账户的标识符、由第一账户提供服务的服务对象的标识符、以及记录更新时间。

根据本公开的示例性实现方式，记录获取模块进一步配置用于获取：由所述第一账户提供服务的类型、由所述第一账户提供服务的城市、与所述第一账户相关联的位置。

根据本公开的示例性实现方式，获取模块包括签到记录获取模块，配置用于获取：第一账户的标识符、签到时间、签退时间、以及记录更新时间。

根据本公开的示例性实现方式，签到记录获取模块进一步配置用于获取签到城市。

根据本公开的示例性实现方式，获取模块包括心跳记录获取模块，配置用于获取：第一账户的标识符、与第一账户相关联的位置、以及数据更新时间。

根据本公开的示例性实现方式，心跳记录获取模块进一步配置用于获取与第一账户相关联的城市。

根据本公开的示例性实现方式，该装置进一步包括过滤模块，配置用于在确定行为相似度之前，基于以下中的至少任一项过滤第一行为数据：去除重复数据、去除空值数据以及去除异常数据。

根据本公开的示例性实现方式，所述获取模块进一步包括：相似度确定模块，配置用于确定多个参考账户向各自的参考服务对象集合提供服务的行为相似度；作弊行为确定模块，配置用于确定多个参考账户的作弊行为；以及训练模块，配置用于基于行为相似度和作弊行为训练作弊检测模型，使得训练后的作弊检测模型基于多个参考账户中的两个参考人员之间的行为相似度，输出两个参考人员的作弊行为。

根据本公开的示例性实现方式，作弊检测模型包括以下中的至少任一项：分类回归树模型以及神经网络模型。

根据本公开的示例性实现方式，检测模块进一步包括：输入模块，配置用于向作弊检测模型输入行为相似度以获得作弊行为；以及登录作弊行为确定模块，配置用于响应于作弊行为指示“作弊”，确定第一账户和第二账户是由相同用户登录。

根据本公开的示例性实现方式，该装置进一步包括标识模块，配置用于将第一账户和第二账户标识为作弊账户。

根据本公开的示例性实现方式，提供了一种电子设备，包括：存储器和处理器；其中存储器用于存储一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现上文描述的方法。

图11示出了其中可以实施本公开的一个或多个实施例的计算设备/服务器1100的框图。应当理解，图11所示出的计算设备/服务器1100仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。

如图11所示，计算设备/服务器1100是通用计算设备的形式。计算设备/服务器1100的组件可以包括但不限于一个或多个处理器或处理单元1110、存储器1120、存储设备1130、一个或多个通信单元1140、一个或多个输入设备1150以及一个或多个输出设备1160。处理单元1110可以是实际或虚拟处理器并且能够根据存储器1120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备/服务器1100的并行处理能力。

计算设备/服务器1100通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器1100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器1120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备1130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器1100内被访问。

计算设备/服务器1100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图11中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器1120可以包括计算机程序产品1125，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元1140实现通过通信介质与其他计算设备进行通信。附加地，计算设备/服务器1100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备/服务器1100可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备1150可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备1160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备/服务器1100还可以根据需要通过通信单元1140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备/服务器1100交互的设备进行通信，或者与使得计算设备/服务器1100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各实现。

Claims

1.一种用于检测作弊行为的方法，包括：

分别获取第一账户和第二账户的第一行为数据和第二行为数据，所述第一行为数据和所述第二行为数据分别表示由所述第一账户和所述第二账户向服务对象的第一集合和第二集合提供服务的行为数据；

分别基于所述第一行为数据和所述第二行为数据，确定所述第一账户和所述第二账户之间的行为相似度；以及

基于所述行为相似度和通过训练形成的作弊检测模型，检测所述第一账户和所述第二账户的作弊行为，所述作弊检测模型描述多个账户向各自的服务对象集合提供服务的行为相似度与所述多个账户的作弊行为之间的关联关系。

2.根据权利要求1所述的方法，其中所述第一行为数据和所述第二行为数据分别包括服务对象的所述第一集合和所述第二集合，所述行为相似度包括对象重复率，以及确定所述行为相似度包括：

确定所述第一集合和所述第二集合之间的对象交集；以及

基于所述对象交集确定所述对象重复率。

3.根据权利要求2所述的方法，其中所述行为相似度进一步包括对象重复时间，以及确定所述行为相似度包括：

响应于确定与预定时间段相关联的对象重复率高于预定对象重复率阈值，提高所述对象重复时间。

4.根据权利要求1所述的方法，其中所述行为相似度包括轨迹重复率，以及确定所述行为相似度包括：

分别基于第一行为数据和所述第二行为数据确定所述第一账户的第一轨迹和所述第二账户的第二轨迹；

确定所述第一轨迹和所述第二轨迹之间的公共子轨迹；以及

基于所述公共子轨迹确定所述轨迹重复率。

5.根据权利要求4所述的方法，其中所述行为相似度进一步包括轨迹重复时间，以及确定所述行为相似度包括：

响应于确定与预定时间段相关联的轨迹重复率高于预定轨迹重复率阈值，提高所述轨迹重复时间。

6.根据权利要求1所述的方法，其中获取所述第一行为数据包括获取所述第一账户的服务记录，所述服务记录包括：所述第一账户的标识符、由所述第一账户提供服务的服务对象的标识符、以及记录更新时间。

7.根据权利要求6所述的方法，其中所述服务记录进一步包括：由所述第一账户提供服务的类型、由所述第一账户提供服务的城市、与所述第一账户相关联的位置。

8.根据权利要求1所述的方法，其中获取所述第一行为数据包括获取所述第一账户的签到记录，所述签到记录包括：所述第一账户的标识符、签到时间、签退时间、以及记录更新时间。

9.根据权利要求8所述的方法，其中所述签到记录进一步包括：签到城市。

10.根据权利要求1所述的方法，其中获取所述第一行为数据包括获取所述第一账户的心跳记录，所述心跳记录包括：所述第一账户的标识符、与所述第一账户相关联的位置、以及数据更新时间。

11.根据权利要求10所述的方法，其中所述心跳数据进一步包括：与所述第一账户相关联的城市。

12.根据权利要求1所述的方法，进一步包括在确定所述行为相似度之前，基于以下中的至少任一项过滤所述第一行为数据：去除重复数据、去除空值数据以及去除异常数据。

13.根据权利要求1所述的方法，其中所述作弊检测模型包括以下中的至少任一项：分类回归树模型以及神经网络模型。

14.根据权利要求1所述的方法，其中检测所述第一账户和所述第二账户的所述作弊行为包括：

向所述作弊检测模型输入所述行为相似度以获得所述作弊行为；以及

响应于所述作弊行为指示“作弊”，确定所述第一账户和所述第二账户是由相同用户登录。

15.根据权利要求14所述的方法，进一步包括：将所述第一账户和所述第二账户标识为作弊账户。

16.一种用于检测作弊行为的装置，包括：

获取模块，配置用于分别获取第一账户和第二账户的第一行为数据和第二行为数据，所述第一行为数据和所述第二行为数据分别表示由所述第一账户和所述第二账户向服务对象的第一集合和第二集合提供服务的行为数据；

确定模块，配置用于分别基于所述第一行为数据和所述第二行为数据，确定所述第一账户和所述第二账户之间的行为相似度；以及

检测模块，配置用于基于所述行为相似度和通过训练形成的作弊检测模型，检测所述第一账户和所述第二账户的作弊行为，所述作弊检测模型描述多个账户向各自的服务对象集合提供服务的行为相似度与所述多个账户的作弊行为之间的关联关系。

17.一种电子设备，包括：

存储器和处理器；

其中所述存储器用于存储一条或多条计算机指令，其中所述一条或多条计算机指令被所述处理器执行以实现根据权利要求1至15中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中所述一条或多条计算机指令被处理器执行以实现根据权利要求1至15中任一项所述的方法。