CN104765874A

CN104765874A - 用于检测点击作弊的方法及装置

Info

Publication number: CN104765874A
Application number: CN201510202474.9A
Authority: CN
Inventors: 庄馨; 田天; 朱军; 夏粉; 张潼
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-04-24
Filing date: 2015-04-24
Publication date: 2015-07-08
Anticipated expiration: 2035-04-24
Also published as: WO2016169193A1; CN104765874B

Abstract

本申请公开了用于检测点击作弊的方法及装置。所述方法的一具体实施方式包括：基于预定时间段内预定内容被用户点击的次数确定可疑的点击；根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体；根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体；以及排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。该实施方式实现了对预定内容的点击进行监控，提高了检测作弊点击的效率和检测精度，减少了时间和资源的浪费。

Description

用于检测点击作弊的方法及装置

技术领域

本申请涉及网络技术领域，尤其涉及用于检测点击作弊的方法及装置。

背景技术

随着移动互联网众包技术的迅猛发展，一类通过众包网站发布任务，组织网民人工点击特定广告，并给予一定费用的作弊方式开始兴起。这类作弊行为均是由人工真实的触发，具有很强的隐蔽性，很难用传统的方法进行检测。

目前，现有的对广告众包作弊的检测方法包括：①通过建立描述单个点击者行为特征的规则，来发现可疑点击者，进而判断作弊行为。这种技术的缺陷在于：因为众包作弊来源为真实的用户点击而非来自机器，因此行为有很大的随机性，很难用基于单个用户或广告主建立的规则去判断。②通过观察一个广告主的点击流量来判断是否有针对它的作弊行为。这种技术的缺陷在于：由于众包作弊来自真实用户，当他们感受到作弊被检出后，可以迅速调整自身行为方式，从而使之前的规则失效。③通过寻找点击日志中行为一致的一批点击者，来判断作弊行为。这种技术的缺陷在于：该方法针对人工众包作弊检测实用性不大。

发明内容

为了解决上述问题，本申请提供了一种用于检测点击作弊的方法及装置，解决了现有技术中对作弊点击的检测效率不高，检测精度低的技术问题。

第一方面，本申请提供了一种用于检测点击作弊的方法，所述方法包括：基于预定时间段内预定内容被用户点击的次数确定可疑的点击；根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体；根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体；以及排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。

在某些实施方式中，所述基于预定时间段内预定内容被用户点击的次数确定可疑的点击，包括：获取所述预定时间段内每个预定内容被用户点击的次数；判断所述每个预定内容被点击的次数是否满足预定条件；将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。

在某些实施方式中，判断所述被点击的次数是否满足预定条件，包括：判断所述被点击的次数是否大于等于第一预定阈值，且小于等于第二预定阈值；如果是，确定所述被点击的次数满足预定条件。

在某些实施方式中，所述根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体，包括：获取所述可疑的点击的相关信息；基于所述相关信息确定至少一组可疑用户群体，其中，每组可疑用户群体在相同时间段内点击同一组内容。

在某些实施方式中，所述可疑的点击的相关信息包括以下至少一项：可疑的点击所对应的用户的标识信息；可疑的点击所对应的内容的标识信息；以及可疑的点击所对应的时刻。

在某些实施方式中，所述基于所述相关信息确定至少一组可疑用户群体，包括：基于所述相关信息对所述可疑的点击进行聚类，使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容；将所述每个聚类中心对应的用户群体确定为一组可疑用户群体。

在某些实施方式中，所述根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体，包括：获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词；基于所述关键词判断所述可疑内容是否为同类内容；如果是，将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。

在某些实施方式中，所述基于所述关键词判断所述可疑内容是否为同类内容，包括：判断所述关键词中同类关键词所占比例是否大于等于预定比例；如果是，确定所述可疑内容为同类内容。

第二方面，本申请提供了一种用于检测点击作弊的装置，所述装置包括：第一确定单元，用于基于预定时间段内预定内容被用户点击的次数确定可疑的点击；第二确定单元，用于根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体；第三确定单元，用于根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体；以及第四确定单元，用于排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。

在某些实施方式中，所述第一确定单元包括：获取子单元，用于获取所述预定时间段内每个预定内容被用户点击的次数；判断子单元，用于判断所述每个预定内容被点击的次数是否满足预定条件；确定子单元，用于将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。

在某些实施方式中，所述判断子单元配置用于：判断所述被点击的次数是否大于等于第一预定阈值，且小于等于第二预定阈值；如果是，确定所述被点击的次数满足预定条件。

在某些实施方式中，所述第二确定单元包括：信息获取子单元，用于获取所述可疑的点击的相关信息；用户群体确定子单元，用于基于所述相关信息确定至少一组可疑用户群体，其中，每组可疑用户群体在相同时间段内点击同一组内容。

在某些实施方式中，所述用户群体确定子单元配置用于：基于所述相关信息对所述可疑的点击进行聚类，使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容；将所述每个聚类中心对应的用户群体确定为一组可疑用户群体。

在某些实施方式中，所述第三确定单元包括：关键词获取子单元，用于获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词；类别判断子单元，用于基于所述关键词判断所述可疑内容是否为同类内容；待排除群体确定子单元，用于响应于可疑内容为同类内容，将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。

在某些实施方式中，所述类别判断子单元配置用于：判断所述关键词中同类关键词所占比例是否大于等于预定比例；如果是，确定所述可疑内容为同类内容。

本申请提供的用于检测点击作弊的方法及装置，通过缩小检测范围，确定有作弊嫌疑的可疑用户群体，并根据可疑用户群体所点击的可疑内容的关键词将可疑用户群体中的非作弊用户群体排除，从而实现了对预定内容的点击进行监控，提高了检测作弊点击的效率和检测精度，减少了时间和资源的浪费。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请实施例提供的用于检测点击作弊的方法的一个实施例的流程图；

图2是本申请实施例提供的确定可疑的点击的方法的一个实施例的流程图；

图3是本申请实施例提供的根据可疑的点击确定至少一组有作弊嫌疑的可疑用户群体的方法的一个实施例的流程图；

图4是本申请实施例提供的根据每组可疑用户群体在上述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体的方法的一个实施例的流程图；

图5是本申请实施例提供的用于检测点击作弊的装置的一个实施例的结构示意图；

图6适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

请参考图1，其示出了用于检测点击作弊的方法的一个实施例的流程100。

如图1所示，在步骤101中，基于预定时间段内预定内容被用户点击的次数确定可疑的点击。

在本实施例中，预定内容为有可能涉及作弊点击的内容，诸如一些能够靠点击量获得利益的内容(如广告、投票以及社交网站等等)，这些内容被点击的点击量越大，和其相关的受益人或单位获得的收益就越大。一般来说，利用众包平台进行作弊，通常是与预定内容相关的受益者通过任务发布者，在众包平台发布点击预定内容(如广告等)的任务，然后由任务发布者组织大批网民领取任务，网民通过点击预定内容完成任务，从而获得完成任务的奖励。

由此可见，通过众包平台进行作弊点击，点击时间一般都比较集中，通常发生在发布点击任务之后的一定时间段内。所以基本可以排除点击预定内容不够集中的时间段内包含作弊点击的可能。因此，预定时间段可以选取点击预定内容比较集中的一段时间段，具体来说，在一种实现方式中，可以获取对应于预定内容的点击在时间轴上的分布，取分布密度大于预定阈值的一段时间段作为预定时间段。在另一种实现方式中，也可以获取每个时刻对预定内容的点击量，取连续每个时刻点击量均大于预定阈值的一段时间段作为预定时间段。可以理解，还可以有其它的选取预定时间段的实现方式，本申请对此方面不限定。

在本实施例中，为了能够提高检测作弊点击的效率，减少时间和资源的浪费，首先，可以先确定一些可能与作弊相关的点击作为可疑的点击，排除一些作弊的可能性较小的点击，从而减小了检测的范围。在后续的检测过程中，只在可疑点击的范围中进行检测。具体来说，可以基于预定时间段内预定内容被用户点击的次数确定可疑的点击。

接着，在步骤102中，根据上述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体。

一般来说，进行作弊的任务发布者可能一次发布一个包含多个预定内容的点击任务到众包平台，例如，向众包平台发布一个包含10个广告的点击任务。进行作弊的网民在领取作弊点击任务后，通常会在一定时间段内将任务中的一组预定内容全部进行点击。因此，可以通过对可疑点击的相关信息(如点击时间，点击的内容等等)进行分析，确定执行该任务(点击对应于该任务的一组预定内容)的用户群体。将点击同一组预定内容的用户群体确定为具有作弊嫌疑的可疑用户群体。

因为，在一定时间段内，可能有多个任务发布者发布点击任务，所以，上述确定的可疑点击中可能包含多组对应于不同作弊点击任务的预定内容。其中，对应于同一个作弊点击任务的预定内容为一组预定内容。同时，每组预定内容也可以对应一组有作弊嫌疑的可疑用户群体。因此，上述确定的可疑点击对应至少一组有作弊嫌疑的可疑用户群体。

继而，在步骤103中，根据每组可疑用户群体在预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体。

一般来说，有些预定内容可能在一定时期较为热门，具有很大的用户点击量，或者某些用户在某个时间段内会对相关的一批预定内容感兴趣。例如，某个时期某区域爆发流感，那么该区域可能有大批居民在网上搜索抗流感或者预防流感的药物等，这些居民点击的广告或者网站可能会有部分重叠，并且均与流感相关。又例如，某个季节比较适合去某地区旅游，那么在该季节可能有大量用户在网上搜索并点击与去该地区旅游相关的广告或者网站，这些用户点击的内容也可能有部分重叠，并且均与该地区的旅游相关。

上述这些预定内容并没有涉及作弊点击，而点击上述这些预定内容的用户也并非作弊用户群体，但有可能被确定为有作弊嫌疑的作弊用户群体，因此，需要将这些非作弊用户群体从有作弊嫌疑的可疑用户群体中找出并排除。

在本实施例中，可疑内容为可疑用户群体在上述预定时间段内所点击的预定内容。可以根据每组可疑用户群体所点击的可疑内容的关键词确定待排除的非作弊用户群体。如果某组可疑用户群体所点击的所有可疑内容的关键词近似度较高，则可以确定该用户群体为非作弊用户群体。

最后，在步骤104中，排除可疑用户群体中非作弊用户群体以确定作弊用户群体。

在本实施例中，将可疑用户群体中的非作弊用户群体加以排除，则将剩下的可疑用户群体确定为作弊用户群体。

本申请的上述实施例提供的方法，通过缩小检测范围，确定有作弊嫌疑的可疑用户群体，并根据可疑用户群体所点击的可疑内容的关键词将可疑用户群体中的非作弊用户群体排除，从而实现了对预定内容的点击进行监控，提高了检测作弊点击的效率和检测精度，减少了时间和资源的浪费。

进一步参考图2，其示出了确定可疑的点击的方法的一个实施例的流程200。

如图2所示，在步骤201中，获取上述预定时间段内每个预定内容被用户点击的次数。

在本实施例中，可以通过预定内容的点击日志来获取上述预定时间段内每个预定内容被用户点击的次数，可以理解，还可以通过其它的方式获取上述预定时间段内每个预定内容被用户点击的次数。本申请对此方面不限定。

接着，在步骤202中，判断每个预定内容被点击的次数是否满足预定条件。

一般来说，如果一段时间内预定内容被点击的次数过小，如，小于一个预定阈值a，那么该预定内容涉及作弊的可能性就很小。因为，作弊的目的就是为了增加点击量，如果该预定内容涉及了作弊，其被点击的次数一定不会太小。

而如果一段时间内预定内容被点击的次数过大，如，大于一个预定阈值b，那么该预定内容涉及作弊的可能性也会很小。因为，作弊虽然能够增加点击量，但组织作弊的规模通常会比较有限，不可能达到一个过高的量级。例如，假设作弊点击能够增加点击量1000，如果某预定内容被点击的次数为10000，则可以判断该预定内容一定没有涉及作弊。因为，即使该预定内容涉及作弊，那么其对应的正常点击量也比作弊点击所能增加的点击量大接近一个数量级，所以，通过作弊增加点击量的意义并不大。

在本实施例中，预定条件为可能涉及作弊的预定内容被点击的次数所满足的条件，首先判断预定时间段内预定内容被点击的次数是否大于等于第一预定阈值，且小于等于第二预定阈值。如果该次数大于等于第一预定阈值且小于等于第二预定阈值，则确定该次数满足预定条件。

最后，在步骤203中，将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。

在本实施例中，如果某预定内容被点击的次数满足预定条件，则该预定内容很有可能涉及作弊，将其对应的点击确定为可疑的点击。需要说明的是，可疑的点击并不意味着一定是作弊点击，因为，即使某内容涉及作弊，该内容也同样会被非作弊用户正常点击。

进一步参考图3，其示出了根据可疑的点击确定至少一组有作弊嫌疑的可疑用户群体的方法的一个实施例的流程300。

如图3所示，在步骤301中，获取可疑的点击的相关信息。

在本实施例中，可疑的点击的相关信息可以包括以下至少一项：可疑的点击所对应的用户的标识信息；可疑的点击所对应的内容的标识信息；以及可疑的点击所对应的时刻。

具体来说，可疑的点击所对应的用户的标识信息可以是执行该可疑点击的用户的MAC地址，或者IP地址，或者终端设备(如手机、电脑等)的序列号等，本申请对可疑点击对应的用户标识信息的具体内容和形式不限定。可疑的点击所对应的内容标识信息可以是被可疑的点击所点击过的内容的名称，或者编号等用于标识或区分内容的信息，本申请对可疑点击对应的内容标识信息的具体内容和形式不限定。可疑的点击所对应的时刻可以是用户执行上述可疑的点击时对应的时刻。在本实施例中，可疑的点击的相关信息可以从点击日志中获得。可以理解，可疑的点击的相关信息也可以通过其它的方式获得，本申请对获得可疑的点击的相关信息的方式不限定。

接着，在步骤302中，基于相关信息确定至少一组可疑用户群体，其中，每组可疑用户群体在相同时间段内点击同一组内容。

在本实施例中，可以基于上述相关信息确定可疑用户群体，其中，可以有一组或多组可疑用户群体，每组可疑用户群体在相同时间段内点击同一组内容。

在本实施例的一种实现中，可以采用非参数化的聚类算法确定可疑用户群体，具体来说，首先基于上述相关信息对所有的可疑的点击进行聚类分析，使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容。然后将每个聚类中心对应的用户群体确定为一组可疑用户群体。

请参考图4，其示出了根据每组可疑用户群体在上述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体的方法的一个实施例的流程400。

如图4所示，在步骤401中，获取每组可疑用户群体在上述预定时间段内所点击的可疑内容的关键词。

在本实施例中，可疑内容为可疑用户群体在上述预定时间段内所点击的预定内容。需要说明的是，可疑用户群体中的用户在上述预定时间段内还可能点击其它不涉及作弊的内容，但这些不涉及作弊的内容与可疑的点击无关，因此，不会被判定为可疑内容。

在本实施例中，可疑内容的关键词为最能够体现可疑内容各种特征的词。例如，对于一种药品的广告，其关键词可以是广告产品的类别(药品)，该药品能够治疗的疾病名称，生产该药品的制药厂的厂名，该药品所含最重要的化学成分的名称等等。

在本实施例的一种实现中，可以对上述可疑内容进行内容解析，以获取其相关的关键词。在另一种实现中，还可以从对上述可疑内容的名称或者标识信息中获取其相关的关键词。可以理解，还可以有其它的获取可疑内容相关的关键词的方式，本申请对获取可疑内容相关的关键词的方式不限定。

接着，在步骤402中，基于上述关键词判断上述可疑内容是否为同类内容。

在本实施例中，可以根据不同可疑内容对应的关键词确定不同可疑内容是否同类。具体来说，首先判断每组可疑用户群体在上述预定时间段内所点击的一组可疑内容的关键词中，同类关键词所占比例是否大于等于预定比例。如果同类关键词所占比例大于等于预定比例，则确定上述可疑内容为同类内容。

最后，在步骤403中，将上述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。

应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

进一步参考图5，其示出了根据本申请的用于检测点击作弊的装置的一个实施例的结构示意图。

如图5所示，本实施例的装置500包括：第一确定单元501，第二确定单元502，第三确定单元503和第四确定单元504。其中，第一确定单元501用于基于预定时间段内预定内容被用户点击的次数确定可疑的点击。第二确定单元502用于根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体。第三确定单元503用于根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体。第四确定单元504用于排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。

在一些可选实施方式中，第一确定单元501包括获取子单元，判断子单元和确定子单元(未示出)。其中，获取子单元用于获取所述预定时间段内每个预定内容被用户点击的次数。判断子单元用于判断所述每个预定内容被点击的次数是否满足预定条件。确定子单元用于将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。

在一些可选实施方式中，判断子单元配置用于：判断所述被点击的次数是否大于等于第一预定阈值，且小于等于第二预定阈值。如果是，确定所述被点击的次数满足预定条件。

在一些可选实施方式中，所述第二确定单元502包括信息获取子单元和用户群体确定子单元(未示出)。其中，信息获取子单元用于获取所述可疑的点击的相关信息。用户群体确定子单元用于基于所述相关信息确定至少一组可疑用户群体，其中，每组可疑用户群体在相同时间段内点击同一组内容。

在一些可选实施方式中，所述可疑的点击的相关信息包括以下至少一项：可疑的点击所对应的用户的标识信息；可疑的点击所对应的内容的标识信息；以及可疑的点击所对应的时刻。

在一些可选实施方式中，所述用户群体确定子单元配置用于：基于所述相关信息对所述可疑的点击进行聚类，使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容；将所述每个聚类中心对应的用户群体确定为一组可疑用户群体。

在一些可选实施方式中，第三确定单元503包括关键词获取子单元，类别判断子单元和待排除群体确定子单元(未示出)。关键词获取子单元用于获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词。类别判断子单元用于基于所述关键词判断所述可疑内容是否为同类内容。待排除群体确定子单元用于响应于可疑内容为同类内容，将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。

在一些可选实施方式中，所述类别判断子单元配置用于：判断所述关键词中同类关键词所占比例是否大于等于预定比例；如果是，确定所述可疑内容为同类内容。

应当理解，装置500中记载的诸单元或模块与参考图1-4描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。装置500可以预先设置在服务器中，也可以通过下载等方式而加载到服务器中。装置500中的相应单元可以与服务器中的单元相互配合以实现的用于检测点击作弊的方案。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元模块也可以设置在处理器中，例如，可以描述为：一种处理器包括操作第一确定单元，第二确定单元，第三确定单元和第四确定单元。其中，这些单元模块的名称在某种情况下并不构成对该单元模块本身的限定，例如，第一确定单元还可以被描述为“用于基于预定时间段内预定内容被用户点击的次数确定可疑的点击的单元”。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的用于检测点击作弊的方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于检测点击作弊的方法，其特征在于，所述方法包括：

基于预定时间段内预定内容被用户点击的次数确定可疑的点击；

根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体；

根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体；以及

排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。

2.根据权利要求1所述的方法，其特征在于，所述基于预定时间段内预定内容被用户点击的次数确定可疑的点击，包括：

获取所述预定时间段内每个预定内容被用户点击的次数；

判断所述每个预定内容被点击的次数是否满足预定条件；

将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。

3.根据权利要求2所述的方法，其特征在于，判断所述被点击的次数是否满足预定条件，包括：

判断所述被点击的次数是否大于等于第一预定阈值，且小于等于第二预定阈值；

如果是，确定所述被点击的次数满足预定条件。

4.根据权利要求1所述的方法，其特征在于，所述根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体，包括：

获取所述可疑的点击的相关信息；

基于所述相关信息确定至少一组可疑用户群体，其中，每组可疑用户群体在相同时间段内点击同一组内容。

5.根据权利要求4所述的方法，其特征在于，所述可疑的点击的相关信息包括以下至少一项：

可疑的点击所对应的用户的标识信息；

可疑的点击所对应的内容的标识信息；以及

可疑的点击所对应的时刻。

6.根据权利要求5所述的方法，其特征在于，所述基于所述相关信息确定至少一组可疑用户群体，包括：

基于所述相关信息对所述可疑的点击进行聚类，使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容；

将所述每个聚类中心对应的用户群体确定为一组可疑用户群体。

7.根据权利要求1所述的方法，其特征在于，所述根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体，包括：

获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词；

基于所述关键词判断所述可疑内容是否为同类内容；

如果是，将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。

8.根据权利要求7所述的方法，其特征在于，所述基于所述关键词判断所述可疑内容是否为同类内容，包括：

判断所述关键词中同类关键词所占比例是否大于等于预定比例；

如果是，确定所述可疑内容为同类内容。

9.一种用于检测点击作弊的装置，其特征在于，所述装置包括：

第一确定单元，用于基于预定时间段内预定内容被用户点击的次数确定可疑的点击；

第二确定单元，用于根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体；

第三确定单元，用于根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体；以及

第四确定单元，用于排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。

10.根据权利要求9所述的装置，其特征在于，所述第一确定单元包括：

获取子单元，用于获取所述预定时间段内每个预定内容被用户点击的次数；

判断子单元，用于判断所述每个预定内容被点击的次数是否满足预定条件；

确定子单元，用于将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。

11.根据权利要求10所述的装置，其特征在于，所述判断子单元配置用于：

如果是，确定所述被点击的次数满足预定条件。

12.根据权利要求9所述的装置，其特征在于，所述第二确定单元包括：

信息获取子单元，用于获取所述可疑的点击的相关信息；

用户群体确定子单元，用于基于所述相关信息确定至少一组可疑用户群体，其中，每组可疑用户群体在相同时间段内点击同一组内容。

13.根据权利要求12所述的装置，其特征在于，所述可疑的点击的相关信息包括以下至少一项：

可疑的点击所对应的用户的标识信息；

可疑的点击所对应的内容的标识信息；以及

可疑的点击所对应的时刻。

14.根据权利要求13所述的装置，其特征在于，所述用户群体确定子单元配置用于：

15.根据权利要求9所述的装置，其特征在于，所述第三确定单元包括：

关键词获取子单元，用于获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词；

类别判断子单元，用于基于所述关键词判断所述可疑内容是否为同类内容；

待排除群体确定子单元，用于响应于可疑内容为同类内容，将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。

16.根据权利要求15所述的装置，其特征在于，所述类别判断子单元配置用于：

如果是，确定所述可疑内容为同类内容。