CN104765874A - 用于检测点击作弊的方法及装置 - Google Patents

用于检测点击作弊的方法及装置 Download PDF

Info

Publication number
CN104765874A
CN104765874A CN201510202474.9A CN201510202474A CN104765874A CN 104765874 A CN104765874 A CN 104765874A CN 201510202474 A CN201510202474 A CN 201510202474A CN 104765874 A CN104765874 A CN 104765874A
Authority
CN
China
Prior art keywords
suspicious
content
click
user
cheating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510202474.9A
Other languages
English (en)
Other versions
CN104765874B (zh
Inventor
庄馨
田天
朱军
夏粉
张潼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510202474.9A priority Critical patent/CN104765874B/zh
Publication of CN104765874A publication Critical patent/CN104765874A/zh
Priority to PCT/CN2015/089545 priority patent/WO2016169193A1/zh
Application granted granted Critical
Publication of CN104765874B publication Critical patent/CN104765874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Abstract

本申请公开了用于检测点击作弊的方法及装置。所述方法的一具体实施方式包括:基于预定时间段内预定内容被用户点击的次数确定可疑的点击;根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体;根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体;以及排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。该实施方式实现了对预定内容的点击进行监控,提高了检测作弊点击的效率和检测精度,减少了时间和资源的浪费。

Description

用于检测点击作弊的方法及装置
技术领域
本申请涉及网络技术领域,尤其涉及用于检测点击作弊的方法及装置。
背景技术
随着移动互联网众包技术的迅猛发展,一类通过众包网站发布任务,组织网民人工点击特定广告,并给予一定费用的作弊方式开始兴起。这类作弊行为均是由人工真实的触发,具有很强的隐蔽性,很难用传统的方法进行检测。
目前,现有的对广告众包作弊的检测方法包括:①通过建立描述单个点击者行为特征的规则,来发现可疑点击者,进而判断作弊行为。这种技术的缺陷在于:因为众包作弊来源为真实的用户点击而非来自机器,因此行为有很大的随机性,很难用基于单个用户或广告主建立的规则去判断。②通过观察一个广告主的点击流量来判断是否有针对它的作弊行为。这种技术的缺陷在于:由于众包作弊来自真实用户,当他们感受到作弊被检出后,可以迅速调整自身行为方式,从而使之前的规则失效。③通过寻找点击日志中行为一致的一批点击者,来判断作弊行为。这种技术的缺陷在于:该方法针对人工众包作弊检测实用性不大。
发明内容
为了解决上述问题,本申请提供了一种用于检测点击作弊的方法及装置,解决了现有技术中对作弊点击的检测效率不高,检测精度低的技术问题。
第一方面,本申请提供了一种用于检测点击作弊的方法,所述方法包括:基于预定时间段内预定内容被用户点击的次数确定可疑的点击;根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体;根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体;以及排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。
在某些实施方式中,所述基于预定时间段内预定内容被用户点击的次数确定可疑的点击,包括:获取所述预定时间段内每个预定内容被用户点击的次数;判断所述每个预定内容被点击的次数是否满足预定条件;将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。
在某些实施方式中,判断所述被点击的次数是否满足预定条件,包括:判断所述被点击的次数是否大于等于第一预定阈值,且小于等于第二预定阈值;如果是,确定所述被点击的次数满足预定条件。
在某些实施方式中,所述根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体,包括:获取所述可疑的点击的相关信息;基于所述相关信息确定至少一组可疑用户群体,其中,每组可疑用户群体在相同时间段内点击同一组内容。
在某些实施方式中,所述可疑的点击的相关信息包括以下至少一项:可疑的点击所对应的用户的标识信息;可疑的点击所对应的内容的标识信息;以及可疑的点击所对应的时刻。
在某些实施方式中,所述基于所述相关信息确定至少一组可疑用户群体,包括:基于所述相关信息对所述可疑的点击进行聚类,使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容;将所述每个聚类中心对应的用户群体确定为一组可疑用户群体。
在某些实施方式中,所述根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体,包括:获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词;基于所述关键词判断所述可疑内容是否为同类内容;如果是,将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。
在某些实施方式中,所述基于所述关键词判断所述可疑内容是否为同类内容,包括:判断所述关键词中同类关键词所占比例是否大于等于预定比例;如果是,确定所述可疑内容为同类内容。
第二方面,本申请提供了一种用于检测点击作弊的装置,所述装置包括:第一确定单元,用于基于预定时间段内预定内容被用户点击的次数确定可疑的点击;第二确定单元,用于根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体;第三确定单元,用于根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体;以及第四确定单元,用于排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。
在某些实施方式中,所述第一确定单元包括:获取子单元,用于获取所述预定时间段内每个预定内容被用户点击的次数;判断子单元,用于判断所述每个预定内容被点击的次数是否满足预定条件;确定子单元,用于将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。
在某些实施方式中,所述判断子单元配置用于:判断所述被点击的次数是否大于等于第一预定阈值,且小于等于第二预定阈值;如果是,确定所述被点击的次数满足预定条件。
在某些实施方式中,所述第二确定单元包括:信息获取子单元,用于获取所述可疑的点击的相关信息;用户群体确定子单元,用于基于所述相关信息确定至少一组可疑用户群体,其中,每组可疑用户群体在相同时间段内点击同一组内容。
在某些实施方式中,所述可疑的点击的相关信息包括以下至少一项:可疑的点击所对应的用户的标识信息;可疑的点击所对应的内容的标识信息;以及可疑的点击所对应的时刻。
在某些实施方式中,所述用户群体确定子单元配置用于:基于所述相关信息对所述可疑的点击进行聚类,使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容;将所述每个聚类中心对应的用户群体确定为一组可疑用户群体。
在某些实施方式中,所述第三确定单元包括:关键词获取子单元,用于获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词;类别判断子单元,用于基于所述关键词判断所述可疑内容是否为同类内容;待排除群体确定子单元,用于响应于可疑内容为同类内容,将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。
在某些实施方式中,所述类别判断子单元配置用于:判断所述关键词中同类关键词所占比例是否大于等于预定比例;如果是,确定所述可疑内容为同类内容。
本申请提供的用于检测点击作弊的方法及装置,通过缩小检测范围,确定有作弊嫌疑的可疑用户群体,并根据可疑用户群体所点击的可疑内容的关键词将可疑用户群体中的非作弊用户群体排除,从而实现了对预定内容的点击进行监控,提高了检测作弊点击的效率和检测精度,减少了时间和资源的浪费。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请实施例提供的用于检测点击作弊的方法的一个实施例的流程图;
图2是本申请实施例提供的确定可疑的点击的方法的一个实施例的流程图;
图3是本申请实施例提供的根据可疑的点击确定至少一组有作弊嫌疑的可疑用户群体的方法的一个实施例的流程图;
图4是本申请实施例提供的根据每组可疑用户群体在上述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体的方法的一个实施例的流程图;
图5是本申请实施例提供的用于检测点击作弊的装置的一个实施例的结构示意图;
图6适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了用于检测点击作弊的方法的一个实施例的流程100。
如图1所示,在步骤101中,基于预定时间段内预定内容被用户点击的次数确定可疑的点击。
在本实施例中,预定内容为有可能涉及作弊点击的内容,诸如一些能够靠点击量获得利益的内容(如广告、投票以及社交网站等等),这些内容被点击的点击量越大,和其相关的受益人或单位获得的收益就越大。一般来说,利用众包平台进行作弊,通常是与预定内容相关的受益者通过任务发布者,在众包平台发布点击预定内容(如广告等)的任务,然后由任务发布者组织大批网民领取任务,网民通过点击预定内容完成任务,从而获得完成任务的奖励。
由此可见,通过众包平台进行作弊点击,点击时间一般都比较集中,通常发生在发布点击任务之后的一定时间段内。所以基本可以排除点击预定内容不够集中的时间段内包含作弊点击的可能。因此,预定时间段可以选取点击预定内容比较集中的一段时间段,具体来说,在一种实现方式中,可以获取对应于预定内容的点击在时间轴上的分布,取分布密度大于预定阈值的一段时间段作为预定时间段。在另一种实现方式中,也可以获取每个时刻对预定内容的点击量,取连续每个时刻点击量均大于预定阈值的一段时间段作为预定时间段。可以理解,还可以有其它的选取预定时间段的实现方式,本申请对此方面不限定。
在本实施例中,为了能够提高检测作弊点击的效率,减少时间和资源的浪费,首先,可以先确定一些可能与作弊相关的点击作为可疑的点击,排除一些作弊的可能性较小的点击,从而减小了检测的范围。在后续的检测过程中,只在可疑点击的范围中进行检测。具体来说,可以基于预定时间段内预定内容被用户点击的次数确定可疑的点击。
接着,在步骤102中,根据上述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体。
一般来说,进行作弊的任务发布者可能一次发布一个包含多个预定内容的点击任务到众包平台,例如,向众包平台发布一个包含10个广告的点击任务。进行作弊的网民在领取作弊点击任务后,通常会在一定时间段内将任务中的一组预定内容全部进行点击。因此,可以通过对可疑点击的相关信息(如点击时间,点击的内容等等)进行分析,确定执行该任务(点击对应于该任务的一组预定内容)的用户群体。将点击同一组预定内容的用户群体确定为具有作弊嫌疑的可疑用户群体。
因为,在一定时间段内,可能有多个任务发布者发布点击任务,所以,上述确定的可疑点击中可能包含多组对应于不同作弊点击任务的预定内容。其中,对应于同一个作弊点击任务的预定内容为一组预定内容。同时,每组预定内容也可以对应一组有作弊嫌疑的可疑用户群体。因此,上述确定的可疑点击对应至少一组有作弊嫌疑的可疑用户群体。
继而,在步骤103中,根据每组可疑用户群体在预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体。
一般来说,有些预定内容可能在一定时期较为热门,具有很大的用户点击量,或者某些用户在某个时间段内会对相关的一批预定内容感兴趣。例如,某个时期某区域爆发流感,那么该区域可能有大批居民在网上搜索抗流感或者预防流感的药物等,这些居民点击的广告或者网站可能会有部分重叠,并且均与流感相关。又例如,某个季节比较适合去某地区旅游,那么在该季节可能有大量用户在网上搜索并点击与去该地区旅游相关的广告或者网站,这些用户点击的内容也可能有部分重叠,并且均与该地区的旅游相关。
上述这些预定内容并没有涉及作弊点击,而点击上述这些预定内容的用户也并非作弊用户群体,但有可能被确定为有作弊嫌疑的作弊用户群体,因此,需要将这些非作弊用户群体从有作弊嫌疑的可疑用户群体中找出并排除。
在本实施例中,可疑内容为可疑用户群体在上述预定时间段内所点击的预定内容。可以根据每组可疑用户群体所点击的可疑内容的关键词确定待排除的非作弊用户群体。如果某组可疑用户群体所点击的所有可疑内容的关键词近似度较高,则可以确定该用户群体为非作弊用户群体。
最后,在步骤104中,排除可疑用户群体中非作弊用户群体以确定作弊用户群体。
在本实施例中,将可疑用户群体中的非作弊用户群体加以排除,则将剩下的可疑用户群体确定为作弊用户群体。
本申请的上述实施例提供的方法,通过缩小检测范围,确定有作弊嫌疑的可疑用户群体,并根据可疑用户群体所点击的可疑内容的关键词将可疑用户群体中的非作弊用户群体排除,从而实现了对预定内容的点击进行监控,提高了检测作弊点击的效率和检测精度,减少了时间和资源的浪费。
进一步参考图2,其示出了确定可疑的点击的方法的一个实施例的流程200。
如图2所示,在步骤201中,获取上述预定时间段内每个预定内容被用户点击的次数。
在本实施例中,可以通过预定内容的点击日志来获取上述预定时间段内每个预定内容被用户点击的次数,可以理解,还可以通过其它的方式获取上述预定时间段内每个预定内容被用户点击的次数。本申请对此方面不限定。
接着,在步骤202中,判断每个预定内容被点击的次数是否满足预定条件。
一般来说,如果一段时间内预定内容被点击的次数过小,如,小于一个预定阈值a,那么该预定内容涉及作弊的可能性就很小。因为,作弊的目的就是为了增加点击量,如果该预定内容涉及了作弊,其被点击的次数一定不会太小。
而如果一段时间内预定内容被点击的次数过大,如,大于一个预定阈值b,那么该预定内容涉及作弊的可能性也会很小。因为,作弊虽然能够增加点击量,但组织作弊的规模通常会比较有限,不可能达到一个过高的量级。例如,假设作弊点击能够增加点击量1000,如果某预定内容被点击的次数为10000,则可以判断该预定内容一定没有涉及作弊。因为,即使该预定内容涉及作弊,那么其对应的正常点击量也比作弊点击所能增加的点击量大接近一个数量级,所以,通过作弊增加点击量的意义并不大。
在本实施例中,预定条件为可能涉及作弊的预定内容被点击的次数所满足的条件,首先判断预定时间段内预定内容被点击的次数是否大于等于第一预定阈值,且小于等于第二预定阈值。如果该次数大于等于第一预定阈值且小于等于第二预定阈值,则确定该次数满足预定条件。
最后,在步骤203中,将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。
在本实施例中,如果某预定内容被点击的次数满足预定条件,则该预定内容很有可能涉及作弊,将其对应的点击确定为可疑的点击。需要说明的是,可疑的点击并不意味着一定是作弊点击,因为,即使某内容涉及作弊,该内容也同样会被非作弊用户正常点击。
进一步参考图3,其示出了根据可疑的点击确定至少一组有作弊嫌疑的可疑用户群体的方法的一个实施例的流程300。
如图3所示,在步骤301中,获取可疑的点击的相关信息。
在本实施例中,可疑的点击的相关信息可以包括以下至少一项:可疑的点击所对应的用户的标识信息;可疑的点击所对应的内容的标识信息;以及可疑的点击所对应的时刻。
具体来说,可疑的点击所对应的用户的标识信息可以是执行该可疑点击的用户的MAC地址,或者IP地址,或者终端设备(如手机、电脑等)的序列号等,本申请对可疑点击对应的用户标识信息的具体内容和形式不限定。可疑的点击所对应的内容标识信息可以是被可疑的点击所点击过的内容的名称,或者编号等用于标识或区分内容的信息,本申请对可疑点击对应的内容标识信息的具体内容和形式不限定。可疑的点击所对应的时刻可以是用户执行上述可疑的点击时对应的时刻。在本实施例中,可疑的点击的相关信息可以从点击日志中获得。可以理解,可疑的点击的相关信息也可以通过其它的方式获得,本申请对获得可疑的点击的相关信息的方式不限定。
接着,在步骤302中,基于相关信息确定至少一组可疑用户群体,其中,每组可疑用户群体在相同时间段内点击同一组内容。
在本实施例中,可以基于上述相关信息确定可疑用户群体,其中,可以有一组或多组可疑用户群体,每组可疑用户群体在相同时间段内点击同一组内容。
在本实施例的一种实现中,可以采用非参数化的聚类算法确定可疑用户群体,具体来说,首先基于上述相关信息对所有的可疑的点击进行聚类分析,使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容。然后将每个聚类中心对应的用户群体确定为一组可疑用户群体。
请参考图4,其示出了根据每组可疑用户群体在上述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体的方法的一个实施例的流程400。
如图4所示,在步骤401中,获取每组可疑用户群体在上述预定时间段内所点击的可疑内容的关键词。
在本实施例中,可疑内容为可疑用户群体在上述预定时间段内所点击的预定内容。需要说明的是,可疑用户群体中的用户在上述预定时间段内还可能点击其它不涉及作弊的内容,但这些不涉及作弊的内容与可疑的点击无关,因此,不会被判定为可疑内容。
在本实施例中,可疑内容的关键词为最能够体现可疑内容各种特征的词。例如,对于一种药品的广告,其关键词可以是广告产品的类别(药品),该药品能够治疗的疾病名称,生产该药品的制药厂的厂名,该药品所含最重要的化学成分的名称等等。
在本实施例的一种实现中,可以对上述可疑内容进行内容解析,以获取其相关的关键词。在另一种实现中,还可以从对上述可疑内容的名称或者标识信息中获取其相关的关键词。可以理解,还可以有其它的获取可疑内容相关的关键词的方式,本申请对获取可疑内容相关的关键词的方式不限定。
接着,在步骤402中,基于上述关键词判断上述可疑内容是否为同类内容。
在本实施例中,可以根据不同可疑内容对应的关键词确定不同可疑内容是否同类。具体来说,首先判断每组可疑用户群体在上述预定时间段内所点击的一组可疑内容的关键词中,同类关键词所占比例是否大于等于预定比例。如果同类关键词所占比例大于等于预定比例,则确定上述可疑内容为同类内容。
最后,在步骤403中,将上述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
进一步参考图5,其示出了根据本申请的用于检测点击作弊的装置的一个实施例的结构示意图。
如图5所示,本实施例的装置500包括:第一确定单元501,第二确定单元502,第三确定单元503和第四确定单元504。其中,第一确定单元501用于基于预定时间段内预定内容被用户点击的次数确定可疑的点击。第二确定单元502用于根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体。第三确定单元503用于根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体。第四确定单元504用于排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。
在一些可选实施方式中,第一确定单元501包括获取子单元,判断子单元和确定子单元(未示出)。其中,获取子单元用于获取所述预定时间段内每个预定内容被用户点击的次数。判断子单元用于判断所述每个预定内容被点击的次数是否满足预定条件。确定子单元用于将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。
在一些可选实施方式中,判断子单元配置用于:判断所述被点击的次数是否大于等于第一预定阈值,且小于等于第二预定阈值。如果是,确定所述被点击的次数满足预定条件。
在一些可选实施方式中,所述第二确定单元502包括信息获取子单元和用户群体确定子单元(未示出)。其中,信息获取子单元用于获取所述可疑的点击的相关信息。用户群体确定子单元用于基于所述相关信息确定至少一组可疑用户群体,其中,每组可疑用户群体在相同时间段内点击同一组内容。
在一些可选实施方式中,所述可疑的点击的相关信息包括以下至少一项:可疑的点击所对应的用户的标识信息;可疑的点击所对应的内容的标识信息;以及可疑的点击所对应的时刻。
在一些可选实施方式中,所述用户群体确定子单元配置用于:基于所述相关信息对所述可疑的点击进行聚类,使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容;将所述每个聚类中心对应的用户群体确定为一组可疑用户群体。
在一些可选实施方式中,第三确定单元503包括关键词获取子单元,类别判断子单元和待排除群体确定子单元(未示出)。关键词获取子单元用于获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词。类别判断子单元用于基于所述关键词判断所述可疑内容是否为同类内容。待排除群体确定子单元用于响应于可疑内容为同类内容,将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。
在一些可选实施方式中,所述类别判断子单元配置用于:判断所述关键词中同类关键词所占比例是否大于等于预定比例;如果是,确定所述可疑内容为同类内容。
应当理解,装置500中记载的诸单元或模块与参考图1-4描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。装置500可以预先设置在服务器中,也可以通过下载等方式而加载到服务器中。装置500中的相应单元可以与服务器中的单元相互配合以实现的用于检测点击作弊的方案。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元模块也可以设置在处理器中,例如,可以描述为:一种处理器包括操作第一确定单元,第二确定单元,第三确定单元和第四确定单元。其中,这些单元模块的名称在某种情况下并不构成对该单元模块本身的限定,例如,第一确定单元还可以被描述为“用于基于预定时间段内预定内容被用户点击的次数确定可疑的点击的单元”。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的用于检测点击作弊的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种用于检测点击作弊的方法,其特征在于,所述方法包括:
基于预定时间段内预定内容被用户点击的次数确定可疑的点击;
根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体;
根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体;以及
排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。
2.根据权利要求1所述的方法,其特征在于,所述基于预定时间段内预定内容被用户点击的次数确定可疑的点击,包括:
获取所述预定时间段内每个预定内容被用户点击的次数;
判断所述每个预定内容被点击的次数是否满足预定条件;
将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。
3.根据权利要求2所述的方法,其特征在于,判断所述被点击的次数是否满足预定条件,包括:
判断所述被点击的次数是否大于等于第一预定阈值,且小于等于第二预定阈值;
如果是,确定所述被点击的次数满足预定条件。
4.根据权利要求1所述的方法,其特征在于,所述根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体,包括:
获取所述可疑的点击的相关信息;
基于所述相关信息确定至少一组可疑用户群体,其中,每组可疑用户群体在相同时间段内点击同一组内容。
5.根据权利要求4所述的方法,其特征在于,所述可疑的点击的相关信息包括以下至少一项:
可疑的点击所对应的用户的标识信息;
可疑的点击所对应的内容的标识信息;以及
可疑的点击所对应的时刻。
6.根据权利要求5所述的方法,其特征在于,所述基于所述相关信息确定至少一组可疑用户群体,包括:
基于所述相关信息对所述可疑的点击进行聚类,使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容;
将所述每个聚类中心对应的用户群体确定为一组可疑用户群体。
7.根据权利要求1所述的方法,其特征在于,所述根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体,包括:
获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词;
基于所述关键词判断所述可疑内容是否为同类内容;
如果是,将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。
8.根据权利要求7所述的方法,其特征在于,所述基于所述关键词判断所述可疑内容是否为同类内容,包括:
判断所述关键词中同类关键词所占比例是否大于等于预定比例;
如果是,确定所述可疑内容为同类内容。
9.一种用于检测点击作弊的装置,其特征在于,所述装置包括:
第一确定单元,用于基于预定时间段内预定内容被用户点击的次数确定可疑的点击;
第二确定单元,用于根据所述可疑的点击确定至少一组有作弊嫌疑的可疑用户群体;
第三确定单元,用于根据每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词确定待排除的非作弊用户群体;以及
第四确定单元,用于排除所述可疑用户群体中非作弊用户群体以确定作弊用户群体。
10.根据权利要求9所述的装置,其特征在于,所述第一确定单元包括:
获取子单元,用于获取所述预定时间段内每个预定内容被用户点击的次数;
判断子单元,用于判断所述每个预定内容被点击的次数是否满足预定条件;
确定子单元,用于将被点击的次数满足预定条件的预定内容所对应的点击确定为可疑的点击。
11.根据权利要求10所述的装置,其特征在于,所述判断子单元配置用于:
判断所述被点击的次数是否大于等于第一预定阈值,且小于等于第二预定阈值;
如果是,确定所述被点击的次数满足预定条件。
12.根据权利要求9所述的装置,其特征在于,所述第二确定单元包括:
信息获取子单元,用于获取所述可疑的点击的相关信息;
用户群体确定子单元,用于基于所述相关信息确定至少一组可疑用户群体,其中,每组可疑用户群体在相同时间段内点击同一组内容。
13.根据权利要求12所述的装置,其特征在于,所述可疑的点击的相关信息包括以下至少一项:
可疑的点击所对应的用户的标识信息;
可疑的点击所对应的内容的标识信息;以及
可疑的点击所对应的时刻。
14.根据权利要求13所述的装置,其特征在于,所述用户群体确定子单元配置用于:
基于所述相关信息对所述可疑的点击进行聚类,使得每个聚类中心对应的用户群体在相同时间段内点击同一组内容;
将所述每个聚类中心对应的用户群体确定为一组可疑用户群体。
15.根据权利要求9所述的装置,其特征在于,所述第三确定单元包括:
关键词获取子单元,用于获取每组所述可疑用户群体在所述预定时间段内所点击的可疑内容的关键词;
类别判断子单元,用于基于所述关键词判断所述可疑内容是否为同类内容;
待排除群体确定子单元,用于响应于可疑内容为同类内容,将所述可疑内容对应的可疑用户群体确定为待排除的非作弊用户群体。
16.根据权利要求15所述的装置,其特征在于,所述类别判断子单元配置用于:
判断所述关键词中同类关键词所占比例是否大于等于预定比例;
如果是,确定所述可疑内容为同类内容。
CN201510202474.9A 2015-04-24 2015-04-24 用于检测点击作弊的方法及装置 Active CN104765874B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510202474.9A CN104765874B (zh) 2015-04-24 2015-04-24 用于检测点击作弊的方法及装置
PCT/CN2015/089545 WO2016169193A1 (zh) 2015-04-24 2015-09-14 用于检测点击作弊的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510202474.9A CN104765874B (zh) 2015-04-24 2015-04-24 用于检测点击作弊的方法及装置

Publications (2)

Publication Number Publication Date
CN104765874A true CN104765874A (zh) 2015-07-08
CN104765874B CN104765874B (zh) 2019-03-26

Family

ID=53647701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510202474.9A Active CN104765874B (zh) 2015-04-24 2015-04-24 用于检测点击作弊的方法及装置

Country Status (2)

Country Link
CN (1) CN104765874B (zh)
WO (1) WO2016169193A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354721A (zh) * 2015-09-29 2016-02-24 北京金山安全软件有限公司 一种识别机器操作行为的方法及装置
WO2016169193A1 (zh) * 2015-04-24 2016-10-27 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
CN106445796A (zh) * 2015-08-04 2017-02-22 腾讯科技(深圳)有限公司 作弊渠道的自动检测方法及装置
CN106649527A (zh) * 2016-10-20 2017-05-10 重庆邮电大学 基于Spark Streaming的广告点击异常检测系统及检测方法
CN106998336A (zh) * 2016-01-22 2017-08-01 腾讯科技(深圳)有限公司 渠道中的用户检测方法和装置
CN107168854A (zh) * 2017-06-01 2017-09-15 北京京东尚科信息技术有限公司 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN107229557A (zh) * 2017-06-26 2017-10-03 微鲸科技有限公司 异常点击检测方法及装置、点击量统计方法及装置
CN107529093A (zh) * 2017-09-05 2017-12-29 北京奇艺世纪科技有限公司 一种视频文件播放量的检测方法及系统
CN107566897A (zh) * 2017-07-19 2018-01-09 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN109842619A (zh) * 2019-01-08 2019-06-04 北京百度网讯科技有限公司 用户账号拦截方法和装置
CN110046910A (zh) * 2018-12-13 2019-07-23 阿里巴巴集团控股有限公司 获取与特定客户相关的客户群体的方法和设备
CN110069691A (zh) * 2019-04-29 2019-07-30 百度在线网络技术(北京)有限公司 用于处理点击行为数据的方法和装置
CN112508630A (zh) * 2021-01-29 2021-03-16 腾讯科技(深圳)有限公司 异常会话群的检测方法、装置、计算机设备和存储介质
CN112579907A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 一种异常任务检测方法、装置、电子设备和存储介质
CN113179358A (zh) * 2021-04-09 2021-07-27 作业帮教育科技(北京)有限公司 一种题目解答的防作弊方法、装置及电子设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210886B (zh) * 2018-05-31 2023-08-22 腾讯科技(深圳)有限公司 识别虚假操作方法、装置、服务器、可读存储介质、系统
CN109034867B (zh) * 2018-06-21 2022-10-25 腾讯科技(深圳)有限公司 点击流量检测方法、装置及存储介质
CN110827094B (zh) * 2019-11-15 2023-05-23 湖南快乐阳光互动娱乐传媒有限公司 广告投放的反作弊方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
CN102289756A (zh) * 2010-06-18 2011-12-21 百度在线网络技术(北京)有限公司 点击有效性的判断方法及其系统
CN103853839A (zh) * 2014-03-18 2014-06-11 北京博雅立方科技有限公司 一种评测广告页面恶意点击疑似度的方法及装置
CN103870572A (zh) * 2014-03-18 2014-06-18 北京博雅立方科技有限公司 一种防御恶意点击广告页面的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8639570B2 (en) * 2008-06-02 2014-01-28 Microsoft Corporation User advertisement click behavior modeling
CN103390027A (zh) * 2013-06-25 2013-11-13 亿赞普(北京)科技有限公司 一种互联网广告反作弊方法和系统
CN104765874B (zh) * 2015-04-24 2019-03-26 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
CN102289756A (zh) * 2010-06-18 2011-12-21 百度在线网络技术(北京)有限公司 点击有效性的判断方法及其系统
CN103853839A (zh) * 2014-03-18 2014-06-11 北京博雅立方科技有限公司 一种评测广告页面恶意点击疑似度的方法及装置
CN103870572A (zh) * 2014-03-18 2014-06-18 北京博雅立方科技有限公司 一种防御恶意点击广告页面的方法及装置

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016169193A1 (zh) * 2015-04-24 2016-10-27 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
CN106445796A (zh) * 2015-08-04 2017-02-22 腾讯科技(深圳)有限公司 作弊渠道的自动检测方法及装置
CN106445796B (zh) * 2015-08-04 2021-01-19 腾讯科技(深圳)有限公司 作弊渠道的自动检测方法及装置
CN105354721B (zh) * 2015-09-29 2019-09-06 北京金山安全软件有限公司 一种识别机器操作行为的方法及装置
CN105354721A (zh) * 2015-09-29 2016-02-24 北京金山安全软件有限公司 一种识别机器操作行为的方法及装置
CN106998336A (zh) * 2016-01-22 2017-08-01 腾讯科技(深圳)有限公司 渠道中的用户检测方法和装置
CN106998336B (zh) * 2016-01-22 2020-07-31 腾讯科技(深圳)有限公司 渠道中的用户检测方法和装置
CN106649527A (zh) * 2016-10-20 2017-05-10 重庆邮电大学 基于Spark Streaming的广告点击异常检测系统及检测方法
CN107168854A (zh) * 2017-06-01 2017-09-15 北京京东尚科信息技术有限公司 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN107229557A (zh) * 2017-06-26 2017-10-03 微鲸科技有限公司 异常点击检测方法及装置、点击量统计方法及装置
CN107229557B (zh) * 2017-06-26 2020-10-20 微鲸科技有限公司 异常点击检测方法及装置、点击量统计方法及装置
CN107566897B (zh) * 2017-07-19 2019-10-15 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN107566897A (zh) * 2017-07-19 2018-01-09 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN107529093A (zh) * 2017-09-05 2017-12-29 北京奇艺世纪科技有限公司 一种视频文件播放量的检测方法及系统
CN107529093B (zh) * 2017-09-05 2020-05-22 北京奇艺世纪科技有限公司 一种视频文件播放量的检测方法及系统
CN110046910A (zh) * 2018-12-13 2019-07-23 阿里巴巴集团控股有限公司 获取与特定客户相关的客户群体的方法和设备
CN109842619A (zh) * 2019-01-08 2019-06-04 北京百度网讯科技有限公司 用户账号拦截方法和装置
CN110069691A (zh) * 2019-04-29 2019-07-30 百度在线网络技术(北京)有限公司 用于处理点击行为数据的方法和装置
CN112579907A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 一种异常任务检测方法、装置、电子设备和存储介质
CN112579907B (zh) * 2020-12-25 2023-08-11 北京百度网讯科技有限公司 一种异常任务检测方法、装置、电子设备和存储介质
CN112508630A (zh) * 2021-01-29 2021-03-16 腾讯科技(深圳)有限公司 异常会话群的检测方法、装置、计算机设备和存储介质
CN113179358A (zh) * 2021-04-09 2021-07-27 作业帮教育科技(北京)有限公司 一种题目解答的防作弊方法、装置及电子设备
CN113179358B (zh) * 2021-04-09 2022-08-09 作业帮教育科技(北京)有限公司 一种题目解答的防作弊方法、装置及电子设备

Also Published As

Publication number Publication date
WO2016169193A1 (zh) 2016-10-27
CN104765874B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN104765874A (zh) 用于检测点击作弊的方法及装置
CN110222267B (zh) 一种游戏平台信息推送方法、系统、存储介质及设备
CN109167816B (zh) 信息推送方法、装置、设备和存储介质
US8639570B2 (en) User advertisement click behavior modeling
CN102483745B (zh) 共同选择图像分类
Java et al. Modeling the spread of influence on the blogosphere
US20180081978A1 (en) Method and Apparatus for Processing Information
JP5255055B2 (ja) クエリ統計プロバイダ
WO2019169978A1 (zh) 资源推荐方法及装置
CN102521248B (zh) 一种网络用户分类方法及其装置
US9922129B2 (en) Systems and methods for cluster augmentation of search results
CN107291755B (zh) 一种终端推送方法及装置
US20090089285A1 (en) Method of detecting spam hosts based on propagating prediction labels
US20110054999A1 (en) System and method for predicting user navigation within sponsored search advertisements
CN103886068A (zh) 用于互联网用户行为分析的数据处理方法和装置
US20220383427A1 (en) Method and apparatus for group display
CN104572798A (zh) 一种用于处理网页的方法、设备与系统
US20180139296A1 (en) Method of producing browsing attributes of users, and non-transitory computer-readable storage medium
CN108961019B (zh) 一种用户账户的检测方法和装置
CN108241867B (zh) 一种分类方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN106301979B (zh) 检测异常渠道的方法和系统
WO2016188334A1 (zh) 一种用于处理应用访问数据的方法与设备
CN101268465A (zh) 分类一组电子文档的方法
US20160063394A1 (en) Computing Device Classifier Improvement Through N-Dimensional Stratified Input Sampling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant