CN106611346A - 访客筛选方法和装置 - Google Patents

访客筛选方法和装置 Download PDF

Info

Publication number
CN106611346A
CN106611346A CN201510697055.7A CN201510697055A CN106611346A CN 106611346 A CN106611346 A CN 106611346A CN 201510697055 A CN201510697055 A CN 201510697055A CN 106611346 A CN106611346 A CN 106611346A
Authority
CN
China
Prior art keywords
visitor
data
guest identification
judging
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510697055.7A
Other languages
English (en)
Inventor
安桂雪
唐珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510697055.7A priority Critical patent/CN106611346A/zh
Publication of CN106611346A publication Critical patent/CN106611346A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0248Avoiding fraud

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种访客筛选方法和装置。其中,该方法包括:从广告的监测数据中提取访客访问广告的访客数据,其中,访客和访客数据均为多个,每个访客数据均包括访客标识和访问广告的时间信息;判断在第一预设时间段内是否存在预设数量的第一访客数据,其中,第一访客数据为多个访客数据中时间信息连续的访客数据;如果判断出在第一预设时间段内存在预设数量的第一访客数据,判断第一访客数据是否具有相同的访客标识;以及如果判断出第一访客数据具有相同的访客标识,确定第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客。本申请解决了由于流量作弊造成的广告主利益受到损害的技术问题。

Description

访客筛选方法和装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种访客筛选方法和装置。
背景技术
互联网广告就是通过网络平台在网络上投放广告,利用网站上的广告条幅、文本链接、多媒体的方法,在互联网上刊登或发布广告,通过网络传递到互联网用户的一种高科技广告运作方法。与传统的四大媒体(报纸、杂志、电视、广播)广告及户外广告相比,互联网广告具有得天独厚的优势,是实施现代营销媒体战略的重要的一部分。
对于广告主在互联网广告平台上投放的广告,互联网用户的访问情况是评价一个广告效果的重要指标,如广告的曝光量、点击量、访客的访问量、访问时长、访问页面数等等。广告的曝光量、点击量是广告媒体收取费用的凭借之一,实际投放中,有不少媒体利用虚假流量来提高广告主的广告曝光量和点击量,从而获得更多的利益,广告主就要对没有任何效果的虚假流量买单,流量作弊对广告主的利益产生了损害。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种访客筛选方法和装置,以至少解决由于流量作弊造成的广告主利益受到损害的技术问题。
根据本申请实施例的一个方面,提供了一种访客筛选方法,包括:从广告的监测数据中提取访客访问所述广告的访客数据,其中,所述访客和所述访客数据均为多个,每个所述访客数据均包括访客标识和访问所述广告的时间信息;判断在第一预设时间段内是否存在预设数量的第一访客数据,其中,所述第一访客数据为多个所述访客数据中时间信息连续的访客数据;如果判断出在所述第一预设时间段内存在所述预设数量的所述第一访客数据,判断所述第一访客数据是否具有相同的访客标识;以及如果判断出所述第一访客数据具有相同的访客标识,确定所述第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客。
进一步地,所述方法还包括:如果判断出在所述第一预设时间段内不存在所述预设数量的所述第一访客数据,判断所述访客数据中是否存在相邻的两条访客数据的时间差在第二预设时间段之内;如果判断出所述访客数据中存在相邻的两条访客数据的时间差在所述第二预设时间段之内,判断所述相邻的两条访客数据是否具有相同的访客标识;如果判断出所述相邻的两条访客数据具有相同的访客标识,确定所述相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客。
进一步地,在确定所述相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客之后,所述方法还包括:将所述第二目标访客的访客标识存储至数据库。
进一步地,在确定所述第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客之后,所述方法还包括:将所述第一目标访客的访客标识存储至数据库。
进一步地,所述方法还包括:从所述数据库中提取所存储的访客的访客标识所标识的地域信息;以及根据提取的所述地域信息,计算所述数据库中所存储的访客的地域分布。
根据本申请实施例的另一方面,提供了一种访客筛选装置,包括:第一提取单元,用于从广告的监测数据中提取访客访问所述广告的访客数据,其中,所述访客和所述访客数据均为多个,每个所述访客数据均包括访客标识和访问所述广告的时间信息;第一判断单元,用于判断在第一预设时间段内是否存在预设数量的第一访客数据,其中,所述第一访客数据为多个所述访客数据中时间信息连续的访客数据;第二判断单元,用于在当所述第一判断单元判断出在所述第一预设时间段内存在所述预设数量的所述第一访客数据之后,判断所述第一访客数据是否具有相同的访客标识;以及第一确定单元,用于在当所述第二判断单元判断出所述第一访客数据具有相同的访客标识之后,确定所述第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客。
进一步地,所述装置还包括:第三判断单元,用于在当所述第一判断单元判断出在所述第一预设时间段内不存在所述预设数量的所述第一访客数据之后,判断所述访客数据中是否存在相邻的两条访客数据的时间差在第二预设时间段之内;第四判断单元,用于在当所述第三判断单元判断出所述访客数据中存在相邻的两条访客数据的时间差在所述第二预设时间段之内之后,判断所述相邻的两条访客数据是否具有相同的访客标识;第二确定单元,用于在当所述第四判断单元判断出所述相邻的两条访客数据具有相同的访客标识之后,确定所述相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客。
进一步地,所述装置还包括:第一存储单元,用于在所述第二确定单元确定所述相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客之后,将所述第二目标访客的访客标识存储至数据库。
进一步地,所述装置还包括:第二存储单元,用于在所述第一确定单元确定所述第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客之后,将所述第一目标访客的访客标识存储至数据库。
进一步地,所述装置还包括:第二提取单元,用于从所述数据库中提取所存储的访客的访客标识所标识的地域信息;以及计算单元,用于根据所述第二提取单元提取的所述地域信息,计算所述数据库中所存储的访客的地域分布。
在本申请实施例中,采用从广告的监测数据中提取访客访问广告的访客数据,其中,访客和访客数据均为多个,每个访客数据均包括访客标识和访问广告的时间信息,判断在第一预设时间段内是否存在预设数量的第一访客数据,其中,第一访客数据为多个访客数据中时间信息连续的访客数据,如果判断出在第一预设时间段内存在预设数量的第一访客数据,判断第一访客数据是否具有相同的访客标识,如果判断出第一访客数据具有相同的访客标识,确定第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客的方式。访客进行流量作弊的通常表现方式是短时间内通过同一个地址产生大量的访客数据,本申请实施例所提供的访客筛选方式,通过从访客数据中找出在预设时间段内时间信息连续的访客数据,并找出这些访客数据中具有相同访客标识的访客数据,这些访客数据即是作弊的流量数据,相应地,产生这些访客数据的访客(即第一目标访客)也就是进行流量作弊的访客,实现了对进行流量作弊的访客数据进行准确地筛选,从而实现了提高筛选访客的精确度的技术效果,进而解决了由于流量作弊造成的广告主利益受到损害的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的访客筛选方法的流程图;
图2是根据本申请实施例的访客筛选方法进行访客筛选的流程图;以及
图3是根据本申请实施例的访客筛选装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种访客筛选方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的访客筛选方法的流程图。如图1所示,该方法包括如下步骤:
步骤S102,从广告的监测数据中提取访客访问广告的访客数据,其中,访客和访客数据均为多个,每个访客数据均包括访客标识和访问广告的时间信息。
步骤S104,判断在第一预设时间段内是否存在预设数量的第一访客数据,其中,第一访客数据为多个访客数据中时间信息连续的访客数据。
步骤S106,如果判断出在第一预设时间段内存在预设数量的第一访客数据,判断第一访客数据是否具有相同的访客标识。
步骤S108,如果判断出第一访客数据具有相同的访客标识,确定第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客。
即,从广告的监测数据中提取出访客访问广告的访客数据,访客有多个,每个访客的访客数据一般来说也有多个。每个访客数据都包括访客标识和访问广告的时间信息。判断在预先指定的时间段内,是否存在一定数量的访客数据的时间信息连续,如果存在一定数量的访客数据的时间信息连续,则这些时间信息连续的访客数据为第一访客数据,接下来继续判断这些第一访客数据的访客标识是否相同,如果判断出这些第一访客数据具有相同的访客标识,则这些具有相同的访客标识的第一访客数据的标识所标识的访客为第一目标访客,第一目标访客为流量作弊的访客。本申请实施例所提供的方案,既适用于点击量作弊的情况,又适用于曝光量作弊的情况。
例如,从广告的监测数据中提取访客访问广告的访客数据,令第一预设数量是30,令预设时间段为2015年10月12日20:50与2015年10月12日21:50之间的时间段,则判断在2015年10月12日20:50与2015年10月12日21:50之间是否存在30条访客数据的时间信息是连续的。时间信息连续是指时间信息完全相同,或者时间信息的差值是服务器能够记录的最小的时长。若假定服务器能够记录的最小的时长是1s,则时间信息连续是指时间信息完全相同或者时间信息相差1s。假设在在2015年10月12日20:50与2015年10月12日21:50之间存在30条访客数据的时间信息连续,判断这30条访客数据的userid是否相同。如果判断出这30条访客数据的userid相同,则这30条访客数据的userid所表示的访客为第一目标访客。由于正常访客一般不会如此高频率的访问广告,所以这30条访客数据的userid所表示的访客所产生的流量极有可能不是正常访问产生的流量,而是流量作弊行为产生的流量。
访客进行流量作弊的通常表现方式是短时间内通过同一个地址产生大量的访客数据,本申请实施例所提供的访客筛选方法,通过从访客数据中找出在预设时间段内时间信息连续的访客数据,并找出这些访客数据中具有相同访客标识的访客数据,这些访客数据即是作弊的流量数据,相应地,产生这些访客数据的访客(即第一目标访客)也就是进行流量作弊的访客,实现了对进行流量作弊的访客数据进行准确地筛选,从而实现了提高筛选访客的精确度的技术效果,进而解决了由于流量作弊造成的广告主利益受到损害的技术问题。
可选地,本申请实施例所提供的访客筛选方法还包括:如果判断出在第一预设时间段内不存在预设数量的第一访客数据,判断访客数据中是否存在相邻的两条访客数据的时间差在第二预设时间段之内;如果判断出访客数据中存在相邻的两条访客数据的时间差在第二预设时间段之内,判断相邻的两条访客数据是否具有相同的访客标识;如果判断出相邻的两条访客数据具有相同的访客标识,确定相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客。
即,如果在预先设置的时间段内不存在一定数量的访客数据的时间信息连续,则判断访客数据中是否存在相邻的两条访问数据的时间差小于阈值,即小于第二预设时间,如果判断出访客数据中存在相邻的两条访问数据的时间差小于阈值,则继续判断这两条访客数据的访客标识是否相同,如果判断出这两条访客数据的访客标识相同,则把这两条访客数据的访客标识所标识的访客确定为第二目标访客,第二目标访客为流量作弊的访客。如果发现一个访客的访客数据的时间信息的间隔非常短,例如访客甲有1000条访客数据,每两条访客数据的时间信息的间隔是2s或者3s,那么可以确定访客甲进行了流量作弊,因为正常访客不会如此高频率地点击广告。
可选地,在确定相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客之后,本申请实施例所提供的访客筛选方法还包括:将第二目标访客的访客标识存储至数据库。即,将进行了流量作弊的访客的访客标识存储到数据库。
可选地,在确定第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客之后,本申请实施例所提供的访客筛选方法还包括:将第一目标访客的访客标识存储至数据库。即,将进行了流量作弊的访客的访客标识存储到数据库。
可选地,本申请实施例所提供的访客筛选方法还包括:从数据库中提取所存储的访客的访客标识所标识的地域信息;以及根据提取的地域信息,计算数据库中所存储的访客的地域分布。从数据库中提取出进行了流量作弊的访客的地域信息,根据这些地域信息,计算进行了流量作弊的访客都分布于哪些地区,以及在投放广告的地区产生的流量的可靠性。
图2是根据本申请实施例的访客筛选方法进行访客筛选的流程图。如图2所示,在进行访客筛选过程中,主要包括以下步骤:
步骤S202,在广告平台部署广告监测代码。
步骤S204,获取广告的监测数据。步骤S202和步骤S204的具体实施方式与上述步骤S102相同。
步骤S206,选定有限时间段的访客数据。即,从广告的监测数据中提取一段时间内访客访问广告的访客数据。
步骤S208,判断任意1条访客数据与其后的10条访客数据的时间信息是否连续。如果判断出某1条访客数据与其后的10条访客数据的时间信息连续,执行步骤S210,如果判断出某1条访客数据与其后的10条访客数据的时间信息不连续,执行步骤S216。步骤S206和步骤S208的具体实施方式与上述步骤S104相同。本申请实施例中,也可以是判断任意1条访客数据与其后的n条访客数据的时间信息是否连续,n可以根据具体情况设置,并不局限于10。
步骤S210,判断这11条访客数据是否属于同一个userid。如果判断出这11条访客数据属于同一个userid,执行步骤S212,如果判断出这11条访客数据不属于同一个userid,执行步骤S214。步骤S210的具体实施方式与上述步骤S106相同。
步骤S212,将这个userid存储至异常数据库。此userid存在流量作弊行为。步骤S212的具体实施方式与上述步骤S108相同。
步骤S214,确定访客数据为有效流量。即,这些访客数据不属于同一个userid,认为这些访客数据是正常访问产生的访客数据,为有效流量。
步骤S216,判断任意相邻的两条访客数据的时间信息的差值是否小于阈值,该阈值通常为一个很短的时间,如2-5秒的时间。如果判断出任意两条相邻的访客数据的时间信息的差值都不小于阈值,执行步骤S214;如果判断出存在两条相邻的访客数据的时间信息的差值小于阈值,执行步骤S218。
步骤S218,判断这两条访客数据是否属于同一个userid,如果判断出这两条访客数据属于同一个userid,执行步骤S212。如果判断出这两条访客数据不属于同一个userid,执行步骤S214。
步骤S220,根据地域信息,分析流量作弊的userid随地域的分布。例如,一共得到了100个流量作弊的userid,其中,30个分布在北京,70个分布在石家庄,那么可以知道在北京和石家庄投放的广告得到的流量数据高于正常流量数据,包含了虚假流量(即作弊流量)。
再例如,广告商在5个城市投放了广告,分别为北京、哈尔滨、天津、上海、深圳,一共得到了80个流量作弊的userid,其中,25个分布在北京,35个分布在哈尔滨,20个分布在天津,分布在北京的流量作弊的25个userid产生的流量之和为1万,分布在北京的所有userid产生的流量的总和为10万,分布在哈尔滨的流量作弊的35个userid产生的流量之和为1.5万,分布在哈尔滨的所有userid产生的流量的总和为20万,分布在天津的流量作弊的20个userid产生的流量之和为2万,分布在天津的所有userid产生的流量的总和为50万,经过计算得出,北京的作弊的流量与总流量的比值为10%,哈尔滨的作弊的流量与总流量的比值为7.5%,天津的作弊的流量与总的流量的比值为4%。由此可见,在上海和深圳投放广告得到的流量较为可靠,在北京、哈尔滨和天津投放广告得到的流量不太可靠,包含了较大作弊流量,尤其是北京地区的流量不可靠。
根据本申请实施例,还提供了一种访客筛选装置。该访客筛选装置可以执行上述访客筛选方法,上述访客筛选方法也可以通过该访客筛选装置实施。
图3是根据本申请实施例的访客筛选装置的示意图。如图3所示,该访客筛选装置包括:第一提取单元32、第一判断单元34、第二判断单元36和第一确定单元38。
第一提取单元32用于从广告的监测数据中提取访客访问广告的访客数据,其中,访客和访客数据均为多个,每个访客数据均包括访客标识和访问广告的时间信息。
第一判断单元34用于判断在第一预设时间段内是否存在预设数量的第一访客数据,其中,第一访客数据为多个访客数据中时间信息连续的访客数据。
第二判断单元36用于在当第一判断单元34判断出在第一预设时间段内存在预设数量的第一访客数据之后,判断第一访客数据是否具有相同的访客标识。
第一确定单元38用于在当第二判断单元36判断出第一访客数据具有相同的访客标识之后,确定第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客。
即,从广告的监测数据中提取出访客访问广告的访客数据,访客有多个,每个访客的访客数据一般来说也有多个。每个访客数据都包括访客标识和访问广告的时间信息。判断在预先指定的时间段内,是否存在一定数量的访客数据的时间信息连续,如果存在一定数量的访客数据的时间信息连续,则这些时间信息连续的访客数据为第一访客数据,接下来继续判断这些第一访客数据的访客标识是否相同,如果判断出这些第一访客数据具有相同的访客标识,则这些具有相同的访客标识的第一访客数据的标识所标识的访客为第一目标访客,第一目标访客为流量作弊的访客。本申请实施例所提供的方案,既适用于点击量作弊的情况,又适用于曝光量作弊的情况。
例如,从广告的监测数据中提取访客访问广告的访客数据,令第一预设数量是30,令预设时间段为2015年10月12日20:50与2015年10月12日21:50之间的时间段,则判断在2015年10月12日20:50与2015年10月12日21:50之间是否存在30条访客数据的时间信息是连续的。时间信息连续是指时间信息完全相同,或者时间信息的差值是服务器能够记录的最小的时长。若假定服务器能够记录的最小的时长是1s,则时间信息连续是指时间信息完全相同或者时间信息相差1s。假设在在2015年10月12日20:50与2015年10月12日21:50之间存在30条访客数据的时间信息连续,判断这30条访客数据的userid是否相同。如果判断出这30条访客数据的userid相同,则这30条访客数据的userid所表示的访客为第一目标访客。由于正常访客一般不会如此高频率的访问广告,所以这30条访客数据的userid所表示的访客所产生的流量极有可能不是正常访问产生的流量,而是流量作弊行为产生的流量。
访客进行流量作弊的通常表现方式是短时间内通过同一个地址产生大量的访客数据,本申请实施例所提供的访客筛选装置,通过从访客数据中找出在预设时间段内时间信息连续的访客数据,并找出这些访客数据中具有相同访客标识的访客数据,这些访客数据即是作弊的流量数据,相应地,产生这些访客数据的访客(即第一目标访客)也就是进行流量作弊的访客,实现了对进行流量作弊的访客数据进行准确地筛选,从而实现了提高筛选访客的精确度的技术效果,进而解决了由于流量作弊造成的广告主利益受到损害的技术问题。
可选地,本申请实施例所提供的访客筛选装置还包括第三判断单元、第四判断单元和第二确定单元。第三判断单元,用于在当第一判断单元34判断出在第一预设时间段内不存在预设数量的第一访客数据之后,判断访客数据中是否存在相邻的两条访客数据的时间差在第二预设时间段之内。第四判断单元,用于在当第三判断单元判断出访客数据中存在相邻的两条访客数据的时间差在第二预设时间段之内之后,判断相邻的两条访客数据是否具有相同的访客标识。第二确定单元,用于在当第四判断单元判断出相邻的两条访客数据具有相同的访客标识之后,确定相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客。
即,如果在预先设置的时间段内不存在一定数量的访客数据的时间信息连续,则判断访客数据中是否存在相邻的两条访问数据的时间差小于阈值,即小于第二预设时间,如果判断出访客数据中存在相邻的两条访问数据的时间差小于阈值,则继续判断这两条访客数据的访客标识是否相同,如果判断出这两条访客数据的访客标识相同,则把这两条访客数据的访客标识所标识的访客确定为第二目标访客,第二目标访客为流量作弊的访客。如果发现一个访客的访客数据的时间信息的间隔非常短,例如访客甲有1000条访客数据,每两条访客数据的时间信息的间隔是2s或者3s,那么可以确定访客甲进行了流量作弊,因为正常访客不会如此高频率地点击广告。
可选地,本申请实施例所提供的访客筛选装置还包括第一存储单元。该第一存储单元用于在第二确定单元确定相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客之后,将第二目标访客的访客标识存储至数据库。即,将进行了流量作弊的访客的访客标识存储到数据库。
可选地,本申请实施例所提供的访客筛选装置还包括第二存储单元。该第二存储单元用于在第一确定单元38确定第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客之后,将第一目标访客的访客标识存储至数据库。即,将进行了流量作弊的访客的访客标识存储到数据库。
可选地,本申请实施例所提供的访客筛选装置还包括第二提取单元和计算单元。第二提取单元用于从数据库中提取所存储的访客的访客标识所标识的地域信息。计算单元用于根据第二提取单元提取的地域信息,计算数据库中所存储的访客的地域分布。从数据库中提取出进行了流量作弊的访客的地域信息,根据这些地域信息,计算进行了流量作弊的访客都分布于哪些地区,以及在投放广告的地区产生的流量的可靠性。
所述访客筛选装置包括处理器和存储器,上述第一提取单元32、第一判断单元34、第二判断单元36和第一确定单元38等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高访客筛选的精确度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从广告的监测数据中提取访客访问广告的访客数据,其中,访客和访客数据均为多个,每个访客数据均包括访客标识和访问广告的时间信息。判断在第一预设时间段内是否存在预设数量的第一访客数据,其中,第一访客数据为多个访客数据中时间信息连续的访客数据。如果判断出在第一预设时间段内存在预设数量的第一访客数据,判断第一访客数据是否具有相同的访客标识。如果判断出第一访客数据具有相同的访客标识,确定第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种访客筛选方法,其特征在于,包括:
从广告的监测数据中提取访客访问所述广告的访客数据,其中,所述访客和所述访客数据均为多个,每个所述访客数据均包括访客标识和访问所述广告的时间信息;
判断在第一预设时间段内是否存在预设数量的第一访客数据,其中,所述第一访客数据为多个所述访客数据中时间信息连续的访客数据;
如果判断出在所述第一预设时间段内存在所述预设数量的所述第一访客数据,判断所述第一访客数据是否具有相同的访客标识;以及
如果判断出所述第一访客数据具有相同的访客标识,确定所述第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果判断出在所述第一预设时间段内不存在所述预设数量的所述第一访客数据,判断所述访客数据中是否存在相邻的两条访客数据的时间差在第二预设时间段之内;
如果判断出所述访客数据中存在相邻的两条访客数据的时间差在所述第二预设时间段之内,判断所述相邻的两条访客数据是否具有相同的访客标识;
如果判断出所述相邻的两条访客数据具有相同的访客标识,确定所述相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客。
3.根据权利要求2所述的方法,其特征在于,在确定所述相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客之后,所述方法还包括:
将所述第二目标访客的访客标识存储至数据库。
4.根据权利要求1所述的方法,其特征在于,在确定所述第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客之后,所述方法还包括:
将所述第一目标访客的访客标识存储至数据库。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
从所述数据库中提取所存储的访客的访客标识所标识的地域信息;以及
根据提取的所述地域信息,计算所述数据库中所存储的访客的地域分布。
6.一种访客筛选装置,其特征在于,包括:
第一提取单元,用于从广告的监测数据中提取访客访问所述广告的访客数据,其中,所述访客和所述访客数据均为多个,每个所述访客数据均包括访客标识和访问所述广告的时间信息;
第一判断单元,用于判断在第一预设时间段内是否存在预设数量的第一访客数据,其中,所述第一访客数据为多个所述访客数据中时间信息连续的访客数据;
第二判断单元,用于在当所述第一判断单元判断出在所述第一预设时间段内存在所述预设数量的所述第一访客数据之后,判断所述第一访客数据是否具有相同的访客标识;以及
第一确定单元,用于在当所述第二判断单元判断出所述第一访客数据具有相同的访客标识之后,确定所述第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三判断单元,用于在当所述第一判断单元判断出在所述第一预设时间段内不存在所述预设数量的所述第一访客数据之后,判断所述访客数据中是否存在相邻的两条访客数据的时间差在第二预设时间段之内;
第四判断单元,用于在当所述第三判断单元判断出所述访客数据中存在相邻的两条访客数据的时间差在所述第二预设时间段之内之后,判断所述相邻的两条访客数据是否具有相同的访客标识;
第二确定单元,用于在当所述第四判断单元判断出所述相邻的两条访客数据具有相同的访客标识之后,确定所述相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一存储单元,用于在所述第二确定单元确定所述相邻的两条访客数据具有的访客标识所标识的访客为筛选出的第二目标访客之后,将所述第二目标访客的访客标识存储至数据库。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二存储单元,用于在所述第一确定单元确定所述第一访客数据中的访客标识所标识的访客为筛选出的第一目标访客之后,将所述第一目标访客的访客标识存储至数据库。
10.根据权利要求8或9所述的装置,其特征在于,所述装置还包括:
第二提取单元,用于从所述数据库中提取所存储的访客的访客标识所标识的地域信息;以及
计算单元,用于根据所述第二提取单元提取的所述地域信息,计算所述数据库中所存储的访客的地域分布。
CN201510697055.7A 2015-10-22 2015-10-22 访客筛选方法和装置 Pending CN106611346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510697055.7A CN106611346A (zh) 2015-10-22 2015-10-22 访客筛选方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510697055.7A CN106611346A (zh) 2015-10-22 2015-10-22 访客筛选方法和装置

Publications (1)

Publication Number Publication Date
CN106611346A true CN106611346A (zh) 2017-05-03

Family

ID=58612548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510697055.7A Pending CN106611346A (zh) 2015-10-22 2015-10-22 访客筛选方法和装置

Country Status (1)

Country Link
CN (1) CN106611346A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796500A (zh) * 2019-11-07 2020-02-14 秒针信息技术有限公司 一种信息监控方法、装置、电子设备及存储介质
CN111262871A (zh) * 2020-01-19 2020-06-09 浙江每日互动网络科技股份有限公司 一种数据处理方法及装置、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090076995A1 (en) * 2007-08-13 2009-03-19 Fujitsu Limited User state presumption system, user state presumption method, and recording media storing user state presumption program
CN101442445A (zh) * 2007-11-23 2009-05-27 上海贞安精硕广告有限公司 一种实效计费网络广告监控系统的建立方法
CN103593415A (zh) * 2013-10-29 2014-02-19 北京国双科技有限公司 网页访问量作弊的检测方法和装置
CN104424433A (zh) * 2013-08-22 2015-03-18 腾讯科技(深圳)有限公司 一种应用程序的反作弊方法和相关系统
CN104484357A (zh) * 2014-12-01 2015-04-01 北京国双科技有限公司 数据处理方法及装置和访问频次信息处理方法及装置
CN104915455A (zh) * 2015-07-02 2015-09-16 焦点科技股份有限公司 一种基于用户行为的网站异常访问识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090076995A1 (en) * 2007-08-13 2009-03-19 Fujitsu Limited User state presumption system, user state presumption method, and recording media storing user state presumption program
CN101442445A (zh) * 2007-11-23 2009-05-27 上海贞安精硕广告有限公司 一种实效计费网络广告监控系统的建立方法
CN104424433A (zh) * 2013-08-22 2015-03-18 腾讯科技(深圳)有限公司 一种应用程序的反作弊方法和相关系统
CN103593415A (zh) * 2013-10-29 2014-02-19 北京国双科技有限公司 网页访问量作弊的检测方法和装置
CN104484357A (zh) * 2014-12-01 2015-04-01 北京国双科技有限公司 数据处理方法及装置和访问频次信息处理方法及装置
CN104915455A (zh) * 2015-07-02 2015-09-16 焦点科技股份有限公司 一种基于用户行为的网站异常访问识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796500A (zh) * 2019-11-07 2020-02-14 秒针信息技术有限公司 一种信息监控方法、装置、电子设备及存储介质
CN110796500B (zh) * 2019-11-07 2023-08-29 秒针信息技术有限公司 一种信息监控方法、装置、电子设备及存储介质
CN111262871A (zh) * 2020-01-19 2020-06-09 浙江每日互动网络科技股份有限公司 一种数据处理方法及装置、存储介质
CN111262871B (zh) * 2020-01-19 2022-04-29 每日互动股份有限公司 一种数据处理方法及装置、存储介质

Similar Documents

Publication Publication Date Title
CN106022834B (zh) 广告反作弊方法及装置
CN106355431B (zh) 作弊流量检测方法、装置及终端
CN104486143B (zh) 一种深度报文检测方法、检测系统
CN104298719B (zh) 基于社交行为进行用户的类别划分、广告投放方法和系统
CN109034906A (zh) 广告转化的反作弊方法、装置、电子设备及存储介质
KR101686147B1 (ko) 문자 히스토그램들을 이용한 스팸 검출을 위한 시스템들 및 방법들
CN106354800A (zh) 一种基于多维度特征的不良网站检测方法
CN110033302B (zh) 恶意账户识别方法及装置
CN105809035B (zh) 基于安卓应用实时行为的恶意软件检测方法和系统
CN107358075A (zh) 一种基于层次聚类的虚假用户检测方法
KR20140071417A (ko) 그래프 모델을 이용하여 유도된 인터넷 연결 가능한 장치와 관련된 정보 데이터에 기초하여 데이터 네트워크를 이용하는 모바일 광고
CN103778125B (zh) 网页投放内容的分析方法和装置及自动投放方法和装置
CN109936582A (zh) 构建基于pu学习的恶意流量检测模型的方法及装置
CN106611348A (zh) 异常流量的检测方法和装置
CN104410907B (zh) 视频广告的监测方法及监测装置
CN109543408B (zh) 一种恶意软件识别方法和系统
CN107016298B (zh) 一种网页篡改监测方法及装置
CN104408923B (zh) 交通状态评估方法和装置
CN107888602A (zh) 一种检测异常用户的方法及装置
CN106919611A (zh) 产品信息推送方法和装置
CN107529093A (zh) 一种视频文件播放量的检测方法及系统
CN106301979B (zh) 检测异常渠道的方法和系统
CN106611346A (zh) 访客筛选方法和装置
CN106778277A (zh) 恶意程序检测方法及装置
CN107172033B (zh) 一种waf误判识别方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170503