CN103390027A - 一种互联网广告反作弊方法和系统 - Google Patents

一种互联网广告反作弊方法和系统 Download PDF

Info

Publication number
CN103390027A
CN103390027A CN2013102566616A CN201310256661A CN103390027A CN 103390027 A CN103390027 A CN 103390027A CN 2013102566616 A CN2013102566616 A CN 2013102566616A CN 201310256661 A CN201310256661 A CN 201310256661A CN 103390027 A CN103390027 A CN 103390027A
Authority
CN
China
Prior art keywords
daily record
record data
cheating
data
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013102566616A
Other languages
English (en)
Inventor
元张毅
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (BEIJING) TECHNOLOGIES Co Ltd
Original Assignee
IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IZP (BEIJING) TECHNOLOGIES Co Ltd filed Critical IZP (BEIJING) TECHNOLOGIES Co Ltd
Priority to CN2013102566616A priority Critical patent/CN103390027A/zh
Publication of CN103390027A publication Critical patent/CN103390027A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种互联网广告反作弊方法和系统,以解决作弊日志数据夹杂在所有日志数据之间,无法区分作弊日志数据和非作弊日志数据,使得互联网广告的展现量或者点击量等信息的统计结果不准确的问题。所述方法包括通过第一单线程读取各日志数据并进行分割;通过第一多线程统计第一单线程分割后的各日志数据中各预定的作弊规则所需的数据;通过第二单线程读取各日志数据并进行分割;通过第二多线程按照各预定的作弊规则和各预定的作弊规则所需的数据,判断第二单线程分割后的各日志数据是否为作弊日志数据;根据判断结果对第二单线程分割后的各日志数据进行标记。只需要对日志数据统计一次,避免了对同一维度的日志数据进行重复统计。

Description

一种互联网广告反作弊方法和系统
技术领域
本发明实施例涉及互联网技术领域,特别是涉及一种互联网广告反作弊方法和系统。
背景技术
随着互联网的蓬勃发展,中国的网民人数不断增加,互联网广告的价值得到越来越多广告主的认可,但是,与传统媒体行业不同,互联网行业的技术门槛更高、数据结构更为复杂、评估指标维度更多、广告投放技术要求更高。为了增加互联网广告的收益,一些媒体使用各种办法作弊,恶意增加互联网广告的曝光量或者点击量,会产生许多作弊日志数据。作弊日志数据夹杂在所有日志数据之间,使得互联网广告的展现量或者点击量等信息的统计结果不真实、不准确。
其中,一些常用的作弊办法为:1、在同一个广告位上嵌入多份Javascript(一种脚本语言)代码,正常情况下一个广告位只能嵌入一份Javascript代码,展示一个广告。如果嵌入多份Javascript代码,会出现广告重叠的情况,上面的广告把下面的广告覆盖掉,但是下面的广告同样有展示。2、人为恶意刷新广告。3、人为恶意点击广告。4、通过应用程序自动点击、刷新广告。
无论采用哪种作弊手段,最终的目的是为了增加互联网广告的展现量或者点击量等。
发明内容
本发明实施例公开了一种互联网广告反作弊方法和系统,以解决作弊日志数据夹杂在所有日志数据之间,无法区分作弊日志数据和非作弊日志数据,使得互联网广告的展现量或者点击量等信息的统计结果不准确的问题。
为了解决上述问题,本发明实施例公开了一种互联网广告反作弊方法,包括:
通过第一单线程读取各日志数据,并对所述各日志数据进行分割;
通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据;
通过第二单线程读取所述各日志数据,并对所述各日志数据进行分割;
通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据;
根据判断结果对所述第二单线程分割后的各日志数据进行标记。
优选的,所述各日志数据为文本数据,所述对所述各日志数据进行分割,包括:
按照预先配置的日志格式对所述文本数据进行划分得到各字段值。
优选的,所述通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据,包括:
根据所述各预定的作弊规则通过所述第一多线程从所述第一单线程分割后的各日志数据中提取出所述各预定的作弊规则所需的各字段值;
按照广告信息对所述所需的各字段值进行整理;
其中,所述广告信息包括广告ID、日志类型、展示信息和点击信息。
优选的,所述通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据,包括:
通过所述第二多线程按照所述各预定的作弊规则将所述第二单线程分割后的各日志数据与所述各预定的作弊规则所需的数据进行比较分析;
当所述第二单线程分割后的日志数据满足对应的预定的作弊规则时,确定所述第二单线程分割后的日志数据为作弊日志数据;
当所述第二单线程分割后的日志数据不满足对应的预定的作弊规则时,确定所述第二单线程分割后的日志数据为非作弊日志数据。
优选的,所述根据判断结果对所述第二单线程分割后的各日志数据进行标记,包括:
当所述第二单线程分割后的日志数据为作弊日志数据时,在所述作弊日志数据上标记满足的作弊规则信息;
当所述第二单线程分割后的日志数据为非作弊日志数据时,在所述非作弊日志数据上标记非作弊信息。
优选的,所述各日志数据包括展示日志数据和点击日志数据;
所述通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据,包括:
当所述日志数据为展示日志数据时,获取所述展示日志数据中的展示信息对应的展示次数,并判断所述展示次数是否大于展示次数阈值;
当所述展示次数大于所述展示次数阈值时,确定所述展示日志数据为作弊日志数据;
当所述展示次数小于等于所述展示次数阈值时,确定所述展示日志数据为非作弊日志数据;
当所述日志数据为点击日志数据时,判断所述点击日志数据与对应的展示日志数据的时间间隔是否小于点击时间阈值;
当所述时间间隔小于所述点击时间阈值时,确定所述点击日志数据为作弊日志数据;
当所述时间间隔大于等于所述点击时间阈值时,检测所述点击日志数据对应的广告的点击率是否大于等于点击率阈值;当所述点击日志数据对应的广告的点击率大于等于所述点击率阈值时,确定所述点击日志数据为作弊日志数据;当所述点击日志数据对应的广告的点击率小于所述点击率阈值时,确定所述点击日志数据为非作弊日志数据。
优选的,所述方法还包括:
当所述展示日志数据为作弊日志数据时,对所述展示日志数据对应的广告的总展示次数进行逐一递减,直至所述展示日志数据对应的广告的总展示次数小于等于所述展示次数阈值;
当所述点击日志数据为作弊日志数据时,对所述点击日志数据对应的广告的总点击次数进行更新操作;所述更新操作为将所述点击日志数据对应的广告的总点击次数减去所述对应的广告的为作弊日志数据的点击日志数据的数量,得到更新后的所述对应的广告的总点击次数。
本发明实施例还公开了一种互联网广告反作弊系统,包括:
第一读取分割模块,用于通过第一单线程读取各日志数据,并对所述各日志数据进行分割;
统计模块,用于通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据;
第二读取分割模块,用于通过第二单线程读取所述各日志数据,并对所述各日志数据进行分割;
判断模块,用于通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据;
标记模块,用于根据判断结果对所述第二单线程分割后的各日志数据进行标记。
优选的,所述各日志数据为文本数据,所述第一读取分割模块和所述第二读取分割模块分别对所述各日志数据进行分割,包括:
所述第一读取分割模块和所述第二读取分割模块分别按照预先配置的日志格式对所述文本数据进行划分得到各字段值。
优选的,所述统计模块,包括:
提取子模块,用于根据所述各预定的作弊规则通过所述第一多线程从所述第一单线程分割后的各日志数据中提取出所述各预定的作弊规则所需的各字段值;
整理子模块,用于按照广告信息对所述所需的各字段值进行整理;
其中,所述广告信息包括广告ID、日志类型、展示信息和点击信息。
与背景技术相比,本发明实施例包括以下优点:
本发明实施例可以先对所有日志数据进行反作弊操作,对作弊日志数据进行标记后,根据非作弊日志数据统计互联网广告的展示量或者点击量等信息;还可以在统计系统对日志数据进行统计之后,对所有日志数据进行反作弊操作,然后再根据反作弊操作的操作结果更新统计系统中的统计结果。整个过程中只需要对日志数据统计一次,避免了对同一维度的日志数据进行重复统计。
通过第一单线程读取各日志数据,将各日志数据中的每一行按照配置的格式进行分割,分割之后的各日志数据由第一多线程进行处理,具体可以按照日志类型(推送日志、展示日志、点击日志等)交由不同线程并行处理,如果是点击日志,就由点击线程处理,如果是展示日志,就由展示线程处理。并行处理可以提高各日志数据的处理效率。
而且,通过多线程处理日志数据可以把占据时间长的处理任务放到后台处理,可是适当地释放一些服务器资源,如内存,防止过度使用服务器资源。
附图说明
图1是本发明实施例中一种互联网广告反作弊方法和系统的系统架构示意图;
图2是本发明实施例中一种互联网广告反作弊方法和系统的系统架构流程图;
图3是本发明实施例中一种互联网广告反作弊方法流程图;
图4是本发明实施例中一种互联网广告反作弊方法流程图;
图5是本发明实施例中一种互联网广告反作弊系统结构图;
图6是本发明实施例中一种互联网广告反作弊系统结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
先介绍一下本发明实施例公开的一种互联网广告反作弊方法和系统的系统架构,如图1所示。
1、互联网广告反作弊方法和系统处理的作弊数据都是离线数据,也就是日志数据。在获得日志数据之后,首先可以是单线程读取日志数据,将日志数据中的每一行按照配置的格式进行分割,并将分割之后的日志数据放入一种先进先出的队列(First In First Out,FIFO)中,由线程池中的多线程进行处理。可以按照日志类型(推送日志、展示日志、点击日志等)交由不同的线程处理,这样进行并行处理,可以提高日志数据的处理效率。
2、线程池中线程根据不同的作弊规则统计各走避规则下所需要的数据,如,一条作弊规则为:如果一个广告在展示之后的1秒内被点击,那么就认为此次点击是无效的。所以根据这条作弊规则就需要统计每一个广告对应的展示操作和点击操作的时间间隔。如果时间间隔超过设定的阈值,就将可以唯一标识这条点击日志的关键字或者关键词存入到全局缓存中。
3、在整个流程中,需要读取两次日志数据。第一次读取就是系统架构的右侧部分,负责统计各个作弊规则所需数据,并进行缓存;第二次读取是系统架构左侧部分,负责标记日志数据。因为有了第一次读取日志数据后得到的各作弊规则下的统计数据,第二次读取日志将日志数据与统计数据进行比对,如果触犯作弊规则则可以进行标记,也可以对不触犯作弊规则的日志数据进行标记。
也就是说,无论日志数据是否为作弊日志数据,都可以对其进行标记,标记包含的信息可以有:未作弊、作弊以及触犯的作弊规则。例如,当在一条日志数据上标记0,就表示这条日志数据为非作弊日志数据;如果标记a1,就表示这条日志数据为作弊日志数据,并且触犯的是a1作弊规则。
4、标记后的日志数据可以交给统计系统进行统计也可以写入文件进行存储。
而且,本发明实施例公开的一种互联网广告反作弊方法和系统的系统架构流程图如图2所示。
(1)、单线程读取日志数据。
(2)、返回单条日志数据记录。
(3)、分割日志数据。
(4)、将分割后的日志数据存入FIFO。
(5)、多线程处理FIFO中被分割后的日志数据。
(6)、返回FIFO中已经被分割的日志数据。
(7)、根据指定的作弊规则统计各作弊规则所需的数据。
(8)、将各作弊规则与其所需的数据做映射,存入全局缓存中。
(9)、单线程再次读取日志数据。
(10)、返回单条日志数据记录。
(11)、分割日志数据。
(12)、将分割后的日志数据存入FIFO。
(13)、多线程处理FIFO中被分割后的日志数据。
(14)、返回FIFO中已经被分割的日志数据。
(15)、查询全局缓存,根据作弊规则判断日志数据是否为作弊日志数据。
(16)、返回判断结果。
(17)、根据判断结果对日志数据进行标记。
下面通过列举几个具体的实施例详细介绍本发明公开的一种互联网广告反作弊方法和系统。
实施例一
详细介绍本发明实施例公开的一种互联网广告反作弊方法。
参照图3,示出了本发明实施例中一种互联网广告反作弊方法流程图。
步骤100,通过第一单线程读取各日志数据,并对所述各日志数据进行分割。
日志数据可以根据日志类型进行分类,如展示日志数据和点击日志数据。
如果一个互联网广告被展示或者点击了,那么至少会生成一条该互联网广告的展示日志数据或者点击日志数据,但是一个展示日志数据或者点击日志数据只能对应一个互联网广告。
所述对各日志数据进行分割是按照预定的配置格式对日志数据进行分割,分割得到一段段的数据,并且每段数据表示一种含义,如表示日志类型,日志时间等等。
步骤102,通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据。
所述步骤102可以通过各日志数据对应的线程对日志数据进行处理,统计得到各预定的作弊规则所需的数据。
例如,可以通过展示日志数据对应的展示日志数据处理线程,处理展示日志数据,统计得到适用于展示日志数据的作弊规则所需的数据。
又例如,某作弊规则为:如果一条互联网广告的点击时间与展示时间的时间间隔低于2秒钟,则认为该条互联网广告的点击日志数据为作弊日志数据,表明该次点击操作为作弊操作。根据该作弊规则,统计得到该作弊规则所需的数据为点击时间、展示时间。
步骤104,通过第二单线程读取所述各日志数据,并对所述各日志数据进行分割。
需要说明的是,所述步骤104和上述步骤100中的获取日志数据和对日志数据进行分割是相同的,但是这两个步骤的作用是不同的。
步骤106,通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据。
步骤108,根据判断结果对所述第二单线程分割后的各日志数据进行标记。
可以对作弊日志数据进行标记,也可以对非作弊日志数据进行标记,而且标记的内容和形式还可以根据实际情况定义。
综上所述,本发明实施例公开的一种互联网广告反作弊方法,具有以下优点:
本发明实施例可以先对所有日志数据进行反作弊操作,对作弊日志数据进行标记后,根据非作弊日志数据统计互联网广告的展示量或者点击量等信息;还可以在统计系统对日志数据进行统计之后,对所有日志数据进行反作弊操作,然后再根据反作弊操作的操作结果更新统计系统中的统计结果。整个过程中只需要对日志数据统计一次,避免了对同一维度的日志数据进行重复统计。
通过第一单线程读取各日志数据,将各日志数据中的每一行按照配置的格式进行分割,分割之后的各日志数据由第一多线程进行处理,具体可以按照日志类型(推送日志、展示日志、点击日志等)交由不同线程并行处理,如果是点击日志,就由点击线程处理,如果是展示日志,就由展示线程处理。并行处理可以提高各日志数据的处理效率。
而且,通过多线程处理日志数据可以把占据时间长的处理任务放到后台处理,可是适当地释放一些服务器资源,如内存,防止过度使用服务器资源。
实施例二
详细介绍本发明实施例公开的一种互联网广告反作弊方法。
参照图4,示出了本发明实施例中一种互联网广告反作弊方法流程图。
步骤200,通过第一单线程读取各日志数据,并对所述各日志数据进行分割。
其中,所述各日志数据可以为文本数据。
优选的,所述对所述各日志数据进行分割,可以为:
按照预先配置的日志格式对所述文本数据进行划分得到各字段值。
日志数据可以是一行一行的文本数据,对日志数据进行分割就是将文本数据通过分隔符分割成很多段,每一段都代表特定的意思。例如,配置一种日志数据的分割格式为time|logType|adid|ip|cookie,一条日志数据为:20130513080910show123456127.0.0.19dc92c0c6d0,对这一条日志数据进行分割之后得到:20130513080910|show|123456|127.0.0.1|9dc92c0c6d0,然后可以自动识别第一段的20130513080910表示time(时间),第二段的show表示logType(日志类型),第三段的123456表示adid(广告身份标识),第四段的127.0.0.1表示ip(ip地址),第5段的9dc92c0c6d0表示cookie(一种用户终端数据)。
步骤202,通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据。
而且,在通过多线程对日志数据进行统计时可以将不同的日志数据交给不同的线程处理。处理的每一条日志数据都有其特定的日志类型,如:访问日志、推送日志、展示日志、点击日志等。不同类型的日志数据交给不同的线程处理:获取到一条日志数据,首先判断这条日志数据属于哪种日志类型,如果是点击日志,就交给点击线程来处理;如果是展示日志就交给展示线程来处理。
优选的,所述步骤202,可以包括:
子步骤2021,根据所述各预定的作弊规则通过所述第一多线程从所述第一单线程分割后的各日志数据中提取出所述各预定的作弊规则所需的各字段值。
例如,某作弊规则为:如果一条互联网广告的点击时间与展示时间的时间间隔低于2秒钟,则认为该条互联网广告的点击日志数据为作弊日志数据,表明该次点击操作为作弊操作。某条经过分割之后的日志数据为:20130513080910|show|123456|127.0.0.1|9dc92c0c6d0,则需要提取出展示时间字段值“20130513080910”。
子步骤2022,按照广告信息对所述所需的各字段值进行整理。
其中,所述广告信息可以包括广告ID、日志类型、展示信息和点击信息等。
对提取出的各字段值还可以进一步进行整理,如根据两条点击日志数据提取出两个点击时间字段值,则整理得到所述两条点击日志数据对应的广告的点击次数为两次。
步骤204,通过第二单线程读取所述各日志数据,并对所述各日志数据进行分割。
需要说明的是,所述步骤204和上述步骤200中的获取日志数据和对日志数据进行分割是相同的,但是这两个步骤的作用是不同的。上述步骤200是为上述步骤202统计作弊规则所需的数据做准备;所述步骤204是为后续的步骤206进行判断做准备。
步骤206,通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据。
优选的,所述步骤206,可以包括:
子步骤2061,通过所述第二多线程按照所述各预定的作弊规则将所述第二单线程分割后的各日志数据与所述各预定的作弊规则所需的数据进行比较分析。
例如,存在三条预定的作弊规则,分别为:
展示作弊规则1:同一媒体(host)上同一广告位(adposid)上在同一时间(time)不能有超过一条广告的展示(防止同一广告位上嵌入两份代码)。
点击作弊规则1:广告的展示和点击的时间间隔低于2秒,则认为点击日志数据对应的点击操作是无效点击操作。
点击作弊规则2:某一个广告(adid)的点击率不能超过千分之三,超出的部分会在统计时被扣除。
如果某展示日志数据的host为001,adposid为001,time为2011111111,另一展示日志数据的host为001,adposid为001,time为2011111111,则认为在同一个媒体的同一个广告位上同一时间存在两条广告进行展示。
子步骤2062,当所述第二单线程分割后的日志数据满足对应的预定的作弊规则时,确定所述第二单线程分割后的日志数据为作弊日志数据;当所述第二单线程分割后的日志数据不满足对应的预定的作弊规则时,确定所述第二单线程分割后的日志数据为非作弊日志数据。
所述各日志数据可以包括展示日志数据和点击日志数据。优选的,所述步骤206可以为:
(1)、当所述日志数据为展示日志数据时,获取所述展示日志数据中的展示信息对应的展示次数,并判断所述展示次数是否大于展示次数阈值。
当所述展示次数大于所述展示次数阈值时,确定所述展示日志数据为作弊日志数据。
当所述展示次数小于等于所述展示次数阈值时,确定所述展示日志数据为非作弊日志数据。
(2)、当所述日志数据为点击日志数据时,判断所述点击日志数据与对应的展示日志数据的时间间隔是否小于点击时间阈值。
当所述时间间隔小于所述点击时间阈值时,确定所述点击日志数据为作弊日志数据。
当所述时间间隔大于等于所述点击时间阈值时,检测所述点击日志数据对应的广告的点击率是否大于等于点击率阈值;当所述点击日志数据对应的广告的点击率大于等于所述点击率阈值时,确定所述点击日志数据为作弊日志数据;当所述点击日志数据对应的广告的点击率小于所述点击率阈值时,确定所述点击日志数据为非作弊日志数据。
需要说明的是,上述展示次数阈值和点击时间阈值均可以根据实际情况进行设定。
步骤208,根据判断结果对所述第二单线程分割后的各日志数据进行标记。
所述步骤208可以按照两种情况执行:
(1)、当所述第二单线程分割后的日志数据为作弊日志数据时,在所述作弊日志数据上标记满足的作弊规则信息。
同一条日志数据一旦被某一作弊规则标记,就自动跳过剩下的作弊规则,不需要继续进行检测。
例如,当在一条日志数据上标记a1,就表示这条日志数据为作弊日志数据,并且触犯的是a1作弊规则。
(2)、当所述第二单线程分割后的日志数据为非作弊日志数据时,在所述非作弊日志数据上标记非作弊信息。
例如,当在一条日志数据上标记0,就表示这条日志数据为非作弊日志数据。
步骤210,当日志数据为作弊日志数据时,对广告统计信息进行更新。
优选的,所述步骤210,可以为:
(1)、当所述展示日志数据为作弊日志数据时,对所述展示日志数据对应的广告的总展示次数进行逐一递减,直至所述展示日志数据对应的广告的总展示次数小于等于所述展示次数阈值。
例如,可以获取展示日志数据中以host+adposid+time为关键字所对应的展示次数(count),如果超过1,那么需要被扣除的展示次数为(count-1),每扣除一次展示,count--,直到count值等于1。
因为是多线程操作,所以对全局缓存中各作弊规则对应的数据进行加、减操作等,都需要线程安全的进行处理操作,可以对全局缓存中的处理实例进行加锁。
在对展示日志数据进行标记之后还需要更新该展示日志数据对应的广告的总展示次数,作弊的展示操作不会被计入到总的展示次数中。
(2)、当所述点击日志数据为作弊日志数据时,对所述点击日志数据对应的广告的总点击次数进行更新操作;所述更新操作为将所述点击日志数据对应的广告的总点击次数减去所述对应的广告的为作弊日志数据的点击日志数据的数量,得到更新后的所述对应的广告的总点击次数。
每标记一条点击日志数据,也需要更新该点击日志数据对应广告的总点击数。例如,需要扣除的点击数为(未进行作弊规则检测时的点击率—0.003)×点击数。其中,0.003只是一个举例中的数值,可以根据实际情况设定其他值进行替代。
综上所述,本发明实施例公开的一种互联网广告反作弊方法,具有以下优点:
本发明实施例可以先对所有日志数据进行反作弊操作,对作弊日志数据进行标记后,根据非作弊日志数据统计互联网广告的展示量或者点击量等信息;还可以在统计系统对日志数据进行统计之后,对所有日志数据进行反作弊操作,然后再根据反作弊操作的操作结果更新统计系统中的统计结果。整个过程中只需要对日志数据统计一次,避免了对同一维度的日志数据进行重复统计。
通过第一单线程读取各日志数据,将各日志数据中的每一行按照配置的格式进行分割,分割之后的各日志数据由第一多线程进行处理,具体可以按照日志类型(推送日志、展示日志、点击日志等)交由不同线程并行处理,如果是点击日志,就由点击线程处理,如果是展示日志,就由展示线程处理。并行处理可以提高各日志数据的处理效率。
而且,通过多线程处理日志数据可以把占据时间长的处理任务放到后台处理,可是适当地释放一些服务器资源,如内存,防止过度使用服务器资源。
实施例三
详细介绍本发明实施例公开的一种互联网广告反作弊系统。
参照图5,示出了本发明实施例中一种互联网广告反作弊系统结构图。
所述一种互联网广告反作弊系统,可以包括:
第一读取分割模块300,统计模块302,第二读取分割模块304,判断模块306,以及,标记模块308。
下面分别详细介绍各模块的功能以及各模块之间的关系。
第一读取分割模块300,用于通过第一单线程读取各日志数据,并对所述各日志数据进行分割。
统计模块302,用于通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据。
第二读取分割模块304,用于通过第二单线程读取所述各日志数据,并对所述各日志数据进行分割。
判断模块306,用于通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据。
标记模块308,用于根据判断结果对所述第二单线程分割后的各日志数据进行标记。
综上所述,本发明实施例公开的一种互联网广告反作弊系统,具有以下优点:
本发明实施例可以先对所有日志数据进行反作弊操作,对作弊日志数据进行标记后,根据非作弊日志数据统计互联网广告的展示量或者点击量等信息;还可以在统计系统对日志数据进行统计之后,对所有日志数据进行反作弊操作,然后再根据反作弊操作的操作结果更新统计系统中的统计结果。整个过程中只需要对日志数据统计一次,避免了对同一维度的日志数据进行重复统计。
通过第一单线程读取各日志数据,将各日志数据中的每一行按照配置的格式进行分割,分割之后的各日志数据由第一多线程进行处理,具体可以按照日志类型(推送日志、展示日志、点击日志等)交由不同线程并行处理,如果是点击日志,就由点击线程处理,如果是展示日志,就由展示线程处理。并行处理可以提高各日志数据的处理效率。
而且,通过多线程处理日志数据可以把占据时间长的处理任务放到后台处理,可是适当地释放一些服务器资源,如内存,防止过度使用服务器资源。
实施例四
详细介绍本发明实施例公开的一种互联网广告反作弊系统。
参照图6,示出了本发明实施例中一种互联网广告反作弊系统结构图。
所述一种互联网广告反作弊系统,可以包括:
第一读取分割模块400,统计模块402,第二读取分割模块404,判断模块406,标记模块408,以及,更新模块410。
其中,所述统计模块402,可以包括:
提取子模块4021,以及,整理子模块4022。
所述判断模块406,可以包括:
比较分析子模块4061,以及,确定子模块4062。
下面分别详细介绍各模块、各子模块的功能以及各模块、各子模块之间的关系。
第一读取分割模块400,用于通过第一单线程读取各日志数据,并对所述各日志数据进行分割。
所述各日志数据可以为文本数据。
优选的,所述第一读取分割模块400按照预先配置的日志格式对所述文本数据进行划分得到各字段值。
统计模块402,用于通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据。
优选的,统计模块402,可以包括:
提取子模块4021,用于根据所述各预定的作弊规则通过所述第一多线程从所述第一单线程分割后的各日志数据中提取出所述各预定的作弊规则所需的各字段值。
整理子模块4022,用于按照广告信息对所述所需的各字段值进行整理。
其中,所述广告信息可以包括广告ID、日志类型、展示信息和点击信息等。
第二读取分割模块404,用于通过第二单线程读取所述各日志数据,并对所述各日志数据进行分割。
优选的,所述第二读取分割模块404按照预先配置的日志格式对所述文本数据进行划分得到各字段值。
判断模块406,用于通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据。
优选的,所述各日志数据可以包括展示日志数据和点击日志数据。判断模块406,可以包括:
比较分析子模块4061,用于通过所述第二多线程按照所述各预定的作弊规则将所述第二单线程分割后的各日志数据与所述各预定的作弊规则所需的数据进行比较分析。
确定子模块4062,用于当所述第二单线程分割后的日志数据满足对应的预定的作弊规则时,确定所述第二单线程分割后的日志数据为作弊日志数据;当所述第二单线程分割后的日志数据不满足对应的预定的作弊规则时,确定所述第二单线程分割后的日志数据为非作弊日志数据。
优选的,所述判断模块406当所述日志数据为展示日志数据时,获取所述展示日志数据中的展示信息对应的展示次数,并判断所述展示次数是否大于展示次数阈值;当所述展示次数大于所述展示次数阈值时,确定所述展示日志数据为作弊日志数据;当所述展示次数小于等于所述展示次数阈值时,确定所述展示日志数据为非作弊日志数据;当所述日志数据为点击日志数据时,判断所述点击日志数据与对应的展示日志数据的时间间隔是否小于点击时间阈值;当所述时间间隔小于所述点击时间阈值时,确定所述点击日志数据为作弊日志数据;当所述时间间隔大于等于所述点击时间阈值时,检测所述点击日志数据对应的广告的点击率是否大于等于点击率阈值;当所述点击日志数据对应的广告的点击率大于等于所述点击率阈值时,确定所述点击日志数据为作弊日志数据;当所述点击日志数据对应的广告的点击率小于所述点击率阈值时,确定所述点击日志数据为非作弊日志数据。
标记模块408,用于根据判断结果对所述第二单线程分割后的各日志数据进行标记。
优选的,所述标记模块408当所述第二单线程分割后的日志数据为作弊日志数据时,在所述作弊日志数据上标记满足的作弊规则信息;当所述第二单线程分割后的日志数据为非作弊日志数据时,在所述非作弊日志数据上标记非作弊信息。
更新模块410,用于当所述展示日志数据为作弊日志数据时,对所述展示日志数据对应的广告的总展示次数进行逐一递减,直至所述展示日志数据对应的广告的总展示次数小于等于所述展示次数阈值;当所述点击日志数据为作弊日志数据时,对所述点击日志数据对应的广告的总点击次数进行更新操作;所述更新操作为将所述点击日志数据对应的广告的总点击次数减去所述对应的广告的为作弊日志数据的点击日志数据的数量,得到更新后的所述对应的广告的总点击次数。
综上所述,本发明实施例公开的一种互联网广告反作弊系统,具有以下优点:
本发明实施例可以先对所有日志数据进行反作弊操作,对作弊日志数据进行标记后,根据非作弊日志数据统计互联网广告的展示量或者点击量等信息;还可以在统计系统对日志数据进行统计之后,对所有日志数据进行反作弊操作,然后再根据反作弊操作的操作结果更新统计系统中的统计结果。整个过程中只需要对日志数据统计一次,避免了对同一维度的日志数据进行重复统计。
通过第一单线程读取各日志数据,将各日志数据中的每一行按照配置的格式进行分割,分割之后的各日志数据由第一多线程进行处理,具体可以按照日志类型(推送日志、展示日志、点击日志等)交由不同线程并行处理,如果是点击日志,就由点击线程处理,如果是展示日志,就由展示线程处理。并行处理可以提高各日志数据的处理效率。
而且,通过多线程处理日志数据可以把占据时间长的处理任务放到后台处理,可是适当地释放一些服务器资源,如内存,防止过度使用服务器资源。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明实施例所公开的一种互联网广告反作弊方法和系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种互联网广告反作弊方法,其特征在于,包括:
通过第一单线程读取各日志数据,并对所述各日志数据进行分割;
通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据;
通过第二单线程读取所述各日志数据,并对所述各日志数据进行分割;
通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据;
根据判断结果对所述第二单线程分割后的各日志数据进行标记。
2.根据权利要求1所述的方法,其特征在于,所述各日志数据为文本数据,所述对所述各日志数据进行分割,包括:
按照预先配置的日志格式对所述文本数据进行划分得到各字段值。
3.根据权利要求2所述的方法,其特征在于,所述通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据,包括:
根据所述各预定的作弊规则通过所述第一多线程从所述第一单线程分割后的各日志数据中提取出所述各预定的作弊规则所需的各字段值;
按照广告信息对所述所需的各字段值进行整理;
其中,所述广告信息包括广告ID、日志类型、展示信息和点击信息。
4.根据权利要求3所述的方法,其特征在于,所述通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据,包括:
通过所述第二多线程按照所述各预定的作弊规则将所述第二单线程分割后的各日志数据与所述各预定的作弊规则所需的数据进行比较分析;
当所述第二单线程分割后的日志数据满足对应的预定的作弊规则时,确定所述第二单线程分割后的日志数据为作弊日志数据;
当所述第二单线程分割后的日志数据不满足对应的预定的作弊规则时,确定所述第二单线程分割后的日志数据为非作弊日志数据。
5.根据权利要求1所述的方法,其特征在于,所述根据判断结果对所述第二单线程分割后的各日志数据进行标记,包括:
当所述第二单线程分割后的日志数据为作弊日志数据时,在所述作弊日志数据上标记满足的作弊规则信息;
当所述第二单线程分割后的日志数据为非作弊日志数据时,在所述非作弊日志数据上标记非作弊信息。
6.根据权利要求1所述的方法,其特征在于,所述各日志数据包括展示日志数据和点击日志数据;
所述通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据,包括:
当所述日志数据为展示日志数据时,获取所述展示日志数据中的展示信息对应的展示次数,并判断所述展示次数是否大于展示次数阈值;
当所述展示次数大于所述展示次数阈值时,确定所述展示日志数据为作弊日志数据;
当所述展示次数小于等于所述展示次数阈值时,确定所述展示日志数据为非作弊日志数据;
当所述日志数据为点击日志数据时,判断所述点击日志数据与对应的展示日志数据的时间间隔是否小于点击时间阈值;
当所述时间间隔小于所述点击时间阈值时,确定所述点击日志数据为作弊日志数据;
当所述时间间隔大于等于所述点击时间阈值时,检测所述点击日志数据对应的广告的点击率是否大于等于点击率阈值;当所述点击日志数据对应的广告的点击率大于等于所述点击率阈值时,确定所述点击日志数据为作弊日志数据;当所述点击日志数据对应的广告的点击率小于所述点击率阈值时,确定所述点击日志数据为非作弊日志数据。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当所述展示日志数据为作弊日志数据时,对所述展示日志数据对应的广告的总展示次数进行逐一递减,直至所述展示日志数据对应的广告的总展示次数小于等于所述展示次数阈值;
当所述点击日志数据为作弊日志数据时,对所述点击日志数据对应的广告的总点击次数进行更新操作;所述更新操作为将所述点击日志数据对应的广告的总点击次数减去所述对应的广告的为作弊日志数据的点击日志数据的数量,得到更新后的所述对应的广告的总点击次数。
8.一种互联网广告反作弊系统,其特征在于,包括:
第一读取分割模块,用于通过第一单线程读取各日志数据,并对所述各日志数据进行分割;
统计模块,用于通过第一多线程统计所述第一单线程分割后的各日志数据中各预定的作弊规则所需的数据;
第二读取分割模块,用于通过第二单线程读取所述各日志数据,并对所述各日志数据进行分割;
判断模块,用于通过第二多线程按照所述各预定的作弊规则和所述各预定的作弊规则所需的数据,判断所述第二单线程分割后的各日志数据是否为作弊日志数据;
标记模块,用于根据判断结果对所述第二单线程分割后的各日志数据进行标记。
9.根据权利要求8所述的系统,其特征在于,所述各日志数据为文本数据,所述第一读取分割模块和所述第二读取分割模块分别对所述各日志数据进行分割,包括:
所述第一读取分割模块和所述第二读取分割模块分别按照预先配置的日志格式对所述文本数据进行划分得到各字段值。
10.根据权利要求9所述的系统,其特征在于,所述统计模块,包括:
提取子模块,用于根据所述各预定的作弊规则通过所述第一多线程从所述第一单线程分割后的各日志数据中提取出所述各预定的作弊规则所需的各字段值;
整理子模块,用于按照广告信息对所述所需的各字段值进行整理;
其中,所述广告信息包括广告ID、日志类型、展示信息和点击信息。
CN2013102566616A 2013-06-25 2013-06-25 一种互联网广告反作弊方法和系统 Pending CN103390027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013102566616A CN103390027A (zh) 2013-06-25 2013-06-25 一种互联网广告反作弊方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013102566616A CN103390027A (zh) 2013-06-25 2013-06-25 一种互联网广告反作弊方法和系统

Publications (1)

Publication Number Publication Date
CN103390027A true CN103390027A (zh) 2013-11-13

Family

ID=49534299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013102566616A Pending CN103390027A (zh) 2013-06-25 2013-06-25 一种互联网广告反作弊方法和系统

Country Status (1)

Country Link
CN (1) CN103390027A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
CN106022834A (zh) * 2016-05-24 2016-10-12 腾讯科技(深圳)有限公司 广告反作弊方法及装置
WO2016169193A1 (zh) * 2015-04-24 2016-10-27 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
CN106204108A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 广告反作弊方法及广告反作弊装置
CN106294536A (zh) * 2016-07-20 2017-01-04 合网络技术(北京)有限公司 一种反作弊视频的方法及装置
CN106447383A (zh) * 2016-08-30 2017-02-22 杭州启冠网络技术有限公司 跨时间、多维度异常数据监测的方法和系统
CN107330737A (zh) * 2017-07-05 2017-11-07 北京奇虎科技有限公司 反作弊的性能优化方法及装置
CN107483443A (zh) * 2017-08-22 2017-12-15 北京京东尚科信息技术有限公司 广告信息处理方法、客户端、存储介质和电子设备
CN107566897A (zh) * 2017-07-19 2018-01-09 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN107578263A (zh) * 2017-07-21 2018-01-12 北京奇艺世纪科技有限公司 一种广告异常访问的检测方法、装置和电子设备
CN108920345A (zh) * 2018-05-24 2018-11-30 杭州探索文化传媒有限公司 基于大数据的流量反作弊方法和装置
CN109003137A (zh) * 2018-07-23 2018-12-14 广州至真信息科技有限公司 一种广告反作弊的方法及装置
CN110147269A (zh) * 2019-05-09 2019-08-20 腾讯科技(上海)有限公司 一种事件处理方法、装置、设备及存储介质
CN110381377A (zh) * 2019-07-23 2019-10-25 秒针信息技术有限公司 一种资讯播放的检测方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
US20080154847A1 (en) * 2006-12-20 2008-06-26 Microsoft Corporation Cloaking detection utilizing popularity and market value
CN101777053A (zh) * 2009-01-08 2010-07-14 北京搜狗科技发展有限公司 一种识别作弊网页的方法及系统
CN103150369A (zh) * 2013-03-07 2013-06-12 人民搜索网络股份公司 作弊网页识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080154847A1 (en) * 2006-12-20 2008-06-26 Microsoft Corporation Cloaking detection utilizing popularity and market value
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
CN101777053A (zh) * 2009-01-08 2010-07-14 北京搜狗科技发展有限公司 一种识别作弊网页的方法及系统
CN103150369A (zh) * 2013-03-07 2013-06-12 人民搜索网络股份公司 作弊网页识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张淼: "人人网广告精准投放与反作弊系统设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, 15 October 2012 (2012-10-15), pages 139 - 422 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050178B (zh) * 2013-03-13 2017-09-22 秒针信息技术有限公司 一种互联网监测反作弊方法和装置
CN104050178A (zh) * 2013-03-13 2014-09-17 北京思博途信息技术有限公司 一种互联网监测反作弊方法和装置
WO2016169193A1 (zh) * 2015-04-24 2016-10-27 百度在线网络技术(北京)有限公司 用于检测点击作弊的方法及装置
CN106022834B (zh) * 2016-05-24 2020-04-07 腾讯科技(深圳)有限公司 广告反作弊方法及装置
CN106022834A (zh) * 2016-05-24 2016-10-12 腾讯科技(深圳)有限公司 广告反作弊方法及装置
WO2017202336A1 (zh) * 2016-05-24 2017-11-30 腾讯科技(深圳)有限公司 广告反作弊方法,装置及存储介质
US10929879B2 (en) 2016-05-24 2021-02-23 Tencent Technology (Shenzhen) Company Limited Method and apparatus for identification of fraudulent click activity
CN106204108A (zh) * 2016-06-29 2016-12-07 腾讯科技(深圳)有限公司 广告反作弊方法及广告反作弊装置
CN106294536A (zh) * 2016-07-20 2017-01-04 合网络技术(北京)有限公司 一种反作弊视频的方法及装置
CN106447383A (zh) * 2016-08-30 2017-02-22 杭州启冠网络技术有限公司 跨时间、多维度异常数据监测的方法和系统
CN107330737A (zh) * 2017-07-05 2017-11-07 北京奇虎科技有限公司 反作弊的性能优化方法及装置
CN107566897A (zh) * 2017-07-19 2018-01-09 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN107566897B (zh) * 2017-07-19 2019-10-15 北京奇艺世纪科技有限公司 一种视频刷量的鉴别方法、装置及电子设备
CN107578263A (zh) * 2017-07-21 2018-01-12 北京奇艺世纪科技有限公司 一种广告异常访问的检测方法、装置和电子设备
CN107578263B (zh) * 2017-07-21 2021-01-05 北京奇艺世纪科技有限公司 一种广告异常访问的检测方法、装置和电子设备
CN107483443B (zh) * 2017-08-22 2020-06-05 北京京东尚科信息技术有限公司 广告信息处理方法、客户端、存储介质和电子设备
CN107483443A (zh) * 2017-08-22 2017-12-15 北京京东尚科信息技术有限公司 广告信息处理方法、客户端、存储介质和电子设备
CN108920345A (zh) * 2018-05-24 2018-11-30 杭州探索文化传媒有限公司 基于大数据的流量反作弊方法和装置
CN109003137A (zh) * 2018-07-23 2018-12-14 广州至真信息科技有限公司 一种广告反作弊的方法及装置
CN110147269A (zh) * 2019-05-09 2019-08-20 腾讯科技(上海)有限公司 一种事件处理方法、装置、设备及存储介质
CN110381377A (zh) * 2019-07-23 2019-10-25 秒针信息技术有限公司 一种资讯播放的检测方法、装置、电子设备及存储介质
CN110381377B (zh) * 2019-07-23 2021-07-27 秒针信息技术有限公司 一种资讯播放的检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103390027A (zh) 一种互联网广告反作弊方法和系统
Tang et al. Is there a clubbing effect underlying C hinese research citation Increases?
CN101819573B (zh) 一种自适应的网络舆情识别方法
Chung et al. A long-term study of a crowdfunding platform: Predicting project success and fundraising amount
US8577155B2 (en) System and method for duplicate text recognition
CN106056407A (zh) 基于用户行为分析的网银用户画像方法及设备
CN104781837A (zh) 用于通过使用基于事件的情绪分析来形成预测的系统和方法
CN104765874A (zh) 用于检测点击作弊的方法及装置
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及系统
CN103793484A (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
CN103905532A (zh) 微博营销账号的识别方法及系统
WO2015172685A1 (en) Method and apparatus for identifying malicious account
CN103886067A (zh) 使用标签隐含主题进行图书推荐的方法
CN102629904A (zh) 一种网络水军的探测与判定方法
CN107578263A (zh) 一种广告异常访问的检测方法、装置和电子设备
CN101980210A (zh) 一种标的词分类分级方法及系统
CN103020274A (zh) 文献分析方法和系统
CN104111939A (zh) 一种图书推荐方法和装置
Chen et al. Quantifying Mileage Runs
CN113469461A (zh) 生成信息的方法和装置
CN103942233B (zh) 目录型网页的介绍页识别方法及装置
CN108241643B (zh) 关键词的指标数据分析方法及装置
CN108121754B (zh) 一种获取关键词属性组合的方法及装置
Wang et al. Do chinese social media correct the optimistic bias of traditional media?
CN103177060B (zh) 一种海量高端人才信息数据搜索抓取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20170419

AD01 Patent right deemed abandoned