CN112488765A - 广告反作弊方法、广告反作弊装置、电子设备及存储介质 - Google Patents
广告反作弊方法、广告反作弊装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112488765A CN112488765A CN202011446667.6A CN202011446667A CN112488765A CN 112488765 A CN112488765 A CN 112488765A CN 202011446667 A CN202011446667 A CN 202011446667A CN 112488765 A CN112488765 A CN 112488765A
- Authority
- CN
- China
- Prior art keywords
- user
- advertisement
- click
- cheating
- feature vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请公开了一种广告反作弊方法、广告反作弊装置、电子设备及存储介质。所述广告反作弊方法包括:获取广告点击日志;根据所述广告点击日志形成每个广告的用户点击序列;根据所有所述用户点击序列获取用户的特征向量;对所述特征向量进行聚类以得到多个用户类别;确定多个用户类别中距离最短的类别以作为异常类别。上述广告反作弊方法、广告反作弊装置、电子设备及存储介质,通过用户点击序列能够将用户的行为特征以特征向量表征,从而能够对特征向量进行聚类以发现广告作弊的聚集行为(即作弊群体或异常类别)。
Description
技术领域
本申请涉及网络信息技术领域,特别涉及一种广告反作弊方法、广告反作弊装置、电子设备及存储介质。
背景技术
随着互联网以及移动互联网的进一步普及,以互联网以及移动互联网作为载体的在线广告市场规模也在不断的扩大,当前广告市场占据了上千亿的市场。因为经济利益的关系,流量方为了获取更多的收入,或者黑产第三方为了获取非法利益,会采用作弊的方式伪造流量,最终获益。因此,如何进行广告反作弊成为亟需解决的技术问题。
发明内容
本申请的实施方式提供了一种广告反作弊方法、广告反作弊装置、电子设备及存储介质。
本申请实施方式的广告反作弊方法包括:获取广告点击日志;根据所述广告点击日志形成每个广告的用户点击序列;根据所有所述用户点击序列获取用户的特征向量;对所述特征向量进行聚类以得到多个用户类别;确定多个用户类别中距离最短的类别以作为异常类别。
本申请实施方式的广告反作弊装置包括第一获取模块、生成模块、第二获取模块、聚类模块、确定模块。第一获取模块用于获取广告点击日志。生成模块用于根据所述广告点击日志形成每个广告的用户点击序列。第二获取模块用于根据所有所述用户点击序列获取用户的特征向量。聚类模块用于对所述特征向量进行聚类以得到多个用户类别。确定模块用于确定多个用户类别中距离最短的类别以作为异常类别。
本申请实施方式的电子设备包括一个或多个处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行的情况下,实现上述实施方式所述的广告反作弊方法的步骤。
本申请实施方式的计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行的情况下,实现上述实施方式所述的广告反作弊方法的步骤。
上述广告反作弊方法、广告反作弊装置、电子设备及存储介质,通过用户点击序列能够将用户的行为特征以特征向量表征,从而能够对特征向量进行聚类以发现广告作弊的聚集行为(即作弊群体或异常类别)。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请实施方式的广告反作弊方法的流程示意图;
图2是本申请实施方式的广告反作弊装置的示意图;
图3是本申请实施方式的电子设备的示意图;
图4是本申请实施方式的广告反作弊方法的流程示意图;
图5是本申请实施方式的广告反作弊方法的流程示意图;
图6是本申请实施方式的广告反作弊方法的流程示意图;
图7是本申请实施方式的广告反作弊方法的流程示意图;
图8是本申请实施方式的广告反作弊方法的流程示意图;
图9是本申请实施方式的广告反作弊方法的流程示意图。
具体实施方式
下面详细描述本申请的实施方式,所述实施方式的实施方式在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的实施方式的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的实施方式的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1,本申请实施方式的广告反作弊方法包括:
010:获取广告点击日志;
020:根据广告点击日志形成每个广告的用户点击序列;
030:根据所有用户点击序列获取用户的特征向量;
040:对特征向量进行聚类以得到多个用户类别;
050:确定多个用户类别中距离最短的类别以作为异常类别。
本申请实施方式的广告反作弊方法可由本申请实施方式的广告反作弊装置100实现。具体地,请参阅图2,广告反作弊装置100包括第一获取模块10、生成模块20、第二获取模块30、聚类模块40和第一确定模块50。第一获取模块10用于获取广告点击日志。生成模块20用于根据广告点击日志形成每个广告的用户点击序列。第二获取模块30用于根据所有用户点击序列获取用户的特征向量。聚类模块40用于对特征向量进行聚类以得到多个用户类别。第一确定模块50用于确定多个用户类别中距离最短的类别以作为异常类别。
本申请实施方式的广告反作弊方法还可由本申请实施方式的电子设备200实现。具体地,请参阅图3,电子设备200包括一个或多个处理器202和存储器204,存储器204存储有计算机程序,计算机程序被处理器202执行的情况下,实现本申请实施方式的广告反作弊方法的步骤010、步骤020、步骤030、步骤040和步骤050。处理器202用于获取广告点击日志,及用于根据广告点击日志形成每个广告的用户点击序列,及用于根据所有用户点击序列获取用户的特征向量,及用于对特征向量进行聚类以得到多个用户类别,及用于确定多个用户类别中距离最短的类别以作为异常类别。
上述广告反作弊方法、广告反作弊装置100和电子设备200,通过用户点击序列能够将用户的行为特征以特征向量表征,从而能够对特征向量进行聚类以发现广告作弊的聚集行为(即作弊群体或异常类别)。另外,根据广告点击日志形成的用户点击序列,能够较好地挖掘出来异常操作用户的行为习惯,也能够较好地挖掘出用户在广告上的兴趣以体现用户点击广告的行为的相似关系,从而能够以找出作弊群体的方式来实现广告反作弊。
在相关技术中,基于黑白名单和规则统计,通过积累黑白名单和总结规律,从而发现广告作弊。黑白名单通常为长时间不断的总结积攒,规则方面通常为检测是否直接绕过曝光而造成点击、地域是否异常、IP是否异常、是否高频访问、MAC地址构成是否异常等。例如,通过检测常驻地址与实际访问地址的差异发现广告作弊,从而进行广告反作弊。使用黑白名单发现广告作弊需要较长时间的积累,效率较低。由于当前较多的广告作弊方都采用众包的形式,即采用雇佣分成的方式,利用实际的设备和人,造成广告点击,所以在这种情况下,诸如跳过曝光造成点击、地域异常、IP异常等规则往往都会失效。也即是说,在相关技术中,使用传统的黑白名单和异常规则判断,难以进行作弊识别。如何进行广告反作弊仍然是亟需解决的技术问题。
而本申请实施方式的广告反作弊方法,抛弃了从用户的点击轨迹中寻找异常的常规做法,而是按照广告信息进行分组,将所有点击相同广告的用户按照时间的先后顺序形成用户点击序列,这样,可以获得与广告的数量相同的多个用户点击序列。可以理解,对于广告作弊方统一协调安排进行作弊的情况,作弊用户虽然是真实的用户,但是区别于正常用户点击广告的随机性,作弊用户点击广告的次序和种类具有必然性,作弊用户的特征向量也会存在明显差异,通过对多个用户点击序列进行分析处理,可以发现其中的广告作弊的聚集行为(即作弊群体或异常类别)。
请参阅图4,在某些实施方式中,广告点击日志包括用户信息、广告信息和点击时间;步骤020包括:
022:获取同一广告信息的所有用户信息和点击时间;
024:以点击时间为顺序对用户信息进行排序以形成用户点击序列。
上述实施方式的广告反作弊方法可由本申请实施方式的广告反作弊装置100实现。具体地,请参阅图2,生成模块20包括获取单元22和排序单元24。获取单元22用于获取同一广告信息的所有用户信息和点击时间。排序单元24用于以点击时间为顺序对用户信息进行排序以形成用户点击序列。
上述实施方式的广告反作弊方法还可由本申请实施方式的电子设备100实现。具体地,处理器202用于获取同一广告信息的所有用户信息和点击时间,及用于以点击时间为顺序对用户信息进行排序以形成用户点击序列。
如此,根据广告点击日志形成每个广告的用户点击序列,通过用户点击序列能够将用户的行为特征以特征向量表征,从而能够对特征向量进行聚类以发现广告作弊的聚集行为(即作弊群体或异常类别)
具体地,用户信息可包括地域、IP、访问频率、MAC地址等。广告信息可包括广告名称、广告种类等。点击时间可包括年、月、日、时、分、秒等。在广告平台中,每个用户点击一个广告之后,会生成一个广告点击日志,即就是每个广告点击日志中包括用户信息、广告信息和点击时间的对应关系。进一步地,按照不同的广告信息进行分组,根据用户信息、广告信息和点击时间的对应关系,获取同一广告信息的所有用户信息和点击时间,并按照点击时间的顺序,对与该广告信息的用户信息进行排序,从而形成用户点击序列。可以按照点击时间由先到后的顺序,对与该广告信息的用户信息进行排序;也可以按照点击时间由后到先的顺序,对与该广告信息的用户信息进行排序,在此不作限定。
在一个例子中,广告信息包括广告a、广告b和广告c,按照点击时间由先到后的顺序,点击广告a的用户依次为用户A、用户B、用户D和用户F,点击广告b的用户依次为用户A、用户C、用户M和用户G,点击广告c的用户依次为用户C、用户D、用户A和用户X。用户点击序列可表示如下:
用户A,用户B,用户D,用户F
用户A,用户C,用户M,用户G
用户C,用户D,用户A,用户X
请参阅图5,在某些实施方式中,步骤030包括:
032:将所有用户点击序列输入至词向量模型中以得到特征向量。
上述实施方式的广告反作弊方法可由本申请实施方式的广告反作弊装置10实现。具体地,请参阅图2,第二获取模块30包括输入单元32。输入单元32用于将所有用户点击序列输入至词向量模型中以得到特征向量。
上述实施方式的广告反作弊方法还可由本申请实施方式的电子设备200实现。具体地,处理器202用于将所有用户点击序列输入至词向量模型中以得到特征向量。
如此,通过词向量模型的计算,可以根据所有用户点击序列获取用户的特征向量。可以理解,正常用户通常根据自身需求或者对广告的感兴趣程度来点击广告,因此,正常用户点击广告是有一定规律的,并且有相同需求或兴趣的用户可能点击的广告具有相似关系;而作弊用户,通常在利益的驱动下点击广告,因此,作弊用户点击广告不具备与正常用户相同的规律,通过将所有用户点击序列输入至词向量模型中以得到用户的特征向量,进一步地,对特征向量进行分析处理,可以发现广告作弊的异常行为。
具体地,词向量模型可包括Word2vec模型。Word2vec模型的输入为按照广告信息进行分组的所有用户点击序列,输出为指定维数的用户的特征向量。特征向量可以表征用户在点击广告上的兴趣,并且是以一个指定比如8维或者32维的向量来表示,特征向量的维数越高,特征向量表征用户的能力越强,但是计算代价相应越高,通常情况下指定使用8维的向量表征用户。通过使用特征向量表示之后,用户信息可以进行计算,比如计算用户在广告行为上的相似关系等。在某些实施方式中,Word2vec模型包括连续词袋(ContinuousBag-of-Words,CBOW)模型和Skip-gram模型。Word2vec模型可根据用户点击序列中当前用户的相邻范围的用户来表示当前用户。
请参阅图6,在某些实施方式中,步骤032包括:
0322:根据一个用户点击序列和目标概率建立目标函数;
0324:求目标函数的最大值以得到目标概率;
0326:根据用户点击序列和目标概率计算得到特征向量。
上述实施方式的广告反作弊方法可由本申请实施方式的广告反作弊装置100实现。具体地,请参阅图2,第二获取模块30包括输入单元32。输入单元32包括建立子单元322、求值子单元324和计算子单元326。建立子单元322用于根据一个用户点击序列和目标概率建立目标函数,求值子单元324用于求目标函数的最大值以得到目标概率,计算子单元326用于根据用户点击序列和目标概率计算得到特征向量。
上述实施方式的广告反作弊方法还可由本申请实施方式的电子设备200实现。具体地,处理器202用于根据一个用户点击序列和目标概率建立目标函数,及用于求目标函数的最大值以得到目标概率,及用于根据用户点击序列和目标概率计算得到特征向量。
如此,通过CBOW模型进行用户点击序列的特征向量的计算,从而获得用户的特征向量。具体地,对于给定的一个用户点击序列w1,w2,w3,...,wT,T表示用户点击序列的长度,目标概率可理解为该用户点击序列中某一个预测的目标用户wt在上下文范围c(前c个用户以及后c个用户)的情况下的条件概率,即目标概率可写作P(wt|wt-c:wt+c),例如,当c=2时,目标概率即为预测的目标用户wt在上下文为wt-2、wt-1、wt+1和wt+2的情况下的条件概率。
进一步地,目标函数L可表示为目标概率P(wt|wt-c:wt+c)的对数似然函数,即目标函数L可由如下公式表示:
通过最大化目标函数L,可获得目标函数L取最大值时对应的目标概率值P(wt|wt-c:wt+c),再通过计算softmax函数,可以得到预测的目标用户wt的特征向量vwt,softmax函数可由如下公式表示:
在一个例子中,每个用户通过8维的特征向量进行表征,计算得到用户的特征向量如下:
用户A:0.1123,1.2232,-0.3311,4.4421,9.0198,6.3323,-1.3332,7.1349
用户B:3.2533,9.1222,0.9311,1.2421,0.0198,1.3323,1.2332,9.2349
用户C:1.8123,-1.8232,-1.9311,2.8421,1.0198,9.3323,2.3332,7.0349
请参阅图7,在某些实施方式中,步骤040包括:
042:采用聚类算法对特征向量进行聚类以得到多个用户类别及各个用户类别对应的中心点;
044:计算每个用户类别中的所有特征向量到对应的中心点的平均距离。
上述实施方式的广告反作弊方法可由本申请实施方式的广告反作弊装置100实现。具体地,请参阅图2,聚类模块40包括算法单元42和计算单元44。算法单元42用于采用聚类算法对特征向量进行聚类以得到多个用户类别及各个用户类别对应的中心点。计算单元44用于计算每个用户类别中的所有特征向量到对应的中心点的平均距离。
上述实施方式的广告反作弊方法还可由本申请实施方式的电子设备200实现。具体地,处理器202用于采用聚类算法对特征向量进行聚类以得到多个用户类别及各个用户类别对应的中心点,及用于计算每个用户类别中的所有特征向量到对应的中心点的平均距离。
如此,通过对特征向量进行聚类,将相似度高的用户划分到相同的用户类别,从而得到多个用户类别,进而对多个用户类别进行分析,可以发现广告作弊的聚集行为(即作弊群体或异常类别)。可以理解,作弊用户由于受广告作弊方统一协调安排进行作弊,在聚类上距离较近,而实际用户由于不确定性,导致了聚类分布较散。
具体地,聚类算法可包括K-means聚类算法,K-means聚类算法也称k均值聚类算法,是集简单和经典于一身的基于距离的聚类算法。它采用距离作为相似度的评价指标,即认为两个特征向量的距离越近,其相似度就越高。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标,这样就得到多个用户类别及各个用户类别对应的中心点。
进一步地,计算每个用户类别中的每个特征向量与对应的中心点的距离,然后计算平均距离,通过比较多个用户类别的平均距离,可确定多个用户类别中距离最短的类别以作为异常类别。此外,在确定异常类别之后,还可通过人工抽样的方式,对每个用户类别进行人工抽样,获取用户实际信息,比如身份信息,进行人工回访等,最终校验和确认异常类别,从而快速发现大规模的作弊群体。
请参阅图8,在某些实施方式中,步骤042包括:
0421:确定用户类别的预设数量;
0422:从所有特征向量中随机选择预设数量的特征向量以作为第一质心;
0423:计算所有特征向量与各个第一质心的距离并将所有特征向量与距离最小的第一质心分到同一个集合;
0424:重新计算预设数量的集合的第二质心,判断第二质心与第一质心之间的距离是否小于预设距离;
0425:在距离小于预设距离时,将集合确定为用户类别,将第二质心确定为中心点;
0426:在距离大于预设距离时,将第二质心视作第一质心并进入计算所有特征向量与各个第一质心的距离并将所有特征向量与距离最小的第一质心分到同一个集合的步骤。
上述实施方式的广告反作弊方法可由本申请实施方式的广告反作弊装置实现。具体地,请参阅图2,算法单元42包括第一确定子单元422、选择子单元424、分配子单元426、判断子单元428、第二确定子单元421和循环子单元423。第一确定子单元422用于确定用户类别的预设数量。选择子单元424用于从所有特征向量中随机选择预设数量的特征向量以作为第一质心。分配子单元426用于计算所有特征向量与各个第一质心的距离并将所有特征向量与距离最小的第一质心分到同一个集合。判断子单元428用于重新计算预设数量的集合的第二质心,判断第二质心与第一质心之间的距离是否小于预设距离。第二确定子单元421用于在距离小于预设距离时,将集合确定为用户类别,将第二质心确定为中心点。循环子单元423用于在距离大于预设距离时,将第二质心视作第一质心并进入计算所有特征向量与各个第一质心的距离并将所有特征向量与距离最小的第一质心分到同一个集合的步骤。
上述实施方式的广告反作弊方法还可由本申请实施方式的电子设备200实现。具体地,处理器202用于确定用户类别的预设数量,及用于从所有特征向量中随机选择预设数量的特征向量以作为第一质心,及用于计算所有特征向量与各个第一质心的距离并将所有特征向量与距离最小的第一质心分到同一个集合,及用于重新计算预设数量的集合的第二质心,判断第二质心与第一质心之间的距离是否小于预设距离,及用于在距离小于预设距离时,将集合确定为用户类别,将第二质心确定为中心点,及用于在距离大于预设距离时,将第二质心视作第一质心并进入计算所有特征向量与各个第一质心的距离并将所有特征向量与距离最小的第一质心分到同一个集合的步骤。
如此,采用K-means聚类算法对所有特征向量进行聚类处理,将相似度高的用户划分到相同的用户类别,从而得到多个用户类别及各个用户类别对应的中心点。具体地,预设数量可为3、4、5、6或者大于6的其他整数,预设数量的数值越大,聚类获得的用户类别就越多。第一质心的数量与用户类别的数量相同。距离的计算公式可由如下公式表示:
其中,X和Y表示两个特征向量,m表示特征向量的维数,xi为特征向量X的元素,yi为特征向量Y的元素。
需要指出的是,由于第一质心是随机选择的,所以根据随机选择的第一质心确定的预设数量的集合不能够作为聚类的最终结果,且根据随机选择的第一质心确定的第二质心通常与实际中心点偏差较大,不能够直接作为中心点,因此,在第二质心与第一质心之间的距离大于预设距离的情况下,将第二质心视作第一质心,重新进行聚类,直至第二质心与第一质心之间的距离小于或者等于预设距离,这样表示重新计算的第二质心的位置变化不大,聚类的预设数量的集合趋于稳定(或者收敛),可以将此时的第二质心确定为当前集合的中心点。
请参阅图9,在某些实施方式中,广告反作弊方法包括:
060:根据异常类别中的特征向量确定用户信息;
070:在用户信息对应的地域、IP、访问频率、MAC地址中的至少一种存在异常时,确定用户信息对应的用户为异常用户。
上述实施方式的广告反作弊方法可由本申请实施方式的广告反作弊装置100实现。具体地,请参阅图2,广告反作弊装置100包括第二确定模块60和第三确定模块70。第二确定模块60用于根据异常类别中的特征向量确定用户信息。第三确定模块70用于在用户信息对应的地域、IP、访问频率、MAC地址中的至少一种存在异常时,确定用户信息对应的用户为异常用户。
上述实施方式的广告反作弊方法还可由本申请实施方式的电子设备200实现。具体地,处理器202用于根据异常类别中的特征向量确定用户信息,及用于在用户信息对应的地域、IP、访问频率、MAC地址中的至少一种存在异常时,确定用户信息对应的用户为异常用户。
如此,结合规则统计的技术,进一步校验和确认异常类别,能够快速准确地发现大规模的作弊群体。可以理解,在聚类算法中,将距离最短的类别作为异常类别,这样得出的异常类别中的用户不一定全部是异常用户,所以可以进一步进行确认,防止造成异常类别的误判。
具体地,每一个特征向量对应一个用户,根据异常类别中的特征向量可以确定对应的用户信息。用户信息包括但不限于地域、IP、访问频率、MAC地址等。检测地域是否正常、IP是否正常、访问频率是否过高以及MAC地址是否正常,当地域、IP、访问频率、MAC地址中的至少一种存在异常时,即可确定用户信息对应的用户为异常用户。进一步地,如果在聚类算法确认的异常类别中,异常用户明显多于正常用户,则可确认当前异常类别即为准确的异常类别,可以视为作弊群体,从而对当前类别中的用户采取广告反作弊措施。
本申请实施方式的计算机可读存储介质,其上存储有计算机程序,程序被处理器执行的情况下,实现上述任一实施方式的广告反作弊方法的步骤。
例如,程序被处理器执行的情况下,实现以下广告反作弊方法的步骤:
010:获取广告点击日志;
020:根据广告点击日志形成每个广告的用户点击序列;
030:根据所有用户点击序列获取用户的特征向量;
040:对特征向量进行聚类以得到多个用户类别;
050:确定多个用户类别中距离最短的类别以作为异常类别。
可以理解,计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种广告反作弊方法,其特征在于,所述广告反作弊方法包括:
获取广告点击日志;
根据所述广告点击日志形成每个广告的用户点击序列;
根据所有所述用户点击序列获取用户的特征向量;
对所述特征向量进行聚类以得到多个用户类别;
确定多个用户类别中距离最短的类别以作为异常类别。
2.根据权利要求1所述的广告反作弊方法,其特征在于,所述广告点击日志包括用户信息、广告信息和点击时间;所述根据所述广告点击日志形成每个广告的用户点击序列,包括:
获取同一所述广告信息的所有所述用户信息和所述点击时间;
以所述点击时间为顺序对所述用户信息进行排序以形成所述用户点击序列。
3.根据权利要求1所述的广告反作弊方法,其特征在于,所述根据所有所述用户点击序列获取用户的特征向量,包括:
将所有所述用户点击序列输入至词向量模型中以得到所述特征向量。
4.根据权利要求3所述的广告反作弊方法,其特征在于,所述将所有所述用户点击序列输入至词向量模型中以得到所述特征向量,包括:
根据一个所述用户点击序列和目标概率建立目标函数;
求目标函数的最大值以得到所述目标概率;
根据所述用户点击序列和所述目标概率计算得到所述特征向量。
5.根据权利要求1所述的广告反作弊方法,其特征在于,所述对所述特征向量进行聚类以得到多个用户类别,包括:
采用聚类算法对所述特征向量进行聚类以得到多个所述用户类别及各个所述用户类别对应的中心点;
计算每个所述用户类别中的所有所述特征向量到对应的所述中心点的平均距离。
6.根据权利要求5所述的广告反作弊方法,其特征在于,所述采用聚类算法对所述特征向量进行聚类以得到多个所述用户类别及各个所述用户类别对应的中心点,包括:
确定所述用户类别的预设数量;
从所有所述特征向量中随机选择所述预设数量的所述特征向量以作为第一质心;
计算所有所述特征向量与各个所述第一质心的距离并将所有所述特征向量与距离最小的第一质心分到同一个集合;
重新计算所述预设数量的所述集合的第二质心,判断所述第二质心与所述第一质心之间的距离是否小于预设距离;
在所述距离小于所述预设距离时,将所述集合确定为所述用户类别,将所述第二质心确定为所述中心点;
在所述距离大于所述预设距离时,将所述第二质心视作所述第一质心并进入所述计算所有所述特征向量与各个所述第一质心的距离并将所有所述特征向量与距离最小的第一质心分到同一个集合的步骤。
7.根据权利要求1所述的广告反作弊方法,其特征在于,所述广告反作弊方法包括:
根据所述异常类别中的所述特征向量确定用户信息;
在所述用户信息对应的地域、IP、访问频率、MAC地址中的至少一种存在异常时,确定所述用户信息对应的用户为异常用户。
8.一种广告反作弊装置,其特征在于,所述广告反作弊装置包括:
第一获取模块,用于获取广告点击日志;
生成模块,用于根据所述广告点击日志形成每个广告的用户点击序列;
第二获取模块,用于根据所有所述用户点击序列获取用户的特征向量;
聚类模块,用于对所述特征向量进行聚类以得到多个用户类别;
确定模块,用于确定多个用户类别中距离最短的类别以作为异常类别。
9.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行的情况下,实现权利要求1-7任一项所述的广告反作弊方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行的情况下,实现权利要求1-7任一项所述的广告反作弊方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011446667.6A CN112488765A (zh) | 2020-12-08 | 2020-12-08 | 广告反作弊方法、广告反作弊装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011446667.6A CN112488765A (zh) | 2020-12-08 | 2020-12-08 | 广告反作弊方法、广告反作弊装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112488765A true CN112488765A (zh) | 2021-03-12 |
Family
ID=74940072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011446667.6A Pending CN112488765A (zh) | 2020-12-08 | 2020-12-08 | 广告反作弊方法、广告反作弊装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488765A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147152A (zh) * | 2022-07-01 | 2022-10-04 | 浙江出海数字技术有限公司 | 广告投放效果数据采集与统计分析系统 |
CN115221012A (zh) * | 2022-09-21 | 2022-10-21 | 云智慧(北京)科技有限公司 | 一种日志的聚类解析方法、装置及设备 |
WO2022252363A1 (zh) * | 2021-06-03 | 2022-12-08 | 腾讯云计算(北京)有限责任公司 | 数据处理方法、计算机设备以及可读存储介质 |
CN116051185A (zh) * | 2023-04-03 | 2023-05-02 | 深圳媒介之家文化传播有限公司 | 广告位数据的异常检测与筛选方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8533825B1 (en) * | 2010-02-04 | 2013-09-10 | Adometry, Inc. | System, method and computer program product for collusion detection |
US20160350800A1 (en) * | 2015-05-29 | 2016-12-01 | Yahoo! Inc. | Detecting coalition fraud in online advertising |
CN108921587A (zh) * | 2018-05-24 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
CN110753065A (zh) * | 2019-10-28 | 2020-02-04 | 国网河南省电力公司信息通信公司 | 网络行为检测方法、装置、设备及存储介质 |
CN110837862A (zh) * | 2019-11-06 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 用户分类方法及装置 |
US20200322368A1 (en) * | 2019-04-03 | 2020-10-08 | Deutsche Telekom Ag | Method and system for clustering darknet traffic streams with word embeddings |
-
2020
- 2020-12-08 CN CN202011446667.6A patent/CN112488765A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8533825B1 (en) * | 2010-02-04 | 2013-09-10 | Adometry, Inc. | System, method and computer program product for collusion detection |
US20160350800A1 (en) * | 2015-05-29 | 2016-12-01 | Yahoo! Inc. | Detecting coalition fraud in online advertising |
CN108921587A (zh) * | 2018-05-24 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及服务器 |
US20200322368A1 (en) * | 2019-04-03 | 2020-10-08 | Deutsche Telekom Ag | Method and system for clustering darknet traffic streams with word embeddings |
CN110753065A (zh) * | 2019-10-28 | 2020-02-04 | 国网河南省电力公司信息通信公司 | 网络行为检测方法、装置、设备及存储介质 |
CN110837862A (zh) * | 2019-11-06 | 2020-02-25 | 腾讯科技(深圳)有限公司 | 用户分类方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022252363A1 (zh) * | 2021-06-03 | 2022-12-08 | 腾讯云计算(北京)有限责任公司 | 数据处理方法、计算机设备以及可读存储介质 |
CN115147152A (zh) * | 2022-07-01 | 2022-10-04 | 浙江出海数字技术有限公司 | 广告投放效果数据采集与统计分析系统 |
CN115221012A (zh) * | 2022-09-21 | 2022-10-21 | 云智慧(北京)科技有限公司 | 一种日志的聚类解析方法、装置及设备 |
CN115221012B (zh) * | 2022-09-21 | 2023-02-03 | 云智慧(北京)科技有限公司 | 一种日志的聚类解析方法、装置及设备 |
CN116051185A (zh) * | 2023-04-03 | 2023-05-02 | 深圳媒介之家文化传播有限公司 | 广告位数据的异常检测与筛选方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112488765A (zh) | 广告反作弊方法、广告反作弊装置、电子设备及存储介质 | |
CN108304427B (zh) | 一种用户客群分类方法和装置 | |
CN106294508B (zh) | 一种刷量工具检测方法及装置 | |
Khan et al. | Relationship between variants of one-class nearest neighbors and creating their accurate ensembles | |
US20050286772A1 (en) | Multiple classifier system with voting arbitration | |
CN109474542B (zh) | 基于业务规则的消息推送请求流量控制方法、装置及介质 | |
WO2019169704A1 (zh) | 一种数据分类方法、装置、设备及计算机可读存储介质 | |
CN114780606B (zh) | 一种大数据挖掘方法及系统 | |
CN107784511A (zh) | 一种用户流失预测方法及装置 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN113821827A (zh) | 保护多方数据隐私的联合建模方法及装置 | |
CN115905648B (zh) | 基于高斯混合模型的用户群和金融用户群分析方法及装置 | |
CN115952426A (zh) | 基于随机采样的分布式噪音数据聚类方法及用户分类方法 | |
CN112069913B (zh) | 用户的识别方法、装置、存储介质和电子设备 | |
JP6557192B2 (ja) | クラスタリング装置およびクラスタリング方法 | |
CN113076451B (zh) | 异常行为识别和风险模型库的建立方法、装置及电子设备 | |
CN111353052B (zh) | 一种多媒体对象推荐方法、装置、电子设备及存储介质 | |
EP2242235B1 (en) | Method and apparatus for tagging a social environment | |
JP6706397B1 (ja) | 学習システム、学習方法、及びプログラム | |
CN109118029B (zh) | 对象排序处理方法、装置、计算机设备和存储介质 | |
CN112069981A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN111311411B (zh) | 一种非法行为的识别方法及装置 | |
CN110598799A (zh) | 一种目标检测结果的评测方法、装置、设备及存储介质 | |
CN111339360B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN114611623A (zh) | 一种人像聚类方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |