CN116051185A - 广告位数据的异常检测与筛选方法 - Google Patents
广告位数据的异常检测与筛选方法 Download PDFInfo
- Publication number
- CN116051185A CN116051185A CN202310339774.6A CN202310339774A CN116051185A CN 116051185 A CN116051185 A CN 116051185A CN 202310339774 A CN202310339774 A CN 202310339774A CN 116051185 A CN116051185 A CN 116051185A
- Authority
- CN
- China
- Prior art keywords
- click
- data
- sequence
- determining
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005856 abnormality Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012216 screening Methods 0.000 title claims abstract description 34
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims abstract description 69
- 238000010606 normalization Methods 0.000 claims description 18
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 description 5
- 230000001680 brushing effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0248—Avoiding fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及电数字数据处理技术领域,具体涉及一种广告位数据的异常检测与筛选方法。该方法获取至少两个用户在预设时间段内点击广告位的点击记录数据,确定每个广告的点击完成度;确定第一序列分别与每个第二序列在广告内容的内容相似度;根据时序距离、内容相似度和点击完成度,确定待测数据的点击逻辑特征系数;根据待测数据与其他用户的点击记录数据的点击记录差异确定待测数据的相似系数,根据点击逻辑特征系数和相似系数,确定待测数据的异常程度;根据所有点击记录数据的异常程度对点击记录数据进行筛选,得到正常点击数据和异常点击数据。综上,本发明能够有效提升对异常点击记录筛选的可靠性。
Description
技术领域
本发明涉及电数字数据处理技术领域,具体涉及一种广告位数据的异常检测与筛选方法。
背景技术
线上广告产业逐渐成为广告行业中重要的组成部分。但在广告位进行投放广告所需花费由广告位上广告被网络平台用户所点击的次数也即点击量决定,而有些广告位上的广告点击数据可能存在异常,一些恶意点击或刷量点击可能严重影响对广告投放预算的准确估值。
现有技术中一般通过对广告位点击量时序数据进行异常检测来识别广告位信息的异常点击,这种方式一般只能当一个广告位的点击数据相比于其他广告位的点击数据出现较大差异时才能识别出异常,灵敏性较为不足。在另一些现有技术中,通过追踪用户IP的方式来辨别进行点击的用户的异常程度,这种方法虽然能通过大量点击的IP地址是否相同来进行用户的异常识别,但IP地址可能为伪造信息,因此也存在一定的局限性。综上,相关技术中对异常点击记录的筛选可靠性不足。
发明内容
为了解决对异常点击记录的筛选可靠性不足的技术问题,本发明提供一种广告位数据的异常检测与筛选方法,所采用的技术方案具体如下:
本发明提出了一种广告位数据的异常检测与筛选方法,方法包括:
获取至少两个用户在预设时间段内点击广告位的点击记录数据,根据广告不同将所述点击记录数据划分为至少一个点击序列,确定每个所述点击序列在所对应广告中的点击完成度;
任选某一用户的点击记录数据作为待测数据,从所述待测数据任选某一点击序列作为第一序列,将所述待测数据中除所述第一序列之外的其他序列作为第二序列,确定所述第一序列分别与每个所述第二序列在广告内容的内容相似度;
将第一序列与每个第二序列分别所对应初始时刻的点击时间的时间间隔作为第一序列与第二序列的时序距离,遍历所述待测数据中所有所述点击序列,根据所述时序距离、所述内容相似度和所述点击完成度,确定所述待测数据的点击逻辑特征系数;
根据所述待测数据与其他用户的点击记录数据的点击记录差异确定所述待测数据的相似系数,根据所述点击逻辑特征系数和所述相似系数,确定所述待测数据的异常程度;根据所有所述点击记录数据的异常程度对所述点击记录数据进行筛选,得到正常点击数据和异常点击数据。
进一步地,所述确定所述第一序列分别与每个所述第二序列在广告内容的内容相似度,包括:
确定所述第一序列所对应广告的第一内容标签,确定任一所述第二序列所对应广告的第二内容标签,其中,每个广告至少对应一个内容标签;
将相同的所述第一内容标签和所述第二内容标签作为相同标签,确定所述第一内容标签的数量和所述第二内容标签的数量的和值为总标签数量;
计算所述相同标签的数量与总标签数量的比值作为所述第一序列与所述第二序列的内容相似度,由此,遍历所有所述第二序列,得到所述第一序列分别与每个所述第二序列的内容相似度。
进一步地,所述遍历所述待测数据中所有所述点击序列,根据所述时序距离、所述内容相似度和所述点击完成度,确定所述待测数据的点击逻辑特征系数,包括:
对所述时序距离进行反比例的归一化处理得到所述第一序列和所述第二序列的时序距离系数;
计算所述时序距离系数和所述内容相似度的乘积作为所述第一序列和所述第二序列的第一特征因子;
将所述第一序列分别与所有所述第二序列的所述第一特征因子的和值作为所述第一序列的时序特征系数;
计算所述第一序列的时序特征系数和所述点击完成度的乘积作为正常程度系数;
遍历所述待测数据中的所有第一序列,计算所有所述正常程度系数的均值的反比例归一化值作为所述待测数据的点击逻辑特征系数。
进一步地,所述根据所述待测数据与其他用户的点击记录数据的点击记录差异确定所述待测数据的相似系数,包括:
根据所述待测数据与其他用户的点击记录数据在点击相同广告时的点击次序,确定所述待测数据的点击次序系数;
获取所述待测数据在初次点击记录时所对应待测点击时间,获取其他用户的点击记录数据在初次点击记录时所对应其他点击时间;
分别计算所述待测点击时间与其他点击时间的时间间隔作为初始时间间隔,遍历所有所述其他点击时间,将所有所述初始时间间隔的和值的反比例归一化值作为所述待测数据的点击间隔系数;
计算所述点击次序系数和所述点击间隔系数的乘积作为待测数据的相似系数。
进一步地,所述根据所述待测数据与其他用户的点击记录数据在点击相同广告时的点击次序,确定所述待测数据的点击次序系数,包括:
任选某一其他用户的点击记录数据作为参考数据,将所述待测数据中的点击次数和所述参考数据中的点击次数的最小值作为最小点击次数,其中,所述最小点击次数至少为1次,对所述最小点击次数下所对应的点击记录进行排序,得到点击次序;
确定待测数据与参考数据在相同点击次序下点击相同广告所对应的点击时间间隔为点击时间差异,在最小点击次数之内,计算所有所述点击时间差异的和值作为总时间差异;
遍历所有所述其他用户的点击记录数据,将得到的所有所述总时间差异的和值的反比例归一化值作为所述待测数据的点击次序系数。
进一步地,所述根据所述点击逻辑特征系数和所述相似系数,确定所述待测数据的异常程度,包括:
计算预设第一权值和所述点击逻辑特征系数的乘积作为第一异常影响因子;
计算预设第二权值和所述相似系数的乘积作为第二异常影响因子;
计算所述第一异常影响因子和所述第二异常影响因子的和值归一化值作为所述待测数据的异常程度。
进一步地,所述根据所有所述点击记录数据的异常程度对所述点击记录数据进行筛选,得到正常点击数据和异常点击数据,包括:
确定所述点击记录数据的异常程度是否满足预设异常条件;
在所述点击记录数据的异常程度满足预设异常条件时,确定所述点击记录数据为异常点击数据;
在所述点击记录数据的异常程度不满足预设异常条件时,确定所述点击记录数据为正常点击数据。
进一步地,所述确定所述点击记录数据的异常程度是否满足预设异常条件,包括:
在所述点击记录数据的异常程度大于预设异常阈值时,确定所述异常程度满足预设异常条件;
在所述点击记录数据的异常程度小于等于预设异常阈值时,确定所述异常程度不满足预设异常条件。
进一步地,所述确定每个所述点击序列在所对应广告中的点击完成度,包括:
分别获取每个广告的预设待点击次数,计算所述点击序列中的点击次数与对应广告的预设待点击次数的比值作为所述点击完成度,其中,所述预设待点击次数至少为1次。
本发明具有如下有益效果:
本发明通过确定每个点击序列在所对应广告中的点击完成度,能够契合正常用户倾向于点击完整广告的点击逻辑特征,提升点击完成度的客观性,内容相似度则可以被用于确定内容标签间的重合率,进一步考虑正常用户在一段时间内倾向于点击相似标签的广告的点击逻辑特征,根据内容相似度准确表征点击逻辑特征,根据时序距离、内容相似度和点击完成度,确定待测数据的点击逻辑特征系数,通过点击逻辑特征系数有效确定点击记录数据的点击逻辑,准确确定点击记录数据中的逻辑异常情况,根据点击逻辑特征系数和相似系数,确定待测数据的异常程度,能够结合在同一时间段中多位用户的点击记录,结合异常点击行为和正常点击行为的特点,进一步对异常点击行为进行检测,提升异常检测的可靠性,根据所有点击记录数据的异常程度对点击记录数据进行筛选,能够有效筛选正常点击数据和异常点击数据,从而能够提升异常识别与筛选的灵敏性,通过点击记录数据自身的点击逻辑特征和与其他点击记录数据的点击逻辑特征进行比较,从而能够更为准确地获得点击记录数据的异常程度,提升异常程度的准确性与可靠性。综上,本发明能够有效提升对异常点击记录筛选的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种广告位数据的异常检测与筛选方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种广告位数据的异常检测与筛选方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种广告位数据的异常检测与筛选方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种广告位数据的异常检测与筛选方法流程图,该方法包括:
S101:获取至少两个用户在预设时间段内点击广告位的点击记录数据,根据广告不同将点击记录数据划分为至少一个点击序列,确定每个点击序列在所对应广告中的点击完成度。
本发明实施例中,可以在相应平台后台中获取不同用户在预设时间段内点击广告位的点击记录,并按照时序顺序记录生成点击记录数据,可以理解的是,点击记录数据中可以包括用户点击的时刻,和相对应点击的广告位链接等,对此不做限制。
需要说明的是,本发明获取用户的点击记录等相关信息和对信息进行统计处理的过程,均经过相关用户的授权,其获取和处理过程均符合相关法律法规,且不违背公序良俗。
进一步地,本发明实施例中,确定每个点击序列在所对应广告中的点击完成度,包括:分别获取每个广告的预设待点击次数,计算点击序列中的点击次数与对应广告的预设待点击次数的比值作为点击完成度,其中,预设待点击次数至少为1次。
可以理解的是,不同的广告位可以具有多个不同的链接,举例而言,一个广告位具有四级链接,分别为初始链接,次级链接,再次级链接和底部链接。则对应的,预设待点击次数为4,在点击序列中的点击次数为2时,则对应的点击完成度为0.5。
可以理解的是,用户在主动浏览感兴趣广告的过程中,更倾向于将广告中所有链接均进行点击,而在刷量类异常情况时,为追求效率,则大概率仅点击初始链接,因此,可以通过点击完成度有效表征用户在点击广告时的点击逻辑,从而能够根据用户在点击广告时的点击逻辑确定对应点击序列的正常程度,提升点击完成度的可靠性。
当然,本发明还支持使用多种其他任意可能的实现方式确定点击完成度,例如停留界面的时间,对此不做限制。
S102:任选某一用户的点击记录数据作为待测数据,从待测数据任选某一点击序列作为第一序列,将待测数据中除第一序列之外的其他序列作为第二序列,确定第一序列分别与每个第二序列在广告内容的内容相似度。
其中,待测数据,为任选的某一用户所对应的点击记录数据,待测数据中包含多个点击序列,则可以任选某一点击序列作为第一序列,将待测数据中除第一序列之外的其他序列作为第二序列。
进一步地,本发明实施例中,确定第一序列分别与每个第二序列在广告内容的内容相似度,包括:确定第一序列所对应广告的第一内容标签,确定任一第二序列所对应广告的第二内容标签,其中,每个广告至少对应一个内容标签;将相同的第一内容标签和第二内容标签作为相同标签,确定第一内容标签的数量和第二内容标签的数量的和值为总标签数量;计算相同标签的数量与总标签数量的比值作为第一序列与第二序列的内容相似度,由此,遍历所有第二序列,得到第一序列分别与每个第二序列的内容相似度。
本发明实施例中,内容相似度,为同一用户在不同时间点所点击的广告的内容的相似程度,可以理解的是,正常用户在点击广告的过程中,更倾向于点击相同或相近类别的广告,例如连续点击多个包含“家居类”属性的广告等,而在刷量等异常情况时,则点击的广告在内容上的逻辑性较低,因此,本发明通过对不同广告预设对应的属性标签,也即第一内容标签和第二内容标签,以便于根据标签的一致性确定内容相似度。
可以理解的是,内容标签可以为相关工作人员所标注的标签,或者,也可以为广告所处领域所对应的标签,或者,还可以例如为根据广告内容进行智能匹配的标签,对此不做限制。
则本发明实施例可以分别计算相同标签的数量与总标签数量的比值作为第一序列与第二序列的内容相似度,由此,得到第一序列与每个第二序列的内容相似度。
S103:将第一序列与每个第二序列分别所对应初始时刻的点击时间的时间间隔作为第一序列与第二序列的时序距离,遍历待测数据中所有点击序列,根据时序距离、内容相似度和点击完成度,确定待测数据的点击逻辑特征系数。
可以理解的是,由于刷量等异常情况大部分为同时或者同时段一起开始产生的,也即对应初始时刻相同或相近,因此,本发明能够考虑来源于多个不同用户的点击记录数据的起始时间,从而确定点击记录数据的异常情况。
本发明实施例中,获取第一序列所对应初始时刻的点击时间,获取每个第二序列分别所对应初始时刻的点击时间,将第一序列与任一第二序列时间间隔作为第一序列与第二序列的时序距离。
进一步地,本发明实施例中,遍历待测数据中所有点击序列,根据时序距离、内容相似度和点击完成度,确定待测数据的点击逻辑特征系数,包括:对时序距离进行反比例的归一化处理得到第一序列和第二序列的时序距离系数;计算时序距离系数和内容相似度的乘积作为第一序列和第二序列的第一特征因子;将第一序列分别与所有第二序列的第一特征因子的和值作为第一序列的时序特征系数;计算第一序列的时序特征系数和点击完成度的乘积作为正常程度系数;遍历待测数据中的所有第一序列,计算所有正常程度系数的均值的反比例归一化值作为待测数据的点击逻辑特征系数。对应的计算公式为:
式中,表示待测数据的点击逻辑特征系数,表示待测数据中点击序列的总个数,表示第一序列的索引,表示第二序列的索引,且,表示第个第一序列的点击完成度,表示第个第一序列与第个第二序列的时序距离,表示第个第一序列与第个第二序列的内容相似度,表示取绝对值,表示求归一化,在本发明的一个实施例中,归一化处理可以具体例如为最大最小值归一化处理,并且,后续步骤中的归一化均可以采用最大最小值归一化处理,在本发明的其他实施例中可以根据数值具体范围选择其他归一化方法,对此不再赘述。
本发明实施例如点击逻辑特征系数公式可知,表示第个第一序列与第个第二序列的时序距离系数,表示第个第一序列与第个第二序列所对应的第一特征因子,表示第个第一序列所对应的时序特征系数,表示第个第一序列的正常程度系数。
可以理解的是,在本发明实施例中,点击完成度越大和内容相似度越大,均可以表征对应点击序列越符合正常广告浏览逻辑,对应的正常程度越大,时序距离系数越大,表示第一序列与第二序列的时序距离越近,也即是说,第一序列与第二序列间的点击间隔越小,同样越符合正常广告浏览逻辑,也即是说,点击完成度、内容相似度和时序距离系数均与待测数据的正常程度成正比,则对应的,根据点击完成度、内容相似度和时序距离系数求得正常程度系数,并对正常程度系数进行反比例的归一化处理,得到待测数据的点击逻辑特征系数,点击逻辑特征系数越大,越可以表示对应待测数据为异常情况下所产生的数据,例如恶意点击脚本等刷量程序所产生的点击记录数据。
S104:根据待测数据与其他用户的点击记录数据的点击记录差异确定待测数据的相似系数,根据点击逻辑特征系数和相似系数,确定待测数据的异常程度;根据所有点击记录数据的异常程度对点击记录数据进行筛选,得到正常点击数据和异常点击数据。
经前述步骤计算出的待测数据的点击逻辑特征系数在点击记录较少时对待测数据的区分程度不大,也即当待测数据中点击记录较少时,点击逻辑特征系数的适应性会下降,此时,对于待测数据来说,其对应的群体特征可较好区分待测数据是否异常,也即若待测数据仅包含少量的点击记录,在其为异常情况下所产生的数据时,往往会一起出现与其行为非常相似的其他点击记录数据,这些点击记录数据均为异常点击记录数据。
其中,点击记录差异,为待测数据与其他用户的点击记录数据在点击记录上的差异,包括但不限于,点击的广告位差异、点击的时间差异和点击广告的次序差异等,对此不做限制。
进一步地,本发明实施例中,根据待测数据与其他用户的点击记录数据的点击记录差异确定待测数据的相似系数,包括:根据待测数据与其他用户的点击记录数据在点击相同广告时的点击次序,确定待测数据的点击次序系数;获取待测数据在初次点击记录时所对应待测点击时间,获取其他用户的点击记录数据在初次点击记录时所对应其他点击时间;分别计算待测点击时间与其他点击时间的时间间隔作为初始时间间隔,遍历所有其他点击时间,将所有初始时间间隔的和值的反比例归一化值作为待测数据的点击间隔系数;计算点击次序系数和点击间隔系数的乘积作为待测数据的相似系数。对应的计算公式为:
其中,和均表示点击记录数据的索引,,将第个点击记录数据作为待测数据,表示待测数据的相似系数,表示待测数据在初次点击记录时所对应待测点击时间,表示第个点击记录数据的初次点击记录时所对应其他点击时间,表示取绝对值,表示求归一化,表示点击记录数据的总数量,表示待测点击时间与其他点击时间的初始时间间隔,表示待测数据的点击间隔系数,表示待测数据的点击次序系数。
可以理解的是,在正常情况下,考虑用户对不同广告的感兴趣程度不同,在浏览广告位上的广告所对应时间和浏览相同广告所对应次序也会产生差异,而在异常情况下,例如恶意点击脚本等刷量程序运行情况下,所对应的点击次序和点击时间等均会具有很大的相似性,也即是说,相似系数越大,越可以说明与待测数据点击记录相近的其他点击记录数据越多,则可以说明待测数据的异常程度越大,则本发明通过相似系数有效结合点击次序和点击间隔等信息,保证相似系数的可靠性。
进一步地,本发明实施例中,根据待测数据与其他用户的点击记录数据在点击相同广告时的点击次序,确定待测数据的点击次序系数,包括:任选某一其他用户的点击记录数据作为参考数据,将待测数据中的点击次数和参考数据中的点击次数的最小值作为最小点击次数,其中,最小点击次数至少为1次,对最小点击次数下所对应的点击记录进行排序,得到点击次序;确定待测数据与参考数据在相同点击次序下点击相同广告所对应的点击时间间隔为点击时间差异,在最小点击次数之内,计算所有点击时间差异的和值作为总时间差异;遍历所有其他用户的点击记录数据,将得到的所有总时间差异的和值的反比例归一化值作为待测数据的点击次序系数。对应的计算公式为:
式中,和均表示点击记录数据的索引,,将第个点击记录数据作为待测数据,表示点击记录数据的总数量,表示取绝对值,表示求归一化,表示待测数据的点击次序系数,表示待测数据中的点击次数,表示第个点击记录数据中的点击次数,表示待测数据中的点击次数和第个点击记录数据中的点击次数的最小点击次数,表示点击次序,表示待测数据中第次点击次序的点击时间,表示第个点击记录数据中第次点击次序的点击时间,表示待测数据与第个点击记录数据在相同点击次序下所对应的点击时间间隔,表示待测数据中第次点击次序所对应的广告的索引,表示第个点击记录数据中第次点击次序所对应的广告的索引,表示同或运算符,若待测数据中第次点击次序所对应的广告与第个点击记录数据中第次点击次序所对应的广告相同,则的值为1,若广告不同,则的值为0。
本发明实施例中,由于在异常情况下,通常会控制多台设备同时点击相同的广告,也即是说,通过对相同点击次序下点击相同广告时所对应的时间间隔确定点击次序系数,表示时间间隔,则用于筛选相同广告,可以理解的是,总时间间隔越短,越可以表明待测数据和对应参考数据间越相似,对总时间间隔进行反比例的归一化处理,得到点击次序系数,则本发明实施例中,点击次序系数越大,则可以说明待测数据的相似系数越大。
进一步地,本发明实施例中,根据点击逻辑特征系数和相似系数,确定待测数据的异常程度,包括:计算预设第一权值和点击逻辑特征系数的乘积作为第一异常影响因子;计算预设第二权值和相似系数的乘积作为第二异常影响因子;计算第一异常影响因子和第二异常影响因子的和值归一化值作为待测数据的异常程度。对应的计算公式为:
式中,表示预设第一权值,表示预设第二权值,可选地,预设第一权值为0.3,预设第二权值为0.7,表示点击记录数据的索引,将第个点击记录数据作为待测数据,表示待测数据的异常程度,表示待测数据的点击逻辑特征系数,表示待测数据的相似系数,表示待测数据的第一异常影响因子,表示待测数据的第二异常影响因子,表示求归一化。
本发明实施例的异常程度可以用于表示待测数据为异常情况下所产生的数据的程度,由于点击逻辑特征系数越大,越可以表示对应待测数据为异常情况下所产生的数据,也即点击逻辑特征系数和异常程度成正比关系,由于相似系数越大,越可以说明与待测数据点击记录相近的其他点击记录数据越多,则可以说明待测数据的异常程度越大,也即相似系数和异常程度成正比关系。
其中,预设第一权值和预设第二权值为预设的权重值,预设第一权值和预设第二权值的大小可以根据实际检测需求进行调整,可选地,预设第一权值为0.3,预设第二权值为0.7,对此不做限制。
进一步地,本发明实施例中,根据所有点击记录数据的异常程度对点击记录数据进行筛选,得到正常点击数据和异常点击数据,包括:确定点击记录数据的异常程度是否满足预设异常条件;在点击记录数据的异常程度满足预设异常条件时,确定点击记录数据为异常点击数据;在点击记录数据的异常程度不满足预设异常条件时,确定点击记录数据为正常点击数据。
本发明实施例中,可以根据异常程度是否满足预设异常条件进行筛选,其中,预设异常条件可以具体例如为阈值条件,或者区间条件等,对此不做限制。在异常程度达到预设异常条件要求时,确定点击记录数据为异常点击数据;在异常程度未达到预设异常条件要求时,确定点击记录数据为正常点击数据。
进一步地,本发明实施例中,确定点击记录数据的异常程度是否满足预设异常条件,包括:在点击记录数据的异常程度大于预设异常阈值时,确定异常程度满足预设异常条件;在点击记录数据的异常程度小于等于预设异常阈值时,确定异常程度不满足预设异常条件。
本发明实施例中,由于异常程度越大,则对应待测数据为异常数据的可能性越大,则可以通过设置预设异常阈值,根据异常程度和预设异常阈值的数值大小确定是否满足预设异常条件。
其中,预设异常阈值为预先设置的异常程度的门限值,预设异常阈值可以具体例如为0.5,也即是说,在点击记录数据的异常程度大于0.5时,确定异常程度满足预设异常条件;在点击记录数据的异常程度小于等于0.5时,确定异常程度不满足预设异常条件。
当然,预设异常阈值的数值大小还可以根据实际筛选需求进行调整,对此不做限制。
本发明通过确定每个点击序列在所对应广告中的点击完成度,能够契合正常用户倾向于点击完整广告的点击逻辑特征,提升点击完成度的客观性,内容相似度则可以被用于确定内容标签间的重合率,进一步考虑正常用户在一段时间内倾向于点击相似标签的广告的点击逻辑特征,根据内容相似度准确表征点击逻辑特征,根据时序距离、内容相似度和点击完成度,确定待测数据的点击逻辑特征系数,通过点击逻辑特征系数有效确定点击记录数据的点击逻辑,准确确定点击记录数据中的逻辑异常情况,根据点击逻辑特征系数和相似系数,确定待测数据的异常程度,能够结合在同一时间段中多位用户的点击记录,结合异常点击行为和正常点击行为的特点,进一步对异常点击行为进行检测,提升异常检测的可靠性,根据所有点击记录数据的异常程度对点击记录数据进行筛选,能够有效筛选正常点击数据和异常点击数据,从而能够提升异常识别与筛选的灵敏性,通过点击记录数据自身的点击逻辑特征和与其他点击记录数据的点击逻辑特征进行比较,从而能够更为准确地获得点击记录数据的异常程度,提升异常程度的准确性与可靠性。综上,本发明能够有效提升对异常点击记录筛选的可靠性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (9)
1.一种广告位数据的异常检测与筛选方法,其特征在于,所述方法包括:
获取至少两个用户在预设时间段内点击广告位的点击记录数据,根据广告不同将所述点击记录数据划分为至少一个点击序列,确定每个所述点击序列在所对应广告中的点击完成度;
任选某一用户的点击记录数据作为待测数据,从所述待测数据任选某一点击序列作为第一序列,将所述待测数据中除所述第一序列之外的其他序列作为第二序列,确定所述第一序列分别与每个所述第二序列在广告内容的内容相似度;
将第一序列与每个第二序列分别所对应初始时刻的点击时间的时间间隔作为第一序列与第二序列的时序距离,遍历所述待测数据中所有所述点击序列,根据所述时序距离、所述内容相似度和所述点击完成度,确定所述待测数据的点击逻辑特征系数;
根据所述待测数据与其他用户的点击记录数据的点击记录差异确定所述待测数据的相似系数,根据所述点击逻辑特征系数和所述相似系数,确定所述待测数据的异常程度;根据所有所述点击记录数据的异常程度对所述点击记录数据进行筛选,得到正常点击数据和异常点击数据。
2.如权利要求1所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述确定所述第一序列分别与每个所述第二序列在广告内容的内容相似度,包括:
确定所述第一序列所对应广告的第一内容标签,确定任一所述第二序列所对应广告的第二内容标签,其中,每个广告至少对应一个内容标签;
将相同的所述第一内容标签和所述第二内容标签作为相同标签,确定所述第一内容标签的数量和所述第二内容标签的数量的和值为总标签数量;
计算所述相同标签的数量与总标签数量的比值作为所述第一序列与所述第二序列的内容相似度,由此,遍历所有所述第二序列,得到所述第一序列分别与每个所述第二序列的内容相似度。
3.如权利要求1所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述遍历所述待测数据中所有所述点击序列,根据所述时序距离、所述内容相似度和所述点击完成度,确定所述待测数据的点击逻辑特征系数,包括:
对所述时序距离进行反比例的归一化处理得到所述第一序列和所述第二序列的时序距离系数;
计算所述时序距离系数和所述内容相似度的乘积作为所述第一序列和所述第二序列的第一特征因子;
将所述第一序列分别与所有所述第二序列的所述第一特征因子的和值作为所述第一序列的时序特征系数;
计算所述第一序列的时序特征系数和所述点击完成度的乘积作为正常程度系数;
遍历所述待测数据中的所有第一序列,计算所有所述正常程度系数的均值的反比例归一化值作为所述待测数据的点击逻辑特征系数。
4.如权利要求1所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述根据所述待测数据与其他用户的点击记录数据的点击记录差异确定所述待测数据的相似系数,包括:
根据所述待测数据与其他用户的点击记录数据在点击相同广告时的点击次序,确定所述待测数据的点击次序系数;
获取所述待测数据在初次点击记录时所对应待测点击时间,获取其他用户的点击记录数据在初次点击记录时所对应其他点击时间;
分别计算所述待测点击时间与其他点击时间的时间间隔作为初始时间间隔,遍历所有所述其他点击时间,将所有所述初始时间间隔的和值的反比例归一化值作为所述待测数据的点击间隔系数;
计算所述点击次序系数和所述点击间隔系数的乘积作为待测数据的相似系数。
5.如权利要求4所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述根据所述待测数据与其他用户的点击记录数据在点击相同广告时的点击次序,确定所述待测数据的点击次序系数,包括:
任选某一其他用户的点击记录数据作为参考数据,将所述待测数据中的点击次数和所述参考数据中的点击次数的最小值作为最小点击次数,其中,所述最小点击次数至少为1次,对所述最小点击次数下所对应的点击记录进行排序,得到点击次序;
确定待测数据与参考数据在相同点击次序下点击相同广告所对应的点击时间间隔为点击时间差异,在最小点击次数之内,计算所有所述点击时间差异的和值作为总时间差异;
遍历所有所述其他用户的点击记录数据,将得到的所有所述总时间差异的和值的反比例归一化值作为所述待测数据的点击次序系数。
6.如权利要求1所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述根据所述点击逻辑特征系数和所述相似系数,确定所述待测数据的异常程度,包括:
计算预设第一权值和所述点击逻辑特征系数的乘积作为第一异常影响因子;
计算预设第二权值和所述相似系数的乘积作为第二异常影响因子;
计算所述第一异常影响因子和所述第二异常影响因子的和值归一化值作为所述待测数据的异常程度。
7.如权利要求1所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述根据所有所述点击记录数据的异常程度对所述点击记录数据进行筛选,得到正常点击数据和异常点击数据,包括:
确定所述点击记录数据的异常程度是否满足预设异常条件;
在所述点击记录数据的异常程度满足预设异常条件时,确定所述点击记录数据为异常点击数据;
在所述点击记录数据的异常程度不满足预设异常条件时,确定所述点击记录数据为正常点击数据。
8.如权利要求7所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述确定所述点击记录数据的异常程度是否满足预设异常条件,包括:
在所述点击记录数据的异常程度大于预设异常阈值时,确定所述异常程度满足预设异常条件;
在所述点击记录数据的异常程度小于等于预设异常阈值时,确定所述异常程度不满足预设异常条件。
9.如权利要求1所述的一种广告位数据的异常检测与筛选方法,其特征在于,所述确定每个所述点击序列在所对应广告中的点击完成度,包括:
分别获取每个广告的预设待点击次数,计算所述点击序列中的点击次数与对应广告的预设待点击次数的比值作为所述点击完成度,其中,所述预设待点击次数至少为1次。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310339774.6A CN116051185B (zh) | 2023-04-03 | 2023-04-03 | 广告位数据的异常检测与筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310339774.6A CN116051185B (zh) | 2023-04-03 | 2023-04-03 | 广告位数据的异常检测与筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116051185A true CN116051185A (zh) | 2023-05-02 |
CN116051185B CN116051185B (zh) | 2023-06-09 |
Family
ID=86122133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310339774.6A Active CN116051185B (zh) | 2023-04-03 | 2023-04-03 | 广告位数据的异常检测与筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116051185B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116539831A (zh) * | 2023-06-26 | 2023-08-04 | 中交天航环保工程有限公司 | 一种基于大数据分析水环境数据监测处理方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010085773A1 (en) * | 2009-01-24 | 2010-07-29 | Kontera Technologies, Inc. | Hybrid contextual advertising and related content analysis and display techniques |
CN107330731A (zh) * | 2017-06-30 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 一种识别广告位点击异常的方法和装置 |
CN111163065A (zh) * | 2019-12-13 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 异常用户检测方法及装置 |
CN111401976A (zh) * | 2020-06-08 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种异常行为检测方法、装置、设备及存储介质 |
CN112488765A (zh) * | 2020-12-08 | 2021-03-12 | 深圳市欢太科技有限公司 | 广告反作弊方法、广告反作弊装置、电子设备及存储介质 |
CN113570398A (zh) * | 2021-02-02 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 推广数据处理方法、模型训练方法、系统和存储介质 |
CN115311022A (zh) * | 2022-08-25 | 2022-11-08 | 深圳掌酷软件有限公司 | 一种广告流量识别方法、装置及计算机可读存储介质 |
-
2023
- 2023-04-03 CN CN202310339774.6A patent/CN116051185B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010085773A1 (en) * | 2009-01-24 | 2010-07-29 | Kontera Technologies, Inc. | Hybrid contextual advertising and related content analysis and display techniques |
CN107330731A (zh) * | 2017-06-30 | 2017-11-07 | 北京京东尚科信息技术有限公司 | 一种识别广告位点击异常的方法和装置 |
CN111163065A (zh) * | 2019-12-13 | 2020-05-15 | 国家计算机网络与信息安全管理中心 | 异常用户检测方法及装置 |
CN111401976A (zh) * | 2020-06-08 | 2020-07-10 | 腾讯科技(深圳)有限公司 | 一种异常行为检测方法、装置、设备及存储介质 |
CN112488765A (zh) * | 2020-12-08 | 2021-03-12 | 深圳市欢太科技有限公司 | 广告反作弊方法、广告反作弊装置、电子设备及存储介质 |
CN113570398A (zh) * | 2021-02-02 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 推广数据处理方法、模型训练方法、系统和存储介质 |
CN115311022A (zh) * | 2022-08-25 | 2022-11-08 | 深圳掌酷软件有限公司 | 一种广告流量识别方法、装置及计算机可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116539831A (zh) * | 2023-06-26 | 2023-08-04 | 中交天航环保工程有限公司 | 一种基于大数据分析水环境数据监测处理方法 |
CN116539831B (zh) * | 2023-06-26 | 2023-12-05 | 中交天航环保工程有限公司 | 一种基于大数据分析水环境数据监测处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116051185B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110113226B (zh) | 一种检测设备异常的方法及装置 | |
CN110634080B (zh) | 异常用电检测方法、装置、设备及计算机可读存储介质 | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
CN102667775B (zh) | 训练和使用具有关联规则模型的分类模型的方法 | |
CN116051185B (zh) | 广告位数据的异常检测与筛选方法 | |
CN111262854A (zh) | 互联网反作弊行为方法、装置、设备和可读存储介质 | |
CN104239722A (zh) | 一种基于因素间相关关系识别的预测方法 | |
CN117634932B (zh) | 一种智能手表生产测试用平台的管理系统 | |
CN118211882B (zh) | 一种基于大数据的产品质量管理系统及方法 | |
CN113468034A (zh) | 数据质量评估方法、装置、存储介质和电子设备 | |
CN115617784A (zh) | 一种信息化配电的数据处理系统及其处理方法 | |
CN113947504B (zh) | 一种基于随机森林法的窃电分析方法及其系统 | |
CN109165665A (zh) | 一种类别分析方法及系统 | |
CN111767938A (zh) | 一种异常数据检测方法、装置及电子设备 | |
CN118200950A (zh) | 一种电信基站的巡检方法及系统 | |
CN116720118A (zh) | 标签质量智能分析方法、装置、电子设备及存储介质 | |
CN112732773B (zh) | 一种继电保护缺陷数据的唯一性校核方法及系统 | |
CN115713345A (zh) | 变量筛选方法、装置、非易失性存储介质及处理器 | |
CN114511409B (zh) | 用户样本处理方法、装置及电子设备 | |
CN113393169B (zh) | 基于大数据技术的金融行业交易系统性能指标分析方法 | |
CN116308416A (zh) | 一种空壳企业识别方法及系统 | |
CN114090562A (zh) | 一种电力营销数据的清洗方法及装置 | |
CN105719098A (zh) | 企业利润敏感方案的检测方法及系统 | |
CN111798237A (zh) | 基于应用日志的异常交易诊断方法及系统 | |
CN111488284A (zh) | 一种用于OpenStack云平台的模拟操作主动检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |