CN102663065A - 一种广告位异常数据识别和筛选方法 - Google Patents

一种广告位异常数据识别和筛选方法 Download PDF

Info

Publication number
CN102663065A
CN102663065A CN2012100919322A CN201210091932A CN102663065A CN 102663065 A CN102663065 A CN 102663065A CN 2012100919322 A CN2012100919322 A CN 2012100919322A CN 201210091932 A CN201210091932 A CN 201210091932A CN 102663065 A CN102663065 A CN 102663065A
Authority
CN
China
Prior art keywords
advertisement position
standard
advertisement
advertising positions
advertising
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100919322A
Other languages
English (en)
Other versions
CN102663065B (zh
Inventor
李嘉骅
曹晓波
田宁
谭磊
刘崟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Panshi Information Technology Co., Ltd.
Original Assignee
ZHEJIANG PANSHI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHEJIANG PANSHI INFORMATION TECHNOLOGY Co Ltd filed Critical ZHEJIANG PANSHI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201210091932.2A priority Critical patent/CN102663065B/zh
Publication of CN102663065A publication Critical patent/CN102663065A/zh
Application granted granted Critical
Publication of CN102663065B publication Critical patent/CN102663065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种广告位异常数据识别和筛选方法,包括如下步骤:S10:设置广告位量化评估指标;S11:处理并存储广告位量化评估值;S12:对广告位进行聚类,根据聚类结果得到可参照标准广告位;计算实际广告位与标准广告位的相似性,以最短距离找到实际广告位所属的标准广告位;S13:以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。本发明依据聚类算法进行各广告位分类,避免按行业或其它人工分类方式带来的主观性,分类内广告位相似度最高,使用的距离计算方法对定性定量指标均能处理,且于量纲无关,广告位偏差计算以分位数为依据,能有效避免极端值对分类产生影响。

Description

一种广告位异常数据识别和筛选方法
技术领域
本发明属于互联网联盟广告技术领域,涉及一种广告位异常数据识别和筛选方法。
背景技术
随着互联网技术的不断发展,互联网广告市场规模发展迅猛,在广告业中占据着越加重要的位置。网站联盟作为互联网广告中最为重要的形式之一,因为其覆盖面广、精准度高和实时灵活性而备受关注。
互联网广告是依托于互联网产生的新兴广告形式,随着互联网的快速发展和网民数量的迅速攀升,互联网广告的覆盖面和影响力日益提高,互联网广告模式也在不断变化。其从最初的门户网站广告,搜索关键词广告,逐步发展到最新的网盟广告模式。网盟广告模式是广告代理商采集媒体网站,把互联网上成千上万的中小网站流量汇聚起来,利用地域定向、人群定向、行为定向等最新的营销技术手段,把广告精准投向目标客户,以最低的成本实现最优广告投放效果,同时广告费在网站主和代理商之间按比例进行分配,实现了广告主、代理商、网站主三方利益共赢。
在网盟广告模式中,对媒体网站广告位的监测和管理具有十分重要的意义。因为存在网络中断、系统运行故障、恶意点击等各种因素会对广告位的数据产生影响,影响网盟系统的正常运行,给广告代理商和网站主带来损失。
故,实有必要进行研究,提供一种对广告位异常数据识别和筛选的方法,检测出可能存在异常的广告位,辅助系统运维人员及时发现问题。
发明内容
为解决上述问题,本发明的目的在于提供一种广告位异常数据识别和筛选方法。
为实现上述目的,本发明的技术方案为:
一种广告位异常数据识别和筛选方法,包括如下步骤:
S10:设置广告位量化评估指标;
S11:提供一存储单元,以存储广告位量化评估值;
S12:提供一计算单元,以对广告位进行聚类,根据聚类结果得到可参照标准广告位;计算实际广告位与标准广告位的相似性,以最短距离找到实际广告位所属的标准广告位;
S13:提供一筛选和排序单元,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。
进一步地,在步骤S10中,具体包括:
在媒体网站上放置监控代码,捕获评估信息;然后,根据所获取的评估信息,构造一组广告位量化评估体系AdV,指标集I={I1,I2Λ,Ij,Λ,In},Ij(1≤j≤n),其中,n是评估指标的个数,ad.Ij是广告位在Ij指标下的数值。
进一步地,所述评估信息包括有广告位流量、点击量、点击单价、展示时间。
进一步地,在步骤S11中,包括有如下步骤:
设置一预处理单元,从监控系统生成的原始日志文件中提取评估信息,对数据进行清洗后存入存储单元;
设置一赋值单元,对存储于存储单元中的所有广告位评估信息数据赋于权重值。
进一步地,在步骤S12中,包括有如下步骤:
按行业划分广告位,以各行业广告位均值作为初始标准广告位,adc1,adc2,...,adck,其中,k为行业个数,而
Figure BDA0000148995980000031
m是第i个广告位所属行业的广告位总数;
计算各个广告位到初始标准广告位adci的距离D={d1,d2,Λ,dn}。
进一步地,在步骤S13,包括有如下步骤:
对最终的标准广告位分类计算各分类下的转化率分位数
Figure BDA0000148995980000032
其中,
Figure BDA0000148995980000033
代表第i类广告位的p分位数,
Figure BDA0000148995980000034
ix=[(m+1)×p];λ=(m+1)×p-ix,m为第i个广告位所属分类下广告的个数;
取广告位最邻近的标准广告位的
Figure BDA0000148995980000035
作为标准转化率上下限,计算每个广告位估计值和实际值的差距,其中, AVD i = PV i × MAX ( | R ‾ i 10 % - R i | , | R ‾ i 90 % - R i | ) × P i ; 根据AVD值对所有广告位进行降序排序。
本发明依据可监测到的广告位评估指标,对广告位进行聚类得到标准广告位,然后根据广告位与标准广告位的相似度对广告位进行判别,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。依据聚类算法进行各广告位分类,避免按行业划分带来的主观性,分类内广告位相似度最高,广告位偏差计算以分位数为依据,能有效避免极端值对标准分类产生影响。本发明具有一定灵活性,距离权重和分位数上下限均可根据实际情况进行调整,方便检测出可能存在异常的广告位,辅助系统运维人员及时准确发现问题。
附图说明
图1是本发明的总体流程图示。
图2是本发明的方法步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参照图1、图2所示,本发明广告位异常数据识别和筛选方法包括有如下步骤:
S10:设置广告位量化评估指标;
首先,在媒体网站上放置监控代码,捕获广告位流量、点击量、点击单价、展示时间等评估信息;然后,根据所获取的评估信息,构造一组广告位量化评估指标I={I1,I2Λ,Ij,Λ,In},Ij(1≤j≤n),其中,n是评估指标的个数,ad.Ij是广告位在Ij指标下的数值。
S11:提供一存储单元,以存储广告位量化评估值;
该储存单元用于存放广告位在量化评估指标下的评估值,其中Ad_set={ad1,ad2,Λ,adm}表示监控的所有广告位集合,每个广告位adj(1≤j≤m)都在指标集I下评估得到对应的ad.Ij值;
设置一赋值单元,对存储于存储单元中的所有广告位评估数据赋于权重值。其中,权重集为W={w1,Λ,wj,Λ,wn},wj(1≤j≤n)为标准Ij的权值。
S12:提供一计算单元,以对广告位进行聚类,根据聚类结果得到可参照标准广告位;计算实际广告位与标准广告位的相似性,以最短距离找到实际广告位所属的标准广告位。
通过计算单元,结合储存单元对广告位进行划分,进而计算各广告位归属;首先按行业划分广告位,以各行业广告位均值作为初始标准广告位,adc1,adc2,...,adck,其中,k为行业个数,而
Figure BDA0000148995980000051
m是第i个广告位所属行业的广告位总数。计算各个广告位到初始标准广告位adci的距离D={d1,d2,Λ,dn},对于定量指标xit,按兰氏加权距离计算,对定性指标按布尔值计算:
D ik = Σ t = 1 m 1 | x it - x kt | ( x it + x kt ) × w t + Σ i = m 1 m b t ( i , j ) × w t , 其中:
Di,k是第i个广告位到第k个标准广告位的距离;bt(i,j)为第t项指标下i,j广告位评估布尔值,两者相同为0,不同为1。
比较各广告位到标准广告位的距离,以最短距离把广告位划归到各分类下得到第一次广告位聚类结果,以新分类下各广告位的均值计算新的标准广告位adc1*,adc2*,...,adck*;再计算新标准广告位adc1*,adc2*,...,adck*和原标准广告位adc1,adc2,...,adck的差异,如果差异小于零界值停止计算,否则继续计算各广告位到新的标准广告位距离Di,k*并再次进行聚类。经过1~N次计算直到迭代终止,得到最终的标准广告位分类adc1′,adc2′,...,adck′。
S13:提供一筛选和排序单元,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。
首先,对最终的标准广告位分类计算各分类下的转化率分位数
Figure BDA0000148995980000053
代表第i个广告位的p分位数,计算公式如下:
R ‾ i p = ( 1 - λ ) R ix + λ R ix + 1
ix=[(m+1)×p]
其中,λ=(m+1)×p-ix,m是第i个广告位所属分类下广告的个数。
然后,取广告位最邻近的标准广告位的
Figure BDA0000148995980000055
作为标准转化率上下限,计算每个广告位估计值和实际值的差距,其中,
AVD i = PV i × MAX ( | R ‾ i 10 % - R i | , | R ‾ i 90 % - R i | ) × P i
根据AVD值对所有广告位进行降序排序,AVD偏差越大说明该广告位可能存在异常。
本发明依据可监测到的广告位评估指标,对广告位进行聚类得到标准广告位,然后根据广告位与标准广告位的相似度对广告位进行判别,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。依据聚类算法进行各广告位分类,避免按行业划分带来的主观性,分类内广告位相似度最高。距离计算方法对定量定性指标均能处理,且定量指量采用兰氏距离计算,克服欧氏距离各指标与量纲有关的缺点。广告位偏差采用以分位数上下限为依据计算,能有效避免极端值对分类产生影响。且该方法具有一定灵活性,可以根据实际情况调整量化评估指标的权重值和分位数上下限。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种广告位异常数据识别和筛选方法,其特征在于,包括如下步骤:
S10:设置广告位量化评估指标;
S11:提供一存储单元,以存储广告位量化评估值;
S12:提供一计算单元,以对广告位进行聚类,根据聚类结果得到可参照标准广告位;计算实际广告位与标准广告位的相似性,以最短距离找到实际广告位所属的标准广告位;
S13:提供一筛选和排序单元,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。
2.如权利要求1所述广告位异常数据识别和筛选方法,其特征在于,在步骤S10中,具体包括:
在媒体网站上放置监控代码,捕获评估信息;然后,根据所获取的评估信息,构造一组广告位量化评估体系AdV,指标集I={I1,I2Λ,Ij,Λ,In},Ij(1≤j≤n),其中,n是评估指标的个数,ad.Ij是广告位在Ij指标下的数值。
3.如权利要求2所述广告位异常数据识别和筛选方法,其特征在于:所述评估信息包括有广告位流量、点击量、点击单价、展示时间。
4.如权利要求3所述广告位异常数据识别和筛选方法,其特征在于,在步骤S11中,包括有如下步骤:
设置一预处理单元,从监控系统生成的原始日志文件中提取信息,对数据进行清洗后存入存储单元;
设置一赋值单元,对存储于存储单元中的所有广告位评估信息数据赋于权重值。
5.如权利要求4所述广告位异常数据识别和筛选方法,其特征在于,在步骤S12中,包括有如下步骤:
按行业划分广告位,以各行业广告位均值作为初始标准广告位,adc1,adc2,...,adck,其中,k为行业个数,而
Figure FDA0000148995970000021
m是第i个广告位所属行业的广告位总数;
计算各个广告位到初始标准广告位adci的距离D={d1,d2,Λ,dn}。
6.如权利要求5所述广告位异常数据识别和筛选方法,其特征在于,在步骤S13,包括有如下步骤:
对最终的标准广告位分类计算各分类下的转化率分位数其中,代表第i类广告位的p分位数,
Figure FDA0000148995970000024
ix=[(m+1)×p];λ=(m+1)×p-ix,m为第i个广告位所属分类下广告的个数;
取广告位最邻近的标准广告位的
Figure FDA0000148995970000025
作为标准转化率上下限,计算每个广告位估计值和实际值的差距,其中, AVD i = PV i × MAX ( | R ‾ i 10 % - R i | , | R ‾ i 90 % - R i | ) × P i ; 根据AVD值对所有广告位进行降序排序。
CN201210091932.2A 2012-03-30 2012-03-30 一种广告位异常数据识别和筛选方法 Active CN102663065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210091932.2A CN102663065B (zh) 2012-03-30 2012-03-30 一种广告位异常数据识别和筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210091932.2A CN102663065B (zh) 2012-03-30 2012-03-30 一种广告位异常数据识别和筛选方法

Publications (2)

Publication Number Publication Date
CN102663065A true CN102663065A (zh) 2012-09-12
CN102663065B CN102663065B (zh) 2014-12-10

Family

ID=46772556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210091932.2A Active CN102663065B (zh) 2012-03-30 2012-03-30 一种广告位异常数据识别和筛选方法

Country Status (1)

Country Link
CN (1) CN102663065B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103869053A (zh) * 2014-03-24 2014-06-18 焦振志 区域地球化学调查样品分析异常点抽检方法
CN104657879A (zh) * 2013-11-19 2015-05-27 雅虎公司 基于用户参与的根据上下文的用于无保障递送的自动定价
CN106097000A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 一种信息处理方法及服务器
CN106407467A (zh) * 2016-10-21 2017-02-15 合网络技术(北京)有限公司 评估网站资源位的方法和装置
CN106934654A (zh) * 2017-02-10 2017-07-07 北京小度信息科技有限公司 评估流量的方法、装置和确定价值的方法、装置
CN107729489A (zh) * 2017-10-17 2018-02-23 北京京东尚科信息技术有限公司 广告文本识别方法和装置
CN114722081A (zh) * 2022-06-09 2022-07-08 杭银消费金融股份有限公司 一种基于中转库模式的流式数据时间序列传输方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101385018A (zh) * 2005-12-30 2009-03-11 谷歌公司 使用估计的广告质量来进行广告过滤、排名和提升
CN102096692A (zh) * 2009-12-11 2011-06-15 阿里巴巴集团控股有限公司 网站访客价值评估系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101385018A (zh) * 2005-12-30 2009-03-11 谷歌公司 使用估计的广告质量来进行广告过滤、排名和提升
CN102096692A (zh) * 2009-12-11 2011-06-15 阿里巴巴集团控股有限公司 网站访客价值评估系统及方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104657879A (zh) * 2013-11-19 2015-05-27 雅虎公司 基于用户参与的根据上下文的用于无保障递送的自动定价
US10134053B2 (en) 2013-11-19 2018-11-20 Excalibur Ip, Llc User engagement-based contextually-dependent automated pricing for non-guaranteed delivery
CN103869053A (zh) * 2014-03-24 2014-06-18 焦振志 区域地球化学调查样品分析异常点抽检方法
CN103869053B (zh) * 2014-03-24 2015-07-15 焦振志 区域地球化学调查样品分析异常点抽检方法
CN106097000A (zh) * 2016-06-02 2016-11-09 腾讯科技(深圳)有限公司 一种信息处理方法及服务器
CN106097000B (zh) * 2016-06-02 2022-07-26 腾讯科技(深圳)有限公司 一种信息处理方法及服务器
US11373205B2 (en) 2016-06-02 2022-06-28 Tencent Technology (Shenzhen) Company Limited Identifying and punishing cheating terminals that generate inflated hit rates
CN106407467A (zh) * 2016-10-21 2017-02-15 合网络技术(北京)有限公司 评估网站资源位的方法和装置
CN106407467B (zh) * 2016-10-21 2019-11-08 合一网络技术(北京)有限公司 评估网站资源位的方法和装置
CN106934654B (zh) * 2017-02-10 2021-01-12 北京星选科技有限公司 评估流量和确定价值的方法、装置以及移动终端
CN106934654A (zh) * 2017-02-10 2017-07-07 北京小度信息科技有限公司 评估流量的方法、装置和确定价值的方法、装置
CN107729489A (zh) * 2017-10-17 2018-02-23 北京京东尚科信息技术有限公司 广告文本识别方法和装置
CN114722081A (zh) * 2022-06-09 2022-07-08 杭银消费金融股份有限公司 一种基于中转库模式的流式数据时间序列传输方法及系统
CN114722081B (zh) * 2022-06-09 2022-09-02 杭银消费金融股份有限公司 一种基于中转库模式的流式数据时间序列传输方法及系统

Also Published As

Publication number Publication date
CN102663065B (zh) 2014-12-10

Similar Documents

Publication Publication Date Title
CN102663065B (zh) 一种广告位异常数据识别和筛选方法
US11238473B2 (en) Inferring consumer affinities based on shopping behaviors with unsupervised machine learning models
US10423973B2 (en) Analyzing consumer behavior based on location visitation
US8996033B1 (en) Systems and methods for statistically associating mobile devices to households
US10262330B2 (en) Location-based analytic platform and methods
Altuntas et al. Analysis of patent documents with weighted association rules
US20160019465A1 (en) Analyzing Mobile-Device Location Histories To Characterize Consumer Behavior
CN103430196A (zh) 销售预测和推荐系统
US11669910B2 (en) Multi-platform data processing system
CN103136696A (zh) 媒体投放管理方法及其系统
KR101703529B1 (ko) 시장 분석 서비스 제공 방법
CN103578010A (zh) 生成流量质量比较参数的方法和装置、广告计费方法
CN108846691A (zh) 区域性粮油市场价格监测分析预测系统及监测方法
Wang et al. Predicting ENR construction cost index using machine-learning algorithms
US20180101797A1 (en) Systems and methods for improving sales process workflow
TW202139098A (zh) 消費預測系統及消費預測方法
US20240086726A1 (en) Systems and methods for big data analytics
CN110955690A (zh) 一种基于大数据技术的自助数据标签平台及自助数据标签方法
CN108572988A (zh) 一种房产评估数据生成方法和装置
Mao et al. Measuring spatial accessibility of urban fire services using historical fire incidents in nanjing, china
CN115860800A (zh) 一种节假日商品销量预测方法、装置及计算机存储介质
CN105447117A (zh) 一种用户聚类的方法和装置
Elena News sentiment in bankruptcy prediction models: Evidence from Russian retail companies
CN115049429A (zh) 增益预测方法、装置和计算机设备
CN103886473A (zh) 一种确定网络交易物品提供方的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: ZHEJIANG PANSHI INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER NAME: ZHEJIANG PANSHI INFORMATION TECHNOLOGY LTD.

CP01 Change in the name or title of a patent holder

Address after: 310011, No. 45, Cheung Road, C District, Hangzhou Software Park, Gongshu District, Zhejiang

Patentee after: Zhejiang Panshi Information Technology Co., Ltd.

Address before: 310011, No. 45, Cheung Road, C District, Hangzhou Software Park, Gongshu District, Zhejiang

Patentee before: Zhejiang Panshi Information Technology Co., Ltd.