CN102663065A - 一种广告位异常数据识别和筛选方法 - Google Patents
一种广告位异常数据识别和筛选方法 Download PDFInfo
- Publication number
- CN102663065A CN102663065A CN2012100919322A CN201210091932A CN102663065A CN 102663065 A CN102663065 A CN 102663065A CN 2012100919322 A CN2012100919322 A CN 2012100919322A CN 201210091932 A CN201210091932 A CN 201210091932A CN 102663065 A CN102663065 A CN 102663065A
- Authority
- CN
- China
- Prior art keywords
- advertisement position
- standard
- advertisement
- advertising positions
- advertising
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种广告位异常数据识别和筛选方法,包括如下步骤:S10:设置广告位量化评估指标;S11:处理并存储广告位量化评估值;S12:对广告位进行聚类,根据聚类结果得到可参照标准广告位;计算实际广告位与标准广告位的相似性,以最短距离找到实际广告位所属的标准广告位;S13:以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。本发明依据聚类算法进行各广告位分类,避免按行业或其它人工分类方式带来的主观性,分类内广告位相似度最高,使用的距离计算方法对定性定量指标均能处理,且于量纲无关,广告位偏差计算以分位数为依据,能有效避免极端值对分类产生影响。
Description
技术领域
本发明属于互联网联盟广告技术领域,涉及一种广告位异常数据识别和筛选方法。
背景技术
随着互联网技术的不断发展,互联网广告市场规模发展迅猛,在广告业中占据着越加重要的位置。网站联盟作为互联网广告中最为重要的形式之一,因为其覆盖面广、精准度高和实时灵活性而备受关注。
互联网广告是依托于互联网产生的新兴广告形式,随着互联网的快速发展和网民数量的迅速攀升,互联网广告的覆盖面和影响力日益提高,互联网广告模式也在不断变化。其从最初的门户网站广告,搜索关键词广告,逐步发展到最新的网盟广告模式。网盟广告模式是广告代理商采集媒体网站,把互联网上成千上万的中小网站流量汇聚起来,利用地域定向、人群定向、行为定向等最新的营销技术手段,把广告精准投向目标客户,以最低的成本实现最优广告投放效果,同时广告费在网站主和代理商之间按比例进行分配,实现了广告主、代理商、网站主三方利益共赢。
在网盟广告模式中,对媒体网站广告位的监测和管理具有十分重要的意义。因为存在网络中断、系统运行故障、恶意点击等各种因素会对广告位的数据产生影响,影响网盟系统的正常运行,给广告代理商和网站主带来损失。
故,实有必要进行研究,提供一种对广告位异常数据识别和筛选的方法,检测出可能存在异常的广告位,辅助系统运维人员及时发现问题。
发明内容
为解决上述问题,本发明的目的在于提供一种广告位异常数据识别和筛选方法。
为实现上述目的,本发明的技术方案为:
一种广告位异常数据识别和筛选方法,包括如下步骤:
S10:设置广告位量化评估指标;
S11:提供一存储单元,以存储广告位量化评估值;
S12:提供一计算单元,以对广告位进行聚类,根据聚类结果得到可参照标准广告位;计算实际广告位与标准广告位的相似性,以最短距离找到实际广告位所属的标准广告位;
S13:提供一筛选和排序单元,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。
进一步地,在步骤S10中,具体包括:
在媒体网站上放置监控代码,捕获评估信息;然后,根据所获取的评估信息,构造一组广告位量化评估体系AdV,指标集I={I1,I2Λ,Ij,Λ,In},Ij(1≤j≤n),其中,n是评估指标的个数,ad.Ij是广告位在Ij指标下的数值。
进一步地,所述评估信息包括有广告位流量、点击量、点击单价、展示时间。
进一步地,在步骤S11中,包括有如下步骤:
设置一预处理单元,从监控系统生成的原始日志文件中提取评估信息,对数据进行清洗后存入存储单元;
设置一赋值单元,对存储于存储单元中的所有广告位评估信息数据赋于权重值。
进一步地,在步骤S12中,包括有如下步骤:
计算各个广告位到初始标准广告位adci的距离D={d1,d2,Λ,dn}。
进一步地,在步骤S13,包括有如下步骤:
本发明依据可监测到的广告位评估指标,对广告位进行聚类得到标准广告位,然后根据广告位与标准广告位的相似度对广告位进行判别,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。依据聚类算法进行各广告位分类,避免按行业划分带来的主观性,分类内广告位相似度最高,广告位偏差计算以分位数为依据,能有效避免极端值对标准分类产生影响。本发明具有一定灵活性,距离权重和分位数上下限均可根据实际情况进行调整,方便检测出可能存在异常的广告位,辅助系统运维人员及时准确发现问题。
附图说明
图1是本发明的总体流程图示。
图2是本发明的方法步骤流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参照图1、图2所示,本发明广告位异常数据识别和筛选方法包括有如下步骤:
S10:设置广告位量化评估指标;
首先,在媒体网站上放置监控代码,捕获广告位流量、点击量、点击单价、展示时间等评估信息;然后,根据所获取的评估信息,构造一组广告位量化评估指标I={I1,I2Λ,Ij,Λ,In},Ij(1≤j≤n),其中,n是评估指标的个数,ad.Ij是广告位在Ij指标下的数值。
S11:提供一存储单元,以存储广告位量化评估值;
该储存单元用于存放广告位在量化评估指标下的评估值,其中Ad_set={ad1,ad2,Λ,adm}表示监控的所有广告位集合,每个广告位adj(1≤j≤m)都在指标集I下评估得到对应的ad.Ij值;
设置一赋值单元,对存储于存储单元中的所有广告位评估数据赋于权重值。其中,权重集为W={w1,Λ,wj,Λ,wn},wj(1≤j≤n)为标准Ij的权值。
S12:提供一计算单元,以对广告位进行聚类,根据聚类结果得到可参照标准广告位;计算实际广告位与标准广告位的相似性,以最短距离找到实际广告位所属的标准广告位。
通过计算单元,结合储存单元对广告位进行划分,进而计算各广告位归属;首先按行业划分广告位,以各行业广告位均值作为初始标准广告位,adc1,adc2,...,adck,其中,k为行业个数,而m是第i个广告位所属行业的广告位总数。计算各个广告位到初始标准广告位adci的距离D={d1,d2,Λ,dn},对于定量指标xit,按兰氏加权距离计算,对定性指标按布尔值计算:
Di,k是第i个广告位到第k个标准广告位的距离;bt(i,j)为第t项指标下i,j广告位评估布尔值,两者相同为0,不同为1。
比较各广告位到标准广告位的距离,以最短距离把广告位划归到各分类下得到第一次广告位聚类结果,以新分类下各广告位的均值计算新的标准广告位adc1*,adc2*,...,adck*;再计算新标准广告位adc1*,adc2*,...,adck*和原标准广告位adc1,adc2,...,adck的差异,如果差异小于零界值停止计算,否则继续计算各广告位到新的标准广告位距离Di,k*并再次进行聚类。经过1~N次计算直到迭代终止,得到最终的标准广告位分类adc1′,adc2′,...,adck′。
S13:提供一筛选和排序单元,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。
ix=[(m+1)×p]
其中,λ=(m+1)×p-ix,m是第i个广告位所属分类下广告的个数。
根据AVD值对所有广告位进行降序排序,AVD偏差越大说明该广告位可能存在异常。
本发明依据可监测到的广告位评估指标,对广告位进行聚类得到标准广告位,然后根据广告位与标准广告位的相似度对广告位进行判别,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。依据聚类算法进行各广告位分类,避免按行业划分带来的主观性,分类内广告位相似度最高。距离计算方法对定量定性指标均能处理,且定量指量采用兰氏距离计算,克服欧氏距离各指标与量纲有关的缺点。广告位偏差采用以分位数上下限为依据计算,能有效避免极端值对分类产生影响。且该方法具有一定灵活性,可以根据实际情况调整量化评估指标的权重值和分位数上下限。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种广告位异常数据识别和筛选方法,其特征在于,包括如下步骤:
S10:设置广告位量化评估指标;
S11:提供一存储单元,以存储广告位量化评估值;
S12:提供一计算单元,以对广告位进行聚类,根据聚类结果得到可参照标准广告位;计算实际广告位与标准广告位的相似性,以最短距离找到实际广告位所属的标准广告位;
S13:提供一筛选和排序单元,以标准广告位分位数为依据设立上下限并计算各广告位的偏差,按偏差大小进行筛选和排序。
2.如权利要求1所述广告位异常数据识别和筛选方法,其特征在于,在步骤S10中,具体包括:
在媒体网站上放置监控代码,捕获评估信息;然后,根据所获取的评估信息,构造一组广告位量化评估体系AdV,指标集I={I1,I2Λ,Ij,Λ,In},Ij(1≤j≤n),其中,n是评估指标的个数,ad.Ij是广告位在Ij指标下的数值。
3.如权利要求2所述广告位异常数据识别和筛选方法,其特征在于:所述评估信息包括有广告位流量、点击量、点击单价、展示时间。
4.如权利要求3所述广告位异常数据识别和筛选方法,其特征在于,在步骤S11中,包括有如下步骤:
设置一预处理单元,从监控系统生成的原始日志文件中提取信息,对数据进行清洗后存入存储单元;
设置一赋值单元,对存储于存储单元中的所有广告位评估信息数据赋于权重值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210091932.2A CN102663065B (zh) | 2012-03-30 | 2012-03-30 | 一种广告位异常数据识别和筛选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210091932.2A CN102663065B (zh) | 2012-03-30 | 2012-03-30 | 一种广告位异常数据识别和筛选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102663065A true CN102663065A (zh) | 2012-09-12 |
CN102663065B CN102663065B (zh) | 2014-12-10 |
Family
ID=46772556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210091932.2A Active CN102663065B (zh) | 2012-03-30 | 2012-03-30 | 一种广告位异常数据识别和筛选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102663065B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103869053A (zh) * | 2014-03-24 | 2014-06-18 | 焦振志 | 区域地球化学调查样品分析异常点抽检方法 |
CN104657879A (zh) * | 2013-11-19 | 2015-05-27 | 雅虎公司 | 基于用户参与的根据上下文的用于无保障递送的自动定价 |
CN106097000A (zh) * | 2016-06-02 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及服务器 |
CN106407467A (zh) * | 2016-10-21 | 2017-02-15 | 合网络技术(北京)有限公司 | 评估网站资源位的方法和装置 |
CN106934654A (zh) * | 2017-02-10 | 2017-07-07 | 北京小度信息科技有限公司 | 评估流量的方法、装置和确定价值的方法、装置 |
CN107729489A (zh) * | 2017-10-17 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 广告文本识别方法和装置 |
CN114722081A (zh) * | 2022-06-09 | 2022-07-08 | 杭银消费金融股份有限公司 | 一种基于中转库模式的流式数据时间序列传输方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101385018A (zh) * | 2005-12-30 | 2009-03-11 | 谷歌公司 | 使用估计的广告质量来进行广告过滤、排名和提升 |
CN102096692A (zh) * | 2009-12-11 | 2011-06-15 | 阿里巴巴集团控股有限公司 | 网站访客价值评估系统及方法 |
-
2012
- 2012-03-30 CN CN201210091932.2A patent/CN102663065B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101385018A (zh) * | 2005-12-30 | 2009-03-11 | 谷歌公司 | 使用估计的广告质量来进行广告过滤、排名和提升 |
CN102096692A (zh) * | 2009-12-11 | 2011-06-15 | 阿里巴巴集团控股有限公司 | 网站访客价值评估系统及方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657879A (zh) * | 2013-11-19 | 2015-05-27 | 雅虎公司 | 基于用户参与的根据上下文的用于无保障递送的自动定价 |
US10134053B2 (en) | 2013-11-19 | 2018-11-20 | Excalibur Ip, Llc | User engagement-based contextually-dependent automated pricing for non-guaranteed delivery |
CN103869053A (zh) * | 2014-03-24 | 2014-06-18 | 焦振志 | 区域地球化学调查样品分析异常点抽检方法 |
CN103869053B (zh) * | 2014-03-24 | 2015-07-15 | 焦振志 | 区域地球化学调查样品分析异常点抽检方法 |
CN106097000A (zh) * | 2016-06-02 | 2016-11-09 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及服务器 |
CN106097000B (zh) * | 2016-06-02 | 2022-07-26 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及服务器 |
US11373205B2 (en) | 2016-06-02 | 2022-06-28 | Tencent Technology (Shenzhen) Company Limited | Identifying and punishing cheating terminals that generate inflated hit rates |
CN106407467A (zh) * | 2016-10-21 | 2017-02-15 | 合网络技术(北京)有限公司 | 评估网站资源位的方法和装置 |
CN106407467B (zh) * | 2016-10-21 | 2019-11-08 | 合一网络技术(北京)有限公司 | 评估网站资源位的方法和装置 |
CN106934654B (zh) * | 2017-02-10 | 2021-01-12 | 北京星选科技有限公司 | 评估流量和确定价值的方法、装置以及移动终端 |
CN106934654A (zh) * | 2017-02-10 | 2017-07-07 | 北京小度信息科技有限公司 | 评估流量的方法、装置和确定价值的方法、装置 |
CN107729489A (zh) * | 2017-10-17 | 2018-02-23 | 北京京东尚科信息技术有限公司 | 广告文本识别方法和装置 |
CN114722081A (zh) * | 2022-06-09 | 2022-07-08 | 杭银消费金融股份有限公司 | 一种基于中转库模式的流式数据时间序列传输方法及系统 |
CN114722081B (zh) * | 2022-06-09 | 2022-09-02 | 杭银消费金融股份有限公司 | 一种基于中转库模式的流式数据时间序列传输方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102663065B (zh) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102663065B (zh) | 一种广告位异常数据识别和筛选方法 | |
US11238473B2 (en) | Inferring consumer affinities based on shopping behaviors with unsupervised machine learning models | |
US10423973B2 (en) | Analyzing consumer behavior based on location visitation | |
US8996033B1 (en) | Systems and methods for statistically associating mobile devices to households | |
US10262330B2 (en) | Location-based analytic platform and methods | |
Altuntas et al. | Analysis of patent documents with weighted association rules | |
US20160019465A1 (en) | Analyzing Mobile-Device Location Histories To Characterize Consumer Behavior | |
CN103430196A (zh) | 销售预测和推荐系统 | |
US11669910B2 (en) | Multi-platform data processing system | |
CN103136696A (zh) | 媒体投放管理方法及其系统 | |
KR101703529B1 (ko) | 시장 분석 서비스 제공 방법 | |
CN103578010A (zh) | 生成流量质量比较参数的方法和装置、广告计费方法 | |
CN108846691A (zh) | 区域性粮油市场价格监测分析预测系统及监测方法 | |
Wang et al. | Predicting ENR construction cost index using machine-learning algorithms | |
US20180101797A1 (en) | Systems and methods for improving sales process workflow | |
TW202139098A (zh) | 消費預測系統及消費預測方法 | |
US20240086726A1 (en) | Systems and methods for big data analytics | |
CN110955690A (zh) | 一种基于大数据技术的自助数据标签平台及自助数据标签方法 | |
CN108572988A (zh) | 一种房产评估数据生成方法和装置 | |
Mao et al. | Measuring spatial accessibility of urban fire services using historical fire incidents in nanjing, china | |
CN115860800A (zh) | 一种节假日商品销量预测方法、装置及计算机存储介质 | |
CN105447117A (zh) | 一种用户聚类的方法和装置 | |
Elena | News sentiment in bankruptcy prediction models: Evidence from Russian retail companies | |
CN115049429A (zh) | 增益预测方法、装置和计算机设备 | |
CN103886473A (zh) | 一种确定网络交易物品提供方的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee |
Owner name: ZHEJIANG PANSHI INFORMATION TECHNOLOGY CO., LTD. Free format text: FORMER NAME: ZHEJIANG PANSHI INFORMATION TECHNOLOGY LTD. |
|
CP01 | Change in the name or title of a patent holder |
Address after: 310011, No. 45, Cheung Road, C District, Hangzhou Software Park, Gongshu District, Zhejiang Patentee after: Zhejiang Panshi Information Technology Co., Ltd. Address before: 310011, No. 45, Cheung Road, C District, Hangzhou Software Park, Gongshu District, Zhejiang Patentee before: Zhejiang Panshi Information Technology Co., Ltd. |