CN109697203A - 指标异动分析方法及设备、计算机存储介质、计算机设备 - Google Patents

指标异动分析方法及设备、计算机存储介质、计算机设备 Download PDF

Info

Publication number
CN109697203A
CN109697203A CN201710993258.XA CN201710993258A CN109697203A CN 109697203 A CN109697203 A CN 109697203A CN 201710993258 A CN201710993258 A CN 201710993258A CN 109697203 A CN109697203 A CN 109697203A
Authority
CN
China
Prior art keywords
dimension
index
weight
values
unusual fluctuation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710993258.XA
Other languages
English (en)
Other versions
CN109697203B (zh
Inventor
石瑞超
钟华平
黄浩
李学凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710993258.XA priority Critical patent/CN109697203B/zh
Publication of CN109697203A publication Critical patent/CN109697203A/zh
Application granted granted Critical
Publication of CN109697203B publication Critical patent/CN109697203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0245Surveys

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种指标异动分析方法及设备、计算机存储介质、计算机设备,所述方法包括:确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件;针对所述维度集合中的各个维度,计算所述维度的权重分布,其中,所述维度的权重分布用于表征所述维度中各个维度值对应的权重值;基于各个维度的权重分布,计算所述各个维度的权重;对所述维度集合中的各个维度的权重进行排序,并基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。

Description

指标异动分析方法及设备、计算机存储介质、计算机设备
技术领域
本发明涉及数据分析技术领域,尤其涉及一种指标异动分析方法及设备、计算机存储介质、计算机设备。
背景技术
信息推荐广泛应用于互联网领域,例如通过社交网络推荐文字信息、图片信息、视频信息、音频信息等等。以推荐的信息为广告为例,在广告系统运营过程中,需要时刻关注各种指标,例如:填充率(GFR,Global Fill Rate)、点击率(CTR,Click Through Rate)、千人成本(CPM,Cost Per Mille)、转化成本指标(CVR,Click Value Rate)、投资回报率(ROI,Return On Investment)等等。其中,需要特别关注指标异动的情况,比如一个广告位昨天的CPM为40元,前天的CPM为30元,需要分析昨天比前天变化10元的原因,这样才可以采用对应的手段来恢复广告位的CPM。
对于指标异动问题,由于广告系统异常庞大,影响指标的因素多种多样,当指标出现异动时,运营、产品和开发人员需要逐项去排查可疑因素,指标异动问题的分析效率极低,且难以形成系统的知识库。
发明内容
为解决上述技术问题,本发明实施例提供了一种指标异动分析方法及设备、计算机存储介质、计算机设备。
本发明实施例提供的指标异动分析方法,包括:
确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件;
针对所述维度集合中的各个维度,计算所述维度的权重分布,其中,所述维度的权重分布用于表征所述维度中各个维度值对应的权重值;
基于各个维度的权重分布,计算所述各个维度的权重;
对所述维度集合中的各个维度的权重进行排序,并基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。
本发明实施例中,所述指标包括:第一类指标、第二类指标;其中,所述第一类指标用于表征单一指标,所述第二类指标用于表征复合指标,所述复合指标通过两个以上所述单一指标运算得到;
所述计算所述维度的权重分布,包括:
所述指标为所述第一类指标时,采用第一类算法计算所述维度的权重分布;
所述指标为所述第二类指标时,采用第二类算法计算所述维度的权重分布。
本发明实施例中,所述采用第一类算法计算所述维度的权重分布,包括:
基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,Δyi为维度值i对应的指标变化量,Δy为整个维度对应的指标变化量;
所述采用第二类算法计算所述维度的权重分布,包括:
基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,分别为指标变化前后维度值i对应的占比,分别为指标变化前后维度值i对应的指标值,y1为整个维度指标变化前的值,Δy为整个维度对应的指标变化量。
本发明实施例中,所述基于各个维度的权重分布,计算所述各个维度的权重,包括:
基于以下公式计算所述各个维度的权重:1-cos(w,A)
其中,cos函数用于计算两个分布间的余弦距离,w为维度的权重分布,A为维度对应的占比分布。
本发明实施例中,所述方法还包括:
基于所述维度对应的占比分布,对所述维度的权重进行优化,其中,优化后的各个维度的权重为:1-cos(w,A)/entropy(A)
其中,entropy用于计算分布的信息熵。
本发明实施例中,所述基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因,包括:
选择权重最大的维度作为所述目标维度,将所述目标维度作为所述指标发生异动的原因;
所述方法还包括:输出所述目标维度对应的权重分布,其中,所述目标维度对应的权重分布按照所述目标维度中各个维度值对应的权重进行排序。
本发明实施例提供的指标异动分析设备,包括:
第一确定单元,用于确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件;
第一计算单元,用于针对所述维度集合中的各个维度,计算所述维度的权重分布,其中,所述维度的权重分布用于表征所述维度中各个维度值对应的权重值;
第二计算单元,用于基于各个维度的权重分布,计算所述各个维度的权重;
排序单元,用于对所述维度集合中的各个维度的权重进行排序;
第二确定单元,用于基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。
本发明实施例中,所述指标包括:第一类指标、第二类指标;其中,所述第一类指标用于表征单一指标,所述第二类指标用于表征复合指标,所述复合指标通过两个以上所述单一指标运算得到;
所述第一计算单元,具体用于:所述指标为所述第一类指标时,采用第一类算法计算所述维度的权重分布;所述指标为所述第二类指标时,采用第二类算法计算所述维度的权重分布。
本发明实施例中,所述第一计算单元,具体用于:
所述指标为所述第一类指标时,基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,Δyi为维度值i对应的指标变化量,Δy为整个维度对应的指标变化量;
所述指标为所述第二类指标时,基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,分别为指标变化前后维度值i对应的占比,分别为指标变化前后维度值i对应的指标值,y1为整个维度指标变化前的值,Δy为整个维度对应的指标变化量。
本发明实施例中,所述第二计算单元,具体用于:基于以下公式计算所述各个维度的权重:1-cos(w,A)
其中,cos函数用于计算两个分布间的余弦距离,w为维度的权重分布,A为维度对应的占比分布。
本发明实施例中,所述第二计算单元,还用于:基于所述维度对应的占比分布,对所述维度的权重进行优化,其中,优化后的各个维度的权重为:1-cos(w,A)/entropy(A)
其中,entropy用于计算分布的信息熵。
本发明实施例中,所述第二确定单元,具体用于:选择权重最大的维度作为所述目标维度,将所述目标维度作为所述指标发生异动的原因;
所述设备还包括:输出单元,用于输出所述目标维度对应的权重分布,其中,所述目标维度对应的权重分布按照所述目标维度中各个维度值对应的权重进行排序。
本发明实施例提供的计算机存储介质上存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本发明实施例提供指标异动分析方法。
本发明实施例提供的计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令,其特征在于,所述处理器执行所述计算机可执行指令时实现本发明实施例提供指标异动分析方法。
本发明实施例的技术方案中,确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件;针对所述维度集合中的各个维度,计算所述维度的权重分布,其中,所述维度的权重分布用于表征所述维度中各个维度值对应的权重值;基于各个维度的权重分布,计算所述各个维度的权重;对所述维度集合中的各个维度的权重进行排序,并基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。采用本发明实施例的技术方案,自动对各个维度的数据进行分析,首先计算出各个维度的权重分布,然后计算出各个维度的权重,最后依据各个维度的权重顺序确定出指标发生异动的原因,可见,本发明实施例的方案能够快速速定位到指标异动的原因,提高了指标异动问题的分析效率。
附图说明
图1为本发明实施例的指标异动分析架构图;
图2为本发明实施例的指标异动分析方法的流程示意图一;
图3为本发明实施例的UI界面的示意图;
图4为本发明实施例的指标异动分析方法的流程示意图二;
图5为本发明实施例的指标异动分析设备的结构组成示意图;
图6为本发明实施例的计算机设备的结构组成示意图。
具体实施方式
竞价广告系统具有指标查询平台,指标查询平台用于监控广告系统大盘或不同流量的消耗情况,然而,指标查询平台更多作用是展示数据异常,部分指标查询平台还有预警功能。此外,部分竞价广告系统支持一种分维度的指标异动分析方法,可辅助定位指标异动的原因;然而,分维度的指标异动分析方法虽然可在一定程度上提高分析效率,但仍然需要用户手动选择可能的维度来进行分析,自动化程度较低。
本发明实施例的技术方案,能够在所有可能的原因中自动地查找出最有可能造成指标异动的原因,无需用户干预整个原因定位流程,大大提高了指标异动的分析效率。
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
以下为本发明实施例相关的关键术语的解释说明:
GFR:填充率,即广告普及比率。一般,广告的填充率满足以下公式:广告请求量×填充率=展示数。
CTR:点击率,广告的点击率是广告显示量和广告被点击量的比率。
CPM:广告每投放(也即曝光)一千次人所花费的成本。
CVR:转化成本指标。一般,转化成本指标满足以下公式:转化成本指标=转化量/点击量。
ROI:投资回报率。一般,投资回报率满足以下公式:投资回报率=年利润或年均利润/投资总额。
广告位:广告投放时的具体展示位置。
图1为本发明实施例的指标异动分析架构图,如图1所示,为了提高指标异动分析的效率,搭建了柯南系统。在柯南系统中,具有两大模块,分别为数据层和分析引擎,其中,数据层可通过数据库系统实现,分析引擎可通过具有处理功能的设备(如服务器)来实现。
在柯南系统的架构上,本发明实施例涉及的分析引擎为自动化分析引擎,能够自动对数据层的日志数据进行分析。具体地,柯南系统会事先落地海量的日志数据到数据层中,这里,日志数据的数据源可以是广告系统;而后,在指标出现异常时,用户通过自动化分析引擎得到分析结论;最后,用户确认分析结论的合理性,这里,如果用户认可分析结论不合理,可自行分析并反馈给开发人员调整分析算法和增加相关数据,从而实现分析引擎的自动智能化过程。
上述方案中,自动化分析引擎如何对日志数据进行分析,是本发明实施例的关键所在,假设y表示某个指标,指标异动问题的分析可以形式化表示为:已知Δy,求导致Δy的原因。为了解决这个问题,本发明实施例将导致Δy的原因表示为维度值,具体地,广告系统的指标异动的常见原因有:
某个高CPM的头部广告主减投,导致大盘CPM下降;
某个广告位出现波动,导致广告收入下降;
广告系统上线了某个策略,导致大盘CTR下降;
点击率预估系统出现问题,导致广告收入下降。
本发明实施例需要分析的是日志数据,日志数据是由维度和指标构成的二维数据。其中,维度包括:时间维度、流量维度、广告维度、用户维度、策略维度等枚举性特征;指标包括:曝光率、点击率、转化率、消耗率、CTR、CPC、CPM、AUC等数值特征。
结合常见原因和日志数据结构,可归纳出:原因可以用维度值来表示。例如:“某个高CPM的头部广告主减投,导致大盘CPM下降”,某个广告主则是广告主这一维度的一个维度值。
基于此,将原因表示为维度值后,根据维度值与指标异动间的相关性,使用一个自动化的原因定位算法自动定位出指标异动的原因。
图2为本发明实施例的指标异动分析方法的流程示意图一,如图2所示,所述指标异动分析方法包括以下步骤:
步骤201:确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件。
本发明实施例中,分析某个指标异动的原因,比如分析CPM下降的原因,需要首先从海量的数据层中筛选出需要分析的日志数据,筛选的其中一个依据就是维度集合,这里,维度集合包括了多个维度,例如:广告id、广告主id、站点集合id、站点id、广告位id、运营标签、计费类型、行业id、广告行业id、商品id、素材规格、是否复用等等。其中,每个维度都是指标的约束条件,这里,指标的约束条件是指:某个维度值的变动会导致指标的变动,按照某个维度对指标的异动进行分析,也就是按照某个维度的日志数据对指标进行分析,例如:按照广告位id这一维度的日志数据对CPM指标进行分析。
图3为本发明实施例的UI界面的示意图,如图3中的(a)所示,用户可以在该UI界面上设置需要分析的维度,图3中选中了全部的维度进行分析,当然,用户也可也选择部分维度作为待分析的对象。此外,用户还可以在该UI界面中设置其他日志数据的筛选条件,例如日期、过滤条件。
步骤202:针对所述维度集合中的各个维度,计算所述维度的权重分布,其中,所述维度的权重分布用于表征所述维度中各个维度值对应的权重值。
本发明实施例中,广告平台的指标(如CPM、点击率、下载率等)根据其计算方式,可以被分为两种类型:第一类指标、第二类指标;其中,所述第一类指标用于表征单一指标,所述第二类指标用于表征复合指标,所述复合指标通过两个以上所述单一指标运算得到。
这里,单一指标是指只做聚合的指标,比如消耗、曝光等;复合指标是指由两个以上单一指标运算组成的指标,比如CPM=(消耗量/曝光量)×1000。
本发明实施例中,所述指标为所述第一类指标时,采用第一类算法计算所述维度的权重分布;所述指标为所述第二类指标时,采用第二类算法计算所述维度的权重分布。
这里,维度的权重分布用于表征所述维度中各个维度值对应的权重值,也即:计算出维度中各个维度值对应的权重值,就代表得到了维度的权重分布。为此,当指标为所述第一类指标时,采用第一类算法计算维度中各个维度值对应的权重值;当指标为所述第二类指标时,采用第二类算法计算维度中各个维度值对应的权重值。
本发明实施例中,维度值对应的权重值代表了该维度值对于指标变化的影响力度。可见,如果一个维度值的权重值越大,则代表了该维度值对于指标变化的影响力度越大。
步骤203:基于各个维度的权重分布,计算所述各个维度的权重。
本发明实施例中,自动对多个维度的权重分布进行分析,计算得到各个维度的权重,这里,维度对应的权重代表了该维度对于指标变化的影响力度。可见,如果一个维度的权重越大,则代表了该维度对于指标变化的影响力度越大。
本发明实施例中,维度的权重分布与该维度中维度值对应的占比分布越形似,则该维度的权重越小,同理,维度的权重分布与该维度中维度值对应的占比分布越不同,则该维度的权重越大。
步骤204:对所述维度集合中的各个维度的权重进行排序,并基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。
本发明实施例中,对所述维度集合中的各个维度的权重进行排序,选择权重最大的维度作为所述目标维度,将所述目标维度作为所述指标发生异动的原因。
此外,本发明实施例还包括:输出所述目标维度对应的权重分布,其中,所述目标维度对应的权重分布按照所述目标维度中各个维度值对应的权重进行排序。如图3中的(b)所示,bid_type代表输出的目标维度,bid_type列出了不同的维度值,importance为维度值对应的权重值,并且权重值是按照由大到小的顺序排列的。
图4为本发明实施例的指标异动分析方法的流程示意图二,如图4所示,所述指标异动分析方法包括以下步骤:
步骤401:确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件。
本发明实施例中,分析某个指标异动的原因,比如分析CPM下降的原因,需要首先从海量的数据层中筛选出需要分析的日志数据,筛选的其中一个依据就是维度集合,这里,维度集合包括了多个维度,例如:广告id、广告主id、站点集合id、站点id、广告位id、运营标签、计费类型、行业id、广告行业id、商品id、素材规格、是否复用等等。其中,每个维度都是指标的约束条件,这里,指标的约束条件是指:按照某个维度的日志数据对指标进行分析,例如:按照广告位id这一维度的日志数据对CPM指标进行分析。
图3为本发明实施例的UI界面的示意图,如图3中的(a)所示,用户可以在该UI界面上设置需要分析的维度,图3中选中了全部的维度进行分析,当然,用户也可也选择部分维度作为待分析的对象。此外,用户还可以在该UI界面中设置其他日志数据的筛选条件,例如日期、过滤条件。
步骤402:针对所述维度集合中的各个维度,所述指标为所述第一类指标时,采用第一类算法计算所述维度的权重分布;所述指标为所述第二类指标时,采用第二类算法计算所述维度的权重分布。
本发明实施例中,广告平台的指标(如CPM、点击率、下载率等)根据其计算方式,可以被分为两种类型:第一类指标、第二类指标;其中,所述第一类指标用于表征单一指标,所述第二类指标用于表征复合指标,所述复合指标通过两个以上所述单一指标运算得到。
这里,单一指标是指只做聚合的指标,比如消耗、曝光等;复合指标是指由两个以上单一指标运算组成的指标,比如CPM=(消耗量/曝光量)×1000。
本发明实施例中,所述指标为所述第一类指标时,采用第一类算法计算所述维度的权重分布;所述指标为所述第二类指标时,采用第二类算法计算所述维度的权重分布。
这里,维度的权重分布用于表征所述维度中各个维度值对应的权重值,也即:计算出维度中各个维度值对应的权重值,就代表得到了维度的权重分布。为此,当指标为所述第一类指标时,采用第一类算法计算维度中各个维度值对应的权重值;当指标为所述第二类指标时,采用第二类算法计算维度中各个维度值对应的权重值。
本发明实施例中,维度值对应的权重值代表了该维度值对于指标变化的影响力度。可见,如果一个维度值的权重值越大,则代表了该维度值对于指标变化的影响力度越大。
上述方案中,第一类算法是指:基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,Δyi为维度值i对应的指标变化量,Δy为整个维度对应的指标变化量。
以曝光量这一单一指标为例,影响曝光量的维度包括用户id、广告位id。其中,用户id这一维度和广告位id这一维度均可以通过公示(1)来计算维度中各个维度值对应的权重值。以通过公示(1)计算广告位id这一维度中各个维度值对应的权重值为例:
假设广告位id这一维度中所包括的维度值为:广告位1、广告为2、广告位3、广告为4。其中,广告位1对应的曝光量的变化量为Δy1,广告位2对应的曝光量的变化量为Δy2,广告位3对应的曝光量的变化量为Δy3,广告位4对应的曝光量的变化量为Δy4。整体的曝光量的变化量为Δy=Δy1+Δy2+Δy3+Δy4。那么,广告位1对应的权重值为广告位2对应的权重值为广告位3对应的权重值为广告位4对应的权重值为
上述方案中,第二类算法是指:基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,分别为指标变化前后维度值i对应的占比,分别为指标变化前后维度值i对应的指标值,y1为整个维度对应的指标变化前的值,Δy为整个维度对应的指标变化量。
对于复合指标而言,整体指标(也即整个全部维度对应的指标)等于所有的维度值对应的占比乘以维度值对应的指标值后求和。例如:整体CPM等于每个广告位的曝光占比乘以每个广告位的CPM后求和。对于某个广告位而言,该广告位对于整体CPM的贡献为该广告位的曝光占比乘以该广告位的CPM。可见,维度值i对应的占比是曝光占比。曝光占比的计算方式为:假设广告位1的曝光量为T1,广告位2的曝光量为T2,广告位3的曝光量为T3,广告位4的曝光量为T4。广告位1对应的曝光占比为T1/(T1+T2+T3+T4),广告位2对应的曝光占比为T2/(T1+T2+T3+T4),广告位3对应的曝光占比为T3/(T1+T2+T3+T4),广告位4对应的曝光占比为T4/(T1+T2+T3+T4)。
可见,维度值i对应的占比与指标的具体计算方式有关,例如指标为CPM的情况下,维度值对应的占比为曝光占比。
本发明实施例将某个维度中各个维度值对应的占比称为该维度对应的占比分布。
对于复合指标而言,整体指标(也即整个全部维度对应的指标)等于所有的维度值对应的占比乘以维度值对应的指标值后求和。例如:整体CPM等于每个广告位的曝光占比乘以每个广告位的CPM后求和。因此,维度值i对整体指标的带来的变化是然而,仅通过衡量也即影响力度存在一定的不合理性,例如:某个广告位的CPM远远低于平均值,其曝光占比大幅增加,导致整体CPM下降。根据来计算该广告位的影响力度,会发现广告位对整体CPM的影响是正向的,导致得出的分析结论不合理。为了更好衡量维度值占比的变化,在计算维度值的影响力度时,增加一项即将曝光变化部分的维度值的指标与平均指标对比,最后得到维度值的影响力度为而维度值的权重则为维度值的影响力度除以整个维度对应的指标变化量。
例如:大盘的CPM下降了20%,分析的目标是验证一下大盘CPM的下降是不是某个广告位带来的。首先根据日志数据统计到CPM分广告位的变化情况如下表1所示:
表1
由于是CPM是分广告位统计,因此有y=∑iaiyi,其中y为CPM,ai为广告位i的曝光占比,yi为广告位i的CPM。CPM的变化可以表示为广告位i对整体CPM带来的变化是广告位i的权重则为根据这个计算公式可以得到每个广告位的权重,如下表2所示:
表2
从统计出来的结果看,广告B是主要原因,其CPM比较高,但曝光下降了0.1,对整体CPM带来了-3的影响。但观察广告位C会发现,广告位C的CPM很低,曝光反而增加了0.3,这个曝光的增加对整体CPM也是负向的作用,但算出来的权重却为0。因此需要将这个曝光变化不合理的情况考虑进来。进一步分析广告位C,变化后广告位C的曝光占比是0.5,CPM是2。这0.5的曝光,其中0.2的曝光部分由原来的CPM=5变化成CPM=2得来的;剩余的0.3的曝光部分是平均的CPM=20变化而来的。因此广告位i对整体CPM的影响,从变成需要减去曝光增加部分乘以整体CPM。根据新的计算公式,广告位C的权重更大,也比较符合预期,如下表3所示:
表3
步骤403:基于各个维度的权重分布,计算所述各个维度的权重。
这里,对于指标异动问题可以从各个维度去验证,例如流量维度、广告维度、策略维度、用户维度等等,如何判断哪个维度更重要是本发明实施例需要解决的问题。
本发明实施例中,自动对多个维度的权重分布进行分析,计算得到各个维度的权重,这里,维度对应的权重代表了该维度对于指标变化的影响力度。可见,如果一个维度的权重越大,则代表了该维度对于指标变化的影响力度越大。
经过对权重分布、占比分布以及权重的数据进行统计分析可知:维度的权重分布与该维度的维度值占比分布越形似,则该维度的权重越小,同理,维度的权重分布与该维度的维度值占比分布越不同,则该维度的权重越大。这里,将某个维度中各个维度值对应的占比称为该维度对应的占比分布。
上述方案中,计算所述各个维度的权重,包括:
基于以下公式计算所述各个维度的权重:1-cos(w,A)
其中,cos函数用于计算两个分布间的余弦距离,w为维度的权重分布,A为维度对应的占比分布。
具体地,假设一个特殊的情况,广告平台上线了一个策略,这个策略与广告位无关,但对每个广告位CPM的影响是等比例的,在这种情况下广告位与CPM变化无关,如下表4所示:
表4
这种情况下,发现权重分布与占比分布是一致的,换句话说权重分布与占比分布越相似,维度与指标变化越不相关。基于这个观察可以得到一个维度权重的计算公式:权重=1-cos(w,A)。cos能比较好衡量两个分布的相似度,相似度越大,其值也越大。根据这个权重计算公式选择的维度,会倾向与选择粒度更细的维度,因为粒度越细,分布相似的可能性就越小。
本发明实施例中,基于所述维度对应的占比分布,对所述维度的权重进行优化,其中,优化后的各个维度的权重为:1-cos(w,A)/entropy(A),其中,entropy用于计算分布的信息熵。
这里,cos为余弦计算公式,entropy(A)=-∑Pilog2(Pi),其中,Pi为占比i在占比分布A中出现的概率。
这里,借鉴信息增益比指标的设计,可以上述维度的权重中增加一个占比分布的信息熵作为分母,维度粒度越细,信息熵就倾向于更大。权重公式调整后,选择出来的维度分析出来的结论会更为合理。
如下表5为调整前的最优维度,也即通过公式权重=1-cos(w,A)计算得到的最优维度,这里,最优维度是指权重最大的维度。表6为调整后的最优维度,也即通过公式权重=1-cos(w,A)/entropy(A)计算得到的最优维度。
表5
商品id 整体影响 权重 变化类型 曝光数占比(20161225)
100698537 -0.3819 0.6825 正常(0) 0.0773
100256698 -0.0783 0.1398 正常(0) 0.4495
1102503166 -0.0676 0.1208 正常(0) 0.0576
1103286479 -0.0556 0.0994 正常(0) 0.0392
表6
步骤404:对所述维度集合中的各个维度的权重进行排序,并基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。
本发明实施例中,对所述维度集合中的各个维度的权重进行排序,选择权重最大的维度作为所述目标维度,将所述目标维度作为所述指标发生异动的原因。
此外,本发明实施例还包括:输出所述目标维度对应的权重分布,其中,所述目标维度对应的权重分布按照所述目标维度中各个维度值对应的权重进行排序。如图3中的(b)所示,bid_type代表输出的目标维度,bid_type列出了不同的维度值,importance为维度值对应的权重值,并且权重值是按照由大到小的顺序排列的,如上述表6所示。
图5为本发明实施例的指标异动分析设备的结构组成示意图,如图5所示,所述指标异动分析设备包括:
第一确定单元501,用于确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件;
第一计算单元502,用于针对所述维度集合中的各个维度,计算所述维度的权重分布,其中,所述维度的权重分布用于表征所述维度中各个维度值对应的权重值;
第二计算单元503,用于基于各个维度的权重分布,计算所述各个维度的权重;
排序单元504,用于对所述维度集合中的各个维度的权重进行排序;
第二确定单元505,用于基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。
本发明实施例中,所述指标包括:第一类指标、第二类指标;其中,所述第一类指标用于表征单一指标,所述第二类指标用于表征复合指标,所述复合指标通过两个以上所述单一指标运算得到;
所述第一计算单元502,具体用于:所述指标为所述第一类指标时,采用第一类算法计算所述维度的权重分布;所述指标为所述第二类指标时,采用第二类算法计算所述维度的权重分布。
本发明实施例中,所述第一计算单元502,具体用于:
所述指标为所述第一类指标时,基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,Δyi为维度值i对应的指标变化量,Δy为整个维度对应的指标变化量;
所述指标为所述第二类指标时,基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,分别为指标变化前后维度值i的占比,分别为指标变化前后维度值i对应的指标值,y1为整个维度指标变化前的值,Δy为整个维度对应的指标变化量。
本发明实施例中,所述第二计算单元503,具体用于:基于以下公式计算所述各个维度的权重:1-cos(w,A)
其中,cos函数用于计算两个分布间的余弦距离,w为维度的权重分布,A为维度对应的占比分布。
本发明实施例中,所述第二计算单元503,还用于:基于所述维度对应的占比分布,对所述维度的权重进行优化,其中,优化后的各个维度的权重为:1-cos(w,A)/entropy(A)
其中,entropy用于计算分布的信息熵。
本发明实施例中,所述第二确定单元505,具体用于:选择权重最大的维度作为所述目标维度,将所述目标维度作为所述指标发生异动的原因;
所述设备还包括:输出单元,用于输出所述目标维度对应的权重分布,其中,所述目标维度对应的权重分布按照所述目标维度中各个维度值对应的权重进行排序。
本领域技术人员应当理解,图5所示的指标异动分析设备中的各单元的实现功能可参照前述指标异动分析方法的相关描述而理解。图5所示的指标异动分析设备中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明实施例上述指标异动分析设备如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
相应地,本发明实施例还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本发明实施例的上述指标异动分析方法。
图6为本发明实施例的计算机设备的结构组成示意图,如图6所示,所述计算机设备包括存储器601、处理器602及存储在存储器601上并可在处理器602上运行的计算机可执行指令,所述处理器602执行所述计算机可执行指令时实现如下方法步骤:
确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件;
针对所述维度集合中的各个维度,计算所述维度的权重分布,其中,所述维度的权重分布用于表征所述维度中各个维度值对应的权重值;
基于各个维度的权重分布,计算所述各个维度的权重;
对所述维度集合中的各个维度的权重进行排序,并基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。
以上涉及计算机设备的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述。
本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (14)

1.一种指标异动分析方法,其特征在于,所述方法包括:
确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件;
针对所述维度集合中的各个维度,计算所述维度的权重分布,其中,所述维度的权重分布用于表征所述维度中各个维度值对应的权重值;
基于各个维度的权重分布,计算所述各个维度的权重;
对所述维度集合中的各个维度的权重进行排序,并基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。
2.根据权利要求1所述的指标异动分析方法,其特征在于,所述指标包括:第一类指标、第二类指标;其中,所述第一类指标用于表征单一指标,所述第二类指标用于表征复合指标,所述复合指标通过两个以上所述单一指标运算得到;
所述计算所述维度的权重分布,包括:
所述指标为所述第一类指标时,采用第一类算法计算所述维度的权重分布;
所述指标为所述第二类指标时,采用第二类算法计算所述维度的权重分布。
3.根据权利要求2所述的指标异动分析方法,其特征在于,所述采用第一类算法计算所述维度的权重分布,包括:
基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,Δyi为维度值i对应的指标变化量,Δy为整个维度对应的指标变化量;
所述采用第二类算法计算所述维度的权重分布,包括:
基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,分别为指标变化前后维度值i对应的占比,分别为指标变化前后维度值i对应的指标值,y1为整个维度指标变化前的值,Δy为整个维度对应的指标变化量。
4.根据权利要求1所述的指标异动分析方法,其特征在于,所述基于各个维度的权重分布,计算所述各个维度的权重,包括:
基于以下公式计算所述各个维度的权重:1-cos(w,A)
其中,cos函数用于计算两个分布间的余弦距离,w为维度的权重分布,A为维度对应的占比分布。
5.根据权利要求4所述的指标异动分析方法,其特征在于,所述方法还包括:
基于所述维度对应的占比分布,对所述维度的权重进行优化,其中,优化后的各个维度的权重为:1-cos(w,A)/entropy(A)
其中,entropy用于计算分布的信息熵。
6.根据权利要求1所述的指标异动分析方法,其特征在于,所述基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因,包括:
选择权重最大的维度作为所述目标维度,将所述目标维度作为所述指标发生异动的原因;
所述方法还包括:输出所述目标维度对应的权重分布,其中,所述目标维度对应的权重分布按照所述目标维度中各个维度值对应的权重进行排序。
7.一种指标异动分析设备,其特征在于,所述设备包括:
第一确定单元,用于确定出维度集合,所述维度集合包括多个维度,其中,所述维度用于表征指标的约束条件;
第一计算单元,用于针对所述维度集合中的各个维度,计算所述维度的权重分布,其中,所述维度的权重分布用于表征所述维度中各个维度值对应的权重值;
第二计算单元,用于基于各个维度的权重分布,计算所述各个维度的权重;
排序单元,用于对所述维度集合中的各个维度的权重进行排序;
第二确定单元,用于基于权重的排序结果确定出目标维度,将所述目标维度作为所述指标发生异动的原因。
8.根据权利要求7所述的指标异动分析设备,其特征在于,所述指标包括:第一类指标、第二类指标;其中,所述第一类指标用于表征单一指标,所述第二类指标用于表征复合指标,所述复合指标通过两个以上所述单一指标运算得到;
所述第一计算单元,具体用于:所述指标为所述第一类指标时,采用第一类算法计算所述维度的权重分布;所述指标为所述第二类指标时,采用第二类算法计算所述维度的权重分布。
9.根据权利要求8所述的指标异动分析设备,其特征在于,所述第一计算单元,具体用于:
所述指标为所述第一类指标时,基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,Δyi为维度值i对应的指标变化量,Δy为整个维度对应的指标变化量;
所述指标为所述第二类指标时,基于以下公式计算所述维度中各个维度值对应的权重值:
其中,i为维度值,wi为维度值i对应的权重值,分别为指标变化前后维度值i对应的占比,分别为指标变化前后维度值i对应的指标值,y1为整个维度指标变化前的值,Δy为整个维度对应的指标变化量。
10.根据权利要求7所述的指标异动分析设备,其特征在于,所述第二计算单元,具体用于:基于以下公式计算所述各个维度的权重:1-cos(w,A)
其中,cos函数用于计算两个分布间的余弦距离,w为维度的权重分布,A为维度对应的占比分布。
11.根据权利要求10所述的指标异动分析设备,其特征在于,所述第二计算单元,还用于:基于所述维度对应的占比分布,对所述维度的权重进行优化,其中,优化后的各个维度的权重为:1-cos(w,A)/entropy(A)
其中,entropy用于计算分布的信息熵。
12.根据权利要求7所述的指标异动分析设备,其特征在于,所述第二确定单元,具体用于:选择权重最大的维度作为所述目标维度,将所述目标维度作为所述指标发生异动的原因;
所述设备还包括:输出单元,用于输出所述目标维度对应的权重分布,其中,所述目标维度对应的权重分布按照所述目标维度中各个维度值对应的权重进行排序。
13.一种计算机存储介质,其上存储有计算机可执行指令,其特征在于,该计算机可执行指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可执行指令,其特征在于,所述处理器执行所述计算机可执行指令时实现权利要求1-6任一项所述的方法步骤。
CN201710993258.XA 2017-10-23 2017-10-23 指标异动分析方法及设备、计算机存储介质、计算机设备 Active CN109697203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710993258.XA CN109697203B (zh) 2017-10-23 2017-10-23 指标异动分析方法及设备、计算机存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710993258.XA CN109697203B (zh) 2017-10-23 2017-10-23 指标异动分析方法及设备、计算机存储介质、计算机设备

Publications (2)

Publication Number Publication Date
CN109697203A true CN109697203A (zh) 2019-04-30
CN109697203B CN109697203B (zh) 2023-03-24

Family

ID=66225883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710993258.XA Active CN109697203B (zh) 2017-10-23 2017-10-23 指标异动分析方法及设备、计算机存储介质、计算机设备

Country Status (1)

Country Link
CN (1) CN109697203B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322165A (zh) * 2019-07-10 2019-10-11 西安点告网络科技有限公司 广告作弊风险评估的方法和装置
CN110704751A (zh) * 2019-10-22 2020-01-17 北京字节跳动网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN113742401A (zh) * 2020-05-27 2021-12-03 阿里巴巴集团控股有限公司 数据展示方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130275816A1 (en) * 2012-04-16 2013-10-17 Ruth Bernstein Identifying a dimension associated with an abnormal condition
CN104715027A (zh) * 2015-03-04 2015-06-17 北京京东尚科信息技术有限公司 一种分布数据异动判断定位方法及系统
JP5865975B1 (ja) * 2014-09-01 2016-02-17 ヤフー株式会社 分析装置、分析方法及び分析プログラム
US20170076202A1 (en) * 2015-09-16 2017-03-16 Adobe Systems Incorporated Identifying audiences that contribute to metric anomalies
CN107154880A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 系统监控方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130275816A1 (en) * 2012-04-16 2013-10-17 Ruth Bernstein Identifying a dimension associated with an abnormal condition
JP5865975B1 (ja) * 2014-09-01 2016-02-17 ヤフー株式会社 分析装置、分析方法及び分析プログラム
CN104715027A (zh) * 2015-03-04 2015-06-17 北京京东尚科信息技术有限公司 一种分布数据异动判断定位方法及系统
US20170076202A1 (en) * 2015-09-16 2017-03-16 Adobe Systems Incorporated Identifying audiences that contribute to metric anomalies
CN107154880A (zh) * 2016-03-03 2017-09-12 阿里巴巴集团控股有限公司 系统监控方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322165A (zh) * 2019-07-10 2019-10-11 西安点告网络科技有限公司 广告作弊风险评估的方法和装置
CN110704751A (zh) * 2019-10-22 2020-01-17 北京字节跳动网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN110704751B (zh) * 2019-10-22 2023-04-07 北京字节跳动网络技术有限公司 数据处理方法、装置、电子设备及存储介质
CN113742401A (zh) * 2020-05-27 2021-12-03 阿里巴巴集团控股有限公司 数据展示方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN109697203B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111177111A (zh) 基于用户指定分段执行查询时归因建模
JP5662446B2 (ja) リアルタイム広告入札に対して競争評価モデルを使用するための学習システム
US11182822B2 (en) Auto-expanding campaign optimization
CN102385601B (zh) 一种产品信息的推荐方法及系统
Aly et al. Web-scale user modeling for targeting
WO2017101240A1 (zh) 一种信息处理方法及服务器、计算机存储介质
US20120102053A1 (en) Digital analytics system
EP2416289A1 (en) System for measuring variables from data captured from internet applications
US10970338B2 (en) Performing query-time attribution channel modeling
US20080288327A1 (en) Store management system and program
US20090327083A1 (en) Automating on-line advertisement placement optimization
CN104866484A (zh) 一种数据处理方法和装置
WO2008024997A2 (en) System and method for modeling value of an on-line advertisement campaign
CN110880127B (zh) 消费水平的预测方法、装置、电子设备及存储介质
US20130138663A1 (en) System or Apparatus for Finding Influential Users
JP2011526705A (ja) スマートテキストを生成するための方法および装置
US20230196235A1 (en) Systems and methods for providing machine learning of business operations and generating recommendations or actionable insights
US20220277331A1 (en) Systems and methods for procurement cost forecasting
CN109697203A (zh) 指标异动分析方法及设备、计算机存储介质、计算机设备
US20140289007A1 (en) Scenario based customer lifetime value determination
KR101435096B1 (ko) 소셜 네트워크 서비스 데이터에 기반한 상품 수요 예측 장치 및 방법
US20180005261A9 (en) A method , computer readable medium and system for determining touchpoint attribution
CN106296287A (zh) 用于调整推广信息的出价的方法和装置
US11423422B2 (en) Performing query-time attribution modeling based on user-specified segments
CN117172825A (zh) 基于大数据的电商数据分析方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant