CN115600785A - 一种关键指标的确定方法、相关装置、设备以及存储介质 - Google Patents
一种关键指标的确定方法、相关装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN115600785A CN115600785A CN202110722974.0A CN202110722974A CN115600785A CN 115600785 A CN115600785 A CN 115600785A CN 202110722974 A CN202110722974 A CN 202110722974A CN 115600785 A CN115600785 A CN 115600785A
- Authority
- CN
- China
- Prior art keywords
- index
- candidate
- target
- data
- candidate key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种关键指标的确定方法,包括:获取针对头部指标的候选关键指标集合;获取每个候选关键指标的样本数据集合,每组样本数据包括第一指标数据和第二指标数据,第一指标数据为用户针对候选关键指标的数据,第二指标数据为用户针对头部指标的数据;根据每个候选关键指标的样本数据集合,确定每个候选关键指标的目标干预效应值,目标干预效应值用于表示对候选关键指标进行干预之后对头部指标产生的影响;根据每个候选关键指标的目标干预效应值,从候选关键指标集合中确定候选关键指标作为头部指标的关键指标。本申请还提供装置、设备和介质。本申请能够在降低人力成本的同时,从因果关系的角度找到对头部指标牵引较强的关键指标。
Description
技术领域
本申请涉及计算机数据处理技术领域,尤其涉及一种关键指标的确定方法、相关装置、设备以及存储介质。
背景技术
北极星指标(North Star Metric)也叫唯一关键指标(One metric thatmatters,OMTM),是产品现阶段的关键指标,不同阶段会有不同的目标。北极星指标一旦确立,就像北极星一样,指引着公司上下向着同一个方向迈进。
目前,通常通过商业分析确定北极星指标。首先,找到商业目标和用户价值之间的交集。也就是说在企业长期生存盈利与用户长期价值之间找到共同点、然后,列出几个备选指标进行筛选。最后,基于一定原则确定北极星指标。
然而,由于不同的人和团队的主观判断和先验认知会有很大的不同,且容易被干扰而造成误判,而北极星指标的验证周期非常长,因此,不仅可能会导致所选的北极星指标与实际战略存在偏差,而且还需要投入较多的人力成本。
发明内容
本申请实施例提供了一种关键指标的确定方法、相关装置、设备以及存储介质,能够在降低人力成本的同时,从因果关系的角度找到对头部指标牵引较强的关键指标。
有鉴于此,本申请一方面提供一种关键指标的确定方法,包括:
获取针对头部指标的候选关键指标集合,其中,头部指标为预先确定的指标,候选关键指标集合包括至少两个候选关键指标;
获取候选关键指标集合中每个候选关键指标所对应的样本数据集合,其中,样本数据集合包括至少两组样本数据,每组样本数据包括第一指标数据以及第二指标数据,第一指标数据为用户针对候选关键指标的数据,第二指标数据为用户针对头部指标的数据;
根据每个候选关键指标所对应的样本数据集合,确定每个候选关键指标所对应的目标干预效应值,其中,目标干预效应值用于表示对候选关键指标进行干预之后对头部指标产生的影响;
根据每个候选关键指标所对应的目标干预效应值,从候选关键指标集合中确定候选关键指标作为头部指标的关键指标。
本申请另一方面提供一种关键指标确定装置,包括:
获取模块,用于获取针对头部指标的候选关键指标集合,其中,头部指标为预先确定的指标,候选关键指标集合包括至少两个候选关键指标;
获取模块,还用于获取候选关键指标集合中每个候选关键指标所对应的样本数据集合,其中,样本数据集合包括至少两组样本数据,每组样本数据包括第一指标数据以及第二指标数据,第一指标数据为用户针对候选关键指标的数据,第二指标数据为用户针对头部指标的数据;
确定模块,用于根据每个候选关键指标所对应的样本数据集合,确定每个候选关键指标所对应的目标干预效应值,其中,目标干预效应值用于表示对候选关键指标进行干预之后对头部指标产生的影响;
确定模块,还用于根据每个候选关键指标所对应的目标干预效应值,从候选关键指标集合中确定候选关键指标作为头部指标的关键指标。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
确定模块,具体用于针对候选关键指标集合中的每个候选关键指标,根据候选关键指标所对应的样本数据集合生成指标变量分布,其中,指标变量分布满足候选关键指标与头部指标之间的数据变化关系;
针对候选关键指标集合中的每个候选关键指标,根据指标变量分布确定干预参数,其中,干预参数为指标变量分布对应候选关键指标的一个数值,干预参数用于将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布;
针对候选关键指标集合中的每个候选关键指标,根据干预参数以及用户画像集合,确定候选关键指标所对应的干预效应值,其中,用户画像集合包括至少两个用户的用户画像数据;
针对候选关键指标集合中的每个候选关键指标,对干预效应值进行归一化处理,得到候选关键指标所对应的目标干预效应值。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
确定模块,具体用于针对候选关键指标集合中的每个候选关键指标,根据干预参数将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布,其中,干扰前的变量分布对应于第一标签,干扰后的变量分布对应于第二标签;
针对候选关键指标集合中的每个候选关键指标,基于M个用户的用户画像数据以及M个用户所在变量分布所对应的标签,通过待训练模型获取M个用户的预测结果,其中,预测结果为用户针对头部指标的预测数据,M为大于1的整数;
针对候选关键指标集合中的每个候选关键指标,根据M个用户的预测结果以及M个用户的第二指标数据,对待训练模型进行训练,得到目标模型;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据以及N个第一标签,通过目标模型获取N个用户的第一预测结果,其中,N个用户包含于M个用户,N为大于或等于1,且小于或等于M的整数;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据以及N个第二标签,通过目标模型获取N个用户的第二预测结果;
针对候选关键指标集合中的每个候选关键指标,根据N个用户的第一预测结果以及N个用户的第二预测结果,确定候选关键指标所对应的干预效应值。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
确定模块,具体用于针对候选关键指标集合中的每个候选关键指标,根据干预参数将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布,其中,干扰前的变量分布对应于P个用户的数据,干扰后的变量分布对应于Q个用户的数据,P与Q均为大于或等于1的整数;
针对候选关键指标集合中的每个候选关键指标,基于P个用户的用户画像数据,通过第一待训练模型获取P个用户的预测结果,并且,基于Q个用户的用户画像数据,通过第二待训练模型获取Q个用户的预测结果,其中,预测结果为用户针对头部指标的预测数据;
针对候选关键指标集合中的每个候选关键指标,根据P个用户的预测结果以及P个用户的第二指标数据,对第一待训练模型进行训练,得到第一目标模型,并且,根据Q个用户的预测结果以及Q个用户的第二指标数据,对第二待训练模型进行训练,得到第二目标模型;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据,通过第一目标模型获取N个用户的第一预测结果,其中,N个用户包含于(P+Q)个用户,N为大于或等于1,且小于或等于(P+Q)的整数;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据,通过第二目标模型获取N个用户的第二预测结果;
针对候选关键指标集合中的每个候选关键指标,根据N个用户的第一预测结果以及N个用户的第二预测结果,确定候选关键指标所对应的干预效应值。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
确定模块,具体用于针对候选关键指标集合中的每个候选关键指标,根据干扰前的变量分布确定P个用户针对候选关键指标的第一均值,并且,根据干扰后的变量分布,确定Q个用户针对候选关键指标的第二均值,其中,P与Q均为大于或等于1的整数;
针对候选关键指标集合中的每个候选关键指标,确定(P+Q)个用户针对候选关键指标的目标均值;
针对候选关键指标集合中的每个候选关键指标,根据第一均值、第二均值以及目标均值确定归一化数值;
针对候选关键指标集合中的每个候选关键指标,采用归一化数值对干预效应值进行归一化处理,得到候选关键指标所对应的目标干预效应值。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于获取针对头部指标的候选指标集合,其中,候选指标集合包括T个候选指标,T为大于1的整数;
获取候选指标集合中每个候选指标所对应的目标数据集合,其中,目标数据集合包括至少一个目标数据;
根据每个候选指标所对应的目标数据集合,确定每个候选指标的关联评价参数,并根据每个候选指标的关联评价参数,从候选指标集合中获取候选指标子集合,其中,关联评价参数包括相关性系数以及方差扩大因子VIF中的至少一种,候选指标子集合包括K个目标候选指标,K为大于1,且小于或等于T的整数;
对候选指标子集合中的每个目标候选指标进行特征扩充处理,得到每个目标候选指标所对应的指标特征集合,其中,指标特征集合包括至少两个指标特征;
从每个目标候选指标所对应的指标特征集合中分别选择一个指标特征作为候选关键指标,将选择的K个候选关键指标作为针对头部指标的候选关键指标集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,关联评价参数包括VIF;
获取模块,具体用于针对候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及候选指标集合中每个候选指标所对应的目标数据集合,确定候选指标所对应的第一VIF;
若候选指标集合中存在候选指标所对应的第一VIF大于或等于VIF阈值,则从候选指标集合中去掉第一VIF大于或等于VIF阈值的至少一个候选指标,以得到第一候选指标集合;
针对第一候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及第一候选指标集合中每个候选指标所对应的目标数据集合,确定候选指标所对应的第二VIF;
若第一候选指标集合中所有候选指标所对应的第二VIF均小于VIF阈值,则将第一候选指标集合作为候选指标子集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,关联评价参数包括相关性系数;
获取模块,具体用于针对候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及候选指标集合中每个候选指标所对应的目标数据集合,确定候选指标所对应的T个相关性系数;
根据每个候选指标所对应的T个相关性系数,对(T*T)个相关性系数进行排序,得到相关性系数从大到小排序的相关性系数序列,其中,相关性系数序列的前W个相关性系数为目标序列;
针对候选指标集合的每个候选指标,若候选指标所对应的T个相关性系数属于目标序列的个数大于或等于个数阈值,则从候选指标集合中去掉个数大于或等于个数阈值候选指标,以得到候选指标子集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于针对候选指标子集合中的每个目标候选指标,根据时间窗口值对目标候选指标进行扩充处理,得到目标候选指标的指标特征集合,其中;时间窗口值表示数据聚合的时长;
或者,
针对候选指标子集合中的每个目标候选指标,根据时间偏移量对目标候选指标进行扩充处理,得到目标候选指标的指标特征集合,其中;时间偏移量表示数据延迟的时长;
或者,
针对候选指标子集合中的每个目标候选指标,根据时间窗口值以及时间偏移量对目标候选指标进行扩充处理,得到目标候选指标的指标特征集合。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于根据每个目标候选指标所对应的指标特征集合,获取S组用户数据集合,其中,每组用户数据集合包括至少一个用户的用户数据,用户数据包括针对每个目标候选指标的每个指标特征所对应的数据,S为大于1的整数;
基于S组用户数据集合中的每个用户数据集合,通过指标预测模型获取每个用户的目标预测结果;
根据每个用户的目标预测结果,确定每个用户针对每个指标特征的沙普利SHAP值;
根据每个用户针对每个指标特征的SHAP值,确定每个指标特征的目标SHAP值,其中,目标SHAP值为针对同一个指标特征的各个用户所对应SHAP值的加和结果;
针对每个目标候选指标,从目标候选指标所对应的指标特征集合中选择目标SHAP值最大的指标特征作为候选关键指标。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,关键指标确定装置还包括训练模块;
获取模块,还用于根据每个目标候选指标所对应的指标特征集合,获取待训练数据集合,其中,待训练数据集合包括至少两个用户的待训练数据以及第二指标数据,待训练数据包括针对每个目标候选指标的每个指标特征所对应的数据;
获取模块,还用于基于至少两个用户的待训练数据,通过待训练指标预测模型获取每个用户的预测结果,其中,预测结果为用户针对头部指标的预测数据;
训练模块,用于根据每个用户的预测结果以及每个用户的第二指标数据,对待训练指标预测模型的模型参数进行更新,直至满足模型训练条件,得到指标预测模型。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,关键指标确定装置还包括显示模块;
显示模块,用于显示针对头部指标的因果关系图,其中,因果关系图包括目标节点、至少一个子节点以及至少一条有向连边,目标节点用于显示头部指标,每个子节点用于显示候选关键指标,每条有向连边从子节点指向目标节点,因果关系图显示每个候选关键指标针对头部指标的目标干预效应值。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种关键指标的确定方法,首先获取针对头部指标的候选关键指标集合,然后获取候选关键指标集合中每个候选关键指标所对应的样本数据集合,该样本数据集合包括至少两组样本数据,每组样本数据包括第一指标数据以及第二指标数据,第一指标数据为用户针对候选关键指标的数据,第二指标数据为用户针对头部指标的数据。基于此,根据每个候选关键指标所对应的样本数据集合,确定每个候选关键指标所对应的目标干预效应值,最后,根据每个候选关键指标所对应的目标干预效应值,从候选关键指标集合中确定候选关键指标作为头部指标的关键指标。通过上述方式,基于因果推断的思路,对候选关键指标进行干预操作之后,确定本次干预对头部指标产生的影响力,并将影响力大小量化为目标干预效应值,通过比对各个候选关键指标的目标干预效应值,选择出针对头部指标的关键指标。由此,能够在降低人力成本的同时,从因果关系的角度找到对头部指标牵引较强的关键指标。
附图说明
图1为本申请实施例中关键指标确定系统的一个架构示意图;
图2为本申请实施例中某个社交互动指标对留存率的一个曲线示意图;
图3为本申请实施例中关键指标确定方法的一个流程示意图;
图4为本申请实施例中针对头部指标的一个因果关系图;
图5为本申请实施例中指标变量分布的一个示意图;
图6为本申请实施例中基于指标变量分布预测干预效应值的一个示意图;
图7为本申请实施例中包括目标干预效应值以及置信区间的一个示意图;
图8为本申请实施例中基于指标变量分布预测干预效应值的另一个示意图;
图9为本申请实施例中基于相关性矩阵的一个热力示意图;
图10为本申请实施例中沙普利SHAP值的一个摘要示意图;
图11为本申请实施例中对目标沙普利SHAP值进行排序后的一个示意图;
图12为本申请实施例中显示因果关系图的一个界面示意图;
图13为本申请实施例中关键指标确定装置的一个示意图;
图14为本申请实施例中终端设备的一个结构示意图;
图15为本申请实施例中服务器的一个结构示意图。
具体实施方式
本申请实施例提供了一种关键指标的确定方法、相关装置、设备以及存储介质,能够在降低人力成本的同时,从因果关系的角度找到对头部指标牵引较强的关键指标。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着数据正式成为重要的生产要素,在当今社会扮演的角色地位不言而喻。数据运营也已经不再局限于某一个岗位,而是每一位运营和市场等营销人员必备的思维和工作方式。目前,大多数企业衡量产品团队工作质量的指标大多是完成业务的数量,而不是完成业务的最终效果。企业如果没有以最终业务效果为核心驱动力的文化,是很难让产品团队对业务效果产生很大影响的,而北极星指标就起着这样的作用,其中,北极星指标主要有三个核心作用,第一,使整个公司了解产品团队的行动,并令其与公司营收目标一致,综合内部资源集中进行推进,进而提升协作的效率。第二,将产品团队的进展和效果传达给其他部门,获取更多的支持,以加速战略产品计划,避免目标不同,影响沟通效率。第三,让产品团队对结果负责,真正制定可落地的产品行动策略。
为了能够找到属于某个业务的北极星指标,往往需要先找到关键指标,如果仅有一个关键指标,即可直接将该关键指标作为北极星指标。如果有至少两个关键指标,则可以从中选择北极星指标。基于此,本申请提出了一种关键指标的确定方法,该方法应用于图1所示的关键指标确定系统,如图所示,互动信息的好友推荐系统包括服务器和终端设备,且客户端部署于终端设备上,其中,客户端可以通过浏览器的形式运行于终端设备上,也可以通过独立的应用程序(application,APP)的形式运行于终端设备上等,对于客户端的具体展现形式,此处不做限定。本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器和终端设备的数量也不做限制。本申请提供的方案可以由终端设备独立完成,也可以由服务器独立完成,还可以由终端设备与服务器配合完成,对此,本申请并不做具体限定。
示例性地,用户根据业务需求设定一个头部指标,根据该头部指标确定候选关键指标集合。基于候选关键指标集合,分别获取每个候选关键指标的样本数据集合。如果终端设备本地存储有样本数据集合,那么可在离线状态下进行后续处理。如果终端设备本地未存储样本数据集合,则需要向服务器请求样本数据集合。在一种情况下,由终端设备根据每个候选关键指标所对应的样本数据集合计算对应的目标干预效应值。在另一种情况下,由服务器根据每个候选关键指标所对应的样本数据集合计算对应的目标干预效应值。最后,可以通过终端设备呈现每个候选关键指标所对应的目标干预效应值,通常情况下,会选择最大目标干预效应值所对应的候选关键指标作为北极星指标。
由于本申请涉及到一些专业名词,为了便于理解,下面将对这些专业名词进行介绍。
(1)头部指标:表示商业上最代表一个业务一段时间价值取向的指标。商业上最关心的头部指标通常是日活跃用户数量(Daily Active User,DAU)、留存以及时长。
(2)北极星指标:由于头部指标很难直接提升,实验效果常常也很难在短期内观测到,因此,需要找到一些对业务有指导意义的牵引指标,通过提升这些代理指标来提升头部指标。这些代理指标被称为北极星指标,而头部指标则是北极星指标所指向的“北”。在本申请中的“关键指标”可以是北极星指标,或者,包括北极星指标。
例如,业务A的头部指标为“30日留存”。选择30日留存是因为次日留存更倾向于频次牵引,而30日留存则更倾向于留存牵引。但如果时间过长,又会混入更多较难识别的外部影响因素。其中,30日留存表示当天活跃的用户中,在30天后依然活跃的用户。次日留存表示当天活跃的用户中,第二天依然活跃的用户。
(3)候选北极星指标:候选北极星指标应符合几个条件,即容易观测,可追踪,可实验。可以作为头部指标的牵引,且比头部指标敏感,可作为长期指标的代理指标。可用来直接指导业务,有较为清晰的提升抓手。各个团队接受度高。不直接受下游业务的影响。
在本申请中的“候选北极星指标”可以是候选关键指标。
(4)魔法数字(Magic Number):魔法数字是指当某个指标提升超过某个值时,用户会发现这个产品的真正价值,并产生粘性。例如,某个魔法数字是“14天添加60个好友”。以头部指标为“180天留存率”为例,请参阅图2,图2为本申请实施例中某个社交互动指标对留存率的一个曲线示意图,如图所示,随着某个社交互动指标提升,留存率快速提升,到达某个拐点后,留存提升变缓,边际收益减小,通过检测曲率拐点可识别魔法数字。
(5)沙普利(Shapley Additive Explanations,SHAP)值:来源于博弈论,业务上表示当我们增加某个特征(候选指标)时,对预测效果所产生的边际收益。
(6)平均干预效应(average treatment effect,ATE)值:表示比较不同处理(即,干预)手段在随机实验或策略干预中的效果。换言之,ATE用于测量处理组与对照组之间平均结果的差异。其中,随机试验可以是假想出的虚拟试验,以代表因果推断中的反事实推理,即当对某个候选关键指标进行干预时,头部指标的可能提升。
在本申请中的“干预效应值”可以是ATE值或者条件平均干预效应(conditionalaverage treatment effect,CATE)值,其中,CATE值表示某一组条件下的ATE值。
结合上述介绍,下面将对本申请中关键指标的确定方法进行介绍,请参阅图3,本申请实施例中关键指标确定方法的一个实施例包括:
110、获取针对头部指标的候选关键指标集合,其中,头部指标为预先确定的指标,候选关键指标集合包括至少两个候选关键指标;
在一个或多个实施例中,首先需要确定一个头部指标,这里头部指标通常是人为根据业务设定的。每个头部指标具有一系列备选的关键指标,由此,关键指标确定装置可获取针对头部指标的候选关键指标集合,该候选关键指标集合包括至少两个候选关键指标。
需要说明的是,关键指标确定装置可部署于终端设备,或者,部署于服务器,又或者,部署于由终端设备和服务器构成的系统,此处不做限定。
120、获取候选关键指标集合中每个候选关键指标所对应的样本数据集合,其中,样本数据集合包括至少两组样本数据,每组样本数据包括第一指标数据以及第二指标数据,第一指标数据为用户针对候选关键指标的数据,第二指标数据为用户针对头部指标的数据;
在一个或多个实施例中,关键指标确定装置分别获取候选关键指标集合中每个候选关键指标所对应的样本数据集合,其中,每个候选关键指标所对应的样本数据集合包括至少两个用户的样本数据,因此,样本数据集合包括至少两组样本数据。
具体地,以头部指标为“180天留存率”为例,针对该头部指标具有10个候选关键指标,假设某个候选关键指标为“点击频次”,基于此,该候选关键指标所对应的样本数据集合包括至少两组样本数据,每组样本数据对应于一个用户,例如,用户A的样本数据包括“点击频次30次”以及“180天未留存”。其中,“点击频次30次”属于第一指标数据,可表示为“30”。而“180天未留存”属于第二指标数据,可表示为“0”。
由此可见,第一指标数据为用户针对候选关键指标获取到的相关数据,而第二指标数据为用户针对头部指标获取到的相关数据。可以理解的是,对于候选关键指标集合中的其他候选关键指标而言,也采用类似方式分别获取样本数据集合,此处不进行穷举。
130、根据每个候选关键指标所对应的样本数据集合,确定每个候选关键指标所对应的目标干预效应值,其中,目标干预效应值用于表示对候选关键指标进行干预之后对头部指标产生的影响;
在一个或多个实施例中,关键指标确定装置在获取到每个候选关键指标所对应的样本数据集合之后,基于每个候选关键指标的样本数据集合,可分别计算出每个候选关键指标的目标干预效应值(例如,ATE值或CATE值)。需要说明的是,计算目标干预效应值的方式包含但不仅限于计量经济学中的多种方法,因果树(Causal Tree),贝叶斯模型,以及因果图模型和机器学习相结合的方法等。例如,元学习(Meta Learner)就是一种通过机器学习来计算ATE的算法,包含S学习器(S-learner)、T学习器(T-learner)以及X学习器(X-learner)等子算法。
具体地,假设有10个候选关键指标,则计算出10个目标干预效应值,每个目标干预效应值能够表示对候选关键指标进行干预之后对头部指标产生的影响,这里包括正向影响或负向影响,例如,目标干预效应值为2%,即表示对候选关键指标进行干预之后,头部指标可提升2%。又例如,目标干预效应值为-1%,即表示对候选关键指标进行干预之后,头部指标会下降1%。
140、根据每个候选关键指标所对应的目标干预效应值,从候选关键指标集合中确定候选关键指标作为头部指标的关键指标。
在一个或多个实施例中,关键指标确定装置根据每个候选关键指标所对应的目标干预效应值,可根据预设规则从候选关键指标集合中选择一个或多个候选关键指标作为头部指标的关键指标。示例性地,预设规则可以是,选择最大目标干预效应值所对应的候选关键指标作为头部指标的关键指标。示例性地,预设规则也可以是,选择目标干预效应值大于或等于预设值的候选关键指标作为头部指标的关键指标。
具体地,为了便于理解,请参阅图4,图4为本申请实施例中针对头部指标的一个因果关系图,如图所示,假设针对头部指标有5个候选关键指标,候选关键指标1所对应的目标干预效应值为“0.223%”,候选关键指标2所对应的目标干预效应值为“0.152%”,候选关键指标3所对应的目标干预效应值为“0.1%”,候选关键指标4所对应的目标干预效应值为“0.084%”,候选关键指标5所对应的目标干预效应值为“0.069%”。由图4可见,每个候选关键指标每提升1%时,从因果性的角度头部指标可以提升多少。且候选关键指标1给头部指标的提升最大,当候选关键指标1提升1%时,头部指标可以提升0.223%,因此,候选关键指标1即为的关键指标,也可以理解为对头部指标牵引最强的指标。
可以理解的是,在实际应用中,还可以使用将每个候选关键指标所对应的样本数据集合作为结构方程模型(Structural Equation Model,SEM),或,结构因果模型(Structural Causal Model,SCM)中,由SEM或SCM可直接输出针对头部指标的因果关系图。
本申请实施例中,提供了一种关键指标的确定方法。通过上述方式,基于因果推断的思路,对候选关键指标进行干预操作之后,确定本次干预对头部指标产生的影响力,并将影响力大小量化为目标干预效应值,通过比对各个候选关键指标的目标干预效应值,选择出针对头部指标的关键指标。由此,能够在降低人力成本的同时,从因果关系的角度找到对头部指标牵引较强的关键指标。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据每个候选关键指标所对应的样本数据集合,确定每个候选关键指标所对应的目标干预效应值,具体可以包括:
针对候选关键指标集合中的每个候选关键指标,根据候选关键指标所对应的样本数据集合生成指标变量分布,其中,指标变量分布满足候选关键指标与头部指标之间的数据变化关系;
针对候选关键指标集合中的每个候选关键指标,根据指标变量分布确定干预参数,其中,干预参数为指标变量分布对应候选关键指标的一个数值,干预参数用于将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布;
针对候选关键指标集合中的每个候选关键指标,根据干预参数以及用户画像集合,确定候选关键指标所对应的干预效应值,其中,用户画像集合包括至少两个用户的用户画像数据;
针对候选关键指标集合中的每个候选关键指标,对干预效应值进行归一化处理,得到候选关键指标所对应的目标干预效应值。
在一个或多个实施例中,介绍了一种基于样本数据集合构建指标变量分布。由前述实施例可知,对于候选关键指标集合中的每个候选关键指标,均需要确定目标干预效应值,为了便于说明,下面将以一个候选关键指标为例进行介绍,可以理解的是,其他候选关键指标的处理方式类似,故此处不做赘述。
具体地,获取候选关键指标所对应的样本数据集合,根据样本数据集合生成指标变量分布,以头部指标为“180天留存率”,候选关键指标为“点击频次”为例,样本数据集合包括10000个用户的样本数据,每个样本数据包括用户的点击频次以及180天是否留存的结果。假设有2000个用户的点击频次为30,其中,有1000个用户在180天内留存,则点击频次为30时的180天留存率为50%,由此,得到一个坐标为(30,50%)的采样点。类似地,对样本数据集合中所有的样本数据都进行类似处理,得到多个采样点,将这些采样点按照点击频次从小至大的顺序依次连接起来,即得到指标变量分布。大多数候选关键指标是一些连续变量,而对于连续变量计算干预效应值通常有两个方式,直接计算连续变量提升时的边际ATE,或者,对连续变量离散化。
为了便于理解,请参阅图5,图5为本申请实施例中指标变量分布的一个示意图,如图5中的(A)图所示,“180天留存率”可能会随着“点击频次”增加而增加,且指标变量分布为凸曲线。如图5中的(B)图所示,“180天留存率”可能会随着“点击频次”增加而下降,且指标变量分布为凸曲线。如图5中的(C)图所示,“180天留存率”可能会随着“点击频次”增加而增加,且指标变量分布为凹曲线。如图5中的(D)图所示,“180天留存率”可能会随着“点击频次”增加而下降,且指标变量分布为凹曲线。
虽然通常情况下,“点击频次”和“180天留存率”满足如图5中(C)图所示的指标变量分布。但不能排除另外三种情形的存在,因此,在实际的处理中,可人为对曲线形状进行判断,使用其正确的分类。而基于正确分类还有个目的是这个分类是kneedle算法所需要的参数。基于此,在已知连续变量分布的情况下,可以计算边际ATE。在无法得知连续变量分布的情况下,有多种方法对连续变量离散化,例如,中位数、最优分裂节点或者魔法数字等,均可以对连续变量离散化。因此,干预参数包括中位数、最优分裂节点或者魔法数字。以干预参数为魔法数字为例,利用魔法数字对连续变量离散化,非常适合于增长场景。魔法数字可以将用户分为了两个群体,而业务抓手就是把指标尽量提升超过这个魔法数字。因此,通过魔法数字来定义“干预”,是符合业务逻辑的。在得到指标变量分布之后,可使用kneedle算法自动检测拐点,kneedle算法是通过寻找曲率最大点来检测拐点的算法。
基于此,获取用户画像集合,其中,用户画像集合中用户画像与样本数据集合中的样本数据具有一一对应关系(即,对应于相同用户)。假设样本数据集合包括10000个用户的样本数据,那么用户画像集合包括10000个用户的用户画像。于是,结合用户画像集合以及干预参数,可确定干预效应值。最后,干预效应值进行标准化处理,即可得到候选关键指标所对应的目标干预效应值。
需要说明的是,在定义干预时,不仅可以将连续变量二值化。也可以将干预定义为对连续变量分布的改变或提升,例如,将连续变量分为多个桶,每个桶都移动一格,实现分布的整体移动。
可以理解的是,基于因果推断可以理解成一个虚拟的AB实验,因此,基于因果推断计算得到干预效应值可以和真实的AB实验做一些比较和校准,以此来指导线上的AB实验,例如,在流量资源有限的情况下应该先安排哪些实验。而AB实验的结果可以反过来对因果推断模型做评估和校准。
其次,本申请实施例中,提供了一种基于样本数据集合构建指标变量分布,以确定目标干预效应值的方式。通过上述方式,根据指标变量分布可确定干预参数,利用干预参数将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布,即使用干预参数来定义干预,由此,实现连续变量的离散化,使其满足干预效应值的计算,从而提升方案的可行性和可操作性。此外,量化结果来源于历史的行为数据和画像数据,因此相对客观,不会因决策人的主观感受产生偏差。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,针对候选关键指标集合中的每个候选关键指标,根据干预参数以及用户画像集合,确定候选关键指标所对应的干预效应值,具体可以包括:
针对候选关键指标集合中的每个候选关键指标,根据干预参数将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布,其中,干扰前的变量分布对应于第一标签,干扰后的变量分布对应于第二标签;
针对候选关键指标集合中的每个候选关键指标,基于M个用户的用户画像数据以及M个用户所在变量分布所对应的标签,通过待训练模型获取M个用户的预测结果,其中,预测结果为用户针对头部指标的预测数据,M为大于1的整数;
针对候选关键指标集合中的每个候选关键指标,根据M个用户的预测结果以及M个用户的第二指标数据,对待训练模型进行训练,得到目标模型;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据以及N个第一标签,通过目标模型获取N个用户的第一预测结果,其中,N个用户包含于M个用户,N为大于或等于1,且小于或等于M的整数;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据以及N个第二标签,通过目标模型获取N个用户的第二预测结果;
针对候选关键指标集合中的每个候选关键指标,根据N个用户的第一预测结果以及N个用户的第二预测结果,确定候选关键指标所对应的干预效应值。
在一个或多个实施例中,介绍了一种基于S-Learner确定干预效应值的方式。由前述实施例可知,对于候选关键指标集合中的每个候选关键指标,均需要确定干预效应值,为了便于说明,下面将以一个候选关键指标为例进行介绍,可以理解的是,其他候选关键指标的处理方式类似,故此处不做赘述。
具体地,为了便于理解,请参阅图6,图6为本申请实施例中基于指标变量分布预测干预效应值的一个示意图,如图所示,以头部指标为“180天留存率”,候选关键指标为“点击频次”为例,样本数据集合包括10000个用户的样本数据(即,M设置为10000),每个样本数据包括用户的点击频次以及180天是否留存的结果。假设有1000个用户的点击频次为10,其中,有800个用户在180天内留存,则点击频次为10时的180天留存率为80%,由此,得到一个坐标为(10,80%)的采样点。类似地,对样本数据集合中所有的样本数据都进行类似处理,得到多个采样点,将这些采样点按照点击频次从小至大的顺序依次连接起来,即得到如图6所示的指标变量分布。
基于指标变量分布确定一个干预参数,如图所示,该干预参数为10,由此,将指标变量分布划分为干扰前的变量分布(即“0桶”)以及干扰后的变量分布(即“1”桶)。干扰前的变量分布对应于第一标签,第一标签为“0”,干扰后的变量分布对应于第二标签,第二标签为“1”。
基于此,将M个用户的用户画像数据以及M个用户所在变量分布所对应的标签输入至待训练模型,由待训练模型输出每个用户的预测结果。例如,用户A的用户画像数据包括“男性”、“工程师”、“青年”和“深圳”,用户A所在变量分布所对应的标签为“0”,将这些特征拼接后输入至待训练模型,由待训练模型输出用户A的预测结果为“1”,即“180天内留存”。又例如,用户B的用户画像数据包括“女性”、“老师”、“青年”和“上海”,用户B所在变量分布所对应的标签为“1”,将这些特征拼接后输入至待训练模型,由待训练模型输出用户B的预测结果为“0”,即“180天内未留存”。
将M个用户的预测结果作为预测值,将M个用户的第二指标数据作为真实值,其中,第二指标数据为对用户进行标注的结果,例如,“0”表示该用户在180天未留存,“1”表示该用户180天留存。根据预测值和真实值之间的损失值,对待训练模型的模型参数进行更新,以得到目标模型。
在实际预测的时候,可以从全部样本中进行采样,即从M个用户中抽样出N个用户进行预测。其中,可以使用自助法(bootstrap)进行多次重抽样。经过多次重抽样之后,可生成一个置信区间。
对于N个用户而言,将这N个用户的标签均设置为第一标签(即,“0”),然后将N个用户的用户画像数据以及N个第一标签输入至目标模型,由此,输出N个用户的第一预测结果,根据N个用户的第一预测结果,可以计算出一个“180天留存率”,假设为60%。类似地,将这N个用户的标签均设置为第二标签(即,“1”),然后将N个用户的用户画像数据以及N个第二标签输入至目标模型,由此,输出N个用户的第二预测结果,根据N个用户的第二预测结果,可以计算出另一个“180天留存率”,假设为70%。于是,将两个“180天留存率”的结果进行相减,即得到候选关键指标所对应的干预效应值,例如,“70%-60%”等于10%,则该候选关键指标(即,“点击频次”)所对应的干预效应值为10%。
需要说明的是,使用用户画像数据能够代表更一般的混杂变量(confounders),但不排除有不是用户画像数据的混杂变量情况。
为了便于理解,请参阅图7,图7为本申请实施例中包括目标干预效应值以及置信区间的一个示意图,如图所示,假设候选关键指标集合包括8个候选关键指标,每个候选关键指标对应于一个置信区间(即图7中灰色线段),其中,置信区间的中心点位置即为干预效应值(即图7中的黑色点),由此可见,候选关键指标A的干预效应值最大,因此,候选关键指标A对于头部指标的牵引最强。
再次,本申请实施例中,提供了一种基于S-Learner确定干预效应值的方式,通过上述方式,利用S-Learner确定干预效应值,能够在一定程度上评估因果性。S-learner属于一种因果推断方法,且S-learner里集成了机器学习基于机器学习方法得到的是相关性的刻画,基于因果推断方法得到的是因果性的刻画,结合机器学习方法以及因果推断方法,能够真正从因果关系的角度找出对头部指标牵引最强的因子。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据干预参数、用户画像集合以及指标数据集合,确定候选关键指标所对应的干预效应值,具体可以包括:
针对候选关键指标集合中的每个候选关键指标,根据干预参数将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布,其中,干扰前的变量分布对应于P个用户的数据,干扰后的变量分布对应于Q个用户的数据,P与Q均为大于或等于1的整数;
针对候选关键指标集合中的每个候选关键指标,基于P个用户的用户画像数据,通过第一待训练模型获取P个用户的预测结果,并且,基于Q个用户的用户画像数据,通过第二待训练模型获取Q个用户的预测结果,其中,预测结果为用户针对头部指标的预测数据;
针对候选关键指标集合中的每个候选关键指标,根据P个用户的预测结果以及P个用户的第二指标数据,对第一待训练模型进行训练,得到第一目标模型,并且,根据Q个用户的预测结果以及Q个用户的第二指标数据,对第二待训练模型进行训练,得到第二目标模型;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据,通过第一目标模型获取N个用户的第一预测结果,其中,N个用户包含于(P+Q)个用户,N为大于或等于1,且小于或等于(P+Q)的整数;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据,通过第二目标模型获取N个用户的第二预测结果;
针对候选关键指标集合中的每个候选关键指标,根据N个用户的第一预测结果以及N个用户的第二预测结果,确定候选关键指标所对应的干预效应值。
在一个或多个实施例中,介绍了一种基于T-Learner确定干预效应值的方式。由前述实施例可知,对于候选关键指标集合中的每个候选关键指标,均需要确定干预效应值,为了便于说明,下面将以一个候选关键指标为例进行介绍,可以理解的是,其他候选关键指标的处理方式类似,故此处不做赘述。
具体地,为了便于理解,请参阅图8,图8为本申请实施例中基于指标变量分布预测干预效应值的另一个示意图,如图所示,以头部指标为“180天留存率”,候选关键指标为“点击频次”为例,样本数据集合包括10000个用户的样本数据(即,M设置为10000),每个样本数据包括用户的点击频次以及180天是否留存的结果。假设有1000个用户的点击频次为10,其中,有800个用户在180天内留存,则点击频次为10时的180天留存率为80%,由此,得到一个坐标为(10,80%)的采样点。类似地,对样本数据集合中所有的样本数据都进行类似处理,得到多个采样点,将这些采样点按照点击频次从小至大的顺序依次连接起来,即得到如图8所示的指标变量分布。
基于指标变量分布确定一个干预参数,如图所示,该干预参数为10,由此,将指标变量分布划分为干扰前的变量分布(即“0桶”)以及干扰后的变量分布(即“1”桶)。干扰前的变量分布对应于第一标签,第一标签为“0”,干扰后的变量分布对应于第二标签,第二标签为“1”。其中,P个用户在“0桶”内,Q个用户在“1桶”内。
基于此,分别利用“0桶”的数据和“1桶”的数据进行模型训练。将P个用户的用户画像数据输入至第一待训练模型,由第一待训练模型输出每个用户的预测结果。例如,用户A的用户画像数据包括“男性”、“工程师”、“青年”和“深圳”,将这些特征拼接后输入至第一待训练模型,由第一待训练模型输出用户A的预测结果为“1”,即“180天内留存”。将P个用户的预测结果作为预测值,将P个用户的第二指标数据作为真实值,其中,第二指标数据为对用户进行标注的结果,例如,“0”表示该用户在180天未留存,“1”表示该用户180天留存。根据预测值和真实值之间的损失值,对第一待训练模型的模型参数进行更新,以得到第一目标模型。
类似地,将Q个用户的用户画像数据输入至第二待训练模型,由第二待训练模型输出每个用户的预测结果。例如,用户B的用户画像数据包括“女性”、“老师”、“青年”和“上海”,将这些特征拼接后输入至第二待训练模型,由第二待训练模型输出用户B的预测结果为“0”,即“180天内未留存”。将Q个用户的预测结果作为预测值,将Q个用户的第二指标数据作为真实值。根据预测值和真实值之间的损失值,对第二待训练模型的模型参数进行更新,以得到第二目标模型。
在实际预测的时候,可以从全部样本中进行采样,即从(P+Q)个用户中抽样出N个用户进行预测。其中,可以使用自助法(bootstrap)进行多次重抽样。经过多次重抽样之后,可生成一个置信区间。
对于N个用户而言,将N个用户的用户画像数据输入至第一目标模型,由此,输出N个用户的第一预测结果,根据N个用户的第一预测结果,可以计算出一个“180天留存率”,假设为60%。类似地,将N个用户的用户画像数据输入至第二目标模型,由此,输出N个用户的第二预测结果,根据N个用户的第二预测结果,可以计算出另一个“180天留存率”,假设为70%。于是,将两个“180天留存率”的结果进行相减,即得到候选关键指标所对应的干预效应值,例如,“70%-60%”等于10%,则该候选关键指标(即,“点击频次”)所对应的干预效应值为10%。
再次,本申请实施例中,提供了一种基于T-Learner确定干预效应值的方式,通过上述方式,利用T-Learner确定干预效应值,能够在一定程度上评估因果性。T-learner属于一种因果推断方法,且T-learner里集成了机器学习基于机器学习方法得到的是相关性的刻画,基于因果推断方法得到的是因果性的刻画,结合机器学习方法以及因果推断方法,能够真正从因果关系的角度找出对头部指标牵引最强的因子。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,针对候选关键指标集合中的每个候选关键指标,对干预效应值进行归一化处理,得到候选关键指标所对应的目标干预效应值,具体可以包括:
针对候选关键指标集合中的每个候选关键指标,根据干扰前的变量分布确定P个用户针对候选关键指标的第一均值,并且,根据干扰后的变量分布,确定Q个用户针对候选关键指标的第二均值,其中,P与Q均为大于或等于1的整数;
针对候选关键指标集合中的每个候选关键指标,确定(P+Q)个用户针对候选关键指标的目标均值;
针对候选关键指标集合中的每个候选关键指标,根据第一均值、第二均值以及目标均值确定归一化数值;
针对候选关键指标集合中的每个候选关键指标,采用归一化数值对干预效应值进行归一化处理,得到候选关键指标所对应的目标干预效应值。
在一个或多个实施例中,介绍了一种对干预效应值进行标准化处理的方式。由前述实施例可知,对于候选关键指标集合中的每个候选关键指标,均需要确定目标干预效应值,为了便于说明,下面将以一个候选关键指标为例进行介绍,可以理解的是,其他候选关键指标的处理方式类似,故此处不做赘述。
具体地,为了能把不同的候选关键指标放在一起比较,还需要对干预效应值进行标准化处理。以头部指标为“180天留存率”,候选关键指标为“点击频次”为例,样本数据集合包括10000个用户的样本数据(即,M设置为10000)。首先,基于干扰前的变量分布确定P个用户针对候选关键指标的第一均值,假设P为8000,那么基于8000个用户的点击频次,计算得到一个第一均值(即,Q个用户的平均点击频次)。类似地,基于干扰后的变量分布确定Q个用户针对候选关键指标的第二均值,假设Q为2000(即,M-P=Q),那么基于2000个用户的点击频次,计算得到一个第二均值(即,P个用户的平均点击频次)。此外,还需要确定(P+Q)个用户针对候选关键指标的目标均值,其中,P+Q=M。基于10000个用户的点击频次,计算得到一个目标均值(即,M个用户的平均点击频次)。
基于此,采用如下公式计算归一化数值:
Normalization=|x1-x2|/x;
其中,Normalization表示归一化数值,x1表示第一均值,x2表示第二均值,x表示目标均值。
采用如下公式计算目标干预效应值:
ATE_Normal=ATE_un/Normalization;
其中,ATE_Normal表示目标干预效应值,ATE_un表示干预效应值,Normalization表示归一化数值。
再次,本申请实施例中,提供了一种对干预效应值进行标准化处理的方式,通过上述方式,计算得到干预效应值之后,为了能把不同的候选关键指标放在一起比较,还需要统一“干预”的量纲,即对干预效应值进行标准化处理,由此,根据标准化后得到的目标干预效应值,可以理解为将候选关键指标提升1%时,可以让头部指标提升多少。从而便于对候选关键指标的进行比对。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,获取针对头部指标的候选关键指标集合,具体可以包括:
获取针对头部指标的候选指标集合,其中,候选指标集合包括T个候选指标,T为大于1的整数;
获取候选指标集合中每个候选指标所对应的目标数据集合,其中,目标数据集合包括至少一个目标数据;
根据每个候选指标所对应的目标数据集合,确定每个候选指标的关联评价参数,并根据每个候选指标的关联评价参数,从候选指标集合中获取候选指标子集合,其中,关联评价参数包括相关性系数以及方差扩大因子VIF中的至少一种,候选指标子集合包括K个目标候选指标,K为大于1,且小于或等于T的整数;
对候选指标子集合中的每个目标候选指标进行特征扩充处理,得到每个目标候选指标所对应的指标特征集合,其中,指标特征集合包括至少两个指标特征;
从每个目标候选指标所对应的指标特征集合中分别选择一个指标特征作为候选关键指标,将选择的K个候选关键指标作为针对头部指标的候选关键指标集合。
在一个或多个实施例中,介绍了一种基于候选指标集合筛选出候选关键指标集合的方式。对于候选指标集合中的每个候选指标,均需要获取目标数据集合,并计算关联评价参数。对于候选指标子集合中的每个目标候选指标,均需要进行特征扩充处理,并进行候选关键指标的筛选。为了便于说明,下面将以一个候选指标以及一个目标候选指标为例进行介绍,可以理解的是,其他候选指标以及目标候选指标的处理方式类似,故此处不做赘述。
具体地,首先需要构造一个针对头部指标的候选指标集合,候选指标集合包括T个候选指标。候选指标集合包含但不仅限于行为操作、关系链以及一些子业务的行为等候选指标,其中,行为操作是指用户被记录下来的实际的行为数据,例如,点击某按钮5次等。关系链表示用户与其他用户的社交关系,例如,用户A关注了用户B,那么用户A和用户B之间就存在单向关系链,如果用户B也关注了用户A,那他们之间就存在双向关系链。
接下来,需要过滤掉候选指标集合中一些明显的非因子指标以及抓手不强的指标,得到候选指标子集合。其中,“非因子指标”表示和目标指标没有实际关系或不存在因果效应的指标,例如,在应用A中浏览新闻的行为和删除好友的行为之间明显不存在因果关系,因此,在应用A中浏览新闻就是删好友的非因子指标。“抓手不强的指标”是指难以直接通过一系列运营操作来提升或改变的指标。在获取候选指标子集合之前,需要先获取候选指标集合中每个候选指标所对应的目标数据集合,其中,目标数据集合包括至少一个目标数据,为了便于理解,请参阅表1,表1为5个候选指标所对应的目标数据集合。
表1
可见,每一列的数据为一个候选指标所对应的目标数据集合。
基于此,再精简候选指标集合,消除候选指标之间的共线性。这一步可以使用时序数据,实际情况下,也可以使用用户粒度的数据。然后根据每个候选指标所对应的目标数据集合,确定每个候选指标的关联评价参数。其中,关联评价参数包含但仅限于方差扩大因子(Variance Inflation Factor,VIF)和相关性系数,相关性系数是皮尔逊相关系数(Pearson correlation coefficient)或者余弦相似系数等,此处不做限定。
于是,根据每个候选指标的关联评价参数,从候选指标集合中获取候选指标子集合,候选指标子集合包括K个目标候选指标。需要说明的是,可以从候选指标集合中筛除业务含义上强相关或口径只有细微差别的指标,每种业务含义的指标只保留1个,去除了一些渗透率很小的子产品或功能。其中,渗透率表示某个产品或功能的用户在总用户中所占的比例,而口径表示包含具体计算逻辑的指标定义。
在得到候选指标子集合之后,将候选指标子集合中的各个候选指标称为“目标候选指标”。基于此,对每个目标候选指标进行特征扩充处理,由此,得到每个目标候选指标所对应的指标特征集合,其中,指标特征集合包括至少两个指标特征。最后,在每个目标候选指标所对应的指标特征集合中分别选择一个指标特征作为候选关键指标,由于候选指标子集合包括K个目标候选指标,因此,基于K个目标候选指标的指标特征集合,能够筛选出K个候选关键指标,这K个候选关键指标即构成针对头部指标的候选关键指标集合。
其次,本申请实施例中,提供了一种基于候选指标集合筛选出候选关键指标集合的方式,通过上述方式,先从候选指标集合筛选出候选指标子集合,再对候选指标子集合中的目标候选指标进行特征扩充,使其特征内容更加丰富,最后,从扩充的指标特征集合中选择出候选关键指标集合中的候选关键指标。由此,不仅丰富了指标特征,而且也并没有增加特征量,从而提升指标处理的灵活性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,关联评价参数包括VIF;
根据每个候选指标所对应的目标数据集合,确定每个候选指标的关联评价参数,并根据每个候选指标的关联评价参数,从候选指标集合中获取候选指标子集合,具体可以包括:
针对候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及候选指标集合中每个候选指标所对应的目标数据集合,确定候选指标所对应的第一VIF;
若候选指标集合中存在候选指标所对应的第一VIF大于或等于VIF阈值,则从候选指标集合中去掉第一VIF大于或等于VIF阈值的至少一个候选指标,以得到第一候选指标集合;
针对第一候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及第一候选指标集合中每个候选指标所对应的目标数据集合,确定候选指标所对应的第二VIF;
若第一候选指标集合中所有候选指标所对应的第二VIF均小于VIF阈值,则将第一候选指标集合作为候选指标子集合。
在一个或多个实施例中,介绍了一种基于VIF从候选指标集合中筛选候选指标子集合的方式。由前述实施例可知,关联评价参数包括VIF,即可基于VIF筛选出候选指标子集合。VIF的取值大于1。VIF越接近于1,多重共线性越轻,反之越重。当多重共线性严重时,应采取适当的方法进行调整,例如,删减某些VIF较大的候选指标。
具体地,对于候选指标集合中的每个候选指标,均需要计算第一VIF,为了便于说明,下面将以一个候选指标为例进行介绍,可以理解的是,其他候选指标计算第一VIF的方式类似,故此处不做赘述。首先,假设候选指标集合包括20个候选指标(即,T设置为20),以候选指标A为例,可采用如下方式计算候选指标A的第一VIF:
VIFA=Mii/|P|
其中,VIFA表示候选指标A的第一VIF,|P|表示相关系数矩阵,Mii表示相关系数矩阵的第i行第i列去掉之后,剩下部分的计算行列式。
可以理解的是,相关系数矩阵包含但不仅限于由皮尔逊相关系数构成的矩阵,或者,由余弦相似度构成的矩阵。且相关系数矩阵的计算需要基于两两候选指标分别对应的目标数据集合进行计算,由此得到相关性系数。
类似地,对候选指标集合中的其他候选指标也采用上述方式进行计算,分别得到每个候选指标的第一VIF。假设候选指标集合包括的20个候选指标中有5个候选指标的第一VIF大于或等于VIF阈值(VIF阈值可设置为5,或其他取值),于是,从这5个候选指标中去掉一个或多个候选指标。示例性地,每次迭代,可以仅去除一个第一VIF最大的候选指标,例如,从5个候选指标去除候选指标A,但保留另外4个候选指标,并进行下一次迭代计算。示例性地,每次迭代,也可以去除多个第一VIF最大的候选指标,例如,从5个候选指标去除候选指标A、候选指标B和候选指标C,但保留另外2个候选指标,并进行下一次迭代计算。
去掉一个或多个第一VIF大于或等于VIF阈值的候选指标之后,剩余的这些候选指标构成第一候选指标集合。基于此,基于第一候选指标集合进入下一轮迭代计算。
在下一轮迭代计算中,重新对第一候选指标集合的每个候选指标,均需要计算第二VIF。假设第一候选指标集合包括19个候选指标,以候选指标B为例,可采用如下方式计算候选指标B的第二VIF:
VIFB=Mii/|P|
其中,VIFB表示候选指标B的第二VIF。
类似地,对第一候选指标集合中的其他候选指标也采用上述方式进行计算,分别得到每个候选指标的第二VIF。假设第一候选指标集合包括的19个候选指标中所有候选指标的第二VIF均小于VIF阈值,由此,可直接将第一候选指标集合作为候选指标子集合。但是如果第一候选指标集合包中仍有至少一个候选指标的第二VIF大于或等于VIF阈值,则需要继续进行候选指标的剔除,以及VIF的计算,直至所有候选指标的VIF都大于或等于VIF阈值。
再次,本申请实施例中,提供了一种基于VIF从候选指标集合中筛选候选指标子集合的方式,通过上述方式,采用VIF可以度量候选指标之间多重共线性的严重程度,多重共线性是指自变量之间存在线性相关关系,即一个自变量可以是其他一个或几个自变量的线性组合。因此,通过剔除VIF较大的候选指标,能够去除具有强相关的候选指标,得到候选指标子集合,由此,增加候选指标子集合中的目标候选指标之间的特征正交程度,有利于在后续提升后续回归或分类的效果。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,关联评价参数包括相关性系数;
根据每个候选指标所对应的目标数据集合,确定每个候选指标的关联评价参数,并根据每个候选指标的关联评价参数,从候选指标集合中获取候选指标子集合,具体可以包括:
针对候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及候选指标集合中每个候选指标所对应的目标数据集合,确定候选指标所对应的T个相关性系数;
根据每个候选指标所对应的T个相关性系数,对(T*T)个相关性系数进行排序,得到相关性系数从大到小排序的相关性系数序列,其中,相关性系数序列的前W个相关性系数为目标序列;
针对候选指标集合的每个候选指标,若候选指标所对应的T个相关性系数属于目标序列的个数大于或等于个数阈值,则从候选指标集合中去掉个数大于或等于个数阈值候选指标,以得到候选指标子集合。
在一个或多个实施例中,介绍了一种基于相关性系数从候选指标集合中筛选候选指标子集合的方式。由前述实施例可知,关联评价参数包括相关性系数,即可基于相关性系数筛选出候选指标子集合。这里的相关性系数是指候选指标之间的两两相关性,因此,可生成一个相关性矩阵,通过相关性矩阵更直观地反映出候选指标的相关程度。
为了便于理解,请参阅图9,图9为本申请实施例中基于相关性矩阵的一个热力示意图,如图所示,数值越大,色块越深,即相关性越强。例如,候选指标B与候选指标A的相关性系数为0.99.候选指标D与候选指标A的相关性系数为0.23。
具体地,对于候选指标集合中的每个候选指标,均需要计算相关性系数,为了便于说明,下面将以一个候选指标为例进行介绍,可以理解的是,其他候选指标计算相关性系数的方式类似,故此处不做赘述。以图9为例,假设候选指标集合包括6个候选指标(即,T设置为6),以候选指标A为例,可计算出6个相关性系数。类似地,对候选指标集合中的其他候选指标也采用上述方式进行计算,分别得到每个候选指标的相关性系数。最终,可得到36(即T*T)个相关性系数。为了便于介绍,请参阅表2,表2为按照相关性系数从大到小排序后得到的相关性系数序列。
表2
可见,两两候选指标具有一个相关性系数,假设将前10个相关性系数(即,W设置为10)作为一个目标序列,基于此,以候选指标A为例,确定其对应的相关性系数在目标序列中的个数,以表2为例,“候选指标A与候选指标A”的相关性系数、“候选指标A与候选指标B”的相关性系数、“候选指标A与候选指标C”的相关性系数以及“候选指标A与候选指标E”的相关性系数,均在目标序列中,因此,个数为4。假设预先设定的个数阈值为3,那么候选指标所对应的个数大于个数阈值,因此,从候选指标集合中去掉候选指标A。可以理解的是,对候选指标集合中的其他候选指标也采用上述方式判定是否需要剔除,最终可得到候选指标子集合。
再次,本申请实施例中,提供了一种基于相关性系数从候选指标集合中筛选候选指标子集合的方式,通过上述方式,采用相关性系数可以度量候选指标之间的相似程度,因此,通过剔除相关性系数较大的候选指标,能够去除具有强相关的候选指标,得到候选指标子集合,由此,增加候选指标子集合中的目标候选指标之间的特征正交程度,有利于在后续提升后续回归或分类的效果。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,对候选指标子集合中的每个目标候选指标进行特征扩充处理,得到每个目标候选指标所对应的指标特征集合,具体可以包括:
针对候选指标子集合中的每个目标候选指标,根据时间窗口值对目标候选指标进行扩充处理,得到目标候选指标的指标特征集合,其中;时间窗口值表示数据聚合的时长;
或者,
针对候选指标子集合中的每个目标候选指标,根据时间偏移量对目标候选指标进行扩充处理,得到目标候选指标的指标特征集合,其中;时间偏移量表示数据延迟的时长;
或者,
针对候选指标子集合中的每个目标候选指标,根据时间窗口值以及时间偏移量对目标候选指标进行扩充处理,得到目标候选指标的指标特征集合。
在一个或多个实施例中,介绍了一种扩充得到指标特征集合的方式。由前述实施例可知,对于候选指标子集合中的每个目标候选指标,均需要进行特征扩充处理,为了便于说明,下面将以一个目标候选指标为例进行介绍,可以理解的是,其他目标候选指标的扩充方式类似,故此处不做赘述。
具体地,在候选指标子集合之后,还可以使用时间窗口值和时间偏移量中的至少一种,对每个他目标候选指标进行扩展。
一、采用时间窗口值对目标候选指标进行扩充处理;
示例性地,假设目标候选指标为“点击频次”,时间窗口值可包括“聚合1天至7天”、“聚合1天至14天”以及“聚合1天至30天”,由此,目标候选指标的指标特征集合包括“聚合1天至7天点击频次”的指标特征、“聚合1天至14天点击频次”的指标特征和“聚合1天至30天点击频次”的指标特征。在这个过程中,业务方(例如,运营或者产品经理等)可以帮助缩小搜索空间,例如,业务上判断一周内的行为才认为是粘性的体现,超过1周的频次很难认为与粘性有关,那么就可以只使用7天的聚合窗口,而不再考虑比如14天的时间窗口值和30天的时间窗口值。
本申请中的聚合可以理解为相加或者按天平均,在处理时保持一致即可。
二、采用时间偏移量对目标候选指标进行扩充处理;
示例性地,假设目标候选指标为“点击频次”,时间偏移量可包括“3天前”、“7天前”以及“15天前”,由此,目标候选指标的指标特征集合包括“3天前点击频次”的指标特征、“7天前点击频次”的指标特征和“15天前点击频次”的指标特征。由于一个行为发生后,其效果不是马上在另一个指标上体现出来,而是过一段时间后体现出来。而把指标做个偏移后再计算相关,取相关性最大的可以认为是对应的滞后天数。
三、采用时间窗口值以及时间偏移量对目标候选指标进行扩充处理;
示例性地,假设目标候选指标为“点击频次”,时间窗口值和时间偏移量组合可包括“聚合1天至7天-3天前”、“聚合1天至14天-7天前”以及“聚合1天至30天-10天前”。由此,目标候选指标的指标特征集合包括“聚合3天前的7天点击频次”的指标特征、“聚合7天前的14天点击频次”的指标特征和“聚合10天前的30天点击频次”的指标特征。
由此可见,由于本申请是在计算机中做反事实推理,也就是推断并没有实际发生的事情,不需要真实地跑半年甚至一年的数据,而是使用更短周期(例如,一周或一个月)的数据即可进行后续计算。
再次,本申请实施例中,提供了一种扩充得到指标特征集合的方式,通过上述方式,可以对目标候选指标进行特征扩充处理,且扩充的方向主要包括时间窗口值以及时间偏移量,利用时间窗口值对时间维度上的特征进行聚合,从而能够避免偶发性情况,增加数据的可信度,利用时间偏移量能够把滞后性量化表示出来。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,从每个目标候选指标所对应的指标特征集合中分别选择一个指标特征作为候选关键指标,具体可以包括:
根据每个目标候选指标所对应的指标特征集合,获取S组用户数据集合,其中,每组用户数据集合包括至少一个用户的用户数据,用户数据包括针对每个目标候选指标的每个指标特征所对应的数据,S为大于1的整数;
基于S组用户数据集合中的每个用户数据集合,通过指标预测模型获取每个用户的目标预测结果;
根据每个用户的目标预测结果,确定每个用户针对每个指标特征的沙普利SHAP值;
根据每个用户针对每个指标特征的SHAP值,确定每个指标特征的目标SHAP值,其中,目标SHAP值为针对同一个指标特征的各个用户所对应SHAP值的加和结果;
针对每个目标候选指标,从目标候选指标所对应的指标特征集合中选择目标SHAP值最大的指标特征作为候选关键指标。
在一个或多个实施例中,介绍了一种基于目标SHAP值筛选候选关键指标集合的方式。由前述实施例可知,可使用SHAP值将不同指标特征对头部指标的重要性量化处理,通过SHAP值,可得到指标特征的重要性排序,进而挑选重要的指标特征,进一步减少指标特征的数量。
具体地,在得到每个目标候选指标所对应的指标特征集合之后,可获取S组用户数据集合。假设候选指标子集合有2个目标候选指标,分别为目标候选指标A和目标候选指标B,其中,目标候选指标A所对应的指标特征集合包括指标特征1和指标特征2,目标候选指标B所对应的指标特征集合包括指标特征3和指标特征4。基于此,以用户A为例,该用户A的用户数据包括指标特征1对应的数据、指标特征2对应的数据、指标特征3对应的数据和指标特征4对应的数据。
计算SHAP值的时候,需要对多组用户数据集合(即,S大于1)进行预测。需要说明的是,精确的SHAP值必须通过使用和不使用第j个特征的所有可能特征集合来估计,当特征数较多时,可能的联盟数量会随着特征的增加而呈指数增长,因此,蒙特卡罗采样的近似值,即得到近似的SHAP值。
基于此,对将每组用户数据集合分别输入至指标预测模型,由指标预测模型输出针对每组用户数据集合的每个用户的目标预测结果。根据每个用户的目标预测结果,确定每个用户针对每个指标特征的沙普利SHAP值。为了便于理解,请参阅图10,图10为本申请实施例中沙普利SHAP值的一个摘要示意图,如图所示,摘要图结合了特征重要度和特征的影响。摘要图上的每个点都是一个特征和一个实例的SHAP值,Y轴上的位置由特征决定,X轴上的位置由SHAP值决定,颜色深浅代表特征值从小到大,重叠点在Y轴方向上抖动,因此,可以了解每个特征的SHAP值分布。
需要说明的是,SHAP值高有两种可能性,第一种可能性是,少量样本非常重要,拉高了整个指标特征的平均SHAP值。第二种可能性是,多数样本都比较重要,因此,指标特征的整体的SHAP值高。本申请希望满足第二种可能性,因此,使用SHAP值摘要图来协助判断,可给出每个特征上每个样本的SHAP值。
于是,将同一个指标特征下的各个用户的SHAP值进行加和,由此,得到每个指标特征的目标SHAP值。为了便于理解,请参阅图11,图11为本申请实施例中对目标沙普利SHAP值进行排序后的一个示意图,如图所示,左图按照目标SHAP值的降序对30个指标特征进行排列,由此,对于相同目标候选指标下的指标特征集合而言,分别选择目标SHAP值最大的指标特征作为候选关键指标。例如,目标候选指标A的指标特征集合包括指标特征3、指标特征15、指标特征22和指标特征30,因此,将指标特征3作为候选关键指标。
再次,本申请实施例中,提供了一种基于目标SHAP值筛选候选关键指标集合的方式,通过上述方式,利用指标预测模型输出的预测结果计算SHAP值,SHAP值能够用于测量不同指标特征对预测的重要性,即反映出候选关键指标对头部指标的相关性,由此,选择对头部指标相关性较大的指标特征作为候选关键指标,一方面能够选择出符合牵引要求的指标,另一方面有助于计算得到更加准确的干预效应值。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
根据每个目标候选指标所对应的指标特征集合,获取待训练数据集合,其中,待训练数据集合包括至少两个用户的待训练数据以及第二指标数据,待训练数据包括针对每个目标候选指标的每个指标特征所对应的数据;
基于至少两个用户的待训练数据,通过待训练指标预测模型获取每个用户的预测结果,其中,预测结果为用户针对头部指标的预测数据;
根据每个用户的预测结果以及每个用户的第二指标数据,对待训练指标预测模型的模型参数进行更新,直至满足模型训练条件,得到指标预测模型。
在一个或多个实施例中,介绍了一种训练指标预测模型的方式。由前述实施例可知,在得到每个目标候选指标所对应的指标特征集合之后,可获取待训练数据集合。假设候选指标子集合有2个目标候选指标,分别为目标候选指标A和目标候选指标B,其中,目标候选指标A所对应的指标特征集合包括指标特征1和指标特征2,目标候选指标B所对应的指标特征集合包括指标特征3和指标特征4。基于此,以用户A为例,该用户A的待训练数据包括指标特征1对应的数据、指标特征2对应的数据、指标特征3对应的数据和指标特征4对应的数据。该用户A的第二指标数据为用户A针对头部指标的数据。
具体地,将每个用户的待训练数据作为待训练指标预测模型的输入,由待训练指标预测模型输出每个用户的预测结果。需要说明的是,对于具有分类性质的头部指标而言(例如,用户是否留存),可采用分类器(例如,极端梯度提升(XGboost))作为待训练指标预测模型的模型类型。对于具有数值性质的头部而言(例如,上线时长),可采用回归模型作为待训练指标预测模型的模型类型。
将待训练指标预测模型输出的每个用户的预测结果作为预测值,将每个用户的第二指标数据作为真实值,由此,可采用损失函数计算真实值和预测值的损失值,利用损失值对待训练指标预测模型模型参数进行更新,直至满足模型训练条件,得到指标预测模型。
可以理解的是,当达到预设迭代次数时,即满足模型训练条件。或者,当损失值收敛时,即满足模型训练条件。
进一步地,本申请实施例中,提供了一种训练指标预测模型的方式,通过上述方式,结合头部指标的类型,选择合适的模型类型训练得到指标预测模型,由此,可利用指标预测模型,实现SHAP值的计算,从而提升方案的可行性和可操作性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
显示针对头部指标的因果关系图,其中,因果关系图包括目标节点、至少一个子节点以及至少一条有向连边,目标节点用于显示头部指标,每个子节点用于显示候选关键指标,每条有向连边从子节点指向目标节点,因果关系图显示每个候选关键指标针对头部指标的目标干预效应值。
在一个或多个实施例中,介绍了一种显示目标干预效应值的方式。在计算出每个候选关键指标的目标干预效应值之后,还可以显示相应的因果关系图。
具体地,因果关系图包括目标节点、至少一个子节点以及至少一条有向连边,其中,目标节点用于显示头部指标,而每个子节点用于显示候选关键指标,每条有向连边的权重即为目标干预效应值。
为了便于理解,请参阅图12,图12为本申请实施例中显示因果关系图的一个界面示意图,如图所示,假设针对头部指标有5个候选关键指标,候选关键指标1所对应的目标干预效应值为“0.223%”,候选关键指标2所对应的目标干预效应值为“0.152%”,候选关键指标3所对应的目标干预效应值为“0.1%”,候选关键指标4所对应的目标干预效应值为“0.084%”,候选关键指标5所对应的目标干预效应值为“0.069%”。由图12可见,每个候选关键指标每提升1%时,从因果性的角度头部指标可以提升多少。且候选关键指标1给头部指标的提升最大,当候选关键指标1提升1%时,头部指标可以提升0.223%,因此,候选关键指标1即为的关键指标,也可以理解为对头部指标牵引最强的指标。进一步地,候选关键指标4、候选关键指标5、候选关键指标6和候选关键指标7是针对候选关键指标1的其他候选关键指标。其中,候选关键指标6是对候选关键指标1的最强牵引指标,当候选关键指标6提升1%时,候选关键指标1提升0.362%。候选关键指标6是对头部指标的二阶牵引,是实现增长的具体路径。
此外,用户点击“重置头部指标”之后,还可以输入新的头部指标,以生成新的因果关系图。用户点击“打印”之后,还可以打印当前界面上显示的因果关系图。图示中还可以同时给出对应的魔法数字,这个魔法数字可以在具体的增长策略中发挥作用。
可以理解的是,使用本申请提供的方法可以进一步做二阶、三阶以及N阶的归因,例如,使用同样的方法再计算不同因子对候选关键指标6的目标干预效应值,从而绘制出不同指标之间的因果图。此外,还可以提供定量给出魔法数字,并自动对一阶牵引指标做二阶牵引分析,从而给出提升指标的实操路径。
其次,本申请实施例中,提供了一种显示目标干预效应值的方式,通过上述方式,在计算出每个候选关键指标的目标干预效应值之后,不仅可以显示每个候选关键指标对于头部指标的目标干预效应值,还可以显示多阶牵引指标的目标干预效应值。由此,直接给出量化的评估结果,并实现流程上的自动化,达到节省人力的目的。此外,还可以在调度任务时重新评估候选关键指标的目标干预效应值,以此达到例行化和常态化的处理效果。
下面对本申请中的关键指标确定装置进行详细描述,请参阅图13,图13为本申请实施例中关键指标确定装置的一个实施例示意图,关键指标确定装置20包括:
获取模块210,用于获取针对头部指标的候选关键指标集合,其中,头部指标为预先确定的指标,候选关键指标集合包括至少两个候选关键指标;
获取模块210,还用于获取候选关键指标集合中每个候选关键指标所对应的样本数据集合,其中,样本数据集合包括至少两组样本数据,每组样本数据包括第一指标数据以及第二指标数据,第一指标数据为用户针对候选关键指标的数据,第二指标数据为用户针对头部指标的数据;
确定模块220,用于根据每个候选关键指标所对应的样本数据集合,确定每个候选关键指标所对应的目标干预效应值,其中,目标干预效应值用于表示对候选关键指标进行干预之后对头部指标产生的影响;
确定模块220,还用于根据每个候选关键指标所对应的目标干预效应值,从候选关键指标集合中确定候选关键指标作为头部指标的关键指标。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,基于因果推断的思路,对候选关键指标进行干预操作之后,确定本次干预对头部指标产生的影响力,并将影响力大小量化为目标干预效应值,通过比对各个候选关键指标的目标干预效应值,选择出针对头部指标的关键指标。由此,能够在降低人力成本的同时,从因果关系的角度找到对头部指标牵引较强的关键指标。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,
确定模块220,具体用于针对候选关键指标集合中的每个候选关键指标,根据候选关键指标所对应的样本数据集合生成指标变量分布,其中,指标变量分布满足候选关键指标与头部指标之间的数据变化关系;
针对候选关键指标集合中的每个候选关键指标,根据指标变量分布确定干预参数,其中,干预参数为指标变量分布对应候选关键指标的一个数值,干预参数用于将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布;
针对候选关键指标集合中的每个候选关键指标,根据干预参数以及用户画像集合,确定候选关键指标所对应的干预效应值,其中,用户画像集合包括至少两个用户的用户画像数据;
针对候选关键指标集合中的每个候选关键指标,对干预效应值进行归一化处理,得到候选关键指标所对应的目标干预效应值。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,根据指标变量分布可确定干预参数,利用干预参数将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布,即使用干预参数来定义干预,由此,实现连续变量的离散化,使其满足干预效应值的计算,从而提升方案的可行性和可操作性。此外,量化结果来源于历史的行为数据和画像数据,因此相对客观,不会因决策人的主观感受产生偏差。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,
确定模块220,具体用于针对候选关键指标集合中的每个候选关键指标,根据干预参数将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布,其中,干扰前的变量分布对应于第一标签,干扰后的变量分布对应于第二标签;
针对候选关键指标集合中的每个候选关键指标,基于M个用户的用户画像数据以及M个用户所在变量分布所对应的标签,通过待训练模型获取M个用户的预测结果,其中,预测结果为用户针对头部指标的预测数据,M为大于1的整数;
针对候选关键指标集合中的每个候选关键指标,根据M个用户的预测结果以及M个用户的第二指标数据,对待训练模型进行训练,得到目标模型;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据以及N个第一标签,通过目标模型获取N个用户的第一预测结果,其中,N个用户包含于M个用户,N为大于或等于1,且小于或等于M的整数;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据以及N个第二标签,通过目标模型获取N个用户的第二预测结果;
针对候选关键指标集合中的每个候选关键指标,根据N个用户的第一预测结果以及N个用户的第二预测结果,确定候选关键指标所对应的干预效应值。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,利用S-Learner确定干预效应值,能够在一定程度上评估因果性。S-learner属于一种因果推断方法,且S-learner里集成了机器学习基于机器学习方法得到的是相关性的刻画,基于因果推断方法得到的是因果性的刻画,结合机器学习方法以及因果推断方法,能够真正从因果关系的角度找出对头部指标牵引最强的因子。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,
确定模块220,具体用于针对候选关键指标集合中的每个候选关键指标,根据干预参数将指标变量分布划分为干扰前的变量分布以及干扰后的变量分布,其中,干扰前的变量分布对应于P个用户的数据,干扰后的变量分布对应于Q个用户的数据,P与Q均为大于或等于1的整数;
针对候选关键指标集合中的每个候选关键指标,基于P个用户的用户画像数据,通过第一待训练模型获取P个用户的预测结果,并且,基于Q个用户的用户画像数据,通过第二待训练模型获取Q个用户的预测结果,其中,预测结果为用户针对头部指标的预测数据;
针对候选关键指标集合中的每个候选关键指标,根据P个用户的预测结果以及P个用户的第二指标数据,对第一待训练模型进行训练,得到第一目标模型,并且,根据Q个用户的预测结果以及Q个用户的第二指标数据,对第二待训练模型进行训练,得到第二目标模型;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据,通过第一目标模型获取N个用户的第一预测结果,其中,N个用户包含于(P+Q)个用户,N为大于或等于1,且小于或等于(P+Q)的整数;
针对候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据,通过第二目标模型获取N个用户的第二预测结果;
针对候选关键指标集合中的每个候选关键指标,根据N个用户的第一预测结果以及N个用户的第二预测结果,确定候选关键指标所对应的干预效应值。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,利用T-Learner确定干预效应值,能够在一定程度上评估因果性。T-learner属于一种因果推断方法,且T-learner里集成了机器学习基于机器学习方法得到的是相关性的刻画,基于因果推断方法得到的是因果性的刻画,结合机器学习方法以及因果推断方法,能够真正从因果关系的角度找出对头部指标牵引最强的因子。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,
确定模块220,具体用于针对候选关键指标集合中的每个候选关键指标,根据干扰前的变量分布确定P个用户针对候选关键指标的第一均值,并且,根据干扰后的变量分布,确定Q个用户针对候选关键指标的第二均值,其中,P与Q均为大于或等于1的整数;
针对候选关键指标集合中的每个候选关键指标,确定(P+Q)个用户针对候选关键指标的目标均值;
针对候选关键指标集合中的每个候选关键指标,根据第一均值、第二均值以及目标均值确定归一化数值;
针对候选关键指标集合中的每个候选关键指标,采用归一化数值对干预效应值进行归一化处理,得到候选关键指标所对应的目标干预效应值。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,计算得到干预效应值之后,为了能把不同的候选关键指标放在一起比较,还需要统一“干预”的量纲,即对干预效应值进行标准化处理,由此,根据标准化后得到的目标干预效应值,可以理解为将候选关键指标提升1%时,可以让头部指标提升多少。从而便于对候选关键指标的进行比对。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,
获取模块210,具体用于获取针对头部指标的候选指标集合,其中,候选指标集合包括T个候选指标,T为大于1的整数;
获取候选指标集合中每个候选指标所对应的目标数据集合,其中,目标数据集合包括至少一个目标数据;
根据每个候选指标所对应的目标数据集合,确定每个候选指标的关联评价参数,并根据每个候选指标的关联评价参数,从候选指标集合中获取候选指标子集合,其中,关联评价参数包括相关性系数以及方差扩大因子VIF中的至少一种,候选指标子集合包括K个目标候选指标,K为大于1,且小于或等于T的整数;
对候选指标子集合中的每个目标候选指标进行特征扩充处理,得到每个目标候选指标所对应的指标特征集合,其中,指标特征集合包括至少两个指标特征;
从每个目标候选指标所对应的指标特征集合中分别选择一个指标特征作为候选关键指标,将选择的K个候选关键指标作为针对头部指标的候选关键指标集合。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,先从候选指标集合筛选出候选指标子集合,再对候选指标子集合中的目标候选指标进行特征扩充,使其特征内容更加丰富,最后,从扩充的指标特征集合中选择出候选关键指标集合中的候选关键指标。由此,不仅丰富了指标特征,而且也并没有增加特征量,从而提升指标处理的灵活性。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,关联评价参数包括VIF;
获取模块210,具体用于针对候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及候选指标集合中每个候选指标所对应的目标数据集合,确定候选指标所对应的第一VIF;
若候选指标集合中存在候选指标所对应的第一VIF大于或等于VIF阈值,则从候选指标集合中去掉第一VIF大于或等于VIF阈值的至少一个候选指标,以得到第一候选指标集合;
针对第一候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及第一候选指标集合中每个候选指标所对应的目标数据集合,确定候选指标所对应的第二VIF;
若第一候选指标集合中所有候选指标所对应的第二VIF均小于VIF阈值,则将第一候选指标集合作为候选指标子集合。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,采用VIF可以度量候选指标之间多重共线性的严重程度,多重共线性是指自变量之间存在线性相关关系,即一个自变量可以是其他一个或几个自变量的线性组合。因此,通过剔除VIF较大的候选指标,能够去除具有强相关的候选指标,得到候选指标子集合,由此,增加候选指标子集合中的目标候选指标之间的特征正交程度,有利于在后续提升后续回归或分类的效果。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,关联评价参数包括相关性系数;
获取模块210,具体用于针对候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及候选指标集合中每个候选指标所对应的目标数据集合,确定候选指标所对应的T个相关性系数;
根据每个候选指标所对应的T个相关性系数,对(T*T)个相关性系数进行排序,得到相关性系数从大到小排序的相关性系数序列,其中,相关性系数序列的前W个相关性系数为目标序列;
针对候选指标集合的每个候选指标,若候选指标所对应的T个相关性系数属于目标序列的个数大于或等于个数阈值,则从候选指标集合中去掉个数大于或等于个数阈值候选指标,以得到候选指标子集合。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,采用相关性系数可以度量候选指标之间的相似程度,因此,通过剔除相关性系数较大的候选指标,能够去除具有强相关的候选指标,得到候选指标子集合,由此,增加候选指标子集合中的目标候选指标之间的特征正交程度,有利于在后续提升后续回归或分类的效果。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,
获取模块210,具体用于针对候选指标子集合中的每个目标候选指标,根据时间窗口值对目标候选指标进行扩充处理,得到目标候选指标的指标特征集合,其中;时间窗口值表示数据聚合的时长;
或者,
针对候选指标子集合中的每个目标候选指标,根据时间偏移量对目标候选指标进行扩充处理,得到目标候选指标的指标特征集合,其中;时间偏移量表示数据延迟的时长;
或者,
针对候选指标子集合中的每个目标候选指标,根据时间窗口值以及时间偏移量对目标候选指标进行扩充处理,得到目标候选指标的指标特征集合。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,可以对目标候选指标进行特征扩充处理,且扩充的方向主要包括时间窗口值以及时间偏移量,利用时间窗口值对时间维度上的特征进行聚合,从而能够避免偶发性情况,增加数据的可信度,利用时间偏移量能够把滞后性量化表示出来。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,
获取模块210,具体用于根据每个目标候选指标所对应的指标特征集合,获取S组用户数据集合,其中,每组用户数据集合包括至少一个用户的用户数据,用户数据包括针对每个目标候选指标的每个指标特征所对应的数据,S为大于1的整数;
基于S组用户数据集合中的每个用户数据集合,通过指标预测模型获取每个用户的目标预测结果;
根据每个用户的目标预测结果,确定每个用户针对每个指标特征的沙普利SHAP值;
根据每个用户针对每个指标特征的SHAP值,确定每个指标特征的目标SHAP值,其中,目标SHAP值为针对同一个指标特征的各个用户所对应SHAP值的加和结果;
针对每个目标候选指标,从目标候选指标所对应的指标特征集合中选择目标SHAP值最大的指标特征作为候选关键指标。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,利用指标预测模型输出的预测结果计算SHAP值,SHAP值能够用于测量不同指标特征对预测的重要性,即反映出候选关键指标对头部指标的相关性,由此,选择对头部指标相关性较大的指标特征作为候选关键指标,一方面能够选择出符合牵引要求的指标,另一方面有助于计算得到更加准确的干预效应值。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,关键指标确定装置20还包括训练模块230;
获取模块210,还用于根据每个目标候选指标所对应的指标特征集合,获取待训练数据集合,其中,待训练数据集合包括至少两个用户的待训练数据以及第二指标数据,待训练数据包括针对每个目标候选指标的每个指标特征所对应的数据;
获取模块210,还用于基于至少两个用户的待训练数据,通过待训练指标预测模型获取每个用户的预测结果,其中,预测结果为用户针对头部指标的预测数据;
训练模块230,用于根据每个用户的预测结果以及每个用户的第二指标数据,对待训练指标预测模型的模型参数进行更新,直至满足模型训练条件,得到指标预测模型。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,结合头部指标的类型,选择合适的模型类型训练得到指标预测模型,由此,可利用指标预测模型,实现SHAP值的计算,从而提升方案的可行性和可操作性。
可选地,在上述图13所对应的实施例的基础上,本申请实施例提供的关键指标确定装置20的另一实施例中,关键指标确定装置20还包括显示模块240;
显示模块240,用于显示针对头部指标的因果关系图,其中,因果关系图包括目标节点、至少一个子节点以及至少一条有向连边,目标节点用于显示头部指标,每个子节点用于显示候选关键指标,每条有向连边从子节点指向目标节点,因果关系图显示每个候选关键指标针对头部指标的目标干预效应值。
本申请实施例中,提供了一种关键指标确定装置。采用上述装置,在计算出每个候选关键指标的目标干预效应值之后,不仅可以显示每个候选关键指标对于头部指标的目标干预效应值,还可以显示多阶牵引指标的目标干预效应值。由此,直接给出量化的评估结果,并实现流程上的自动化,达到节省人力的目的。此外,还可以在调度任务时重新评估候选关键指标的目标干预效应值,以此达到例行化和常态化的处理效果。
本申请实施例还提供了另一种关键指标确定装置,该关键指标确定装置可部署于终端设备。如图14所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。在本申请实施例中,以终端设备为智能手机为例进行说明:
图14示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图14,智能手机包括:射频(radio frequency,RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity,WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解,图14中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图14对智能手机的各个构成部件进行具体的介绍:
RF电路310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器380处理;另外,将设计上行的数据发送给基站。通常,RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器320可用于存储软件程序以及模块,处理器380通过运行存储在存储器320的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元330可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元330可包括触控面板331以及其他输入设备332。触控面板331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器380,并能接收处理器380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331,输入单元330还可以包括其他输入设备332。具体地,其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元340可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元340可包括显示面板341,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板341。进一步的,触控面板331可覆盖显示面板341,当触控面板331检测到在其上或附近的触摸操作后,传送给处理器380以确定触摸事件的类型,随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图14中,触控面板331与显示面板341是作为两个独立的部件来实现智能手机的输入和输入功能,但是在某些实施例中,可以将触控面板331与显示面板341集成而实现智能手机的输入和输出功能。
智能手机还可包括至少一种传感器350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板341的亮度,接近传感器可在智能手机移动到耳边时,关闭显示面板341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路360、扬声器361,传声器362可提供用户与智能手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号,传输到扬声器361,由扬声器361转换为声音信号输出;另一方面,传声器362将收集的声音信号转换为电信号,由音频电路360接收后转换为音频数据,再将音频数据输出处理器380处理后,经RF电路310以发送给比如另一智能手机,或者将音频数据输出至存储器320以便进一步处理。
WiFi属于短距离无线传输技术,智能手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块370,但是可以理解的是,其并不属于智能手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器380是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器320内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可选的,处理器380可包括一个或多个处理单元;可选的,处理器380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器380中。
智能手机还包括给各个部件供电的电源390(比如电池),可选的,电源可以通过电源管理系统与处理器380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
上述实施例中由终端设备所执行的步骤可以基于该图14所示的终端设备结构。
本申请实施例还提供了另一种关键指标确定装置,该关键指标确定装置可部署于服务器。图15是本申请实施例提供的一种服务器结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图15所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种关键指标的确定方法,其特征在于,包括:
获取针对头部指标的候选关键指标集合,其中,所述头部指标为预先确定的指标,所述候选关键指标集合包括至少两个候选关键指标;
获取所述候选关键指标集合中每个候选关键指标所对应的样本数据集合,其中,所述样本数据集合包括至少两组样本数据,每组样本数据包括第一指标数据以及第二指标数据,所述第一指标数据为用户针对候选关键指标的数据,所述第二指标数据为用户针对所述头部指标的数据;
根据所述每个候选关键指标所对应的样本数据集合,确定每个候选关键指标所对应的目标干预效应值,其中,所述目标干预效应值用于表示对候选关键指标进行干预之后对所述头部指标产生的影响;
根据所述每个候选关键指标所对应的目标干预效应值,从所述候选关键指标集合中确定候选关键指标作为所述头部指标的关键指标。
2.根据权利要求1所述的确定方法,其特征在于,所述根据所述每个候选关键指标所对应的样本数据集合,确定每个候选关键指标所对应的目标干预效应值,包括:
针对所述候选关键指标集合中的每个候选关键指标,根据候选关键指标所对应的样本数据集合生成指标变量分布,其中,所述指标变量分布满足所述候选关键指标与所述头部指标之间的数据变化关系;
针对所述候选关键指标集合中的每个候选关键指标,根据所述指标变量分布确定干预参数,其中,所述干预参数为所述指标变量分布对应所述候选关键指标的一个数值,所述干预参数用于将所述指标变量分布划分为干扰前的变量分布以及干扰后的变量分布;
针对所述候选关键指标集合中的每个候选关键指标,根据所述干预参数以及用户画像集合,确定所述候选关键指标所对应的干预效应值,其中,所述用户画像集合包括至少两个用户的用户画像数据;
针对所述候选关键指标集合中的每个候选关键指标,对所述干预效应值进行归一化处理,得到所述候选关键指标所对应的目标干预效应值。
3.根据权利要求2所述的确定方法,其特征在于,所述针对所述候选关键指标集合中的每个候选关键指标,根据所述干预参数以及用户画像集合,确定所述候选关键指标所对应的干预效应值,包括:
针对所述候选关键指标集合中的每个候选关键指标,根据所述干预参数将所述指标变量分布划分为所述干扰前的变量分布以及所述干扰后的变量分布,其中,所述干扰前的变量分布对应于第一标签,所述干扰后的变量分布对应于第二标签;
针对所述候选关键指标集合中的每个候选关键指标,基于M个用户的用户画像数据以及所述M个用户所在变量分布所对应的标签,通过待训练模型获取所述M个用户的预测结果,其中,所述预测结果为用户针对所述头部指标的预测数据,所述M为大于1的整数;
针对所述候选关键指标集合中的每个候选关键指标,根据所述M个用户的预测结果以及所述M个用户的第二指标数据,对所述待训练模型进行训练,得到目标模型;
针对所述候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据以及N个第一标签,通过所述目标模型获取所述N个用户的第一预测结果,其中,所述N个用户包含于所述M个用户,所述N为大于或等于1,且小于或等于所述M的整数;
针对所述候选关键指标集合中的每个候选关键指标,基于所述N个用户的用户画像数据以及N个第二标签,通过所述目标模型获取所述N个用户的第二预测结果;
针对所述候选关键指标集合中的每个候选关键指标,根据所述N个用户的第一预测结果以及所述N个用户的第二预测结果,确定所述候选关键指标所对应的干预效应值。
4.根据权利要求2所述的确定方法,其特征在于,所述根据所述干预参数、用户画像集合以及指标数据集合,确定所述候选关键指标所对应的干预效应值,包括:
针对所述候选关键指标集合中的每个候选关键指标,根据所述干预参数将所述指标变量分布划分为所述干扰前的变量分布以及所述干扰后的变量分布,其中,所述干扰前的变量分布对应于P个用户的数据,所述干扰后的变量分布对应于Q个用户的数据,所述P与所述Q均为大于或等于1的整数;
针对所述候选关键指标集合中的每个候选关键指标,基于所述P个用户的用户画像数据,通过第一待训练模型获取所述P个用户的预测结果,并且,基于所述Q个用户的用户画像数据,通过第二待训练模型获取所述Q个用户的预测结果,其中,所述预测结果为用户针对所述头部指标的预测数据;
针对所述候选关键指标集合中的每个候选关键指标,根据所述P个用户的预测结果以及所述P个用户的第二指标数据,对所述第一待训练模型进行训练,得到第一目标模型,并且,根据所述Q个用户的预测结果以及所述Q个用户的第二指标数据,对所述第二待训练模型进行训练,得到第二目标模型;
针对所述候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据,通过所述第一目标模型获取所述N个用户的第一预测结果,其中,所述N个用户包含于(P+Q)个用户,所述N为大于或等于1,且小于或等于所述(P+Q)的整数;
针对所述候选关键指标集合中的每个候选关键指标,基于N个用户的用户画像数据,通过所述第二目标模型获取所述N个用户的第二预测结果;
针对所述候选关键指标集合中的每个候选关键指标,根据所述N个用户的第一预测结果以及所述N个用户的第二预测结果,确定所述候选关键指标所对应的干预效应值。
5.根据权利要求2所述的确定方法,其特征在于,所述针对所述候选关键指标集合中的每个候选关键指标,对所述干预效应值进行归一化处理,得到所述候选关键指标所对应的目标干预效应值,包括:
针对所述候选关键指标集合中的每个候选关键指标,根据所述干扰前的变量分布确定P个用户针对所述候选关键指标的第一均值,并且,根据所述干扰后的变量分布,确定Q个用户针对所述候选关键指标的第二均值,其中,所述P与所述Q均为大于或等于1的整数;
针对所述候选关键指标集合中的每个候选关键指标,确定(P+Q)个用户针对所述候选关键指标的目标均值;
针对所述候选关键指标集合中的每个候选关键指标,根据所述第一均值、所述第二均值以及所述目标均值确定归一化数值;
针对所述候选关键指标集合中的每个候选关键指标,采用所述归一化数值对所述干预效应值进行归一化处理,得到所述候选关键指标所对应的目标干预效应值。
6.根据权利要求1所述的确定方法,其特征在于,所述获取针对头部指标的候选关键指标集合,包括:
获取针对所述头部指标的候选指标集合,其中,所述候选指标集合包括T个候选指标,所述T为大于1的整数;
获取所述候选指标集合中每个候选指标所对应的目标数据集合,其中,所述目标数据集合包括至少一个目标数据;
根据所述每个候选指标所对应的目标数据集合,确定所述每个候选指标的关联评价参数,并根据所述每个候选指标的关联评价参数,从所述候选指标集合中获取候选指标子集合,其中,所述关联评价参数包括相关性系数以及方差扩大因子VIF中的至少一种,所述候选指标子集合包括K个目标候选指标,所述K为大于1,且小于或等于所述T的整数;
对所述候选指标子集合中的每个目标候选指标进行特征扩充处理,得到所述每个目标候选指标所对应的指标特征集合,其中,所述指标特征集合包括至少两个指标特征;
从所述每个目标候选指标所对应的指标特征集合中分别选择一个指标特征作为候选关键指标,将选择的K个候选关键指标作为针对所述头部指标的所述候选关键指标集合。
7.根据权利要求6所述的确定方法,其特征在于,关联评价参数包括所述VIF;
所述根据所述每个候选指标所对应的目标数据集合,确定所述每个候选指标的关联评价参数,并根据所述每个候选指标的关联评价参数,从所述候选指标集合中获取候选指标子集合,包括:
针对所述候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及所述候选指标集合中每个候选指标所对应的目标数据集合,确定所述候选指标所对应的第一VIF;
若所述候选指标集合中存在候选指标所对应的第一VIF大于或等于VIF阈值,则从候选指标集合中去掉第一VIF大于所述VIF阈值的至少一个候选指标,以得到第一候选指标集合;
针对所述第一候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及所述第一候选指标集合中每个候选指标所对应的目标数据集合,确定所述候选指标所对应的第二VIF;
若所述第一候选指标集合中所有候选指标所对应的第二VIF均小于所述VIF阈值,则将所述第一候选指标集合作为所述候选指标子集合。
8.根据权利要求6所述的确定方法,其特征在于,所述关联评价参数包括所述相关性系数;
所述根据所述每个候选指标所对应的目标数据集合,确定所述每个候选指标的关联评价参数,并根据所述每个候选指标的关联评价参数,从所述候选指标集合中获取候选指标子集合,包括:
针对所述候选指标集合的每个候选指标,根据候选指标所对应的目标数据集合以及所述候选指标集合中每个候选指标所对应的目标数据集合,确定所述候选指标所对应的T个相关性系数;
根据所述每个候选指标所对应的T个相关性系数,对(T*T)个相关性系数进行排序,得到相关性系数从大到小排序的相关性系数序列,其中,所述相关性系数序列的前W个相关性系数为目标序列;
针对所述候选指标集合的每个候选指标,若候选指标所对应的T个相关性系数属于所述目标序列的个数大于或等于个数阈值,则从候选指标集合中去掉个数大于或等于所述个数阈值候选指标,以得到所述候选指标子集合。
9.根据权利要求6所述的确定方法,其特征在于,所述对所述候选指标子集合中的每个目标候选指标进行特征扩充处理,得到所述每个目标候选指标所对应的指标特征集合,包括:
针对所述候选指标子集合中的每个目标候选指标,根据时间窗口值对目标候选指标进行扩充处理,得到所述目标候选指标的指标特征集合,其中;所述时间窗口值表示数据聚合的时长;
或者,
针对所述候选指标子集合中的每个目标候选指标,根据时间偏移量对目标候选指标进行扩充处理,得到所述目标候选指标的指标特征集合,其中;所述时间偏移量表示数据延迟的时长;
或者,
针对所述候选指标子集合中的每个目标候选指标,根据所述时间窗口值以及所述时间偏移量对目标候选指标进行扩充处理,得到所述目标候选指标的指标特征集合。
10.根据权利要求6所述的确定方法,其特征在于,所述从所述每个目标候选指标所对应的指标特征集合中分别选择一个指标特征作为候选关键指标,包括:
根据所述每个目标候选指标所对应的指标特征集合,获取S组用户数据集合,其中,每组用户数据集合包括至少一个用户的用户数据,所述用户数据包括针对所述每个目标候选指标的每个指标特征所对应的数据,所述S为大于1的整数;
基于所述S组用户数据集合中的每个用户数据集合,通过指标预测模型获取每个用户的目标预测结果;
根据所述每个用户的目标预测结果,确定所述每个用户针对每个指标特征的沙普利SHAP值;
根据所述每个用户针对每个指标特征的SHAP值,确定每个指标特征的目标SHAP值,其中,所述目标SHAP值为针对同一个指标特征的各个用户所对应SHAP值的加和结果;
针对所述每个目标候选指标,从目标候选指标所对应的指标特征集合中选择目标SHAP值最大的指标特征作为候选关键指标。
11.根据权利要求10所述的确定方法,其特征在于,所述方法还包括:
根据所述每个目标候选指标所对应的指标特征集合,获取待训练数据集合,其中,所述待训练数据集合包括至少两个用户的待训练数据以及第二指标数据,所述待训练数据包括针对所述每个目标候选指标的每个指标特征所对应的数据;
基于所述至少两个用户的待训练数据,通过待训练指标预测模型获取每个用户的预测结果,其中,所述预测结果为用户针对所述头部指标的预测数据;
根据所述每个用户的预测结果以及所述每个用户的第二指标数据,对所述待训练指标预测模型的模型参数进行更新,直至满足模型训练条件,得到所述指标预测模型。
12.根据权利要求1至11中任一项所述的确定方法,其特征在于,所述方法还包括:
显示针对所述头部指标的因果关系图,其中,所述因果关系图包括目标节点、至少一个子节点以及至少一条有向连边,所述目标节点用于显示所述头部指标,每个子节点用于显示候选关键指标,每条有向连边从子节点指向所述目标节点,所述因果关系图显示所述每个候选关键指标针对所述头部指标的目标干预效应值。
13.一种关键指标确定装置,其特征在于,包括:
获取模块,用于获取针对头部指标的候选关键指标集合,其中,所述头部指标为预先确定的指标,所述候选关键指标集合包括至少两个候选关键指标;
所述获取模块,还用于获取所述候选关键指标集合中每个候选关键指标所对应的样本数据集合,其中,所述样本数据集合包括至少两组样本数据,每组样本数据包括第一指标数据以及第二指标数据,所述第一指标数据为用户针对候选关键指标的数据,所述第二指标数据为用户针对所述头部指标的数据;
确定模块,用于根据所述每个候选关键指标所对应的样本数据集合,确定每个候选关键指标所对应的目标干预效应值,其中,所述目标干预效应值用于表示对候选关键指标进行干预之后对所述头部指标产生的影响;
所述确定模块,还用于根据所述每个候选关键指标所对应的目标干预效应值,从所述候选关键指标集合中确定候选关键指标作为所述头部指标的关键指标。
14.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行权利要求1至12中任一项所述的确定方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722974.0A CN115600785A (zh) | 2021-06-28 | 2021-06-28 | 一种关键指标的确定方法、相关装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722974.0A CN115600785A (zh) | 2021-06-28 | 2021-06-28 | 一种关键指标的确定方法、相关装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115600785A true CN115600785A (zh) | 2023-01-13 |
Family
ID=84840676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110722974.0A Pending CN115600785A (zh) | 2021-06-28 | 2021-06-28 | 一种关键指标的确定方法、相关装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115600785A (zh) |
-
2021
- 2021-06-28 CN CN202110722974.0A patent/CN115600785A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078479B (zh) | 一种内存检测模型训练的方法、内存检测的方法及装置 | |
CN111310034B (zh) | 一种资源推荐方法及相关设备 | |
CN110012060B (zh) | 移动终端的信息推送方法、装置、存储介质和服务器 | |
CN111813532B (zh) | 一种基于多任务机器学习模型的图像管理方法及装置 | |
CN110704661B (zh) | 一种图像分类方法和装置 | |
CN111143697B (zh) | 一种内容推荐的方法以及相关装置 | |
CN110995810B (zh) | 一种基于人工智能的对象识别方法和相关装置 | |
CN113284142B (zh) | 图像检测方法、装置、计算机可读存储介质及计算机设备 | |
CN110069715A (zh) | 一种信息推荐模型训练的方法、信息推荐的方法及装置 | |
CN110347781B (zh) | 文章倒排方法、文章推荐方法、装置、设备及存储介质 | |
CN113392150A (zh) | 一种基于业务域的数据表展示方法、装置、设备及介质 | |
CN111460384A (zh) | 策略的评估方法、装置和设备 | |
CN111563198A (zh) | 一种物料召回方法、装置、设备及存储介质 | |
US10229212B2 (en) | Identifying Abandonment Using Gesture Movement | |
CN115203194A (zh) | 一种元数据信息的生成方法、相关装置、设备及存储介质 | |
CN113704008A (zh) | 一种异常检测方法、问题诊断方法和相关产品 | |
CN110929882A (zh) | 一种基于人工智能的特征向量计算方法和相关装置 | |
CN114430504B (zh) | 一种媒体内容的推荐方法以及相关装置 | |
CN117520907A (zh) | 一种异常数据的检测方法、装置以及存储介质 | |
CN115600785A (zh) | 一种关键指标的确定方法、相关装置、设备以及存储介质 | |
CN115080840A (zh) | 一种内容推送方法、装置及存储介质 | |
CN115239356A (zh) | 一种推荐内容的管理方法以及相关装置 | |
CN113822435A (zh) | 一种用户转化率的预测方法及相关设备 | |
CN112948763A (zh) | 件量预测方法、装置、电子设备及存储介质 | |
CN113807403B (zh) | 模型训练的方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |