发明内容
本说明书实施例的目的是提供一种决策模型训练方法及样本特征选择方法、装置和电子设备,用以准确、全面的选择决策模型的样本特征进而准确、稳定地定位全链路分析中存在异常的问题特征。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提出了一种决策模型的样本特征选择方法,包括:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
第二方面,提出了一种决策模型的训练方法,包括:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征;
获取包含所述样本特征的样本数据和对应的转化结果指示标签;
基于获取的样本数据以及对应的指示标签训练所述预设决策模型。
第三方面,提出了一种决策模型的样本特征选择装置,包括:
确定模块,确定目标产品在全链路分析时转化结果存在异常的问题节点;
组合模块,将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
训练模块,基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
选择模块,基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
第四方面,提出了一种决策模型的训练装置,包括:
确定模块,确定目标产品在全链路分析时转化结果存在异常的问题节点;
组合模块,将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
第一训练模块,基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
选择模块,基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征;
获取模块,获取包含所述样本特征的样本数据和对应的转化结果指示标签;
第二训练模块,基于获取的样本数据以及对应的指示标签训练所述预设决策模型。
第五方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
第六方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征;
获取包含所述样本特征的样本数据和对应的转化结果指示标签;
基于获取的样本数据以及对应的指示标签训练所述预设决策模型。
第七方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
第八方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征;
获取包含所述样本特征的样本数据和对应的转化结果指示标签;
基于获取的样本数据以及对应的指示标签训练所述预设决策模型。
通过上述技术方案,采用样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位的效率、准确性以及稳定性。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
参照图1所示,为本说明书实施例提供的决策模型的样本特征选择方法步骤示意图,该样本特征选择方法可以针对网络产品中用户参与的各类行为阶段,选择对应的决策模型的样本特征。这里的网络产品可以是支付宝、天猫等应用,也可以是支持一类服务的小程序,亦或是网页服务等。
所述样本特征选择方法可以包括以下步骤:
步骤102:确定目标产品在全链路分析时转化结果存在异常的问题节点。
全链路分析,可以是对目标产品所涉及的服务阶段,按照执行的先后顺序连接在一起形成全链路。
在本说明书实施例中,步骤102在确定目标产品在全链路分析时转化结果存在异常的问题节点时,可具体执行为以下几个步骤:
第一步,基于用户行为对目标产品的全链路进行节点划分,其中,不同节点用于表征用户行为在全链路中的不同行为阶段。
具体地,可以通过用户对目标产品的操作信息挖掘用户行为,其中,所述操作信息可以包括:操作时间、曝光时长、点击次数、停留时长、会话控制等。进一步,基于用户行为将目标产品的全链路划分为多个节点,其中,不同节点用于表征用户行为在全链路中的不同行为阶段。以天猫为例,可以基于用户行为将全链路划分为至少包括:下订单、提交支付、风控判定、选择支付渠道、支付等节点,其中,下订单表征用户在全链路中与下单有关的行为阶段,提交支付表征用户在全链路中与提交支付有关的行为阶段,风控判定以及选择支付渠道、支付等节点类似。
需要说明的是,该节点划分是基于用户行为实施的,而对于用户行为所表征的不同行为阶段的界定,可以较为灵活,例如,以用户行为数据之间的相关度划分,与下单相关度高的用户行为可以划分为下订单这一节点;再如,以预先设定好的用户行为数据范围划分,预先设定从浏览商品开始至下单结束这期间的用户行为数据为下订单这一节点。
第二步,可视化所述节点的转化结果。
应理解,在每个行为阶段结束后,都会对应产生节点的转化结果。该转化结果是基于用户行为的结果产生,以下订单这一节点为例,其转化结果可以是下订单成功,或者,下订单失败。
考虑到全链路分析是针对目标产品的大量用户进行的分析,因此,为了直观反映节点转化结果,方便确定问题节点,具体可以采用漏斗模型可视化每个行为阶段,以展示每个节点的转化结果。
其实,本说明书实施例还可以采用漏斗模型以外的其它模型或方式来可视化节点的转化结果,本说明书并不对此进行限定。
第三步,基于所述转化结果确定目标产品在全链路分析时转化结果存在异常的问题节点。
具体地,可以根据每个节点的大量用户的转化结果来统计每个节点的转化率,并在转化率小于预期转化率时,确定该节点是存在异常的问题节点。
举例说明,假设对20000个用户进行分析,下订单这一节点的转化结果中,下订单成功的用户数量为10000;提交支付这一节点的转化结果中,提交支付成功的用户数量为1000;支付这一节点的转化结果中,支付成功的用户数量为900。由此分析,下订单这一节点的转化率为50%,提交支付这一节点的转化率为10%,支付这一节点的转化率为90%。若定义预期转化率为50%,则确定提交支付这一节点的转化率较低,为存在异常的问题节点。
应理解,在本说明书实施例中,存在异常可以理解为对节点的转换结果乃至转化率具有较大影响而导致转化率小于预期转化率。
在确定问题节点后,可以针对该问题节点按照以上方式进行样本特征的选择,以基于该样本特征的决策模型对问题节点进行下钻细分,协助定位出问题特征。
步骤104:将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征。
可选地,所述步骤104在将基于所述问题节点确定的多个单维数据特征进行组合得到多个组合特征时,可具体执行为:
第1步,基于所述问题节点确定多个单维数据特征以及所述多个单维数据特征的总维数。
在确定问题节点后,可以基于从问题节点所在链路确定多个单维数据特征,以及确定该多个单位数据特征的总维数。其中,所述多个单维特征数据可以包括:衣服、鞋子等商品类别;支付宝支付、银行卡支付、代付等支付渠道;以及女性、男性、20岁、50岁、白领等用户画像。其中,商品类别、支付渠道、客户端信息以及用户画像等可以视为不同的单维特征。所述总维数可以理解为所述多个单维数据特征中所包含的单维特征的数目,例如,当多个单维特征数据包含商品类别、支付渠道以及用户画像这三个单维特征时,所述多个单维特征数据的总维数即为3。
可选地,在本说明书实施例中,第1步在基于所述问题节点确定多个单维数据特征以及所述多个单维数据特征的总维数时,可具体包括以下步骤:
第一步,从所述问题节点提取原始数据特征,以及基于提取的所述原始数据特征统计得到的补充数据特征。
在本说明书实施例中,从所述问题节点提取原始数据特征,可以具体执行为:
从所述问题节点采集用户行为数据;
基于所述用户行为数据提取原始数据特征。
具体地,可以从问题节点通过用户对目标产品的操作信息挖掘采集用户行为数据,这里用户行为数据是针对该问题节点采集的。其中,所述操作信息可以包括:操作时间、曝光时长、点击次数、停留时长、会话控制等,基于这些操作信息挖掘采集用户行为数据,例如,浏览商品的时间、浏览商品的次数、购买商品的次数等。之后,可以基于这些用户行为数据中涉及到的对象,提取出原始数据特征;所述原始数据特征可以包括:商品类别、支付渠道、客户端信息以及用户画像等。由此,可以更为准确、全面的确定问题节点中所涉及到的数据特征。
应理解,在本说明书实施例中,并不对上述所涉及的提取原始数据特征的方案进行限定,还可以采用其它现有的特征提取方式实现,本说明书并不在此赘述。
第二步,基于所述原始数据特征和所述补充数据特征确定多个单维数据特征。
其中,所述补充数据特征可以是基于原始数据特征确定的统计数据信息得到,以商品为例,补充数据特征可以是商品的周期曝光量,也可以是商品的周期购买量,下单渠道的比例;其中,周期可以是小时、日、周、月等。
这样,可以通过增加补充数据特征以更为全面的覆盖问题节点所涉及的数据特征,为后续准确选择样本特征提供可靠的基础数据。
第三步,基于所述原始数据特征的维度以及所述补充数据特征的维度,确定所述多个单维数据特征的总维数。
分别基于原始数据特征以及补充数据特征确定这两种数据特征的维度,然后,将原始数据特征的维度以及补充数据特征的维度相加得到所述多个单维数据特征的总维数。应理解,在确定总维数时,考虑原始数据特征和补充数据特征是不存在重合的数据特征的,因此,总维数可以是两种维度的简单相加。若原始数据特征和补充数据特征存在重合的数据特征,那么,后续确定总维数时需要将重合的维度视为一个维度相加。
第2步,基于所述总维数将所述多个单维数据特征进行多维交叉组合,得到多个组合特征。
之后,基于所述多个单维数据特征的总维数,将所述多个单维数据特征进行多维交叉组合,得到第一特征集合。这样,可以将多个单维数据特征,组合成多个组合特征,一个组合特征包括至少一个单维数据特征,从而,进一步增加了数据特征的维度,便于后续下钻细分的分析维度扩展,提升后续问题定位准确性。举例说明,多个单维数据特征中包括:国家A、国家B、支付渠道1、支付渠道2这几个单维数据特征,总维数为2;经过多维交叉组合后,得到多个组合特征,该多个组合特征中包括:国家A、国家B、支付渠道1、支付渠道2、国家A_支付渠道1、国家A_支付渠道2、国家B_支付渠道1、国家B_支付渠道2。从而,将4个单维数据特征,处理为8个组合特征,这8个组合特征中包括4个单维数据特征和4个二维数据特征。
其实,在本说明书实施例中,除了采用多维交叉组合的方式将多个单维数据特征处理为多个组合特征外,还可以采用其它方式,只要能够增加数据特征维度即可,在此不做赘述。
一种可实现的方式,在本说明书实施例中,所述总维数为n,所述n为大于1的正整数;那么,第2步在基于所述总维数将所述多个单维数据特征进行多维交叉组合得到多个组合特征时,可以具体执行为:
将所述多个单维数据特征分别进行N维交叉组合;统计1至n维下的组合特征,得到多个组合特征;其中,所述N依次取1至n之间的正整数。
举例说明,多个单维数据特征中包括:国家A、国家B、支付渠道1、支付渠道2这几个单维数据特征;总维数为2;当N取1时,得到组合特征:国家A、国家B、支付渠道1、支付渠道2;当N取2时,国家A分别与支付渠道1、支付渠道2组合,国家B分别与支付渠道1、支付渠道2组合,得到国家A_支付渠道1、国家A_支付渠道2、国家B_支付渠道1、国家B_支付渠道2。其中,不考虑交叉组合的数据特征的组合顺序,例如,国家A_支付渠道2与支付渠道2_国家A表征的是同一个组合特征。该交叉组合方式可以增加数据特征的维度,提升后续选择样本特征的准确性。
另一种可实现的方式,第2步在基于所述总维数将所述多个单维数据特征进行多维交叉组合得到多个组合特征时,可具体执行为:
基于所述总维数,按照预设交叉组合配置信息对所述多个单维数据特征进行多维交叉组合,统计得到多个组合特征。
其中,所述预设交叉组合配置信息可以是根据经验值确定,例如,根据经验确定城市和价格这两个维度特征对支付成功率有影响,可以指定预设交叉组合配置信息包括:<city_price>。从而,通过这种方式避免暴力组合,减少计算量。
步骤106:基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合。
举例说明,假设多个组合特征为:国家A、国家B、渠道1、渠道2、国家A_渠道1、国家A_渠道2、国家B_渠道1、国家B_渠道2。用户小明在国家A渠道1支付成功,则对应的样本数据为:国家A、渠道1、国家A_渠道1;指示标签为:1;用户小红在国家B渠道2支付失败,则对应的样本数据为:国家B、渠道2、国家B_渠道2;指示标签为:0;后续依次输入多个样本数据以及指示标签。在后续的训练结果中,对应每个组合特征,都输出一个相应的权重。
在本说明书实施例中,确定第一权重集合的所述预设决策模型可以是迭代的决策树算法(Gradient Boosting Decision Tree,GBDT)模型,或是逻辑回归算法(LogisticRegression,LR)模型。从而,可采用决策模型训练包含样本特征的样本数据确定每个样本特征对应的贡献权重,将问题节点的多维度下钻细分自动化,提升下钻细分效率。
为了便于理解,本说明书中以GBDT决策模型为例进行说明。而考虑到LR决策模型一般适合处理离散的数据特征,因此在使用时,与GBDT决策模型不同的是,需要对数据特征中的连续特征进行ID化处理,例如,将3-4美元映射为一个指定的具体数值而不是数值区间。
步骤108:基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
应理解,所述权重贡献大于第一阈值是指权重绝对值大于第一阈值,其中,权重贡献大,说明该权重对应的组合特征对该问题节点的影响大。其中,第一阈值可以根据经验值确定,应符合实际的应用场景设定。
在训练得到的第一权重集合中,可能存在正权重、负权重。例如,针对“俄罗斯_储蓄卡”这一组合特征训练得到的权重可能是负值,而针对“俄罗斯_信用卡”这一组合特征训练得到的权重可能是正值。在判定权重贡献大小时,不是以权重数值大小,而是以权重绝对值的大小作为判定依据。
可选地,步骤108在基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征时,可具体执行为:
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征;
基于包含选择的组合特征的样本数据以及对应的转化结果指示标签,按照所述预设决策模型进行迭代训练,得到第二权重集合;
如果同一组合特征在所述第二权重集合中的权重与在所述第一权重集合中的权重相比,波动不大于第二阈值,则确定权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
由此,可以采用预设决策模型对选择的权重贡献大于第一阈值的组合特征所对应的样本数据进行迭代训练,根据训练结果校验选择的组合特征是否适合作为样本特征,从而,有效过滤无影响的组合特征,提升了确定样本特征的准确性。
通过上述技术方案,采用样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位效率、准确性以及稳定性。
参照图2所示,为本说明书实施例提供的决策模型训练方法步骤示意图,该训练方法可以包括以下步骤:
步骤202:确定目标产品在全链路分析时转化结果存在异常的问题节点。
步骤204:将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征。
步骤206:基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合。
步骤208:基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
其中,步骤202-步骤208的具体实现可以参照上述决策模型的样本特征选择方案中步骤102-步骤108的执行方案,在此不做赘述。
步骤210:获取包含所述样本特征的样本数据和对应的转化结果指示标签。
应理解,包含所述样本特征的样本数据,可以是选择样本特征时所使用的样本数据(可记录为第一样本数据)中的部分,也可以是在不同于第一样本数据的采集时间所采集的样本数据(可记录为第二样本数据)。
该步骤210中可以直接获取包含样本特征的样本数据,以及对应的转化结果指示标签,减少获取数据特征的数量,降低计算量。
步骤212:基于获取的样本数据以及对应的指示标签训练所述预设决策模型。
该步骤212的具体实现可以参照步骤106,训练预设决策模型后,可以得到对应每个样本数据的权重,这些权重即可表征各自对应的数据特征对该问题节点的影响。从而,可以通过决策模型自动对问题节点的多维特征进行下钻细分,在确定出权重后,可以与历史数据训练的结果进行比对分析,若权重波动大于设定阈值看可以视为该权重对应的样本特征存在问题。
通过上述技术方案,采用样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位效率、准确性以及稳定性。
应理解,具体的决策模型的训练使用可以灵活调整,本说明书不对此做限定。
下面,本说明书结合具体应用场景对涉及的决策模型的样本特征选择方案以及决策模型训练方案进行详述。
参照图3所示,为本说明书实施例提供的全链路分析中问题特征定位流程,可以包括:
步骤302:基于用户行为对目标产品的全链路进行节点划分。
步骤304:采用漏斗模型可视化所述节点的转化结果。
步骤306:基于所述转化结果确定目标产品在全链路分析时转化结果存在异常的问题节点。
步骤308:从所述问题节点基于用户历史行为数据提取原始数据特征。
步骤310:基于提取的所述原始数据特征统计得到的补充数据特征。
步骤312:基于所述原始数据特征和所述补充数据特征确定多个单维数据特征以及总维数。
步骤314:将所述多个单维数据特征分别进行N维交叉组合,统计1至n维下的组合特征,得到多个组合特征。
步骤316:基于包含所述多个组合特征的历史样本数据和对应的转化结果指示标签,按照GBDT决策模型进行训练,得到第一权重集合。
步骤318:基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述GBDT决策模型的样本特征。
步骤320:获取包含所述样本特征的测试样本数据和对应的转化结果指示标签。
步骤322:基于获取的测试样本数据以及对应的指示标签训练所述GBDT决策模型,得到第三权重集合。
步骤324:如果同一样本特征在所述第三权重集合中的权重与在所述第一权重集合中的权重相比,波动大于设定阈值,则定位波动大于设定阈值的权重对应的样本特征为问题特征。
这样,可以通过利用选择的样本特征以及预设决策模型训练得到的权重,来分析比对权重波动,并根据权重波动大小来定位问题节点的问题特征。整个过程中,通过样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位效率、准确性以及稳定性。
实施例二
图4是本说明书的一个实施例电子设备的结构示意图。请参考图4,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成共享资源访问控制装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
上述如本说明书图1、图3所示实施例揭示的决策模型的样本特征选择装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现决策模型的样本特征选择的装置在图1、图3所示实施例的功能,本说明书实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书实施例的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
通过上述技术方案,采用样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位效率、准确性以及稳定性。
图5是本说明书的另一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成共享资源访问控制装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征;
获取包含所述样本特征的样本数据和对应的转化结果指示标签;
基于获取的样本数据以及对应的指示标签训练所述预设决策模型。
上述如本说明书图2、图3所示实施例揭示的决策模型的训练装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图2的方法,并实现决策模型的训练装置在图2、图3所示实施例的功能,本说明书实施例在此不再赘述。
当然,除了软件实现方式之外,本说明书实施例的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
通过上述技术方案,采用样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位效率、准确性以及稳定性。
实施例三
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下方法:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
通过上述技术方案,采用样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位效率、准确性以及稳定性。
本说明书实施例还提出了另一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图2所示实施例的方法,并具体用于执行以下方法:
确定目标产品在全链路分析时转化结果存在异常的问题节点;
将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征;
获取包含所述样本特征的样本数据和对应的转化结果指示标签;
基于获取的样本数据以及对应的指示标签训练所述预设决策模型。
通过上述技术方案,采用样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位效率、准确性以及稳定性。
实施例四
图6为本说明书的一个实施例提供的决策模型的样本特征选择装置600的结构示意图。请参考图6,在一种软件实施方式中,决策模型的样本特征选择装置600可包括:
确定模块602,确定目标产品在全链路分析时转化结果存在异常的问题节点;
组合模块604,将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
训练模块606,基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
选择模块608,基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
通过上述技术方案,采用样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位效率、准确性以及稳定性。
在本说明书实施例的一种具体实现方式中,组合模块604在将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征时,可具体用于基于所述问题节点确定多个单维数据特征以及所述多个单维数据特征的总维数;以及,基于所述总维数将所述多个单维数据特征进行多维交叉组合,得到多个组合特征。
在本说明书实施例的一种具体实现方式中,所述总维数为n,所述n为大于1的正整数;
所述组合模块604在基于所述总维数将所述多个单维数据特征进行多维交叉组合得到多个组合特征时,具体用于将所述多个单维数据特征分别进行N维交叉组合,其中,所述N依次取1至n之间的正整数;以及,统计1至n维下的组合特征,得到多个组合特征。
在本说明书实施例的另一种具体实现方式中,所述组合模块604在基于所述总维数将所述多个单维数据特征进行多维交叉组合得到多个组合特征时,具体用于基于所述总维数,按照预设交叉组合配置信息对所述多个单维数据特征进行多维交叉组合,统计得到多个组合特征。
在本说明书实施例的一种具体实现方式中,所述组合模块604在基于所述问题节点确定多个单维数据特征以及所述多个单维数据特征的总维数时,具体用于从所述问题节点提取原始数据特征,以及基于提取的所述原始数据特征统计得到的补充数据特征;以及,基于所述原始数据特征和所述补充数据特征确定多个单维数据特征;以及,基于所述原始数据特征的维度以及所述补充数据特征的维度,确定所述多个单维数据特征的总维数。
在本说明书实施例的一种具体实现方式中,所述组合模块604在从所述问题节点提取原始数据特征时,具体用于从所述问题节点采集用户行为数据;以及,基于所述用户行为数据提取原始数据特征。
在本说明书实施例的一种具体实现方式中,所述选择模块608在基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征时,具体用于基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征;以及,基于包含选择的组合特征的样本数据以及对应的转化结果指示标签,按照所述预设决策模型进行迭代训练,得到第二权重集合;以及,如果同一组合特征在所述第二权重集合中的权重与在所述第一权重集合中的权重相比,波动不大于第二阈值,则确定权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
在本说明书实施例的一种具体实现方式中,所述确定模块602在确定目标产品在全链路分析时转化结果存在异常的问题节点时,具体用于基于用户行为对目标产品的全链路进行节点划分,其中,不同节点用于表征用户行为在全链路中的不同行为阶段;以及,可视化所述节点的转化结果;以及,基于所述转化结果确定目标产品在全链路分析时转化结果存在异常的问题节点。
应理解,本说明书实施例的决策模型的样本特征选择装置还可执行图1、图3中决策模型的样本特征选择装置(或设备)执行的方法,并实现决策模型的样本特征选择装置(或设备)在图1、图3所示实施例的功能,在此不再赘述。
图7为本说明书的另一个实施例提供的决策模型的训练装置700的结构示意图。请参考图7,在一种软件实施方式中,决策模型的训练装置700可包括:
确定模块702,确定目标产品在全链路分析时转化结果存在异常的问题节点;
组合模块704,将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征;其中,一个组合特征中包括至少一个单维数据特征;
第一训练模块706,基于包含所述多个组合特征的样本数据和对应的转化结果指示标签,按照预设决策模型进行训练,得到第一权重集合;
选择模块708,基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征;
获取模块710,获取包含所述样本特征的样本数据和对应的转化结果指示标签;
第二训练模块712,基于获取的样本数据以及对应的指示标签训练所述预设决策模型。
通过上述技术方案,采用样本特征选择方案来自动对问题节点的多维度进行下钻分析,保证数据特征维度覆盖全面,提升分析效率。而且选择样本特征后可以为问题节点训练通用决策模型,使得不同时间段的样本数据都可以采用同一个决策模型来对问题节点进行分析,定位出相应时间段影响问题节点转化情况的问题特征,进而提升问题定位效率、准确性以及稳定性。
在本说明书实施例的一种具体实现方式中,组合模块704在将基于所述问题节点确定的多个单维数据特征进行组合,得到多个组合特征时,可具体用于基于所述问题节点确定多个单维数据特征以及所述多个单维数据特征的总维数;以及,基于所述总维数将所述多个单维数据特征进行多维交叉组合,得到多个组合特征。
在本说明书实施例的一种具体实现方式中,所述总维数为n,所述n为大于1的正整数;
所述组合模块704在基于所述总维数将所述多个单维数据特征进行多维交叉组合得到多个组合特征时,具体用于将所述多个单维数据特征分别进行N维交叉组合,其中,所述N依次取1至n之间的正整数;以及,统计1至n维下的组合特征,得到多个组合特征。
在本说明书实施例的另一种具体实现方式中,所述组合模块704在基于所述总维数将所述多个单维数据特征进行多维交叉组合得到多个组合特征时,具体用于基于所述总维数,按照预设交叉组合配置信息对所述多个单维数据特征进行多维交叉组合,统计得到多个组合特征。
在本说明书实施例的一种具体实现方式中,所述组合模块704在基于所述问题节点确定多个单维数据特征以及所述多个单维数据特征的总维数时,具体用于从所述问题节点提取原始数据特征,以及基于提取的所述原始数据特征统计得到的补充数据特征;以及,基于所述原始数据特征和所述补充数据特征确定多个单维数据特征;以及,基于所述原始数据特征的维度以及所述补充数据特征的维度,确定所述多个单维数据特征的总维数。
在本说明书实施例的一种具体实现方式中,所述组合模块704在从所述问题节点提取原始数据特征时,具体用于从所述问题节点采集用户行为数据;以及,基于所述用户行为数据提取原始数据特征。
在本说明书实施例的一种具体实现方式中,所述选择模块708在基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征时,具体用于基于所述第一权重集合,选择权重贡献大于第一阈值的组合特征;以及,基于包含选择的组合特征的样本数据以及对应的转化结果指示标签,按照所述预设决策模型进行迭代训练,得到第二权重集合;以及,如果同一组合特征在所述第二权重集合中的权重与在所述第一权重集合中的权重相比,波动不大于第二阈值,则确定权重贡献大于第一阈值的组合特征作为所述预设决策模型的样本特征。
在本说明书实施例的一种具体实现方式中,所述确定模块702在确定目标产品在全链路分析时转化结果存在异常的问题节点时,具体用于基于用户行为对目标产品的全链路进行节点划分,其中,不同节点用于表征用户行为在全链路中的不同行为阶段;以及,可视化所述节点的转化结果;以及,基于所述转化结果确定目标产品在全链路分析时转化结果存在异常的问题节点。
应理解,本说明书实施例的决策模型的训练装置还可执行图2-图3中决策模型训练装置(或设备)执行的方法,并实现决策模型训练装置(或设备)在图2-图3所示实施例的功能,在此不再赘述。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。