CN106204122A - 触点价值度量方法和装置 - Google Patents
触点价值度量方法和装置 Download PDFInfo
- Publication number
- CN106204122A CN106204122A CN201610519450.0A CN201610519450A CN106204122A CN 106204122 A CN106204122 A CN 106204122A CN 201610519450 A CN201610519450 A CN 201610519450A CN 106204122 A CN106204122 A CN 106204122A
- Authority
- CN
- China
- Prior art keywords
- contact
- data
- sample data
- click
- clicked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种触点价值度量方法和装置,涉及数据处理领域。其中的触点价值度量方法包括:获取用户订单数据和触点点击行为数据;根据用户信息和商品信息,将用户订单数据和触点点击行为数据相关联,形成样本数据,每条样本数据包括多个触点点击行为数据;利用订单标记对样本数据进行标记;根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练模型;根据训练结果确定多个触点的价值。通过匹配用户订单数据和触点点击行为数据形成样本数据并标记样本数据,根据样本数据构建关于多个触点的模型,采用标记的样本数据训练该模型,能够根据训练结果客观准确地衡量购物决策路径中各个触点对下单行为的贡献。
Description
技术领域
本发明涉及数据处理领域,特别涉及一种触点价值度量方法和装置。
背景技术
在电子商务用户购物决策路径中,用户会在不同的触点点击商品,最终产生订单。如何客观、合理地衡量各个触点对该订单的贡献价值对每个电商企业都是一个巨大的挑战。在广告投放过程中也有类似的情况,如何客观衡量各媒体对订单的贡献价值对于优化广告投放效果意义重大。
现有技术大多采用首次归因或末次归因的方式,即把订单价值100%分配至用户购物决策路径中的第一个触点或订单完成之前的最后一个触点。图1为首次归因方法的示意图,如图1所示,首次归因认为触点A对下单行为的贡献为100%。图2为末次归因方法的示意图,如图2所示,末次归因认为触点E对下单行为的贡献为100%。
现有技术仅将下单行为归功于用户购物决策路径中的第一个触点或订单完成之前的最后一个触点,不能客观准确地衡量用户购物决策路径中的触点价值。
发明内容
本发明实施例所要解决的一个技术问题是:如何客观准确地衡量用户购物决策路径中触点的价值。
根据本发明实施例的一个方面,提供的一种触点价值度量方法,包括:获取用户订单数据和触点点击行为数据;根据用户信息和商品信息,将用户订单数据和触点点击行为数据相关联,以形成样本数据,每条样本数据包括多个触点点击行为数据;利用订单标记对样本数据进行标记;根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练模型;根据训练结果确定多个触点的价值。
在一个实施例中,触点包括单一触点和/或触点组合;触点组合的点击行为根据触点组合中所包含的各个单一触点的点击行为确定。
在一个实施例中,根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练模型包括:将触点的点击行为信息作为自变量、样本数据的标记结果作为因变量构建逻辑回归模型;采用标记的样本数据训练逻辑回归模型,根据每次的训练结果调整逻辑回归模型中的回归系数,直至逻辑回归模型符合预设的回归系数收敛条件,结束训练。
在一个实施例中,根据训练结果确定多个触点的价值包括:根据逻辑回归模型的训练结果中各个触点的回归系数确定多个触点的价值。
在一个实施例中,根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练模型包括:根据各个触点的信息增益确定用于作为决策树各个节点的划分依据的触点,并根据划分依据将标记的样本数据划分到决策树的各个节点中,从而构建决策树;根据决策树的每个叶子节点中的各个样本数据的标记值以及标记值均值确定叶子节点中的各个样本数据的残差,并根据残差更新叶子节点中的各个样本数据的标记值;依据更新后的样本数据迭代执行构建决策树的过程,直至新构建的决策树的叶子节点中样本数据的残差符合预设条件。
在一个实施例中,根据训练结果确定多个触点的价值包括:获取模型的训练结果中各个决策树的各个中间节点所对应的触点的信息增益;计算同一触点在各个决策树中的信息增益的总和;根据各个触点对应的信息增益的总和确定多个触点的价值。
在一个实施例中,触点点击行为数据包括站内触点点击行为数据和站外触点点击行为数据;对用户订单数据和触点点击行为数据进行关联包括:使用通用唯一识别码关联站内触点点击行为数据和站外触点点击行为数据;根据通用唯一识别码确定关联的站内用户标识;根据站内用户标识和商品信息,使用户订单数据以及关联后的站内触点点击行为数据和站外触点点击行为数据相关联。
在一个实施例中,触点点击行为数据包括是否点击触点、点击触点的次数、点击触点的时间与产生订单时间的差值中的至少一种。
根据本发明实施例的第二个方面,提供一种触点价值度量装置,包括:数据获取模块,用于获取用户订单数据和触点点击行为数据;数据关联模块,用于根据用户信息和商品信息,将用户订单数据和触点点击行为数据相关联,以形成样本数据,每条样本数据包括多个触点点击行为数据;标记模块,用于利用订单标记对样本数据进行标记;模型构建训练模块,用于根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练模型;触点价值确定模块,用于根据训练结果确定多个触点的价值。
在一个实施例中,触点包括单一触点和/或触点组合;触点组合的点击行为根据触点组合中所包含的各个单一触点的点击行为确定。
在一个实施例中,模型构建训练模块包括:回归模型建立单元,用于将触点的点击行为信息作为自变量、样本数据的标记结果作为因变量构建逻辑回归模型;回归模型训练单元,用于采用标记的样本数据训练逻辑回归模型,根据每次的训练结果调整逻辑回归模型中的回归系数,直至逻辑回归模型符合预设的回归系数收敛条件,结束训练。
在一个实施例中,触点价值确定模块用于根据逻辑回归模型的训练结果中各个触点的回归系数确定多个触点的价值。
在一个实施例中,模型构建训练模块包括:决策树构建单元,响应于迭代判断单元发送的继续构建决策树的指令,用于根据各个触点的信息增益确定用于作为决策树各个节点的划分依据的触点,并根据划分依据将标记的样本数据划分到决策树的各个节点中,从而构建决策树;标记值更新单元,用于根据决策树的每个叶子节点中的各个样本数据的标记值以及标记值均值确定叶子节点中的各个样本数据的残差,并根据残差更新叶子节点中的各个样本数据的标记值并将更新后的样本数据发送给决策树构建模块;迭代判断单元,用于在新构建的决策树的叶子节点中样本数据的残差不符合预设条件时向决策树构建模块发送继续构建决策树的指令。
在一个实施例中,触点价值确定模块包括:信息增益获取单元,用于获取模型的训练结果中各个树的各个中间节点所对应的触点的信息增益,并计算同一触点在各个树中的信息增益的总和;触点价值确定单元,用于根据各个触点对应的信息增益的总和确定多个触点的价值。
在一个实施例中,触点价值确定模块包括:信息增益获取单元,用于获取模型的训练结果中各个决策树的各个中间节点所对应的触点的信息增益;信息增益汇总单元,用于计算同一触点在各个决策树中的信息增益的总和;触点价值确定单元,用于根据各个触点对应的信息增益的总和确定多个触点的价值。
在一个实施例中,触点点击行为数据包括站内触点点击行为数据和站外触点点击行为数据;数据关联模块包括:触点点击行为数据关联单元,用于使用通用唯一识别码关联站内触点点击行为数据和站外触点点击行为数据;用户关联单元,用于根据通用唯一识别码确定关联的站内用户标识;关联单元,用于根据站内用户标识和商品信息,使用户订单数据以及关联后的站内触点点击行为数据和站外触点点击行为数据相关联。
在一个实施例中,触点点击行为数据包括是否点击触点、点击触点的次数、点击触点的时间与产生订单时间的差值中的至少一种。
根据本发明实施例的第三个方面,提供一种触点价值度量装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种触点价值度量方法。
本发明通过匹配用户订单数据和触点点击行为数据形成样本数据,并根据是否产生订单对样本数据进行标记,根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,采用标记的样本数据训练该模型,能够根据训练结果客观准确地衡量购物决策路径中的各个触点对下单行为的贡献。
进一步地,本发明不仅能够挖掘各个单一触点的价值,而且能够挖掘各个触点组合的价值。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有的首次归因触点价值度量方法的示意图。
图2为现有的末次归因触点价值度量方法的示意图。
图3为本发明触点价值度量方法一个实施例的流程图。
图4为本发明使用逻辑回归模型确定触点价值的一个实施例的流程图。
图5为本发明使用迭代决策树模型确定触点价值的一个实施例的流程图。
图6为本发明触点价值度量装置的一个实施例的结构图。
图7为本发明触点价值度量装置的另一个实施例的结构图。
图8为本发明触点价值度量装置的又一个实施例的结构图。
图9为本发明触点价值度量装置的再一个实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
在本发明中,触点是指用户产生购买行为之前点击的各种商品入口,例如可以为搜索引擎、商品列表页、商品推荐栏、电商网站站内广告、站外广告投放媒体等,但不限于所举示例。根据触点的位置可以将触点划分为站内触点和站外触点。例如,商品列表页、商品推荐栏、电商网站站内广告设置在网站内,搜索引擎和站外广告投放媒体设置在该网站外,则商品列表页、商品推荐栏、电商网站站内广告作为站内触点,搜索引擎和站外广告投放媒体作为站外触点。
为了综合衡量用户购物决策路径中各个触点的价值,提出本发明。
图3为本发明触点价值度量方法一个实施例的流程图。如图3所示,该实施例的方法包括:
步骤S302,获取用户订单数据和触点点击行为数据。
用户订单数据中包括用户信息和商品信息,用户信息例如可以为用户网站内部ID(Identification,账号)、用户设备ID、浏览器标识等用于标识用户的信息,商品信息例如可以为商品编号、商品条码号等能够唯一标识商品的信息。此外,用户订单数据还可以包括下单时间、下单地址、卖家信息等其他与用户的下单行为和购买行为相关的信息。
触点点击行为数据表示哪一位用户在哪一个触点点击了何种商品,包括用户信息、商品信息和触点及其点击行为信息,其中,触点的点击行为信息例如可以为是否点击触点、点击触点的次数、点击触点的时间与产生订单时间的差值中的至少一种。
步骤S304,根据用户信息和商品信息,将用户订单数据和触点点击行为数据相关联,以形成样本数据,每条样本数据包括多个触点点击行为数据。
由于用户订单数据和触点点击行为数据中均具有用户信息和商品信息,因此可以根据用户订单数据中的用户信息和商品信息关联若干触点点击行为数据。对于用户浏览商品但未下单的情况,没有产生用户订单数据,此时样本数据中可以仅包括用户对商品的触点点击行为数据。
在触点点击行为数据中包括站内触点点击行为数据和站外触点点击行为数据的情况下,对于站内数据,可以直接使用站内账号进行关联,而用户进行站外浏览时,并未登录站内账号,因此对于站外数据可以使用UUID(Universally Unique Identifier,通用唯一识别码)将站内外的数据进行关联。一个应用例为:使用通用唯一识别码关联站内触点点击行为数据和站外触点点击行为数据;根据通用唯一识别码确定关联的站内用户标识;根据站内用户标识和商品信息,使用户订单数据以及关联后的站内触点点击行为数据和站外触点点击行为数据相关联。
从而,可以根据UUID关联网站内记录的站内触点点击行为数据以及浏览器记录的站外触点点击行为数据,并与相应的用户商品下单行为进行关联,拓宽了触点点击行为数据的数据源。
步骤S306,利用订单标记对样本数据进行标记,通过订单标记可以明确该条样本数据是否产生订单。
例如,对产生订单的样本数据进行下单标记,对未产生订单的样本数据进行未下单标记,或者,将产生下单行为的已匹配的触点点击行为数据视为正样本数据,将未产生下单行为的已匹配的若干触点点击行为数据视为一条负样本数据。也可以根据需要,对样本进行其他形式的标记。
步骤S308,根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练模型。
其中,可以构建机器学习模型,例如逻辑回归模型、GBDT(Gradient BoostingDecision Tree,迭代决策树)模型等等。
其中,模型中涉及的触点可以包括单一触点和触点组合中的至少一个。根据需要,可以依据单一触点的点击行为信息和触点组合的点击行为信息构建模型,也可以仅依据单一触点的点击行为信息或仅依据触点组合的点击行为信息构建模型。即,构建关于多个单一触点的模型,或者,构建关于多个触点组合的模型,或者,构建关于多个单一触点和触点组合的模型。其中,触点组合涉及至少两个单一触点。从而,不仅能够挖掘各个单一触点的价值,而且能够挖掘各个触点组合的价值。
单一触点的点击行为信息可以从样本数据中直接提取。触点组合的点击行为根据触点组合中所包含的各个单一触点的点击行为确定,即,根据触点组合中所包含的各个单一触点的点击行为信息确定该触点组合的点击行为信息。例如,触点A、B、C和D,可以对上述四个触点进行组合生成AB、AC、AD、BC、BD和CD等触点组合。设某个用户对于特定商品在各个触点的点击次数如下:A=1,B=2,C=0,D=1,则触点组合AC=1。如果训练时所关注的不是点击的次数,而是是否点击,由于C触点并未点击,因此触点组合AC的点击行为信息为未点击。根据需要,可以生成AB、ABC、ABCD等包含两个触点以上的触点组合,触点组合中包含的单一触点的数量没有限制。
触点组合可以更综合地反映触点的价值。例如,用户在视频网站上看到某商品的广告并点击,从而知晓了该商品。然后,用户在搜索引擎网站上搜索该商品并决定下单,单纯地把下单归功于视频网站或搜索引擎网站都是有失偏颇的。按照本发明的方案,可以考量视频网站和搜索网站的综合价值。
步骤S310,根据训练结果确定多个触点的价值。
一个实施例为,根据训练结果确定各个触点的权重,触点所对应的权重可以体现触点对用户下单行为的贡献价值,因此根据各个触点的权重可以确定多个触点的价值。
通过匹配用户订单数据和触点点击行为数据形成样本数据,并根据是否产生订单对样本数据进行标记,根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,采用标记的样本数据训练该模型,能够根据训练结果客观准确地衡量购物决策路径中各个触点对下单行为的贡献。
模型的训练结果中的各个触点的权重可以是显式的,例如回归模型中的回归系数,也可以是根据训练结果通过进一步的计算获得的,例如GBDT(Gradient boostdecision tree,迭代决策树)。下面分别以逻辑回归模型和GBDT模型为例,阐述各个触点的价值的确定方法。
图4为本发明使用逻辑回归模型确定触点价值的一个实施例的流程图。如图4所示,在步骤S302-S306之后,该实施例的方法还包括:
步骤S4082,将触点的点击行为信息作为自变量、样本数据的标记结果作为因变量构建逻辑回归模型。
设各个样本数据中的所有触点的点击行为信息组成特征矩阵x,即x=[x0,x1,x2,…xn],xn表示触点特征。可以根据矩阵x构建逻辑回归模型,该模型可以使用公式(1)表示:
为了更形象地理解触点的点击行为信息和回归系数之间的关系,还可以使用公式(2)和(3)具体地表示公式(1):
其中,z=w0x0+w1x1+w2x2+…+wnxn (3)
其中,y为样本数据的标记结果,w为回归系数矩阵,w=[w0,w1,w2,…wn],wn表示与xn对应的回归系数。对上述逻辑回归模型进行训练的目的即为根据输入的样本数据及其标记结果求得各个w的最优值。
其中,标记结果为正的样本数据例如可以使用标记值1,标记结果为负的样本数据例如可以使用标记值0。也可以根据需要,采用其他的标记方式。
触点点击行为数据包括是否点击触点、点击触点的次数、点击触点的时间与产生订单时间的差值中的至少一种,触点点击行为数据可以是单一触点或触点组合的触点点击行为数据。
以触点的点击行为数据包括是否点击触点为例,设具有L、M和N三位用户在触点A、B、AB的点击情况和下单情况分别如下:L=[点击,点击,点击,下单],M=[点击,未点击,未点击,未下单],N=[未点击,点击,未点击,未下单],使用1表示点击、0表示未点击,则根据三位用户的样本数据生成的特征矩阵可以如下所示:XL=[1,1,1],XM=[1,0,0],XN=[0,1,0],将样本数据输入模型后的状态如公式(4)、(5)和(6)所示:
再以触点的点击行为数据包括点击次数为例,设具有L、M和N三位用户在触点A、B、AB的点击次数和下单情况的样本数据分别如下:L=[2,1,3,下单],M=[1,3,4,未下单],N=[2,1,3,未下单],使用1表示点击、0表示未点击,则三位用户的特征矩阵可以如下所示:XL=[2,1,3],XM=[1,3,4],XN=[2,1,3]。使用上述特征矩阵与样本数据的标记结果进行模型构建的过程与上述示例类似,这里不再赘述。
步骤S4084,采用标记的样本数据训练逻辑回归模型,根据每次的训练结果调整逻辑回归模型中的回归系数,直至逻辑回归模型符合预设的回归系数收敛条件,结束训练。
当通过训练所获得的逻辑回归模型的预测值和所有训练样本对应的标记值的误差和最小时,即获得了最终的训练结果。为了获得上述结果,可以设置回归系数的收敛条件。
其中,回归系数的收敛条件可以为,根据回归系数和样本数据建立代价函数,再计算代价函数的最优解,即回归系数收敛时的解,从而确定回归系数。
代价函数例如可以为训练误差价值函数或者最大似然函数等,以训练误差价值函数为例,该函数可以由公式(7)表示:
然后,可以采用梯度下降法对上述公式进行参数更新,调整回归系数,并获得极值点对应的回归系数,完成训练。
逻辑回归模型的业务解释性较强,并且该模型的触点与回归系数具有显式的对应关系,通过简洁的模型建立和计算过程可以方便地获得训练结果。
在获得训练完成的逻辑回归模型后,可以根据训练结果确定多个触点的价值,例如可以采用步骤S410:
步骤S410,根据逻辑回归模型的训练结果中各个触点的回归系数确定多个触点的价值。
前述公式(3)明确地表示了触点与回归系数之间的关系,逻辑回归模型的回归系数能够直观地反映各个触点的重要程度。
图5为本发明使用迭代决策树模型确定触点价值的一个实施例的流程图。
与传统的由一棵树构成的决策树模型不同,GBDT是由多棵决策树构成的。在进行模型预测时,对于输入的每一个样本数据,会遍历每一棵决策树,每棵树都会对样本数据的标记值进行调整,最后得到预测的结果。
如图5所示,在步骤S302-S306之后,该实施例的方法还包括:
步骤S5082,根据各个触点的信息增益确定用于作为决策树各个节点的划分依据的触点,并根据划分依据将标记的样本数据划分到决策树的各个节点中,从而构建决策树。
其中,触点可以包括单一触点或触点组合的至少一个。触点的点击行为数据可以从样本数据中提取,触点组合的点击行为数据可以根据触点组合中所包含触点的点击行为信息确定。
GBDT模型中具有多棵决策树,而对于每棵决策树,确定划分依据的方法是相同的,由此可以根据信息增益确定在各个结点上采用何种触点的点击行为数据对样本数据进行划分。
信息增益表示得知特征X的信息而使特征Y的信息的不确定性减少的程度。例如,对于触点信息A和触点信息B,当选择A对当前节点的样本数据进行划分时,划分生成的两个类相差较大,一类中大部分是下单成功的样本数据,另一类中大部分是未下单的样本数据,而当选择B对当前节点的样本数据进行划分时,划分生成的两个类中下单的样本数据均只占一半左右。此时,A能够更好地进行样本数据的划分,其信息增益相对于B也更大。
信息增益是进行划分决策时所采用的一种依据,可以直接通过比较信息增益的大小选择触点,也可以通过比较信息增益比进行选择。信息增益的计算方法如公式(8)所示:
g(D,A)=H(D)-H(D|A) (8)
其中,g(D,A)表示触点A对样本数据集D的信息增益,H(D)表示样本数据集D的经验熵,H(D|A)表示样本数据集D在给定触点A的条件下的经验条件熵。
仍以触点点击行为数据包括是否点击触点为例,设L、M和N三位用户关于触点A、B、AB的样本数据分别如下:L=[点击,点击,点击,下单],M=[点击,未点击,未点击,未下单],N=[未点击,点击,未点击,未下单],使用1表示点击、0表示未点击,则根据三位用户的样本数据生成的特征矩阵可以如下所示:XL=[1,1,1],XM=[1,0,0],XN=[0,1,0]。建立决策树时,使用触点AB是否为0对样本数据进行划分时,可以将已下单的样本L分在一侧,未下单的样本M和N分在另一侧。由此可知,触点AB完全将标记结果不同的样本分开,信息增益最大,因此可以将触点AB作为划分当前样本数据的节点。
上述例子中样本数据较小,因此可以直接判断出触点AB的信息增益最大。实际操作中,需要计算各个触点的信息增益再从中选择信息增益最大的触点。
而当触点点击行为数据包括点击触点的次数、点击触点的时间与产生订单时间的差值等连续值时,同样可以适用于上述方法。设L、M和N三位用户的标记结果分别为下单、未下单、未下单,根据三位用户的样本数据生成的特征矩阵如下所示XL=[2,1,3],XM=[1,3,4],XN=[2,1,3],其中各个特征为用户分别再触点A、B和AB的点击次数。则可以根据触点以及触点对应的阈值范围进行信息增益的计算。例如,可以将触点A的点击次数是否大于1作为一个划分依据、将触点AB的点击次数是否大于3作为另一个划分依据等等,计算各个特征的信息增益。
采用以上方法对决策树的各个层次依次进行划分。可以在当前结点的信息增益小于设定的阈值或者没有可选择的触点时,完成对当前决策树的构建。构建的决策树将样本数据划分为若干类,每一类对应决策树的一个叶子节点。
步骤S5084,根据决策树的每个叶子节点中的各个样本数据的标记值以及标记值均值确定叶子节点中的各个样本数据的残差,并根据残差更新叶子节点中的各个样本数据的标记值。
GBDT模型中,第一棵决策树所划分的样本数据是原始输入的样本数据,即样本数据的标记值为初始值。例如,下单的样本数据标记值可以为1,未下单的样本数据标记值可以为0。
当构建第二棵决策树以及后续决策树时,进行划分的样本数据包含的触点的点击行为信息是不变的,而标记值产生了变化。例如,设构建的第一棵决策树的叶子节点L1中有三条样本数据,标记值分别为1、1和0,则计算L1中所有样本数据的标记值的均值为2/3。然后,将上述三个样本数据的标记值更新为1/3、1/3和-2/3,其他叶子节点中的样本也采用类似方法进行更新。
步骤S5086,依据更新后的样本数据迭代执行构建决策树的过程,直至新构建的决策树的叶子节点中样本数据的残差符合预设条件。
在构建第二棵决策树时,采用步骤S5084进行标记值更新后的样本数据以及步骤S5082的构建进行划分和构建,获得多棵树,从而获得训练完成的GBDT模型。
通过采用GBDT模型,能够通过多棵决策树逐步调整对样本数据的分类结果,获得准确的分类模型,从而该模型可以准确地反映各个触点的价值。
在获得训练完成的GBDT模型后,可以根据训练结果确定各个触点的价值,例如可以采用步骤S5102~S5106:
步骤S5102,获取模型的训练结果中各个决策树的各个中间节点所对应的触点的信息增益。
决策树中的每一个节点都是根据选取的触点的点击行为信息进行划分的。此时,可以获取该节点上的划分依据对应的触点以及其信息增益。
步骤S5104,计算同一触点在各个决策树中的信息增益的总和。
在GBDT模型中,很可能多次选择同一个触点作为划分依据,因此需要计算同一触点在各个决策树中的信息增益的总和,以便获得该触点在整个模型中的重要程度。
步骤S5106,根据各个触点对应的信息增益的总和确定多个触点的价值。
如前所述,当根据信息增益选择某一触点作为划分依据时,说明该触点减少了分类的不确定性。因此,当某一触点在GBDT模型中频繁出现,并且信息增益的总和很大时,说明其很可能影响用户的下单行为,价值较大。
图6为本发明触点价值度量装置的一个实施例的结构图。如图6所示,该实施例的装置包括:数据获取模块62,用于获取用户订单数据和触点点击行为数据;数据关联模块64,用于根据用户信息和商品信息,将用户订单数据和触点点击行为数据相关联,以形成样本数据,每条样本数据包括多个触点点击行为数据;标记模块66,用于利用订单标记对样本数据进行标记;模型构建训练模块68,用于根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练模型;触点价值确定模块69,用于根据训练结果确定多个触点的价值。
通过匹配用户订单数据和触点点击行为数据形成样本数据,并根据是否产生订单对样本数据进行标记,根据样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,采用标记的样本数据训练该模型,能够根据训练结果客观准确地衡量购物决策路径中各个触点对下单行为的贡献。
其中,触点点击行为数据包括是否点击触点、点击触点的次数、点击触点的时间与产生订单时间的差值中的至少一种。
图7为本发明触点价值度量装置的另一个实施例的结构图。如图7所示,该实施例的模型构建训练模块68可以有两种实现方式。
一种实现方式为,模型构建训练模块68包括:回归模型建立单元782,用于将触点的点击行为信息作为自变量、样本数据的标记结果作为因变量构建逻辑回归模型;回归模型训练单元783,用于采用标记的样本数据训练逻辑回归模型,根据每次的训练结果调整逻辑回归模型中的回归系数,直至逻辑回归模型符合预设的回归系数收敛条件,结束训练。
此时,触点价值确定模块69可以用于根据逻辑回归模型的训练结果中各个触点的回归系数确定多个触点的价值。
逻辑回归模型的业务解释性较强,并且该模型的触点与回归系数具有显式的对应关系,通过简洁的模型建立和计算过程可以方便地获得训练结果。
另一种实现方式为,模型构建训练模块68包括:决策树构建单元784,响应于迭代判断单元786发送的继续构建决策树的指令,用于根据各个触点的信息增益确定用于作为决策树各个节点的划分依据的触点,并根据划分依据将标记的样本数据划分到决策树的各个节点中,从而构建决策树;标记值更新单元785,用于根据决策树的每个叶子节点中各个样本数据的标记值与所有样本数据的标记值的均值确定各个样本数据的残差,并根据残差更新叶子节点中样本数据的标记值并发送给决策树构建模块;迭代判断单元786,用于在新构建的决策树的叶子节点中样本数据的残差不符合预设条件时向决策树构建模块发送继续构建决策树的指令。
此时,触点价值确定模块69可以包括:信息增益获取单元792,用于获取模型的训练结果中各个树的各个中间节点所对应的触点的信息增益,并计算同一触点在各个树中的信息增益的总和;触点价值确定单元794,用于根据各个触点对应的信息增益的总和确定多个触点的价值。
通过采用GBDT模型,能够通过多棵决策树逐步调整对样本数据的分类结果,获得准确的分类模型,从而该模型可以准确地反映各个触点的价值。
触点点击行为数据可以包括站内触点点击行为数据和站外触点点击行为数据。数据关联模块64可以包括:触点点击行为数据关联单元742,用于使用通用唯一识别码关联站内触点点击行为数据和站外触点点击行为数据;用户关联单元744,用于根据通用唯一识别码确定关联的站内用户标识;关联单元746,用于根据站内用户标识和商品信息,使用户订单数据以及关联后的站内触点点击行为数据和站外触点点击行为数据相关联。从而,可以根据UUID关联站内记录的站内触点点击行为数据以及浏览器记录的站外触点点击行为数据,并与相应的用户商品下单行为进行关联,拓宽了触点点击行为数据的数据源。
图8为本发明触点价值度量装置的又一个实施例的结构图。如图8所示,该实施例的装置800包括:存储器810以及耦接至该存储器810的处理器820,处理器820被配置为基于存储在存储器810中的指令,执行前述任意一个实施例中的触点价值度量方法。
其中,存储器810例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
图9为本发明触点价值度量装置的再一个实施例的结构图。如图9所示,该实施例的装置800包括:存储器810以及处理器820,还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930,940,950以及存储器810和处理器820之间例如可以通过总线960连接。其中,输入输出接口930为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口950为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (17)
1.一种触点价值度量方法,其特征在于,包括:
获取用户订单数据和触点点击行为数据;
根据用户信息和商品信息,将所述用户订单数据和触点点击行为数据相关联,以形成样本数据,每条样本数据包括多个触点点击行为数据;
利用订单标记对所述样本数据进行标记;
根据所述样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练所述模型;
根据训练结果确定所述多个触点的价值。
2.根据权利要求1所述的方法,其特征在于,所述触点包括单一触点和/或触点组合;
触点组合的点击行为根据触点组合中所包含的各个单一触点的点击行为确定。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练所述模型包括:
将触点的点击行为信息作为自变量、所述样本数据的标记结果作为因变量构建逻辑回归模型;
采用标记的样本数据训练所述逻辑回归模型,根据每次的训练结果调整所述逻辑回归模型中的回归系数,直至所述逻辑回归模型符合预设的回归系数收敛条件,结束训练。
4.根据权利要求3所述的方法,其特征在于,所述根据训练结果确定所述多个触点的价值包括:
根据逻辑回归模型的训练结果中各个触点的回归系数确定多个触点的价值。
5.根据权利要求1或2所述的方法,其特征在于,所述根据所述样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练所述模型包括:
根据各个触点的信息增益确定用于作为决策树各个节点的划分依据的触点,并根据所述划分依据将标记的样本数据划分到决策树的各个节点中,从而构建决策树;
根据所述决策树的每个叶子节点中的各个样本数据的标记值以及标记值均值确定所述叶子节点中的各个样本数据的残差,并根据所述残差更新所述叶子节点中的各个样本数据的标记值;
依据更新后的样本数据迭代执行所述构建决策树的过程,直至新构建的决策树的叶子节点中样本数据的残差符合预设条件。
6.根据权利要求5所述的方法,其特征在于,所述根据训练结果确定所述多个触点的价值包括:
获取模型的训练结果中各个决策树的各个中间节点所对应的触点的信息增益;
计算同一触点在各个决策树中的信息增益的总和;
根据所述各个触点对应的信息增益的总和确定多个触点的价值。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述触点点击行为数据包括站内触点点击行为数据和站外触点点击行为数据;
所述对所述用户订单数据和触点点击行为数据进行关联包括:
使用通用唯一识别码关联站内触点点击行为数据和站外触点点击行为数据;
根据通用唯一识别码确定关联的站内用户标识;
根据站内用户标识和商品信息,使所述用户订单数据以及关联后的站内触点点击行为数据和站外触点点击行为数据相关联。
8.根据权利要求1-6中任一项所述的方法,其特征在于,所述触点点击行为数据包括是否点击触点、点击触点的次数、点击触点的时间与产生订单时间的差值中的至少一种。
9.一种触点价值度量装置,其特征在于,包括:
数据获取模块,用于获取用户订单数据和触点点击行为数据;
数据关联模块,用于根据用户信息和商品信息,将所述用户订单数据和触点点击行为数据相关联,以形成样本数据,每条样本数据包括多个触点点击行为数据;
标记模块,用于利用订单标记对所述样本数据进行标记;
模型构建训练模块,用于根据所述样本数据中涉及的多个触点点击行为数据构建关于多个触点的模型,并利用标记后的样本数据训练所述模型;
触点价值确定模块,用于根据训练结果确定所述多个触点的价值。
10.根据权利要求9所述的装置,其特征在于,所述触点包括单一触点和/或触点组合;
触点组合的点击行为根据触点组合中所包含的各个单一触点的点击行为确定。
11.根据权利要求9或10所述的装置,其特征在于,所述模型构建训练模块包括:
回归模型建立单元,用于将触点的点击行为信息作为自变量、所述样本数据的标记结果作为因变量构建逻辑回归模型;
回归模型训练单元,用于采用标记的样本数据训练所述逻辑回归模型,根据每次的训练结果调整所述逻辑回归模型中的回归系数,直至所述逻辑回归模型符合预设的回归系数收敛条件,结束训练。
12.根据权利要求11所述的装置,其特征在于,所述触点价值确定模块用于根据逻辑回归模型的训练结果中各个触点的回归系数确定多个触点的价值。
13.根据权利要求9或10所述的装置,其特征在于,所述模型构建训练模块包括:
决策树构建单元,响应于迭代判断单元发送的继续构建决策树的指令,用于根据各个触点的信息增益确定用于作为决策树各个节点的划分依据的触点,并根据所述划分依据将标记的样本数据划分到决策树的各个节点中,从而构建决策树;
标记值更新单元,用于根据所述决策树的每个叶子节点中的各个样本数据的标记值以及标记值均值确定所述叶子节点中的各个样本数据的残差,并根据所述残差更新所述叶子节点中的各个样本数据的标记值并将更新后的样本数据发送给决策树构建模块;
迭代判断单元,用于在新构建的决策树的叶子节点中样本数据的残差不符合预设条件时向所述决策树构建模块发送继续构建决策树的指令。
14.根据权利要求13所述的装置,其特征在于,所述触点价值确定模块包括:
信息增益获取单元,用于获取模型的训练结果中各个决策树的各个中间节点所对应的触点的信息增益;
信息增益汇总单元,用于计算同一触点在各个决策树中的信息增益的总和;
触点价值确定单元,用于根据所述各个触点对应的信息增益的总和确定多个触点的价值。
15.根据权利要求9-14中任一项所述的装置,其特征在于,所述触点点击行为数据包括站内触点点击行为数据和站外触点点击行为数据;
所述数据关联模块包括:
触点点击行为数据关联单元,用于使用通用唯一识别码关联站内触点点击行为数据和站外触点点击行为数据;
用户关联单元,用于根据通用唯一识别码确定关联的站内用户标识;
关联单元,用于根据站内用户标识和商品信息,使所述用户订单数据以及关联后的站内触点点击行为数据和站外触点点击行为数据相关联。
16.根据权利要求9-14中任一项所述的装置,其特征在于,所述触点点击行为数据包括是否点击触点、点击触点的次数、点击触点的时间与产生订单时间的差值中的至少一种。
17.一种触点价值度量装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1-8中任一项所述的触点价值度量方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610519450.0A CN106204122B (zh) | 2016-07-05 | 2016-07-05 | 触点价值度量方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610519450.0A CN106204122B (zh) | 2016-07-05 | 2016-07-05 | 触点价值度量方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106204122A true CN106204122A (zh) | 2016-12-07 |
CN106204122B CN106204122B (zh) | 2020-09-29 |
Family
ID=57465080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610519450.0A Active CN106204122B (zh) | 2016-07-05 | 2016-07-05 | 触点价值度量方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106204122B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644100A (zh) * | 2017-10-09 | 2018-01-30 | 北京京东尚科信息技术有限公司 | 信息处理方法、装置以及系统和计算机可读存储介质 |
WO2019072128A1 (zh) * | 2017-10-09 | 2019-04-18 | 北京京东尚科信息技术有限公司 | 对象识别方法及其系统 |
CN109978594A (zh) * | 2017-12-28 | 2019-07-05 | 北京京东尚科信息技术有限公司 | 订单处理方法、装置及介质 |
CN113763020A (zh) * | 2021-02-03 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种数据处理方法及装置、设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080172271A1 (en) * | 2007-01-16 | 2008-07-17 | Nhn Corporation | Method and apparatus for monitoring invalid clicks |
CN102346899A (zh) * | 2011-10-08 | 2012-02-08 | 亿赞普(北京)科技有限公司 | 一种基于用户行为的广告点击率预测方法和装置 |
CN102663616A (zh) * | 2012-03-19 | 2012-09-12 | 北京国双科技有限公司 | 一种基于多触点归因模型的网络广告效果衡量方法和系统 |
CN104835057A (zh) * | 2015-04-02 | 2015-08-12 | 百度在线网络技术(北京)有限公司 | 一种获取网络用户的消费特征信息的方法及装置 |
CN105095210A (zh) * | 2014-04-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种筛选推广关键词的方法和装置 |
-
2016
- 2016-07-05 CN CN201610519450.0A patent/CN106204122B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080172271A1 (en) * | 2007-01-16 | 2008-07-17 | Nhn Corporation | Method and apparatus for monitoring invalid clicks |
CN102346899A (zh) * | 2011-10-08 | 2012-02-08 | 亿赞普(北京)科技有限公司 | 一种基于用户行为的广告点击率预测方法和装置 |
CN102663616A (zh) * | 2012-03-19 | 2012-09-12 | 北京国双科技有限公司 | 一种基于多触点归因模型的网络广告效果衡量方法和系统 |
CN105095210A (zh) * | 2014-04-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种筛选推广关键词的方法和装置 |
CN104835057A (zh) * | 2015-04-02 | 2015-08-12 | 百度在线网络技术(北京)有限公司 | 一种获取网络用户的消费特征信息的方法及装置 |
Non-Patent Citations (1)
Title |
---|
宋洁: "用户行为为中心的电子商务运营研究", 《商业文化》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644100A (zh) * | 2017-10-09 | 2018-01-30 | 北京京东尚科信息技术有限公司 | 信息处理方法、装置以及系统和计算机可读存储介质 |
WO2019072128A1 (zh) * | 2017-10-09 | 2019-04-18 | 北京京东尚科信息技术有限公司 | 对象识别方法及其系统 |
CN109978594A (zh) * | 2017-12-28 | 2019-07-05 | 北京京东尚科信息技术有限公司 | 订单处理方法、装置及介质 |
CN109978594B (zh) * | 2017-12-28 | 2021-11-26 | 北京京东尚科信息技术有限公司 | 订单处理方法、装置及介质 |
CN113763020A (zh) * | 2021-02-03 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种数据处理方法及装置、设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106204122B (zh) | 2020-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444334B (zh) | 数据处理方法、文本识别方法、装置及计算机设备 | |
CN108960719B (zh) | 选品方法和装置以及计算机可读存储介质 | |
CN113626719B (zh) | 信息推荐方法、装置、设备、存储介质及计算机程序产品 | |
CN106485562B (zh) | 一种基于用户历史行为的商品信息推荐方法及系统 | |
CN102236663B (zh) | 一种基于垂直搜索的查询方法、系统和装置 | |
CN108804704A (zh) | 一种用户深度画像方法及装置 | |
CN108205766A (zh) | 信息推送方法、装置及系统 | |
CN104798043B (zh) | 一种数据处理方法和计算机系统 | |
CN106204122A (zh) | 触点价值度量方法和装置 | |
CN106327227A (zh) | 一种信息推荐系统及信息推荐方法 | |
US7797260B2 (en) | Automated document classifier tuning including training set adaptive to user browsing behavior | |
CN107403345A (zh) | 畅销商品预测方法及系统、存储介质及电子终端 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN106503006A (zh) | 应用App中子应用的排序方法及装置 | |
CN110008397B (zh) | 一种推荐模型训练方法及装置 | |
CN109903111A (zh) | 用于个性化推荐的排序方法,排序模型训练方法和排序系统 | |
CN109636430A (zh) | 对象识别方法及其系统 | |
CN106919625A (zh) | 一种互联网用户属性识别方法和装置 | |
CN110188910A (zh) | 利用机器学习模型提供在线预测服务的方法及系统 | |
CN105760443A (zh) | 项目推荐系统、项目推荐装置以及项目推荐方法 | |
CN110580489B (zh) | 一种数据对象的分类系统、方法以及设备 | |
CN108920665A (zh) | 基于网络结构和评论文本的推荐评分方法及装置 | |
CN107292666A (zh) | 销售潜力判断方法及装置 | |
CN104239335B (zh) | 特定用户信息获取方法及装置 | |
CN110069715A (zh) | 一种信息推荐模型训练的方法、信息推荐的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |