CN110766431A - 判断用户对优惠券是否敏感的方法和装置 - Google Patents
判断用户对优惠券是否敏感的方法和装置 Download PDFInfo
- Publication number
- CN110766431A CN110766431A CN201810841215.4A CN201810841215A CN110766431A CN 110766431 A CN110766431 A CN 110766431A CN 201810841215 A CN201810841215 A CN 201810841215A CN 110766431 A CN110766431 A CN 110766431A
- Authority
- CN
- China
- Prior art keywords
- node
- user
- sensitive
- coupon
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims description 51
- 238000012545 processing Methods 0.000 claims description 26
- 238000012795 verification Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013138 pruning Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 17
- 238000011835 investigation Methods 0.000 abstract description 11
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 39
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种判断用户对优惠券是否敏感的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取用户行为数据以及用户对优惠券是否敏感的调查结果;使用调查结果对用户行为数据做标记以生成样本集;对样本集进行训练以得到判定模型,并使用判定模型来判断用户对优惠券是否敏感。该实施方式能够实现基于用户行为数据判定用户对优惠券是否敏感,利于刻画用户画像;同时,还可以更好地投放营销资源,以提升销量和用户活跃度,节省营销资源,为商家降低营销成本,提高营销效果。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种判断用户对优惠券是否敏感的方法和装置。
背景技术
互联网购物目前已经成为人们消费购物的主要方式之一。网上购物平台一般会采取促销的手段以促进消费,常用的几大促销手段包括满减、团购、优惠券等,其中优惠券作为营销资源中最重要的手段,不仅在大型促销活动时有重要的作用,在平时各个大大小小的活动乃至日常,都扮演着十分重要的角色。
但是目前对营销资源的使用很粗放,所有用户或某一级别的用户均可领取,这使得对产品有刚需的客户和没有刚需的客户都可以领取到营销资源,造成了营销资源的浪费和营销手段的低效。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
通过限定某级别用户可以领取优惠券的营销方式太过粗放。对优惠券领取而言,限定的级别的用户中可能会有很多对促销不敏感的用户,对这些用户投放优惠券并不一定会带来销量,故而会造成营销资源的浪费;同时,在限定的级别之外的用户中可能会有很多对促销敏感的用户,但却并没有被投放优惠券,故而会造成用户消费能力的浪费。因此,现有的限定某级别用户可以领取优惠券的营销方式,对商家而言,并不能实现利益最大化。
发明内容
有鉴于此,本发明实施例提供一种判断用户对优惠券是否敏感的方法和装置,能够实现基于用户行为数据判定用户对优惠券是否敏感,利于刻画用户画像;同时,还可以更好地投放营销资源,以提升销量和用户活跃度,节省营销资源,为商家降低营销成本,提高营销效果。
为实现上述目的,根据本发明实施例的一个方面,提供了一种判断用户对优惠券是否敏感的方法。
一种判断用户对优惠券是否敏感的方法,包括:获取用户行为数据以及用户对优惠券是否敏感的调查结果;使用所述调查结果对所述用户行为数据做标记以生成样本集;对所述样本集进行训练以得到判定模型,并使用所述判定模型来判断用户对优惠券是否敏感。
可选地,所述用户对优惠券是否敏感的调查结果是通过发放问卷的方式来调查得到的。
可选地,获取用户行为数据之后,还包括:对所述用户行为数据进行处理以得到预设的指标对应的取值;对所述取值中的连续数据进行离散化处理以得到预设的指标对应的离散取值。
可选地,对所述样本集进行训练以得到判定模型包括:将所述样本集划分为训练集和验证集;通过对所述训练集进行训练以得到基础模型;使用所述验证集对所述基础模型进行后剪枝处理以得到判定模型。
可选地,通过对所述训练集进行训练以得到基础模型包括:分别计算使用各个可选指标对样本进行划分对应的信息增益和信息增益率;从信息增益高于平均水平的可选指标中选择出增益率最高的可选指标作为当前等级的节点对应的指标,并将所述指标对应的离散取值作为当前等级的节点,然后将所述指标从所述可选指标中删除;对于每个节点,重复执行前两个步骤以确定所述节点对应的下一级节点,直至无法再对所述节点包含的样本进行划分,并将划分停止时的节点标记为叶节点,使用所述叶节点包含的样本集中样本数量最多的取值来对所述叶节点做标记以得到基础模型。
可选地,若所述节点包含的样本全部属于同一类别或所述节点包含的样本在所有可选指标上对应的取值相同或所述节点包含的样本集为空,则判定为无法再对所述节点包含的样本进行划分。
可选地,使用所述验证集对所述基础模型进行后剪枝处理以得到判定模型包括:从最后一级节点开始直至根节点,依次计算删除当前等级的节点下的分支后,对于验证集的数据计算精度是否有提升,如果有提升,则删除所述当前等级的节点下的分支。
可选地,还包括:对判定为对优惠券敏感的用户中的指定用户投放优惠券,其余用户不投放优惠券,并统计所有用户的购买结果,以对所述判定模型进行优化。
根据本发明实施例的另一方面,提供了一种判断用户对优惠券是否敏感的装置。
一种判断用户对优惠券是否敏感的装置,包括:数据获取模块,用于获取用户行为数据以及用户对优惠券是否敏感的调查结果;样本生成模块,用于使用所述调查结果对所述用户行为数据做标记以生成样本集;模型训练模块,用于对所述样本集进行训练以得到判定模型,并使用所述判定模型来判断用户对优惠券是否敏感。
可选地,所述用户对优惠券是否敏感的调查结果是通过发放问卷的方式来调查得到的。
可选地,还包括数据处理模块,用于:获取用户行为数据之后,对所述用户行为数据进行处理以得到预设的指标对应的取值;对所述取值中的连续数据进行离散化处理以得到预设的指标对应的离散取值。
可选地,所述模型训练模块还用于:将所述样本集划分为训练集和验证集;通过对所述训练集进行训练以得到基础模型;使用所述验证集对所述基础模型进行后剪枝处理以得到判定模型。
可选地,所述模型训练模块还用于:分别计算使用各个可选指标对样本进行划分对应的信息增益和信息增益率;从信息增益高于平均水平的可选指标中选择出增益率最高的可选指标作为当前等级的节点对应的指标,并将所述指标对应的离散取值作为当前等级的节点,然后将所述指标从所述可选指标中删除;对于每个节点,重复执行前两个步骤以确定所述节点对应的下一级节点,直至无法再对所述节点包含的样本进行划分,并将划分停止时的节点标记为叶节点,使用所述叶节点包含的样本集中样本数量最多的取值来对所述叶节点做标记以得到基础模型。
可选地,若所述节点包含的样本全部属于同一类别或所述节点包含的样本在所有可选指标上对应的取值相同或所述节点包含的样本集为空,则判定为无法再对所述节点包含的样本进行划分。
可选地,所述模型训练模块还用于:从最后一级节点开始直至根节点,依次计算删除当前等级的节点下的分支后,对于验证集的数据计算精度是否有提升,如果有提升,则删除所述当前等级的节点下的分支。
可选地,还包括模型优化模块,用于:对判定为对优惠券敏感的用户中的指定用户投放优惠券,其余用户不投放优惠券,并统计所有用户的购买结果,以对所述判定模型进行优化。
根据本发明实施例的又一方面,提供了一种判断用户对优惠券是否敏感的电子设备。
一种判断用户对优惠券是否敏感的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所提供的判断用户对优惠券是否敏感的方法。
根据本发明实施例的再一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例所提供的判断用户对优惠券是否敏感的方法。
上述发明中的一个实施例具有如下优点或有益效果:通过获取用户行为数据以及用户对优惠券是否敏感的调查结果,并使用调查结果对用户行为数据做标记以生成样本集,然后对样本集进行训练以得到判定模型,并使用判定模型来判断用户对优惠券是否敏感,实现了基于用户行为数据判定用户对优惠券是否敏感,利于刻画用户画像;通过判定用户对优惠券是否敏感,可以更好地投放营销资源,对优惠券敏感的用户可以提供有针对性的优惠券发放,以提升销量和用户活跃度,对优惠券不敏感的用户可以有针对性地减少优惠券发放,以避免出现本来就要消费的用户因为优惠券发放而顺便享受了优惠而带来的利益缩减的问题。同时,还可以节省营销资源,为商家降低营销成本,提高营销效果。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的判断用户对优惠券是否敏感的方法的主要步骤示意图;
图2是根据本发明实施例的判断用户对优惠券是否敏感的装置的主要模块示意图;
图3是本发明实施例可以应用于其中的示例性系统架构图;
图4是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了解决现有技术中存在的问题,本发明提供了一种基于用户行为发现用户是否对促销敏感的算法,利于刻画用户画像;基于此算法,可以更好地投放营销资源,对优惠券敏感的用户可以提供有针对性的优惠券发放,以提升销量和用户活跃度,对优惠券不敏感的用户可以有针对性地减少优惠券发放,以避免出现本来就要消费的用户因为优惠券发放而顺便享受了优惠而带来的利益缩减的问题。同时,还可以节省营销资源,为商家降低营销成本,提高营销效果。
具体地,本发明实施例的技术方案中通过使用用户的个人信息、购物信息、浏览信息、添加入购物车物车信息、关注信息等来对客户进行分类,区分出针对促销商品而言的促销敏感用户和促销不敏感用户,以加大对促销敏感用户的营销资源投放,减少对促销不敏感用户的营销资源投放,从而降低促销成本。
图1是根据本发明实施例的判断用户对优惠券是否敏感的方法的主要步骤示意图。如图1所示,本发明实施例的判断用户对优惠券是否敏感的方法主要包括如下的步骤S101至步骤S103。
步骤S101:获取用户行为数据以及用户对优惠券是否敏感的调查结果。
为了判断用户对优惠券是否敏感,需要对用户指定时间段(如:最近一年)内的用户行为数据进行分析,其中,用户行为数据例如可以是对包括用户关注、购买、加入购物车或浏览等行为对应的原始数据进行分析处理得到的。这些原始数据可以从现有的用户信息表、订单列表、关注商品列表、加入购物车商品列表、浏览商品列表等中获取到,并且在对原始数据进行分析处理之前,还可以删除其中的异常数据,异常数据例如,注册时间为1900-01-01的用户的数据,又如,注册后从未有消费记录的用户的数据,等等。
在对原始数据进行分析处理时,主要是统计本发明的技术方案中所需要的特征维度的指标对应的数据,并将统计得到的数据作为用户行为数据。
根据本发明的实施例,拟选取以下八个特征维度的指标用于衡量用户对优惠券是否敏感:
1、最近消费时间间隔,最近有消费的用户可能会对优惠券不敏感;
2、消费频次,消费频率高的用户可能对优惠券更不敏感;
3、客单价,即:一个客户单个订单的消费的平均值,客单价高的用户有更多的优惠券选择余地,可能对优惠券更不敏感;
4、客户关系长度,即:建立客户关系的时间长度,客户关系长度更长的客户,其用户忠诚度更高,对优惠券更不敏感;
5、是否购买过此商品或同一类目商品,有购买过则对优惠券可能更不敏感;
6、浏览此商品同一类目商品数量,浏览数量多的用户倾向于理性用户,一般对优惠券更加敏感;
7、加入购物车时间长度,加入购物车时间长则对优惠券等促销资源更加敏感;
8、关注商品的时间,关注商品的时间长则对优惠券等促销资源更加敏感。
以上八个指标仅为示例,在具体实施过程中,可根据需要灵活设定,并不局限于本发明实施例中所介绍的内容。
在获取用户行为数据之后,还可以对用户行为数据进行处理以得到预设的指标对应的取值;以及,对取值中的连续数据进行离散化处理以得到预设的指标对应的离散取值。
其中,预设的指标即为本发明实施例中所提及的八个指标。通过对获取的用户行为数据进行统计计算,即可得到每个指标对应的取值,例如:对于指标“消费频次”来说,假设有100个客户,最近一年的消费次数分别为1、2、…、100次,那么,指标“消费频次”对应的取值即为1、2、…、100。为了便于算法实施,以及考虑模型的精确度要求,可以对取值中的连续数据进行离散化处理,以得到离散取值。具体地,可以是通过对连续数据划分区段来做离散化处理。例如:可以通过将指标“消费频次”对应的取值划分为3个区间:(0,30]、(30,70]、(70,100],以把变量“消费频次”的取值从100个变成3个,以方便算法实施。具体实施时,如何划分区段需要根据情况具体尝试测算。
另外,步骤S101中还需要获取用户对优惠券是否敏感的调查结果。用户对优惠券是否敏感的调查结果可以是之前已得到并保存在系统数据库中,当需要使用时从系统数据库中获取的;也可以是当需要获取时根据预定的方式得到的。具体地,用户对优惠券是否敏感的调查结果是通过发放问卷的方式来调查得到的。
通过发放问卷的方式,选择用户关注、购买、加入购物车或浏览的商品,让用户回答是否会因为有优惠券而购买此商品以及没有优惠券就不购买此商品,或者是否有没有优惠券都不影响购买行为,从而判断出用户是否是优惠券敏感用户。例如:若一个用户因为有优惠券而购买了某商品,没有优惠券则不购买该商品,则该用户对优惠券敏感;若一个用户无论有没有优惠券都会购买某商品,则该用户对优惠券不敏感。
其中,用户对优惠券是否敏感的调查结果即包括:用户标识与该用户对优惠券是否敏感的评价结果的对应关系。
步骤S102:使用调查结果对用户行为数据做标记以生成样本集。
根据用户对优惠券是否敏感的调查结果,即可通过用户标识获取该用户对优惠券是否敏感的评价结果。然后,根据用户标识获取用户行为数据,并使用用户对优惠券是否敏感的评价结果来对用户行为数据做标记,从而生成一个样本。使用调查结果对调查的所有用户的用户行为数据做标记即可生成样本集。
步骤S103:对样本集进行训练以得到判定模型,并使用判定模型来判断用户对优惠券是否敏感。
在对样本集进行训练以得到判定模型时,具体可以包括以下步骤:首先,将样本集划分为训练集和验证集;其次,通过对训练集进行训练以得到基础模型;然后,使用验证集对基础模型进行后剪枝处理以得到判定模型。
在本发明的实施例中,在对样本集进行划分时,可以是选择其中80%的样本作为训练集,剩下的20%的样本作为验证集。
根据本发明的一个实施例,通过对训练集进行训练以得到基础模型具体可以包括:
分别计算使用各个可选指标对样本进行划分对应的信息增益和信息增益率;
从信息增益高于平均水平的可选指标中选择出增益率最高的可选指标作为当前等级的节点对应的指标,并将该指标对应的离散取值作为当前等级的节点,然后将该指标从可选指标中删除;
对于每个节点,重复执行前两个步骤以确定该节点对应的下一级节点,直至无法再对该节点包含的样本进行划分,并将划分停止时的节点标记为叶节点,使用叶节点包含的样本集中样本数量最多的取值来对叶节点做标记以得到基础模型。
其中,若节点包含的样本全部属于同一类别或节点包含的样本在所有可选指标上对应的取值相同或节点包含的样本集为空,则判定为无法再对节点包含的样本进行划分。
根据本发明的实施例,使用验证集对基础模型进行后剪枝处理以得到判定模型具体可以包括:
从最后一级节点开始直至根节点,依次计算删除当前等级的节点下的分支后,对于验证集的数据计算精度是否有提升,如果有提升,则删除当前等级的节点下的分支。
下面结合一个具体实施例介绍本发明的判定模型的训练过程。本发明的实施例在训练判定模型时,基本思路是:按照决策树的生成过程,根据预设指标及其离散取值对训练集的样本进行划分。具体地,把针对某个指标的离散取值作为节点,在该离散取值对应的节点下使用其他指标继续划分并将该其他指标的离散取值作为下一级节点,直到最终不能再进行划分,此时,最后的节点对应于用户“对优惠券敏感”或“对优惠券不敏感”。
例如:首先选取“浏览此商品同一类目商品数量”这一指标作为当前等级节点对应的指标,并使用该指标及其离散取值对训练集的样本进行划分以得到多个一级节点,其中,节点个数与离散取值的个数相同,假设其中一个一级节点为“浏览量为[1-10)”;之后,对于该一级节点“浏览量为[1-10)”,在该一级节点下继续选取另一可选指标“加入购物车时间长度”作为当前等级节点对应的指标,并使用该指标及其离散取值对该一级节点包含的样本进行划分以得到多个二级节点……最终在经过多级节点后,行成多个判定逻辑,并分别对应“对优惠券敏感”或“对优惠券不敏感”,这多个判定逻辑即构成了基础模型。
在上述生成基础模型的过程中,最重要的在于每一步选取哪个指标,其中,每一步选取的指标是不相同的,因此,每一步的可选指标也不同。同样地,每一步中划分的样本也是不同的,每一步中划分的样本对应的是该步骤要划分的节点包含的样本。根据本发明的实施例,通过计算使用各个可选指标对样本进行划分对应的信息增益和信息增益率,然后从信息增益高于平均水平的可选指标中选择出增益率最高的可选指标作为当前等级的节点对应的指标。
首先,计算使用某个可选指标进行样本划分带来的信息增益。假定当前样本集合D(即:当前节点包括的样本集合)中第k类样本所占的比例为Pk(k=优惠券敏感或优惠券不敏感),则当前样本集合D的信息熵Ent(D)定义为:
其中,根据本发明的实施例,由于样本仅有两类,即:标记为“对优惠券敏感”的样本,和标记为“对优惠券不敏感”的样本,因此|y|=2。信息熵的值越小,则当前样本集合D的纯度越高。
假设指标a有V个可能的离散取值{a1,a2,…,aV},若使用指标a对样本进行划分则会有V个分类。假设第v个分类对应的样本集合记为Dv,且该样本集合Dv包含了|Dv|个样本。则定义信息增益Gain(D,a)为:
其中,|D|为当前样本集合D中的样本个数。
其次,计算使用某个可选指标进行样本划分带来的信息增益率。信息增益率Gain_ratio(D,a)定义为:
其中,称为指标a的“固有值”。由IV(a)的公式可知,指标a的可能离散取值越多(即V越大),则IV(a)的值通常会越大。IV(a)变大可以中和由于指标a的离散取值过多引发的增益值过大,使得在对变量进行描述时,信息增益率会比信息增益更准确。
然后,从信息增益高于平均水平的可选指标中选择出增益率最高的可选指标作为当前等级的节点对应的指标。在第一次对样本进行划分时,所划分的样本即为训练集包括的所有样本,且是从预设的八个指标中选择当前等级的节点对应的指标,并将所选择的指标的离散取值作为划分得到的一级节点。之后,对于每一个一级节点分别确定其包括的二级节点,此时,所划分的样本即为每个一级节点包括的所有样本,且是从删除已选指标后的可选指标(即:剩下的七个指标)中选择当前等级的节点对应的指标,并将所选择的指标的离散取值作为划分得到的二级节点。循环此选择方式,直至当前节点包含的样本全部属于同一类别或者所有样本在所有指标上的离散取值相同或者当前节点包含的样本集合为空,则判定为无法再对当前节点包含的样本进行划分。此时停止划分,并将划分停止时的节点标记为叶节点,使用叶节点包含的样本集中样本数量最多的取值来对叶节点做标记,即:如果“对优惠券敏感”的样本数量更多,则此叶节点被标记为“对优惠券敏感”,反之亦然。
其中,当前节点包含的样本全部属于同一类别指的是当前节点包含的样本同为“对优惠券敏感”或同为“对优惠券不敏感”。所有样本在所有指标上的离散取值相同例如当划分到最后一级时,会出现所有的指标都已使用,那么最后一级的各个节点就是指标的离散取值完全相同的情况,此时无法继续划分。当前节点包含的样本集合为空指的是虽然有这个节点,但是训练集里满足此条件的样本却一个都没有,那么此时将无法继续划分。
下面举一个具体的实施例来介绍具体如何进行样本划分。例如:第一步对根节点包括的训练集的样本进行划分时,需要确定划分所依据的指标,假设“一年内购物次数”这个指标是满足信息增益率最大(在本实施例中以此作为指标的选择标准)的指标,则根据指标“一年内购物次数”来划分一级节点;假设指标“一年内购物次数”有“(0,30]、(30,50]、...、(300,400]”共6个离散取值,则相应地有6个一级节点。每个一级节点在选择自己进行下一步划分所依据的指标时,会单独寻找对于自己来说信息增益率最大的指标,比如对于“一年内购物(30,50]次”这个一级节点,假设指标“客户关系长度”的信息增益率最大,而指标“客户关系长度”有6个离散取值,则“一年内购物(30,50]次”这个一级节点会进一步划分出6个二级节点。假设其中一个二级节点为“一年内购物(30,50]次,且客户关系长度为2年”,对该二级节点继续划分得到的一个三级节点例如是:“一年内购物(30,50]次,且客户关系长度为2年,客单价为(100,500]”,如果该三级节点包括的所有样本都标记为“优惠券不敏感”,则该三级节点即为叶节点,且该三级节点对应的逻辑规则为:“一年内购物(30,50]次,且客户关系长度为2年,客单价为(100,500],优惠券不敏感”。其中,如果某个节点不满足叶节点标记的条件,则继续向下衍生节点划分,直至最终出现满足叶节点的条件(即:判定无法再对当前节点包含的样本进行划分的条件)之一时,停止进行样本划分,决策树完成。
根据上述的过程,即可将训练集中的所有样本进行划分,从而得到一个决策树,以作为基础模型。
在得到基础模型之后,由于对样本进行划分后得到的叶节点对应的逻辑规则可能纷繁庞杂,并不一定能很好的适应新的数据,可能会造成“过拟合”,所以需要使用验证集对基础模型进行后剪枝处理以调整模型参数。具体方法是依次从最后一级节点开始计算,直至根节点,计算删除此节点下的分支后,对于验证集的数据计算精度(正确分类次数/总分类次数)是否有提升,如果有提升则删除此节点下的分支;否则,说明并没有“过拟合”,无需优化。后剪枝处理后的模型即为判定模型,通过后剪枝处理可以降低“过拟合”风险。
最后,即可使用判定模型来判断用户对优惠券是否敏感。
另外,本发明在判断用户对优惠券是否敏感之后,还可以通过对判定为对优惠券敏感的用户中的指定用户投放优惠券,其余用户不投放优惠券,并统计所有用户的购买结果,以对所述判定模型进行优化。
根据本发明的一个实施例,对于具体的优惠券批次涉及的商品,使用判定模型对用户进行离线计算以得到用户对优惠券是否敏感,并根据计算结果对用户打标,从而得到对优惠券敏感的用户的集合A。然后,对集合A中的指定用户(例如:集合A中的90%用户)进行对应优惠券投放,另对于集合A中的其余用户(例如:集合A中剩下的10%用户)仅触发消息推送但是不投放优惠券。之后,统计集合A中所有用户的购买结果,并将购买结果作为测试集返回模型以用于进一步优化模型。
图2是根据本发明实施例的判断用户对优惠券是否敏感的装置的主要模块示意图。如图2所示,本发明实施例的判断用户对优惠券是否敏感的装置200主要包括数据获取模块201、样本生成模块202和模型训练模块203。
数据获取模块201用于获取用户行为数据以及用户对优惠券是否敏感的调查结果;
样本生成模块202用于使用调查结果对用户行为数据做标记以生成样本集;
模型训练模块203用于对样本集进行训练以得到判定模型,并使用判定模型来判断用户对优惠券是否敏感。
根据本发明的一个实施例,用户对优惠券是否敏感的调查结果是通过发放问卷的方式来调查得到的。
本发明实施例的判断用户对优惠券是否敏感的装置200还可以包括数据处理模块(图中未示出),用于:
获取用户行为数据之后,对用户行为数据进行处理以得到预设的指标对应的取值;
对取值中的连续数据进行离散化处理以得到预设的指标对应的离散取值。
根据本发明的一个实施例,模型训练模块203还可以用于:
将样本集划分为训练集和验证集;
通过对训练集进行训练以得到基础模型;
使用验证集对基础模型进行后剪枝处理以得到判定模型。
根据本发明的一个实施例,模型训练模块203还可以用于:
分别计算使用各个可选指标对样本进行划分对应的信息增益和信息增益率;
从信息增益高于平均水平的可选指标中选择出增益率最高的可选指标作为当前等级的节点对应的指标,并将该指标对应的离散取值作为当前等级的节点,然后将该指标从可选指标中删除;
对于每个节点,重复执行前两个步骤以确定该节点对应的下一级节点,直至无法再对该节点包含的样本进行划分,并将划分停止时的节点标记为叶节点,使用叶节点包含的样本集中样本数量最多的取值来对叶节点做标记以得到基础模型。
其中,若所述节点包含的样本全部属于同一类别或所述节点包含的样本在所有可选指标上对应的取值相同或所述节点包含的样本集为空,则判定为无法再对所述节点包含的样本进行划分。
根据本发明的另一个实施例,模型训练模块203还可以用于:
从最后一级节点开始直至根节点,依次计算删除当前等级的节点下的分支后,对于验证集的数据计算精度是否有提升,如果有提升,则删除当前等级的节点下的分支。
本发明实施例的判断用户对优惠券是否敏感的装置200还可以包括模型优化模块(图中未示出),用于:
对判定为对优惠券敏感的用户中的指定用户投放优惠券,其余用户不投放优惠券,并统计所有用户的购买结果,以对判定模型进行优化。
根据本发明实施例的技术方案,通过获取用户行为数据以及用户对优惠券是否敏感的调查结果,并使用调查结果对用户行为数据做标记以生成样本集,然后对样本集进行训练以得到判定模型,并使用判定模型来判断用户对优惠券是否敏感,实现了基于用户行为数据判定用户对优惠券是否敏感,利于刻画用户画像;通过判定用户对优惠券是否敏感,可以更好地投放营销资源,对优惠券敏感的用户可以提供有针对性的优惠券发放,以提升销量和用户活跃度,对优惠券不敏感的用户可以有针对性地减少优惠券发放,以避免出现本来就要消费的用户因为优惠券发放而顺便享受了优惠而带来的利益缩减的问题。同时,还可以节省营销资源,为商家降低营销成本,提高营销效果。
图3示出了可以应用本发明实施例的判断用户对优惠券是否敏感的方法或判断用户对优惠券是否敏感的装置的示例性系统架构300。
如图3所示,系统架构300可以包括终端设备301、302、303,网络304和服务器305。网络304用以在终端设备301、302、303和服务器305之间提供通信链路的介质。网络304可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备301、302、303通过网络304与服务器305交互,以接收或发送消息等。终端设备301、302、303上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备301、302、303可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器305可以是提供各种服务的服务器,例如对用户利用终端设备301、302、303所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的判断用户对优惠券是否敏感的方法一般由服务器305执行,相应地,判断用户对优惠券是否敏感的装置一般设置于服务器305中。
应该理解,图3中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图4,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机系统400的结构示意图。图4示出的终端设备或服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括数据获取模块、样本生成模块和模型训练模块。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定,例如,数据获取模块还可以被描述为“用于获取用户行为数据以及用户对优惠券是否敏感的调查结果的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取用户行为数据以及用户对优惠券是否敏感的调查结果;使用所述调查结果对所述用户行为数据做标记以生成样本集;对所述样本集进行训练以得到判定模型,并使用所述判定模型来判断用户对优惠券是否敏感。
根据本发明实施例的技术方案,通过获取用户行为数据以及用户对优惠券是否敏感的调查结果,并使用调查结果对用户行为数据做标记以生成样本集,然后对样本集进行训练以得到判定模型,并使用判定模型来判断用户对优惠券是否敏感,实现了基于用户行为数据判定用户对优惠券是否敏感,利于刻画用户画像;通过判定用户对优惠券是否敏感,可以更好地投放营销资源,对优惠券敏感的用户可以提供有针对性的优惠券发放,以提升销量和用户活跃度,对优惠券不敏感的用户可以有针对性地减少优惠券发放,以避免出现本来就要消费的用户因为优惠券发放而顺便享受了优惠而带来的利益缩减的问题。同时,还可以节省营销资源,为商家降低营销成本,提高营销效果。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (18)
1.一种判断用户对优惠券是否敏感的方法,其特征在于,包括:
获取用户行为数据以及用户对优惠券是否敏感的调查结果;
使用所述调查结果对所述用户行为数据做标记以生成样本集;
对所述样本集进行训练以得到判定模型,并使用所述判定模型来判断用户对优惠券是否敏感。
2.根据权利要求1所述的方法,其特征在于,所述用户对优惠券是否敏感的调查结果是通过发放问卷的方式来调查得到的。
3.根据权利要求1所述的方法,其特征在于,获取用户行为数据之后,还包括:
对所述用户行为数据进行处理以得到预设的指标对应的取值;
对所述取值中的连续数据进行离散化处理以得到预设的指标对应的离散取值。
4.根据权利要求1所述的方法,其特征在于,对所述样本集进行训练以得到判定模型包括:
将所述样本集划分为训练集和验证集;
通过对所述训练集进行训练以得到基础模型;
使用所述验证集对所述基础模型进行后剪枝处理以得到判定模型。
5.根据权利要求4所述的方法,其特征在于,通过对所述训练集进行训练以得到基础模型包括:
分别计算使用各个可选指标对样本进行划分对应的信息增益和信息增益率;
从信息增益高于平均水平的可选指标中选择出增益率最高的可选指标作为当前等级的节点对应的指标,并将所述指标对应的离散取值作为当前等级的节点,然后将所述指标从所述可选指标中删除;
对于每个节点,重复执行前两个步骤以确定所述节点对应的下一级节点,直至无法再对所述节点包含的样本进行划分,并将划分停止时的节点标记为叶节点,使用所述叶节点包含的样本集中样本数量最多的取值来对所述叶节点做标记以得到基础模型。
6.根据权利要求5所述的方法,其特征在于,若所述节点包含的样本全部属于同一类别或所述节点包含的样本在所有可选指标上对应的取值相同或所述节点包含的样本集为空,则判定为无法再对所述节点包含的样本进行划分。
7.根据权利要求4所述的方法,其特征在于,使用所述验证集对所述基础模型进行后剪枝处理以得到判定模型包括:
从最后一级节点开始直至根节点,依次计算删除当前等级的节点下的分支后,对于验证集的数据计算精度是否有提升,如果有提升,则删除所述当前等级的节点下的分支。
8.根据权利要求1所述的方法,其特征在于,还包括:
对判定为对优惠券敏感的用户中的指定用户投放优惠券,其余用户不投放优惠券,并统计所有用户的购买结果,以对所述判定模型进行优化。
9.一种判断用户对优惠券是否敏感的装置,其特征在于,包括:
数据获取模块,用于获取用户行为数据以及用户对优惠券是否敏感的调查结果;
样本生成模块,用于使用所述调查结果对所述用户行为数据做标记以生成样本集;
模型训练模块,用于对所述样本集进行训练以得到判定模型,并使用所述判定模型来判断用户对优惠券是否敏感。
10.根据权利要求9所述的装置,其特征在于,所述用户对优惠券是否敏感的调查结果是通过发放问卷的方式来调查得到的。
11.根据权利要求9所述的装置,其特征在于,还包括数据处理模块,用于:
获取用户行为数据之后,对所述用户行为数据进行处理以得到预设的指标对应的取值;
对所述取值中的连续数据进行离散化处理以得到预设的指标对应的离散取值。
12.根据权利要求9所述的装置,其特征在于,所述模型训练模块还用于:
将所述样本集划分为训练集和验证集;
通过对所述训练集进行训练以得到基础模型;
使用所述验证集对所述基础模型进行后剪枝处理以得到判定模型。
13.根据权利要求12所述的装置,其特征在于,所述模型训练模块还用于:
分别计算使用各个可选指标对样本进行划分对应的信息增益和信息增益率;
从信息增益高于平均水平的可选指标中选择出增益率最高的可选指标作为当前等级的节点对应的指标,并将所述指标对应的离散取值作为当前等级的节点,然后将所述指标从所述可选指标中删除;
对于每个节点,重复执行前两个步骤以确定所述节点对应的下一级节点,直至无法再对所述节点包含的样本进行划分,并将划分停止时的节点标记为叶节点,使用所述叶节点包含的样本集中样本数量最多的取值来对所述叶节点做标记以得到基础模型。
14.根据权利要求13所述的装置,其特征在于,若所述节点包含的样本全部属于同一类别或所述节点包含的样本在所有可选指标上对应的取值相同或所述节点包含的样本集为空,则判定为无法再对所述节点包含的样本进行划分。
15.根据权利要求12所述的装置,其特征在于,所述模型训练模块还用于:
从最后一级节点开始直至根节点,依次计算删除当前等级的节点下的分支后,对于验证集的数据计算精度是否有提升,如果有提升,则删除所述当前等级的节点下的分支。
16.根据权利要求9所述的装置,其特征在于,还包括模型优化模块,用于:
对判定为对优惠券敏感的用户中的指定用户投放优惠券,其余用户不投放优惠券,并统计所有用户的购买结果,以对所述判定模型进行优化。
17.一种判断用户对优惠券是否敏感的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810841215.4A CN110766431A (zh) | 2018-07-27 | 2018-07-27 | 判断用户对优惠券是否敏感的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810841215.4A CN110766431A (zh) | 2018-07-27 | 2018-07-27 | 判断用户对优惠券是否敏感的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110766431A true CN110766431A (zh) | 2020-02-07 |
Family
ID=69326986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810841215.4A Pending CN110766431A (zh) | 2018-07-27 | 2018-07-27 | 判断用户对优惠券是否敏感的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766431A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723993A (zh) * | 2021-08-17 | 2021-11-30 | 广东新能通科技有限公司 | 一种充电桩的电子优惠券发放方法、装置和系统 |
CN113763019A (zh) * | 2021-01-28 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种用户信息管理方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824813A (zh) * | 2015-01-05 | 2016-08-03 | 中国移动通信集团江苏有限公司 | 一种挖掘核心用户的方法及装置 |
CN107424007A (zh) * | 2017-07-12 | 2017-12-01 | 北京京东尚科信息技术有限公司 | 一种构建电子券敏感度识别模型的方法和装置 |
CN107507042A (zh) * | 2017-09-15 | 2017-12-22 | 携程计算机技术(上海)有限公司 | 基于用户画像的营销方法及系统 |
-
2018
- 2018-07-27 CN CN201810841215.4A patent/CN110766431A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824813A (zh) * | 2015-01-05 | 2016-08-03 | 中国移动通信集团江苏有限公司 | 一种挖掘核心用户的方法及装置 |
CN107424007A (zh) * | 2017-07-12 | 2017-12-01 | 北京京东尚科信息技术有限公司 | 一种构建电子券敏感度识别模型的方法和装置 |
CN107507042A (zh) * | 2017-09-15 | 2017-12-22 | 携程计算机技术(上海)有限公司 | 基于用户画像的营销方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113763019A (zh) * | 2021-01-28 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种用户信息管理方法和装置 |
CN113723993A (zh) * | 2021-08-17 | 2021-11-30 | 广东新能通科技有限公司 | 一种充电桩的电子优惠券发放方法、装置和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751497A (zh) | 一种商品补货方法和装置 | |
CN110363604B (zh) | 页面生成方法和装置 | |
CN110929136A (zh) | 一种个性化推荐方法和装置 | |
CN109711917B (zh) | 信息推送方法和装置 | |
CN108932625B (zh) | 用户行为数据的分析方法、装置、介质和电子设备 | |
CN109146533B (zh) | 信息推送方法和装置 | |
CN113051480A (zh) | 资源推送方法、装置、电子设备及存储介质 | |
CN112925973A (zh) | 数据处理方法和装置 | |
CN110866625A (zh) | 促销指标信息生成方法和装置 | |
CN111612385B (zh) | 一种对待配送物品进行聚类的方法和装置 | |
CN114663015A (zh) | 补货方法和装置 | |
CN111798261A (zh) | 信息更新的方法和装置 | |
CN110766431A (zh) | 判断用户对优惠券是否敏感的方法和装置 | |
CN108959289B (zh) | 网站类别获取方法和装置 | |
CN110827101B (zh) | 一种店铺推荐的方法和装置 | |
CN112667770A (zh) | 一种对物品进行分类的方法和装置 | |
CN107357847B (zh) | 数据处理方法及其装置 | |
CN115936764A (zh) | 一种产品推广方法和装置 | |
CN110838019A (zh) | 确定试用品发放人群的方法和装置 | |
CN110858335A (zh) | 一种计算促销弹性的方法和装置 | |
CN113762994B (zh) | 用户运营管理的方法和装置 | |
CN110689032A (zh) | 数据处理方法及系统、计算机系统和计算机可读存储介质 | |
CN111460300B (zh) | 网络内容推送方法、装置及存储介质 | |
CN114677174A (zh) | 一种计算未上架物品销量的方法和装置 | |
CN109583922B (zh) | 分析购买需求的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |