CN112365283A

CN112365283A - 一种优惠券发放方法、装置、终端设备及存储介质

Info

Publication number: CN112365283A
Application number: CN202011223177.XA
Authority: CN
Inventors: 黄昕虹
Original assignee: Guangzhou Shikun Electronic Technology Co Ltd
Current assignee: Guangzhou Shikun Electronic Technology Co Ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-12
Anticipated expiration: 2040-11-05
Also published as: CN112365283B

Abstract

本发明公开了一种优惠券发放方法、装置、终端设备及存储介质。方法包括：获取用户特征信息、用户点击物品行为信息和用户点击的物品特征信息；将所述用户特征信息、用户点击物品行为信息和用户点击的物品特征信息输入至多任务学习模型中，得到用户偏好和用户的价格敏感度，其中，所述多任务学习模型根据用户特征信息样本、用户点击物品行为序列样本和用户点击的物品特征信息样本训练得到；根据所述用户偏好和用户的价格敏感度将用户下一个点击的商品对应的优惠券发放至用户终端。利用该方法能够计算出针对每一用户最偏好商品的最优惠价格的商品优惠券，以刺激用户变现达到提升商品销售额的目标。

Description

一种优惠券发放方法、装置、终端设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种优惠券发放方法、装置、终端设备及存储介质。

背景技术

不同用户对商品的价格敏感度不同，不同商品其需求对价格的敏感程度不同，经营者需要采取不同的定价策略来提高收入。目前的技术方案包括：向消费者用户发放调查问卷以及通过模型去预测价格敏感度。基础方法包括：KANO模型，机器学习与深度学习方法，从商品属性或者用户属性提取特征构造模型进行预测。

1.KANO模型定义了三个层次的用户需求：基本型需求、期望型需求和兴奋型需求。基本型需求是顾客对企业提供的产品或者服务因素的基本要求。这是顾客认为产品或者服务“必须有”的属性或功能。期望型需求是指顾客的满意状况与需求的满足程度成比例关系的需求。魅力型需求是指不会被顾客过分期望的需求。经营者通过这三种层次的需求进行问卷设计，实施有效的问卷调查，问卷回收后将调查结果分类汇总并建立质量原型，最后通过分析质量原型来识别具体测量指标的敏感性。

2.基于商品属性的机器学习与深度学习方法：根据所述对应类型的门店以及所述门店中对应类型的商品相关信息构建销量预测模型，通过促销商品的销量计算得到所述参与促销商品的促销价格，通过预测销量对对应商家的促销商品进行定价。

3.基于用户属性的机器学习与深度学习方法：获取用于表征用户对多个推送优惠中的每个优惠进行选择和使用的多个历史行为特征的特征值，预测用户对于优惠选择的概率，并确定优惠发放的数量、价格以及使用概率。

现有技术的方案存在如下问题：

1.KANO模型实施成本高，互联网移动APP用户较为分散，实施起来较为困难；

2.基于商品属性的机器学习与深度学习方法是单从商品属性构建特征输入模型，会忽略很多用户个性化信息，结果输出后只能通过用户基础属性如地区与年龄等做简单的用户分类，进行粗粒度个性化推荐，不利于完全自动化对APP大量的用户进行差异化优惠，削减了销量提升效果以及盈利效果；

3.基于用户属性的机器学习与深度学习方法是单从用户使用优惠序列构建特征输入模型，首先，模型忽略了用户对不同商品类型的偏好存在差异，某个用户的整体价格敏感度非常高，并不说明该用户对我们要推送的特定商品的敏感度就高，其次，在部分移动APP上，用户的付费行为较为稀疏，由于优惠曝光较为隐秘，用户使用优惠进行付费更为稀疏，在训练集构建上存在一定困难。

发明内容

本发明实施例提供了一种优惠券发放方法、装置、终端设备及存储介质，能够计算出针对每一用户最偏好商品的最优惠价格的商品优惠券，以刺激用户变现达到提升商品销售额的目标。

第一方面，本发明实施例提供了一种优惠券发放方法，包括：

获取用户特征信息、用户点击商品行为信息和用户点击的商品特征信息；

将所述用户特征信息、用户点击商品行为信息和用户点击的商品特征信息输入至多任务学习模型中，得到用户偏好和用户的价格敏感度，其中，所述多任务学习模型根据用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本训练得到；

根据所述用户偏好和用户的价格敏感度将用户下一个点击的商品对应的优惠券发放至用户终端。

进一步的，所述用户点击商品行为序列样本包括：第一用户点击商品行为信息样本和第二用户点击商品行为信息样本，所述第一用户点击商品行为信息样本为用户第1次至T-1次点击商品行为信息，所述第二用户点击商品行为信息为用户第T次点击商品行为信息；所述用户点击的商品特征信息样本包括：第一用户点击的商品特征信息样本和第二用户点击的商品特征信息样本，所述第一用户点击的商品特征信息样本为用户第1次至T-1次点击的商品特征信息样本，所述第二用户点击的商品特征信息样本为用户第T次点击的商品特征信息样本，T为大于1的正整数，所述用户特征信息样本包括：第一用户特征信息样本，其中，所述第一用户特征信息样本包括：正样本和负样本，所述第一用户特征信息携带标签，所述正样本携带使用优惠券标签，所述负样本携带未使用优惠券标签；

所述多任务学习模型的训练方法，包括：

获取用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本；

将所述用户特征信息样本、第一用户点击商品行为信息样本和第一用户点击的商品特征信息样本输入至待训练的多任务学习模型中，得到预估用户第T次点击的商品；

将所述第一用户特征信息样本和用户点击商品行为序列样本输入至待训练的多任务学习模型，得到预估价格敏感度；

根据所述第二用户点击的商品特征信息样本和所述预估用户第T次点击的商品特征信息形成的第一目标函数和根据所述预估价格敏感度和所述第一用户特征信息携带的标签形成的第二目标函数训练所述待训练的多任务学习模型的模型参数；

返回执行将所述用户特征信息样本、第一用户点击商品行为信息样本和第一用户点击的商品特征信息样本输入至待训练的多任务学习模型中，得到预估用户第T次点击的商品，将所述第一用户特征信息样本和用户点击商品行为序列样本输入至待训练的多任务学习模型，得到预估价格敏感度的操作，直至得到多任务学习模型。

进一步的，所述正样本中的用户为购买过优惠商品的用户，所述负样本中的用户为在优惠购买界面未使用优惠券购买的用户。

进一步的，所述用户点击的商品特征信息包括：用户点击的商品的身份信息、商品的类别、商品的短描述、商品的价格以及商品的标题中的一种或多种。

进一步的，所述用户特征信息包括：用户年龄信息、用户所属城市等级信息和用户历史消费信息中的一种或多种。

进一步的，获取用户特征信息包括：

获取用户的IP地址；

根据所述用户的IP地址确定用户所属城市；

根据用户所属城市查询城市等级划分规则，得到用户所属城市等级信息。

进一步的，获取用户点击商品行为信息包括：

获取用户浏览商品详情页面时间大于设定阈值的用户点击商品行为信息。

进一步的，所述第二用户点击的商品特征信息样本还包括用户第1次至T-1次未点击的商品特征信息，其中，未点击的商品与用户点击的商品处于同一显示界面。

进一步的，所述正样本包括：第一正样本和第二正样本，所述负样本包括：第一负样本和第二负样本，将获取的购买过优惠商品的用户的特征信息作为第一正样本，将与第一正样本的相似度大于相似度阈值的用户的特征信息作为第二正样本，将获取的进入优惠商品界面且原价购买优惠商品的用户的特征信息作为第一负样本，将与所述第一负样本的相似度大于相似度阈值的用户的特征信息作为第二负样本。

第二方面，本发明实施例还提供了一种优惠券发放装置，包括：

获取模块，用于获取用户特征信息、用户点击商品行为信息和用户点击的商品特征信息；

输入模块，用于将所述用户特征信息、用户点击商品行为信息和用户点击的商品特征信息输入至多任务学习模型中，得到用户偏好和用户的价格敏感度，其中，所述多任务学习模型根据用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本训练得到；

发放模块，用于根据所述用户偏好和用户的价格敏感度将用户下一个点击的商品对应的优惠券发放至用户终端。

进一步的，所述用户点击商品行为信息包括：第一用户点击商品行为信息和第二用户点击商品行为信息，所述第一用户点击商品行为信息为用户第1次至T-1次点击商品行为信息，所述第二用户点击商品行为信息为用户第T次点击商品行为信息；所述用户点击的商品特征信息包括：第一用户点击的商品特征信息样本和第二用户点击的商品特征信息样本，所述第一用户点击的商品特征信息样本为用户第1次至T-1次点击的商品特征信息样本，所述第二用户点击的商品特征信息样本为用户第T次点击的商品特征信息样本，T为大于1的正整数，所述用户特征信息样本包括：第一用户特征信息样本，其中，所述第一用户特征信息样本包括：正样本和负样本，所述第一用户特征信息携带标签，所述正样本携带使用优惠券标签，所述负样本携带未使用优惠券标签；

输入模块具体用于：

获取用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本；将所述用户特征信息样本、第一用户点击商品行为信息样本和第一用户点击的商品特征信息样本输入至待训练的多任务学习模型中，得到预估用户第T次点击的商品；

进一步的，获取模块具体用于：

获取用户的IP地址；

根据所述用户的IP地址确定用户所属城市；

进一步的，获取模块具体用于：

第三方面，本发明实施例还提供了一种终端设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的优惠券发放方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的优惠券发放方法。

本发明实施例提供了一种优惠券发放方法、装置、终端设备及存储介质，获取用户特征信息、用户点击商品行为信息和用户点击的商品特征信息；将所述用户特征信息、用户点击商品行为信息和用户点击的商品特征信息输入至多任务学习模型中，得到用户偏好和用户的价格敏感度，其中，所述多任务学习模型根据用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本训练得到；根据所述用户偏好和用户的价格敏感度将用户下一个点击的商品对应的优惠券发放至用户终端。利用上述技术方案，能够计算出针对每一用户最偏好商品的最优惠价格的商品优惠券，以刺激用户变现达到提升商品销售额的目标。

附图说明

图1为本发明实施例一提供的一种优惠券发放方法的流程示意图；

图2为本发明实施例二提供的一种优惠券发放装置的结构示意图；

图3为本发明实施例三提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对相应内容进行区分，并非用于限定顺序或者相互依存关系。

实施例一

图1为本发明实施例一提供的一种优惠券发放方法的流程示意图，该方法可适用于优惠券发放的情况，该方法可以由优惠券发放装置来执行，其中该优惠券发放装置可由软件和/或硬件实现，并一般集成在终端设备上，在本实施例中终端设备包括但不限于：电脑。

如图1所示，本发明实施例一提供的一种优惠券发放方法，包括如下步骤：

S110、获取用户特征信息、用户点击商品行为信息和用户点击的商品特征信息。

其中，所述用户特征信息包括：用户的年龄信息，用户所属城市等级信息以及用户的历史消费特征信息，其中，用户所属城市通过用户上报的IP地址解析得到，所述城市等级通过用户所属城市查询国家最新发布的城市等级获取。

其中，用户点击商品行为信息指的是：按照时间排序的用户点击过的商品，其中，用户点击商品可以定义为用户浏览商品详情页一定时长。例如可以是，获取用户点击过的商品，获取用户浏览商品详情页一定时长的点击行为，清洗掉用户误点的脏数据。

其中，用户点击的商品特征信息包括：商品ID、商品价格、商品标题、课题短描述和商品类别，商品类别可以为商品二级分类。

S120、将所述用户特征信息、用户点击商品行为信息和用户点击的商品特征信息输入至多任务学习模型中，得到用户偏好和用户的价格敏感度，其中，所述多任务学习模型根据用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本训练得到。

示例性的，预先构建待训练的多任务学习模型，对所述待训练的多任务学习进行训练的方式可以为：第一步、获取用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本，其中，所述用户特征信息样本包括：用户的年龄信息，用户所属城市等级信息以及用户的历史消费特征信息，其中，用户所属城市通过用户上报的IP地址解析得到，所述城市等级通过用户所属城市查询国家最新发布的城市等级获取。用户点击商品行为序列样本指的是：按照时间排序的用户点击过的商品，其中，用户点击商品定义为用户浏览商品详情页的时间大于设定阈值的点击商品行为。例如可以是，获取用户点击过的商品，获取用户浏览商品详情页的时间大于设定阈值的点击商品行为，清洗掉用户误点的脏数据，用户误点的脏数据可以为用户浏览商品详情页面的时间小于设定阈值的点击商品行为。其中，用户点击的商品特征信息样本包括：商品ID、商品价格、商品标题、课题短描述和商品类别，商品类别可以为商品二级分类。根据用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本训练待训练的多任务学习模型，得到第一目标函数，根据用户特征信息样本和用户点击商品行为序列样本训练待训练的多任务学习模型，得到第二目标函数，对第一目标函数和第二目标函数设置各自的权重，得到最终的损失函数，例如可以是，多任务学习的损失函数等于预设倍数的第一目标函数和第二目标函数的和，也可以为预设倍数的第二目标函数和第一目标函数的和，本发明实施例对此不进行限制。

示例性的，预先构建待训练的多任务学习模型，对所述待训练的多任务学习进行训练的方式还可以为：第一步、获取用于训练第一目标函数的训练样本，用于训练第一目标函数的训练样本包括：用户特征信息样本、第1次至T-1次点击商品行为信息样本、第T次点击的商品行为信息样本和用户点击的商品特征信息；以及，用户特征信息样本、第1次至T-1次点击商品行为信息样本、用户第1次至T-1次未点击的商品特征信息(此处的未点击的商品指的是在显示页面呈现，但是用户未点击的商品)。第二步、获取用于训练第二目标函数的训练样本，用于训练第二目标函数的训练样本包括：使用优惠券购买商品的用户特征信息样本和用户点击商品行为信息；以及，在商品拼团页面没有选择拼团，而直接购买商品的用户特征信息样本和用户点击商品行为信息。

需要说明的是，将获取的购买过优惠商品的用户的特征信息作为第一正样本，将与第一正样本的相似度大于相似度阈值的用户的特征信息作为第二正样本，将获取的进入优惠商品界面且原价购买优惠商品的用户的特征信息作为第一负样本，将与所述第一负样本的相似度大于相似度阈值的用户的特征信息作为第二负样本。

S130、根据所述用户偏好和用户的价格敏感度将用户下一个点击的商品对应的优惠券发放至用户终端。

其中，所述用户偏好可以为用户下一个点击的商品，用户的价格敏感度为用户使用的优惠券对应的折扣力度，例如可以是，若用户使用的优惠券为“满50减10”，则对应的折扣力度为0.8，折扣力度越小，说明用户价格敏感度越高。

示例性的，将用户下一个点击的商品对应的优惠券发放至用户终端的方式可以为在用户浏览商品对应的详情页面时，显示优惠券；也可以为在用户点击商品时，显示优惠券，本发明实施例对此不进行限制。

在一个实施例中，所述用户点击商品行为序列样本包括：第一用户点击商品行为信息样本和第二用户点击商品行为信息样本，所述第一用户点击商品行为信息样本为用户第1次至T-1次点击商品行为信息，所述第二用户点击商品行为信息为用户第T次点击商品行为信息；所述用户点击的商品特征信息样本包括：第一用户点击的商品特征信息样本和第二用户点击的商品特征信息样本，所述第一用户点击的商品特征信息样本为用户第1次至T-1次点击的商品特征信息样本，所述第二用户点击的商品特征信息样本为用户第T次点击的商品特征信息样本，T为大于1的正整数，所述用户特征信息样本包括：第一用户特征信息样本，其中，所述第一用户特征信息样本包括：正样本和负样本，所述第一用户特征信息携带标签，所述正样本携带使用优惠券标签，所述负样本携带未使用优惠券标签；

所述多任务学习模型的训练方法，包括：

在一个实施例中，所述正样本中的用户为购买过优惠商品的用户，所述负样本中的用户为在优惠购买界面未使用优惠券购买的用户。

示例性的，用户在商品拼团页面没有选择拼团，而直接购买商品的用户标记为负样本。

在一个实施例中，所述用户点击的商品特征信息包括：用户点击的商品的身份信息、商品的类别、商品的短描述、商品的价格以及商品的标题中的一种或多种。

在一个实施例中，所述用户特征信息包括：用户年龄信息、用户所属城市等级信息和用户历史消费信息中的一种或多种。

在一个实施例中，获取用户特征信息包括：

获取用户的IP地址；

根据所述用户的IP地址确定用户所属城市；

例如可以是，若用户的IP地址为A，则根据A查询用户所述城市为B，获取城市等级划分规则，根据城市等级划分规则得到城市B的城市等级信息。

在一个实施例中，获取用户点击商品行为信息包括：

其中，所述设定阈值可以为用户设定，也可以为系统设定，通过设定阈值的形式清洗掉用户误点的脏数据。

在一个实施例中，所述第二用户点击的商品特征信息样本还包括用户第1次至T-1次未点击的商品特征信息，其中，未点击的商品与用户点击的商品处于同一显示界面。

示例性的，用户第1次至T-1次未点击的商品特征信息作为负样本，对模型进行训练。

在一个实施例中，所述正样本包括：第一正样本和第二正样本，所述负样本包括：第一负样本和第二负样本，将获取的购买过优惠商品的用户的特征信息作为第一正样本，将与第一正样本的相似度大于相似度阈值的用户的特征信息作为第二正样本，将获取的进入优惠商品界面且原价购买优惠商品的用户的特征信息作为第一负样本，将与所述第一负样本的相似度大于相似度阈值的用户的特征信息作为第二负样本。

本发明实施例根据公司的实际业务流程，以提升用户个性化推荐效果且通过优惠提升知识付费转化作为综合目标，使用历史数据进行多任务学习，以此综合目标来设计综合的目标函数，完成融合用户偏好的知识付费优惠券发放最佳方案。

本发明实施例对应的应用场景可以为：为班级优化大师APP内课程优惠券发放，计算出针对每一用户最偏好课程的最优优惠价格的课程优惠券，以刺激用户变现达到提升课程销售额的目标。本发明实施例基于多任务学习来实现优惠券的发放，实现过程分为两个任务：任务一、基于用户历史点击商品行为序列、用户特征信息以及用户点击的商品特征信息计算用户下一个会点击的课程，即计算用户对于课程的偏好，构造任务一对应的损失函数Loss1；任务二、基于用户通过优惠券购买课程的历史数据计算用户对于课程的价格敏感度，构造任务二的损失函数Loss2。最后通过将Loss1与Loss2的有权加和形成整个模型的损失函数Loss。

1.任务一：计算用户偏好

(1)第一步：数据准备

输入的数据主要分为三部分，分别用户特征信息，用户点击商品行为信息，以及用户点击的商品特征信息。

用户特征信息：包括用户的年龄信息、用户所属城市等级(分为新一线及一线至五线)、用户历史消费特征。用户的城市通过用户上报的ip地址解析得到，城市等级通过国家最新发布的城市等级获得。

用户点击商品行为序列：按照时间排序的用户有过点击的商品，注意此处点击定义为“用户浏览商品详情页的时间超过设定阈值”，清洗掉用户误点的脏数据。用户点击的商品特征信息包括商品id、商品标题、商品短描述以及商品类别等特征通过embedding转化成对应的嵌入向量。通过用户点击商品embedding来表征这个用户。

用户点击的商品特征信息：将商品的id、商品标题、商品短描述以及商品类别等课程特征进行embedding用于表征单个商品；

(2)模型训练

该模型的任务基于用户前T-1次的点击序列预测用户第T次的会点击的商品。

将用户的点击序列分割成不同长度，如某用户有10个商品点击序列，则将用户第1-3切割为用户点击商品序列样本，第4个作为与之对应的模型输出样本，将第1-3个和第4个作为一条训练数据，再将第1-4切割为点击商品序列样本，第5个作为与之对应的模型输出样本，以此类推重复用户向量表示的计算过程。

用户在第T次点击商品的概率可以表示为：

其中x_c(j)为用户在T-1次点击商品以后的商品向量，

表示用户T-1个点击行为的embedding用户表征。例如可以是，若x_c(j)为用户第7次点击的商品，

表示的是前6次每一次点击物品序列的embedding向量，加入一个attention机制，对越近点击的物品赋予更高的权重，以表示用户最近的兴趣，弱化用户的旧偏好。x_c(i)表示表示的是用户第T次点击的商品向量，K表示K条用户序列训练数据。

因为这是一个多分类网络，为了减少计算复杂性，进行负采样，即用户在一段点击商品行为序列后没有点击的商品看作为目标商品，算作一个负样本进行负采样。

将用户特征信息、用户点击商品行为序列、用户点击的商品特征信息嵌入到同一个输入变量x。将x输入到多层全连接网络中，输出为用户最有可能点击的下一个商品，即为用户偏好。用交叉熵作为损失函数，由此可得任务一的损失函数Loss_mission1。

2.任务二：计算用户价格敏感度

(1)第一步：数据准备：

输入的数据主要分为三部分，分别用户特征，用户点击行为序列，以及使用优惠券购买商品的特征。

用户特征信息：同任务一；

用户点击商品行为序列：同任务一，主要用于计算用户相似度；

使用优惠券特征：用于作为输出的一个属性，其中包括折扣力度，如“满50减10”计作0.8，该值越大说明折扣力度越小，也说明用户价格敏感度越高，即越不敏感。

(2)模型训练

该模型的任务基于用户历史优惠购买信息计算用户的价格敏感度。

由于实际场景中优惠券曝光非常不足，导致只有极少用户使用优惠券购买商品，对此，本方案提出根据用户历史点击序列计算用户相似度，用于训练集的数据增强与数据拓展。首先，通过用户历史点击序列embedding将用户映射到同一向量空间(由于用户点击序列长短不同，此处需要做pooling)，以购买过优惠商品的用户作为目标用户，计算非目标用户距离目标用户的距离，当距离达到一定阈值时，认为非目标用户与该目标用户相似，将目标用户的优惠购买记作为该非目标用户的购买特征，重复该步骤直到空间内所有非目标用户与目标用户对相似度被计算完。

同理，需要对数据负采样，该方案将在商品拼团页没有选择拼团(折扣)，而直接购买商品的用户标记为负样本。

将用户基础属性特征、用户点击序列嵌入到同一个输入变量x，输入到多层全连接网络中，输出为用户是否通过优惠购买商品，即为用户对商品价格是否敏感(二分类问题)，由此可得任务二的损失函数Loss_mission2。

3.多任务学习

结合任务一和任务二，该模型损失函数为Loss_target＝Loss_mission1+αLoss_mission2，α为可调节参数，为两个任务的权重表示。通过任务同时进行训练不断迭代使得Loss_target达到最小，即得到模型。

4.实时计算

模型训练完成部署到线上，通过抓取用户实时点击行为序列，给价格敏感度最高的用户推送该部分用户最偏好的商品。

5.模型增量训练

定期回收用户点击序列以及使用优惠券行为标记，对训练数据进行补充，并增量训练模型。

本发明实施例针对用户使用优惠券购买数据稀疏的问题，提出根据用户相似性对训练集进行数据拓展与增强，解决训练数据少导致模型训练不准等问题，提出加入多任务学习MTL，任务一通过用户历史点击物品序列学习用户偏好，任务二通过用户使用优惠券购买商品数据学习用户对商品的价格敏感度，两个任务并行进行，输出用户对同一物品的价格敏感度；每日定时抓取当日用户行为数据，通过数据清洗与特征提取，增量训练模型，进行自动化模型迭代与更新；将所述用户特征、用户点击行为序列和目标商品特征输入多层连接网络，得到用户点击的下一个商品。

本发明通过获取用户特征信息、用户点击商品行为信息和用户点击的商品特征信息；将所述用户特征信息、用户点击商品行为信息和用户点击的商品特征信息输入至多任务学习模型中，得到用户偏好和用户的价格敏感度，其中，所述多任务学习模型根据用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本训练得到；根据所述用户偏好和用户的价格敏感度将用户下一个点击的商品对应的优惠券发放至用户终端，能够计算出针对每一用户最偏好商品的最优惠价格的商品优惠券，以刺激用户变现达到提升商品销售额的目标。

实施例二

图2为本发明实施例二提供的一种优惠券发放装置的结构示意图，该装置可适用于优惠券发放的情况，其中该优惠券发放装置可由软件和/或硬件实现，并一般集成在终端设备上。

如图2所示，该装置包括：获取模块21、输入模块22和发放模块23。

其中，获取模块21，用于获取用户特征信息、用户点击商品行为信息和用户点击的商品特征信息；

输入模块22，用于将所述用户特征信息、用户点击商品行为信息和用户点击的商品特征信息输入至多任务学习模型中，得到用户偏好和用户的价格敏感度，其中，所述多任务学习模型根据用户特征信息样本、用户点击商品行为序列样本和用户点击的商品特征信息样本训练得到；

发放模块23，用于根据所述用户偏好和用户的价格敏感度将用户下一个点击的商品对应的优惠券发放至用户终端。

可选的，所述用户点击商品行为信息包括：第一用户点击商品行为信息和第二用户点击商品行为信息，所述第一用户点击商品行为信息为用户第1次至T-1次点击商品行为信息，所述第二用户点击商品行为信息为用户第T次点击商品行为信息；所述用户点击的商品特征信息包括：第一用户点击的商品特征信息样本和第二用户点击的商品特征信息样本，所述第一用户点击的商品特征信息样本为用户第1次至T-1次点击的商品特征信息样本，所述第二用户点击的商品特征信息样本为用户第T次点击的商品特征信息样本，T为大于1的正整数，所述用户特征信息样本包括：第一用户特征信息样本，其中，所述第一用户特征信息样本包括：正样本和负样本，所述第一用户特征信息携带标签，所述正样本携带使用优惠券标签，所述负样本携带未使用优惠券标签；

输入模块22具体用于：

可选的，所述正样本中的用户为购买过优惠商品的用户，所述负样本中的用户为在优惠购买界面未使用优惠券购买的用户。

可选的，所述用户点击的商品特征信息包括：用户点击的商品的身份信息、商品的类别、商品的短描述、商品的价格以及商品的标题中的一种或多种。

可选的，所述用户特征信息包括：用户年龄信息、用户所属城市等级信息和用户历史消费信息中的一种或多种。

可选的，获取模块具体用于：

获取用户的IP地址；

根据所述用户的IP地址确定用户所属城市；

可选的，获取模块具体用于：

可选的，所述第二用户点击的商品特征信息样本还包括用户第1次至T-1次未点击的商品特征信息，其中，未点击的商品与用户点击的商品处于同一显示界面。

可选的，所述正样本包括：第一正样本和第二正样本，所述负样本包括：第一负样本和第二负样本，将获取的购买过优惠商品的用户的特征信息作为第一正样本，将与第一正样本的相似度大于相似度阈值的用户的特征信息作为第二正样本，将获取的进入优惠商品界面且原价购买优惠商品的用户的特征信息作为第一负样本，将与所述第一负样本的相似度大于相似度阈值的用户的特征信息作为第二负样本。

上述优惠券发放装置可执行本发明任意实施例所提供的优惠券发放方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3为本发明实施例三提供的一种终端设备的结构示意图。如图3所示，本发明实施例三提供的终端设备包括：一个或多个处理器31和存储装置32；该终端设备中的处理器31可以是一个或多个，图3中以一个处理器31为例；存储装置32用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器31执行，使得所述一个或多个处理器31实现如本发明实施例中任一项所述的优惠券发放方法。

所述终端设备还可以包括：输入装置33和输出装置34。

终端设备中的处理器31、存储装置32、输入装置33和输出装置34可以通过总线或其他方式连接，图3中以通过总线连接为例。

该终端设备中的存储装置32作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例一所提供优惠券发放方法对应的程序指令/模块(例如，附图2所示的优惠券发放装置中的模块，包括：获取模块21、输入模块22和发放模块23)。处理器31通过运行存储在存储装置32中的软件程序、指令以及模块，从而执行终端设备的各种功能应用以及数据处理，即实现上述方法实施例中优惠券发放方法。

存储装置32可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储装置32可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置32可进一步包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置33可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。

并且，当上述终端设备所包括一个或者多个程序被所述一个或者多个处理器31执行时，程序进行如下操作：

实施例四

本发明实施例四提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行优惠券发放方法，该方法包括：

可选的，该程序被处理器执行时还可以用于执行本发明任意实施例所提供的优惠券发放方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如python，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种优惠券发放方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述用户点击商品行为序列样本包括：第一用户点击商品行为信息样本和第二用户点击商品行为信息样本，所述第一用户点击商品行为信息样本为用户第1次至T-1次点击商品行为信息，所述第二用户点击商品行为信息为用户第T次点击商品行为信息；所述用户点击的商品特征信息样本包括：第一用户点击的商品特征信息样本和第二用户点击的商品特征信息样本，所述第一用户点击的商品特征信息样本为用户第1次至T-1次点击的商品特征信息样本，所述第二用户点击的商品特征信息样本为用户第T次点击的商品特征信息样本，T为大于1的正整数，所述用户特征信息样本包括：第一用户特征信息样本，其中，所述第一用户特征信息样本包括：正样本和负样本，所述第一用户特征信息携带标签，所述正样本携带使用优惠券标签，所述负样本携带未使用优惠券标签；

所述多任务学习模型的训练方法，包括：

3.根据权利要求2所述的方法，其特征在于，所述正样本中的用户为购买过优惠商品的用户，所述负样本中的用户为在优惠购买界面未使用优惠券购买的用户。

4.根据权利要求2所述的方法，其特征在于，所述用户点击的商品特征信息包括：用户点击的商品的身份信息、商品的类别、商品的短描述、商品的价格以及商品的标题中的一种或多种。

5.根据权利要求2所述的方法，其特征在于，所述用户特征信息包括：用户年龄信息、用户所属城市等级信息和用户历史消费信息中的一种或多种。

6.根据权利要求5所述的方法，其特征在于，获取用户特征信息包括：

获取用户的IP地址；

根据所述用户的IP地址确定用户所属城市；

7.根据权利要求1所述的方法，其特征在于，获取用户点击商品行为信息包括：

8.根据权利要求2所述的方法，其特征在于，所述第二用户点击的商品特征信息样本还包括用户第1次至T-1次未点击的商品特征信息，其中，未点击的商品与用户点击的商品处于同一显示界面。

9.根据权利要求2所述的方法，其特征在于，所述正样本包括：第一正样本和第二正样本，所述负样本包括：第一负样本和第二负样本，将获取的购买过优惠商品的用户的特征信息作为第一正样本，将与第一正样本的相似度大于相似度阈值的用户的特征信息作为第二正样本，将获取的进入优惠商品界面且原价购买优惠商品的用户的特征信息作为第一负样本，将与所述第一负样本的相似度大于相似度阈值的用户的特征信息作为第二负样本。

10.一种优惠券发放装置，其特征在于，包括：

11.一种终端设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。