发明内容
本发明提供基于大数据分析的POS机用户推荐方法,以解决现有线下交易用户需求挖掘难度大,不同消费观群体对商品促销活动的接受度不同,导致推荐方法不当容易造成用户流失的问题。
本发明的基于大数据分析的POS机用户推荐方法采用如下技术方案:
本发明一个实施例提供了基于大数据分析的POS机用户推荐方法,该方法包括以下步骤:
利用POS机获取所有用户的交易记录,并获取交易商品相关的详细信息,所述交易记录包括用户购买的商品名称、数量、购买时间,所述交易商品相关的详细信息包括每类商品的品类信息、销售量、折扣有效时间区间、折扣率;
利用商品的品类信息获取任意商品之间的相似度,并通过每个用户所有购买商品的购买时间与折扣商品的折扣有效时间区间得到所有对照组,根据任意商品之间的相似度与所有对照组,得到用户购买商品与折扣商品之间的平均相似度,以及购买商品和折扣商品相同的对照组数量,根据所述平均相似度、购买商品和折扣商品相同的对照组数量得到用户对折扣商品的取舍侧重;
根据所有折扣商品的折扣有效时间区间和销售量得到所有折扣商品的销货速率,根据所有折扣商品的折扣率与销货速率得到折扣率与销货速率的相关系数,将折扣率与销货速率的相关系数作为销售点的折扣活动促销力度,根据用户对折扣商品的取舍侧重,以及折扣活动促销力度,得到每个用户的折扣响应度;
根据用户的交易记录得到商品平均购买频率与逆交易频率,利用商品平均购买频率与逆交易频率计算商品的热度,根据商品热度得到每个用户的热卖商品响应度;
根据用户的折扣响应度、热卖商品响应度得到用户消费特征参数,根据用户消费特征参数的差值绝对值得到用户聚类距离度量参数,根据用户聚类距离度量参数对所有用户的用户消费特征参数进行k-means聚类,得到聚类结果,对聚类结果中每个聚簇的用户群体进行个性化推荐。
进一步的,所述利用商品的品类信息获取任意商品之间的相似度,并通过每个用户所有购买商品的购买时间与折扣商品的折扣有效时间区间得到所有对照组,包括的具体步骤如下:
从POS机所得商品品类信息中选取商品的L条属性词条,L为预设数值,并利用Word2Vec将商品属性词条转化为词向量,将商品属性词条的词向量余弦相似度作为任意两类商品的相似度;
获取销售点每个折扣商品的折扣有效时间区间,以及用户每次购买商品的购买时间处于折扣商品的折扣有效时间区间内的所有折扣商品,选择出与用户购买商品相似度最高的折扣商品,将所述与用户购买商品相似度最高的折扣商品作为该用户购买商品的对照商品,将所述购买商品和对照商品作为一个对照组;
得到用户购买商品的所有对照组。
优选的,所述根据任意商品之间的相似度与所有对照组,得到用户购买商品与折扣商品之间的平均相似度,以及购买商品和折扣商品相同的对照组数量,根据所述平均相似度、购买商品和折扣商品相同的对照组数量得到用户对折扣商品的取舍侧重,包括的具体计算方法如下:
其中v代表第v个用户,/>代表第v个用户对折扣商品的取舍侧重,i代表第v个用户所购买的第i个商品,N代表第v个用户在该销售点所购买商品的数量,j代表第j个折扣商品,其中i和j满足/>,/>代表用户所购买第i个商品的交易时间点,/>代表第j个折扣商品的有效时间区间,/>代表第v个用户所购买的第i个商品的时间点处于第j个折扣商品的有效时间区间内,/>代表第v个用户所购买第i个商品与第j个折扣商品之间的相似度,G代表第v个用户所有对照组中购买商品和折扣商品相同的对照组数量;/>代表第v个用户所有购买商品与折扣商品的平均相似度。
优选的,所述根据所有折扣商品的折扣有效时间区间和销售量得到所有折扣商品的销货速率,根据所有折扣商品的折扣率与销货速率得到折扣率与销货速率的相关系数,将折扣率与销货速率的相关系数作为销售点的折扣活动促销力度,包括的具体计算方法如下:
其中,/>代表所有折扣商品的折扣率,/>代表所有折扣商品的销货速率,/>代表所有折扣商品的折扣率与销货速率之间的协方差,/>分别代表所有折扣商品的折扣率、销货速率的标准差,/>代表相乘符号,/>代表所有折扣商品的折扣率与销货速率的相关系数,将所述相关系数作为销售点的折扣活动促销力度,/>代表销售点的折扣活动促销力度。
进一步的,所述根据用户对折扣商品的取舍侧重,以及折扣活动促销力度,得到每个用户的折扣响应度,包括:
将每个用户的折扣商品取舍侧重乘以销售点折扣活动的促销力度,所得乘积作为每个用户的折扣响应度。
优选的,所述根据用户的交易记录得到商品平均购买频率与逆交易频率,利用商品平均购买频率与逆交易频率计算商品的热度,包括的具体计算方法如下:
其中,r代表第r类商品,/>代表第r类商品的热度,v代表第v个用户,/>代表第v个用户购买第r类商品的次数,/>代表第v个用户总购买次数,M代表在该销售点消费过的所有用户总数,/>代表所有用户中购买过第r类商品的用户数量;
代表所有用户购买第r类商品的平均购买频率,/>代表第r类商品的逆交易频率。
进一步的,所述根据商品热度得到每个用户的热卖商品响应度,包括:
将每个用户所有购买商品的平均热度作为每个用户的热卖商品响应度。
进一步的,所述根据用户的折扣响应度、热卖商品响应度得到用户消费特征参数,包括:
将每个用户的折扣响应度与热卖商品响应度的平均值,作为用户消费特征参数。
进一步的,所述根据用户消费特征参数的差值绝对值得到用户聚类距离度量参数,包括:
将任意两个用户的消费特征参数的差值绝对值,作为用户聚类的距离度量参数。
进一步的,所述根据用户聚类距离度量参数对所有用户进行k-means聚类,得到聚类结果,包括的具体步骤如下:
将所述用户之间的聚类距离度量参数输入k-means聚类算法中,首先迭代聚类数量k值,k值由2开始向上迭代,迭代步长为1,每次k值迭代时都会得到对应k个聚簇,计算聚类结果中所有聚簇内聚类距离度量参数的差值绝对值平方和,记录k值迭代过程中k值与差值绝对值平方和的关系图,并根据手肘法获取最优k值,将所述最优k值输入k-means聚类算法中得到所有用户的聚类结果,获取平均消费特征参数最大的用户群体与其他用户群体,对平均消费特征参数最大的用户群体与其他用户群体分别进行推荐。
本发明的技术方案的有益效果是:
本发明针对POS机所得线下用户消费数据存在局限性,对用户偏好的挖掘难度较高,且不同消费观群体对商品促销活动的接受度不同,导致推荐方法不当容易造成用户流失的问题提出一种基于大数据分析的POS机用户推荐方法。通过计算用户购买商品与折扣商品之间的平均相似度,以及购买商品和折扣商品相同的对照组数量,得到用户对折扣商品的侧重,然后通过计算所有折扣商品的折扣率与销售速率之间的相关性,得到商品促销力度,根据用户对折扣商品的侧重以及商品促销力度得到用户的折扣响应度,然后再根据热卖商品在用户购买记录中出现少但整体销量高的特点,利用平均购买频率与逆交易频率得到商品热度,进而得到用户对热卖商品的响应度,最后结合用户折扣商品响应度与热卖商品响应度对所有线下用户进行聚类,将不同消费观念的群体进行区分。相比于传统根据用户消费能力、消费频率进行用户分级的方法,本发明可对促销活动、潮流趋势接受度较高的消费群体进行准确定位,使商品推荐目标更为集中,提高商品的销售效率,并对接受度较低的消费群体进行妥善维护,大幅改善了无差别促销推送引发用户烦扰、反感的问题,降低用户流失风险。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据分析的POS机用户推荐方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据分析的POS机用户推荐方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于大数据分析的POS机用户推荐方法的步骤流程图,该方法包括以下步骤:
S001、利用用户手机号建立ID名称,获取所有用户的交易记录,并通过已交易商品的条形码或商品编号获取商品相关的详细信息。
POS机用于线下实体交易,线下交易地点,如零售商店、超市、餐厅等统称为销售点。当顾客进行支付时,在POS机上要求输入手机号码或电子邮件地址。将用户的手机号建立ID名称,记录其所有交易记录,包括用户购买的商品名称、数量、购买时间等。
并且POS系统通常与商家的库存管理系统或商品数据库相连,通过扫描商品条形码或手动输入商品编号,POS机能够查询并获取与该商品相关的详细信息。因此获取销售点每类商品的品类信息、销售量、折扣有效时间区间、折扣率等。
但与线上交易不同,线下交易的信息类型较少,尤其无法获取用户线下实时浏览、挑选商品的记录,存在一定局限性,因此对线下用户的偏好需求挖掘难度较大,难以形成有效的个性化推荐。
S002、利用商品的品类信息获取任意两个商品之间的相似度,并通过每个用户商品购买时间与折扣商品的折扣有效时间区间得到对照组,计算所有对照组中用户购买商品与折扣商品之间的平均相似度,以及购买商品和折扣商品相同的对照组数量,根据平均相似度、购买商品和折扣商品相同的对照组数量得到用户对于折扣商品的取舍侧重。
与线上消费不同的地方在于:线下消费通常提供更丰富的感官体验,顾客可以亲身接触和感受商品,通过触摸、闻味、试穿等方式来评估产品。这种实物接触能够增加购买欲望和信心。而线上消费则缺乏这种直接的感官体验,顾客只能依靠产品描述、图片和评价等信息来判断商品质量和适合程度。线下消费可以提供更直接的信任和安全感,顾客可以通过观察实体店面、与销售员沟通和付款等方式来建立信任关系。而在线上消费中,顾客需要依赖于网站的安全性和卖家的声誉评价等因素来建立信任。
因此POS机所提供的用户的线下消费记录,绝大多数都是用户自身满意、偏好的商品,每条消费记录都具有较高的偏好信息以及可信度,相比于线上交易,线下交易的用户偏好特征反而不够突出,且缺少如线上浏览记录等用户行为信息,这也代表着线下个性化推荐不应以个人偏好特征为主。而是通过挖掘用户对市场热卖商品以及折扣活动的响应度,来反应不同用户的消费观念,所谓不同消费观念意指用户对于促销活动、趋势潮流的接受度高或是低,并针对不同消费观的用户群体生成个性化推荐方案。
简言之,需要分析用户在自己偏好商品,与热度商品或具有折扣活动商品之间的取舍关系,才能将用户进行消费观的分级,针对不同消费观群体用户进行个性化推荐。例如某用户经常会在超市购买零食,时值夏季,某品牌雪糕在市场推广下成为了热卖商品,但其他品牌的雪糕有折扣活动,不同用户会从热卖商品、折扣商品、或者自身偏好的商品中进行选购,不同的选择体现了用户对于促销活动、趋势潮流的接受度,接受度较高的用户消费潜力更大,具有更高的推荐价值,反之接受度较低的用户则需要谨慎调整推荐方案,避免用户流失。总之将不同消费观的群体进行分类,才能高效的进行个性化推荐。
推荐系统中经常会用到商品之间的相似度这一数据,从POS机所得商品品类信息中选取商品的L条属性词条,L预设为5,并利用Word2Vec将词条转化为词向量,即可利用任意两类商品对应属性词条的词向量余弦相似度模型,来作为任意两类商品的相似度。
获取该销售点每个折扣商品的折扣有效时间区间,销售点可能一次性推出多个折扣商品,当用户每次购买商品时,若购买时间处于某类折扣商品的折扣有效时间区间内,且购买商品与折扣商品的相似度最高,则将该购买商品与折扣商品作为一个对照组;当用户购买商品的时间不在任何一类折扣商品的有效时间区间内,令该用户购买商品的对照商品为一个与用户购买商品完全不相关的商品,即该用户购买商品与对照商品的对照组所得相似度为0。
进而得到用户购买商品的所有对照组,用户购买的所有商品数量等于所有对照组数量。
进而可挖掘用户对偏好商品与折扣商品之间的取舍关系,具体为:
其中v代表第v个用户,/>代表第v个用户对折扣商品的取舍侧重,i代表第v个用户所购买的第i个商品,N代表第v个用户在该销售点所购买商品的数量,j代表第j个折扣商品,其中i和j满足/>,/>代表用户所购买第i个商品的交易时间点,/>代表第j个折扣商品的有效时间区间,/>代表第v个用户所购买的第i个商品的时间点处于第j个折扣商品的有效时间区间内,/>代表第v个用户所购买第i个商品与第j个折扣商品之间的相似度,G代表第v个用户所有对照组中购买商品和折扣商品相同的对照组数量;
优选的,代表第v个用户所有购买商品与折扣商品的平均相似度,代表该平均相似度除以用户购买商品和折扣商品相同的对照组数量,所述用户购买商品和折扣商品相同代表用户购买了折扣商品,分母加常数1是为了避免分母为0的情况,/>输出值越大代表第v个用户更侧重偏好商品,即使折扣商品与其购买商品相似度极高,但仍选择购买了非折扣商品;反之/>输出值越小,代表第v个用户更侧重折扣商品,/>是为了矫正逻辑关系,即输出值越小时,/>在0-1之间越大,第v个用户对折扣商品的取舍侧重/>越大。
S003、根据所有折扣商品的折扣率与销货速率得到折扣率与销货速率的相关系数,将相关系数作为销售点的折扣活动促销力度,根据用户对折扣商品的取舍侧重,以及折扣活动促销力度,得到每个用户的折扣响应度。
根据POS机所提供的历史交易记录,得到所有折扣商品的折扣率,折扣率表示折扣商品出售时的打折情况,例如某洗发水折扣率为原价的70%;然后将每类折扣商品的折扣有效时间区间内的所有销售量,除以折扣商品的折扣有效时间区间长度,得到所有折扣商品的销货速率;根据所有折扣商品的折扣率与销货速率,计算得到所有折扣商品的折扣率与销货速率的相关系数,所述相关系数越大,代表该销售点所推出折扣活动的促销力度吸引力越大,具体为:
其中,/>代表所有折扣商品的折扣率,/>代表所有折扣商品的销货速率,/>代表所有折扣商品的折扣率与销货速率之间的协方差,/>分别代表所有折扣商品的折扣率、销货速率的标准差,/>代表相乘符号,/>代表所有折扣商品的折扣率与销货速率的相关系数,将所述相关系数作为销售点的折扣活动促销力度,/>代表销售点的折扣活动促销力度。
然后根据用户对折扣商品的取舍侧重,以及折扣活动促销力度,得到每个用户的折扣响应度。具体为:
将每个用户的折扣商品取舍侧重乘以销售点折扣活动的促销力度,所得乘积作为每个用户的折扣响应度。
S004、利用商品平均购买频率与逆交易频率计算商品的热度,根据商品热度得到每个用户的热卖商品响应度。
在用户购买记录中出现少,但整体销量高的商品代表热卖商品。这类商品在市场上受到广泛的关注和需求,尽管个体用户购买频率可能较低,但由于整体销量较高,使得它们成为商家的利润来源之一。出现热卖商品的原因有很多,包括季节变化、品牌知名度、市场推广力度、时尚趋势等等,计算商品的热度,具体为:
其中,r代表第r类商品,/>代表第r类商品的热度,v代表第v个用户,/>代表第v个用户购买第r类商品的次数,/>代表第v个用户总购买次数,M代表在该销售点消费过的所有用户总数,/>代表所有用户中购买过第r类商品的用户数量。
优选的,代表第v个用户购买第r类商品的次数除以第v个用户总购买次数,得到第v个用户购买第r类商品的频率,/>代表所有用户购买第r类商品的平均购买频率;/>代表在该销售点所有消费过的用户总数除以购买过第r类商品的用户数量,分母加常数1的目的是为了避免分母为0的情况出现,/>代表以/>为真数,2为底数的对数,称为第r类商品的逆交易频率;
如果一类商品在每个用户的购买记录中出现次数都少,则所述该商品的平均购买频率小;如果一类商品几乎在每个用户的购买记录中都出现过,/>会越接近1,会越接近0,那么/>代表第r类商品的平均购买频率乘以逆交易频率,乘积越小代表第r类商品的热度越高,常数1减去所述乘积的目的是为了矫正逻辑关系。
根据商品热度得到每个用户的热卖商品响应度,具体为:
将每个用户所有购买商品的平均热度作为每个用户的热卖商品响应度。
S005、根据用户的折扣响应度、热卖商品响应度得到用户消费特征参数,根据用户消费特征参数的差值绝对值得到用户聚类距离度量参数,并利用k-means算法对用户消费特征参数进行聚类,得到用户聚类结果,对聚类结果中每个聚簇的用户进行个性化推荐。
将每个用户的折扣响应度与热卖商品响应度的平均值,作为用户消费特征参数。
进一步的,得到所有用户的消费特征参数,根据消费特征参数对用户进行分类,将任意两个用户的消费特征参数的差值绝对值,作为用户聚类的距离度量参数。
将所述用户聚类距离度量参数输入k-means聚类算法中,首先迭代聚类数量k值并模拟用户消费特征参数聚类结果,k值由2开始向上迭代,迭代步长为1,迭代上限设置为10,每次k值迭代时都会得到对应k个聚簇,计算聚类结果中所有聚簇内聚类距离度量参数的差值绝对值平方和,记录k值迭代过程中k值与差值绝对值平方和的关系图,并根据手肘法获取最优k值,将所述最优k值输入k-means聚类算法中得到所有用户的聚类结果,聚类结果中同一个聚簇内的用户为消费观念相同、相近的消费群体。
获取平均消费特征参数最大的用户群体,这类群体对折扣商品、热卖商品的关注度最高,对推荐商品的兴趣度以及接受度最高,因此可针对此类群体单独生成推荐方案,推荐方案需要从促销活动、促销力度、推送频率等方向考虑。例如商品捆绑销售、折扣累加的促销方式,向高质量用户的推送频率可设置为一周三次,每期促销活动的推送顺序优先此类群体进行推送,可大幅提高促销商品的销售率。
对其他平均消费特征参数低的用户群体则采用低频率的推荐方式,例如一周一次,避免频繁对促销活动接受度较低用户进行推送,引起用户反感、困扰情绪,造成用户流失。
需要说明的是,本实施例旨在挖掘线下交易用户中对促销活动接受度较高的潜力用户与接受度较低的普通用户,以便于对不同用户群体制定合适的促销活动推荐方案,具体推荐方案细节非本实施例重点,不多赘述。
具体推送方法为:通过用户ID手机号与顾客建立联系,并通过短信、电子邮件等方式发送促销活动和个性化推荐。另外一些高级POS机或电子支付系统具有交互式界面,可以在顾客完成支付后提供推荐选项。例如,在屏幕上显示类似“您可能还对以下商品感兴趣”的推荐列表或“您是否参与优惠促销大活动”等等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。