CN109598634A

CN109598634A - 一种基于机器学习的互联网保险实时精细化促销信息投放方法

Info

Publication number: CN109598634A
Application number: CN201811567629.9A
Authority: CN
Inventors: 杨朋坦; 房鹏展
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-04-09

Abstract

一种基于机器学习的互联网保险实时精细化促销信息投放方法，包括如下步骤：1)离线数据的处理，用户访问行为数据处理：用户行为数据包括用户在访问卖保险的网站和手机APP的过程中会形成访问记录，记录浏览的网页、浏览内容、停留时长等信息，经步骤2)处理后形成浏览产品信息的用户访问行为数据，将这些数据做离线处理后，作为预测的训练样本和验证样本；2)用户实时访问日志通过kafka+Storm软件工具处理得到的实时数据作为模型的输入：采用kafka+Storm软件工具实现实时用户访问日志解析的技术方案；3)依据购买某险种的概率和投放促销信息的概率；最后形成投放的计算方法，提高用户购买率。

Description

一种基于机器学习的互联网保险实时精细化促销信息投放方法

技术领域

本发明涉及互联网智能信息处理方法，尤其是互联网保险行业的针对用户访问行为的预测并对预测的结果做不同的营销策略。

背景技术

互联网保险业多以在线销售保险并提供理赔等保险相关服务为主业务，如何提高保险销量，是互联网保险一直研究的命题，需要一种智能信息处理方法。

传统的网站营销多以离线制定优惠营销策略，商品特价信息。而没有做到针对不同用户的访问信息实时推送优惠信息和产品推荐信息。

本发明基于大数据和机器学习技术，在用户访问网站及手机APP选择要购买保险产品、浏览感兴趣的保险产品信息，最后形成下单(购买)或离开(不购买)的行为结果的过程中发生了一系列连续性访问行为，分析用户的访问行为中隐藏着的用户的需求，购买倾向等，通过用户的访问行为配合合理的算法预测以提供合理的营销策略如发优惠券等营销手段促进用户购买，也可以根据用户行为推荐相关产品，提高购买率。

发明内容

发明目的，在现有技术背景下，提出了一种基于机器学习的互联网保险精细化促销信息投放方法。通过机器学习智能算法，以访问数据为训练数据和输出标签，通过迭代训练的方法形成预测模型，充分利用用户访问行为的相关性提高预测的精度；促销信息投放能促进交易的达成。

本发明的技术方案是，一种基于机器学习的互联网保险实时精细化促销信息投放方法，包括如下步骤：

步骤一：离线数据的处理，用户访问行为数据处理：用户行为数据包括用户在访问卖保险的网站和手机APP的过程中会形成访问记录，记录浏览的网页、浏览内容、停留时长等信息，经步骤二处理后形成浏览产品信息的用户访问行为数据，将这些数据做离线处理后，作为预测的训练样本和验证样本；用户访问行为数据整理出的多指标数据组成训练样本和验证样本，作为机器学习算法的训练数据；即训练得到模型(参数)；

步骤二：用户实时访问日志通过kafka+Storm软件工具处理得到的实时数据作为模型的输入：采用kafka+Storm软件工具实现实时用户访问日志解析的技术方案；Storm消费 kafka，将实时的用户访问日志解析成用户访问的指标数据，将指标数据离线存入数据库并把指标数据传给机器学习算法训练好的模型，经过模型的处理计算，预测用户购买某险种的概率和投放促销信息(典型的是优惠券)的概率；

步骤三：依据购买某险种的概率和投放促销信息(优惠券)的概率，如果购买概率高，投放优惠营销的概率低，不需要发放促销信息或投放次级促销优惠(非首次优惠)；如果购买概率是略低，根据投放营销概率的高低认定发放优惠；监控优惠方案投递后的成果，评估并修正优惠方案投递标准和优惠方案的调整；最后形成投放的计算方法，提高用户购买率；

预测出用户访问并购买的概率指标，投放促销信息的概率和保险产品的相关信息，确定促销信息投放方法(优惠方案)，监控投放效果调整营销策略。

本发明公开一种基于机器学习智能算法的互联网保险行业的精细化促销信息投放系统，包括：机器学习算法模块、实时行为数据解析模块、促销信息投放方法推送模块。

所述机器学习算法模块，包括智能算法、离线模型训练、迭代训练。机器学习智能算法建模能力强，可以有效减少预测模型所需的数据量，挖掘数据中存在的价值。

所述kafka+Storm实现实时日志解析的技术方案，是用户在访问网站或APP的过程中，访问行为会被以一条条访问记录的形式记录在访问日志中，我们通过kafka将每条访问日志取出并交给Storm(一种流式的实时计算系统)实时解析出用户的访问信息：访问时间、访问的产品页、访问产品页的数量、访问不同险种的列表页、每个页面停留的时长，加入购物车信息和用户的基本信息等数据。这些数据将被传给模型做处理和计算，得出此用户在此状态的访问下购买保险的概率，需要推荐的保险类别名称，需要投放优惠营销的概率。

所述促销信息投放方法推送模块，根据机器学习智能算法(典型的是神经网络算法)预测的结果，险种、购买概率、推送优惠概率。针对不同险种，如果购买概率高，投放优惠营销的概率低，认定为购买率高，不需要做促销信息投放方法介入。如果购买概率稍低，投放营销概率高的时候，根据不同险种不同优惠方案投放现金优惠券、购买返券、购买送礼物优惠，会员积分翻倍。如果购买概率稍低，投放营销概率稍低，进行相关险种最优惠推荐或同功能险不同险种价格最优推荐。如果购买概率低，投放营销概率也低的情况下，推荐热门险种了解，推荐积分游戏等网站活动，提高用户粘度。并根据投放促销信息投放方法的购买率转换，调整促销信息投放方法，达到最优。智能算法、离线模型训练、迭代训练见实施例。

有益效果：通过机器学习智能算法，以访问数据为训练数据和输出标签，通过迭代训练的方法形成预测模型，充分利用用户访问行为的相关性提高预测的精度，预测出用户访问并购买的概率指标，投放促销信息的概率和保险产品的相关信息，确定促销信息投放方法(优惠方案)，监控促销信息投放效果调整营销策略。促进交易的达成。

附图说明

图1是本发明实施整体方案流程示意图。

图2是kafka+Storm实时数据计算流程示意图。

图3是访问流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。

参阅图1，本发明实施例的主体流程，具体步骤为：

步骤1：首先将一部分实时访问日志离线处理，得到离线数据。

步骤2：离线数据作为机器学习智能算法的训练数据，然后训练得到模型参数。

步骤3：:实时访问日志通过kafka+Storm处理得到的实时数据作为模型的输入。

步骤4：预测出访问指标购买概率，投放促销信息投放方法的概率和保险产品的相关信息，确定促销信息投放方法(优惠方案)，监控投放效果调整营销策略。

参阅图2，本发明实施例的实时数据处理框架，具体包括。

步骤1：Kafka作为消息队列获得用户访问日志，将不均匀的数据转换成均匀的消息流，数据先进入Kafka生产者然后Storm进行消费。

步骤2：Storm消费来自Kafka的信息，将访问日志处理成规则数据，数据反映了用户的访问行为如：访问时刻、访问页面、搜索信息、停留时长、关注的产品信息等。

步骤3：把Storm处理好的数据传输给模型。

参阅图3，本发明实施例的模型返回预测结果，包含页面当前购买概率P1和当前页面发放优惠券概率P11

用户访问页面S1后经处理过的访问数据传入模型中，经模型预测后返回预测概率，包括当前购买概率p1和当前发放优惠概率p11，经权重计算，如果p11>0.64，则 p1*0.48+p11*0.59＝p(j)，如果p(j)>0.7则在S1页面发放优惠券，优惠券种类与S1页面产品相关，p(j)<0.7不发放优惠券；如果p11<0.64，则p1*0.67+p2*0.31＝p(j),如果 p(j)>0.8则在S1页面发放优惠券，优惠券种类与S1页面产品相关，若0.8>p(j)>0.5则不发放优惠券但是在页面推荐险种(产品)信息栏中推荐与S1页面保险种类相似的险种的信息；如果p(j)<0.5则不发放优惠券，不推荐险种(产品)产品信息，推荐热门险种产品和网站活动信息。

应用的机器学习算法是xgboost,XGBoost是专注于梯度提升算法的机器学习函数库，此函数库具有优良的学习效果以及高效的训练速度。

针对本例的Xgboost使用：

训练数据如上所述；

调参过程如下：

xgboost参数繁多，参数调节时，先调主要参数，再调非重要的参数，先粗调后微调，逐步确定最佳参数组合。需要调试优化的参数如下(依重要性降序排列)：

max_depth，树的最大深度，值越大，模型会学到更具体更局部的样本；决定模型复杂性，对预测效果影响很大；典型值为3-10；

min_child_weight，最小叶子节点样本权重之和，值较小时易过拟合，值过大时易欠拟合，默认为1；

subsample，对于每棵树，控制随机采样的比例，防止过拟合；默认为1；

learning_rate，通过减少每一步的权重，可以提高模型的鲁棒性；典型值为0.01-0.2；

设置默认参数如下：max_depth＝7,min_child_weight＝2,subsample＝0.9,learning_rate＝0.1；

模型迭代：

实时的用户访问日志解析成访问的指标数据，数据离线存入数据库之后，每周数据的 70％作为模型的新训练数据，30％作为模型的测试数据，测试训练结果；完成模型迭代；

模型返回结果：

实时的用户访问日志解析成用户访问的指标数据传给模型，经过模型的处理计算，预测用户购买某险种的概率和投放促销信息(优惠券)的概率；

总体说明：本发明主要不是针对算法和模型的具体说明，而是基于公司新一站业务的实时精细化促销信息投放方法这样一个流程性处理过程。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于机器学习的互联网保险实时精细化促销信息投放方法，其特征是，包括如下步骤：

步骤一：离线数据的处理，用户访问行为数据处理：用户行为数据包括用户在访问卖保险的网站和手机APP的过程中会形成访问记录，记录浏览的网页、浏览内容、停留时长等信息，经步骤二处理后形成浏览产品信息的用户访问行为数据，将这些数据做离线处理后，作为预测的训练样本和验证样本；用户访问行为数据整理出的多指标数据组成训练样本和验证样本，作为机器学习算法的训练数据；即训练得到模型；

步骤二：用户实时访问日志通过kafka+Storm软件工具处理得到的实时数据作为模型的输入：采用kafka+Storm软件工具实现实时用户访问日志解析的技术方案；Storm消费kafka，将实时的用户访问日志解析成用户访问的指标数据，将指标数据离线存入数据库并把指标数据传给机器学习算法训练好的模型，经过模型的处理计算，预测用户购买某险种的概率和投放促销信息的概率；

步骤三：依据购买某险种的概率和投放促销信息的概率，如果购买概率高，投放优惠营销的概率低，不需要发放促销信息或投放次级促销优惠；如果购买概率是略低，根据投放营销概率的高低认定发放优惠；监控优惠方案投递后的成果，评估并修正优惠方案投递标准和优惠方案的调整；最后形成投放的计算方法，提高用户购买率；

预测出用户访问并购买的概率指标，投放促销信息的概率和保险产品的相关信息，确定促销信息投放方法，监控投放效果调整营销策略。

2.根据权利要求1所述的基于机器学习的互联网保险实时精细化促销信息投放方法，其特征是，所述kafka+Storm实现实时日志解析的技术方案，是用户在访问网站或APP的过程中，访问行为会被以一条条访问记录的形式记录在访问日志中，通过kafka将每条访问日志取出并交给流式的实时计算系统Storm实时解析出用户的访问信息：访问时间、访问的产品页、访问产品页的数量、访问不同险种的列表页、每个页面停留的时长，加入购物车信息和用户的基本信息数据。

3.一种基于机器学习智能算法的互联网保险行业的精细化促销信息投放系统，其特征是，包括机器学习算法模块、实时行为数据解析模块、促销信息投放方法推送模块；

所述机器学习算法模块，包括智能算法、离线模型训练、迭代训练；机器学习智能算法建模能力强，有效减少预测模型所需的数据量，挖掘数据中存在的价值；

这些数据将被传给模型做处理和计算，得出此用户在此状态的访问下购买保险的概率，需要推荐的保险类别名称，需要投放优惠营销的概率。