CN112464094B

CN112464094B - 信息推荐方法、装置、电子设备及存储介质

Info

Publication number: CN112464094B
Application number: CN202011377165.2A
Authority: CN
Inventors: 张子成
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2024-03-15
Anticipated expiration: 2040-11-30
Also published as: CN112464094A

Abstract

本申请提供的一种信息推荐方法、装置、电子设备及存储介质，应用于计算机技术领域，所述方法包括:获取目标用户的用户数据，所述用户数据至少包括：时间序列相关数据、非时间序列相关数据；将用户数据输入至第一评分模型，获取用户基础评分；将所述非时间序列相关数据输入至第二评分模型，获取浏览意向评分；将所述时间序列相关数据输入至第三评分模型，获取交易行为评分；将所述用户基础评分、所述浏览意向评分和所述交易行为评分输入至综合评分模型，获取用户购买意向评分；根据购买意向评分向所述目标用户推荐产品信息。本方案充分利用了不同用户数据的特定，可以准确地获取目标用户的购买意向评分，从而提高了向用户推荐产品信息的准确率。

Description

信息推荐方法、装置、电子设备及存储介质

技术领域

本申请属于计算机技术领域，特别是涉及一种信息推荐方法、装置、电子设备及存储介质。

背景技术

随着互联网与保险行业的渗透和深度融合,保险行业的传统营销模式正被大数据逐渐颠覆与重塑。通过实施大数据下的精准营销，可以对客户进行购买意向评分，使公司能够更快、更有效地锁定目标客户,实现精准营销,提升营销效率。

传统的购买意向评分预测方法，往往是对与保险相关的用户数据做一些聚合，得到一些特征来训练单一模型预测用户的购买意向评分，但是保险公司所掌握用户的数据类型多种多样，仅通过单一的模型进行预测明显无法充分利用用户数据的不同特性，导致预测得到的购买意向评分无法准确反映用户的实际情况，降低了保险产品信息推荐的准确性。

发明内容

有鉴于此，本申请实施例提出一种信息推荐方法、装置、电子设备及存储介质，用于解决现有中由于仅通过单一的模型进行预测明显无法充分利用用户数据的不同特性，导致预测得到的购买意向评分无法准确反映用户的实际情况，降低了保险产品信息推荐的准确性的问题。

本申请第一方面提供一种信息推荐方法，所述方法包括：

获取目标用户的用户数据，所述用户数据至少包括：时间序列相关数据、非时间序列相关数据；

将用户数据输入至第一评分模型，获取用户基础评分；

将所述非时间序列相关数据输入至第二评分模型，获取浏览意向评分；

将所述时间序列相关数据输入至第三评分模型，获取交易行为评分；

将所述用户基础评分、所述浏览意向评分和所述交易行为评分输入至综合评分模型，获取用户购买意向评分；

根据所述购买意向评分向所述目标用户推荐产品信息；

其中，所述第一评分模型是基于RFM算法的模型，所述第二评分模型是基于LightGBM算法和LR算法的混合模型，第三评分模型是基于LSTM算法的模型，所述综合评分模型是基于LR算法的模型。

依据本申请第二方面，提供一种信息推荐装置，包括：

获取模块，被配置为获取目标用户的用户数据，所述用户数据至少包括：时间序列相关数据、非时间序列相关数据；

第一预测模块，被配置为将用户数据输入至第一评分模型，获取用户基础评分；

第二预测模块，被配置为将所述非时间序列相关数据输入至第二评分模型，获取浏览意向评分；

第三预测模块，被配置为将所述时间序列相关数据输入至第三评分模型，获取交易行为评分；

第四预测模块，被配置为将所述用户基础评分、所述浏览意向评分和所述交易行为评分输入至综合评分模型，获取用户购买意向评分；

推荐模块，被配置为根据所述购买意向评分向所述目标用户推荐产品信息；

依据本申请第三方面，提供包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现上述第一方面所述信息推荐方法。

依据本申请第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的信息推荐方法。

针对现有技术，本申请具备如下优点：

本申请提供的一种信息推荐方法、装置、电子设备及存储介质，通过将用户数据输入至第一评分模型得到用户基础评分，将用户数据输入至第一评分模型得到用户基础评分，将所述时间序列相关数据输入至第三评分模型得到交易行为评分，然后将三种评分结合得到用户购买意向来向用户推荐产品信息，充分利用了不同用户数据的特定，可以准确地获取目标用户的购买意向评分，从而提高了向用户推荐产品信息的准确率。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本申请实施例提供的一种信息推荐方法的步骤流程图；

图2是本申请实施例提供的另一种信息推荐方法的步骤流程图；

图3是本申请实施例提供的第一种模型训练方法的步骤流程图；

图4是本申请实施例提供的第二种模型训练方法的步骤流程图；

图5是本申请实施例提供的第三种模型训练方法的步骤流程图；

图6是本申请实施例提供的一种模型的架构示意图；

图7是本申请实施例提供的第四种模型训练方法的步骤流程图；

图8是本申请实施例提供的一种信息推荐方法的效果示意图之一；

图9是本申请实施例提供的一种信息推荐方法的效果示意图之二；

图10是本申请实施例提供的一种信息推荐方法的效果示意图之三；

图11是本申请实施例提供的一种信息推荐方法的效果示意图之四；

图12是本申请实施例提供的一种信息推荐方法的效果示意图之五；

图13是本申请实施例提供的一种信息推荐装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

图1是本申请实施例提供的一种信息推荐方法的步骤示意图，所述方法包括：

步骤101，获取目标用户的用户数据，所述用户数据至少包括：时间序列相关数据、非时间序列相关数据。

在本申请实施例适用于保险行业向推荐保险产品的场景，因此用户数据可是关于保险产品的各种相关信息，例如用户对于保险产品的消费记录、续保记录、理赔记录、浏览记录等等，而用户数据可按照是否与时间序列相关分为例如保险购买周期、用户续保周期等与时间序列相关的时间序列相关数据，以及例如购买行为、浏览行为等于时间时间序列无关的非时间序列相关数据。

相对于传统仅依赖用户对于保险产品的交易记录进行预测的方案，本方案可以针对多种维度的用户数据来进行用户购买意向的预测，以提高对于用户数据利用的充分性。

步骤102，将用户数据输入至第一评分模型，获取用户基础评分。

在本申请实施例中，第一评分模型是用于依据整体用户数据，也就是参与预测的所有用户数据对用户进行初步分类的模型，从而依据该第一评分模型可以获取到目标用户的用户基础评分，该用户基础评分用于为后续的预测结果提供基础分值，可以避免由于某一评分的分值较大导致最后得到的用户购买意向评分不准确的情况。

步骤103，将所述非时间序列相关数据输入至第二评分模型，获取浏览意向评分。

在本申请实施例中，第二评分模型时用于依据非时间序列相关数据来获取用户是否有浏览保险产品意向的评分模型，因此该浏览意向评分是表示目标用户想要浏览保险产品的概率的大小。可以理解，由于非时间序列线管数据通常是用户的关于保险产品的行为数据，例如购买行为、浏览行为等等，与用户是否需要去浏览或了解保险产品的意向相关，例如：用户通过保险网站浏览了某保险产品的信息，则表明其对该保险产品有浏览意向，或者用户购买了保险产品A，则由于大多数用户在购买保险产品A后会去浏览保险产品B的产品信息，因此可以依据这些非时间序列相关数据对用户的浏览意向评分进行预测。需要说明的是，由于非时间序列数据并不与时间序列相关，因此对于当前时间用户是否会购买保险产品的行为预测准确性较差，因此本方案仅是通过非时间序列相关数据来预测用户的浏览意向评分。

步骤104，将所述时间序列相关数据输入至第三评分模型，获取交易行为评分。

在本申请实施例中，第三评分模型是用于依据时间序列相关数据预测获取用户想要购买保险产品的交易行为评分，因此该交易行为评分也是用于表达用户将要购买保险产品概率的大小。可以理解，由于通常用户对于保险产品的交易行为存在一定规律，例如：某用户在每年2月份会购买人身意外险，或者是某用户在每年12月份会为孩子购买教育金，因此根据时间序列相关数据对于保险产品的交易行为评分的相对于根据非时间序列相关数据的预测效果更好。

步骤105，将所述用户基础评分、所述浏览意向评分和所述交易行为评分输入至综合评分模型，获取用户购买意向评分。

在本申请实施例中，考虑到用户的对于保险产品的购买意向是基于综合因素决定的，因此可以将依据用户数据得到的用户基础评分、浏览意向评分和交易行为评分按照特定规则进行结合，从而得到可以表示用户对于保险产品的购买意向评分。该特定规则可以是通过给给各评分附加调整系数，可以是对各评分进行加权平均等结合规则，具体可以根据实际需求设置，此处不做限定。

步骤106，根据所述购买意向评分向所述目标用户推荐产品信息。

在本申请实施例中，可以依据用户对于保险产品的购买意向评分的数值确定是否需要向目标用户推荐保险产品的产品信息，可以是在目标用户对于某保险产品的购买意向评分大于评分阈值时向用户推荐，或者是将目标用户对于保险产品的购买意向评分提供给保险代理人，由保险代理人决定是否需要向用户推荐该保险产品的产品信息，当然此处只是示例性说明，具体推荐策略可以根据实际需求确定，此处不做限定。从而可以有效提高保险产品的产品信息推荐的准确性。

可选地，所述第一评分模型是基于RFM算法的模型，所述第二评分模型是基于LightGBM算法和LR算法的混合模型，第三评分模型是基于LSTM算法的模型，所述综合评分模型是基于LR算法的模型。

在本申请实施例中，RFM算法是一种是衡量客户价值和客户创利能力的重要算法工具，其中R(Recency)表示最近一次消费，F(Frequency)表示消费频率，M(Monetary)表示消费金额。通过基于RFM算法搭建的第一评分模型所得到的用户基础评分可以有效描述用户的价值状况。

LightGBM(Light Gradient Boosting Machine，轻型梯度提升器)算法是一种一个用于实现GBDT(Gradient Boosting Decision Tree，决策树)算法的算法框架。LR(Logistic Regression，逻辑回归)算法是一种分类模型算法。基于LightGBM算法对样本数据进行筛选后在基于LR算法进行模型训练得到的第二评分模型，可以有效避免无关数据对于模型预测效果的影响。

LSTM(Long Short-Term Memory，长短期记忆网络)算法是一种时间训练神经网络的模型算法。得益于LSTM算法适用于LSTM适合于处理和预测时间序列中间隔和延迟非常长事件的特点，可以有效对与时间序列相关的数据进行学习，从而提高了所得到第三评分模型的预测效果。

本申请实施例提供的一种信息推荐方法，通过将用户数据输入至第一评分模型得到用户基础评分，将用户数据输入至第一评分模型得到用户基础评分，将所述时间序列相关数据输入至第三评分模型得到交易行为评分，然后将三种评分结合得到用户购买意向来向用户推荐产品信息，充分利用了不同用户数据的特定，可以准确地获取目标用户的购买意向评分，从而提高了向用户推荐产品信息的准确率。

图2是本申请实施例提供的另一种信息推荐方法，所述方法包括：

步骤201，获取目标用户的用户数据，所述用户数据至少包括：时间序列相关数据、非时间序列相关数据。

该步骤可参照步骤101的详细描述，此处不再赘述。

步骤202，将用户数据输入至第一评分模型，获取用户基础评分。

该步骤可参照步骤102的详细描述，此处不再赘述。

步骤203，将所述非时间序列相关数据输入至第二评分模型，获取浏览意向评分。

该步骤可参照步骤103的详细描述，此处不再赘述。

步骤204，将所述时间序列相关数据输入至第三评分模型，获取交易行为评分。

该步骤可参照步骤104的详细描述，此处不再赘述。

步骤205，将所述用户基础评分、所述浏览意向评分和所述交易行为评分输入至综合评分模型，获取所述目标用户对于各产品信息相对应的用户购买意向评分。

在本申请实施例中，通过对于各保险产品设置相对应的第一评分模型、第二评分模型、第三评分模型以及综合评分模型，可以获取到目标用户对于各保险产品的产品信息相对应的用户购买意向。

步骤206，将所对应的用户购买意向评分符合系统推荐条件的目标产品信息，推送给所述目标用户。

在本申请实施例中，该系统推荐评分条件可以是目标产品信息需要是所对应用户购买意向评分大于第一评分阈值的产品信息，也可以是所对应用户购买意向评分最高的特定数量的产品信息等等，具体可以根据实际需求设置，此处不做限定。

本申请实施例通过依据产品信息所对应的用户购买意向评分来筛选需要向用户推荐的目标产品信息，从而提高了保险产品的产品信息的推荐效率。

步骤207，将所对应的用户购买意向评分符合代理人推荐条件的目标产品信息，推送给所述目标用户相匹配的代理人。

在本申请实施例中，代理人推荐条件可以是在用户购买意向评分在大于第二评分阈值时，推荐以代理人与用户沟通的方式向用户推荐目标产品，该第二评分阈值可以小于第一评分阈值，这是因为用户购买意向评分若较高，推送成功转化的概率较高，无需浪费代理人的人力资源，对于在较低用户购买评分时，推送成功转化的方式概率较低，需要代理人进一步跟进，因此可以推送给与该目标用户地域、年龄等用户特征匹配的代理人负责向用户推荐目标产品信息。

本申请实施例通过依据所得到的用户购买意向评分向代理人推荐目标用户对于产品信息的购买意向，从而提高了代理人获取潜在购买意向用户的效率。

可选地，参照图3，所述步骤202，包括：

子步骤2021，在所述用户数据包括消费数据时，将所述目标用户最近一次的消费时间与当前时间之间的时间差，作为第一子数据，以及将所述目标用户在预设时间段中累计登陆时间作为第二子数据，以及将所述目标用户的累计消费金额作为第三子数据。

子步骤2022，在所述用户数据不包括消费数据时，将所述目标用户最近一次登录时间与当前时间之间的时间差，作为第一子数据，以及将所述目标用户在预设时间段中累计登陆时间作为第二子数据，以及将所述目标用户的预设用户评分作为第三子数据。

在本申请实施例中，第一评分模型可以采用RFM算法，从而在进行评分预测时，首先需要对R第一子数据、F第二子数据、M第三子数据的值进行设置。

鉴于对于保险产品的产品信息推荐的应用场景下，一部分用户只存在浏览行为但是没有消费行为，还有部分用户只有消费行为而没有浏览行为，为了这两种情况都考虑到，所以对于RFM模型的搭建在数据处理方面主要分为有有效保单和无有效保单两种情况。具体的实现步骤如下：

情况一：当前有有效保单RFM模型(对于名下同时多张保单以及只有1张有效保单的用户，则认定该用户为有效保单用户，否则为无效保单用户)：

R：最近一次消费日期距离当前T的时间差；

F：近一年，累计登陆时间；

M：累计实缴保费金额。

情况二、当前无有效保单RFM模型：

R：最近一次登录日期距离当前T的时间差；

F：近一年，累计登陆时间；

M：预设用户评分。

其中，登陆时间可以是用户在保险网站或保险应用程序的登陆时间。

子步骤2023，按照预设分值策略，分别获取所述第一子数据对应的第一分值、所述第二子数据对应的第二分值、所述第三子数据对应的第三分值。

在本申请实施例中，预设分值策略对于第一子数据、第二子数据、第三子数据的具体取值，设置相对应的分值，示例性的，如下表1、2：

表1

表2

子步骤2024，根据所述第一分值、第二分值和第三分值获取所述目标用户的用户基础评分。

在本申请实施例中，通过数据分析方式或数据探查方式，按照公式(1)分别获取所述第一分值对应的第一复购概率、公式(2)所述第二分值对应的第二复购概率、公式(3)所述第三分值对应的第三复购概率。

其中P_Ri、P_Fi、P_Mi分别为第一复购概率、第二复购概率、第三复购概率，N_Ri表示各R分值下的复购人数，N_Fi表示各F分值下的复购人数，N_Mi表示各M分值下的复购人数，i的取值范围为{1，2，3，4，5}。

通过公式(4)根据所述第一复购概率获取第一分值权重，以及通过公式(5)根据所述第二复购概率获取第二分值权重，以及通过公式(6)根据所述第三复购概率获取第三分值权重。

其中，W_R是R分值对应的权重、W_F是F分值对应的权重、W_R是M分值对应的权重，e为自然常数。

最后通过以下公式(7)将第一分值、第二分值和第三分值结合，即可得到用户基础评分：

A_score＝W_R*P_Ri*R_i+W_F*P_Fi*F_i+W_M*M_i (7)

其中，A_score表示用户基础评分。

可选地，参照图4，所述第二评分模型是通过以下步骤2031至2036训练得到的：

步骤2031，获取样本非时间序列相关数据。

在本申请实施例中，在获取到样本非时间序列相关数据后可通过统计数据覆盖率、缺失值处理、文本数据数值化、相关性分析等预处理方式对于样本非时间序列相关数据进行处理，以提高样本非时间序列相关数据的质量。

步骤2032，获取所述样本非时间序列相关数据中的各第一特征因子。

步骤2033，基于LightGBM算法从所述各特征因子中筛选出所对应连续变量数量大于连续变量数量阈值的第二特征因子，并从所述第一特征因子中筛选出重要性排序最前的预设数量的第三特征因子。

在本申请实施例中，鉴于样本非时间序列相关数据包含各种特征因子，这些第一特征因子的类型有差异、第一特征因子之间可能会出现互斥或相关性较强的情况出现，所以为了更好地为这些第一特征因子分组以及删除部分对最终的标签不太重要的第一特征因子，需要先通过lightGBM模型进行特征因子的重要性排序以对第一特征因子进行粗略筛选得到第二特征因子。

具体，将第一特征因子分成连续型变量与分类变量，分类的依据是连续变量数量在连续变量数量阈值以上，分类变量是连续变量数量在连续变量数量阈值以下。因为LightGBM模型有个非常好的功能是，能指定分类变量，可以省去筛选编码的步骤。所以这里将使用LightGBM算法对非网络化特征进行重要性排序，并对第一特征因子进行粗筛，得到第二特征因子。

步骤2034，对所述第二特征因子进行分箱，各分箱的分箱权重和信息浓度。

在本申请实施例中，odds是好坏比，其计算公式为：odds＝好客户比例/坏客户比例。如果该箱好客户多，则ln(odds)>0；反之，ln(odds)<0。在第二特征因子进行分箱时，一般可以最多分成5箱，且分箱结果必须单调，否则将进行水平合并或重新分箱。

WOE(weight of evidence，证据权重)，将定性变量定量化处理,则取值区间表示类别。WOE将原始特征值转换为与坏客户相关的比例值，这个值越远离0表示变量相应的取值对坏客户预测的帮助越大。其中WOE的计算公式如下公式(8)：

其中，Bi是第i组坏客户数量，B_T是坏客户总数量，Gi是第t组好客户数量，G_T是号用户总数量。WOE_i表示的i组分箱针对定性变量通过分箱的方法将其转换为的定量变量。

IV(Information Value，信息价值)。其中IV值的计算公式如下公式(9)和(10)：

其中，

从上述的计算公式可以看出，IV值其实是woe值加权求和，主要用于消除掉各分组中数量差异带来的误差。IV值判断变量预测能力的标准是下述公式(11)：

其中，predict_value表示预测能力，unpredictive表示无法预测，weak表示弱预测，medium表示中等预测，strong表示强预测，suspicious可疑预测(预测能力太强，不建议使用)。

步骤2035，在所述第二特征因子的方差膨胀因子符合多重共线性要求时，将所述特征因子的分箱权重和信息浓度输入至待训练的第一LR算法模型中进行训练。

在本申请实施例中，模型训练之前，需要第三特征因子间的共线性、相关性及显著性检验。计算相关系数之后，还需要考虑多重共线性问题。评价多重共线性的指标主要是方差膨胀因子。方差膨胀因子(Variance Inflation Factor,VIF)是指解释变量之间存在多重共线性时的方差与不存在多重共线性时比如方差之比。VIF值越大，代表共线性越严重。经验判断方法表明：当0<VIF<10，不存在多重共线性；当10＝<VIF<100,存在较强的多重共线性；当VIF>＝100,存在严重多重共线性。在确定变量之间不存在多重共线性之后，就要对变量进行显著性分析，删除P值不显著的变量。

步骤2036，在训练后的第一LR算法模型的准确度和稳定率符合第一模型要求时，将所训练后的第一LR算法模型作为第二评分模型。

在本申请实施例中，准确度可以是第一LR算法模型的预测值和标准值之间的比例，稳定率可以是AUC(Area Under Curve，ROC曲线下与坐标轴围成的面积)。

可选地，参照图5，所述第三评分模型是通过以下步骤2041至步骤2042训练得到的：

步骤2041，获取样本时间序列相关数据。

在本申请实施例中，鉴于部分保险业务中的时间序列以及客户购买周期等相关的特征因子，无法通过传统模型来很好的预测或评估用户的购买喜好，对此本专利采用深度学习模型LSTM模型进行预测。鉴于保险行业中的交易行为中，投保人可以为多个被保人购买保险产品，当一款产品即将过期时又可以进行续保或者复购的行为，对于每一位投保人用户的购买行为都有差异，所以通过RNN深度学习算法有利于更加描述用户的购买轨迹以及预测客户再次购买的概率大小并评估出相应的购买意向评分。具体实现步骤如下:

通过依据样本用户在一定时间周期中的交易数据进行统计，交易数据可以看作一个多维时间序列数据，每一列数据都是用户的一次交易信息都包含承保时间、承保日期、购买渠道、购买产品、保费、额度以及投被关系等，得到样本时间序列相关数据。

由于提取的交易数据中会有一些数据不符合入模的要求，需要进行部分处理：如对时间格式、特殊格式的处理、探查各特征的极值/异常值(箱线图和分位数)、探查缺失值(完全随机缺失、随机缺失、完全非随机缺失)情况、对文本型特征进行数值化编码、对部分特征重新编码等。

在关系型数据库中提取的特征不足以反应我们最终的预测结果，需要对已有样本时间序列相关数据中的特征通过特征重组法、计数法、求和法(求和、平均、最大、最小、方差、标准差等)、比例/比值法、时间差、波动率(选择过去1年各月份购买保险产品的方差、标准差)等方式方法进行重组或衍生，如：通过交易的次数、交易的金额、交易时间段间隔进行构造变量等方式进行衍生特征。

步骤2042，根据所述时间序列相关数据所包含的第四特征因子的数量、预设时间切片数量、预设隐层数量以及预设输出层数量搭建待训练的LSTM模型。

在本申请实施例中，根据业务场景以及已有的第三特征因子搭建合适的LSTM网络，并设置相关的网络参数：12个特征因子、36个月的切片、2个隐层，2分类等，借助深度学习框架构造2层LSTM模型。

步骤2043，将所述样本时间序列相关数据对所述待训练的LSTM模型进行训练。

步骤2044，在训练后的LSTM模型的损失值和稳定率符合第二模型要求时，将所述训练后的LSTM模型作为第三评分模型。

在申请实施例中，LSTM模型的基本框架如图6所示，其中将已经选用的第三特征因子带入第一层LSTM中输出score或隐层参数，分别作为单维度特征，一同带入第二层LSTM网络中进行评分输出，并借助二分类对数损失函数来评估模型的性能情况。

可选地，参照图7，所述综合评分模型是通过以下步骤2051至2054训练得到的：

步骤2051，获取样本用户的样本用户基础评分、样本浏览意向评分、交易行为评分。

步骤2052，对所述样本用户基础评分、样本浏览意向评分、交易行为评分进行分箱处理，获取样本用户基础评分、样本浏览意向评分、交易行为评分对应的样本评分权重和信息浓度。

步骤2053，通过样本用户基础评分、样本浏览意向评分、交易行为评分对应的样本评分权重和信息浓度对待训练的第二LR算法模型进行训练。

步骤2054，在训练后的第二LR算法模型的准确度和稳定率符合第三模型要求时，将所训练后的第二LR算法模型作为综合评分模型。

步骤2051至步骤2054中基于LR算法训练获取综合评分模型的方式和步骤2034至步骤2036中基于LR算法训练获取第二评分模型的方式相似，只是特征因子改为样本用户基础评分、样本浏览意向评分、交易行为评分，为避免重复，此处不再赘述。

示例性的，本申请实施例适用于保险公司向用户推荐保险产品信息的场景，具体发针对直营平台的用户既有浏览行为、购买交易行为以及用户画像信息比较全面，所以在此次项目中目前只针对直营平台的用户进行搭建购买意向模型，来对这部分客户进行精准化营销。

1.数据收集

结合本公司的已有数据情况，我们从“客户的基本信息”、“客户的购买行为数据”、“客户的浏览行为数据”、“网电语音识别数据”这四个方面来提取购买意向相关的特征因子，共加工93个特征因子进行入模。

鉴于购买意向模型模型属于有监督的机器学习的一种算法，所以需要筛选为样本进行标签设置。以2018年6月1日之前的有购买行为的所有历史客户为基础客户，这部分客户只要在2018年6月1日到当前，只要发生过购买行为的客户打标签为“有购买意向”的客户，在此期间未发生购买行为的客户我们打标签为“无购买意向”的客户。

2.数据预处理

由于数据存在缺失或者异常的情况，所以需要对数据进行以下的处理操作:

通过覆盖率统计的情况，删除部分缺失率在75％以上的数据，具体的缺失率情况以及各个特征因子的统计分析情况见下表3：

/>

表3

鉴于这些特征因子反应的是我们的实际情况，所以将缺失值都使用“填零法”进行填充。

在加工特征因子的过程中出现了部分文本型的特征因子，如‘last_active_type’活动类型这一字段，我们通过数值化编码的方式进行处理。

为了更加准确地描述变量之间的线性相关程度，可以通过计算相关系数来进行相关性分析，这里我们采用Pearson相关系系数进行计算，示例性的提供表4、5：

表4

其中，表4表示输入模型的特征因子间的相关性。

/>

表5

其中，表5表示输入模型的特征因子和标签Y的相关性。

上述表4和表5是为了示例性说明，因此仅列举了8个部分特征因子的相关性。

鉴于数据集过大，所以首先按照方式一随机抽取349203样本，按照6:4的比例将样本划分为训练集和测试集(X_train_shape:(209521,54)、X_test_shape:(139682,54、y_train_shape:(209521,)、y_test_shape:(139682,))。

通过GBDT模型和RFM模型分别预测并删选部分重要性较高的特征因子，最终得到TOP50特征因子。

鉴于方法一中的实际正样本数：负样本数＝2.7:1，所以我们按照这个比例进行样本抽样共1967986条，其中无购买意向的样本数为1446317条，有购买意向的样本数为521668，进行评分模型模型搭建。

对特征因子进行分类，分为离散变量和连续变量，并通过先LightGBM模型对特征因子进行再次重要性排序，排序后TOP10的如图8。

由于特征因子的的类型有差异，所以对特征因子的分箱也需要分开进行，对于连续变量的分箱需要先统计各个特征因子的最小值和最大值，根据区间进行逐步调试，具体的分箱结果如表6：

/>

表6

计算各个特征因子在不同分箱区间下的woe值、综合权重值和IV值，并筛选出IV>＝0.2的所有特征因子，将个特征因子转化为woe值，并借助LR进行模型预测。对每个特征因子进行评分设置，需要设置几个超参数：A＝600,样本数m＝518781,从而可以根据每个字段在各个区间中woe值计算出最终分段评分score，计算公式如下公式(12)：/>

其中aij表示第i个特征因子综合权重，作用于第i个特征因子的第j个区间，woeij表示第i个特征因子在第j个分组区间上的woe的值，其中bij表示第i个特征因子。

LR的评分结果为：测试集的准确率为：76.75％，测试集AUC值如图9、10。

对所有直营客户2770497人进行购买意向评分设置以及分析发现，客户最终的购买意向评分的最小分值为0分，最大分值为602分，分值的具体分布情况如图11至图12。

本申请实施例提供的另一种信息推荐方法，通过将用户数据输入至第一评分模型得到用户基础评分，将用户数据输入至第一评分模型得到用户基础评分，将所述时间序列相关数据输入至第三评分模型得到交易行为评分，然后将三种评分结合得到用户购买意向来向用户推荐产品信息，充分利用了不同用户数据的特定，可以准确地获取目标用户的购买意向评分，从而提高了向用户推荐产品信息的准确率。

参照图4，本申请实施例提供了一种信息推荐装置30的结构框图，该信息推荐装置包括：

获取模块301，被配置为获取目标用户的用户数据，所述用户数据至少包括：时间序列相关数据、非时间序列相关数据；

第一预测模块302，被配置为将用户数据输入至第一评分模型，获取用户基础评分；

第二预测模块303，被配置为将所述非时间序列相关数据输入至第二评分模型，获取浏览意向评分；

第三预测模块304，被配置为将所述时间序列相关数据输入至第三评分模型，获取交易行为评分；

第四预测模块305，被配置为将所述用户基础评分、所述浏览意向评分和所述交易行为评分输入至综合评分模型，获取用户购买意向评分；

推荐模块306，被配置为根据所述购买意向评分向所述目标用户推荐产品信息。

可选地，推荐模块306，还被配置为：

获取所述目标用户对于各产品信息相对应的用户购买意向评分；

将所对应的用户购买意向评分符合系统推荐条件的目标产品信息，推送给所述目标用户。

可选地，推荐模块306，还被配置为：

将所对应的用户购买意向评分符合代理人推荐条件的目标产品信息，推送给所述目标用户相匹配的代理人。

可选地，所述装置还包括：训练模块，被配置为：

在所述用户数据包括消费数据时，将所述目标用户最近一次的消费时间与当前时间之间的时间差，作为第一子数据，以及将所述目标用户在预设时间段中累计登陆时间作为第二子数据，以及将所述目标用户的累计消费金额作为第三子数据；

在所述用户数据不包括消费数据时，将所述目标用户最近一次登录时间与当前时间之间的时间差，作为第一子数据，以及将所述目标用户在预设时间段中累计登陆时间作为第二子数据，以及将所述目标用户的预设用户评分作为第三子数据；

按照预设分值策略，分别获取所述第一子数据对应的第一分值、所述第二子数据对应的第二分值、所述第三子数据对应的第三分值；

根据所述第一分值、第二分值和第三分值获取所述目标用户的用户基础评分。

可选地，所述训练模块，还被配置为：

获取样本非时间序列相关数据；

获取所述样本非时间序列相关数据中的各第一特征因子；

基于LightGBM算法从所述各特征因子中筛选出所对应连续变量数量大于连续变量数量阈值的第二特征因子，并从所述第一特征因子中筛选出重要性排序最前的预设数量的第三特征因子；

对所述第二特征因子进行分箱，各分箱的分箱权重和信息浓度；

在所述第二特征因子的方差膨胀因子符合多重共线性要求时，将所述特征因子的分箱权重和信息浓度输入至待训练的第一LR算法模型中进行训练；

在训练后的第一LR算法模型的准确度和稳定率符合第一模型要求时，将所训练后的第一LR算法模型作为第二评分模型。

可选地，所述训练模块，还被配置为：

获取样本时间序列相关数据；

根据所述时间序列相关数据所包含的第四特征因子的数量、预设时间切片数量、预设隐层数量以及预设输出层数量搭建待训练的LSTM模型；

将所述样本时间序列相关数据对所述待训练的LSTM模型进行训练；

在训练后的LSTM模型的损失值和稳定率符合第二模型要求时，将所述训练后的LSTM模型作为第三评分模型。

可选地，所述训练模块，还被配置为：

获取样本用户的样本用户基础评分、样本浏览意向评分、交易行为评分；

对所述样本用户基础评分、样本浏览意向评分、交易行为评分进行分箱处理，获取样本用户基础评分、样本浏览意向评分、交易行为评分对应的样本评分权重和信息浓度；

通过样本用户基础评分、样本浏览意向评分、交易行为评分对应的样本评分权重和信息浓度对待训练的第二LR算法模型进行训练；

在训练后的第二LR算法模型的准确度和稳定率符合第三模型要求时，将所训练后的第二LR算法模型作为综合评分模型。

本申请实施例提供的一种信息推荐装置，通过将用户数据输入至第一评分模型得到用户基础评分，将用户数据输入至第一评分模型得到用户基础评分，将所述时间序列相关数据输入至第三评分模型得到交易行为评分，然后将三种评分结合得到用户购买意向来向用户推荐产品信息，充分利用了不同用户数据的特定，可以准确地获取目标用户的购买意向评分，从而提高了向用户推荐产品信息的准确率。

本申请实施例提供了一种电子设备，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现上述任一所述的信息推荐方法。

本申请实施例提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时能实现上述的信息推荐方法。

本申请的实施例提供了一种计算机存储介质，通过将用户数据输入至第一评分模型得到用户基础评分，将用户数据输入至第一评分模型得到用户基础评分，将所述时间序列相关数据输入至第三评分模型得到交易行为评分，然后将三种评分结合得到用户购买意向来向用户推荐产品信息，充分利用了不同用户数据的特定，可以准确地获取目标用户的购买意向评分，从而提高了向用户推荐产品信息的准确率。

本技术领域技术人员可以理解，本申请包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)的存储介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，该计算机存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，存储介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流程图中的每个框以及这些结构图和/或框图和/或流程图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其它可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本申请公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息推荐方法，其特征在于，所述方法包括：

将用户数据输入至第一评分模型，获取用户基础评分；；

根据所述购买意向评分向所述目标用户推荐产品信息；；

其中，所述第一评分模型是基于RFM算法的模型，所述第二评分模型是基于LightGBM算法和LR算法的混合模型，第三评分模型是基于LSTM算法的模型，所述综合评分模型是基于LR算法的模型；

其中，所述将用户数据输入至第一评分模型，获取用户基础评分，包括：

根据所述第一分值、第二分值和第三分值获取所述目标用户的用户基础评分，具体包括：

按照公式(1)获取所述第一分值对应的第一复购概率、公式(2)所述第二分值对应的第二复购概率、公式(3)所述第三分值对应的第三复购概率；

其中P_Ri、P_Fi、P_Mi分别为所述第一复购概率、所述第二复购概率、所述第三复购概率，N_Ri表示各R分值下的复购人数，N_Fi表示各F分值下的复购人数，N_Mi表示各M分值下的复购人数，i的取值范围为{1，2，3，4，5}；

通过公式(4)根据所述第一复购概率获取第一分值权重，以及通过公式(5)根据所述第二复购概率获取第二分值权重，以及通过公式(6)根据所述第三复购概率获取第三分值权重；

其中，W_R是R分值对应的权重、W_F是F分值对应的权重、W_R是M分值对应的权重，e为自然常数；

最后通过以下公式(7)将第一分值、第二分值和第三分值结合，获取所述用户基础评分：

A_score＝W_R*P_Ri*R_i+W_F*P_Fi*F_i+W_M*P_Mi*M_i (7)

其中，A_score表示所述用户基础评分。

2.根据权利要求1所述的方法，其特征在于，所述第二评分模型是通过以下步骤训练得到的：

获取样本非时间序列相关数据；

获取所述样本非时间序列相关数据中的各第一特征因子；

3.根据权利要求1所述的方法，其特征在于，所述第三评分模型是通过以下步骤训练得到的：

获取样本时间序列相关数据；

4.根据权利要求1所述的方法，其特征在于，所述综合评分模型是通过以下步骤训练得到的：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述获取用户购买意向评分，包括：

所述根据所述购买意向评分向用户推送目标产品信息，，包括：

6.根据权利要求5所述的方法，其特征在于，在所述获取所述目标用户对于各产品信息相对应的用户购买意向评分之后，所述方法还包括：

7.一种信息推荐装置，其特征在于，所述装置包括：

其中，所述被配置为将用户数据输入至第一评分模型，获取用户基础评分包括：

A_score＝W_R*P_Ri*R_i+W_F*P_Fi*F_i+W_M*P_Mi*M_i (7)

其中，A_score表示所述用户基础评分。

8.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至6中任一所述的信息推荐方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现权利要求1至6中任一所述的信息推荐方法。