CN107767152A

CN107767152A - 产品购买倾向分析方法及服务器

Info

Publication number: CN107767152A
Application number: CN201610677829.4A
Authority: CN
Inventors: 陈曦; 王建明; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2016-08-16
Filing date: 2016-08-16
Publication date: 2018-03-06
Anticipated expiration: 2036-08-16
Also published as: CN107767152B

Abstract

一种产品购买倾向分析方法，包括：获取带有用户基本信息数据的产品推荐请求；将该用户基本数据转换成0、1二值变量；将转成的二值变量作为模型的特征维度代入预先建立的分析模型中，以分析出该用户对各个预先确定的产品的购买倾向分；基于各个预先确定的产品对应的购买倾向分，并按照预设的分析规则确定出待推荐的产品。本发明还提供一种适用于上述方法的服务器。本发明可以基于用户的基本信息数据分析出用户可能感兴趣的产品。

Description

产品购买倾向分析方法及服务器

技术领域

本发明涉及大数据分析评估技术领域，特别是一种基于机器学习的产品购买倾向分析方法及服务器。

背景技术

随着互联网，特别是社会化网络的快速发展，我们正处于信息过载的时代。用户面对过量的信息很难找到自己真正感兴趣的内容，而内容提供商也很难把优质的内容准确推送给感兴趣的用户。推荐系统被认为是解决这些问题的有效方法，它对用户的历史行为进行挖掘，对用户兴趣进行建模，并对用户未来的行为进行预测，从而建立了用户和内容的关系。

目前，现有的产品(例如，软件产品、金融产品等)购买倾向性模型主要针对某一特定的业务场景，模型训练受制于所选择的产品。未选择进入模型训练的产品则无法建立倾向性模型，而且当产品个数成倍增加时，传统的购买倾向性模型则无法满足要求。

发明内容

鉴于以上内容，有必要提供一种产品购买倾向分析方法，其可以基于机器学习的方法进行产品购买倾向的分析。

一种产品购买倾向分析方法，包括：

获取带有用户基本信息数据的产品推荐请求；

将该用户基本数据转换成0、1二值变量；

将转成的二值变量作为模型的特征维度代入预先建立的分析模型中，以分析出该用户对各个预先确定的产品的购买倾向分；

基于各个预先确定的产品对应的购买倾向分，按照预设的分析规则确定出待推荐的产品。

本发明较佳实施例中，所述用户基本信息数据包括用户的性别、年龄、职业、是否拥有某产品。

本发明较佳实施例中，所述将该用户基本数据转换成0、1二值变量的方法包括：基本数据中属于离散变量的采用哑变量转换方式，属于连续变量的采用分箱转换方式，以及属于缺失值的采用-1替换。

本发明较佳实施例中，所述基于各个预先确定的产品对应的购买倾向分，按照预设的分析规则确定出待推荐的产品包括：

根据各个预先确定的产品的购买倾向分对所述各个预先确定的产品进行排序，确定出购买倾向分大于预设值的产品作为待推荐的产品。

本发明较佳实施例中，所述分析模型的建立包括：

将预设数量用户的基本信息数据和购买的产品作为用户样本数据，并为各个用户所购买的产品建立产品样本数据，其中，各个用户的基本信息数据作为自变量，将各个用户所购买的产品作为目标变量；

提取出第一预设比例的用户的样本数据作为训练集，并将剩余的用户的样本数据作为测试集；

将训练集中的各个用户的所有基本数据转成0、1二值变量，并将训练集中的各个用户的目标变量转成0、1二值变量；

利用深度卷积神经网络模型的多层隐藏层将原始用户向量与产品向量映射到低维空间，在低维空间中，再计算用户与产品的相似度，构造所述产品推荐的分析模型。

鉴于以上内容，还有必要提供一种适用于上述方法的服务器，其可以基于机器学习的方法进行产品购买倾向的分析。

一种服务器，包括存储设备以及处理器，其中：

所述存储设备，用于存储一个产品购买倾向分析系统；

所述处理器，用于调用并执行所述产品购买倾向分析系统，以执行如下步骤：

获取带有用户基本信息数据的产品推荐请求；

将该用户基本数据转换成0、1二值变量；

本发明较佳实施例中，所述分析模型的建立包括：

本发明所述产品购买倾向分析方法及适用于上述方法的服务器，通过机器学习方法建立产品购买倾向的分析模型，根据该分析模型分析出用户对购买各产品的倾向分值，并可以根据倾向分值为所述用户推荐进行产品推荐。

附图说明

图1是本发明产品购买倾向分析系统第一较佳实施例的硬件环境示意图。

图2是本发明产品购买倾向分析系统第二较佳实施例的硬件环境示意图。

图3是本发明产品购买倾向分析系统较佳实施例的功能模块图。

图4是本发明产品购买倾向分析方法较佳实施例的方法流程图。

图5是本发明产品购买倾向分析方法较佳实施例中生成分析模型的实施流程图。

图6A以及图6B是本发明用于建立分析模型的数据的样例。

图7A以及图7B分别是图6A以及图6B中的数据转换后的数据格式。

图8是基于计算出的各特征维度与各软件的相关系数及对应的权重的分析模型。

具体实施方式

参阅图1所示，是本发明产品购买倾向分析系统第一较佳实施例的硬件环境示意图。

本实施例中，所述产品购买倾向分析系统2可以安装并运行于一台服务器，如分析服务器1中。所述分析服务器1可以通过通讯模块(未图示)与至少一台终端设备3通讯连接。所述终端设备3可以是个人电脑、智能手机、平板电脑等设备。所述终端设备3包括输入设备30及显示设备31。

进一步地，所述分析服务器1也可以与一台或者多台业务服务器4通讯连接，以从所述业务服务器4中获取海量数据，进行数据建模与分析。所述业务服务器4可以包括，但不限制于，例如，银行服务器、信用卡服务器、保险服务器、证券服务器等。

所述分析服务器1可以包括有处理器以及存储设备(未图示)。所述处理器是服务器1的运算核心(Core Unit)和控制核心(Control Unit)，用于解释计算机指令以及处理计算机软件中的数据。所述存储设备可以是一个或者多个非易失性存储设备，如ROM、EPROM或Flash Memory(快闪存储设备)等。所述存储设备可以内置或者外接于所述分析服务器1。

本实施例中，所述产品购买倾向分析系统2可以是一种计算机软件，其包括计算机可执行的程序指令代码，该程序指令代码可以存储于所述存储设备中，在所述处理器的执行下，实现下述功能：在接收到带有用户基本信息数据的产品购买推荐请求后，将该用户的所有基本信息数据均转成0、1二值变量；将转成的二值变量作为模型的特征维度代入预先建立的分析模型中，以分析出该用户对各个预先确定的产品的购买倾向分；基于各个预先确定的产品对应的购买倾向分，并按照预设的分析规则确定出待推荐的产品，向该用户发送消息，以推荐所确定出的产品。

本发明较佳实施例中，所述产品包括软件产品、金融产品等。

本发明实施例中，所述接收到带有用户基本信息数据的产品购买推荐请求可以是业务服务器4定时向所述分析服务器1发送的预先确定的客户的基本信息数据的产品购买推荐请求，也可以是某个用户通过其终端设备3的输入设备30输入的带有用户基本信息数据的产品推荐请求。

本发明实施例中，所述分析模型可以是深度卷积神经网络模型。

本发明实施例中，所述用户基本信息数据包括，但不是限制，用户的性别、年龄、职业、是否拥有某产品等等。

所述将该用户基本数据转换成0、1二值变量的方法包括，例如，基本数据中属于离散变量的采用哑变量转换方式，属于连续变量的采用分箱转换方式，以及属于缺失值的采用-1替换等。

所述哑变量又称虚拟变量(Dummy Variables)、虚设变量、名义变量等，用以反映质的属性的人工变量，是量化了的自变量，通常取值为0或1。例如，反映文化程度的虚拟变量可取为：1：本科学历；0：非本科学历，又如，反映职业的虚拟变量可取为：1：律师职业；0：非律师职业，以及性别的虚拟变量可取为：1：男性；0：女性等等。

一般地，在虚拟变量的设置中：基础类型、肯定类型取值为1；比较类型，否定类型取值为0。

所述分箱是将某个自变量的值分为k个分箱，例如，k可以为2。因此，可以将年龄这个变量分为2个分箱，其中小于等于30岁为一个分箱，大于30岁为另一个分箱，并可以将小于等于30岁的分箱赋值为0，以及大于30岁的另一个分箱赋值为1等等。

本发明较佳实施例中，所述预设的分析规则为：

按照各个预先确定的产品对应的购买倾向分的预设大小顺序，为各个预先确定的产品进行排序，确定出购买倾向分大于预设值的产品作为待推荐的产品；或者

按照各个预先确定的产品对应的购买倾向分的预设大小顺序，为各个预先确定的产品进行排序，若所述预设大小顺序为从大到小顺序，则确定出排序在前的预设数量的产品作为待推荐的产品，若所述预设大小顺序为从小到大顺序，则确定出排序在后的预设数量的产品作为待推荐的产品。

本发明较佳实施例中，所述分析模型的建立过程如下：

第一步：将预设数量用户的基本信息数据和购买的产品作为用户样本数据，并为各个用户所购买的产品建立产品样本数据，其中，各个用户的基本信息数据作为自变量，将各个用户所购买的产品作为目标变量。

第二步：提取出第一预设比例的用户的样本数据作为训练集，并将剩余的用户的样本数据作为测试集。

第三步：将训练集中的各个用户的所有基本数据，并将训练集中的各个用户的目标变量转成0、1二值变量。

第四步：利用深度卷积神经网络模型的多层隐藏层将原始用户向量与产品向量映射到低维空间，在低维空间中，再计算用户与产品的相似度，构造所述产品推荐的分析模型。

在本发明的其他实施例中，如图2所示，所述的软件程序点击率预估排序系统2也可以安装并运行于终端设备3中，所述软件程序点击率预估排序系统2的程序代码可以存储于所述终端设备3的存储设备(未图示)中，并在终端设备3的处理器的执行下，实现上述描述的功能。

参阅图3所示，是本发明产品购买倾向分析系统较佳实施例的功能模块图。

所述产品购买倾向分析系统2的程序代码根据其不同的功能，可以划分为多个功能模块。本发明较佳实施例中，所述产品购买倾向分析系统2可以包括模型建立模块20、获取模块21、预处理模块22、推荐分析模块23及发送模块24。

所述模型建立模块20用于建立用于产品推荐的分析模型。

本发明较佳实施例中，所述分析模型的建立过程如下：

第一步：将预设数量(例如，10万个)用户的基本信息数据(例如，性别、年龄、是否拥有某产品、是否某业务公司客户等等)和购买的产品作为用户样本数据，并为各个用户所购买的产品建立产品样本数据，其中，各个用户的基本信息数据作为自变量，将各个用户所购买的产品作为目标变量。所述用户样本数据的样例如下图6A所示，以及所述产品样本数据的样例如下图6B所示。

其中，图6A中所示的字段说明如下：

Party_id：客户号；

Sex：性别；

Age：年龄；

Life_cycle：人生阶段；

Prof：职业；

Pc_flag：是否产险用户；

Card_flag：是否信用卡用户；

Bank_flag：是否银行用户；

Hold_child_flag：是否持有子女教育险产品；

Product：购买产品编码。

其中，图6B中所示的字段说明如下：

Is_sx：是否寿险相关；

Is_cx：是否产险相关；

Is_ylx：是否养老险相关；

Is_jkx：是否健康险相关；

Is_yh：是否银行相关；

Is_jj：是否基金相关。

第二步：提取出第一预设比例(例如，70％)的用户的样本数据作为训练集，并将剩余的用户的样本数据作为测试集。

第三步：将训练集中的各个用户的所有基本数据(例如，性别、年龄、是否拥有某产品、是否某业务公司客户等等)转成0、1二值变量(例如，离散变量采用哑变量转换方式，连续变量采用分箱转换方式，缺失值采用-1替换)，并将训练集中的各个用户的目标变量转成0、1二值变量(例如，采用哑变量转换方式，将各个目标变量转化为0、1二值变量)。转换后的数据格式如图7A及图7B所示。

第四步：利用深度卷积神经网络模型的多层隐藏层将原始用户向量与产品向量映射到低维空间，在低维空间中，再计算用户与产品的相似度，构造所述产品推荐的分析模型。所述模型构造如图8所示。

上述第四步细分为如下步骤：

1)高维到低维映射：

模型输入层为x，包括用户向量u和多个产品向量{p₁，p₂，.....p_n}，u为图8的user，p为图8的product。{p₁，p₂，.....p_n}由用户已购买的产品和未购买的产品组合而成。为了降低模型噪音，未购买过的产品取当前Top5的热门产品而用户未购买。模型设置有多层隐藏层{l₁，l₂，....l_N}，每层的输入是上一层的输出。每层的连接权重为w₁，w₂，....w_N，偏置项为b₁，b₂，....b_N。映射函数设置为tanh。模型的输出层为y。因此有：

l₁＝w₁x；

l_i＝f(w_il_i-1+b_i)，i＝2，3，....N；

y＝f(w_Nl_N+b_N)；

tanh函数为：

2)相似度计算：

通过神经网络可以将用户与产品映射到y_u，y_p。.然后通过相似度的计算公式，可以计算出用户u对{p₁，p₂，.....p_n}的相似度。

u与p的相似度计算采用余弦公式：

3)误差函数：

模型学习的关键是构造误差函数。计算余弦相似度过后，采用softmax函数将相似度转化到0-1范围内，softmax函数为：

其中，γ为softmax中的平滑因子。P为所有的产品集合，在此为{p₁，p₂，.....p_n}，包括已经购买的产品和未购买的产品。已购买的产品与用户组成正的pair对(U，P⁺)。未购买的产品与用户组成负的pair对(U，P^-)。误差函数选取极大似然函数。即为：

4)模型学习：

误差函数构建完成后，即可开始进行模型训练，训练方法有多种，可采用sgd，adadelta,rmsprop等多种方法。为了解决超参数等复杂问题，我们采用adadelta进行模型训练。Adadelta算法原理在此不进行详细介绍。

5)倾向分计算：

给定用户向量u与备选推荐的产品向量p:{p₁，p₂，...p_N}，通过神经网络进行映射，得到输出层y_u，y_p。然后通过相似度余弦的计算公式计算u与p的相似度，即为最终的产品倾向分。

所述获取模块21用于获取带有用户基本信息数据的产品购买推荐请求。

本发明实施例中，所述带有用户基本信息数据的产品购买推荐请求可以是业务服务器4定时向所述分析服务器1发送的预先确定的客户的基本信息数据的产品购买推荐请求，也可以是某个用户通过其终端设备3的输入设备30输入的。

其中，所述用户基本信息数据包括，但不是限制，用户的性别、年龄、是否拥有某产品、是否某业务公司客户等等。

所述预处理模块22用于将该用户基本数据转换成0、1二值变量。

所述哑变量又称虚拟变量(Dummy Variables)、虚设变量、名义变量等，用以反映质的属性的人工变量，是量化了的自变量，通常取值为0或1。例如，反映文化程度的虚拟变量可取为：1：本科学历；0：非本科学历。一般地，在虚拟变量的设置中：基础类型、肯定类型取值为1；比较类型，否定类型取值为0。

所述推荐分析模块23用于将转成的二值变量作为模型的特征维度代入预先建立的分析模型中，以分析出该用户对各个预先确定的产品的购买倾向分，并基于各个预先确定的产品对应的购买倾向分，并按照预设的分析规则确定出待推荐的产品。

所述发送模块24用于向用户发送推荐确定出的待推荐的产品的消息，并显示于终端设备3的显示设备31上。

本发明较佳实施例中，所述预设的分析规则为：

按照各个预先确定的产品对应的购买倾向分的预设大小顺序(例如，从大到小顺序或者从小到大顺序)，按顺序为各个预先确定的产品进行排序，确定出购买倾向分大于预设值(例如，70分)的产品作为待推荐的产品；或者

按照各个预先确定的产品对应的购买倾向分的预设大小顺序(例如，从大到小顺序或者从小到大顺序)，按顺序为各个预先确定的产品进行排序，若所述预设大小顺序为从大到小顺序，则确定出排序在前的预设数量(例如，2个)的产品作为待推荐的产品，若所述预设大小顺序为从小到大顺序，则确定出排序在后的预设数量的产品作为待推荐的产品。

参阅图4所示，是本发明产品购买倾向分析方法较佳实施例的方法实施流程图。本实施例所述产品购买倾向分析方法并不限于流程图中所示步骤，此外流程图中所示步骤中，某些步骤可以省略、步骤之间的顺序可以改变。

S10，建立用于产品推荐的分析模型。

本发明较佳实施例中，所述分析模型的建立过程详见图5所示。

S11，获取带有用户基本信息数据的产品购买推荐请求。

其中，所述用户基本信息数据包括，但不是限制，用户的性别、年龄、职业、是否拥有某产品等等。

S12，将该用户基本数据转换成0、1二值变量。

S13，将转成的二值变量作为模型的特征维度代入预先建立的分析模型中，分析出该用户对各个预先确定的产品对应的购买倾向分。

S14，基于各个预先确定的产品对应的购买倾向分，并按照预设的分析规则确定出待推荐的产品，向该用户发送推荐确定出的产品的消息。

本发明较佳实施例中，所述预设的分析规则为：

所述推荐的确定出的待推荐的产品的消息可以显示于终端设备3的显示设备31上。

参阅图5所示，是本发明产品购买倾向分析方法较佳实施例中生成分析模型的实施流程图。本实施例所述产品购买倾向分析方法并不限于流程图中所示步骤，此外流程图中所示步骤中，某些步骤可以省略、步骤之间的顺序可以改变。

S20，将预设数量(例如，10万个)用户的基本信息数据(例如，性别、年龄、是否拥有某产品、是否某业务公司客户等等)和购买的产品作为用户样本数据，并为各个用户所购买的产品建立产品样本数据，其中，各个用户的基本信息数据作为自变量，将各个用户所购买的产品作为目标变量。所述用户样本数据的样例如下图6A所示，以及所述产品样本数据的样例如下图6B所示。

其中，图6A中所示的字段说明如下：

Party_id：客户号；

Sex：性别；

Age：年龄；

Life_cycle：人生阶段；

Prof：职业；

Pc_flag：是否产险用户；

Card_flag：是否信用卡用户；

Bank_flag：是否银行用户；

Hold_child_flag：是否持有子女教育险产品；

Product：购买产品编码。

其中，图6B中所示的字段说明如下：

Is_sx：是否寿险相关；

Is_cx：是否产险相关；

Is_ylx：是否养老险相关；

Is_jkx：是否健康险相关；

Is_yh：是否银行相关；

Is_jj：是否基金相关。

S21，提取出第一预设比例(例如，70％)的用户的样本数据作为训练集，并将剩余的用户的样本数据作为测试集。

S22，将训练集中的各个用户的所有基本数据(例如，性别、年龄、是否拥有某产品、是否某业务公司客户等等)转成0、1二值变量(例如，离散变量采用哑变量转换方式，连续变量采用分箱转换方式，缺失值采用-1替换)，并将训练集中的各个用户的目标变量转成0、1二值变量(例如，采用哑变量转换方式，将各个目标变量转化为0、1二值变量)。转换后的数据格式如图7A及图7B所示。

S23，利用深度卷积神经网络模型的多层隐藏层将原始用户向量与产品向量映射到低维空间，在低维空间中，再计算用户与产品的相似度，得到用于产品推荐的分析模型。所述模型构造如图8所示。

上述S23包括如下步骤：

1)高维到低维映射：

模型输入层为x，包括用户向量u和多个产品向量{p₁，p₂，.....p_n}，u为图8的user，p为图8的product。{p₁，p₂，.....p_n}由用户已购买的产品和未购买的产品组合而成。为了降低模型噪音，未购买过的产品取当前Top5的热门产品而用户未购买。模型设置有多层隐藏层{l₁，l₂，.....l_N}，每层的输入是上一层的输出。每层的连接权重为w₁，w₂，.....w_N，偏置项为b₁，b₂，....b_N。映射函数设置为tanh。模型的输出层为y。因此有：

l₁＝w₁x；

l_i＝f(w_il_i-1+b_i)，i＝2，3，....N；

y＝f(w_Nl_N+b_N)。

tanh函数为：

2)相似度计算：

通过神经网络可以将用户与产品映射到y_u，y_p。然后通过相似度的计算公式，可以计算出用户u对{p₁，p₂，.....p_n}的相似度。

u与p的相似度计算采用余弦公式：

3)误差函数：

其中，γ为softmax中的平滑因子。P为所有的产品集合，在此为{p₁，p₂，.....p_n}。包括已经购买的产品和未购买的产品。已购买的产品与用户组成正的pair对(U，P⁺)。未购买的产品与用户组成负的pair对(U，P^-)。误差函数选取极大似然函数。即为：

4)模型学习：

5)倾向分计算：

给定用户向量u与备选推荐的产品向量p:{p₁，p₂，…p_N}，通过神经网络进行映射，得到输出层y_u，y_p。然后通过相似度余弦的计算公式计算u与p的相似度，即为最终的产品倾向分。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种产品购买倾向分析方法，其特征在于，该方法包括：

获取带有用户基本信息数据的产品推荐请求；

将该用户基本数据转换成0、1二值变量；

2.如权利要求1所述的方法，其特征在于，所述用户基本信息数据包括用户的性别、年龄、职业、是否拥有某产品。

3.如权利要求1所述的方法，其特征在于，所述将该用户基本数据转换成0、1二值变量的方法包括：基本数据中属于离散变量的采用哑变量转换方式，属于连续变量的采用分箱转换方式，以及属于缺失值的采用-1替换。

4.如权利要求1所述的方法，其特征在于，所述基于各个预先确定的产品对应的购买倾向分，按照预设的分析规则确定出待推荐的产品的步骤包括：

5.如权利要求1所述的方法，其特征在于，所述分析模型的建立包括：

6.一种适用于权利要求1至5任一项所述方法的服务器，其特征在于，该服务器包括存储设备以及处理器，其中：

所述存储设备，用于存储一个产品购买倾向分析系统；

获取带有用户基本信息数据的产品推荐请求；

将该用户基本数据转换成0、1二值变量；

7.如权利要求6所述的服务器，其特征在于，其中，所述用户基本信息数据包括用户的性别、年龄、职业、是否拥有某产品。

8.如权利要求6所述的服务器，其特征在于，所述将该用户基本数据转换成0、1二值变量的方法包括：基本数据中属于离散变量的采用哑变量转换方式，属于连续变量的采用分箱转换方式，以及属于缺失值的采用-1替换。

9.如权利要求6所述的服务器，其特征在于，所述基于各个预先确定的产品对应的购买倾向分，按照预设的分析规则确定出待推荐的产品包括：

10.如权利要求6所述的服务器，其特征在于，所述分析模型的建立包括：