CN107644042B

CN107644042B - 软件程序点击率预估排序方法及服务器

Info

Publication number: CN107644042B
Application number: CN201610584612.9A
Authority: CN
Inventors: 陈曦; 王建明; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2016-07-22
Filing date: 2016-07-22
Publication date: 2020-06-30
Anticipated expiration: 2036-07-22
Also published as: CN107644042A

Abstract

一种软件程序点击率预估排序方法，包括：获取带有用户基本信息数据的软件推荐请求；将该用户基本数据转换成0、1二值变量；将转成的二值变量作为模型的特征维度代入预先生成的分析模型中，以分析出该用户对各软件的倾向分值，并基于各软件对应的倾向分值，按照预设的分析规则确定出待推荐的软件，向该用户发送推荐确定出的软件的消息。本发明还提供一种适用于上述方法的服务器。本发明可以基于用户的基本信息数据分析出用户可能感兴趣的软件。

Description

软件程序点击率预估排序方法及服务器

技术领域

本发明涉及数据评估技术领域，特别是一种基于机器学习的软件程序点击率预估排序方法及服务器。

背景技术

随着互联网，特别是社会化网络的快速发展，我们正处于信息过载的时代。用户面对过量的信息很难找到自己真正感兴趣的内容，而内容提供商也很难把优质的内容准确推送给感兴趣的用户。推荐系统被认为是解决这些问题的有效方法，它对用户的历史行为进行挖掘，对用户兴趣进行建模，并对用户未来的行为进行预测，从而建立了用户和内容的关系。

目前，现有的产品推荐算法主要是针对用户是否会购买某一产品的业务场景，推荐算法的目标变量是0或1。但是对某些APP产品，我们希望能预测用户对APP上软件的点击率排序，此时的目标变量不再是0或1。现有的推荐算法难以处理目标变量非0或1的业务场景，因此，如何对APP上软件的点击率进行排序已经成为一个亟待解决的技术问题。

发明内容

鉴于以上内容，有必要提供一种软件程序点击率预估排序方法，其可以基于机器学习的方法预估软件程序点击率的排序。

一种软件程序点击率预估排序方法，包括：

获取带有用户基本信息数据的软件推荐请求；

将该用户基本数据转换成0、1二值变量；

将转成的二值变量作为模型的特征维度代入预先生成的分析模型中，以分析出该用户对各软件的倾向分值，并基于各软件对应的倾向分值，按照预设的分析规则确定出待推荐的软件，向该用户发送推荐确定出的软件的消息。

本发明较佳实施例中，所述用户基本信息数据包括用户的性别、年龄、职业、是否拥有某产品。

本发明较佳实施例中，所述将该用户基本数据转换成0、1二值变量的方法包括：基本数据中属于离散变量的采用哑变量转换方式，属于连续变量的采用分箱转换方式，以及属于缺失值的采用-1替换。

本发明较佳实施例中，所述预设的分析规则包括：

按照各软件对应的倾向分值的预设大小顺序，按顺序为各软件进行排序，确定出倾向分值大于预设值的软件作为待推荐的软件；或者

按照各软件对应的倾向分值的预设大小顺序，按顺序为各软件进行排序，若所述预设大小顺序为从大到小顺序，则确定出排序在前的预设数量的软件作为待推荐的软件，若所述预设大小顺序为从小到大顺序，则确定出排序在后的预设数量的软件作为待推荐的软件。

本发明较佳实施例中，所述分析模型的建立包括：

将预设数量用户的基本信息数据和点击各个软件的频数作为样本数据，其中，各个用户的基本信息数据作为自变量，将各个用户点击各个软件的频数作为目标变量；

取出第一预设比例的用户的样本数据作为训练集，并将剩余的用户的样本数据作为测试集；

将训练集中的各个用户的所有基本数据转成0、1二值变量，并将训练集中的各个用户的目标变量转成0、1二值变量；

计算训练集中的各个用户各特征维度与各软件的相关系数，并通过训练集中的各个用户对各软件的点击率排序训练各相关系数的权重，进而构建出基于计算出的各特征维度与各软件的相关系数及对应的权重的分析模型。

鉴于以上内容，还有必要提供一种适用于上述方法的服务器，其可以基于机器学习的方法预估软件程序点击率的排序。

一种适用于上述方法的服务器，该服务器包括存储设备以及处理器，其中：

所述存储设备，用于存储一个软件程序点击率预估排序系统；

所述处理器，用于调用并执行所述软件程序点击率预估排序系统，以执行如下步骤：

获取带有用户基本信息数据的软件推荐请求；

将该用户基本数据转换成0、1二值变量；

本发明较佳实施例中，所述预设的分析规则包括：

本发明较佳实施例中，所述分析模型的建立包括：

本发明所述软件程序点击率预估排序方法及适用于上述方法的服务器，通过机器学习方法建立软件程序评估的分析模型，根据该分析模型分析出用户对各软件程序的倾向分值，并可以根据软件程序的倾向分值为所述用户推荐软件程序。

附图说明

图1是本发明软件程序点击率预估排序系统第一较佳实施例的硬件环境示意图。

图2是本发明软件程序点击率预估排序系统第二较佳实施例的硬件环境示意图。

图3是本发明软件程序点击率预估排序系统较佳实施例的功能模块图。

图4是本发明软件程序点击率预估排序方法较佳实施例的方法流程图。

图5是本发明软件程序点击率预估排序方法较佳实施例中生成分析模型的实施流程图。

图6是本发明用于建立分析模型的数据的样例。

图7是图6中的数据转换后的数据格式。

图8是基于计算出的各特征维度与各软件的相关系数及对应的权重的分析模型。

图9是转换为具有排序值的目标变量的数据集。

具体实施方式

参阅图1所示，是本发明软件程序点击率预估排序系统第一较佳实施例的硬件环境示意图。

本实施例中，所述软件程序点击率预估排序系统2可以安装并运行于一台服务器1中。所述服务器1可以通过通讯模块(未图示)与至少一台终端设备3通讯连接。所述终端设备3可以是个人电脑、智能手机、平板电脑等设备。所述终端设备3包括输入设备30及显示设备31。

所述服务器1可以包括有处理器以及存储设备(未图示)。所述处理器是服务器1的运算核心(Core Unit)和控制核心(Control Unit)，用于解释计算机指令以及处理计算机软件中的数据。所述存储设备可以是一个或者多个非易失性存储设备，如ROM、EPROM或Flash Memory(快闪存储设备)等。所述存储设备可以内置或者外接于所述服务器1。

本实施例中，所述软件程序点击率预估排序系统2可以是一种计算机软件，其包括计算机可执行的程序指令代码，该程序指令代码可以存储于所述存储设备中，在所述处理器的执行下，实现下述功能：在接收到终端设备3通过其输入设备30输入的带有用户基本信息数据的软件推荐请求后，将该用户基本数据转换成0、1二值变量，将转成的二值变量作为模型的特征维度代入预先生成的分析模型中，以分析出该用户对各软件的倾向分值，并基于各软件对应的倾向分值，按照预设的分析规则确定出待推荐的软件，向该用户发送推荐确定出的软件的消息，并显示于终端设备3的显示设备31上。

其中，所述用户基本信息数据包括，但不是限制，用户的性别、年龄、职业、是否拥有某产品等等。

所述将该用户基本数据转换成0、1二值变量的方法包括，例如，基本数据中属于离散变量的采用哑变量转换方式，属于连续变量的采用分箱转换方式，以及属于缺失值的采用-1替换等。

所述哑变量又称虚拟变量(Dummy Variables)、虚设变量、名义变量等，用以反映质的属性的人工变量，是量化了的自变量，通常取值为0或1。例如，反映文化程度的虚拟变量可取为：1：本科学历；0：非本科学历。一般地，在虚拟变量的设置中：基础类型、肯定类型取值为1；比较类型，否定类型取值为0。

所述分箱是将某个自变量的值分为k个分箱，本发明较佳实施例中，k为2。例如，将年龄这个变量分为2个分箱，其中小于等于40岁为一个分箱，大于40岁为另一个分箱，并将小于等于40岁的分箱赋值为1，以及大于40岁的另一个分箱赋值为0。

本发明较佳实施例中，所述预设的分析规则为：

按照各软件对应的倾向分值的预设大小顺序(例如，从大到小顺序或者从小到大顺序)，按顺序为各软件进行排序，确定出倾向分值大于预设值(例如，70分)的软件作为待推荐的软件；或者

按照各软件对应的倾向分值的预设大小顺序(例如，从大到小顺序或者从小到大顺序)，按顺序为各软件进行排序，若所述预设大小顺序为从大到小顺序，则确定出排序在前的预设数量(例如，2个)的软件作为待推荐的软件，若所述预设大小顺序为从小到大顺序，则确定出排序在后的预设数量的软件作为待推荐的软件。

本发明较佳实施例中，所述分析模型的建立过程如下：

第一步：将预设数量(例如，10万个)用户的基本信息数据(例如，性别、年龄、职业、是否拥有某产品等等)和点击各个软件的频数作为样本数据，其中，各个用户的基本信息数据作为自变量，将各个用户点击各个软件的频数作为目标变量。其中，所述预设数量用户的基本信息数据和点击各个软件的频数可以从一个数据库4中获取。

所述数据的样例如下图6所示。

其中，图6中所示的字段说明如下：

Party_id：客户号；

Sex：性别；

Age：年龄；

Life_cycle：人生阶段；

Prof：职业；

Pc_flag：是否产险用户；

Card_flag：是否信用卡用户；

Bank_flag：是否银行用户；

Hold_child_flag：是否持有子女教育险产品；

target：点击软件ID；

Lable：点击软件频数。

第二步：提取出第一预设比例(例如，70％)的用户的样本数据作为训练集，并将剩余的用户的样本数据作为测试集。

第三步：将训练集中的各个用户的所有基本数据(例如，性别、年龄、职业、是否拥有某产品等等)转成0、1二值变量(例如，所述基本数据中的离散变量采用哑变量转换方式，所述基本数据中的连续变量采用分箱转换方式，以及所述基本数据中的缺失值采用-1替换)，并将训练集中的各个用户的目标变量转成0、1二值变量(例如，采用哑变量转换方式，将各个目标变量转化为0、1二值变量)。转换后的数据格式如图7所示。

第四步：计算训练集中的各个用户各特征维度(即由用户的所有基本数据转成的0、1二值变量)与各软件的相关系数，并通过训练集中的各个用户对各软件的点击率排序训练各相关系数的权重，进而构建出基于计算出的各特征维度与各软件的相关系数及对应的权重的分析模型。所述模型构造如图8所示。

其中，所述相关系数的计算包括：

首先，计算用户的各特征维度与各软件的相关系数，设用户的特征维度为{u₁，u₂，...，u_N}，这里的特征维度即为图7中的序号2-28的自变量。软件集合为{T₁，T₂，...，T_N}。所述软件集合中的软件即为图7中的序号29-31的变量。在计算相关性的阶段，不需要考虑点击各软件的频率，只需考虑是否点击过软件。因此可以直接根据序号2-31的变量计算各特征维度与各软件的相关系数。相关性计算采用皮尔逊相关系数。所述皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于1和-1之间的值，其中，1表示变量完全正相关，0表示无关，-1表示完全负相关。最终计算出了所有特征维度与所有软件的相关系数cor(u_i，T_i)。

进一步地，所述特征权重w学习包括：

不同的特征维度对目标的影响程度不一样，因此很有必要训练各特征维度的权重。本算法由于目标变量具有相对排序值，因此我们采用ranknet算法训练特征的权重。具体步骤如下：

首先将原始点击数据转换成目标变量为排序值的新数据，数据集总共有软件A、B、C。用户A点击了A软件，那么用户A的点击数据将转化为3条新数据。分别代表点击A、点击B、点击C。

点击A的新数据的自变量为用户A的各特征维度与A软件的相关系数与用户A的特征维度值的乘积值。即为：

u′_i＝u_i*cor(u_i，p_A)

目标变量为用户A点击A的点击频率。

点击B的新数据的自变量为用户A的各特征维度与B产品的相关系数与用户A的特征维度值的乘积值。即为：

u′_i＝u_i*cor(u_i，p_B)

目标变量为用户A点击B软件的点击频率。

点击C的新数据的自变量为用户A的各特征维度与C产品的相关系数与用户A的特征维度值的乘积值。即为：

u′_i＝u_i*cor(u_i，p_C)

目标变量为用户A点击C软件的点击频率。

得到新数据后，利用Ranknet算法，即可训练出各特征维度的参数。

图9所示，为样例转换后的数据集。

其他用户的转换依次类推。

所述RankNet是一种Pairwise方法，在这里我们定义了软件对<A，B>的概率(假设A，B的特征分别为x_i，x_j)，P_ij为预测的i比j的偏好值更大的概率。

其中，o_ij＝o_i-o_j，o_i＝f(x_i)，RankNet使用神经网络来训练模型，所以f(x_i)是神经网络的输出.

如果对于某用户来说，软件A比软件B的偏好值更大，则实际概率:

如果软件B比软件A的偏好值更大，目标函数

如果A和B的偏好值一样，则

有了模型输出的概率P_ij和目标概率

我们使用交叉熵来作为训练的损失函数:

得到训练集的损失函数后，我们可以根据多种优化方法来求解损失函数的最优解，求得的最优解即为各特征维度的权重。

进一步地，倾向性评分的计算包括：

根据用户的特征维度值以及特征维度权重。即可计算用户对各软件的倾向分值数。将倾向性评分进行排序，即可对用户进行软件推荐。倾向性分数的计算公式为：

其中，w_i为特征维度的权重，u_i为特征维度的值，cor(u_i，p)为特征维度与软件的相关系数。

在本发明的其他实施例中，如图2所示，所述的软件程序点击率预估排序系统2也可以安装并运行于终端设备3中，所述软件程序点击率预估排序系统2的程序代码可以存储于所述终端设备3的存储设备(未图示)中，并在终端设备3的处理器的执行下，实现上述描述的功能。

参阅图3所示，是本发明软件程序点击率预估排序系统较佳实施例的功能模块图。

所述软件程序点击率预估排序系统2的程序代码根据其不同的功能，可以划分为多个功能模块。本发明较佳实施例中，所述软件程序点击率预估排序系统2可以包括模型建立模块20、获取模块21、预处理模块22及推荐模块23。

所述模型建立模块20用于建立用于软件推荐的分析模型。

本发明较佳实施例中，所述分析模型的建立过程如下：

第一步：将预设数量(例如，10万个)用户的基本信息数据(例如，性别、年龄、是否拥有某产品、是否某业务公司客户等等)和点击各个软件的频数作为样本数据，其中，各个用户的基本信息数据作为自变量，将各个用户点击各个软件的频数作为目标变量。

第三步：将训练集中的各个用户的所有基本数据(例如，性别、年龄、是否拥有某产品、是否某业务公司客户等等)转成0、1二值变量(例如，所述基本数据中的离散变量采用哑变量转换方式，所述基本数据中的连续变量采用分箱转换方式，以及所述基本数据中的缺失值采用-1替换)，并将训练集中的各个用户的目标变量转成0、1二值变量(例如，采用哑变量转换方式，将各个目标变量转化为0、1二值变量)。

第四步：计算训练集中的各个用户各特征维度与各软件的相关系数，并通过训练集中的各个用户对各软件的点击率排序训练各相关系数的权重，进而构建出基于计算出的各特征维度与各软件的相关系数及对应的权重的分析模型。

所述获取模块21用于获取终端设备3通过其输入设备30输入的带有用户基本信息数据的软件推荐请求。

其中，所述用户基本信息数据包括，但不是限制，用户的性别、年龄、是否拥有某产品、是否某业务公司客户等等。

所述预处理模块22用于将该用户基本数据转换成0、1二值变量。

所述推荐模块23用于将转成的二值变量作为模型的特征维度代入预先建立的分析模型中，以分析出该用户对各软件的倾向分值，并基于各软件对应的倾向分值，按照预设的分析规则确定出待推荐的软件，向该用户发送推荐确定出的软件的消息，并显示于终端设备3的显示设备31上。

本发明较佳实施例中，所述预设的分析规则为：

参阅图4所示，是本发明软件程序点击率预估排序方法较佳实施例的方法实施流程图。本实施例所述软件程序点击率预估排序方法并不限于流程图中所示步骤，此外流程图中所示步骤中，某些步骤可以省略、步骤之间的顺序可以改变。

S10，建立用于软件推荐的分析模型。

本发明较佳实施例中，所述分析模型的建立过程详见图5所示。

S11，获取带有用户基本信息数据的软件推荐请求。

S12，将该用户基本数据转换成0、1二值变量。

S13，将转成的二值变量作为模型的特征维度代入预先建立的分析模型中，以分析出该用户对各软件的倾向分值，并基于各软件对应的倾向分值，按照预设的分析规则确定出待推荐的软件，向该用户发送推荐确定出的软件的消息。

参阅图5所示，是本发明软件程序点击率预估排序方法较佳实施例中生成分析模型的实施流程图。本实施例所述软件程序点击率预估排序方法并不限于流程图中所示步骤，此外流程图中所示步骤中，某些步骤可以省略、步骤之间的顺序可以改变。

S20，将预设数量(例如，10万个)用户的基本信息数据(例如，性别、年龄、是否拥有某产品、是否某业务公司客户等等)和点击各个软件的频数作为样本数据，其中，各个用户的基本信息数据作为自变量，将各个用户点击各个软件的频数作为目标变量。

所述数据的样例如下图6所示。

其中，图6中所示的字段说明如下：

Party_id：客户号；

Sex：性别；

Age：年龄；

Life_cycle：人生阶段；

Prof：职业；

Pc_flag：是否产险用户；

Card_flag：是否信用卡用户；

Bank_flag：是否银行用户；

Hold_child_flag：是否持有子女教育险产品；

target：点击软件ID；

Lable：点击软件频数。

S21，提取出第一预设比例(例如，70％)的用户的样本数据作为训练集，并将剩余的用户的样本数据作为测试集。

S22，将训练集中的各个用户的所有基本数据(例如，性别、年龄、是否拥有某产品、是否某业务公司客户等等)转成0、1二值变量(例如，所述基本数据中的离散变量采用哑变量转换方式，所述基本数据中的连续变量采用分箱转换方式，以及所述基本数据中的缺失值采用-1替换)，并将训练集中的各个用户的目标变量转成0、1二值变量(例如，采用哑变量转换方式，将各个目标变量转化为0、1二值变量)。转换后的数据格式如图7所示。

S23，计算训练集中的各个用户各特征维度与各软件的相关系数，并通过训练集中的各个用户对各软件的点击率排序训练各相关系数的权重，进而构建出基于计算出的各特征维度与各软件的相关系数及对应的权重的分析模型。

所述模型构造如图8所示。

其中，所述相关系数的计算包括：

首先计算用户的各特征维度与各软件的相关系数，设用户的特征维度为{u₁，u₂，...，u_N}，这里的特征维度即为图7中的序号2-28的自变量。软件集合为{T₁，T₂，...，T_N}。所述软件集合中的软件即为图7中的序号29-31的变量。在计算相关性的阶段，不需要考虑点击各软件的频率，只需考虑是否点击过软件。因此可以直接根据序号2-31的变量计算各特征维度与各软件的相关系数。相关性计算采用皮尔逊相关系数。所述皮尔逊相关系数是一种度量两个变量间相关程度的方法。它是一个介于1和-1之间的值，其中，1表示变量完全正相关，0表示无关，-1表示完全负相关。最终计算出了所有特征维度与所有软件的相关系数cor(u_i，T_i)。

进一步地，所述特征权重w学习包括：

u′_i＝u_i*cor(u_i，p_A)

目标变量为用户A点击A的点击频率。

u′_i＝u_i*cor(u_i，p_B)

目标变量为用户A点击B软件的点击频率。

u′_i＝u_i*cor(u_i，p_C)

目标变量为用户A点击C软件的点击频率。

图9所示，为样例转换后的数据集。

其他用户的转换依次类推。

其中，o_ij＝o_i-o_j，o_i＝f(x_i)，RankNet使用神经网络来训练模型，所以f(x_i)是神经网络的输出。

如果软件B比软件A的偏好值更大，目标函数

如果A和B的偏好值一样，则

有了模型输出的概率P_ij和目标概率

我们使用交叉熵来作为训练的损失函数:

进一步地，倾向性评分的计算包括：

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。