CN112487199A

CN112487199A - 一种基于用户购买行为的用户特征预测方法

Info

Publication number: CN112487199A
Application number: CN202011331045.9A
Authority: CN
Inventors: 周仁杰; 刘畅; 张纪林; 万健; 赵乃良; 胡强; 谢忠毅; 殷昱煜; 蒋从锋
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2021-03-12
Anticipated expiration: 2040-11-24
Also published as: CN112487199B

Abstract

本发明公开了一种基于用户购买行为的用户特征预测方法，该方法包括：采集目标用户特征信息、历史订单信息以及订单商品信息，并利用订单商品信息从公开知识图谱获取商品相关的三元组知识，构建知识子图，利用图卷积神经网络聚合实体近邻局部特征，充分学习实体的表示向量；在用户特征预测模型中根据不同的商品特征以及不同的具有相似购买行为用户的特征学习到目标用户与不同商品以及相似购买行为用户的相似度，充分根据用户间以及用户实体间的相似度学习其特征向量，满足用户的个性化需求。本发明提高了用户特征预测的准确性，从而可以更准确地预测用户特征，构造更完整的用户画像。

Description

一种基于用户购买行为的用户特征预测方法

技术领域

本发明涉及一种用户特征预测方法，更具体地说，本发明涉及一种基于用户历史购买记录的用户特征预测方法。

背景技术

现如今，人们在生活中都会接触各式各样的网络平台。这些网络平台除了能够给用户提供相关服务之外，用户也会在这些网络中留下“足迹”，这些“足迹”除了用户的个人属性、发布内容、收藏、购买等真实可见的直接数据外，还存在着大量用户的间接数据，如点击数据、关注关系等行为数据。利用用户留在网络中的数据，构建出准确、全面、有效的用户在互联网中的虚拟画像，进而推动推荐系统性能的提升对平台具有重要意义。

现存的用户画像预测方法大多根据文本、关系、用户行为(浏览、点击、购买)等信息抽取用户特征，对用户画像进行推断。由于构建用户画像的目的不同，有许多不同的用户画像预测方法被提出，常用的如基于机器学习的用户画像预测方法、数据统计分析方法的用户模型、基于加权关键字的用户向量空间模型等。

在电子商务领域，用户历史购买行为往往蕴藏了大量的用户兴趣信息。对于用户画像来说，通过用户历史购买行为进行特征预测是十分必要的。虽然上述许多用户画像预测方法对用户行为记录进行挖掘，大大提升了用户画像准确性，提升了推荐系统准确性，但是上述工作都忽略了用户选择一个项目时，是否更加偏重于项目的某个隐性特征，例如某用户是华为品牌爱好者，那么其购买商品时可能会更加注重商品品牌是否是华为，或者说某用户是喜欢观看成龙主演的电影，那么他在选择电影时可能会优先选择成龙主演的电影。上述的“品牌”、“主演”都是隐藏在项目背后的特征，可以称之为项目隐性特征，还有一些其他的隐性特征，如商品的“功效”、“类型”、“价格”、“代言人”等等或者电影的“导演”、“制片人”、“类型”等等。项目的隐性特征在网络平台中可能存在稀疏性问题，可以利用项目在公开知识图谱中的特征来进行缓解。此外，上述大多数没有挖掘用户之间以及项目之间的关联，大多将用户特征预测作为一个分类任务，且用户各个特征相对独立，造成用户之间以及项目之间的关联特征有一定程度的损失，无法有效地学得一个用户的表示向量用作用户特征预测。

本发明利用知识图谱对用户历史购买商品特征进行补充，提出了基于图卷积神经网络的学习用户高阶结构特征的用户画像预测方法，构建了完整的基于用户购买行为的用户特征预测模型。

发明内容

本发明的一个目的是针对现有技术的不足，提供一种基于用户历史购买记录的用户特征预测方法，基于用户产生的电商数据，利用知识图谱扩充商品特征以及图卷积网络充分对用户历史购买记录进行挖掘，以提升用户画像完整度。

本发明所采用的技术方案如下：

步骤1：采集目标用户特征信息、历史订单信息、订单商品信息；

步骤2：对步骤1采集得到的订单商品信息中的商品名称进行分词，提取商品名称中包含一定信息的实体，构建商品名称中包含所有实体的实体集合；

步骤3：构建知识子图；

步骤4：构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵；

步骤5：构造基于图卷积神经网络的用户特征预测模型并进行训练，模型参数收敛后得到最佳参数模型。

本发明的另一个目的是提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的方法。

本发明的又一个目的是提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述的方法。

本发明提供的技术方案包含以下有益效果：

本发明通过采集用户历史购买行为，获取其相关知识图谱信息，对商品特征进行扩充，弥补了电商数据中商品特征稀缺的问题；

本发明利用商品及其相关知识图谱三元组构建知识子图，利用图卷积网络充分学习知识子图结点特征，尽可能地保留图本身的结构特征，避免训练过程造成的特征损失，获得能够充分表示实体及其局部近邻特征的表示向量；此外，根据用户交互实体和用户近邻用户表示向量与用户自身表示向量的相似度获得不同的权重，符合用户偏好，对个性化推荐具有重要意义。

附图说明

图1为本发明所涉及的流程图；

图2为模型结构图；

图3为商品包含实体关联图；

具体实施方式

下面结合附图，对本发明的具体实施方案作进一步详细描述。其具体流程描述如图1所示，其中：

目标用户特征信息包括用户画像信息，如性别、年龄；

历史订单信息包括订单用户编号、购买商品编号；

订单商品信息包括商品名称；

步骤2：对步骤1中订单商品信息中的商品名称进行分词，提取商品名称中包含一定信息的实体，构建商品名称中包含所有实体的实体集合S(e)；

所述实体可以是品牌名、商品名等；

步骤3：构建知识子图

在公开知识图谱中查找步骤2获得的实体集合S(e)中的各个实体e_i∈S(e)，若存在则获取该实体e_i相关的三元组特征

并进行三元组特征拓展，得到所有实体拓展后的三元组特征，构建知识子图

若不存在则跳过该实体，并将其从实体集合中删除。其中，e_i代表实体集合S(e)中第i个实体并作为三元组

的头实体；

表示第1轮拓展得到的第j个实体，并作为三元组

的尾实体；r代表e_i和

之间的关系。

公开知识图谱中存在若干条实体相关的三元组特征，其组织形式为(头实体，关系，尾实体)，例如电影《功夫》存在一条三元组特征为(《功夫》，导演，周星驰)。

实体的三元组特征拓展具体如下：

(1)初始化：迭代次数H＝1；

(2)将

中尾实体

作为头实体，在公开知识图谱查找

相关的三元组特征

(3)更新迭代次数H＝H+1，将上一轮迭代得到的三元组特征尾实体作为头实体，继续在公开知识图谱查找与该头实体相关的三元组特征，直至迭代次数达到最大迭代次数。

步骤4：构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵

将步骤3获得的所有实体拓展后的知识图谱三元组作为知识子图

并定义关联关系contain将用户历史订单信息中购买商品与购买商品名称中的实体进行关联，将购买商品加入到知识子图

根据知识子图

以及历史订单信息构建用户邻接矩阵、实体邻接矩阵、实体关系矩阵：

(1)根据历史订单信息，构建用户邻接矩阵

用来保存每名用户的前K_u名具有相同交互商品的用户即为近邻用户，其中M代表用户数，K_u表示购买相同商品用户采样数且K_u＜M。

(2)根据知识子图

构建实体邻接矩阵

用来存储两个直接相连的实体，这两个实体即为近邻实体，其中I表示实体数量，K_e表示近邻实体采样数且K_e＜I；

(3)根据知识子图

构建实体关系矩阵

用来保存实体邻接矩阵中两个近邻实体之间的知识子图关系，其中I表示实体数量，K_r表示关系采样数且K_r＝K_e，K_r＜I；

图3为商品包含实体关联图；

步骤5：根据步骤4中得到的知识子图

用户邻接矩阵

实体邻接矩阵

以及实体关系矩阵

构造基于图卷积神经网络的用户特征预测模型。

如图2所述的基于图卷积神经网络的用户特征预测模型包括输入层、嵌入层、图卷积层、聚合层、全连接层、输出层：

(1)输入层的输入为用户、用户交互过的实体，构建用户交互实体集合N_e(u)；

(2)嵌入层将用户、用户交互过的实体进行向量化表示，并根据用户邻接矩阵

获得用户的近邻用户嵌入向量，构建近邻用户集合N_u(u)。

(3)图卷积层对嵌入层输出实体特征向量进行局部近邻特征学习，分别从实体邻接矩阵

以及实体关系矩阵

中获得实体的近邻实体和相应的两个近邻实体间关系，利用图卷积网络根据两个近邻实体间关系与用户u的嵌入向量的相似度对实体的近邻实体进行加权聚合，获得具有近邻结构特征的实体嵌入向量，具体方法为：

a)从实体邻接矩阵

中找到用户交互实体集合N_e(u)中任意实体e∈N_e(u)对应的近邻实体，并构建集合S_e(e)；根据集合S_e(e)，从实体关系矩阵

找到连接两个近邻实体的关系，构建集合S_r(e)；

b)根据用户对实体间不同关系的相似度迭代聚合近邻实体特征，近邻实体表示向量计算公式如下：

其中，

表示实体e的近邻实体表示向量，v_i为集合S_e(e)中第i个实体e_i的嵌入向量，

为连接实体e与实体e_i的关系嵌入向量与用户u的嵌入向量经过softmax归一化后的相似度，作为实体e_i归一化后的聚合权重，用于表示用户偏好。

α_i的计算公式如下：

α_i＝g(u，r_i)

其中u表示用户u的嵌入向量，r_i表示连接实体e与实体e_i的关系r_i∈S_r(e)的嵌入向量，g(·)表示向量的内积计算。

对于任意实体e_i∈S_e(e)，其聚合权重α_i的softmax归一化过程为：

其中α_j表示实体e_j的聚合权重，exp(·)表示以自然常数e为底的指数函数。

c)使用加和聚合对实体e的嵌入向量v与近邻实体表示向量

进行聚合，得到具有近邻结构特征的实体嵌入向量：

其中W、b分别表示权重矩阵和偏移向量，σ表示激活函数。

图卷积层训练完毕后，每个实体的嵌入向量都包含其本身以及近邻实体及关系的特征。

(4)聚合层：对嵌入层输出的用户嵌入向量、近邻用户嵌入向量以及图卷积层输出的具有近邻结构特征的实体嵌入向量进行聚合，得到输入用户最终的嵌入向量，具体如下：

a)根据用户u的嵌入向量u与用户u交互实体集合N_e(u)中各实体嵌入向量的相似度，对集合N_e(u)中实体进行加权求和，得到用户u的交互实体表示向量：

其中

表示用户u的交互实体表示向量，v_i为集合N_e(u)中第i个实体e_i的嵌入向量，

为经过softmax函数归一化后的u与v_i的相似度，作为用户u的交互实体嵌入向量的归一化后的聚合权重。

β_i的计算方式如下：

β_i＝g(u，v_i)

其中，g(·)表示向量内积计算。

对于任意交互实体e_i∈N_e(u)，其聚合权重β_i的softmax归一化过程如下：

其中β_j表示交互实体e_j的聚合权重，exp(·)表示以自然常数e为底的指数函数。

b)根据用户u的嵌入向量u与用户u的近邻用户集合N_u(u)中各用户的嵌入向量的相似度，对集合N_u(u)中的元素进行加权求和，得到用户u的近邻用户表示向量：

其中，

表示用户u的近邻用户表示向量，u_i为集合N_u(u)中第i个用户的嵌入向量，

为u与u_i经过softmax归一化后的相似度，作为用户u的近邻用户嵌入向量归一化后的聚合权重。

γ_i的计算方式如下：

γ_i＝g(u，u_i)

同样，g(·)表示向量内积计算。

对于任意近邻用户u_i∈N_u(u)，其聚合权重γ_i的softmax归一化过程如下：

其中γ_j表示近邻用户u_j的聚合权重，exp(·)表示以自然常数e为底的指数函数。

c)对用户交互实体表示向量

和用户近邻用户表示向量

进行串联，将串联后得到的中间向量变换为与用户嵌入向量相同维度的用户近邻特征表示向量：

其中

代表用户u的近邻特征表示向量，W、b分别代表权重矩阵和偏置向量，concat(·)代表串联操作。

d)将用户u的嵌入向量u与

相加，得到用户u的最终表示向量：

其中u_final表示用户u的最终表示向量，σ表示激活函数ReLU。

(5)全连接层：全连接层将聚合层输出的输入用户最终的嵌入向量转化为与预测特征种类数相同维度的输出向量。

o＝Wu_final+b

其中，o表示用户输出向量，u_final表示用户u最终的嵌入向量，W表示权重矩阵，b表示偏移向量。

(6)输出层：输出层利用softmax函数将用户的输出向量做归一化处理，将输出向量转化为用户对应各个类别的概率分布，并获取其中最大值所在索引作为模型输出的输入用户预测标签。

a)对于输出向量o，进行softmax归一化操作，得到用户输出向量对维度特征的概率表示，softmax函数对用户输出向量o的操作如下：

其中，o′_i表示通过softmax函数得到的第i个维度的概率表示，o_i表示输出向量o第i个维度的值。通过softmax函数即可得到用户输出向量对第0，1，...，f-1维对应用户特征的概率表示。

根据得到的表示用户特征概率分布的输出向量o′中的最大值对应的维度作为用户预测标签，例如：

其中，在第0维到第4维中第1维值最大，则用户u的预测标签值为1。

将用户真实标签与用户预测标签带入损失函数计算模型损失，并通过反向传播得到最优参数模型。

整个模型的反向传播过程采用softmax交叉熵损失函数，其公式为：

上述公式中i代表第i个类型，y′_i代表目标用户第i维特征真实值，y_i代表目标用户第i维特征的预测值，第二项为L2正则化项防止模型过拟合，其中λ为L2正则化系数，Θ为模型参数。

本发明性能评估分别采用盘石电商数据集、MovieLens-1M电影数据集以及京东电商数据集。其中，模型在三个数据集上都进行了性别预测二分类性能评估；在MovieLens-1M电影数据集以及京东电商数据集上进行了模型年龄预测多分类性能评估。下表为三个数据集进行知识图谱实体筛选后的数据量情况：

其中三个数据集分别采用了CNDB-pedia中文知识图谱、MicrosoftSatori以及zhishi.me中文知识图谱对商品名称的实体集合进行三元组特征拓展。各个数据集的用户特征分布情况如下：

(1)性别方面：

a)盘石数据集男性用户占比为42％，女性用户占比为58％；

b)MovieLens-1M电影数据集中男性用户占比72％，女性用户占比28％；

c)京东电商数据集中男性用户占比44％，女性用户占比56％。

(2)年龄方面：

a)MovieLens-1M电影数据集中年龄小于25岁的用户占22％，25岁至34岁的用户占35％，35岁至50岁的用户占29％，50岁以上的用户占15％；

b)京东电商数据集中年龄小于26岁的用户占14％，26岁至35岁的用户占55％，36岁至55岁的用户占30％，55岁以上的用户占1％。

下表为本发明在上述三个数据集上性别预测实验结果：

下表为本发明在上述三个数据集上年龄预测实验结果：

上述性别预测及年龄预测实验结果表中，逻辑回归与支持向量机为传统的机器学习分类器，LightGBM为微软提出的基于梯度提升决策树的高效分类模型，异构知识图卷积网络(HKGCN)即为本发明中的基于图卷积神经网络的用户特征预测模型。实验采用准确率Accuracy以及macro-F1作为用户特征预测性能评价指标。Accuracy是广泛用于分类问题的评价指标，以TP、FP、TN、FN分别代表真正例、假正例、真反例以及假反例，准确率Accuracy为：

即分类器预测真正例和真反例在整个数据集中占的比例，表示预测准确性。

macro-F1是机器学习中常用的衡量二分类模型的评价指标F1-score的变体，F1-score评价指标公式如下：

其中，precision以及recall分别表示分类精确率和召回率，分别评价模型正例分类是否准确以及分类器判别的正例占全部正例的比例，从上式可以看出F1-score是结合评价分类器精确率及召回率的评价指标。

由于传统F1-score多用于评价二分类，实验中年龄预测为多分类问题故采用macro-F1作为评价指标，macro-F1为各个类F1-score的平均值，即：

其中，F1-score₁，F1-score₂，…，F1-score_n分别代表第1，2，...n类的F1-score，N为类别数量。由公式可见，当macro-F1应用于本发明中的性别预测，即二分类问题时，会自动退化成F1-score。