CN109903099B

CN109903099B - 用于评分预测的模型构建方法和系统

Info

Publication number: CN109903099B
Application number: CN201910184792.5A
Authority: CN
Inventors: 刘业政; 吴锋; 田志强; 李哲; 杨露; 贺菲菲
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2021-03-23
Anticipated expiration: 2039-03-12
Also published as: CN109903099A

Abstract

本发明提供一种用于评分预测的模型构建方法和系统，涉及数据处理技术领域。其包括：S1、定义推荐环境；S2、根据所存在的评论训练LDA主题模型，并计算各个评论在所有主题下的概率分布；S3、构建网络模型；S4、训练更新网络模型中的参数。本发明通过构建神经网络模型，联合利用用户的评论和评分数据进行评分预测，利用主题模型来计算用户评论的主题分布以融合评论文本信息，然后将评分信息与评论信息作为神经网络的两个输出任务，对于评分信息、评论信息这两部分的输出，训练更新网络模型中的参数。本发明构建的用于评分预测的模型综合全面地利用用户对已购买产品的评论和评分，使得本发明构建的模型能更加准确地预测用户对未购买的产品的评分。

Description

用于评分预测的模型构建方法和系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种用于评分预测的模型构建方法和系统。

背景技术

推荐系统是根据用户的历史行为和兴趣特点，为用户推荐其感兴趣的信息或商品的系统。推荐系统一般通过评分预测来实现，即将预测评分高的商品推荐给用户。

传统的方法主要是考虑用户和产品之间的交互，比如矩阵分解方法通过分解用户和产品的评分矩阵分别得到用户和产品的隐特征矩阵，在预测评分时，通过输入用户和产品的隐特征来预测用户对产品的评分，将预测评分高的产品推荐给用户。

然而，随着数据量的大量增长，用户与产品的数量的增加，使得用户与产品的交互数据变得稀疏，现有的评分预测系统难以准确的预测用户对未购买的产品的评分。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种用于评分预测的模型构建方法和系统，解决了现有评分预测系统预测精度低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种用于评分预测的模型构建方法，该方法包括以下步骤：

S1、定义推荐环境：包括定义N个用户、M个产品、用户对已购买的产品的评分、评分范围1～R、用户对已购买的产品的评论，N和M均为大于0的自然数；

S2、根据所述推荐环境中的所存在的评论训练LDA主题模型，并计算各个评论在所有主题下的概率分布；

S3、构建网络模型：对用户和产品进行编码，得到用户的编号和产品的编号；基于用户的编号和产品的编号分别构建两个嵌入层；然后将两个嵌入层合并，得到合并层；利用激活函数对合并层进行多次非线性激活，构建多层非线性层；基于最后一层非线性层添加一个激活函数为softMax的全连接层和一个激活函数为sigmoid的全连接层，激活函数为softMax的全连接层用于表示用户对产品评分，激活函数为sigmoid的全连接层用于表示用户对产品的评论，并计算评分对应类别的概率和评论对应主题类别的概率；

S4、训练并更新网络模型中的参数。

优选的，所述方法还包括步骤S5，采用步骤S1～S4构建的用于评分预测的模型，预测用户对未购买的产品会给出的评分。

优选的，所述步骤S1还包括：

S101、对评论文本数据预处理，包括：对评论进行分词、去停用词、去噪声词。

优选的，所述步骤S2中计算各个评论在所有主题下的概率分布的具体方法为：

对于LDA主题模型，推荐环境中所存在的评论文本构成文档集，分别给文档集到主题以及主题到词的多项式分布添加参数为α和β的dirichlet先验分布，基于LDA主题模型的文档集生成过程，得到整个文档集预料生成的联合概率：

其中：

w表示文档集中词的集合；

z表示文档集中主题的集合；

通过Gibbs Sampling算法对上面的联合分布进行采样，可实现得到给定文档集的主题概率分布：

其中：

θ_m,k表示第m篇文档中属于主题k的概率；

表示主题k在第m篇文档中出现的次数；

φ_k,t表示第k个主题中产生词t的概率；

表示词t在主题k中出现的次数。

优选的，所述步骤S3中构建用户的嵌入层具体方法为：

定义表示模型中的用户u的D维向量

以用户的编号作为输入，通过嵌入层映射到较低的维度为D的向量，用e_u表示：

所述步骤S3中构建产品的嵌入层具体方法为：

定义表示模型中的产品i的D维向量

以产品的编号作为输入，通过嵌入层映射到较低的维度为D的向量，用e_i表示：

优选的，所述步骤S3中的合并层具体表示为：

所述步骤S3中非线性层的输出为：

定义h_l为第l层非线性层的输出，z_u,i作为该部分网络的输入，即：

h₀＝z_u,i

h_l＝f(h_l-1)

其中：

f(h_l-1)表示通过线性转换然后再经过一种非线性的激活函数的转化；

所述步骤S3中计算评分对应类别的概率的具体方法为：

将评分属于对应类别的概率定义为

其中属于第r个类别的预测概率值为

其中：

h_L为第L个ReLU层的输出；

所述步骤S3中计算评论对应主题类别的概率的具体方法为：

将评论存在对应主题类别的可能性定义为

其中评论在第k个主题类别上存在预测概率值为

不存在预测概率值为

其中：

h_L为第L个ReLU层的输出。

优选的，所述步骤S4包括：

S401、对于评分的输出，将R个评分看作是R个类别，创建评分输出的损失函数，输出的损失函数如下：

其中：

<u,i>∈D表示用户对产品评分的集合；

R表示评分总类别数；

p_u,i,r表示评分属于对应类别的真实概率值；

表示评分属于对应类别的预测概率值；

S402、对于评论文本的输出，将评论的输出转化成一个多标签分类问题，创建评论输出的损失函数，输出的损失函数如下：

其中：

<u,i>∈D表示用户对产品评分的集合；

K表示评论语料的主题数；

P_u,i,k表示评论存在对应主题类别的真实概率值；

表示评论存在对应主题类别的预测概率值；

S403、设置平衡参数λ，用来平衡评分输出的损失函数L₁和评论输出损失函数L₂：

L_joint＝λ·L₁+(1-λ)·L₂

S404、通过步骤S403得到的损失函数对步骤S3得到的网络模型的每个参数求偏导数，再使用随机梯度下降来更新步骤S3得到的网络模型参数以使模型达到最优：

其中:

θ_j表示模型中的参数；

η表示学习速率。

本发明还提供一种用于评分预测的模型构建系统，包括：

定义推荐环境单元，所述定义推荐环境单元用于定义用户、产品、用户对已购买的产品的评分、评分范围1～R、用户对已购买的产品的评论；

构建主题模型单元，所述构建主题模型单元用于根据所存在的评论训练LDA主题模型，并计算各个评论在所有主题下的概率分布；

构建网络模型单元，所述构建网络模型单元用于对用户和产品进行编码，得到用户的编号和产品的编号；基于用户的编号和产品的编号分别构建两个嵌入层；然后将两个嵌入层合并，得到合并层；利用激活函数对合并层进行多次非线性激活，构建多层非线性层；基于最后一层非线性层添加一个激活函数为softMax的全连接层和一个激活函数为sigmoid的全连接层，激活函数为softMax的全连接层用于表示用户对产品评分，激活函数为sigmoid的全连接层用于表示用户对产品的评论，并计算评分对应类别的概率和评论对应主题类别的概率；

训练模型参数单元，所述训练模型参数单元用于训练更新网络模型中的参数。

(三)有益效果

本发明提供了一种用于评分预测的模型构建方法和系统。与现有技术相比，具备以下有益效果：

本发明不仅考虑了用户对产品的评分，还考虑到了用户在评分的同时给出的评论，根据评论文本提取出用户关注的主题，更有效的反映用户对产品评价的真实情况。

本发明通过构建神经网络模型，将评分和评论内容作为模型的输出，利用深层神经网络和多任务学习，更加准备地预测用户对产品的评分。在处理评论内容时，使用主题模型对用户的评论内容进行分析建模，从而得到用户对产品评论的主题分布以融合评论文本信息。然后将评分和评论信息作为模型的两个输出任务，对于评分评论这两部分的输出，训练更新网络模型中的参数。本发明构建的用于评分预测的模型综合全面地利用用户对已购买产品的评论和评分，使得本发明构建的用于评分预测的模型能更加准确地预测用户对未购买的产品的评分。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的神经网络模型图；

图2为本发明实施例的LDA主题模型图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种用于评分预测的模型构建方法和系统，解决了现有评分预测系统预测精度低的技术问题，实现更加准确地预测用户对未购买的产品的评分。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

基于背景所述，传统的方法主要是考虑用户和产品之间的交互，比如分解用户和产品的评分矩阵，输入用户和产品的隐特征来预测用户对产品的评分，将预测评分高的产品推荐给用户。但随着数据量的大量增长，用户与产品的数量的增加，使得用户与产品的交互数据变得稀疏，现有的评分预测系统难以准确的预测用户对未购买的产品的评分，因此我们需要考虑到更全面的信息来帮助我们提高预测的准确性。

为了解决上述问题，本申请提出了一种用于评分预测的模型构建方法和系统，用于预测用户对未购买的产品的评分。本申请通过构建神经网络模型，将评分和评论信息作为模型的两个输出任务，利用深层神经网络和多任务学习，更加准备地预测用户对产品的评分，在处理评论内容时，使用主题模型用户的评论内容进行分析建模，从而得到用户对产品评论的主题分布以融合评论文本信息。然后将评分和评论信息作为模型的两个输出任务，对于评分评论这两部分的输出，训练更新网络模型中的参数，以实现更加准确地预测用户对未购买的产品的评分。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种用于评分预测的模型构建方法，如图1～2所示，包括以下步骤S1～S4；

S4、训练并更新网络模型中的参数。

本发明实施例不仅考虑了用户对产品的评分，还考虑到了用户在评分的同时给出的评论，根据评论文本提取出用户关注的主题，更有效的反映用户对产品评价的真实情况。

本发明实施例将评分和评论内容作为模型的输出，利用深层神经网络和多任务学习，更加准备地预测用户对产品的评分。在处理评论内容时，使用主题模型对用户的评论内容进行分析建模，从而得到用户对产品评论的主题分布以融合评论文本信息。然后将评分和评论信息作为模型的两个输出任务，对于评分评论这两部分的输出，训练更新网络模型中的参数。本发明实施例构建的用于评分预测的模型综合全面地利用用户对已购买产品的评论和评分，使得本发明构建的用于评分预测的模型能更加准确地预测用户对未购买的产品的评分。

下面对个步骤进行详细的描述：

S1、定义推荐环境：假设有N个用户，M个产品，定义u，i分别来表示用户和产品，定义r_u,i来表示用户对已购买的产品的评分，评分范围1～R，假设每个评分都有对应的评论，定义w_u,i来表示用户对已购买的产品的评论，N和M均为大于0的自然数。

S2、根据推荐环境中所存在的评论训练LDA主题模型，并计算各个评论在所有主题下的概率分布，这里的推荐环境中所存在的评论可以是推荐环境中全部的评论，这样的话训练好的LDA主题模型更加全面，也可以是推荐环境中的部分评论，这样的话能更快的训练好LDA主题模型，一般情况下选择推荐环境中全部的评论，具体为：

对于LDA主题模型，分别给文档集到主题以及主题到词的多项式分布添加参数为α和β的dirichlet先验分布，文档集是由推荐环境中全部的评论文本构成的集合，基于LDA主题模型的文档集生成过程，得到文档集预料生成的联合概率；

其中：

w表示文档集中词的集合；

z表示文档集中主题的集合；

通过Gibbs Sampling(吉布斯采样)算法对上面的联合分布进行采样，可实现当给定一个文档时，得到该文档集的主题概率分布；

其中：

θ_m,k表示第m篇文档中属于主题k的概率；

表示主题k第m篇文档中出现的次数；

φ_k,t表示第k个主题中产生词t的概率；

表示词t在主题k中出现的次数。

S3、构建网络模型，包括步骤S301～S306：

S301、使用独热码对用户和产品进行编码，得到用户的编号和产品的编号。

S302、基于用户的编号和产品的编号分别构建两个嵌入层；

所述构建用户的嵌入层具体方法为：

定义表示模型中的用户u的D维向量

以用户的编号作为输入，通过嵌入层映射到较低的维度为D的向量，用e_u表示；

构建产品的嵌入层具体方法为：

定义表示模型中的产品i的D维向量

以产品的编号作为输入，通过嵌入层映射到较低的维度为D的向量，用e_i表示；

S303、将步骤S302中两个嵌入层合并，得到合并层所述步骤S3中的合并层具体表示为：

S304、利用ReLU激活函数对合并层进行多次非线性激活，构建多层非线性层；非线性层的输出为：

h₀＝z_u,i

h_l＝f(h_l-1)

其中：

f(h_l-1)表示通过线性转换然后再经过一种非线性的激活函数的转化。

S305、基于最后一层非线性层添加一个激活函数为softMax的全连接层，并计算评分对应类别的概率，具体为：

将评分属于对应类别的概率定义为

其中评分属于第r个类别的预测概率值为

其中：

h_L为第L个ReLU层的输出；

S306、基于最后一层非线性层添加一个激活函数为sigmoid的全连接层，并计算评论对应主题类别的概率，具体为：

将评论存在对应主题类别的可能性定义为

其中评论在第k个主题类别上存在预测概率值为

不存在预测概率值为

其中：

h_L为第L个ReLU层的输出。

S4、训练更新网络模型中的参数，包括步骤S401～S404：

其中：

<u,i＞∈D表示用户对产品评分的集合；

R表示评分总类别数；

p_u,i,r表示评分属于对应类别的真实概率值；

表示评分属于对应类别的预测概率值。

其中：

<u,i＞∈D表示用户对产品评分的集合；

K表示评论语料的主题数；

P_u,i,k表示评论存在对应主题类别的真实概率值；

表示评论存在对应主题类别的预测概率值；

L_joint＝λ·L₁+(1-λ)·L₂

其中:

θ_j表示模型中的参数；

η表示学习速率。

S5、采用步骤S1～S4构建的用于评分预测的模型，预测用户对未购买的产品会给出的评分，具体为：将产品和用户的编码输入到用于评分预测的模型，得到用户对未购买的产品会给出的评分。

本发明另一个实施例还提供了一种用于评分预测的模型构建系统，其包括：定义推荐环境单元、构建主题模型单元、构建网络模型单元、训练模型参数单元。

其中：

定义推荐环境单元用于定义用户、产品、用户对已购买的产品的评分、评分范围1～R、用户对已购买的产品的评论；

构建主题模型单元用于根据所存在的评论训练LDA主题模型，并计算各个评论在所有主题下的概率分布；

构建网络模型单元用于对用户和产品进行编码，得到用户的编号和产品的编号；基于用户的编号和产品的编号分别构建两个嵌入层；然后将两个嵌入层合并，得到合并层；利用激活函数对合并层进行多次非线性激活，构建多层非线性层；基于最后一层非线性层添加一个激活函数为softMax的全连接层和一个激活函数为sigmoid的全连接层，激活函数为softMax的全连接层用于表示用户对产品评分，激活函数为sigmoid的全连接层用于表示用户对产品的评论，并计算评分对应类别的概率和评论对应主题类别的概率；

训练模型参数单元用于训练更新网络模型中的参数。

综上所述，与现有技术相比，具备以下有益效果：

本发明实施例将评分和评论内容作为模型的输出，利用深层神经网络和多任务学习，更加准备地预测用户对产品的评分。在处理评论内容时，使用主题模型用户的评论内容进行分析建模，从而得到用户对产品评论的主题分布以融合评论文本信息。然后将评分和评论信息作为模型的两个输出任务，对于评分评论这两部分的输出，训练更新网络模型中的参数，以实现更加准确地预测用户对未购买的产品的评分，同时提高预测方法的解释性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。