CN109903099B - 用于评分预测的模型构建方法和系统 - Google Patents

用于评分预测的模型构建方法和系统 Download PDF

Info

Publication number
CN109903099B
CN109903099B CN201910184792.5A CN201910184792A CN109903099B CN 109903099 B CN109903099 B CN 109903099B CN 201910184792 A CN201910184792 A CN 201910184792A CN 109903099 B CN109903099 B CN 109903099B
Authority
CN
China
Prior art keywords
comment
model
user
output
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910184792.5A
Other languages
English (en)
Other versions
CN109903099A (zh
Inventor
刘业政
吴锋
田志强
李哲
杨露
贺菲菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910184792.5A priority Critical patent/CN109903099B/zh
Publication of CN109903099A publication Critical patent/CN109903099A/zh
Application granted granted Critical
Publication of CN109903099B publication Critical patent/CN109903099B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于评分预测的模型构建方法和系统,涉及数据处理技术领域。其包括:S1、定义推荐环境;S2、根据所存在的评论训练LDA主题模型,并计算各个评论在所有主题下的概率分布;S3、构建网络模型;S4、训练更新网络模型中的参数。本发明通过构建神经网络模型,联合利用用户的评论和评分数据进行评分预测,利用主题模型来计算用户评论的主题分布以融合评论文本信息,然后将评分信息与评论信息作为神经网络的两个输出任务,对于评分信息、评论信息这两部分的输出,训练更新网络模型中的参数。本发明构建的用于评分预测的模型综合全面地利用用户对已购买产品的评论和评分,使得本发明构建的模型能更加准确地预测用户对未购买的产品的评分。

Description

用于评分预测的模型构建方法和系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于评分预测的模型构建方法和系统。
背景技术
推荐系统是根据用户的历史行为和兴趣特点,为用户推荐其感兴趣的信息或商品的系统。推荐系统一般通过评分预测来实现,即将预测评分高的商品推荐给用户。
传统的方法主要是考虑用户和产品之间的交互,比如矩阵分解方法通过分解用户和产品的评分矩阵分别得到用户和产品的隐特征矩阵,在预测评分时,通过输入用户和产品的隐特征来预测用户对产品的评分,将预测评分高的产品推荐给用户。
然而,随着数据量的大量增长,用户与产品的数量的增加,使得用户与产品的交互数据变得稀疏,现有的评分预测系统难以准确的预测用户对未购买的产品的评分。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种用于评分预测的模型构建方法和系统,解决了现有评分预测系统预测精度低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种用于评分预测的模型构建方法,该方法包括以下步骤:
S1、定义推荐环境:包括定义N个用户、M个产品、用户对已购买的产品的评分、评分范围1~R、用户对已购买的产品的评论,N和M均为大于0的自然数;
S2、根据所述推荐环境中的所存在的评论训练LDA主题模型,并计算各个评论在所有主题下的概率分布;
S3、构建网络模型:对用户和产品进行编码,得到用户的编号和产品的编号;基于用户的编号和产品的编号分别构建两个嵌入层;然后将两个嵌入层合并,得到合并层;利用激活函数对合并层进行多次非线性激活,构建多层非线性层;基于最后一层非线性层添加一个激活函数为softMax的全连接层和一个激活函数为sigmoid的全连接层,激活函数为softMax的全连接层用于表示用户对产品评分,激活函数为sigmoid的全连接层用于表示用户对产品的评论,并计算评分对应类别的概率和评论对应主题类别的概率;
S4、训练并更新网络模型中的参数。
优选的,所述方法还包括步骤S5,采用步骤S1~S4构建的用于评分预测的模型,预测用户对未购买的产品会给出的评分。
优选的,所述步骤S1还包括:
S101、对评论文本数据预处理,包括:对评论进行分词、去停用词、去噪声词。
优选的,所述步骤S2中计算各个评论在所有主题下的概率分布的具体方法为:
对于LDA主题模型,推荐环境中所存在的评论文本构成文档集,分别给文档集到主题以及主题到词的多项式分布添加参数为α和β的dirichlet先验分布,基于LDA主题模型的文档集生成过程,得到整个文档集预料生成的联合概率:
Figure GDA0002879169500000031
其中:
w表示文档集中词的集合;
z表示文档集中主题的集合;
通过Gibbs Sampling算法对上面的联合分布进行采样,可实现得到给定文档集的主题概率分布:
Figure GDA0002879169500000032
Figure GDA0002879169500000033
其中:
θm,k表示第m篇文档中属于主题k的概率;
Figure GDA0002879169500000034
表示主题k在第m篇文档中出现的次数;
φk,t表示第k个主题中产生词t的概率;
Figure GDA0002879169500000035
表示词t在主题k中出现的次数。
优选的,所述步骤S3中构建用户的嵌入层具体方法为:
定义表示模型中的用户u的D维向量
Figure GDA0002879169500000041
以用户的编号作为输入,通过嵌入层映射到较低的维度为D的向量,用eu表示:
Figure GDA0002879169500000042
所述步骤S3中构建产品的嵌入层具体方法为:
定义表示模型中的产品i的D维向量
Figure GDA0002879169500000043
以产品的编号作为输入,通过嵌入层映射到较低的维度为D的向量,用ei表示:
Figure GDA0002879169500000044
优选的,所述步骤S3中的合并层具体表示为:
Figure GDA0002879169500000045
所述步骤S3中非线性层的输出为:
定义hl为第l层非线性层的输出,zu,i作为该部分网络的输入,即:
h0=zu,i
hl=f(hl-1)
其中:
f(hl-1)表示通过线性转换然后再经过一种非线性的激活函数的转化;
所述步骤S3中计算评分对应类别的概率的具体方法为:
将评分属于对应类别的概率定义为
Figure GDA0002879169500000046
其中属于第r个类别的测概率值为
Figure GDA0002879169500000047
Figure GDA0002879169500000048
其中:
hL为第L个ReLU层的输出;
所述步骤S3中计算评论对应主题类别的概率的具体方法为:
将评论存在对应主题类别的可能性定义为
Figure GDA0002879169500000051
其中评论在第k个主题类别上存在预测概率值为
Figure GDA0002879169500000052
不存在预测概率值为
Figure GDA0002879169500000053
Figure GDA0002879169500000054
其中:
hL为第L个ReLU层的输出。
优选的,所述步骤S4包括:
S401、对于评分的输出,将R个评分看作是R个类别,创建评分输出的损失函数,输出的损失函数如下:
Figure GDA0002879169500000055
其中:
<u,i>∈D表示用户对产品评分的集合;
R表示评分总类别数;
pu,i,r表示评分属于对应类别的真实概率值;
Figure GDA0002879169500000056
表示评分属于对应类别的预测概率值;
S402、对于评论文本的输出,将评论的输出转化成一个多标签分类问题,创建评论输出的损失函数,输出的损失函数如下:
Figure GDA0002879169500000057
其中:
<u,i>∈D表示用户对产品评分的集合;
K表示评论语料的主题数;
Pu,i,k表示评论存在对应主题类别的真实概率值;
Figure GDA0002879169500000061
表示评论存在对应主题类别的预测概率值;
S403、设置平衡参数λ,用来平衡评分输出的损失函数L1和评论输出损失函数L2
Ljoint=λ·L1+(1-λ)·L2
S404、通过步骤S403得到的损失函数对步骤S3得到的网络模型的每个参数求偏导数,再使用随机梯度下降来更新步骤S3得到的网络模型参数以使模型达到最优:
Figure GDA0002879169500000062
其中:
θj表示模型中的参数;
η表示学习速率。
本发明还提供一种用于评分预测的模型构建系统,包括:
定义推荐环境单元,所述定义推荐环境单元用于定义用户、产品、用户对已购买的产品的评分、评分范围1~R、用户对已购买的产品的评论;
构建主题模型单元,所述构建主题模型单元用于根据所存在的评论训练LDA主题模型,并计算各个评论在所有主题下的概率分布;
构建网络模型单元,所述构建网络模型单元用于对用户和产品进行编码,得到用户的编号和产品的编号;基于用户的编号和产品的编号分别构建两个嵌入层;然后将两个嵌入层合并,得到合并层;利用激活函数对合并层进行多次非线性激活,构建多层非线性层;基于最后一层非线性层添加一个激活函数为softMax的全连接层和一个激活函数为sigmoid的全连接层,激活函数为softMax的全连接层用于表示用户对产品评分,激活函数为sigmoid的全连接层用于表示用户对产品的评论,并计算评分对应类别的概率和评论对应主题类别的概率;
训练模型参数单元,所述训练模型参数单元用于训练更新网络模型中的参数。
(三)有益效果
本发明提供了一种用于评分预测的模型构建方法和系统。与现有技术相比,具备以下有益效果:
本发明不仅考虑了用户对产品的评分,还考虑到了用户在评分的同时给出的评论,根据评论文本提取出用户关注的主题,更有效的反映用户对产品评价的真实情况。
本发明通过构建神经网络模型,将评分和评论内容作为模型的输出,利用深层神经网络和多任务学习,更加准备地预测用户对产品的评分。在处理评论内容时,使用主题模型对用户的评论内容进行分析建模,从而得到用户对产品评论的主题分布以融合评论文本信息。然后将评分和评论信息作为模型的两个输出任务,对于评分评论这两部分的输出,训练更新网络模型中的参数。本发明构建的用于评分预测的模型综合全面地利用用户对已购买产品的评论和评分,使得本发明构建的用于评分预测的模型能更加准确地预测用户对未购买的产品的评分。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的神经网络模型图;
图2为本发明实施例的LDA主题模型图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种用于评分预测的模型构建方法和系统,解决了现有评分预测系统预测精度低的技术问题,实现更加准确地预测用户对未购买的产品的评分。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
基于背景所述,传统的方法主要是考虑用户和产品之间的交互,比如分解用户和产品的评分矩阵,输入用户和产品的隐特征来预测用户对产品的评分,将预测评分高的产品推荐给用户。但随着数据量的大量增长,用户与产品的数量的增加,使得用户与产品的交互数据变得稀疏,现有的评分预测系统难以准确的预测用户对未购买的产品的评分,因此我们需要考虑到更全面的信息来帮助我们提高预测的准确性。
为了解决上述问题,本申请提出了一种用于评分预测的模型构建方法和系统,用于预测用户对未购买的产品的评分。本申请通过构建神经网络模型,将评分和评论信息作为模型的两个输出任务,利用深层神经网络和多任务学习,更加准备地预测用户对产品的评分,在处理评论内容时,使用主题模型用户的评论内容进行分析建模,从而得到用户对产品评论的主题分布以融合评论文本信息。然后将评分和评论信息作为模型的两个输出任务,对于评分评论这两部分的输出,训练更新网络模型中的参数,以实现更加准确地预测用户对未购买的产品的评分。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种用于评分预测的模型构建方法,如图1~2所示,包括以下步骤S1~S4;
S1、定义推荐环境:包括定义N个用户、M个产品、用户对已购买的产品的评分、评分范围1~R、用户对已购买的产品的评论,N和M均为大于0的自然数;
S2、根据所述推荐环境中的所存在的评论训练LDA主题模型,并计算各个评论在所有主题下的概率分布;
S3、构建网络模型:对用户和产品进行编码,得到用户的编号和产品的编号;基于用户的编号和产品的编号分别构建两个嵌入层;然后将两个嵌入层合并,得到合并层;利用激活函数对合并层进行多次非线性激活,构建多层非线性层;基于最后一层非线性层添加一个激活函数为softMax的全连接层和一个激活函数为sigmoid的全连接层,激活函数为softMax的全连接层用于表示用户对产品评分,激活函数为sigmoid的全连接层用于表示用户对产品的评论,并计算评分对应类别的概率和评论对应主题类别的概率;
S4、训练并更新网络模型中的参数。
本发明实施例不仅考虑了用户对产品的评分,还考虑到了用户在评分的同时给出的评论,根据评论文本提取出用户关注的主题,更有效的反映用户对产品评价的真实情况。
本发明实施例将评分和评论内容作为模型的输出,利用深层神经网络和多任务学习,更加准备地预测用户对产品的评分。在处理评论内容时,使用主题模型对用户的评论内容进行分析建模,从而得到用户对产品评论的主题分布以融合评论文本信息。然后将评分和评论信息作为模型的两个输出任务,对于评分评论这两部分的输出,训练更新网络模型中的参数。本发明实施例构建的用于评分预测的模型综合全面地利用用户对已购买产品的评论和评分,使得本发明构建的用于评分预测的模型能更加准确地预测用户对未购买的产品的评分。
下面对个步骤进行详细的描述:
S1、定义推荐环境:假设有N个用户,M个产品,定义u,i分别来表示用户和产品,定义ru,i来表示用户对已购买的产品的评分,评分范围1~R,假设每个评分都有对应的评论,定义wu,i来表示用户对已购买的产品的评论,N和M均为大于0的自然数。
S101、对评论文本数据预处理,包括:对评论进行分词、去停用词、去噪声词。
S2、根据推荐环境中所存在的评论训练LDA主题模型,并计算各个评论在所有主题下的概率分布,这里的推荐环境中所存在的评论可以是推荐环境中全部的评论,这样的话训练好的LDA主题模型更加全面,也可以是推荐环境中的部分评论,这样的话能更快的训练好LDA主题模型,一般情况下选择推荐环境中全部的评论,具体为:
对于LDA主题模型,分别给文档集到主题以及主题到词的多项式分布添加参数为α和β的dirichlet先验分布,文档集是由推荐环境中全部的评论文本构成的集合,基于LDA主题模型的文档集生成过程,得到文档集预料生成的联合概率;
Figure GDA0002879169500000111
其中:
w表示文档集中词的集合;
z表示文档集中主题的集合;
通过Gibbs Sampling(吉布斯采样)算法对上面的联合分布进行采样,可实现当给定一个文档时,得到该文档集的主题概率分布;
Figure GDA0002879169500000112
Figure GDA0002879169500000113
其中:
θm,k表示第m篇文档中属于主题k的概率;
Figure GDA0002879169500000121
表示主题k第m篇文档中出现的次数;
φk,t表示第k个主题中产生词t的概率;
Figure GDA0002879169500000122
表示词t在主题k中出现的次数。
S3、构建网络模型,包括步骤S301~S306:
S301、使用独热码对用户和产品进行编码,得到用户的编号和产品的编号。
S302、基于用户的编号和产品的编号分别构建两个嵌入层;
所述构建用户的嵌入层具体方法为:
定义表示模型中的用户u的D维向量
Figure GDA0002879169500000123
以用户的编号作为输入,通过嵌入层映射到较低的维度为D的向量,用eu表示;
Figure GDA0002879169500000124
构建产品的嵌入层具体方法为:
定义表示模型中的产品i的D维向量
Figure GDA0002879169500000125
以产品的编号作为输入,通过嵌入层映射到较低的维度为D的向量,用ei表示;
Figure GDA0002879169500000126
S303、将步骤S302中两个嵌入层合并,得到合并层所述步骤S3中的合并层具体表示为:
Figure GDA0002879169500000127
S304、利用ReLU激活函数对合并层进行多次非线性激活,构建多层非线性层;非线性层的输出为:
定义hl为第l层非线性层的输出,zu,i作为该部分网络的输入,即:
h0=zu,i
hl=f(hl-1)
其中:
f(hl-1)表示通过线性转换然后再经过一种非线性的激活函数的转化。
S305、基于最后一层非线性层添加一个激活函数为softMax的全连接层,并计算评分对应类别的概率,具体为:
将评分属于对应类别的概率定义为
Figure GDA0002879169500000131
其中评分属于第r个类别的预测概率值为
Figure GDA0002879169500000132
Figure GDA0002879169500000133
其中:
hL为第L个ReLU层的输出;
S306、基于最后一层非线性层添加一个激活函数为sigmoid的全连接层,并计算评论对应主题类别的概率,具体为:
将评论存在对应主题类别的可能性定义为
Figure GDA0002879169500000134
其中评论在第k个主题类别上存在预测概率值为
Figure GDA0002879169500000135
不存在预测概率值为
Figure GDA0002879169500000136
Figure GDA0002879169500000137
其中:
hL为第L个ReLU层的输出。
S4、训练更新网络模型中的参数,包括步骤S401~S404:
S401、对于评分的输出,将R个评分看作是R个类别,创建评分输出的损失函数,输出的损失函数如下:
Figure GDA0002879169500000141
其中:
<u,i>∈D表示用户对产品评分的集合;
R表示评分总类别数;
pu,i,r表示评分属于对应类别的真实概率值;
Figure GDA0002879169500000142
表示评分属于对应类别的预测概率值。
S402、对于评论文本的输出,将评论的输出转化成一个多标签分类问题,创建评论输出的损失函数,输出的损失函数如下:
Figure GDA0002879169500000143
其中:
<u,i>∈D表示用户对产品评分的集合;
K表示评论语料的主题数;
Pu,i,k表示评论存在对应主题类别的真实概率值;
Figure GDA0002879169500000144
表示评论存在对应主题类别的预测概率值;
S403、设置平衡参数λ,用来平衡评分输出的损失函数L1和评论输出损失函数L2
Ljoint=λ·L1+(1-λ)·L2
S404、通过步骤S403得到的损失函数对步骤S3得到的网络模型的每个参数求偏导数,再使用随机梯度下降来更新步骤S3得到的网络模型参数以使模型达到最优:
Figure GDA0002879169500000151
其中:
θj表示模型中的参数;
η表示学习速率。
S5、采用步骤S1~S4构建的用于评分预测的模型,预测用户对未购买的产品会给出的评分,具体为:将产品和用户的编码输入到用于评分预测的模型,得到用户对未购买的产品会给出的评分。
本发明另一个实施例还提供了一种用于评分预测的模型构建系统,其包括:定义推荐环境单元、构建主题模型单元、构建网络模型单元、训练模型参数单元。
其中:
定义推荐环境单元用于定义用户、产品、用户对已购买的产品的评分、评分范围1~R、用户对已购买的产品的评论;
构建主题模型单元用于根据所存在的评论训练LDA主题模型,并计算各个评论在所有主题下的概率分布;
构建网络模型单元用于对用户和产品进行编码,得到用户的编号和产品的编号;基于用户的编号和产品的编号分别构建两个嵌入层;然后将两个嵌入层合并,得到合并层;利用激活函数对合并层进行多次非线性激活,构建多层非线性层;基于最后一层非线性层添加一个激活函数为softMax的全连接层和一个激活函数为sigmoid的全连接层,激活函数为softMax的全连接层用于表示用户对产品评分,激活函数为sigmoid的全连接层用于表示用户对产品的评论,并计算评分对应类别的概率和评论对应主题类别的概率;
训练模型参数单元用于训练更新网络模型中的参数。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例不仅考虑了用户对产品的评分,还考虑到了用户在评分的同时给出的评论,根据评论文本提取出用户关注的主题,更有效的反映用户对产品评价的真实情况。
本发明实施例将评分和评论内容作为模型的输出,利用深层神经网络和多任务学习,更加准备地预测用户对产品的评分。在处理评论内容时,使用主题模型用户的评论内容进行分析建模,从而得到用户对产品评论的主题分布以融合评论文本信息。然后将评分和评论信息作为模型的两个输出任务,对于评分评论这两部分的输出,训练更新网络模型中的参数,以实现更加准确地预测用户对未购买的产品的评分,同时提高预测方法的解释性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种用于评分预测的模型构建方法,其特征在于,该方法包括以下步骤:
S1、定义推荐环境:包括定义N个用户、M个产品、用户对已购买的产品的评分、评分范围1~R、用户对已购买的产品的评论,N和M均为大于0的自然数;
S2、根据所述推荐环境中的所存在的评论训练LDA主题模型,并计算各个评论在所有主题下的概率分布;
S3、构建网络模型:对用户和产品进行编码,得到用户的编号和产品的编号;基于用户的编号和产品的编号分别构建两个嵌入层;然后将两个嵌入层合并,得到合并层;利用激活函数对合并层进行多次非线性激活,构建多层非线性层;基于最后一层非线性层添加一个激活函数为softMax的全连接层和一个激活函数为sigmoid的全连接层,激活函数为softMax的全连接层用于表示用户对产品评分,激活函数为sigmoid的全连接层用于表示用户对产品的评论,并计算评分对应类别的概率和评论对应主题类别的概率;
S4、训练并更新网络模型中的参数;
所述训练并更新网络模型中的参数包括:
S401、对于评分的输出,将R个评分看作是R个类别,创建评分输出的损失函数,输出的损失函数如下:
Figure FDA0002879169490000011
其中:
<u,i>∈D表示用户对产品评分的集合;
R表示评分总类别数;
pu,i,r表示评分属于对应类别的真实概率值;
Figure FDA0002879169490000024
表示评分属于对应类别的预测概率值;
S402、对于评论文本的输出,将评论的输出转化成一个多标签分类问题,创建评论输出的损失函数,输出的损失函数如下:
Figure FDA0002879169490000021
其中:
<u,i>∈D表示用户对产品评分的集合;
K表示评论语料的主题数;
Pu,i,k表示评论存在对应主题类别的真实概率值;
Figure FDA0002879169490000022
表示评论存在对应主题类别的预测概率值;
S403、设置平衡参数λ,用来平衡评分输出的损失函数L1和评论输出损失函数L2
Ljoint=λ·L1+(1-λ)·L2
S404、通过步骤S403得到的损失函数对步骤S3得到的网络模型的每个参数求偏导数,再使用随机梯度下降来更新步骤S3得到的网络模型参数以使模型达到最优:
Figure FDA0002879169490000023
其中:
θj表示模型中的参数;
η表示学习速率。
2.根据权利要求1所述的用于评分预测的模型构建方法,其特征在于,所述方法还包括步骤S5,采用步骤S1~S4构建的用于评分预测的模型,预测用户对未购买的产品会给出的评分。
3.根据权利要求1所述的用于评分预测的模型构建方法,其特征在于,所述步骤S1还包括:
S101、对评论文本数据预处理,包括:对评论进行分词、去停用词、去噪声词。
4.根据权利要求1所述的用于评分预测的模型构建方法,其特征在于,所述步骤S2中计算各个评论在所有主题下的概率分布的具体方法为:
对于LDA主题模型,推荐环境中所存在的评论文本构成文档集,分别给文档集到主题以及主题到词的多项式分布添加参数为α和β的dirichlet先验分布,基于LDA主题模型的文档集生成过程,得到整个文档集预料生成的联合概率:
Figure FDA0002879169490000031
其中:
w表示文档集中词的集合;
z表示文档集中主题的集合;
通过Gibbs Sampling算法对上面的联合分布进行采样,可实现得到给定文档集的主题概率分布:
Figure FDA0002879169490000041
Figure FDA0002879169490000042
其中:
θm,k表示第m篇文档中属于主题k的概率;
Figure FDA0002879169490000043
表示主题k在第m篇文档中出现的次数;
φk,t表示第k个主题中产生词t的概率;
Figure FDA0002879169490000044
表示词t在主题k中出现的次数。
5.根据权利要求1所述的用于评分预测的模型构建方法,其特征在于,所述步骤S3中构建用户的嵌入层具体方法为:
定义表示模型中的用户u的D维向量
Figure FDA0002879169490000045
以用户的编号作为输入,通过嵌入层映射到较低的维度为D的向量,用eu表示:
Figure FDA0002879169490000046
所述步骤S3中构建产品的嵌入层具体方法为:
定义表示模型中的产品i的D维向量
Figure FDA0002879169490000047
以产品的编号作为输入,通过嵌入层映射到较低的维度为D的向量,用ei表示:
Figure FDA0002879169490000048
6.根据权利要求5所述的用于评分预测的模型构建方法,其特征在于,所述步骤S3中的合并层具体表示为:
Figure FDA0002879169490000049
所述步骤S3中非线性层的输出为:
定义hl为第l层非线性层的输出,zu,i作为该部分网络的输入,即:
h0=zu,i
hl=f(hl-1)
其中:
f(hl-1)表示通过线性转换然后再经过一种非线性的激活函数的转化;
所述步骤S3中计算评分对应类别的概率的具体方法为:
将评分属于对应类别的概率定义为
Figure FDA0002879169490000051
其中评分属于第r个类别的预测概率值为
Figure FDA0002879169490000052
Figure FDA0002879169490000053
其中:
hL为第L个ReLU层的输出;
所述步骤S3中计算评论对应主题类别的概率的具体方法为:
将评论存在对应主题类别的可能性定义为
Figure FDA0002879169490000054
其中评论在第k个主题类别上存在预测概率值为
Figure FDA0002879169490000055
不存在预测概率值为
Figure FDA0002879169490000056
Figure FDA0002879169490000057
其中:
hL为第L个ReLU层的输出。
7.一种用于评分预测的模型构建系统,其特征在于,包括:
定义推荐环境单元,所述定义推荐环境单元用于定义用户、产品、用户对已购买的产品的评分、评分范围1~R、用户对已购买的产品的评论;
构建主题模型单元,所述构建主题模型单元用于根据所存在的评论训练LDA主题模型,并计算各个评论在所有主题下的概率分布;
构建网络模型单元,所述构建网络模型单元用于对用户和产品进行编码,得到用户的编号和产品的编号;基于用户的编号和产品的编号分别构建两个嵌入层;然后将两个嵌入层合并,得到合并层;利用激活函数对合并层进行多次非线性激活,构建多层非线性层;基于最后一层非线性层添加一个激活函数为softMax的全连接层和一个激活函数为sigmoid的全连接层,激活函数为softMax的全连接层用于表示用户对产品评分,激活函数为sigmoid的全连接层用于表示用户对产品的评论,并计算评分对应类别的概率和评论对应主题类别的概率;
训练模型参数单元,所述训练模型参数单元用于训练更新网络模型中的参数;
所述训练并更新网络模型中的参数包括:
S401、对于评分的输出,将R个评分看作是R个类别,创建评分输出的损失函数,输出的损失函数如下:
Figure FDA0002879169490000061
其中:
<u,i>∈D表示用户对产品评分的集合;
R表示评分总类别数;
pu,i,r表示评分属于对应类别的真实概率值;
Figure FDA0002879169490000062
表示评分属于对应类别的预测概率值;
S402、对于评论文本的输出,将评论的输出转化成一个多标签分类问题,创建评论输出的损失函数,输出的损失函数如下:
Figure FDA0002879169490000071
其中:
<u,i>∈D表示用户对产品评分的集合;
K表示评论语料的主题数;
Pu,i,k表示评论存在对应主题类别的真实概率值;
Figure FDA0002879169490000072
表示评论存在对应主题类别的预测概率值;
S403、设置平衡参数λ,用来平衡评分输出的损失函数L1和评论输出损失函数L2
Ljoint=λ·L1+(1-λ)·L2
S404、通过步骤S403得到的损失函数对步骤S3得到的网络模型的每个参数求偏导数,再使用随机梯度下降来更新步骤S3得到的网络模型参数以使模型达到最优:
Figure FDA0002879169490000073
其中:
θj表示模型中的参数;
η表示学习速率。
CN201910184792.5A 2019-03-12 2019-03-12 用于评分预测的模型构建方法和系统 Active CN109903099B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910184792.5A CN109903099B (zh) 2019-03-12 2019-03-12 用于评分预测的模型构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910184792.5A CN109903099B (zh) 2019-03-12 2019-03-12 用于评分预测的模型构建方法和系统

Publications (2)

Publication Number Publication Date
CN109903099A CN109903099A (zh) 2019-06-18
CN109903099B true CN109903099B (zh) 2021-03-23

Family

ID=66947055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910184792.5A Active CN109903099B (zh) 2019-03-12 2019-03-12 用于评分预测的模型构建方法和系统

Country Status (1)

Country Link
CN (1) CN109903099B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321485A (zh) * 2019-06-19 2019-10-11 淮海工学院 一种结合用户评论与评分信息的推荐算法
CN110543600A (zh) * 2019-09-11 2019-12-06 上海携程国际旅行社有限公司 基于神经网络的搜索排序方法、系统、设备和存储介质
CN110688832B (zh) * 2019-10-10 2023-06-09 河北省讯飞人工智能研究院 一种评论生成方法、装置、设备及存储介质
CN110874439B (zh) * 2019-11-20 2022-08-02 电子科技大学 一种基于评论信息的推荐方法
CN111667298B (zh) * 2020-04-15 2022-09-30 合肥工业大学 用户个性化需求预测方法和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069122A (zh) * 2015-08-12 2015-11-18 天津大学 一种基于用户行为的个性化推荐方法及其推荐装置
CN105138508A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于偏好扩散的上下文推荐系统
CN105550211A (zh) * 2015-12-03 2016-05-04 云南大学 一种融合社交网络和项目内容的协同推荐系统
CN107808008A (zh) * 2017-11-17 2018-03-16 合肥工业大学 一种考虑用户特征信息的主题‑情感联合建模方法
CN107844585A (zh) * 2017-11-16 2018-03-27 合肥工业大学 一种考虑重叠社区效应的推荐方法
CN108287904A (zh) * 2018-05-09 2018-07-17 重庆邮电大学 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法
CN108537624A (zh) * 2018-03-09 2018-09-14 西北大学 一种基于深度学习的旅游服务推荐方法
CN109063568A (zh) * 2018-07-04 2018-12-21 复旦大学 一种基于深度学习的花样滑冰视频自动打分的方法
KR101938491B1 (ko) * 2017-08-30 2019-01-14 가톨릭대학교 산학협력단 딥 러닝 기반의 거리 안전도 점수 예측 방법
CN109388731A (zh) * 2018-08-31 2019-02-26 昆明理工大学 一种基于深度神经网络的音乐推荐方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
US10261071B2 (en) * 2016-07-13 2019-04-16 The United States Of America As Represented By The Secretary Of The Navy Volatile organic compounds as diagnostic breath markers for pulmonary oxygen toxicity

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138508A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于偏好扩散的上下文推荐系统
CN105069122A (zh) * 2015-08-12 2015-11-18 天津大学 一种基于用户行为的个性化推荐方法及其推荐装置
CN105550211A (zh) * 2015-12-03 2016-05-04 云南大学 一种融合社交网络和项目内容的协同推荐系统
KR101938491B1 (ko) * 2017-08-30 2019-01-14 가톨릭대학교 산학협력단 딥 러닝 기반의 거리 안전도 점수 예측 방법
CN107844585A (zh) * 2017-11-16 2018-03-27 合肥工业大学 一种考虑重叠社区效应的推荐方法
CN107808008A (zh) * 2017-11-17 2018-03-16 合肥工业大学 一种考虑用户特征信息的主题‑情感联合建模方法
CN108537624A (zh) * 2018-03-09 2018-09-14 西北大学 一种基于深度学习的旅游服务推荐方法
CN108287904A (zh) * 2018-05-09 2018-07-17 重庆邮电大学 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法
CN109063568A (zh) * 2018-07-04 2018-12-21 复旦大学 一种基于深度学习的花样滑冰视频自动打分的方法
CN109388731A (zh) * 2018-08-31 2019-02-26 昆明理工大学 一种基于深度神经网络的音乐推荐方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
LDA-Based Unified Topic Modeling for Similar TV User Grouping and TV Program Recommendation;Shinjee Pyo 等;《IEEE Transactions on Cybernetics》;20141001;第45卷(第8期);第476-1490页 *
Web Service Recommendation via Combining Doc2Vec-Based Functionality Clustering and DeepFM-Based Score Prediction;Xiangping Zhang 等;《2018 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Ubiquitous Computing & Communications, Big Data & Cloud Computing, Social Computing & Networking, Sustainable Computing & Communications 》;20181213;第509-516页 *
基于评论分析的评分预测与推荐;高祎璠 等;《华东师范大学学报(自然科学版)》;20150531(第3期);第80-90页 *
矩阵分解在推荐系统中的研究与应用;马小栓;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215(第2期);第I138-2659页 *
考虑用户特征的主题情感联合模型;许银洁 等;《计算机应用》;20180510;第38卷(第5期);第1261-1266,1271页 *
融合用户评分和评语的贝叶斯推荐算法研究;洪常乐;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180115(第1期);第I138-2161页 *

Also Published As

Publication number Publication date
CN109903099A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109903099B (zh) 用于评分预测的模型构建方法和系统
CN110472042B (zh) 一种细粒度情感分类方法
EP3819827A1 (en) Machine learning device and method
CN113051916B (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
CN109271627B (zh) 文本分析方法、装置、计算机设备和存储介质
CN108984775B (zh) 一种基于商品评论的舆情监控方法及系统
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN111680159A (zh) 数据处理方法、装置及电子设备
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN113688870B (zh) 一种采用混合算法的基于用户用电行为的群租房识别方法
Oyewola et al. Optimizing sentiment analysis of Nigerian 2023 presidential election using two-stage residual long short term memory
CN112632377B (zh) 一种基于用户评论情感分析与矩阵分解的推荐方法
Mishra et al. Twitter sentiment analysis using naive bayes algorithm
Darena et al. Machine learning-based analysis of the association between online texts and stock price movements
CN105760502A (zh) 一种基于大数据文本挖掘的商品质量情感词典构建系统
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN114357284A (zh) 基于深度学习的众包任务个性化推荐方法和系统
CN111045716B (zh) 一种基于异构数据的相关补丁推荐方法
CN109241993B (zh) 融合用户和整体评价信息的评价对象情感分类方法及装置
Irawan et al. Public Response to the Legalization of The Criminal Code Bill with Twitter Data Sentiment Analysis
CN112527866A (zh) 基于文本摘要情感挖掘的股票趋势预测方法和系统
Irfan et al. Sentiment Analysis as Assessment of the COVID-19 Social Assistance Pollemic using Random Forest Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant