CN104715399B

CN104715399B - 一种评分预测方法与系统

Info

Publication number: CN104715399B
Application number: CN201510165907.8A
Authority: CN
Inventors: 陈文亮; 马春平
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-04-09
Filing date: 2015-04-09
Publication date: 2018-03-02
Anticipated expiration: 2035-04-09
Also published as: CN104715399A

Abstract

本发明公开了一种评分预测方法与系统，获取历史评论数据，使用基于词向量的方法构建主题词分布表，根据主题词分布表计算指定的第一用户对第一物品的评论特征表示，同时获取历史评分数据，计算指定的第一用户对第一物品的修正平均分作为特征之一，与主题特征一起作为线性回归模型的特征，计算出各个特征的权重和误差偏置，针对需要预测的第二用户对第二物品的评分，首先计算出第二用户对第二物品的评论特征表示和修正平均分，结合主题权重和误差偏置获得第二用户对第二物品的评分。利用词向量方法构建主题词表，根据评论内容预测评分同时从用户角度以及物品角度进行考虑，并加之协同过滤算法得到组合推荐模型，使预测结果更加准确全面。

Description

一种评分预测方法与系统

技术领域

本发明涉及推荐系统领域，特别是涉及一种评分预测方法与系统。

背景技术

推荐系统是根据用户的历史行为和兴趣特点，为用户推荐其感兴趣的信息或商品的系统。推荐系统一般通过评分预测来实现，即将预测评分高的商品推荐给用户。

传统的推荐算法包括基于内容的推荐和协同过滤。基于内容的推荐是挖掘物品的描述性特征，然后根据用户的选择向用户推荐相似特征的物品，比如用户买了某品牌的衣服，则向他推荐该品牌的裤子。协同过滤是根据用户的历史行为，如对餐馆的评分行为，对商品的浏览行为等向用户推荐商品,一般分为基于用户的协同过滤和基于物品的协同过滤。基于用户的协同过滤通过计算用户相似度向相似用户推荐某商品；基于物品的协同过滤通过计算物品相似度向用户推荐与其购买过的商品相似的商品。

但是上述传统的推荐算法均存在一定的局限性。基于内容的推荐算法过于依赖用户和物品的描述性的特征，无法利用用户的反馈信息。协同过滤算法以用户的历史行为为依据推测用户对物品的喜好，没有深层次挖掘用户或者物品的特征，例如，两个用户均对一家餐馆打出5分满分，但是评价角度可能不同，一个人认为菜肴美味，另一个觉得服务周到。

目前出现了一些算法可以根据用户对物品的评论预测用户对物品的评分，但无法同时考虑评论信息中的用户角度和物品角度。

发明内容

有鉴于此，本发明的主要目的在于提供一种评分预测方法与系统，可以根据历史评论综合用户角度与物品角度更准确地预测评分。

为实现上述目的，本发明提供了一种评分预测方法，包括：

获取历史评分数据，利用协同过滤算法根据第一用户对所有物品的评分平均分、预设用户范围中除第一用户以外其他各用户对第一物品的评分、预设用户范围中除第一用户以外其他各用户对预设物品范围中所有物品评分的平均分得到第一用户对第一物品的修正平均分；

获取历史评论数据，计算第一用户对第一物品的评论的多个预设主题的特征值，根据所述特征值得到第一用户对第一物品的评论的特征表示；

根据第一用户对第一物品的评分、所述第一用户对第一物品的评论的特征表示和所述第一用户对第一物品的修正平均分得到各主题的权重、修正平均分的权重以及误差偏置；

确定要进行评分预测的第二用户以及第二物品；

利用协同过滤算法根据第二用户对所有物品的评分平均分、预设用户范围中除第二用户以外其他各用户对第二物品的评分、预设用户范围中除第二用户以外其他各用户对预设物品范围中所有物品评分的平均分得到第二用户对第二物品的修正平均分；

计算第二用户对第二物品的评论的各主题的特征值，根据第二用户对第二物品的评论的各主题的特征值、第二用户的评论集合和第二物品的评论集合得到第二用户各主题的特征值以及第二物品各主题的特征值；

根据第二用户各主题的特征值以及第二物品各主题的特征值得到第二用户对第二物品的模拟评论特征表示；

根据第二用户对第二物品的模拟评论特征表示、第二用户对第二物品的修正平均分、所述各主题的权重、修正平均分的权重以及误差偏置计算出所述第二用户对第二物品的预测评分；

其中，计算特征值包括：

将所述历史评论数据中的词表示为词向量；

根据所述词向量得到与各主题相似的对应的预设数目的目标代表词；

根据各主题对应的目标代表词与主题的余弦相似度计算历史评论数据中指定用户对指定物品的评论的各主题的特征值。

优选地，根据第二用户各主题的特征值以及第二物品各主题的特征值得到第二用户对第二物品的模拟评论特征表示包括：

将第二用户指定主题的特征值进行归一化，第二物品同一指定主题的特征值进行归一化；

两次归一化的值进行点积得到第二用户对第二物品对应该指定主题的特征表示；

将第二用户对第二物品各主题的特征表示均归一化，得到第二用户对第二物品的模拟评论特征表示。

优选地，根据所述词向量得到与各主题相似的对应的预设数目的目标代表词包括：

找出各主题下有代表性的词；

将各主题对应的词向量依据与主题以及主题对应的有代表性的词的余弦相似度从高到低排序；

去除无关词后取排序后的前预设数目的词向量得到各主题对应的预设数目的目标代表词。

优选地，根据各主题对应的目标代表词与主题的余弦相似度计算历史评论数据中指定用户对指定物品的评论的各主题的特征值包括：

确定各主题对应的各目标代表词与主题的余弦相似度；

将对应同一主题的预设数目的各目标代表词的余弦相似度累加得到所述指定用户对所述指定物品的各主题的特征值。

本发明还提供了一种评分预测系统，包括：

评分获取模块，用于获取历史评分数据；

第一修正平均分获取模块，用于利用协同过滤算法根据第一用户对所有物品的评分平均分、预设用户范围中除第一用户以外其他各用户对第一物品的评分、预设用户范围中除第一用户以外其他各用户对预设物品范围中所有物品评分的平均分得到第一用户对第一物品的修正平均分；

评论获取模块，用于获取历史评论数据；

特征值获取模块，用于计算指定用户对指定物品的各主题特征值；

第一特征表示获取模块，用于根据特征值得到第一用户对第一物品的评论的特征表示；

中间值确定模块，用于根据第一用户对第一物品的评分、所述第一用户对第一物品的评论的特征表示和所述第一用户对第一物品的修正平均分得到各主题的权重、修正平均分的权重以及误差偏置；

预测确定模块，用于确定要进行评分预测的第二用户以及第二物品；

第二修正平均分获取模块，用于利用协同过滤算法根据第二用户对所有物品的评分平均分、预设用户范围中除第二用户以外其他各用户对第二物品的评分、预设用户范围中除第二用户以外其他各用户对预设物品范围中所有物品评分的平均分得到第二用户对第二物品的修正平均分；

预测特征值获取模块，用于根据第二用户对第二物品的评论的各主题的特征值、第二用户的评论集合和第二物品的评论集合得到第二用户各主题的特征值以及第二物品各主题的特征值；

第二特征表示获取模块，用于根据第二用户各主题的特征值以及第二物品各主题的特征值得到第二用户对第二物品的模拟评论特征表示；

评分预测模块，用于根据第二用户对第二物品的模拟评论特征表示、第二用户对第二物品的修正平均分、所述各主题的权重、修正平均分的权重以及误差偏置计算出所述第二用户对第二物品的预测评分；

其中，所述特征值获取模块包括：

词向量获取子模块，用于将所述历史评论数据中的词表示为词向量；

代表词获取子模块，用于根据所述词向量得到与各主题相似的对应的预设数目的目标代表词；

特征值子模块，用于根据各主题对应的目标代表词与主题的余弦相似度计算历史评论数据中指定用户对指定物品的评论的各主题的特征值。

优选地，所述第二特征表示获取模块包括：

第一归一化子模块，用于将第二用户指定主题的特征值进行归一化，第二物品同一指定主题的特征值进行归一化；

点积子模块，用于两次归一化的值进行点积得到第二用户对第二物品对应该指定主题的特征表示；

第二归一化子模块，用于将第二用户对第二物品各主题的特征表示均归一化，得到第二用户对第二物品的模拟评论特征表示。

应用本发明提供的评分预测方法与系统，获取历史评分数据以及历史评论数据，根据历史评分数据和评论数据计算指定的第一用户对第一物品的修正平均分以及第一用户对第一物品的特征表示，将计算出的修正平均分作为线性回归模型特征之一，利用准确性更高的多种算法的组合计算出预设的评论中各主题对于评分的权重、修正平均分的权重和误差偏置，最后利用各主题的权重与误差偏置，以及历史评论和评分中指定的需要预测的第二用户对第二物品的模拟评论特征表示和第二用户对第二物品的修正平均分计算出第二用户对第二物品的预测评分，利用词向量方法的余弦相似度取与主题词相似的目标代表词，并过滤无关词，根据评论内容预测评分同时从用户角度以及物品角度进行考虑，并加之协同过滤算法得到组合推荐模型预测新的评分，使预测结果更加准确全面，从而在后续根据历史评论向用户进行相似推荐时获得更好的用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种评分预测方法的流程图；

图2为本发明一种评分预测方法的详细流程图；

图3为本发明一种评分预测系统的结构示意图；

图4为本发明一种评分预测系统的详细结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种评分预测方法，如图1所示，为本发明评分预测方法一具体实施例的流程图，包括：

步骤S101：获取历史评分数据，利用协同过滤算法根据第一用户对所有物品的评分平均分、预设用户范围中除第一用户以外其他各用户对第一物品的评分、预设用户范围中除第一用户以外其他各用户对预设物品范围中所有物品评分的平均分得到第一用户对第一物品的修正平均分；

首先获取已知的历史评分数据，即用户已经评论过的物品的评分，根据协同过滤算法中的一种Bias From Mean，设第一用户为u，第一物品为i，计算u对i的修正平均分β_ui，计算公式如下：

其中Z_i表示购买过物品i的用户中除第一用户u以外的其他所有用户，表示用户j对所有物品的评分的平均分，r_ji表示用户j对物品i的评分，即可计算出第一用户u对对第一物品i的修正平均分β_ui。

步骤S102：获取历史评论数据，计算第一用户对第一物品的评论的多个预设主题的特征值，根据所述特征值得到第一用户对第一物品的评论的特征表示；

根据历史平均数据计算用户u对物品i的评论数据中多个预设主题的特征值，具体方法如图2流程图所示，包括：

步骤S201：将所述历史评论数据中的词表示为词向量；

步骤S202：根据所述词向量得到与各主题相似的对应的预设数目的目标代表词；

具体步骤为：找出各主题下有代表性的词；将各主题对应的词向量依据与主题以及主题对应的有代表性的词的余弦相似度从高到低排序；去除无关词后取排序后的前预设数目的词向量得到各主题对应的预设数目的目标代表词。

如：从得到的评论数据的中确定了6个主题，分别为实物、服务、价格、环境、酒水和路程，寻找这6个主题及各主题下2个有代表的词，依据这些词的词向量计算与主题及代表词的余弦相似度，根据余弦相似度值由高到低分别找出这3个词的前20个相近词作为这6个主题的主题词，即6个主题分别有60个主题词，过滤无关词，将剩余词按相似度排序，取各自主题的前20个作为主题的目标代表词，如表1所示为基于词向量的主题分布示意图。

表1

步骤S203：根据各主题对应的目标代表词与主题的余弦相似度计算历史评论数据中指定用户对指定物品的评论的各主题的特征值；

θ_uik表示用户u对物品i的评论第k个特征值。特征值的计算方式如下：

其中n是各个主题下主题词的个数，若评论中包含该主题词，则θ_uikt是各个主题词对应的值，反之，θ_uikt为0。根据不同的主题分析方法，θ_uikt的值略有不同，本实施例基于词向量分析评论，θ_uikt的值为主题词与对应主题的余弦相似度。

依照上面的详细步骤计算出用户u对物品i的评论的多个预设主题的特征值后，根据所述特征值得到用户u对物品i的评论的特征表示：

用户u对物品i的评论用C_ui表示，评论C_ui的特征表示为θ_ui：

θ_ui＝[θ_ui1,θ_ui2……θ_uiK]

其中K是预设的主题的个数。

步骤S103：根据第一用户对第一物品的评分、所述第一用户对第一物品的评论的特征表示和所述第一用户对第一物品的修正平均分得到各主题的权重、修正平均分的权重以及误差偏置；

将上述Bias From Mean的预测结果β_ui作为线性回归模型的特征之一，新的计算公式如下：

r_ui＝W^Tθ_ui+W_ββ_ui+ε

已知用户u对物品i的评论的特征表示θ_ui、用户u对物品i的修正平均分β_ui以及用户u对物品i的评分r_ui，根据上式可计算出各主题权重W、修正平均分的权重W_β以及误差偏置ε，上述两值作为评分预测的中间值。

步骤S104：确定要进行评分预测的第二用户以及第二物品；

在评分预测阶段，无法预知用户的评论，假设需要预测用户v对物品j的评分，需要用到用户v的历史评论以及物品j的历史评论。

步骤S105：利用协同过滤算法根据第二用户对所有物品的评分平均分、预设用户范围中除第二用户以外其他各用户对第二物品的评分、预设用户范围中除第二用户以外其他各用户对预设物品范围中所有物品评分的平均分得到第二用户对第二物品的修正平均分；

同步骤S101，计算第二用户对第二物品的修正平均分β_vj；

步骤S106：计算第二用户对第二物品的评论的各主题的特征值，根据第二用户对第二物品的评论的各主题的特征值、第二用户的评论集合和第二物品的评论集合得到第二用户各主题的特征值以及第二物品各主题的特征值；

依据图2步骤计算用户v对物品j的评论的各主题的特征值，并根据特征值以及用户v评论合集C_v、物品j评论合集C_j计算用户v各主题的特征值以及物品j各主题的特征值：

进行归一化：

p_vk表示用户v第k维特征，q_jk表示物品j第k维特征。

步骤S107：根据第二用户各主题的特征值以及第二物品各主题的特征值得到第二用户对第二物品的模拟评论特征表示；

用户v第k维特征p_vk与物品j第k维特征q_jk点积，并归一化得到用户v对物品j的模拟评论特征表示

θ′_vjk＝p_vkq_jk

步骤S108：根据第二用户对第二物品的模拟评论特征表示、第二用户对第二物品的修正平均分、所述各主题的权重、修正平均分的权重以及误差偏置计算出所述第二用户对第二物品的预测评分；

已知用户v对物品j的模拟评论特征表示各主题的权重W以及误差偏置ε依据下式计算出用户v对物品j的预测评分

应用本实施例提供的评分预测方法，获取历史评分数据以及历史评论数据，根据历史评分数据和评论数据计算指定的用户u对物品i的修正平均分β_ui以及用户u对物品i的特征表示θ_ui，将计算出的修正平均分β_ui作为线性回归模型特征之一，利用准确性更高的多种算法的组合r_ui＝W^Tθ_ui+W_ββ_ui+ε计算出预设的评论中各主题对于评分的权重W、修正平均分的权重W_β和误差偏置ε，最后利用各主题的权重W、修正平均分的权重W_β与误差偏置ε，以及历史评论和评分中指定的需要预测的用户v对物品j的模拟评论特征表示用户v对物品j的修正平均分β_vj计算出用户v对物品j的评分计算公式为利用词向量方法的余弦相似度取与主题词相似的目标代表词，并过滤无关词，根据评论内容预测评分同时从用户角度以及物品角度进行考虑，并加之协同过滤算法得到组合推荐模型预测新的评分，使预测结果更加准确全面，从而在后续根据历史评论向用户进行相似推荐时获得更好的用户体验。

本发明还提供了一种评分预测系统，如图3所示，为本发明评分预测系统的结构示意图包括：

评分获取模块101，用于获取历史评分数据；

第一修正平均分获取模块102，用于利用协同过滤算法根据第一用户对所有物品的评分平均分与预设用户范围中除第一用户以外其他各用户对第一物品的评分得到第一用户对第一物品的修正平均分；

评论获取模块103，用于获取历史评论数据；

特征值获取模块104，用于计算指定用户对指定物品的各主题特征值；

第一特征表示获取模块105，用于根据特征值得到第一用户对第一物品的评论的特征表示；

中间值确定模块106，用于根据第一用户对第一物品的评分、所述第一用户对第一物品的评论的特征表示和所述第一用户对第一物品的修正平均分得到各主题的权重、修正平均分的权重以及误差偏置；

预测确定模块107，用于确定要进行评分预测的第二用户以及第二物品；

第二修正平均分获取模块108，用于利用协同过滤算法根据第二用户对所有物品的评分平均分、预设用户范围中除第二用户以外其他各用户对第二物品的评分、预设用户范围中除第二用户以外其他各用户对预设物品范围中所有物品评分的平均分得到第二用户对第二物品的修正平均分；

预测特征值获取模块109，用于根据第二用户对第二物品的评论的各主题的特征值、第二用户的评论集合和第二物品的评论集合得到第二用户各主题的特征值以及第二物品各主题的特征值；

第二特征表示获取模块110，用于根据第二用户各主题的特征值以及第二物品各主题的特征值得到第二用户对第二物品的模拟评论特征表示；

评分预测模块111，用于根据第二用户对第二物品的模拟评论特征表示、第二用户对第二物品的修正平均分、所述各主题的权重、修正平均分的权重以及误差偏置计算出所述第二用户对第二物品的预测评分；

如图4所示，其中，所述特征值获取模块104包括：

词向量获取子模块201，用于将所述历史评论数据中的词表示为词向量；

代表词获取子模块202，用于根据所述词向量得到与各主题相似的对应的预设数目的目标代表词；

特征值子模块203，用于根据各主题对应的目标代表词与主题的余弦相似度计算历史评论数据中指定用户对指定物品的评论的各主题的特征值。

应用本实施例提供的评分预测系统，获取历史评分数据以及历史评论数据，根据历史评分数据和评论数据计算指定的第一用户对第一物品的修正平均分以及第一用户对第一物品的特征表示，将计算出的修正平均分作为线性回归模型特征之一，利用准确性更高的多种算法的组合计算出预设的评论中各主题对于评分的权重、修正平均分的权重和误差偏置，最后利用各主题的权重与误差偏置，以及历史评论和评分中指定的需要预测的第二用户对第二物品的模拟评论特征表示和第二用户对第二物品的修正平均分计算出第二用户对第二物品的预测评分，利用词向量方法的余弦相似度取与主题词相似的目标代表词，并过滤无关词，根据评论内容预测评分同时从用户角度以及物品角度进行考虑，并加之协同过滤算法得到组合推荐模型预测新的评分，使预测结果更加准确全面，从而在后续根据历史评论向用户进行相似推荐时获得更好的用户体验。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的方法与系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种评分预测方法，其特征在于，包括：

确定要进行评分预测的第二用户以及第二物品；

其中，计算特征值包括：

将所述历史评论数据中的词表示为词向量；

2.根据权利要求1所述的评分预测方法，其特征在于，根据第二用户各主题的特征值以及第二物品各主题的特征值得到第二用户对第二物品的模拟评论特征表示包括：

3.根据权利要求2所述的评分预测方法，其特征在于，根据所述词向量得到与各主题相似的对应的预设数目的目标代表词包括：

找出各主题下有代表性的词；

4.根据权利要求3所述的评分预测方法，其特征在于，根据各主题对应的目标代表词与主题的余弦相似度计算历史评论数据中指定用户对指定物品的评论的各主题的特征值包括：

确定各主题对应的各目标代表词与主题的余弦相似度；

5.一种评分预测系统，其特征在于，包括：

评分获取模块，用于获取历史评分数据；

评论获取模块，用于获取历史评论数据；

其中，所述特征值获取模块包括：

6.根据权利要求5所述的评分预测系统，其特征在于，所述第二特征表示获取模块包括：