CN105574003B

CN105574003B - 一种基于评论文本和评分分析的信息推荐方法

Info

Publication number: CN105574003B
Application number: CN201410531592.XA
Authority: CN
Inventors: 余文喆; 张蓉
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2014-10-10
Filing date: 2014-10-10
Publication date: 2019-03-01
Anticipated expiration: 2034-10-10
Also published as: CN105574003A

Abstract

本发明公开了一种基于评论文本和评分分析的信息推荐方法，包括如下步骤：获得评论文本的集合，从中挖掘得到每一条评论文本关于已评论对象的多个评论主题及其分布数据；根据每一条评论文本的分布数据生成用户档案和评论对象档案；建立并训练评分预测模型；根据用户档案和评论对象档案估计用户的评论文本关于未评论对象的分布数据，以预测用户关于未评论对象的评分，根据评分的高低向用户推荐未评论对象的信息。本发明挖掘评分与评论文本间的潜在关系，挖掘评论文本中的评论主题以及评论在主题上的分布从而预测用户对未评论对象的评分，显著增强了推荐信息与用户偏好之间的潜在关联。

Description

一种基于评论文本和评分分析的信息推荐方法

技术领域

本发明属于数据挖掘领域，尤其涉及一种基于评论文本和评分分析的信息推荐方法。

背景技术

推荐系统广泛用于在线广告投放、网络购物平台等Web应用领域。推荐系统通过发现用户喜好，帮助用户发现感兴趣的电影、音乐及各类商品；同时，也为在线广告、商品等更精确地锁定目标人群。公知的推荐方法主要有两种：基于内容过滤(content-basedfiltering)和协同过滤(collaborative filtering)。其中，基于内容过滤的推荐方法根据用户已购商品的特征属性来推荐具有相似属性的商品。然而，该方法推荐的商品种类较为单一，且缺乏新意。协同过滤方法则按用户浏览、评价商品等行为，推荐具有相似偏好的用户购买或喜爱的商品。

随着互联网的发展，电子商务网站中出现大量用户评论信息。用户通过评论来表达自己对商品的评价，交流购物心得。一条评论由评分和评论文本组成，评论文本包含丰富的商品属性描述信息，可看作评分的依据。然而，公知的协同过滤方法并未利用评论文本进行推荐。另一方面，公知的评论分析方法涵盖了主题发现、情感分析和观点挖掘等领域，可通过分析评论文本来预测评分。Qu等(Proc ofthe 23rd Int Confon ComputationalLinguistics.ACL，2010：913-921)使用观点相关词表示一条评论，对观点描述的属性、阐述观点的形容词和否定词等进行训练得到一个预测评分的线性模型；Ganu等(12th IntWorkshop on the Web and Databases.2009)对评分建模，得到输入为商品属性和对应观点正负性的评分预测公式。但这些方法只能分析出已有评论的评分，而无法预测用户对未评论商品的评分，因此不适用于推荐系统。

公知的结合评分和评论文本的推荐方法有McAuley等(Proc ofthe 7thACMConfon Recommender Systems.ACM，2013：165-172)提出的HFT(Hidden Factors asTopics)，即通过结合评分的隐藏因子和评论文本的评论主题产生商品/用户档案，并使用SVD模型预测评分。然而，该方法中评论文本每次只和商品/用户中的一个维度关联，也就是说评论主题只反映了影响评分的一个维度，另一维度则人为地与其保持一致。

因此，为了克服上述缺陷，本发明提出了一种基于评论文本和评分分析的信息推荐方法，以发现评分与评论文本间的潜在关系为出发点，挖掘评论文本中的评论主题以及评论在主题上的分布，并在此基础上生成用户档案和评论对象档案，从而预测用户对未评论对象的评分，显著增强了推荐信息与用户偏好之间的潜在关联。

发明内容

本发明提出了一种基于评论文本和评分分析的信息推荐方法，包括如下步骤：

步骤一：获得评论文本的集合，所述集合包括一个以上用户分别对于一个以上已评论对象做出的评论文本，从所述集合中挖掘得到每一条评论文本关于已评论对象的多个评论主题以及所述评论文本关于各评论主题的分布数据。步骤二：根据所述每一条评论文本的分布数据生成用户档案和评论对象档案；所述用户档案是指用户在各评论主题的分布数据，所述评论对象档案是指已评论对象在评论主题的分布数据。步骤三：建立评分预测模型，将所述评论文本的分布数据输入所述评分预测模型，直至所述评分预测模型输出的预测评分与用户在评论文本中做出的实际评分之间的差异在阈值内则停止输入，完成对所述评分预测模型的训练。步骤四：对于一个用户，根据所述用户的用户档案和评论对象档案估计所述用户的评论文本关于未评论对象的分布数据，向所述评分预测模型输入所述分布数据以预测所述用户关于未评论对象的评分，根据所述评分的高低向用户推荐所述未评论对象的信息。

本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤一中，使用LDA文本模型挖掘每一条评论文本的评论主题，并且使用LDA文本模型得到所述评论文本关于所述评论主题的分布数据。

本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤二中，所述用户档案以如下公式表示：

其中，p_u表示用户u的用户档案，p_uj表示用户u在第j个评论主题上的分布数据，∑_iθ_uij表示用户u对于已评论对象i的评论文本中关于第j个评论主题的分布数据的和，|D_u|表示用户u的评论总数，p′_uj表示用户u的评论文本中关于第j个评论主题的分布数据的均值，K表示评论主题的总数。

本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤二中，所述评论对象档案以如下公式表示：

其中，q_i表示第j个已评论对象的评论对象档案，q_ij表示第i个已评论对象第j个评论主题上的分布数据，∑_uθ_uij表示第i个已评论对象关于第j个评论主题的分布数据的和，|D_ij|表示第i个已评论对象的评论总数，q′_ij表示第i个已评论对象的评论文本中关于第j个评论主题的分布数据的均值，K表示评论主题的总数。

本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤三中，建立线性回归模型，用于表示分布数据和预测评分之间的关联，利用所述线性回归模型进行预测的评分以如下公式表示：

其中，θ_ui表示用户u关于已评论对象i的评论文本的主题分布数据，表示用户u关于已评论对象i的模型预测评分，W表示评论主题的权重向量，W_i表示第j个评论主题的权重，j∈[1，K]，W^T表示W的转置矩阵，ε_ui表示误差变量。

本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤三中，建立逻辑回归模型，用于表示分布数据和预测评分之间的多元关联，利用所述逻辑回归模型进行预测的评分以如下公式表示：

其中，θ_ui表示用户u关于已评论对象i的评论文本的分主题布数据，β_n＝(β_n1，β_n2…，β_nK)是时的主题权重向量，表示时e的次方，表示的概率，N表示评分的最大值。

本发明提出的所述基于评论文本和评分分析的信息推荐方法中，在所述步骤四中，所述用户的评论文本关于未评论对象的分布数据以如下公式表示：

其中，θ′_uij表示用户u与未评论对象i在第j个评论主题上的分布数据的乘积，p_uj表示用户u在第j个评论主题上的分布数据，q_ij表示未评论对象i第j个评论主题上的分布数据，表示用户u的评论文本关于未评论对象i在第j个评论主题上的分布数据，j表示第j个评论主题，K表示评论主题的总数，j表示未评论对象。

本发明提出的所述基于评论文本和评分分析的信息推荐方法中，所述步骤四进一步包括：对于推荐的所述未评论对象的信息做进一步衡量与筛选，从中获取更高相关程度的评论文本同时发送给用户。

本发明提出的所述基于评论文本和评分分析的信息推荐方法中，对于一个未评论对象，计算其评论文本中评论主题与所述未评论对象的相关程度，所述相关程度以如下公式表示：

其中，d(r_ui,i)表示评论主题与未评论对象i的相关程度，||θ_ui-q_i||₂表示θ_ui-q_i的 2-范数，即那么θ_ui 表示用户u关于未评论对象i的评论文本的分布数据，q_i表示未评论对象i的评论对象档案

本发明的有益效果包括：

1、本发明通过挖掘评论文本从中发现隐含的评论主题。评论文本包含丰富的商品属性描述信息，并且包含用户的评论侧重点。这些特征信息即是隐含在评论文本的主题，本发明首次提出通过LDA文本模型对文本进行挖掘发现这些有意义的评论主题，弥补了公知的基于内容过滤和协同过滤的推荐方法并未利用评论文本信息的不足。

2、在同一主题空间上分别建立用户/评论对象档案，反映的用户喜好和已评论对象特征。本发明根据评论主题分布按用户/已评论对象分别生成两者的档案，用户/评论对象档案中涉及的主题一致，便于分析两者之间的关联程度，且通过为用户/已评论对象分开建立档案，能更客观地得到两者在各个主题上的分布。公知的HFT推荐方法只生成用户/已评论对象中的一个档案，并假设另一个档案与其相似，使得其中一个档案不能捕捉到用户/已评论对象的真实信息，无法达到本发明的相关程度。

3、挖掘评分与评论文本问的潜在关联，更准确地预测用户对未评论对象的评分。本发明通过对评论主题分布与预测评分之间的关系建模，得到每个主题之于评分的权重。在利用评论文本信息预测评分的同时，也由主题权重展现了每个主题对预测餐馆评分的重要性和影响程度，解释了评分产生原因。

附图说明

图1是本发明基于评论文本和评分分析的信息推荐方法的流程图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明基于评论文本和评分分析的信息推荐方法可应用于各类产品、餐馆的评论网站的数据分析中，通过挖掘用户做出的评论文本获取用户关于其中评论主题的分布数据，建立用户与已评论对象的关联，同时通过预测模型对用户未评论的产品、餐馆等对象进行预测评分，进一步推荐用户关注的同类产品。如图1所示，本发明基于评论文本和评分分析的信息推荐方法包括如下步骤：

步骤一：获得评论文本的集合，所述集合包括一个以上用户分别对于一个以上已评论对象做出的评论文本，从所述集合中挖掘得到每一条评论文本关于已评论对象的多个评论主题以及所述评论文本关于各评论主题的分布数据。步骤二：根据所述每一条评论文本的分布数据生成用户档案和评论对象档案；所述用户档案是指用户关于各评论主题的分布数据，所述评论对象档案是指已评论对象在评论主题的分布数据。步骤三：建立评分预测模型，将所述评论文本的分布数据输入所述评分预测模型，直至所述评分预测模型输出的预测评分与用户在评论文本中做出的实际评分之间的差异在阈值内则停止输入，完成对所述评分预测模型的训练。步骤四：对于一个用户，根据所述用户的用户档案和评论对象档案估计所述用户的评论文本关于未评论对象的分布数据，向所述评分预测模型输入所述分布数据以预测所述用户关于未评论对象的评分，根据所述评分的高低向用户推荐所述未评论对象的信息。

由于关于餐馆的评论文本通常隐含诸多评论主题，例如环境、服务、美食和价格等诸多方面，能够普遍被本发明的数据挖掘技术挖掘出多种隐含的评论主题。因此以下具体实施例就结合餐馆的评论文本进行分析和评分预测，并不意味本发明仅限于分析餐馆的评论文本，其他所有可做出评论文本的产品或服务均可被本发明方法分析。

首先获得评论文本的集合，集合包括一个以上用户分别对于一个以上已评论对象做出的评论文本，使用LDA(Latent Dirichlet Allocation)文本模型来挖掘评论文本的隐含主题和每条评论在主题上的分布。令d_ui表示用户u关于已评论对象(餐馆i)的一条评论文本，将评论文本的集合{d_ui}利用LDA文本模型进行挖掘从中发现K个隐含的评论主题。同时，利用LDA文本模型可获得评论文本d_ui在这K个主题上的分布值，即由K维向量θ_ui＝(θ_ui1，θ_ui2，…，θ_uiK)组成的分布数据。

本实施例以某一用户的评论文本为例，参见以下表1，一条评论文本包括该用户评论的餐馆、时间和文字内容。

表1 用户评论实例

分析该集合中每一条评论文本的分布数据，从而分别生成用户档案和评论对象档案。其中令D_u表示用户u做出的一组评论文本，D_i为餐馆i得到的一组评论。利用评论文本D_u为每个用户u建立一个用户档案p_u，以及利用评论文本D_i为每家餐馆i建立一个评论对象档案。以上两种档案可由一个K维向量来表示。对一个给定用户u，其用户档案p_u以如下公式表示：

同样地，评论对象档案以如下公式表示：

其中，q_i表示第i个已评论对象的评论对象档案，q_ij表示第i个已评论对象第j个评论主题上的分布数据，∑_uθ_uij表示第i个已评论对象关于第j个评论主题的分布数据的和，|D_i|表示第i个已评论对象的评论总数，q′_ij表示第i个已评论对象的评论文本中关于第j个评论主题的分布数据的均值，K表示评论主题的总数。本实施例中设置LDA参数K为10，由LDA生成的K个主题及某一用户在主题上的分布数据，该用户的档案如表2所示。主题分布数据越大说明用户对该主题的重视度更高，由表2可得该用户对日式料理，以及餐馆的生意、服务和环境更为在意。

表2 该用户的用户档案

主题编号	主题内容	主题分布
			主题1	日式料理	0.1591949341553639
主题2	生意	0.10942217268022576
			主题3	面食	0.07485110767437812
主题4	味道	0.08243357418385364
			主题5	肉食	0.07857941174593162
主题6	服务	0.14031837125040464
			主题7	团购	0.09461441427876582
主题8	面包甜点	0.07248936917133526
			主题9	环境	0.11142659589273768
主题10	下午茶	0.07667004896700362

本发明较佳实施例中，将用户档案和评论对象档案相结合，生成用户-评论对象档案(p_u/p_i档案)，该档案是用户u和餐馆i所有评论主题分布的归一化均值。

在生成了用户档案和评论对象档案之后，建立评分预测模型。本具体实施例中分别使用线性回归模型(Linear Regression model)和逻辑回归模型(Logistic Regressionmodel)用于为评论d_ui的主题分布θ_ui与预测评分之间的关联关系进行建模。

利用线性回归模型进行预测的评分以如下公式表示：

其中，θ_ui表示用户u关于已评论对象i的评论文本的主题分布数据，表示用户u关于已评论对象i的模型预测评分，W表示评论主题的权重向量，W_j表示第j个评论主题的权重，j∈[1，K]，W^T表示W的转置矩阵，ε_ui表示误差变量。

逻辑回归模型用于表示分布数据和预测评分之间的多元关联，其假设评分以r_ui∈{1，2，…,N}表示，利用逻辑回归模型进行预测的评分以如下公式表示：

其中，θ_ui表示用户u关于已评论对象i的评论文本的主题分布数据，β_n＝(β_n1，βn2…，β_nK)是时的主题权重向量，表示时e的次方，表示的概率，N表示评分的最大值。

上述两种回归模型都由最大后验概率(maximum a posterior，MAP)估计得到主题的权重向量。表3是分别由线性回归模型和逻辑回归模型得到的主题权重。

表3 由线性回归模型和逻辑回归模型得到的主题权重

最后，利用训练后的评分预测模型进行评分预测。给定一个用户u和一家该用户u未评论的餐馆i(即未评论对象)。首先根据用户/评论对象档案p_u/p_i估计用户u对餐馆i的评论主题的分布其分布数据以如下公式表示：

其中，θ′_uij表示用户u与未评论对象i在第j个评论主题上的分布数据的乘积，p_uj表示用户u在第j个评论主题上的分布数据，q_ij表示未评论对象i第j个评论主题上的分布数据，表示用户u的评论文本关于未评论对象i在第j个评论主题上的分布数据，j表示第j个评论主题，K表示评论主题的总数，i表示未评论对象。

然后，把作为回归模型的输入计算得到预测评分最后，把预测评分排名靠前的餐馆推荐给用户u。例如，对于一个给定餐馆i(即被预测评分的未评论对象)，选择与其评论对象档案p_i有相似主题分布的评论作为具有代表性的评论。使用以下公式度量评论r_ui与餐馆i的相关程度，该相关程度以如下公式表示：

其中，d(r_ui，i)表示评论主题与未评论对象i的相关程度，||θ_ui-q_i||₂表示θ_ui-q_i的 2-范数，即那么θ_ui 表示用户u关于未评论对象i的评论文本的分布数据，q_i表示未评论对象i的评论对象档案。

表4是使用训练逻辑回归模型得到的主题权重预测餐馆评分，推荐给该用户的前10家餐馆。

表4 推荐给该用户的前10家餐馆

餐馆	菜系
		新金星饭店	本帮江浙菜
农家湘菜	湘菜
		川香制面所	日本
金家梅干菜烧饼	小吃快餐
		心居酒屋	日本
柒寿司	日本
		稻香蛙	川菜
松兰山象山海鲜	本帮江浙菜
		欧仕麦西饼	面包甜点
美珍香	小吃快餐

此外，由于一些热门餐馆往往具有上百或上千条评论，即存在信息过载以及存在较多冗余信息的问题，因此需要选择具有代表性的一组评论方便用户阅读以作参考。因此本发明较佳实施例中对于推荐的未评论对象的信息做进一步衡量与筛选，从中获取更高相关程度的评论文本同时发送给用户。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于评论文本和评分分析的信息推荐方法，其特征在于，包括如下步骤：

步骤一：获得评论文本的集合，所述集合包括一个以上用户分别对于一个以上已评论对象做出的评论文本，从所述集合中挖掘得到每一条评论文本关于已评论对象的多个评论主题以及所述评论文本关于各评论主题的分布数据；

步骤二：根据所述每一条评论文本的分布数据生成用户档案和评论对象档案；所述用户档案是指用户在各评论主题的分布数据，所述评论对象档案是指已评论对象在评论主题的分布数据；

步骤三：建立评分预测模型，将所述评论文本的分布数据输入所述评分预测模型,直至所述评分预测模型输出的预测评分与用户在评论文本中做出的实际评分之间的差异在阈值内则停止输入，完成对所述评分预测模型的训练；

步骤四：对于一个用户，根据所述用户的用户档案和评论对象档案估计所述用户的评论文本关于未评论对象的分布数据，向所述评分预测模型输入所述分布数据以预测所述用户关于未评论对象的评分，根据所述评分的高低向用户推荐所述未评论对象的信息；

其中，所述用户的评论文本关于未评论对象的分布数据以如下公式表示：

式中，θ'_uij表示用户u与未评论对象i在第j个评论主题上的分布数据的乘积，p_uj表示用户u在第j个评论主题上的分布数据，q_ij表示未评论对象i第j个评论主题上的分布数据，表示用户u的评论文本关于未评论对象i在第j个评论主题上的分布数据，j表示第j个评论主题，K表示评论主题的总数，i表示未评论对象。

2.如权利要求1所述的基于评论文本和评分分析的信息推荐方法，其特征在于，在所述步骤一中，使用LDA文本模型挖掘每一条评论文本的评论主题，并且使用LDA文本模型得到所述评论文本关于所述评论主题的分布数据。

3.如权利要求1所述的基于评论文本和评分分析的信息推荐方法，其特征在于，在所述步骤二中，所述用户档案以如下公式表示：

其中，p_u表示用户u的用户档案，p_uj表示用户u在第j个评论主题上的分布数据，∑_iθ_uij表示用户u对于已评论对象i的评论文本中关于第j个评论主题的分布数据的和，|D_u|表示用户u的评论总数，p'_uj表示用户u的评论文本中关于第j个评论主题的分布数据的均值，K表示评论主题的总数。

4.如权利要求1所述的基于评论文本和评分分析的信息推荐方法，其特征在于，在所述步骤二中，所述评论对象档案以如下公式表示：

其中，q_i表示第i个已评论对象的评论对象档案，q_ij表示第i个已评论对象第j个评论主题上的分布数据，∑_uθ_uij表示第i个已评论对象关于第j个评论主题的分布数据的和，|D_i|表示第i个已评论对象的评论总数，q'_ij表示第i个已评论对象的评论文本中关于第j个评论主题的分布数据的均值，K表示评论主题的总数。

5.如权利要求1所述的基于评论文本和评分分析的信息推荐方法，其特征在于，在所述步骤三中，建立线性回归模型，用于表示分布数据和预测评分之间的关联，利用所述线性回归模型进行预测的评分以如下公式表示：

其中，θ_ui表示用户u关于已评论对象i的评论文本的主题分布数据，表示用户u关于已评论对象i的模型预测评分，W表示评论主题的权重向量，W_j表示第j个评论主题的权重，j∈[1,K]，W^T表示W的转置矩阵，ε_ui表示误差变量。

6.如权利要求1或5所述的基于评论文本和评分分析的信息推荐方法，其特征在于，在所述步骤三中，建立逻辑回归模型，用于表示分布数据和预测评分之间的多元关联，利用所述逻辑回归模型进行预测的评分以如下公式表示：

其中，θ_ui表示用户u关于已评论对象i的评论文本的主题分布数据，β_n＝(β_n1,β_n2…,β_nK)是时的主题权重向量，表示时e的次方，表示的概率，N表示评分的最大值。

7.如权利要求1所述的基于评论文本和评分分析的信息推荐方法，其特征在于，所述步骤四进一步包括：对于推荐的所述未评论对象的信息做进一步衡量与筛选，从中获取更高相关程度的评论文本同时发送给用户。

8.如权利要求7所述的基于评论文本和评分分析的信息推荐方法，其特征在于，对于一个未评论对象，计算其评论文本中评论主题与所述未评论对象的相关程度，所述相关程度以如下公式表示：

其中，d(r_ui,i)表示评论主题与未评论对象i的相关程度，||θ_ui-q_i||₂表示θ_ui-q_i的2-范数，即||θ_ui-q_i||₂＝(∑_j|θ_uij-q_ij|²)^1/2,j∈[1,K]，那么θ_ui表示用户u关于未评论对象i的评论文本的分布数据，q_i表示未评论对象i的评论对象档案；θ_uij表示用户u关于未评论对象i的评论文本在第j个评论主题上的分布数据。