CN110532379A

CN110532379A - 一种基于lstm的用户评论情感分析的电子资讯推荐方法

Info

Publication number: CN110532379A
Application number: CN201910610182.7A
Authority: CN
Inventors: 黄海深
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2019-12-03
Anticipated expiration: 2039-07-08
Also published as: CN110532379B

Abstract

本发明公开了一种基于LSTM的用户评论情感分析的电子资讯推荐方法，包括获取用户的电子资讯评论信息与电子资讯属性信息；电子资讯及其评论信息清洗以及预处理；设置维度参数并构建词向量矩阵；通过深度学习方法进行电子资讯特征的情感分析；基于情感分析数据建立用户兴趣模型；计算用户对电子资讯兴趣度并进行电子资讯推荐。本发明结合了深度学习的方法，利用基于LSTM的深度学习方法训练经过处理后获取的数据，基于已进行情感分析后的数据建立兴趣模型并进行推荐。本方案还考虑了新用户和未评论过的用户的电子资讯推荐方式，利用K‑means聚类算法，对用户属性进行聚类，从而根据深度学习训练的结果，更加准确地推荐电子资讯的内容。

Description

一种基于LSTM的用户评论情感分析的电子资讯推荐方法

技术领域

本发明涉及数据挖掘以及深度学习技术领域，具体涉及一种基于LSTM的用户数据情感分析的推荐方法。

背景技术

互联网技术、设备和网络资源的逐步发展和日趋丰富使人们的日常生活与Internet的关系愈来愈密不可分，各种互联网应用逐渐渗透到大众日常生活娱乐等各个方面。同时人们的经济与生活水平逐渐提高，在学习和娱乐等方面，人们不再局限于纸质版的读物，越来越多人选择电子资讯来获取目前的各类信息并参与在线评论。但是由于电子资讯内容太过丰富，如何从过量的电子资讯中找到自己感兴趣的成为了一个焦点。这使得电子资讯的分类成为目前一个重要问题，并且电子资讯推荐系统也成为了解决上面难题的有效手段

在目前的推荐领域中，主流的推荐算法有：基于协同过滤的推荐系统，包含基于用户的协同过滤算法与基于物品的协同过滤算法；另外有基于内容的推荐系统，还有混合推荐系统。

协同过滤算法主要是通过构建用户兴趣模型基于用户行为数据进行推荐，通过对用户数据的分析，来发现拥有偏好相似度较高的用户和电子资讯。但这个算法存在一些问题，如系统可能向用户推荐其并不感兴趣但其相似用户却喜欢的电子资讯，另外，协同过滤算法还存在冷启动状况，即对新用户、电子资讯评价数目较少的目标用户推荐具有困难，反而会对热门电子资讯推荐较多。虽然这些问题对推荐系统整体的准确率的误差作用有限，但是这说明此推荐方法仍然存在缺陷。

基于内容的推荐，是通过对电子资讯内容，类型等特征进行数值上的提取与分解，通过对特征值的回归或者分类运算，得出用户对电子资讯的评分信息，然后基于评分来针对目标用户进行推荐。其缺点在于对电子资讯的数据结构有较高的要求，数据需具有较完整的内容信息与容易提取的条件，同时对于稀疏数据的推荐效果较差。

混合方法的建模成本较高，需综合多个推荐算法，并且很多情况下混合算法针对单一具体的实际改进效果并不理想。

但是在上述现有技术中，基于内容过滤能考虑到电子资讯的相似而不能考虑到电子资讯的时效性，所以推荐效果不理想；基于协同过滤，必须是鉴于访问用户而进行的推荐，对时效性要求较高的电子资讯推荐而言只推荐被访问过的人们电子资讯，故在协同过滤中，就会生成一些过期的电子资讯。同时，上述技术在为用户推荐电子资讯时没有考虑用户的情感问题，不能够推荐符合用户心情、积极正向引导用户情感的电子资讯。

发明内容

为了弥补现有推荐方法在考虑情感分析方面空缺，并且将深度学习的知识结合情感分析和推荐系统结合起来，本发明公开了一种基于LSTM的用户评论情感分析的电子资讯推荐方法。

为了实现上述任务，本发明采用以下技术方案：

一种基于LSTM的用户评论情感分析的电子资讯推荐方法，包括以下步骤：

步骤1，获取用户的电子资讯评论信息与电子资讯属性信息；

步骤2，电子资讯及其评论信息清洗以及预处理；

步骤3，设置维度参数并构建词向量矩阵；

步骤4，通过深度学习方法进行电子资讯特征的情感分析；

步骤5，基于情感分析数据建立用户兴趣模型；

步骤6，计算用户对电子资讯兴趣度并进行电子资讯推荐。

进一步地，所述的用户的电子资讯评论信息与电子资讯属性信息，包括电子资讯评论信息、属性信息包括电子资讯名称ID、属性类别、用户ID、评论时间、资讯收藏数、评论内容与赞同数；获取数据的方式为利用在线评论网络爬虫。

进一步地，所述的电子资讯及其评论信息清洗以及预处理，包括：

数据的清洗操作，首先是对缺失项的处理，剔除属性类别项目缺失以及评价字符数小于预设字符数的数据项；

经过数据清洗获取到数据集之后，对电子资讯的评论信息进行预处理，包括分词操作和词性标注操作。

进一步地，所述的设置维度参数并构建词向量矩阵，包括：

将评论信息预处理后的词转为对应的词向量，然后构建文本的词向量矩阵；该矩阵的行数为每个文本的词数，列数为每个词对应向量所指定的维数。

进一步地，所述的通过深度学习方法进行电子资讯特征的情感分析，包括：

所采取的深度学习网络模型为双向长短期记忆网络，利用双向长短期记忆网络作为基学习器，通过构建并结合多个基学习器来完成学习任务，在此基础上，采用Bagging算法进行基学习器的集成；通过采样数据来对双向长短期记忆网络进行学习，利用包外数据对训练形成的基学习器进行赋权，最后根据各基学习器的预测结果及投票策略进行情感预测。

进一步地，所述的根据各基学习器的预测结果及投票策略进行情感预测，包括：

1)从词向量矩阵中对数据进行情感标签的标注以构建数据集，并划分训练集和测试集；

2)对训练集利用Bootstrap进行随机采样，将训练集分为n个采样集与n个包外数据集；

3)利用采样集数据传入基学习器进行训练，并且利用包外数据集传入基学习器中进行验证与权值修正；

4)重复步骤3)，直到完成全部n个基学习器的预测结果输出；

5)基于加权投票策略，对样本进行情感分类。

进一步地，所述的情感分类的具体过程为：

1)将采样集中每个词前后的信息所对应的词向量序列在基学习器中以正序和反序的形式输入，提取对应的正反序列特征；基学习器的输出序列分别为正向特征向量序列和反向特征向量序列，分别对两个序列进行序列合并，得相应的词特征向量；

2)将词向量特征在序列合并的同时采用平均池化，即对词邻域内特征向量求平均，得到句特征向量；

3)将句特征向量序列化，对该序列信息进行神经网络全连接，之后将信息传入softmax层进行函数概率运算，最终得到情感状态分类结果。

进一步地，所述的采样数据的采样方法为：

对于m个样本的原始训练集，有放回地随机采集m次，最终得到一个包含m个样本的采样集；对于每个基学习器由自助采样法获得的训练集，原始训练集中没有被选中的数据称为包外数据。

进一步地，所述的基于情感分析数据建立用户兴趣模型，包括：

首先统计模型数据信息，若情感状态为积极，则视为好评；统计用户在整个评论数据集中，对于电子资讯信息集合的每一个特征的平均好评率，以及整个用户集对每个特征的平均好评率；

分析电子资讯信息集合中的特征f_i对用户x评论的权重占比，具体公式如下：

其中W(f_i，x)表示电子资讯信息特息集合中的征f_i对用户x评论的权重占比，T(f_i，x)表示特征f_i在用x的评论集中出现的频率，N表示用户x的评论集的评论个数，表示出现特征f_i的评论个数，F表示PMI算法提取的电子资讯信息特征集合；

最后，分析用户x对电子资讯信息特征f_i的偏好度，具体公式如下：

其中Pf(f_i，x)表示用户x对电子资讯信息集合中的特征f_i的偏好度，G_i(x)表示用户x对电子资讯信息特征f_i的平均好评率，H_i表示总体用户对电子资讯信息特征f_i的平均好评率。

进一步地，所述的计算用户对电子资讯兴趣度并进行电子资讯推荐，包括：

计算用户x对电子资讯信息特征f_i兴趣度，具体公式如下：

Interest(f_i，x)＝Pf(f_i，x)×W(f_i，x)

其中Interest(f_i，x)表示用户x对电子资讯信息特征f_i兴趣度。

依据此兴趣度将此信息特征的电子资讯推荐给用户。

进一步地，所述的方法还包括：

步骤7，通过用户聚类实现对新用户的电子资讯的内容推荐，具体步骤包括：

步骤7.1，新用户身份属性数据预处理；

步骤7.2，采用改进K-means聚类算法实现用户身份属性聚类，包括：

(1)计算点密度，然后在备选点集合D中添加点密度较大的M个数据点；

(2)在D中根据密度值大小排序，挑选出前两个密度最大的点当作算法的初始聚类中心，并且把它们从D中删除；

(3)从D中选出和步骤(2)初始聚类中心距离最远的点当作新的聚类中心，并且把该点从D中删除；

(4)利用迭代算法对N个数据点进行以上操作，计算类间最大相似度均值AMS值；

(5)当计算出的当下AMS值比前一次的AMS值小时，继续执行算法，并转到步骤(6)；

当计算出的当AMS值比前一次的AMS值大时，把该最小AMS值相对应的聚类中心看作K均值聚类算法的初始聚类中心，并转到步骤(7)；

(6)更新聚类中心，然后在集合D中挑选出一个数据点，使它和新的聚类中心间的最小距离有最大值，并把它看作下一个聚类中心，且从D中将其删除，转到步骤(4)；

(7)执行K均值聚类算法；

步骤7.3，对用户属性数据聚类处理后，对未评论或者新用户推荐同一类的用户的感兴趣内容。

本发明具有以下技术特点：

1.本发明相对与传统协同过滤等算法来说，主要是结合了深度学习的方法，利用基于LSTM的深度学习方法训练经过处理后获取的数据，基于已进行情感分析后的数据建立兴趣模型并进行推荐；本方案还考虑了新用户和未评论过的用户的电子资讯推荐方式，利用K-means聚类算法，对用户属性进行聚类，从而根据深度学习训练的结果，更加准确地推荐电子资讯的内容。

2.通过本发明的方法可有效地解决信息过载问题，通过深度学习技术分析和结合多数用户的评分与评论信息进行处理，对评论中的情感信息进行提取并进行分类，挖掘文本信息中用户表达的情感极性，构建出有效的用户兴趣模型，提高了推荐系统的精度，进而优化电子资讯推荐的质量；不仅可以对评论过的用户进行推荐，还可以根据用户的属性信息对新用户或者未评论过的用户进行较为准确的推荐电子资讯的内容实现。

附图说明

图1为本发明方法的流程示意图；

图2为本发明中深度学习网络模型的结构示意图；

图3为改进K-means聚类算法的流程示意图。

具体实施方式

本发明公开了一种基于LSTM的用户评论情感分析的电子资讯推荐方法，如图1至图3所示，包括以下步骤：

步骤1，获取用户的电子资讯评论信息与电子资讯属性信息。

在该实施例中，步骤1获取电子资讯评论信息、属性信息包括电子资讯名称ID、属性类别、用户ID、评论时间、资讯收藏数、评论内容与赞同数；获取数据的方式为利用在线评论网络爬虫。

步骤2，电子资讯及其评论信息清洗以及预处理

数据的清洗操作，首先是对缺失项的处理，这里缺失项主要是电子资讯的属性类别和评论内容，而用户的评论内容有时候仅仅只是一些符号或者几个字，这里我们采取剔除属性类别项目缺失以及评价字符数小于预设字符数的数据项；每个数据项包含一条评论信息以及对应的电子资讯属性信息。

其中，分词操作基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，采用了动态规划查找最大概率路径，找出基于词频的最大切分组合；对于未登录词，采用基于汉字成词能力的HMM模型，使用Viterbi算法，并且利用点互信息算法进行相关名词电子资讯特征的提取，建立特征集。

而词性标注操作设置为六词位标注，从而提取词性序列。

步骤3，设置维度参数并构建词向量矩阵

其中，构建词向量矩阵采用基于向量空间模型思想与RNN网络的Word2Vec工具，该工具将评论信息预处理后的词转为对应的词向量，然后构建文本的词向量矩阵；该矩阵的行数为每个文本的词数，列数为每个词对应向量所指定的维数。

步骤4，通过深度学习方法进行电子资讯特征的情感分析。

所采取的深度学习网络模型为双向长短期记忆网络(Bi-directional LSTM)，利用LSTM作为基学习器，在此基础上，采用Bagging算法进行基学习器的集成，最终输出对应评论的情感状态信息。

其中，Bagging算法属于集成学习的一种，通过构建并结合多个学习器来完成学习任务，让该学习算法训练多轮，每轮的训练集由从词向量矩阵中随机取出的n个训练样本组成，某个初始训练样本在某轮训练集中可以出现多次或根本不出现，训练之后可得到一个预测函数序列h_1，……h_n，最终的预测函数对分类问题采用投票方式，对回归问题采用简单平均方法对新示例进行判别。

算法思想：

1)从词向量矩阵中用Bootstrap采样选出n个样本；

2)对这n个样本建立分类器

3)重复1-2步，建立m个分类器

4)将Bootstrap采样选出n个样本(m个新的样本数据集)，在m个分类器上进行分类

5)把m个分类器分类的结果进行投票，得到最多的为最终的类别。

算法中的随机采样一般采用的是自助采样法，即对于m个样本的原始训练集，有放回地随机采集m次，最终得到一个包含m个样本的采样集。对于每个基学习器由自助采样法获得的训练集，理论上有40％左右的原始数据不会被选中，这些被忽略的数据称为包外数据，该算法有助于训练复杂模型，提高学习系统的泛化能力。

由于是分析用户的情感，所以应该考虑用户的情感时间变化，因此在算法中加入双向长短期记忆网络，其作为深度学习网络结构之一，拥有两个不同方向得并行层，前向层与反向层的运行方式和前馈神经网络的运行方式相同。这两个层分别从文本开始的前端和末端开始运行，因此能存储来自两个方向的文本的信息，使得学习系统能够同时考虑到现在与未来的上下文信息，从而使其在情感分类中拥有更好的表现。

Bagging算法与双向长短期记忆网络的情感倾向分析模型结合深度学习的模型与集成学习的思想，在Bagging算法的框架下，将双向长短期记忆网络作为情感倾向分析的基学习器，通过采样数据来对双向长短期记忆网络进行学习，利用包外数据对训练形成的基学习器进行赋权，最后根据各基学习器的预测结果及投票策略进行情感预测，如图2所示，具体实现流程如下：

1)从词向量矩阵中对数据进行情感标签的标注以构建数据集，并划分训练集和测试集。

2)对训练集利用Bootstrap进行随机采样，将训练集分为n个采样集与n个包外数据集。

3)利用采样集数据传入基学习器进行训练，并且利用包外数据集传入基学习器中进行验证与权值修正。

4)重复步骤3)，直到完成全部n个基学习器的预测结果输出。

5)基于加权投票策略，对样本进行情感分类。

其中，情感分类的具体过程为：

1)将采样集中每个词前后的信息所对应的词向量序列在双向LSTM网络中以正序和反序的形式输入，提取对应的正反序列特征；双向LSTM网络的输出序列分别为正向特征向量序列y_f(0)至y_f(n)和反向特征向量序列y_r(n)至y_r(0)，分别对两个序列进行序列合并，得相应的词特征向量；

2)将词向量特征在序列合并的同时采用平均池化，即对词邻域内特征向量求平均，得到句特征向量。

步骤5，基于情感分析数据建立用户兴趣模型

首先统计模型数据信息。若情感状态为积极，则视为好评。统计用户在整个评论数据集中，对于电子资讯信息集合的每一个特征的平均好评率，以及整个用户集对每个特征的平均好评率。

接下来分析电子资讯信息集合中的特征f_i对用户x评论的权重占比，具体公式如下：

其中W(f_i,x)表示电子资讯信息特息集合中的征f_i对用户x评论的权重占比，T(f_i，x)表示特征f_i在用x的评论集中出现的频率，N表示用户x的评论集的评论个数，表示出现特征f_i的评论个数，F表示PMI算法提取的电子资讯信息特征集合。

步骤6，计算用户对电子资讯兴趣度并进行电子资讯推荐。

计算用户x对电子资讯信息特征f_i兴趣度，具体公式如下：

Interest(f_i，x)＝Pf(f_i，x)×W(f_i，x)

其中Interest(f_i，x)表示用户x对电子资讯信息特征f_i兴趣度。

依据此兴趣度将此信息特征的电子资讯推荐给用户。

步骤7，通过用户聚类实现对新用户的电子资讯的内容推荐。

步骤7.1，新用户身份属性数据预处理。

新用户身份属性数据主要包括年龄、性别、职业、专业等。年龄定义为数值数据性别定义为二元数据，即输入性别数据时，可以根据实际内容对应转化为二元数据0和1(输入性别：男或1)。职业、专业等数据定义为标称型数据，使用数值标号的形式进行标准化。通过以上方式完成新用户身份属性数据的预处理工作，用户属性表达形式为User＝(35，1，12，6)，表示用户是年龄为35左右从事数学专业的男教师。

步骤7.2，采用改进K-means聚类算法实现用户身份属性聚类，主要实现流程如图3所示。

改进算法提供了一种确定最佳聚类数的方法，并找到最佳聚类中心。首先，算法在高密度的数据点中选出一个和聚类中心的距离最远的点，并把它看作一个新的聚类中心，放置到聚类中心的集合中。对某个数据集来说，当最佳聚类数确定时，根据改进算法求出的聚类中心也是确定的，这样，算法的稳定性就会大大提高。

点密度：处在点x_i的r邻域内的点的数量。

Density(x_i)＝{p∈c|dist(x_i，p)≤r}

式中，x_i表示聚类中心，r表示邻域半径，p表示邻域内一点。

类内距离：所有处于类中的点和聚类中心间欧氏距离的平均值。

式中，c_i表示处于类中的点。

类间距离：各个类的聚类中心间的欧氏距离值。

d_i，j＝||c_i-c_j||

类间最大相似度均值AMS：各个类间的最大相似度的平均值。

当AMS的取值最小时，表明算法的聚类效果最好，这时最佳聚类数就是K。

改进的K均值聚类算法的具体过程如下：

(1)计算点密度，然后在备选点集合D中添加点密度较大的M个数据点。

(2)在D中根据密度值大小排序，挑选出前两个密度最大的点当作算法的初始聚类中心，并且把它们从D中删除。

(3)从D中选出和步骤(2)初始聚类中心距离最远的点当作新的聚类中心，并且把该点从D中删除。

(4)利用迭代算法对N个数据点进行以上操作，计算类间最大相似度均值AMS值。

(5)当计算出的当下AMS值比前一次的AMS值小时，继续执行算法，并转到步骤(6)。

当计算出的当AMS值比前一次的AMS值大时，把该最小AMS值相对应的聚类中心看作K均值聚类算法的初始聚类中心，并转到步骤(7)。

(6)更新聚类中心，然后在集合D中挑选出一个数据点，使它和新的聚类中心间的最小距离有最大值，并把它看作下一个聚类中心，且从D中将其删除，转到步骤(4)。

(7)执行K均值聚类算法。

步骤7.3，对用户属性数据聚类处理后，、对未评论或者新用户推荐同一类的用户的感兴趣内容。

Claims

1.一种基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，包括以下步骤：

步骤1，获取用户的电子资讯评论信息与电子资讯属性信息；

步骤2，电子资讯及其评论信息清洗以及预处理；

步骤3，设置维度参数并构建词向量矩阵；

步骤4，通过深度学习方法进行电子资讯特征的情感分析；

步骤5，基于情感分析数据建立用户兴趣模型；

步骤6，计算用户对电子资讯兴趣度并进行电子资讯推荐。

2.如权利要求1所述的基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，所述的电子资讯及其评论信息清洗以及预处理，包括：

3.如权利要求1所述的基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，所述的设置维度参数并构建词向量矩阵，包括：

4.如权利要求1所述的基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，所述的通过深度学习方法进行电子资讯特征的情感分析，包括：

5.如权利要求4所述的基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，所述的采样数据的采样方法为：

6.如权利要求4所述的基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，所述的根据各基学习器的预测结果及投票策略进行情感预测，包括：

4)重复步骤3)，直到完成全部n个基学习器的预测结果输出；

5)基于加权投票策略，对样本进行情感分类。

7.如权利要求6所述的基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，所述的情感分类的具体过程为：

8.如权利要求1所述的基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，所述的基于情感分析数据建立用户兴趣模型，包括：

9.如权利要求1所述的基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，所述的计算用户对电子资讯兴趣度并进行电子资讯推荐，包括：

计算用户x对电子资讯信息特征f_i兴趣度，具体公式如下：

Interest(f_i，x)＝Pf(f_i，x)×W(f_i，x)

其中Interest(f_i，x)表示用户x对电子资讯信息特征f_i兴趣度。

依据此兴趣度将此信息特征的电子资讯推荐给用户。

10.如权利要求1所述的基于LSTM的用户评论情感分析的电子资讯推荐方法，其特征在于，所述的方法还包括：

步骤7.1，新用户身份属性数据预处理；

(7)执行K均值聚类算法；