CN113987168A

CN113987168A - 基于机器学习的商家评论分析系统及方法

Info

Publication number: CN113987168A
Application number: CN202111188450.4A
Authority: CN
Inventors: 刘玮; 束鑫; 叶华
Original assignee: Jiangsu University of Science and Technology
Current assignee: Jiangsu University of Science and Technology
Priority date: 2021-10-12
Filing date: 2021-10-12
Publication date: 2022-01-28

Abstract

本发明公开了一种基于机器学习的商家评论分析系统，包括：数据处理层、机器学习算法层、用户服务层；所述数据处理层，用于获取平台数据，对平台数据进行预处理、文本分词及词云生成，输出评价数据集；所述机器学习算法层，使用评论数据集进行模型训练、情感分析、聚类分析，输出评价数据的情感积极度、商家分类标签；所述用户服务层，向用户提供商家推荐、搜索、分类、商家数据分析、评论数据分析信息。本发明采用机器学习算法分析用户评论数据，量化用户情感数据，挖掘评论中用户的情绪与态度，能够精细化商家评价，弥补了平台评分的短板，构建多维度评分模型，实现了更加精准的商家评价体系。

Description

基于机器学习的商家评论分析系统及方法

技术领域

本发明涉及机器学习、自然语言处理技术领域，具体而言，涉及一种基于机器学习的商家评论分析系统及方法。

背景技术

随着网络消费规模的扩大，外卖、生活服务预订平台也随之兴起，互联网消费平台成为了重要的信息交互与数据的载体。参考在线评论信息是人们进行购买决策的一个重要环节。平台中海量的用户评论信息蕴含着人们对商品价格、质量等方面的体验感受，通过对评论数据的情感分析能够为用户带来更有参考价值的商家信息，同时能够让商家及时了解问题并进行改进。

机器学习是人工智能的一种实现方式，使系统能够从数据中学习，通过训练集不断识别情感特征，进行建模，最终形成有效的数据处理方式。本发明将机器学习技术应用于评论数据的分析中，系统将评论的有效信息进行提取，对情感词、特点词匹配，并使用评价算法得出依据评论的商家评分。

情感分析是一种自然语言处理方法的应用，对带有感情色彩的主观性文本进行分析、处理、归纳和整理，同时利用情感得分指标来量化数据。但情感分析并不足以概括商家的真实情况，具有一定的局限性，因此，本发明结合商家特征词进行了多维评价的拓展。

公开号为CN107992550A的中国专利文献公开了一种网络评论分析方法及系统，其进行情感分析采用预设多个置信度区间，进行情感词汇的区间匹配，这样的方法类似人工分类，分类出的情感倾向误差较大。

发明内容

本发明的目的是提供一种基于机器学习的商家评论分析系统及方法，以解决现有算法耗时长、准确率低的问题。

本发明提供了一种基于机器学习的商家评论分析系统，包括：数据处理层、机器学习算法层、用户服务层；

所述数据处理层，用于获取平台数据，对平台数据进行预处理、文本分词及词云生成，输出评价数据集；

所述机器学习算法层，使用评论数据集进行模型训练、情感分析、聚类分析，输出评价数据的情感积极度、商家分类标签；

所述用户服务层，向用户提供商家推荐、搜索、分类、商家数据分析、评论数据分析信息。

进一步地，所述数据处理层包括：数据获取模块、数据处理模块；

所述数据获取模块，用于对不同平台的用户评论进行数据爬取，并将原始数据进行分类整理、存储；

所述数据处理模块，用于评价数据预处理、文本分词、文本向量化，以及词云的生成。

进一步地，所述机器学习算法层包括：模型训练模块、情感分析模块、聚类分析及标签生成模块；

所述模型训练模块，使用所述数据处理层输出的评价数据，并采用人工标记的方式对朴素贝叶斯模型进行训练；

所述情感分析模块，使用朴素贝叶斯模型计算情感积极度；

所述聚类分析及标签生成模块，采用改进k-means算法对情感分析后的评论数据进行聚类分析，并绑定标签。

本发明还提供了一种基于机器学习的商家评论分析系统的分析方法，适用于上述基于机器学习的商家评论分析系统，包括如下步骤：

步骤1：采用爬虫技术抓取平台的用户评论数据、商家数据；

步骤2：对商家数据、用户评论数据进行预处理；

步骤3：对预处理后的商家数据、用户评论数据进行文本分词、文本向量化、文本特征提取，输出训练样本；

步骤4：使用所述训练样本训练朴素贝叶斯模型；

步骤5：使用训练后的朴素贝叶斯模型分析用户评论数据的情感倾向；

步骤6：对商家数据与用户评论数据进行聚类分析；

步骤7：根据聚类分析结果、情感倾向，生成用户评论数据标签和词云，完成评论分析。

进一步地，所述步骤2的具体方法如下：对表情包、多余空行、特殊符号的过滤，针对其文字编码进行替代，并识别重复信息与无效信息进行删除。

进一步地，所述步骤3的具体方法如下：

运用词典的前缀扫描中文分词，生成句子中汉字所有可能成词情况所构成的有向无环图，完成文本分词；

将分词结果使用TF-IDF算法获取特征矩阵，对特征矩阵的维度的权重进行修正后获取分词的TF-IDF值作为文本特征；

设置停用词，去除特征矩阵与TF-IDF值中的停用词后作为训练集输出。

进一步的，所述步骤4的具体方法如下：

模型训练依据训练集计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。所用公式如下：

其中，b₁，b₂，...，b_n为一条评论的n个特征向量，且在概率分布上是条件独立的，P(A|b₁，b₂，...，b_n)代表一条评论的情感概率，P(A)代表模型训练后的情感概率，P(b_i|A)代表每个特征向量的条件概率；

所得到的概率结果集即作为后续进行最大似然估计的依赖，最终情感分析依据该结果集进行计算。

进一步地，所述步骤5的具体方法如下：

提取用户评论数据的所有特征值F₁到F_n的n个特征值，通过朴素贝叶斯模型获取所有特征值的分布概率，将概率最高的预测作为情感倾向输出。

进一步地，所述通过朴素贝叶斯模型获取所有特征值的分布概率的方法如下：

根据n个特征值各自的分布概率，将其代入到下式中进行k次运算：

其中，P(F_i＝f_i|C_j＝c_j)为第i个特征值的条件概率，P(C＝C_j)为步骤4中所得结果集的k种情况的发生概率；

比较这k次的结果，选出使得运算结果达到最大值的预测作为情感倾向值输出。

其中P(y＝c_k)为训练后的模型中k种情况的概率，P(xⁱ|y＝c_k)为第k种特征值的条件概率；

进一步地，所述步骤6的具体方法如下：

采用改进后的k-means算法对商家数据与用户评论数据进行聚类分析。

进一步地，所述改进后的k-means算法的步骤如下：

步骤1：初始化k个簇中心值；

步骤2：进行k-means聚类，获得聚类后的k个簇中心值。进行一次k-means聚类的k个簇中心值称为一组簇中心值；

步骤3：将每一次生成的一组簇中心值，分配至k个簇中心集合中。分配的原则为k个生成的簇中心值与对应簇中心集合的平均值的方差最小；

步骤4：经过N次k-means聚类后，k个簇中心集合中，均有k个簇中心数值，将其平均之后，得到最终的聚类簇中心数据。

本发明采用机器学习算法分析用户评论数据，量化用户情感数据，挖掘评论中用户的情绪与态度，能够精细化商家评价，弥补了平台评分的短板，构建多维度评分模型，实现了更加精准的商家评价体系，让用户在最短的时间内获得美食推荐，为用户选餐提供相应的指导，辅助用户决策，并能够让商家直观的了解自身产品的优势与不足，更好的把握用户需求，进而改善产品与服务，增强市场竞争力，在一定程度上，也能够起到监督商家的作用。

同时所采用算法耗时短，实现简单，能够广泛应用于轻量级服务器，易于推广，增强了系统稳健性。

附图说明

图1为本发明实施例一种基于机器学习的商家评论分析系统及方法的整体架构；

图2为本发明实施例一种基于机器学习的商家评论分析系统及方法的具体实现步骤；

图3为本发明实施例一种基于机器学习的商家评论分析系统及方法的手肘法SSE/k图；

图4为本发明实施例一种基于机器学习的商家评论分析系统及方法的改进k-means算法流程图。

具体实施方式

下面将结合附图与实例，对本发明中的技术方案做进一步的详细描述。

结合图1，所述系统包含以下三层：

一、数据处理层

数据处理层包括以下几个模块，最终输出原始数据集:

数据获取模块，用于对不同平台的用户评论进行数据爬取，并将原始数据进行分类整理、存储；

数据处理模块，用于数据预处理、文本分词、文本向量化等，使得数据能够用于算法处理与系统数据库的存储，以及词云的生成。

所述数据获取模块，基于python爬虫，对不同平台采取不同爬取方式，通过改变页面属性值对数据进行爬取。获取数据过程对数据进行分类与规格化存储，并将商家id、评论id、图片与具体内容等信息进行绑定。

所述数据处理模块，主要分为数据预处理子模块与文本处理子模块。

数据预处理子模块基于自然语言处理方式，对上述获取到的商家评论数据进行文本清洗、文本去重、文字编码格式化、过滤表情包以及过滤无用信息，将评论数据过滤为纯文本数据，以实现后续分词与向量化的操作。

文本处理子模块，包括基于词典的前缀扫描中文分词，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，动态规划查找最大概率路径，找出基于词频的最大切分组合。

基于上述的分词结果，使用图形生成库matplotlib与词云生成库wordcloud，根据商家特色评论的关键词与词频生成词云。

二、机器学习算法层

机器学习算法层，使用部分上述处理后数据对朴素贝叶斯模型进行训练，用于对评论数据情感分析、样本聚类与标签生成，主要包括以下几个模块：

模型训练模块，使用数据处理层输出的评价数据，并采用人工标记的方式对朴素贝叶斯模型进行训练。

情感分析模块，使用朴素贝叶斯模型计算情感积极度。

聚类分析及标签生成模块，采用改进k-means算法对情感分析后的商家评论数据进行聚类分析，并绑定标签。

本发明使用的朴素贝叶斯算法模型基于SnowNLP，使用python语言进行编写。朴素贝叶斯算法是一种有监督学习算法，通过前期数据集的训练，能够得出每条评论属于情感类别的概率(条件概率)，达到情感分析的目的。所用基本公式如下：

其中，b₁，b₂，...，b_n为一条评论的n个特征向量，且在概率分布上是条件独立的，P(A|b₁，b₂，...，b_n)代表一条评论的情感概率，P(A)代表模型训练后的情感概率，P(b_i|A)代表每个特征向量的条件概率。

所述聚类分析模块采用k-means算法，通过该聚类分析算法可以将具有相似特征的样本聚为一类，并使用标签树赋予每个样本标签。本发明对原始的算法进行改进，对中心点数k值的选取进行更加高效的迭代。

三、用户服务层

用户服务层，将机器学习算法层输出的数据规范化存储至数据库，对两种用户提供不同服务，向消费者提供商家推荐、商家评论信息查看等功能，向商家提供全区数据分析、个体数据分析等功能。根据上述所得数据建立计算机系统，提供消费者与商家不同服务并进行交互，系统服务分为以下四个模块：

商家推荐模块，为用户提供两种推荐模式，一是基于用户选取位置推荐坐标范围内的商家，二是根据商家评分随机向用户推荐商家。

商家搜索分类模块，提供用户不同方式的检索与分类查找功能。

商家数据分析模块，包含平台评分、评论评分、地理位置、一定范围内同类型商家数量这四个方面进行数据聚类分析，再经过标签生成系统，对每一个聚类的数据进行描述，以可视化的形式呈现区域内商家的特征。

评论数据分析模块，面向商家自定义分析数据，商家通过上传符合规范的评论数据，服务端经过算法处理之后，写入数据库，通过客户端可视化、分类化地向用户呈现出自定义数据的特点。

结合图2，本发明具体实现步骤如下：

S101：使用爬虫技术抓取平台的用户商家数据、评论数据；

针对不同平台采取不同爬取策略，通过改变请求头、伪装用户代理等方式进行数据的爬取。

S102：对商家数据、用户评论数据进行预处理；所述数据预处理是指文本清洗与删除重复评论、无效评论。具体而言：对表情包、多余空行、特殊符号的过滤，针对其文字编码进行替代，并识别重复信息与无效信息进行删除。

S103：对预处理后的商家数据、用户评论数据进行文本分词、文本向量化、文本特征提取，输出训练样本；

所述文本分词采用基于词典的前缀扫描中文分词，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。模型在使用之前，首先使用人民日报等语料资源进行训练词典，在执行过程中对于未登录词，采用基于汉字成词能力的HMM模型，将中文词汇按BEMS四个状态进行标记(B是开始位置，E是结束位置，M是中间位置，S是单独成词位置)，使用Viterbi算法找到一个最佳序列。

所述特征提取基于TF-IDF算法计算特征矩阵，并人工对样本进行停用词判断，简化矩阵后输出训练样本。

S104：使用所述训练样本训练朴素贝叶斯模型；

计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。

朴素贝叶斯模型函数为：

S105：利用上述训练后的朴素贝叶斯模型分析评论数据的情感倾向；

对每一个样本提取出所有特征值F₁到F_n，根据这n个特征值各自的分布概率，将其代入到下式中进行k次运算：

其中，P(F_i＝f_i|C_j＝c_j)为第i个特征值的条件概率，P(C＝C_j)为步骤4中所得结果集的k种情况的发生概率。

比较这k次的结果，选出使得运算结果达到最大值的C_j(j＝1，2，3...，k)——该C_j对应的类别就是预测值。求上式的最大值也可以使用如下公式：

其中P(y＝c_k)为训练后的模型中k种情况的概率，P(xⁱ|y＝c_k)为第k种特征值的条件概率。

上述公式模型内要使用的先验概率和条件概率都可以通过在训练样本中做统计即可获得。

S106：对商家数据与评论数据进行聚类分析；

本发明采用k-means聚类算法并进行改进，算法的输入为一个样本集(或者被称为点集)，通过该算法可以将具有相似特征的样本聚为一类。针对每个点，计算该点距离所有中心点的欧氏距离，然后将该点归为欧式距离最小的中心点代表簇中。一次迭代结束之后，针对每个簇类，计算其所有点的平均值重新计算中心点，然后针对每个点，重新寻找距离自己最近的中心点。如此循环，直到前后两次迭代的簇类没有变化。

在原始的k-means算法中，初始化中心点是随机选取。因此，对聚类的结果影响比较大。在实际运用当中可以验证，不同的初始化中心点，会导致聚类效果的不同。为能得到较为稳定、描述精准的簇中心值，对k-means进行如下改进：

利用如下公式：

其中，C_j表示第j个簇，o是C_j中的样本点，m_j是C_j的质心(C_j中所有样本的均值)，SSE是所有样本的聚类误差，表示了聚类效果的好坏。

通过该公式，利用手肘法进行k-means算法中的k值进行确定。图3示出了手肘法确定k值的SSE/k图，一般情况下，当k的值越来越接近样本数量的时候，误差平方和会越来越小。当k远小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大；而当k不断接近真实聚类数时，k的增大对于每个簇的聚合程度变化的影响就会越来越小，SSE的变化也会越来越小，变化的幅度也会趋于放缓。

图4示出了改进k-means算法的流程图，具体算法流程如下：

步骤1：初始化k个簇中心值；

S107：生成商家数据标签与商家词云；

经过k-means聚类算法处理过的每个数据簇类只具有数据特征，不具有标签描述。如果直接向用户展示，用户不会理解其中的意义和内涵。为了能更好地向用户展示，需要为这些处理过的数据簇类进行标签标记，这样就可以更加直观，更加清晰地向用户展示数据簇类所代表的意义。

评论簇类标记标签的维度设计为平均评论长度、平均用户评分、评论平均积极度三个方面。系统根据这三个维度，采用树的结构对每个维度进行评判，最后得出相应的标签作为该数据簇类的标签描述。

词云生成使用图形生成库matplotlib与词云生成库wordcloud，将每个商家下的高频词进行抽取，以该商家的类别图片作为词云可视化的形状，生成每个商家的特色词云。

S108：客户端向用户服务。

对不同用户提供不同服务，对于消费者用户，提供查看商家评价数据、词云等功能，并根据用户选取坐标推荐或根据商家评分推荐；对于商家用户，提供进一步的评论分析功能，具体而言包括全区域评论挖掘，对比商家基本信息，提取商家详细信息等。

以上所述的实例对本发明的技术方案进行了详细说明，但以上所述具体实例并不限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的商家评论分析系统，其特征在于，包括：数据处理层、机器学习算法层、用户服务层；

2.如权利要求1所述的基于机器学习的商家评论分析系统，其特征在于，所述数据处理层包括：数据获取模块、数据处理模块；

3.如权利要求1或2所述的基于机器学习的商家评论分析系统，其特征在于，所述机器学习算法层包括：模型训练模块、情感分析模块、聚类分析及标签生成模块；

所述情感分析模块，使用朴素贝叶斯模型计算情感积极度；

4.一种基于机器学习的商家评论分析系统的分析方法，其特征在于，包括如下步骤：

步骤1：采用爬虫技术抓取平台的用户评论数据、商家数据；

步骤2：对商家数据、用户评论数据进行预处理；

步骤4：使用所述训练样本训练朴素贝叶斯模型；

步骤6：对商家数据与用户评论数据进行聚类分析；

5.如权利要求4所述的基于机器学习的商家评论分析系统的分析方法，其特征在于，所述步骤3的具体方法如下：

6.如权利要求4所述的基于机器学习的商家评论分析系统的分析方法，其特征在于，所述步骤4的具体方法如下：

7.如权利要求4所述的基于机器学习的商家评论分析系统的分析方法，其特征在于，所述步骤5的具体方法如下：

8.如权利要求7所述的基于机器学习的商家评论分析系统的分析方法，其特征在于，所述通过朴素贝叶斯模型获取所有特征值的分布概率的方法如下：

9.如权利要求7所述的基于机器学习的商家评论分析系统的分析方法，其特征在于，所述通过朴素贝叶斯模型获取所有特征值的分布概率的方法如下：

10.如权利要求4所述的基于机器学习的商家评论分析系统的分析方法，其特征在于，所述步骤6的具体方法如下：

采用改进后的k-means算法对商家数据与用户评论数据进行聚类分析，

其中，所述改进后的k-means算法的步骤如下：

步骤1：初始化k个簇中心值；