CN112307211A

CN112307211A - 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法

Info

Publication number: CN112307211A
Application number: CN202011244556.7A
Authority: CN
Inventors: 廖杰; 邓方华; 张衍彬
Original assignee: Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Current assignee: Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-02

Abstract

本发明涉及自然语言处理技术领域，具体为一种基于卷积神经网络和BM25的外卖评论情感极性分析方法，该方法的步骤如下：步骤一、爬取门店的评论数据，人工标注导入数据库；步骤二、对数据库的数据进行数据清洗；步骤三、数据分词处理并计算词向量；步骤四、采用卷积神经网络CNN训练模型；步骤五、利用模型预测结果，本发明使用了BM25的改进算法，和基准TFIDF比较，BM25算法在TF计算方法中增加了一个常量k，用来限制TF值的增长极限，BM25的TF Score会被限制在0—k+1之间，TF Score不可能无限的增加，从而更加符合文本相关性的逻辑，本发明利用卷积神经网络CNN不需要依赖前面的结果，因此训练速度会更快。

Description

一种基于卷积神经网络和BM25的外卖评论情感极性分析方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种基于卷积神经网络和BM25的外卖评论情感极性分析方法。

背景技术

在外卖领域中，将自然语言处理技术应用到外卖评论的情感识别中，在该过程中一般利用LSTM神经网络和TFIDF算法进行识别分析，外卖评论数据长度短，因此前文利用的信息有限，一般利用LSTM神经网络进行模型训练，但LSTM神经网络在短时序中效果有限，LSTM的训练速度慢，消耗的算力资源多；利用TFIDF算法，在tf不断增加时，TF Score会无限制增加，不符合在实际业务中词在文档中的权重占比逻辑。鉴于此，我们提出一种基于卷积神经网络和BM25的外卖评论情感极性分析方法。

发明内容

本发明的目的在于提供一种基于卷积神经网络和BM25的外卖评论情感极性分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于卷积神经网络和BM25的外卖评论情感极性分析方法，该方法的步骤如下：

步骤一、爬取门店的评论数据，人工标注导入数据库；

步骤二、对数据库的数据进行数据清洗；

步骤三、数据分词处理并计算词向量；

步骤四、采用卷积神经网络CNN训练模型；

步骤五、利用模型预测结果。

作为本发明优选的技术方案，步骤二中的清洗步骤包括：去停用词、去html格式以及去掉空格，然后将清洗的数据再次导入到数据库中。

作为本发明优选的技术方案，步骤三的具体操作为：利用jieba工具对清洗的数据进行分词，通过BM25算法对分词后的数据进行处理计算得到词向量。

作为本发明优选的技术方案，步骤四的具体操作为：将词向量输入到卷积神经网络训练，网络结构为6层，每层经过ReLU激励函数，然后经过dropout最后接softmax，得到训练结果模型，并保存训练结果最好的模型。

作为本发明优选的技术方案，步骤五的具体操作为：对新来评论进行数据处理，经过BM25算法处理得到新的词向量，加载训练好的模型，将新的词向量输入到模型中预测得出结果。

作为本发明优选的技术方案，卷积神经网络CNN的6层网络结构分别为：数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。

作为本发明优选的技术方案，BM25算法是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法，BM25算法算法的简单定义为：有一个query和一批文档Ds，现在要计算query和每篇文档D之间的相关性分数，先对query进行切分，得到单词$q_i$，然后单词的分数由3部分组成：1)单词$q_i$和D之间的相关性；2)单词$q_i$和D之间的相关性；3)每个单词的权重；最后对于每个单词的分数我们做一个求和，就得到了query和文档之间的分数。

作为本发明优选的技术方案，卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入，使用多个不同size的filter去提取句子中的关键信息，并用于最终的分类。

作为本发明优选的技术方案，ReLU激励函数是一种激活函数，函数公式为：F(X)＝MAX(0，X)。

作为本发明优选的技术方案，jieba库是一种文本处理开源工具。

与现有技术相比，本发明的有益效果是：

本发明使用了BM25的改进算法，和基准TFIDF比较，BM25算法在TF计算方法中增加了一个常量k，用来限制TF值的增长极限，BM25的TF Score会被限制在O-k+1之间，TF Score不可能无限的增加，从而更加符合文本相关性的逻辑，本发明利用卷积神经网络CNN不需要依赖前面的结果，因此训练速度会更快。

附图说明

图1为本发明的主流程图；

图2为本发明中BM25和TFIDF对TF Score影响的走势图；

图3为本发明中模型训练流程图；

图4为本发明中卷积神经网络CNN网络结构图；

图5为本发明中ReLU函数图像。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例提供的技术方案为：一种基于卷积神经网络和BM25的外卖评论情感极性分析方法，该方法的步骤如下：

步骤一、爬取门店的评论数据，人工标注导入数据库；

步骤二、对数据库的数据进行数据清洗；

步骤三、数据分词处理并计算词向量；

步骤四、采用卷积神经网络CNN训练模型；

步骤五、利用模型预测结果。

作为本实施例的优选，步骤二中的清洗步骤包括：去停用词、去html格式以及去掉空格，然后将清洗的数据再次导入到数据库中，下面用实际样例进行分析，数据如下表所示：

作为本实施例的优选，步骤三的具体操作为：利用jieba工具对清洗的数据进行分词，通过BM25算法对分词后的数据进行处理计算得到词向量，下面用实际样例进行分析，数据如下表所示：

作为本实施例的优选，步骤四的具体操作为：将词向量输入到卷积神经网络训练，网络结构为6层，每层经过ReLU激励函数，然后经过dropout最后接softmax，得到训练结果模型，并保存训练结果最好的模型。

作为本实施例的优选，步骤五的具体操作为：对新来评论进行数据处理，经过BM25算法处理得到新的词向量，加载训练好的模型，将新的词向量输入到模型中预测得出结果。

作为本实施例的优选，卷积神经网络CNN的6层网络结构分别为：数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。

作为本实施例的优选，BM25算法是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法，BM25算法算法的简单定义为：有一个query和一批文档Ds，现在要计算query和每篇文档D之间的相关性分数，先对query进行切分，得到单词$q_i$，然后单词的分数由3部分组成：1)单词$q_i$和D之间的相关性；2)单词$q_i$和D之间的相关性；3)每个单词的权重；最后对于每个单词的分数我们做一个求和，就得到了query和文档之间的分数。

作为本实施例的优选，卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入，使用多个不同size的filter去提取句子中的关键信息，并用于最终的分类。

作为本实施例的优选，ReLU激励函数是一种激活函数，函数公式为：F(X)＝MAX(0，X)。

对比例1

本对比例提供的技术方案为：一种基于卷积神经网络的外卖评论情感极性分析方法，该方法的步骤如下：

步骤一、爬取门店的评论数据，人工标注导入数据库；

步骤二、对数据库的数据进行数据清洗；

步骤三、数据分词处理并计算词向量；

步骤四、采用卷积神经网络CNN训练模型；

步骤五、利用模型预测结果。

作为本对比例的优选，步骤二中的清洗步骤包括：去停用词、去html格式以及去掉空格，然后将清洗的数据再次导入到数据库中，下面用实际样例进行分析，数据如下表所示：

作为本对比例的优选，步骤三的具体操作为：利用jieba工具对清洗的数据进行分词，并对分词后的数据进行处理计算得到词向量，下面用实际样例进行分析，数据如下表所示：

作为本对比例的优选，步骤四的具体操作为：将词向量输入到卷积神经网络训练，网络结构为6层，每层经过ReLU激励函数，然后经过dropout最后接softmax，得到训练结果模型，并保存训练结果最好的模型。

作为本对比例的优选，步骤五的具体操作为：对新来评论进行数据处理，并对处理后的数据进行二次处理得到新的词向量，加载训练好的模型，将新的词向量输入到模型中预测得出结果。

作为本对比例的优选，卷积神经网络CNN的6层网络结构分别为：数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。

作为本对比例的优选，卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入，使用多个不同size的filter去提取句子中的关键信息，并用于最终的分类。

作为本对比例的优选，ReLU激励函数是一种激活函数，函数公式为：F(X)＝MAX(0，X)。

作为本对比例的优选，jieba库是一种文本处理开源工具。

对比例2

本对比例提供的技术方案为：一种基于卷积神经网络和TFIDF的外卖评论情感极性分析方法，该方法的步骤如下：

步骤一、爬取门店的评论数据，人工标注导入数据库；

步骤二、对数据库的数据进行数据清洗；

步骤三、数据分词处理并计算词向量；

步骤四、采用卷积神经网络CNN训练模型；

步骤五、利用模型预测结果。

作为本对比例的优选，步骤三的具体操作为：利用jieba工具对清洗的数据进行分词，通过TFIDF加权技术对分词后的数据进行处理计算得到词向量，下面用实际样例进行分析，数据如下表所示：

作为本对比例的优选，步骤五的具体操作为：对新来评论进行数据处理，经过TFIDF加权技术处理得到新的词向量，加载训练好的模型，将新的词向量输入到模型中预测得出结果。

作为本对比例的优选，jieba库是一种文本处理开源工具。

将本发明的实施例和两个对比例提供的外卖评论情感极性分析方法对外卖评论进行情感极性分析，得到如下数据：

方法	准确率	F1值
			CNN	89.65％	88.81％
CNN+TFIDF	92.55％	87.21％
			CNN+BM25	98.24％	89.01％

通过上述表格的数据可知，通过本发明提供的基于卷积神经网络和BM25的外卖评论情感极性分析方法预测准确率相比较其它两种方法有较大提升。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：该方法的步骤如下：

步骤一、爬取门店的评论数据，人工标注导入数据库；

步骤二、对数据库的数据进行数据清洗；

步骤三、数据分词处理并计算词向量；

步骤四、采用卷积神经网络CNN训练模型；

步骤五、利用模型预测结果。

2.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：步骤二中的清洗步骤包括：去停用词、去html格式以及去掉空格，然后将清洗的数据再次导入到数据库中。

3.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：步骤三的具体操作为：利用jieba工具对清洗的数据进行分词，通过BM25算法对分词后的数据进行处理计算得到词向量。

4.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：步骤四的具体操作为：将词向量输入到卷积神经网络训练，网络结构为6层，每层经过ReLU激励函数，然后经过dropout最后接softmax，得到训练结果模型，并保存训练结果最好的模型。

5.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：步骤五的具体操作为：对新来评论进行数据处理，经过BM25算法处理得到新的词向量，加载训练好的模型，将新的词向量输入到模型中预测得出结果。

6.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：卷积神经网络CNN的6层网络结构分别为：数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。

7.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：BM25算法是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法，BM25算法算法的简单定义为：有一个query和一批文档Ds，现在要计算query和每篇文档D之间的相关性分数，先对query进行切分，得到单词$q_i$，然后单词的分数由3部分组成：1)单词$q_i$和D之间的相关性；2)单词$q_i$和D之间的相关性；3)每个单词的权重；最后对于每个单词的分数我们做一个求和，就得到了query和文档之间的分数。

8.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入，使用多个不同size的filter去提取句子中的关键信息，并用于最终的分类。

9.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：ReLU激励函数是一种激活函数，函数公式为：F(X)＝MAX(0，X)。

10.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法，其特征在于：jieba库是一种文本处理开源工具。