CN112307211A - 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 - Google Patents
一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 Download PDFInfo
- Publication number
- CN112307211A CN112307211A CN202011244556.7A CN202011244556A CN112307211A CN 112307211 A CN112307211 A CN 112307211A CN 202011244556 A CN202011244556 A CN 202011244556A CN 112307211 A CN112307211 A CN 112307211A
- Authority
- CN
- China
- Prior art keywords
- neural network
- convolutional neural
- data
- takeaway
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理技术领域,具体为一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,该方法的步骤如下:步骤一、爬取门店的评论数据,人工标注导入数据库;步骤二、对数据库的数据进行数据清洗;步骤三、数据分词处理并计算词向量;步骤四、采用卷积神经网络CNN训练模型;步骤五、利用模型预测结果,本发明使用了BM25的改进算法,和基准TFIDF比较,BM25算法在TF计算方法中增加了一个常量k,用来限制TF值的增长极限,BM25的TF Score会被限制在0—k+1之间,TF Score不可能无限的增加,从而更加符合文本相关性的逻辑,本发明利用卷积神经网络CNN不需要依赖前面的结果,因此训练速度会更快。
Description
技术领域
本发明涉及自然语言处理技术领域,具体为一种基于卷积神经网络和BM25的外卖评论情感极性分析方法。
背景技术
在外卖领域中,将自然语言处理技术应用到外卖评论的情感识别中,在该过程中一般利用LSTM神经网络和TFIDF算法进行识别分析,外卖评论数据长度短,因此前文利用的信息有限,一般利用LSTM神经网络进行模型训练,但LSTM神经网络在短时序中效果有限,LSTM的训练速度慢,消耗的算力资源多;利用TFIDF算法,在tf不断增加时,TF Score会无限制增加,不符合在实际业务中词在文档中的权重占比逻辑。鉴于此,我们提出一种基于卷积神经网络和BM25的外卖评论情感极性分析方法。
发明内容
本发明的目的在于提供一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
作为本发明优选的技术方案,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中。
作为本发明优选的技术方案,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过BM25算法对分词后的数据进行处理计算得到词向量。
作为本发明优选的技术方案,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
作为本发明优选的技术方案,步骤五的具体操作为:对新来评论进行数据处理,经过BM25算法处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
作为本发明优选的技术方案,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
作为本发明优选的技术方案,BM25算法是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,BM25算法算法的简单定义为:有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,先对query进行切分,得到单词$q_i$,然后单词的分数由3部分组成:1)单词$q_i$和D之间的相关性;2)单词$q_i$和D之间的相关性;3)每个单词的权重;最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。
作为本发明优选的技术方案,卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
作为本发明优选的技术方案,ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
作为本发明优选的技术方案,jieba库是一种文本处理开源工具。
与现有技术相比,本发明的有益效果是:
本发明使用了BM25的改进算法,和基准TFIDF比较,BM25算法在TF计算方法中增加了一个常量k,用来限制TF值的增长极限,BM25的TF Score会被限制在O-k+1之间,TF Score不可能无限的增加,从而更加符合文本相关性的逻辑,本发明利用卷积神经网络CNN不需要依赖前面的结果,因此训练速度会更快。
附图说明
图1为本发明的主流程图;
图2为本发明中BM25和TFIDF对TF Score影响的走势图;
图3为本发明中模型训练流程图;
图4为本发明中卷积神经网络CNN网络结构图;
图5为本发明中ReLU函数图像。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例提供的技术方案为:一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
作为本实施例的优选,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中,下面用实际样例进行分析,数据如下表所示:
作为本实施例的优选,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过BM25算法对分词后的数据进行处理计算得到词向量,下面用实际样例进行分析,数据如下表所示:
作为本实施例的优选,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
作为本实施例的优选,步骤五的具体操作为:对新来评论进行数据处理,经过BM25算法处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
作为本实施例的优选,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
作为本实施例的优选,BM25算法是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,BM25算法算法的简单定义为:有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,先对query进行切分,得到单词$q_i$,然后单词的分数由3部分组成:1)单词$q_i$和D之间的相关性;2)单词$q_i$和D之间的相关性;3)每个单词的权重;最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。
作为本实施例的优选,卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
作为本实施例的优选,ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
作为本发明优选的技术方案,jieba库是一种文本处理开源工具。
对比例1
本对比例提供的技术方案为:一种基于卷积神经网络的外卖评论情感极性分析方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
作为本对比例的优选,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中,下面用实际样例进行分析,数据如下表所示:
作为本对比例的优选,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,并对分词后的数据进行处理计算得到词向量,下面用实际样例进行分析,数据如下表所示:
作为本对比例的优选,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
作为本对比例的优选,步骤五的具体操作为:对新来评论进行数据处理,并对处理后的数据进行二次处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
作为本对比例的优选,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
作为本对比例的优选,卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
作为本对比例的优选,ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
作为本对比例的优选,jieba库是一种文本处理开源工具。
对比例2
本对比例提供的技术方案为:一种基于卷积神经网络和TFIDF的外卖评论情感极性分析方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
作为本对比例的优选,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中,下面用实际样例进行分析,数据如下表所示:
作为本对比例的优选,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过TFIDF加权技术对分词后的数据进行处理计算得到词向量,下面用实际样例进行分析,数据如下表所示:
作为本对比例的优选,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
作为本对比例的优选,步骤五的具体操作为:对新来评论进行数据处理,经过TFIDF加权技术处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
作为本对比例的优选,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
作为本对比例的优选,卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
作为本对比例的优选,ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
作为本对比例的优选,jieba库是一种文本处理开源工具。
将本发明的实施例和两个对比例提供的外卖评论情感极性分析方法对外卖评论进行情感极性分析,得到如下数据:
方法 | 准确率 | F1值 |
CNN | 89.65% | 88.81% |
CNN+TFIDF | 92.55% | 87.21% |
CNN+BM25 | 98.24% | 89.01% |
通过上述表格的数据可知,通过本发明提供的基于卷积神经网络和BM25的外卖评论情感极性分析方法预测准确率相比较其它两种方法有较大提升。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
2.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中。
3.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过BM25算法对分词后的数据进行处理计算得到词向量。
4.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
5.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤五的具体操作为:对新来评论进行数据处理,经过BM25算法处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
6.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
7.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:BM25算法是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,BM25算法算法的简单定义为:有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,先对query进行切分,得到单词$q_i$,然后单词的分数由3部分组成:1)单词$q_i$和D之间的相关性;2)单词$q_i$和D之间的相关性;3)每个单词的权重;最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。
8.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
9.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
10.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:jieba库是一种文本处理开源工具。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244556.7A CN112307211A (zh) | 2020-11-09 | 2020-11-09 | 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244556.7A CN112307211A (zh) | 2020-11-09 | 2020-11-09 | 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112307211A true CN112307211A (zh) | 2021-02-02 |
Family
ID=74324828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011244556.7A Pending CN112307211A (zh) | 2020-11-09 | 2020-11-09 | 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307211A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
CN109597995A (zh) * | 2018-12-04 | 2019-04-09 | 国网江西省电力有限公司信息通信分公司 | 一种基于bm25加权结合词向量的文本表示方法 |
CN111125349A (zh) * | 2019-12-17 | 2020-05-08 | 辽宁大学 | 基于词频和语义的图模型文本摘要生成方法 |
-
2020
- 2020-11-09 CN CN202011244556.7A patent/CN112307211A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
CN109597995A (zh) * | 2018-12-04 | 2019-04-09 | 国网江西省电力有限公司信息通信分公司 | 一种基于bm25加权结合词向量的文本表示方法 |
CN111125349A (zh) * | 2019-12-17 | 2020-05-08 | 辽宁大学 | 基于词频和语义的图模型文本摘要生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807320B (zh) | 基于cnn双向gru注意力机制的短文本情感分析方法 | |
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN113239181A (zh) | 基于深度学习的科技文献引文推荐方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN110413768B (zh) | 一种文章题目自动生成方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN111291188A (zh) | 一种智能信息抽取方法及系统 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN113159831A (zh) | 一种基于改进的胶囊网络的评论文本情感分析方法 | |
CN110399603A (zh) | 一种基于意群划分的文本处理技术方法和系统 | |
CN110851593A (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
CN117474703A (zh) | 基于社交网络的话题智能推荐方法 | |
Rong et al. | Sentiment analysis of ecommerce product review data based on deep learning | |
CN107451116A (zh) | 一种移动应用内生大数据统计分析方法 | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
CN112329449B (zh) | 基于情感词典和Transformer的情感分析方法 | |
CN112200674B (zh) | 一种证券市场情绪指数智能计算信息系统 | |
CN113051892A (zh) | 基于transformer模型的汉语词义消歧方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN113342964B (zh) | 一种基于移动业务的推荐类型确定方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |