CN112307211A - 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 - Google Patents

一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 Download PDF

Info

Publication number
CN112307211A
CN112307211A CN202011244556.7A CN202011244556A CN112307211A CN 112307211 A CN112307211 A CN 112307211A CN 202011244556 A CN202011244556 A CN 202011244556A CN 112307211 A CN112307211 A CN 112307211A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
data
takeaway
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011244556.7A
Other languages
English (en)
Inventor
廖杰
邓方华
张衍彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Original Assignee
Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd filed Critical Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Priority to CN202011244556.7A priority Critical patent/CN112307211A/zh
Publication of CN112307211A publication Critical patent/CN112307211A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理技术领域,具体为一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,该方法的步骤如下:步骤一、爬取门店的评论数据,人工标注导入数据库;步骤二、对数据库的数据进行数据清洗;步骤三、数据分词处理并计算词向量;步骤四、采用卷积神经网络CNN训练模型;步骤五、利用模型预测结果,本发明使用了BM25的改进算法,和基准TFIDF比较,BM25算法在TF计算方法中增加了一个常量k,用来限制TF值的增长极限,BM25的TF Score会被限制在0—k+1之间,TF Score不可能无限的增加,从而更加符合文本相关性的逻辑,本发明利用卷积神经网络CNN不需要依赖前面的结果,因此训练速度会更快。

Description

一种基于卷积神经网络和BM25的外卖评论情感极性分析方法
技术领域
本发明涉及自然语言处理技术领域,具体为一种基于卷积神经网络和BM25的外卖评论情感极性分析方法。
背景技术
在外卖领域中,将自然语言处理技术应用到外卖评论的情感识别中,在该过程中一般利用LSTM神经网络和TFIDF算法进行识别分析,外卖评论数据长度短,因此前文利用的信息有限,一般利用LSTM神经网络进行模型训练,但LSTM神经网络在短时序中效果有限,LSTM的训练速度慢,消耗的算力资源多;利用TFIDF算法,在tf不断增加时,TF Score会无限制增加,不符合在实际业务中词在文档中的权重占比逻辑。鉴于此,我们提出一种基于卷积神经网络和BM25的外卖评论情感极性分析方法。
发明内容
本发明的目的在于提供一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
作为本发明优选的技术方案,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中。
作为本发明优选的技术方案,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过BM25算法对分词后的数据进行处理计算得到词向量。
作为本发明优选的技术方案,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
作为本发明优选的技术方案,步骤五的具体操作为:对新来评论进行数据处理,经过BM25算法处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
作为本发明优选的技术方案,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
作为本发明优选的技术方案,BM25算法是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,BM25算法算法的简单定义为:有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,先对query进行切分,得到单词$q_i$,然后单词的分数由3部分组成:1)单词$q_i$和D之间的相关性;2)单词$q_i$和D之间的相关性;3)每个单词的权重;最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。
作为本发明优选的技术方案,卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
作为本发明优选的技术方案,ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
作为本发明优选的技术方案,jieba库是一种文本处理开源工具。
与现有技术相比,本发明的有益效果是:
本发明使用了BM25的改进算法,和基准TFIDF比较,BM25算法在TF计算方法中增加了一个常量k,用来限制TF值的增长极限,BM25的TF Score会被限制在O-k+1之间,TF Score不可能无限的增加,从而更加符合文本相关性的逻辑,本发明利用卷积神经网络CNN不需要依赖前面的结果,因此训练速度会更快。
附图说明
图1为本发明的主流程图;
图2为本发明中BM25和TFIDF对TF Score影响的走势图;
图3为本发明中模型训练流程图;
图4为本发明中卷积神经网络CNN网络结构图;
图5为本发明中ReLU函数图像。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例提供的技术方案为:一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
作为本实施例的优选,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767866790000031
Figure BDA0002767866790000041
作为本实施例的优选,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过BM25算法对分词后的数据进行处理计算得到词向量,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767866790000042
作为本实施例的优选,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
作为本实施例的优选,步骤五的具体操作为:对新来评论进行数据处理,经过BM25算法处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
作为本实施例的优选,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
作为本实施例的优选,BM25算法是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,BM25算法算法的简单定义为:有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,先对query进行切分,得到单词$q_i$,然后单词的分数由3部分组成:1)单词$q_i$和D之间的相关性;2)单词$q_i$和D之间的相关性;3)每个单词的权重;最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。
作为本实施例的优选,卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
作为本实施例的优选,ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
作为本发明优选的技术方案,jieba库是一种文本处理开源工具。
对比例1
本对比例提供的技术方案为:一种基于卷积神经网络的外卖评论情感极性分析方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
作为本对比例的优选,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767866790000051
Figure BDA0002767866790000061
作为本对比例的优选,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,并对分词后的数据进行处理计算得到词向量,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767866790000062
作为本对比例的优选,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
作为本对比例的优选,步骤五的具体操作为:对新来评论进行数据处理,并对处理后的数据进行二次处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
作为本对比例的优选,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
作为本对比例的优选,卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
作为本对比例的优选,ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
作为本对比例的优选,jieba库是一种文本处理开源工具。
对比例2
本对比例提供的技术方案为:一种基于卷积神经网络和TFIDF的外卖评论情感极性分析方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
作为本对比例的优选,步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767866790000071
Figure BDA0002767866790000081
作为本对比例的优选,步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过TFIDF加权技术对分词后的数据进行处理计算得到词向量,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767866790000082
作为本对比例的优选,步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
作为本对比例的优选,步骤五的具体操作为:对新来评论进行数据处理,经过TFIDF加权技术处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
作为本对比例的优选,卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
作为本对比例的优选,卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
作为本对比例的优选,ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
作为本对比例的优选,jieba库是一种文本处理开源工具。
将本发明的实施例和两个对比例提供的外卖评论情感极性分析方法对外卖评论进行情感极性分析,得到如下数据:
方法 准确率 F1值
CNN 89.65% 88.81%
CNN+TFIDF 92.55% 87.21%
CNN+BM25 98.24% 89.01%
通过上述表格的数据可知,通过本发明提供的基于卷积神经网络和BM25的外卖评论情感极性分析方法预测准确率相比较其它两种方法有较大提升。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:该方法的步骤如下:
步骤一、爬取门店的评论数据,人工标注导入数据库;
步骤二、对数据库的数据进行数据清洗;
步骤三、数据分词处理并计算词向量;
步骤四、采用卷积神经网络CNN训练模型;
步骤五、利用模型预测结果。
2.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤二中的清洗步骤包括:去停用词、去html格式以及去掉空格,然后将清洗的数据再次导入到数据库中。
3.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤三的具体操作为:利用jieba工具对清洗的数据进行分词,通过BM25算法对分词后的数据进行处理计算得到词向量。
4.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤四的具体操作为:将词向量输入到卷积神经网络训练,网络结构为6层,每层经过ReLU激励函数,然后经过dropout最后接softmax,得到训练结果模型,并保存训练结果最好的模型。
5.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:步骤五的具体操作为:对新来评论进行数据处理,经过BM25算法处理得到新的词向量,加载训练好的模型,将新的词向量输入到模型中预测得出结果。
6.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:卷积神经网络CNN的6层网络结构分别为:数据输入层、卷积计算层、激励层、卷积计算层、激励层、池化层和全连接。
7.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:BM25算法是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,BM25算法算法的简单定义为:有一个query和一批文档Ds,现在要计算query和每篇文档D之间的相关性分数,先对query进行切分,得到单词$q_i$,然后单词的分数由3部分组成:1)单词$q_i$和D之间的相关性;2)单词$q_i$和D之间的相关性;3)每个单词的权重;最后对于每个单词的分数我们做一个求和,就得到了query和文档之间的分数。
8.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:卷积神经网络CNN的原理为将不同长度的短文作为矩阵输入,使用多个不同size的filter去提取句子中的关键信息,并用于最终的分类。
9.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:ReLU激励函数是一种激活函数,函数公式为:F(X)=MAX(0,X)。
10.根据权利要求1所描述的基于卷积神经网络和BM25的外卖评论情感极性分析方法,其特征在于:jieba库是一种文本处理开源工具。
CN202011244556.7A 2020-11-09 2020-11-09 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法 Pending CN112307211A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011244556.7A CN112307211A (zh) 2020-11-09 2020-11-09 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011244556.7A CN112307211A (zh) 2020-11-09 2020-11-09 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法

Publications (1)

Publication Number Publication Date
CN112307211A true CN112307211A (zh) 2021-02-02

Family

ID=74324828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011244556.7A Pending CN112307211A (zh) 2020-11-09 2020-11-09 一种基于卷积神经网络和bm25的外卖评论情感极性分析方法

Country Status (1)

Country Link
CN (1) CN112307211A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN109597995A (zh) * 2018-12-04 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于bm25加权结合词向量的文本表示方法
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107025284A (zh) * 2017-04-06 2017-08-08 中南大学 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN109597995A (zh) * 2018-12-04 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于bm25加权结合词向量的文本表示方法
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法

Similar Documents

Publication Publication Date Title
CN110807320B (zh) 基于cnn双向gru注意力机制的短文本情感分析方法
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
CN113239181A (zh) 基于深度学习的科技文献引文推荐方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN110413768B (zh) 一种文章题目自动生成方法
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN111291188A (zh) 一种智能信息抽取方法及系统
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN113159831A (zh) 一种基于改进的胶囊网络的评论文本情感分析方法
CN110399603A (zh) 一种基于意群划分的文本处理技术方法和系统
CN110851593A (zh) 一种基于位置与语义的复值词向量构建方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN117474703A (zh) 基于社交网络的话题智能推荐方法
Rong et al. Sentiment analysis of ecommerce product review data based on deep learning
CN107451116A (zh) 一种移动应用内生大数据统计分析方法
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN112329449B (zh) 基于情感词典和Transformer的情感分析方法
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统
CN113051892A (zh) 基于transformer模型的汉语词义消歧方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination