CN111143567A - 一种基于改进神经网络的评论情感分析方法 - Google Patents
一种基于改进神经网络的评论情感分析方法 Download PDFInfo
- Publication number
- CN111143567A CN111143567A CN201911393458.7A CN201911393458A CN111143567A CN 111143567 A CN111143567 A CN 111143567A CN 201911393458 A CN201911393458 A CN 201911393458A CN 111143567 A CN111143567 A CN 111143567A
- Authority
- CN
- China
- Prior art keywords
- comment
- emotion
- neural network
- feature
- convolution kernels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于改进神经网络的评论情感分析方法,对于输入的评论文本数据,构造评论表征矩阵;依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;拼接得到的每个特征图的特征向量,并使其与全连接层相连;使用Softmax函数将全连接层的输出映射为一个概率分布向量,该概率分布向量的每一维对应情感分析任务中的一个情感类别;选择概率分布向量中概率最大的值对应的情感类别作为评论情感判断结果。本发明能够有效对文本序列建模,能够有效保留文本的序列特征,从而精确有效地识别评论文本内容中的情感态度。
Description
技术领域
本发明属于文本识别技术领域,特别是涉及一种基于改进神经网络的评论情感分析方法。
背景技术
评论情感分析的目的是通过智能化方法使计算机“理解”评论者对所评商品的情感态度。传统情感分析算法主要使用基于统计的手段提取文本在词频、序列等方面的固有特性,然后使用经典统计学习算法(如贝叶斯、支持向量机、决策树等)构建分类模型,实现文本的情感分析。传统情感分析算法大多依赖于词袋模型或马尔可夫假设。词袋模型仅考虑与词频相关的信息,忽略词与词之间的序列关系,因此无法有效进行序列建模。马尔可夫假设则认为“一个词的出现仅与其前k个词相关”,因此无法解决长序列建模的问题。
发明内容
为了解决上述问题,本发明提出了一种基于改进神经网络的评论情感分析方法,能够有效对文本序列建模,有效保留文本的序列特征,从而精确有效地识别评论文本内容的情感态度。
为达到上述目的,本发明采用的技术方案是:一种基于改进神经网络的评论情感分析方法,包括步骤:
对于输入的评论文本数据,构造评论表征矩阵;
依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;
使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;
拼接得到的每个特征图的特征向量,并使其与全连接层相连;
使用Softmax函数将全连接层的输出映射为一个概率分布向量,且该概率分布向量的每一维对应情感分析任务中的一个情感类别;
选择概率分布向量中概率最大的值对应的情感类别作为评论情感判断结果。
进一步的是,对于输入的评论文本数据,进行分词处理,使用字词向量转换方法得到中文词向量,构造评论表征矩阵。
进一步的是,所述字词向量转换方法采用word2vec方法,将字词转换成多维向量。
进一步的是,所述评论表征矩阵的每一行表示评论中的一个词,每一列表示词向量的特定维度,所述词向量维度设置为300。
进一步的是,所述多个卷积核依次为3×300卷积核、4×300卷积核和5×300的卷积核,且每一类卷积核的数量设置为100。
进一步的是,使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量,包括步骤:
设置金字塔池化的等级为[n1,n2,...,nk];
依次将每个特征图等分为ni份,i=1,2,3,...,k;
使用maxpooling从划分后的每一份特征图采样出最大值,并拼接该数个最大值得到固定长度的特征向量。
使用金字塔池化等分经卷积得到的每个特征向量,然后使用MaxPooling提取每一份的最大值。保证不同子特征向量间的序列结构,能够有效利用文本的序列结构信息。
进一步的是,所述全连接层的数量与情感分析任务分类数量一致。情感评论分为两类(好评、差评)时,全连接层为2;情感评论分为五类(极差、较差、中性、较好、极好)时,全连接层为5。
采用本技术方案的有益效果:
本发明依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量。能够按照其序列顺序有效采样各个特征图,实现序列建模;不论输入特征图的大小尺寸,输出大小尺寸是固定的,能够解决输入特征图大小不一致的问题。
本发明通过使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;拼接得到每个特征图的特征向量,并使其与全连接层相连;将特征向量进行固定长度处理并拼接。能够有效避免输入文本长度差异,有效利用文本的序列结构信息。
本发明通过选择得到的概率分布向量中概率最大值对应的情感类别为模型判断结果。能够精确有效识别评论文本内容的情感态度。
附图说明
图1为本发明的一种基于改进神经网络的评论情感分析方法流程示意图;
图2为本发明实施例中改进神经网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1和图2所示,本发明提出了一种基于改进神经网络的评论情感分析方法,包括步骤:
对于输入的评论文本数据,构造评论表征矩阵;
依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;
使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;
拼接得到的每个特征图的特征向量,并使其与全连接层相连;
使用Softmax函数将全连接层的输出映射为一个概率分布向量,且该向量的每一维对应情感分析任务中的一个情感类别;
选择概率分布向量中概率最大的值对应的情感类别作为评论情感判断结果。
作为上述实施例的优化方案,对于输入的评论文本数据,进行分词处理并使用字词向量转换方法得到中文词向量并构造评论表征矩阵。
所述字词向量转换方法采用word2vec方法,将字词转换成多维向量。
所述评论表征矩阵中每一行表示评论中的一个词,且每一列表示词向量的特定维度,所述词向量维度设置为300。
作为上述实施例的优化方案,所述多个卷积核依次为3×300卷积核、4×300卷积核和5×300的卷积核,且每一类卷积核的数量设置为100。
作为上述实施例的优化方案,使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量,包括步骤:
设置金字塔池化的等级为[n1,n2,...,nk];
依次将每个特征图等分为ni份,i=1,2,3,...,k;
使用maxpooling从划分后的每一份特征图中采样出最大值,并拼接该数个最大值得到固定长度的特征向量。
使用金字塔池化等分经卷积得到的每个特征向量,然后使用MaxPooling提取每一份的最大值。不同子特征向量间的序列结构得到了保证,能够有效利用文本的序列结构信息。
作为上述实施例的优化方案,所述全连接层的数量与情感分析任务分类数量一致。情感评论分为两类(好评、差评)时,全连接层为2;或情感评论分为五类(极差、较差、中性、较好、极好),全连接层为5。
为了验证本发明所提出的方法,从美团、饿了么和百度星选共爬取3万条评论文本数据,然后将情感评论分类为“好评”与“差评”。利用构造好的训练集训练如图2所示的改进神经网络。训练过程中,文本使用Google的word2vec预训练模型;模型的学习率为1e-3;一共使用三种大小的卷积核,其大小分别为3、4、5,且各自数量均为100;金字塔池化分别将原始特征向量分为2、3、4份。
模型训练好后,将其应用于评论自动情感分析任务;抽查得到的模型准确率可达到91.3%。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.一种基于改进神经网络的评论情感分析方法,其特征在于,包括步骤:
对于输入的评论文本数据,构造评论表征矩阵;
依次通过多个卷积核计算评论表征矩阵,得到不同尺寸的特征图;
使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量;
拼接得到的每个特征图的特征向量,并使其与全连接层相连;
使用Softmax函数将全连接层的输出映射为一个概率分布向量,该概率分布向量的每一维对应情感分析任务中的一个情感类别;
选择概率分布向量中概率最大的值对应的情感类别作为评论情感判断结果。
2.根据权利要求1所述的一种基于改进神经网络的评论情感分析方法,其特征在于,对于输入的评论文本数据,进行分词处理,使用字词向量转换方法得到中文词向量,构造评论表征矩阵。
3.根据权利要求2所述的一种基于改进神经网络的评论情感分析方法,其特征在于,所述字词向量转换方法采用word2vec方法,将字词转换成多维向量。
4.根据权利要求3所述的一种基于改进神经网络的评论情感分析方法,其特征在于,所述评论表征矩阵中每一行表示评论中的一个词,每一列表示词向量的特定维度,所述词向量维度设置为300。
5.根据权利要求4所述的一种基于改进神经网络的评论情感分析方法,其特征在于,所述多个卷积核依次为3×300卷积核、4×300卷积核和5×300卷积核,且每类卷积核的数量设置为100。
6.根据权利要求1-6中任一所述的一种基于改进神经网络的评论情感分析方法,其特征在于,使用金字塔池化计算每个得到的特征图,得到固定长度的特征向量,包括步骤:
设置金字塔池化的等级为[n1,n2,...,nk];
依次将每个特征图等分为ni份,i=1,2,3,...,k;
使用maxpooling从划分后的每份特征图中采样出最大值,并拼接该数个最大值得到固定长度的特征向量。
7.根据权利要求1所述的一种基于改进神经网络的评论情感分析方法,其特征在于,所述全连接层的数量与情感分析任务分类数量一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911393458.7A CN111143567B (zh) | 2019-12-30 | 2019-12-30 | 一种基于改进神经网络的评论情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911393458.7A CN111143567B (zh) | 2019-12-30 | 2019-12-30 | 一种基于改进神经网络的评论情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111143567A true CN111143567A (zh) | 2020-05-12 |
CN111143567B CN111143567B (zh) | 2023-04-07 |
Family
ID=70521740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911393458.7A Active CN111143567B (zh) | 2019-12-30 | 2019-12-30 | 一种基于改进神经网络的评论情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111143567B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380395A (zh) * | 2020-10-30 | 2021-02-19 | 华南理工大学 | 基于双流架构的图卷积网络的情感获取方法、系统及存储介质 |
CN112463966A (zh) * | 2020-12-08 | 2021-03-09 | 北京邮电大学 | 虚假评论检测模型训练方法、检测方法及装置 |
CN112749275A (zh) * | 2020-05-22 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN114897504A (zh) * | 2022-05-20 | 2022-08-12 | 北京北大软件工程股份有限公司 | 一种处理重复信件的方法、装置、存储介质和电子设备 |
DE202023102803U1 (de) | 2023-05-22 | 2023-07-17 | Pradeep Bedi | System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
US20180260956A1 (en) * | 2017-03-10 | 2018-09-13 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (hdc) |
CN108614875A (zh) * | 2018-04-26 | 2018-10-02 | 北京邮电大学 | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 |
US20180341839A1 (en) * | 2017-05-26 | 2018-11-29 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN109948149A (zh) * | 2019-02-28 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及系统 |
CN110196946A (zh) * | 2019-05-29 | 2019-09-03 | 华南理工大学 | 一种基于深度学习的个性化推荐方法 |
CN110321563A (zh) * | 2019-06-28 | 2019-10-11 | 浙江大学 | 基于混合监督模型的文本情感分析方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
-
2019
- 2019-12-30 CN CN201911393458.7A patent/CN111143567B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140079297A1 (en) * | 2012-09-17 | 2014-03-20 | Saied Tadayon | Application of Z-Webs and Z-factors to Analytics, Search Engine, Learning, Recognition, Natural Language, and Other Utilities |
CN106599933A (zh) * | 2016-12-26 | 2017-04-26 | 哈尔滨工业大学 | 一种基于联合深度学习模型的文本情感分类方法 |
US20180260956A1 (en) * | 2017-03-10 | 2018-09-13 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (hdc) |
US20180341839A1 (en) * | 2017-05-26 | 2018-11-29 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
CN107391483A (zh) * | 2017-07-13 | 2017-11-24 | 武汉大学 | 一种基于卷积神经网络的商品评论数据情感分类方法 |
CN108062756A (zh) * | 2018-01-29 | 2018-05-22 | 重庆理工大学 | 基于深度全卷积网络和条件随机场的图像语义分割方法 |
CN108614875A (zh) * | 2018-04-26 | 2018-10-02 | 北京邮电大学 | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
CN109948149A (zh) * | 2019-02-28 | 2019-06-28 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及系统 |
CN109977413A (zh) * | 2019-03-29 | 2019-07-05 | 南京邮电大学 | 一种基于改进cnn-lda的情感分析方法 |
CN110196946A (zh) * | 2019-05-29 | 2019-09-03 | 华南理工大学 | 一种基于深度学习的个性化推荐方法 |
CN110321563A (zh) * | 2019-06-28 | 2019-10-11 | 浙江大学 | 基于混合监督模型的文本情感分析方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
Non-Patent Citations (7)
Title |
---|
MAKOTO OKADA等: "Sentiment Classification with Gated CNN and Spatial Pyramid Pooling" * |
MAKOTO OKADA等: "Sentiment Classification with Gated CNN and Spatial Pyramid Pooling", 《2018 7TH INTERNATIONAL CONGRESS ON ADVANCED APPLIED INFORMATION》 * |
吕鹏霄等: "C-SIFT特征结合空间金字塔描述的情感图像分类", 《图像与信号处理》 * |
吴琼: "基于卷积神经网络的图文情感分析技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
孙晓等: "基于多维扩展特征与深度学习的微博短文本情感分析", 《电子与信息学报》 * |
张平: "基于深度学习的自然场景文本定位与识别研究" * |
李平等: "双通道卷积神经网络在文本情感分析中的应用", 《计算机应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749275A (zh) * | 2020-05-22 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN112749275B (zh) * | 2020-05-22 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN112380395A (zh) * | 2020-10-30 | 2021-02-19 | 华南理工大学 | 基于双流架构的图卷积网络的情感获取方法、系统及存储介质 |
CN112380395B (zh) * | 2020-10-30 | 2022-04-22 | 华南理工大学 | 基于双流架构的图卷积网络的情感获取方法、系统及存储介质 |
CN112463966A (zh) * | 2020-12-08 | 2021-03-09 | 北京邮电大学 | 虚假评论检测模型训练方法、检测方法及装置 |
CN112463966B (zh) * | 2020-12-08 | 2024-04-05 | 北京邮电大学 | 虚假评论检测模型训练方法、检测方法及装置 |
CN114897504A (zh) * | 2022-05-20 | 2022-08-12 | 北京北大软件工程股份有限公司 | 一种处理重复信件的方法、装置、存储介质和电子设备 |
DE202023102803U1 (de) | 2023-05-22 | 2023-07-17 | Pradeep Bedi | System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen |
Also Published As
Publication number | Publication date |
---|---|
CN111143567B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111143567B (zh) | 一种基于改进神经网络的评论情感分析方法 | |
CN109492099B (zh) | 一种基于领域对抗自适应的跨领域文本情感分类方法 | |
CN111126386B (zh) | 场景文本识别中基于对抗学习的序列领域适应方法 | |
CN109241255B (zh) | 一种基于深度学习的意图识别方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN110046671A (zh) | 一种基于胶囊网络的文本分类方法 | |
CN109492230B (zh) | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN109063719B (zh) | 一种联合结构相似性和类信息的图像分类方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN104346440A (zh) | 一种基于神经网络的跨媒体哈希索引方法 | |
CN110297888B (zh) | 一种基于前缀树与循环神经网络的领域分类方法 | |
CN111832546A (zh) | 一种轻量级自然场景文本识别方法 | |
CN112699953B (zh) | 基于多信息路径聚合的特征金字塔神经网络架构搜索方法 | |
CN111914085A (zh) | 文本细粒度情感分类方法、系统、装置及存储介质 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN109948742A (zh) | 基于量子神经网络的手写体图片分类方法 | |
CN112231477A (zh) | 一种基于改进胶囊网络的文本分类方法 | |
CN112732921B (zh) | 一种虚假用户评论检测方法及系统 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN112347284A (zh) | 一种组合商标图像检索方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN112489689B (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 610000 No. 270, floor 2, No. 8, Jinxiu street, Wuhou District, Chengdu, Sichuan Applicant after: Chengdu shuzhilian Technology Co.,Ltd. Address before: No.2, 4th floor, building 1, Jule road crossing, Section 1, West 1st ring road, Chengdu, Sichuan 610000 Applicant before: CHENGDU SHUZHILIAN TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |