CN110362819A - 基于卷积神经网络的文本情感分析方法 - Google Patents
基于卷积神经网络的文本情感分析方法 Download PDFInfo
- Publication number
- CN110362819A CN110362819A CN201910514145.6A CN201910514145A CN110362819A CN 110362819 A CN110362819 A CN 110362819A CN 201910514145 A CN201910514145 A CN 201910514145A CN 110362819 A CN110362819 A CN 110362819A
- Authority
- CN
- China
- Prior art keywords
- word
- participle
- text
- emotion
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 94
- 238000004458 analytical method Methods 0.000 title claims abstract description 58
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 89
- 238000005192 partition Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000036651 mood Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000008909 emotion recognition Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 13
- 241000272525 Anas platyrhynchos Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009182 swimming Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及信息系统领域,特别涉及一种基于卷积神经网络的文本情感分析方法。特别适用于社交网络发布的微博、朋友圈等文本情感分析。包括如下步骤:中科院ICTCLAS分词系统将文本句子分成不同的词;通过Word2vec工具将词进行向量化;通过Hownet情感词集合对词性标注为积极情感词、消极情感词、否定词、程度副词;利用词向量和词性标注组合拼接作为卷积神经网络的输入识别文本情感。本发明的有益效果在于:本发明的情感分析更加简单可实施。能突出句子的核心情感,降低算法复杂度,提高效率同时更有利于情感分析,最终识别负面情绪。
Description
技术领域
本发明涉及信息系统领域,特别涉及一种基于卷积神经网络的文本情感分析方法。特别适用于社交网络发布的微博、朋友圈等文本情感分析。
背景技术
随着微博、微信等社交网络的兴起,网络不仅成为了人们获取信息的重要来源,同时也成为人们表达自己观点的平台。通过在微博等网络社区来评论热点事件、抒写影评观点、描述产品体验等,产生了大量带有情感倾向的文本信息,而通过对这些文本信息进行情感分析,可以更好地理解用户行为,发现用户对产品的倾向性、对热点事件的关注程度等。随着信息规模的急剧增大,仅仅依靠人工进行处理已经无法完成这一任务,这就促进了自然语言处理领域的一个研究热点,即微博文本情感分析技术的发展。
发明内容
本发明的目的在于解决现有分析方法的不足,提供一种利用词向量和词性标注组合的基于卷积神经网络的文本情感分析方法。
本发明解决其技术问题所采用的技术方案为:
基于卷积神经网络的文本情感分析方法,包括如下步骤:
A、中科院ICTCLAS分词系统将文本句子分成不同的词;
B、通过Word2vec工具将词进行向量化;
C、通过Hownet情感词集合对词性标注为积极情感词、消极情感词、否定词、程度副词;
D、利用词向量和词性标注组合拼接作为卷积神经网络的输入识别文本情感。
所述步骤D中卷积神经网络识别:采用测试数据训练卷积神经网络,当卷积神经网络的学习正确率达到90%时作为后期文本情感分析的识别网络;测试数据为COAE2014数据集中6000条带有极性的数据,其中正面情绪2864条、负面情绪3136条。
所述步骤C中将词性映射为多维向量,将句子的词向量和词性标注组合拼接作为卷积神经网络的输入;Hownet情感词集合中对50220个汉语的进行了描述,采用0和1代码表示的一个多维的连续值向量, 2的16次方为65536,大于Hownet情感词集合里面的词集合个数,从而每个词的向量维度m为16,多维向量上限是16维向量。
所述步骤A中设立一个分词有效库Effective_participle,通过COAE2014数据集中6000条文本为样本,将文本分别采用中科院ICTCLAS分词系统进行分词,每个分词组合形成分词有效库Effective_participle, 分词有效库Effective_participle的集合作为词性库Libray,所有分词Effective_participle出现的个数的总和为分词总数SUM。
所述步骤C中统计文本中的每个分词有效库Effective_participle在COAE2014数据集中6000条文本分词总数SUM里面占的比例;当占比大于10%时没有实际情感分析的作用。
所述步骤C中当待情感分析的文本中的分词不属于分词有效库Effective_participle的分词,在对该条文本进行情感分析时,把不属于分词库里面的分词一并归纳到分词有效库Effective_participle里。
所述步骤C中通过对分析有效库Effective_participle里面的分词进行词向量转换;将每一个分词映射为一个多维的连续值向量,得到整个数据集词集合的词向量矩阵,其中m为每个词的向量维度,数据集的词条集合大小;对于长度为n的句子s={w1,w2,…,wn},句子中每一个词语wi可以映射为一个m 维向量,即;文本通过Word2vec工具以词为单位来表示句子将词转换为向量化。
所述步骤C中词向量进行为积极情感词、消极情感词、否定词、程度副词在情感分析中保留,对于其他词性的词直接进行删除处理;积极情感词记为Pos、消极情感词记为Neg、程度副词记为Adv、否定词记为Inver;
对于不同的词性标注通过向量化,将每一种词性标注映射为一个多维的连续值向量,其中为第i个词性向量,k为词性向量维度;鉴于文本只关注积极情感词、消极情感词、否定词、程度副词,在情感识别的时候,先选取分词有效库Effective_participle里面的分词进行词性标注向量,再选择词性向量为积极情感词、消极情感词、否定词、程度副词的分词作为最终输入分词Input_word;Pos表示为 [0 0]、Neg表示为 [01]、Adv表示为 [1 0]、否定词表示为 [1 1]。
本发明的有益效果在于:本发明的情感分析更加简单可实施。能突出句子的核心情感,降低算法复杂度,提高效率同时更有利于情感分析,最终识别负面情绪。
附图说明
图1为本发明的网络文本情感分析系统模型结构示意图;
图2为本发明的网络文本情感分析系统识别流程图。
具体实施方式
基于卷积神经网络的文本情感分析方法,包括如下步骤:
A、中科院ICTCLAS分词系统将文本句子分成不同的词;
B、通过Word2vec工具将词进行向量化;
C、通过Hownet情感词集合对词性标注为积极情感词、消极情感词、否定词、程度副词;
D、利用词向量和词性标注组合拼接作为卷积神经网络的输入识别文本情感。
所述步骤D中卷积神经网络识别:采用测试数据训练卷积神经网络,当卷积神经网络的学习正确率达到90%时作为后期文本情感分析的识别网络;测试数据为COAE2014数据集中6000条带有极性的数据,其中正面情绪2864条、负面情绪3136条。
所述步骤C中将词性映射为多维向量,将句子的词向量和词性标注组合拼接作为卷积神经网络的输入;Hownet情感词集合中对50220个汉语的进行了描述,采用0和1代码表示的一个多维的连续值向量, 2的16次方为65536,大于Hownet情感词集合里面的词集合个数,从而每个词的向量维度m为16,多维向量上限是16维向量。
所述步骤A中设立一个分词有效库Effective_participle,通过COAE2014数据集中6000条文本为样本,将文本分别采用中科院ICTCLAS分词系统进行分词,每个分词组合形成分词有效库Effective_participle, 分词有效库Effective_participle的集合作为词性库Libray,所有分词Effective_participle出现的个数的总和为分词总数SUM。
所述步骤C中统计文本中的每个分词有效库Effective_participle在COAE2014数据集中6000条文本分词总数SUM里面占的比例;当占比大于10%时没有实际情感分析的作用。
所述步骤C中当待情感分析的文本中的分词不属于分词有效库Effective_participle的分词,在对该条文本进行情感分析时,把不属于分词库里面的分词一并归纳到分词有效库Effective_participle里。
所述步骤C中通过对分析有效库Effective_participle里面的分词进行词向量转换;将每一个分词映射为一个多维的连续值向量,得到整个数据集词集合的词向量矩阵,其中m为每个词的向量维度,数据集的词条集合大小;对于长度为n的句子s={w1,w2,…,wn},句子中每一个词语wi可以映射为一个m 维向量,即;文本通过Word2vec工具以词为单位来表示句子将词转换为向量化。
所述步骤C中词向量进行为积极情感词、消极情感词、否定词、程度副词在情感分析中保留,对于其他词性的词直接进行删除处理;积极情感词记为Pos、消极情感词记为Neg、程度副词记为Adv、否定词记为Inver;
对于不同的词性标注通过向量化,将每一种词性标注映射为一个多维的连续值向量,其中为第i个词性向量,k为词性向量维度;鉴于文本只关注积极情感词、消极情感词、否定词、程度副词,在情感识别的时候,先选取分词有效库Effective_participle里面的分词进行词性标注向量,再选择词性向量为积极情感词、消极情感词、否定词、程度副词的分词作为最终输入分词Input_word;Pos表示为 [0 0]、Neg表示为 [01]、Adv表示为 [1 0]、否定词表示为 [1 1]。
本发明的文本情感分析具体说明如下:
(一)卷积神经网络识别流程
首先,采用测试数据为COAE2014数据集,COAE2014数据集中6000条带有极性的数据,其中正面情绪2864条、负面情绪3136条,训练卷积神经网络,当卷积神经网络的学习的正确率达到90%时,将这个学习后的卷积神经网络作为后期微博文本情感分析的识别网络。
1.网络的输入
验证词性映射为多维向量方法的有效性,中对50220个汉语的进行了描述,且词向量采用的是用0,1代码表示的一个多维的连续值向量,且2的16次方为65536,大于“Hownet情感词集合”里面的词集合个数,从而每个词的向量维度m为16,多维向量上限是16维向量将输入句子的词性向量和句子内容层面的词向量结合作为卷积神经网络的输入。
(1)分词
采用通过中科院ICTCLAS分词系统将句子分成不同的词,例如"李明欢迎我",经过ICTCLAS分词系统,会分解成“李明/欢迎/我/”。
之后在对分词进行选择。现代汉语的词可以分为12类。实词:名词、动词、形容词、数词、量词和代词。虚词:副词、介词、连词、助词、拟声词和叹词。关于情感分析,最主要的就是了解能标明情感的词语,对于其他的词语在用章中的作用不是很大。首先设立一个分词有效库Effective_participle,通过COAE2014数据集中6000条微博为样本,将这些微博分别采用中科院ICTCLAS分词系统进行分词,每个分词为Participle,所以Participle的集合作为词性库Libray,所有分词Participle出现的个数的总和为分词总数SUM。
依次统计文本中的每个分词Participle在这6000条微博分词总数SUM里面占的比例。理论依据:我们经常在说话的时候,用的最多的一些词,其实是没有实际情感意见的,比如“的”、“我”、“我们”等等,这类词在句字里面经常用,但实际情感分析的时候没有实质性帮助。
当每个分词在测试数据中的6000条微博分词总数SUM占比高于10%就没有实际意义了,并不一定是最优的阈值。比如 “的”这个分词,在6000条文本总数中SUM占比为17%,所以就认定“的”字没有作为情感分析的实质性帮助。当其比例越大,我们认定这个分词越没有实际情感分析的作用,确认分词在6000条样本微博中出现的概率Participle_Probability低于10%时,这个词利于情感分析,将这些词作为分词有效库Effective_participle里面的分词。若现实文本中的分词,存在不属于分词库里面的分词,在对该条微博进行情感分析时,把不属于分词库里面的分词,也归纳到分词有效库Effective_participle里面。
(2)词向量
自然语言情感的识别的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。通过对分析有效库Effective_participle里面的分词进行词向量转换。
将每一个分词映射为一个多维的连续值向量,得到整个数据集词集合的词向量矩阵 ,其中m为每个词的向量维度,数据集的词条集合大小;对于长度为n的句子s={w1,w2,…,wn},句子中每一个词语wi可以映射为一个m 维向量,即;文本通过Word2vec工具以词为单位来表示句子将词转换为向量化。
鉴于“Hownet情感词集合”中对50220个汉语的进行了描述,且词向量采用的是用0,1代码表示的一个多维的连续值向量,且2的16次方为65536,大于“Hownet情感词集合”里面的词集合个数,从而每个词的向量维度m为16。
例如:向量长度为词典的大小N,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置,经word2vec工具向量化后,假设word2vec工具中只有“李明”、“欢迎”和“我”三个分词,但由于“李明”不属于Libray中的词,所以加入到分析有效库Effective_participle里面,且“我”属于Participle_Probability大于10%的词,所以不纳入分析有效库Effective_participle里面:
“李明”表示为 [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
“欢迎”表示为 [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
(3)词性标注向量
今年来,有关自然语言、人工智能、信息检索、数据挖掘等领域的发展,对词、短信、搭配等语言单元的倾向性识别进行了大量的研究,通过“Hownet情感词集合” 对词重新进行词性标注。“Hownet情感词集合”在中文自然语言处理方面,对50220个汉语的进行了描述,本发明设定只有积极情感词、消极情感词、否定词、程度副词在情感分析里面有作用,对于其他词性的词直接进行删除处理。
表1 Tag标签
对于不同的词性标注,通过向量化操作,将每一种词性标注映射为一个多维的连续值向量,其中为第i个词性向量,k为词性向量维度。
鉴于发明只关注积极情感词、消极情感词、否定词、程度副词,所以在情感识别的时候,先选取分词有效库Effective_participle里面的分词进行词性标注向量,再选择词性向量为积极情感词、消极情感词、否定词、程度副词的分词作为最终输入分词Input_word。
例如:“李明”和“欢迎”经“Hownet情感词集合”确认后,因为有“欢迎”为积极情感词,则输入分词Input_word只有“欢迎”。
“Pos”表示为 [0 0]
“Neg”表示为 [0 1]
“Adv”表示为 [1 0]
“否定词”表示为 [1 1]
则“欢迎”的词性标注为Pos,词性标注向量化后为[0 0]。
(4)分词位置
研发发现,积极情感词、消极情感词、否定词、程度副词的位置对于情感分析有很大的影响,例如转折句。基于此,本次在进行情感分析时,对输入分词Input_word中每一个分词在输入分词中的排序作为卷积神经网络输入矩阵的排序。
2.卷积神经网络
(1)网络结构
为了验证本文提出的将词性映射为多维向量方法的有效性,将输入句子中的输入分词的词性标注向量和句子内容层面的词向量结合作为卷积神经网络的输入,网络模型主要由输入层、卷积层、池化层和全连接层组成。输入层接收输入句子的特征矩阵;卷积层利用卷积核对输入的基本单位进行卷积操作提取特征;池化层对卷积层提取到的特征做采样处理,以过滤的形式保留重要的特征;全连接层通过提取到的特征信息输出待分类句子的分类结果。
(2)算法流程
以词为单位对句子进行卷积操作,对于长度为n的句子,其特征表示为
其中,e为词向量,tag为词性特征。为了简化网络模型结构,使用简单拼接操作形成特征矩阵,作为卷积神经网络的输入:
其中,为拼接操作。通过把特定情感词映射为多维的词性特征,这可以使网络在训练过程中通过调整词性特征分量来优化分类模型。实验中,对句子的输入设定一个最大长度maxlen,对于长度小于maxlen的句子用0向量补全。
例如:"李明欢迎我",经过算法对分词的预处理后,从而对应的
卷积层可以通过不同的卷积核对输入矩阵进行丰富的局部特征提取,对于长度为h的卷积核,可以把句子分为,然后对每一个分量进行卷积操作,得到卷积特征图:
其中,是对分量进行卷积操作后提取得到的信息。
其中,为卷积核权重,为偏置。
上述为一个卷积核采样得到的结果,对于d个卷积核采样得到的特征信息可以表示为
在卷积神经网络模型中,把池化层采样得到的特征信息作为全连接层的输入,得到分类结果:
其中,为偏置,为全连接层权重,y为输出结果。
卷积神经网络学习采用传统的卷积神经网络的反向传播。
(二)微博文本识别
采用2014 年中文观点倾向性分析评测COAE2014语料中的任务4数据集进行对比实验,来对本文提出方法的性能进行评估。从COAE2014数据集中标注6000条带有极性的数据,其中正面情绪2864条、负面情绪3136条。当卷积神经网络的学习的正确率达到90%时,即用该学习后的卷积神经网络作为后期微博文本情感识别的识别网络。
首先通过分词和分词选择,将不重要的分词去掉,再通过只关注积极情感词、消极情感词、否定词、程度副词的作用,又去掉了部分无用的分词,从而最大限度的精简了卷积神经网络的输入,并且以输入分词Input_word中每一个分词在输入分词中的排序作为卷积神经网络输入矩阵的排序,从而充分考虑了分词在句子中的位置对情感的影响,而且以词向量和词性向量的拼接作为最终的卷积神经网络输入矩阵,更加充分的提取了句子里面的特征向量。
实施例1
“李明欢迎我,我太高兴了!”,从字面上,我们知道这个一条正面情绪的语句。根据本文的方法,分词为“李明/欢迎/我/我/太/高兴/了/”,根据本文分词选择,则分词有效库Effective_participle里面只有“李明/欢迎/太/高兴/”。而且由于本文只积极情感词、消极情感词、否定词、程度副词的作用,从而输入分词Input_word只有“欢迎/太/高兴/”,不同于传统的情感分析,需要将“李明/欢迎/我/我/太/高兴/了/”都进行考虑,减少了计算量,而且更能突出情感内容。
根据本文方法建立输入矩阵的时候,假设
“欢迎”= [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
“太”= [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
“高兴”= [0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0]
由于根据“Hownet情感词集合”的反馈,“欢迎”和“高兴”属于都是积极情感词,“太”属于程度副词,且根据输入分词Input_word的排序,则最终的卷积神经网络的输入为
在传统的卷积神经网络中,如果:
“李明”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
“欢迎”= [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
“我”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]
“太”= [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
“高兴”= [0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0]
“了”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1]
则传统的卷积神经网络的输入为
便于卷积神经网络的输入,更能突出句子的核心情感,降低算法复杂度,更有利于情感分析,最终识别正面情绪。
实施例2
“李明在门口欢迎我,但我见到李明就讨厌!”,从字面上,我们知道这个一条负面情绪的语句。根据本文的方法,分词为“李明/在/门口/欢迎/我/但/我/见到/李明/就/讨厌”,根据本文分词选择,则分词有效库Effective_participle里面只有“李明/欢迎/但/李明/就/讨厌/”。而且由于本文只积极情感词、消极情感词、否定词、程度副词的作用,从而输入分词Input_word只有“欢迎/但/讨厌/”,不同于传统的情感分析,需要将“李明/在/门口/欢迎/我/但/我/见到/李明/就/讨厌”都进行考虑,减少了计算量,而且更能突出情感内容。
根据本文方法建立输入矩阵的时候,假设
“欢迎”= [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
“但”= [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1]
“讨厌”= [1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0]
由于根据“Hownet情感词集合”的反馈,“欢迎”是积极情感词,“但”属于否定词,“讨厌”是消极情感词,且根据输入分词Input_word的排序,则最终的卷积神经网络的输入为
在传统的卷积神经网络中,如果:
“李明”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
“在”= [1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]
“门口”= [1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0]
“欢迎”= [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
“我”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]
“但”= [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1]
“见到”= [0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0]
“就”= [0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0]
“讨厌”= [1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0]
则传统的卷积神经网络的输入为
明显本文卷积神经网络的输入,更能突出句子的核心情感,而且算法复杂度更底,更有利于情感分析,最终识别负面情绪。
实施例3
“门前一条河,游过一群鸭”,这个一条没有正、负面情绪的语句。根据本文的方法,分词为“门前/一条/河/游过/一群/鸭”,根据本文分词选择,则分词有效库Effective_participle里面只有“门前/一条/游过/一群/鸭”。而且由于本文只积极情感词、消极情感词、否定词、程度副词的作用,从而输入分词Input_word中没有可用的输入,则即可判断句子没有反应正、负情绪。传统的情感分析,需要将“门前/一条/河/游过/一群/鸭”都进行考虑,从而可以证明,本文算法计算量简单明显优于传统的算法。
Claims (8)
1.基于卷积神经网络的文本情感分析方法,其他特征在于包括如下步骤:
A、中科院ICTCLAS分词系统将文本句子分成不同的词;
B、通过Word2vec工具将词进行向量化;
C、通过Hownet情感词集合对词性标注为积极情感词、消极情感词、否定词、程度副词;
D、利用词向量和词性标注组合拼接作为卷积神经网络的输入识别文本情感。
2.根据权利要求1所述的基于卷积神经网络的文本情感分析方法,其特征在于所述步骤D中卷积神经网络识别:采用测试数据训练卷积神经网络,当卷积神经网络的学习正确率达到90%时作为后期文本情感分析的识别网络;测试数据为COAE2014数据集中6000条带有极性的数据,其中正面情绪2864条、负面情绪3136条。
3.根据权利要求1所述的基于卷积神经网络的文本情感分析方法,其特征在于所述步骤C中将词性映射为多维向量,将句子的词向量和词性标注组合拼接作为卷积神经网络的输入;Hownet情感词集合中对50220个汉语的进行了描述,采用0和1代码表示的一个多维的连续值向量,多维向量上限是16维向量。
4.根据权利要求1所述的基于卷积神经网络的文本情感分析方法,其特征在于所述步骤A中设立一个分词有效库Effective_participle,通过COAE2014数据集中6000条文本为样本,将文本分别采用中科院ICTCLAS分词系统进行分词,每个分词组合形成分词有效库Effective_participle, 分词有效库Effective_participle的集合作为词性库Libray,所有分词Effective_participle出现的个数的总和为分词总数SUM。
5.根据权利要求4所述的基于卷积神经网络的文本情感分析方法,其特征在于所述步骤C中统计文本中的每个分词有效库Effective_participle在COAE2014数据集中6000条文本分词总数SUM里面占的比例;当占比大于10%时没有实际情感分析的作用。
6.根据权利要求4所述的基于卷积神经网络的文本情感分析方法,其特征在于所述步骤C中当待情感分析的文本中的分词不属于分词有效库Effective_participle的分词,在对该条文本进行情感分析时,把不属于分词库里面的分词一并归纳到分词有效库Effective_participle里。
7.根据权利要求6所述的基于卷积神经网络的文本情感分析方法,其特征在于所述步骤C中通过对分析有效库Effective_participle里面的分词进行词向量转换;将每一个分词映射为一个多维的连续值向量,可以得到整个数据集词集合的词向量矩阵,其中m为每个词的向量维度,数据集的词条集合大小;对于长度为n的句子s={w1,w2,…,wn},句子中每一个词语wi可以映射为一个m 维向量,即;文本通过Word2vec工具以词为单位来表示句子将词转换为向量化。
8.根据权利要求6所述的基于卷积神经网络的文本情感分析方法,其特征在于所述步骤C中词向量进行为积极情感词、消极情感词、否定词、程度副词在情感分析中保留,对于其他词性的词直接进行删除处理;积极情感词记为Pos、消极情感词记为Neg、程度副词记为Adv、否定词记为Inver;
对于不同的词性标注通过向量化,将每一种词性标注映射为一个多维的连续值向量,其中为第i个词性向量,k为词性向量维度;鉴于文本只关注积极情感词、消极情感词、否定词、程度副词,在情感识别的时候,先选取分词有效库Effective_participle里面的分词进行词性标注向量,再选择词性向量为积极情感词、消极情感词、否定词、程度副词的分词作为最终输入分词Input_word; Pos表示为 [0 0]、Neg表示为 [01]、Adv表示为 [1 0]、否定词表示为 [1 1]。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514145.6A CN110362819B (zh) | 2019-06-14 | 2019-06-14 | 基于卷积神经网络的文本情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910514145.6A CN110362819B (zh) | 2019-06-14 | 2019-06-14 | 基于卷积神经网络的文本情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110362819A true CN110362819A (zh) | 2019-10-22 |
CN110362819B CN110362819B (zh) | 2023-03-31 |
Family
ID=68216754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910514145.6A Active CN110362819B (zh) | 2019-06-14 | 2019-06-14 | 基于卷积神经网络的文本情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362819B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909167A (zh) * | 2019-11-29 | 2020-03-24 | 重庆邮电大学 | 一种微博文本分类系统 |
CN111324734A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 融合情绪知识的案件微博评论情绪分类方法 |
CN111694960A (zh) * | 2020-06-03 | 2020-09-22 | 哈尔滨商业大学 | 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 |
CN112182152A (zh) * | 2020-09-24 | 2021-01-05 | 东北大学 | 基于深度学习的新浪微博用户情感影响力分析方法 |
CN112257431A (zh) * | 2020-10-30 | 2021-01-22 | 中电万维信息技术有限责任公司 | 一种基于nlp的短文本数据加工的方法 |
CN113158684A (zh) * | 2021-04-21 | 2021-07-23 | 清华大学深圳国际研究生院 | 一种情绪分析方法、情绪提醒方法及情绪提醒控制装置 |
CN114064906A (zh) * | 2022-01-17 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 情感分类网络训练方法以及情感分类方法 |
CN115906863A (zh) * | 2022-10-25 | 2023-04-04 | 华南师范大学 | 基于对比学习的情感分析方法、装置、设备以及存储介质 |
DE202023102803U1 (de) | 2023-05-22 | 2023-07-17 | Pradeep Bedi | System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016105803A1 (en) * | 2014-12-24 | 2016-06-30 | Intel Corporation | Hybrid technique for sentiment analysis |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107247703A (zh) * | 2017-06-08 | 2017-10-13 | 天津大学 | 基于卷积神经网络和集成学习的微博情感分析方法 |
CN107967337A (zh) * | 2017-12-05 | 2018-04-27 | 云南大学 | 一种基于情感极性增强语义的跨领域情感分析方法 |
CN108108355A (zh) * | 2017-12-25 | 2018-06-01 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的文本情感分析方法和系统 |
CN108460009A (zh) * | 2017-12-14 | 2018-08-28 | 中山大学 | 嵌入情感词典的注意力机制循环神经网络文本情感分析法 |
CN108647219A (zh) * | 2018-03-15 | 2018-10-12 | 中山大学 | 一种结合情感词典的卷积神经网络文本情感分析方法 |
CN108763326A (zh) * | 2018-05-04 | 2018-11-06 | 南京邮电大学 | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 |
CN108874937A (zh) * | 2018-05-31 | 2018-11-23 | 南通大学 | 一种基于词性结合和特征选择的情感分类方法 |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
-
2019
- 2019-06-14 CN CN201910514145.6A patent/CN110362819B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016105803A1 (en) * | 2014-12-24 | 2016-06-30 | Intel Corporation | Hybrid technique for sentiment analysis |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
CN107247703A (zh) * | 2017-06-08 | 2017-10-13 | 天津大学 | 基于卷积神经网络和集成学习的微博情感分析方法 |
CN107967337A (zh) * | 2017-12-05 | 2018-04-27 | 云南大学 | 一种基于情感极性增强语义的跨领域情感分析方法 |
CN108460009A (zh) * | 2017-12-14 | 2018-08-28 | 中山大学 | 嵌入情感词典的注意力机制循环神经网络文本情感分析法 |
CN108108355A (zh) * | 2017-12-25 | 2018-06-01 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 基于深度学习的文本情感分析方法和系统 |
CN108647219A (zh) * | 2018-03-15 | 2018-10-12 | 中山大学 | 一种结合情感词典的卷积神经网络文本情感分析方法 |
CN108763326A (zh) * | 2018-05-04 | 2018-11-06 | 南京邮电大学 | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 |
CN108874937A (zh) * | 2018-05-31 | 2018-11-23 | 南通大学 | 一种基于词性结合和特征选择的情感分类方法 |
CN109284506A (zh) * | 2018-11-29 | 2019-01-29 | 重庆邮电大学 | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 |
Non-Patent Citations (2)
Title |
---|
MARIA GIATSOGLOU 等: "Sentiment analysis leveraging emotions and word embeddings", 《EXPERT SYSTEMS WITH APPLICATIONS》 * |
滕飞 等: "基于长短期记忆多维主题情感倾向性分析模型", 《计算机应用》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110909167A (zh) * | 2019-11-29 | 2020-03-24 | 重庆邮电大学 | 一种微博文本分类系统 |
CN110909167B (zh) * | 2019-11-29 | 2022-07-01 | 重庆邮电大学 | 一种微博文本分类系统 |
CN111324734A (zh) * | 2020-02-17 | 2020-06-23 | 昆明理工大学 | 融合情绪知识的案件微博评论情绪分类方法 |
CN111694960A (zh) * | 2020-06-03 | 2020-09-22 | 哈尔滨商业大学 | 基于词性特征和观点特征结合卷积神经网络的电商评论情感分析模型 |
CN112182152B (zh) * | 2020-09-24 | 2021-09-03 | 东北大学 | 基于深度学习的新浪微博用户情感影响力分析方法 |
CN112182152A (zh) * | 2020-09-24 | 2021-01-05 | 东北大学 | 基于深度学习的新浪微博用户情感影响力分析方法 |
CN112257431A (zh) * | 2020-10-30 | 2021-01-22 | 中电万维信息技术有限责任公司 | 一种基于nlp的短文本数据加工的方法 |
CN113158684A (zh) * | 2021-04-21 | 2021-07-23 | 清华大学深圳国际研究生院 | 一种情绪分析方法、情绪提醒方法及情绪提醒控制装置 |
CN113158684B (zh) * | 2021-04-21 | 2022-09-27 | 清华大学深圳国际研究生院 | 一种情绪分析方法、情绪提醒方法及情绪提醒控制装置 |
CN114064906A (zh) * | 2022-01-17 | 2022-02-18 | 深圳佑驾创新科技有限公司 | 情感分类网络训练方法以及情感分类方法 |
CN115906863A (zh) * | 2022-10-25 | 2023-04-04 | 华南师范大学 | 基于对比学习的情感分析方法、装置、设备以及存储介质 |
CN115906863B (zh) * | 2022-10-25 | 2023-09-12 | 华南师范大学 | 基于对比学习的情感分析方法、装置、设备以及存储介质 |
DE202023102803U1 (de) | 2023-05-22 | 2023-07-17 | Pradeep Bedi | System zur Erkennung von Emotionen und zur Stimmungsanalyse durch maschinelles Lernen |
Also Published As
Publication number | Publication date |
---|---|
CN110362819B (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362819A (zh) | 基于卷积神经网络的文本情感分析方法 | |
Abdullah et al. | SEDAT: sentiment and emotion detection in Arabic text using CNN-LSTM deep learning | |
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN107247702A (zh) | 一种文本情感分析处理方法和系统 | |
CN108829662A (zh) | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 | |
Banerjee et al. | Comparison of pretrained embeddings to identify hate speech in Indian code-mixed text | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
Arshad et al. | Corpus for emotion detection on roman urdu | |
CN111222338A (zh) | 基于预训练模型和自注意力机制的生物医学关系抽取方法 | |
CN110597998A (zh) | 一种结合句法分析的军事想定实体关系抽取方法及装置 | |
CN110502742B (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN110134793A (zh) | 文本情感分类方法 | |
Ma et al. | PKUSE at SemEval-2019 task 3: emotion detection with emotion-oriented neural attention network | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN111626042A (zh) | 指代消解方法及装置 | |
Jia | Sentiment classification of microblog: A framework based on BERT and CNN with attention mechanism | |
Zhang et al. | Attention pooling-based bidirectional gated recurrent units model for sentimental classification | |
CN114881043A (zh) | 基于深度学习模型的法律文书语义相似度评估方法及系统 | |
Zhen et al. | The research of convolutional neural network based on integrated classification in question classification | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
Wang et al. | YNUWB at SemEval-2019 Task 6: K-max pooling CNN with average meta-embedding for identifying offensive language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |