CN114692623A - 一种环境类网络舆情的情感分析方法 - Google Patents

一种环境类网络舆情的情感分析方法 Download PDF

Info

Publication number
CN114692623A
CN114692623A CN202210196099.1A CN202210196099A CN114692623A CN 114692623 A CN114692623 A CN 114692623A CN 202210196099 A CN202210196099 A CN 202210196099A CN 114692623 A CN114692623 A CN 114692623A
Authority
CN
China
Prior art keywords
word
text
feature
output
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210196099.1A
Other languages
English (en)
Inventor
孙加林
范青武
刘旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210196099.1A priority Critical patent/CN114692623A/zh
Publication of CN114692623A publication Critical patent/CN114692623A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

一种环境类网络舆情的情感分析方法属于人工智能技术领域方法。具体包括以下步骤:首先将网络平台爬取到的网络舆情文本作为数据来源,使用舆情文本数据作为语料库对word2vec词向量模型进行重新训练,得到更加适用于环境类领域的词向量化模型。其次使用Word2vec文本向量化模型将文本表示为词向量,对词向量矩阵添加注意力机制,使用每个词在句子中拥有不同的权重。将添加注意力机制的词向量输入到特征提取层中进行特征提取,CNN具有提取局部特征,LSTM具有提取上下文特征的特点,将CNN和LSTN提取特征进行位置融合,最终实现文本的情感分类。该方法解决了现有模型在环境类舆情文本的情感分类中性能差、不适配的问题。

Description

一种环境类网络舆情的情感分析方法
技术领域
本发明涉及一种环境类舆情文本的情感倾向性分析方法,尤其涉及一种基于位置特征融合的环境类舆情文本的情感倾向性分析方法。
背景技术
随着近年来互联网的快速发展,网络社交平台成为民众交流和表达情感的热门渠道,民众乐于在社交媒体上发布自己感兴趣的内容。同时环境问题已成为现代社会普遍关心的问题,越来越多的民众通过网络社交平台曝光环境类污染现象。尽管我国有多种途径举报环境污染问题,但是如果民众举报污染问题未得到较好解决,民众会选择去公共网络社交媒体平台如:微信、微博、论坛曝光环境污染问题,引起网络民众的关注和讨论。以达到通过社会舆论来引起环保部门和政府的重视,以求尽快解决问题的目的。
网络社交评论是指民众在社交软件、互联网信息平台上传播的某一特定话题,网络民众对该话题带倾向性的讨论、意见、态度的总和。环境类社交评论的“发展”是伴随着事件在社交媒体上的曝光,大量感兴趣的网民进行转发评论,产生了大量包含网络民众意见、态度、观点的社交评论数据。由于网络社交媒体平台的开放性、自由性,如果任由环境类事件在网络上发展,很可能受到虚假信息影响,扰乱人们对事件的真实性的判断,发生网络社交评论灾难,反而不利于解决问题。社交评论中包含民众对该讨论事件的态度。情感倾向性分析就是分析正面、负面的情感极性,对环境类社交评论进行情感倾向性分析,方便环保部门更好的了解网民大众的意见、态度、情绪,有利于掌握事件的影响和未来可能的发展趋势,便于相关部门及时引导广大网民正确认识事件。所以提出一种环境类社交评论情感倾向性分析模型具有重要的现实意义。
综上所述,基于特征融合的环境类舆情文本的情感倾向性分析是一项创新的研究问题,具有重要的研究意义和应用价值。
发明内容
本发明的目的是及时了解民众的情感意向有利于引导决策。网络社交评论具有短文本、大噪声、领域性,针对环境类社交评论短文本特征提取不显著以及大噪声的问题。为了解决上述问题提出了一种位置特征融合方法,该方法引入词注意力机制,以增强句子中情感词的权重,同时弱化噪声词的影响,使用CNN和LSTM作为特征提取器,通过位置式融合方法融合CNN和LSTM提取到的特征。完成环境类舆情文本的情感倾向性分析。
一种基于位置特征融合的环境类舆情文本的情感倾向性分析方法,该方法步骤如下。
S1数据收集,对收集到的环境类网络舆情文本数据进行整理汇总。
S2对环境类舆情文本进行数据预处理。
S3将处理好的文本数据输入到Word2vec模型中进行词向量训练,并生成词向量。
S4对编码后的网络舆情文本数据进行词注意力机制。
S5对加入注意力机制的文本向量输入到CNN和LSTM中进行深层次的特征提取。
S6将特征提取器提取到的特征进行位置融合。
S7将融合后的特征输入到全连接层,得出分类结果。
附图说明
图1为基于位置特征融合的环境类舆情文本的情感倾向性分析方法具体细节示意图。
图2为CNN提取特征过程示意图。
图3为基于特征融合的环境类舆情文本的情感倾向性分析方法的流程图。
具体实施方式
本发明提出一种基于位置特征融合的环境类舆情文本的情感倾向性分析方法,方法的主要流程如附图3所示:
结合附图1和附图2详细说明本发明的具体实施方式:
在步骤S1中,获取来自网络平台的环境类舆情文本数据,如:微博、微信、贴吧等,通过预处理实现对网络舆情数据文本的提取,并构建得到数据集:S={s1,s2...sa}表示数据集文本,其中a表示样本数量。一条文本数据集s1表示为词的集合Xs={W1,W2,...,Wn},其中n代表文本的长度,Wi,0≤i≤n为当前词语。y∈{0,1}为网络舆情文本的标签,其中 0代表消极的情感倾向,1代表正向的情感倾向。将数据集进行划分,随机抽取其中80%的数据用于模型的训练,20%用于模型的测试。
在步骤S2中,预处理主要包括舆情文本字段的提取、数据的清洗、去重、分词等,对一条文本数据si进行分词后被表示为词语集合:Xs={W1,W2,...,Wn}。其中Xs表示一条网络舆情文本数据词语的集合,Wi为该条文本数据经过分词后的第i个词语,其中n表示该条文本数据经过分词后词语的数量。即一个词汇可以表示为Wi,0≤i≤n。
在步骤S3中,使用大量环境类舆情文本数据对Word2vec模型进行从新训练。首先使用独热编码对每一条文本数据进行编码,Word2vec模型通过一个词语Wi的上下文作来预测词语本身。上下文窗口选取为3,表示对于词语Wi仅仅围绕前后的6个词语作为上下文词。输出则为预测词语Wi的独热编码。训练这个模型的时候使用反向传播的链式求导,最终便得到网络的权重Vm*d,其中,m为词库中词的数量,d为词向量的维度,d的取值d=300。对于词语Wi的词嵌入表示
Figure RE-GDA0003678014940000031
该词向量
Figure RE-GDA0003678014940000032
就代表唯一词Xi。一条文本数据s的词嵌入表示为该条文本中词向量的集合,即s的词嵌入表示为:
Figure RE-GDA0003678014940000033
n为一条文本中词的数量,经过大量数据统计,n大小满足概括95%的数据文本长度,对于大于长度n的文本进行截取舍弃,少于n的部分则补0处理。
在步骤S4中,对一条文本数据添加词注意力机制,使用注意力机制使得不同的词语用于不同的权重系数,为模型提供更加可靠的特征。
一条文本句子s经过预处理、分词之后表示为词的集合Xs={W1,W2,...,Wn},其中Wi,0≤i≤n为句子s所包含的第i个词语,n为文本长度;词的集合Xs经过Word2vec词嵌入的序列词被映射为一个矩阵
Figure RE-GDA0003678014940000034
其中
Figure RE-GDA0003678014940000035
0≤i≤n表示第i个词向量,n为文本词语个数,d为词嵌入维度;注意力层的目的是给不同的词向量分配不同的权重值,为模型提供更加可靠的特征。词嵌入层添加词注意力的方式为:
Xatt=AωXe (1)
输入词向量矩阵为
Figure RE-GDA0003678014940000036
则添加了注意力的词向量矩阵Xatt={xatt 1,xatt 2,...,xatt n},其中
Figure RE-GDA0003678014940000037
是未添加注意力的词向量,n为文本长度,xatt i为添加了注意力的词向量;Aω为权重向量。Aω权重系数可通过以下过程计算得到:
Figure RE-GDA0003678014940000038
Figure RE-GDA0003678014940000039
其中输入Xe为词向量矩阵,Wω,V为可学习的神经网络权重,bω为偏置。在模型开始训练前随机初始化,在模型训练阶段通过反向传播进行参数更新,通过多次迭代训练获得最优参数。Aω表示上下文相关单词的权重系数,当词向量矩阵Xe乘以权重系数Aω,得到添加了权重的词向量矩阵Xatt
在步骤S5中,将加入注意力机制的词向量矩阵Xatt输入到CNN和LSTM模型当中去,提取文本的深层次特征,以用于位置特征融合,最终实现文本的分类。
局部特征提取层:设xi是一条文本句子中第i个词对应的维度为d的向量,则长度为n的句子可以表示为:
Figure RE-GDA0003678014940000041
这里的
Figure RE-GDA0003678014940000042
起到每个词向量的连接操作,xi为添加了注意力的词Wi的词向量表示,xi,0≤i≤n构成卷积的词向量矩阵。使用xj:j+k指代xj,xj+1,...xj+k,则卷积操作包含一个滤波器W∈Rh×d,应用于一个h的窗口产生一个新特征,d为词向量的维度,h为过滤窗口的大小。在xj:j+k一次卷积的输出特征cj
cj=f(W·Xj:j+h-1+b) (5)
这里W为权重矩阵,b为偏置项,W、b为可学习的神经网络参数,f是非线性激活函数sigmoid,cj为第一个卷积步的输出,随着窗口滑动,得到如下窗口词 {X1:h,X2:h+1,...Xn-h+1:n},进行卷积操作可得到{c1,c2,...cn-h+1},最终得到一个特征层C,C 由多个卷积步的输出{c1,c2,...cn-h+1}构成。
C=[c1,c2,...,cn-h+1] (6)
池化层可以在不丢失重要的信息的情况下减小数据的维度。在卷积层后接入池化层减小了卷积窗口下数据量,同时保留了数据的特征。本方法池化方式采用最大值池化。池化方式如下:
Figure RE-GDA0003678014940000043
Figure RE-GDA0003678014940000044
代表这个卷积位置处获得的最重要的特征,其他的特征将会被过滤掉。c为多个卷积核在同一卷积步下的输出。池化过程如附图2所示池化部分,通过对不同特征层的相同位置进行池化操作,随着池化窗口的移动,得到了同样具有序列特征的文本特征向量 Xc
Figure RE-GDA0003678014940000045
n大小等于文本的长度。
序列特征提取层:LSTM作为RNN的进化版本,有效解决了RNN所带来的梯度消失问题。 LSTM拥有输入门、遗忘门、输出门保持和控制信息并且引入细胞状态,输入门决定上一时刻单元的状态有多少保留到当前时刻,遗忘门决定当前时刻网络的输入有多少保存到单元状态,输出门控制当前单元状态有多少输出到当前输出值;
该层的输入为Xatt={x1 att,x2 att,...,xn att},输出为特征向量xl。其中xt att为T个时间步中第t个时间步的输入,对应于第t个词的注意向量。ct为LSTM单元在t时刻的状态,ht为t时间步的输出,计算过程如下式子:
Figure RE-GDA0003678014940000051
其中ft为遗忘门的输出,表示上一时刻单元的状态ht-1和当前输入xt att有多少选择性忘记。it为输入门,表示上一时刻单元的状态ht-1和当前输入xt att有多少保留到细胞状态。ot为输出门,表示当前细胞状态ct有多少输出到当前输出值ht
Figure RE-GDA0003678014940000052
为细胞状态候选值,ct为当前细胞状态,ht为当前时刻输出。Wf,Wi,Wc,Wo为权重矩阵,bf,bi,bc,bo为权重参数,W,b 均为需要训练的参数。σ为sigmoid激活函数,tanh为双曲正切函数。最后一个时间步的输出hn作为循环层的输出xl,xl输入到特征融合层完成特征融合。
步骤S6中所述的位置特征融合指的是使用最大值融合的方法实现对特征的融合,在特征融合时选择最大值作为特征输出。在CNN的池化阶段,对相同位置处的不同特征层进行池化,卷积得到的特征向量同样包含了文本的上下文特征。通过对CNN和LSTM提取特征进行融合,为分类任务提供更重要的特征。本文选择最大值融合的方法进行特征融合。最大融合方式:
xf=max(xc,xl) (9)
其中融合层的输入为卷积层输出特征向量xc和循环层输出特征向量xl,序列特征层 LSTM的输出同局部特征层输出具有相同的维度,通过在对应特征位置进行最大值融合获得文本中的强特征。输出为融合后的特征向量xf
步骤S7中,将特征融合后的融合特征xf送入到输出层,之前的操作已经得到了文本中的特征,将融合得到的特征通过全连接层连接到sigmoid层。输出层是用于分类的sigmoid层,最终的输出结果代表的是文本的分类的概率。表示为:
Figure RE-GDA0003678014940000053
其中WT和b是全连接层的权重和偏置,
Figure RE-GDA0003678014940000054
是预测的结果。sigmoid激活函数用于将分类的置信度分数归一化在0-1之间。模型网络预测结果是一个0-1的值。设定0.5为分类阈值,大于0.5认定为积极情感,小于0.5认定为消极情感。
使用交叉熵作为损失函数来计算实际标签与预测标签之间的差异:
Figure RE-GDA0003678014940000061
y代表真实标签,
Figure RE-GDA0003678014940000062
为预测文本的分类概率。
为了更好的评价本发明模型,分类模型的性能指标一般是分类准确率(Accuracy)、精准度(Precision)、召回率(Recall)、F1值等。准确率的定义是对于给定的数据,分类正确的样本数占总样本数的比例。表现为模型的总体性能,整体的评价Accuracy的计算公式为:
Figure RE-GDA0003678014940000063
但是这一分类指标方法实际是非常不具有说服力的。对于二分类问题的评价指标还有使用精确(precision)和召回率(recall)。然而一般会去关注为正类的类,其他类为负类。
精准度:预测为正的样本共有多少是真实的正样本;
Figure RE-GDA0003678014940000064
召回率:预测为正的样本中,占据正的样本的比例有多大;
Figure RE-GDA0003678014940000065
F1值:精确率和召回率的调和平均。即:
Figure RE-GDA0003678014940000066
Figure RE-GDA0003678014940000067
本方法采用真实的环境类网络舆情文本,数据爬取自贴吧、论坛、微博。真实的环境类网络舆情数据共计59000条,其中标签为积极和消极的数据基本保持为1∶1,其中随机选择50000条数据用于模型训练,9000条数据用于模型的测试。
模型开始训练之前对神经网络权重和偏置进行随机初始化,模型训练中学习率lr=0.001,迭代次数epochs=30,批处理大小batch_size=128,dropout=0.2,优化器选择Adam。当2次迭代中验证集准确率(val_acc)或损失(loss)没有发生变化即可停止模型训练。
实验结果可以看出,本发明所提取的位置特征融合模型(PFF)性能优于对比模型,在准确率的指标上均高于其他方法,相比经典的机器学习算法有5%-13%的提升,深度学习在特征提取方面的具有较大优势。对比深度模型,PFF相较单一的CNN和LSTM模块有4%-6%的提升。对比添加了注意力机制的CNN-A和LSTM-A也有2%以上的提升。A-LSTM和A-CNN是添加词注意力机制的CNN和LSTM模型,PFF高于A-LSTM和A-CNN的性能表现,说明特征融合对于性能提升的重要性。结果显示本方法PFF模型在环境类社交评论情感分析任务中优于对比模型,能够完成情感分类任务。
综上所述,本方法能够很好的提取文本特征,实现特征融合,可以很好的完成舆情情感倾向性分析任务。

Claims (5)

1.一种环境类网络舆情的情感分析方法,具体步骤如下:
S1数据收集,对收集到的环境类网络舆情文本数据进行整理汇总;
S2对环境类舆情文本进行数据预处理,包括:分词、去停用词;
S3将处理好的文本数据输入到Word2vec模型中进行词向量训练,并生成词向量;
S4对编码后的网络舆情文本进行词注意力机制;
S5对加入注意力机制的文本向量输入到CNN和LSTM中进行深层次的特征提取;
S6将特征提取器提取到的特征进行位置融合;
S7将融合后的特征输入到全连接层,得出分类结果;
其特征在于:
在步骤S1中,获取来自网络平台的环境类舆情文本数据,通过预处理实现对网络舆情数据文本的提取,并构建得到数据集:S={s1,s2...sa}表示数据集文本,a表示样本数量;一条文本数据集s1表示为词的集合Xs={W1,W2,...,Wn},n代表文本的长度,Wi,0≤i≤n为当前词语;y∈{0,1}为网络舆情文本的标签,其中0代表消极的情感倾向,1代表正向的情感倾向;将数据集进行划分,随机抽取其中80%的数据用于模型的训练,20%用于模型的测试;
在步骤S2中,预处理包括舆情文本字段的提取、数据的清洗、去重、分词,对一条文本数据si进行分词后被表示为词语集合:Xs={W1,W2,...,Wn};其中Xs表示一条网络舆情文本数据词语的集合,Wi为该条文本数据经过分词后的第i个词语表示为Wi,0≤i≤n,其中n表示该条文本数据经过分词后词语的数量;
使用大量环境类舆情文本数据对Word2vec模型进行训练;首先使用独热编码对每一条文本数据进行编码,Word2vec模型通过一个词语Wi的上下文作来预测词语本身;上下文窗口选取为3,表示对于词语Wi仅仅围绕前后的6个词语作为上下文词;输出则为预测词语Wi的独热编码;训练这个模型的时候使用反向传播的链式求导,最终便得到网络的权重Vm*d,其中,m为词库中词的数量,d为词向量的维度;对于词语Wi的词嵌入表示
Figure FDA0003502418220000011
该词向量
Figure FDA0003502418220000012
就代表唯一词Xi;一条文本数据s的词嵌入表示为该条文本中词向量的集合,即s的词嵌入表示为:
Figure FDA0003502418220000013
n为一条文本中词的数量,n大小满足概括95%的数据文本长度,对于大于长度n的文本进行截取舍弃,少于n的部分则补0处理。
2.根据权利要求1所述的分析方法,其特征在于:
在步骤S4中,对词嵌入矩阵添加注意力机制,矩阵中的向量为一个词语的向量化表示,使用注意力机制使得不同的词语用于不同的权重系数,为模型提供更加可靠的特征;
词向量矩阵添加词注意力的方式为:
Xatt=AωXe (1)
输入
Figure FDA0003502418220000021
则添加了注意力的词向量矩阵Xatt={xatt 1,xatt 2,...,xatt n},其中
Figure FDA0003502418220000022
是未添加注意力的词向量,n为文本长度,xatt i为添加了注意力的词向量;Aω为权重向量;Aω通过以下过程计算得到:
p=tanh(WωXe+bω) (2)
Figure FDA0003502418220000023
这里Xe为词向量矩阵,Wω,V为可学习的神经网络权重,bω为偏置;在模型开始训练前随机初始化,在模型训练阶段通过反向传播进行参数更新,通过训练获得最优参数;Aω表示上下文相关单词的权重系数,当词向量矩阵Xe乘以权重系数Aω,得到添加了权重的词向量矩阵Xatt
3.根据权利要求1所述的分析方法,其特征在于:
在步骤S5中,加入注意力机制的词向量矩阵Xatt输入到CNN和LSTM模型当中去,提取文本的深层次特征,以用于位置特征融合,最终实现文本的分类;
局部特征提取层:设xi是一条文本句子中第i个词对应的维度为d的向量,则长度为n的句子表示为:
Figure FDA0003502418220000024
这里的
Figure FDA0003502418220000025
起到每个词向量的连接操作,xi是添加了注意力的词Wi的词向量表示,xi,0≤i≤n构成卷积的词向量矩阵;使用xj:j+k指代xj,xj+1,...xj+k,则卷积操作包含一个滤波器W∈Rh×d,应用于一个h的窗口产生一个新特征,d为词向量的维度,h为过滤窗口的大小;在xj:j+k一次卷积的输出特征cj
cj=f(W·Xj:j+h-1+b) (5)
这里W为权重矩阵,b为偏置项,W、b为可学习的神经网络参数,f是非线性激活函数sigmoid,cj为第一个卷积步的输出,随着窗口滑动,得到如下窗口词{X1:h,X2:h+1,...Xn-h+1:n},进行卷积操作得到{c1,c2,...cn-h+1},最终得到一个特征层C,C由多个卷积步的输出{c1,c2,...cn-h+1}构成;
C={c1,c2,...,cn-h+1} (6)
在卷积层后接入池化层减小了卷积窗口下数据量;池化方式采用最大值池化;池化方式如下:
Figure FDA0003502418220000031
Figure FDA0003502418220000032
代表这个卷积位置处获得的最重要的特征,其他的特征将会被过滤掉;c为多个卷积核在同一卷积步下的输出;通过对不同特征层的相同位置进行池化操作,随着池化窗口的移动,得到了同样具有序列特征的文本特征向量Xc
Figure FDA0003502418220000033
其中向量的维度为n,n大小等于文本的长度;
序列特征提取层:LSTM拥有输入门、遗忘门、输出门保持和控制信息并且引入细胞状态;该层的输入为Xatt={x1 att,x2 att,...,xn att},输出为特征向量xl;其中xt att为T个时间步中第t个时间步的输入,对应于第t个词的注意向量;ct为LSTM单元在t时刻的状态,ht为t时间步的输出,计算过程如下式子:
Figure FDA0003502418220000034
其中ft为遗忘门的输出,表示上一时刻单元的状态ht-1和当前输入xt att有多少选择性忘记;it为输入门,表示上一时刻单元的状态ht-1和当前输入xt att有多少保留到细胞状态;ot为输出门,表示当前细胞状态ct有多少输出到当前输出值ht
Figure FDA0003502418220000035
为细胞状态候选值,ct为当前细胞状态,ht为当前时刻输出;Wf,Wi,Wc,Wo为权重矩阵,bf,bi,bc,bo为权重参数,W,b均为需要训练的参数;σ为sigmoid激活函数,tanh为双曲正切函数;最后一个时间步的输出hn作为循环层的输出xl,xl输入到特征融合层完成特征融合。
4.根据权利要求1所述的分析方法,其特征在于:
步骤S6所述的位置特征融合指的是使用最大值融合的方法实现对特征的融合,在特征融合时选择最大值作为特征输出;通过对CNN和LSTM提取特征进行融合,为分类任务提供更重要的特征;选择最大值融合的方法进行特征融合;最大融合方式:
xf=max(xc,xl) (9)
其中融合层的输入为卷积层输出特征向量xc和循环层输出特征向量xl,序列特征层LSTM的输出同局部特征层输出具有相同的维度,通过在对应特征位置进行最大值融合获得文本中的强特征;输出为融合后的特征向量xf
5.根据权利要求1所述的分析方法,其特征在于:
步骤S7中,将特征融合后的融合特征xf送入到输出层,之前的操作已经得到了文本中的特征,将融合得到的特征通过全连接层连接到sigmoid层;输出层是用于分类的sigmoid层,最终的输出结果代表的是文本的分类的概率;表示为:
Figure FDA0003502418220000041
其中WT和b是全连接层的权重和偏置,
Figure FDA0003502418220000044
是预测的结果;sigmoid激活函数用于将分类的置信度分数归一化在0-1之间;模型网络预测结果是一个0-1的值;设定0.5为分类阈值,大于0.5认定为积极情感,小于0.5认定为消极情感;
使用交叉熵作为损失函数来计算实际标签与预测标签之间的差异:
Figure FDA0003502418220000042
y代表真实标签,
Figure FDA0003502418220000043
为预测文本的分类概率。
CN202210196099.1A 2022-02-12 2022-02-12 一种环境类网络舆情的情感分析方法 Pending CN114692623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210196099.1A CN114692623A (zh) 2022-02-12 2022-02-12 一种环境类网络舆情的情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210196099.1A CN114692623A (zh) 2022-02-12 2022-02-12 一种环境类网络舆情的情感分析方法

Publications (1)

Publication Number Publication Date
CN114692623A true CN114692623A (zh) 2022-07-01

Family

ID=82136930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210196099.1A Pending CN114692623A (zh) 2022-02-12 2022-02-12 一种环境类网络舆情的情感分析方法

Country Status (1)

Country Link
CN (1) CN114692623A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522013A (zh) * 2023-06-29 2023-08-01 乐麦信息技术(杭州)有限公司 基于社交网络平台的舆情分析方法及系统
CN117407527A (zh) * 2023-10-19 2024-01-16 重庆邮电大学 一种教育领域舆情大数据分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522013A (zh) * 2023-06-29 2023-08-01 乐麦信息技术(杭州)有限公司 基于社交网络平台的舆情分析方法及系统
CN116522013B (zh) * 2023-06-29 2023-09-05 乐麦信息技术(杭州)有限公司 基于社交网络平台的舆情分析方法及系统
CN117407527A (zh) * 2023-10-19 2024-01-16 重庆邮电大学 一种教育领域舆情大数据分类方法

Similar Documents

Publication Publication Date Title
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN108874782B (zh) 一种层次注意力lstm和知识图谱的多轮对话管理方法
CN107608956B (zh) 一种基于cnn-grnn的读者情绪分布预测算法
CN110222178B (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN111985247B (zh) 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN109522548A (zh) 一种基于双向交互神经网络的文本情感分析方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111382565A (zh) 基于多标签的情绪-原因对抽取方法及系统
CN112364638B (zh) 一种基于社交文本的人格识别方法
CN111078833B (zh) 一种基于神经网络的文本分类方法
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN112328797A (zh) 一种基于神经网络和注意力机制的情感分类方法及系统
CN111753058A (zh) 一种文本观点挖掘方法及系统
CN114692623A (zh) 一种环境类网络舆情的情感分析方法
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN117094291B (zh) 基于智能写作的自动新闻生成系统
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN114722835A (zh) 基于lda和bert融合改进模型的文本情感识别方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN114416969B (zh) 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统
CN117708328A (zh) 一种情感分类模型及其应用的文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination