CN114416969A - 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 - Google Patents
一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 Download PDFInfo
- Publication number
- CN114416969A CN114416969A CN202111447487.4A CN202111447487A CN114416969A CN 114416969 A CN114416969 A CN 114416969A CN 202111447487 A CN202111447487 A CN 202111447487A CN 114416969 A CN114416969 A CN 114416969A
- Authority
- CN
- China
- Prior art keywords
- text
- comment
- news
- word
- online
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于背景增强的LSTM‑CNN在线评论情感分类方法及系统,将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示,利用融合词性与位置信息的TF‑IDF算法提取新闻文本特征,使用卷积神经网络提取出评论文本的局部特征,将新闻文本特征提取通道所得的新闻文本特征与在线评论文本特征提取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征向量,将评论文本作为语言背景,将其作为评论文本情感分析的特征,加入到情感分类模型中,提高了模型在不同背景下情感分析判断能力,使用TF‑IDF结合词性与位置信息进行新闻文本特征提取,融合特征向量然后进入全连接层分类训练得到新闻评论情感分类模型,能够提高新闻评论情感分类的准确率。
Description
技术领域
本发明属于自然语言处理和深度学习领域,具体涉及一种基于背景增强的 LSTM-CNN在线评论情感分类方法及系统。
背景技术
随着信息科技的快速发展以及互联网普及率的持续提升,网络已经逐步成 为大众日常生活中获取社会信息和参与社会热点讨论的主要方式,并且在经济 政治社会生活中发挥着越来越重要的影响。2017年到2020年我国网络新闻 的用户规模以及在网民总数中的占比都在逐渐增加,这充分体现了我国大多数 网民愿意主动了解社会热点新闻,对于网络新闻事件的关注度越来越高,这说 明了网民乐于对各种新闻表达自己的想法,对于参与网络话题的热情很高。互 联网时代使得网络信息爆炸性增长,面对海量的在线评论数据进行研究具有重 要的现实意义。
在当前网民拥有相对自由的话语权的环境下,舆情在网络新媒体中愈演愈 烈,在新媒体平台上发布一条热点事件,短时间内就会产生成千上万的评论, 公众畅所欲言,充斥着公正性、针对性、虚假性、煽动性、误导性等的多类型 言论,如果不严格把控言论、了解民意,将会造成事件的恶化,舆论的激化。 因此有效挖掘新闻在线评论,对于评论走向,舆情发展都有很重要的作用。
当前主流的在线评论情感分类方法包括基于情感词典的情感分类、基于传 统机器学习的情感分类和基于深度学习的分类方法。前面两种情感分类方法需 要较多的人工先验知识的辅助,通过提取大量人工特征和构建情感词典完成情 感分类任务。虽然这两种方法处理效果较为理想,但过程繁琐。而基于深度学 习的情感分类方法能够自动提取特征,处理过程简便,且情感分类效果更好, 因此,越来越多的人采用基于深度学习的方法处理情感分类问题。新闻在线评 论的内容具有迫切的现实意义,主要是针对当前重要的新闻事件和现实生活中 的问题包括人民群众中的某些热点、难点问题发表意见。在线评论与群众紧密 相连,反映了大众对于事件的要求和呼声,也代表群众的特点和需要。新闻评 论往往含有对于某件事情的态度,不同于对产品发表的评论,新闻评论中的情 感倾向往往需要依赖新闻文本作为背景来综合考虑,分析没有上下文的新闻评 论的情感非常困难,很可能会误解句子的真正情感信息,并且某种程度上还会 造成情感极性的误解,因此,急需一种能够快速准确实现评论情感分类的方法, 将在线评论进行有效分类归结,了解事件动态发展。
发明内容
本发明的目的在于提供一种基于背景增强的LSTM-CNN在线评论情感分 类方法及系统,以克服现有技术的不足。
一种基于背景增强的LSTM-CNN在线评论情感分类方法,包括以下步骤:
S1,采集新闻文本与其对应的在线评论文本并进行预处理;
S2,将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表 示;
S3,将预处理后的新闻文本作为新闻文本特征提取通道的输入,利用融合 词性与位置信息的TF-IDF算法提取新闻文本特征;
S4,将在线评论文本的词向量表示作为评论特征提取通道的输入,利用长 短期记忆网络提取在线评论文本的上下文时序特征,再使用卷积神经网络提取 出评论文本的局部特征;
S5,将新闻文本特征提取通道所得的新闻文本特征与在线评论文本特征提 取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征向量,利用 评论文本特征向量训练得到新闻评论情感分类模型,利用得到的新闻评论情感 分类模型实现在线评论文本的情感极性分类。
进一步的,从新闻软件中爬取获得新闻文本与其对应的在线评论文本数据, 对采集的新闻文本以及评论文本进行预处理,具体使用正则表达式清洗数据中 的特殊字符,利用jieba分词工具对新闻文本与评论文本进行分词处理与词性 标注,根据停用词词典对分词结果进行过滤。
进一步的,利用Word2vec工具对经过预处理的新闻的在线评论文本进行 训练。
进一步的,采用CBOW语言模型获得词向量表示,将在线评论文本中的 每个词转化为一个K维空间的稠密向量。
进一步的,根据新闻文本中词语的TF-IDF权重、词语词性权重和词语位 置权重计算新闻文本中每个词语的权重,获得新闻文本特征向量表示。
进一步的,一个词的词性为名词或者动名词权重为1,如果是其他词性权 重为0.5;新闻文本中词语位置权重:位置信息用词跨度表示,词跨度是指同 一个词第一次出现和最后一次出现的距离,将词跨度进行归一化并转换成权重 值。
进一步的,将新闻评论文本词向量表示作为长短时记忆网络的输入,利用 长短时记忆网络较强的上下文特征提取能力捕捉在线评论文本的上下文语义信 息,保留句子间的时序信息,加强文本内部之间的联系。
进一步的,利用评论文本特征向量训练得到新闻评论情感分类模型,将情 感倾向分为积极和消极两种情况。
进一步的,将两种情感倾向中概率最大值所属的情感倾向当作本发明所提 模型对新闻评论文本句子情感极性的预测结果;
y=soft max(WTx+b)
yi=soft max(wjx+bj)
式中,x为全连接层的输入,Wn×k为权重,b为偏置项,y为softmax输 出的概率。
一种在线评论情感分类系统,包括预处理模块,特征提取融合模块和分类 模块;
预处理模块用于对采集的新闻文本与其对应的在线评论文本进行预处理, 并将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示;
特征提取融合模块用于将预处理后的新闻文本作为新闻文本特征提取通道 的输入,利用融合词性与位置信息的TF-IDF算法提取新闻文本特征;将在线 评论文本的词向量表示作为评论特征提取通道的输入,利用长短期记忆网络提 取在线评论文本的上下文时序特征,再使用卷积神经网络提取出评论文本的局 部特征;
分类模块用于根据新闻文本特征提取通道所得的新闻文本特征与在线评论 文本特征提取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征 向量,利用评论文本特征向量训练得到新闻评论情感分类模型,利用得到的新 闻评论情感分类模型实现在线评论文本的情感极性分类。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种基于背景增强的LSTM-CNN在线评论情感分类方法,通过采 集新闻文本与其对应的在线评论文本并进行预处理,将预处理后的在线评论文 本进行词转化得到在线评论文本的词向量表示,将预处理后的新闻文本作为新 闻文本特征提取通道的输入,利用融合词性与位置信息的TF-IDF算法提取新 闻文本特征,使用卷积神经网络提取出评论文本的局部特征,将新闻文本特征 提取通道所得的新闻文本特征与在线评论文本特征提取通道所得的评论文本特 征拼接得到基于背景增强的评论文本特征向量,将评论文本作为语言背景,并 将其作为评论文本情感分析的特征,加入到情感分类模型中,从而提高了模型 在不同背景下情感分析判断能力,使用TF-IDF结合词性与位置信息进行新闻 文本特征提取,使用LSTM-CNN进行新闻评论特征提取,融合特征向量然 后进入全连接层分类训练得到新闻评论情感分类模型,能够提高新闻评论情感 分类的准确率。
进一步的,利用jieba分词工具对新闻文本与评论文本进行分词处理与词 性标注,根据停用词词典对分词结果进行过滤,完成去停用词操作,再对评论 数据集进行情感标注,为避免个人主观理解造成的标记偏差问题。
附图说明
图1为本发明具体实施方式中的分类方法的流程图。
图2为本发明具体实施方式中分类模型的结构图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
如图1所示,一种基于背景增强的LSTM-CNN在线评论情感分类方法, 包括以下步骤:
S1,采集新闻文本与其对应的在线评论文本并进行预处理;
S2,利用Word2vec工具将预处理后的在线评论文本进行词转化得到在 线评论文本的词向量表示;
S3,构造新闻文本特征提取通道:将预处理后的新闻文本作为新闻文本特 征提取通道的输入,利用融合词性与位置信息的TF-IDF算法提取新闻文本特 征;
S4,构造在线评论文本特征提取通道:将在线评论文本的词向量表示作为 评论特征提取通道的输入,利用长短期记忆网络提取在线评论文本的上下文时 序特征,再使用卷积神经网络提取出评论文本的局部特征;
S5,将新闻文本特征提取通道所得的新闻文本特征C1与在线评论文本特 征提取通道所得的评论文本特征C2拼接在一起,然后得到基于背景增强的评 论文本特征向量C,利用评论文本特征向量C训练得到新闻评论情感分类模 型,利用得到的新闻评论情感分类模型实现在线评论文本的情感极性分类。
具体的,新闻文本与其对应的在线评论文本的获取与预处理。具体包括以 下步骤:
步骤1.1)、首先设计python爬虫程序从新闻软件中爬取数据,新闻软件 采用新浪微博,百度或今日头条;数据分为两部分内容,第一部分为新浪微博 新闻文本,第二部分为新浪微博新闻对应的评论文本,两部分内容存储在 mysql数据库的两个表中,利用新闻ID作为两个表的连接。
步骤1.2)、对采集的新闻文本以及评论文本进行预处理,具体使用正则表 达式清洗数据中的特殊字符,诸如@\[]以及标点符号等字符,这些字符对于情 感倾向的判断无任何实际意义。
步骤1.3)、利用jieba分词工具对新闻文本与评论文本进行分词处理与词 性标注,根据停用词词典对分词结果进行过滤;统计评论文本长度,通过扩充 或截断确保评论文本句长的统一。
利用Word2vec工具对经过预处理的新闻的在线评论文本进行训练,本发 明使用CBOW语言模型获得词向量表示,将在线评论文本中的每个词转化为 一个K维空间的稠密向量。
构造新闻文本特征提取通道:将预处理后的新闻文本作为新闻文本特征提 取通道的输入,利用融合词性与位置信息的TF-IDF算法提取新闻文本特征。 具体包括以下步骤:
步骤3.1)、根据新闻文本中词语的TF-IDF权重、词语词性权重和词语位 置权重计算新闻文本中每个词语的权重,获得新闻文本特征向量表示。
具体的,采用TF-IDF方法获取新闻文本中词语的TF-IDF权重;
词语词性权重的设置,在本申请中,一个词的词性为名词或者动名词权重 为1,如果是其他词性权重为0.5;
新闻文本中词语位置权重:位置信息用词跨度表示,词跨度是指同一个词 第一次出现和最后一次出现的距离,将词跨度进行归一化并转换成权重值,来 判断这个词对文档的重要性。
步骤4、构造在线评论文本特征提取通道,将评论文本的词进行向量表示。
为评论特征提取通道的输入,首先利用长短期记忆网络提取在线评论文本 的上下文时序特征;再使用卷积神经网络提取出评论文本的局部特征。具体包 括以下步骤:
步骤4.1)、将新闻评论文本词向量表示作为长短时记忆网络的输入,利用 长短时记忆网络较强的上下文特征提取能力捕捉在线评论文本的上下文语义信 息,保留句子间的时序信息,加强文本内部之间的联系。长短时记忆网络(LSTM) 包含3个门:输入门、遗忘门、输出门,它们用来控制网络中信息的传递与保 留。LSTM模型的计算公式可以表示为:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
at=tanh(WC·[ht-1,xt]+bC)
Ct=ft*Ct-1+it*at
Ot=σ(Wo[ht-1,xt]+bo)
hi=Ot*tanh(Ct)
式中,Ct代表t时刻记忆单元的输出,σ(·)代表sigmoid激活函数,t表 示当前所处的时刻,t-1表示上一个时刻,it表示t时刻长短时记忆网络输入 门的输出,ot表示t时刻长短时记忆网络输出门的输出,ft表示t时刻长短 时记忆网络遗忘门的输出。
步骤4.2)、将LSTM层输出的新编码的向量作为卷积神经网络的输入, 通过不同size的多个filter进行卷积操作,提取不同的特征向量ci,然后通 过最大池化层筛选最大的特征然后将这些最大值拼接成一个特征向量z, 最后将不同窗口的特征向量拼接,得到卷积层的输出向量Z。
ci=f(w·xi:i+h-1+b)
C=[c1,c2,...cn-h+1]
Z=(z1,z2,z3)
式中,xii+h-1代表由输入矩阵的第i行到第i+h-1行所组成的一个大小为 h×k的窗口,由xi、xi+1、...、xi+h-1拼接而成。h表示窗口中的单词数,w为 h×k维的权重矩阵(因此一个filter需要学习的参数个数是hk个),b为偏置 参数,f为非线性激活函数Relu。
步骤4.3)、将池化层输出的结果作为Flatten层的输入,将输入作“压平” 操作,即把多维的输入一维化。
步骤5、将新闻文本特征提取通道所得的新闻文本特征C1与在线评论文 本特征提取通道所得的评论文本特征C2拼接在一起,然后得到基于背景增强 的评论文本特征向量C:
C=(C1,C2)
利用评论文本特征向量C训练得到新闻评论情感分类模型,利用得到的新 闻评论情感分类模型实现在线评论文本的情感极性分类,具体包括以下步骤:
步骤5.1)、以评论文本特征向量为训练集,通过Dropout层,在神经网 络的传播过程中,让某个神经元以一定的概率停止工作,从而增加模型的泛化 能力;
步骤5.2)、通过全连接层,使用Softmax激活函数输出每个类别的概率, 同时为了防止过拟合,加一个L2正则,得到评论文本中每个句子对应的情感 倾向的概率分布,本发明针对2分类的情感分类任务,将情感倾向分为积极和 消极两种情况。
步骤5.3)、将两种情感倾向中概率最大值所属的情感倾向当作本发明所提 模型对新闻评论文本句子情感极性的预测结果。
y=soft max(WTx+b)
yi=soft max(wjx+bj)
式中,x为全连接层的输入,Wn×k为权重,b为偏置项,y为softmax输 出的概率。
如图2所示,一种在线评论情感分类系统,包括预处理模块,特征提取融 合模块和分类模块;
预处理模块用于对采集的新闻文本与其对应的在线评论文本进行预处理, 并将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示;
特征提取融合模块用于将预处理后的新闻文本作为新闻文本特征提取通道 的输入,利用融合词性与位置信息的TF-IDF算法提取新闻文本特征;将在线 评论文本的词向量表示作为评论特征提取通道的输入,利用长短期记忆网络提 取在线评论文本的上下文时序特征,再使用卷积神经网络提取出评论文本的局 部特征;
分类模块用于根据新闻文本特征提取通道所得的新闻文本特征与在线评论 文本特征提取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征 向量,利用评论文本特征向量训练得到新闻评论情感分类模型,利用得到的新 闻评论情感分类模型实现在线评论文本的情感极性分类。
本发明所提的一种基于背景增强的LSTM-CNN在线评论情感分类方法 将交叉熵当做损失函数,Adam当作优化器。若假设y代表评论文本句子情 感倾向的实际概率分布,y代表本发明所提方法预测的评论文本句子情感倾向 的概率分布。本发明所提方法的训练目标是竭尽所能地减少评论文本句子情感 倾向的实际概率分布y和利用本发明所提的一种基于背景增强的LSTM-CNN 在线评论情感分类方法进行预测所得的评论文本句子情感倾向分布y之间的 交叉熵损失。
本实例选取人民日报和央视新闻两大微博用户,它们作为具有影响力的两 大媒体,新闻发布量大,用户关注度高,拥有大量的评论。采集该两大媒体的 1000条新闻事件,以及对应的各10条在线评论数据,一共1万条在线评论 数据集,数据集按6:2:2的比例分为训练集、验证集和测试集,使用一种基于 背景增强的LSTM-CNN在线评论情感分类方法对文本情感进行分析,具体步 骤如下所示:
1.对采集的新闻文本以及对应评论文本数据集通过正则表达式清洗数据, 去除特殊无用的字符,然后使用jieba分词工具对文本语料进行分词处理以 及词性标注,并利用哈工大停用词表对语料中没有意义的词语过滤掉,
2.完成去停用词操作,再对评论数据集进行情感标注,为避免个人主观理 解造成的标记偏差问题,邀请了三位同学对本文所收集到的真实新闻评论数 据集分别进行分类打标,当三位同学意见一致后确定对评论文本的初步打标 结果;
3.对评论文本数据集进行统计,通过截断或补充确定句长。然后将在线评 论文本表示为特征向量化形式,使用CBOW语言模型获得词向量表示,将 语料中的每个词转化为一个200维空间的稠密向量;
4.利用结合词性与位置信息的TF-IDF方法计算新闻文本中每个词的权 重,构造新闻文本的特征向量。
5.利用由长短时记忆网络与卷积神经网络组成的混合神经网络对评论文 本语料进行特征学习,得到多层次的特征向量。其中,长短时记忆网络隐藏 层的神经元个数设置为200,保证输入到卷积神经网络的词向量维度也为 200;卷积神经网络的卷积核大小设置为2,3,4,个数设置为128,Dropout 率设置为0.5,防止过拟合情况出现。
6.将两个通道所得到的特征进行合并,最终进入全连接层使用softmax 函数进行分类,得到实验结果。为验证本发明所提的基于背景增强的 LSTM-CNN在线评论情感分类方法的优越性,对相同数据集设置了4组对 比实验,比较准确率、召回率、F1值,结果如下表所示。
从表中可以看出,本发明所提方法的精确率对于新闻在线评论数据集最高, 达到了89.3714%,对情感分类结果具有较好的解释性。
本发明一种基于背景增强的LSTM-CNN在线评论情感分类方法,将评论 的相关新闻或帖子作为其背景,并将其作为评论文本情感分析的特征,加入到 情感分类模型中,从而提高了模型在不同背景下情感分析判断能力。使用 TF-IDF结合词性与位置信息进行新闻文本特征提取,使用LSTM-CNN进行 新闻评论特征提取,融合特征向量然后进入全连接层分类训练得到新闻评论情 感分类模型,通过实验对比分析,本发明提出的模型对于新闻评论情感分类具 有较高的准确率。
Claims (10)
1.一种基于背景增强的LSTM-CNN在线评论情感分类方法,其特征在于,包括以下步骤:
S1,采集新闻文本与其对应的在线评论文本并进行预处理;
S2,将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示;
S3,将预处理后的新闻文本作为新闻文本特征提取通道的输入,利用融合词性与位置信息的TF-IDF算法提取新闻文本特征;
S4,将在线评论文本的词向量表示作为评论特征提取通道的输入,利用长短期记忆网络提取在线评论文本的上下文时序特征,再使用卷积神经网络提取出评论文本的局部特征;
S5,将新闻文本特征提取通道所得的新闻文本特征与在线评论文本特征提取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征向量,利用评论文本特征向量训练得到新闻评论情感分类模型,利用得到的新闻评论情感分类模型实现在线评论文本的情感极性分类。
2.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法,其特征在于,从新闻软件中爬取获得新闻文本与其对应的在线评论文本数据,对采集的新闻文本以及评论文本进行预处理,具体使用正则表达式清洗数据中的特殊字符,利用jieba分词工具对新闻文本与评论文本进行分词处理与词性标注,根据停用词词典对分词结果进行过滤。
3.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法,其特征在于,利用Word2vec工具对经过预处理的新闻的在线评论文本进行训练。
4.根据权利要求3所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法,其特征在于,采用CBOW语言模型获得词向量表示,将在线评论文本中的每个词转化为一个K维空间的稠密向量。
5.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法,其特征在于,根据新闻文本中词语的TF-IDF权重、词语词性权重和词语位置权重计算新闻文本中每个词语的权重,获得新闻文本特征向量表示。
6.根据权利要求5所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法,其特征在于,一个词的词性为名词或者动名词权重为1,如果是其他词性权重为0.5;新闻文本中词语位置权重:位置信息用词跨度表示,词跨度是指同一个词第一次出现和最后一次出现的距离,将词跨度进行归一化并转换成权重值。
7.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法,其特征在于,将新闻评论文本词向量表示作为长短时记忆网络的输入,利用长短时记忆网络较强的上下文特征提取能力捕捉在线评论文本的上下文语义信息,保留句子间的时序信息,加强文本内部之间的联系。
8.根据权利要求1所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法,其特征在于,利用评论文本特征向量训练得到新闻评论情感分类模型,将情感倾向分为积极和消极两种情况。
9.根据权利要求8所述的一种基于背景增强的LSTM-CNN在线评论情感分类方法,其特征在于,将两种情感倾向中概率最大值所属的情感倾向当作本发明所提模型对新闻评论文本句子情感极性的预测结果;
y=soft max(WTx+b)
yi=soft max(wjx+bj)
式中,x为全连接层的输入,Wn×k为权重,b为偏置项,y为softmax输出的概率。
10.一种基于权利要求1所述方法的在线评论情感分类系统,其特征在于,包括预处理模块,特征提取融合模块和分类模块;
预处理模块用于对采集的新闻文本与其对应的在线评论文本进行预处理,并将预处理后的在线评论文本进行词转化得到在线评论文本的词向量表示;
特征提取融合模块用于将预处理后的新闻文本作为新闻文本特征提取通道的输入,利用融合词性与位置信息的TF-IDF算法提取新闻文本特征;将在线评论文本的词向量表示作为评论特征提取通道的输入,利用长短期记忆网络提取在线评论文本的上下文时序特征,再使用卷积神经网络提取出评论文本的局部特征;
分类模块用于根据新闻文本特征提取通道所得的新闻文本特征与在线评论文本特征提取通道所得的评论文本特征拼接得到基于背景增强的评论文本特征向量,利用评论文本特征向量训练得到新闻评论情感分类模型,利用得到的新闻评论情感分类模型实现在线评论文本的情感极性分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111447487.4A CN114416969A (zh) | 2021-11-30 | 2021-11-30 | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111447487.4A CN114416969A (zh) | 2021-11-30 | 2021-11-30 | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114416969A true CN114416969A (zh) | 2022-04-29 |
Family
ID=81265412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111447487.4A Pending CN114416969A (zh) | 2021-11-30 | 2021-11-30 | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114416969A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115934951A (zh) * | 2023-02-16 | 2023-04-07 | 湖南大学 | 一种网络热点话题用户情绪预测方法 |
CN117556064A (zh) * | 2024-01-11 | 2024-02-13 | 北京邮电大学 | 基于大数据分析的信息分类存储方法与系统 |
-
2021
- 2021-11-30 CN CN202111447487.4A patent/CN114416969A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115934951A (zh) * | 2023-02-16 | 2023-04-07 | 湖南大学 | 一种网络热点话题用户情绪预测方法 |
CN117556064A (zh) * | 2024-01-11 | 2024-02-13 | 北京邮电大学 | 基于大数据分析的信息分类存储方法与系统 |
CN117556064B (zh) * | 2024-01-11 | 2024-03-26 | 北京邮电大学 | 基于大数据分析的信息分类存储方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN109446331B (zh) | 一种文本情绪分类模型建立方法及文本情绪分类方法 | |
Shou et al. | Conversational emotion recognition studies based on graph convolutional neural networks and a dependent syntactic analysis | |
CN110287320A (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
Zhao et al. | ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN | |
CN114416969A (zh) | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 | |
CN112287106A (zh) | 一种基于双通道混合神经网络的在线评论情感分类方法 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN112287240A (zh) | 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置 | |
CN112200674B (zh) | 一种证券市场情绪指数智能计算信息系统 | |
CN113220964A (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
Rong et al. | Sentiment analysis of ecommerce product review data based on deep learning | |
CN112182227A (zh) | 基于transD知识图嵌入的文本情感分类系统及方法 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
TW202034207A (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN115906816A (zh) | 一种基于Bert的双通道Attention模型的文本情感分析方法 | |
Li et al. | Applying Deep Learning in Depression Detection. | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
CN114429135A (zh) | 一种基于对抗训练和多注意力的CNN-BiLSTM方面情感分析方法 | |
Deng et al. | A depression tendency detection model fusing weibo content and user behavior | |
CN112347786A (zh) | 人工智能评分训练方法和装置 | |
Wang et al. | Deep and shallow features learning for short texts matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |