CN111368088A - 一种基于深度学习的文本情感分类方法 - Google Patents

一种基于深度学习的文本情感分类方法 Download PDF

Info

Publication number
CN111368088A
CN111368088A CN202010245891.2A CN202010245891A CN111368088A CN 111368088 A CN111368088 A CN 111368088A CN 202010245891 A CN202010245891 A CN 202010245891A CN 111368088 A CN111368088 A CN 111368088A
Authority
CN
China
Prior art keywords
layer
text
word vector
word
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010245891.2A
Other languages
English (en)
Inventor
冯翱
宋馨宇
王维宽
徐天豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202010245891.2A priority Critical patent/CN111368088A/zh
Publication of CN111368088A publication Critical patent/CN111368088A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于深度学习的文本情感分类方法,基于标注数据集或自行采集的数据集,通过GloVe将数据集的文本转换为词向量表示,并构造词向量字典,从词向量字典中查找对应词的词向量并输入构建好的混合神经网络模型中,通过一维卷积来提取文本的n‑gram特征,通过一维卷积得到的特征图可以保持与输入文本相同的维度,将语义信息的损失降到最小;然后采用双向LSTM进行特征提取,获取从前到后与从后往前的时序信息,将将一维卷积提取出的N‑grams特征按时间顺序整合,本发明技术方案能够更好的挖掘特征之间的时序关系以及全局语义信息,提高文本情感分类的准确性。

Description

一种基于深度学习的文本情感分类方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于深度学习的文本情感 分类方法。
背景技术
随着互联网和社交媒体的蓬勃发展,网络用户不再仅仅局限于浏览信息, 更多的人开始表达自己的观点,分享知识并创作内容。互联网中产生了大量 用户制造的信息,例如对热点新闻事件的评论、对特定商品的评价、对电影 的评分等。这些评论信息都包含了人们各种复杂的情感色彩或情感倾向,如 喜怒哀乐和否定、赞同等。因此,企业、机构或个人希望整合这些带有主观 色彩的评论,来解析和跟踪大众舆论对于某一对象或某一事件的看法。由于 互联网中这类评论信息的激增,仅靠人工难以在海量的非结构文本数据中收集和挖掘出有价值的情感相关信息,因此需要设计情感分析算法,利用计算 机来帮助用户快速、有效地获取对于某一对象的情感倾向。这就是文本情感 分类的主要任务。
深度学习已经成为一种主流而且性能优异的机器学习方法,它可以学习 数据的多层特征表示,并在很多领域取得优于传统方法的结果。近年来,随 着深度学习图像处理、机器翻译等领域的成功,深度学习也被用于文本情感 分类任务中。卷积神经网络(Convolutional Neural Network,CNN)是一 种常见的多层神经网络,由于能够有效地捕获时间和空间结构的相关性,其 广泛应用于计算机视觉和自然语言处理等领域。在文本情感分类任务中,CNN 逐渐取代传统基于文本统计信息的机器学习方法,成为主流方法之一。
目前,基于CNN的文本情感分类方法大多是利用文本局部的最大语义特 征进行情感极性判别。最常见的方法是通过二维卷积获取文本的局部语义特 征,再经过最大池化层获得当前标签下最显著的语义特征,使用全连接层组 合多个特征来判断情感倾向。
现有技术方案有使用word2vec作为词向量输入,通过二维卷积核在句 子不同位置提取n-gram特征,并通过池化操作学习短、长程的上下文关系, 最后经过softmax得到情感分类结果。该方法基于原始Skip-gram模型进行 了几个扩展。在训练过程中,对高频词(frequent words)进行二次采样会 导致显着的加速(大约2-10倍),并提高频率较低的词汇表征(word representation)的准确性。此外,该方法还包含一种用于训练Skip-gram 模型的简化NCE(Noise Contrastive Estimation/噪声对比估计)。结果表明, 与更复杂的分层softmax相比,它有更快的训练速度,而且高频词(frequent words)的向量表征(vectorrepresentation)也更好。词汇表征(words representation)天生受限于习惯用语(idiomatic phrases)的表示。例 如,“Boston Globe/波士顿环球报”是报纸,它不是“Boston/波士顿”和 “Globe/地球”的含义的自然组合。因此,用向量来表示整个短语会使Skip-gram模型更具表现力。其他旨在通过组合单词向量(例如递归自动编 码器/recursive autoencoders)来表示句子意义的技术也将受益于使用 phrase vectors而不是word vectors。这种方案的不足在于:对输入文本 使用基本的二维卷积会使特征图的维度减小,无法通过多层的卷积结构来提 取高层的文本特征。这种CNN模型可以看作从文本中捕获包含情感的关键词 或词组,通过这些关键词判断情感倾向,但最大池化处理仅仅是提取了最明 显的特征,并未考虑文本中的语义关系。
还有另一种方案:使用GloVe作为词向量输入,是考虑了共现矩阵(相 比word2vec考虑了word_pairs之间的距离因素)的基础上的计数模型,主 要目标是使向量之间尽可能的多蕴含语义和语法信息,采用一维卷积核提取 文本的局部语义特征,通过k-max池化后,仅保留语义最显著的k个n-gram 特征。不足在于:该方案虽然使用了一维卷积核,但仅保留了最显著的k个 n-gram特征,损失了很多语义信息。同时用卷积操作,只能提取到局部语义信息,对于全局语义的识别能力不足。
因此,如何结合上下文语义,尤其是全局语义来进行文本情感分类,成 为语言处理领域需要解决的技术难题。
发明内容
针对现有技术之不足,本发明提出一种基于深度学习模型的文本情感分 类方法,所述方法包括:
步骤1:准备标准数据集或自行采集数据;
步骤2:若选择自行采集数据,需要对采集到的文本数据进行预处理, 所述预处理包括:数据清洗、分词和词性标注;
步骤3:将标准数据集或预处理后的采集数据集划分为训练集、验证集 和测试集,划分比例分别为60%,20%,20%;
步骤4:将预处理好的数据集的文本均转换为词向量表示,并利用GloVe 构造词向量字典;
步骤5:根据步骤4得到的词向量字典,将数据集中的每个词查字典, 把得到的对应词向量作为输入,将其输入到构建好的一维卷积混合神经网络 模型中,进行特征提取和预测分类,所述一维卷积混合神经网络模型自底向 上由五层结构组成,包括输入层、一维卷积层、池化层、循环神经网络层和 Softmax层,词向量进入所述混合神经网络模型后经过所述循环神经网络层 得到平均输出值γ,并将所述平均输出值γ输出到Softmax层;
步骤6:预测文本的情感分类,将所述平均输出值βt输入到所述模型的 第五层Softmax层,用Softmax作为分类器,得到输入文本在各个情感类别 下的概率;
步骤7:在网络超参数不变的前提下,将训练集中的数据分批进行多轮 训练,以调整网络参数,直到达到最大迭代次数或满足提前截止条件;
步骤8:在验证集上运行步骤7得到的网络,并使用不同的超参数进行 多次训练,选择在验证集上取得最高精度的超参数;
步骤9:使用步骤8的超参数训练得到的网络在测试集上运行,得到最 终的分类精度指标。
根据一种优选的实施方式,步骤5具体包括:
步骤51:将词向量输入到所述模型的第一层输入层,从步骤4中学习的 词向量字典查找词wi,得到对应的词向量xi∈Rk,k为词向量的维度;
步骤52:将词向量xi输入到所述混合神经网络模型的第二层一维卷积层, 一维卷积层用于提取文本的n-gram特征,并使得特征维度与输入文本保持 一致,词向量每一维分别使用不同的一维卷积,一组一维卷积核表示为 wc∈Rh×k,可生成一个特征图c,h为滑动窗口大小;
步骤53:将所述特征图c输入到所述混合神经网络的第三层池化层,池 化操作的目标是选取文本各个位置最重要的特征,对于每一个特征图c,第i 列的最大特征值
Figure BDA0002433963190000041
经过池化层得到其中一个特征向量
Figure BDA0002433963190000042
其中,ci∈Rk,L为文本长度;
步骤54:经过池化层得到特征向量构成的矩阵V=[v1,...,vN],将其按 列展开为[α1,...,αL],N表示特征向量v的数量,将矩阵V输入到所述模型的 第四层循环神经网络层中,循环神经网络层使用双向LSTM网络,向量αt作 为双向LSTM网络t时刻的输入,由式(2)和式(3)分别求得t时刻前向和后向 的隐藏状态
Figure BDA0002433963190000043
Figure BDA0002433963190000044
Figure BDA0002433963190000045
Figure BDA0002433963190000046
其中,
Figure BDA00024339631900000418
表示t时刻前向网络的单元状态,
Figure BDA0002433963190000047
表示t时刻后向网络的单元 状态,
Figure BDA0002433963190000048
Figure BDA0002433963190000049
表示t时刻前后向网络的单元隐藏状态,
Figure BDA00024339631900000410
表示t-1时刻前向 网络的单元状态,
Figure BDA00024339631900000411
表示t-1时刻后向网络的单元状态,
Figure BDA00024339631900000412
表示t-1时刻 前向网络的单元隐藏状态,
Figure BDA00024339631900000413
表示t-1时刻后向网络的单元隐藏状态,xt表 示:池化层输出对应本层t时刻的输入数据;
并输出为:
Figure BDA00024339631900000414
其中,βt表示:对前后向状态加权、偏置后的输出,by表示:偏置,
Figure BDA00024339631900000415
Figure BDA00024339631900000416
表示:对前后向隐藏状态进行加权的权值,βt∈Rd,d为隐藏状态 ht的维度。各个时刻的输出取平均值得到平均输出值:
Figure BDA00024339631900000417
将所述平均输出值γ输入到所述混合神经网络模型的第五层Softmax层 进行分类。
根据一种优选的实施方式,步骤4具体包括:
步骤41:基于所述训练集、验证集和测试集,通过计算得到词的词向量 并构成共现矩阵X,所述共现矩阵X的元素Xij表示单词i和单词j共同出现 在同一个统计窗口的次数;
步骤42:调用GloVe训练共现矩阵X中的文本词向量,根据所述共现矩 阵X,可得到固定维度的词向量和词向量字典。
与现有技术相比,本发明的有益效果在于:
1、本发明通过一维卷积得到的特征图可以保持与输入文本相同的维度, 将语义信息的损失降到最小;并且,词向量可以认为是神经网络训练语言模 型的副产物,词向量各维的值可以看作隐含层各个神经元的输出,词向量的 各个维度之间相互独立,卷积应该分别进行,而不是将它们简单地进行加权 求和,因此通过一维卷积神经网络提取到文本的n-gram特征,拥有更丰富 的语义信息,同时,保留更丰富的局部语义特征。
2、由于现有的LSTM无法捕捉从后到前的信息,所以不适合进行更细粒 度的情感分类,通过双向LSTM(Bi-directional Long Short-Term Memory) 可以更好的捕捉双向的语义依赖。双向LSTM可获取从前到后与从后往前的 时序信息,因此能够得到特征的时序关系,采用双向LSTM将一维卷积提取 出的N-grams特征按时间顺序整合,挖掘特征之间的时序关系以及全局语义 信息,提高文本情感分类的准确性。
附图说明
图1是本发明情感判别方法的流程图;
图2是一种词向量表示方法的示意图;
图3是构造共现矩阵的一种具体实施方式;和
图4是本发明一维卷积混合神经网络的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施 方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例 性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结 构和技术的描述,以避免不必要地混淆本发明的概念。
LSTM:Long Short Term Memory长短时记忆网络。
本发明针对情感分类中二维卷积特征提取能力不足的问题,提出一种基 于一维卷积神经网络和循环神经网络的混合模型。该模型使用一维卷积替换 二维卷积以保留更丰富的局部语义特征,通过循环神经网络层,提取文本的 全局语义。在多个标准数据集上的实验表明,此模型的分类性能与主流的传 统机器学习和深度学习算法相比有明显的提升。
步骤1:准备标准数据集或自行采集数据。
标准数据集可采用斯坦福情感树库影评情感分类数据集(Stanford SentimentTreebank),斯坦福情感树库(SST)是第一个具有完全标记的解析 树的语料库,可以完整地分析语言中情感的成分效应。该语料库基于Pang 和Lee(2005)引入的数据集,包括从电影评论中提取的11,855个单句,使 用斯坦福解析器(Stanford Parser)解析,包括来自那些解析树的总共215,154 个独特短语,每个短语由3个人类专家注释。这个数据集使我们能够分析情 感的复杂性并捕捉复杂的语言现象。自行采集数据可通过网络爬虫等技术从 网络上采集多个文本数据构成数据集。
步骤2:若选择自行采集数据,需要对采集到的文本数据进行预处理, 预处理包括:数据清洗、分词和词性标注;
对数据进行清洗主要是处理掉数据集中的残缺数据、错误数据和重复数 据,使用工具如jieba分词、NLPIR等对数据集进行处理,完成句子分词和 分词后各部分的词性标注。
对自行采集的文本数据进行预处理的目的是使处理后数据集包含模型 训练所需的语义信息。如果直接采用斯坦福情感树影评情感分类数据,其自 身就具备了模型训练所需的语义信息,所以无需进行数据预处理。
步骤3:将标准数据集或预处理后的采集数据集划分为训练集、验证集 和测试集,划分比例分别为60%,20%,20%;
其中,训练集用于模型的参数训练,验证集用于调整模型超参数、初步 验证模型效果避免过拟合,测试集用来测试模型的最终效果。
步骤4:将预处理好的数据集的文本均转换为词向量表示,并利用GloVe 构造词向量字典。
将文本数据集转化为词向量表示,是为了转化成计算机能识别的数据。 将数据集中的每个词都转换为词向量,共现矩阵统计的是两个词共同出现的 次数,GloVe通过训练共现矩阵词向量得到词之间的共现概率。
图2是一种词向量表示方法的示意图。词向量只是对词的一种表示,如 图2所示,词“love”向量化后就是<2 0 0 1 1 0>,统计与n个词的共现 次数,则维度为n,上图n=6。GloVe算法根据共现矩阵词向量训练后,得出 的共现概率,相当于算法把次数转换概率,也是对词的一种表示,所以训练 词向量,得到的也是词向量。
词向量:通过统计一个预先指定大小的窗口内的词共出现的次数,以词 周边的共现词的次数作为当前词的向量,本发明通过共现矩阵来表示词向量, 数据集中的词的词向量构成共现矩阵。
步骤41:基于训练集、验证集和测试集,通过计算得到词的词向量并构 成共现矩阵X,共现矩阵X的元素Xij表示单词i和单词j共同出现在同一个 统计窗口的次数;
图3是构造共现矩阵的一种具体实施方式。设有语料库:i love you but youlove him i am sad,这个小小的语料库只有1个句子,涉及到7个单词:i、 love、you、but、him、am、sad。
如果我们采用一个窗口宽度为5(左右长度都为2)的统计窗口,那么 就有如图2所示的内容,窗口0、1长度小于5是因为中心词左侧内容少于2 个,同理窗口8、9长度也小于5。以窗口5为例说明如何构造共现矩阵:
中心词为love,语境词为but、you、him、i;则执行:
Xlove,but+=1
Xbut,love+=1(矩阵中对称元素+1,以下同)
Xlove,you+=1
Xlove,you+=1
Xlove,him+=1
Xlove,him+=1
Xlove,i+=1
Xlove,i+=1
使用窗口将整个语料库遍历一遍,即可得到共现矩阵X。
步骤42:调用GloVe训练共现矩阵X中的文本词向量,根据共现矩阵X, 可得到固定维度的词向量和词向量字典。词向量字典就是对于单词表中的每 一个词学习得到一个对应的固定词向量,因此可以认为这是个词到向量的字 典。得到固定维度的词向量是便于标准化输入,保证数据长度相同,又能够 使得到的词向量能够充分考虑到语料库的全局特征。
步骤5:根据步骤4得到的词向量字典,将数据集中的每个词查字典, 把得到的对应词向量作为输入,将其输入到构建好的一维卷积混合神经网络 模型中,进行特征提取和预测分类,一维卷积混合神经网络模型自底向上由 五层结构组成,包括输入层、一维卷积层、池化层、循环神经网络层和Softmax 层,词向量进入混合神经网络模型后经过循环神经网络层得到平均输出值γ, 并将平均输出值γ输出到Softmax层。
步骤51:将词向量输入到模型的第一层输入层,从步骤4中学习的词向 量字典查找词wi,得到对应的词向量xi∈Rk,k为词向量的维度。在文本开 始和末尾分别补零,以保证卷积后句子长度不变。
步骤52:将词向量输入到混合神经网络模型的第二层一维卷积层,一维 卷积层用于提取文本的n-gram特征,并使得特征维度与输入文本保持一致, 词向量每一维分别使用不同的一维卷积。一组一维卷积核表示为wc∈Rh×k, 可生成一个特征图c,h为滑动窗口大小。经过卷积,数据集中第i个词的第 j维得到的特征值为:
cji=f(wcj·xj,i:i+h-1+b) (1)
其中,wcj∈Rh表示词向量第j维上的一维卷积核。词向量的每一维表 示每一行。
一维卷积层提取的文本的n-gram特征,拥有更丰富的语义信息。N-gram 表示一个长度为N的词语组成的序列,该模型假设第N个词的出现只与前面 N-1个词相关,而与其它任何词都不相关,序列的概率就是各个词出现概率 的乘积。
选用一维卷积替换二维卷积有两点考虑。其一,通过一维卷积得到的特 征图可以保持与输入文本相同的维度,将语义信息的损失降到最小;其二, 词向量可以认为是神经网络训练语言模型的副产物,词向量各维的值可以看 作隐含层各个神经元的输出,词向量的各个维度之间相互独立,卷积应该分 别进行,而不是将它们简单地进行加权求和。
步骤53:将特征图c输入到混合神经网络的第三层池化层,池化操作的 目标是选取文本各个位置最重要的特征,对于每一个特征图c,第i列的最大 特征值
Figure BDA0002433963190000091
经过池化层得到其中一个特征向量
Figure BDA0002433963190000092
其 中,ci∈Rk,L为文本长度。文本是指数据集中某条文本数据,比如影评集 中的某条影评,各条长度是不一样的,但是通过设置窗口,保证了词向量长 度一致。
步骤54:经过池化层得到特征向量构成的矩阵V=[v1,...,vN],将其按 列展开为[α1,...,αL],N表示特征向量v的数量,将矩阵V输入到模型的第四 层循环神经网络层中,循环神经网络层使用双向LSTM网络,向量αt作为双 向LSTM网络t时刻的输入,由式(2)和式(3)分别求得t时刻前向和后向的隐 藏状态
Figure BDA0002433963190000093
Figure BDA0002433963190000094
Figure BDA0002433963190000095
Figure BDA0002433963190000096
其中,
Figure BDA0002433963190000097
表示t时刻前向网络的单元状态,
Figure BDA0002433963190000098
表示t时刻后向网络的单元 状态,
Figure BDA0002433963190000099
Figure BDA00024339631900000910
表示t时刻前后向网络的单元隐藏状态,
Figure BDA00024339631900000911
表示t-1时刻前向 网络的单元状态,
Figure BDA00024339631900000912
表示t-1时刻后向网络的单元状态,
Figure BDA00024339631900000913
表示t-1时刻 前向网络的单元隐藏状态,
Figure BDA0002433963190000101
表示t-1时刻后向网络的单元隐藏状态,xt表 示:池化层输出对应本层t时刻的输入数据。
并输出为:
Figure BDA0002433963190000102
其中,βt表示:对前后向状态加权、偏置后的输出,by表示:偏置,
Figure BDA0002433963190000103
Figure BDA0002433963190000104
表示:对前后向隐藏状态进行加权的权值,βt∈Rd,d为隐藏状态 ht的维度。各个时刻的输出取平均值得到平均输出值:
Figure BDA0002433963190000105
卷积操作虽然可以将相邻词或特征的语义进行组合,但无法有效地识别 和表示时序信息。为解决这一问题,采用双向LSTM将一维卷积提取出的 N-grams特征按时间顺序整合,挖掘特征之间的时序关系以及全局语义信息。
因为LSTM无法捕捉从后到前的信息,所以不适合进行更细粒度的情感 分类,通过双向LSTM(Bi-directional Long Short-Term Memory)可以更 好的捕捉双向的语义依赖。双向LSTM可获取从前到后与从后往前的时序信 息,因此能够得到特征的时序关系。
步骤5根据步骤4得到的文本词向量,词向量的每个维度进行一维卷积 操作,采用双向LSTM将一维卷积提取出的N-grams特征按时间顺序整合, 挖掘特征之间的时序关系以及全局语义信息。
步骤6:预测文本的情感分类,将平均输出值βt输入到模型的第五层 Softmax层,用Softmax作为分类器,得到输入文本在各个情感类别下的概 率。
步骤7:在网络超参数不变的前提下,将训练集中的数据分批进行多轮 训练,以调整网络参数,直到达到最大迭代次数或满足提前截止条件。
步骤8:在验证集上运行步骤7得到的网络,并使用不同的超参数进行 多次训练,选择在验证集上取得最高精度的超参数。
步骤9:使用步骤8的超参数训练得到的网络在测试集上运行,得到最 终的分类精度指标。
本发明实验中的超参数如表3-1所示。
本发明使用GloVe预训练的词嵌入向量作为混合神经网络初始的输入, 维度为300。对于一维卷积层,采用1、2、3这三种尺寸的卷积核,每种尺 寸的卷积核数量均设置为4,确保卷积网络从不同维度不同位置提取多种文 本特征。循环神经网络层使用双向LSTM,记忆单元的维度为150,词向量 和双向LSTM后均设置0.5的dropout。训练批次大小为50,学习率为5E-4, 进行反向传播的参数增加0.001的L2正则约束,选择Adam作为优化器,训 练阶段最大迭代次数为100。输入的词向量会根据反向传播微调,在1000个 批次内验证集上的准确度没有提升会提前停止训练,设置梯度截断为3。
表3-1实验参数设置
Figure BDA0002433963190000111
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本 发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明 的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发 明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护 范围由权利要求及其等同物限定。

Claims (3)

1.一种基于深度学习模型的文本情感分类方法,其特征在于,所述方法包括:
步骤1:准备标准数据集或自行采集数据;
步骤2:若选择自行采集数据,需要对采集到的文本数据进行预处理,所述预处理包括:数据清洗、分词和词性标注;
步骤3:将标准数据集或预处理后的采集数据集划分为训练集、验证集和测试集,划分比例分别为60%,20%,20%;
步骤4:将预处理好的数据集的文本均转换为词向量表示,并利用GloVe构造词向量字典;
步骤5:根据步骤4得到的词向量字典,将数据集中的每个词查字典,把得到的对应词向量作为输入,将其输入到构建好的一维卷积混合神经网络模型中,进行特征提取和预测分类,所述一维卷积混合神经网络模型自底向上由五层结构组成,包括输入层、一维卷积层、池化层、循环神经网络层和Softmax层,词向量进入所述混合神经网络模型后经过所述循环神经网络层得到平均输出值γ,并将所述平均输出值γ输出到Softmax层;
步骤6:预测文本的情感分类,将所述平均输出值γ输入到所述模型的第五层Softmax层,用Softmax作为分类器,得到输入文本在各个情感类别下的概率;
步骤7:在网络超参数不变的前提下,将训练集中的数据分批进行多轮训练,以调整网络参数,直到达到最大迭代次数或满足提前截止条件;
步骤8:在验证集上运行步骤7得到的网络,并使用不同的超参数进行多次训练,选择在验证集上取得最高精度的超参数;
步骤9:使用步骤8的超参数训练得到的网络在测试集上运行,得到最终的分类精度指标。
2.如权利要求1所述的文本情感判别方法,其特征在于,步骤5具体包括:
步骤51:将词向量输入到所述模型的第一层输入层,从步骤4中学习的词向量字典查找词wi,得到对应的词向量xi∈Rk,k为词向量的维度;
步骤52:将词向量xi输入到所述混合神经网络模型的第二层一维卷积层,一维卷积层用于提取文本的n-gram特征,并使得特征维度与输入文本保持一致,词向量每一维分别使用不同的一维卷积,一组一维卷积核表示为wc∈Rh×k,可生成一个特征图c,h为滑动窗口大小;
步骤53:将所述特征图c输入到所述混合神经网络的第三层池化层,池化操作的目标是选取文本各个位置最重要的特征,对于每一个特征图c,第i列的最大特征值
Figure FDA0002433963180000021
经过池化层得到其中一个特征向量
Figure FDA0002433963180000022
其中,ci∈Rk,L为文本长度;
步骤54:经过池化层得到特征向量构成的矩阵V=[v1,...,vN],将其按列展开为[α1,...,αL],N表示特征向量v的数量,将矩阵V输入到所述模型的第四层循环神经网络层中,循环神经网络层使用双向LSTM网络,向量αt作为双向LSTM网络t时刻的输入,由式(2)和式(3)分别求得t时刻前向和后向的隐藏状态
Figure FDA0002433963180000023
Figure FDA0002433963180000024
Figure FDA0002433963180000025
Figure FDA0002433963180000026
其中,
Figure FDA0002433963180000027
表示t时刻前向网络的单元状态,
Figure FDA0002433963180000028
表示t时刻后向网络的单元状态,
Figure FDA0002433963180000029
Figure FDA00024339631800000210
表示t时刻前后向网络的单元隐藏状态,
Figure FDA00024339631800000211
表示t-1时刻前向网络的单元状态,
Figure FDA00024339631800000212
表示t-1时刻后向网络的单元状态,
Figure FDA00024339631800000213
表示t-1时刻前向网络的单元隐藏状态,
Figure FDA00024339631800000214
表示t-1时刻后向网络的单元隐藏状态,xt表示:池化层输出对应本层t时刻的输入数据;
并输出为:
Figure FDA00024339631800000215
其中,βt表示:对前后向状态加权、偏置后的输出,by表示:偏置,
Figure FDA00024339631800000216
Figure FDA00024339631800000217
表示:对前后向隐藏状态进行加权的权值,βt∈Rd,d为隐藏状态ht的维度,各个时刻的输出取平均值得到平均输出值γ:
Figure FDA0002433963180000031
将所述平均输出值γ输入到所述混合神经网络模型的第五层Softmax层进行分类。
3.如权利要求2所述的文本情感判别方法,其特征在于,步骤4具体包括:
步骤41:基于所述训练集、验证集和测试集,通过计算得到词的词向量并构成共现矩阵X,所述共现矩阵X的元素Xij表示单词i和单词j共同出现在同一个统计窗口的次数;
步骤42:调用GloVe训练共现矩阵X中的文本词向量,根据所述共现矩阵X,可得到固定维度的词向量和词向量字典。
CN202010245891.2A 2020-03-31 2020-03-31 一种基于深度学习的文本情感分类方法 Withdrawn CN111368088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010245891.2A CN111368088A (zh) 2020-03-31 2020-03-31 一种基于深度学习的文本情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010245891.2A CN111368088A (zh) 2020-03-31 2020-03-31 一种基于深度学习的文本情感分类方法

Publications (1)

Publication Number Publication Date
CN111368088A true CN111368088A (zh) 2020-07-03

Family

ID=71209311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010245891.2A Withdrawn CN111368088A (zh) 2020-03-31 2020-03-31 一种基于深度学习的文本情感分类方法

Country Status (1)

Country Link
CN (1) CN111368088A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084332A (zh) * 2020-08-28 2020-12-15 浙江大学 一种基于深度双向语言文本处理网络的违章分类方法
CN112347245A (zh) * 2020-09-29 2021-02-09 徐佳慧 面向投融资领域机构的观点挖掘方法、装置和电子设备
CN112580351A (zh) * 2020-12-31 2021-03-30 成都信息工程大学 一种基于自信息损失补偿的机器生成文本检测方法
CN112711664A (zh) * 2020-12-31 2021-04-27 山西三友和智慧信息技术股份有限公司 一种基于tcn+lstm的文本情感分类方法
CN112906383A (zh) * 2021-02-05 2021-06-04 成都信息工程大学 一种基于增量学习的集成式自适应水军识别方法
CN113076490A (zh) * 2021-04-25 2021-07-06 昆明理工大学 一种基于混合节点图的涉案微博对象级情感分类方法
CN113255889A (zh) * 2021-05-26 2021-08-13 安徽理工大学 一种基于深度学习的职业性尘肺病多模态分析方法
CN114299510A (zh) * 2022-03-08 2022-04-08 山东山大鸥玛软件股份有限公司 一种手写英文行识别系统
CN114519613A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 价格数据的处理方法和装置、电子设备、存储介质
CN116662523A (zh) * 2023-08-01 2023-08-29 宁波甬恒瑶瑶智能科技有限公司 一种基于gpt模型的生化知识问答方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN109977226A (zh) * 2019-03-14 2019-07-05 南京邮电大学 基于卷积神经网络的高精度文本分类方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN109977226A (zh) * 2019-03-14 2019-07-05 南京邮电大学 基于卷积神经网络的高精度文本分类方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈郑淏: "基于一维卷积混合神经网络的文本情感分类", 《计算机应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084332A (zh) * 2020-08-28 2020-12-15 浙江大学 一种基于深度双向语言文本处理网络的违章分类方法
CN112347245A (zh) * 2020-09-29 2021-02-09 徐佳慧 面向投融资领域机构的观点挖掘方法、装置和电子设备
CN112580351B (zh) * 2020-12-31 2022-04-19 成都信息工程大学 一种基于自信息损失补偿的机器生成文本检测方法
CN112580351A (zh) * 2020-12-31 2021-03-30 成都信息工程大学 一种基于自信息损失补偿的机器生成文本检测方法
CN112711664A (zh) * 2020-12-31 2021-04-27 山西三友和智慧信息技术股份有限公司 一种基于tcn+lstm的文本情感分类方法
CN112711664B (zh) * 2020-12-31 2022-09-20 山西三友和智慧信息技术股份有限公司 一种基于tcn+lstm的文本情感分类方法
CN112906383A (zh) * 2021-02-05 2021-06-04 成都信息工程大学 一种基于增量学习的集成式自适应水军识别方法
CN113076490A (zh) * 2021-04-25 2021-07-06 昆明理工大学 一种基于混合节点图的涉案微博对象级情感分类方法
CN113255889A (zh) * 2021-05-26 2021-08-13 安徽理工大学 一种基于深度学习的职业性尘肺病多模态分析方法
CN114519613A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 价格数据的处理方法和装置、电子设备、存储介质
CN114519613B (zh) * 2022-02-22 2023-07-25 平安科技(深圳)有限公司 价格数据的处理方法和装置、电子设备、存储介质
CN114299510A (zh) * 2022-03-08 2022-04-08 山东山大鸥玛软件股份有限公司 一种手写英文行识别系统
CN116662523A (zh) * 2023-08-01 2023-08-29 宁波甬恒瑶瑶智能科技有限公司 一种基于gpt模型的生化知识问答方法、系统及存储介质
CN116662523B (zh) * 2023-08-01 2023-10-20 宁波甬恒瑶瑶智能科技有限公司 一种基于gpt模型的生化知识问答方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN111368088A (zh) 一种基于深度学习的文本情感分类方法
CN109753566B (zh) 基于卷积神经网络的跨领域情感分析的模型训练方法
Li et al. Context-aware emotion cause analysis with multi-attention-based neural network
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN112001187B (zh) 一种基于中文句法和图卷积神经网络的情感分类系统
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN111078833B (zh) 一种基于神经网络的文本分类方法
CN110807084A (zh) 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
Zhou et al. Sentiment analysis of text based on CNN and bi-directional LSTM model
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
Kshirsagar et al. A review on application of deep learning in natural language processing
CN115952292B (zh) 多标签分类方法、装置及计算机可读介质
CN113326374A (zh) 基于特征增强的短文本情感分类方法及系统
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
Chaudhuri Visual and text sentiment analysis through hierarchical deep learning networks
Ruposh et al. A computational approach of recognizing emotion from Bengali texts
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
Ueno et al. A spoiler detection method for japanese-written reviews of stories
CN116108840A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
CN111259228A (zh) 基于大数据深度学习的个性化新闻推荐方法
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
Jiang et al. Sentiment classification based on clause polarity and fusion via convolutional neural network
Rezaei et al. Hierarchical three-module method of text classification in web big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200703

WW01 Invention patent application withdrawn after publication