CN113987120A - 一种基于深度学习的舆情情感分类方法 - Google Patents

一种基于深度学习的舆情情感分类方法 Download PDF

Info

Publication number
CN113987120A
CN113987120A CN202111234291.7A CN202111234291A CN113987120A CN 113987120 A CN113987120 A CN 113987120A CN 202111234291 A CN202111234291 A CN 202111234291A CN 113987120 A CN113987120 A CN 113987120A
Authority
CN
China
Prior art keywords
model
bilstm
emotion
attention
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111234291.7A
Other languages
English (en)
Inventor
陈济炉
韩立新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202111234291.7A priority Critical patent/CN113987120A/zh
Publication of CN113987120A publication Critical patent/CN113987120A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度学习的舆情情感分类方法,运用XLNet+BiLSTM+Attention模型来进行情感分类,该方法主要包含以下步骤:数据预处理,对微博热点事件评论数据进行预处理;数据预训练,将数据放入XLNet模型,提取XLNet词向量表示;特征提取,将词向量输入BiLSTM模型中,获取文本上下文信息特征;Attention操作,运行Attention机制通过权重值提取更深层次特征向量;情感分类,运用softmax函数进行归一化,预测出该言论的情感倾向,本发明提出的模型,主要针对BERT模型训练和测试时数据有差异,微调不准确的问题,以及现在情感分类主要分为两类:积极和消极,情感判断较粗糙,XLNet+BiLSTM+Attention模型中训练和测试数据无差异,结果可以对文本分析富含的多种情感,并且有效提高情感预测的准确度。

Description

一种基于深度学习的舆情情感分类方法
技术领域
本发明涉及自然语言处理的情感分类领域和深度学习领域,具体来说是涉及一种基于深度学习的舆情情感分类方法。
背景技术
自然语言处理领域中情感分类问题,人们的研究方法由基于情感词典的舆情情感分析到基于机器学习的舆情情感分析。现在最为流行的是基于深度学习的舆情情感分析方法。深度学习方法节约了大量的人工时间,无须一个个进行特征提取操作。神经网络可以通过自动学习来主动提取特征向量。CNN、RNN、LSTM等神经网络算法是情感分类问题中常用的算法。但是这些神经网络方法在运用到获取情感分类方面的准确性还是不够高。有些在进行情感分类的同时,并不能够很好的考虑上下文之间的联系,以及权重的偏差。并且大部分的情感分类只是简单的判断情感倾向是积极或是消极,比较单一,没有考虑到文本中可能包含着多种情感色彩。因此有必要设计一种基于深度学习的情感分类方法,能够在这些方面取得很好的效果。
高质量的词向量表示是深度学习模型在情感分类领域取得突破的重要因素之一。2018年Google提出BERT模型后,在NLP领域刷新了许多任务的记录。BERT模型内部采用了双向Transformer架构,完全基于注意力机制,能够训练得出上下文相关的动态词向量,为后续的神经网络训练提供更加准确的词向量,提高模型的分类准确性。人们便大量研究将BERT模型运用到实验中,并且也获得较为理想的结果。但BERT模型中运用[MASK]掩盖词,该词可能存在特殊意义;其次训练时存在MASK符号,而测试时并没有MASK,导致微调会存在一些差异。于是,2019年Google提出了一种新型模型XLNet模型,很好的弥补了BERT模型的缺陷。XLNet模型利用随机打乱语句中词语次序,然后掩盖最后的词,再利用上下文进行预测,弥补了训练和测试时MASK差异的问题。
在词向量建模句子级别的语义特征时,句子和文档存在着序列结构。因此序列模型RNN被经常运用在分析情感分类问题上。但是RNN算法在反向传播时会出现梯度消失或者爆炸的问题。BiLSTM是RNN模型转化而来,很好的解决了这个问题。并且BiLSTM神经网络能够学习句子的长期依赖性,保留重要历史特征信息。能够有效的解决了RNN算法存在的长期依赖问题和上下文深层语义挖掘不充分的问题。将Attention机制与BiLSTM模型相结合,弥补BiLSTM均值化无差别的缺陷。
本发明提出的XLNet+BiLSTM+Attention模型能够很好的弥补BERT模型训练和测试时数据有差异的问题,并且其中的BiLSTM分析多种情感种类以弥补现在情感分类较为单一的问题。这种模型较好地提高了情感分析的全面性以及准确性。
发明内容
本发明的目的是为了提高情感分析的准确性,以及提高情感分析的全面性,提出了一种基于深度学习的情感分类方法。其中运用XLNet+BiLSTM+Attention模型来进行情感分类,有效的提高情感分类的准确性,并且分析多种情感种类,全面分析语句中包含的多种感情。
技术方案:一种基于深度学习的舆情情感分类方法,包括:
数据预处理,对爬虫到的微博热点评论数据进行预处理。对评论数据进行清理,去除其中的符号、URL以及数字,使用微博表情库中对应的表情中文代替表情符号;使用SentencePiece技术对中文评论数据进行分词,XLNet模型与Word2Vec模型不同,所需要的输入也不一样。一般使用Word2Vec模型的均使用jieba工具进行分词,得到中文词语序列,作为Word2Vec模型的输入。但XLNet模型使用的是SentencePiece技术来进行分词。SentencePiece技术不依赖以前的词语积累,仅仅通过当前训练集进行训练学习,并且不会因为语言不同而有不一样的结果,它将所有词语都看成unicode字符来处理;参照哈工大停用词表过滤停用词,删除常见且无意义的词语。
数据预训练,使用微博领域的数据集训练XLNet模型,预训练其参数;将预处理过的数据作为输入,加载进模型中提取词向量,获得词序列x1,x2,x3......xn
特征提取,将词序列作为输入,通过BiLSTM神经网络获取特征表达式;BiLSTM模型保存了文本前后信息,增强了特征向量的前后关联性。该BiLSTM层中使用6个BiLSTM情感分类器,计算每种感情的特征向量。通过双向LSTM单元获得隐向量
Figure BDA0003317204730000021
Figure BDA0003317204730000022
Figure BDA0003317204730000023
Figure BDA0003317204730000024
的公式:
Figure BDA0003317204730000031
然后将两个隐向量进行拼接,形成特征向量ht
Attention操作,将运用BiLSTM模型得到的隐藏层向量进行Attetion操作,对句子中的不同特征分配权重,获取与用户情感倾向更加相关的信息。WW,bW是注意力模型的权重和偏置,ht是BiLSTM层的输出,uw也是权重,计算结果
Figure BDA0003317204730000034
表示文本中每个词的重要程度,V是经过注意力模型计算后得到的输出向量。具体计算公式是:
ut=tanh(Wwht+bw) (2)
Figure BDA0003317204730000032
Figure BDA0003317204730000033
情感分类,利用加权后的特征进行舆情情感分类的训练,最终生成情感分类器,可以对未分类的舆情言论进行情感倾向判断。
本发明的有益效果具体表述如下:
(1)使用的分词技术SentencePiece,主要通过给定的数据集来进行学习,根据数据集中的规律对句子进行分词。其不依赖于以前的训练,有助于更高效的对文本进行分词,可以在一定程度上减少分词后的词量。并且对于不同语言不会有不一样的结果,可适用性很强。
(2)使用的XLNet模型,解决了BERT模型存在的训练-微调数据有差异的问题,更好的提高预训练的效果。
(3)使用的BiLSTM+Attention模型,更好的考虑了上下文之间的关系,以及对于情感相关的特征进行权重加持,增强了特征的有效性,提高情感分类的准确性。
(4)在BiLSTM层中使用了6个BiLSTM情感分类器,这样可以更加全面的训练出每个句子中包含的多样情感,使得情感更加全面。
附图说明
图1为本发明基于深度学习的舆情情感分类法流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
参见图1,该图中给出了本发明实施例的算法流程,包括以下步骤:
101、数据预处理:将在微博上爬虫得来的数据进行清洗,去除数据中的符号、URL标识符、数字等无关信息;使用SentencePiece技术对文本数据进行分词;参照哈工大停用词表去除数据中无实际意义的词语。并且依据6种情感(like,happiness,surprise,disgust,fear,sadness)构建数据集。
102、数据预训练:使用哈工大讯飞联合实验室发布的XLNet预训练模型,将数据预处理后的分词输入到模型中,得到句子的每个词向量。得到的结果词序列为x1,x2,x3......xn
103、特征提取:将得到的词序列输入BiLSTM模型中。数据集中情感分类为6种,所以构建6个BiLSTM情感分类器,分别对应每一种情感。每个BiLSTM情感分类其中都存在两个不同方向的LSTM单元,通过LSTM单元获得隐向量
Figure BDA0003317204730000041
Figure BDA0003317204730000042
Figure BDA0003317204730000043
Figure BDA0003317204730000044
的公式:
Figure BDA0003317204730000045
然后将两个隐向量进行拼接,形成特征向量ht
104、Attention操作:将BiLSTM层中每个BiLSTM情感分类器得到的特征向量ht均输入Attention层。Attention模型分别对每个进行权重计算。然后得出6个情感的权重特征向量WW,bW是注意力模型的权重和偏置,ht是BiLSTM层的输出,uw也是权重,计算结果
Figure BDA0003317204730000046
表示文本中每个词的重要程度,V是经过注意力模型计算后得到的输出向量。具体计算公式是:
ut=tanh(Wwht+bw) (2)
Figure BDA0003317204730000051
Figure BDA0003317204730000052
105、情感分类:将Attention层得到的特征向量Vi作为softmax层的输入,计算每种情感类别的概率。其中,Vi是Attention层的输出,C是总类别个数,Si是当前元素与所有元素的比值。具体计算公式是:
Figure BDA0003317204730000053

Claims (4)

1.一种基于深度学习的舆情情感分类方法,其特征在于,运用XLNet+BiLSTM+Attention模型来进行情感分类,所述XLNet+BiLSTM+Attention模型包括:词嵌入层、BiLSTM层、Attention层、softmax分类层;词嵌入层是使用XLNet实现将文本数据转化低频词向量;BiLSTM层是使用6个BiLSTM单元,对词向量进行结合上下文的情感特征提取,分别提取6种情感的特征;Attention层是使用Attention机制分别对六种情感进行权重特征向量,强化更加重要的信息;softmax分类层是将情感分类结果归一化,准确明了得出文本语句中包含的六种情感的概率;
所述方法包含以下步骤:
步骤1:数据预处理,对爬虫爬取的微博热点言论文本进行清理,使用SentencePiece技术对中文数据进行分词;参考哈工大停用词表过滤停用词,删除常见的、无意义的词语;
步骤2:数据预训练,将分词输入XLNet模型中,使用XLNet模型作为词嵌入层,获取词序列x1,x2,x3......xn
步骤3:特征提取,对步骤2训练得到的词序列作为BiLSTM模型的输入,根据双向LSTM单元获取隐向量
Figure FDA0003317204720000011
Figure FDA0003317204720000012
Figure FDA0003317204720000013
的公式:
Figure FDA0003317204720000014
然后将两个隐向量进行拼接,形成特征向量ht
步骤4:Attention操作,对步骤3提取的特征向量ht,进行Attention权重加值,提取更加有实际意义的特征向量,WW,bW是注意力模型的权重和偏置,ht是BiLSTM层的输出,uw也是权重,计算结果
Figure FDA0003317204720000015
表示文本中每个词的重要程度,V是经过注意力模型计算后得到的输出向量,具体计算公式是:
ut=tanh(Wwht+bw) (2)
Figure FDA0003317204720000016
Figure FDA0003317204720000017
步骤5:情感分类,利用步骤4加权后的特征向量进行情感分类,将向量输入到softmax函数中,进行最终言论的情感分类预测。
2.根据权利要求1所述的一种基于深度学习的舆情情感分类方法法,其特征在于,所述步骤2中的预训练模型,主要利用BERT模型对数据进行预训练,提取词向量。
3.根据权利要求1所述的一种基于深度学习的舆情情感分类方法,其特征在于,所述步骤3中的特征提取方式,对预训练得到的词向量使用BiLSTM神经网络提取上下文信息,获取特征向量,该BiLSTM层中使用6个BiLSTM情感分类器,计算每种感情的特征向量,使得句子的情感更加全面。
4.根据权利要求1所述的一种基于深度学习的舆情情感分类方法,其特征在于,所述步骤4中的Attention操作方法,采用Attention机制对特征向量进行权重加值,提高与情感分类相关的特征的权重,获取更加有实际意义的特征向量。
CN202111234291.7A 2021-10-22 2021-10-22 一种基于深度学习的舆情情感分类方法 Pending CN113987120A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111234291.7A CN113987120A (zh) 2021-10-22 2021-10-22 一种基于深度学习的舆情情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111234291.7A CN113987120A (zh) 2021-10-22 2021-10-22 一种基于深度学习的舆情情感分类方法

Publications (1)

Publication Number Publication Date
CN113987120A true CN113987120A (zh) 2022-01-28

Family

ID=79740490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111234291.7A Pending CN113987120A (zh) 2021-10-22 2021-10-22 一种基于深度学习的舆情情感分类方法

Country Status (1)

Country Link
CN (1) CN113987120A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758676A (zh) * 2022-04-18 2022-07-15 哈尔滨理工大学 一种基于深度残差收缩网络的多模态情感识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114758676A (zh) * 2022-04-18 2022-07-15 哈尔滨理工大学 一种基于深度残差收缩网络的多模态情感识别方法

Similar Documents

Publication Publication Date Title
CN111144131B (zh) 一种基于预训练语言模型的网络谣言检测方法
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
CN106886580B (zh) 一种基于深度学习的图片情感极性分析方法
CN110717332B (zh) 基于非对称孪生网络的新闻与案件相似度计算方法
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN109492678B (zh) 一种集成浅层和深度学习的App分类方法
CN110765769B (zh) 一种基于子句特征的实体属性依赖情感分析方法
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN110704890A (zh) 一种融合卷积神经网络和循环神经网络的文本因果关系自动抽取方法
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112861524A (zh) 一种基于深度学习的多层次中文细粒度情感分析方法
CN110134934A (zh) 文本情感分析方法和装置
CN112070139A (zh) 基于bert与改进lstm的文本分类方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN115630156A (zh) 一种融合Prompt和SRU的蒙古语情感分析方法与系统
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN113239690A (zh) 基于Bert与全连接神经网络融合的中文文本意图识别方法
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN110610006B (zh) 基于笔画和字形的形态学双通道中文词嵌入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination