CN112966526A - 一种基于情感词向量的汽车在线评论情感分析方法 - Google Patents

一种基于情感词向量的汽车在线评论情感分析方法 Download PDF

Info

Publication number
CN112966526A
CN112966526A CN202110425629.0A CN202110425629A CN112966526A CN 112966526 A CN112966526 A CN 112966526A CN 202110425629 A CN202110425629 A CN 202110425629A CN 112966526 A CN112966526 A CN 112966526A
Authority
CN
China
Prior art keywords
emotion
layer
model
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110425629.0A
Other languages
English (en)
Inventor
刘露
姚志林
费玉玺
包铁
彭涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202110425629.0A priority Critical patent/CN112966526A/zh
Publication of CN112966526A publication Critical patent/CN112966526A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的属于汽车在线评论技术领域,具体为一种基于情感词向量的汽车在线评论情感分析方法,其包括:输入层;特征学习层;注意力层;情感分类层。该基于情感词向量的汽车在线评论情感分析方法,在已构建的特定汽车评论文本数据集上进行上述方法的实验分析,使得该模型能够更好的抽取关于汽车评论文本的特征,提升该模型在汽车领域文本评论情感倾向分析的准确率;通过设计对比实验,在汽车领域的文本评论分类准确率以及F1值相较于传统的情感分类方法取得了有效改善,具有一定的应用价值。

Description

一种基于情感词向量的汽车在线评论情感分析方法
技术领域
本发明涉及汽车在线评论技术领域,具体为一种基于情感词向量的汽车在线评论情感分析方法。
背景技术
随着我国的经济水平飞速发展,互联网在国内的普及度日益提高,而与此同时人民生活质量也在不断改善。日益向好的发展趋势促使汽车这一种重要的交通运输工具,也逐渐进入了千家万户。同时,汽车制造业正逐渐向智能化、信息化转变,而人们消费意识的提高,对于汽车这一类大型商品的综合要求也在不断发生着变化,因此对于汽车服务商而言,了解用户的个性化需求,精准掌握市场动向,从而制定合理的企业营销策略具有重大意义。
目前,在国内已经出现了多个具有一定专业性的汽车门户网站,这些网站的用户保持着极高的活跃度和积极性,由此便产生了海量的用户在线评论数据。对于汽车服务商而言,不同的用户对于某一汽车商品的评价具有极高的商业价值信息,而面对如此多的评论数据,如果仅依靠人工进行文本的分析和挖掘,无疑是一件非常庞大且繁复的工作。如果能够自动从汽车评论文本中学习文本特征,从而实现情感信息提取,并通过分类模型对汽车评论做出情感倾向的判断,进而能够对评论中的正面评价和负面评价进行挖掘,便可以获取更深层次的关键信息,从而更为客观的了解用户的需求,极大的减少了汽车企业了解市场动向的人力成本和时间成本,给予了企业更为灵活的决策方案。
目前国内外针对情感分析任务的主流研究方法主要有3种,分别是(1)基于情感词典和规则的分类方法;(2)基于传统机器学习的分类方法;(3)基于深度学习的分类方法。这三种流行方法在一定程度上都存在各自缺陷:
(1)基于词典的方法是利用情感知识来尽可能完整地创建相应的情感词典,然后依据规则进行文本对照,进而计算得到文本的情感类型。情感词典被用于融合语言资源,其中每个单词与指示其情感极性的分数相关。但是由于情感词典自身不能考虑上下文对与单词关联的极性值的影响,因此它们只能在识别大型数据集中的粗略意见倾向上获得良好的性能。
(2)基于机器学习的情感分类方法大体可分为有监督式和半监督式的两类机器学习算法,虽然这其中不乏性能较为优异的分类模型,但由于这些分类模型的性能通常取决于标注数据集的质量,而高质量的标注数据集往往需要付出大量的人工成本才能得到。这样便造成了机器学习方法更多的受限于复杂的特征工程,并且依赖人工数据集的设计,导致分类在某一领域表现良好但在其他领域却不尽然,因此在大规模推广方面存在阻力。
(3)相对于前两种情感分析方法,深度学习技术在自动化的捕获文本特征方面取得了巨大进步,但就目前的模型应用现状来看,词向量的表征能力对模型的分类效果至关重要。而目前性能表现突出的词向量预训练模型如Bert,在情感信息表征能力上仍存在不足,致使在解决情感分析任务时,语言模型往往仅能够学习文本数据的语义信息,而忽略了文本中所蕴含的情感信息,这对模型来说无疑是巨大的损失。
基于对上述问题的思考及分析,本发明在深度学习技术的基础上,保留其自动化捕获文本特征能力的同时,提出改进创新方式,设计一种基于情感词向量的汽车在线评论情感分析方法。
本发明首先在传统词向量训练模型中进行改进,考虑在预训练阶段加入情感信息作为先验知识,让模型在捕获文本特征的同时,能通过学习目标词的上下文,并将其所蕴含的情感信息准确预测出来,最终通过大规模的预训练任务,提升模型的表征能力。其次,在自动学习文本语义特征的基础上尝试加入注意力机制Attention,将Attention所具有的特定选择能力加入到文本特征抽取过程中,提升基础模型对特征情感词的关注度,从而有效改善文本情感分析算法的性能。
本发明通过利用深度学习技术提取用户在汽车网站中对相关汽车品牌的评价,挖掘用户需求痛点,关注消费者的切实需求,对汽车企业制造商与服务商的未来发展策略和改进方向具有重要指导意义。
发明内容
本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
一种基于情感词向量的汽车在线评论情感分析方法,其包括:
1)输入层:在输入层中,主要将模型的输入文本转化为不同的低维且连续的实值向量,构成词嵌入表示;词向量输入层作为加载词向量的模型,将获取到的评论文本数据映射到向量空间中去,从而实现将词语表示为固定长度的向量;让预训练语言模型在该阶段能够充分学习上下文的情感信息来对掩盖的情感词进行预测,而已有的情感词作为目标语义信息以监督学习的方式馈送给模型,而后通过反向传播的方式调整参数值;
2)特征学习层:特征学习层能够学习输入句子的向量表示,对目标词及其上下文的依赖关系进行建模;在整体情感分析模型中,选取双向长短期记忆网络BiLSTM作为特征学习层来处理评论文本的语义信息;
3)注意力层:通过特征学习层中BiLSTM网络的前后向隐含层,学习目标词与上下文的语义信息,在BiLSTM网络的基础上增加注意力机制,来使模型对不同的隐藏层向量分配不同的注意力关注值;
4)情感分类层:在情感分类层,将注意力层的输出作为本层的输入,数据的分类是由全连接层实现,全连接层采用softmax模型作情感倾向预测。
作为本发明所述的基于情感词向量的汽车在线评论情感分析方法的一种优选方案,其中:在预训练阶段加入情感信息作为先验知识,通过大规模的预训练任务,提升模型的表征能力,具体步骤如下:
对Bert而言,文本特征的学习主要依靠掩盖语言模型的预测过程。Bert在训练模型参数时,会在掩盖语言模型中采用“掩盖”的方式去掉特定词,然后通过模型训练的方式自动进行补全,模型的输出则是目标词可能的概率分布;在训练时,将已有的领域情感词典中的情感词进行情感极性标注,并作为监督信息馈送到模型中;情感词典中的情感词作为掩盖词的依据,通过掩盖语言模型的预测任务,让模型在该阶段能够充分学习上下文的情感信息来对掩盖的情感词进行预测,而已有的情感词作为目标语义信息以监督学习的方式馈送给模型,而后通过反向传播的方式调整参数值,从而能够让模型在捕获文本特征时,不仅能够很好的预测掩盖词的语义信息,并且能通过学习该词的上下文将其所蕴含的情感信息准确预测出来。
对于序列S,将编码后的上下文信息作为掩盖词的动态词向量,并使用softmax对其情感倾向做预测,其所属的概率分布计算公式如下所示:
Figure BDA0003029541330000041
其中,xMASX表示的是序列S中掩盖词w经Transformer提取后对应的表征,
Figure BDA0003029541330000051
为权重矩阵。
作为本发明所述的基于情感词向量的汽车在线评论情感分析方法的一种优选方案,其中:选取双向长短期记忆网络BiLSTM作为特征学习层来处理评论文本的语义信息,BiLSTM由两个隐含层构成,同时连接到输出层单元,该隐含层是两个顺序方向相反的LSTM叠加组成的,具体步骤如下:
BiLSTM从词向量输入层中接收词向量序列{e1,e2,e3,...,en}作为输入,其中ei表示输入序列中一个的词向量。而后分别经过前向单元和后向单元读取到t时刻的前向信息
Figure BDA0003029541330000052
和后向信息
Figure BDA0003029541330000053
最终的隐藏语义状态ht是由前向信息
Figure BDA0003029541330000054
和后向信息
Figure BDA0003029541330000055
融合而来的;
Figure BDA0003029541330000056
Figure BDA0003029541330000057
Figure BDA0003029541330000058
最后将隐含层的输出进行拼接,作为注意力层的输入。
作为本发明所述的基于情感词向量的汽车在线评论情感分析方法的一种优选方案,其中:考虑在BiLSTM网络的基础上增加注意力机制,来使得模型对不同的隐藏层向量分配不同的注意力关注值,对不同文本情感词分配不同的注意力权重,具体步骤如下:
经由BiLSTM网络特征学习后所产生的隐藏层向量,会作为注意力层的输入进入到该层,然后对该输入中不同时刻的隐藏层向量分配以不同的权重关注度,从而得到新的隐藏层向量表示ut
ut=tanh(Wht) (5)
其中,ht的归一化系数δt可以由softmax函数计算得出:
Figure BDA0003029541330000061
最后,由隐藏向量的加权平均值便可得到句子的向量表示。
S=∑tδtht (7)
作为本发明所述的基于情感词向量的汽车在线评论情感分析方法的一种优选方案,其中:在最后的softmax层实现情感倾向的概率表示,具体步骤如下:
softmax模型会得到一个K维的向量,而该K维向量最终会映射到另一个向量值的和为1的空间。输出层的计算公式如下式所示:
0=softmax(WSh+bs) (8)
在输出层进行类别划分,经过分类的处理,最终可以得到情感倾向的概率表示。
Figure BDA0003029541330000062
与现有技术相比:通过以构造情感词向量为模型输入,经过BiLSTM网络层进行特征学习,而后利用注意力层强调关注重点情感词对文本的不同权重分配,最后利用softmax对文本进行具体情感分类,从而确定文本情感倾向,该基于情感词向量的汽车在线评论情感分析方法,在已构建的特定汽车评论文本数据集上进行上述方法的实验分析,使得该模型能够更好的抽取关于汽车评论文本的特征,提升该模型在汽车领域文本评论情感倾向分析的准确率;通过设计对比实验,在汽车领域的文本评论分类准确率以及F1值相较于传统的情感分类方法取得了有效改善,具有一定的应用价值。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明的算法实现架构图;
图2为本发明的情感词向量优化流程图;
图3为本发明的汽车在线评论舆情监控系统图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施方式的限制。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明提供一种基于情感词向量的汽车在线评论情感分析方法,在已构建的特定汽车评论文本数据集上进行上述方法的实验分析,使得该模型能够更好的抽取关于汽车评论文本的特征,提升该模型在汽车领域文本评论情感倾向分析的准确率;通过设计对比实验,在汽车领域的文本评论分类准确率以及F1值相较于传统的情感分类方法取得了有效改善,具有一定的应用价值;
请参阅图1、图2和图3,
1)输入层
在输入层中,根据词嵌入的原理,该层主要将模型的输入文本转化为不同的低维且连续的实值向量,构成词嵌入表示。词向量输入层作为加载词向量的模型,目的是将获取到的评论文本数据映射到向量空间中去,从而实现将词语表示为固定长度的向量。让预训练语言模型在该阶段能够充分学习上下文的情感信息来对掩盖的情感词进行预测,而已有的情感词作为目标语义信息以监督学习的方式馈送给模型,而后通过反向传播的方式调整参数值,从而能够让预训练模型在捕获文本特征时,不仅能够很好的预测掩盖词的语义信息,并且能通过学习该词的上下文将其所蕴含的情感信息准确预测出来,最终实现情感词向量的生成;
2)特征学习层
特征学习层的主要设计目的是能够学习输入句子的向量表示,对目标词及其上下文的依赖关系进行建模。为了能够将输入的文本数据中上下文语义信息同时学习出来,在整体情感分析模型中,本发明选取了双向长短期记忆网络BiLSTM作为特征学习层来处理评论文本的语义信息。
3)通过特征学习层中BiLSTM网络的前后向隐含层,有效学习了目标词与上下文的语义信息,但在具体的文本中,实际的情感倾向并非与每个单词都有较强的相关性,模型应该更多的去关注部分带有情感倾向的词义信息。基于此,本发明考虑在BiLSTM网络的基础上增加注意力机制,来使模型对不同的隐藏层向量分配不同的注意力关注值,从而有效实现对不同文本情感词分配不同的注意力权重。
4)在情感分类层,本方法首先将注意力层的输出作为本层的输入,数据的分类是由全连接层实现,全连接层采用softmax模型作情感倾向预测。
请再次参阅图1、图2和图3,
1.尽管词向量的引入已经为情感分析任务带来了显著改变,但从传统的预训练模型的特点来看,其训练产生的词向量,往往只能给出文本中所蕴含的语义特征,而相应的有关文本数据的情感特征却不能够有效表达。因此,如果能够让语言模型在训练词向量的同时能够将情感信息包含在内,那么针对情感分析方面的相关任务,便可以有效关注到文中的情感信息,从而提高模型所学习到的词向量的质量,进而更有利于情感分类准确性的提升。因此基于Bert的情感词向量改进方法,可以考虑在预训练阶段加入情感信息作为先验知识,通过大规模的预训练任务,提升模型的表征能力。
对Bert而言,文本特征的学习主要依靠掩盖语言模型的预测过程。Bert在训练模型参数时,会在掩盖语言模型中采用“掩盖”的方式去掉特定词,然后通过模型训练的方式自动进行补全,模型的输出则是目标词可能的概率分布;在训练时,将已有的领域情感词典中的情感词进行情感极性标注,并作为监督信息馈送到模型中;情感词典中的情感词作为掩盖词的依据,通过掩盖语言模型的预测任务,让模型在该阶段能够充分学习上下文的情感信息来对掩盖的情感词进行预测,而已有的情感词作为目标语义信息以监督学习的方式馈送给模型,而后通过反向传播的方式调整参数值,从而能够让模型在捕获文本特征时,不仅能够很好的预测掩盖词的语义信息,并且能通过学习该词的上下文将其所蕴含的情感信息准确预测出来。
对于序列S,将编码后的上下文信息作为掩盖词的动态词向量,并使用softmax对其情感倾向做预测,其所属的概率分布计算公式如下所示:
Figure BDA0003029541330000091
其中,xMASX表示的是序列S中掩盖词w经Transformer提取后对应的表征,
Figure BDA0003029541330000092
为权重矩阵。
2.为了能够将输入的文本数据中上下文语义信息同时学习出来,在模型中,本方法选取了双向长短期记忆网络BiLSTM作为特征学习层来处理评论文本的语义信息。BiLSTM由两个隐含层构成,同时连接到输出层单元。该隐含层是两个顺序方向相反的LSTM叠加组成的,这样叠加的好处是可以同时学习当前文本上文信息和下文信息。
BiLSTM从词向量输入层中接收词向量序列{e1,e2,e3,...,en}作为输入,其中ei表示输入序列中一个的词向量。而后分别经过前向单元和后向单元读取到t时刻的前向信息
Figure BDA0003029541330000101
和后向信息
Figure BDA0003029541330000102
最终的隐藏语义状态ht是由前向信息
Figure BDA0003029541330000103
和后向信息
Figure BDA0003029541330000104
融合而来的;
Figure BDA0003029541330000105
Figure BDA0003029541330000106
Figure BDA0003029541330000107
最后将隐含层的输出进行拼接,作为注意力层的输入。
3.考虑在BiLSTM网络的基础上增加注意力机制,来使得模型对不同的隐藏层向量分配不同的注意力关注值,从而有效对不同文本情感词分配不同的注意力权重。
经由BiLSTM网络特征学习后所产生的隐藏层向量,会作为注意力层的输入进入到该层,然后对该输入中不同时刻的隐藏层向量分配以不同的权重关注度,从而得到新的隐藏层向量表示ut
ut=tanh(Wht) (5)
其中,ht的归一化系数δt可以由softmax函数计算得出:
Figure BDA0003029541330000108
最后,由隐藏向量的加权平均值便可得到句子的向量表示。
S=∑tδtht (7)
4.在最后的softmax层实现情感倾向的概率表示。
softmax模型会得到一个K维的向量,而该K维向量最终会映射到另一个向量值的和为1的空间。输出层的计算公式如下式所示:
0=softmax(WSh+bs) (8)
在输出层进行类别划分,经过分类的处理,最终可以得到情感倾向的概率表示。
Figure BDA0003029541330000111
实施例
本发明可以应用到在线评论舆情监控系统中,将整个模型封装成可安装的情感分析模块,并将其嵌入到舆情监控系统中,形成最终的基于汽车领域在线评论的舆情监控系统。整个系统的流程图如图3所示。
在汽车在线评论舆情监控系统中,该系统可以实时从汽车之家等门户网站上自动化采集用户对某一车型的在线文本评论,并将其整理汇总,形成可分析的文本数据;品牌运营方或宣传方通过制定排除词等内容,形成品牌评论宣传方案,并利用方案对汇总的文本数据进行初步筛选,从中过滤掉一部分不合法数据;然后将其余的正常文本评论馈送到汽车评论情感分析模型中,并对评论数据进行情感倾向分类,然后将分类完的文本进行可视化分析,例如使用词云等方案显示出现频率高的关键词,形成具体的舆情分析报告,并对包含敏感词的负面评论形成负面信息预警,对品牌方的产品质量进行示警。一个通用的舆情监控系统可以使用本发明中的情感分析模型,通过利用深度学习技术提取用户在汽车网站中对相关汽车品牌的评价,挖掘用户需求痛点,关注消费者的切实需求,对汽车企业制造商与服务商的未来发展策略和改进方向提供合理指导。
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。

Claims (5)

1.一种基于情感词向量的汽车在线评论情感分析方法,其特征在于,包括:
1)输入层:在输入层中,主要将模型的输入文本转化为不同的低维且连续的实值向量,构成词嵌入表示;词向量输入层作为加载词向量的模型,将获取到的评论文本数据映射到向量空间中去,从而实现将词语表示为固定长度的向量;让预训练语言模型在该阶段能够充分学习上下文的情感信息来对掩盖的情感词进行预测,而已有的情感词作为目标语义信息以监督学习的方式馈送给模型,而后通过反向传播的方式调整参数值;
2)特征学习层:特征学习层能够学习输入句子的向量表示,对目标词及其上下文的依赖关系进行建模;在整体情感分析模型中,选取双向长短期记忆网络BiLSTM作为特征学习层来处理评论文本的语义信息;
3)注意力层:通过特征学习层中BiLSTM网络的前后向隐含层,学习目标词与上下文的语义信息,在BiLSTM网络的基础上增加注意力机制,来使模型对不同的隐藏层向量分配不同的注意力关注值;
4)情感分类层:在情感分类层,将注意力层的输出作为本层的输入,数据的分类是由全连接层实现,全连接层采用softmax模型作情感倾向预测。
2.根据权利要求1所述的一种基于情感词向量的汽车在线评论情感分析方法,其特征在于,在预训练阶段加入情感信息作为先验知识,通过大规模的预训练任务,提升模型的表征能力,具体步骤如下:
对Bert而言,文本特征的学习主要依靠掩盖语言模型的预测过程。Bert在训练模型参数时,会在掩盖语言模型中采用“掩盖”的方式去掉特定词,然后通过模型训练的方式自动进行补全,模型的输出则是目标词可能的概率分布;在训练时,将已有的领域情感词典中的情感词进行情感极性标注,并作为监督信息馈送到模型中;情感词典中的情感词作为掩盖词的依据,通过掩盖语言模型的预测任务,让模型在该阶段能够充分学习上下文的情感信息来对掩盖的情感词进行预测,而已有的情感词作为目标语义信息以监督学习的方式馈送给模型,而后通过反向传播的方式调整参数值,从而能够让模型在捕获文本特征时,不仅能够很好的预测掩盖词的语义信息,并且能通过学习该词的上下文将其所蕴含的情感信息准确预测出来。
对于序列S,将编码后的上下文信息作为掩盖词的动态词向量,并使用softmax对其情感倾向做预测,其所属的概率分布计算公式如下所示:
Figure FDA0003029541320000021
其中,xMASX表示的是序列S中掩盖词w经Transformer提取后对应的表征,
Figure FDA0003029541320000022
为权重矩阵。
3.根据权利要求1所述的一种基于情感词向量的汽车在线评论情感分析方法,其特征在于,选取双向长短期记忆网络BiLSTM作为特征学习层来处理评论文本的语义信息,BiLSTM由两个隐含层构成,同时连接到输出层单元,该隐含层是两个顺序方向相反的LSTM叠加组成的,具体步骤如下:
BiLSTM从词向量输入层中接收词向量序列{e1,e2,e3,...,en}作为输入,其中ei表示输入序列中一个的词向量。而后分别经过前向单元和后向单元读取到t时刻的前向信息
Figure FDA0003029541320000023
和后向信息
Figure FDA0003029541320000024
最终的隐藏语义状态ht是由前向信息
Figure FDA0003029541320000025
和后向信息
Figure FDA0003029541320000026
融合而来的;
Figure FDA0003029541320000027
Figure FDA0003029541320000028
Figure FDA0003029541320000029
最后将隐含层的输出进行拼接,作为注意力层的输入。
4.根据权利要求1所述的一种基于情感词向量的汽车在线评论情感分析方法,其特征在于,考虑在BiLSTM网络的基础上增加注意力机制,来使得模型对不同的隐藏层向量分配不同的注意力关注值,对不同文本情感词分配不同的注意力权重,具体步骤如下:
经由BiLSTM网络特征学习后所产生的隐藏层向量,会作为注意力层的输入进入到该层,然后对该输入中不同时刻的隐藏层向量分配以不同的权重关注度,从而得到新的隐藏层向量表示ut
ut=tanh(Wht) (5)
其中,ht的归一化系数δt可以由softmax函数计算得出:
Figure FDA0003029541320000031
最后,由隐藏向量的加权平均值便可得到句子的向量表示。
S=∑tδtht (7)
5.根据权利要求1所述的一种基于情感词向量的汽车在线评论情感分析方法,其特征在于,在最后的softmax层实现情感倾向的概率表示,具体步骤如下:
softmax模型会得到一个K维的向量,而该K维向量最终会映射到另一个向量值的和为1的空间。输出层的计算公式如下式所示:
0=softmax(WSh+bs) (8)
在输出层进行类别划分,经过分类的处理,最终可以得到情感倾向的概率表示。
Figure FDA0003029541320000041
CN202110425629.0A 2021-04-20 2021-04-20 一种基于情感词向量的汽车在线评论情感分析方法 Pending CN112966526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110425629.0A CN112966526A (zh) 2021-04-20 2021-04-20 一种基于情感词向量的汽车在线评论情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110425629.0A CN112966526A (zh) 2021-04-20 2021-04-20 一种基于情感词向量的汽车在线评论情感分析方法

Publications (1)

Publication Number Publication Date
CN112966526A true CN112966526A (zh) 2021-06-15

Family

ID=76280939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110425629.0A Pending CN112966526A (zh) 2021-04-20 2021-04-20 一种基于情感词向量的汽车在线评论情感分析方法

Country Status (1)

Country Link
CN (1) CN112966526A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609294A (zh) * 2021-08-10 2021-11-05 北京工商大学 一种基于情感分析的生鲜冷链监管方法及系统
CN113609305A (zh) * 2021-07-27 2021-11-05 三峡大学 基于bert的影视作品地域知识图谱构建方法及系统
CN113722487A (zh) * 2021-08-31 2021-11-30 平安普惠企业管理有限公司 用户情感分析方法、装置、设备及存储介质
CN113962750A (zh) * 2021-11-16 2022-01-21 重庆邮电大学 一种基于attention机制的多尺度信息汽车销量大数据预测方法
CN114386386A (zh) * 2022-03-24 2022-04-22 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于增量学习的评论生成方法、系统、设备及存储介质
CN114936283A (zh) * 2022-05-18 2022-08-23 电子科技大学 一种基于Bert的网络舆情分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法
CN112199956A (zh) * 2020-11-02 2021-01-08 天津大学 一种基于深度表示学习的实体情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740148A (zh) * 2018-12-16 2019-05-10 北京工业大学 一种BiLSTM结合Attention机制的文本情感分析方法
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法
CN112199956A (zh) * 2020-11-02 2021-01-08 天津大学 一种基于深度表示学习的实体情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
於张闲 等: "基于BERT-Att-biLSTM模型的医学信息分类研究", 《计算机时代》 *
杨晨 等: "SentiBERT:结合情感信息的预训练语言模型", 《计算机科学与探索》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609305A (zh) * 2021-07-27 2021-11-05 三峡大学 基于bert的影视作品地域知识图谱构建方法及系统
CN113609305B (zh) * 2021-07-27 2024-04-26 三峡大学 基于bert的影视作品地域知识图谱构建方法及系统
CN113609294A (zh) * 2021-08-10 2021-11-05 北京工商大学 一种基于情感分析的生鲜冷链监管方法及系统
CN113609294B (zh) * 2021-08-10 2023-08-18 北京工商大学 一种基于情感分析的生鲜冷链监管方法及系统
CN113722487A (zh) * 2021-08-31 2021-11-30 平安普惠企业管理有限公司 用户情感分析方法、装置、设备及存储介质
CN113962750A (zh) * 2021-11-16 2022-01-21 重庆邮电大学 一种基于attention机制的多尺度信息汽车销量大数据预测方法
CN113962750B (zh) * 2021-11-16 2023-09-19 深圳市南方众悦科技有限公司 一种基于attention机制的多尺度信息汽车销量大数据预测方法
CN114386386A (zh) * 2022-03-24 2022-04-22 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于增量学习的评论生成方法、系统、设备及存储介质
CN114386386B (zh) * 2022-03-24 2022-06-14 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于增量学习的评论生成方法、系统、设备及存储介质
CN114936283A (zh) * 2022-05-18 2022-08-23 电子科技大学 一种基于Bert的网络舆情分析方法

Similar Documents

Publication Publication Date Title
CN112966526A (zh) 一种基于情感词向量的汽车在线评论情感分析方法
Wang et al. Refined global word embeddings based on sentiment concept for sentiment analysis
Ishaq et al. Aspect-based sentiment analysis using a hybridized approach based on CNN and GA
US10579940B2 (en) Joint embedding of corpus pairs for domain mapping
CN110619044B (zh) 一种情感分析方法、系统、存储介质及设备
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN110909529B (zh) 一种公司形象提升系统的用户情感分析和预判系统
CN110765769B (zh) 一种基于子句特征的实体属性依赖情感分析方法
Liu et al. Social network sentiment classification method combined Chinese text syntax with graph convolutional neural network
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
Lu et al. Sentiment analysis of film review texts based on sentiment dictionary and SVM
CN107688870A (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
Liu et al. A novel aspect-based sentiment analysis network model based on multilingual hierarchy in online social network
CN110750635A (zh) 一种基于联合深度学习模型的法条推荐方法
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN114997288A (zh) 一种设计资源关联方法
Lee et al. Detecting suicidality with a contextual graph neural network
Wei et al. Sentiment classification of tourism reviews based on visual and textual multifeature fusion
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
Feng et al. Recommending statutes: A portable method based on neural networks
Lin et al. GIF video sentiment detection using semantic sequence
CN116882402A (zh) 基于多任务的电力营销小样本命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210615

RJ01 Rejection of invention patent application after publication