CN112329449B - 基于情感词典和Transformer的情感分析方法 - Google Patents

基于情感词典和Transformer的情感分析方法 Download PDF

Info

Publication number
CN112329449B
CN112329449B CN202011277325.6A CN202011277325A CN112329449B CN 112329449 B CN112329449 B CN 112329449B CN 202011277325 A CN202011277325 A CN 202011277325A CN 112329449 B CN112329449 B CN 112329449B
Authority
CN
China
Prior art keywords
emotion
word
dictionary
layer
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011277325.6A
Other languages
English (en)
Other versions
CN112329449A (zh
Inventor
廖伟智
曹阳
阴艳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011277325.6A priority Critical patent/CN112329449B/zh
Publication of CN112329449A publication Critical patent/CN112329449A/zh
Application granted granted Critical
Publication of CN112329449B publication Critical patent/CN112329449B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于情感词典和Transformer的情感分析方法,包括以下步骤:S1、构建情感词典;S2、使用情感词典训练词向量;S3、使用训练好的词向量训练基于Transformer的情感分析模型;S4、使用训练好的情感分析模型,对网络购物平台的商品评论文本进行情感分析。本发明使用情感词典作为外部知识辅助训练词向量,在保证词向量语法信息的同时,词向量的情感信息表征更丰富,可以提高下游情感分析任务的准确度;使用先进的Transformer结构,模型的信息抽取能力更强,有利于提高情感分析任务的效果,能够有效减少人工特征工程、提高文本情感分析效果。

Description

基于情感词典和Transformer的情感分析方法
技术领域
本发明涉及一种基于情感词典和Transformer的情感分析方法。
背景技术
文本情感分析,又称意见挖掘,是指对带有情感色彩的主观性文本进行采集、处理、分析、归纳和推理的过程,涉及到人工智能、机器学习、数据挖掘等多个领域,是自然语言处理研究领域的一个重点方向。传统的情感分析方法主要分为基于情感词典的情感分析方法和基于机器学习的情感分析方法。
基于情感词典的情感分析方法基本原理是:①根据经验将广泛使用的情感词进行归纳整理,将这些情感词以及对应的词性(如积极(positive)和消极(negative))或词性打分(如0表示中性,打分负数表示消极,打分正数表示积极,打分越高,词性越强)整合为情感词典;②待处理文本输入后与词典内容进行匹配,寻找文本中与情感词典中重合的情感词,通过极性统计、打分加权等方法判断文本的情感极性。但是情感词典中的情感词覆盖率较低,无法结合语境、语义,也无法识别同义词、近义词等,主要依赖人工统计文本中情感词出现的次数和打分,非常耗时耗力,而且人工打分的个人倾向对情感分析效果的影响很大。
基于机器学习的情感分析方法主要分为基于传统机器学习的情感分析方法和基于深度学习的情感分方法。基于传统机器学习的情感方法一般采用标准分类器以及这些分类器的组合或者改进,最常用的是支持向量机(SupportVectorMachine,SVM)和朴素贝叶斯(NaiveBayes,NB),这类分类器需要通过人工设计的特征进行训练。基于传统机器学习的方法相较于构建情感词典的方法虽然有了一定的进步,但是局限性也比较明显。基于传统机器学习的方法主要是依赖分类器,还是需要人工对文本特征进行标记,而且基于传统机器学习的方法是计算机根据已有程序对文本进行重复机械的操作,效率不高,无法适应大数据时代的要求。基于深度学习的情感分析方法主要是通过使用深度神经网络构建模型,使用大量数据训练模型,最后用训练好的模型对待分析的文本进行情感分析。基于深度学习的情感分析方法主要使用的网络模型有全连接神经网络、卷积神经网络(ConvolutionNeural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long-Short Term Memory Network,LSTM)等。这种方法在进行文本情感分析时不仅能自动提取文本特征,还能在训练和执行过程中自动学习并训练模型,与情感词典和传统机器学习模型相比,它的优越性显而易见。但是使用这些神经网络模型不可避免的使用到词向量嵌入技术,而目前的词向量主要是通过构建语言模型获得的,此类方法主要是基于分布假设进行训练的。分布假设认为上下文相似的词具有相似的语义,这样的假设有利于构建语言模型,但是对于情感分析来说,词向量的区分度不够明显。例如:“好”和“坏”是一对词性相反的词,但是基于分布假设的模型会认为这两个词常常出现在相似的位置,因此这两个词应该具有相似的词向量,这样的词向量对情感极性特征的表示显然是不够的,使用在情感处理任务中缺点明显。同时,CNN、RNN、LSTM等模型的特征抽取能力弱于基于注意力机制的Transformer模型。
现有技术具有以下缺陷:
1、基于情感词典的情感分析方法情感词的覆盖率较低、需要人工设计特征、非常耗时耗力,而且人工打分的个人倾向对情感分析效果的影响很大。
2、基于传统机器学习的情感分析方法仍然需要人工设计特征、效率不高;基于深度学习的情感分析方法不可避免的使用到基于分布假设的词向量,这种词向量的情感特征不明显,而且此类方法较多使用CNN、RNN、LSTM等网络模型,特征抽取能力不够强。
发明内容
本发明针对上述人工设计特征、词向量情感特征弱和一般网络模型特征抽取能力不够强的问题,提供一种使用情感词典作为外部知识辅助训练词向量,使用先进的Transformer结构,模型的信息抽取能力更强,有利于提高情感分析任务的效果,能够有效减少人工特征工程、提高文本情感分析效果的基于情感词典和Transformer的情感分析方法。
本发明的目的是通过以下技术方案来实现的:基于情感词典和Transformer的情感分析方法,包括以下步骤:
S1、构建情感词典;
S2、使用情感词典训练词向量;
S3、使用训练好的词向量训练基于Transformer的情感分析模型;
S4、使用训练好的情感分析模型,对网络购物平台的商品评论文本进行情感分析。
进一步地,所述步骤S1包括以下子步骤:
S11、使用知网情感词典作为基础情感词典;
S12、把基础情感词典中情感极性清晰、无歧义的积极和消极情感词进行去重处理,然后人工设定情感权值sw,权值范围为(-1,1),负数表示消极情感,正数表示积极情感,权值绝对值越大表示情感越强烈;把这些情感词作为种子情感词,分别构建积极词集Pword和消极词集Nword
S13、统计商品评论做为训练语料,对训练语料进行分词,并去除停用词,将得到的词作为待处理词典;
S14、依次选定待处理词典中的词,使用种子情感词通过逐点互信息法获得一个拓展的情感词典,得到的情感词典包含待处理词典中所有词以及词的情感得分。
进一步地,所述步骤S14所述的逐点互信息法包括以下子步骤:
S141、分别取积极词集和消极词集中的词w+、w-,其对应的情感得分为
Figure BDA0002779540990000034
S142、通过下列公式确定待处理词典中词wtarget和种子情感词wseed的相关性:
Figure BDA0002779540990000031
其中,p(wtarget,wseed)表示词wtarget和词wseed一起出现的概率,p(wtarget)和p(wseed)分别表示词wtarget和wseed出现的概率,pmi(wtarget,wseed)表征了词wtarget和词wseed的共现程度;
S143、计算出待处理词典中各词和种子情感词相关性后,通过下列公式确定待处理词典中词的情感得分:
Figure BDA0002779540990000032
其中,n表示种子情感词的总数,Score(w)表示待处理词典中词w的情感得分,正值表示情感为积极,数值越大,情感极性越强;负值表示情感为消极,数值越小,情感极性越强;得到的情感词典记为D。
进一步地,所述步骤S2具体实现方法为:建立的基于情感词典和CBOW的词向量训练模型,该模型包括嵌入层、拼接层、非线性层和输出层;训练前,将训练语料进行分词和去除停用词处理,得到训练词汇表T;
嵌入层:将输入单词wi按照窗口长度Sl根据嵌入矩阵转换为对应的词向量
Figure BDA0002779540990000033
拼接层:把目标词上下文的词向量拼接为一个向量,该向量记为E;
非线性层:把拼接向量通过非线性函数tanh进行激活;
输出层:输出序列的语法得分和情感得分。
词向量训练模型包括两个部分:①根据上下文预测目标词;②预测输入的N-gram的情感得分,两个部分的目标分别是最大化序列的语法得分和情感得分,其目标函数分别为F1和F2
F1=max(0,1-fsy(t)+fsy(t*))
其中,t表示预测词为目标词的序列,t*表示预测词不是目标词的序列;
fsy(.)表示预测序列的语法得分:
fsy(t)=w2(a)+b2
a=tanh(w1Lt+b1)
Lt=E+Ew
其中,w1、w2、b1、b2表示模型参数,Ew表示目标词的词向量,tanh表示tanh函数;
F2=max(0,1-δ(Ltu)fso(t)+δ(Ltu)fso(t*))
其中,δ表示sigmoid函数,u表示可训练的辅助矩阵,fso(t)表示序列的情感得分相关函数:
Figure BDA0002779540990000041
线性组合两个目标函数,构建词向量训练模型整体的目标函数:
F=μF1+(1-μ)F2
其中μ表示线性组合系数,通过最大化目标函数,训练模型以获得包含情感词典中情感知识的词向量矩阵C。
进一步地,所述步骤S3具体实现方法为:情感分析模型主要由基于注意力机制的Transformer的编码器部分构成,情感分析模型的主要结构包括输入层、隐藏层和输出层;
输入层对输入序列进行词嵌入:首先在在输入序列的第一个位置前插入标志[SO]作为情感分析辅助标志,再把输入序列通过索引与训练好的词向量矩阵C相乘,得到输入序列的词向量表示,输入序列表示为
Figure BDA0002779540990000042
其中l表示输入序列的长度,实际输入长度根据L截长补短,不足的部分补充[E]标志对应的嵌入;由于失去了序列的顺序信息,因此补充位置嵌入Ei,最终的输入为
Figure BDA0002779540990000043
Figure BDA0002779540990000044
隐藏层为Transformer模型编码器部分的改进和叠加,共有6层由Transformer编码器块构成的Transformer层,输入序列
Figure BDA0002779540990000045
在第一层Transformer层通过多头注意力机制进行计算,主要过程为:
Figure BDA0002779540990000046
其中,Attention(Q,K,V)表示注意力矩阵,Q、K、V分别表示输入的query矩阵、key矩阵和value矩阵,dk表示key矩阵的维度;计算结果传入下一层Transformer层,层层传递直到最后一层,最终得到并保留最后一层第一个Transformer块的输出并通过全连接和非线性激活得到输出T,把T传递到输出层;
输出层接收隐藏层的输出T,通过tanh函数非线性激活,S=tanh(TWT),其中WT表示全连接权重矩阵,最终得到预测的输入序列的情感得分S
情感分析模型训练时,通过最小化目标函数L不断优化模型:
Figure BDA0002779540990000051
其中,li表示第i条训练序列,batch表示一个训练批次。
本发明的有益效果是:
1、本发明使用情感词典作为外部知识辅助训练词向量,在保证词向量语法信息的同时,词向量的情感信息表征更丰富,可以提高下游情感分析任务的准确度;
2、情感词典基于基础情感词典和PMI方法构建,仅需要少量人工提取特征;
3、情感分析模型使用先进的Transformer结构,模型的信息抽取能力更强,有利于提高情感分析任务的效果,能够有效减少人工特征工程、提高文本情感分析效果。
附图说明
图1为基于情感词典和Transformer的情感分析方法的流程图;
图2词向量训练模型;
图3为注意力机制图;
图4为Transformer模型编码器部分结构;
图5为基于Transformer的情感分析模型。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于情感词典和Transformer的情感分析方法,包括以下步骤:
S1、构建情感词典;包括以下子步骤:
S11、使用知网(Hownet)情感词典作为基础情感词典,基础情感词典包括了一些被广泛认同的情感词,如“好”、“坏”、“烂”、“漂亮”等;
S12、把基础情感词典中情感极性清晰、无歧义的积极和消极情感词进行去重处理,然后人工设定情感权值sw,权值范围为(-1,1),负数表示消极情感,正数表示积极情感,权值绝对值越大表示情感越强烈;把这些情感词作为种子情感词,分别构建积极词集Pword和消极词集Nword
S13、统计商品评论做为训练语料,对训练语料进行分词,并去除停用词(如:‘了’、‘个’、‘-’等停用词、无意义字词和特殊符号),将得到的词作为待处理词典;
S14、依次选定待处理词典中的词,使用种子情感词通过逐点互信息法(Pointwisemutual information,PMI)获得一个拓展的情感词典,得到的情感词典包含待处理词典中所有词以及词的情感得分。
所述逐点互信息法包括以下子步骤:
S141、分别取积极词集和消极词集中的词w+、w-,其对应的情感得分为
Figure BDA0002779540990000064
S142、通过下列公式确定待处理词典中词wtarget和种子情感词wseed的相关性:
Figure BDA0002779540990000061
其中,p(wtarget,wseed)表示词wtarget和词wseed一起出现的概率,p(wtarget)和p(wseed)分别表示词wtarget和wseed出现的概率,pmi(wtarget,wseed)表征了词wtarget和词wseed的共现程度;
S143、计算出待处理词典中各词和种子情感词相关性后,通过下列公式确定待处理词典中词的情感得分:
Figure BDA0002779540990000062
其中,n表示种子情感词的总数,Score(w)表示待处理词典中词w的情感得分,正值表示情感为积极,数值越大,情感极性越强;负值表示情感为消极,数值越小,情感极性越强;得到的情感词典记为D。
S2、使用情感词典训练词向量;具体实现方法为:建立的基于情感词典和CBOW的词向量训练模型,如图2所示,该模型包括嵌入层(Embedding Layer)、拼接层(ConcatenateLayer)、非线性层(tanh Layer)和输出层(Output Layer);训练前,将训练语料进行分词和去除停用词处理,得到训练词汇表T;
嵌入层:将输入单词wi按照窗口长度Sl根据嵌入矩阵转换为对应的词向量
Figure BDA0002779540990000063
拼接层:把目标词上下文的词向量拼接为一个向量,该向量记为E;
非线性层:把拼接向量通过非线性函数tanh进行激活;
输出层:输出序列的语法得分和情感得分。
词向量训练模型包括两个部分:①根据上下文预测目标词;②预测输入的N-gram的情感得分,两个部分的目标分别是最大化序列的语法得分和情感得分,其目标函数分别为F1和F2
F1=max(0,1-fsy(t)+fsy(t*))
其中,t表示预测词为目标词的序列,t*表示预测词不是目标词的序列;
fsy(.)表示预测序列的语法得分:
fsy(t)=w2(a)+b2
a=tanh(w1Lt+b1)
Lt=E+Ew
其中,w1、w2、b1、b2表示模型参数,Ew表示目标词的词向量,tanh表示tanh函数;
F2=max(0,1-δ(Ltu)fso(t)+δ(Ltu)fso(t*))
其中,δ表示sigmoid函数,u表示可训练的辅助矩阵,fso(t)表示序列的情感得分相关函数:
Figure BDA0002779540990000071
线性组合两个目标函数,构建词向量训练模型整体的目标函数:
F=μF1+(1-μ)F2
其中μ表示线性组合系数,通过最大化目标函数,训练模型以获得包含情感词典中情感知识的词向量矩阵C。
S3、使用训练好的词向量训练基于Transformer的情感分析模型;
具体实现方法为:情感分析模型主要由基于注意力机制的Transformer的编码器部分构成,注意力机制、Transformer模型编码器部分和情感分析模型分别如图3、图4、图5所示。情感分析模型的主要结构包括输入层(Input Layer)、隐藏层(Hidden Layer)和输出层(Output Layer);
输入层对输入序列进行词嵌入:首先在在输入序列的第一个位置前插入标志[S0]作为情感分析辅助标志,再把输入序列通过索引与训练好的词向量矩阵C相乘,得到输入序列的词向量表示,输入序列表示为
Figure BDA0002779540990000072
其中l表示输入序列的长度,实际输入长度根据L截长补短,不足的部分补充[E]标志对应的嵌入;由于失去了序列的顺序信息,因此补充位置嵌入Ei,最终的输入为
Figure BDA0002779540990000081
Figure BDA0002779540990000082
隐藏层为Transformer模型编码器部分的改进和叠加,共有6层由Transformer编码器块构成的Transformer层,输入序列
Figure BDA0002779540990000083
在第一层Transformer层通过多头注意力机制进行计算,主要过程为:
Figure BDA0002779540990000084
其中,Attention(Q,K,V)表示注意力矩阵,Q、K、V分别表示输入的query矩阵、key矩阵和value矩阵,dk表示key矩阵的维度;计算结果传入下一层Transformer层,层层传递直到最后一层,最终得到并保留最后一层第一个Transformer块的输出并通过全连接和非线性激活得到输出T,把T传递到输出层;
输出层接收隐藏层的输出T,通过tanh函数非线性激活,S=tanh(TWT),其中WT表示全连接权重矩阵,最终得到预测的输入序列的情感得分S
情感分析模型训练时,通过最小化目标函数L不断优化模型:
Figure BDA0002779540990000085
其中,li表示第i条训练序列,batch表示一个训练批次。最终得到训练好的情感分析模型。
S4、使用训练好的情感分析模型,对网络购物平台的商品评论文本进行情感分析;将待识别的网络购物平台的商品评论文本进行分词、去除停用词,输入到训练好的基于Transformer的情感分析模型中,进行文本情感得分的预测。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (2)

1.基于情感词典和Transformer的情感分析方法,其特征在于,包括以下步骤:
S1、构建情感词典;包括以下子步骤:
S11、使用知网情感词典作为基础情感词典;
S12、把基础情感词典中情感极性清晰、无歧义的积极和消极情感词进行去重处理,然后人工设定情感权值sw,权值范围为(-1,1),负数表示消极情感,正数表示积极情感,权值绝对值越大表示情感越强烈;把这些情感词作为种子情感词,分别构建积极词集Pword和消极词集Nword
S13、统计商品评论做为训练语料,对训练语料进行分词,并去除停用词,将得到的词作为待处理词典;
S14、依次选定待处理词典中的词,使用种子情感词通过逐点互信息法获得一个拓展的情感词典,得到的情感词典包含待处理词典中所有词以及词的情感得分;所述的逐点互信息法包括以下子步骤:
S141、分别取积极词集和消极词集中的词w+、w-,其对应的情感得分为
Figure FDA0004069314200000014
S142、通过下列公式确定待处理词典中词wtarget和种子情感词wseed的相关性:
Figure FDA0004069314200000011
其中,p(wtarget,wseed)表示词wtarget和词wseed一起出现的概率,p(wtarget)和p(wseed)分别表示词wtarget和wseed出现的概率,pmi(wtarget,wseed)表征了词wtarget和词wseed的共现程度;
S143、计算出待处理词典中各词和种子情感词相关性后,通过下列公式确定待处理词典中词的情感得分:
Figure FDA0004069314200000012
其中,n表示种子情感词的总数,Score(w)表示待处理词典中词w的情感得分,正值表示情感为积极,数值越大,情感极性越强;负值表示情感为消极,数值越小,情感极性越强;得到的情感词典记为D;
S2、使用情感词典训练词向量;具体实现方法为:建立基于情感词典和CBOW的词向量训练模型,该模型包括嵌入层、拼接层、非线性层和输出层;训练前,将训练语料进行分词和去除停用词处理,得到训练词汇表T;
嵌入层:将输入单词wi按照窗口长度Sl根据嵌入矩阵转换为对应的词向量
Figure FDA0004069314200000013
拼接层:把目标词上下文的词向量拼接为一个向量,该向量记为E;
非线性层:把拼接向量通过非线性函数tanh进行激活;
输出层:输出序列的语法得分和情感得分;
词向量训练模型包括两个部分:①根据上下文预测目标词;②预测输入的N-gram的情感得分,两个部分的目标分别是最大化序列的语法得分和情感得分,其目标函数分别为F1和F2
F1=max(0,1-fsy(t)+fsy(t*))
其中,t表示预测词为目标词的序列,t*表示预测词不是目标词的序列;
fsy(.)表示预测序列的语法得分:
fsy(t)=w2(a)+b2
a=tanh(w1Lt+b1)
Lt=E+Ew
其中,w1、w2、b1、b2表示模型参数,Ew表示目标词的词向量,tanh表示tanh函数;
F2=max(0,1-δ(Ltu)fso(t)+δ(Ltu)fso(t*))
其中,δ表示sigmoid函数,u表示可训练的辅助矩阵,fso(t)表示序列的情感得分相关函数:
Figure FDA0004069314200000021
线性组合两个目标函数,构建词向量训练模型整体的目标函数:
F=μF1+(1-μ)F2
其中μ表示线性组合系数,通过最大化目标函数,训练模型以获得包含情感词典中情感知识的词向量矩阵C;
S3、使用训练好的词向量训练基于Transformer的情感分析模型;
S4、使用训练好的情感分析模型,对网络购物平台的商品评论文本进行情感分析。
2.根据权利要求1所述的基于情感词典和Transformer的情感分析方法,其特征在于,所述步骤S3具体实现方法为:情感分析模型主要由基于注意力机制的Transformer的编码器部分构成,情感分析模型的主要结构包括输入层、隐藏层和输出层;
输入层对输入序列进行词嵌入:首先在输入序列的第一个位置前插入标志[SO]作为情感分析辅助标志,再把输入序列通过索引与训练好的词向量矩阵C相乘,得到输入序列的词向量表示,输入序列表示为
Figure FDA0004069314200000022
其中l表示输入序列的长度,实际输入长度根据L截长补短,不足的部分补充[E]标志对应的嵌入;由于失去了序列的顺序信息,因此补充位置嵌入Ei,最终的输入为
Figure FDA0004069314200000031
隐藏层为Transformer模型编码器部分的改进和叠加,共有6层由Transformer编码器块构成的Transformer层,输入序列
Figure FDA0004069314200000032
在第一层Transformer层通过多头注意力机制进行计算,主要过程为:
Figure FDA0004069314200000033
其中,Attention(Q,K,V)表示注意力矩阵,Q、K、V分别表示输入的query矩阵、key矩阵和value矩阵,dk表示key矩阵的维度;计算结果传入下一层Transformer层,层层传递直到最后一层,最终得到并保留最后一层第一个Transformer块的输出并通过全连接和非线性激活得到输出T,把T传递到输出层;
输出层接收隐藏层的输出T,通过tanh函数非线性激活,S=tanh(TWT),其中WT表示全连接权重矩阵,最终得到预测的输入序列的情感得分S
情感分析模型训练时,通过最小化目标函数L不断优化模型:
Figure FDA0004069314200000034
其中,li表示第i条训练序列,batch表示一个训练批次。
CN202011277325.6A 2020-11-16 2020-11-16 基于情感词典和Transformer的情感分析方法 Active CN112329449B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011277325.6A CN112329449B (zh) 2020-11-16 2020-11-16 基于情感词典和Transformer的情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011277325.6A CN112329449B (zh) 2020-11-16 2020-11-16 基于情感词典和Transformer的情感分析方法

Publications (2)

Publication Number Publication Date
CN112329449A CN112329449A (zh) 2021-02-05
CN112329449B true CN112329449B (zh) 2023-03-21

Family

ID=74318440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011277325.6A Active CN112329449B (zh) 2020-11-16 2020-11-16 基于情感词典和Transformer的情感分析方法

Country Status (1)

Country Link
CN (1) CN112329449B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505582A (zh) * 2021-05-25 2021-10-15 腾讯音乐娱乐科技(深圳)有限公司 一种音乐评论情感分析方法、设备及介质
CN115392260B (zh) 2022-10-31 2023-04-07 暨南大学 一种面向特定目标的社交媒体推文情感分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN110427616A (zh) * 2019-07-19 2019-11-08 山东科技大学 一种基于深度学习的文本情感分析方法
CN110532380A (zh) * 2019-07-12 2019-12-03 杭州电子科技大学 一种基于记忆网络的文本情感分类方法
CN111191463A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 情感分析方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN110532380A (zh) * 2019-07-12 2019-12-03 杭州电子科技大学 一种基于记忆网络的文本情感分类方法
CN110427616A (zh) * 2019-07-19 2019-11-08 山东科技大学 一种基于深度学习的文本情感分析方法
CN111191463A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 情感分析方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
厍向阳 ; 杨瑞丽 ; .融合深度特征的Sword2vect商品在线评价情感分析.2020,(第06期),212-217. *
王科 等.情感词典自动构建方法综述.2016,第42卷(第4期),495-511. *
陈珂 第.基于情感词典和Transformer 模型的情感分析算法研究.2020,第40卷(第1期),55-62. *

Also Published As

Publication number Publication date
CN112329449A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN111177376B (zh) 一种基于bert与cnn层级连接的中文文本分类方法
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN110287323B (zh) 一种面向目标的情感分类方法
CN110555084B (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN107797987B (zh) 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法
CN107818084B (zh) 一种融合点评配图的情感分析方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111950283B (zh) 面向大规模医疗文本挖掘的中文分词和命名实体识别系统
CN112329449B (zh) 基于情感词典和Transformer的情感分析方法
CN112307130B (zh) 一种文档级远程监督关系抽取方法及系统
CN112069307B (zh) 一种法律法条引用信息抽取系统
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN113239690A (zh) 基于Bert与全连接神经网络融合的中文文本意图识别方法
CN114648016A (zh) 一种基于事件要素交互与标签语义增强的事件论元抽取方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114662456A (zh) 基于Faster R-卷积神经网络检测模型的图像古诗生成方法
CN107992468A (zh) 一种基于lstm的混合语料命名实体识别方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN113220887B (zh) 一种利用目标知识增强模型的情感分类方法
CN114357166A (zh) 一种基于深度学习的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant