CN111144448B - 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 - Google Patents
基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 Download PDFInfo
- Publication number
- CN111144448B CN111144448B CN201911250369.7A CN201911250369A CN111144448B CN 111144448 B CN111144448 B CN 111144448B CN 201911250369 A CN201911250369 A CN 201911250369A CN 111144448 B CN111144448 B CN 111144448B
- Authority
- CN
- China
- Prior art keywords
- attention
- vector
- distribution
- sample
- target word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 66
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 20
- 238000000034 method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 230000007935 neutral effect Effects 0.000 claims description 6
- 102100032202 Cornulin Human genes 0.000 claims description 5
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 230000009901 attention process Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims 1
- 238000013527 convolutional neural network Methods 0.000 abstract description 25
- 230000007547 defect Effects 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于多尺度注意力卷积编码网络的视频弹幕情感分析方法,属于自然语言处理、情感分析领域。将多层次结构的注意力机制与卷积神经网络相结合,弥补卷积神经网络难以提取文本的长依赖信息的不足的缺陷。输入的样本与目标词分别进行卷积神经网络的多通道特征学习进行编码,再利用注意力机制提取出句子中与目标词相关部分,将最后的各个部分编码的特征向量拼接得到多尺度的综合特征向量,作为最后的向量输入分类器进行情感分类。
Description
技术领域
本发明属于深度学习、情感分析领域,提出一种使用多尺度注意力机制的卷积编码网络(Hierarchical Attention Convolution Neural Network,HACNN)模型,可以有效分析复杂视频弹幕中目标词对应的情感信息,从而能对视频弹幕样本进行情感分析。
背景技术
随着互联网的高速发展,视频弹幕作为一种新型的评论交流方式应运而生,观众可以在互联网上观看视频时同步地发表自己的观点。由于弹幕是一种新兴的评论方式,所以目前对这方面的研究较少,但弹幕中包含了大量对视频的实时情感信息,与视频反馈用户对视频每一部分的态度情感。根据弹幕情感对视频关键帧进行情感标注,可以方便用户根据关键帧情感来选择该帧进行视频播放,也可以方便作者对视频意见的收集、改进。因此,提出一个高效、智能、准确的视频弹幕情感分析方法是非常必要的。
卷积循环神经网络(Convolutional Recurrent Neural Network,CRNN)采用了自动编码机的思想,对视频中每一帧图像中的弹幕进行识别。CRNN的前半部分使用了卷积神经网络(Convolutional Neural Networks,CNN)对每一帧图像进行特征提取,起到编码部分的作用,再将得到的特征图利用循环神经网络(Recurrent Neural Network,RNN)对特征图中含有文字的部分进行解码,从而达到对图像中弹幕识别的目的。
一般来说RNN也可直接用于对样本进行情感分析,但传统的RNN网络存在梯度弥散、梯度消失问题,而且不能并行计算,时间开销太大。近年来,Kim提出将CNN用于文本分类之后,卷积神经网络在深度学习的应用越来越被重视。这种深度学习网络能有效提取样本特征,并能突出样本中各个词之间的关联信息。利用CNN能提取相关词信息的优势,可以对视频弹幕进行有效的特征提取,从而可以对弹幕的整体含义、表达情感倾向进行有效的状态描述。
但是,如果样本中含有多个目标词且这些目标词有着多种不同的情感极性时,单用CNN来处理样本是远远不能达到需要的效果的。CNN虽然能提取窗口內样本信息及关联信息,但不能对整个样本进行处理,这就导致CNN可能会对样本的情感极性提取不够充分甚至会产生错误。而且现有的CNN模型与传统的RNN模型相比,在提取样本特征上还略处劣势。因此,需要提出一种新结构的CNN模型,使得CNN能提取更加丰富的样本特征,能更好地捕捉到样本中多目标词对应情感。
发明内容
针对上述存在问题,本发明提出了一种基于多尺度注意力卷积编码网络(Hierarchical Attention Convolution Neural Network,HACNN)的模型来进行视频弹幕的情感分析。将多层次结构的注意力机制与卷积神经网络相结合,弥补卷积神经网络难以提取样本的长依赖信息的不足的缺陷。输入的样本与目标词分别进行卷积神经网络的多通道特征学习进行编码,再利用注意力机制提取出句子中与目标词相关部分,将最后的各个部分编码的特征向量拼接得到多尺度的综合特征向量,作为最后的向量输入分类器进行情感分类。
本发明的技术方案:
本发明提出的基于多尺度注意力卷积编码网络的视频弹幕情感分析方法,主要步骤如下:
步骤1、从互联网上的视频网站收集带有弹幕的视频文件,利用CRNN模型提取出视频中的弹幕样本,将视频的每一帧的视频图片转化为RGB三通道的像素矩阵,并输入到CNN模型中提取特征:
F=CNN(X) (1)
其中F为提取出的中间特征图,X为图片的输入像素矩阵。
特征图F经过RNN模型的解码翻译出弹幕样本:
S=RNN(F) (2)
将样本中的目标词和情感标记出来作为数据集,并将其划分为训练集和测试集。对数据集进行样本预处理,即词嵌入向量操作。本发明使用的是GloVe的词嵌入向量方法:根据已有的语料库,构建一个由Xij个元素构成的共现矩阵X,将单词i和其上下文单词j在固定窗口大小的上下中共同出现的次数与权重的乘积定义为Xij。权重是由GloVe自身的衰减函数来计算:
wd=1/d (3)
其中d为上下文单词之间的距离。
GloVe词嵌入向量的训练损失函数为:
其中,和为最终求解词向量,f(Xij)为权重函数
进一步的,f(Xij)定义为:
其中,α取值为0.75,xmax取值为100。
步骤2、构建HACNN模型,设置HACNN模型的各项超参数数值。将步骤1中GloVe处理之后得到的句子样本和目标词向量输入到HACNN模型,进行第一重注意力机制处理。对句子样本和目标词向量同时做多头自注意力,初步提炼出向量中最相关的信息部分,完成粗编码过程。k={k1,k2,...,kn}和q={q1,q2,...,qm}分别为注意力的一组键值序列和查询序列,自注意力公式为:
Attention (k,q)=softmax(fs(k,q))k (6)
fs(ki,qj)=tanh([ki;qj]·Watt) (7)
则多头注意力公式可定义为:
oh=Attentionh(k,q) (9)
其中,Watt和Wmh为模型可训练的变量,“;”代表向量直接拼接,为第h头的注意力输出,且h∈[1,nhead]。
样本进行自我自注意力,即k与q的值相等;目标词进行交互自注意力,即k与q的值不等。
进一步可以得到句子和目标词的向量表示:
c=MHA(context,context) (10)
t=MHA(context,target) (11)
其中,c为句子的向量表示,t为目标词的向量表示。
步骤3、将得到的句子和目标词的初步向量表示再输入进多通道卷积转换(Multi-Channels Convolution Transformation,MCCT)模块中,MCCT能将输入的特征通道维度升高,能从不同的角度学习到输入的特征。再利用第二重注意力——通道间的注意力,降低CNN的通道维度,去除掉多个通道中冗余的部分,提取多通道中收集的不同特征。MCCT模块的计算方法如下:
fr=ReLU(L) (12)
其中,L为:
L=Wcx (13)
Wc为可训练的权重,x为MCCT模块的输入。则通道注意力Attentionl可用以下公式表示:
Attentionl=Sigmoid(Wrfr) (14)
其中,Wr为可训练的权重。用卷积网络将输入展开到不同通道进行学习:
Tc=Conv1d(input) (15)
去除冗余通道信息:
MCCT(c)=Attentionl(Tc) (16)
其中Tc为卷积收集到的信息,通道数channel和隐藏层reduction为超参数,在本发明中为64和16。
则最终的特征表示hc可表示为:
hc=Conv1d(MCCT(c)) (17)
同样可得到ht的表示:
ht=Conv1d(MCCT(t)) (18)
得到的样本表示特征序列为目标词序列为
步骤4、第三重注意力为样本与目标词之间的注意力。在网络在多通道进一步提取了样本句子与目标词的高维信息后,再一次提取句子中与目标词最相关的部分,即在hc与ht之间再做一次注意力。将句子向量与目标词向量做乘积作为注意力权重,进而将此注意力权重与目标词向量做点积得到句子中与目标词相关信息的特征向量表示。此注意力过程使用了公式(6)中的自注意力公式:
htc=MHA(hc,ht) (19)
其中htc为与目标词最相关的句子表示。
步骤5、将得到的三个特征表示hc、ht与htc进行平均池化后拼接。将拼接之后的向量表示H输入到最后的分类器分类,平均池化操作为:
其中,H是向量长度。
则hc、ht与htc进行平均池化后可得到hc avg、ht avg与htc avg。
将三个池化后的特征表示拼接得H:
其中,“;”为拼接操作。
步骤6、将最后得到的H向量特征表示,输入到softmax分类器中进行最后的分类,得到的一个三维向量y为最后的预测分布,每个维度代表一个分类类别,分别为积极的、消极的和中立的。使用argmax函数找到数值最大的维度标号,即模型预测的类别P,此过程的公式为:
P=argmax(y) (24)
其中,与都是反向传播过程中可训练学习到的变量。C为分类的种类,本发明中为3。
在网络中的收集的样本训练集标签有可能是不正确的,所以本发明使用了标签平滑(Label Smoothing Regularization,LSR)的交叉熵函数代替了传统的交叉熵函数作为整个网络的损失函数来获取更好的训练效果。LSR可以防止模型把预测值过度集中在概率较大类别上,把一些概率分到其他概率较小类别上,即从一定程度上防止了网络对训练样本的过拟合。训练样本x标签的真实分布可以表示为q(k|x),LSR将此分布重写为:
q(k|x)=(1-)q(k|x)+∈u(k) (25)
其中,u(k)为先验分布,∈为一个取[0,1]的平滑系数。在本发明中∈为0.2。
u(k)服从一个简单的均匀分布:
u(k)=1/C (26)
把标签的真实分布q(k|x)与固定的分布u(k)按照1-和∈的权重混合在一起,构成一个新的分布。这相当于对标签分布中加入噪声,k值有∈的概率来自于分布u(k)。LSR交叉熵函数相当于计算了先验分布u(k)与网络的预测分布pθ之间的KL散度,LSR可定义为:
再使用L2正则化对损失函数进行约束,则损失函数可定义为:
其中,yc为网络的预测C类的情感分布,为yc的平均值。λ为L2正则化系数,θ为设定的超参数。
本发明的有益效果:提出了一种智能的视频弹幕情感分析方法,不需要人为干预能对复杂的视频弹幕进行情感分类。为了处理网络中的复杂句子样本,使用CNN与多层级注意力机制的搭配,从多空间维度进行多尺度的特征学习,并去除冗余信息,完成细粒度分类任务,即对句子中不同目标词的不同情感准确判断。针对于收集的网络样本标签准确率不高的特点,使用了LSR对损失函数进行优化,训练出预测分布更真实的网络结构,得到更有效的预测效果。利用以上优点,实现对视频弹幕准确地情感分析。
附图说明
图1为本发明整个网络的结构示意图;
图2为网络中MCCT模块的结构示意图
图3为HACNN模型训练流程图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,结合以上所给技术方案和附图,进一步说明本发明的具体使用方式。
如图3所示,基于多尺度注意力卷积编码网络的视频弹幕情感分析方法,具体步骤如下:
步骤1、收集视频文件,用CRNN提取出视频的弹幕样本,整理出每个样本句子中的目标词,并分别对每个目标词的情感偏向进行标注,得到弹幕样本数据集。数据集中的句子样本与目标词分别进行GloVe预处理,使其变为神经网络易处理的向量形式,GloVe神经网络的损失函数为:
其中,和为最终求解词向量,f(Xij)为权重函数。
步骤2、构建HACNN模型,设置HACNN模型的各参数值:词向量维度为300则网络隐藏层维度也为300,学习率为0.001,一次训练所选取的样本数设置为16,训练迭代15次。将处理好的句子和目标词向量作为两部分输入到HACNN模型中,利用多头自注意力机制对两个部分做不同处理。句子样本部分对自身做自注意力,进一步抽取句子中的特征信息;目标词向量则对句子样本做自注意力,初步粗筛选出句子样本中与目标词相关的部分。样本和目标词特征可表示为:
Attention(k,q)=softmax(fs(k,q))k (30)
fs(ki,qj)=tanh([ki;qj]·Watt) (31)
oh=Attentionh(k,q) (33)
c=MHA(context,context) (34)
t=MHA(context,target) (35)
步骤3、将经过多头自注意力的句子和目标词同时进行多尺度特征学习,通过神经网络的反向传播更新网络参数,具体操作如下:
步骤3.1、如图2所示,自注意力处理的两部分内容分别作为MCCT模块的输入。利用卷积神经网络抽取特征并扩充输入的词向量提升到64通道维度进行训练,再利用通道注意力去除冗余通道信息,使通道数降到16。多通道使整个网络能从多角度学习到不同维度的特征,提取出的信息更加丰富,但不同通道的信息也会有重复部分,所以利用网络的反向传播训练一个注意力权值,去除这部分冗余。再利用卷积层将提取的16通道特征信息整合成单通道的词向量,作为样本句子与词向量的最终特征图。通道间注意力公式为:
Attentionl=Sigmoid(WrReLU(Wcx)) (36)
则整个MCCT模块训练过程可以以卷积公式表示为:
Tc=Conv1d(input) (37)
MCCT(c)=Attentionl(Tc) (38)
hc=Conv1d(MCCT(c)) (39)
同理,目标词的特征也可按此公式表示:
ht=Conv1d(MCCT(t)) (40)
步骤3.2、将提取的样本句子与目标词特征分别处理。句子特征再一次与目标词做注意力操作,计算出高维句子特征与高维目标词相关系数,再与之间的目标词特征做点积操作,得到一个混合特征表示。根据公式(4),混合特征的公式为:
htc=MHA(hc,ht) (41)
步骤4、从整个步骤3可提取出样本句子、词向量以及其混合特征的高维表示,将这三个高维特征向量进行平均池化,压缩为一个向量送入最后的分类器进行分类,采用的方式为直接拼接。平均池化计算公式为:
其中H为向量长度,hi为样本句子、词向量以及混合特征的维度信息。
由公式(14)计算出样本句子、目标词与混合特征池化后的向量表示hc avg、ht avg与htc avg。再将其直接拼接压缩为一个向量:
其中,“;”为拼接操作。
步骤5、将最后得到的特征表示输入到softmax分类器中进行情感预测,到的一个三维向量y为最后的预测分布,每个维度代表一个分类类别,分别为积极的、消极的和中立的。使用argmax函数找到数值最大的维度标号,即模型预测的类别P,此过程的公式为:
P=arg max(y) (46)
其中,C为分类种类数,在本发明中为3,即“积极的”、“消极的”和“中立的”。y为最后的预测分布。
步骤6、利用神经网络的反向传播训练公式中的权值W与偏置b。由于在网络中的收集的样本训练集标签有可能是不正确的,使用标签平滑(Label SmoothingRegularization,LSR)的交叉熵函数代替传统的交叉熵函数。LSR可以防止模型把预测值过度集中在概率较大类别上,把一些概率分到其他概率较小类别上,即从一定程度上防止了网络对训练样本的过拟合。训练样本x标签的真实分布可以表示为q(k|x),LSR将此分布重写为:
q(k|x)=(1-∈)q(k|x)+∈u(k) (47)
其中,u(k)为先验分布,∈为一个取[0,1]的平滑系数。在本发明中∈为0.2。
u(k)服从一个简单的均匀分布:
u(k)=1/C (48)
把标签的真实分布q(k|x)与固定的分布u(k)按照1-∈和∈的权重混合在一起,构成一个新的分布。这相当于对标签分布中加入噪声,k值有∈的概率来自于分布u(k)。LSR交叉熵函数相当于计算了先验分布u(k)与网络的预测分布pθ之间的KL散度,LSR可定义为:
再使用L2正则化对损失函数进行约束,则损失函数可定义为:
其中,y为网络的预测的情感分布,λ为L2正则化系数,θ为设定的超参数。
使用本发明提出的弹幕情感分析方法对网络收集的弹幕样本数据集进行预测,该数据集从300个视频中收集了5000条弹幕样本,其中训练样本4000个,测试样本1000个。预测输出有3类:0、1、2,分别代表“消极的”、“中立的”和“积极的”。
以下是预测实例:
Is obama trying to be just like jimmy carter?he's doing a pretty goodjob so far,he has passed jimmy!May he keep so instead of being MikhailGorbachev who made a mess of things.
当目标词为“obama”时,模型注意力关注部分为“pretty good job”,模型预测情感为“积极的”;当目标词为“jimmy”时,模型注意力对整个句子的权重都很平均,预测情感为“中立的”;当目标词为“Mikhail Gorbachev”时,模型注意力关注部分为“a mess ofthings”,模型预测情感为“消极的”。
预测结果表明基于多尺度注意力卷积编码网络的视频弹幕情感分析方法相比于人工分类节约了60%的时间,并分类的准确率也能达到预期要求。因此,本发明提出的方法可以有效对视频弹幕进行情感分析,并能大大减少人力与时间耗费,实现高效的智能化处理。
Claims (1)
1.基于多尺度注意力卷积编码网络的视频弹幕情感分析方法,其特征在于,步骤如下:
步骤1、从互联网上的视频网站收集带有弹幕的视频文件,利用CRNN模型提取出视频中的弹幕样本,将视频的每一帧的视频图片转化为RGB三通道的像素矩阵,并输入到CNN模型中提取特征:
F=CNN(X) (1)
其中F为提取出的中间特征图,X为图片的输入像素矩阵;
特征图F经过RNN模型的解码翻译出弹幕样本:
S=RNN(F) (2)
将样本中的目标词和情感标记出来作为数据集,并将其划分为训练集和测试集;对数据集进行样本预处理,即词嵌入向量操作;
使用GloVe的词嵌入向量方法:根据已有的语料库,构建一个由Xij个元素构成的共现矩阵X,将单词i和其上下文单词j在固定窗口大小的上下中共同出现的次数与权重的乘积定义为Xij;权重是由GloVe自身的衰减函数来计算:
wd=1/d (3)
其中d为上下文单词之间的距离;
GloVe词嵌入向量的训练损失函数为:
其中,和为最终求解词向量,f(Xij)为权重函数;
进一步的,f(Xij)定义为:
其中,α取值为0.75,xmax取值为100;
步骤2、构建HACNN模型,设置HACNN模型的各项超参数数值;将步骤1中GloVe处理之后得到的句子样本和目标词向量输入到HACNN模型,进行第一重注意力机制处理;对句子样本和目标词向量同时做多头自注意力,初步提炼出向量中最相关的信息部分,完成粗编码过程;k={k1,k2,...,kn}和q={q1,q2,...,qm}分别为注意力的一组键值序列和查询序列,自注意力公式为:
Attention(k,q)=softmax(fs(k,q))k (6)
fs(ki,qj)=tanh([ki;qj]·Watt) (7)
则多头注意力公式可定义为:
oh=Attentionh(k,q) (9)
其中,Watt和Wmh为模型可训练的变量,“;”代表向量直接拼接,为第h头的注意力输出,且h∈[1,nhead];样本进行自我自注意力,即k与q的值相等;目标词进行交互自注意力,即k与q的值不等;
进一步得到句子和目标词的向量表示:
c=MHA(context,context) (10)
t=MHA(context,target) (11)
其中,c为句子的向量表示,t为目标词的向量表示;
步骤3、将得到的句子和目标词的初步向量表示再输入进多通道卷积转换模块MCCT中,MCCT能将输入的特征通道维度升高,能从不同的角度学习到输入的特征;再利用第二重注意力——通道间的注意力,降低CNN的通道维度,去除掉多个通道中冗余的部分,提取多通道中收集的不同特征;MCCT模块的计算方法如下:
fr=ReLU(L) (12)
其中,L为:
L=Wcx (13)
其中,Wc为可训练的权重,x为MCCT模块的输入;则通道注意力Attentionl用以下公式表示:
Attentionl=Sigmoid(Wrfr) (14)
其中,Wr为可训练的权重;
用卷积网络将输入展开到不同通道进行学习:
Tc=Conv1d(input) (15)
去除冗余通道信息:
MCCT(c)=Attentionl(Tc) (16)
其中Tc为卷积收集到的信息,通道数channel和隐藏层reduction为超参数;则最终的特征表示hc表示为:
hc=Conv1d(MCCT(c)) (17)
同样得到ht的表示:
ht=Conv1d(MCCT(t)) (18)
得到的样本表示特征序列为目标词序列为
步骤4、第三重注意力为样本与目标词之间的注意力;在网络在多通道进一步提取了样本句子与目标词的高维信息后,再一次提取句子中与目标词最相关的部分,即在hc与ht之间再做一次注意力;将句子向量与目标词向量做乘积作为注意力权重,进而将此注意力权重与目标词向量做点积得到句子中与目标词相关信息的特征向量表示;此注意力过程使用了公式(6)中的自注意力公式:
htc=MHA(hc,ht) (19)
其中htc为与目标词最相关的句子表示;
步骤5、将得到的三个特征表示hc、ht与htc进行平均池化后拼接;将拼接之后的向量长度H输入到最后的分类器分类,平均池化操作为:
其中,H是向量长度;
则hc、ht与htc进行平均池化后得到与
将三个池化后的特征表示拼接得H:
其中,“;”为拼接操作;
步骤6、将最后得到的H向量特征表示,输入到softmax分类器中进行最后的分类,
得到的一个三维向量y为最后的预测分布,每个维度代表一个分类类别,分别为积极的、消极的和中立的;使用argmax函数找到数值最大的维度标号,即模型预测的类别P,此过程的公式为:
P=argmax(y) (24)
其中,与都是反向传播过程中可训练学习到的变量;C为分类的种类,得到的y为最后的预测分布;
使用了标签平滑的交叉熵函数LSR代替了传统的交叉熵函数作为整个网络的损失函数来获取更好的训练效果;训练样本x标签的真实分布表示为q(k|x),LSR将此分布重写为:
q(k|x)=(1-∈)q(k|x)+∈u(k) (25)
其中,u(k)为先验分布,∈为一个取[0,1]的平滑系数;
u(k)服从一个简单的均匀分布:
u(k)=1/C (26)
把标签的真实分布q(k|x)与固定的分布u(k)按照1-∈和∈的权重混合在一起,构成一个新的分布;即对标签分布中加入噪声,k值有∈的概率来自于分布u(k);LSR交叉熵函数计算了先验分布u(k)与网络的预测分布pθ之间的KL散度,LSR定义为:
再使用L2正则化对损失函数进行约束,则损失函数可定义为:
其中,yc为网络的预测C类的情感分布,为yc的平均值,λ为L2正则化系数,θ为设定的超参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911250369.7A CN111144448B (zh) | 2019-12-09 | 2019-12-09 | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911250369.7A CN111144448B (zh) | 2019-12-09 | 2019-12-09 | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144448A CN111144448A (zh) | 2020-05-12 |
CN111144448B true CN111144448B (zh) | 2024-08-20 |
Family
ID=70517815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911250369.7A Active CN111144448B (zh) | 2019-12-09 | 2019-12-09 | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144448B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680159B (zh) * | 2020-06-11 | 2023-08-29 | 华东交通大学 | 数据处理方法、装置及电子设备 |
CN111708864A (zh) * | 2020-06-11 | 2020-09-25 | 兰州理工大学 | 一种用户评论文本情感分析方法及装置 |
CN111770357B (zh) * | 2020-07-27 | 2021-06-01 | 深圳大学 | 一种基于弹幕的视频高光片段识别方法、终端及存储介质 |
CN112100371B (zh) * | 2020-08-12 | 2023-10-03 | 北京工商大学 | 一种基于XLNet和BLS的弹幕情感分类方法 |
CN112131383B (zh) * | 2020-08-26 | 2021-05-18 | 华南师范大学 | 特定目标的情感极性分类方法 |
CN114201516B (zh) * | 2020-09-03 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 一种用户画像构建的方法、信息推荐的方法以及相关装置 |
CN112348075B (zh) * | 2020-11-02 | 2022-09-20 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112329867B (zh) * | 2020-11-10 | 2021-05-25 | 宁波大学 | 一种基于任务驱动的层次注意力网络的mri图像分类方法 |
CN112668320B (zh) * | 2020-12-25 | 2024-02-02 | 平安科技(深圳)有限公司 | 基于词嵌入的模型训练方法、装置、电子设备及存储介质 |
CN112419321B (zh) * | 2021-01-25 | 2021-04-02 | 长沙理工大学 | X射线图像识别方法、装置、计算机设备及存储介质 |
CN113011920B (zh) * | 2021-03-15 | 2024-02-13 | 北京百度网讯科技有限公司 | 转化率预估模型的训练方法、装置及电子设备 |
CN113077051B (zh) * | 2021-04-14 | 2024-01-26 | 南京零洞数智科技有限公司 | 网络模型训练方法、装置、文本分类模型及网络模型 |
CN113642447B (zh) * | 2021-08-09 | 2022-03-08 | 杭州弈胜科技有限公司 | 卷积神经网络级联的监控图像车辆检测方法及其系统 |
CN113762481B (zh) * | 2021-09-13 | 2024-03-12 | 中国地震局地球物理研究所 | 一种基于深度学习的层析成像方法及系统 |
CN113554131B (zh) * | 2021-09-22 | 2021-12-03 | 四川大学华西医院 | 医学图像处理和分析方法、计算机设备、系统和存储介质 |
CN114049519A (zh) * | 2021-11-17 | 2022-02-15 | 江西航天鄱湖云科技有限公司 | 一种光学遥感图像场景分类方法 |
CN114155461B (zh) * | 2021-11-29 | 2024-08-02 | 北京国瑞数智技术有限公司 | 微小视频内容过滤与净化的方法和系统 |
CN114358283A (zh) * | 2022-01-12 | 2022-04-15 | 深圳大学 | 气体识别神经网络模型的优化方法及相关设备 |
CN116384340B (zh) * | 2023-05-22 | 2023-08-29 | 中国科学技术大学 | 一种基于变分跨模态表征的实时弹幕情感分析方法 |
CN117473400B (zh) * | 2023-12-28 | 2024-03-26 | 中南大学 | 基于多通道层级变换网络结构的设备故障诊断方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170681A (zh) * | 2018-01-15 | 2018-06-15 | 中南大学 | 文本情感分析方法、系统及计算机可读存储介质 |
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992779B (zh) * | 2019-03-29 | 2023-04-28 | 长沙理工大学 | 一种基于cnn的情感分析方法、装置、设备及存储介质 |
CN110390017B (zh) * | 2019-07-25 | 2022-12-27 | 中国民航大学 | 基于注意力门控卷积网络的目标情感分析方法及系统 |
-
2019
- 2019-12-09 CN CN201911250369.7A patent/CN111144448B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170681A (zh) * | 2018-01-15 | 2018-06-15 | 中南大学 | 文本情感分析方法、系统及计算机可读存储介质 |
CN109635109A (zh) * | 2018-11-28 | 2019-04-16 | 华南理工大学 | 基于lstm并结合词性及多注意力机制的句子分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111144448A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN109376242B (zh) | 基于循环神经网络变体和卷积神经网络的文本分类方法 | |
CN110866542B (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN109918671A (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
CN108595590A (zh) | 一种基于融合注意力模型的中文文本分类方法 | |
CN111274398A (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN113806494B (zh) | 一种基于预训练语言模型的命名实体识别方法 | |
CN110888980A (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
CN113076483A (zh) | 基于案件要素异构图的舆情新闻抽取式摘要方法 | |
CN116975776B (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN110347831A (zh) | 基于自注意力机制的情感分类方法 | |
CN110263174A (zh) | —基于焦点关注的主题类别分析方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN113806547A (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
CN113239159A (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN118038139A (zh) | 一种基于大模型微调的多模态小样本图像分类方法 | |
CN117765450B (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN115311465A (zh) | 一种基于双注意力模型的图像描述方法 | |
CN114356990A (zh) | 基于迁移学习的基地命名实体识别系统及方法 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
CN116704398A (zh) | 一种全方位、多信息融合的短视频价值评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |