CN116384340A - 一种基于变分跨模态表征的实时弹幕情感分析方法 - Google Patents

一种基于变分跨模态表征的实时弹幕情感分析方法 Download PDF

Info

Publication number
CN116384340A
CN116384340A CN202310574093.8A CN202310574093A CN116384340A CN 116384340 A CN116384340 A CN 116384340A CN 202310574093 A CN202310574093 A CN 202310574093A CN 116384340 A CN116384340 A CN 116384340A
Authority
CN
China
Prior art keywords
barrage
video
feature
surrounding
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310574093.8A
Other languages
English (en)
Other versions
CN116384340B (zh
Inventor
宋彦
张勇东
陈伟东
罗常凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310574093.8A priority Critical patent/CN116384340B/zh
Publication of CN116384340A publication Critical patent/CN116384340A/zh
Application granted granted Critical
Publication of CN116384340B publication Critical patent/CN116384340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及视频弹幕情感分析技术领域,公开了一种基于变分跨模态表征的实时弹幕情感分析方法,包括视频编码、自动门控、文本编码、特征融合、弹幕重构和弹幕情感分析,最终预测得到弹幕情感。本方法利用自动门控模块将周围弹幕作为目标弹幕的上下文信息,并利用文本编码模块对目标弹幕进行特征提取,在编码模块和解码模块之间的特征融合模块会把视频信息融入进来,解码模块中的弹幕重构模块可以学习到不同模态之间的关系,促进情感分析模块预测出弹幕情感。

Description

一种基于变分跨模态表征的实时弹幕情感分析方法
技术领域
本发明涉及视频弹幕情感分析技术领域,具体涉及一种基于变分跨模态表征的实时弹幕情感分析方法。
背景技术
视频弹幕情感分析指对视频实时弹幕的弹幕情感进行分析。本发明解决了两个技术问题:
1.现有的方法倾向于提取句子级的特征进行情感分析和分类,都是基于规则的语法、语义基础之上的,但是弹幕的特点是:短小、口语化、形式多样化、语法不规范等,所以现有的情感分析方法无法准确地对弹幕进行分词以及语法分析等,进而无法准确地进行情感分析。
2.现有弹幕具有长度短、上下文信息缺乏、语言形式多样化、与当时的视频主题相关、交互性强、实时性较强等特点,使得现有的方法无法在短时间内对其进行有效、准确地情感分析。
发明内容
为解决上述技术问题,本发明提供一种基于变分跨模态表征的实时弹幕情感分析方法。本发明的主要改进点,在于利用变分自编码网络的结构进行视频实时弹幕的表征建模并进行情感分析。变分自编码网络的编码模块结合设计的自动门控模块,能够筛选出周围有用的弹幕作为目标弹幕的上下文信息,然后通过编码模块提取目标弹幕的特征。同时,在编码模块和解码模块的中间嵌入特征融合模块对目标弹幕与视频内容的交互进行学习,利用多模态方式将视频信息融合到文本特征中,充分利用有用的信息强化视频弹幕的特征表示,从而对视频弹幕进行准确高效地情感分析。
为解决上述技术问题,本发明采用如下技术方案:
一种基于变分跨模态表征的实时弹幕情感分析方法,将时刻t发出的弹幕
Figure SMS_1
、弹幕
Figure SMS_2
周围的弹幕集合/>
Figure SMS_3
、时刻t以及时刻t前后的帧图像组成的视频/>
Figure SMS_4
输入至完成训练的弹幕情感分析模型,预测得到弹幕/>
Figure SMS_5
的弹幕情感;
弹幕情感分析模型的训练过程,包括以下步骤:
步骤一:使用残差卷积神经网络对视频
Figure SMS_6
的k个帧图像/>
Figure SMS_7
进行编码,并将得到的编码向量串联,得到编码后的帧级别的视频特征/>
Figure SMS_8
;其中/>
Figure SMS_9
为视频/>
Figure SMS_10
的第k个帧图像;
步骤二:使用词嵌入操作,分别对弹幕
Figure SMS_12
和弹幕集合/>
Figure SMS_16
中的m个周围弹幕
Figure SMS_17
进行初步编码,得到编码后的目标弹幕特征/>
Figure SMS_13
和周围弹幕特征
Figure SMS_14
;其中/>
Figure SMS_18
为弹幕集合/>
Figure SMS_19
中第i个周围弹幕,/>
Figure SMS_11
为/>
Figure SMS_15
的周围弹幕特征;
步骤三:利用
Figure SMS_20
对/>
Figure SMS_21
进行筛选过滤操作,得到第i个周围弹幕的周围弹幕表示/>
Figure SMS_22
Figure SMS_23
,/>
Figure SMS_24
其中
Figure SMS_25
为中间变量,W和b均为可学习参数,/>
Figure SMS_26
表示ReLU函数,/>
Figure SMS_27
代表对应位置元素进行乘积;
步骤四:将所有的周围弹幕表示
Figure SMS_28
串联起来得到周围弹幕表示
Figure SMS_29
步骤五:通过文本编码,将周围弹幕表示
Figure SMS_30
和目标弹幕特征/>
Figure SMS_31
进行融合,并提取出强化的目标弹幕特征/>
Figure SMS_32
步骤六:将视频特征
Figure SMS_33
和目标弹幕特征/>
Figure SMS_34
输入L层自注意力层和交叉注意力层,迭代得到增强视频特征/>
Figure SMS_35
和增强目标弹幕特征/>
Figure SMS_36
步骤七:将增强视频特征
Figure SMS_37
和增强目标弹幕特征/>
Figure SMS_38
输入至多层多头注意力层进行弹幕重构,弹幕重构损失记为/>
Figure SMS_39
Figure SMS_40
;/>
Figure SMS_41
其中
Figure SMS_42
表示重构操作,/>
Figure SMS_43
表示批处理操作,/>
Figure SMS_44
表示总的时长,/>
Figure SMS_45
表示弹幕重构产生的弹幕,CE表示交叉熵损失;
将增强视频特征
Figure SMS_46
和增强目标弹幕特征/>
Figure SMS_47
经过层正则化和Softmax激活函数,预测得到弹幕/>
Figure SMS_48
的弹幕情感/>
Figure SMS_49
,弹幕情感预测损失记为/>
Figure SMS_50
:/>
Figure SMS_51
;/>
Figure SMS_52
表示真实弹幕情感;
弹幕情感分析模型的整体损失
Figure SMS_53
;其中/>
Figure SMS_54
代表损失平衡参数。
具体地,步骤一中,将编码向量串联得到编码后的帧级别的视频特征
Figure SMS_55
时:
Figure SMS_56
;/>
Figure SMS_57
表示串联操作,/>
Figure SMS_58
表示编码操作。
具体地,步骤二中,分别对弹幕
Figure SMS_59
和弹幕集合/>
Figure SMS_60
中的m个周围弹幕进行初步编码,得到编码后的目标弹幕特征/>
Figure SMS_61
和周围弹幕特征时:
Figure SMS_62
Figure SMS_63
其中
Figure SMS_64
表示词嵌入操作。
具体地,步骤四中,将所有的周围弹幕表示串联起来得到周围弹幕表示
Figure SMS_65
时:
Figure SMS_66
其中
Figure SMS_67
表示串联操作。
具体地,步骤五中,将周围弹幕表示和目标弹幕特征进行融合,并提取出强化的目标弹幕特征
Figure SMS_68
时:
Figure SMS_69
其中TE表示文本编码操作,
Figure SMS_70
表示串联操作,周围弹幕融合矩阵/>
Figure SMS_71
和目标弹幕融合矩阵/>
Figure SMS_72
均为学习参数。
具体地,步骤六中,将视频特征
Figure SMS_73
和目标弹幕特征/>
Figure SMS_74
输入L层自注意力层和交叉注意力层,迭代得到增强视频特征/>
Figure SMS_75
和增强目标弹幕特征/>
Figure SMS_76
时:
向第
Figure SMS_77
层自注意力层输入视频特征/>
Figure SMS_78
,得到下一层的输入视频特征/>
Figure SMS_79
Figure SMS_80
其中SA表示自注意力层;
向第
Figure SMS_81
层交叉注意力层输入目标弹幕特征/>
Figure SMS_82
,得到下一层的输入目标弹幕特征/>
Figure SMS_83
Figure SMS_84
其中CA表示交叉注意力层;
经过L层自注意力层和交叉注意力层迭代后,在最后一层,得到视频特征
Figure SMS_85
,即增强视频特征/>
Figure SMS_86
,以及目标弹幕特征/>
Figure SMS_87
,即增强目标弹幕特征/>
Figure SMS_88
具体地,步骤七中,将增强视频特征
Figure SMS_89
和增强目标弹幕特征/>
Figure SMS_90
经过层正则化和Softmax激活函数,预测得到弹幕/>
Figure SMS_91
的弹幕情感/>
Figure SMS_92
时:
Figure SMS_93
Figure SMS_94
其中
Figure SMS_95
表示中间变量,/>
Figure SMS_96
表示串联操作,LN代表层正则化操作,/>
Figure SMS_97
表示Softmax函数,视频情感矩阵/>
Figure SMS_98
、目标弹幕情感矩阵/>
Figure SMS_99
和情感预测矩阵/>
Figure SMS_100
都是学习参数;/>
Figure SMS_101
表示多层感知机。
与现有技术相比,本发明的有益技术效果是:
1.本发明在编码模块结合设计的自动门控模块,利用目标弹幕来对周围的弹幕进行筛选过滤操作,让一些周围的具有相同情感的有用的弹幕可以作为目标弹幕的上下文信息提供帮助,解决弹幕短、没有足够的上下文信息等问题,并通过文本编码模块提取文本特征,提升了目标弹幕的质量。
2.在编码模块和解码模块的中间嵌入特征融合模块,对目标弹幕与视频内容的交互进行学习,充分考虑视频主题与弹幕的关系,获得增强的特征表示,提升了模型对弹幕进行情感分析的性能。
3.利用解码模块,遵循多任务学习的原则,促进各个模块的整体学习效果,提升情感分析模块的性能。
附图说明
图1为本发明中的弹幕情感分析模型的结构示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
本发明应用于视频实时弹幕的情感分析。例如在某一时刻,用户发出了一条弹幕,本发明能够判断出这条弹幕的弹幕情感。
本发明利用自动门控模块将周围弹幕作为目标弹幕的上下文信息,并利用文本编码模块对目标弹幕进行特征提取,位于编码模块和解码模块之间的特征融合模块(由多层自注意力层和交叉注意力层组成)会把视频信息融入进来,解码模块中的弹幕重构模块可以学习到不同模态之间的关系,促进情感分析模块预测出弹幕情感。
本实施例中弹幕情感分析模型的结构如图1所示。本实施例中,弹幕
Figure SMS_102
“和声是怪物”,/>
Figure SMS_103
周围的弹幕集合/>
Figure SMS_104
“这是写给她女儿的”、“好帅啊啊啊”和“加油加油……”作为/>
Figure SMS_105
的上下文内容,与发出弹幕/>
Figure SMS_106
时相对应的视频/>
Figure SMS_107
一起作为弹幕情感分析模型的输入,弹幕情感为完成训练的弹幕情感分析模型中的情感分析模块产生。弹幕情感分析模型使用了变分自编码网络的编码-解码架构。
弹幕情感分析模型训练预测过程如下。
弹幕情感分析模型包括编码模块、特征融合模块和解码模块。
1.编码模块
编码模块包含视频编码模块、自动门控模块以及文本编码模块这三个部分。
编码模块的输入如下:(1)时刻t的弹幕
Figure SMS_108
;(2)/>
Figure SMS_112
到/>
Figure SMS_115
时刻内的视频/>
Figure SMS_111
,视频/>
Figure SMS_114
有k个帧图像,/>
Figure SMS_116
,/>
Figure SMS_118
为设定的数值;(3)/>
Figure SMS_110
周围的弹幕集合/>
Figure SMS_113
,/>
Figure SMS_117
中有m个周围弹幕,
Figure SMS_119
,即与弹幕/>
Figure SMS_109
在同一帧视频内的其他弹幕。
在视频编码模块内,使用残差卷积神经网络,编码k帧视频
Figure SMS_120
,并将得到的编码向量串联,得到编码后的帧级别的视频特征/>
Figure SMS_121
Figure SMS_122
其中
Figure SMS_123
表示的是串联操作,/>
Figure SMS_124
表示视频编码器进行的编码操作。
使用词嵌入(Embedding)操作,分别对弹幕
Figure SMS_125
和其周围的m个弹幕/>
Figure SMS_126
,进行初步编码,得到编码后的目标弹幕特征/>
Figure SMS_127
和周围弹幕特征
Figure SMS_128
Figure SMS_129
Figure SMS_130
其中
Figure SMS_131
为弹幕集合/>
Figure SMS_132
中第i个周围弹幕,/>
Figure SMS_133
为/>
Figure SMS_134
的周围弹幕特征。
基于视频弹幕的特点,一些周围的具有相同情感的有用的弹幕可以作为目标弹幕的上下文信息提供帮助,本发明通过自动门控模块,利用目标弹幕特征
Figure SMS_135
来对周围弹幕特征/>
Figure SMS_136
进行筛选过滤操作,得到自动门控模块处理后的第i个周围弹幕表示/>
Figure SMS_137
Figure SMS_138
Figure SMS_139
其中
Figure SMS_140
为中间变量,门矩阵W和门偏移向量b是可学习参数,激活函数/>
Figure SMS_141
表示ReLU函数,操作/>
Figure SMS_142
代表对应位置元素进行乘积。
把所有的周围弹幕表示
Figure SMS_143
串联起来得到/>
Figure SMS_144
Figure SMS_145
其中
Figure SMS_146
表示串联操作。
利用文本编码模块,把周围弹幕表示
Figure SMS_147
和目标弹幕特征/>
Figure SMS_148
进行融合并提取出强化的目标弹幕特征/>
Figure SMS_149
Figure SMS_150
其中TE代表文本编码模块进行的文本编码操作,
Figure SMS_151
代表串联操作,周围弹幕融合矩阵/>
Figure SMS_152
和目标弹幕融合矩阵/>
Figure SMS_153
均为可学习参数。
2.特征融合模块
特征融合模块由L层自注意力层和交叉注意力层组成。将编码后的视频特征
Figure SMS_154
和目标弹幕特征/>
Figure SMS_155
作为特征融合模块第一层的输入,经过多层迭代,得到相应的融合了其他模态的增强视频特征/>
Figure SMS_156
和增强目标弹幕特征/>
Figure SMS_157
特征融合模块第
Figure SMS_158
层的处理过程如下:
在第
Figure SMS_159
层输入视频特征/>
Figure SMS_160
,得到第/>
Figure SMS_161
层的输入视频特征/>
Figure SMS_162
Figure SMS_163
其中SA表示自注意力层;
在第
Figure SMS_164
层输入目标弹幕特征/>
Figure SMS_165
,得到下一层的输入目标弹幕特征/>
Figure SMS_166
Figure SMS_167
其中CA表示交叉注意力层。
经过L层自注意力层和交叉注意力层迭代后,在最后一层,得到视频特征
Figure SMS_168
,即增强视频特征/>
Figure SMS_169
,以及目标弹幕特征/>
Figure SMS_170
,即增强目标弹幕特征/>
Figure SMS_171
3.解码模块
解码模块由弹幕重构模块和情感分析模块组成,解码模块以编码模块中得到的增强视频特征
Figure SMS_172
、和增强目标弹幕特征/>
Figure SMS_173
作为输入。
在弹幕重构模块,重构损失被该模块分析计算,并被加入到闭环训练中促进多模态融合模块的学习效果,提升情感分析模块的效果。
弹幕重构模块由多层多头注意力层组成,弹幕重构损失
Figure SMS_174
为:
Figure SMS_175
Figure SMS_176
其中
Figure SMS_177
表示重构操作,/>
Figure SMS_178
表示批处理操作,/>
Figure SMS_179
表示总的时长,/>
Figure SMS_180
表示弹幕重构产生的弹幕,CE表示交叉熵损失;/>
Figure SMS_181
表示真实的弹幕,即时刻t发出的弹幕。
在情感分析模块,进行弹幕情感预测和弹幕情感预测损失的计算;
进行弹幕情感预测中,输入增强视频特征
Figure SMS_182
和增强目标弹幕特征/>
Figure SMS_183
,得到预测出的弹幕情感/>
Figure SMS_184
Figure SMS_185
Figure SMS_186
其中
Figure SMS_187
表示中间变量,/>
Figure SMS_188
代表串联操作,LN代表层正则化操作,激活函数/>
Figure SMS_189
是Softmax函数,视频情感矩阵/>
Figure SMS_190
、目标弹幕情感矩阵/>
Figure SMS_191
和情感预测矩阵/>
Figure SMS_192
均为可学习参数,/>
Figure SMS_193
表示多层感知机;
弹幕情感预测损失
Figure SMS_194
为:
Figure SMS_195
其中p表示真实弹幕情感。
弹幕情感分析模型的整体损失
Figure SMS_196
其中
Figure SMS_197
代表损失平衡参数;基于损失和反向传播算法更新弹幕情感分析模型参数,直至弹幕情感分析模型性能达到预期效果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (7)

1.一种基于变分跨模态表征的实时弹幕情感分析方法,将时刻t发出的弹幕
Figure QLYQS_1
、弹幕/>
Figure QLYQS_2
周围的弹幕集合/>
Figure QLYQS_3
、时刻t以及时刻t前后的帧图像组成的视频/>
Figure QLYQS_4
输入至完成训练的弹幕情感分析模型,预测得到弹幕/>
Figure QLYQS_5
的弹幕情感;
弹幕情感分析模型的训练过程,包括以下步骤:
步骤一:使用残差卷积神经网络对视频
Figure QLYQS_6
的k个帧图像/>
Figure QLYQS_7
进行编码,并将得到的编码向量串联,得到编码后的帧级别的视频特征/>
Figure QLYQS_8
;其中/>
Figure QLYQS_9
为视频/>
Figure QLYQS_10
的第k个帧图像;
步骤二:使用词嵌入操作,分别对弹幕
Figure QLYQS_12
和弹幕集合/>
Figure QLYQS_15
中的m个周围弹幕/>
Figure QLYQS_16
进行初步编码,得到编码后的目标弹幕特征/>
Figure QLYQS_13
和周围弹幕特征
Figure QLYQS_17
;其中/>
Figure QLYQS_18
为弹幕集合/>
Figure QLYQS_19
中第i个周围弹幕,/>
Figure QLYQS_11
为/>
Figure QLYQS_14
的周围弹幕特征;
步骤三:利用
Figure QLYQS_20
对/>
Figure QLYQS_21
进行筛选过滤操作,得到第i个周围弹幕的周围弹幕表示
Figure QLYQS_22
Figure QLYQS_23
,/>
Figure QLYQS_24
其中
Figure QLYQS_25
为中间变量,W和b均为可学习参数,/>
Figure QLYQS_26
表示ReLU函数,/>
Figure QLYQS_27
代表对应位置元素进行乘积;
步骤四:将所有的周围弹幕表示
Figure QLYQS_28
串联起来得到周围弹幕表示/>
Figure QLYQS_29
步骤五:通过文本编码,将周围弹幕表示
Figure QLYQS_30
和目标弹幕特征/>
Figure QLYQS_31
进行融合,并提取出强化的目标弹幕特征/>
Figure QLYQS_32
步骤六:将视频特征
Figure QLYQS_33
和目标弹幕特征/>
Figure QLYQS_34
输入L层自注意力层和交叉注意力层,迭代得到增强视频特征/>
Figure QLYQS_35
和增强目标弹幕特征/>
Figure QLYQS_36
步骤七:将增强视频特征
Figure QLYQS_37
和增强目标弹幕特征/>
Figure QLYQS_38
输入至多层多头注意力层进行弹幕重构,弹幕重构损失记为/>
Figure QLYQS_39
Figure QLYQS_40
;/>
Figure QLYQS_41
其中
Figure QLYQS_42
表示重构操作,/>
Figure QLYQS_43
表示批处理操作,/>
Figure QLYQS_44
表示总的时长,/>
Figure QLYQS_45
表示弹幕重构产生的弹幕,CE表示交叉熵损失;
将增强视频特征
Figure QLYQS_46
和增强目标弹幕特征/>
Figure QLYQS_47
经过层正则化和Softmax激活函数,预测得到弹幕/>
Figure QLYQS_48
的弹幕情感/>
Figure QLYQS_49
,弹幕情感预测损失记为/>
Figure QLYQS_50
:/>
Figure QLYQS_51
;/>
Figure QLYQS_52
表示真实弹幕情感;
弹幕情感分析模型的整体损失
Figure QLYQS_53
;其中/>
Figure QLYQS_54
代表损失平衡参数。
2.根据权利要求1所述的基于变分跨模态表征的实时弹幕情感分析方法,其特征在于:步骤一中,将编码向量串联得到编码后的帧级别的视频特征
Figure QLYQS_55
时:
Figure QLYQS_56
;/>
Figure QLYQS_57
表示串联操作,/>
Figure QLYQS_58
表示编码操作。
3.根据权利要求1所述的基于变分跨模态表征的实时弹幕情感分析方法,其特征在于,步骤二中,分别对弹幕
Figure QLYQS_59
和弹幕集合/>
Figure QLYQS_60
中的m个周围弹幕进行初步编码,得到编码后的目标弹幕特征/>
Figure QLYQS_61
和周围弹幕特征时:
Figure QLYQS_62
Figure QLYQS_63
其中
Figure QLYQS_64
表示词嵌入操作。
4.根据权利要求1所述的基于变分跨模态表征的实时弹幕情感分析方法,其特征在于,步骤四中,将所有的周围弹幕表示串联起来得到周围弹幕表示
Figure QLYQS_65
时:
Figure QLYQS_66
其中
Figure QLYQS_67
表示串联操作。
5.根据权利要求1所述的基于变分跨模态表征的实时弹幕情感分析方法,其特征在于,步骤五中,将周围弹幕表示和目标弹幕特征进行融合,并提取出强化的目标弹幕特征
Figure QLYQS_68
时:
Figure QLYQS_69
其中TE表示文本编码操作,
Figure QLYQS_70
表示串联操作,周围弹幕融合矩阵/>
Figure QLYQS_71
和目标弹幕融合矩阵/>
Figure QLYQS_72
均为学习参数。
6.根据权利要求1所述的基于变分跨模态表征的实时弹幕情感分析方法,其特征在于,步骤六中,将视频特征
Figure QLYQS_73
和目标弹幕特征/>
Figure QLYQS_74
输入L层自注意力层和交叉注意力层,迭代得到增强视频特征/>
Figure QLYQS_75
和增强目标弹幕特征/>
Figure QLYQS_76
时:
向第
Figure QLYQS_77
层自注意力层输入视频特征/>
Figure QLYQS_78
,得到下一层的输入视频特征/>
Figure QLYQS_79
Figure QLYQS_80
其中SA表示自注意力层;
向第
Figure QLYQS_81
层交叉注意力层输入目标弹幕特征/>
Figure QLYQS_82
,得到下一层的输入目标弹幕特征/>
Figure QLYQS_83
Figure QLYQS_84
其中CA表示交叉注意力层;
经过L层自注意力层和交叉注意力层迭代后,在最后一层,得到视频特征
Figure QLYQS_85
,即增强视频特征/>
Figure QLYQS_86
,以及目标弹幕特征/>
Figure QLYQS_87
,即增强目标弹幕特征/>
Figure QLYQS_88
7.根据权利要求1所述的基于变分跨模态表征的实时弹幕情感分析方法,其特征在于,步骤七中,将增强视频特征
Figure QLYQS_89
和增强目标弹幕特征/>
Figure QLYQS_90
经过层正则化和Softmax激活函数,预测得到弹幕/>
Figure QLYQS_91
的弹幕情感/>
Figure QLYQS_92
时:
Figure QLYQS_93
Figure QLYQS_94
其中
Figure QLYQS_95
表示中间变量,/>
Figure QLYQS_96
表示串联操作,LN代表层正则化操作,/>
Figure QLYQS_97
表示Softmax函数,视频情感矩阵/>
Figure QLYQS_98
、目标弹幕情感矩阵/>
Figure QLYQS_99
和情感预测矩阵/>
Figure QLYQS_100
都是学习参数;/>
Figure QLYQS_101
表示多层感知机。
CN202310574093.8A 2023-05-22 2023-05-22 一种基于变分跨模态表征的实时弹幕情感分析方法 Active CN116384340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310574093.8A CN116384340B (zh) 2023-05-22 2023-05-22 一种基于变分跨模态表征的实时弹幕情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310574093.8A CN116384340B (zh) 2023-05-22 2023-05-22 一种基于变分跨模态表征的实时弹幕情感分析方法

Publications (2)

Publication Number Publication Date
CN116384340A true CN116384340A (zh) 2023-07-04
CN116384340B CN116384340B (zh) 2023-08-29

Family

ID=86971261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310574093.8A Active CN116384340B (zh) 2023-05-22 2023-05-22 一种基于变分跨模态表征的实时弹幕情感分析方法

Country Status (1)

Country Link
CN (1) CN116384340B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173269A1 (en) * 2012-01-03 2013-07-04 Nokia Corporation Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection
US20180341839A1 (en) * 2017-05-26 2018-11-29 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN113743267A (zh) * 2021-08-25 2021-12-03 中国科学院软件研究所 一种基于螺旋和文本的多模态视频情感可视化方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173269A1 (en) * 2012-01-03 2013-07-04 Nokia Corporation Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection
US20180341839A1 (en) * 2017-05-26 2018-11-29 Oracle International Corporation Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
CN111144448A (zh) * 2019-12-09 2020-05-12 江南大学 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN113743267A (zh) * 2021-08-25 2021-12-03 中国科学院软件研究所 一种基于螺旋和文本的多模态视频情感可视化方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHAOBO MIN等: "Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning", ARXIV, pages 1 - 11 *
XUEMING YAN等: "Multimodal Sentiment Analysis Using Multi-tensor Fusion Network with Cross-modal Modeling", APPLIED ARTIFICIAL INTELLIGENCE, pages 1 - 16 *
庄须强;刘方爱;: "基于AT-LSTM的弹幕评论情感分析", 数字技术与应用, no. 02, pages 210 - 212 *

Also Published As

Publication number Publication date
CN116384340B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN109101896B (zh) 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110413838B (zh) 一种无监督视频摘要模型及其建立方法
CN107391646A (zh) 一种视频图像的语义信息提取方法及装置
CN111916067A (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
CN111523534B (zh) 一种图像描述的方法
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN112863180B (zh) 交通速度预测方法、装置、电子设备及计算机可读介质
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
CN114757432B (zh) 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统
CN115841119B (zh) 一种基于图结构的情绪原因提取方法
CN111401637B (zh) 融合用户行为和表情数据的用户体验质量预测方法
CN116740223A (zh) 基于文本生成图像的方法
CN115346261A (zh) 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法
CN109377498B (zh) 基于循环神经网络的交互式抠图方法
CN116384340B (zh) 一种基于变分跨模态表征的实时弹幕情感分析方法
CN116863920A (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
CN115690238A (zh) 图像生成及模型训练方法、装置、设备和存储介质
CN112966527B (zh) 一种基于自然语言推理的关系抽取模型的生成方法
CN115270917A (zh) 一种两阶段处理多模态服装图像生成方法
CN111476131B (zh) 一种视频处理方法和装置
CN116189064B (zh) 一种基于联合模型的弹幕情感分析方法及系统
CN112434143A (zh) 基于gru单元隐藏状态约束的对话方法、存储介质及系统
CN112911338B (zh) 一种基于编码解码网络的交通场景描述方法及系统
CN114882402A (zh) 基于词性信息的动作检测的视频描述方法
CN115062114A (zh) 一种有模型的情绪感知对话策略学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant