CN116384340A - 一种基于变分跨模态表征的实时弹幕情感分析方法 - Google Patents
一种基于变分跨模态表征的实时弹幕情感分析方法 Download PDFInfo
- Publication number
- CN116384340A CN116384340A CN202310574093.8A CN202310574093A CN116384340A CN 116384340 A CN116384340 A CN 116384340A CN 202310574093 A CN202310574093 A CN 202310574093A CN 116384340 A CN116384340 A CN 116384340A
- Authority
- CN
- China
- Prior art keywords
- barrage
- video
- feature
- surrounding
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 75
- 238000004458 analytical method Methods 0.000 title claims abstract description 44
- 238000012512 characterization method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 241000669618 Nothes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及视频弹幕情感分析技术领域,公开了一种基于变分跨模态表征的实时弹幕情感分析方法,包括视频编码、自动门控、文本编码、特征融合、弹幕重构和弹幕情感分析,最终预测得到弹幕情感。本方法利用自动门控模块将周围弹幕作为目标弹幕的上下文信息,并利用文本编码模块对目标弹幕进行特征提取,在编码模块和解码模块之间的特征融合模块会把视频信息融入进来,解码模块中的弹幕重构模块可以学习到不同模态之间的关系,促进情感分析模块预测出弹幕情感。
Description
技术领域
本发明涉及视频弹幕情感分析技术领域,具体涉及一种基于变分跨模态表征的实时弹幕情感分析方法。
背景技术
视频弹幕情感分析指对视频实时弹幕的弹幕情感进行分析。本发明解决了两个技术问题:
1.现有的方法倾向于提取句子级的特征进行情感分析和分类,都是基于规则的语法、语义基础之上的,但是弹幕的特点是:短小、口语化、形式多样化、语法不规范等,所以现有的情感分析方法无法准确地对弹幕进行分词以及语法分析等,进而无法准确地进行情感分析。
2.现有弹幕具有长度短、上下文信息缺乏、语言形式多样化、与当时的视频主题相关、交互性强、实时性较强等特点,使得现有的方法无法在短时间内对其进行有效、准确地情感分析。
发明内容
为解决上述技术问题,本发明提供一种基于变分跨模态表征的实时弹幕情感分析方法。本发明的主要改进点,在于利用变分自编码网络的结构进行视频实时弹幕的表征建模并进行情感分析。变分自编码网络的编码模块结合设计的自动门控模块,能够筛选出周围有用的弹幕作为目标弹幕的上下文信息,然后通过编码模块提取目标弹幕的特征。同时,在编码模块和解码模块的中间嵌入特征融合模块对目标弹幕与视频内容的交互进行学习,利用多模态方式将视频信息融合到文本特征中,充分利用有用的信息强化视频弹幕的特征表示,从而对视频弹幕进行准确高效地情感分析。
为解决上述技术问题,本发明采用如下技术方案:
弹幕情感分析模型的训练过程,包括以下步骤:
其中SA表示自注意力层;
其中CA表示交叉注意力层;
与现有技术相比,本发明的有益技术效果是:
1.本发明在编码模块结合设计的自动门控模块,利用目标弹幕来对周围的弹幕进行筛选过滤操作,让一些周围的具有相同情感的有用的弹幕可以作为目标弹幕的上下文信息提供帮助,解决弹幕短、没有足够的上下文信息等问题,并通过文本编码模块提取文本特征,提升了目标弹幕的质量。
2.在编码模块和解码模块的中间嵌入特征融合模块,对目标弹幕与视频内容的交互进行学习,充分考虑视频主题与弹幕的关系,获得增强的特征表示,提升了模型对弹幕进行情感分析的性能。
3.利用解码模块,遵循多任务学习的原则,促进各个模块的整体学习效果,提升情感分析模块的性能。
附图说明
图1为本发明中的弹幕情感分析模型的结构示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
本发明应用于视频实时弹幕的情感分析。例如在某一时刻,用户发出了一条弹幕,本发明能够判断出这条弹幕的弹幕情感。
本发明利用自动门控模块将周围弹幕作为目标弹幕的上下文信息,并利用文本编码模块对目标弹幕进行特征提取,位于编码模块和解码模块之间的特征融合模块(由多层自注意力层和交叉注意力层组成)会把视频信息融入进来,解码模块中的弹幕重构模块可以学习到不同模态之间的关系,促进情感分析模块预测出弹幕情感。
本实施例中弹幕情感分析模型的结构如图1所示。本实施例中,弹幕“和声是怪物”,/>周围的弹幕集合/>“这是写给她女儿的”、“好帅啊啊啊”和“加油加油……”作为/>的上下文内容,与发出弹幕/>时相对应的视频/>一起作为弹幕情感分析模型的输入,弹幕情感为完成训练的弹幕情感分析模型中的情感分析模块产生。弹幕情感分析模型使用了变分自编码网络的编码-解码架构。
弹幕情感分析模型训练预测过程如下。
弹幕情感分析模型包括编码模块、特征融合模块和解码模块。
1.编码模块
编码模块包含视频编码模块、自动门控模块以及文本编码模块这三个部分。
编码模块的输入如下:(1)时刻t的弹幕;(2)/>到/>时刻内的视频/>,视频/>有k个帧图像,/>,/>为设定的数值;(3)/>周围的弹幕集合/>,/>中有m个周围弹幕,,即与弹幕/>在同一帧视频内的其他弹幕。
基于视频弹幕的特点,一些周围的具有相同情感的有用的弹幕可以作为目标弹幕的上下文信息提供帮助,本发明通过自动门控模块,利用目标弹幕特征来对周围弹幕特征/>进行筛选过滤操作,得到自动门控模块处理后的第i个周围弹幕表示/>:
2.特征融合模块
其中SA表示自注意力层;
其中CA表示交叉注意力层。
3.解码模块
在弹幕重构模块,重构损失被该模块分析计算,并被加入到闭环训练中促进多模态融合模块的学习效果,提升情感分析模块的效果。
在情感分析模块,进行弹幕情感预测和弹幕情感预测损失的计算;
其中p表示真实弹幕情感。
弹幕情感分析模型的整体损失
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种基于变分跨模态表征的实时弹幕情感分析方法,将时刻t发出的弹幕、弹幕/>周围的弹幕集合/>、时刻t以及时刻t前后的帧图像组成的视频/>输入至完成训练的弹幕情感分析模型,预测得到弹幕/>的弹幕情感;
弹幕情感分析模型的训练过程,包括以下步骤:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310574093.8A CN116384340B (zh) | 2023-05-22 | 2023-05-22 | 一种基于变分跨模态表征的实时弹幕情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310574093.8A CN116384340B (zh) | 2023-05-22 | 2023-05-22 | 一种基于变分跨模态表征的实时弹幕情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116384340A true CN116384340A (zh) | 2023-07-04 |
CN116384340B CN116384340B (zh) | 2023-08-29 |
Family
ID=86971261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310574093.8A Active CN116384340B (zh) | 2023-05-22 | 2023-05-22 | 一种基于变分跨模态表征的实时弹幕情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116384340B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130173269A1 (en) * | 2012-01-03 | 2013-07-04 | Nokia Corporation | Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection |
US20180341839A1 (en) * | 2017-05-26 | 2018-11-29 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
CN111144448A (zh) * | 2019-12-09 | 2020-05-12 | 江南大学 | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 |
CN113743267A (zh) * | 2021-08-25 | 2021-12-03 | 中国科学院软件研究所 | 一种基于螺旋和文本的多模态视频情感可视化方法及装置 |
-
2023
- 2023-05-22 CN CN202310574093.8A patent/CN116384340B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130173269A1 (en) * | 2012-01-03 | 2013-07-04 | Nokia Corporation | Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection |
US20180341839A1 (en) * | 2017-05-26 | 2018-11-29 | Oracle International Corporation | Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network |
CN111144448A (zh) * | 2019-12-09 | 2020-05-12 | 江南大学 | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 |
CN113743267A (zh) * | 2021-08-25 | 2021-12-03 | 中国科学院软件研究所 | 一种基于螺旋和文本的多模态视频情感可视化方法及装置 |
Non-Patent Citations (3)
Title |
---|
SHAOBO MIN等: "Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning", ARXIV, pages 1 - 11 * |
XUEMING YAN等: "Multimodal Sentiment Analysis Using Multi-tensor Fusion Network with Cross-modal Modeling", APPLIED ARTIFICIAL INTELLIGENCE, pages 1 - 16 * |
庄须强;刘方爱;: "基于AT-LSTM的弹幕评论情感分析", 数字技术与应用, no. 02, pages 210 - 212 * |
Also Published As
Publication number | Publication date |
---|---|
CN116384340B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101896B (zh) | 一种基于时空融合特征和注意力机制的视频行为识别方法 | |
CN110413838B (zh) | 一种无监督视频摘要模型及其建立方法 | |
CN107391646A (zh) | 一种视频图像的语义信息提取方法及装置 | |
CN111916067A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN111523534B (zh) | 一种图像描述的方法 | |
CN113688723A (zh) | 一种基于改进YOLOv5的红外图像行人目标检测方法 | |
CN112863180B (zh) | 交通速度预测方法、装置、电子设备及计算机可读介质 | |
CN111460979A (zh) | 一种基于多层时空框架的关键镜头视频摘要方法 | |
CN114757432B (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统 | |
CN115841119B (zh) | 一种基于图结构的情绪原因提取方法 | |
CN111401637B (zh) | 融合用户行为和表情数据的用户体验质量预测方法 | |
CN116740223A (zh) | 基于文本生成图像的方法 | |
CN115346261A (zh) | 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法 | |
CN109377498B (zh) | 基于循环神经网络的交互式抠图方法 | |
CN116384340B (zh) | 一种基于变分跨模态表征的实时弹幕情感分析方法 | |
CN116863920A (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
CN115690238A (zh) | 图像生成及模型训练方法、装置、设备和存储介质 | |
CN112966527B (zh) | 一种基于自然语言推理的关系抽取模型的生成方法 | |
CN115270917A (zh) | 一种两阶段处理多模态服装图像生成方法 | |
CN111476131B (zh) | 一种视频处理方法和装置 | |
CN116189064B (zh) | 一种基于联合模型的弹幕情感分析方法及系统 | |
CN112434143A (zh) | 基于gru单元隐藏状态约束的对话方法、存储介质及系统 | |
CN112911338B (zh) | 一种基于编码解码网络的交通场景描述方法及系统 | |
CN114882402A (zh) | 基于词性信息的动作检测的视频描述方法 | |
CN115062114A (zh) | 一种有模型的情绪感知对话策略学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |