CN117333924A - 一种基于多模态大数据的互联网短视频情绪识别方法 - Google Patents

一种基于多模态大数据的互联网短视频情绪识别方法 Download PDF

Info

Publication number
CN117333924A
CN117333924A CN202311411712.8A CN202311411712A CN117333924A CN 117333924 A CN117333924 A CN 117333924A CN 202311411712 A CN202311411712 A CN 202311411712A CN 117333924 A CN117333924 A CN 117333924A
Authority
CN
China
Prior art keywords
original
feature
video
audio
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311411712.8A
Other languages
English (en)
Inventor
王进
向严
邓龙行
刘彬
吴思远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202311411712.8A priority Critical patent/CN117333924A/zh
Publication of CN117333924A publication Critical patent/CN117333924A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态大数据的互联网短视频情绪识别方法,包括:利用短视频中的文本、音频和视频帧信息进行情绪识别,具体包括将文本,音频,视频帧分别编码;使用动态自适应的多层双向LSTM网络融合模态信息;原始音频信息和原始文本信息进行模态间对比学习;原始音频信息和原始视频信息进行模态内部对比学习;原始音频信息、原始文本信息和原始视频信息进行局部与全局的对比学习;利用bert模型获得视频与音频的联合信息;对联合特征向量与文本特征向量采用双编码器进行联合编码,本发明通过动态自适应调整双向LSTM的层数来增强模型的特征表达能力,通过多角度下的对比学习增强特征的表达能力,从而提高了情绪识别任务的能力。

Description

一种基于多模态大数据的互联网短视频情绪识别方法
技术领域
本发明属于情绪识别领域,特别是涉及一种基于多模态大数据的互联网短视频情绪识别方法。
背景技术
随着科技和互联网的快速发展,情感分析或情绪识别在众多领域内已经变得至关重要。从商业应用的角度来看,例如客户反馈的情绪分析、品牌声誉管理到医疗健康中的心理健康监测,准确地识别和分析个体的情绪状态为我们提供了深入了解用户需求和提供个性化服务的可能性。
传统的情感分析技术主要基于文本数据,如用户评论、社交媒体帖子等。这些技术大多数是基于特定的关键字或短语进行分析,然后使用统计或机器学习方法来确定文本中的总体情绪。例如,基于卷积神经网络的TextCNN、基于循环神经网络的Bi-LSTM、Bi-LSTM-Attention模型以及预训练模型如BERT等,都是目前文本情感分析的流行模型。
然而,仅仅依赖文本信息很难捕捉到情绪的全部细微差别。实际上,除了语言,人们在交流时还使用了大量的非语言信息,如面部表情、声音语调和身体语言等,这些都为情感分析提供了丰富的上下文信息。例如,相同的句子在不同的情境和语调下可能表示完全不同的情感。因此,为了获得更为准确的情感分析结果,研究者们开始尝试将这些多模态信息融合到模型中。
多层LSTM网络编码的优势在于其出色的时间序列建模能力,能够有效地捕捉时序依赖关系,使其在语音识别、文本生成等任务中表现出色。此外,多层LSTM网络具备层级特征提取的能力,可以逐层提取数据的抽象特征,为模型提供丰富的表示。其处理长程依赖性的能力也使其在自然语言处理和时间序列预测等领域广受欢迎。并且,多层LSTM网络通常对数据中的噪声和变化具有鲁棒性,适用于实际复杂环境。但是多层LSTM网络编码在处理多模态数据时需要在训练期间手动设置层数,不能同时适用于不同数据集或任务,导致子optimal的模型性能,其次,多层LSTM网络难以捕捉不同模态之间的内在关系,导致模型无法有效地对模态之间的差异性进行建模,进而导致模型性能下降,而采用简单的模态间对比学习,这种方法虽然可以强调不同模态之间的关系,但可能忽略了每个模态内部数据的潜力,无法充分挖掘每个模态的信息。因此,虽然模态间的关系被强调,但模态内部的信息可能被忽略,导致模型性能的损失。
发明内容
为了解决背景技术中存在的问题,本发明一种基于多模态大数据的互联网短视频情绪识别方法,通过动态自适应的多层双向LSTM网络来提升模型捕捉时序的依赖关系能力;使用模态间与模态内的对比学习方式进行互补,防止单纯使用模态间对比学习忽略了每个模态中的数据潜力,而导致的特征表示退化;此外使用局部信息和全局信息,鼓励全局表示和输入的每个局部区域之间互相学习,弥补全局最大化模态间对比学习带来的副作用,提高情绪识别的准确率。
为了达到上述技术目的,本发明提供一种基于多模态大数据的互联网短视频情绪识别方法,包括:
S1:获取原始情绪样本数据集,所述原始情绪样本包括:原始视频的视频帧序列、原始视频对应的原始文本、原始视频对应的原始音频序列和原始视频对应的情绪类别标签;
S2:将原始情绪样本数据集作为训练集对短视频情绪识别模型进行训练,利用训练好的短视频情绪识别模型识别出待测情绪样本数据的情绪类别;其中,所述短视频情绪识别模型包括:特征提取模块、动态自适应的多层双向LSTM网络编码模块、bert模型、双编码器和分类器;
对短视频情绪识别模型进行训练包括:
S101:利用特征提取模块对原始视频的原始文本、原始音频序列和原始视频序列进行特征提取得到原始文本特征向量、原始音频特征向量和原始视频特征向量;
S102:将原始文本特征向量、原始音频特征向量和原始视频特征向量输入动态自适应的多层双向LSTM网络编码模块进行编码,得到原始文本全局特征和原始文本局部特征、原始音频全局特征和原始音频局部特征、以及原始视频全局特征和原始视频局部特征;
S103:根据原始视频的原始音频全局特征和原始文本全局特征构建模态间对比学习损失函数CML;
S104:根据原始视频的原始音频局部特征和原始视频局部特征构建模态内对比学习损失函数IML;
S105:根据原始视频的原始音频全局特征和原始音频局部特征、原始文本全局特征和原始文本局部特征、以及原始视频全局特征和原始视频局部特征构建局部与全局对比学习损失函数LGL;
S106:将原始文本局部特征和原始音频局部特征进行拼接得到文本音频对比特征;将文本音频对比特征输入bert模型提取文本-音频联合特征向量;将文本-音频联合特征向量和原始视频局部特征输入双编码器进行联合编码得到综合融合特征;
S107:将综合融合特征输入分类器,预测原始情绪样本的情绪分类结果,根据原始情绪样本的情绪类别预测结果与原始情绪样本的情绪类别标签构建分类损失函数CEL,对损失函数CML、IML、LGL和CEL进行加权平均得到情绪识别模型的损失函数,对情绪识别模型的参数进行更新。
优选地,所述利用特征提取模块对原始视频的原始文本、原始音频序列和原始视频序列进行特征提取包括:
S1011:采用CLIP文本编码器对原始视频的原始文本进行编码,得到原始文本特征向量;
S1012:将原始视频的原始音频序列进行傅里叶变化,利用librosa库选取80个滤波器组,每隔16帧音频选择一帧进行时间窗口串联,得到梅尔语谱图作为原始音频特征向量;
S1013:利用CLIP视觉编码器对原始视频的原始视频序列进行编码,得到原始视频特征向量。
优选地,所述将原始文本特征向量、原始音频特征向量和原始视频特征向量输入动态自适应的多层双向LSTM网络编码模块进行编码包括:
S1021:设定一个初始最大层数N,计算双向LSTM网络的隐藏层层数:n=1+(N-1)*sigmoid(k1),n∈[1,N]
其中,n表示双向LSTM网络的隐藏层层数,sigmoid表示激活函数,k1表示自适应调节参数;
S102:构建前向LSTM网络隐藏层的权重参数向量 表示前向LSTM网络第i个隐藏层的权重参数;
S103:构建后向LSTM网络隐藏层的权重参数向量 为后向LSTM网络第i个隐藏层的权重参数;
S104:根据双向LSTM网络的权重参数向量k2和k3,计算原始文本全局特征和原始文本局部特征、原始音频全局特征和原始音频局部特征、以及原始视频全局特征和原始视频局部特征;
其中,m∈{1,2,3},当m=1时,表示原始文本特征向量中第t个元素在双向LSTM网络的第i个隐藏层的隐层向量;/>表示原始文本特征向量中第t个元素在前向LSTM网络的第i个隐藏层的编码信息;/>表示原始文本特征向量中第t个元素在后向LSTM网络的第i个隐藏层的编码信息;hm表示原始文本局部特征;lenm表示原始文本特征向量中元素的数量;clsm表示原始文本全局特征;同理当m=2时,计算得到原始音频全局特征和原始音频局部特征;当m=3时,计算得到原始视频全局特征和原始视频局部特征。
优选地,所述构建模态间对比学习损失函数CML包括:
其中,LCML表示模态间对比学习损失函数,M表示当前批次训练样本的数量,D表示历史所有批次训练样本的数量,ui表示当前批次第i个训练样本的原始音频全局特征,vi表示当前批次第i个训练样本的原始文本全局特征;uj表示当前批次第j个训练样本的原始音频全局特征;vk表示当前批次第k个训练样本的原始文本全局特征;vl表示历史所有批次中第l个训练样本的原始文本全局特征。
优选地,所述构建模态内对比学习损失函数包括:
S1041:将原始视频的原始视频局部特征平均分成x个视频局部特征序列片段将原始视频的原始音频局部特征平均分成x个音频局部特征序列片段/> 表示第i个视频局部特征序列片段,/>表示第i个音频局部特征序列片段;
S1042:将视频局部特征序列片段分别输入大小为3、4和5的卷积核进行特征处理得到第一视频中间特征、第二视频中间特征和第三视频中间特征;将第一视频中间特征、第二视频中间特征和第三视频中间特征分别进行最大池化处理得到第一视频中间子特征、第二视频中间子特征和第三视频中间子特征;将第一视频中间子特征、第二视频中间子特征和第三视频中间子特征拼接得到视频中间综合特征;
S1043:将音频局部特征序列片段分别输入大小为3、4和5的卷积核进行特征处理得到第一音频中间特征、第二音频中间特征和第三音频中间特征;将第一音频中间特征、第二音频中间特征和第三音频中间特征分别进行最大池化处理得到第一音频中间子特征、第二音频中间子特征和第三音频中间子特征;将第一音频中间子特征、第二音频中间子特征和第三音频中间子特征拼接得到音频中间综合特征;
S1043:根据视频中间综合特征和音频中间综合特征构建模态内对比学习损失函数IML为:
其中,LIML表示模态内对比学习损失函数,τ表示温度系数,当m′=1时,表示第i个视频局部特征序列片段对应的视频中间综合特征;当m′=2时,/>表示第i个音频局部特征序列片段对应的音频中间综合特征。
优选地,所述构建局部与全局对比学习损失函数包括:
其中,LLGL表示局部与全局对比学习损失函数,g()表示指数加权移动平均函数,M表示当前批次训练样本的数量,D表示历史所有批次训练样本的数量;当m′=1时,表示当前批次第i个训练样本的原始文本全局特征,/>表示当前批次第i个训练样本的原始文本局部特征;/>表示当前批次第j个训练样本的原始文本全局特征;/>表示当前批次第k个训练样本的原始文本局部特征;/>表示历史所有批次中第d个训练样本的原始文本全局特征;/>表示历史所有批次中第l个训练样本的原始文本局部特征;当m′=2时,/>表示当前批次第i个训练样本的原始音频全局特征,/>表示当前批次第i个训练样本的原始音频局部特征;/>表示当前批次第j个训练样本的原始音频全局特征;/>表示当前批次第k个训练样本的原始音频局部特征;/>表示历史所有批次中第d个训练样本的原始音频全局特征;表示历史所有批次中第l个训练样本的原始音频局部特征,当m′=3时,/>表示当前批次第i个训练样本的原始视频全局特征,/>表示当前批次第i个训练样本的原始视频局部特征;/>表示当前批次第j个训练样本的原始视频全局特征;/>表示当前批次第k个训练样本的原始视频局部特征;/>表示历史所有批次中第d个训练样本的原始视频全局特征;/>表示历史所有批次中第l个训练样本的原始视频局部特。
优选地,所述将文本-音频联合特征向量和原始视频局部特征输入双编码器进行联合编码得到综合融合特征包括:
所述双编码器包括:第一编码器和第二编码器,所述第一编码器由B个多头注意力层依次连接组成,所述第二编码器由B个多头注意力层依次连接组成;
S1061:将文本-音频联合特征向量输入第一编码器进行编码,在第一编码器中每个多头注意力层的输出作为下一个多头注意力层的输入;
S1062:将原始视频局部特征输入第二编码器进行编码,在第二编码器的第i个多头注意力层中,将第二编码器第i-1个多头注意力层的输出作为第二编码器第i个多头注意力层Q矩阵,将第一编码器的第i-1个多头注意力层的输出作为第二编码器第i个多头注意力层K矩阵和V矩阵;
S1063:将第一编码器的输出特征作为文本-音频深度融合特征,将第二编码器的输出特征作为视频深度融合特征;
将文本-音频深度融合特征和视频深度融合特征分别进行最大池化再进行拼接得到综合融合特征。
本发明至少具有以下有益效果
本发明通过动态自适应的多层双向LSTM网络来提升模型捕捉时序的依赖关系能力,使其能够同时应用于不容的数据集或任务提高模型的鲁棒性;同时本发明根据原始视频的原始文本全局特征和原始音频全局特征构建模态间对比学习损失函数CML,根据原始视频的原始视频局部特征和原始音频局部特征构建模态内对比学习损失函数IML,使用模态间与模态内的对比学习方式进行互补,防止单纯使用模态间对比学习忽略了每个模态中的数据潜力,而导致的特征表示退化;根据原始视频的原始音频全局特征和原始音频局部特征、原始文本全局特征和原始文本局部特征、以及原始视频全局特征和原始视频局部特征构建局部与全局对比学习损失函数,鼓励全局表示和输入的每个局部区域之间互相学习,弥补全局最大化模态间对比学习带来的副作用,提高情绪识别的准确率。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
请参阅图1,本发明提供一种基于多模态大数据的互联网短视频情绪识别方法,包括:
S1:获取原始情绪样本数据集,所述原始情绪样本包括:原始视频的视频帧序列、原始视频对应的原始文本、原始视频对应的原始音频序列和原始视频对应的情绪类别标签;
优选地,在本实施例中通过社交平台提供的API接口获取短视频数据,对短视频进行处理提取出视频中的文本信息(台词)、音频信息、视频帧序列组成一个原始情绪样本,对原始情绪样本打上情绪类别标签,完成训练集的构建。由上世纪末期心理学领域的研究者提出,一般包含几种通用的基本情绪类别,如:中性,开心,伤心,惊讶,害怕,生气,厌恶等。
S2:将原始情绪样本数据集作为训练集对短视频情绪识别模型进行训练,利用训练好的短视频情绪识别模型识别出待测情绪样本数据的情绪类别;其中,所述短视频情绪识别模型包括:特征提取模块、动态自适应的多层双向LSTM网络编码模块、bert模型、双编码器和分类器;
在本实施例中待测情绪样本数据包括:待测视频的文本信息、音频序列和视频帧序列。
在本实施例中将训练集划分为多个训练批次,按批次的训练样本输入绪识别模型进行训练,每个批次中包含固定数量的训练样本。
所述对短视频情绪识别模型进行训练包括:
S101:利用特征提取模块对原始视频的原始文本、原始音频序列和原始视频序列进行特征提取得到原始文本特征向量、原始音频特征向量和原始视频特征向量;
S102:将原始文本特征向量、原始音频特征向量和原始视频特征向量输入动态自适应的多层双向LSTM网络编码模块进行编码,得到原始文本全局特征和原始文本局部特征、原始音频全局特征和原始音频局部特征、以及原始视频全局特征和原始视频局部特征;
S103:根据原始视频的原始音频全局特征和原始文本全局特征构建模态间对比学习损失函数CML;
S104:根据原始视频的原始音频局部特征和原始视频局部特征构建模态内对比学习损失函数IML;
S105:根据原始视频的原始音频全局特征和原始音频局部特征、原始文本全局特征和原始文本局部特征、以及原始视频全局特征和原始视频局部特征构建局部与全局对比学习损失函数LGL;
S106:将原始文本局部特征和原始音频局部特征进行拼接得到文本音频对比特征;将文本音频对比特征输入bert模型提取文本-音频联合特征向量;将文本-音频联合特征向量和原始视频局部特征输入双编码器进行联合编码得到综合融合特征;
S107:将综合融合特征输入分类器,预测原始情绪样本的情绪分类结果,根据原始情绪样本的情绪类别预测结果与原始情绪样本的情绪类别标签构建分类损失函数CEL,对损失函数CML、IML、LGL和CEL进行加权平均得到情绪识别模型的损失函数,对情绪识别模型的参数进行更新,再本实施例中采用反向传播和梯度更新的方式对模型的参数进行更新。
优选地,所述利用特征提取模块对原始视频的原始文本、原始音频序列和原始视频序列进行特征提取包括:
S1011:采用CLIP文本编码器对原始视频的原始文本进行编码,得到原始文本特征向量;
S1012:将原始视频的原始音频序列进行傅里叶变化,利用librosa库选取80个滤波器组,每隔16帧音频选择一帧进行时间窗口串联,得到梅尔语谱图作为原始音频特征向量;
S1013:利用CLIP视觉编码器对原始视频的原始视频序列进行编码,得到原始视频特征向量。
优选地,所述将原始文本特征向量、原始音频特征向量和原始视频特征向量输入动态自适应的多层双向LSTM网络编码模块进行编码包括:
S1021:设定一个初始最大层数N,计算双向LSTM网络的隐藏层层数:n=1+(N-1)*sigmoid(k1),n∈[1,N]
其中,n表示双向LSTM网络的隐藏层层数,sigmoid表示激活函数,k1表示自适应调节参数;
S102:构建前向LSTM网络隐藏层的权重参数向量 表示前向LSTM网络第i个隐藏层的权重参数;
S103:构建后向LSTM网络隐藏层的权重参数向量 为后向LSTM网络第i个隐藏层的权重参数;
S104:根据双向LSTM网络的权重参数向量k2和k3,计算原始文本全局特征和原始文本局部特征、原始音频全局特征和原始音频局部特征、以及原始视频全局特征和原始视频局部特征;
其中,m∈{1,2,3},当m=1时,表示原始文本特征向量中第t个元素在双向LSTM网络的第i个隐藏层的隐层向量;/>表示原始文本特征向量中第t个元素在前向LSTM网络的第i个隐藏层的编码信息;/>表示原始文本特征向量中第t个元素在后向LSTM网络的第i个隐藏层的编码信息;hm表示原始文本局部特征;lenm表示原始文本特征向量中元素的数量;clsm表示原始文本全局特征;同理当m=2时,计算得到原始音频全局特征和原始音频局部特征;当m=3时,计算得到原始视频全局特征和原始视频局部特征。
优选地,所述构建模态间对比学习损失函数CML包括:
其中,LCML表示模态间对比学习损失函数,M表示当前批次训练样本的数量,D表示历史所有批次训练样本的数量,ui表示当前批次第i个训练样本的原始音频全局特征,vi表示当前批次第i个训练样本的原始文本全局特征;uj表示当前批次第j个训练样本的原始音频全局特征;vk表示当前批次第k个训练样本的原始文本全局特征;vl表示历史所有批次中第l个训练样本的原始文本全局特征。
优选地,所述构建模态内对比学习损失函数包括:
S1041:将原始视频的原始视频局部特征平均分成x个视频局部特征序列片段将原始视频的原始音频局部特征平均分成x个音频局部特征序列片段/> 表示第i个视频局部特征序列片段,/>表示第i个音频局部特征序列片段;
S1042:将视频局部特征序列片段分别输入大小为3、4和5的卷积核进行特征处理得到第一视频中间特征、第二视频中间特征和第三视频中间特征;将第一视频中间特征、第二视频中间特征和第三视频中间特征分别进行最大池化处理得到第一视频中间子特征、第二视频中间子特征和第三视频中间子特征;将第一视频中间子特征、第二视频中间子特征和第三视频中间子特征拼接得到视频中间综合特征;
S1043:将音频局部特征序列片段分别输入大小为3、4和5的卷积核进行特征处理得到第一音频中间特征、第二音频中间特征和第三音频中间特征;将第一音频中间特征、第二音频中间特征和第三音频中间特征分别进行最大池化处理得到第一音频中间子特征、第二音频中间子特征和第三音频中间子特征;将第一音频中间子特征、第二音频中间子特征和第三音频中间子特征拼接得到音频中间综合特征;
S1043:根据视频中间综合特征和音频中间综合特征构建模态内对比学习损失函数IML为:
其中,LIML表示模态内对比学习损失函数,τ表示温度系数,当m′=1时,表示第i个视频局部特征序列片段对应的视频中间综合特征;当m′=2时,/>表示第i个音频局部特征序列片段对应的音频中间综合特征。
优选地,所述构建局部与全局对比学习损失函数包括:
其中,LLGL表示局部与全局对比学习损失函数,g()表示指数加权移动平均函数,M表示当前批次训练样本的数量,D表示历史所有批次训练样本的数量;当m′=1时,表示当前批次第i个训练样本的原始文本全局特征,/>表示当前批次第i个训练样本的原始文本局部特征;/>表示当前批次第j个训练样本的原始文本全局特征;/>表示当前批次第k个训练样本的原始文本局部特征;/>表示历史所有批次中第d个训练样本的原始文本全局特征;/>表示历史所有批次中第l个训练样本的原始文本局部特征;当m′=2时,/>表示当前批次第i个训练样本的原始音频全局特征,/>表示当前批次第i个训练样本的原始音频局部特征;/>表示当前批次第j个训练样本的原始音频全局特征;/>表示当前批次第k个训练样本的原始音频局部特征;/>表示历史所有批次中第d个训练样本的原始音频全局特征;表示历史所有批次中第l个训练样本的原始音频局部特征,当m′=3时,/>表示当前批次第i个训练样本的原始视频全局特征,/>表示当前批次第i个训练样本的原始视频局部特征;/>表示当前批次第j个训练样本的原始视频全局特征;/>表示当前批次第k个训练样本的原始视频局部特征;/>表示历史所有批次中第d个训练样本的原始视频全局特征;/>表示历史所有批次中第l个训练样本的原始视频局部特。
优选地,所述将文本-音频联合特征向量和原始视频局部特征输入双编码器进行联合编码得到综合融合特征包括:
所述双编码器包括:第一编码器和第二编码器,所述第一编码器由B个多头注意力层依次连接组成,所述第二编码器由B个多头注意力层依次连接组成;
S1061:将文本-音频联合特征向量输入第一编码器进行编码,在第一编码器中每个多头注意力层的输出作为下一个多头注意力层的输入;
S1062:将原始视频局部特征输入第二编码器进行编码,在第二编码器的第i个多头注意力层中,将第二编码器第i-1个多头注意力层的输出作为第二编码器第i个多头注意力层Q矩阵,将第一编码器的第i-1个多头注意力层的输出作为第二编码器第i个多头注意力层K矩阵和V矩阵;
S1063:将第一编码器的输出特征作为文本-音频深度融合特征,将第二编码器的输出特征作为视频深度融合特征;
将文本-音频深度融合特征和视频深度融合特征分别进行最大池化再进行拼接得到综合融合特征。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于多模态大数据的互联网短视频情绪识别方法,其特征在于,包括:
S1:获取原始情绪样本数据集,所述原始情绪样本包括:原始视频的视频帧序列、原始视频对应的原始文本、原始视频对应的原始音频序列和原始视频对应的情绪类别标签;
S2:将原始情绪样本数据集作为训练集对短视频情绪识别模型进行训练,利用训练好的短视频情绪识别模型识别出待测情绪样本数据的情绪类别;其中,所述短视频情绪识别模型包括:特征提取模块、动态自适应的多层双向LSTM网络编码模块、bert模型、双编码器和分类器;
对短视频情绪识别模型进行训练包括:
S101:利用特征提取模块对原始视频的原始文本、原始音频序列和原始视频序列进行特征提取得到原始文本特征向量、原始音频特征向量和原始视频特征向量;
S102:将原始文本特征向量、原始音频特征向量和原始视频特征向量输入动态自适应的多层双向LSTM网络编码模块进行编码,得到原始文本全局特征和原始文本局部特征、原始音频全局特征和原始音频局部特征、以及原始视频全局特征和原始视频局部特征;
S103:根据原始视频的原始音频全局特征和原始文本全局特征构建模态间对比学习损失函数CML;
S104:根据原始视频的原始音频局部特征和原始视频局部特征构建模态内对比学习损失函数IML;
S105:根据原始视频的原始音频全局特征和原始音频局部特征、原始文本全局特征和原始文本局部特征、以及原始视频全局特征和原始视频局部特征构建局部与全局对比学习损失函数LGL;
S106:将原始文本局部特征和原始音频局部特征进行拼接得到文本音频对比特征;将文本音频对比特征输入bert模型提取文本-音频联合特征向量;将文本-音频联合特征向量和原始视频局部特征输入双编码器进行联合编码得到综合融合特征;
S107:将综合融合特征输入分类器,预测原始情绪样本的情绪分类结果,根据原始情绪样本的情绪类别预测结果与原始情绪样本的情绪类别标签构建分类损失函数CEL,对损失函数CML、IML、LGL和CEL进行加权平均得到情绪识别模型的损失函数,对情绪识别模型的参数进行更新。
2.根据权利要求1所述的一种基于多模态大数据的互联网短视频情绪识别方法,其特征在于,所述利用特征提取模块对原始视频的原始文本、原始音频序列和原始视频序列进行特征提取包括:
S1011:采用CLIP文本编码器对原始视频的原始文本进行编码,得到原始文本特征向量;
S1012:将原始视频的原始音频序列进行傅里叶变化,利用librosa库选取80个滤波器组,每隔16帧音频选择一帧进行时间窗口串联,得到梅尔语谱图作为原始音频特征向量;
S1013:利用CLIP视觉编码器对原始视频的原始视频序列进行编码,得到原始视频特征向量。
3.根据权利要求1所述的一种基于多模态大数据的互联网短视频情绪识别方法,其特征在于,所述将原始文本特征向量、原始音频特征向量和原始视频特征向量输入动态自适应的多层双向LSTM网络编码模块进行编码包括:
S1021:设定一个初始最大层数N,计算双向LSTM网络的隐藏层层数:
n=1+(N-1)*sigmoid(k1),n∈[1,N]
其中,n表示双向LSTM网络的隐藏层层数,sigmoid表示激活函数,k1表示自适应调节参数;
S102:构建前向LSTM网络隐藏层的权重参数向量表示前向LSTM网络第i个隐藏层的权重参数;
S103:构建后向LSTM网络隐藏层的权重参数向量为后向LSTM网络第i个隐藏层的权重参数;
S104:根据双向LSTM网络的权重参数向量k2和k3,计算原始文本全局特征和原始文本局部特征、原始音频全局特征和原始音频局部特征、以及原始视频全局特征和原始视频局部特征;
其中,m∈{1,2,3},当m=1时,表示原始文本特征向量中第t个元素在双向LSTM网络的第i个隐藏层的隐层向量;/>表示原始文本特征向量中第t个元素在前向LSTM网络的第i个隐藏层的编码信息;/>表示原始文本特征向量中第t个元素在后向LSTM网络的第i个隐藏层的编码信息;hm表示原始文本局部特征;lenm表示原始文本特征向量中元素的数量;clsm表示原始文本全局特征;同理当m=2时,计算得到原始音频全局特征和原始音频局部特征;当m=3时,计算得到原始视频全局特征和原始视频局部特征。
4.根据权利要求3所述的一种基于多模态大数据的互联网短视频情绪识别方法,其特征在于,所述构建模态间对比学习损失函数CML包括:
其中,LCML表示模态间对比学习损失函数,M表示当前批次训练样本的数量,D表示历史所有批次训练样本的数量,ui表示当前批次第i个训练样本的原始音频全局特征,vi表示当前批次第i个训练样本的原始文本全局特征;uj表示当前批次第j个训练样本的原始音频全局特征;vk表示当前批次第k个训练样本的原始文本全局特征;vl表示历史所有批次中第l个训练样本的原始文本全局特征。
5.根据权利要求3所述的一种基于多模态大数据的互联网短视频情绪识别方法,其特征在于,所述构建模态内对比学习损失函数包括:
S1041:将原始视频的原始视频局部特征平均分成x个视频局部特征序列片段将原始视频的原始音频局部特征平均分成x个音频局部特征序列片段/>表示第i个视频局部特征序列片段,/>表示第i个音频局部特征序列片段;
S1042:将视频局部特征序列片段分别输入大小为3、4和5的卷积核进行特征处理得到第一视频中间特征、第二视频中间特征和第三视频中间特征;将第一视频中间特征、第二视频中间特征和第三视频中间特征分别进行最大池化处理得到第一视频中间子特征、第二视频中间子特征和第三视频中间子特征;将第一视频中间子特征、第二视频中间子特征和第三视频中间子特征拼接得到视频中间综合特征;
S1043:将音频局部特征序列片段分别输入大小为3、4和5的卷积核进行特征处理得到第一音频中间特征、第二音频中间特征和第三音频中间特征;将第一音频中间特征、第二音频中间特征和第三音频中间特征分别进行最大池化处理得到第一音频中间子特征、第二音频中间子特征和第三音频中间子特征;将第一音频中间子特征、第二音频中间子特征和第三音频中间子特征拼接得到音频中间综合特征;
S1043:根据视频中间综合特征和音频中间综合特征构建模态内对比学习损失函数IML为:
其中,LIML表示模态内对比学习损失函数,τ表示温度系数,当m′=1时,表示第i个视频局部特征序列片段对应的视频中间综合特征;当m′=2时,/>表示第i个音频局部特征序列片段对应的音频中间综合特征。
6.根据权利要求3所述的一种基于多模态大数据的互联网短视频情绪识别方法,其特征在于,所述构建局部与全局对比学习损失函数包括:
其中,LLGL表示局部与全局对比学习损失函数,g()表示指数加权移动平均函数,M表示当前批次训练样本的数量,D表示历史所有批次训练样本的数量;当m′=1时,表示当前批次第i个训练样本的原始文本全局特征,/>表示当前批次第i个训练样本的原始文本局部特征;/>表示当前批次第j个训练样本的原始文本全局特征;/>表示当前批次第k个训练样本的原始文本局部特征;/>表示历史所有批次中第d个训练样本的原始文本全局特征;/>表示历史所有批次中第l个训练样本的原始文本局部特征;当m′=2时,/>表示当前批次第i个训练样本的原始音频全局特征,/>表示当前批次第i个训练样本的原始音频局部特征;表示当前批次第j个训练样本的原始音频全局特征;/>表示当前批次第k个训练样本的原始音频局部特征;/>表示历史所有批次中第d个训练样本的原始音频全局特征;/>表示历史所有批次中第l个训练样本的原始音频局部特征,当m′=3时,/>表示当前批次第i个训练样本的原始视频全局特征,/>表示当前批次第i个训练样本的原始视频局部特征;/>表示当前批次第j个训练样本的原始视频全局特征;/>表示当前批次第k个训练样本的原始视频局部特征;/>表示历史所有批次中第d个训练样本的原始视频全局特征;/>表示历史所有批次中第l个训练样本的原始视频局部特征。
7.根据权利要求1所述的一种基于多模态大数据的互联网短视频情绪识别方法,其特征在于,所述将文本-音频联合特征向量和原始视频局部特征输入双编码器进行联合编码得到综合融合特征包括:
所述双编码器包括:第一编码器和第二编码器,所述第一编码器由B个多头注意力层依次连接组成,所述第二编码器由B个多头注意力层依次连接组成;
S1061:将文本-音频联合特征向量输入第一编码器进行编码,在第一编码器中每个多头注意力层的输出作为下一个多头注意力层的输入;
S1062:将原始视频局部特征输入第二编码器进行编码,在第二编码器的第i个多头注意力层中,将第二编码器第i-1个多头注意力层的输出作为第二编码器第i个多头注意力层Q矩阵,将第一编码器的第i-1个多头注意力层的输出作为第二编码器第i个多头注意力层K矩阵和V矩阵;
S1063:将第一编码器的输出特征作为文本-音频深度融合特征,将第二编码器的输出特征作为视频深度融合特征;
将文本-音频深度融合特征和视频深度融合特征分别进行最大池化再进行拼接得到综合融合特征。
CN202311411712.8A 2023-10-27 2023-10-27 一种基于多模态大数据的互联网短视频情绪识别方法 Pending CN117333924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311411712.8A CN117333924A (zh) 2023-10-27 2023-10-27 一种基于多模态大数据的互联网短视频情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311411712.8A CN117333924A (zh) 2023-10-27 2023-10-27 一种基于多模态大数据的互联网短视频情绪识别方法

Publications (1)

Publication Number Publication Date
CN117333924A true CN117333924A (zh) 2024-01-02

Family

ID=89293109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311411712.8A Pending CN117333924A (zh) 2023-10-27 2023-10-27 一种基于多模态大数据的互联网短视频情绪识别方法

Country Status (1)

Country Link
CN (1) CN117333924A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668285A (zh) * 2024-01-31 2024-03-08 合肥师范学院 一种基于声学特征的音乐情绪匹配方法
CN117876941A (zh) * 2024-03-08 2024-04-12 杭州阿里云飞天信息技术有限公司 目标多模态模型系统及构建方法、视频处理模型训练方法、视频处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668285A (zh) * 2024-01-31 2024-03-08 合肥师范学院 一种基于声学特征的音乐情绪匹配方法
CN117668285B (zh) * 2024-01-31 2024-04-09 合肥师范学院 一种基于声学特征的音乐情绪匹配方法
CN117876941A (zh) * 2024-03-08 2024-04-12 杭州阿里云飞天信息技术有限公司 目标多模态模型系统及构建方法、视频处理模型训练方法、视频处理方法

Similar Documents

Publication Publication Date Title
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
WO2021104099A1 (zh) 一种基于情景感知的多模态抑郁症检测方法和系统
Shou et al. Conversational emotion recognition studies based on graph convolutional neural networks and a dependent syntactic analysis
CN112036154B (zh) 基于问诊对话的电子病历生成方法、装置和计算机设备
CN117333924A (zh) 一种基于多模态大数据的互联网短视频情绪识别方法
CN112329474B (zh) 融合注意力的方面级用户评论文本情感分析方法及系统
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN109460737A (zh) 一种基于增强式残差神经网络的多模态语音情感识别方法
CN111783474A (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN109597493B (zh) 一种表情推荐方法及装置
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN114021524B (zh) 一种情感识别方法、装置、设备及可读存储介质
CN108875021A (zh) 一种基于区域cnn-lstm的情感分析方法
CN112183106B (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
Huijuan et al. Coarse-to-fine speech emotion recognition based on multi-task learning
CN110175588B (zh) 一种基于元学习的少样本面部表情识别方法及系统
CN115171176A (zh) 对象情绪的分析方法、装置和电子设备
CN113127604B (zh) 基于评论文本的细粒度物品推荐方法及系统
Wu et al. Estimating the uncertainty in emotion class labels with utterance-specific Dirichlet priors
Lee Deep structured learning: architectures and applications
CN113453065A (zh) 一种基于深度学习的视频分段方法、系统、终端及介质
CN111680132B (zh) 一种用于互联网文本信息的噪声过滤和自动分类方法
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination