CN117333924A

CN117333924A - 一种基于多模态大数据的互联网短视频情绪识别方法

Info

Publication number: CN117333924A
Application number: CN202311411712.8A
Authority: CN
Inventors: 王进; 向严; 邓龙行; 刘彬; 吴思远
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-02

Abstract

本发明涉及一种基于多模态大数据的互联网短视频情绪识别方法，包括：利用短视频中的文本、音频和视频帧信息进行情绪识别，具体包括将文本，音频，视频帧分别编码；使用动态自适应的多层双向LSTM网络融合模态信息；原始音频信息和原始文本信息进行模态间对比学习；原始音频信息和原始视频信息进行模态内部对比学习；原始音频信息、原始文本信息和原始视频信息进行局部与全局的对比学习；利用bert模型获得视频与音频的联合信息；对联合特征向量与文本特征向量采用双编码器进行联合编码，本发明通过动态自适应调整双向LSTM的层数来增强模型的特征表达能力，通过多角度下的对比学习增强特征的表达能力，从而提高了情绪识别任务的能力。

Description

一种基于多模态大数据的互联网短视频情绪识别方法

技术领域

本发明属于情绪识别领域，特别是涉及一种基于多模态大数据的互联网短视频情绪识别方法。

背景技术

随着科技和互联网的快速发展，情感分析或情绪识别在众多领域内已经变得至关重要。从商业应用的角度来看，例如客户反馈的情绪分析、品牌声誉管理到医疗健康中的心理健康监测，准确地识别和分析个体的情绪状态为我们提供了深入了解用户需求和提供个性化服务的可能性。

传统的情感分析技术主要基于文本数据，如用户评论、社交媒体帖子等。这些技术大多数是基于特定的关键字或短语进行分析，然后使用统计或机器学习方法来确定文本中的总体情绪。例如，基于卷积神经网络的TextCNN、基于循环神经网络的Bi-LSTM、Bi-LSTM-Attention模型以及预训练模型如BERT等，都是目前文本情感分析的流行模型。

然而，仅仅依赖文本信息很难捕捉到情绪的全部细微差别。实际上，除了语言，人们在交流时还使用了大量的非语言信息，如面部表情、声音语调和身体语言等，这些都为情感分析提供了丰富的上下文信息。例如，相同的句子在不同的情境和语调下可能表示完全不同的情感。因此，为了获得更为准确的情感分析结果，研究者们开始尝试将这些多模态信息融合到模型中。

多层LSTM网络编码的优势在于其出色的时间序列建模能力，能够有效地捕捉时序依赖关系，使其在语音识别、文本生成等任务中表现出色。此外，多层LSTM网络具备层级特征提取的能力，可以逐层提取数据的抽象特征，为模型提供丰富的表示。其处理长程依赖性的能力也使其在自然语言处理和时间序列预测等领域广受欢迎。并且，多层LSTM网络通常对数据中的噪声和变化具有鲁棒性，适用于实际复杂环境。但是多层LSTM网络编码在处理多模态数据时需要在训练期间手动设置层数，不能同时适用于不同数据集或任务，导致子optimal的模型性能，其次，多层LSTM网络难以捕捉不同模态之间的内在关系，导致模型无法有效地对模态之间的差异性进行建模，进而导致模型性能下降，而采用简单的模态间对比学习，这种方法虽然可以强调不同模态之间的关系，但可能忽略了每个模态内部数据的潜力，无法充分挖掘每个模态的信息。因此，虽然模态间的关系被强调，但模态内部的信息可能被忽略，导致模型性能的损失。

发明内容

为了解决背景技术中存在的问题，本发明一种基于多模态大数据的互联网短视频情绪识别方法，通过动态自适应的多层双向LSTM网络来提升模型捕捉时序的依赖关系能力；使用模态间与模态内的对比学习方式进行互补，防止单纯使用模态间对比学习忽略了每个模态中的数据潜力，而导致的特征表示退化；此外使用局部信息和全局信息，鼓励全局表示和输入的每个局部区域之间互相学习，弥补全局最大化模态间对比学习带来的副作用，提高情绪识别的准确率。

为了达到上述技术目的，本发明提供一种基于多模态大数据的互联网短视频情绪识别方法，包括：

S1：获取原始情绪样本数据集，所述原始情绪样本包括：原始视频的视频帧序列、原始视频对应的原始文本、原始视频对应的原始音频序列和原始视频对应的情绪类别标签；

S2：将原始情绪样本数据集作为训练集对短视频情绪识别模型进行训练，利用训练好的短视频情绪识别模型识别出待测情绪样本数据的情绪类别；其中，所述短视频情绪识别模型包括：特征提取模块、动态自适应的多层双向LSTM网络编码模块、bert模型、双编码器和分类器；

对短视频情绪识别模型进行训练包括：

S101：利用特征提取模块对原始视频的原始文本、原始音频序列和原始视频序列进行特征提取得到原始文本特征向量、原始音频特征向量和原始视频特征向量；

S102：将原始文本特征向量、原始音频特征向量和原始视频特征向量输入动态自适应的多层双向LSTM网络编码模块进行编码，得到原始文本全局特征和原始文本局部特征、原始音频全局特征和原始音频局部特征、以及原始视频全局特征和原始视频局部特征；

S103：根据原始视频的原始音频全局特征和原始文本全局特征构建模态间对比学习损失函数CML；

S104：根据原始视频的原始音频局部特征和原始视频局部特征构建模态内对比学习损失函数IML；

S105：根据原始视频的原始音频全局特征和原始音频局部特征、原始文本全局特征和原始文本局部特征、以及原始视频全局特征和原始视频局部特征构建局部与全局对比学习损失函数LGL；

S106：将原始文本局部特征和原始音频局部特征进行拼接得到文本音频对比特征；将文本音频对比特征输入bert模型提取文本-音频联合特征向量；将文本-音频联合特征向量和原始视频局部特征输入双编码器进行联合编码得到综合融合特征；

S107：将综合融合特征输入分类器，预测原始情绪样本的情绪分类结果，根据原始情绪样本的情绪类别预测结果与原始情绪样本的情绪类别标签构建分类损失函数CEL，对损失函数CML、IML、LGL和CEL进行加权平均得到情绪识别模型的损失函数，对情绪识别模型的参数进行更新。

优选地，所述利用特征提取模块对原始视频的原始文本、原始音频序列和原始视频序列进行特征提取包括：

S1011：采用CLIP文本编码器对原始视频的原始文本进行编码，得到原始文本特征向量；

S1012：将原始视频的原始音频序列进行傅里叶变化，利用librosa库选取80个滤波器组，每隔16帧音频选择一帧进行时间窗口串联，得到梅尔语谱图作为原始音频特征向量；

S1013：利用CLIP视觉编码器对原始视频的原始视频序列进行编码，得到原始视频特征向量。

优选地，所述将原始文本特征向量、原始音频特征向量和原始视频特征向量输入动态自适应的多层双向LSTM网络编码模块进行编码包括：

S1021：设定一个初始最大层数N，计算双向LSTM网络的隐藏层层数：n＝1+(N-1)*sigmoid(k1),n∈[1,N]

其中，n表示双向LSTM网络的隐藏层层数，sigmoid表示激活函数，k1表示自适应调节参数；

S102：构建前向LSTM网络隐藏层的权重参数向量表示前向LSTM网络第i个隐藏层的权重参数；

S103：构建后向LSTM网络隐藏层的权重参数向量为后向LSTM网络第i个隐藏层的权重参数；

S104：根据双向LSTM网络的权重参数向量k2和k3，计算原始文本全局特征和原始文本局部特征、原始音频全局特征和原始音频局部特征、以及原始视频全局特征和原始视频局部特征；

其中，m∈{1,2,3}，当m＝1时，表示原始文本特征向量中第t个元素在双向LSTM网络的第i个隐藏层的隐层向量；/>表示原始文本特征向量中第t个元素在前向LSTM网络的第i个隐藏层的编码信息；/>表示原始文本特征向量中第t个元素在后向LSTM网络的第i个隐藏层的编码信息；h^m表示原始文本局部特征；len^m表示原始文本特征向量中元素的数量；cls^m表示原始文本全局特征；同理当m＝2时，计算得到原始音频全局特征和原始音频局部特征；当m＝3时，计算得到原始视频全局特征和原始视频局部特征。

优选地，所述构建模态间对比学习损失函数CML包括：

其中，L_CML表示模态间对比学习损失函数，M表示当前批次训练样本的数量，D表示历史所有批次训练样本的数量，u_i表示当前批次第i个训练样本的原始音频全局特征，v_i表示当前批次第i个训练样本的原始文本全局特征；u_j表示当前批次第j个训练样本的原始音频全局特征；v_k表示当前批次第k个训练样本的原始文本全局特征；v_l表示历史所有批次中第l个训练样本的原始文本全局特征。

优选地，所述构建模态内对比学习损失函数包括：

S1041：将原始视频的原始视频局部特征平均分成x个视频局部特征序列片段将原始视频的原始音频局部特征平均分成x个音频局部特征序列片段/> 表示第i个视频局部特征序列片段，/>表示第i个音频局部特征序列片段；

S1042：将视频局部特征序列片段分别输入大小为3、4和5的卷积核进行特征处理得到第一视频中间特征、第二视频中间特征和第三视频中间特征；将第一视频中间特征、第二视频中间特征和第三视频中间特征分别进行最大池化处理得到第一视频中间子特征、第二视频中间子特征和第三视频中间子特征；将第一视频中间子特征、第二视频中间子特征和第三视频中间子特征拼接得到视频中间综合特征；

S1043：将音频局部特征序列片段分别输入大小为3、4和5的卷积核进行特征处理得到第一音频中间特征、第二音频中间特征和第三音频中间特征；将第一音频中间特征、第二音频中间特征和第三音频中间特征分别进行最大池化处理得到第一音频中间子特征、第二音频中间子特征和第三音频中间子特征；将第一音频中间子特征、第二音频中间子特征和第三音频中间子特征拼接得到音频中间综合特征；

S1043：根据视频中间综合特征和音频中间综合特征构建模态内对比学习损失函数IML为：

其中，L_IML表示模态内对比学习损失函数，τ表示温度系数，当m′＝1时，表示第i个视频局部特征序列片段对应的视频中间综合特征；当m′＝2时，/>表示第i个音频局部特征序列片段对应的音频中间综合特征。

优选地，所述构建局部与全局对比学习损失函数包括：

其中，L_LGL表示局部与全局对比学习损失函数，g()表示指数加权移动平均函数，M表示当前批次训练样本的数量，D表示历史所有批次训练样本的数量；当m′＝1时，表示当前批次第i个训练样本的原始文本全局特征，/>表示当前批次第i个训练样本的原始文本局部特征；/>表示当前批次第j个训练样本的原始文本全局特征；/>表示当前批次第k个训练样本的原始文本局部特征；/>表示历史所有批次中第d个训练样本的原始文本全局特征；/>表示历史所有批次中第l个训练样本的原始文本局部特征；当m′＝2时，/>表示当前批次第i个训练样本的原始音频全局特征，/>表示当前批次第i个训练样本的原始音频局部特征；/>表示当前批次第j个训练样本的原始音频全局特征；/>表示当前批次第k个训练样本的原始音频局部特征；/>表示历史所有批次中第d个训练样本的原始音频全局特征；表示历史所有批次中第l个训练样本的原始音频局部特征，当m′＝3时，/>表示当前批次第i个训练样本的原始视频全局特征，/>表示当前批次第i个训练样本的原始视频局部特征；/>表示当前批次第j个训练样本的原始视频全局特征；/>表示当前批次第k个训练样本的原始视频局部特征；/>表示历史所有批次中第d个训练样本的原始视频全局特征；/>表示历史所有批次中第l个训练样本的原始视频局部特。

优选地，所述将文本-音频联合特征向量和原始视频局部特征输入双编码器进行联合编码得到综合融合特征包括：

所述双编码器包括：第一编码器和第二编码器，所述第一编码器由B个多头注意力层依次连接组成，所述第二编码器由B个多头注意力层依次连接组成；

S1061：将文本-音频联合特征向量输入第一编码器进行编码，在第一编码器中每个多头注意力层的输出作为下一个多头注意力层的输入；

S1062：将原始视频局部特征输入第二编码器进行编码，在第二编码器的第i个多头注意力层中，将第二编码器第i-1个多头注意力层的输出作为第二编码器第i个多头注意力层Q矩阵，将第一编码器的第i-1个多头注意力层的输出作为第二编码器第i个多头注意力层K矩阵和V矩阵；

S1063：将第一编码器的输出特征作为文本-音频深度融合特征，将第二编码器的输出特征作为视频深度融合特征；

将文本-音频深度融合特征和视频深度融合特征分别进行最大池化再进行拼接得到综合融合特征。

本发明至少具有以下有益效果

本发明通过动态自适应的多层双向LSTM网络来提升模型捕捉时序的依赖关系能力，使其能够同时应用于不容的数据集或任务提高模型的鲁棒性；同时本发明根据原始视频的原始文本全局特征和原始音频全局特征构建模态间对比学习损失函数CML，根据原始视频的原始视频局部特征和原始音频局部特征构建模态内对比学习损失函数IML，使用模态间与模态内的对比学习方式进行互补，防止单纯使用模态间对比学习忽略了每个模态中的数据潜力，而导致的特征表示退化；根据原始视频的原始音频全局特征和原始音频局部特征、原始文本全局特征和原始文本局部特征、以及原始视频全局特征和原始视频局部特征构建局部与全局对比学习损失函数，鼓励全局表示和输入的每个局部区域之间互相学习，弥补全局最大化模态间对比学习带来的副作用，提高情绪识别的准确率。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1，本发明提供一种基于多模态大数据的互联网短视频情绪识别方法，包括：

优选地，在本实施例中通过社交平台提供的API接口获取短视频数据，对短视频进行处理提取出视频中的文本信息(台词)、音频信息、视频帧序列组成一个原始情绪样本，对原始情绪样本打上情绪类别标签，完成训练集的构建。由上世纪末期心理学领域的研究者提出，一般包含几种通用的基本情绪类别，如：中性，开心，伤心，惊讶，害怕，生气，厌恶等。

在本实施例中待测情绪样本数据包括：待测视频的文本信息、音频序列和视频帧序列。

在本实施例中将训练集划分为多个训练批次，按批次的训练样本输入绪识别模型进行训练，每个批次中包含固定数量的训练样本。

所述对短视频情绪识别模型进行训练包括：

S107：将综合融合特征输入分类器，预测原始情绪样本的情绪分类结果，根据原始情绪样本的情绪类别预测结果与原始情绪样本的情绪类别标签构建分类损失函数CEL，对损失函数CML、IML、LGL和CEL进行加权平均得到情绪识别模型的损失函数，对情绪识别模型的参数进行更新，再本实施例中采用反向传播和梯度更新的方式对模型的参数进行更新。

优选地，所述构建模态间对比学习损失函数CML包括：

优选地，所述构建模态内对比学习损失函数包括：

优选地，所述构建局部与全局对比学习损失函数包括：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多模态大数据的互联网短视频情绪识别方法，其特征在于，包括：

对短视频情绪识别模型进行训练包括：

2.根据权利要求1所述的一种基于多模态大数据的互联网短视频情绪识别方法，其特征在于，所述利用特征提取模块对原始视频的原始文本、原始音频序列和原始视频序列进行特征提取包括：

3.根据权利要求1所述的一种基于多模态大数据的互联网短视频情绪识别方法，其特征在于，所述将原始文本特征向量、原始音频特征向量和原始视频特征向量输入动态自适应的多层双向LSTM网络编码模块进行编码包括：

S1021：设定一个初始最大层数N，计算双向LSTM网络的隐藏层层数：

n＝1+(N-1)*sigmoid(k1),n∈[1,N]

4.根据权利要求3所述的一种基于多模态大数据的互联网短视频情绪识别方法，其特征在于，所述构建模态间对比学习损失函数CML包括：

5.根据权利要求3所述的一种基于多模态大数据的互联网短视频情绪识别方法，其特征在于，所述构建模态内对比学习损失函数包括：

S1041：将原始视频的原始视频局部特征平均分成x个视频局部特征序列片段将原始视频的原始音频局部特征平均分成x个音频局部特征序列片段/>表示第i个视频局部特征序列片段，/>表示第i个音频局部特征序列片段；

6.根据权利要求3所述的一种基于多模态大数据的互联网短视频情绪识别方法，其特征在于，所述构建局部与全局对比学习损失函数包括：

其中，L_LGL表示局部与全局对比学习损失函数，g()表示指数加权移动平均函数，M表示当前批次训练样本的数量，D表示历史所有批次训练样本的数量；当m′＝1时，表示当前批次第i个训练样本的原始文本全局特征，/>表示当前批次第i个训练样本的原始文本局部特征；/>表示当前批次第j个训练样本的原始文本全局特征；/>表示当前批次第k个训练样本的原始文本局部特征；/>表示历史所有批次中第d个训练样本的原始文本全局特征；/>表示历史所有批次中第l个训练样本的原始文本局部特征；当m′＝2时，/>表示当前批次第i个训练样本的原始音频全局特征，/>表示当前批次第i个训练样本的原始音频局部特征；表示当前批次第j个训练样本的原始音频全局特征；/>表示当前批次第k个训练样本的原始音频局部特征；/>表示历史所有批次中第d个训练样本的原始音频全局特征；/>表示历史所有批次中第l个训练样本的原始音频局部特征，当m′＝3时，/>表示当前批次第i个训练样本的原始视频全局特征，/>表示当前批次第i个训练样本的原始视频局部特征；/>表示当前批次第j个训练样本的原始视频全局特征；/>表示当前批次第k个训练样本的原始视频局部特征；/>表示历史所有批次中第d个训练样本的原始视频全局特征；/>表示历史所有批次中第l个训练样本的原始视频局部特征。

7.根据权利要求1所述的一种基于多模态大数据的互联网短视频情绪识别方法，其特征在于，所述将文本-音频联合特征向量和原始视频局部特征输入双编码器进行联合编码得到综合融合特征包括：