CN114417097A

CN114417097A - 一种基于时间卷积与自注意力的情感预测方法及系统

Info

Publication number: CN114417097A
Application number: CN202210086699.2A
Authority: CN
Inventors: 孙涛; 权志邦
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-04-29

Abstract

本发明提供了一种基于时间卷积与自注意力的情感预测方法及系统，包括：获取文本模态数据、音频模态数据以及视频模态数据；利用预先训练好的自编码语言模型提取文本模态数据的文本特征向量；利用预先训练好的音频特征提取模型提取音频模态的音频特征向量；利用预先训练好的视频特征提取模型提取视频模态的视频特征向量；将文本特征向量、音频特征向量以及视频特征向量进行融合，得到最终的融合后的多模态特征向量。本发明将一种基于时间卷积与自注意力机制的多模态数据特征表示方法，旨在改进当前多模态数据特征表示效果，以更好的用于多模态情感分析。

Description

一种基于时间卷积与自注意力的情感预测方法及系统

技术领域

本发明属于多模态情感分析技术领域，具体涉及一种基于时间卷积与自注意力的情感预测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着近几年互联网技术的腾飞，用户们更多地以图文、视频等方式去分享自己的所见所闻。如何分析多模态数据中用户们表达的情感极性已经逐渐成为多模态情感分析(MSA)中新的研究热点。MSA不仅可以帮助政府了解民众情绪，还可以改善并优化个性化推荐方式，提升医疗保健服务质量，和智能教育辅导水平，其蕴含着巨大的社会价值，传统情感分析任务主要针对单一模态进行，例如对文本这一模态进行的分析。随着一系列Transformer等模型及其变体的提出，文本模态进行的情感分析已经取得较好进展，但其已经无法满足于目前的web2.0时代数据分析需求。与传统的情感分析任务不同，多模态情感分析利用多种信息源，包括语言特征(文本)和声学特征(音频)或者视觉特征(面部表情)中的两种及以上进行联合分析并最终进行情感的预测。

帮助多模态信息进行融合的一种方法是首先在特征级别实现模态交互，这种方式会将模态中的一些关键信息丢失在较大程度上会将冗余信息保留至融合阶段。另一种方法首先学习捕获这些期望属性的潜在模态表示，然后合并不同的信息集。现有的多模态信息融合方法要么将3种模态使用相同的神经网络进行特征提取，要么对非文本模态使用单向长短记忆网络进行处理，这会使得话语中比较靠前的重要信息关注程度不够，无法将全局信息更好的捕获,进而导致预测结果不佳。

发明内容

为了解决上述问题，本发明提出了一种基于时间卷积与自注意力的情感预测方法及系统，本发明提出了一个新的多模态情感分析框架MTCS。它为MSA任务学习模态互补性和相似性信息，并提供更好的表示用于融合，更好的把握说话者的情感极性。

根据一些实施例，本发明的第一方案提供了一种基于时间卷积与自注意力的情感预测方法，采用如下技术方案：

一种基于时间卷积与自注意力的情感预测方法，包括：

获取文本模态数据、音频模态数据以及视频模态数据；

利用预先训练好的自编码语言模型提取文本模态数据的文本特征向量；

利用预先训练好的音频特征提取模型提取音频模态的音频特征向量；

利用预先训练好的视频特征提取模型提取视频模态的视频特征向量；

将文本特征向量、音频特征向量以及视频特征向量进行融合，得到最终的融合后的多模态特征向量，基于最终的融合后的多模态特征向量进行情感预测。

根据一些实施例，本发明的第二方案提供了一种基于时间卷积与自注意力的情感预测系统，采用如下技术方案：

一种基于时间卷积与自注意力的情感预测系统，包括：

数据获取模块，被配置为获取文本模态数据、音频模态数据以及视频模态数据；

文本特征提取模块，被配置为利用预先训练好的自编码语言模型提取文本模态数据的文本特征向量；

音频特征提取模块，被配置为利用预先训练好的音频特征提取模型提取音频模态的音频特征向量；

视频特征提取模块，被配置为利用预先训练好的视频特征提取模型提取视频模态的视频特征向量；

多模态融合模块，被配置为将文本特征向量、音频特征向量以及视频特征向量进行融合，得到最终的融合后的多模态特征向量，基于最终的融合后的多模态特征向量进行情感预测。

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种基于时间卷积与自注意力的情感预测方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种基于时间卷积与自注意力的情感预测方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明提出的MTCS基于时间卷积对非语言模态进行时序建模，同时引入位置编码使序列携带时间信息，更好的获得模态表示。然后使用多头自注意力对模态内相关信息进行捕获，更好的将模态蕴含的情感信息进行表示，同时避免冗余表征添加到最终表示中。在融合阶段我们使用了注意力使得对任务有用的信息被给予较大的权重，这将帮助我们改善最终预测结果。

本发明针对以往的模型在进行情感极性预测时，忽略了模态间的互补性和相似性信息，从而导致模态间的信息趋于一致的问题，通过MTCS融合模态的互补信息并最大限度的剔除冗余信息，并且根据不同的模态采取不同的策略，以获取各自的模态表示作为融合的输入。

本发明通过在两个公开的多模态数据集MOS，MOSEI上进行的大量实验表明，可以更好的关注到模态互补性信息和模态交互后的信息，与以往的强大基线模型相比具有明显优势。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例所述的一种基于时间卷积与自注意力的情感预测方法流程图；

图2是本发明实施例所述的一种基于时间卷积与自注意力的情感预测模型图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例提供了一种基于时间卷积与自注意力的情感预测方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明在此不做限制。本实施例中，该方法包括以下步骤：

步骤S1：获取文本模态数据、音频模态数据以及视频模态数据；

步骤S2：利用预先训练好的自编码语言模型提取文本模态数据的文本特征向量；

步骤S3：利用预先训练好的音频特征提取模型提取音频模态的音频特征向量；

步骤S4：利用预先训练好的视频特征提取模型提取视频模态的视频特征向量；

步骤S5：将文本特征向量、音频特征向量以及视频特征向量进行融合，得到最终的融合后的多模态特征向量，基于最终的融合后的多模态特征向量进行情感预测。

步骤S2中，所述利用预先训练好的自编码语言模型提取文本模态数据的文本特征向量，具体为：

利用预先训练好的自编码语言模型对文本模态数据进行特征提取；

得到高维语义的文本特征向量；

其中，选择自编码语言模型最后一层的第一个词向量f_t作为最终768维隐含状态中表征的平均表示，如下式，

这里U_t表示文本的初始序列，

表示自编码语言模型BERT预训练模型的超参数。

步骤S3中，所述音频特征提取模型为音频自注意力网络模型。

利用预先训练好的音频特征提取模型提取音频模态数据的音频特征向量，具体为：

使用音频时间卷积网络对音频模态数据进行预处理；

对预处理后的音频模态数据进行位置编码；得到音频序列；

对得到的音频序列使用预先训练好的音频自注意力网络模型提取音频特征向量。

步骤S4中，所述视频特征提取模型为视频自注意力网络模型。

所述利用预先训练好的视频特征提取模型提取视频模态数据的视频特征向量，具体为：

使用视频时间卷积网络对视频模态数据进行预处理；

对预处理后的视频模态数据进行位置编码；得到视频序列；

对得到的视频序列使用预先训练好的视频自注意力网络模型提取视频特征向量。

我们使用的数据集(MOSI/MOSEI)目前是CMU多模态数据SDK的一部分，可通过Github免费向科学界提供。为了进行公平的比较，我们利用了标准的低级功能，这些功能由各自的基准测试提供，并由最先进的方法使用。

具体地，在步骤S2中，针对文本模态通道：

对于语言特征，一段视频中的所有文本信息被手动摘录了下来。并且为了进行实验，每段文本跟随视频被切分成小片段。我们将该文本片段称为序列U_t＝{x₁,x₂…,x_n}。

我们使用WordPiess嵌入，每个序列的第一个token始终是一个特殊的分类token([CLS])。我们用两种方法来区分这些句子。首先，我们用一个特殊的token([SEP])将它们分开。其次，我们给每个记号添加一个学习嵌入，表明它是属于句子A，还是句子B。对于给定的token，其输入表示是通过对相应的token、段落和位置嵌入求和而构建的。提取的语言特征维度d_t对于MOSI和MOSEI均为768。然后将文本序列U_t＝{x₁,x₂…,x_n}，MOSI与MOSEI序列长度均为n＝50送入预训练模型BERT中以得到文本高维语义信息：

我们选择最后一层的第一个词向量f_t作为最终768维隐含状态中表征的平均表示。这里U_t表示文本的初始序列,

表示文本预训练BERT模型的超参数。

具体地，在步骤S3中，对于音频特征，包含从声学分析框架COVAREP提取的12Mel-frequency倒谱系数、音调、浊/清音分段特征、声门源参数，峰值斜率参数和最大离散商。所有提取的特征都与情绪和语调有关。提取的声学特征我们记为U_a＝{y₁,y₂…,y_n}，声学模态的序列长度对于MOSI数据集n＝50，对于MOSEI数据集n＝500。最终声学特征维度d_a对于MOSI是5，MOSEI是74。

将声学特征送入音频一维时间卷积层，得到有足够感知的模态特征记为

其中Conv1D(·)是音频一维时间卷积函数，k_a是模态a使用的卷积核的大小，U_a是音频模态的输入序列，d是公共维度，T_a表示音频模态的话语长度。

然后为了使音频序列具备时间信息，将位置嵌入(PE)括充到

这里的

目的是计算每个位置索引的嵌入。其中PE(·)代表位置嵌入函数，T_a表示音频模态的话语长度，d是公共维度。

之后对得到的序列执行自注意力，音频的自注意力模型具体为：

其中Q_a，K_a，V_a分别代表声学模态的Query，Key和Value向量，softmax(·)代表softmax函数，d_h代表模态的维度，T表示Transpose。Transformer计算多个这样的并行注意力，每个注意力的输出被称为头部。第i个头部的计算公式为：

这里

是计算第i个音频模态的head时Q_a的权重矩阵；

是计算第i个音频模态的head时K_a的权重矩阵；

是计算第i个音频模态的head时V_a的权重矩阵；用于将矩阵线性投影到特定空间中。这里的d_a是音频模态的维度，d_q是Query向量的维度，d_k是Key向量的维度，d_v是Value向量的维度，之后连接音频模态所有的head。

这里的

是拼接音频模态的head之后所乘的权重矩阵，n表示我们使用的自注意力head的个数，这里的n＝10，Concat(·)为拼接操作。

于是可以得到音频模态f_a的表征。

其中的

代表音频注意力所需的主要参数。

具体地，在步骤4中，对于视频(视觉)特征，MOSI和MOSEI都使用Facet来提取面部表情特征，包括基于面部动作编码系统(FACS)的面部动作单元和面部姿势。对于发声视频序列内的每个采样帧重复该过程。视觉特征我们记为U_v＝{z₁,z₂…,z_n}，视觉模态的序列长度对于MOSI数据集n＝50；对于MOSEI数据集n＝375。视觉特征维度d_v对于MOSI是20，MOSEI是35。

我们将视觉特征送入视频(视觉)一维时间卷积层，得到有足够感知的模态特征

其中Conv1D(·)是一维时间卷积函数，k_v是视频(视觉)模态使用的卷积核的大小，U_v是视频(视觉)模态的输入序列，d是公共维度，T_v表示视频(视觉)模态的话语长度。

然后为了使视频(视觉)序列具备时间信息，将位置嵌入(PE)括充到

这里的

目的是计算每个位置索引的嵌入。其中PE(·)代表位置嵌入函数，T_v表示视频(视觉)的话语长度，d是公共维度。

之后我们对得到的序列执行自注意力，视频(视觉)模态的注意力模型为：

其中Q_v，K_v，V_v分别代表视频(视觉)模态的Query，Key和Value向量，softmax(·)代表softmax函数，d_h代表模态的维度，T表示Transpose，同样的Transformer计算多个这样的并行注意力，每个注意力的输出被称为头部。第i个头部的计算公式为：

这里

是计算第i个视频(视觉)模态的head时Q_v的权重矩阵；

是计算第i个m模态的head时K_m的权重矩阵；

是计算第i个m模态的head时V_m的权重矩阵；用于将矩阵线性投影到特定空间中。这里的d_m是模态m的维度，d_q是Query向量的维度，d_k是Key向量的维度，

是Value向量的维度，其中m∈{a,v}。之后连接视频(视觉)模态所有的head.

这里的

是拼接视频(视觉)模态的head之后所乘的权重矩阵，n表示使用的自注意力head的个数，这里的n＝10，Concat(·)为拼接操作。

于是可以得到视频模态f_v的表征。

其中

代表视频(视觉)注意力所需的主要参数。值得注意的是，本实施例使用的视频模态特征提取器和音频模态特征提取器是不相同的。

具体地，在步骤5中，融合与预测：

在将这些模态投影到它们各自的表示形式之后，我们将它们融合成一个联合向量，用于下游预测。

我们设计了一个简单的融合机制，首先堆叠3种获得的模态表示。

f_s＝concat(f_t,f_a,f_v) (14)

之后执行自我注意(基于Transformer)，对于自注意力，我们设置了Q＝K＝V＝f_s。

这里的θ^att＝{W^Q,W^K,W^V,W^O}表示使用的注意力参数，f_s为上一步堆叠的文本、音频、视频(视觉)模态表示。

然后使用Relu激活函数转换维度得到一维向量以进行预测任务。

这里

表示权重矩阵，

代表转置后的矩阵，ReLU(·)是Relu激活函数，

代表元素乘，

代表偏置量。

最后使用

作为最终的表示并用于预测任务：

这里

代表权重矩阵，

表示转置后的矩阵，ReLU(·)是Relu激活函数，

代表元素乘，

代表偏置量。

实验与验证

为了充分验证我们的模型(MTCS)的性能，我们在上述两个数据集MOSI和MOSEI上进行了大量实验。我们与以下多模态情感分析中的基线进行了比较，每个模型给出了简单描述以帮助读者快速了解。

EF-LSTM：早期融合LSTM首先串联三个模态的初始输入，然后使用LSTM捕获序列中的远程依赖关系。

TFN：张量融合网络(TFN)计算多维张量(基于外积)以捕获单模、双模和三模交互信息。

LMF：低阶多模态融合(LMF)是对TFN的改进，LFN使用低阶多模态张量融合技术来提高效率。

MFN：记忆融合网络(MFN)用于利用多视图门控存储器连续地对特定视点和交叉视点交互进行建模，并随时间对它们进行总结。

MFM：多模态因式分解模型(MFM)学习生成表征以学习特定于通道的生成特征以及用于分类的歧视性表征。

MULT：多模态Transformer(MULT)使用定向成对交叉注意扩展了多模态转换器架构，该架构使用定向成对交叉注意将一种模态转换为另一种模态。

ICCN:交互规范相关网络(ICCN)通过深度典型相关分析(DCCA)学习所有三种模式之间的相关性。

MISA：学习模态不变和模态特定表示(MISA)结合了分布相似性、正交损失、重构损失和任务预测损失的组合用来学习不同模态的表示和融合后模态的表示。

评估指标：为了确保公平，我们将情感分析任务按照分类任务和回归任务进行实验验证。

1)对于回归任务，我们报告平均绝对误差(MAE)和皮尔逊相关(Corr)；除了MAE的值外，更高的得分代表模型的表现更佳。

2)对于分类，我们给出二进制准确度(ACC-2)和F-score以及7分类准确率(ACC-7)。对于二进制分类，本文认为[-3，0)标签为负，(0，3]为正。

表1.在MOSEI数据集上的实验结果.注：(B)意思是所用的语言提取模型是BERT；模型名称有*表示在相同条件下复现模型；值得注意的是在指标Acc-2和F-Score中，“/”左侧是计算负面情感&非负面情感，而“/”右侧则计算负面情感&正面情感。

表1和表2展示了本文实验的详细结果。为了公平比较，我们将本文的模型在两个数据集上进行了实验，值得注意的是本文在两个数据集上的序列设置是不同的，在MOSI上使用对齐序列，而在MOSEI上使用未对齐的序列，这可以帮助我们更好的了解模型性能。经验上，使用对齐语料库的模型可以获得更好的结果。但实验结果显示本文的模型在MOSEI未对齐序列上有着强劲的优势，其可以大幅超过复杂的基线TFN，MFN，MULT等。

我们在相同条件下复现了MISA模型并将最佳结果展示在下表中。可以看到无论是回归还是分类，MTCS都取得了令人振奋的结果。对于分类，可以看到在7级精度方面，无论在对齐序列还是未对齐序列上，我们的模型提升显著。对于回归，在对齐序列中平均绝对误差(MAE)大幅降低，在未对齐序列中皮尔逊相关(Corr)也有明显改善。这表明MTCS较好的捕获到全局上下文语义信息和模态的互补性和相似性信息。

表2.在MOSEI数据集上的实验结果.注：(B)意思是所用的语言提取模型是BERT；模型名称有*表示在相同条件下复现模型；值得注意的是在指标Acc-2和F-Score中，“/”左侧是计算负面情感&非负面情感，而“/”右侧则计算负面情感&正面情感。

实施例二

本实施例提供了一种基于时间卷积与自注意力的情感预测系统，包括：

多模态融合模块，被配置为将文本特征向量、音频特征向量以及视频特征向量进行融合，得到最终的融合后的多模态特征向量。

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于时间卷积与自注意力的情感预测方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于时间卷积与自注意力的情感预测方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于时间卷积与自注意力的情感预测方法，其特征在于，包括：

获取文本模态数据、音频模态数据以及视频模态数据；

利用预先训练好的音频特征提取模型提取音频模态数据的音频特征向量；

利用预先训练好的视频特征提取模型提取视频模态数据的视频特征向量；

2.如权利要求1所述的一种基于时间卷积与自注意力的情感预测方法，其特征在于，所述利用预先训练好的自编码语言模型提取文本模态数据的文本特征向量，具体为：

得到高维语义的文本特征向量；

这里U_t表示文本的初始序列，

表示自编码语言模型BERT预训练模型的超参数。

3.如权利要求1所述的一种基于时间卷积与自注意力的情感预测方法，其特征在于，所述音频特征提取模型为音频自注意力网络模型，具体为：

其中Q_a，K_a，V_a分别代表声学模态的Query，Key和Value向量，softmax(·)代表softmax函数，d_h代表模态的维度，T表示Transpose。

4.如权利要求3所述的一种基于时间卷积与自注意力的情感预测方法，其特征在于，利用预先训练好的音频特征提取模型提取音频模态数据的音频特征向量，具体为：

使用音频时间卷积网络对音频模态数据进行预处理；

对预处理后的音频模态数据进行位置编码；得到音频序列；

5.如权利要求1所述的一种基于时间卷积与自注意力的情感预测方法，其特征在于，所述视频特征提取模型为视频自注意力网络模型，具体为：

其中Q_v，K_v，V_v分别代表视觉模态的Query，Key和Value向量,softmax(·)代表softmax函数，d_h代表模态的维度,T表示Transpose。

6.如权利要求5所述的一种基于时间卷积与自注意力的情感预测方法，其特征在于，所述利用预先训练好的视频特征提取模型提取视频模态数据的视频特征向量，具体为：

使用视频时间卷积网络对视频模态数据进行预处理；

对预处理后的视频模态数据进行位置编码；得到视频序列；

7.如权利要求1所述的一种基于时间卷积与自注意力的情感预测方法，其特征在于，将文本特征向量、音频特征向量以及视频特征向量进行融合，得到最终的融合后的多模态特征向量，基于最终的融合后的多模态特征向量进行情感预测，具体为：

堆叠文本特征向量、音频特征向量以及视频特征向量的多模态表示；

基于Transformer模型对多模态表示得到注意力参数；

使用Relu激活函数转换维度得到一维向量，得到最终的融合后的多模态特征向量；

基于最终的融合后的多模态特征向量进行情感预测。

8.一种基于时间卷积与自注意力的情感预测系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于时间卷积与自注意力的情感预测方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于时间卷积与自注意力的情感预测方法中的步骤。