CN111507421A

CN111507421A - 一种基于视频的情感识别方法及装置

Info

Publication number: CN111507421A
Application number: CN202010324104.3A
Authority: CN
Inventors: 徐宝函
Original assignee: Shanghai Jilian Network Technology Co ltd
Current assignee: Shanghai Jilian Network Technology Co ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-07

Abstract

本发明实施例公开了一种基于视频的情感识别方法及装置。该方法包括：确定待识别视频的初始特征数据；将所述初始特征数据输入到预先训练完成的情感识别模型中，得到与所述待识别视频对应的情感识别结果；其中，所述情感识别模型包括物体关系识别模型、特征提取模型和情感分类模型，其中，所述物体关系识别模型用于识别所述待识别视频中的物体关系，所述特征提取模型用于提取所述初始特征数据的至少一种视频特征，所述情感分类模型用于基于所述物体关系和所述视频特征确定所述待识别视频的情感识别结果。本发明实施例通过在情感识别模型中加入物体关系识别模型，解决了视频情感识别效果不佳的问题，为视频情感识别提供了更全面的识别框架。

Description

一种基于视频的情感识别方法及装置

技术领域

本发明实施例涉及情感识别技术领域，尤其涉及一种基于视频的情感识别方法及装置。

背景技术

随着移动设备和互联网的快速发展，视频内容理解成为了日益增长的需求。许多研究者针对视频动作识别、检测等任务进行了大量的研究。然而，视频内情感的表达是视频理解中重要的环节，直观来说，则是将视频根据内容分为不同的情感类别，如开心、吃惊或悲伤等。视频的情感识别在实际生产中有很多应用，例如，广告推荐系统可以通过匹配广告与视频中的情感来避免推荐不恰当的广告。

早期针对情感识别的研究集中在文本情感识别和图像情感识别，研究者通过文本、颜色、纹理、形状等底层特征帮助情感识别。之后，研究者针对视频情感的研究大多集中在电影领域，类似的底层特征在电影视频的情感分析中也起到了很大的作用。近年来，神经网络在越来越多的计算机视觉领域取得了较好的效果，如图像分类、物体检测等。一些研究者也将神经网络运用到了情感识别中，实现了相比底层特征更好的识别效果。

然而，由于手机、相机等视频捕捉设备的发展，视频分享网站上越来越多的出现了用户生成视频。相比电影视频，用户生成视频没有经过专业编辑，内容更多样，但视频质量往往较差。因此，仅通过神经网络学习的视觉信息对于高维的情感识别仍是不够的，分类识别效果往往不佳。

发明内容

本发明实施例提供了一种基于视频的情感识别方法及装置，为视频情感识别提供了更全面的识别框架，以提高视频情感识别的准确率。

第一方面，本发明实施例提供了一种基于视频的情感识别方法，该方法包括：

确定待识别视频的初始特征数据；

将所述初始特征数据输入到预先训练完成的情感识别模型中，得到与所述待识别视频对应的情感识别结果；

其中，所述情感识别模型包括物体关系识别模型、特征提取模型和情感分类模型，其中，所述物体关系识别模型用于识别所述待识别视频中的物体关系，所述特征提取模型用于提取所述初始特征数据的至少一种视频特征，所述情感分类模型用于基于所述物体关系和所述视频特征确定所述待识别视频的情感识别结果。

第二方面，本发明实施例还提供了一种基于视频的情感识别装置，该装置包括：

初始特征数据确定模块，用于确定待识别视频初始特征数据；

情感识别结果输出模块，用于将所述初始特征数据输入到预先训练完成的情感识别模型中，得到与所述待识别视频对应的情感识别结果；

第三方面，本发明实施例还提供了一种设备，该设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述所涉及的任一所述的基于视频的情感识别方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行上述所涉及的任一所述的基于视频的情感识别方法。

本发明实施例通过在情感识别模型中加入物体关系识别模型，解决了视频情感识别效果不佳的问题，为视频情感识别提供了更全面的识别框架，提高了视频情感识别的准确率。

附图说明

图1是本发明实施例一提供的一种基于视频的情感识别方法的流程图。

图2是本发明实施例一提供的一种物体关系识别模型的示意图。

图3是本发明实施例二提供的一种基于视频的情感识别方法的流程图。

图4是本发明实施例三提供的一种基于视频的情感识别方法的流程图。

图5是本发明实施例三提供的一种基于视频的情感识别方法的具体实例的流程图。

图6是本发明实施例四提供的一种基于视频的情感识别装置的示意图。

图7是本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种基于视频的情感识别方法的流程图，本实施例可适用于对视频进行情感分类的情况，该方法可以由基于视频的情感识别装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可以配置于终端设备中。具体包括如下步骤：

S110、确定待识别视频的初始特征数据；

其中，初始特征数据可用于对待识别视频进行情感分类，以实现对待识别视频的情感识别。在一个实施例中，可选的，对待识别视频进行预处理得到初始特征数据。在一个实施例中，可选的，初始特征数据包括RGB图像数据、光流图像数据、音频数据和文本数据中的至少一项。

其中，RGB图像数据包括由红色、绿色和蓝色按照不同的比例混合得到的图像数据。在一个实施例中，当待识别视频中的视频帧图像的色彩模型不包括RGB模型时，初始特征数据包括与视频帧图像的色彩模型对应的图像数据。其中，示例性的，图像数据可以是CMYK图像数据，也可以是灰度图像数据。在另一个实施例中，当待识别视频中的视频帧图像的色彩模型不包括RGB模型时，将视频帧图像的色彩模型转换为RGB色彩模型得到RGB图像数据。本实施例以图像数据为RGB图像数据进行举例说明。

在一个实施例中，对待识别视频进行关键帧提取得到至少一个RGB图像数据。其中，关键帧是在视频帧中具有代表性的帧图像。其中，示例性的，关键帧处理方法包括但不限于压缩域关键帧提取方法、基于颜色特征的关键提取方法和基于距离阈值聚类的关键帧提取。这样设置的好处在于，可以减少待识别视频中视频帧间存在的荣誉信息，减少后续的计算量和计算机处理信息的数据量。

其中，光流是空间运动物体在观察成像平面上的像素运动的表现特征。其中，示例性的，得到光流图像数据的预处理方法包括但不限于基于区域方法、基于相位的方法、基于频域的方法和基于梯度的方法中至少一种。

其中，音频数据包括在音频范围内的声波数据，其中，音频范围包括20HZ～20kHz。文本数据包括待识别视频中例如字幕等文本数据，还可以包括待识别视频中视频帧图像中的文本数据，例如，视频帧图像包括公交站牌，公交站牌上的文字也可作为预处理得到的文本数据。

S120、将初始特征数据输入到预先训练完成的情感识别模型中，得到与待识别视频对应的情感识别结果。

其中，情感识别模型包括物体关系识别模型、特征提取模型和情感分类模型，其中，物体关系识别模型用于识别待识别视频中的物体关系，特征提取模型用于提取初始特征数据的至少一种视频特征，情感分类模型用于基于物体关系和视频特征确定待识别视频的情感识别结果。

在一个实施例中，可选的，将RGB图像数据输入到物体关系识别模型中，得到输出的物体关系特征；将初始特征数据输入到特征提取模型中，得到输出的与各初始特征数据对应的视频特征；将物体关系特征和视频特征输入到情感分类模型中，得到输出的情感识别结果。

其中，物体关系识别模型可识别出RGB图像数据的物体及其关系组合，示例性的，当RGB图像数据中包括“女孩”和“吉他”两个物体，则物体关系可以主谓宾关系，示例性的，可以是“女孩弹吉他”。通常这样的物体关系会伴随着情感的表达。在一个实施例中，可选的，采用Faster RCNN网络模型对各RGB图像数据中的物体进行识别，并将识别结果输入到物体关系识别模型中。

在一个实施例中，可选的，物体关系识别模型用于：提取RGB图像数据中的视觉特征、位置特征和语义特征；将视觉特征、位置特征和语义特征进行融合得到融合特征，并基于融合特征得到RGB图像数据中的物体关系特征。

其中，示例性的，视觉特征包括但不限于颜色特征、纹理特征、形状特征、尺寸特征、SIFT(Scale Invariant Feature Transform，尺度不变特征变换)特征和HOG(Histogram of Oriented Gradient，方向梯度直方图)特征中至少一种。在一个实施例中，可选的，采用I3D(Inflated 3D ConvNets)模型提取视觉特征。在一个实施例中，可选的，采用ROI pooling方法将基于RGB图像数据识别到的物体统一大小，得到物体的尺寸特征。在本实施例中，视觉特征还包括RGB图像数据中物体的坐标特征。

其中，位置特征可用于描述RGB图像数据中不同物体之间的位置关系。在一个实施例中，可选的，采用尺度不变性的4维向量表示位置特征。其中，示例性的，根据视觉特征可以得到RGB图像数据中主语物体的坐标特征和尺寸特征，即(x_s,y_s,w_s,h_s)，宾语物体的坐标特征和尺寸得到，即(x_o,y_o,w_o,h_o)。其中，(x_s,y_s)和(x_o,y_o)分别表示主语物体和宾语物体的坐标特征，(w_s,h_s)和(w_o,h_o)分别表示主语物体和宾语物体的尺寸特征中的宽度和高度特征。则位置特征(l_x,l_y,l_w,l_h)满足：

其中，语义特征可用于描述RGB图像数据中各物体所属的物体类别。在一个实施例中，可选的，物体关系识别模型中的嵌入层对识别到的物体的所属物体类别的概率进行计算，将与最高概率对应的物体类别作为识别到的物体所述的物体类别。

在上述实施例的基础上，可选的，基于排序损失函数对初始物体关系识别模型的参数进行调整得到训练完成的物体关系识别模型；相应的，物体关系识别模型的输出结果还包括：各物体关系特征的排序等级。

其中，示例性的，基于标准排序结果和初始物体关系识别模型输出的预测排序结果确定排序损失函数。在一个实施例中，可选的，设置物体关系识别模型中的排序层，确定各物体关系特征的排序等级。其中，针对每个RGB图像数据，物体关系识别模型输出与RGB图像数据对应的至少一个物体关系特征和各物体关系特征的排序等级。示例性的，假设RGB图像数据中包括“女孩”和“吉他”，则物体关系识别模型输出的物体关系特征包括“女孩弹吉他”、“女孩拿吉他”和“吉他弹女孩”等，相应的，示例性的，上述物体关系特征的排序等级依次降低。

图2是本发明实施例一提供的一种物体关系识别模型的示意图。通过卷积神经网络模型(CNN)提取RGB图像数据中的视觉特征，根据RGB图像数据中物体的坐标特征和尺寸特征确定位置特征，对RGB图像数据中的物体进行物体类别的概率计算，确定RGB图像数据中物体的物体类别。如图2所示，识别到的物体1与“人类”类别的匹配概率为0.93，则认为该物体1的语义特征为“人类”；识别到的物体2与“吉他”类别的匹配概率为0.65，则认为该物体2的语义特征为“吉他”。将确定的两个语义特征、视觉特征和位置特征进行特征融合，并基于融合特征和排序损失函数对初始物体关系识别模型的模型参数进行调整，得到训练完成的物体关系识别模型。

其中，示例性的，视频特征包括RGB特征、光流特征、音频特征和文本特征中的至少一项。

本实施例的技术方案，通过在情感识别模型中加入物体关系识别模型，解决了视频情感识别效果不佳的问题，为视频情感识别提供了更全面的识别框架，提高了视频情感识别的准确率。

实施例二

图3是本发明实施例二提供的一种基于视频的情感识别方法的流程图，本实施例的技术方案是上述实施例的基础上的进一步细化。可选的，所述物体关系识别模型还用于：针对每种物体关系特征，构建与所述物体关系特征对应的注意力图，并根据能量函数计算得到与所述注意力图对应的激活程度；基于各所述激活程度，得到超过预设阈值的激活程度对应的物体关系特征。

S210、确定待识别视频的初始特征数据；

其中，初始特征数据包括RGB图像数据、光流图像数据、音频数据和文本数据中的至少一项；

S220、将RGB图像数据输入到物体关系识别模型中，得到超过预设阈值的激活程度对应的物体关系特征；

其中，物体关系识别模型用于：提取RGB图像数据中的视觉特征、位置特征和语义特征；将视觉特征、位置特征和语义特征进行融合得到融合特征，并基于融合特征得到RGB图像数据中的物体关系特征。

在本实施例中，物体关系识别模型还用于：针对每种物体关系特征，构建与物体关系特征对应的注意力图，并根据能量函数计算得到与注意力图对应的激活程度；基于各激活程度，得到超过预设阈值的激活程度对应的物体关系特征。

在一个实施例中，可选的，在物体关系识别模型中加入基于Grad-Cam的Attention层，基于RGB图像数据和与RGB图像数据对应的物体关系特征构建注意力图。其中，示例性的，与RGB图像数据对应的物体关系特征为至少一个，则分别针对每个物体关系特征构建注意力图。

在一个实施例中，可选的，注意力图满足如下公式：

其中，I表示RGB图像数据，p表示物体关系特征，k表示Attention层的卷积核数量，A^k表示融合特征在不同通道处的特征图，

表示不同特征图的重要性权重。在一个实施例中，可选的，计算特征图反向传播的梯度得到与特征图对应的重要性权重。

这样设置的好处在于，由于基于RGB图像数据的物体关系识别模型无法直接应用在待识别视频中，为了解决待识别视频训练数据少的问题，通过计算与各物体关系特征对应的注意力图，将基于RGB图像数据的物体关系识别模型迁移到待识别视频中。

其中，能量函数用于计算注意力图的激活程度，示例性的，物体关系中的关系谓语在注意力图中所处的图像区域的激活程度比较高。在一个实施例中，可选的，将注意力图中的像素值相加，并将相加结果作为注意力图的激活程度。其中，待识别视频的能量函数满足公式：

∑_FE(L(F,p_i))

其中，F表示RGB图像数据的数量，p_i表示第i个物体关系特征，E(L(F,p_i))表示RGB图像数据的激活程度。

在一个实施例中，可选的，根据能量函数计算得到与注意力图对应的激活程度，包括：根据能量函数和滑动窗口，计算注意力图在至少一个窗口区域内的激活程度；将各窗口区域内的满足预设激活条件的激活程度作为与注意力图对应的激活程度，其中，预设激活条件包括最大激活程度。

其中，示例性的，滑动窗口是指利用已知尺寸的窗口遍历整幅图像，得到与该图像对应的至少一个子图像。其中，示例性的，将滑动窗口区域内的注意力图的像素值进行相加，得到该窗口区域内的激活程度。

在上述实施例的基础上，可选的，针对每个物体关系特征，筛选得到与物体关系特征对应的至少一个RGB图像数据；计算与各RGB图像数据和物体关系特征对应的能量分数。

其中，能量分数满足公式：

score(F,p_i)＝max(E(L(F,p_i)))

其中，F表示与第i个物体关系特征对应的RGB图像数据，p_i表示第i个物体关系特征，E(L(F,p_i))表示RGB图像数据的激活程度。

其中，示例性的，当待识别视频的物体关系特征包括关系特征1，与关系特征1对应的RGB图像数据包括图像A和图像B。假设基于图像A和关系特征1计算得到的激活程度高于基于图像B和关系特征1计算得到的激活程度，则score(F,p_i)为基于图像A和关系特征1计算得到的激活程度。在一个实施例中，可选的，将超过预设分数阈值的能量分数对应的物体关系特征作为物体关系识别模型的输出结果。

这样设置的好处在于，多个RGB图像数据可能会得到同一物体关系特征，基于多个RGB图像数据和同一物体关系特征可计算得到多个激活程度，若上述激活程度均超过激活程度的预设阈值，那么后续输入到情感分类模型的物体关系特征会出现重复，从而提高处理数据的工作量。根据能量分数对同一物体关系特征的多个激活程度进行筛选，可有效降低后续数据的数据量，从而提高情感识别的效率。

S230、将初始特征数据输入到特征提取模型中，得到输出的与各初始特征数据对应的视频特征；

S240、将超过预设阈值的激活程度对应的物体关系特征和视频特征输入到情感分类模型中，得到输出的情感识别结果。

本实施例的技术方案，通过注意力图和能量函数，将RGB图像数据的物体关系识别模型迁移到待识别视频中，并通过设置阈值对激活程度，以达到对物体关系特征筛选的目的，解决了待识别视频中包含无效的物体关系特征问题，去除了识别到的待识别视频中无效物体关系特征，保证得到待识别视频的更准确的物体关系特征，进而提高后续情感识别的准确率。

实施例三

图4是本发明实施例三提供的一种基于视频的情感识别方法的流程图，本实施例的技术方案是上述实施例的基础上的进一步细化。可选的，所述情感分类模型的训练方法包括：基于所述物体关系识别模型和特征提取模型，确定待训练视频的待训练物体关系特征和待训练视频特征；将所述待训练物体关系特征和待训练视频特征分别映射到关系特征情感空间和视频特征情感空间；基于所述映射后的待训练物体关系特征和待训练视频特征确定特征损失函数，并基于特征损失函数和分类损失函数对初始情感分类模型的参数进行调整得到训练完成的情感分类模型。

本实施例的具体实施步骤包括：

S310、基于物体关系识别模型和特征提取模型，确定待训练视频的待训练物体关系特征和待训练视频特征；

根据上述实施例记载的技术方案，基于物体关系识别模型和特征提取模型，确定待训练视频的待训练物体关系特征和待训练视频特征，为避免重复，此处不再赘述。

S320、将待训练物体关系特征和待训练视频特征分别映射到关系特征情感空间和视频特征情感空间；

其中，可根据特征向量在情感空间中所处的空间位置确定特征向量所属的情感状态。示例性的，情感空间包括表示不同情感方向的空间轴线，例如，x轴表示情感愉悦度，y轴表示情感激活度。此处只是对情感空间进行举例说明，并不对情感空间进行限定。

在一个实施例中，可选的，采用特征提取模型中的多层感知机，将待训练视频特征映射到视频特征情感空间。其中，多层感知机是一种前馈神经网络模型，可用于将输入的多个数据集映射得到单一输出的数据集上。

S330、基于映射后的待训练物体关系特征和待训练视频特征确定特征损失函数，并基于特征损失函数和分类损失函数对初始情感分类模型的参数进行调整得到训练完成的情感分类模型；

在一个实施例中，可选的，特征损失函数满足公式：

其中，R和V分别表示关系特征情感空间和视频特征情感空间，i表示第i个视频，m和m'表示关系特征情感空间中的物体关系特征或视频特征情感空间中的视频特征，

表示k情感空间中第i个视频m特征，

表示k情感空间中第i个视频m'特征。

在一个实施例中，可选的，根据真实情感分类结果和初始情感分类模型输出的预测情感分类结果，构建分类损失函数。

其中，情感分类模型的损失函数满足公式：

Loss＝Loss_alignment+Loss_{classification}

其中，Loss_alignment表示特征损失函数，Loss_{classification}表示分类损失函数。

S340、确定待识别视频的初始特征数据；

S350、将初始特征数据输入到预先训练完成的情感识别模型中，得到与待识别视频对应的情感识别结果。

在一个实施例中，可选的，特征提取模型包括基于事件识别的提取模型，将RGB图像数据和光流图像数据输入到基于事件识别的提取模型中，得到输出的RGB特征和光流特征。

在一个实施例中，可选的，特征提取模型包括VGGish音频模型。该模型通过对输入的音频数据提取对数梅尔频谱，得到与待识别特征对应的音频特征。

在一个实施例中，可选的，情感分类模型用于：将物体关系特征和视频特征分别映射到关系特征情感空间和视频特征情感空间；基于映射后的物体关系特征和视频特征确定情感识别结果。

在一个实施例中，可选的，情感分类模型用于：基于待识别视频所属各情感分类的概率，将与最大概率对应的情感分类结果作为待识别视频的情感识别结果。

图5是本发明实施例三提供的一种基于视频的情感识别方法的具体实例的流程图。对待识别视频进行视频预处理得到初始特征数据，在图5所示的实施例中，初始特征数据包括RGB图像数据、光流图像数据和音频数据。将RGB图像数据输入到物体关系识别模型中，得到至少一个物体关系特征，在图5所示的实施例中，得到3个物体关系特征。对3个物体关系特征分别计算注意力图，并根据能量函数对各注意力图计算，得到与各物体关系特征对应的激活程度。将超过预设阈值的激活程度对应的物体关系特征映射到关系特征情感空间中。将RGB图像数据、光流图像数据和音频数据输入到特征提取模型中，得到至少一个视频特征，在图5所示的实施例中，得到3个视频特征。采用多层感知机将视频特征映射到视频特征情感空间中。基于映射后的物体关系特征和视频特征和情感分类模型，得到输出的与待识别特征对应的情感识别结果。

本实施例的技术方案，通过基于映射后的待训练物体关系特征和待训练视频特征确定特征损失函数，并基于特征损失函数和分类损失函数对情感分类模型进行训练，解决了视频情感识别中情感特征单一的问题，为视频情感识别提供了更全面的特征识别框架，提高了视频情感识别的准确率。

实施例四

图6是本发明实施例四提供的一种基于视频的情感识别装置的示意图。本实施例可适用于对视频进行情感分类的情况，该装置可采用软件和/或硬件的方式实现，该装置可以配置于终端设备中。示例性的，终端设备可以是台式机、笔记本、平板电脑、服务器或者云端服务器。该基于视频的情感识别装置包括：初始特征数据确定模块410和情感识别结果输出模块420。

其中，初始特征数据确定模块410，用于确定待识别视频初始特征数据；

情感识别输出结果模块420，用于将初始特征数据输入到预先训练完成的情感识别模型中，得到与待识别视频对应的情感识别结果；

在上述技术方案的基础上，可选的，初始特征数据包括RGB图像数据、光流图像数据、音频数据和文本数据中的至少一项；情感识别结果输出模块420具体用于：

将RGB图像数据输入到物体关系识别模型中，得到输出的物体关系特征；

将初始特征数据输入到特征提取模型中，得到输出的与各初始特征数据对应的视频特征；

将物体关系特征和视频特征输入到情感分类模型中，得到输出的情感识别结果。

在上述技术方案的基础上，可选的，物体关系识别模型用于：

提取RGB图像数据中的视觉特征、位置特征和语义特征；

将视觉特征、位置特征和语义特征进行融合得到融合特征，并基于融合特征得到RGB图像数据中的物体关系特征。

在上述技术方案的基础上，可选的，物体关系识别模型还用于：

针对每种物体关系特征，构建与物体关系特征对应的注意力图，并根据能量函数计算得到与注意力图对应的激活程度；

基于各激活程度，得到超过预设阈值的激活程度对应的物体关系特征。

在上述技术方案的基础上，可选的，物体关系识别模型具体用于：

根据能量函数和滑动窗口，计算注意力图在至少一个窗口区域内的激活程度；

将各窗口区域内的满足预设激活条件的激活程度作为与注意力图对应的激活程度，其中，预设激活条件包括最大激活程度。

在上述技术方案的基础上，可选的，情感分类模型用于：

将物体关系特征和视频特征分别映射到关系特征情感空间和视频特征情感空间；

基于映射后的物体关系特征和视频特征确定情感识别结果。

在上述技术方案的基础上，可选的，情感分类模型的训练方法包括：

基于物体关系识别模型和特征提取模型，确定待训练视频的待训练物体关系特征和待训练视频特征；

将待训练物体关系特征和待训练视频特征分别映射到关系特征情感空间和视频特征情感空间；

基于映射后的待训练物体关系特征和待训练视频特征确定特征损失函数，并基于特征损失函数和分类损失函数对初始情感分类模型的参数进行调整得到训练完成的情感分类模型。

在上述技术方案的基础上，可选的，特征损失函数满足公式：

表示k情感空间中第i个视频m特征，

表示k情感空间中第i个视频m'特征。

在上述技术方案的基础上，可选的，物体关系识别模型的训练方法还包括：

基于排序损失函数对初始物体关系识别模型的参数进行调整得到训练完成的物体关系识别模型；

相应的，物体关系识别模型的输出结果还包括：各物体关系特征的排序等级。

本发明实施例所提供的基于视频的情感识别装置可以用于执行本发明实施例所提供的基于视频的情感识别方法，具备执行方法相应的功能和有益效果。

值得注意的是，上述基于视频的情感识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例五

图7是本发明实施例五提供的一种设备的结构示意图，本发明实施例为本发明上述实施例的基于视频的情感识别方法的实现提供服务，可配置上述实施例中的基于视频的情感识别装置。图7示出了适于用来实现本发明实施方式的示例性设备12的框图。图7显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示，通常称为“硬盘驱动器”)。尽管图7中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的基于视频的情感识别方法。

通过上述设备，解决了视频情感识别效果不佳的问题，为视频情感识别提供了更全面的识别框架，提高了视频情感识别的准确率。

实施例六

本发明实施例六还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种基于视频的情感识别方法，该方法包括：

确定待识别视频的初始特征数据；

将初始特征数据输入到预先训练完成的情感识别模型中，得到与待识别视频对应的情感识别结果；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作，还可以执行本发明任意实施例所提供的基于视频的情感识别方法中的相关操作。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于视频的情感识别方法，其特征在于，包括：

确定待识别视频的初始特征数据；

2.根据权利要求1所述的方法，其特征在于，所述初始特征数据包括RGB图像数据、光流图像数据、音频数据和文本数据中的至少一项；

其中，所述将所述初始特征数据输入到预先训练完成的情感识别模型中，得到与所述待识别视频对应的情感识别结果，包括：

将所述RGB图像数据输入到所述物体关系识别模型中，得到输出的物体关系特征；

将所述初始特征数据输入到所述特征提取模型中，得到输出的与各初始特征数据对应的视频特征；

将所述物体关系特征和所述视频特征输入到所述情感分类模型中，得到输出的情感识别结果。

3.根据权利要求2所述的方法，其特征在于，所述物体关系识别模型用于：

提取所述RGB图像数据中的视觉特征、位置特征和语义特征；

将所述视觉特征、位置特征和语义特征进行融合得到融合特征，并基于所述融合特征得到所述RGB图像数据中的物体关系特征。

4.根据权利要求3所述的方法，其特征在于，所述物体关系识别模型还用于：

针对每种物体关系特征，构建与所述物体关系特征对应的注意力图，并根据能量函数计算得到与所述注意力图对应的激活程度；

基于各所述激活程度，得到超过预设阈值的激活程度对应的物体关系特征。

5.根据权利要求4所述的方法，其特征在于，所述根据能量函数计算得到与所述注意力图对应的激活程度，包括：

根据能量函数和滑动窗口，计算所述注意力图在至少一个窗口区域内的激活程度；

将所述各窗口区域内的满足预设激活条件的激活程度作为与所述注意力图对应的激活程度，其中，所述预设激活条件包括最大激活程度。

6.根据权利要求2所述的方法，其特征在于，所述情感分类模型用于：

将所述物体关系特征和所述视频特征分别映射到关系特征情感空间和视频特征情感空间；

基于所述映射后的物体关系特征和视频特征确定情感识别结果。

7.根据权利要求2-6任一所述的方法，其特征在于，所述情感分类模型的训练方法包括：

基于所述物体关系识别模型和特征提取模型，确定待训练视频的待训练物体关系特征和待训练视频特征；

将所述待训练物体关系特征和待训练视频特征分别映射到关系特征情感空间和视频特征情感空间；

基于所述映射后的待训练物体关系特征和待训练视频特征确定特征损失函数，并基于特征损失函数和分类损失函数对初始情感分类模型的参数进行调整得到训练完成的情感分类模型。

8.根据权利要求7所述的方法，其特征在于，所述特征损失函数满足公式：

其中，R和V分别表示关系特征情感空间和视频特征情感空间，i表示第i个视频，m和m'表示关系特征情感空间中的物体关系特征或视频特征情感空间中的视频特征，f_i ^m(k)表示k情感空间中第i个视频m特征，f_i ^m'(k)表示k情感空间中第i个视频m'特征。

9.根据权利要求2所述的方法，其特征在于，所述物体关系识别模型的训练方法还包括：

相应的，所述物体关系识别模型的输出结果还包括：各物体关系特征的排序等级。

10.一种基于视频的情感识别装置，其特征在于，包括：