CN115100390A

CN115100390A - 一种联合对比学习与自监督区域定位的图像情感预测方法

Info

Publication number: CN115100390A
Application number: CN202211020881.4A
Authority: CN
Inventors: 张红斌; 侯婧怡; 熊其鹏; 袁梦; 石皞炜; 李广丽
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-09-23
Anticipated expiration: 2042-08-24
Also published as: CN115100390B

Abstract

本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法，所述方法包括：获取图像情感数据集，并对图像情感数据集中的多个图像进行预处理操作，构建得到两个自监督区域定位网络并进行预训练；通过对比学习方法，对自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征；对优化后的图像特征进行自适应特征融合，以构建得到多视角特征回溯网络；将多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接，以构建得到图像情感预测模型；将待处理图像输入至图像情感预测模型中，以最终输出得到待处理图像对应的情感倾向。本发明可准确描述图像蕴含的情感语义，实现客观精准的图像情感预测。

Description

一种联合对比学习与自监督区域定位的图像情感预测方法

技术领域

本发明涉及计算机图像处理技术领域，特别涉及一种联合对比学习与自监督区域定位的图像情感预测方法。

背景技术

目前，众多的互联网用户在微博、微信以及博客等社交媒体上分享自身经历，或参与热点事件与话题的讨论。社交网络已成为人们发表观点和抒发情绪的重要平台，在这些平台上的信息蕴含了非常丰富的人类情感，如喜、怒、哀、乐、批评以及赞扬等。传统的情感预测工作主要围绕文本数据展开，能在自然语言类数据集上取得非常好的效果。但伴随信息化技术的不断提升，社交平台上支持除文字之外的多种类型数据的分享，例如图像、视频与表情符号等。与单纯的文字相比，图像表达的情感信息更加丰富，同时也更难被计算机直接“解读”。故面向图像情感预测的研究价值巨大，可应用于心理干预、舆情监控以及情感认知模型构建等诸多方面，并在机器与人类之间架构一座理解的桥梁。

现有的图像情感预测方法主要依靠机器学习与深度学习等方法，对于基于传统机器学习的图像处理方法，难以捕捉图像中深层次的情感语义信息。当前的深度学习类方法聚焦对完整图像进行分析，即多采用全局图像特征（粗粒度），较少挖掘和利用图像局部区域的局部特征（细粒度），未考虑图像中粗粒度信息与细粒度信息之间的互补关系。因此，现有的图像情感预测方法主要存在以下问题：

（1）、现有的图像情感预测研究主要采用图像全局特征，未挖掘和利用图像局部区域的局部特征，忽略了图像中粗粒度信息与细粒度信息之间的互补关系；

（2）、现有技术中，未对蕴含在图像中的情感语义进行充分挖掘，普遍采用通用方法对图像进行特征提取后分类，缺少用于表征图像情感内容的高质量特征，导致图像特征判别性不高，难以用于图像情感倾向的判断；

（3）、目前多数图像情感分析任务采用监督学习方法，构建的图像情感分析模型过度依赖人工标注，模型不能主动地进行调整，未对图像样本间的对比关系进行深入挖掘。

基于此，有必要提出一种联合对比学习与自监督区域定位的图像情感预测方法，以解决上述技术问题。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种联合对比学习与自监督区域定位的图像情感预测方法，以解决上述技术问题。

本发明实施例提出一种联合对比学习与自监督区域定位的图像情感预测方法，其中，所述方法包括如下步骤：

步骤一、获取图像情感数据集，并对所述图像情感数据集中的多个图像进行预处理操作，其中所述预处理操作包括数据增强操作以及图像情感数据对的构造；

步骤二、基于深度学习网络，构建得到两个自监督区域定位网络，并对两个所述自监督区域定位网络分别进行预训练；

步骤三、通过对比学习方法，对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征；

步骤四、对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合，以构建得到多视角特征回溯网络；

步骤五、将所述多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接，以构建得到图像情感预测模型；

步骤六、将待处理图像输入至所述图像情感预测模型中，以最终输出得到待处理图像对应的情感倾向。

本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法，首先获取图像情感数据集，对图像情感数据集中的多个图像进行预处理，然后基于深度学习网络，构建得到两个自监督区域定位网络，再通过对比学习方法，对自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征，然后对优化后的图像特征进行自适应特征融合，以构建得到多视角特征回溯网络，将多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接，以构建得到图像情感预测模型，最后将待处理图像输入至图像情感预测模型中，以最终输出得到待处理图像对应的情感倾向。

本发明具有如下有益效果：

（1）、本发明可准确定位图像中蕴含强烈情感语义的图像局部区域，并综合图像全局特征与图像局部区域的局部特征进行图像的刻画，从而准确描述图像蕴含的情感语义，实现客观精准的图像情感预测；

（2）、基于自监督学习模式使模型能自主学习图像情感知识：一方面，通过对比学习增强图像特征的判别性，并降低对标注数据的依赖；另一方面，通过自监督区域定位准确捕获图像中情感语义强烈的图像局部区域，为多视角特征回溯以及改善图像情感预测精度做好准备；

（3）、构建一个端到端的预测模型，输入图像后，预测模型直接输出情感预测结果，预测过程更简单快捷；预测模型包含自监督区域定位网络与多视角特征回溯网络等，多个网络协同合作，相互受益、共同进步，从而推动预测精度的提升；

（4）、为图像情感分析研究在心理干预、舆情监控、流行趋势预测等多个实际领域的应用奠定重要基础。

所述一种联合对比学习与自监督区域定位的图像情感预测方法，其中，在所述步骤一中，所述图像情感数据集包括多张图像，每张图像包含对应的情感倾向标注；

所述数据增强操作包括如下步骤：

对所述图像情感数据集中的图像进行平移、旋转、失真、翻转或缩放操作，并将变换后的图像重新添加至所述图像情感数据集中；

所述图像情感数据对的构造的方法包括如下步骤：

对所述图像情感数据集中的其中一当前图像，从所述图像情感数据集中选取任意一张图像与所述当前图像进行配对；

当判断到两张图像的情感倾向标注一致时，则将所述当前图像对应的图像情感数据对标记为正例对；

当判断到两张图像的情感倾向标注不一致时，则将所述当前图像对应的图像情感数据对标记为反例对。

所述一种联合对比学习与自监督区域定位的图像情感预测方法，其中，在所述步骤二中，所述自监督区域定位网络的构建方法包括如下步骤：

选择一个深度学习网络作为主干网络，基于所述深度学习网络提取得到图像全局特征；

在所述图像全局特征中随机生成多个不同尺度的矩形区域框，根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量，并对所述情感信息量进行降序排序得到第一排序结果，其中所述第一排序结果为情感信息量排序结果；

将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中，计算每一个矩形区域框对应的情感信任值，根据多个所述情感信任值的大小对多个所述矩形区域框进行排序得到第二排序结果，其中所述第二排序结果为情感信任值排序结果；

根据所述第二排序结果，对所述第一排序结果进行监督，以最终生成与情感信任值排序相同的情感信息量排序；

选取情感信息量排序中情感信息量最高的N个图像局部区域，通过深度学习网络提取所述N个图像局部区域的局部特征，将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合，以得到融合特征，从而完成自监督区域定位网络的构建。

所述一种联合对比学习与自监督区域定位的图像情感预测方法，其中，所述深度学习网络包括SENet深度学习网络与ResNet深度学习网络；

在所述图像全局特征中随机生成多个不同尺度的矩形区域框的步骤中，多个不同尺度的矩形区域框对应表示为：

根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量，并对所述情感信息量进行降序排序的方法中，对应的公式表示为：

其中，

表示矩形区域框的最大数量，

表示矩形区域框，

表示第

个矩形区域框，

表示第

个矩形区域框的情感信息量。

所述一种联合对比学习与自监督区域定位的图像情感预测方法，其中，所述方法还包括：

选取前

个情感信息量最高的矩形区域框

作为候选矩形区域框，对应的情感信息量的第一排序结果为

；

将选取的

个矩形区域框重新输入至SENet深度学习网络中，提取每个矩形区域框的局部特征，计算得到对应的情感信任值的第二排序结果为

，其中，

表示第

个矩形区域框的情感信任值；

以情感信任值的第二排序结果为基准，用于指导情感信息量的排序，以使得情感信息量的第一排序结果与情感信任值的第二排序结果具有相同顺序；

选取情感信息量排序中情感信息量最高的N个图像局部区域，通过深度学习网络提取所述N个图像局部区域的局部特征，将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合，以得到融合特征，从而完成SENet自监督区域定位网络的构建。

所述一种联合对比学习与自监督区域定位的图像情感预测方法，其中，所述自监督区域定位网络对应的损失函数的表达式为：

其中，

表示自监督区域定位网络对应的损失函数，

表示第

个矩形区域框的情感信任值，

表示第

个矩形区域框的情感信任值，

表示第

个矩形区域框的情感信息量，

表示第

个矩形区域框的情感信息量；

表示合页损失函数，当

时，合页损失函数

使

。

所述一种联合对比学习与自监督区域定位的图像情感预测方法，其中，在所述步骤三中，通过对比学习方法，对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征的方法包括如下步骤：

基于步骤一中构造得到的图像情感数据对，用于学习得到一个编码器，使得

；

通过所述编码器，在特征空间中拉近相似正样本图像特征间的距离，并推远不相似负样本图像特征间的距离，使自监督区域定位网络最终输出的图像特征更具判别性；

其中，

表示度量函数，

表示样本的特征图，

表示正样本的特征图，

表示负样本的特征图，

表示与随机选取的样本

相似或同类的正样本，

表示与随机选取的样本

不相似或不同类的负样本。

所述一种联合对比学习与自监督区域定位的图像情感预测方法，其中，在所述步骤三中，对比学习方法对应的损失函数表示为：

其中，

表示对比学习方法的损失函数，

表示对随机选取的样本

进行损失函数计算，

表示样本特征图的逆矩阵，

表示第

个负样本的特征图，

表示第

个负样本。

所述一种联合对比学习与自监督区域定位的图像情感预测方法，其中，在所述步骤四中，对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合，以构建得到多视角特征回溯网络的方法包括如下步骤：

将预训练后的自监督区域定位网络、优化后的图像特征以及自适应特征进行融合，以得到完整网络：

将自监督区域定位网络获得的图像局部区域回溯至所述完整网络中，以提取所述图像局部区域中的局部图像特征并计算图像局部区域对应的情感信任值；

将候选矩形区域框对应的情感信息量的排序与图像局部区域的情感信任值的排序进行比对，以实现图像情感区域定位；

在完成了图像情感区域定位后，将图像全局特征与局部图像特征进行拼接融合，以最终完成多视角特征回溯网络的构建。

所述一种联合对比学习与自监督区域定位的图像情感预测方法，其中，所述多视角特征回溯网络对应的总损失函数表示为：

其中，

表示多视角特征回溯网络对应的总损失函数；

表示多视角特征回溯网络的交叉熵损失函数，

表示自监督区域定位网络的损失函数，

表示候选矩形区域框的识别结果，

表示样本的真实标签，

表示第

个候选矩形区域框。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的一种联合对比学习与自监督区域定位的图像情感预测方法的流程图；

图2为本发明中联合对比学习与自监督区域定位的图像情感预测的模型结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1与图2，本发明提出一种联合对比学习与自监督区域定位的图像情感预测方法，其中，所述方法包括如下步骤：

S101、获取图像情感数据集，并对所述图像情感数据集中的多个图像进行预处理操作，其中所述预处理操作包括数据增强操作以及图像情感数据对的构造。

在步骤S101中，首先从互联网下载图像情感数据集。其中，图像情感数据集包括多张图像，每张图像包含对应的情感倾向标注。其中，图像的情感倾向标注是多样化的，不仅局限于粗糙的积极或消极这两个类别，还可以是更细粒度的多个类别。

对图像情感数据集中的图像进行数据增强操作，具体的，数据增强操作包括如下步骤：

对所述图像情感数据集中的图像进行平移、旋转、失真、翻转或缩放操作，并将变换后的图像重新添加至所述图像情感数据集中。需要指出的是，该设置可使后续模型训练更充分，提高整个模型的鲁棒性与泛化性。

在完成数据增强操作之后，执行图像情感数据对的构造。具体的，图像情感数据对的构造的方法包括如下步骤：

S1011、对图像情感数据集中的其中一当前图像，从图像情感数据集中选取任意一张图像与所述当前图像进行配对；

S1012、当判断到两张图像的情感倾向标注一致时，则将当前图像对应的图像情感数据对标记为正例对；

S1013、当判断到两张图像的情感倾向标注不一致时，则将当前图像对应的图像情感数据对标记为反例对。

可以理解的，图像情感数据对在后续的对比学习中进行使用，促使模型提取更有效且判别性更强的图像特征。

S102、基于深度学习网络，构建得到两个自监督区域定位网络，并对两个所述自监督区域定位网络分别进行预训练。

在步骤S102中，构建的自监督区域定位网络的数量为两个。其中一个自监督区域定位网络的构建方法包括如下步骤：

S1021、选择一个深度学习网络作为主干网络，基于深度学习网络提取得到图像全局特征。

S1022、在所述图像全局特征中随机生成多个不同尺度的矩形区域框，根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量，并对所述情感信息量进行降序排序得到第一排序结果，其中第一排序结果为情感信息量排序结果。

S1023、将所有的矩形区域框进行尺度归一化后重新输入至所述深度学习网络中，计算每一个矩形区域框对应的情感信任值，根据多个情感信任值的大小对多个所述矩形区域框进行排序得到第二排序结果，其中第二排序结果为情感信任值排序结果。

S1024、根据所述第二排序结果，对所述第一排序结果进行监督，以最终生成与情感信任值排序相同的情感信息量排序。

S1025、选取情感信息量排序中情感信息量最高的N个图像局部区域，通过深度学习网络提取所述N个图像局部区域的局部特征，将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合，以得到融合特征，从而完成自监督区域定位网络的构建。

作为补充的，针对于另一个自监督区域定位网络的构建，再选择另一个深度学习网络作为主干网络，重复上述S1021至S1025步骤，构建出第二个自监督区域定位网络。

在具体实施时，选择SENet与ResNet这两个深度学习网络为例，具体说明自监督区域定位网络的构建过程，其它网络类似。也即，上述的深度学习网络包括SENet深度学习网络与ResNet深度学习网络。

具体的，使用SENet深度学习网络提取图像全局特征，然后在图像全局特征中随机生成多个不同尺度的矩形区域框。其中，多个不同尺度的矩形区域框对应表示为：

进一步的，根据每个矩形区域框中的图像特征计算得到每个矩形区域框的情感信息量，并对所述情感信息量进行降序排序的方法中，对应的公式表示为：

其中，

表示矩形区域框的最大数量，

表示矩形区域框，

表示第

个矩形区域框，

表示第

个矩形区域框的情感信息量。

为了减少区域冗余，采用非极大值抑制法选取前

个情感信息量最高的矩形区域框

作为候选矩形区域框，对应的情感信息量的第一排序结果为

；

将选取的

，其中，

表示第

个矩形区域框的情感信任值。

进一步的，以情感信任值的第二排序结果为基准，用于指导情感信息量的排序，以使得情感信息量的第一排序结果与情感信任值的第二排序结果具有相同顺序，也即

与

具有相同的顺序。

其中，自监督区域定位网络对应的损失函数的表达式为：

其中，

表示自监督区域定位网络对应的损失函数，

表示第

个矩形区域框的情感信任值，

表示第

个矩形区域框的情感信任值，

表示第

个矩形区域框的情感信息量，

表示第

个矩形区域框的情感信息量；

表示合页损失函数，当

时，合页损失函数

使

。

最后，选取情感信息量排序中情感信息量最高的N个图像局部区域，通过深度学习网络提取所述N个图像局部区域的局部特征，将所述图像全局特征与所述N个图像局部区域的局部特征进行拼接融合，以得到融合特征，从而完成SENet自监督区域定位网络的构建。

作为补充的，M为正整数，可为1、2、3、4、5、6、7、8、9或10，根据不同情况进行设置。此外，N为正整数，可为1、2、3、4、5、6、7、8、9或10，可根据不同情况进行设置，但N的值必须小于或等于M。

同理，采用类似的方法，基于ResNet深度学习网络构建另一个自监督区域定位网络。

进一步的，对上述两个自监督区域定位网络分别进行预训练。其中，预训练的主要目的是为了确保自监督区域定位网络能够准确定位图像中情感语义强烈的局部区域，为局部图像特征的提取奠定坚实基础。

在具体实施中，为了确保自监督区域定位的准确性，在预训练中会设计全连接层与Softmax层，对融合特征进行分类，以得到图像情感倾向预测结果。具体的，采用图像情感数据集中的情感倾向标注对预测结果作指导，提高网络对图像情感区域定位的精准度。在预训练中，使用交叉熵损失函数对每个自监督区域定位网络进行优化。每一个候选矩形区域框都通过最小化真实标签和预测结果的交叉熵损失来完成优化，对应的交叉熵损失函数表示为：

其中，

表示自监督区域定位网络的损失函数，

表示样本真实标签对应的情感信任值，

表示样本真实标签。

S103、通过对比学习方法，对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征。

在步骤S103中，通过对比学习方法，对所述自监督区域定位网络输出的图像特征的判别性进行增强以得到优化后的图像特征的方法包括如下步骤：

S1031、基于步骤S101中构造得到的图像情感数据对，用于学习得到一个编码器，使得

；

S1032、通过所述编码器，在特征空间中拉近相似正样本图像特征间的距离，并推远不相似负样本图像特征间的距离，使自监督区域定位网络最终输出的图像特征更具判别性；

其中，

表示度量函数，

表示样本的特征图，

表示正样本的特征图，

表示负样本的特征图，

表示与随机选取的样本

相似或同类的正样本，

表示与随机选取的样本

不相似或不同类的负样本。

在本实施例中，对比学习方法对应的损失函数表示为：

其中，

表示对比学习方法的损失函数，

表示对随机选取的样本

进行损失函数计算，

表示样本特征图的逆矩阵，

表示第

个负样本的特征图，

表示第

个负样本。

S104、对两个所述自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合，以构建得到多视角特征回溯网络。

在步骤S104中，对两个自监督区域定位网络中得到的优化后的图像特征进行自适应特征融合，以构建得到多视角特征回溯网络的方法包括如下步骤：

S1041、将预训练后的自监督区域定位网络、优化后的图像特征以及自适应特征进行融合，以得到完整网络：

S1042、将自监督区域定位网络获得的图像局部区域回溯至所述完整网络中，以提取所述图像局部区域中的局部图像特征并计算图像局部区域对应的情感信任值；

S1043、将候选矩形区域框对应的情感信息量的排序与图像局部区域的情感信任值的排序进行比对，以实现图像情感区域定位；

S1044、在完成了图像情感区域定位后，将图像全局特征与局部图像特征进行拼接融合，以最终完成多视角特征回溯网络的构建。

在具体实施中，首先针对整幅图像进行全局特征提取，随后根据提取的图像全局特征生成多个不同尺度的候选矩形区域框，对每个候选矩形区域框分别计算情感信息量并降序排列。其中，情感信息量排名高的候选矩形区域框蕴含较为准确的情感倾向，可提取图像特征以有助于提升情感预测精度，因此将这些候选矩形区域框回溯至完整网络中，以提取图像特征并计算情感信任值。然后，再对比所计算出的候选矩形区域框的情感信息量排序与情感信任值排序，最终实现图像情感区域定位。在完成图像情感区域定位之后，将已提取的图像全局特征与局部特征进行拼接融合，从而完成多视角特征回溯网络的构建。

在具体实施中，完整网络在选出N个候选矩形区域框之后，将候选矩形区域框调整为预定义大小（224×224），将这些候选矩形区域框回溯至完整网络中，以生成每个候选矩形区域框的局部特征向量（2048维）。将这些局部图像特征与全局图像特征进行拼接，即充分利用图像中的上下文信息（粗粒度）和局部信息（细粒度）完成情感预测。

具体的，上述的多视角特征回溯网络对应的总损失函数表示为：

其中，

表示多视角特征回溯网络对应的总损失函数；

表示多视角特征回溯网络的交叉熵损失函数，

表示自监督区域定位网络的损失函数，

表示候选矩形区域框的识别结果，

表示样本的真实标签，

表示第

个候选矩形区域框。

S105、将所述多视角特征回溯网络的最后一层、与全连接层以及Softmax层进行连接，以构建得到图像情感预测模型。

S106、将待处理图像输入至所述图像情感预测模型中，以最终输出得到待处理图像对应的情感倾向。

本发明具有如下有益效果：

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。