CN112668638A

CN112668638A - 一种图像美学质量评估和语义识别联合分类方法及系统

Info

Publication number: CN112668638A
Application number: CN202011567815.XA
Authority: CN
Inventors: 尹义龙; 刘祥飞; 聂秀山
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-16

Abstract

本发明提供了一种图像美学质量评估和语义识别联合分类方法及系统，获取已有图像，以及已有图像对应的美学类别和语义类别标注信息，构建训练数据集；对训练集中的所有图像进行预处理；构建神经网络模型，所述神经网络模型包含两个并行网络分支，两个并行网络分支分别对输入图像进行美学分类和语义分类，并引入跨分支连接层来关联两个分支的任务；利用训练集对神经网络模型进行训练，直到训练后的神经网络模型满足设定要求；利用训练得到的神经网络模型，对待处理图像进行分类，确定待处理图像所属的美学类别和语义类别。本发明充分利用了图像美学和语义分类两个任务之间的关联特性，有效提高了分类准确性。

Description

一种图像美学质量评估和语义识别联合分类方法及系统

技术领域

本发明属于计算机视觉、图像处理技术领域，具体涉及一种图像美学质量评估和语义识别联合分类方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着互联网的高速发展和网络宽带速度的大幅提高，近年来，由互联网用户产生图像等多媒体信息呈现井喷式的增长。面对海量图像资源的增加，单纯利用人工进行图像的审核显然效率太低。如何使计算机能够在语义层面对图像的内容进行分析，甚至使计算机能够模拟人类视觉及思维系统并产生更高层次的感知能力，已经成为了目前多媒体及大数据分析的重点研究方向。

目前，图像的美学分类和语义分类技术已经被应用在图像的存储、编辑、检索等方面。对于个人用户而言，能否从海量图片中快速的检索出符合自己审美的图片是十分重要的；而对于互联网企业用户来说，有效的图片美学分类能够对用户进行精准的内容推荐和广告投放。例如，针对用户拍摄的关于同一物体或场景的多张候选照片，筛选最具美感的作品保存和展示，合理地降低数据的存储开销；在图像作品的创作和编辑中，分析对比候选方案的美学质量，提升作品的视觉美感；在图像检索系统中，考虑返回图像的语义内容，为用户提供语义准确且更有感染力的检索结果。

图像美学质量评估是一项具有挑战性的任务，计算机需要在评估过程中提取图像信息的更深层表达。在语义识别任务中，计算机需要提取图像中的主要内容信息，这是提取高级抽象特征之前的一项基础工作。因此，自动实现对图像的美感分类和语义识别是非常具有挑战性的任务。近年来，得益于带有美感标记和语义标记的大规模图像数据集的出现，基于机器学习的方法被广泛采用。方法的核心步骤是提取在分类任务上具有良好区分能力的图像视觉特征。早期的方法主要依赖人工设计的特征，需要研究者对问题本身有深入的了解。随着深度学习在计算机视觉领域的兴起，近期的方法主要利用卷积神经网络自动地抽取特征用于图像美感和语义分类，并获得了较好的效果。

值得注意的是，尽管当前的研究已取得重大进展，但是图像美学评估通常被视为一项独立的任务。现实中，人们经常通过识别图像的语义内容来评估美学质量，当要求进行美学评估时，人们会首先解释图像的语义内容然后进行评估。审美评估和语义识别是紧密相连的，并在人类感知水平上相互促进。考虑到审美评估和语义识别任务之间的内在联系，因此应将图像的美感分类和语义识别两个任务关联起来，作为一个整体来解决。

发明内容

本发明为了解决上述问题，提出了一种图像美学质量评估和语义识别联合分类方法及系统，本发明考虑到审美评估和语义识别任务之间的内在联系，将图像的美感分类和语义识别两个任务关联起来，作为一个整体来解决，使两个任务之间可以有效地共享信息，实现对图像的美学分类和语义识别分类联合识别，效果提升显著，更适合于实际应用。

根据一些实施例，本发明采用如下技术方案：

一种图像美学质量评估和语义识别联合分类方法，包括以下步骤：

1)获取已有图像，以及已有图像对应的美学类别和语义类别标注信息，构建训练数据集；

2)对训练集中的所有图像进行预处理；

3)构建神经网络模型，所述神经网络模型包含两个并行网络分支，两个并行网络分支分别对输入图像进行美学分类和语义分类，并引入跨分支连接层来关联两个分支的任务；

4)利用训练集对神经网络模型进行训练，直到训练后的神经网络模型满足设定要求；

5)利用训练得到的神经网络模型，对待处理图像进行分类，确定待处理图像所属的美学类别和语义类别。

作为可选择的实施方式，所述步骤(1)中，获取多幅图像，获取不同人员对于每一幅图像的共同标注，将共识度最高的类别作为该图像的最终类别。

作为可选择的实施方式，所述步骤(2)中，对于训练集中图像的预处理包括对图像依次进行尺寸统一、像素处理和翻转处理。

作为进一步的限定，具体包括：将所有训练图像放缩到统一大小的尺寸；计算训练图像的像素平均值，并使每一幅图像分别减去该均值；在每次训练迭代时，从图像的随机位置处裁剪出一块固定大小图像块，并以一定概率对图像块进行水平翻转。

作为可选择的实施方式，所述步骤(3)的具体过程包括：

(3-1)构造两个并行的网络分支，两个网络分支接受同一幅输入图像，并分别对输入图像进行美学分类和语义识别；

(3-2)引入跨分支连接层，将两个网络分支中对应的卷积层组进行连接，提取两个网络分支的图像特征图，并进行感知融合，将融合后的图像重新输入对应网络分支；

(3-3)利用用于美学质量评价的网络分支确定图像所属美学类别概率，利用用于语义识别的网络分支确定图像所属语义类别的概率。

作为进一步的限定，所述步骤(3-1)中，每个网络分支都基于ResNet50网络结构，由4个卷积层组、3个全连接层组成。

作为进一步的限定，所述步骤(3-2)中，所述跨分支连接层包括通道方向和空间方向两个特征增强子模块，两个网络分支的卷积层组输出的图像特征图分别传输到两个子模块进行堆叠。

作为进一步的限定，通道方向子模块使用平均池化来提取图像特征图，然后送入由两个隐藏层组成的多层感知机中产生通道模块的特征增强向量；空间特征增强子模块对美学和语义中间特征图采用池化操作对通道信息进行聚合，计算一个二维描述符对所有空间位置的通道信息进行编码，对二维描述符进行特征增强和归一化，进而对强调或抑制的位置进行编码来生成特征增强图，并在空间方向将两个任务特征进行融合。

作为进一步的限定，两个子模块将重新输出新的图像特征图重新融合，并保持图像特征图的大小和通道数目不变，最终分别将新的图像特征图送入对应网络分支后续的卷积层组或全连接层。

作为可选择的实施方式，所述步骤(4)中，采用交叉熵损失函数，定义在美学分类上的损失为L_a，在语义分类上的损失为L_s，则总的损失函数为L＝L_a+L_s。采用随机梯度下降算法对网络进行训练，确定能使得损失函数最小的网络权重。

一种图像美学质量评估和语义识别联合分类系统，包括：

训练集构建模块，被配置为获取已有图像，以及已有图像对应的美学类别和语义类别标注信息，构建训练数据集；

预处理模块，被配置为对训练集中的所有图像进行预处理；

网络模型构建模块，被配置为被配置为构建神经网络模型，所述神经网络模型包含两个并行网络分支，两个并行网络分支分别对输入图像进行美学分类和语义分类，并引入跨分支连接层来关联两个分支的任务；

网络模型训练模块，被配置为利用训练集对神经网络模型进行训练，直到训练后的神经网络模型满足设定要求；

分类模块，被配置为利用训练得到的神经网络模型，对待处理图像进行分类，确定待处理图像所属的美学类别和语义类别。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的一种图像美学质量评估和语义识别联合分类方法的步骤。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的一种图像美学质量评估和语义识别联合分类方法的步骤。

与现有技术相比，本发明的有益效果为：

本发明将多任务学习的思想运用到图像的美学分类和语义识别分类上来，充分利用了两个任务之间的关联特性，并设计统一的神经网络框架，使两个任务之间可以有效地共享信息，实现对图像的美学分类和语义识别分类联合识别，效果提升显著。

本发明通过将通道特征增强向量分别与两个任务输入的特征图进行点乘并与另一个任务特征图进行融合，可以对单任务进行特征校准，以提升单个任务的有效特征，抑制无效特征，有助于保证计算过程的简便性和有效性，有助于提高识别效果准确率。

本发明考虑到审美评估和语义识别任务之间的内在联系，将图像的美感分类和语义识别两个任务关联起来，作为一个整体来解决，符合人们在进行图像存储、编辑，或者图像检索、推荐等应用时，更加贴合场景、用户需求，保证准确性和适用性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本实施例提供的方法流程图；

图2是深度卷积神经网络示意图。

图3是跨分支连接层示意图。

具体实施方式：

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，基于深度多任务学习的图像美学分类和语义分类方法，包括以下步骤：

1、获取用于训练的图像集合，并标注每幅图像对应的美学类别和语义类别。

在本步骤中，在图像美学分类问题中，本实施例将图像分为高美感和低美感两类；在图像语义分类问题中，本实施例将图像分为动物、植物、静态、建筑、风景、人类和夜晚共计七个基础语义类别。

当然，由于人们对图片的美学质量评价和语义识别都带有主观性，存在明显的个体差异。因此，对于图像的美学类别和语义类别的标注，可以采用多人对同一幅图像进行共同标注的策略，之后取共识度最高的类别作为图像最终的类别。

2、对训练图像进行预处理。

具体的，将所有训练图像放缩到统一大小的尺寸，本实施例将图像放缩到256*256像素；然后，计算训练图像的像素平均值，并使每一幅图像分别减去该均值；最后，在每次训练迭代时，从图像的随机位置处裁剪出一块固定大小图像块，并以一定概率对图像块进行水平翻转。通过这种方式，可以有效地扩充训练样本的数量，提升训练样本的多样性。本实施例选取的是224*224像素大小的图像块，每次进行水平翻转操作的概率为0.5。

当然，在其他实施例中，上述参数可以根据具体要求或场景进行更换，在此不再赘述。

3、构造一个深度卷积神经网络。

在本实施例中，该网络的结构如图2所示。网络共包含两个并行分支，它们接受同一幅输入图像，并分别负责对输入图像进行美学分类和语义分类。每个网络分支的结构相同，都基于ResNet50网络结构。每个网络分支由4个卷积层组、1个全连接层和1个Softmax层组成。其中，单个卷积层组内包含多个连续的卷积层和1个最大池化层，其目的是提取有效的图像特征图。

全连接层对最后一个卷积层组输出的图像特征图进行多次非线性变换，将其映射为一个列向量。向量的维度等于美学类别或语义类别的个数，每一维对应一个特定的美学类别或语义类别。经过最终的Softmax层后的向量的每一维被转换为一个概率值，代表输入图像属于对应类别的概率。网络分支中每一层的具体结构和参数设定参照ResNet50网络模型。

当然，其他实施例中，可以对本实施例提供的神经网络进行进一步优化。

引入跨分支连接层，将两个网络分支中对应的卷积层组进行连接，跨分支连接层的结构，如图3所示。跨分支连接层包含的两个子模块分别将两个卷积层组输出的图像特征图作为输入，并将经过两个子模块处理后的特征图进行堆叠。在通道特征增强子模块中，假设堆叠前单个图像特征图的通道个数为K，则堆叠后图像特征图的通道个数为2K。

然后，将堆叠后的图像特征图分别输入到包含两个隐藏层的感知机中得到通道增强向量，与对应任务相乘后与原任务融合，通过这种方式输出新的图像特征图，并且新的图像特征图的大小不变，通道个数恢复为K；在空间特征增强子模块中，假设堆叠前单个图像特征图的大小为H*W，则与空间特征增强矩阵相乘并堆叠后图像特征图的大小依然为H*W。

最终分别将两个子模块生成的对应的图像特征图相融合，并送入各自网络分支后续的卷积层组或全连接层。从直观上看，跨分支连接层使两个网络分支之间以交换图像特征图的方式来共享信息，并方便模型在训练过程中自动地学习决定两个任务分别需要哪些信息；

4、利用训练图像对深度卷积神经网络进行训练。

除最后一层全连接层和跨分支连接层外，每个网络分支各层的权重均采用在ImageNet数据集上预训练的ResNet50模型的权重来初始化，对最后一层全连接层和跨分支连接层的权重进行随机初始化。

在本实施例中，可以定义损失函数，例如采用交叉熵损失函数，定义在美学分类上的损失为La，在语义分类上的损失为Ls，则总的损失函数为L＝La+Ls。采用随机梯度下降算法对网络进行训练，确定能使得损失函数最小的网络权重为最终权重。

当然，在其他实施例中，可以选择用其他损失函数或者其他标准来衡量训练效果。

5、利用训练得到的深度卷积神经网络同时预测给定图像的美学类别和语义类别。

给定一幅图像，首先将其放缩到224*224像素，然后将图像输入训练好的网络，得到它属于各美学类别和各语义类别的概率，最后选取概率最大的类别作为图像的预测美学类别和语义类别。

在实施例部分，还提供以下产品实施例：

基于深度多任务学习的图像美学分类和语义分类系统，包括：

预处理模块，被配置为对训练集中的所有图像进行预处理；

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述实施例提供的基于深度多任务学习的图像美学分类和语义分类方法的步骤。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述实施例提供的基于深度多任务学习的图像美学分类和语义分类方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种图像美学质量评估和语义识别联合分类方法，其特征是：包括以下步骤：

2)对训练集中的所有图像进行预处理；

2.如权利要求1所述的一种图像美学质量评估和语义识别联合分类方法，其特征是：所述步骤(1)中，获取多幅图像，获取不同人员对于每一幅图像的共同标注，将共识度最高的类别作为该图像的最终类别。

3.如权利要求1所述的一种图像美学质量评估和语义识别联合分类方法，其特征是：所述步骤(2)中，对于训练集中图像的预处理包括对图像依次进行尺寸统一、像素处理和翻转处理；

或，将所有训练图像放缩到统一大小的尺寸；计算训练图像的像素平均值，并使每一幅图像分别减去该均值；在每次训练迭代时，从图像的随机位置处裁剪出一块固定大小图像块，并以一定概率对图像块进行水平翻转。

4.如权利要求1所述的一种图像美学质量评估和语义识别联合分类方法，其特征是：所述步骤(3)的具体过程包括：

5.如权利要求4所述的一种图像美学质量评估和语义识别联合分类方法，其特征是：所述步骤(3-1)中，每个网络分支都基于ResNet50网络结构，由4个卷积层组、3个全连接层组成；

或，所述步骤(3-2)中，所述跨分支连接层包括通道方向和空间方向两个特征增强子模块，两个网络分支的卷积层组输出的图像特征图分别传输到两个子模块进行堆叠。

6.如权利要求5所述的一种图像美学质量评估和语义识别联合分类方法，其特征是：通道方向子模块使用平均池化来提取图像特征图，然后送入由两个隐藏层组成的多层感知机中产生通道模块的特征增强向量；空间特征增强子模块对美学和语义中间特征图采用池化操作对通道信息进行聚合，计算一个二维描述符对所有空间位置的通道信息进行编码，对二维描述符进行特征增强和归一化，进而对强调或抑制的位置进行编码来生成特征增强图，并在空间方向将两个任务特征进行融合；

或，两个子模块将重新输出新的图像特征图重新融合，并保持图像特征图的大小和通道数目不变，最终分别将新的图像特征图送入对应网络分支后续的卷积层组或全连接层。

7.如权利要求1所述的一种图像美学质量评估和语义识别联合分类方法，其特征是：所述步骤(4)中，采用交叉熵损失函数，定义在美学分类上的损失为L_a，在语义分类上的损失为L_s，则总的损失函数为L＝L_a+L_s。采用随机梯度下降算法对网络进行训练，确定能使得损失函数最小的网络权重。

8.一种图像美学质量评估和语义识别联合分类系统，其特征是：包括：

预处理模块，被配置为对训练集中的所有图像进行预处理；

9.一种计算机可读存储介质，其特征是：其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行如权利要求1-7中任一项所述的一种图像美学质量评估和语义识别联合分类方法的步骤。

10.一种终端设备，其特征是：包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7中任一项所述的一种图像美学质量评估和语义识别联合分类方法的步骤。