CN113569975A

CN113569975A - 一种基于模型融合的素描作品评级方法及装置

Info

Publication number: CN113569975A
Application number: CN202110893116.2A
Authority: CN
Inventors: 余松森; 卢林娜; 梁军
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-10-29

Abstract

本发明涉及一种基于模型融合的素描作品评级方法及装置。本发明所述的基于模型融合的素描作品评级方法包括：获取待评级的素描作品；构建素描作品评级模型，所述素描作品评级模型由第一子模型和第二子模型融合得到，其中，所述第一子模型为ResNeSt模型，所述第二子模型为LSTM模型；将所述待评级的素描作品输入所述素描作品评级模型，得到所述素描作品的评级结果。本发明所述的一种基于模型融合的素描作品评级方法基于ResNeSt和LSTM迁移模型，将模型融合结果进行加权平均得到最终结果，具有结果更加稳定可靠的优点。与前述方法对应，本发明还提供一种基于模型融合的素描作品评级装置。

Description

一种基于模型融合的素描作品评级方法及装置

技术领域

本发明涉及图像分类的技术领域，特别涉及一种基于模型融合的素描作品评级方法及装置。

背景技术

素描作品评级问题实质可转换为图像分类问题，随着越来越多的机器学习应用场景的出现，而现有表现比较好的监督学习需要大量的标注数据，标注数据是一项枯燥无味且花费巨大的任务，现下主流的人工智能算法——深度学习算法提出了一种让计算机自动学习出模式特征的方法，并将特征学习融入到了建立模型的过程中，从而减少了人为设计特征造成的不完备性。而目前以深度学习为核心的某些机器学习应用，在满足特定条件的应用场景下，已经达到了超越现有算法的识别或分类性能。这两年迁移学习受到越来越多的关注，通过迁移学习来使用低层次的图像特征，如边缘、纹理等，借助一个预训练的模型resnet50，训练自己的分类器来学习数据集图像中更高级的细节，通过concat融合方式融合高低层的特征来提升检测和分割的性能，增加模型的卷积信息，素描评级方法主要有：

基于Tensor Sketch算法投影后的双线性卷积特征方法：利用AlexNet在ImageNet数据集上预训练卷积神经网络模型提取第6层全连接层的输出作为卷积特征,与传统手工特征(颜色直方图特征,纹理特征和SIFT+BoW)分别结合线性SVM进行对比实验。

但基于Tensor Sketch算法投影后的双线性卷积特征方法使用的分类算法为线性SVM，而SVM理论都使用固定惩罚系数C，但是正负样本的两种错误造成的损失是不一样的，正确率不够高，数据集的标注也未提及，导致最终结果不可靠。

发明内容

基于此，本发明的目的在于，提供一种基于模型融合的素描作品评级方法及装置，算法基于ResNeSt和LSTM迁移模型，将模型融合结果进行加权平均得到最终结果，使得结果更加稳定可靠。

第一方面，本发明提供一种基于模型融合的素描作品评级方法，包括以下步骤：

获取待评级的素描作品；

构建素描作品评级模型，所述素描作品评级模型由第一子模型和第二子模型融合得到，其中，所述第一子模型为ResNeSt模型，所述第二子模型为LSTM模型；

将所述待评级的素描作品输入所述素描作品评级模型，得到所述素描作品的评级结果。

进一步地，构建素描作品评级模型，包括：

收集素描作品及其分类等级，构建训练数据集；

构建所述第一子模型和所述第二子模型；

使用所述训练数据集对所述第一子模型和所述第二子模型进行深度学习训练，得到所述第一子模型和所述第二子模型的最优参数；

将训练好的所述第一子模型和所述第二子模型进行融合，得到素描作品评级模型。

进一步地，构建第一子模型的步骤包括：

构建ResNeSt模型；

在所述ResNeSt模型的全连接层后，顺次加入dropout层和maxout层。

进一步地，所述dropout层的dropout概率为0.5。

进一步地，将待评级的素描作品输入所述素描作品评级模型，得到所述素描作品的评级结果，包括：

设置第一子模型预测结果pred1的第一权重w1，第二子模型预测结果pred2的第二权重w2；

根据以下公式得到所述素描作品的评级结果：

ensemble＝pred1*w1+pred2*w2

其中，ensemble为所述素描作品评级模型的预测结果，pred1为第一子模型的预测结果，w1为第一子模型预测结果对应的第一权重，pred2为第二子模型的预测结果，w2为第二子模型预测结果对应的第二权重。

进一步地，w1＝0.6，w2＝0.4。

进一步地，收集素描作品及其分类等级，构建训练数据集，包括：

收集素描作品；

获取每张素描作品对应的评级结果；

根据所述评级结果对每张素描作品进行评级标注；

对每张素描作品进行数据增强处理，使数据量扩充到原来的四倍。

进一步地，对每张素描作品进行数据增强处理，包括：

对每张素描作品进行裁剪、翻转、旋转、色调变化处理。

第二方面，本发明还提供一种基于模型融合的素描作品评级装置，包括：

作品获取模块，用于获取待评级的素描作品；

模型构建模块，用于构建素描作品评级模型，所述素描作品评级模型由第一子模型和第二子模型融合得到，其中，所述第一子模型为ResNeSt模型，所述第二子模型为LSTM模型；

评级结果获取模块，用于将待评级的素描作品输入所述素描作品评级模型，得到所述素描作品的评级结果。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明提供的一种基于模型融合的素描作品评级方法的流程图；

图2为本发明所使用的ResNeSt模型结构示意图；

图3为本发明所使用的ResNeSt模型的Split-Attention块的结构示意图；

图4为本发明的一个实施例中加入dropout和maxout后的神经网络图；

图5为本发明的一个实施例中LSTM模型的训练过程示意图；

图6本发明提供的一种基于模型融合的素描作品评级装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

针对背景技术中的问题，本发明提供一种基于模型融合的素描作品评级方法，如图1所示，该方法包括以下步骤：

S1：获取待评级的素描作品。

对于手绘的素描作品，可以通过拍照、扫描等方式，获得电子图片，通过裁剪将图片短边缩放至500，并通过中心裁剪，使最终长宽比保持不变。

S2：构建素描作品评级模型，所述素描作品评级模型由第一子模型和第二子模型融合得到，其中，所述第一子模型为ResNeSt模型，所述第二子模型为LSTM模型。

ResNeSt模型是基于ResNet模型的改进。ResNet模型在架构设计上很简单，有效，但是由于其本身最初适用于分类任务，因为感受野大小和缺乏跨通道的交互的问题，其实可能不太适用于下流的其他任务。ResNeSt模型提出了Split-Attention模块，整合了跨通道的注意力机制，同时保持了ResNet架构的简单。

如图2所示，ResNeSt模型将特征分为几组，特征图组的数量由基数超参数K给出，将所得的特征图组称为基数组，再引入一个基数超参数R，该基数指示cardinal group内的split数目，因此特征组的总数为G＝KR。对每个单独的组应用一系列变换{F₁,F₂…F_G}，然后对于特征组i∈{1,2...,G}，每个组的中间表示为U_i＝F_i(x)。

接下来，通过对多个分割进行元素求和融合，可以获得每个基数组的组合表示。第k个基数群的表示为：

其中

当k∈1,2...K，H，和C表示块输出特W征图大小，j表示R个split里的第j个特征组。

如图3所示，嵌入信道统计的全局上下文信息可以通过跨空间维度s^k∈R^C/K的全局平均池化来收集组件，第c通道的通道权重统计量计算如下：

用V^k表示携带了通道权重后的Cardinal输出：V^k∈R^H×W×C/K，是使用通道级软注意进行聚合的，其中每个特征映射通道都是使用分割上的加权组合生成的。第c个通道计算如下：

其中

表示分配权重，由以下公式计算得到：

映射

基于全局上下文表示s^k确定第c信道的每个分割的权重。

最后，利用以下公式，将基数组维级联：

V＝Concat{V₁,V₂...V_k}

其中，V表示每个Cardinal合并后的输出，V₁,V₂...V_k表示每一个Cadinal的输出结果。

LSTM(长短时记忆单元)模型通过cell门开关实现时间上的记忆功能，并防止梯度消失，能够解决传统RNN存在无法解决长时依赖的问题。

模型融合是综合考虑不同模型的情况，并将它们的结果融合到一起，融合结果的精确度将高于两个模型的预测结果。

S3：将所述待评级的素描作品输入所述素描作品评级模型，得到所述素描作品的评级结果。

最终的评级结果为两个模型融合后输出的结果，因此，可设置第一子模型预测结果pred1的第一权重w1，第二子模型预测结果pred2的第二权重w2。

根据以下公式得到所述素描作品的评级结果：

ensemble＝pred1*w1+pred2*w2

优选的，w1＝0.6，w2＝0.4。

本发明提供的一种基于模型融合的素描作品评级方法，采用了一种基于CNN和RNN迁移模型的模型融合算法，算法基于ResNeSt和LSTM迁移模型，将模型融合结果进行加权平均得到最终结果，使得结果更加稳定可靠。

为了解决数据集主观性太强、数据集偏少和ResNeSt模型训练过程中出现过拟合等问题，在一个优选的实施例中，本发明提供的一种基于模型融合的素描作品评级方法包括以下步骤：

S11：收集素描作品及其分类等级，构建训练数据集。

具体的，可以细分为以下子步骤：

S111：从不同高校及机构收集不同的素描作品；

S112：邀请不同的素描老师对所收集的每一张素描进行打分，将所有老师对每一张素描作品的打分进行加权平均，将加权平均的结果作为该素描作品最终的等级，最后进行标注。其中一个素描老师的评分为m,第i个老师的评分为m_i,那么n个老师的最终评分为

将80～90分的设为等级A，将60～80分的设为等级B，将40～60分为等级C，将低于40分的设为等级D，最后将素描作品进行的A、B、C、D的等级标注。

S113：对每一张素描作品进行裁剪、翻转、旋转、色调变化来进行数据增强，使数据量扩充到原来的四倍。因为素描的评价标准中会考虑素描作品的构图问题，因此可通过裁剪将图片短边缩放至500，以及中心裁剪，使最终长宽比保持不变。

S12：构建ResNeSt模型，并加入dropout和maxout防止过拟合。

在ResNeSt模型的全连接层后，顺次加入dropout层和maxout层。

Dropout是前向网络结构中给定输入向量，预测输出的一种技术。是常用于解决深层网络过拟合问题的随机正则化技术，其思想是在训练过程中，从神经单元中随机丢弃神经元以及它们的连接，从而防止了神经元之间过度的协同适应。dropout机制是随机的选择dropout可以增加隐层神经元的健壮性，随机丢弃一些神经元，实际上是修改了原模型的结构，每次迭代都训练了一个不同的架构，Dropout是由输入向量和输出中的部分变量训练出模型的集成模型，即集成每个批量所训练的不同网络架构。

Maxout是一种神经网络的激活函数。神经网络需要激活函数是因为数据的分布绝大多数是非线性的，而一般神经网络的计算是线性的，引入激活函数，是在神经网络中引入非线性，强化网络的学习能力。所以激活函数的最大特点就是非线性。不同的激活函数，根据其特点，应用也不同。例如Sigmoid和tanh的特点是将输出限制在(0,1)和(-1,1)之间，说明Sigmoid和tanh适合做概率值的处理，例如LSTM中的各种门；而ReLU无最大值限制，可能会出现很大值。同样，根据ReLU的特征，Relu适合用于深层网络的训练，而Sigmoid和tanh用于深层网络的训练则会出现梯度消失。Maxout激活函数与常规激活函数不同，它是一个可学习的分段线性函数。图4为在dropout的基础上加入maxout的神经网络图，每4个灰色神经元为maxout单元，在4个灰色单元的输出中取一个最大值作为白色单元的输出。取最大值本身就是一种非线性，所以灰色单元就可以使用线性激活函数。

具体的修改方式为：修改原ResNeSt模型的全连接层，将最后一层输出的2048个神经元做变换，对全连接层dropout50％，将原全连接层的神经元连接到等数量的全连接层神经元层，随机失效50％，后面连接一个maxout层。如图4所示，图4为本发明的一个实施例中加入dropout和maxout后的神经网络图，maxout增加神经网络各层之间的非线性关系，和dropout一起降低了过拟合，提高了模型的准确性和稳定性。

S13：构建LSTM模型。

S14：使用训练数据集对修改过的ResNeSt模型和LSTM模型进行训练。

学习率设置为0.01，动量设置为0.9，不断调整maxout中的K参数、dropout的p参数、batch_size参数等，得到各自的最优参数。

如图5所示，LSTM模型的训练过程如下：第i层神经元在t时刻的输入，除了(i-1)层神经元在该时刻的输出外，还包括其自身在(t-1)时刻的输出。

对于LSTM，要处理的数据是一个序列数据，对于图片而言，要将其转换成序列数据，图片的大小是500×500，所以可以将其看成长度为500的序列，序列中的每个数据的维度是500，这样就可以将图片变成一个序列数据了。长度为500的序列传入LSTM之后输出的也是长度为500，而输入的维数是500，通过256个隐藏层，输出的维数定义为128，最后只取输出的最后一个部分传入分类器，再通过分类器，输出4个结果表示每种结果的概率。

S15：将训练好的ResNeSt模型和LSTM模型进行融合。

S16：将所述待评级的素描作品输入所述素描作品评级模型，得到所述素描作品的评级结果。

具体的，设置第一子模型预测结果pred1的第一权重w1＝0.6，第二子模型预测结果pred2的第二权重w2＝0.4；

根据公式ensemble＝pred1*w1+pred2*w2，得到所述素描作品的评级结果。

第二方面，与前述方法对应，本发明还提供一种基于模型融合的素描作品评级装置，如图6所示，该装置包括：

作品获取模块，用于获取待评级的素描作品；

优选的，模型构建模块包括：

数据集获取单元，用于收集素描作品及其分类等级，构建训练数据集；

子模型构建单元，用于构建所述第一子模型和所述第二子模型；

子模型训练单元，用于使用所述训练数据集对所述第一子模型和所述第二子模型进行深度学习训练，得到所述第一子模型和所述第二子模型的最优参数；

模型融合单元，用于将训练好的所述第一子模型和所述第二子模型进行融合，得到素描作品评级模型。

优选的，子模型构建单元包括：

ResNeSt模型构建元件，用于构建ResNeSt模型；

ResNeSt模型修改元件，用于在所述ResNeSt模型的全连接层后，顺次加入dropout层和maxout层。

优选的，所述dropout层的dropout概率为0.5。

优选的，评级结果获取模块包括：

权重设置单元，用于设置第一子模型预测结果pred1的第一权重w1，第二子模型预测结果pred2的第二权重w2；

评级结果计算单元，用于根据以下公式得到所述素描作品的评级结果：

ensemble＝pred1*w1+pred2*w2

优选的，w1＝0.6，w2＝0.4。

优选的，数据集获取单元包括：

素描作品收集元件，用于收集素描作品；

评级结果获取元件，用于获取每张素描作品对应的评级结果；

评级标注元件，用于根据所述评级结果对每张素描作品进行评级标注；

数据增强元件，用于对每张素描作品进行数据增强处理，使数据量扩充到原来的四倍。

优选的，数据增强处理包括对每张素描作品进行裁剪、翻转、旋转、色调变化处理。

本发明的有益效果如下：

(1)由于本发明在模型训练之前需要将每张图片进行标注，如果按已有算法的思想邀请一位素描教师进行标注会更大程度增加素描作品评级的主观性，而本发明的方法则是邀请不同高校、不同机构、不同水平的素描老师进行标注打分，最后将每一张素描作品的标注成绩进行加权平均得到最终该张素描作品的等级标注，从而使得该评价更加客观，更加接近现实中的素描作品评价结果。

(2)在模型的选择上本发明选择了一个CNN模型ResNeSt模型和一个RNN模型LSTM模型。相较于已有算法中的CNN模型Resnet模型，ResNeSt模型基于SENet，SKNet和ResNeXt模型，将通道维度的注意力机制扩展到特征图组表示，可以使用统一的CNN操作符进行模块化和加速。

(3)本发明利用Maxout与Dropout同时使用提升网络性能，Dropout是一种网络规则化技巧，其实它就是相当于在训练很多个不同的网络结构，尽管如此，推理阶段所有不同结构的参数依然是共享的，因为实际上只有一个网络存在。由于在Dropout中仅仅只有一个模型，因此无法进行平均操作，取而代之的是将模型的权重乘以Dropout比率p，这个做法在线性激活函数中表现尚可，但是如果是经过非线性激活函数那就不准确了。而Maxout模型的仿射变换中没有非线性激活函数，因此我们也可以在此变换中引入Dropout技巧，并且实验表明Maxout与Dropout的结合效果比较好。

(4)本发明预通过对多个单模型进行融合以提升整体性能，增强模型的稳定性以及提高最终结果的正确率。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于模型融合的素描作品评级方法，其特征在于，包括以下步骤：

获取待评级的素描作品；

2.根据权利要求1所述的一种基于模型融合的素描作品评级方法，其特征在于，构建素描作品评级模型，包括：

收集素描作品及其分类等级，构建训练数据集；

构建所述第一子模型和所述第二子模型；

3.根据权利要求2所述的一种基于模型融合的素描作品评级方法，其特征在于，构建第一子模型的步骤包括：

构建ResNeSt模型；

4.根据权利要求3所述的一种基于模型融合的素描作品评级方法，其特征在于：

所述dropout层的dropout概率为0.5。

5.根据权利要求2-4任意一项所述的一种基于模型融合的素描作品评级方法，其特征在于，将待评级的素描作品输入所述素描作品评级模型，得到所述素描作品的评级结果，包括：

根据以下公式得到所述素描作品的评级结果：

ensemble＝pred1*w1+pred2*w2

6.根据权利要求5所述的一种基于模型融合的素描作品评级方法，其特征在于：

w1＝0.6，w2＝0.4。

7.根据权利要求2所述的一种基于模型融合的素描作品评级方法，其特征在于，收集素描作品及其分类等级，构建训练数据集，包括：

收集素描作品；

获取每张素描作品对应的评级结果；

根据所述评级结果对每张素描作品进行评级标注；

8.根据权利要求7所述的一种基于模型融合的素描作品评级方法，其特征在于，对每张素描作品进行数据增强处理，包括：

对每张素描作品进行裁剪、翻转、旋转、色调变化处理。

9.一种基于模型融合的素描作品评级装置，其特征在于，包括：

作品获取模块，用于获取待评级的素描作品；