CN112560626B

CN112560626B - 一种基于局部与全局联合的深度度量学习漫画识别方法

Info

Publication number: CN112560626B
Application number: CN202011426976.7A
Authority: CN
Inventors: 李文斌
Original assignee: Nanjing Chuangying Digital Intelligent Technology Co ltd
Current assignee: Nanjing Chuangying Digital Intelligent Technology Co ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2024-02-23
Anticipated expiration: 2040-12-09
Also published as: CN112560626A

Abstract

本发明提供一种基于局部与全局联合的深度度量学习漫画识别方法，采用深度度量学习方法，使用卷积神经网络来抽取学习特征，并通过联合漫画的局部和全局图片特征信息，进一步提出统一特征表示和相似性度量的学习模型，再通过所述模型在图片库中搜索出最相似的设定数量的照片并输出，采用深度学习方法可以更好的拟合数据分布，并且具有更好的泛化性。

Description

一种基于局部与全局联合的深度度量学习漫画识别方法

技术领域

本发明涉及漫画识别技术领域，具体涉及一种基于局部与全局联合的深度度量学习漫画识别方法。

背景技术

漫画属于超现实主义面部素描的一种，特点为图片夸张扭曲明显,这是导致照片和漫画存在着较大模态差异的主要原因。漫画识别任务属于跨模态人脸识别的一种，跨模态人脸识别是指匹配不同模态下的人脸图片。而漫画识别问题描述如下，给定一张漫画，需要从照片库中搜索到描述相同目标个体的对应照片，或者给定一张照片，需要从一个漫画库中搜索到描述相同目标个体的对应漫画。

目前，主流的解决跨模态人脸识别任务的方法有两类：一类是尝试对当前模态下的图片进行合成，使其具有其他模态的特点，得到这种合成图后，就可以使用标准的匹配算法在公共模态下直接进行匹配；另一类是对每个模态下的图片进行密集釆样得到特征描述子，利用特征描述子的强跨模态不变性进行匹配。然而，在漫画识别领域，上述方法均效果一般。以第二种方法为例，我们知道，漫画往往会夸大照片中某些特征，不论采用设计中层面部属性特征，还是采用深度网络抽取特征，都会由于错位等原因导致特征间相关性减弱进而降低匹配效果。

发明内容

本发明的目的是提供一种基于局部与全局联合的深度度量学习漫画识别方法，采用深度网络学习，深度特征具有更强的特征表达能力；采用深度度量学习方法可以更好的拟合数据分布。

本发明提供了如下的技术方案：

一种基于局部与全局联合的深度度量学习漫画识别方法，采用深度度量学习方法，使用卷积神经网络来抽取学习特征，并通过联合漫画的局部和全局图片特征信息，进一步提出统一特征表示和相似性度量的学习模型，再通过所述模型在图片库中搜索出最相似的设定数量的照片并输出。

优选的，包括以下步骤：

S1、选用Caricature数据集并对其数据进行预处理，确保漫画图片对在局部和全局保持一致；

S2、将预处理后的所述Caricature数据集按照目标个体划分为训练集与测试集；并引入中间域PubFig数据集先对预训练AlexNet进行初步微调，然后再使用所述训练集微调得到AlexNet网络；

S3、采用MATLAB工具箱MatConvNet搭建由五个独立孪生子网络组成的网络，在网络上中设置好相应的损失函数；在训练时，所述训练集中漫画和图片的同一部分共享一个单独的子网络，对应图片将两两同时输入到对应的子网络中；

S4、对选定的图片采用随机梯度下降最小化配对损失；

S5、在前向传播过程中，将漫画照片对原图及四组局部区域图片共五组图片，分别减去各自对应的平均RGB值，然后作为输入到对应的子孪生网络中，在最后的损失层，将每组全局和局部特征相连接，然后按对应配对损失计算当前损失，进一步提出统一特征表示和相似性度量的学习模型；在反向传播过程中，则先冻结前m层，再微调网络；

S6、将探针漫画输入至所述学习模型中，所述模型在图片库中搜索给最相似的1或10张照片并输出，测试指标沿用Rank-1和Rank-10。

优选的，步骤S1所述的预处理包括：

人脸对齐模块，旋转所述数据集中的漫画和照片进行旋转使得两只眼睛在同一水平线上，对漫画和照片的尺寸进行调整，在按照所需的宽高比裁剪图片，得到原始图片；

数据增广模块，首先通过水平翻转对数据进行扩充，构建图片对数据集，再对中心区域进行裁剪得到设定数量的图片，并在中心区域额外随机采样设定数量的图片，将上述图片全部进行水平翻转，包括所述原始图片在内，得到扩充后的图片；此外，还通过随机翻转与随机平移的方式对中间域PubFig数据集进行适当增广；

局部裁剪模块，选定眼睛、鼻子、嘴巴和下巴四个局部区域，裁剪出这些组件，并调整图片大小。

优选的，步骤S3所述的损失函数包括二项异常损失函数与广义逻辑损失函数，所述二项异常损失函数用于相似性度量，所述广义逻辑损失函数用于距离度量。

优选的，所述二项异常损失函数的计算方法如下：

给定一对样本x_i，x_j∈R^d，对应的相似度标签l_ij∈{1，-1}，其中，如果x_i和x_j属于同一个类别，那么l_ij＝1，否则l_ij＝-1，整个公式定义如下：

L_dev＝ln[xep(-2cos(x_i，x_j)l_ij)+1] (1)

其中，cos(x_i，x_j)表示向量x_i和x_j之间的余弦相似度，如果x_i和x_j属于相同的类，则余弦相似度较小，则公式(1)损失较大，否则，公式(1)的损失较小。

优选的，所述广义逻辑损失函数的计算方法如下：

度量学习的主要目标是学习转换表示，在转换后的空间中x_i和x_j如果属于同一类时 (即l_ij＝1)，则距离小于τ-1，否则大于τ+1(即l_ij＝-1)。约束条件可以表述如下：

d²(x_i，x_j)≤τ-1，l_ij＝1

d²(x_i，x_j)≥τ+1，l_ij＝-1 (2)

其中，同时τ＞1；因此约束可以表述成l_ij(τ-d²(x_i，x_j))≥1，对于广义逻辑损失函数，其公式如下：

公式(3)中，是广义逻辑损失函数，β是参数。

优选的，所述步骤S4配对损失的方法包括：除FC8层外，在每个FC层后均接有Dropout层，并对对应层的动量值与权重值进行设置，再对最后的FC层滤波器进行设置，然后使用均值为0、标准差为10^-2为高斯分布初始化权重，再把偏差初始化为0，最后，在10^-2.7和10^-4之间生成与epoch数量等同的对数等间隔点，用来初始化对应epoch的学习率。

优选的，所述Caricature数据集采集自252个人，包括6042张漫画与5974张照片，每张图片提供17个关键点信息。

本发明的有益效果是：本发明采用深度网络学习，相比于手工涉及特征，深度特征具有更强的特征表达能力，并且通过深度网络学习到的特征优先于手工设计的中层面部属性特征；采用深度度量学习方法可以更好的拟合数据分布；本发明引入中间域数据并通过其对网络进行间接微调，具有更好的泛化性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明算法框架图。

具体实施方式

如图1所示，一种基于局部与全局联合的深度度量学习漫画识别方法，采用深度度量学习方法，使用卷积神经网络来抽取学习特征，并通过联合漫画的局部和全局图片特征信息，进一步提出统一特征表示和相似性度量的学习模型，再通过模型在图片库中搜索出最相似的设定数量的照片并输出。

一种基于局部与全局联合的深度度量学习漫画识别方法，包括以下步骤：

S2、将预处理后的Caricature数据集按照目标个体划分为训练集与测试集；并引入中间域PubFig数据集先对预训练AlexNet进行初步微调，然后再使用训练集微调得到AlexNet网络；

S3、采用MATLAB工具箱MatConvNet搭建由五个独立孪生子网络组成的网络，在网络上中设置好相应的损失函数；在训练时，训练集中漫画和图片的同一部分共享一个单独的子网络，对应图片将两两同时输入到对应的子网络中；

S4、对选定的图片采用随机梯度下降最小化配对损失；

S6、将探针漫画输入至学习模型中，模型在图片库中搜索给最相似的1或10张照片并输出，测试指标沿用Rank-1和Rank-10。

其中，步骤S1的预处理包括：

人脸对齐模块，旋转数据集中的漫画和照片进行旋转使得两只眼睛在同一水平线上，对漫画和照片的尺寸进行调整，在按照所需的宽高比裁剪图片，得到原始图片。

数据增广模块，首先通过水平翻转对数据进行扩充，构建图片对数据集，再对中心区域进行裁剪得到设定数量的图片，并在中心区域额外随机采样设定数量的图片，将上述图片全部进行水平翻转，包括原始图片在内，得到扩充后的图片；此外，还通过随机翻转与随机平移的方式对中间域PubFig数据集进行适当增广。

其中，步骤S3的损失函数包括二项异常损失函数与广义逻辑损失函数，二项异常损失函数用于相似性度量，广义逻辑损失函数用于距离度量。

二项异常损失函数的计算方法如下：

L_dev＝ln[xep(-2cos(x_i，x_j)l_ij)+1] (1)

广义逻辑损失函数的计算方法如下：

d²(x_i，x_j)≤τ-1，l_ij＝1

d²(x_i，x_j)≥τ+1，l_ij＝-1 (2)

公式(3)中，是广义逻辑损失函数，β是参数。

步骤S4配对损失的方法包括：除FC8层外，在每个FC层后均接有Dropout层，并对对应层的动量值与权重值进行设置，再对最后的FC层滤波器进行设置，然后使用均值为0、标准差为10^-2为高斯分布初始化权重，再把偏差初始化为0，最后，在10^-2.7和10^-4之间生成与epoch数量等同的对数等间隔点，用来初始化对应epoch的学习率。

Caricature数据集采集自252个人，包括6042张漫画与5974张照片，每张图片提供17个关键点信息。

实施例一

(1)图片预处理：Caricature数据集图片经过人脸对齐、数据增广和局部裁剪，确保漫画图片对在局部和全局尽量保持一致。此时，人脸对齐图片尺寸为227X320，局部裁剪图片尺寸为227X227；PubFig数据集图片进行简单数据增广(如随机翻转、随机平移和缩放)即可，图片尺寸为227X227。

(2)数据集划分：首先将Caricature数据集按照目标个体划分为两个部分，一半个体用于训练(即126个个体)，另一半个体用于测试(即另外126个个体)，保证在训练集和测试集中不会出现相同的个体；中间域PubFig数据集，初步微调预训练 AlexNet，具体做法为把PubFig数据集中200个个体的36604张图片混合，全部用来初步微调网络，得到AlexNet-PubFig网络。由于Caricature数据集和PubFig数据集有 51个重叠的个体，在使用Caricature数据集时，重叠个体的图片需要全部划分到训练集中。此外，30％的个体图片用于验证，剩余的用于训练。

(3)网络搭建：使用MATLAB工具箱MatConvNet:，搭建由五个独立挛生子网络组成的网络。训练时，漫画和照片的同一部分(例如嘴巴部分)共享一个单独的子网络，对应图片将两两同时输入到对应的子网络中。

(4)损失函数构建：按照技术方案部分的两种损失函数(即二项异常损失和广义逻辑损失)，在网络中设置好相应损失函数。

(5)漫画照片对的批处理设置：选定大小为256(即128对)的批次，采用随机梯度下降(SGD)最小化配对损失。具体来说，除FC8层外，本发明在每个FC层后均接有Dropout层，并对对应层的动量值与权重值进行设置，再对最后的FC层滤波器进行设置，然后使用均值为0、标准差为10^-2为高斯分布初始化权重，再把偏差初始化为0，最后，在10^-2.7和10^-4之间生成与epoch数量等同的对数等间隔点，用来初始化对应epoch 的学习率。

(6)前向和反向传播：在前向传播过程中，本发明把漫画照片对原图及四组局部区域图片共五组图片，分别减去各自对应的平均RGB值，然后作为输入到对应的子挛生网络中。在最后的损失层，需要把每组全局和局部特征相连接，然后按对应配对损失计算当前损失。在反向传播过程中，则先冻结前m层，然后微调网络。

(7)测试阶段：固定训练得到的最优模型，输入探针漫画，模型在图片库中搜索给最相似的1或10张照片并输岀，测试指标沿用Rank-1和Rank-10。

实施例二

本发明中的LGDML算法与手工设计特征的多种算法实验结果对比如表1所示。设计手工特征，涉及以下步骤，提取训练集图片的三个手工特征：LBP^【1】、Gabor^【2】和SIFT^【3】。提取LBP特征，先将256X320原始图片分割为4X5个64X64的patch，然后对每个 patch提取30维的LBP特征，再将所有patch特征结合起来得到600维的LBP特征；提取Gabor特征，先将256X320原始图片缩放到256X256，然后将图片降采样到原来的1/16，再将张量化的图片拼接得到1024维的Gabor特征；提取SIFT特征，先将256X320原始图片按照步长为20像素进行分割，得到10X13个64X64的patch，然后在每个patch 中提取32维的SIFT特征，再将所有特征拼接起来得到4160维的SIFT特征。

从表格中可以看出，数据集规模较大时，未引入中间域PubFig数据集的实验结果也远好于最好的手工设计特征(SIFT)，而引入中间域数据初步微调，AlexNet-PubFig 的效果得到显著提升。这说明，在漫画识别任务中，深度特征比手工设计特征具有更强的特征表达能力，也表明和自动化漫画识别方法相比，深度网络学习到的特征优于手工设计的中层面部属性特征。

表1

实施例三

本发明中的LGDML算法和多个浅层度量学习算法结果对比如表2所示。AlexNet-PubFig表示引入中间域PubFig初步微调，可以视作深度度量学习的基线； Siamese-Logistic表示使用广义逻辑损失训练的结果；LGDML-Binomial和LGDML-Logistic分别表示采用二项异常损失和广义逻辑损失来训练本发明LGDML的实验结果。

从表格中可以看岀，浅层度量学习算法如KissMe、OASIS等表现均不如深度度量学习基线AlexNet-PubFig效果好，一些特征设计较好的浅层度量学习算法如LEGO、LMNN、ITML等效果也不如LGDML-Binomial和LGDML-Logistic好。这说明釆用深度度量学习方法可以更好地拟合数据分布。

Method	Rank-1(％)PCA	Rank-10(％)PCA
			AlexNet-PubFig	23.74	60.15
KissMe⑼	21.28	55.56
			OASIS” ”	21.61	64.00
0PML^[13]	23.98	61.03
			LEGO^[10]	24.38	60.22
Lmnn^[14]	25.60	62.60
			ITML^[,1]	26.02	63.07
Siamese-Logistic	26.98	66.26
			LGDML-Binomial	28.06	66.57
LGDML-Logistic	28.88	66.30

表2

实施例四

本发明中的LGDML算法可以同时学习局部和全局的目标信息。定义LGDML的两种变体，一是只学习局部信息的变体LGDML-Local,二是只学习全局信息的变体 LGDML-Globalo三者的实验结果对比如表3所示。

从表格中可以看岀，仅使用局部或者全局信息的实验结果不如联合学习的实验结果，这说明这种联合是有益的，局部信息和全局信息在训练LGDML都是不可或缺的。

表3

实施例五

本发明中的LGDML算法在源域和目标域之间引入了中间域自然人脸图像。定义直接微调预训练模型，与引入中间域数据进行初步微调后在次微调，分别表示为AlexNet和AlexNet-PubFig,实验结果对比如表4所示。

从下表中可以看出，直接微调的两种变体AlexNet-Binomial和AlexNet-Logistic的结果明显不如间接微调的两种变体AlexNet-Pubfig-Binomial和AlexNet-PubFig-Logistic的实验结果，这说明经过中间域数据间接微调后网络具有更好的泛化性。

表4

本发明采用深度网络学习，相比于手工涉及特征，深度特征具有更强的特征表达能力，并且通过深度网络学习到的特征优先于手工设计的中层面部属性特征；采用深度度量学习方法可以更好的拟合数据分布；本发明引入中间域数据并通过其对网络进行间接微调，具有更好的泛化性。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于局部与全局联合的深度度量学习漫画识别方法，其特征在于，采用深度度量学习方法，使用卷积神经网络来抽取学习特征，并通过联合漫画的局部和全局图片特征信息，进一步提出统一特征表示和相似性度量的学习模型，再通过所述模型在图片库中搜索出最相似的设定数量的照片并输出；

该方法包括以下步骤：

S4、对选定的图片采用随机梯度下降最小化配对损失；

S6、将探针漫画输入至所述学习模型中，所述模型在图片库中搜索给最相似的1或10张照片并输出，测试指标沿用Rank-1和Rank-10；

步骤S1所述的预处理包括：

局部裁剪模块，选定眼睛、鼻子、嘴巴和下巴四个局部区域，裁剪出这些组件，并调整图片大小；

步骤S3所述的损失函数包括二项异常损失函数与广义逻辑损失函数，所述二项异常损失函数用于相似性度量，所述广义逻辑损失函数用于距离度量。

2.根据权利要求1所述的一种基于局部与全局联合的深度度量学习漫画识别方法，其特征在于，所述二项异常损失函数的计算方法如下：

给定一对样本,对应的相似度标签/>，其中，如果/>和/>属于同一个类别，那么/>，否则/>，整个公式定义如下：

（1）

其中，表示向量/>和/>之间的余弦相似度，如果/>和/>属于相同的类，则余弦相似度较小，则公式（1）损失较大，否则，公式（1）的损失较小。

3.根据权利要求2所述的一种基于局部与全局联合的深度度量学习漫画识别方法，其特征在于，所述广义逻辑损失函数的计算方法如下：

度量学习的主要目标是学习转换表示，在转换后的空间中和/>如果属于同一类时，则距离小于/>，否则大于/>，约束条件可以表述如下：

(2）

其中，，同时/>；因此约束条件可以表述成/>，对于广义逻辑损失函数，其公式如下:/>(3)

公式（3）中，是广义逻辑损失函数，/>是参数。

4.根据权利要求1所述的一种基于局部与全局联合的深度度量学习漫画识别方法，其特征在于，所述步骤S4配对损失的方法包括：除FC8层外，在每个FC层后均接有Dropout层，并对对应层的动量值与权重值进行设置，再对最后的FC层滤波器进行设置，然后使用均值为0、标准差为为高斯分布初始化权重，再把偏差初始化为0，最后，在/>和/>之间生成与epoch数量等同的对数等间隔点，用来初始化对应epoch的学习率。

5.根据权利要求1-4任一项所述的一种基于局部与全局联合的深度度量学习漫画识别方法，其特征在于，所述Caricature数据集采集自252个人，包括6042张漫画与5974张照片，每张图片提供17个关键点信息。