CN112560626B - 一种基于局部与全局联合的深度度量学习漫画识别方法 - Google Patents
一种基于局部与全局联合的深度度量学习漫画识别方法 Download PDFInfo
- Publication number
- CN112560626B CN112560626B CN202011426976.7A CN202011426976A CN112560626B CN 112560626 B CN112560626 B CN 112560626B CN 202011426976 A CN202011426976 A CN 202011426976A CN 112560626 B CN112560626 B CN 112560626B
- Authority
- CN
- China
- Prior art keywords
- local
- learning
- pictures
- cartoon
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000005259 measurement Methods 0.000 title claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 23
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000013434 data augmentation Methods 0.000 claims description 5
- 239000000523 sample Substances 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract 1
- 230000001815 facial effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000009966 trimming Methods 0.000 description 3
- 241000219173 Carica Species 0.000 description 2
- 235000014649 Carica monoica Nutrition 0.000 description 2
- 206010062575 Muscle contracture Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 208000006111 contracture Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于局部与全局联合的深度度量学习漫画识别方法,采用深度度量学习方法,使用卷积神经网络来抽取学习特征,并通过联合漫画的局部和全局图片特征信息,进一步提出统一特征表示和相似性度量的学习模型,再通过所述模型在图片库中搜索出最相似的设定数量的照片并输出,采用深度学习方法可以更好的拟合数据分布,并且具有更好的泛化性。
Description
技术领域
本发明涉及漫画识别技术领域,具体涉及一种基于局部与全局联合的深度度量学习漫画识别方法。
背景技术
漫画属于超现实主义面部素描的一种,特点为图片夸张扭曲明显,这是导致照片和漫画存在着较大模态差异的主要原因。漫画识别任务属于跨模态人脸识别的一种,跨模态人脸识别是指匹配不同模态下的人脸图片。而漫画识别问题描述如下,给定一张漫画,需要从照片库中搜索到描述相同目标个体的对应照片,或者给定一张照片,需要从一个漫画库中搜索到描述相同目标个体的对应漫画。
目前,主流的解决跨模态人脸识别任务的方法有两类:一类是尝试对当前模态下的图片进行合成,使其具有其他模态的特点,得到这种合成图后,就可以使用标准的匹配算法在公共模态下直接进行匹配;另一类是对每个模态下的图片进行密集釆样得到特征描述子,利用特征描述子的强跨模态不变性进行匹配。然而,在漫画识别领域,上述方法均效果一般。以第二种方法为例,我们知道,漫画往往会夸大照片中某些特征,不论采用设计中层面部属性特征,还是采用深度网络抽取特征,都会由于错位等原因导致特征间相关性减弱进而降低匹配效果。
发明内容
本发明的目的是提供一种基于局部与全局联合的深度度量学习漫画识别方法,采用深度网络学习,深度特征具有更强的特征表达能力;采用深度度量学习方法可以更好的拟合数据分布。
本发明提供了如下的技术方案:
一种基于局部与全局联合的深度度量学习漫画识别方法,采用深度度量学习方法,使用卷积神经网络来抽取学习特征,并通过联合漫画的局部和全局图片特征信息,进一步提出统一特征表示和相似性度量的学习模型,再通过所述模型在图片库中搜索出最相似的设定数量的照片并输出。
优选的,包括以下步骤:
S1、选用Caricature数据集并对其数据进行预处理,确保漫画图片对在局部和全局保持一致;
S2、将预处理后的所述Caricature数据集按照目标个体划分为训练集与测试集;并引入中间域PubFig数据集先对预训练AlexNet进行初步微调,然后再使用所述训练集微调得到AlexNet网络;
S3、采用MATLAB工具箱MatConvNet搭建由五个独立孪生子网络组成的网络,在网络上中设置好相应的损失函数;在训练时,所述训练集中漫画和图片的同一部分共享一个单独的子网络,对应图片将两两同时输入到对应的子网络中;
S4、对选定的图片采用随机梯度下降最小化配对损失;
S5、在前向传播过程中,将漫画照片对原图及四组局部区域图片共五组图片,分别减去各自对应的平均RGB值,然后作为输入到对应的子孪生网络中,在最后的损失层,将每组全局和局部特征相连接,然后按对应配对损失计算当前损失,进一步提出统一特征表示和相似性度量的学习模型;在反向传播过程中,则先冻结前m层,再微调网络;
S6、将探针漫画输入至所述学习模型中,所述模型在图片库中搜索给最相似的1或10张照片并输出,测试指标沿用Rank-1和Rank-10。
优选的,步骤S1所述的预处理包括:
人脸对齐模块,旋转所述数据集中的漫画和照片进行旋转使得两只眼睛在同一水平线上,对漫画和照片的尺寸进行调整,在按照所需的宽高比裁剪图片,得到原始图片;
数据增广模块,首先通过水平翻转对数据进行扩充,构建图片对数据集,再对中心区域进行裁剪得到设定数量的图片,并在中心区域额外随机采样设定数量的图片,将上述图片全部进行水平翻转,包括所述原始图片在内,得到扩充后的图片;此外,还通过随机翻转与随机平移的方式对中间域PubFig数据集进行适当增广;
局部裁剪模块,选定眼睛、鼻子、嘴巴和下巴四个局部区域,裁剪出这些组件,并调整图片大小。
优选的,步骤S3所述的损失函数包括二项异常损失函数与广义逻辑损失函数,所述二项异常损失函数用于相似性度量,所述广义逻辑损失函数用于距离度量。
优选的,所述二项异常损失函数的计算方法如下:
给定一对样本xi,xj∈Rd,对应的相似度标签lij∈{1,-1},其中,如果xi和xj属于同一个类别,那么lij=1,否则lij=-1,整个公式定义如下:
Ldev=ln[xep(-2cos(xi,xj)lij)+1] (1)
其中,cos(xi,xj)表示向量xi和xj之间的余弦相似度,如果xi和xj属于相同的类,则余弦相似度较小,则公式(1)损失较大,否则,公式(1)的损失较小。
优选的,所述广义逻辑损失函数的计算方法如下:
度量学习的主要目标是学习转换表示,在转换后的空间中xi和xj如果属于同一类时 (即lij=1),则距离小于τ-1,否则大于τ+1(即lij=-1)。约束条件可以表述如下:
d2(xi,xj)≤τ-1,lij=1
d2(xi,xj)≥τ+1,lij=-1 (2)
其中,同时τ>1;因此约束可以表述成lij(τ-d2(xi,xj))≥1,对于广义逻辑损失函数,其公式如下:
公式(3)中,是广义逻辑损失函数,β是参数。
优选的,所述步骤S4配对损失的方法包括:除FC8层外,在每个FC层后均接有Dropout层,并对对应层的动量值与权重值进行设置,再对最后的FC层滤波器进行设置,然后使用均值为0、标准差为10-2为高斯分布初始化权重,再把偏差初始化为0,最后,在10-2.7和10-4之间生成与epoch数量等同的对数等间隔点,用来初始化对应epoch的学习率。
优选的,所述Caricature数据集采集自252个人,包括6042张漫画与5974张照片,每张图片提供17个关键点信息。
本发明的有益效果是:本发明采用深度网络学习,相比于手工涉及特征,深度特征具有更强的特征表达能力,并且通过深度网络学习到的特征优先于手工设计的中层面部属性特征;采用深度度量学习方法可以更好的拟合数据分布;本发明引入中间域数据并通过其对网络进行间接微调,具有更好的泛化性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明算法框架图。
具体实施方式
如图1所示,一种基于局部与全局联合的深度度量学习漫画识别方法,采用深度度量学习方法,使用卷积神经网络来抽取学习特征,并通过联合漫画的局部和全局图片特征信息,进一步提出统一特征表示和相似性度量的学习模型,再通过模型在图片库中搜索出最相似的设定数量的照片并输出。
一种基于局部与全局联合的深度度量学习漫画识别方法,包括以下步骤:
S1、选用Caricature数据集并对其数据进行预处理,确保漫画图片对在局部和全局保持一致;
S2、将预处理后的Caricature数据集按照目标个体划分为训练集与测试集;并引入中间域PubFig数据集先对预训练AlexNet进行初步微调,然后再使用训练集微调得到AlexNet网络;
S3、采用MATLAB工具箱MatConvNet搭建由五个独立孪生子网络组成的网络,在网络上中设置好相应的损失函数;在训练时,训练集中漫画和图片的同一部分共享一个单独的子网络,对应图片将两两同时输入到对应的子网络中;
S4、对选定的图片采用随机梯度下降最小化配对损失;
S5、在前向传播过程中,将漫画照片对原图及四组局部区域图片共五组图片,分别减去各自对应的平均RGB值,然后作为输入到对应的子孪生网络中,在最后的损失层,将每组全局和局部特征相连接,然后按对应配对损失计算当前损失,进一步提出统一特征表示和相似性度量的学习模型;在反向传播过程中,则先冻结前m层,再微调网络;
S6、将探针漫画输入至学习模型中,模型在图片库中搜索给最相似的1或10张照片并输出,测试指标沿用Rank-1和Rank-10。
其中,步骤S1的预处理包括:
人脸对齐模块,旋转数据集中的漫画和照片进行旋转使得两只眼睛在同一水平线上,对漫画和照片的尺寸进行调整,在按照所需的宽高比裁剪图片,得到原始图片。
数据增广模块,首先通过水平翻转对数据进行扩充,构建图片对数据集,再对中心区域进行裁剪得到设定数量的图片,并在中心区域额外随机采样设定数量的图片,将上述图片全部进行水平翻转,包括原始图片在内,得到扩充后的图片;此外,还通过随机翻转与随机平移的方式对中间域PubFig数据集进行适当增广。
局部裁剪模块,选定眼睛、鼻子、嘴巴和下巴四个局部区域,裁剪出这些组件,并调整图片大小。
其中,步骤S3的损失函数包括二项异常损失函数与广义逻辑损失函数,二项异常损失函数用于相似性度量,广义逻辑损失函数用于距离度量。
二项异常损失函数的计算方法如下:
给定一对样本xi,xj∈Rd,对应的相似度标签lij∈{1,-1},其中,如果xi和xj属于同一个类别,那么lij=1,否则lij=-1,整个公式定义如下:
Ldev=ln[xep(-2cos(xi,xj)lij)+1] (1)
其中,cos(xi,xj)表示向量xi和xj之间的余弦相似度,如果xi和xj属于相同的类,则余弦相似度较小,则公式(1)损失较大,否则,公式(1)的损失较小。
广义逻辑损失函数的计算方法如下:
度量学习的主要目标是学习转换表示,在转换后的空间中xi和xj如果属于同一类时 (即lij=1),则距离小于τ-1,否则大于τ+1(即lij=-1)。约束条件可以表述如下:
d2(xi,xj)≤τ-1,lij=1
d2(xi,xj)≥τ+1,lij=-1 (2)
其中,同时τ>1;因此约束可以表述成lij(τ-d2(xi,xj))≥1,对于广义逻辑损失函数,其公式如下:
公式(3)中,是广义逻辑损失函数,β是参数。
步骤S4配对损失的方法包括:除FC8层外,在每个FC层后均接有Dropout层,并对对应层的动量值与权重值进行设置,再对最后的FC层滤波器进行设置,然后使用均值为0、标准差为10-2为高斯分布初始化权重,再把偏差初始化为0,最后,在10-2.7和10-4之间生成与epoch数量等同的对数等间隔点,用来初始化对应epoch的学习率。
Caricature数据集采集自252个人,包括6042张漫画与5974张照片,每张图片提供17个关键点信息。
实施例一
(1)图片预处理:Caricature数据集图片经过人脸对齐、数据增广和局部裁剪,确保漫画图片对在局部和全局尽量保持一致。此时,人脸对齐图片尺寸为227X320,局部裁剪图片尺寸为227X227;PubFig数据集图片进行简单数据增广(如随机翻转、随机平移和缩放)即可,图片尺寸为227X227。
(2)数据集划分:首先将Caricature数据集按照目标个体划分为两个部分,一半个体用于训练(即126个个体),另一半个体用于测试(即另外126个个体),保证在训练集和测试集中不会出现相同的个体;中间域PubFig数据集,初步微调预训练 AlexNet,具体做法为把PubFig数据集中200个个体的36604张图片混合,全部用来初步微调网络,得到AlexNet-PubFig网络。由于Caricature数据集和PubFig数据集有 51个重叠的个体,在使用Caricature数据集时,重叠个体的图片需要全部划分到训练集中。此外,30%的个体图片用于验证,剩余的用于训练。
(3)网络搭建:使用MATLAB工具箱MatConvNet:,搭建由五个独立挛生子网络组成的网络。训练时,漫画和照片的同一部分(例如嘴巴部分)共享一个单独的子网络,对应图片将两两同时输入到对应的子网络中。
(4)损失函数构建:按照技术方案部分的两种损失函数(即二项异常损失和广义逻辑损失),在网络中设置好相应损失函数。
(5)漫画照片对的批处理设置:选定大小为256(即128对)的批次,采用随机梯度下降(SGD)最小化配对损失。具体来说,除FC8层外,本发明在每个FC层后均接有Dropout层,并对对应层的动量值与权重值进行设置,再对最后的FC层滤波器进行设置,然后使用均值为0、标准差为10-2为高斯分布初始化权重,再把偏差初始化为0,最后,在10-2.7和10-4之间生成与epoch数量等同的对数等间隔点,用来初始化对应epoch 的学习率。
(6)前向和反向传播:在前向传播过程中,本发明把漫画照片对原图及四组局部区域图片共五组图片,分别减去各自对应的平均RGB值,然后作为输入到对应的子挛生网络中。在最后的损失层,需要把每组全局和局部特征相连接,然后按对应配对损失计算当前损失。在反向传播过程中,则先冻结前m层,然后微调网络。
(7)测试阶段:固定训练得到的最优模型,输入探针漫画,模型在图片库中搜索给最相似的1或10张照片并输岀,测试指标沿用Rank-1和Rank-10。
实施例二
本发明中的LGDML算法与手工设计特征的多种算法实验结果对比如表1所示。设计手工特征,涉及以下步骤,提取训练集图片的三个手工特征:LBP【1】、Gabor【2】和SIFT【3】。提取LBP特征,先将256X320原始图片分割为4X5个64X64的patch,然后对每个 patch提取30维的LBP特征,再将所有patch特征结合起来得到600维的LBP特征;提取Gabor特征,先将256X320原始图片缩放到256X256,然后将图片降采样到原来的1/16,再将张量化的图片拼接得到1024维的Gabor特征;提取SIFT特征,先将256X320原始图片按照步长为20像素进行分割,得到10X13个64X64的patch,然后在每个patch 中提取32维的SIFT特征,再将所有特征拼接起来得到4160维的SIFT特征。
从表格中可以看出,数据集规模较大时,未引入中间域PubFig数据集的实验结果也远好于最好的手工设计特征(SIFT),而引入中间域数据初步微调,AlexNet-PubFig 的效果得到显著提升。这说明,在漫画识别任务中,深度特征比手工设计特征具有更强的特征表达能力,也表明和自动化漫画识别方法相比,深度网络学习到的特征优于手工设计的中层面部属性特征。
表1
实施例三
本发明中的LGDML算法和多个浅层度量学习算法结果对比如表2所示。AlexNet-PubFig表示引入中间域PubFig初步微调,可以视作深度度量学习的基线; Siamese-Logistic表示使用广义逻辑损失训练的结果;LGDML-Binomial和LGDML-Logistic分别表示采用二项异常损失和广义逻辑损失来训练本发明LGDML的实验结果。
从表格中可以看岀,浅层度量学习算法如KissMe、OASIS等表现均不如深度度量学习基线AlexNet-PubFig效果好,一些特征设计较好的浅层度量学习算法如LEGO、LMNN、ITML等效果也不如LGDML-Binomial和LGDML-Logistic好。这说明釆用深度度量学习方法可以更好地拟合数据分布。
Method | Rank-1(%)PCA | Rank-10(%)PCA |
AlexNet-PubFig | 23.74 | 60.15 |
KissMe⑼ | 21.28 | 55.56 |
OASIS” ” | 21.61 | 64.00 |
0PML[13] | 23.98 | 61.03 |
LEGO[10] | 24.38 | 60.22 |
Lmnn[14] | 25.60 | 62.60 |
ITML[,1] | 26.02 | 63.07 |
Siamese-Logistic | 26.98 | 66.26 |
LGDML-Binomial | 28.06 | 66.57 |
LGDML-Logistic | 28.88 | 66.30 |
表2
实施例四
本发明中的LGDML算法可以同时学习局部和全局的目标信息。定义LGDML的两种变体,一是只学习局部信息的变体LGDML-Local,二是只学习全局信息的变体 LGDML-Globalo三者的实验结果对比如表3所示。
从表格中可以看岀,仅使用局部或者全局信息的实验结果不如联合学习的实验结果,这说明这种联合是有益的,局部信息和全局信息在训练LGDML都是不可或缺的。
表3
实施例五
本发明中的LGDML算法在源域和目标域之间引入了中间域自然人脸图像。定义直接微调预训练模型,与引入中间域数据进行初步微调后在次微调,分别表示为AlexNet和AlexNet-PubFig,实验结果对比如表4所示。
从下表中可以看出,直接微调的两种变体AlexNet-Binomial和AlexNet-Logistic的结果明显不如间接微调的两种变体AlexNet-Pubfig-Binomial和AlexNet-PubFig-Logistic的实验结果,这说明经过中间域数据间接微调后网络具有更好的泛化性。
表4
本发明采用深度网络学习,相比于手工涉及特征,深度特征具有更强的特征表达能力,并且通过深度网络学习到的特征优先于手工设计的中层面部属性特征;采用深度度量学习方法可以更好的拟合数据分布;本发明引入中间域数据并通过其对网络进行间接微调,具有更好的泛化性。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于局部与全局联合的深度度量学习漫画识别方法,其特征在于,采用深度度量学习方法,使用卷积神经网络来抽取学习特征,并通过联合漫画的局部和全局图片特征信息,进一步提出统一特征表示和相似性度量的学习模型,再通过所述模型在图片库中搜索出最相似的设定数量的照片并输出;
该方法包括以下步骤:
S1、选用Caricature数据集并对其数据进行预处理,确保漫画图片对在局部和全局保持一致;
S2、将预处理后的所述Caricature数据集按照目标个体划分为训练集与测试集;并引入中间域PubFig数据集先对预训练AlexNet进行初步微调,然后再使用所述训练集微调得到AlexNet网络;
S3、采用MATLAB工具箱MatConvNet搭建由五个独立孪生子网络组成的网络,在网络上中设置好相应的损失函数;在训练时,所述训练集中漫画和图片的同一部分共享一个单独的子网络,对应图片将两两同时输入到对应的子网络中;
S4、对选定的图片采用随机梯度下降最小化配对损失;
S5、在前向传播过程中,将漫画照片对原图及四组局部区域图片共五组图片,分别减去各自对应的平均RGB值,然后作为输入到对应的子孪生网络中,在最后的损失层,将每组全局和局部特征相连接,然后按对应配对损失计算当前损失,进一步提出统一特征表示和相似性度量的学习模型;在反向传播过程中,则先冻结前m层,再微调网络;
S6、将探针漫画输入至所述学习模型中,所述模型在图片库中搜索给最相似的1或10张照片并输出,测试指标沿用Rank-1和Rank-10;
步骤S1所述的预处理包括:
人脸对齐模块,旋转所述数据集中的漫画和照片进行旋转使得两只眼睛在同一水平线上,对漫画和照片的尺寸进行调整,在按照所需的宽高比裁剪图片,得到原始图片;
数据增广模块,首先通过水平翻转对数据进行扩充,构建图片对数据集,再对中心区域进行裁剪得到设定数量的图片,并在中心区域额外随机采样设定数量的图片,将上述图片全部进行水平翻转,包括所述原始图片在内,得到扩充后的图片;此外,还通过随机翻转与随机平移的方式对中间域PubFig数据集进行适当增广;
局部裁剪模块,选定眼睛、鼻子、嘴巴和下巴四个局部区域,裁剪出这些组件,并调整图片大小;
步骤S3所述的损失函数包括二项异常损失函数与广义逻辑损失函数,所述二项异常损失函数用于相似性度量,所述广义逻辑损失函数用于距离度量。
2.根据权利要求1所述的一种基于局部与全局联合的深度度量学习漫画识别方法,其特征在于,所述二项异常损失函数的计算方法如下:
给定一对样本,对应的相似度标签/>,其中,如果/>和/>属于同一个类别,那么/>,否则/>,整个公式定义如下:
(1)
其中,表示向量/>和/>之间的余弦相似度,如果/>和/>属于相同的类,则余弦相似度较小,则公式(1)损失较大,否则,公式(1)的损失较小。
3.根据权利要求2所述的一种基于局部与全局联合的深度度量学习漫画识别方法,其特征在于,所述广义逻辑损失函数的计算方法如下:
度量学习的主要目标是学习转换表示,在转换后的空间中和/>如果属于同一类时,则距离小于/>,否则大于/>,约束条件可以表述如下:
(2)
其中,,同时/>;因此约束条件可以表述成/>,对于广义逻辑损失函数,其公式如下:/>(3)
公式(3)中,是广义逻辑损失函数,/>是参数。
4.根据权利要求1所述的一种基于局部与全局联合的深度度量学习漫画识别方法,其特征在于,所述步骤S4配对损失的方法包括:除FC8层外,在每个FC层后均接有Dropout层,并对对应层的动量值与权重值进行设置,再对最后的FC层滤波器进行设置,然后使用均值为0、标准差为为高斯分布初始化权重,再把偏差初始化为0,最后,在/>和/>之间生成与epoch数量等同的对数等间隔点,用来初始化对应epoch的学习率。
5.根据权利要求1-4任一项所述的一种基于局部与全局联合的深度度量学习漫画识别方法,其特征在于,所述Caricature数据集采集自252个人,包括6042张漫画与5974张照片,每张图片提供17个关键点信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011426976.7A CN112560626B (zh) | 2020-12-09 | 2020-12-09 | 一种基于局部与全局联合的深度度量学习漫画识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011426976.7A CN112560626B (zh) | 2020-12-09 | 2020-12-09 | 一种基于局部与全局联合的深度度量学习漫画识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560626A CN112560626A (zh) | 2021-03-26 |
CN112560626B true CN112560626B (zh) | 2024-02-23 |
Family
ID=75060779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011426976.7A Active CN112560626B (zh) | 2020-12-09 | 2020-12-09 | 一种基于局部与全局联合的深度度量学习漫画识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560626B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761850B (zh) * | 2022-11-16 | 2024-03-22 | 智慧眼科技股份有限公司 | 人脸识别模型训练方法、人脸识别方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492290A (zh) * | 2018-03-19 | 2018-09-04 | 携程计算机技术(上海)有限公司 | 图像评价方法及系统 |
CN108960127A (zh) * | 2018-06-29 | 2018-12-07 | 厦门大学 | 基于自适应深度度量学习的遮挡行人重识别方法 |
CN110852292A (zh) * | 2019-11-18 | 2020-02-28 | 南京邮电大学 | 一种基于跨模态多任务深度度量学习的草图人脸识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2564668B (en) * | 2017-07-18 | 2022-04-13 | Vision Semantics Ltd | Target re-identification |
CN110008842A (zh) * | 2019-03-09 | 2019-07-12 | 同济大学 | 一种基于深度多损失融合模型的行人重识别方法 |
-
2020
- 2020-12-09 CN CN202011426976.7A patent/CN112560626B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108492290A (zh) * | 2018-03-19 | 2018-09-04 | 携程计算机技术(上海)有限公司 | 图像评价方法及系统 |
CN108960127A (zh) * | 2018-06-29 | 2018-12-07 | 厦门大学 | 基于自适应深度度量学习的遮挡行人重识别方法 |
CN110852292A (zh) * | 2019-11-18 | 2020-02-28 | 南京邮电大学 | 一种基于跨模态多任务深度度量学习的草图人脸识别方法 |
Non-Patent Citations (3)
Title |
---|
A region-based image caption generator with refined descriptions;Philip KinghornLi ZhangLing Shao;《Neurocomputing》;全文 * |
Mahrukh Khan ; Muhammad Atif Tahir ; Zeeshan Ahmed.Detection of Violent Content in Cartoon Videos Using Multimedia Content Detection Techniques.《2018 IEEE 21st International Multi-Topic Conference (INMIC)》.2018,全文. * |
基于生成对抗网络的多模态人脸生成及识别;杨啸;《中国优秀硕士学位论文全文数据库 信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112560626A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344855B (zh) | 一种基于排序引导回归的深度模型的人脸美丽评价方法 | |
US12033369B2 (en) | Object recognition method and apparatus | |
CN107766850B (zh) | 基于结合人脸属性信息的人脸识别方法 | |
CN111126256B (zh) | 一种基于自适应空谱多尺度网络的高光谱图像分类方法 | |
CN109410131B (zh) | 基于条件生成对抗神经网络的人脸美颜方法及系统 | |
EP3961486A1 (en) | Data processing method and device for facial image generation, and medium | |
EP3876110A1 (en) | Method, device and apparatus for recognizing, categorizing and searching for garment, and storage medium | |
CN106599837A (zh) | 基于多图像输入的人脸识别方法及装置 | |
CN108846822B (zh) | 基于混合神经网络的可见光图像和红外光图像的融合方法 | |
CN109685724A (zh) | 一种基于深度学习的对称感知人脸图像补全方法 | |
Robles-Kelly et al. | String edit distance, random walks and graph matching | |
CN108389189B (zh) | 基于字典学习的立体图像质量评价方法 | |
CN111814620A (zh) | 人脸图像质量评价模型建立方法、优选方法、介质及装置 | |
CN111310668A (zh) | 一种基于骨架信息的步态识别方法 | |
JP2016085579A (ja) | 対話装置のための画像処理装置及び方法、並びに対話装置 | |
CN112560626B (zh) | 一种基于局部与全局联合的深度度量学习漫画识别方法 | |
CN114463812B (zh) | 基于双通道多分支融合特征蒸馏的低分辨率人脸识别方法 | |
CN113221794B (zh) | 一种训练数据集生成方法、装置、设备及存储介质 | |
CN115731574A (zh) | 基于中间模态的参数共享和特征学习的跨模态行人重识别方法 | |
CN113822256A (zh) | 人脸识别方法、电子设备及存储介质 | |
CN112101087A (zh) | 一种面部图像身份去识别方法、装置及电子设备 | |
CN112070010A (zh) | 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法 | |
CN111597928A (zh) | 三维模型处理方法及装置、电子设备、存储介质 | |
CN115050048A (zh) | 一种基于局部细节特征的跨模态行人重识别方法 | |
CN114743162A (zh) | 一种基于生成对抗网络的跨模态行人重识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |