CN103996056B - 一种基于深度学习的纹身图像分类方法 - Google Patents

一种基于深度学习的纹身图像分类方法 Download PDF

Info

Publication number
CN103996056B
CN103996056B CN201410138343.4A CN201410138343A CN103996056B CN 103996056 B CN103996056 B CN 103996056B CN 201410138343 A CN201410138343 A CN 201410138343A CN 103996056 B CN103996056 B CN 103996056B
Authority
CN
China
Prior art keywords
image
layer
tatooing
classification method
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410138343.4A
Other languages
English (en)
Other versions
CN103996056A (zh
Inventor
张永良
肖健伟
高思斌
肖刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201410138343.4A priority Critical patent/CN103996056B/zh
Publication of CN103996056A publication Critical patent/CN103996056A/zh
Application granted granted Critical
Publication of CN103996056B publication Critical patent/CN103996056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于深度学习的纹身图像分类方法,包括以下步骤:1)样本变换1.1)仿射变换;1.2)弹性变换;1.3)遮挡模拟;1.4)白化;2)自编码预训练:进使用CUDA优化后的自编码训练机对大量彩色纹身图像进行训练,得到纹身图像的一些共同地边缘信息,同时对这些图像做些挑选后用于卷积网络的第一层;3)使用自编码得到的结果对变换后的样本进行卷积网络训练。本发明有效避免受照射方向,肤色,毛发,光线,图像质量等各方面的影响、可靠性良好、实现效率较高。

Description

一种基于深度学习的纹身图像分类方法
技术领域
本发明涉及图像处理和模式识别等技术领域,尤其是一种纹身图像分类方法。
背景技术
纹身图像识别的研究刚刚兴起,没查阅到国内相关的论文和专利,在国外也只有A.K.Jain等几个学者在从事纹身相关的学术研究。尽管已有了一定的发展,但仍存在诸多迫切需要解决的问题。第一,现有感兴趣区检测方法存在一定的缺陷。现有纹身图像感兴趣区的检测,主要是通过人工标定或图像分割算法。图像分割算法是低层视觉特征对用户实际兴趣的一种估计,难以实现对感兴趣区的客观描述。因此,这两种方法都存在主观性问题。第二,人工语义标注难以适应日益变大的图像数据库。对大规模的图像数据库进行的人工语义标注需要耗费大量的人力和时间,而且人对图像的理解是非常主观的,不同的人依据自身的知识、经验、情绪和其他情况,可能对相同的图像做出不同的理解。第三,低质量图像匹配方法尚待完善。现有的纹身识别方法,大都通过提取关键点作为比对特征,当图像对比度小、亮度不均或者图像分辨率低的时候,提取得到的关键点数少;如果纹身图像被毛发遮挡,那么大部分的关键点会从毛发而不是从纹身中提取得到。由于纹身是刻在人体皮肤上的,因此纹身图像会随人体的运动而发生扭曲和变形。纹身识别系统的性能往往因为未能合理的计算低质量纹身图像间的相似度而明显下降。
深度学习是受大脑是一个深度网络结构的启发,对于深度结构的神经网络研究了10多年。但是在2006年前一直没有好的结果,只有2,3层的网络有比较好的结果,更加深层的网络甚至比浅层网络的表现还要差。在2006年可以看做是深度结构的神经网络的一种突破,Hinton和他的团队使用了一种深度置信网络(Deep Belief Networks:DBN)。这个训练方法是使用无监督的方法逐层贪婪地每次训练一层。使用的是RBM(Restricted BoltzmannMachine),之后相关的基于自编码机(Auto-Encoder:AE)被提出。显然是使用同一种方法:训练中间层时使用无监督的学习方法。这种方法可以用在中间层的每一层,其他的深度结构的算法(不是RBM和AE)也在最近被提出,但是都八九不离十。从2006年后深度网络成功运用于分类,回归问题、降维、纹理建模、运动建模、目标分割、信息提取、机器人领域、自然语言处理、协同过滤等,尽管AE,RBM,DBN可以被用于训练为标定的数据,在许多上述的运用案例当中,他们被成功来用初始化深度受监督的前向回馈神经网络。
神经网络在处理信息的时候使用分布式表达:信息不是存储在单一的几个神经元上的,而是分开存储在许多的神经元上,不仅信息是被分布式存储的,大脑处理信息也是稀疏的,同一时间只有约1~4%的神经元被激活。
在许多计算机视觉系统中,学习算法受限于处理链的一些特定的部分,剩下部分的设计非常耗时耗力,这也就是限制这些系统规模的很大原因。从另外一方面来说,终极目标的人工智能当然不只是为了识别某些特定的物体。我们需要一个完整的算法去解决一个非常多的任务和感知。这就使人为标定这些东西比较困难,所以在这种情况下学习无标定样本的无监督学习成为一个比较重要的事情。这成为多任务学习(multi-task learning)的一个重要部分,使用多层结构的学习算法很自然地提供了这种共享和重用的概念:低等级的视觉特征(比如边缘探测器)和中等级的视觉特征(比如人的一部分)对于探测一个人是非常有用的,同时也对于探测别的包含人在内的大量物体。深度学习算法基于中间层的表现可以在不同人物中共享他们的特征,从而他们可以利用无监督的数据和一些数据来自相似的任务来解决一些由于数据标定问题而导致不能学习的问题。
使用深度学习的分类器能带来如下好处:
1.分类器具有学习复杂的高度变化的函数的能力
2.具有学习超大样本量的能力
3.分类器的主要学习过程是通过无标定样本使用无监督学习获得的。
4.具有浅层特征共享的能力
5.有较强的无监督学习能力
自编码神经网络是一种无监督学习算法,它使用了反向传播算法,并让目标值等于输入值。自编码神经网络尝试学习一个hW,b(x)≈x的函数。换句话说,它尝试逼近一个恒等函数,从而使得输出接近于输入x。
卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。
卷积网络是第一个真正成功训练多层网络结构的学习算法。它利用空间关系减少需要学习的参数数目以提高一般前向回馈算法的训练性能。卷积网络作为一个深度学习架构提出是为了最小化数据的预处理要求。在卷积网络中,图像的一小部分(局部感受区域)作为层级结构的最低层的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据的最显著的特征。这个方法能够获取对平移、缩放和旋转不变的观测数据的显著特征,因为图像的局部感受区域允许神经元或者处理单元可以访问到最基础的特征,例如定向边缘或者角点。
现有纹身识别技术主要朝以下三个方向进行:
(1)感兴趣区自动检测
该方法是基于人机交互的、基于低层视觉特征的、基于视觉注意机制的和基于对象的算法。基于人机交互的方法简单灵活,但面对海量数据的时候,交互过程复杂,不易做到友好和自然。基于低层视觉特征的方法通过提取和分析图像中的低层视觉特征来获得感兴趣区,但由于拐点往往集中在纹理区域,不利于完整地描述图像各部分的内容。基于视觉注意机制的方法使用视觉注意模型得到图像中显著度较高的区域作为感兴趣区,但在检测感兴趣区的过程中没有考虑图像对象的信息,因此检测的结果与实际对象仍有差异。
(2)图像语义自动标注
获取图像语义的方法可分为三类:基于文本的、基于内容的、基于机器学习和统计模型的。斯坦福大学的SIMPLIcity系统通过统计的方法将图像大致分为纹理-非纹理、图表-照片等大的语义类,以帮助缩小图像检索的范围。由于图像经常和文本信息一起出现,因此可以分析图像周围的文本信息,提取相关的文本作为语义信息,这种方法的缺点是要求文本能够准确描述图像的内容,因此对于实际采集图像的要求非常高。
(3)低质量图像匹配方法
现有的纹身识别算法在纹身图像质量较高时,识别准确率比较高,一般在97%以上。但一旦纹身图像质量较低时,算法的性能下降明显。分析表明,数据集中占20%的低质量图像最终造成了约80%的错误结果。
发明内容
为了克服现有的纹身图像分类方法的容易受照射方向,肤色,毛发,光线,图像质量等各方面的影响、可靠性较低、实现效率较低的不足,本发明提出一种基于深度学习的纹身图像分类方法,该方法依赖超大样本集,对样本进行图像预处理后使用自编码编码器对彩色纹身图像进行预训练,后使用卷积网络进行学习;考虑到卷积网络在CPU运行效率低下,本发明使用CUDA优化后的卷积,相比CPU实现效率提升达40倍,学习后的结果用于实际的纹身分类的应用当中,可靠性良好。
为了解决上述技术问题本发明采用的技术方案是:
一种基于深度学习的纹身图像分类方法,包括以下步骤:
1)样本变换
1.1)仿射变换;
1.2)弹性变换:对样本进行曲面模拟;
1.3)遮挡模拟:在每幅输入训练机的图像增加了人工噪声,即随机把某一区域的像素值置0,同时给一个控制遮挡概率的参数以防遮挡过多导致训练机不收敛或者训练机过拟合;
1.4)白化;
2)自编码预训练:使用CUDA优化后的自编码训练机对大量彩色纹身图像进行训练,得到纹身图像的一些共同地边缘信息,同时对这些图像做些挑选后用于卷积网络的第一层;
3)卷积网络训练:使用CUDA优化后的卷积网络对有标定的纹身图像进行训练得到最终分类结果。
进一步,所述分类方法还包括以下步骤:4)对卷积网络优化:使用了随机池化和对于随机池化的BP算法,使用CUDA对整体流程进行优化。
更进一步,所述分类方法还包括以下步骤:5)使用holdout验证控制样本变换程度,用于比较样本外误差与样本内误差来调整样本变换程度从而控制训练机的拟合度。
本发明的技术构思为:目前对于纹身识别的研究不多,主要工作量还是集中在人工标定特征后使用SVM等训练机进行训练。其中人工标定样本特征的工作量是非常大的。本发明提出的方法的工作重心在于收集纹身图像样本量,卷积网络的运行效率和参数选择上。同时受深度学习的底层特征共享的优势,对于后续存在的新的训练任务也能很快完成。
本发明的有益效果主要表现在:一方面对于随着生物特征伪造技术(如假指纹、假虹膜等)的进步,单模态生物识别系统越来越容易被虚假特征所欺骗,作为一种新的应用模式,多模态生物特征识别技术能较好地克服上述缺点,而纹身由于颜料往往嵌入皮肤里层,即使纹身所在皮肤区域严重灼伤也不会被除掉的原因,可用来辅助传统的生物特征识别,特别在对海啸,地震,空难等大规模灾难时,可以通过纹身胎记等信息对死者身份进行辨认。因此对于纹身图像识别的研究引起了越来越多学者的关注,本发明应运而生。
有效避免受照射方向,肤色,毛发,光线,图像质量等各方面的影响、可靠性良好、实现效率较高。
附图说明
图1是使用HoldOut验证的训练机整体结构图。
图2是弹性变换的偏移向量的示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
参照图1~图2,一种基于深度学习的纹身分类方法,即对所输入的纹身图像进行语义标注,所述纹身分类方法包括以下步骤:
1)样本变换
1.1)仿射变换
1.2)弹性变换
1.3)白化
2)使用自编码器对彩色纹身图像进行无监督训练,目的是找出纹身图像中的边缘,角点信息,以及这些图像共有的底层信息。
3)使用自编码器的结果用于初始化卷积网络模板,卷积网络使用DropConnect和随机池化。
本实施例的基于深度学习的纹身分类方法,具体包括以下步骤:
1)样本变换
由于采集到的样本是有限的,但是对表现样本某些特性上(如旋转,弹性变换,遮挡等特性)并没有很好地表达,所以这里人为对图像进行变换来模拟这些特性。
1.1)仿射变换
通过此变换主要用来模拟纹身图像旋转,平移,缩放的特性,使分类器对于此类变换具有较大的鲁棒性。其原理如下:
其中为变换图像的坐标位置,θ为旋转角,为平移向量tx为x轴平移距离,ty为y轴平移距离。为原始图像的坐标位置。考虑到中存在小数,可以通过对该点周围4个像素进行线性插值,即可得到新图像位于坐标位置的像素值。
1.2)弹性变换
通过弹性变换主要用来模拟皮肤曲面特性,由于这个特性的存在使纹身图像在不同角度拍摄具有这种曲面信息,所以需要对样本进行曲面模拟来提高训练机对其的鲁棒性。具体过程如下:
对n*m的图像进行变换,得到n*m个向量构成坐标矩阵X。
其中Y=[y1,y2,...,yn], 1≤i≤n,列向量表示图中横坐标第i位置,纵坐标第j位置,1≤j≤m,将其输入到输入维度为2,输出维度为1的神经网络中,采用3层神经网络,变换函数为:
P=g(W2g(W1(X+b1))+b2) (2)
其中:
P=[p1,1,p1,2,p1,3,...p2,1,p2,2,...,pn,m-1,pn,m]
pi,j为向量对应的输出值;
g为神经网络的激活函数,选用sigmoid函数即x为改函数的输入值。
W1,W2,b1,b2是(-r,r)均匀分布的随机数;
对于神经网络随机初始化的范围为(-r,r)即构成所需要的曲面模型,满足光滑,并且由参数控制形变复杂度的特性;
得到曲面后,对曲面上每一点求导得到偏移矩阵G。
那么可以得到每个像素点最后的偏移坐标
XO=X+G (3)
最后我们可以使把新图像中点X的像素值取原图像XO经过线性插值后的像素值。
1.3)遮挡
由于纹身图像位于皮肤,所以存在有毛发遮挡的问题,因此我们在每幅输入训练机的图像增加了人工噪声,即随机把某一区域的像素值置0。同时给一个控制遮挡概率的参数以防遮挡过多导致训练机不收敛或者训练机过拟合。
1.4)白化
白化过程使得学习算法的输入具有如下性质:(i)降低特征之间相关性;(ii)所有特征具有相同的方差。若有{x(1),x(2),...,x(m)},维度为n。
首先算出样本的协方差矩阵∑:
其中(x(i))T为向量x(i)的转置
那么对∑分解可以得到矩阵U:
U=[u1,u2,...,un] (5)
其中u1,u2,...,un是∑的特征向量,且为列向量,另记λ1,λ2,...,λn为对应的特征值并且按特征值由大到小的顺序排列。那么可以把数据转换到由矩阵U构成的基上:
Xrot=UTX (6)
进行白化:
xrot,i是矩阵Xrot的第i个列向量。
同理xrot white,i是矩阵Xrot white的第i个列向量。
其中ε取一个极小值以防在运算过程中造成结果不稳定。
把白化结果转换回去,即白化的最终结果为:
Xwhite=UXrot white (8)
2)自编码无监督训练
深度网络一般都需要有自学习训练机对整体进行预训练,找出输入样本的共有信息,以加快最后训练机的收敛速度和收敛精度,在本发明也不例外。
自编码神经网络尝试学习一个hW,b(x)≈x的函数。换句话说,它尝试逼近一个恒等函数,从而使得输出接近于输入x。恒等函数虽然看上去不太有学习的意义,但是当我们为自编码神经网络加入某些限制,比如限定隐藏神经元的数量,我们就可以从输入数据中发现一些有趣的结构。
所以先把纹身样本随机采集n万张a×a的图像,这些图像包含纹身图像的各种区域信息,输入到隐藏层为b的自编码训练机中。具体方法为:
假设Xpatch=(x(1),x(2),...,x(m)}是n维度构成n*m的矩阵X,那么得到自编码输出hW,b(Xpatch):
hW,b(Xpatch)=f(W(2)f(W(1)Xpatch+b(1))+b(2)) (9)
其中x为函数f(x)的输入值;
l代表层数在这里l∈{1,2}
W(l)为第l层权重参数;
b(l)为第l层偏置参数;
那么误差E:
其中,
nl表示神经网络的层数在这里nl=3;
λ为权重衰减参数;
sl表示第l层的神经元个数;
β表示稀疏输出的惩罚系数;
表示实际第二层的平均激活度,ρ表示第二层的平均激活度控制参数;
的主要目的是使尽可能接近ρ;
接下来对该网络使用回馈优化:
顶层残差δ(2)和梯度分别为:
δ(2)=(a(2)-Xpatch)·f′(z(2)) (13)
第1层残差δ(1)和梯度
其中
δ(l)代表第l层残差;
z(1)=W(1)Xpatch
z(2)=W(2)f(W(1)Xpatch+b(1))+b(2)
3)卷积网络训练
卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。
在本发明中卷积网络,输入层选用64×64×3的维度,第一层卷积层选用64个维度为11×11×3由自编码学习得到的卷积层得到54×54×64的输出。第二层对于图像中3×3的空间进行随机池化得到18×18×64的输出,第三层128个维度为7×7由自编码学习得到的卷积层,得到12×12×128的输出,第四层池化层采用3×3的池化区域得到4×4的输出,第5层采用512个4×4的随机初始化的卷积层得到512个输出,第六层采用400个全连接的神经网络,最后第七层采用输出为6的SoftMax函数,分别表示为动物,图腾,植物花草,人物肖像,骷髅鬼怪,和其他。
4)卷积网络的优化
4.1)随机池化
由于纹身图像比较复杂,有较多的细节信息,所以在卷积网络中我们选用随机池化而不是一般采取的最大值池化(MaxPooling)或者平均池化(MeanPooling)。因为最大值池只输出池化区域中激活度最高的部分,而丢弃了所有其他部分因而容易产生过拟合,但是平均值池化对池化区域所有值进行平均,这样某些细节信息就容易被“平均”掉了,综合上述原因,本发明使用了随机池化,主要思想是从池化的区域中按概率随机选取池化层的输入值。
这个概率的计算方式如下
其中:pi为该位置被选取的概率;
Rj为池化区域j;
ai为该位置的输入值;
运用上述的方法在深度网络训练时可以有效表现输入样本中的细节信息并且可以有效防止过拟合。但是在进行分类器测试时为了保持输出结果的稳定需要对模型平均化,方式如下
其中:sj为池化区域Rj的输出;
Rj为池化区域j;
ai为该位置的输入值;
pi为该位置被选取的概率。
4.2)CUDA
本发明主要的实现手段是卷积网络,但是卷积网络需要对每一层的图像和卷积模板进行卷积,所以当图像尺度较大时使用CPU计算的效率较低。考虑到这些卷积运算间无依赖关系,可以通过并行完成,所以在本发明中使用CUDA对我们的卷积网络进行优化。
CUDA是一个并行计算平台和编程模型,通过使用GPU计算单元可以极大地加速计算效率。对于卷积网络来说对于输入样本进行卷积运算是完全可以通过GPU加速的,并且加速效率可以达到百倍以上,本发明的卷积网络在纹身图像分类上的速度可达每秒3000张。
5)使用holdout验证控制样本变换
在1.1,1.2,1.3中都有样本变换,为了能使训练机得到尽量多的变换后的样本,本发明的卷积网络使用随机梯度下降,即随机选取一些样本放入训练机,算出训练代价后对参数进行优化。
所以在本发明中放入卷积网络训练机的样本都是经过1.1,1.2,1.3变化后的样本,以保证每个输入样本都不同,最大程度发挥卷积网络的泛化性能。
为了使样本外误差和样本内误差尽可能地相似,本发明使用holdout验证(训练机整体结构如图1所示)用于控制1.1,1.2,1.3中样本变换部分的变换程度,使其不会使训练机过拟合的同时,也能使训练机收敛。

Claims (8)

1.一种基于深度学习的纹身图像分类方法,其特征在于:所述分类方法包括以下步骤:
1)样本变换
1.1)仿射变换;
1.2)弹性变换:对样本进行曲面模拟,过程如下:
对n*m的图像进行变换,得到n*m个向量构成坐标矩阵X;
其中Y=[y1,y2,…,ym], 1≤i≤n,列向量表示图中横坐标第i位置,纵坐标第j位置,1≤j≤m,将其输入到输入维度为2,输出维度为1的神经网络中,采用3层神经网络,变换函数为:
P=g(W2g(W1(X+b1))+b2) (2)
其中:
P=[p1,1,p1,2,…,p1,m,p2,1,p2,2,…,p2,m,…,pn,1,pn,2,…,pn,m]
pi,j为向量对应的输出值;
g为神经网络的激活函数,选用sigmoid函数即x为函数的输入值;
W1,W2,b1,b2是(-r,r)均匀分布的随机数;
对于神经网络随机初始化的范围为(-r,r)即构成所需要的曲面模型,满足光滑,并且由参数控制形变复杂度的特性;
得到曲面后,对曲面上毎一点求导得到偏移矩阵G,得到每个像素点最后的偏移坐标:
Xo=X+G (3)
最后把新图像中点X的像素值取原图像Xo经过线性插值后的像素值;
1.3)遮挡模拟:在每幅输入训练机的图像随机把某一区域的像素值置0;
1.4)白化;
2)自编码预训练:使用CUDA优化后的自编码训练机对大量彩色纹身图像进行训练,得到纹身图像的一些共同地边缘信息,同时对这些图像做些挑选后用于卷积网络的第一层;
3)卷积网络训练:使用CUDA优化后的卷积网络对有标定的纹身图像进行训练得到最终分类结果。
2.如权利要求1所述的一种基于深度学习的纹身图像分类方法,其特征在于:所述分类方法还包括以下步骤:
4)对卷积网络优化:使用了随机池化和对于随机池化的BP算法,使用CUDA对整体流程进行优化。
3.如权利要求2所述的一种基于深度学习的纹身图像分类方法,其特征在于:所述分类方法还包括以下步骤:
5)使用holdout验证控制样本变换程度。
4.如权利要求1~3之一所述的一种基于深度学习的纹身图像分类方法,其特征在于:所述步骤1.1)中,仿射变换原理如下:
X ′ Y ′ 1 = c o s θ s i n θ t x - s i n θ c o s θ t y 0 0 1 X Y 1 - - - ( 1 )
其中为变换图像的坐标位置,θ为旋转角,为平移向量,tx为x轴平移距离,ty为y轴平移距离;为原始图像的坐标位置。
5.如权利要求1~3之一所述的一种基于深度学习的纹身图像分类方法,其特征在于:所述步骤1.4)中,白化过程:
若有矩阵Xo={x(1),x(2),…,x(m)},其中x(i)∈Rn×1,R为实数;
首先算出样本的协方差矩阵C:
C = 1 m Σ i = 1 m ( x ( i ) ) ( x ( i ) ) T - - - ( 4 )
其中(x(i))T为向量x(i)的转置;
那么对C分解得到矩阵U:
U=[u1,u2,…,un] (5)
其中u1,u2,…,un是C的特征向量,且为列向量,另记λ12,…,λn为对应的特征值并且按特征值由大到小的顺序排列;把数据转换到由矩阵U构成的基上:
Xrot=UTXo (6)
进行白化:
x r o t w h i t e , i = x r o t , i λ i + ϵ - - - ( 7 )
xrot,i是矩阵Xrot的第i个列向量;
同理xrotwhite,i是矩阵Xrotwhite的第i个列向量;
其中ε取一个极小值;
把白化结果转换回去,即白化的最终结果为:
Xwhite=UXrotwhite (8)。
6.如权利要求1~3之一所述的一种基于深度学习的纹身图像分类方法,其特征在于:所述步骤2)中,先把纹身样本随机采集n万张a×a的图像,这些图像包含纹身图像的各种区域信息,输入到隐藏层为b的自编码训练机中,具体方法为:
假设Xpatch={x(1),x(2),…,x(m)}是n维度构成n*m的矩阵,x(i)为图像数据向量,那么得到自编码输出hW,b(x):
hW,b(Xpatch)=f(W(2)f(W(1)Xpatch+b(1))+b(2)) (9)
其中x为函数f(x)的输入值;
l代表层数,在这里l∈{1,2}
W(l)为第l层权重参数;
b(l)为第l层偏置参数;
那么误差E:
E = 1 2 | | h W , b ( X p a t c h ) - X p a t c h | | 2 + λ 2 Σ l = 1 n l - 1 Σ i = 1 s l Σ j = 1 s l + 1 ( W i j ( l ) ) 2 + βΣ j = 1 S 2 K L ( ρ | | ρ ^ j ) - - - ( 10 )
其中,
ρ ^ j = 1 m Σ i = 1 m [ f ( W ( 1 ) X p a t c h + b ( 1 ) ) ] - - - ( 12 )
nl表示神经网络的层数,在这里nl=3;
sl表示第l层的神经元个数;
β表示稀疏输出的惩罚系数;
λ为权重衰减参数;
表示实际第二层的平均激活度,ρ表示第二层的平均激活度的控制参数;
接下来对该网络使用回馈优化:
顶层残差δ(2)和梯度分别为:
δ(2)=(a(2)-Xpatch)·f′(z(2)) (13)
▿ W ( 2 ) = 1 m * δ ( 2 ) f ( W ( 1 ) X p a t c h + b ( 1 ) ) T + λW ( 2 ) - - - ( 14 )
▿ b ( 2 ) = δ ( 2 ) - - - ( 15 )
第1层残差δ(1)和梯度
δ ( 1 ) = ( ( W ( 1 ) ) T δ ( 2 ) + β ( - ρ ρ ^ j + 1 - ρ 1 - ρ ^ j ) ) · f ′ ( z ( 1 ) ) - - - ( 16 )
▿ w = 1 m δ ( 1 ) X p a t c h T + λW ( 1 ) - - - ( 17 )
▿ b = δ ( 1 ) - - - ( 18 )
其中,δ(l)代表第l层残差;
z(1)=W(1)Xpatch
z(2)=W(2)f(W(1)Xpatch+b(1))+b(2)
7.如权利要求1~3之一所述的一种基于深度学习的纹身图像分类方法,其特征在于:所述步骤3)中,输入层选用64×64×3的维度,第一层卷积层选用64个维度为11×11×3由自编码学习得到的卷积层得到54×54×64的输出,第二层对于图像中3×3的空间进行随机池化得到18×18×64的输出,第三层128个维度为7×7由自编码学习得到的卷积层,得到12×12×128的输出,第四层池化层采用3×3的池化区域得到4×4的输出,第5层采用512个4×4的随机初始化的卷积层得到512个输出,第六层采用400个全连接的神经网络,最后第七层采用输出为6的SoftMax函数,分别代表为动物,图腾,植物花草,人物肖像,骷髅鬼怪,和其他。
8.如权利要求2或3所述的一种基于深度学习的纹身图像分类方法,其特征在于:所述步骤4)中,优化过程如下:
4.1)随机池化
从池化的区域中按概率随机选取池化层的输入值,概率的计算方式如下:
p i = a i Σ k ∈ R j a k - - - ( 19 )
其中:pi为在池化区域Rj中位置i被选取的概率;
Rj为池化区域j;
ai为该位置的输入值;
对模型平均化,方式如下
s j = Σ i ∈ R j p i a i - - - ( 20 )
其中:sj为池化区域Rj的输出;
Rj为池化区域j;
ai为该位置的输入值;
pi为该位置被选取的概率;
4.2)CUDA:使用CUDA对卷积网络进行优化。
CN201410138343.4A 2014-04-08 2014-04-08 一种基于深度学习的纹身图像分类方法 Active CN103996056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410138343.4A CN103996056B (zh) 2014-04-08 2014-04-08 一种基于深度学习的纹身图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410138343.4A CN103996056B (zh) 2014-04-08 2014-04-08 一种基于深度学习的纹身图像分类方法

Publications (2)

Publication Number Publication Date
CN103996056A CN103996056A (zh) 2014-08-20
CN103996056B true CN103996056B (zh) 2017-05-24

Family

ID=51310217

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410138343.4A Active CN103996056B (zh) 2014-04-08 2014-04-08 一种基于深度学习的纹身图像分类方法

Country Status (1)

Country Link
CN (1) CN103996056B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200224A (zh) * 2014-08-28 2014-12-10 西北工业大学 基于深度卷积神经网络的无价值图像去除方法
CN105809090A (zh) * 2014-12-30 2016-07-27 中国科学院深圳先进技术研究院 一种人脸性别特征提取的方法及系统
CN104573391B (zh) * 2015-01-27 2017-09-22 福建医科大学附属口腔医院 一种基于线性回归的牙齿选色推测方法
CN105989368A (zh) * 2015-02-13 2016-10-05 展讯通信(天津)有限公司 一种目标检测方法及装置以及移动终端
CN106156807B (zh) * 2015-04-02 2020-06-02 华中科技大学 卷积神经网络模型的训练方法及装置
NL2015087B1 (en) 2015-06-05 2016-09-09 Univ Amsterdam Deep receptive field networks.
CN105701507B (zh) * 2016-01-13 2018-10-23 吉林大学 基于动态随机池化卷积神经网络的图像分类方法
CN105574215B (zh) * 2016-03-04 2019-11-12 哈尔滨工业大学深圳研究生院 一种基于多层特征表示的实例级图像搜索方法
CN106097322B (zh) * 2016-06-03 2018-10-09 江苏大学 一种基于神经网络的视觉系统标定方法
CN106326925A (zh) * 2016-08-23 2017-01-11 南京邮电大学 一种基于深度学习网络的苹果病变图像识别方法
CN106404388B (zh) * 2016-09-13 2018-10-19 西安科技大学 一种刮板输送机飘链故障诊断方法
US10373049B2 (en) * 2016-12-20 2019-08-06 Google Llc Generating an output for a neural network output layer
CN107578067A (zh) * 2017-09-15 2018-01-12 国家烟草质量监督检验中心 一种基于卷积神经网络的烟丝组分识别方法及装置
CN107958208A (zh) * 2017-11-15 2018-04-24 西安电子科技大学 一种基于传播算法的指纹交叉库匹配方法
CN108304845B (zh) * 2018-01-16 2021-11-09 腾讯科技(深圳)有限公司 图像处理方法、装置及存储介质
CN108596258B (zh) * 2018-04-27 2022-03-29 南京邮电大学 一种基于卷积神经网络随机池化的图像分类方法
TWI689875B (zh) * 2018-06-29 2020-04-01 由田新技股份有限公司 利用深度學習系統的自動光學檢測分類設備及其訓練設備
WO2020014959A1 (zh) * 2018-07-20 2020-01-23 深圳市汇顶科技股份有限公司 指纹识别的方法、指纹识别装置和电子设备
CN110824912B (zh) * 2018-08-08 2021-05-18 华为技术有限公司 训练用于生成自动驾驶策略的控制策略模型的方法和装置
CN109064558A (zh) * 2018-08-23 2018-12-21 成都爱为贝思科技有限公司 一种基于特征的不确定性规划地质曲面重构方法
CN109685119B (zh) * 2018-12-07 2023-05-23 中国人民解放军陆军工程大学 一种随机最大池化深度卷积神经网络噪声图形分类方法
CN109727256B (zh) * 2018-12-10 2020-10-27 浙江大学 一种基于玻尔兹曼和目标先验知识的图像分割识别方法
CN110020684B (zh) * 2019-04-08 2021-01-29 西南石油大学 一种基于残差卷积自编码网络的图像去噪方法
CN110163106A (zh) * 2019-04-19 2019-08-23 中国科学院计算技术研究所 一体式纹身检测与识别方法和系统
CN110348014B (zh) * 2019-07-10 2023-03-24 电子科技大学 一种基于深度学习的语义相似度计算方法
CN110633739B (zh) * 2019-08-30 2023-04-07 太原科技大学 基于并行模块深度学习的偏光片缺陷图像实时分类方法
CN111862136A (zh) * 2020-06-22 2020-10-30 南开大学 基于卷积神经网络的多模态核磁影像缺血性脑卒中病变分割方法
CN111860614B (zh) * 2020-06-30 2023-09-19 西安工程大学 基于深度子空间自表达的多标签分类方法
CN113239730B (zh) * 2021-04-09 2022-04-05 哈尔滨工业大学 一种基于计算机视觉的结构虚假模态参数自动剔除方法
CN113205103A (zh) * 2021-04-19 2021-08-03 金科智融科技(珠海)有限公司 一种轻量级的文身检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1877637A (zh) * 2006-06-20 2006-12-13 长春工业大学 一种基于微机的医学图像模板匹配方法
CN103544392A (zh) * 2013-10-23 2014-01-29 电子科技大学 基于深度学习的医学气体识别方法
CN103544705A (zh) * 2013-10-25 2014-01-29 华南理工大学 一种基于深度卷积神经网络的图像质量测试方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002318165A1 (en) * 2001-05-25 2002-12-09 Biometric Informatics Technology, Inc. Fingerprint recognition system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1877637A (zh) * 2006-06-20 2006-12-13 长春工业大学 一种基于微机的医学图像模板匹配方法
CN103544392A (zh) * 2013-10-23 2014-01-29 电子科技大学 基于深度学习的医学气体识别方法
CN103544705A (zh) * 2013-10-25 2014-01-29 华南理工大学 一种基于深度卷积神经网络的图像质量测试方法

Also Published As

Publication number Publication date
CN103996056A (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
CN103996056B (zh) 一种基于深度学习的纹身图像分类方法
Zhang et al. A face emotion recognition method using convolutional neural network and image edge computing
Elgendy Deep learning for vision systems
CN108717568B (zh) 一种基于三维卷积神经网络的图像特征提取与训练方法
Teow Understanding convolutional neural networks using a minimal model for handwritten digit recognition
CN109829541A (zh) 基于学习自动机的深度神经网络增量式训练方法及系统
CN107169974A (zh) 一种基于多监督全卷积神经网络的图像分割方法
CN107609460A (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
CN110263833A (zh) 基于编码-解码结构的图像语义分割方法
CN107506740A (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN106778854A (zh) 基于轨迹和卷积神经网络特征提取的行为识别方法
CN109241834A (zh) 一种基于隐变量的嵌入的群体行为识别方法
CN107657204A (zh) 深层网络模型的构建方法及人脸表情识别方法和系统
CN107529650A (zh) 网络模型的构建和闭环检测方法、相应装置及计算机设备
CN107085704A (zh) 基于elm自编码算法的快速人脸表情识别方法
CN107145893A (zh) 一种基于卷积深度网络的图像识别算法及系统
CN105894045A (zh) 一种基于空间金字塔池化的深度网络模型的车型识别方法
CN107657233A (zh) 基于改进型单次多目标检测器的静态手语实时识别方法
CN106529570B (zh) 基于深度脊波神经网络的图像分类方法
CN106127240A (zh) 一种基于非线性重构模型的植物图像集的分类识别方法
CN105930812A (zh) 一种基于融合特征稀疏编码模型的车辆品牌类型识别方法
CN106485259A (zh) 一种基于高约束高分散主成分分析网络的图像分类方法
CN105809201A (zh) 一种生物启发式自主提取图像语义概念的识别方法及装置
CN106909938A (zh) 基于深度学习网络的视角无关性行为识别方法
CN108182475A (zh) 一种基于自动编码机-超限学习机的多维度数据特征识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant