CN107622272A - 一种图像分类方法及装置 - Google Patents
一种图像分类方法及装置 Download PDFInfo
- Publication number
- CN107622272A CN107622272A CN201610553942.1A CN201610553942A CN107622272A CN 107622272 A CN107622272 A CN 107622272A CN 201610553942 A CN201610553942 A CN 201610553942A CN 107622272 A CN107622272 A CN 107622272A
- Authority
- CN
- China
- Prior art keywords
- mrow
- max
- convolutional neural
- criterions
- neural networks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 130
- 238000012549 training Methods 0.000 claims abstract description 83
- 238000003062 neural network model Methods 0.000 claims abstract description 49
- 238000012360 testing method Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims description 46
- 230000035945 sensitivity Effects 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000001537 neural effect Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 description 11
- 230000008859 change Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 210000004556 brain Anatomy 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种图像分类方法及装置,其特征在于,方法包括:获取待分类图像的训练集;选择一个多层的卷积神经网络模型;对选取层做基于最小‑最大Min‑Max准则的正则约束,并形成第二卷积神经网络模型,其中,所述选取层为卷积神经网络模型中的一层;使用所述训练集对第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;使用第三卷积神经网络模型对待分类图像的测试集进行分类。基于目标识别的不变性特征,通过对选取层特征做基于Min‑Max准则的约束,使显式地强迫所学到的特征满足:属于同一类的目标流形有较好的类内紧凑性,属于不同类的目标流形有较大的类间间隔,进而能够显著地提高图像分类的精度。
Description
技术领域
本发明涉及计算机视觉图像分类技术领域,特别是涉及一种图像分类方法及装置。
背景技术
近来,卷积神经网络在计算机视觉领域和模式识别的多个领域都获得了巨大的成功,例如在目标识别、目标检测、语义分割、目标追踪和图像检索等方面均取得了较好的效果。这些巨大的成功主要归功于以下两个方面的原因:一方面,以通用计算图形处理器(英文:General Purpose GPU,缩写:GPGPU)和CPU集群为代表的现在计算技术的快速发展允许研究人员训练较大规模和较高复杂度的神经网络;另一方面,拥有数以百万计标记图像的大规模数据集的出现,能够在一定程度上减少训练较大规模的卷积神经网络的过拟合,使得训练大规模网络成为可能。
通常地,对卷积神经网络图像分类的训练方法是单纯地采用基于随机梯度下降(缩写:SGD)的反向传播(英文Back Propagation,缩写:BP)算法。由于在这种训练方法中没有加入对卷积神经网络所学习到的特征的约束条件,所以导致训练出来的卷积神经网络图像分类系统分类精度不够好,表现为所学习到的特征的类内紧凑性和类间分离性不够好。
发明内容
本申请中提供了一种图像分类方法及装置,以提高图像分类精度,为了解决上述技术问题,本申请公开了如下技术方案:
第一方面,提供了一种图像分类方法,所述方法包括:
获取待分类图像的训练集;选择一个多层的卷积神经网络模型;对选取层做基于Min-Max准则的正则约束,并形成第二卷积神经网络模型,其中,所述选取层为所述卷积神经网络模型中的一层;使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。
本申请基于目标识别的不变性特征,所述不变性特征是指,当一个物体经过保同变换(例如位置平移,光照变化,形状变化、视角变化等等),其在特征空间里对应的特征向量也会随之变化,将特征向量投影到一个高维的特征空间里,由于高维特征空间的维数和特征向量的维数相同,所以这些所有保同变换在高维特征空间里对应的所有特征向量将会形成一个低维的流形,当属于同一类的目标流形变得比较紧凑,不同类目标物体的流形的间隔比较大时,就得到了较好的不变性特征。
本申请在对目标识别不变性特征的观察,提供了基于Min-Max准则改进的深度卷积神经网络图像的分流方法,通过对卷积神经网络的选取层特征做基于Min-Max准则的约束,使显式地强迫所学到的特征满足:属于同一类的目标流形有较好的类内紧凑性,属于不同类的目标流形有较大的类间间隔,进而能够显著地提高图像分类的精度。
此外,从选择的卷积神经网络模型中的选取层开始,对其进行Min-Max准则的正则约束运算,使得在训练大规模网络时,能够简化运算,避免通过增加网络规模和训练数据规模导致计算量大,效率低,同时也能够避免构建大规模的训练标注数据集时,投入耗费大量的时间、人力和财力。
结合第一方面,在第一方面第一种实现中,所述选择一个卷积神经网络模型包括:
获取一个mini-batch的训练样本;根据所述训练样本和目标函数,确定所述卷积神经网络模型;其中,所述训练样本表示为n表示所述mini-batch的大小,Xi表示原始的输入数据,ci表示Xi的类别标签,且ci∈{1,2,…,C},C表示所述训练集的类别总数;所述目标函数表示为:
W=(W(1),…,W(M);b(1),…,b(M)),W表示所述卷积神经网络模型的全部参数,表示训练样本的损失函数,M表示所述卷积神经网络模型的总层数,W(m)表示所述卷积神经网络模型第m层的权重参数,b(m)表示所述卷积神经网络模型第m层的偏置参数,m∈{1,2,…,M}中的任意一个值。
结合第一方面第一种实现,在第一方面第二种实现中,所述选择一个卷积神经网络模型之后还包括:对所述卷积神经网络模型划分层级;其中,所述划分层级后的卷积神经网络模型的每一层特征的递归表示为:
其中,Xi (m)表示所述卷积神经网络模型第m层的特征,*表示卷积运算,f(·)表示非线性激活函数。
结合第一方面,在第一方面第三种实现中,对选取层做基于Min-Max准则的正则约束运算之前还包括:获取所述Min-Max准则;
所述获取Min-Max准则包括:分别获取Min-Max的内在图和惩罚图,所述内在图表征目标流形的内部紧凑性,所述惩罚图表征目标流形之间的间隔;根据所述内在图和惩罚图,运算得到第k层特征的Min-Max准则,所述第k层为所述选取层;其中,所述第k层特征的Min-Max准则表示为
L(X(k),c)=L1(X(k),c)-L2(X(k),c)
其中,L1(X(k),c)表示所述内在图,L2(X(k),c)表示所述惩罚图;X(k)表示一个mini-batch的训练样本在第k层的特征的集合,表示与所述mini-batch相对应的类别标签集合,i∈{1,2,…,n}。
结合第一方面第三种实现,在第一方面第四种实现中,所述第二卷积神经网络模型用目标函数表示为:
其中,为第二卷积神经网络模型的分类损失函数,L(X(k),c)为第k层特征的Min-Max准则。
结合第一方面第四种实现,在第一方面第五种实现中,使用所述训练集对所述第二卷积神经网络模型进行训练包括:根据第二卷积神经网络模型的目标函数,获取第二卷积神经网络模型关于第k层特征的灵敏度;根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法,使用所述训练集对所述第二卷积神经网络模型进行训练;
其中,所述第k层特征的灵敏度采用如下方式计算得出:
H表示第k层特征拼成的矩阵,Ψ=D-G,D=diag(d11,d22,…,dnn), 表示内在图中连接顶点xi和xj的边的权值,表示惩罚图中连接顶点xi和xj的边的权值,i=1,2,…,n,Ψ表示矩阵G=(Gij)n×n的拉普拉斯矩阵,下标(:,i)表示所述矩阵的第i列。
结合第一方面第五种实现,在第一方面第六种实现中,所述Min-Max准则为核版本的Min-Max准则,所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成准则。
结合第一方面第六种实现,在第一方面第七种实现中,若所述Min-Max准则为核版本的Min-Max准则,那么对选取层做基于Min-Max准则的正则约束运算包括:获取所述核版本的Min-Max准则关于第k层特征的灵敏度;根据所述核版本的Min-Max准则关于第k层特征的灵敏度,对所述第k层做基于所述核版本的Min-Max准则的约束运算;
其中,所述核版本的Min-Max准则关于第k层特征的灵敏度表示为:
其中,Φ表示矩阵V=(Vij)n×n的拉普拉斯矩阵,
结合第一方面第七种实现,在第一方面第八种实现中,使用所述第三卷积神经网络模型对待分类图像的测试集进行分类包括:使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。
结合第一方面或第一方面第一种至第八种实现的任意一种,在第一方面第八种实现中,所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。
第二方面,还提供了一种图像分类装置,该装置包括用于执行第一方面及第一方面各实现方式的中方法步骤的单元。
第三方面,还提供了一种图像分类设备,所述设备包括:处理器和存储器,
所述处理器,用于获取待分类图像的训练集;选择一个多层的卷积神经网络模型;对选取层做基于Min-Max准则的正则约束,并形成第二卷积神经网络模型,使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;使用所述第三卷积神经网络模型对待分类图像的测试集进行分类,其中,所述选取层为所述卷积神经网络模型中的一层;
所述存储器,用于存储所述待分类图像的训练集,所述多层的卷积神经网络模型,所述Min-Max准则和分类后的图像。
第四方面,还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时执行可包括本发明提供一种图像分类方法及装置的各实现方式中的部分或全部步骤。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像分类方法的流程示意图;
图2为本申请实施例提供的一种人脑视觉系统形成物体流形的过程示意图;
图3为本申请实施例提供的一种通过变换达到目标特征不变性的示意图;
图4为本申请实施例提供的一种多层卷积神经网络模型的结构示意图;
图5为本申请实施例提供的一种内在图和惩罚图的结构示意图;
图6本申请实施例提供的一种图像分类装置的结构框图;
图7为本申请实施例提供的一种图像分类设备的示意图。
具体实施方式
本申请提供的一种图像分类方法及装置用于提高图像分类的精度,具体而言,本方法借鉴人脑视觉通道的目标识别的流形解离特性,将其与卷积神经网络相结合,提出了一种基于Min-Max准则改进的深度卷积神经网络图像分类方法及装置。
首先,介绍人脑视觉系统腹侧通道关于目标识别的流形解离特性,所述目标识别的关键是不变性特征,所述不变性特征是指在各种视觉条件下,都能够准确识别出特定物体的能力。对于某一视觉刺激,其在腹侧通道某脑区神经元的激活响应可以看成是一个响应向量,向量空间的维数就是该区域神经元的个数。当目标物体经过“保同变换”(例如,位置、尺度、姿势等变化)后,所产生的响应向量在高维向量空间中形成一个低维的物体流形(英文:object manifold),如图2所示,其中,r1,r2,……,rN表示每个神经元。
低层脑区的每一个目标流形都高度弯曲,且不同目标物体的流形相互缠绕在一起。腹侧通道通过逐级非线性变换,将不同目标的流形逐步变换为平坦和相互分离。在最后阶段,不同的目标流形变得线性可分,如图3所示。
当一个物体经过保同变换,其在特征空间里对应的特征向量也会随之变化,将特征向量投影到一个高维的特征空间里(高维特征空间的维数和特征向量的维数相同),这些所有保同变换在高维特征空间里对应的所有特征向量将会形成一个低维的流形,当属于同一类的目标流形变得比较紧凑,不同类目标物体的流形的间隔比较大时,就得到了较好的不变性特征。
为了提高图像分类的精度,使得分类后的图像中属于同一类的目标流形具有较好的内紧凑性,属于不同类目标物体的流形具有较大的类间间隔,本申请实施例提供了一种图像分类系统,该系统包括:图像集、一个卷积神经网络模型和Min-Max准则。
其中,所述图像集是指待分类的图像,在对该图像集进行分类之前,预先对该图像集划分为训练集、验证集和测试集。所述卷积神经网络模型原则上可以是任何卷积神经网络模型,例如Quick-CNN、NIN、AlexNet等。
如图1所示为本申请实施例提供的一种图像分类方法的流程示意图,该方法包括如下步骤:
步骤101:获取待分类图像的训练集,其中所述待处理图像预先划分为训练集、验证集和测试集。
步骤102:选择一个多层的卷积神经网络模型。该卷积神经网络模型至少包括2个层级。
步骤103:对选取层做基于Min-Max准则的正则约束运算,并形成第二卷积神经网络模型,其中,所述选取层为所述卷积神经网络模型中的一层,例如,设所述选取层为卷积神经网络模型中的第k层。
其中,所述Min-Max准则是基于目标流形的内在图和惩罚图来构造的,所述内在图表征目标流形的内部紧凑性,所述惩罚图表征目标流形之间的间隔。
步骤104:使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型。
步骤105:使用所述第三卷积神经网络模型对待分类图像的测试集进行分类,以完成对待分类图像的分类测试。
本实施例提供的图像分类方法在对目标识别不变性特征的观察基础上,通过对卷积神经网络的选取层特征做基于Min-Max准则的约束,使显式地(英文:explicitly)强迫训练所学到的特征满足:属于同一类的目标流形有较好的类内紧凑性,属于不同类的目标流形有较大的类间间隔,(即不同目标流形之间的间隔尽可能的大)进而能够显著地提高图像分类的精度。
在一个具体的实施例中,上述步骤102中,选择一个多层的卷积神经网络模型的过程包括:
获取一个mini-batch的训练样本;
根据所述训练样本和目标函数,确定所述卷积神经网络模型;
其中,设该mini-batch训练样本表示为n表示所述mini-batch的大小,Xi表示原始的输入数据,即Xi是第i幅训练集图像,ci表示与所述待分类图像相对应类别标签,且ci∈{1,2,…,C},即ci表示Xi的类别标签,C表示所述训练集图像的类别总数,每一个图像的类别标签是选自{1,2,…,C}中的一个特定值。
选定的卷积神经网络模型的目标函数表示为:
其中,W=(W(1),…,W(M);b(1),…,b(M)),W表示选定的所述卷积神经网络模型的全部参数,表示训练样本的损失函数,M表示所述卷积神经网络模型的总层数,W(m)表示所述卷积神经网络模型第m层的权重参数,b(m)表示所述卷积神经网络模型第m层的偏置参数,m∈{1,2,…,M}中的任意一个值。
进一步地,在选择完一个卷积神经网络模型之后还包括:
对所述卷积神经网络模型划分层级;
其中,所述划分层级后的卷积神经网络模型的每一层特征的递归表示为:
其中,Xi (m)表示所述卷积神经网络模型第m层的特征,*表示卷积运算,f(·)表示非线性激活函数。
在对选定的卷积神经网络模型分层之后,选择一个层对其进行基于Min-Max准则的改进,优选的,所述选择的层(即选取层),设为第k层,为所述卷积神经网络模型中靠近输出的层(即模型的高层),例如所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层,如图4所示。
将Min-Max准则作用在卷积神经网络模型(例如CNN模型)高层可以起到更好的优化效果,这是由于CNN模型通过BP(英文:Error Back-Propagation,中文:误差反向传播)算法来优化,Min-Max准则关于特征的导数可以通过BP过程自上而下地影响CNN模型中的每一层特征的学习。
另外,从选择的卷积神经网络模型中的高层(选取层)开始,对其进行Min-Max准则的正则约束运算,使得在训练大规模网络时,能够简化运算,避免通过增加网络规模和训练数据规模导致计算量大,效率低,同时也能够避免构建大规模的训练标注数据集时,投入耗费大量的时间、人力和财力。
进一步地,在上述步骤103中,对选取层做基于Min-Max准则的正则约束之前还包括:获取所述Min-Max准则。
具体地,所述获取Min-Max准则包括:
分别获取Min-Max的内在图和惩罚图,所述内在图表征目标流形的内部紧凑性,所述惩罚图表征目标流形之间的间隔;根据所述内在图和惩罚图,运算得到第k层特征的Min-Max准则,所述第k层为所述选取层。
其中,对于给定一个mini-batch的训练样本样本,样本Xi的第k层特征为为描述方便,把拉直成列向量并简写为x1,如图5所示。
其中,所述第k层特征的Min-Max准则表示为
L(X(k),c)=L1(X(k),c)-L2(X(k),c)
其中,L1(X(k),c)表示所述内在图,L2(X(k),c)表示所述惩罚图;X(k)表示一个mini-batch的训练样本在第k层的特征的集合,表示与所述mini-batch相对应的类别标签集合,i∈{1,2,…,n}。
所述内在图的构造方式为:将{x1,x2,…,xn}看成内在图的顶点,每个顶点与和其具有相同标签的k1个最近邻的顶点通过无向边相连接。
所述惩罚图的构造方式为:将{x1,x2,…,xn}看成惩罚图的顶点,来自不同类流形的边缘顶点对通过无向边相连接。第c类流形的边缘顶点对的定义为第c类流形与其他所有类的流形之间的k2个最近的顶点对。
根据内在图的构造方式,流形内部的紧凑性可以表示为:
其中,所述否则表示的含义是:并且
根据惩罚图的构造方式,流形之间的间隔可以表示为:
否则表示的含义是:并且
其中,表示内在图中连接顶点xi和xj的边的权值,表示向量的l2范数,表示所述训练样本Xi的和其具有相同类别标签的k1个最近邻的顶点的下标标号的集合,表示惩罚图中连接顶点xi和xj的边的权值,是集合中k2个最近邻的顶点对的集合,πc表示所述mini-batch中属于第c类的样本的下标标号的集合。L1(X(k),c)越小表示流行内部越紧凑,L2(X(k),c)越大表示流形之间的间隔越大。
在上述步骤103中,对选取层做基于Min-Max准则的正则约束运算,并形成第二卷积神经网络模型,所述第二卷积神经网络模型用目标函数表示为:
其中,为第二卷积神经网络模型的分类损失函数,L(X(k),c)为第k层特征的Min-Max准则,λ为大于0的权值系数。实际应用中,针对不同的数据集,λ的值需要进行调节,当λ的值调节好之后,整个训练过程一直保持为恒定不变的值。
进一步地,在上述步骤104中,使用所述训练集对所述第二卷积神经网络模型进行训练包括:
根据第二卷积神经网络模型的目标函数,获取第二卷积神经网络模型关于第k层特征的灵敏度;
按照基于mini-batch的随机梯度下降方法,利用训练集来训练第二卷积神经网络模型,利用预先划分的待分类图像的验证集用来调节学习率等参数。
在用反向传播BP算法,需要计算目标函数关于模型参数的导数,由于直接计算目标函数关于模型参数的导数比较困难,所以需要先计算出目标函数关于各层特征的灵敏度,即损失函数关于相应层特征的导数或梯度,然后根据灵敏度可以求出来关于相应参数的导数。分类损失函数关于第k层的特征的灵敏度可以按照传统神经网络的反向传播算法进行计算。本申请提供的方法只需计算出Min-Max准则关于第k层的特征的梯度即可,不需要计算出目标函数关于各层特征的灵敏度,具体计算过程如下:
根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法,使用所述训练集对所述第二卷积神经网络模型进行训练;其中,所述第k层特征的灵敏度采用如下方式计算得出:
H表示第k层特征拼成的矩阵,Ψ=D-G,D=diag(d11,d22,…,dnn), 表示内在图中连接顶点xi和xj的边的权值,表示惩罚图中连接顶点xi和xj的边的权值,i=1,2,…,n,Ψ表示矩阵G=(Gij)n×n的拉普拉斯矩阵,下标(:,i)表示所述矩阵的第i列。
第k层的特征的灵敏度为从第二卷积神经网络模型的分类损失函数关于第k层特征的梯度加上Min-Max准则关于第k层特征的梯度,然后按照标准的反向传播算法向前进行误差灵敏度反传即可。
通过加入Min-Max准则的目标函数对模型进行训练,可以使训练后的模型满足:属于同一类的图像特征之间间隔较小,属于不同类的图像特征具有较大的间隔,从而有利于图像分类。
可选的,在构造Min-Max准则时,为了进一步提高图像分类的精度,和可以使用高斯核函数来定义,即和分别表示为:
所述否则的含义可以表示为:如果并且
即如果并且
此时,当使用高斯核函数来定义和时,所对应的Min-Max准则称为核版本的Min-Max准则。
若所述Min-Max准则为核版本的Min-Max准则,那么对选取层做基于Min-Max准则的正则约束运算包括:
获取所述核版本的Min-Max准则关于第k层特征的灵敏度;
根据所述核版本的Min-Max准则关于第k层特征的灵敏度,对所述第k层做基于所述核版本的Min-Max准则的约束运算;
其中,所述核版本的Min-Max准则关于第k层特征的灵敏度表示为:
其中,Φ表示矩阵V=(Vij)n×n的拉普拉斯矩阵,
进一步地,使用所述第三卷积神经网络模型对待分类图像的测试集进行分类包括:使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。其中,所述模型参数为W,待分类图像的验证集用来调节学习率等参数,所述学习率是训练过程中使用的一个参数(并非模型参数),这个参数可以通过验证集来调节。
本申请基于对目标识别不变性特征的观察,通过对卷积神经网络的高层特征进行基于Min-Max准则的约束,显式地强迫所学到的特征满足:属于同一类的目标流形有较好的类内紧凑性,属于不同类的目标流形有较大的类间间隔。通过Min-Max准则直接显式地对特征进行约束,从而使得该Min-Max准则从技术上能够保证卷积神经网络学习到尽可能好的不变性特征。
通过Min-Max准则约束,使得改进后的模型的图像分类精度比用传统BP方法训练得到的模型有显著提高,使得一个模型复杂度较小的卷积网络模型的图像分类精度能够达到深度和复杂度更高的卷积神经网络模型的图像分类精度。
在另一个具体的实施例中,为了验证上述方法的有效性,对选择的卷积神经网络模型进行实验验证。
例如,在CIFAR-10数据集上的实验比较结果如下表1所示:
方法 | 模型参数数量 | 错误率(%) |
Quick-CNN | 0.145M | 23.47 |
Quick-CNN+Min-Max | 0.145M | 18.06 |
Quick-CNN+k(Min-Max) | 0.145M | 17.59 |
表1
在CIFAR-100数据集上的实验比较结果如下表2所示:
方法 | 模型参数数量 | 错误率(%) |
Quick-CNN | 0.15M | 55.87 |
Quick-CNN+Min-Max | 0.15M | 51.38 |
Quick-CNN+k(Min-Max) | 0.15M | 50.83 |
表2
在SVHN数据集上的实验比较结果如下表3所示:
方法 | 模型参数数量 | 错误率(%) |
Quick-CNN | 0.145M | 8.92 |
Quick-CNN+Min-Max | 0.145M | 5.42 |
Quick-CNN+k(Min-Max) | 0.145M | 4.85 |
表3
通过以上实验结果和特征可视化可以得出:
相比较于各自的baseline模型,改进后的模型的图像分类精度有非常显著的提高。
改进后的卷积网络模型所学习到的特征图feature map会表现出较好的类内紧凑性和类间分离性,即属于同一类的图像的特征之间的距离较小,属于不同类的图像的特征之间的距离较大,相比于baseline模型,feature map的这种特点表现的非常明显。
本申请提供了方法显式地对卷积神经网络学习到的特征进行Min-Max准则正则约束,避免以往对模型的正则约束都是对模型参数进行约束。并且该Min-Max准则能够用于多种类型的卷积神经网络,由此带来的额外计算代价相对于整个网络的训练是可以忽略的。
此外,本申请还提供了一种图像分类装置,对应于前述图像分类方法的实施例,如图6所示,装置600包括:获取单元601、选取单元602、处理单元603、训练单元604和分类单元605,
获取单元601,用于获取待分类图像的训练集;
选取单元602,用于选择一个多层的卷积神经网络模型;
处理单元603,用于对选取层做基于Min-Max准则的正则约束运算,并形成第二卷积神经网络模型,其中,所述选取层为所述卷积神经网络模型中的一层;优选的,所述选取层为所述卷积神经网络模型中靠近输出的层,即所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。
训练单元604,用于使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;
分类单元605,用于使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。
进一步地,选取单元602还用于:获取一个mini-batch的训练样本;根据所述训练样本和目标函数,确定所述卷积神经网络模型。
其中,所述训练样本表示为n表示所述mini-batch的大小,Xi表示原始的输入数据,ci表示Xi的类别标签,且ci∈{1,2,…,C},C表示所述训练集的类别总数;
所述目标函数表示为:
W=(W(1),…,W(M);b(1),…,b(M)),W表示所述卷积神经网络模型的全部参数,表示训练样本的损失函数,M表示所述卷积神经网络模型的总层数,W(m)表示所述卷积神经网络模型第m层的权重参数,b(m)表示所述卷积神经网络模型第m层的偏置参数,m∈{1,2,…,M}中的任意一个值。
进一步地,所述装置还包括:分层单元606,
所述分层单元606,用于按照特征递归的方法对所述卷积神经网络模型划分层级。
其中,所述划层级分后的卷积神经网络模型的每一层特征的递归表示为:
其中,Xi (m)表示所述卷积神经网络模型第m层的特征,*表示卷积运算,f(·)表示非线性激活函数。
进一步地,所述获取单元601,还用于获取所述Min-Max准则;
所述获取单元601,具体用于分别获取Min-Max的内在图和惩罚图,所述内在图表征目标流形的内部紧凑性,所述惩罚图表征目标流形之间的间隔;根据所述内在图和惩罚图,运算得到第k层特征的Min-Max准则。
其中,所述第k层特征的Min-Max准则表示为
L(X(k),c)=L1(X(k),c)-L2(X(k),c)
其中,L1(X(k),c)表示所述内在图,L2(X(k),c)表示所述惩罚图;X(k)表示一个mini-batch的训练样本在第k层的特征的集合,所述第k层为所述选取层,表示与所述mini-batch相对应的类别标签集合,i∈{1,2,…,n}。
进一步地,所述第二卷积神经网络模型用目标函数表示为:
其中,为第二卷积神经网络模型的分类损失函数,L(X(k),c)为第k层特征的Min-Max准则。
进一步地,所述训练单元604具体用于:
根据第二卷积神经网络模型的目标函数,获取第二卷积神经网络模型关于第k层特征的灵敏度;
根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法,使用所述训练集对所述第二卷积神经网络模型进行训练。
其中,所述第k层特征的灵敏度采用如下方式计算得出:
H表示第k层特征拼成的矩阵,Ψ=D-G,D=diag(d11,d22,…,dnn), 表示内在图中连接顶点xi和xj的边的权值,表示惩罚图中连接顶点xi和xj的边的权值,i=1,2,…,n,Ψ表示矩阵G=(Gij)n×n的拉普拉斯矩阵,下标(:,i)表示所述矩阵的第i列。
进一步地,所述Min-Max准则为核版本的Min-Max准则,所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成准则。
若所述Min-Max准则为核版本的Min-Max准则,那么所述处理单元603还用于,
获取所述核版本的Min-Max准则关于第k层特征的灵敏度;
根据所述核版本的Min-Max准则关于第k层特征的灵敏度,对所述第k层做基于所述核版本的Min-Max准则的约束运算。
其中,所述核版本的Min-Max准则关于第k层特征的灵敏度表示为:
其中,Φ表示矩阵V=(Vij)n×n的拉普拉斯矩阵,
进一步地,所述分类单元具体用于,使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。
本申请基于对目标识别不变性特征的观察,提出了基于Min-Max准则改进的深度卷积神经网络图像分类装置。通过对卷积神经网络的高层特征进行基于Min-Max准则的约束,显式地(充分表达清楚地)强迫训练所学到的特征满足:属于同一类的目标流形有较好的类内紧凑性,属于不同类的目标流形有较大的类间间隔。
为进一步提高所提方法的有效性,本申请实施例还提出了核版本的Min-Max准则,并在实验中得到了验证。
与采用传统方法训练得到的深度卷积神经网络图像分类系统相比,用本申请提供的方法训练得到的图像分类系统能够显著地提高图像分类精度。相比较于各自的baseline模型,改进后的模型的图像分类精度有非常显著的提高,并且改进后的模型所学习到的feature map会表现出较好的类内紧凑性和类间分离性,即属于同一类的图像的特征之间的距离较小,属于不同类的图像的特征之间的距离较大。
本实施例还提供了一种图像分类设备,如图7所示,所述设备700包括:处理器701和存储器702,
所述处理器701,用于获取待分类图像的训练集;选择一个多层的卷积神经网络模型;对选取层做基于Min-Max准则的正则约束,并形成第二卷积神经网络模型,使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;使用所述第三卷积神经网络模型对待分类图像的测试集进行分类,其中,所述选取层为所述卷积神经网络模型中的一层;
所述存储器702,用于存储所述待分类图像的训练集,所述多层的卷积神经网络模型,所述Min-Max准则和分类后的图像。
进一步地,该图像分类设备中的处理器701还用于执行前述一种图像分类方法实施例的各个步骤,在此不再赘述。
处理器701包括图形处理器(英文:Graphic Processing Unit,缩写:GPU),还可以是中央处理器(英文:central processing unit,CPU),网络处理器(英文:networkprocessor,NP)或者CPU和NP的组合。处理器701还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,ASIC),可编程逻辑器件(英文:programmable logic device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,FPGA),通用阵列逻辑(英文:generic array logic,GAL)或其任意组合。
存储器702可以为易失性存储器(volatile memory),非易失性存储器(non-volatile memory)或其组合。其中,易失性存储器可以是随机存取存储器(random-accessmemory,RAM);非易失性存储器可以是只读存储器(read-only memory,ROM)、快闪存储器(flash memory)、硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明的保护范围应以权利要求的保护范围为准。
Claims (21)
1.一种图像分类方法,其特征在于,所述方法包括:
获取待分类图像的训练集;
选择一个多层的卷积神经网络模型;
对选取层做基于最小-最大Min-Max准则的正则约束,并形成第二卷积神经网络模型,其中,所述选取层为所述卷积神经网络模型中的一层;
使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;
使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。
2.根据权利要求1所述的方法,其特征在于,所述选择一个卷积神经网络模型包括:
获取一个mini-batch的训练样本;
根据所述训练样本和目标函数,确定所述卷积神经网络模型;
其中,所述训练样本表示为n表示所述mini-batch的大小,Xi表示原始的输入数据,ci表示Xi的类别标签,且ci∈{1,2,…,C},C表示所述训练集的类别总数;
所述目标函数表示为:
W=(W(1),…,W(M);b(1),…,b(M)),W表示所述卷积神经网络模型的全部参数,l(W,Xi,ci)表示训练样本的损失函数,M表示所述卷积神经网络模型的总层数,W(m)表示所述卷积神经网络模型第m层的权重参数,b(m)表示所述卷积神经网络模型第m层的偏置参数,m∈{1,2,…,M}中的任意一个值。
3.根据权利要求2所述的方法,其特征在于,所述选择一个卷积神经网络模型之后还包括:
对所述卷积神经网络模型划分层级;
其中,所述划分层级后的卷积神经网络模型的每一层特征的递归表示为:
<mrow>
<msubsup>
<mi>X</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>=</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>*</mo>
<msubsup>
<mi>X</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<msup>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
i=1,2,…,n;m=1,2,…,M;
其中,表示所述卷积神经网络模型第m层的特征,*表示卷积运算,f(·)表示非线性激活函数。
4.根据权利要求1所述的方法,其特征在于,对选取层做基于Min-Max准则的正则约束之前还包括:获取所述Min-Max准则;
所述获取Min-Max准则包括:
分别获取Min-Max的内在图和惩罚图,所述内在图表征目标流形的内部紧凑性,所述惩罚图表征目标流形之间的间隔;
根据所述内在图和惩罚图,运算得到第k层特征的Min-Max准则,所述第k层为所述选取层;
其中,所述第k层特征的Min-Max准则表示为
L(X(k),c)=L1(X(k),c)-L2(X(k),c)
其中,L1(X(k),c)表示所述内在图,L2(X(k),c)表示所述惩罚图;X(k)表示一个mini-batch的训练样本在第k层的特征的集合,表示与所述mini-batch相对应的类别标签集合,i∈{1,2,…,n}。
5.根据权利要求4所述的方法,其特征在于,所述第二卷积神经网络模型用目标函数表示为:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>W</mi>
</munder>
<mi>L</mi>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>l</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<msub>
<mi>X</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</mrow>
其中,为第二卷积神经网络模型的分类损失函数,L(X(k),c)为第k层特征的Min-Max准则。
6.根据权利要求5所述的方法,其特征在于,使用所述训练集对所述第二卷积神经网络模型进行训练包括:
根据第二卷积神经网络模型的目标函数,获取第二卷积神经网络模型关于第k层特征的灵敏度;
根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法,使用所述训练集对所述第二卷积神经网络模型进行训练;
其中,所述第k层特征的灵敏度采用如下方式计算得出:
<mrow>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</mrow>
</mfrac>
<mo>=</mo>
<mn>4</mn>
<msub>
<mi>H&Psi;</mi>
<mrow>
<mo>(</mo>
<mo>:</mo>
<mo>,</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msub>
</mrow>
H表示第k层特征拼成的矩阵,Ψ=D-G,D=diag(d11,d22,…,dnn), 表示内在图中连接顶点xi和xj的边的权值,表示惩罚图中连接顶点xi和xj的边的权值,i=1,2,…,n,Ψ表示矩阵G=(Gij)n×n的拉普拉斯矩阵,下标(:,i)表示所述矩阵的第i列。
7.根据权利要求6所述的方法,其特征在于,
所述Min-Max准则为核版本的Min-Max准则,所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成的准则。
8.根据权利要求7所述的方法,其特征在于,若所述Min-Max准则为核版本的Min-Max准则,那么对选取层做基于Min-Max准则的正则约束运算包括:
获取所述核版本的Min-Max准则关于第k层特征的灵敏度;
根据所述核版本的Min-Max准则关于第k层特征的灵敏度,对所述第k层做基于所述核版本的Min-Max准则的约束运算;
其中,所述核版本的Min-Max准则关于第k层特征的灵敏度表示为:
<mrow>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</mrow>
</mfrac>
<mo>=</mo>
<mn>4</mn>
<mi>H</mi>
<msub>
<mrow>
<mo>(</mo>
<mi>&Psi;</mi>
<mo>+</mo>
<mi>&Phi;</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mo>:</mo>
<mo>,</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msub>
</mrow>
其中,Φ表示矩阵V=(Vij)n×n的拉普拉斯矩阵,
9.根据权利要求8所述方法,其特征在于,使用所述第三卷积神经网络模型对待分类图像的测试集进行分类包括:
使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。
11.一种图像分类装置,其特征在于,所述装置包括:
获取单元,用于获取待分类图像的训练集;
选取单元,用于选择一个多层的卷积神经网络模型;
处理单元,用于对选取层做基于Min-Max准则的正则约束,并形成第二卷积神经网络模型,其中,所述选取层为所述卷积神经网络模型中的一层;
训练单元,用于使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;
分类单元,用于使用所述第三卷积神经网络模型对待分类图像的测试集进行分类。
12.根据权利要求10所述的装置,其特征在于,选取单元还用于:
获取一个mini-batch的训练样本;
根据所述训练样本和目标函数,确定所述卷积神经网络模型;
其中,所述训练样本表示为n表示所述mini-batch的大小,Xi表示原始的输入数据,ci表示Xi的类别标签,且ci∈{1,2,…,C},C表示所述训练集的类别总数;
所述目标函数表示为:
W=(W(1),…,W(M);b(1),…,b(M)),W表示所述卷积神经网络模型的全部参数,l(W,Xi,ci)表示训练样本的损失函数,M表示所述卷积神经网络模型的总层数,W(m)表示所述卷积神经网络模型第m层的权重参数,b(m)表示所述卷积神经网络模型第m层的偏置参数,m∈{1,2,…,M}中的任意一个值。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:分层单元,
所述分层单元,用于对所述卷积神经网络模型划分层级;
其中,所述划分层级后的卷积神经网络模型的每一层特征的递归表示为:
<mrow>
<msubsup>
<mi>X</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>=</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>*</mo>
<msubsup>
<mi>X</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<msup>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mi>m</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>,</mo>
</mrow>
i=1,2,…,n;m=1,2,…,M;
其中,表示所述卷积神经网络模型第m层的特征,*表示卷积运算,f(·)表示非线性激活函数。
14.根据权利要求11所述的装置,其特征在于,所述获取单元,还用于获取所述Min-Max准则;
所述获取单元,具体用于分别获取Min-Max的内在图和惩罚图,所述内在图表征目标流形的内部紧凑性,所述惩罚图表征目标流形之间的间隔;
根据所述内在图和惩罚图,运算得到第k层特征的Min-Max准则,所述第k层为所述选取层;
其中,所述第k层特征的Min-Max准则表示为
L(X(k),c)=L1(X(k),c)-L2(X(k),c)
其中,L1(X(k),c)表示所述内在图,L2(X(k),c)表示所述惩罚图;X(k)表示一个mini-batch的训练样本在第k层的特征的集合,表示与所述mini-batch相对应的类别标签集合,i∈{1,2,…,n}。
15.根据权利要求4所述的装置,其特征在于,所述第二卷积神经网络模型用目标函数表示为:
<mrow>
<munder>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
</mrow>
<mi>W</mi>
</munder>
<mi>L</mi>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mi>l</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<msub>
<mi>X</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>c</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>+</mo>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</mrow>
其中,为第二卷积神经网络模型的分类损失函数,L(X(k),c)为第k层特征的Min-Max准则。
16.根据权利要求15所述的装置,其特征在于,所述训练单元具体用于:
根据第二卷积神经网络模型的目标函数,获取第二卷积神经网络模型关于第k层特征的灵敏度;
根据所述第k层特征的灵敏度和mini-batch的随机梯度下降方法,使用所述训练集对所述第二卷积神经网络模型进行训练;
其中,所述第k层特征的灵敏度采用如下方式计算得出:
<mrow>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</mrow>
</mfrac>
<mo>=</mo>
<mn>4</mn>
<msub>
<mi>H&Psi;</mi>
<mrow>
<mo>(</mo>
<mo>:</mo>
<mo>,</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msub>
</mrow>
H表示第k层特征拼成的矩阵,Ψ=D-G,D=diag(d11,d22,…,dnn), 表示内在图中连接顶点xi和xj的边的权值,表示惩罚图中连接顶点xi和xj的边的权值,i=1,2,…,n,Ψ表示矩阵G=(Gij)n×n的拉普拉斯矩阵,下标(:,i)表示所述矩阵的第i列。
17.根据权利要求16所述的装置,其特征在于,所述Min-Max准则为核版本的Min-Max准则,所述核版本的Min-Max准则为所述Min-Max准则通过高斯核函数来定义生成准则。
18.根据权利要求17所述的装置,其特征在于,若所述Min-Max准则为核版本的Min-Max准则,那么所述处理单元还用于,
获取所述核版本的Min-Max准则关于第k层特征的灵敏度;
根据所述核版本的Min-Max准则关于第k层特征的灵敏度,对所述第k层做基于所述核版本的Min-Max准则的约束运算;
其中,所述核版本的Min-Max准则关于第k层特征的灵敏度表示为:
<mrow>
<mfrac>
<mrow>
<mo>&part;</mo>
<mi>L</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>X</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
</mrow>
</mfrac>
<mo>=</mo>
<mn>4</mn>
<mi>H</mi>
<msub>
<mrow>
<mo>(</mo>
<mi>&Psi;</mi>
<mo>+</mo>
<mi>&Phi;</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mo>:</mo>
<mo>,</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msub>
</mrow>
其中,Φ表示矩阵V=(Vij)n×n的拉普拉斯矩阵,
19.根据权利要求18所述装置,其特征在于,所述分类单元具体用于,使用所述第三卷积神经网络模型中的模型参数对待分类图像的测试集进行分类。
20.根据权利要求11至19中任一项所述的装置,其特征在于,所述选取层为与所述卷积神经网络模型中的输出层之间的距离不超过两个层。
21.一种图像分类设备,其特征在于,所述设备包括:处理器和存储器,
所述处理器,用于获取待分类图像的训练集;选择一个多层的卷积神经网络模型;对选取层做基于Min-Max准则的正则约束,并形成第二卷积神经网络模型,使用所述训练集对所述第二卷积神经网络模型进行训练,并生成第三卷积神经网络模型;使用所述第三卷积神经网络模型对待分类图像的测试集进行分类,其中,所述选取层为所述卷积神经网络模型中的一层;
所述存储器,用于存储所述待分类图像的训练集,所述多层的卷积神经网络模型,所述Min-Max准则和分类后的图像。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610553942.1A CN107622272A (zh) | 2016-07-13 | 2016-07-13 | 一种图像分类方法及装置 |
PCT/CN2017/074427 WO2018010434A1 (zh) | 2016-07-13 | 2017-02-22 | 一种图像分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610553942.1A CN107622272A (zh) | 2016-07-13 | 2016-07-13 | 一种图像分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107622272A true CN107622272A (zh) | 2018-01-23 |
Family
ID=60952706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610553942.1A Pending CN107622272A (zh) | 2016-07-13 | 2016-07-13 | 一种图像分类方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107622272A (zh) |
WO (1) | WO2018010434A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108684043A (zh) * | 2018-05-15 | 2018-10-19 | 南京邮电大学 | 基于最小风险的深度神经网络的异常用户检测方法 |
CN108764306A (zh) * | 2018-05-15 | 2018-11-06 | 深圳大学 | 图像分类方法、装置、计算机设备和存储介质 |
CN108898082A (zh) * | 2018-06-19 | 2018-11-27 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN108961267A (zh) * | 2018-06-19 | 2018-12-07 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN109376786A (zh) * | 2018-10-31 | 2019-02-22 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、终端设备及可读存储介质 |
CN109886161A (zh) * | 2019-01-30 | 2019-06-14 | 江南大学 | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 |
CN110557636A (zh) * | 2018-05-30 | 2019-12-10 | 罗伯特·博世有限公司 | 用于车辆控制系统的有损数据压缩器 |
TWI705414B (zh) * | 2018-05-29 | 2020-09-21 | 長庚醫療財團法人林口長庚紀念醫院 | 自體免疫抗體免疫螢光影像分類系統及其分類方法 |
US10990825B2 (en) | 2018-06-08 | 2021-04-27 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Image processing method, electronic device and computer readable storage medium |
US11423634B2 (en) | 2018-08-03 | 2022-08-23 | Huawei Cloud Computing Technologies Co., Ltd. | Object detection model training method, apparatus, and device |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9348947B2 (en) | 2013-07-26 | 2016-05-24 | Helynx, Inc. | Systems and methods for visualizing and manipulating graph databases |
US10776965B2 (en) | 2013-07-26 | 2020-09-15 | Drisk, Inc. | Systems and methods for visualizing and manipulating graph databases |
CN108460772B (zh) * | 2018-02-13 | 2022-05-17 | 国家计算机网络与信息安全管理中心 | 基于卷积神经网络的广告骚扰传真图像检测系统及方法 |
CN109241903B (zh) * | 2018-08-30 | 2023-08-29 | 平安科技(深圳)有限公司 | 样本数据清洗方法、装置、计算机设备及存储介质 |
WO2020055910A1 (en) * | 2018-09-10 | 2020-03-19 | Drisk, Inc. | Systems and methods for graph-based ai training |
CN109934270B (zh) * | 2019-02-25 | 2023-04-25 | 华东师范大学 | 一种基于局部流形判别分析投影网络的分类方法 |
CN110347789A (zh) * | 2019-06-14 | 2019-10-18 | 平安科技(深圳)有限公司 | 文本意图智能分类方法、装置及计算机可读存储介质 |
CN110490227B (zh) * | 2019-07-09 | 2023-02-03 | 武汉理工大学 | 一种基于特征转换的少样本图像分类方法 |
CN110516728B (zh) * | 2019-08-20 | 2022-12-06 | 西安电子科技大学 | 基于去噪卷积神经网络的极化sar地物分类方法 |
CN111090764B (zh) * | 2019-12-20 | 2023-06-23 | 中南大学 | 基于多任务学习和图卷积神经网络的影像分类方法及装置 |
CN111160301B (zh) * | 2019-12-31 | 2023-04-18 | 同济大学 | 基于机器视觉的隧道病害目标智能识别及提取方法 |
CN111429005B (zh) * | 2020-03-24 | 2023-06-02 | 淮南师范学院 | 一种基于少量学生反馈的教学评估方法 |
CN111401473B (zh) * | 2020-04-09 | 2023-05-23 | 中国人民解放军国防科技大学 | 基于注意力机制卷积神经网络的红外目标分类方法 |
CN111814898A (zh) * | 2020-07-20 | 2020-10-23 | 上海眼控科技股份有限公司 | 图像分割方法、装置、计算机设备和存储介质 |
CN112699957B (zh) * | 2021-01-08 | 2024-03-29 | 北京工业大学 | 一种基于darts的图像分类优化方法 |
CN112990315B (zh) * | 2021-03-17 | 2023-10-20 | 北京大学 | 基于偏微分算子的等变3d卷积网络的3d形状图像分类方法 |
CN113779236B (zh) * | 2021-08-11 | 2022-12-27 | 浙江义乌购电子商务有限公司 | 一种基于人工智能的问题分类的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150100530A1 (en) * | 2013-10-08 | 2015-04-09 | Google Inc. | Methods and apparatus for reinforcement learning |
CN105160400A (zh) * | 2015-09-08 | 2015-12-16 | 西安交通大学 | 基于l21范数的提升卷积神经网络泛化能力的方法 |
CN105243398A (zh) * | 2015-09-08 | 2016-01-13 | 西安交通大学 | 基于线性判别分析准则的改进卷积神经网络性能的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102919B (zh) * | 2014-07-14 | 2017-05-24 | 同济大学 | 一种有效防止卷积神经网络过拟合的图像分类方法 |
-
2016
- 2016-07-13 CN CN201610553942.1A patent/CN107622272A/zh active Pending
-
2017
- 2017-02-22 WO PCT/CN2017/074427 patent/WO2018010434A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150100530A1 (en) * | 2013-10-08 | 2015-04-09 | Google Inc. | Methods and apparatus for reinforcement learning |
CN105160400A (zh) * | 2015-09-08 | 2015-12-16 | 西安交通大学 | 基于l21范数的提升卷积神经网络泛化能力的方法 |
CN105243398A (zh) * | 2015-09-08 | 2016-01-13 | 西安交通大学 | 基于线性判别分析准则的改进卷积神经网络性能的方法 |
Non-Patent Citations (1)
Title |
---|
殷俊等: ""图最优化线性鉴别投影及其在图像识别中的应用"", 《模式识别与人工智能》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764306A (zh) * | 2018-05-15 | 2018-11-06 | 深圳大学 | 图像分类方法、装置、计算机设备和存储介质 |
CN108764306B (zh) * | 2018-05-15 | 2022-04-22 | 深圳大学 | 图像分类方法、装置、计算机设备和存储介质 |
US11238311B2 (en) | 2018-05-15 | 2022-02-01 | Shenzhen University | Method for image classification, computer device, and storage medium |
CN108684043A (zh) * | 2018-05-15 | 2018-10-19 | 南京邮电大学 | 基于最小风险的深度神经网络的异常用户检测方法 |
TWI705414B (zh) * | 2018-05-29 | 2020-09-21 | 長庚醫療財團法人林口長庚紀念醫院 | 自體免疫抗體免疫螢光影像分類系統及其分類方法 |
CN110557636A (zh) * | 2018-05-30 | 2019-12-10 | 罗伯特·博世有限公司 | 用于车辆控制系统的有损数据压缩器 |
US10990825B2 (en) | 2018-06-08 | 2021-04-27 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Image processing method, electronic device and computer readable storage medium |
CN108898082B (zh) * | 2018-06-19 | 2020-07-03 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN108961267A (zh) * | 2018-06-19 | 2018-12-07 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN108898082A (zh) * | 2018-06-19 | 2018-11-27 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
US11423634B2 (en) | 2018-08-03 | 2022-08-23 | Huawei Cloud Computing Technologies Co., Ltd. | Object detection model training method, apparatus, and device |
US11605211B2 (en) | 2018-08-03 | 2023-03-14 | Huawei Cloud Computing Technologies Co., Ltd. | Object detection model training method and apparatus, and device |
CN109376786A (zh) * | 2018-10-31 | 2019-02-22 | 中国科学院深圳先进技术研究院 | 一种图像分类方法、装置、终端设备及可读存储介质 |
CN109886161A (zh) * | 2019-01-30 | 2019-06-14 | 江南大学 | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 |
CN109886161B (zh) * | 2019-01-30 | 2023-12-12 | 江南大学 | 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018010434A1 (zh) | 2018-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622272A (zh) | 一种图像分类方法及装置 | |
CN107341506A (zh) | 一种基于多方面深度学习表达的图像情感分类方法 | |
CN106203487A (zh) | 一种基于多核学习分类器融合的图像分类方法及装置 | |
EP3029606A2 (en) | Method and apparatus for image classification with joint feature adaptation and classifier learning | |
CN109190665A (zh) | 一种基于半监督生成对抗网络的通用图像分类方法和装置 | |
CN102156871B (zh) | 基于类别相关的码本和分类器投票策略的图像分类方法 | |
CN110533024B (zh) | 基于多尺度roi特征的双二次池化细粒度图像分类方法 | |
CN106845529A (zh) | 基于多视野卷积神经网络的影像特征识别方法 | |
CN104392253B (zh) | 一种草图数据集的交互式类别标注方法 | |
CN107220277A (zh) | 基于手绘草图的图像检索算法 | |
CN106446526A (zh) | 电子病历实体关系抽取方法及装置 | |
CN110197205A (zh) | 一种多特征来源残差网络的图像识别方法 | |
CN104750833A (zh) | 一种文本分类方法及装置 | |
CN107506793A (zh) | 基于弱标注图像的服装识别方法及系统 | |
CN107292336A (zh) | 一种基于dcgan的极化sar图像分类方法 | |
CN109582782A (zh) | 一种基于用弱监督深度学习的文本聚类方法 | |
CN108021947A (zh) | 一种基于视觉的分层极限学习机目标识别方法 | |
CN113486981A (zh) | 基于多尺度特征注意力融合网络的rgb图像分类方法 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN104298999B (zh) | 基于递归自动编码的高光谱特征学习方法 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN105989336A (zh) | 基于带权重的解卷积深度网络学习的场景识别方法 | |
CN104751463B (zh) | 一种基于草图轮廓特征的三维模型最佳视角选取方法 | |
CN110991532A (zh) | 基于关系视觉注意机制的场景图产生方法 | |
CN106203483A (zh) | 一种基于语义相关多模态映射方法的零样本图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180123 |
|
RJ01 | Rejection of invention patent application after publication |