CN108388904A - 一种基于卷积神经网络和协方差张量矩阵的降维方法 - Google Patents
一种基于卷积神经网络和协方差张量矩阵的降维方法 Download PDFInfo
- Publication number
- CN108388904A CN108388904A CN201810206326.8A CN201810206326A CN108388904A CN 108388904 A CN108388904 A CN 108388904A CN 201810206326 A CN201810206326 A CN 201810206326A CN 108388904 A CN108388904 A CN 108388904A
- Authority
- CN
- China
- Prior art keywords
- image
- layer
- dimension
- matrix
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 31
- 230000009467 reduction Effects 0.000 title claims abstract description 31
- 230000000007 visual effect Effects 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000003708 edge detection Methods 0.000 claims abstract description 6
- 238000005457 optimization Methods 0.000 claims description 12
- 238000003066 decision tree Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 8
- 238000000205 computational method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000003475 lamination Methods 0.000 claims 2
- 238000012512 characterization method Methods 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000009738 saturating Methods 0.000 description 1
- 238000012144 step-by-step procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络和协方差张量矩阵的降维方法,包括以下步骤:首先对原始图像进行基于结构树的边缘检测,从而得到每幅图像的边缘图,然后将边缘图像输入到卷积神经网络对边缘图像提取形状特征;为了丰富图像细节特征,使用卷积神经网络对原始图像进行特征提取;将传统特征提取方法与卷积神经网络特征提取相结合,以得到多种视觉特征。本发明关注图像目标的形状特征,并使用卷积神经网络来提取图像特征,相比传统的特征提取方法更能丰富直观的表示图像,同时在降低维度的过程中,更加注重多种视觉特征之间的相关性,更能使其作为一个整体来表示图像,更加具有鲁棒性和实用性。
Description
技术领域
本发明涉及模式识别与机器学习领域,更具体地涉及一种基于卷积神经网络和协方差张量矩阵的降维方法,属于数据降维技术领域。
背景技术
在大数据时代,人们收集和获得数据的能力越来越强。大数据正在以各种形式渗透到当今世界的各个领域,例如生物基因功能组信息,文本分类以及图片多媒体等领域,而这些数据已呈现出数据量大、维数高,异构、分散以及结构复杂等特性,数据的海量性将造成存储开销大、检索速度慢等问题;而数据的高维性将造成维度灾难问题,膨胀的维数导致计算量迅速上升;复杂几何结构造成难于观测的状况。如何处理呈指数爆炸式增长的大数据使其可以以最小的硬件和软件代价存储和管理成为最具有挑战性的课题之一。
数据降维,是把数据从高维的空间映射到低维的空间,最好的保持数据的结构和紧致性,提取出数据中的真正有用信息,同时去除数据的冗余信息,从而获取高维数据低维表示。一方面可以解决“维数灾难”,缓解“噪声丰富”现状,降低复杂度;另一方面可以更好地处理存储数据。
因此,各种降维算法受到研究者的广泛关注,研究者们迫切找到合适的降维方法解决存储量大和运算复杂度高等问题,然而现存的降维方法仍然存在一些问题:(1)在处理图像时,形状是一个确认图像目标的重要线索,而大多数降维方法在处理图像数据时往往忽略图像中目标的形状特征;(2)只着眼于图像的某一类型的特征,而忽略了其它方面的特征,造成无法丰富全面的表述图像,无法将多种视觉特征作为一个整体去表示图像数据。
发明内容
本发明的目的提出了一种基于卷积神经网络和协方差张量矩阵的降维方法,以解决上述提出的问题。
为达到上述目的,本发明提出的具体技术方案为:
一种基于卷积神经网络和协方差张量矩阵的降维方法,该方法包括如下步骤:
(1)首先,将图像I={I1,...Ii...,IN},i=1,...,N中每一幅图像Ii分成大小为32×32的M个重叠小块,对于每一幅图像,定义它的标签为将标签Y映射到另一个空间Z,既得到每个像素点的值,并求得每对像素点之间的距离值,该距离值是一个dz维的向量;利用分离函数h(xi,θ),xi为像素点的值或者是距离值,输出的值是否大于阈值τ将像素点归到左枝叶或右枝叶来判断此像素点是否为边缘或是否相似;然后将每个重叠小块的结果映射到原图像从而得到原图像I={I1,...Ii...,IN},i=1,...,N的边缘图像E={E1,...,Ei,...EN},i=1,...,N;
(2)首先将边缘图像Ei通过降采样得到卷积神经网络(CNN-F网络)规定的大小的图像Ei′,将Ei′输入到网络中,通过卷积、池化等得到第七层全连接层的输出,作为该图像形状特征
(3)然后将原始图像Ii经过处理得到卷积神经网络(CNN-F网络)规定的大小的图像Ii′,将Ii′输入到网络中,通过卷积、池化等得到第七层全连接层特征的输出,作为该图像的细节特征
(4)在原始图像Ii上提取全局特征,通过a×a的网格把图像划分成大小相等的子区域,每个子区域用υ个尺度α个方向的Gabor滤波器进行滤波处理,所有子区域的特征串接得到整幅图像目标描述子将传统特征提取方法与卷积神经网络特征提取相结合能更丰富全面的表示图像;
(5)对于得到的多种视觉特征t=3,首先求得各种视觉特征的协方差矩阵对同一样本的各种视觉特征进行张量计算,从而得到所有样本的协方差张量矩阵通过多种视觉特征F的协方差张量矩阵T和协方差矩阵V得到多种视觉特征的张量矩阵
(6)通过分解张量矩阵得到转换矩阵将原始的多种视觉特征与该转换矩阵相乘,即得到降维后的结果r是降维的维数。
进一步的,所述步骤(4)中所述传统特征提取方法优选为Gist。
进一步的,所述步骤(6)具体为:
对于多种视觉特征矩阵这里t=3,用来计算数据的张量矩阵随后被分解, 是降低的维度,表示张量积;向量被堆叠作为转换矩阵Unum,被用来将原始的高维特征映射到低维空间,映射后的特征相连接用于图像的低维表示;
a)对于有N个样本的多视觉特征每一种视觉特征为它的协方差矩阵计算为,
多种视觉特征的协方差张量矩阵计算为,
T是一个张量,其维度为
b)接下来,最大化相关变量num=1,...,t之间的相关性,其中被称作相关向量,因此优化问题,
其中corr(z1,...,zt)=(z1⊙...⊙zt)Te指相关性运算,⊙是一种逻辑运算成为元素方式积,e∈RN是一个全1向量;
c)对上述的优化问题采用下面的计算方法,
进一步考虑到则上述公式就写成如下形式,
为了控制公式的复杂度,进一步增加一个正则化项,因此上式的附加条件就变成如下,
其中I是一个单位矩阵,ε是一个负平衡参数;定义一个张量矩阵为:
对于上式的计算方法,如此定义:T12...t本身是一个维度为的张量矩阵,定义T12...t是一个维度为的二维矩阵T(t),通过将张量矩阵T12...t中第维度相关的结构映射为T(t)的行,所有其它维度的结构作为列来得到;则以此类推上式可以写成,
另外定义则上诉公式写成如下表示方式,
d)对于上述优化问题定义然后优化问题就变成,
基于上式解决得到r个unum,r是需要降低的维度,让转换矩阵则我们最终获得第num个视觉特征的映射数据,
将不同视觉特征的相连接作为最后的图像数据的降维表示F∈R(t×r)×N。
本发明的优点和技术效果:
本发明通过结构树的方法提取图像的边缘图像,利用卷积神经网络提取边缘图像的形状特征,然后利用卷积神经网络对原始图像提取其全局的细节特征,同时结合传统的特征提取方法更丰富全面的表示图像;通过协方差张量矩阵对多种视觉特征在最大化它们之间相关性的基础上进行维度下降处理。
图像目标的形状特征是人眼感知识别目标的重要线索,引入图像目标的形状特征能进一步形象的描述图像,卷积神经网络特征提取方法能更好的描述图像目标的形状和细节特征,将卷积神经网络特征提取方法与传统的特征提取方法相结合能更形象更丰富的描述图像,且最大化多种视觉特征相关性的基础上实现降维过程,能够将同一个样本的多种视觉特征作为一个整体来表示图像,提高降维的性能。
附图说明
图1是本发明的总体示意图。
图2是本发明的整体流程图。
图3是本发明使用的卷积神经网络结构图。
图4是本发明中Sport-8数据集的部分图像。
图5是本发明中LabelMe数据集的部分图像。
图6是本发明中数据集的部分边缘图像。
图7是本发明Sport-8数据集的识别率与其它方法的对比图。
图8是本发明LabelMe数据集的识别率与其它方法的对比图。
图9是本发明评价指标混淆矩阵的评价结果图。
具体实施方式
为使本发明的内容和优点更加清晰,以下通过具体实例,结合附图详细说明本发明的具体实施过程。
其中,以UIUC-Sport8数据集与LabelMe数据集为例进行详细说明,UIUC-Sport8数据集共1579幅彩色图像,共包括8种户外运动场景,分别为:羽毛球运动(200幅)、木球(137幅)、槌球(236幅)、马球(182幅)、攀岩(194幅)、划船(250幅)、帆船(190幅)、单板滑雪(190幅),如图4所示。LabelMe数据集共2688幅彩色图像,共包括8种场景图像,分别为:360幅海岸场景、328幅森林场景、260幅公路场景、308幅城市场景、374幅山峦场景、410幅原野场景、292幅街道场景、356幅高楼建筑场景,如图5所示。
本发明的整体流程如图1、2所示,具体过程如下:
(1)数据集准备
使用UIUC-Sport8数据集包括8种户外运动场景,共计N=1579幅彩色图像,使用LabelMe数据集,包括8种场景图像,共计N=2688幅彩色图像。
(2)基于结构树的快速边缘检测
对数据集中的每一幅图像I={I1,…Ii,…IN},i=1,…,N进行基于结构树的快速边缘检测,从而得到每一幅图像Ii的边缘图像E={E1,…,Ei,…,EN},i=1,…,N,边缘图像示例图如图6所示,下面是详细步骤说明如何应用结构树来进行边缘检测:
a)输入多通道的彩色图像,任务的目的是用二进制变量标注每一个像素来证明此像素是否是边缘。首先将彩色图像重叠分割成M个32×32大小的图像块pi,0<i≤M,对每个图像块pi计算在CIE-LUV颜色空间中的3个颜色通道和两个尺度归一化的梯度幅值(原始尺度和二分之一尺度)。另外,将每个梯度幅值通道分成基于方向的4个通道,这样每个图像块p就得到3个颜色通道,2个幅值通道,8个方向通道,总共13个通道。
b)使用半径为2的三角型滤波器对每个图像块pi进行模糊,并且使用因数2对每个图像块pi进行降采样,最后形成32×32×13/4=3328个像素值;另外对每个通道使用半径为8的三角形滤波器进行模糊,并且降采样到5×5大小,则每个通道产生的像素对数为300个,计算每个像素对的欧氏距离,则产生3900个距离值,将像素值和距离值定义为候选特征xi,0<i≤dz=7228。
c)下面将决策树应用于结构输出空间0<j≤32;其中表示相应的第i图像块的图像注释,即像素值,i′,j表示像素的位置,然而直接将决策树应用于图像块上会造成维度较高且复杂的状况。因此定义一个映射函数,
∏:Y→Z (1)
将结构输出空间Y映射到一个中间空间Z,在这个空间中距离是容易测量的,其中既上一步所求得的候选特征值xi。我们使用PCA量化对候选特征值xi进行聚类,聚成k=2类。
d)一个决策树ft(x)分类一个候选特征值xi∈Z通过分支到树的左枝或右枝直到一个叶子节点。树的节点是一个二进制的分离函数,
h(xi,θ)∈{0,1} (2)
其中,θ=(k,τ),并且h(xi,θ)=[xi(k)<τ],如果h(xi,θ)=0就将xi送到左侧节点,反之,就送到右侧节点。进而通过对xi标记为0或者1来判断对应的像素值是否边缘或像素对是否相似,对于θ=(k,τ)的选择,我们进行如下决策树的训练。
e)使用BSD500训练集对决策树进行训练,来选择最合适的θ=(k,τ),训练集其中P={p1,…,pi,…pM},定义以下形式的信息获得标准,
其中SL={(pi,yi)∈S|h(xi,θ)=0},SR=S/SL。θ=(k,τ)的选择就是最大化IGC,H(S)=-∑yqylog(qy)表示香农熵,qy是S中的元素。当IGC值最大时停止训练,从而得到最优化的θ=(k,τ)。
f)通过决策树将图像块中每个像素点都标记为边缘或非边缘后,将重叠的图像块映射到原图像既可得到边缘图Ei,0<i≤N。
图6展示了部分图像的边缘图像,图像的左边为原始图像,右边为采用上述方法得到的边缘图像。
(3)基于卷积神经网络的形状特征提取
本发明中使用CNN-F网络进行特征提取,此卷积神经网络模型的框架类似于Krizhevsky等人提出的Alex-Net模型,它是有8个学习层组成,包括5个卷积层和3个全连接层,第一个卷积层中卷积核的大小为11×11,而下采样层的卷积核大小为3×3,第二层卷积层中卷积核的大小为5×5,下采样层的卷积核大小为3×3,第三、四、五卷积层中卷积核的大小均为3×3,且只有第五卷积层有下采样层大小为3×3,第六、第七全连接层则有4096个神经元,第八层的神经元则有图像的类别决定,图3展示了卷积神经网络的基本结构,包括卷积层和全连接层,由于我们使用的是第七层全连接层的输出作为特征,既目标描述子,图3展示了目标描述子的输出过程。首先将边缘图像Ei,0<i≤N变形为适合卷积神经网络的大小224×224,然后输入到卷积神经网络中。
a)对于第一层卷积网络使用大小11×11的卷积核对图像Ei,0<i≤N进行卷积,步长为4,对得到的特征图使用RELU激活函数进行激活,然后使用大小3×3的卷积核将得到的特征图进行下采样处理后,输入到下一层的卷积层。
b)第二层卷积层的卷积核大小为5×5,下采样层的卷积核大小为3×3;在第二层卷积层中重复与第一层相似的处理,然后输入到第三层卷积层,第三层卷积层的核的大小为3×3,无下采样层,第四层卷积层与第三层类似,第五层卷积层核的大小为3×3,下采样层核的大小为3×3。
c)经过以上处理后得到第五层输出的特征图,将此特征图输入到全连接层,最终得到第七层全连接的输出,作为边缘(形状)特征为
(4)基于原始图像的卷积神经网络的细节特征提取
类似于第(3)步,得到原始图像Ii,0<i≤N的卷积神经网络特征向量,得到最后的细节特征为
(5)基于原始图像的传统全局特征提取
a)为了更全面丰富的描述图像,在使用卷积神经网络对原始图像和边缘图像提取细节特征和形状特征后,再一次加入另一种特征,使用传统的全局特征提取方法Gist提取全局特征。
b)Gist特征描述子是为了在一个更低维的空间中反映原始图像Ii,0<i≤N中多个尺度和多个方向的能量的全局描述。定义Gist的特征描述子为对于每一幅图像的场景描述F3,i,它的第k个特征元素可以计算,
符号表示场景图像卷积,×表示相乘,fGist(x,y)表示输入的场景图像Ii,0<i≤N的亮度通道。gk(x,y)指出来自一系列多尺度方向的Gabor中带有α个方向,υ个尺度的第k个滤波器。Wk(x,y)是一个空间窗来计算每一个Gabor滤波器在不同场景图像位置上的平均输出能量,滑动窗Wk(x,y)在原始图像上滑动,将图像划分为a×a大小的网格,是指Gist场景描述子F3,i的维度,
(6)协方差张量矩阵的数据处理
对于多种视觉特征矩阵这里t=3,用来计算数据的张量矩阵随后被分解, 是降低的维度,表示张量积。向量被堆叠作为转换矩阵Unum,被用来将原始的高维特征映射到低维空间,映射后的特征相连接用于图像的低维表示。
e)对于有N个样本的多种视觉特征每一种视觉特征为它的协方差矩阵可以计算为,
多种视觉特征的协方差张量矩阵可以计算为,
T是一个张量,其维度为
f)接下来,我们最大化相关变量num=1,…,t之间的相关性,其中通常被称作相关向量,因此优化问题,
其中指相关性运算,是一种逻辑运算成为元素方式积,e∈RN是一个全1向量。
g)对上述的优化问题采用下面的计算方法,
进一步考虑到则公式(7)就可以写成如下形式,
为了控制公式的复杂度,我们进一步增加一个正则化项,因此上式的附加条件就变成如下,
其中I是一个单位矩阵,ε是一个负平衡参数。定义一个张量矩阵为,
对于上式的计算方法,我们可以这样定义:T12...t本身是一个维度为的张量矩阵,我们可以定义T12...t是一个维度为的二维矩阵T(t),通过将张量矩阵T12...t中第维度相关的结构映射为T(t)的行,所有其它维度的结构作为列来得到。则以此类推上式可以写成,
另外定义则公式(9)就可以写成如下表示方式,
h)对于上述优化问题实如果我们定义然后优化问题就变成,
基于上式解决得到r个unum,r是需要降低的维度,让转换矩阵则我们最终获得第num个视觉特征的映射数据,
将不同视觉特征的相连接作为最后的图像数据的降维表示F∈R(t×r)×N。
本发明降维方法性能的检测与验证:
为了验证该降维方法的高效性,根据本发明的降维方法把图像降至15、30、60、90、120、180维度,使用UIUC-Sport8数据集和LabelMe数据集,分别通过以下评价指标来检测和验证该降维方法的有效性,在分类过程中使用ELM分类器,此分类器隐藏节点的选择对分类的性能会产生影响,所以我们通过多次隐藏节点的测试,选择最适合的隐藏节点的个数:
识别率:衡量降维后的数据分类精度的评价指标,结果表1,表2所示,表1和表2分别展示了Sport-8数据集和LabelMe数据集的分类结果,本方法与其他方法的分类结果比较,从表中可以看出在不同的维度下,本方法的分类精度总体上均高于其他方法的分类精度,且随着维度的增加呈现上升的趋势。
表1是本发明基于Sport-8数据集通过识别率的评价结果
表2是本发明基于LabelMe数据集通过识别率的评价结果
对比折线图:我们将上述两表中本方法的分类精度与其它方法的分类精度通过折线图的方式展示出来,折线图中横坐标表示的是数据的维度,从左到右维度不断增加,纵坐标表示的是分类精度值,从下到上精度值不断增加,从图中可以看出,随着维度的增加,本发明的分类精度均高于其他方法,且随着维度的增加呈现上升趋势,本发明所提供的降维方法与现有其它降维方法相比,直观的反映本降维方法的识别的优越性,如图7,图8所示。
混淆矩阵:是一种是可视化工具,是精度评价的另一种表示形式,也称误差矩阵。其主要用于比较分类结果,混淆矩阵中每一行代表真实类别,每一列代表实际预测类别,其中的每一个百分比表示所在位置中实际类别预测成正确类别或其他类别的正确率或错误率。进一步清晰的反映不同降维方法在每一类图像中的识别结果,更进一步证明本方法的优越性,如图9所示。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。
Claims (5)
1.一种基于卷积神经网络和协方差张量矩阵的降维方法,其特征在于,该方法包括如下步骤:
(1)首先,将图像I={I1,...Ii...,IN},i=1,...,N中每一幅图像Ii分成大小为32×32的M个重叠小块,对于每一幅图像,定义它的标签为将标签Y映射到另一个空间Z,即得到每个像素点的值,并求得每对像素点之间的距离值,是一个dz维的向量;利用分离函数h(x),其中x为像素点的值或者是距离值,该分离函数输出的值是否大于阈值α将像素点归到左枝叶或右枝叶来判断此像素点是否为边缘或是否相似;然后将每个重叠小块的结果映射到原图像从而得到原图像I={I1,...Ii...,IN},i=1,...,N的边缘图像E={E1,...,Ei,...EN},i=1,...,N;
(2)将边缘图像Ei通过降采样得到卷积神经网络规定的大小的图像Ei′,将Ei′输入到网络中,通过卷积、池化得到第七层全连接层的输出,作为该边缘图像的边缘特征
(3)然后将原始图像Ii经过降采样得到卷积神经网络规定的大小的图像Ii′,将Ii′输入到网络中,通过卷积、池化得到第七层全连接层的输出,作为该原图像细节特征
(4)在原始图像Ii上提取全局特征,通过a×a的网格把图像划分成大小相等的子区域,每个子区域用υ个尺度α个方向的Gabor滤波器进行滤波处理,所有子区域的特征串接得到整幅图像目标描述子
(5)对于得到的多种视觉特征首先求得各类视觉特征的协方差矩阵对同一样本的各类视觉特征进行张量计算,从而得到所有样本的最后的协方差张量矩阵通过多种视觉特征F的协方差张量矩阵T和协方差矩阵V我们得到多种视觉特征的张量矩阵
(6)通过分解张量矩阵得到转换矩阵将原始的多种视觉特征与转换矩阵相乘,即得到降维后的结果r是降维的维数。
2.如权利要求1所述的降维方法,其特征在于,所述步骤(2)中边缘检测方法具体包括以下:对数据集中的每一幅图像I={I1,...Ii,...IN},i=1,...,N进行基于结构树的快速边缘检测,从而得到每一幅图像Ii的边缘图像E={E1,...,Ei,...,EN},i=1,...,N,首先将彩色图像重叠分割成M个32×32大小的图像块pi,0<i≤M,对每个图像块pi计算在CIE-LUV颜色空间中的3个颜色通道和两个尺度归一化的梯度幅值,将每个梯度幅值通道分成基于方向的4个通道,这样每个图像块p就得到3个颜色通道,2个幅值通道,8个方向通道,总共13个通道;使用半径为2的三角型滤波器对每个图像块pi进行模糊,并且使用因数2对每个图像块pi进行降采样,最后形成32×32×13/4=3328个像素值;另外对每个通道使用半径为8的三角形滤波器进行模糊,并且降采样到5×5大小,则每个通道产生的像素对数为300个,计算每个像素对的欧氏距离,则产生3900个距离值,将像素值和距离值定义为候选特征xi,0<i≤dz=7228;下面将决策树应用于结构输出空间0<j≤32,其中表示相应的第i图像块的图像注释,即像素值,i′,j表示像素的位置;定义一个映射函数,
∏:Y→Z
将结构输出空间Y映射到一个中间空间Z,在这个空间中距离是容易测量的,其中即上一步所求得的候选特征值xi,我们使用PCA量化对候选特征值xi进行聚类,聚成k=2类,一个决策树ft(x)分类一个候选特征值xi∈Z通过分支到树的左枝或右枝直到一个叶子节点;树的节点是一个二进制的分离函数,
h(xi,θ)∈{0,1}
其中,θ=(k,τ),并且h(xi,θ)=[xi(k)<τ],如果h(xi,θ)=0就将xi送到左侧节点,反之,就送到右侧节点;进而通过对xi标记为0或者1来判断对应的像素值是否边缘或像素对是否相似,对于θ=(k,τ)的选择,我们进行如下决策树的训练;使用BSD500训练集对决策树进行训练,通过决策树将图像块中每个像素点都标记为边缘或非边缘后,将重叠的图像块映射到原图像即得到边缘图Ei,0<i≤N。
3.如权利要求1所述的降维方法,其特征在于,所述步骤(3)中所述基于形状的卷积神经网络特征提取括以下步骤:使用CNN-F网络进行特征提取,首先将边缘图像Ei,0<i≤N变形为适合卷积神经网络的大小224×224,然后输入到卷积神经网络中;此网络共包括5个卷积层,3个全连接层共8层网络,对于第一层卷积网络使用大小11×11的卷积核对图像Ei,0<i≤N进行卷积,步长为4,对得到的特征图使用RELU激活函数进行激活,然后使用大小3×3的卷积核将得到的特征图进行下采样处理后,输入到下一层的卷积层;第二层卷积层的卷积核大小为5×5,下采样层的卷积核大小为3×3;在第二层卷积层中重复与第一层相似的处理,然后输入到第三层卷积层,第三层卷积层的核的大小为3×3,无下采样层,第四层卷积层与第三层类似,第五层卷积层核的大小为3×3,下采样层核的大小为3×3;经过以上处理后得到第五层卷积层输出的特征图,将此特征图输入到全连接层,最终得到第七层全连接层的特征向量F1={F1,1,...,F1,i,...,F1,N},i=1,...,N。
4.如权利要求1所述的降维方法,其特征在于,所述步骤(6)中所述协方差张量矩阵包括以下步骤:
a)对于有N个样本的多视觉特征每一种视觉特征为它的协方差矩阵计算为,多种视觉特征的协方差张量矩阵计算为:T是一个张量,其维度为
b)接下来,最大化相关变量之间的相关性,其中被称作相关向量,因此优化问题,
其中corr(z1,...,zt)=(z1 ⊙ ... ⊙ zt)Te指相关性运算,⊙是一种逻辑运算成为元素方式积,e∈RN是一个全1向量;
c)对上述的优化问题采用下面的计算方法,
进一步考虑到则上述公式就写成如下形式,
为了控制公式的复杂度,进一步增加一个正则化项,因此上式的附加条件就变成如下,
其中I是一个单位矩阵,ε是一个负平衡参数;定义一个张量矩阵为:
对于上式的计算方法,如此定义:T12...t本身是一个维度为的张量矩阵,定义T12...t是一个维度为的二维矩阵T(t),通过将张量矩阵T12...t中第维度相关的结构映射为T(t)的行,所有其它维度的结构作为列来得到;则以此类推上式可以写成,
另外定义则上诉公式写成如下表示方式,
d)对于上述优化问题定义然后优化问题就变成,
基于上式解决得到r个unum,r是需要降低的维度,让转换矩阵
则最终获得第num个视觉特征的映射数据,
将不同视觉特征的相连接作为最后的图像数据的降维表示F∈R(t×r)×N。
5.如权利要求1所述的降维方法,其特征在于,步骤(4)中所述传统特征提取方法为Gist。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810206326.8A CN108388904B (zh) | 2018-03-13 | 2018-03-13 | 一种基于卷积神经网络和协方差张量矩阵的降维方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810206326.8A CN108388904B (zh) | 2018-03-13 | 2018-03-13 | 一种基于卷积神经网络和协方差张量矩阵的降维方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108388904A true CN108388904A (zh) | 2018-08-10 |
CN108388904B CN108388904B (zh) | 2022-05-03 |
Family
ID=63067668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810206326.8A Active CN108388904B (zh) | 2018-03-13 | 2018-03-13 | 一种基于卷积神经网络和协方差张量矩阵的降维方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108388904B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376591A (zh) * | 2018-09-10 | 2019-02-22 | 武汉大学 | 深度学习特征与视觉特征联合训练的船只目标检测方法 |
CN112801192A (zh) * | 2021-01-26 | 2021-05-14 | 北京工业大学 | 一种基于深度神经网络的扩展LargeVis图像特征降维方法 |
CN114005046A (zh) * | 2021-11-04 | 2022-02-01 | 长安大学 | 基于Gabor滤波器和协方差池化的遥感场景分类方法 |
CN115082745A (zh) * | 2022-08-22 | 2022-09-20 | 深圳市成天泰电缆实业发展有限公司 | 基于图像的电缆绞线质量检测方法及其系统 |
WO2023105359A1 (en) * | 2021-12-06 | 2023-06-15 | International Business Machines Corporation | Accelerating decision tree inferences based on complementary tensor operation sets |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110303748A1 (en) * | 2010-06-11 | 2011-12-15 | Dereje Teferi Lemma | Method and Apparatus for Encoding and Reading Optical Machine-Readable Data Codes |
CN106023065A (zh) * | 2016-05-13 | 2016-10-12 | 中国矿业大学 | 一种基于深度卷积神经网络的张量型高光谱图像光谱-空间降维方法 |
CN107194404A (zh) * | 2017-04-13 | 2017-09-22 | 哈尔滨工程大学 | 基于卷积神经网络的水下目标特征提取方法 |
CN107622485A (zh) * | 2017-08-15 | 2018-01-23 | 中国科学院深圳先进技术研究院 | 一种融合深度张量神经网络的医学影像数据分析方法和系统 |
-
2018
- 2018-03-13 CN CN201810206326.8A patent/CN108388904B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110303748A1 (en) * | 2010-06-11 | 2011-12-15 | Dereje Teferi Lemma | Method and Apparatus for Encoding and Reading Optical Machine-Readable Data Codes |
CN106023065A (zh) * | 2016-05-13 | 2016-10-12 | 中国矿业大学 | 一种基于深度卷积神经网络的张量型高光谱图像光谱-空间降维方法 |
CN107194404A (zh) * | 2017-04-13 | 2017-09-22 | 哈尔滨工程大学 | 基于卷积神经网络的水下目标特征提取方法 |
CN107622485A (zh) * | 2017-08-15 | 2018-01-23 | 中国科学院深圳先进技术研究院 | 一种融合深度张量神经网络的医学影像数据分析方法和系统 |
Non-Patent Citations (2)
Title |
---|
YONG LUO,ET AL: "Tensor Canonical Correlation Analysis for", 《ARXIV:1502.02330V1》 * |
宋坚; 张向韵: "QTT分解及其在高维数字信号处理上的应用", 《应用数学与计算数学学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109376591A (zh) * | 2018-09-10 | 2019-02-22 | 武汉大学 | 深度学习特征与视觉特征联合训练的船只目标检测方法 |
CN109376591B (zh) * | 2018-09-10 | 2021-04-16 | 武汉大学 | 深度学习特征与视觉特征联合训练的船只目标检测方法 |
CN112801192A (zh) * | 2021-01-26 | 2021-05-14 | 北京工业大学 | 一种基于深度神经网络的扩展LargeVis图像特征降维方法 |
CN112801192B (zh) * | 2021-01-26 | 2024-03-19 | 北京工业大学 | 一种基于深度神经网络的扩展LargeVis图像特征降维方法 |
CN114005046A (zh) * | 2021-11-04 | 2022-02-01 | 长安大学 | 基于Gabor滤波器和协方差池化的遥感场景分类方法 |
CN114005046B (zh) * | 2021-11-04 | 2024-07-02 | 长安大学 | 基于Gabor滤波器和协方差池化的遥感场景分类方法 |
WO2023105359A1 (en) * | 2021-12-06 | 2023-06-15 | International Business Machines Corporation | Accelerating decision tree inferences based on complementary tensor operation sets |
CN115082745A (zh) * | 2022-08-22 | 2022-09-20 | 深圳市成天泰电缆实业发展有限公司 | 基于图像的电缆绞线质量检测方法及其系统 |
CN115082745B (zh) * | 2022-08-22 | 2022-12-30 | 深圳市成天泰电缆实业发展有限公司 | 基于图像的电缆绞线质量检测方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108388904B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388904A (zh) | 一种基于卷积神经网络和协方差张量矩阵的降维方法 | |
CN102982349B (zh) | 一种图像识别方法及装置 | |
CN104680144B (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
CN106503727B (zh) | 一种高光谱图像分类的方法及装置 | |
CN108062543A (zh) | 一种面部识别方法及装置 | |
CN109948510A (zh) | 一种文档图像实例分割方法及装置 | |
CN106096557A (zh) | 一种基于模糊训练样本的半监督学习人脸表情识别方法 | |
CN107563280A (zh) | 基于多模型的人脸识别方法和装置 | |
CN106683046A (zh) | 用于警用无人机侦察取证的图像实时拼接方法 | |
CN112818862A (zh) | 基于多源线索与混合注意力的人脸篡改检测方法与系统 | |
CN108664981A (zh) | 显著图像提取方法及装置 | |
Faria et al. | Fusion of time series representations for plant recognition in phenology studies | |
CN110263712A (zh) | 一种基于区域候选的粗精行人检测方法 | |
CN108647695A (zh) | 基于协方差卷积神经网络的低对比度图像显著性检测方法 | |
CN105184260A (zh) | 一种图像特征提取方法及行人检测方法及装置 | |
CN107679539B (zh) | 一种基于局部感知野的单卷积神经网络局部信息与全局信息整合方法 | |
CN105930794A (zh) | 一种基于云计算的室内场景识别方法 | |
CN110287806A (zh) | 一种基于改进ssd网络的交通标志识别方法 | |
CN111860537B (zh) | 基于深度学习的绿色柑橘识别方法、设备及装置 | |
CN103839042A (zh) | 人脸识别方法和人脸识别系统 | |
CN109472733A (zh) | 基于卷积神经网络的图像隐写分析方法 | |
CN107016359A (zh) | 一种复杂环境下基于t分布的人脸快速识别方法 | |
CN105956570A (zh) | 基于唇部特征和深度学习的笑脸识别方法 | |
CN110414587A (zh) | 基于渐进学习的深度卷积神经网络训练方法与系统 | |
CN109543637A (zh) | 一种人脸识别方法、装置、设备以及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |