CN104463878A - 一种新的深度图像局部描述符方法 - Google Patents

一种新的深度图像局部描述符方法 Download PDF

Info

Publication number
CN104463878A
CN104463878A CN201410765245.3A CN201410765245A CN104463878A CN 104463878 A CN104463878 A CN 104463878A CN 201410765245 A CN201410765245 A CN 201410765245A CN 104463878 A CN104463878 A CN 104463878A
Authority
CN
China
Prior art keywords
pixel
depth image
distance
delta
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410765245.3A
Other languages
English (en)
Inventor
刘亚洲
陈骏龙
唐晓晴
孙权森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201410765245.3A priority Critical patent/CN104463878A/zh
Publication of CN104463878A publication Critical patent/CN104463878A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种新的深度图像局部描述符方法,包括以下步骤:1)深度图像预处理,输入一个深度图像,根据深度图像的像素值完成前景对象的分割,得到目标对象;2)低层特征提取;3)中间层特征提取;4)高层特征提取。本发明采用多层次特征提取结构来描述深度图像的局部特征,使深度图像的不同特性在不同层得到解决。

Description

一种新的深度图像局部描述符方法
技术领域
本发明涉及计算机视觉、模式识别和人机交互领域,更具体地说,涉及一种多层次特征提取的提取结构方法。
背景技术
深度图像的表现形式是一种二维灰度图。但是有别于传统的灰度图像,深度图像每个像素点上所带的信息反映的是目标物体距离摄像机的距离,因此深度图像的像素值称为深度值。深度图像与传统的图像相比具有以下不同点:1、表示的意义不同:深度图像的像素反应目标物体距离摄像机的距离,而一般图像的像素值反应光的强度和颜色;2、弱纹理:在深度图像中,颜色和纹理变化不明显;3、高噪声:与一般的图像相比,深度图像的噪声率相比较高,尤其是在强背景光的环境下;4、低分辨率,相比较一般图像,深度图像的分辨率普遍较低,比如INRIA行人数据库图片分辨率平均为1024*1024,而深度图像分辨率普遍为320*240。由于这些本质的区别,用于一般图像的局部特征提取法不能很好的运用于深度图像。因此,找到一个能够较好地描述深度图像局部特征的描述符显得极为重要。
近年来,局部描述符的研究已经取得了较好的效果。比如Lowe提出的Scale invariant feature transform(SIFT)以及Ojala提出的local binarypattern(LBP)在传统图像中得到广泛应用。SIFT算法是一种提取局部特征的算法,在尺度空间寻找极值点,提取位置,尺度,旋转不变量等信息;但由于深度图像的弱纹理性,使得该方法在使用时很难确定极值点。LBP算子由于其简单和各结构性能好而获得了越来越多的关注。但由于深度图像中有意义的结构只存在于物体的边界地区,该方法不能成功的区分对象中的不同部分。因此,Calonder等人提出了二值描述符BRIEF,可用于深度图像,并且该方法可以达到SIFT与LBP的精度,实现效率高,然而人体关节多,无法应对关节的变化。
发明内容
本发明的目的在于,针对上述深度图像的特殊性,采用多层次特征提取结构来描述深度图像的局部特征,使深度图像的不同特性在不同层得到解决。
深度图像为I,I(p)表示在位置p处的像素值,其中p=(x,y)T,fg表示前景对象的分割结果,p0为fg的中心点,表示其局部描述符。
该方法包括以下步骤:
1)深度图像预处理,输入一个深度图像,根据深度图像的像素值完成前景对象的分割,得到目标对象fg
2)低层特征提取;
3)中间层特征提取;
4)高层特征提取。
上述方法中,所述步骤2)包括以下具体步骤:
21)用Dijkstra算法计算目标中心像素点p0距其余像素的测地距离;
22)根据步骤21)得到的测地距离求各像素的距离等值线图;
23)由步骤21)得到的测地距离与步骤22)得到的等值图计算每个像素点到中心点距离最短的方向Γ;
24)对每个像素提取局部特征,用局部描述符表示。
上述方法中,所述步骤24)包括以下具体步骤:
241)初始化局部描述符的区域
其中pc是区域圆心,区域半径r由下式确定:
r = α I ( p c ) - - - ( 1 )
其中I(pc)表示pc在图像中的位置,α是由成像焦距与局部描述符在实际中的大小确定的常数。
242)初始化区域中随机点对F={P1,...,Pn},其中表示一个随机点对的位置,n表示随机点对的数量。
243)根据步骤23)中求得的最短距离方向Γ确定每个区域中的所有随机点对位置:
建立极坐标系,以pc为原点Γ为极轴,随机点pu由角度θu与距离ru确定,其中θu表示pu与Γ之间的角度,ru表示pu与原点的距离。
244)计算局部特征:
τ ( p u , p v ) = 1 , if | I ( p u ) - I ( p v ) | > dis tan ce 0 , otherwise - - - ( 2 )
对局部区域中所有随机点对用函数τ(·)计算,得到二值串,作为特征的特征向量。
上述方法中,所述步骤3)包括以下具体步骤:
31)对深度图像进行超像素分割;
32)对步骤31)中得到的每个超像素用Dijkstra算法计算其到中心像素距离最短距离的方向Γ;
33)提取局部特征。
上述方法中,所述步骤31)包括以下具体步骤:
311)初始化聚类中心:
均匀的分配k个聚类中心ck=[xk,yk,zk,Lk]T,其中,xk,yk,zk表示像素在真实世界中的三维坐标,Lk表示像素的标签,标签Lk只在训练时使用,在分类时只使用三维坐标xk,yk,zk。相邻距离为S个像素,N为图像像素的个数。
312)在每个聚类中心的n*n领域内计算梯度,并把聚类中心移动到梯度最小的位置。
313)对每个像素i初始化类别标签l(i)=-1,距离d(i)=∞。
314)在每个聚类中心ck的2S*2S区域内,计算ck与该区域内每个像素的距离D:
特征距离:
d c = ( L j - L i ) 2 - - - ( 3 )
像素间距离:
d s = ( x j - x i ) 2 + ( y j - y i ) 2 + ( z j - z i ) 2 - - - ( 4 )
总的距离:
D = ( d c m ) 2 + ( d s S ) 2 - - - ( 5 )
其中m和S是固定值,用于归一化距离,如果D<d(i)则d(i)=D,l(i)=k。
315)迭代更新聚类中心与残差项E:
聚类中心用所有属于这个类像素的平均更新,其中标签Lk只用于训练阶段,在分类阶段只需要计算坐标xk,yk,zk
用2范数表示新旧聚类中心的残差项E,迭代终止条件为残差项E<=threshold。
上述方法中,所述步骤33)包括以下具体步骤:
使用步骤2)的方法对每个超像素提取局部特征。
上述方法中,所述步骤4)包括以下具体步骤:
41)自动编码器构造过程;
42)降噪自动编码器的构造过程;
43)多层降噪自动编码器构造过程;
44)logistic回归的分类和优化过程;
45)神经网络整个反向传播算法的微调过程;
上述方法中,所述步骤41)包括以下具体步骤:
411)将步骤3)中得到的特征值作为当前的输入x,根据式子(6)得到输出y,这个过程称为编码过程。
y=fθ(x)=s(Wx+b)            (6)
其中 s ( x ) = 1 1 + e - x .
412)根据(6)式中的输出y,用式子(7)得到重构后的结果z,这个过程称为解码过程。
z=gθ'(y')=s(W'x+b')       (7)
从输入到输出的权值记为θ=(W,b),输出到输入的权值记为θ'=(W',b')。
413)逐层进行参数θ和θ′的优化,其目标函数是式子(8)所示:
θ * , θ , * = arg min θ , θ , L ( x , z ) L ( x , z ) = 1 2 | | x - z | | 2 - - - ( 8 )
上面部分是参数的最优化式子,下面部分是损失函数。整个式子就是要使输入前的x和最后重构后的z两者间的误差最小。
414)优化过程:在迭代终止前,根据式子(9)进行计算:
W = W + δΔW , b = b + δΔb W , = W , + δΔ W , , b , = b , + δΔ b , - - - ( 9 )
其中,ΔW=-(z-x)*s'(W'y+b')*W'*s'(Wx+b)*x;
ΔW'=-(z-x)*s'(W'y+b')*y;
Δb=-(z-x)*s'(W'y+b')*W'*s'(Wx+b);
Δb=-(z-x)*s'(W'y+b');
δ为学习效率,初始化定义其值,一般为一个较小的数。s'(x)表示函数s的导数,即s'(x)=s(x)*(1-s(x))。
最后得到自动编码器优化后的参数θ和θ'。
上述方法中,所述步骤42)包括以下具体步骤:
421)将原始的输入数据x选取一定量的数据项变成0,即得到加了噪声的输入de(x)。我们将加入噪声后的输入作为当前的输入进行步骤11)中的编码和解码过程,得到重构后的结果z。接着根据输入de(x)以及重构后的结果z,按照步骤413)和414)中的过程进行目标函数的优化。从而得到降噪编码器的参数θ和θ'。
上述方法中,所述步骤43)包括以下具体步骤:
431)根据图3所示的多层神经网络结构图,我们将前一层的输出作为后一层的输入。根据步骤42)中的结果,我们利用优化后的参数θ=(W,b)得到当前层的输出(即后一层中输入)为y=s(W*de(x)+b)。将得到的y作为新的输入数据,重复上述步骤42)的过程,即逐层进行降噪自动编码器的构造过程,直到到达多层神经网络中间隐层的最后一层为止,然后算出该层的输出,进行接下来的监督学习的过程。
上述方法中,所述步骤44)包括以下具体步骤:
441)步骤43)中最后的输出y作为logistic回归的输入数据集x进行分类,其分类的结果用式子(10)进行计算:
h θ d ( x ) = e W d x + b d Σ j = 1 K e w j x + b j - - - ( 10 )
其中θ是参数,θ=(W,b),表示某一个类别,K为总的类别数目。Wj,bj表示类别为j时的(W,b)中的值。
442)根据目标函数(10)调节参数θ=(W,b):
J = ( θ ) = - 1 N [ Σ i = 1 N Σ j = 1 K t ( l i , j ) log h θ j ( x ) ] - - - ( 11 )
其中N表示总的样本的数目,i表示某一个样本,j表示某一个标签, t ( l i , j ) = 1 , l i = j 0 , l i ≠ j .
443)优化过程:在迭代终止前,根据(12)进行计算:
Wj=Wj+δΔWj,bj=bj+δΔbj        (12)
其中 ΔW j = ( 1 { L i = j } - h θ j ) * x , Δb j = ( 1 { L i = j } - h θ j )
上述方法中,所述步骤45)包括以下具体步骤:
451)调节输出层到隐层的最后一层间的参数。设最后的输出结果是o,实际的结果是t,则最后一层的误差计算为ε=o(1-o)(t-o);用式子(13)调节参数W:
W=W+ΔW          (13)
其中ΔW=δ*ε*y,y表示隐层的最后一层的输出,ε表示相连的两层间的输出误差,δ为学习效率。
452)倒数第二层开始逐层向前参数调节。设第s层的输出为y(s),则与该层相连的前面一层的输出为y(s-1),则两层间的参数Ws用式子(13)进行迭代优化,其中ΔWs=δ*ε*y(s-1),ε=y(s)(1-y(s-1))Ws+1
453)最后保存各层的参数θs=(Ws,bs),则训练过程结束。
本发明与现有技术相比,像素与中心点最短距离方向与随机点对的关系在关节变化时是不变的,解决了BRIEF特征这一缺点,应用超像素减少了大量的像素点,减少了距离的计算,有效的提高了计算速度,并且超像素可以有效的克服噪声点对最终结果的影响。
附图说明
图1是多层次特征提取方法的流程图。
图2是低层特征与中层特征提取示意图:
(a)前景分割结果;(b)等值线图;(c)像素与中心点最短距离方向图;(d)超像素分割结果;(e)超像素与中心点最短距离方向图。
图3是根据方向确定随机点对的方法:
(a)比较两点产生一位二值特征;(b)随机点对与下降最快方向Γ的关系;(c)根据随机点对与下降最快方向关系不变确定随机点对。
图4是高层特征提取的多层神经网络结构图。
图5是三层特征与BRIEF方法的实验结果对比。
具体实施方式
本发明的整体操作流程如图1所示。多层次特征提取结构如图2所示。下面结合附图对本发明的具体实施方式作进一步详细的说明。
深度图像为I,I(p)表示在位置p处的像素值,其中p=(x,y)T,fg表示前景对象的分割结果,p0为fg的中心点,表示其局部描述符。
该方法包括以下步骤:
1)深度图像预处理,输入一个深度图像,根据深度图像的像素值完成前景对象的分割,得到目标对象fg
2)低层特征提取;
3)中间层特征提取;
4)高层特征提取。
上述方法中,所述步骤2)包括以下具体步骤:
21)用Dijkstra算法计算目标中心像素点p0距其余像素的测地距离。
22)根据步骤21)得到的测地距离求各像素的距离等值线图。
23)由步骤21)得到的测地距离与步骤22)得到的等值线图计算每个像素点到中心点距离最短的方向Γ;
24)提取局部特征。
上述方法中,所述步骤24)包括以下具体步骤:
241)对每个像素提取局部特征,用局部描述符表示:
其中pc是区域圆心,区域半径r由下式确定:
r = α I ( p c ) - - - ( 1 )
其中I(pc)表示pc在图像中的位置,α是由成像焦距与局部描述符在实际中的大小确定的常数。
242)初始化区域中随机点对F={P1,...,Pn},其中表示一个随机点对的位置,n表示随机点对的数量,其值为512。
243)根据步骤23)中求得的最短距离方向Γ确定每个区域中的所有随机点对位置:
建立极坐标系,以pc为原点Γ为极轴,随机点pu由角度θu与距离ru确定,其中θu表示pu与Γ之间的角度,ru表示pu与原点的距离。
244)计算局部特征:
τ ( p u , p v ) = 1 , if | I ( p u ) - I ( p v ) | > dis tan ce 0 , otherwise - - - ( 2 )
对局部区域中所有随机点对用函数τ(·)计算,得到二值串,作为特征的特征向量。
245)计算每个像素的局部特征。
上述方法中,所述步骤3)包括以下具体步骤:
31)对深度图像进行超像素分割;
32)对步骤31)中得到的每个超像素用Dijkstra算法计算其到中心像素距离最短距离的方向Γ;
33)提取局部特征。
上述方法中,所述步骤31)包括以下具体步骤:
311)初始化聚类中心:
均匀的分配k个聚类中心ck=[xk,yk,zk,Lk]T,其中,xk,yk,zk表示像素在真实世界中的三维坐标,Lk表示像素的标签,标签Lk只在训练时使用,在分类时只使用三维坐标xk,yk,zk。相邻距离为S个像素,N为图像像素的个数。
312)在每个聚类中心的nxn领域内计算梯度,并把聚类中心移动到梯度最小的位置。
313)对每个像素i初始化类别标签l(i)=-1,距离d(i)=∞。
314)在每个聚类中心ck的2S*2S区域内,计算ck与该区域内每个像素的距离D:
特征距离:
d c = ( L j - L i ) 2 - - - ( 3 )
像素间距离:
d s = ( x j - x i ) 2 + ( y j - y i ) 2 + ( z j - z i ) 2 - - - ( 4 )
总的距离:
D = ( d c m ) 2 + ( d s S ) 2 - - - ( 5 )
其中m和S是固定值,用于归一化距离,如果D<d(i)则d(i)=D,l(i)=k。
315)迭代更新聚类中心与残差项E:
聚类中心用所有属于这个类像素的平均ck=[xk,yk,zk,Lk]T更新,其中标签Lk只用于训练阶段,在分类阶段只需要计算坐标xk,yk,zk
用2范数表示新旧聚类中心的残差项E。
迭代终止条件为残差项E<=threshold。
上述方法中,所述步骤33)包括以下具体步骤:
使用步骤2)的方法对每个超像素提取局部特征。
上述方法中,所述步骤4)包括以下具体步骤:
41)自动编码器构造过程;
42)降噪自动编码器的构造过程;
43)多层降噪自动编码器构造过程;
44)logistic回归的分类和优化过程;
45)神经网络整个反向传播算法的微调过程;
上述方法中,所述步骤41)包括以下具体步骤:
411)将步骤3)中得到的特征值作为当前的输入x,根据式子(6)得到输出y,这个过程称为编码过程。
y=fθ(x)=s(Wx+b)        (6)
其中 s ( x ) = 1 1 + e - x .
412)根据(6)式中的输出y,用式子(7)得到重构后的结果z,这个过程称为解码过程。
z=gθ'(y')=s(W'x+b')        (7)
从输入到输出的权值记为θ=(W,b),输出到输入的权值记为θ'=(W',b')。
413)逐层进行参数θ和θ'的优化,其目标函数是式子(8)所示:
θ * , θ , * = arg min θ , θ , L ( x , z ) L ( x , z ) = 1 2 | | x - z | | 2 - - - ( 8 )
上面部分是参数的最优化式子,下面部分是损失函数。整个式子就是要使输入前的x和最后重构后的z两者间的误差最小。
414)优化过程:在迭代终止前,根据式子(9)进行计算:
W = W + δΔW , b = b + δΔb W , = W , + δΔ W , , b , = b , + δΔ b , - - - ( 9 )
其中,ΔW=-(z-x)*s'(W'y+b')*W'*s'(Wx+b)*x;
ΔW'=-(z-x)*s'(W'y+b')*y;
Δb=-(z-x)*s'(W'y+b')*W'*s'(Wx+b);
Δb=-(z-x)*s'(W'y+b');
δ为学习效率,其值为0.001。s'(x)表示函数s的导数,即s'(x)=s(x)*(1-s(x))。
最后得到自动编码器优化后的参数θ和θ'。
上述方法中,所述步骤42)包括以下具体步骤:
421)将原始的输入数据x选取r(第一层r为30%,第二层为20%,第三层为10%)的数据项变成0,即得到加了噪声的输入de(x)。我们将加入噪声后的输入作为当前的输入进行步骤11)中的编码和解码过程,得到重构后的结果z。接着根据输入de(x)以及重构后的结果z,按照步骤413)和414)中的过程进行目标函数的优化。从而得到降噪编码器的参数θ和θ'。
上述方法中,所述步骤43)包括以下具体步骤:
431)根据图3所示的多层神经网络结构图,每一层的节点个数为2000,我们将前一层的输出作为后一层的输入。根据步骤42)中的结果,我们利用优化后的参数θ=(W,b)得到当前层的输出(即后一层中输入)为y=s(W*de(x)+b)。将得到的y作为新的输入数据,重复上述步骤42)的过程,对于中间隐层的第一层我们取当前层输入数据的30%变为0得到de(x),第二层取当前层输入数据的20%变为0得到de(x),第三层取当前输入数据的10%变为0得到de(x)。即逐层进行降噪自动编码器的构造过程,直到到达多层神经网络中间隐层的最后一层为止,然后算出该层的输出,进行接下来的监督学习的过程。
上述方法中,所述步骤44)包括以下具体步骤:
441)步骤43中最后的输出y作为logistic回归的输入数据集x进行分类,其分类的结果用公式(10)进行计算:
h θ d ( x ) = e W d x + b d Σ j = 1 K e w j x + b j - - - ( 10 )
其中θ是参数,θ=(W,b),表示某一个类别,K为总的类别数目。Wj,bj表示类别为j时的(W,b)中的值。
442)根据目标函数(10)调节参数θ=(W,b):
J = ( θ ) = - 1 N [ Σ i = 1 N Σ j = 1 K t ( l i , j ) log h θ j ( x ) ] - - - ( 11 )
其中N表示总的样本的数目,i表示某一个样本,j表示某一个标签, t ( l i , j ) = 1 , l i = j 0 , l i ≠ j .
443)优化过程:在迭代终止前,根据(12)进行计算:
Wj=Wj+δΔWj,bj=bj+δΔbj          (12)
其中 ΔW j = ( 1 { L i = j } - h θ j ) * x , Δb j = ( 1 { L i = j } - h θ j )
上述方法中,所述步骤45)包括以下具体步骤:
451)调节输出层到隐层的最后一层间的参数。设最后的输出结果是o,实际的结果是t,则最后一层的误差计算为ε=o(1-o)(t-o);用式子(13)调节参数W:
W=W+ΔW       (13)
其中ΔW=δ*ε*y,y表示隐层的最后一层的输出,ε表示相连的两层间的输出误差,δ为学习效率,其值为0.1。
452)倒数第二层开始逐层向前参数调节。设第s层的输出为y(s),则与该层相连的前面一层的输出为y(s-1),则两层间的参数Ws用式子(13)进行迭代优化,其中ΔWs=δ*ε*y(s-1),ε=y(s)(1-y(s-1))Ws+1
453)最后保存各层的参数θs=(Ws,bs),则训练过程结束。
实施例:
下表为具体实施时的参数设置:
三层特征与BRIEF的实验结果如图5所示。

Claims (9)

1.一种新的深度图像局部描述符方法,其特征在于包括以下步骤:
1)深度图像预处理,输入一个深度图像时,根据深度图像的像素值完成前景对象的分割,得到目标对象fg
2)对步骤1)中得到的fg进行低层特征提取;
3)对步骤1)中得到的fg进行中间层特征提取;
4)将步骤3)中得到的中间层特征作为输入,进行高层特征提取。
2.根据权利要求1所述的新的深度图像局部描述符方法,其特征在于所述步骤2)包括以下具体步骤:
21)用Dijkstra算法计算目标对象中心像素点p0距其余像素的测地距离;
22)根据步骤21)得到的测地距离求各像素的距离等值线图;
23)由步骤21)得到的测地距离与步骤22)得到的等值线图计算每个像素点到中心点距离最短的方向Γ;
24)对每个像素提取其局部特征,用局部描述符表示。
3.根据权利要求2所述的新的深度图像局部描述符方法,其特征在于步骤24)包括以下具体步骤:
241)初始化局部特征的区域
其中pc是区域圆心,区域半径r由下式确定:
r = α I ( p c ) - - - ( 1 )
其中I(pc)表示pc在图像中的位置,α是由成像焦距与局部描述符在实际中的大小确定的常数;
242)初始化区域中随机点对F={P1,...,Pn},其中表示一个随机点对的位置,n表示随机点对的数量;
243)根据步骤23)中求得的最短距离方向Γ确定每个区域中的所有随机点对位置:
建立极坐标系,以pc为原点Γ为极轴,随机点pu由角度θu与距离ru确定,其中θu表示pu与Γ之间的角度,ru表示pu与原点的距离;
244)计算局部特征:
τ ( p u , p v ) = 1 , if | I ( p u ) - I ( p v ) | > dis tan ce 0 , otherwise - - - ( 2 )
对局部区域中所有随机点对用函数τ(·)计算,得到二值串,作为的特征向量。
4.根据权利要求1或3所述的新的深度图像局部描述符方法,其特征在于步骤3)具体包括如下步骤:
31)对目标对像fg进行超像素分割;
32)对步骤31)中得到的每个超像素用Dijkstra算法计算其到中心像素距离最短距离的方向Γ;
33)采用步骤24)提取局部特征的方法对每个超像素提取局部特征。
5.根据权利要求4所述的新的深度图像局部描述符方法,其特征在于步骤31)具体包括如下步骤:
311)初始化聚类中心:
均匀的分配k个聚类中心ck=[xk,yk,zk,Lk]T,其中,xk,yk,zk表示像素在真实世界中的三维坐标,Lk表示像素的标签,标签Lk只在训练时使用,在分类时只使用三维坐标xk,yk,zk;相邻距离为S个像素,N为图像像素的个数;
312)在每个聚类中心的n*n领域内计算梯度,并把聚类中心移动到梯度最小的位置;
313)对每个像素i初始化类别标签l(i)=-1,距离d(i)=∞;
314)在每个聚类中心ck的2S*2S区域内,计算ck与该区域内每个像素的距离D:
特征距离:
d c = ( L j - L i ) 2 - - - ( 3 )
像素间距离:
d s = ( x j - x i ) 2 + ( y j - y i ) 2 + ( z j - z i ) 2 - - - ( 4 )
总的距离:
D = ( d c m ) 2 + ( d s S ) 2 - - - ( 5 )
其中m和S是固定值,用于归一化距离,如果D<d(i)则d(i)=D,l(i)=k;
315)迭代更新聚类中心与残差项E:
聚类中心用所有属于这个类像素的平均ck=[xk,yk,zk,Lk]T更新,其中标签Lk只用于训练阶段,在分类阶段只需要计算坐标xk,yk,zk
用2范数表示新旧聚类中心的残差项E,迭代终止条件为残差项E<=threshold。
6.根据权利要求1所述的新的深度图像局部描述符方法,其特征在于步骤4)具体包括如下步骤:
41)根据步骤3)中得到的特征进行自动编码器构造;
42)在将步骤41)中每一层的输入选取一定量的数据项变成0进行降噪自动编码器的构造;
43)根据多层神经网络结构图,将步骤42)中前一层的输出作为后一层的输入来完成多层降噪自动编码器构造;
44)根据步骤43)中的最后的输出进行logistic回归的分类和优化;
45)根据步骤44)中的logistic回归的分类结果与实际结果进行神经网络整个反向传播算法的微调过程。
7.根据权利要求6所述的新的深度图像局部描述符方法,其特征在于步骤41)具体包括如下步骤:
411)将步骤3)中得到的特征值作为当前的输入x,根据式子(6)得到输出y,
y=fθ(x)=s(Wx+b)    (6)
其中 s ( x ) = 1 1 + e - x ;
412)根据(6)式中的输出y,用式子(7)得到重构后的结果z,
z=gθ'(y')=s(W'x+b')    (7)
从输入到输出的权值记为θ=(W,b),输出到输入的权值记为θ'=(W',b');
413)逐层进行参数θ和θ′的优化,其目标函数是式子(8)所示:
θ * , θ ′ * = arg min θ , θ , L ( x , z ) L ( x , z ) = 1 2 | | x - z | | 2 - - - ( 8 )
414)优化过程:在迭代终止前,根据式子(9)进行计算:
W = W + δΔW , b = b + δΔb W ′ = W ′ + δΔW ′ , b ′ = b ′ + δΔb ′ - - - ( 9 )
其中,ΔW=-(z-x)*s'(W'y+b')*W'*s'(Wx+b)*x;
ΔW'=-(z-x)*s'(W'y+b')*y;
Δb=-(z-x)*s'(W'y+b')*W'*s'(Wx+b);
Δb=-(z-x)*s'(W'y+b');
δ为学习效率,初始化定义其值,为一个较小的数,s'(x)表示函数s的导数,即s'(x)=s(x)*(1-s(x));
最后得到自动编码器优化后的参数θ和θ'。
8.根据权利要求7所述的新的深度图像局部描述符方法,其特征在于步骤44)具体包括如下步骤:
441)步骤43)中最后的输出y作为logistic回归的输入数据集x进行分类,其分类的结果用式子(10)进行计算:
h θ d ( x ) = e W d x + b d Σ j = 1 K e W j x + b j - - - ( 10 )
其中θ是参数,θ=(W,b),表示某一个类别,K为总的类别数目,Wj,bj表示类别为j时的(W,b)中的值;
442)根据目标函数(10)调节参数θ=(W,b):
J ( θ ) = - 1 N [ Σ i = 1 N Σ j = 1 K t ( 1 i , j ) log h θ j ( x ) ] - - - ( 11 )
其中N表示总的样本的数目,i表示某一个样本,j表示某一个标签, t ( 1 i , j ) = 1 , 1 i = j 0 , 1 i ≠ j ;
443)优化过程:在迭代终止前,根据(12)进行计算:
Wj=Wj+δΔWj,bj=bj+δΔbj    (12)
其中 ΔW j = ( 1 { L i = j } - h θ j ) * x , Δb j = ( 1 { L i = j } - h θ j ) .
9.根据权利要求7所述的新的深度图像局部描述符方法,其特征在于步骤45)具体包括如下步骤:
451)调节输出层到隐层的最后一层间的参数;设最后的输出结果是o,实际的结果是t,则最后一层的误差计算为ε=o(1-o)(t-o);用式子(13)调节参数W:
W=W+ΔW    (13)
其中ΔW=δ*ε*y,y表示隐层的最后一层的输出,ε表示相连的两层间的输出误差,δ为学习效率;
452)倒数第二层开始逐层向前参数调节;设第s层的输出为y(s),则与该层相连的前面一层的输出为y(s-1),则两层间的参数Ws用式子(13)进行迭代优化,其中ΔWs=δ*ε*y(s-1),ε=y(s)(1-y(s-1))Ws+1
453)最后保存各层的参数θs=(Ws,bs)。
CN201410765245.3A 2014-12-11 2014-12-11 一种新的深度图像局部描述符方法 Pending CN104463878A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410765245.3A CN104463878A (zh) 2014-12-11 2014-12-11 一种新的深度图像局部描述符方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410765245.3A CN104463878A (zh) 2014-12-11 2014-12-11 一种新的深度图像局部描述符方法

Publications (1)

Publication Number Publication Date
CN104463878A true CN104463878A (zh) 2015-03-25

Family

ID=52909860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410765245.3A Pending CN104463878A (zh) 2014-12-11 2014-12-11 一种新的深度图像局部描述符方法

Country Status (1)

Country Link
CN (1) CN104463878A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN106682628A (zh) * 2016-12-30 2017-05-17 佳都新太科技股份有限公司 一种基于多层深度特征信息的人脸属性分类方法
CN106845631A (zh) * 2016-12-26 2017-06-13 上海寒武纪信息科技有限公司 一种流执行方法及装置
CN107851174A (zh) * 2015-07-08 2018-03-27 北京市商汤科技开发有限公司 图像语义标注的设备和方法
CN108830866A (zh) * 2018-06-25 2018-11-16 北京达佳互联信息技术有限公司 图像分离方法、装置、计算机设备及存储介质
CN110248096A (zh) * 2019-06-28 2019-09-17 Oppo广东移动通信有限公司 对焦方法和装置、电子设备、计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609680A (zh) * 2011-12-22 2012-07-25 中国科学院自动化研究所 一种基于三维深度图像信息的并行统计学习人体部位检测方法
CN103581647A (zh) * 2013-09-29 2014-02-12 北京航空航天大学 一种基于彩色视频运动矢量的深度图序列分形编码方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609680A (zh) * 2011-12-22 2012-07-25 中国科学院自动化研究所 一种基于三维深度图像信息的并行统计学习人体部位检测方法
CN103581647A (zh) * 2013-09-29 2014-02-12 北京航空航天大学 一种基于彩色视频运动矢量的深度图序列分形编码方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PASCAL VINCENT等: "Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion", 《JOURNAL OF MACHINE LEARNING RESEARCH》 *
RADHAKRISHNA ACHANTA等: "SLIC Superpixels Compared to State-of-the-Art Superpixel Methods", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
YAZHOU LIU等: "Geodesic Invariant Feature: A Local Descriptor in Depth", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107851174A (zh) * 2015-07-08 2018-03-27 北京市商汤科技开发有限公司 图像语义标注的设备和方法
CN107851174B (zh) * 2015-07-08 2021-06-01 北京市商汤科技开发有限公司 图像语义标注的设备和方法及其模型的生成方法和系统
CN106845631A (zh) * 2016-12-26 2017-06-13 上海寒武纪信息科技有限公司 一种流执行方法及装置
CN106650813A (zh) * 2016-12-27 2017-05-10 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN106682628A (zh) * 2016-12-30 2017-05-17 佳都新太科技股份有限公司 一种基于多层深度特征信息的人脸属性分类方法
CN106682628B (zh) * 2016-12-30 2020-01-10 佳都新太科技股份有限公司 一种基于多层深度特征信息的人脸属性分类方法
CN108830866A (zh) * 2018-06-25 2018-11-16 北京达佳互联信息技术有限公司 图像分离方法、装置、计算机设备及存储介质
US11494916B2 (en) 2018-06-25 2022-11-08 Beijing Dajia Internet Information Technology Co., Ltd. Method for separating image and computer device
CN110248096A (zh) * 2019-06-28 2019-09-17 Oppo广东移动通信有限公司 对焦方法和装置、电子设备、计算机可读存储介质
CN110248096B (zh) * 2019-06-28 2021-03-12 Oppo广东移动通信有限公司 对焦方法和装置、电子设备、计算机可读存储介质
US11178324B2 (en) 2019-06-28 2021-11-16 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Focusing method and device, electronic device and computer-readable storage medium

Similar Documents

Publication Publication Date Title
CN108304873B (zh) 基于高分辨率光学卫星遥感影像的目标检测方法及其系统
Yang et al. Real-time face detection based on YOLO
Shi et al. Pointrcnn: 3d object proposal generation and detection from point cloud
CN110942000B (zh) 一种基于深度学习的无人驾驶车辆目标检测方法
CN109614985B (zh) 一种基于密集连接特征金字塔网络的目标检测方法
CN104463878A (zh) 一种新的深度图像局部描述符方法
CN105930868B (zh) 一种基于层次化增强学习的低分辨率机场目标检测方法
CN109241817B (zh) 一种无人机拍摄的农作物图像识别方法
Wang et al. CVA 2 E: a conditional variational autoencoder with an adversarial training process for hyperspectral imagery classification
CN111091105A (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别系统及方法
CN110503112A (zh) 一种增强特征学习的小目标检测及识别方法
KR102279376B1 (ko) CNN(Convolutional Neural Network)을 사용하여 차선을 검출하기 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN111899172A (zh) 一种面向遥感应用场景的车辆目标检测方法
Bailo et al. Robust road marking detection and recognition using density-based grouping and machine learning techniques
KR102279388B1 (ko) 차선 모델을 이용하여 차선을 검출할 수 있는 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치
Li et al. Pushing the “Speed Limit”: high-accuracy US traffic sign recognition with convolutional neural networks
CN109766873B (zh) 一种混合可变形卷积的行人再识别方法
CN104537647A (zh) 一种目标检测方法及装置
CN103679187B (zh) 图像识别方法和系统
CN109859238A (zh) 一种基于多特征最优关联的在线多目标跟踪方法
CN108154158B (zh) 一种面向增强现实应用的建筑物图像分割方法
Lin et al. Pedestrian detection from lidar data via cooperative deep and hand-crafted features
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN110334656A (zh) 基于信源概率加权的多源遥感图像水体提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325