CN107103308A - 一种基于由粗到细深度尺度学习的行人重识别方法 - Google Patents
一种基于由粗到细深度尺度学习的行人重识别方法 Download PDFInfo
- Publication number
- CN107103308A CN107103308A CN201710375064.3A CN201710375064A CN107103308A CN 107103308 A CN107103308 A CN 107103308A CN 201710375064 A CN201710375064 A CN 201710375064A CN 107103308 A CN107103308 A CN 107103308A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msup
- pedestrian
- msub
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000013016 learning Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 230000004438 eyesight Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000002087 whitening effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000009795 derivation Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000004069 differentiation Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度尺度学习的行人重识别方法。通过三个层级结构的框架来描述行人重识别的由粗到精的深度判别学习。第一个层次是选取来自两个不同摄像头视角的监控中的人物图片,然后随机地把这两张图片拼合在一起作为第二层的原始输入。第二层次是通过减去平均值和对每个样本对进行标准化来实现预处理,图片转换成灰度图像,形成栈式自编码网络的输入。第三层次是利用每个栈式自编码带有的softmax分类器得到一个分类结果。在本发明中,采用了三个不同隐藏层结构的栈式自编码网络,针对上述第三层中所得到的每一个自编码网络和分类器的结果,利用加权分配处理机制综合其分类结果已得到最终的分类精度,根据是同一对人的相似程度大于不同人的相似度原理实现最终的行人重识别判别结果。
Description
技术领域
本发明涉及一种行人重识别技术,具体涉及一种基于多尺度学习的行人重识别方法。
背景技术
行人重识别是通过匹配非重叠摄像机不同视觉下的两个对象是否为同一目标的技术,其在学术界和工业界(人工智能及公安刑事侦查)等方面得到了广泛的关注和应用。然而该问题的实现目前仍存在着巨大的挑战,由于在实际情况下易受到光照、视角、尺度等因素的影响,使得行人间的内类(同一个行人)差异甚至大于类间(不同行人)差异,从而致该问题的失败。在实际的行人重识别研究工作中,其主要分为三个步骤:特征提取(行人对象的外观特征表示),距离度量(行人对象的相似性比较)以及反馈优化(对排序结果的优化)。本发明主要关注的是对行人相似度的比较,即行人尺度度量学习的方法。在近十年的研究中,相关学者提出了大量的关于尺度学习的行人重识别方法,并也取得了一些较好的成就。然而当前已有的度量学习方法主要是通过单一的衡量标准获得行人对象间最优的距离度量函数,此类型的方法计算相对简单,优化函数更易实现。然而,在实际情况下,行人对象间的相似性是多方面的,如实际中存在这样的情况,即不是同一个人的两个人可能有着相似的外貌轮廓和衣着,因此单一的度量学习方式就可能会导致相似度比较的失败。因此,本发明提出了一种基于多尺度学习的行人重识别方法,力求从多个方面来度量行人对象间的相似性,在一定程度上保证了相似性比较的准确性和实用性。
发明内容
针对传统单一尺度学习方法的局限性,本发明提出了一种基于多个栈式自编码网络和分类网络的尺度学习方式来解决行人重识别问题,及采用由粗到精的度量方式完整行人对象间相似的度量与比较。行人重识别问题本质上可以看做是一个二分类问题,即同一人归为一类,不同人归为另一类的分类问题。基于此,本发明设计了一种由粗到细栈式自编码网络和分类网络。
为了实现上述目标,具体执行步骤如下:
对于定义一对摄像机分别表示为Ca和Cb,其相应视角下行人对象分别表示为和其中n和m分别代表每个摄像机视觉的人的数量(在我们的问题中,一般存在n=m);定义标记y=1代表两个行人图像是匹配的,y=0代表不匹配;定义来自两个不同摄像机视觉的两个人物的联合为在本发明中,我把行人重识别看作是一个二分类问题,如果是同一个行人,即标记为1,不同的人标记为0,其具体步骤包括:
步骤1,从摄像机a视角下取出一张行人图像,使之与摄像机b视角下的行人图像进行匹配(如果b摄像机视角下有n张图像,则对于a摄像机下的一张图像则存在n对行人对,如果a摄像机下有n张图像,则一共可以生产n*n对行人对),得到相应的行人对后,比进行标记,如果是同一个行人,标记为1,否则标记为0;以此,形成深度尺度模型的原始输入数据;
步骤2,预处理,对步骤1所得到的行人图像对进行预处理,对每对图像样本对进行白化处理,并减去均值和归一化图像,使之转换为灰度图像,并作为栈式自编码网络的输入;
步骤3,把步骤2所进行预处理后的数据输入到栈式自编码中,进行分类计算,实现行人对象匹配,以达到重识别的目的;每个栈式自编码自带的softmax分类器微调并实现深度网络结构的优化,softmax分类器的代价函数是:
其中训练集是{(x(1),y(2)),...,(x(m),y(m))},m代表样本的数量,x(i)代表最后一个隐藏层的输出的特征,y(i)代表每个样本的分类标签,在本发明中,y(i)∈{0,1};
步骤4,采用adaboost-like模型,对每一个栈式自编码的分类结果进行权重分配,实现最终的重识别结果。
在上述的一种基于由粗到细深度尺度学习的行人重识别方法,所述步骤1中,对不同摄像头下的行人图像对进行匹配,其具体步骤包括:
步骤1.1:从a摄像头下,取出一个行人图像,分别与b摄像头下的行人对象进行匹配(两种图像进行组合),使得组合后图像的高与原单张图像的高一致,其宽是原图像的两倍;如果a,b摄像头下均有n张图像,则组合的图像对一共有n*n张,即a摄像头下的每一张图像与b摄像头下的图像进行两两匹配;
步骤1.2:本发明把行人重识别看成是二分类的问题,对于a,b摄像头下匹配的行人对分别用0和1进行标记;若是同一个行人,则标记为1,否则标记0;用概率公式表示为P(y=1|x),P(y=0|x),其表示样本对x属于同一个类的可能性。
在上述的一种基于由粗到细深度尺度学习的行人重识别方法,所述步骤2中,对不同图像对进行预处理,其具体步骤包括:
步骤2.1:对行人图像对进行ZCA白化处理;在本发明中,我们采用白化和降维相结合处理,使得输入数据的协方差矩阵变为单位矩阵I,具体来讲,如果R是任意正交阵(即满足RRT=RTR=I,其中R是可以旋转或反射矩阵),则定义后的ZCA白化结果为:xZCAwhite=UxPCAwhite,ZCA白化后的结果尽可能地接近原始输入数据x;
步骤2.2:得到ZCA白化后的数据结果,对数据进行归一化[0,1],并减去其均值,使其更符合栈式自编码输入的数据结果。
在上述的一种基于由粗到细深度尺度学习的行人重识别方法,所述步骤3中,针对预处理完的数据,输入其到不同层次的栈式自编码其中并进行分类,其具体步骤包括:
步骤3.1:我们输入数据到不同层次的栈式自编码器,对输入的数据x,我们尝试学习一个函数hW,b(x)≈x,即获得一个识别函数的近似值,为的是输出和输入x相似;通过学习最优参数θ={W,b},使得自编码器输出值尽可能接近输入值;
步骤3.2:通过设置单个样本的代价函数(其中W,b分别代表网络结构的参数,x表示预处理后的数据,y代表输入数据的标记),求出自编码输出值与输入值的误差达到最小,对上述代价函数进行求导计算,具体采用反向传播的思想,具体步骤如下:
步骤3.2.1:进行前一次前馈传递,利用前向传导公式,得到L2,L3,…直到输出层Lnl的激活值;
步骤3.2.2:对输出层(第nl层),计算残差:δ(nl)=-(y-a(nl))·f′(Z(nl));
步骤3.2.3:对于l=nl-1,nl-2,nl-3,…,2的各层,计算:δ(l)=((W(l))Tδ(l+1))·f′(Z(l));
步骤3.2.4:计算最终需要的偏导数值:
步骤3.3:每个栈式自编码自带的softmax分类器微调并实现深度网络结构的优化,softmax分类器的代价函数是:
对于J(θ)的最小化问题,我们采用梯度下降法完成求导过程,其梯度公式如下:
有了上面的偏导数公式以后,我们就可以将它代入到梯度下降法等算法中,来最小化J(θ),从而求出每种类别的概率,实现最终分类过程。
在上述的一种基于由粗到细深度尺度学习的行人重识别方法,所述步骤4中,对不同栈式自编码所获取行人图像对多个概率值进行权重分配的具体步骤包括:
步骤4.1:输入N代表一组训练样本(其中代表两个行人图片的结合,yi∈{1,-1}说明图片中的两个人是否是同一个人)和所有训练样本的分配:
步骤4.2:对当前的分配Dt找到最好的局部特征λt,该步骤为反复迭代产生训练集h(xi)是假设函数,x→{-1,1}.更新的错误γt:
其中h(xi)的系数可以通过下式获得:权重更新的可能性分配可由以下两个式子:Dt+1=(λt+1,1,λt+1,2,...λt+1,N),
其中t代表迭代次数,Zt是一个正常因素,可以通过下式获得:
每个可能性的矩阵的权重可以通过下式指定:其中N代表栈式自编码的数量;
步骤4.3:根据公式:计算边界误差γt,如果γt<0跳出循环
步骤4.4:设置同时设置zt是一个正常化的系数,并把αt和λt加入到节点,最后计算得到输出权重系数λ;
步骤4.5:根据所计算的每个栈式自编码分类结果的权重系数λ,根据行人对匹配的概率大小得到从而计算行人重识别的识别效率。
本发明具有以下积极效果和优点:
1)本发明通过先把两张来自两个不同摄像头视角的监控人物照片随机地组合起来,作为预处理的输入图像,然后对每个样本对减去平均值和标准化得到灰度图像,再利用栈式自编码的softmax分类器进行分类,最后由加权分配机制对上面的分类结果进行处理得到最终的匹配结果。
2)对于任一给定的待匹配的目标人物,利用尺度学习的栈式自编码模型,实现对目标人物通过对不同的物理特征、侧面特征和面部特征集进行匹配,得到目标人物图片的匹配值,从而实现行人重识别的过程。
附图说明
图1为本发明实例的流程图。
图2为由粗到精尺度学习方法的三个方面示意图。
具体实施方式
为进一步阐明本发明所采取的技术手段及所取得的效果,下面结合附图及具体实施例,
准备工作:
1、假设Ca和Cb为不同空间地域环境下的两个摄像头视角,摄像机中人的数据集分别为和其中n和m分别代表每个摄像机视角下人的数量。定义y=1代表两个行人图片是匹配的(同一个人),y=0代表不匹配(不同人)。定义来自两个不同摄像机视觉的两个人物的联合为
2、传统的自动编码尝试得到一个函数hW,b(x)≈x。即获得一个识别函数的近似值,为的是输出和输入x相似。它可以分为编码和解码两部分。编码用一个确定性的函数h=fθ=σ(Wx+b),其中θ={W,b};而解码则是通过反转f的映射来重构输入:h′=fθ′=σ(W′h+b),其中θ’={W′,b′}。这两个参数集通常的限定形式为W′=WT,对编码输入和潜在的表现yi使用相同的权重。现有一对训练样本集为{(x(1),y(m)),...,(x(m),y(m))}。
对一个训练集的价值函数:
对整个训练集的价值函数:
同时为了训练模型,我们只需要最小化J(W,b)。
步骤1,多尺度学习方法的四个层次构成了行人重识别的由粗到精的深度尺度学习。
1.1、第一层次是取自两个不同摄像头视角的监控目标人物图片,随机地把这两张目标人物图片组合起来作为第二层次的原始输入。
1.2、第二层次是预处理,对每个样本对减去平均值并标准化。这些图片会转换成灰度图像并作为栈式自编码网络的输入。
1.3、第三层是每个栈式自编码自带的softmax分类器对输入得到一个分类结果。
1.4、第四层次是利用一个权重分配机制去处理分类器处理的分类结果。
每个栈式自编码都带有一个softmax分类器,每个网络都通过反向传播算法进行训练。softmax分类器的价值函数是:
其中训练集是{(x(1),y(2)),...,(x(m),y(m))},m代表样本的数量,x(i)代表最后一个隐藏层的输出的特征。yi代表每个样本的分类标签。
步骤2,假定有三种栈式自编码模型分类行人对。P(y=1|x)和P(y=0|x)表示样本对x属于同一个类的可能性。如果行人对匹配的话y=1,否则y=0。我们试图考虑多个方面来判断样本对是否属于同一个物体。对于人物图片对图片对匹配的可能性是权重分配机制对矩阵分布得可能性可描述为:
其中Dt(x)代表两个人物组合的分配的可能性矩阵,λt代表权重系数。
算法1:对相似可能性的权重分配。
输入:N代表一组训练样本 代表两个行人图片的组合,yi∈{1,-1}说明图片中的两个人是否是同一个人。
所有训练样本的分配:
fort=1,...,K
-对当前的分配Dt找到最好的局部特征λt
-计算优势γt
-如果γt<0跳出循环
-设置
-设置zt是一个正常化的系数
-把αt和λt加入到节点
输出:权重系数λ。
权重在训练的时候反复迭代更新,训练集在算法1中,h(xi)是假设函数,x→{-1,1}.更新的错误γt:
其中h(xi)的系数可以通过下式获得:
权重更新的可能性分配可由以下两个式子:
Dt+1=(λt+1,1,λt+1,2,...λt+1,N)
其中t代表迭代次数,Zt是一个正常因素,可以通过下式获得:
每个可能性的矩阵的权重可以通过下式指定:
其中N代表栈式自编码的数量,我们的工作中采用是3个。
以上所述实施例,仅表明了本发明的实施方式,其描述较为具体和详细,但不能因此而理解为对本发明专利范围的限制,应当指出的是,对于本领域和普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围,因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种基于由粗到细深度尺度学习的行人重识别方法,其特征在于,对于定义一对摄像机分别表示为Ca和Cb,其相应视角下行人对象分别表示为和其中n和m分别代表每个摄像机视觉的人的数量(在我们的问题中,一般存在n=m);定义标记y=1代表两个行人图像是匹配的,y=0代表不匹配;定义来自两个不同摄像机视觉的两个人物的联合为在本发明中,我把行人重识别看作是一个二分类问题,如果是同一个行人,即标记为1,不同的人标记为0,其具体步骤包括:
步骤1,从摄像机a视角下取出一张行人图像,使之与摄像机b视角下的行人图像进行匹配(如果b摄像机视角下有n张图像,则对于a摄像机下的一张图像则存在n对行人对,如果a摄像机下有n张图像,则一共可以生产n*n对行人对),得到相应的行人对后,比进行标记,如果是同一个行人,标记为1,否则标记为0;以此,形成深度尺度模型的原始输入数据;
步骤2,预处理,对步骤1所得到的行人图像对进行预处理,对每对图像样本对进行白化处理,并减去均值和归一化图像,使之转换为灰度图像,并作为栈式自编码网络的输入;
步骤3,把步骤2所进行预处理后的数据输入到栈式自编码中,进行分类计算,实现行人对象匹配,以达到重识别的目的;每个栈式自编码自带的softmax分类器微调并实现深度网络结构的优化,softmax分类器的代价函数是:
<mrow>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>&theta;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<mo>&lsqb;</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mn>1</mn>
<mo>{</mo>
<msup>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>=</mo>
<mi>j</mi>
<mo>}</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mfrac>
<msup>
<mi>e</mi>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mi>j</mi>
<mi>T</mi>
</msubsup>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
</mrow>
</msup>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>l</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<msup>
<mi>e</mi>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mi>l</mi>
<mi>T</mi>
</msubsup>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>&rsqb;</mo>
</mrow>
其中训练集是{(x(1),y(2)),...,(x(m),y(m))},m代表样本的数量,x(i)代表最后一个隐藏层的输出的特征,y(i)代表每个样本的分类标签,在本发明中,y(i)∈{0,1};
步骤4,采用adaboost-like模型,对每一个栈式自编码的分类结果进行权重分配,实现最终的重识别结果。
2.根据权利要求1所述的一种基于由粗到细深度尺度学习的行人重识别方法,其特征在于,所述步骤1中,对不同摄像头下的行人图像对进行匹配,其具体步骤包括:
步骤1.1:从a摄像头下,取出一个行人图像,分别与b摄像头下的行人对象进行匹配(两种图像进行组合),使得组合后图像的高与原单张图像的高一致,其宽是原图像的两倍;如果a,b摄像头下均有n张图像,则组合的图像对一共有n*n张,即a摄像头下的每一张图像与b摄像头下的图像进行两两匹配;
步骤1.2:本发明把行人重识别看成是二分类的问题,对于a,b摄像头下匹配的行人对分别用0和1进行标记;若是同一个行人,则标记为1,否则标记0;用概率公式表示为P(y=1|x),P(y=0|x),其表示样本对x属于同一个类的可能性。
3.根据权利要求1所述的一种基于由粗到细深度尺度学习的行人重识别方法,其特征在于,所述步骤2中,对不同图像对进行预处理,其具体步骤包括:
步骤2.1:对行人图像对进行ZCA白化处理;在本发明中,我们采用白化和降维相结合处理,使得输入数据的协方差矩阵变为单位矩阵I,具体来讲,如果R是任意正交阵,也就是满足RRT=RTR=I,其中R是可以旋转或反射矩阵,则定义后的ZCA白化结果为:ZCA白化后的结果尽可能地接近原始输入数据x;
步骤2.2:得到ZCA白化后的数据结果,对数据进行归一化[0,1],并减去其均值,使其更符合栈式自编码输入的数据结果。
4.根据权利要求1所述的一种基于由粗到细深度尺度学习的行人重识别方法,其特征在于,所述步骤3中,针对预处理完的数据,输入其到不同层次的栈式自编码其中并进行分类,其具体步骤包括:
步骤3.1:我们输入数据到不同层次的栈式自编码器,对输入的数据x,我们尝试学习一个函数hW,b(x)≈x,即获得一个识别函数的近似值,为的是输出和输入x相似;通过学习最优参数θ={W,b},使得自编码器输出值尽可能接近输入值;
步骤3.2:通过设置单个样本的代价函数其中W,b分别代表网络结构的参数,x表示预处理后的数据,y代表输入数据的标记,求出自编码输出值与输入值的误差达到最小,对上述代价函数进行求导计算,具体采用反向传播的思想,具体步骤如下:
步骤3.2.1:进行前一次前馈传递,利用前向传导公式,得到L2,L3,…直到输出层Lnl的激活值;
步骤3.2.2:对输出层,也就是第nl层,计算残差:δ(nl)=-(y-a(nl))·f′(Z(nl));
步骤3.2.3:对于l=nl-1,nl-2,nl-3,…,2的各层,计算:δ(l)=((W(l))Tδ(l+1))·f′(Z(l));
步骤3.2.4:计算最终需要的偏导数值:
<mrow>
<msub>
<mo>&dtri;</mo>
<msup>
<mi>W</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</msup>
</msub>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
<mo>;</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
<msup>
<mrow>
<mo>(</mo>
<msup>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mi>T</mi>
</msup>
<mo>,</mo>
</mrow>
<mrow>
<msub>
<mo>&dtri;</mo>
<msup>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</msup>
</msub>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
<mo>;</mo>
<mi>x</mi>
<mo>,</mo>
<mi>y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msup>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>+</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mrow>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>&lsqb;</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<msubsup>
<mo>&Sigma;</mo>
<mn>1</mn>
<mi>m</mi>
</msubsup>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>W</mi>
<mo>,</mo>
<mi>b</mi>
<mo>;</mo>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>,</mo>
<msup>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
步骤3.3:每个栈式自编码自带的softmax分类器微调并实现深度网络结构的优化,softmax分类器的代价函数是:
<mrow>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>&theta;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<mo>&lsqb;</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</munderover>
<mn>1</mn>
<mo>{</mo>
<msup>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>=</mo>
<mi>j</mi>
<mo>}</mo>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mfrac>
<msup>
<mi>e</mi>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mi>j</mi>
<mi>T</mi>
</msubsup>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
</mrow>
</msup>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>l</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<msup>
<mi>e</mi>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mi>l</mi>
<mi>T</mi>
</msubsup>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>&rsqb;</mo>
</mrow>
对于J(θ)的最小化问题,我们采用梯度下降法完成求导过程,其梯度公式如下:
<mrow>
<msub>
<mo>&dtri;</mo>
<msub>
<mi>&theta;</mi>
<mi>j</mi>
</msub>
</msub>
<mi>J</mi>
<mrow>
<mo>(</mo>
<mi>&theta;</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mi>m</mi>
</mfrac>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<mo>&lsqb;</mo>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>{</mo>
<msup>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>=</mo>
<mi>j</mi>
<mo>}</mo>
<mo>-</mo>
<mi>p</mi>
<mo>(</mo>
<mrow>
<msup>
<mi>y</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>=</mo>
<mi>j</mi>
<mo>|</mo>
<msup>
<mi>x</mi>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>)</mo>
</mrow>
</msup>
<mo>;</mo>
<mi>&theta;</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
有了上面的偏导数公式以后,我们就可以将它代入到梯度下降法等算法中,来最小化J(θ),从而求出每种类别的概率,实现最终分类过程。
5.根据权利要求1所述的一种基于由粗到细深度尺度学习的行人重识别方法,其特征在于,所述步骤4中,对不同栈式自编码所获取行人图像对多个概率值进行权重分配的具体步骤包括:
步骤4.1:输入N代表一组训练样本和所有训练样本的分配:其中代表两个行人图片的结合,yi∈{1,-1}说明图片中的两个人是否是同一个人;
步骤4.2:对当前的分配Dt找到最好的局部特征λt,该步骤为反复迭代产生训练集h(xi)是假设函数,x→{-1,1}.更新的错误γt:
<mrow>
<msub>
<mi>&gamma;</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>&NotEqual;</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mi>k</mi>
<mi>N</mi>
</munderover>
<msub>
<mi>&lambda;</mi>
<mrow>
<mi>t</mi>
<mi>i</mi>
</mrow>
</msub>
<mi>I</mi>
<mrow>
<mo>(</mo>
<mi>h</mi>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>&NotEqual;</mo>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中h(xi)的系数可以通过下式获得:权重更新的可能性分配可由以下两个式子:Dt+1=(λt+1,1,λt+1,2,...λt+1,N),其中t代表迭代次数,Zt是一个正常因素,可以通过下式获得:
<mrow>
<msub>
<mi>Z</mi>
<mi>m</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mn>1</mn>
<mi>N</mi>
</munderover>
<msub>
<mi>&lambda;</mi>
<mrow>
<mi>t</mi>
<mi>i</mi>
</mrow>
</msub>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msub>
<mi>&alpha;</mi>
<mi>t</mi>
</msub>
<msub>
<mi>y</mi>
<mi>i</mi>
</msub>
<mi>h</mi>
<mo>(</mo>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
</mrow>
每个可能性的矩阵的权重可以通过下式指定:其中N代表栈式自编码的数量;
步骤4.3:根据公式:计算边界误差γt,如果γt<0跳出循环
步骤4.4:设置同时设置zt是一个正常化的系数,并把αt和λt加入到节点,最后计算得到输出权重系数λ;
步骤4.5:根据所计算的每个栈式自编码分类结果的权重系数λ,根据行人对匹配的概率大小得到从而计算行人重识别的识别效率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710375064.3A CN107103308A (zh) | 2017-05-24 | 2017-05-24 | 一种基于由粗到细深度尺度学习的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710375064.3A CN107103308A (zh) | 2017-05-24 | 2017-05-24 | 一种基于由粗到细深度尺度学习的行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107103308A true CN107103308A (zh) | 2017-08-29 |
Family
ID=59669975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710375064.3A Pending CN107103308A (zh) | 2017-05-24 | 2017-05-24 | 一种基于由粗到细深度尺度学习的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107103308A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033971A (zh) * | 2018-06-27 | 2018-12-18 | 中国石油大学(华东) | 一种基于残差网络思想的高效行人重识别方法 |
CN109492601A (zh) * | 2018-11-21 | 2019-03-19 | 泰康保险集团股份有限公司 | 人脸比对方法及装置、计算机可读介质和电子设备 |
CN109508663A (zh) * | 2018-10-31 | 2019-03-22 | 上海交通大学 | 一种基于多层次监督网络的行人重识别方法 |
CN109919177A (zh) * | 2019-01-23 | 2019-06-21 | 西北工业大学 | 基于层次化深度网络的特征选择方法 |
CN111126247A (zh) * | 2019-12-20 | 2020-05-08 | 中南大学 | 一种基于二分查找的行人检测器训练方法及系统 |
CN111382758A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 训练图像分类模型、图像分类方法、装置、设备及介质 |
CN112560667A (zh) * | 2020-12-14 | 2021-03-26 | 惠州学院 | 行人重识别标记代价优化方法 |
CN112818837A (zh) * | 2021-01-29 | 2021-05-18 | 山东大学 | 一种基于姿态校正和困难样本感知的航拍车辆重识别方法 |
CN113673563A (zh) * | 2021-07-15 | 2021-11-19 | 浙江大华技术股份有限公司 | 图像分类方法、装置、电子设备、计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013191975A1 (en) * | 2012-06-21 | 2013-12-27 | Siemens Corporation | Machine-learnt person re-identification |
US20160034782A1 (en) * | 2014-07-29 | 2016-02-04 | Canon Kabushiki Kaisha | Apparatus and method of collating categories of images |
CN105913025A (zh) * | 2016-04-12 | 2016-08-31 | 湖北工业大学 | 一种基于多特征融合的深度学习人脸识别方法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106503654A (zh) * | 2016-10-24 | 2017-03-15 | 中国地质大学(武汉) | 一种基于深度稀疏自编码网络的人脸情感识别方法 |
-
2017
- 2017-05-24 CN CN201710375064.3A patent/CN107103308A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013191975A1 (en) * | 2012-06-21 | 2013-12-27 | Siemens Corporation | Machine-learnt person re-identification |
US20160034782A1 (en) * | 2014-07-29 | 2016-02-04 | Canon Kabushiki Kaisha | Apparatus and method of collating categories of images |
CN105913025A (zh) * | 2016-04-12 | 2016-08-31 | 湖北工业大学 | 一种基于多特征融合的深度学习人脸识别方法 |
CN106250812A (zh) * | 2016-07-15 | 2016-12-21 | 汤平 | 一种基于快速r‑cnn深度神经网络的车型识别方法 |
CN106503654A (zh) * | 2016-10-24 | 2017-03-15 | 中国地质大学(武汉) | 一种基于深度稀疏自编码网络的人脸情感识别方法 |
Non-Patent Citations (5)
Title |
---|
ALEXANDRE FRANCO 等: "A coarse-to-fine deep learning for person re-identification", 《2016 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 * |
MINGFU XIONG 等: "Deep Feature Representation via Multiple Stack Auto-Encoders", 《PACIFIC RIM CONFERENCE ON MULTIMEDIA》 * |
MINGFU XIONG 等: "Person re-identification via multiple coarse-to-fine deep metrics", 《ECAI"16 PROCEEDINGS OF THE TWENTY-SECOND EUROPEAN CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
SHANGXUAN WU 等: "An enhanced deep feature representation for person re-identification", 《2016 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 * |
XIAO-YUAN JING 等: "Super-Resolution Person Re-Identification With Semi-Coupled Low-Rank Discriminant Dictionary Learning", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033971A (zh) * | 2018-06-27 | 2018-12-18 | 中国石油大学(华东) | 一种基于残差网络思想的高效行人重识别方法 |
CN109508663B (zh) * | 2018-10-31 | 2021-07-13 | 上海交通大学 | 一种基于多层次监督网络的行人重识别方法 |
CN109508663A (zh) * | 2018-10-31 | 2019-03-22 | 上海交通大学 | 一种基于多层次监督网络的行人重识别方法 |
CN109492601A (zh) * | 2018-11-21 | 2019-03-19 | 泰康保险集团股份有限公司 | 人脸比对方法及装置、计算机可读介质和电子设备 |
CN111382758B (zh) * | 2018-12-28 | 2023-12-26 | 杭州海康威视数字技术股份有限公司 | 训练图像分类模型、图像分类方法、装置、设备及介质 |
CN111382758A (zh) * | 2018-12-28 | 2020-07-07 | 杭州海康威视数字技术股份有限公司 | 训练图像分类模型、图像分类方法、装置、设备及介质 |
CN109919177A (zh) * | 2019-01-23 | 2019-06-21 | 西北工业大学 | 基于层次化深度网络的特征选择方法 |
CN109919177B (zh) * | 2019-01-23 | 2022-03-29 | 西北工业大学 | 基于层次化深度网络的特征选择方法 |
CN111126247B (zh) * | 2019-12-20 | 2021-11-05 | 中南大学 | 一种基于二分查找的行人检测器训练方法及系统 |
CN111126247A (zh) * | 2019-12-20 | 2020-05-08 | 中南大学 | 一种基于二分查找的行人检测器训练方法及系统 |
CN112560667A (zh) * | 2020-12-14 | 2021-03-26 | 惠州学院 | 行人重识别标记代价优化方法 |
CN112560667B (zh) * | 2020-12-14 | 2023-12-12 | 惠州学院 | 行人重识别标记代价优化方法 |
CN112818837A (zh) * | 2021-01-29 | 2021-05-18 | 山东大学 | 一种基于姿态校正和困难样本感知的航拍车辆重识别方法 |
CN112818837B (zh) * | 2021-01-29 | 2022-11-11 | 山东大学 | 一种基于姿态校正和困难样本感知的航拍车辆重识别方法 |
CN113673563A (zh) * | 2021-07-15 | 2021-11-19 | 浙江大华技术股份有限公司 | 图像分类方法、装置、电子设备、计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107103308A (zh) | 一种基于由粗到细深度尺度学习的行人重识别方法 | |
CN111368896B (zh) | 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法 | |
Mascarenhas et al. | A comparison between VGG16, VGG19 and ResNet50 architecture frameworks for Image Classification | |
CN110084156B (zh) | 一种步态特征提取方法及基于步态特征的行人身份识别方法 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN105184312B (zh) | 一种基于深度学习的文字检测方法及装置 | |
CN110135319A (zh) | 一种异常行为检测方法及其系统 | |
CN104182772B (zh) | 一种基于深度学习的手势识别方法 | |
CN108520275A (zh) | 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法 | |
CN107527068A (zh) | 基于cnn和域自适应学习的车型识别方法 | |
CN109741328A (zh) | 一种基于生成式对抗网络的汽车表观质量检测方法 | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN110532920A (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN109241834A (zh) | 一种基于隐变量的嵌入的群体行为识别方法 | |
CN104700078B (zh) | 一种基于尺度不变特征极限学习机的机器人场景识别方法 | |
CN109359608A (zh) | 一种基于深度学习模型的人脸识别方法 | |
KR20190123372A (ko) | 계층적 협업 표현 기반 분류를 통한 강인한 얼굴인식 장치 및 그 방법 | |
CN104298974A (zh) | 一种基于深度视频序列的人体行为识别方法 | |
CN113379771B (zh) | 带有边缘约束的层次化人体解析语义分割方法 | |
CN111062340A (zh) | 一种基于虚拟姿态样本合成的异常步态行为识别方法 | |
CN107818299A (zh) | 基于融合hog特征和深度信念网络的人脸识别算法 | |
CN113205002B (zh) | 非受限视频监控的低清人脸识别方法、装置、设备及介质 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN114596622A (zh) | 基于对比知识驱动的虹膜与眼周对抗自适应融合识别方法 | |
Liu et al. | Modern architecture style transfer for ruin or old buildings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170829 |
|
RJ01 | Rejection of invention patent application after publication |