CN108345860A - 基于深度学习和距离度量学习的人员再识别方法 - Google Patents
基于深度学习和距离度量学习的人员再识别方法 Download PDFInfo
- Publication number
- CN108345860A CN108345860A CN201810157658.1A CN201810157658A CN108345860A CN 108345860 A CN108345860 A CN 108345860A CN 201810157658 A CN201810157658 A CN 201810157658A CN 108345860 A CN108345860 A CN 108345860A
- Authority
- CN
- China
- Prior art keywords
- learning
- layer
- image
- feature
- rbm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000013135 deep learning Methods 0.000 title claims abstract description 43
- 230000000007 visual effect Effects 0.000 claims abstract description 81
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 20
- 230000014509 gene expression Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 32
- 238000005259 measurement Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 25
- 238000005457 optimization Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 14
- 239000013604 expression vector Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 230000000644 propagated effect Effects 0.000 claims description 9
- 230000001965 increasing effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000005315 distribution function Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000009966 trimming Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- KFLWBZPSJQPRDD-ONEGZZNKSA-N 5-[(e)-2-nitroethenyl]-1,3-benzodioxole Chemical compound [O-][N+](=O)\C=C\C1=CC=C2OCOC2=C1 KFLWBZPSJQPRDD-ONEGZZNKSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- DQJCHOQLCLEDLL-UHFFFAOYSA-N tricyclazole Chemical compound CC1=CC=CC2=C1N1C=NN=C1S2 DQJCHOQLCLEDLL-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及识别方法领域,尤其是基于深度学习和距离度量学习的人员再识别方法。该识别方法包括:(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理,检测出视频中的行人目标;(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典;(3)利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新的图像表达方式,也即是图像深度学习表示向量;(4)采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。本发明能够更加准确的表达图像本质属性,从而很好地提升行人再识别准确度。
Description
技术领域
本发明涉及识别方法领域,尤其是基于深度学习和距离度量学习的人员再 识别方法。
背景技术
近年来,随着视频监控系统大量建设与应用,使其在打击犯罪、维护稳定 实践中发挥着越来越重要的作用。当前大多数监控系统采用实时拍摄和人工监 视的形式,这要求监控人员时刻注意监控画面,仔细分辨视频中的事件,而这 显然是不现实的,何况人工查看的方式存在大量的疏漏和主观误差。考虑到日 益增长的监控视频规模,这种方式所需的人力成本也将难以承受,而且效率低 下。因此,急需方便快捷的方法来替代现有的人工主导的监控体系。强烈的现 实需求和计算机相关技术的进步,催生了行人再识别技术(Person Re-identification),该技术也成为了当前视频智能监控领域中一个极具有挑战性的问题,其主要任务是完成跨摄像头的行人搜索与识别。行人再识别技术 主要是通过视觉比对的方式将视场不重叠的多个摄像机所拍摄到的属于同一个 行人的图像或者视频片段关联起来的技术。
特征提取是人员再识别技术的核心步骤,特征的好坏直接影响着识别结果 的准确与否,因此,需要我们研究如何提取能够准确表达人体结构性信息的特 征。深度学习的兴起和发展为图像特征表达提供了新的技术手段,但存在着解 释性差、模型复杂度高、计算强度高等问题。而视觉词袋模型则能够有效地进 行中层语义建模,将图像底层特征映射至视觉单词上,建立了跨越“语义鸿沟” 的桥梁,那么如何将深度学习网络强大的自学习能力用于生成兼具稀疏性和选 择性的视觉词典,同时对深度学习网络进行优化是本发明解决的一个关键问题。
在完成行人图像特征提取之后,需要使用训练好的分类器或者距离度量完 成跨摄像机的图片相似度匹配,对查询图像进行身份判定。然而,现有的相似 性度量模型的泛化能力不强,另一个问题就是研究一种区分性更好的度量空间, 使特征空间和语义空间相一致,进一步提升行人再识别的性能。
发明内容
本发明要解决的技术问题是:为了解决现有的现有的相似性度量模型的泛 化能力不强,且行人再识别性能差的不足,本发明提供了一种基于深度学习和 距离度量学习的人员再识别方法,通过深度学习和距离度量学习,较好地提高 了视觉词典的稀疏性和选择性,提取的特征能够更加准确的表达图像本质属性, 从而很好地提升行人再识别准确度。
本发明解决其技术问题所采用的技术方案是:
一种基于深度学习和距离度量学习的人员再识别方法,包括以下步骤:
(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理,检测 出视频中的行人目标;
(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行 编码得到兼具稀疏性和选择行的视觉词典;
(3)利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新 的图像表达方式,也即是图像深度学习表示向量;
(4)采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真 实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。
具体地,所述采用基于卷积神经网络的行人目标检测方法,分为模型训练 阶段和目标检测阶段:
(1)在模型训练阶段中,首先通过选择不同角度及外表颜色的样本措施增 大样本的多样性,然后将这些样本重新调整至统一的分辨率,再增强样本的对 比度,最后通过尝试不同的CNN模型参数训练模型,获得检测性能较好的参数 组合;
(2)在运动目标检测阶段,首先直接对整幅图像做卷积计算来提取图像特 征,然后采用并行计算方法将图像分割为同样大小的小块图像,然后使用训练 好的CNN模型同时对这些小块图像进行计算,使用背景建模算法提取每一帧图 像中可能存在运动目标的区域,使用非最大值抑制算法将不同尺度下的检测结 果进行优化,获得目标的准确位置。
具体地,在网络的训练过程中,所述RBM的隐层与显层间之间是通过条件概 率分布相关联的,显层层和隐层的条件概率为:
公式一:
公式二:
xi,zj分别代表特征层和编码层,也即是RBM中的显层与隐层;ωij为特征层xi与编码层之间的连接权重系数,给定权重系数矩阵ω和隐层偏置向 量b,输入层特征x就可以编码为视觉词典z,相应的给出ω和显层偏置矩阵c就 可以由视觉词典z重构出特征x;对于RBM中一组给定的输入层和编码层(x,z),其 能量函数可计算如下:
公式三:
基于能量函数,可得到(x,z)的联合概率分布函数:
公式四:
进而得到联合分布的边缘分布——特征输入节点的概率分布,即:
公式五:
而RBM网络训练的目的就是使p(x)的值最大化,为此,对公式五求其梯度得,
公式六:
其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指训练数据集经验概率分布 下的期望值,而<xizj>model指该模型下概率分布的期望值,可由蒙特卡罗马尔可夫 链(Monte-Carlo Markov chain,MCMC)方法来得到模型样例:
公式七:
通过CD算法对RBM进行快速学习,加快参数的收敛,可得到权值wij的更新量 为:
公式八:Δωij=ε(<xizj>data-<xizj>model)
其中ε为学习速率,通过CD算法,就可以得到不断更新的参数,一直到参 数收敛,得到初始的视觉词典。
具体地,所述RBM目标优化函数中加入一个正则项h(z),将目标函数调整如下:
公式九:
其中λ为正则项的加权系数;
利用视觉词典对每一维特征响应的均值就可以定量分析稀疏性与选择性, 即:
公式十:
是每个单词针对K个特征平均激活概率的期望值,单词zj对特征xk响应概率的期望值可标记为pjk∈(0,1),整个词典对K个输入特征的响应期望值可记为矩阵 矩阵中的每一行元素pj·代表了单词zj,1≤j≤J对K个输入特征向量响应 的期望值,列向量p·k则代表了输入特征xk在整个视觉词典上的分布,因此为了 对整个RBM网络进行有监督地微调,定义交叉熵损失函数h(z)如下:
公式十一:
学习得到视觉词典的稀疏性和选择性与目标矩阵P密切相关,对视觉词典而言,矩阵P中元素为:
公式十二:
参数μ∈(0,1),根据训练数据的标签类别,误差自顶向下传播,对网络各层参数进行微调如下:
公式十三:
公式十四:
φ(l)是一个超参数函数,γ,η,ε代表学习速率,且有γ=ε-η,那么对于第一层 网络而言z(0)即为图像SIFT特征输入向量x,且也即是深度学习表 示向量,最顶层网络的参数就可更新如下:
公式十五:
yc是指顶层输出向量被判别为图像类别C,在上述微调的过程中,采用最大 交叉信息熵损失代表基于特征的分类误差,将该误差反向传播至每层网络中, 并得到最终的深度学习表示向量。
具体地,所述利用特征分组与特征值最优化方法对度量空间进行学习,具 体为:
(1)采用Ncut特征分组算法,根据特征各维数之间的相关性对图像语义 表示向量进行分组;
(2)在相似样本约束对的距离小于一定阈值的条件下,将传统的求解SDP 问题转化为特征值最优化问题;
(3)求解特征值最优化问题,也即是计算每次循环迭代中对称矩阵最大特 征值所对应的特征向量;
(4)将各分组特征学习得到的度量矩阵进行融合得到全局度量矩阵,形成 新的距离度量空间,并用以训练SVM分类器,实现人员再分类识别。
本发明的有益效果是:本发明提供了一种基于深度学习和距离度量学习的 人员再识别方法,通过深度学习和距离度量学习,较好地提高了视觉词典的稀 疏性和选择性,提取的特征能够更加准确的表达图像本质属性,从而很好地提 升行人再识别准确度。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1是本发明基于卷积神经网络的行人检测流程图;
图2是本发明基于深度学习编码模型的行人再识别流程图;
图3是本发明无监督RBM特征编码示意图;
图4是本发明视觉词典稀疏性和选择性示意图;
图5是本发明不同视觉词典对行人再识别准确率的影响;
图6是本发明有监督微调对行人再识别准确率的影响;
具体实施方式
图1是本发明基于卷积神经网络的行人检测流程图,图2是本发明基于深度 学习编码模型的行人再识别流程图,图3是本发明无监督RBM特征编码示意 图,图4是本发明视觉词典稀疏性和选择性示意图,图5是本发明不同视觉 词典对行人再识别准确率的影响,图6是本发明有监督微调对行人再识别准 确率的影响。
首先,采用基于卷积神经网络的行人目标检测方对海量视频数据进行处理, 检测出视频中的行人目标。
其次,利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进 行编码得到兼具稀疏性和选择行的视觉词典;
然后,利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像 新的图像表达方式,也即是图像深度学习表示向量;
最后,采用特征分组与特征值最优化的距离度量学习方法,获取更加接近 真实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。
所述的基于深度学习和距离度量学习的行人再识别方法,首先,利用卷积 神经网络检测出视频中的行人目标;其次,结合SIFT特征的空间信息,将邻近 的SIFT特征作为RBM的输入,通过CD快速算法训练RBM,得到隐藏层特征,而邻 近的隐藏层特征作为下一层RBM的输入,得到输出词典。其中,ω1和ω2是RBM的 连接权重,RBM具有一个显见层,一个隐层,但是在RBM中,同层的神经元之间 是无连接的,这样学习使得过程更简单。
在网络的训练过程中,RBM的隐层与显层间之间是通过条件概率分布相关联 的,显层和隐层的条件概率为:
其中,xi,zj分别代表特征层和编码层,也即是RBM中的显层 与隐层。ωij为特征层xi与编码层之间的连接权重系数,给定权重系数矩阵ω和隐 层偏置向量b,输入层特征x就可以编码为视觉词典z,相应的给出ω和显层偏 置矩阵c就可以由视觉词典z重构出特征x。对于RBM中一组给定的输入层和编码 层(x,z),其能量函数可计算如下:
基于能量函数,可得到(x,z)的联合概率分布函数:
进而得到联合分布的边缘分布——特征输入节点的概率分布,即:
而RBM网络训练的目的就是使p(x)的值最大化,为此,对式(5)求其梯度得,
其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指训练数据集经验概率分布 下的期望值,而<xizj>model指该模型下概率分布的期望值,通常可由蒙特卡罗马尔 可夫链(Monte-Carlo Markov chain,MCMC)方法来得到模型样例:
通过CD算法对RBM进行快速学习,加快参数的收敛,可得到权值wij的更新量 为
Δωij=ε(<xizj>data-<xizj>model) (8)
其中ε为学习速率,通过CD算法,就可以得到不断更新的参数,一直到参数收敛,得到初始的视觉词典。
所述的基于深度学习编码模型的行人再识别方法,为了更加准确地表达图 像内容,在RBM目标优化函数中加入一个正则项h(z),将目标函数 调整如下:
其中,λ为正则项的加权系数。深度学习编码能够使得学习得到的视觉词典具较强的选择性,并使得图像表达向量具有较好的稀疏性。
稀疏性的核心思想是使用少量的基向量来有效而简洁地表示图像内容。具 体的就是稀疏向量中大部分分量为零,只有少数分量为非零,而少数非零系数 则揭示了图像数据的内在结构和本质属性。它是对编码向量对输入特征响应的 一种度量准则。选择性就是度量一个单一视觉单词对输入特征向量的响应。视 觉词典兼具稀疏性和选择性,可以认为词典中的单词具有多样性,且单词之间 不具有相关性。若觉词典只具有选择性,如此会导致某些输入特征向量被忽视 或者过表达的现象。若视觉词典只具有稀疏性,它会导致视觉词典中的单词相 关性较强,加大冗余。
利用视觉词典对每一维特征响应的均值就可以定量分析稀疏性与选择性, 即:
其中,是每个单词针对K个特征平均激活概率的期望值,单词zj对特征xk响应 概率的期望值可标记为pjk∈(0,1),那么,整个词典对K个输入特征的响应期望值 可记为矩阵矩阵中的每一行元素pj·代表了单词zj,1≤j≤J对K个输入特 征向量响应的期望值,列向量p·k则代表了输入特征xk在整个视觉词典上的分布。 因此,为了对整个RBM网络进行有监督地微调,定义交叉熵损失函数h(z)如下:
学习得到视觉词典的稀疏性和选择性与目标矩阵P密切相关,对视觉词典而言,矩阵P中元素为:
其中,参数μ∈(0,1),这样就可以获得兼具稀疏性和选择性的视觉词典,进而既能保证各视觉单词的多样性又能兼顾图像局部特征表达之间的差异性,更加准 确地表达图像内容。
所述的基于深度学习编码模型的行人再识别方法,在利用深度学习对SIFT 特征编码时,首先采用自底向上的非监督RBM分层训练各层参数每层网络生成 视觉词典,训练时逐层学习每一层参数,降低时间复杂度。此外,由于非监督 RBM学习模型的限制以及稀疏性约束使得模型能够学习到训练数据本身的结构, 从而得到比输入更有表示能力的特征;然后根据训练数据的标签类别,误差自 顶向下传播,对网络各层参数进行微调如下:
其中,φ(l)是一个超参数函数,γ,η,ε代表学习速率,且有γ=ε-η。那么对于 第一层网络而言z(0)即为图像SIFT特征输入向量x,且也即是深度 学习表示向量。那么最顶层网络的参数就可更新如下:
其中,yc是指顶层输出向量被判别为图像类别C,在上述微调的过程中,采用最 大交叉信息熵损失代表基于特征的分类误差,然后该误差反向传播至每层网络 中。
综上,整个基于深度学习和距离度量学习的行人再识别方法可以分为三个 阶段,第一阶段就是利用卷积神经网络检测出行人目标;第二阶段就是利用非 监督RBM网络采用自底向上的方式对初始SIFT特征进行编码得到视觉词典并对 整个网络参数进行有监督微调;第三阶段就是利用利用特征分组与特征值最优 化的距离度量学习方法,获取新的度量空间,以此训练线性SVM分类器用对行 人进行分类识别。
实施例一:本实施例基于深度学习和距离度量学习的行人再识别方法
首先,针对视频目标遮挡严重等问题,采用基于卷积神经网络的行人目标 检测方对海量视频数据进行处理,检测出视频中的行人目标。其次,利用非监 督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏 性和选择行的视觉词典;然后,利用误差反向传播对初始视觉词典进行有监督 微调,获取视频图像新的图像表达方式,也即是图像深度学习表示向量;最后, 采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真实语义的 度量空间,并采用线性SVM分类器对行人目标进行识别。
深度学习编码能够很好地提升视觉词典的稀疏性和选择性,进而提高特征 的表达能力;基于特征分组与特征值最优化的距离度量学习方法能够获取更加 精准的特征度量空间,进一步提高行人再识别的准确度。
实施例二:由于监控视频质量较差、而且环境不可控、拍摄视角变化范围 广以及行人之间部分遮挡,传统的目标检测方法难以在这种开放环境下取得好 的效果,本实施例采用基于卷积神经网络的行人目标检测方法,主要分为模型 训练阶段和目标检测阶段,具体流程和结果如图1所示,具体过程可描述为:
(1)在模型训练阶段中,工作重点是样本的选择和预处理,以及对CNN网 络参数进行实验,选出最优的参数组合。首先,通过选择不同角度及外表颜色 的样本等措施增大样本的多样性,然后将这些样本重新调整至统一的分辨率, 再增强样本的对比度。最后,通过尝试不同的CNN模型参数训练模型,获得检 测性能较好的参数组合。
(2)在运动目标检测阶段,为了避免重复计算,提高检测速度,本项目拟 采用一种能有效减少冗余计算的方法,首先,直接对整幅图像做卷积计算,来 提取图像特征,从而避免了滑动窗口引起的大量的重复计算。为了进一步提高 检测速度,然后采用并行计算方法将图像分割为同样大小的小块图像,然后使 用训练好的CNN模型同时对这些小块图像进行计算,这样就大大加快了检测的 速度。此外,使用背景建模算法提取每一帧图像中可能存在运动目标的区域, 因而,可以直接在这些候选区域中而不是在整幅图像上进行目标检测,减少了 搜索范围,同时也避免了大量不必要的计算。最后,使用非最大值抑制算法将不同尺度下的检测结果进行优化,获得目标的准确位置。
实施例三:参见图2、图3,图4,本实施例的基于深度学习编码模型的行 人再识别方法,采用下述步骤,生成兼具稀疏性和选择性的视觉词典:
图4中,(a)表示的视觉词典兼具稀疏性和选择性,(b)表示的视觉词 典只具有选择性,(c)表示的视觉词典只具有稀疏性。
首先,提取训练图像库的SIFT特征;提取SIFT特征;其次,结合SIFT特征 的空间信息,将邻近的SIFT特征作为RBM的输入,通过CD快速算法训练RBM,得 到隐藏层特征;然后邻近的隐藏层特征作为下一层RBM的输入,得到输出词典。 其中,ω1和ω2是RBM的连接权重,RBM具有一个显见层,一个隐层,但是在RBM 中,同层的神经元之间是无连接的,这样学习使得过程更简单。
在网络的训练过程中,RBM的隐层与显层间之间是通过条件概率分布相关联 的,显层层和隐层的条件概率为:
其中,xi,zj分别代表特征层和编码层,也即是RBM中的显层 与隐层。ωij为特征层xi与编码层之间的连接权重系数,给定权重系数矩阵ω和隐 层偏置向量b,输入层特征x就可以编码为视觉词典z,相应的给出ω和显层偏 置矩阵c就可以由视觉词典z重构出特征x。对于RBM中一组给定的输入层和编码 层(x,z),其能量函数可计算如下:
基于能量函数,可得到(x,z)的联合概率分布函数:
进而得到联合分布的边缘分布——特征输入节点的概率分布,即:
而RBM网络训练的目的就是使p(x)的值最大化,为此,对式(5)求其梯度得,
其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指训练数据集经验概率分布 下的期望值,而<xizj>model指该模型下概率分布的期望值,通常可由蒙特卡罗马尔 可夫链(Monte-Carlo Markov chain,MCMC)方法来得到模型样例:
通过CD算法对RBM进行快速学习,加快参数的收敛,可得到权值wij的更新量 为
Δωij=ε(<xizj>data-<xizj>model) (8)
其中ε为学习速率,通过CD算法,就可以得到不断更新的参数,一直到参数收敛,得到初始的视觉词典。
为了更加准确地表达图像内容,在RBM目标优化函数中加入一个正则项h(z), 将目标函数调整如下:
其中,λ为正则项的加权系数。深度学习编码能够使得学习得到的视觉词典具较强的选择性,并使得图像表达向量具有较好的稀疏性。
利用视觉词典对每一维特征响应的均值就可以定量分析稀疏性与选择性, 即:
其中,是每个单词针对K个特征平均激活概率的期望值,单词zj对特征xk响应 概率的期望值可标记为pjk∈(0,1),那么,整个词典对K个输入特征的响应期望值 可记为矩阵矩阵中的每一行元素pj·代表了单词zj,1≤j≤J对K个输入特 征向量响应的期望值,列向量p·k则代表了输入特征xk在整个视觉词典上的分布。 因此,为了对整个RBM网络进行有监督地微调,定义交叉熵损失函数h(z)如下:
学习得到视觉词典的稀疏性和选择性与目标矩阵P密切相关,对视觉词典而言,矩阵P中元素为:
其中,参数μ∈(0,1),这样就可以获得兼具稀疏性和选择性的视觉词典,进而既能保证各视觉单词的多样性又能兼顾图像局部特征表达之间的差异性,更加准 确地表达图像内容。
由于深度学习编码需要对多层网络进行训练学习,而无监督RBM网络在训 练时存在一个问题就是,若对所有层同时训练,时间复杂度会太高;如果每次 训练一层,偏差就会逐层传递,从而导致严重的欠拟合问题。为此,在利用深 度学习对SIFT特征编码时,首先采用自底向上的非监督RBM分层训练各层参数 每层网络生成视觉词典,训练时逐层学习每一层参数,降低时间复杂度。此外, 由于非监督RBM学习模型的限制以及稀疏性约束使得模型能够学习到训练数据 本身的结构,从而得到比输入更有表示能力的特征;然后根据训练数据的标签 类别,误差自顶向下传播,对网络各层参数进行微调如下:
其中,φ(l)是一个超参数函数,γ,η,ε代表学习速率,且有γ=ε-η。那么对于 第一层网络而言z(0)即为图像SIFT特征输入向量x,且也即是深度 学习表示向量。那么最顶层网络的参数就可更新如下:
其中,yc是指顶层输出向量被判别为图像类别C,在上述微调的过程中,采用最 大交叉信息熵损失代表基于特征的分类误差,然后该误差反向传播至每层网络 中,然后得到最终的图像深度学习表示向量。
实施例四:参见图5。在行人再识别问题中,导致识别率不高的原因不仅仅是不 同摄像头之间相同行人外观存在的巨大差异,还因为不同人之间的外观特征经 常差异较小。不同的人时常由于穿着相似或者摄像机颜色畸变导致外观特征相 似度较高。在这种情况下,为了获得更好的匹配性能,需要提取并保留一些外 观的细节特征,并且要在能够反映特征本质属性的空间对其进行度量。
距离度量学习就是一种通过训练数据,获得一种能够反应样本空间结构信 息或语义约束信息的线性或非线性的变换,得到一种区分性更好的度量空间的 方法。但是,当前主流的距离度量学习方法都需要求解半正定规划 (Semi-definite Programming,SDP)问题,而其中每次循环迭代中的矩阵完 全特征分解运算使得计算复杂度很高,实用性不强,为此,本实施例根据特征 各维数之间的相关性对其进行分组,降低计算复杂度,并在相似样本约束对的 距离小于一定阈值的条件下,将传统的求解SDP问题转化为特征值最优化问题 (Eigenvalue Optimization),进而减少度量矩阵的学习时间,增强距离度量 学习算法在大数据下的实用性。
基于特征分组与特征值最优化的距离度量学习方法的具体流程如图5所示, 可描述如下:
Step1:采用Ncut特征分组算法,根据特征各维数之间的相关性对图像语 义表示向量进行分组;
Step2:在相似样本约束对的距离小于一定阈值的条件下,将传统的求解SDP 问题转化为特征值最优化问题;
Step3:求解特征值最优化问题,也即是计算每次循环迭代中对称矩阵最大 特征值所对应的特征向量;
Step4:将各分组特征学习得到的度量矩阵进行融合得到全局度量矩阵,形 成新的距离度量空间。
实验结果与分析
这里分别在常用的:INRIA图像集、TUD图像集对本实例性能进行评估。INRIA 数据库是目前使用多的静态行人检测数据库且图片中人体大部分为站立姿势, 它的训练集有正样本614张,负样本1218张;测试集有正样本288张,负样 本453张。TUD行人数据库采集于车载摄像机,它的训练集正样本为1092对图 像(包含1776个行人),负样本为192对非行人图像。在有监督微调阶段从每个 图像类别中随机选取100幅图像用以有监督地微调整个RBM网络,并用同样的 数据训练线性SVM分类器,每个类别中的剩余图像用作测试图像集。人员识别 性能评价指标为平均准确率(Average Precision,AP)以及时间开销。相关定 义如下:
参数的影响
首先,在INRIA图像集上进行分类识别实验,分析不同视觉词典规模对的 影响,结果如图6所示。从图6中不难看出,在一定范围内,随着视觉词典规 模的增加行人再识别的准确率有着明显的提升,然而,当视觉词典规模达到一
其次,为了验证有监督微调对识别的效果,在同样的数据和词典规模下分 别采用有监督的微调和不进行微调进行10次识别实验,得识别结果如图6所示。 从图6可以看出,利用RBM对SIFT特征进行编码时,在有监督微调之后可以明 显的改善人员识别性能。这是因为,有监督微调可以利用误差反向传播的方式 更好地调整网络各层参数。
实验性能分析
首先,分别在INRIA数据集和TUD数据集上进行识别实验,将本方法与其 他几种经典的人员识别方法包括基于传统视觉词袋模型的方法以及基于稀疏编 码模型的方法进行比较,以验证本方法性能,识别表AP值如表1所示。
表1不同方法在INRIA数据集与TUD数据集上的识别结果
从表1可以看出,ScSPM方法和LLC方法由于得到了图像语义的稀疏表达, 其识别性能要优于传统的基于硬分配的视觉词袋模型方法(HA)和基于软分配 的视觉词袋模型方法(SA)。本方法由于利用RBM对SIFT特征进行深度编码, 并利用训练数据的类别信息对整个编码网络进行有监督微调,使得视觉词典具 有很好的选择性且图像表示向量具有稀疏性,因此,其分识别性能要优于ScSPM 方法以及LLC方法。
然后,我们在数据集INRIA数据集上进行实验,将本方法与其他方法之间 的行人再识别时间效率进行分析对比,得平均训练时间和平均测试时间如表2 所示。从表2可以看出,由于ScSPM方法、LLC方法以及本方法采用线性SVM分 类器进行分类识别,因此,它们的训练时间要远低于SA方法。由于LLC方法叫 较之于ScSPM方法作了一些优化工作,所以其训练和测试时间要高于ScSPM方 法。综合,表1和表2可以看出,本方法可以取得较好识别性能的情况下,消 耗最少的识别时间,尤其适用于大规模数据下的行人再识别。
表2不同方法在数据集15-Scenes上的时间效率对比
1.1深度学习相关理论
深度学习的概念起源于人工神经网络,其基本思想是利用多层非线性运算 单元构建深度学习网络,并将较低层的输出作为更高层的输入,以此从大量输 入数据中学习得到有效的高阶特征表示,最后将这些高阶特征表示用于解决分 类、回归和信息检索等特定问题。得益于深度学习的强大表达能力,它已经被 成功应用于文本数据学习和视觉识别任务当中。
相较于浅学习而言,深度学习具有更强的特征表达能力,然而,非凸目标 函数产生的局部最优解是造成深度学习困难的主要因素,且情况随着网络深度 的增加而越发复杂。针对该问题,2006年,Hinton等人提出了一种用于深度置 信网络的无监督学习算法,有效地解决了深度学习模型训练困难的问题。 Ranzato等人提出用无监督学习初始化每一层神经网络的想法。具体的在图像分 类识别领域,2012年,Srivastava等人提出了一种多模式深度置信网络模型 (Multimodal Deep Belief Network,MDBN),该模型对图像和图像标注数据分 别建立DBN,在最顶层通过学习联合受限玻尔兹曼机将这两个DBN结合起来,取得了较好的图像分类性能。同年,Krizhevsky等人构建了具有6千万个参数、 65万神经元的大规模深度卷积神经网络,利用GPU加速学习过程,在 ILSVRC-2012比赛中成功地将图像分类误判率从26.2%降到15.3%,取得了远超 其他方法的结果。2013年,Munawar等人在堆栈自编码网络的基础上提出了基 于模板的深度重构模型(Template Deep ReconstructionModel,TDRM),该模 型利用无监督的贪婪逐层训练算法训练高斯受限波尔兹曼机(Gaussian Restricted Boltzmann Machines,GRBM),并将训练好的参数作为TDRM的初始值,减少了TDRM参数训练时间,在Pascal VOC 2013年图像分类竞赛中取得了 最好的成绩。
然而,上述基于深度学习的图像分类识别方法都是以训练图像集的像素级 数据作为输入,然后学习得到若干维的图像表达向量,这种方法的时间复杂度 和计算复杂度都极高,需要耗费大量的人力物力。此外,对学习得到的特征解 释性差,也即是这种图像内容的表达方式也仍然停留在底层视觉特征层面。
1.2视觉词袋模型
Sivic等人借鉴文本处理领域中的词袋模型(Bag of Words,BoW),提出了 视觉词袋模型(Bag of Visual Words Model,BoVWM),成功地把自然语言处理 领域的一些方法应用到了图像处理领域。
视觉词袋模型首先从训练图像库中提取大量的SIFT特征,并对其进行聚类 生成视觉词典;然后,提取测试图像的SIFT特征,并将它们与视觉词典中的单 词进行匹配映射;最后,统计各单词出现的频率,得到表征测试图像语义内容 的视觉词汇分布直方图特征。
Claims (5)
1.一种基于深度学习和距离度量学习的人员再识别方法,其特征是,包括以下步骤:
(1)采用基于卷积神经网络的行人目标检测方对视频数据进行处理,检测出视频中的行人目标;
(2)利用非监督RBM网络采用自底向上的方式对行人目标的初始特征进行编码得到兼具稀疏性和选择行的视觉词典;
(3)利用误差反向传播对初始视觉词典进行有监督微调,获取视频图像新的图像表达方式,也即是图像深度学习表示向量;
(4)采用特征分组与特征值最优化的距离度量学习方法,获取更加接近真实语义的度量空间,并采用线性SVM分类器对行人目标进行识别。
2.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法,其特征在于:所述采用基于卷积神经网络的行人目标检测方法,分为模型训练阶段和目标检测阶段:
(1)在模型训练阶段中,首先通过选择不同角度及外表颜色的样本措施增大样本的多样性,然后将这些样本重新调整至统一的分辨率,再增强样本的对比度,最后通过尝试不同的CNN模型参数训练模型,获得检测性能较好的参数组合;
(2)在运动目标检测阶段,首先直接对整幅图像做卷积计算来提取图像特征,然后采用并行计算方法将图像分割为同样大小的小块图像,然后使用训练好的CNN模型同时对这些小块图像进行计算,使用背景建模算法提取每一帧图像中可能存在运动目标的区域,使用非最大值抑制算法将不同尺度下的检测结果进行优化,获得目标的准确位置。
3.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法,其特征在于:在网络的训练过程中,所述RBM的隐层与显层间之间是通过条件概率分布相关联的,显层层和隐层的条件概率为:
公式一:
公式二:
xi,zj分别代表特征层和编码层,也即是RBM中的显层与隐层;ωij为特征层xi与编码层之间的连接权重系数,给定权重系数矩阵ω和隐层偏置向量b,输入层特征x就可以编码为视觉词典z,相应的给出ω和显层偏置矩阵c就可以由视觉词典z重构出特征x;对于RBM中一组给定的输入层和编码层(x,z),其能量函数可计算如下:
公式三:
基于能量函数,可得到(x,z)的联合概率分布函数:
公式四:
进而得到联合分布的边缘分布——特征输入节点的概率分布,即:
公式五:
而RBM网络训练的目的就是使p(x)的值最大化,为此,对公式五求其梯度得,
公式六:
其中,<xizj>dist表示在分布dist下的期望,<xizj>data是指训练数据集经验概率分布下的期望值,而<xizj>model指该模型下概率分布的期望值,可由蒙特卡罗马尔可夫链(Monte-Carlo Markov chain,MCMC)方法来得到模型样例:
公式七:
通过CD算法对RBM进行快速学习,加快参数的收敛,可得到权值wij的更新量为:
公式八:Δωij=ε(<xizj>data-<xizj>model)
其中ε为学习速率,通过CD算法,就可以得到不断更新的参数,一直到参数收敛,得到初始的视觉词典。
4.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法,其特征在于:所述RBM目标优化函数中加入一个正则项h(z),将目标函数调整如下:
公式九:
其中λ为正则项的加权系数;
利用视觉词典对每一维特征响应的均值就可以定量分析稀疏性与选择性,即:
公式十:
是每个单词针对K个特征平均激活概率的期望值,单词zj对特征xk响应概率的期望值可标记为pjk∈(0,1),整个词典对K个输入特征的响应期望值可记为矩阵矩阵中的每一行元素pj·代表了单词zj,1≤j≤J对K个输入特征向量响应的期望值,列向量p·k则代表了输入特征xk在整个视觉词典上的分布,因此为了对整个RBM网络进行有监督地微调,定义交叉熵损失函数h(z)如下:
公式十一:
学习得到视觉词典的稀疏性和选择性与目标矩阵P密切相关,对视觉词典而言,矩阵P中元素为:
公式十二:
参数μ∈(0,1),根据训练数据的标签类别,误差自顶向下传播,对网络各层参数进行微调如下:
公式十三:
公式十四:
φ(l)是一个超参数函数,γ,η,ε代表学习速率,且有γ=ε-η,那么对于第一层网络而言z(0)即为图像SIFT特征输入向量x,且也即是深度学习表示向量,最顶层网络的参数就可更新如下:
公式十五:
yc是指顶层输出向量被判别为图像类别C,在上述微调的过程中,采用最大交叉信息熵损失代表基于特征的分类误差,将该误差反向传播至每层网络中,并得到最终的深度学习表示向量。
5.根据权利要求1所述的基于深度学习和距离度量学习的人员再识别方法,其特征在于:所述利用特征分组与特征值最优化方法对度量空间进行学习,具体为:
(1)采用Ncut特征分组算法,根据特征各维数之间的相关性对图像语义表示向量进行分组;
(2)在相似样本约束对的距离小于一定阈值的条件下,将传统的求解SDP问题转化为特征值最优化问题;
(3)求解特征值最优化问题,也即是计算每次循环迭代中对称矩阵最大特征值所对应的特征向量;
(4)将各分组特征学习得到的度量矩阵进行融合得到全局度量矩阵,形成新的距离度量空间,并用以训练SVM分类器,实现人员再分类识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810157658.1A CN108345860A (zh) | 2018-02-24 | 2018-02-24 | 基于深度学习和距离度量学习的人员再识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810157658.1A CN108345860A (zh) | 2018-02-24 | 2018-02-24 | 基于深度学习和距离度量学习的人员再识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108345860A true CN108345860A (zh) | 2018-07-31 |
Family
ID=62960344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810157658.1A Pending CN108345860A (zh) | 2018-02-24 | 2018-02-24 | 基于深度学习和距离度量学习的人员再识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108345860A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109495437A (zh) * | 2018-08-28 | 2019-03-19 | 西安电子科技大学 | 一种利用在线机器学习算法的工业控制系统中网络异常探测方法 |
CN109492528A (zh) * | 2018-09-29 | 2019-03-19 | 天津卡达克数据有限公司 | 一种基于高斯和深度特征的行人再识别方法 |
CN109635728A (zh) * | 2018-12-12 | 2019-04-16 | 中山大学 | 一种基于非对称度量学习的异构行人再识别方法 |
CN109766748A (zh) * | 2018-11-27 | 2019-05-17 | 昆明理工大学 | 一种基于投影变换与字典学习的行人再识别的方法 |
CN109815815A (zh) * | 2018-12-22 | 2019-05-28 | 昆明理工大学 | 一种基于度量学习和支持向量机相集成的行人再识别方法 |
CN109902662A (zh) * | 2019-03-20 | 2019-06-18 | 中山大学 | 一种行人重识别方法、系统、装置和存储介质 |
CN110503636A (zh) * | 2019-08-06 | 2019-11-26 | 腾讯医疗健康(深圳)有限公司 | 参数调整方法、病灶预测方法、参数调整装置及电子设备 |
CN111027397A (zh) * | 2019-11-14 | 2020-04-17 | 上海交通大学 | 适用于智能监控网络中的综合特征目标检测方法、系统、介质及设备 |
CN111045726A (zh) * | 2018-10-12 | 2020-04-21 | 上海寒武纪信息科技有限公司 | 支持编码、解码的深度学习处理装置及方法 |
CN111243624A (zh) * | 2020-01-02 | 2020-06-05 | 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) | 人员状态评估的方法和系统 |
CN111832361A (zh) * | 2019-04-19 | 2020-10-27 | 杭州海康威视数字技术股份有限公司 | 一种行人重识别方法、装置和计算机设备 |
CN112016417A (zh) * | 2020-08-17 | 2020-12-01 | 山东师范大学 | 基于自由能分数空间的行人重识别方法及系统 |
CN112183264A (zh) * | 2020-09-17 | 2021-01-05 | 国网天津静海供电有限公司 | 一种基于空间关系学习的吊车吊臂下有人逗留的判断方法 |
CN113189963A (zh) * | 2021-04-26 | 2021-07-30 | 东北大学 | 一种基于非平衡数据的轧制过程故障诊断方法 |
GB2591496A (en) * | 2020-01-30 | 2021-08-04 | Vision Semantics Ltd | De-centralised learning for re-identification |
CN113239776A (zh) * | 2021-05-10 | 2021-08-10 | 北方工业大学 | 一种基于能量模型的行人重识别方法 |
CN113326931A (zh) * | 2020-02-28 | 2021-08-31 | 丰田自动车株式会社 | 适配神经网络的初始模型的方法、系统、存储部分和车辆 |
CN115392474A (zh) * | 2022-06-14 | 2022-11-25 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
CN116193274A (zh) * | 2023-04-27 | 2023-05-30 | 北京博瑞翔伦科技发展有限公司 | 一种多摄像头安全控制方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166861A (zh) * | 2014-08-11 | 2014-11-26 | 叶茂 | 一种行人检测方法 |
WO2014205231A1 (en) * | 2013-06-19 | 2014-12-24 | The Regents Of The University Of Michigan | Deep learning framework for generic object detection |
CN106778921A (zh) * | 2017-02-15 | 2017-05-31 | 张烜 | 基于深度学习编码模型的人员再识别方法 |
CN107123131A (zh) * | 2017-04-10 | 2017-09-01 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的运动目标检测方法 |
-
2018
- 2018-02-24 CN CN201810157658.1A patent/CN108345860A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014205231A1 (en) * | 2013-06-19 | 2014-12-24 | The Regents Of The University Of Michigan | Deep learning framework for generic object detection |
CN104166861A (zh) * | 2014-08-11 | 2014-11-26 | 叶茂 | 一种行人检测方法 |
CN106778921A (zh) * | 2017-02-15 | 2017-05-31 | 张烜 | 基于深度学习编码模型的人员再识别方法 |
CN107123131A (zh) * | 2017-04-10 | 2017-09-01 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的运动目标检测方法 |
Non-Patent Citations (1)
Title |
---|
赵永威 等: ""基于特征分组与特征值最优化的距离度量学习方法"", 《JOURNAL OF DATA ACQUISITION AND PROCESSING》 * |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109495437A (zh) * | 2018-08-28 | 2019-03-19 | 西安电子科技大学 | 一种利用在线机器学习算法的工业控制系统中网络异常探测方法 |
CN109495437B (zh) * | 2018-08-28 | 2020-12-08 | 西安电子科技大学 | 一种利用在线机器学习算法的工业控制系统中网络异常探测方法 |
CN109492528A (zh) * | 2018-09-29 | 2019-03-19 | 天津卡达克数据有限公司 | 一种基于高斯和深度特征的行人再识别方法 |
CN111045726A (zh) * | 2018-10-12 | 2020-04-21 | 上海寒武纪信息科技有限公司 | 支持编码、解码的深度学习处理装置及方法 |
CN109766748A (zh) * | 2018-11-27 | 2019-05-17 | 昆明理工大学 | 一种基于投影变换与字典学习的行人再识别的方法 |
CN109635728A (zh) * | 2018-12-12 | 2019-04-16 | 中山大学 | 一种基于非对称度量学习的异构行人再识别方法 |
CN109635728B (zh) * | 2018-12-12 | 2020-10-13 | 中山大学 | 一种基于非对称度量学习的异构行人再识别方法 |
CN109815815A (zh) * | 2018-12-22 | 2019-05-28 | 昆明理工大学 | 一种基于度量学习和支持向量机相集成的行人再识别方法 |
CN109902662A (zh) * | 2019-03-20 | 2019-06-18 | 中山大学 | 一种行人重识别方法、系统、装置和存储介质 |
CN109902662B (zh) * | 2019-03-20 | 2023-10-24 | 中山大学 | 一种行人重识别方法、系统、装置和存储介质 |
CN111832361A (zh) * | 2019-04-19 | 2020-10-27 | 杭州海康威视数字技术股份有限公司 | 一种行人重识别方法、装置和计算机设备 |
CN111832361B (zh) * | 2019-04-19 | 2023-08-29 | 杭州海康威视数字技术股份有限公司 | 一种行人重识别方法、装置和计算机设备 |
CN110503636A (zh) * | 2019-08-06 | 2019-11-26 | 腾讯医疗健康(深圳)有限公司 | 参数调整方法、病灶预测方法、参数调整装置及电子设备 |
CN110503636B (zh) * | 2019-08-06 | 2024-01-26 | 腾讯医疗健康(深圳)有限公司 | 参数调整方法、病灶预测方法、参数调整装置及电子设备 |
CN111027397A (zh) * | 2019-11-14 | 2020-04-17 | 上海交通大学 | 适用于智能监控网络中的综合特征目标检测方法、系统、介质及设备 |
CN111027397B (zh) * | 2019-11-14 | 2023-05-12 | 上海交通大学 | 适用于智能监控网络中的综合特征目标检测方法、系统、介质及设备 |
CN111243624B (zh) * | 2020-01-02 | 2023-04-07 | 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) | 人员状态评估的方法和系统 |
CN111243624A (zh) * | 2020-01-02 | 2020-06-05 | 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) | 人员状态评估的方法和系统 |
GB2591496A (en) * | 2020-01-30 | 2021-08-04 | Vision Semantics Ltd | De-centralised learning for re-identification |
CN113326931A (zh) * | 2020-02-28 | 2021-08-31 | 丰田自动车株式会社 | 适配神经网络的初始模型的方法、系统、存储部分和车辆 |
CN113326931B (zh) * | 2020-02-28 | 2024-04-30 | 丰田自动车株式会社 | 适配神经网络的初始模型的方法、系统、存储部分和车辆 |
CN112016417A (zh) * | 2020-08-17 | 2020-12-01 | 山东师范大学 | 基于自由能分数空间的行人重识别方法及系统 |
CN112183264A (zh) * | 2020-09-17 | 2021-01-05 | 国网天津静海供电有限公司 | 一种基于空间关系学习的吊车吊臂下有人逗留的判断方法 |
CN112183264B (zh) * | 2020-09-17 | 2023-04-21 | 国网天津静海供电有限公司 | 一种基于空间关系学习的吊车吊臂下有人逗留的判断方法 |
CN113189963B (zh) * | 2021-04-26 | 2024-03-19 | 东北大学 | 一种基于非平衡数据的轧制过程故障诊断方法 |
CN113189963A (zh) * | 2021-04-26 | 2021-07-30 | 东北大学 | 一种基于非平衡数据的轧制过程故障诊断方法 |
CN113239776A (zh) * | 2021-05-10 | 2021-08-10 | 北方工业大学 | 一种基于能量模型的行人重识别方法 |
CN115392474B (zh) * | 2022-06-14 | 2023-08-22 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
CN115392474A (zh) * | 2022-06-14 | 2022-11-25 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
CN116193274A (zh) * | 2023-04-27 | 2023-05-30 | 北京博瑞翔伦科技发展有限公司 | 一种多摄像头安全控制方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108345860A (zh) | 基于深度学习和距离度量学习的人员再识别方法 | |
CN106778921A (zh) | 基于深度学习编码模型的人员再识别方法 | |
Gong et al. | Feature learning and change feature classification based on deep learning for ternary change detection in SAR images | |
CN107194433B (zh) | 一种基于深度自编码网络的雷达一维距离像目标识别方法 | |
CN106599797B (zh) | 一种基于局部并行神经网络的红外人脸识别方法 | |
CN106778595B (zh) | 基于高斯混合模型的人群中异常行为的检测方法 | |
Deng et al. | Extreme learning machines: new trends and applications | |
CN109543602B (zh) | 一种基于多视角图像特征分解的行人再识别方法 | |
CN112101430B (zh) | 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法 | |
CN105184298B (zh) | 一种快速局部约束低秩编码的图像分类方法 | |
CN104298974B (zh) | 一种基于深度视频序列的人体行为识别方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN109389171B (zh) | 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法 | |
CN103699874B (zh) | 基于surf流和lle稀疏表示的人群异常行为识别方法 | |
CN103761537A (zh) | 基于低秩优化特征字典模型的图像分类方法 | |
CN114821299B (zh) | 一种遥感图像变化检测方法 | |
Wang et al. | Action recognition using linear dynamic systems | |
Xin et al. | Random part localization model for fine grained image classification | |
CN113255543A (zh) | 基于图卷积网络的面部表情识别方法 | |
CN107886109A (zh) | 一种基于有监督视频分割的视频摘要方法 | |
Reddy P et al. | Multimodal spatiotemporal feature map for dynamic gesture recognition from real time video sequences | |
CN108319935B (zh) | 基于区域稀疏的人脸群体识别方法 | |
Liu et al. | Chart classification by combining deep convolutional networks and deep belief networks | |
Jiang et al. | Point-voxel absorbing graph representation learning for event stream based recognition | |
Ehsan et al. | DABA-net: deep acceleration-based AutoEncoder network for violence detection in surveillance cameras |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180731 |