CN108229435A - 一种用于行人识别的方法 - Google Patents

一种用于行人识别的方法 Download PDF

Info

Publication number
CN108229435A
CN108229435A CN201810103970.2A CN201810103970A CN108229435A CN 108229435 A CN108229435 A CN 108229435A CN 201810103970 A CN201810103970 A CN 201810103970A CN 108229435 A CN108229435 A CN 108229435A
Authority
CN
China
Prior art keywords
pedestrian
image
layer
loss
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810103970.2A
Other languages
English (en)
Other versions
CN108229435B (zh
Inventor
张师林
乔治
于航滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN201810103970.2A priority Critical patent/CN108229435B/zh
Publication of CN108229435A publication Critical patent/CN108229435A/zh
Application granted granted Critical
Publication of CN108229435B publication Critical patent/CN108229435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种城市道路监控场景下的行人识别方法,利用视频处理和深度学习技术判断多个视域不重叠相机所拍摄的行人是不是同一个行人。基于融合中心损失的卷积神经网络方法,本发明首先在行人数据集上训练卷积神经网络得到行人分类模型,并通过该模型实现待识别行人和数据库中行人的特征提取,最后通过特征度量和重排序方法得到候选行人列表,实现行人的识别。本发明可以实现道路监控场景下的行人辨识,进一步促进行人交通的有效管理。

Description

一种用于行人识别的方法
技术领域
本发明涉及道路智能视频监控领域,尤其涉及利用模式识别技术对公共场所的行人识别与管理。
背景技术
随着城市监控设施的完善,监控相机被广泛安装在城市道路和建筑物中,是智慧城市的一个重要组成部分。行人识别的目标是,给定视域不交叉的两个相机,判断各自所捕获的行人是不是同一个人。针对此问题,本发明使用一种融合中心损失的度量网络,可以同时完成图像特征提取和度量学习两个过程。
发明内容
现有的各种行人识别方法,一方面由于系统复杂难以实施,另一方面准确率较低,因此还不能满足真实场景下公共场所的行人识别要求。为了解决现有技术问题的不足,本发明提出一种基于残差网络和中心损失相结合的行人识别方法。其技术方案具体包括如下步骤:
步骤1:构建残差卷积神经网络
所述残差卷积神经网络包括行人图像输入层、模型层、分类层和损失层;其中损失层包括Softmax损失函数和中心损失函数,
所述Softmax损失函数为:
其中,xi∈Rd表示第i个行人图像的卷积神经网络特征,隶属于第yi个行人,d是该特征的维度;Wj∈Rd是网络最后一层全连接层权重矩阵W∈Rd×n的第j列,m表示行人标识的个数;
中心损失函数为:
其中,cyi表示所有标识为yi的行人的特征平均值;
步骤2:模型训练
利用预设的行人标注图像,对所述残差卷积神经网络进行训练,采用随机梯度下降的方法,确定残差网络所有参数的取值,使分类层的损失达到损失最小,训练完成后,网络结构去除分类层和损失层,剩余部分作为行人图像特征提取的工具,得到最终的行人图像特征提取模型M;
步骤3:建立待识别行人图像数据库
利用步骤2中得到的模型M提取每个行人的图像特征,并形成行人特征数据库D;对于通过相机新采集的行人图像,使用模型M获取特征x,依次计算x和行人特征数据库D中每个行人xi的相似度d(x,xi):
步骤4:检索与重排序
按照相似度数值从小到大的顺序,得到相似度最近的N个匹配行人,并将这个检索集合记为A,对于这N个匹配出来的行人xi,每一个行人特征再分别作为检索图像x,再依次从行人特征数据库中检索并得到N个匹配行人集合,记为B,如果A∩B的元素个数大于N的2/3,则xi成为最终检索出来的行人。
本发明具有如下有益效果:
该方法通过对传统的残差网络增加改进的中心损失层,使得网络权重参数在预训练基础上,进一步在行人识别数据集上训练并微调;训练结束后去掉网络最后一层分类层,使用剩余网络结构作为行人图像特征提取的工具。该方法具备特征提取和度量学习两个功能,从而实现了一种统一的行人再识别方法,其训练过程比同类方法更方便,识别准确率更高。
附图说明
图1是本发明的模型训练网络结构图。
图2是本发明的损失效果图。
图3是本发明的实施流程图。
图4是本发明的行人识别结果展示。
具体实施方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
本发明提出了一种道路交通场景下的行人识别方法,主要包括两个过程,第一个过程是行人识别模型的离线训练,第二个过程是行人识别模型的在线实施。具体的实施步骤如下所示:
1、离线模型训练
行人数据集的准备。模型训练需要大量的标注数据,而数据的采集和标注成本较高。所以,本发明采用行人识别领域的数据集Market,该数据集包括3万张以上图像,并且属于1160个不同的行人。
网络结构的搭建。本发明利用了残差网络模型,并在此基础上设计了如图1所示的完整的行人识别网络模型。该模型具体包括行人图像输入层,残差网络层,分类层和损失层。在损失层,除了原有的Softmax损失之外,本发明增加了一个中心损失,两个按照一定的比例融合,共同实现损失计算。搭建残差卷积神经网络,包括行人图像的输入层,模型层(采用50层残差卷积神经网络结构),分类层和损失层,具体网络结构如图1所示;
在整个网络结构中的最后一层为损失层,包括Softmax损失和中心损失。Softmax损失函数为;
在上述公式中,xi∈Rd表示第i个行人图像的卷积神经网络特征,隶属于第yi个行人。d是该特征的维度。Wj∈Rd是网络最后一层全连接层权重矩阵W∈Rd×n的第j列。m表示行人标识的个数。
中心损失函数为:
在上述公式中,xi和yi的定义和Softmax损失一样。cyi表示所有标识为yi的行人的特征平均值。中心损失在分类过程中的效果,如图2所示。
通过综合分类损失和中心损失,上述残差卷积神经网络可以较好地训练分类模型。本发明所产生的分类效果如图2所示。
模型参数的训练。利用准备好的行人标注图像,对按照图1所构建的网络结构进行训练,采用随机梯度下降的方法,确定网络结构中残差网络所有参数的取值,使得分类层的损失依照损失层的定义达到损失最小。训练完成后,网络结构去除分类层和损失层,剩余部分作为行人图像特征提取的工具,得到最终的行人图像特征提取模型M。
2、在线行人识别
在线行人识别过程,利用离线模型训练所得到的模型M,对从相机中新采集的行人图像提取特征,进一步确定该行人是行人数据库中的某个特定行人。该过程的主要流程如图3所示。
建立待识别行人图像数据库,利用模型M提取每个行人的图像特征,并形成行人特征数据库D;对于通过相机新采集的行人图像,同样使用模型M获取特征x,依次计算x和行人特征数据库D中每个行人xi的相似度。
利用离线训练所得到的行人识别模型,对于待识别行人抽取行人特征,并在行人特征数据库D计算两两之间的特征距离,得到最相似的N个候选行人。通过计算新采集图像特征x和行人特征数据库D中的特征之间的相似度d(x,xi),按照相似度数值从小到大的顺序,得到相似度最近的N个匹配行人,并将这个检索集合记为A。对于这N个匹配出来的行人xi,每一个行人特征再反过来,分别作为检索图像x,再依次从行人特征数据库中检索并得到N个匹配行人集合,记为B,如果A∩B的元素个数大于N的2/3,则xi成为最终检索出来的行人。
利用重排序的方法,也就是根据互近邻的原则,对于初次检索所得到的结果集合A,分别将A中的所有候选行人分别作为待检索行人,继续在行人特征数据集D中检索,将所得到的每一个集合B,计算B和A的交集个数,如果这个数量大于N的2/3倍,则保留A中的该检索结果,否则在A中去除该候选结果。
最后A中剩余的候选行人作为最终输出的结果,为最终识别到的数据库中的行人。如图4所示,每行第一个行人是待检索行人,每行第二个到最后一个行人是检索得到的识别结果。

Claims (1)

1.一种用于行人识别的方法,其特征在于,该方法依次包含如下步骤:
步骤1:构建残差卷积神经网络
所述残差卷积神经网络包括行人图像输入层、模型层、分类层和损失层;其中损失层包括Softmax损失函数和中心损失函数,
所述Softmax损失函数为:
其中,xi∈Rd表示第i个行人图像的卷积神经网络特征,隶属于第yi个行人,d是该特征的维度;Wj∈Rd是网络最后一层全连接层权重矩阵W∈Rd×n的第j列,m表示行人标识的个数;
中心损失函数为:
其中,cyi表示所有标识为yi的行人的特征平均值;
步骤2:模型训练
利用预设的行人标注图像,对所述残差卷积神经网络进行训练,采用随机梯度下降的方法,确定残差网络所有参数的取值,使分类层的损失达到损失最小,训练完成后,网络结构去除分类层和损失层,剩余部分作为行人图像特征提取的工具,得到最终的行人图像特征提取模型M;
步骤3:建立待识别行人图像数据库
利用步骤2中得到的模型M提取每个行人的图像特征,并形成行人特征数据库D;对于通过相机新采集的行人图像,使用模型M获取特征x,依次计算x和行人特征数据库D中每个行人xi的相似度d(x,xi):
步骤4:检索与重排序
按照相似度数值从小到大的顺序,得到相似度最近的N个匹配行人,并将这个检索集合记为A,对于这N个匹配出来的行人xi,每一个行人特征再分别作为检索图像x,再依次从行人特征数据库中检索并得到N个匹配行人集合,记为B,如果A∩B的元素个数大于N的2/3,则xi成为最终检索出来的行人。
CN201810103970.2A 2018-02-01 2018-02-01 一种用于行人识别的方法 Active CN108229435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810103970.2A CN108229435B (zh) 2018-02-01 2018-02-01 一种用于行人识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810103970.2A CN108229435B (zh) 2018-02-01 2018-02-01 一种用于行人识别的方法

Publications (2)

Publication Number Publication Date
CN108229435A true CN108229435A (zh) 2018-06-29
CN108229435B CN108229435B (zh) 2021-03-30

Family

ID=62670468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810103970.2A Active CN108229435B (zh) 2018-02-01 2018-02-01 一种用于行人识别的方法

Country Status (1)

Country Link
CN (1) CN108229435B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960184A (zh) * 2018-07-20 2018-12-07 天津师范大学 一种基于异构部件深度神经网络的行人再识别方法
CN109902678A (zh) * 2019-02-12 2019-06-18 北京奇艺世纪科技有限公司 模型训练方法、文字识别方法、装置、电子设备及计算机可读介质
CN110751209A (zh) * 2019-10-18 2020-02-04 北京邮电大学 一种融合深度图像分类和检索的智能台风定强方法
CN111477212A (zh) * 2019-01-04 2020-07-31 阿里巴巴集团控股有限公司 内容识别、模型训练、数据处理方法、系统及设备
CN113960152A (zh) * 2021-10-18 2022-01-21 北方工业大学 一种基于离子迁移谱的痕量爆炸物识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874898A (zh) * 2017-04-08 2017-06-20 复旦大学 基于深度卷积神经网络模型的大规模人脸识别方法
US20170193367A1 (en) * 2016-01-05 2017-07-06 Sentient Technologies (Barbados) Limited Webinterface production and deployment using artificial neural networks
CN107330355A (zh) * 2017-05-11 2017-11-07 中山大学 一种基于正样本平衡约束的深度行人再标识方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193367A1 (en) * 2016-01-05 2017-07-06 Sentient Technologies (Barbados) Limited Webinterface production and deployment using artificial neural networks
CN106874898A (zh) * 2017-04-08 2017-06-20 复旦大学 基于深度卷积神经网络模型的大规模人脸识别方法
CN107330355A (zh) * 2017-05-11 2017-11-07 中山大学 一种基于正样本平衡约束的深度行人再标识方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋帅: "基于卷积神经网络的图像识别", 《中国优秀硕士学位论文全文数据库》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960184A (zh) * 2018-07-20 2018-12-07 天津师范大学 一种基于异构部件深度神经网络的行人再识别方法
CN108960184B (zh) * 2018-07-20 2021-08-24 天津师范大学 一种基于异构部件深度神经网络的行人再识别方法
CN111477212A (zh) * 2019-01-04 2020-07-31 阿里巴巴集团控股有限公司 内容识别、模型训练、数据处理方法、系统及设备
CN111477212B (zh) * 2019-01-04 2023-10-24 阿里巴巴集团控股有限公司 内容识别、模型训练、数据处理方法、系统及设备
CN109902678A (zh) * 2019-02-12 2019-06-18 北京奇艺世纪科技有限公司 模型训练方法、文字识别方法、装置、电子设备及计算机可读介质
CN110751209A (zh) * 2019-10-18 2020-02-04 北京邮电大学 一种融合深度图像分类和检索的智能台风定强方法
CN113960152A (zh) * 2021-10-18 2022-01-21 北方工业大学 一种基于离子迁移谱的痕量爆炸物识别方法及系统

Also Published As

Publication number Publication date
CN108229435B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN108229435A (zh) 一种用于行人识别的方法
CN106778604B (zh) 基于匹配卷积神经网络的行人再识别方法
CN104992142B (zh) 一种基于深度学习和属性学习相结合的行人识别方法
Li et al. Deep joint discriminative learning for vehicle re-identification and retrieval
CN109978918A (zh) 一种轨迹追踪方法、装置和存储介质
CN106778684A (zh) 深度神经网络训练方法及人脸识别方法
CN106022380A (zh) 基于深度学习的个体身份识别方法
CN106570477A (zh) 基于深度学习的车型识别模型构建方法及车型识别方法
CN107016405A (zh) 一种基于分级预测卷积神经网络的害虫图像分类方法
CN108647655A (zh) 基于轻型卷积神经网络的低空航拍影像电力线异物检测方法
CN109711281A (zh) 一种基于深度学习的行人重识别与特征识别融合方法
CN108596203A (zh) 并联池化层对受电弓碳滑板表面磨耗检测模型的优化方法
CN110070066A (zh) 一种基于姿态关键帧的视频行人重识别方法及系统
CN107463892A (zh) 一种结合上下文信息和多级特征的图像中行人检测方法
CN109033325A (zh) 基于人脸识别技术的旅游终端系统及其使用方法
CN106844614A (zh) 一种户型图功能区域快速识别系统
CN108537134A (zh) 一种视频语义场景分割及标注方法
CN110322453A (zh) 基于位置注意力和辅助网络的3d点云语义分割方法
CN106022220A (zh) 一种体育视频中对参赛运动员进行多人脸跟踪的方法
CN109711366A (zh) 一种基于群组信息损失函数的行人重识别方法
CN108764269A (zh) 一种基于时空约束增量学习的跨数据集行人再识别方法
CN108021947A (zh) 一种基于视觉的分层极限学习机目标识别方法
CN109045676B (zh) 一种象棋识别学习算法和基于该算法的机器人智动化系统与方法
CN110163041A (zh) 视频行人再识别方法、装置及存储介质
CN108764018A (zh) 一种基于卷积神经网络的多任务车辆再识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant