CN111401286A - 一种基于部件权重生成网络的行人检索方法 - Google Patents
一种基于部件权重生成网络的行人检索方法 Download PDFInfo
- Publication number
- CN111401286A CN111401286A CN202010211499.6A CN202010211499A CN111401286A CN 111401286 A CN111401286 A CN 111401286A CN 202010211499 A CN202010211499 A CN 202010211499A CN 111401286 A CN111401286 A CN 111401286A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- feature
- network
- component weight
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于部件权重生成网络的行人检索方法,利用DenseNet基础骨架对目标行人和图片集进行特征表示,然后通过区域候选网络(RPN)生成行人候选区域,再利用后续的识别网络学习行人的检索特征,同时使用部件权重生成网络获得对应行人的部件权重,弱化行人信息量较小的部分以达到整体非平均化匹配的目的,最后通过交替训练方式优化部件权重生成网络和区域候选网络的参数,使得最终产生更精确的行人检索结果。本发明方法有效克服了现有行人检索方法在遮挡、弱光照场景下的不足,为复杂公共视频监控环境下的行人检索任务提供了可行手段。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种监控视频的行人检索方法,具体涉及一种基于部件权重生成网络的行人检索方法。
技术背景
传统的视频检索技术侧重于查询特定场景下的特定某类对象,而在视频监控场景下,往往由于摄像头视角的影响,会造成光照变化、遮挡等问题,使得整个检索过程变得十分困难。视频研究领域中,行人检测(Pedestrian Detection)、行人重识别(Person Re-ID)、目标跟踪(Object Track)等任务受到研究者广泛关注,行人检索过程结合了行人检测和行人重识别两项任务。行人重识别旨在对查询行人与人工剪裁的候选行人框之间的相似度进行排序,其应用的局限性在于实际场景中不存在经过剪裁的候选行人框;行人检测旨在对给定的图片集或视频帧中的行人进行检测,找出行人在像素坐标下的位置信息;行人检索旨在根据查询行人查找给定图片集或视频中同一行人的位置信息,整个过程只需给出被查询行人图片和原始监控图片集,分别通过行人检测和行人重识别的方法来完成整个行人检索任务。行人检索能够有效的帮助刑侦人员在海量监控视频中找出嫌疑目标,提高破案效率。
最初的行人检索方法是通过行人检测和行人重识别两个独立任务来完成,现成的行人检测器不可避免的会造成错检、漏检、错位等问题,这些都会对行人重识别的效果产生不利影响,进而影响最终检索的精度。自2014年以来,越来越多研究者开始关注端到端的行人检索框架,力求检测和重识别相互促进、相互优化,这已经成为行人检索的重要发展趋势。
发明内容
为了解决上述技术问题,本发明结合行人检测和行人重识别的思想,提供了一种基于部件权重生成网络的行人检索方法,本发明在端到端的行人检索网络中引入部件权重生成器,更加精确的从候选行人中识别出目标行人,达到行人检索目的。
本发明所采用的技术方案是:一种基于部件权重生成网络的行人检索方法,其特征在于,包括以下步骤:
步骤1:将原始图片集和目标行人图片通过DenseNet骨干网络和区域候选网络,提取出目标行人特征和候选行人特征,其中原始图片集来源于自然拍摄且非处理过的图片,目标行人图片取自于原始图片集并标注有行人的位置;
步骤2:将目标行人特征和候选行人特征输入识别网络进一步获取识别特征,然后将得到的行人识别特征通过部件权重生成网络,获得行人匹配的部件权重,加权度量后得到行人检索结果;
步骤3:采用余弦距离损失函数训练部件权重生成网络,采用改进的在线实例匹配损失函数训练整体的行人检索网络,其中行人检索网络表示整个端到端行人检索方法的全部网络,部件权重生成网络是其中的一部分并单独训练。
与现有的行人检索方法相比,本发明具有以下的优点与积极效果:
(1)本发明提出的是一种端到端的行人检索方法,有别于现有行人检索方法的识别模块,本发明采用部件权重生成网络细化特征度量,提高了检索精度。
(2)本发明针对了公共视频监控环境下普遍存在的遮挡、弱光照等复杂条件,具有很强的鲁棒性和实际应用价值。
附图说明
图1:本发明实施例的框图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施案例对本发明做进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
基于部件权重生成网络的行人检索方法是一种端到端的行人检索,首先,针对监控场景遮挡以及光照变化对行人检索带来的影响,建立能有效解决遮挡、光照变化等问题的部件权重生成网络;然后,基于改进的在线实例匹配行人检索方法,创建更有效的特征提取网络,设计端到端的基于部件权重生成网络的行人检索方法。
请见图1,本发明提供的一种基于部件权重生成网络的行人检索方法,包括以下步骤:
步骤1:将原始图片集和目标行人图片通过DenseNet骨干网络和区域候选网络,提取出目标行人特征和候选行人特征,其中原始图片集来源于自然拍摄且非处理过的图片,目标行人图片取自于原始图片集并标注有行人位置;
本实施例中,步骤1的具体实现包括以下子步骤:
步骤1.1:将目标行人图片和原始图片集图像输入到DenseNet-121网络block1到block3层中,对图像进行特征提取;假设输入的原始图片集图像大小为W×H,则通过DenseNet-121网络block1到block3层后得到的特征图,其中N表示输入图片集大小,C表示特征提取后的图像通道数;
步骤1.3:将步骤1.2中获得的特征图一部分通过一个1×1的卷积层生成的得分张量,默认9个锚点框,即产生前景和背景总共18个得分;然后通过Reshape+Softmax+Reshape操作得到最终每个建议框的得分;另一部分通过一个1×1的卷积层生成的预测框张量,9个锚点框,每个锚点框包括(x,y,w,h),其中(x,y)代表建议框的左上角坐标,w,h代表建议框的宽和高,即得到36个位置信息;
步骤1.4:根据每个建议框的分数值并结合非极大抑制的方法提取出置信度高于阈值的候选框;
步骤1.5:最后利用ROI池化层从每个建议框的骨干特征映射到区域特征。
步骤2:将目标行人特征和候选行人特征输入识别网络进一步获取识别特征,然后将得到的行人识别特征通过部件权重生成网络,得到行人匹配的部件权重,加权度量后得到行人检索结果;
本实施例中,步骤2的具体实现包括以下子步骤:
步骤2.1:将步骤1得到大小均为7×7×2048的目标行人特征图和候选行人特征图输入到DenseNet-121网络block4和block5层中,得到目标行人和候选行人的识别特征图,然后分别按照行数为(1、2、3),(3、4、5),(5、6、7)的3个部分池化层和一个全局池化层生成8个2048维的特征向量,分别对应的是头部、身体、腿部、整体的特征;
步骤2.2:将步骤2.1中得到的8个2048维的特征向量拼接,得到一个8×2048的特征矩阵并拉直为一个16384维的特征向量;
步骤2.3:通过kernel=1、out_channel=256的卷积层和全连接层,得到4维的权值向量并使用Softmax归一化得到加和为1的实际权值W0,W1,W2,W3;
步骤3:采用余弦距离损失函数训练部件权重生成网络,采用改进的在线实例匹配损失函数训练整体的行人检索网络,其中行人检索网络表示整个端到端行人检索方法的全部网络,部件权重生成网络是其中的一部分并单独训练。
本实施例中,步骤3的具体实现包括以下子步骤:
步骤3.1:采用余弦距离损失函数训练部件权重生成网络,给定一个行人样本对(i,j),如果样本对属于同一个行人则标签y=1,反之标签y=-1;其中余弦距离损失函数为:
其中,α表示间隔超参数;
步骤3.2:采用改进的在线实例匹配损失函数训练整体的行人检索网络;
具体过程为,对于行人候选区域生成网络生成的每个候选区域的特征向量x,将其分成4个部分,即x0,x1,x2,x3,通过步骤2.3得出候选区域与所有标签实例之间的权重,构成权重库w,即通过计算样本x与所有带标签实例之间的余弦相似度;其中,表示带标签行人特征库的第m行,表示权重库w的第m行,T表示矩阵转置;
在反向传播中,如果目标id为t,则通过vt,i←γvt,i+(1-γ)xi来更新LUT中的第t行,其中,LUT表示行人特征库,vt,i表示带标签行人特征库中第t行的第i个部件特征,γ表示(0,1)的超参数;
通过Softmax函数定义某个有标签实例的第m部分特征xm被视为第i类行人的概率为:
同样,在循环队列中,无标签实例的第m部分特征xm被视为第i类无标签实例的概率为:
改进的在线实例匹配损失函数最终优化的目标是最大化期望似然函数:
其中,pt,n表示某个有标签实例的第n部分特征被视为第t类行人的概率。
本发明利用DenseNet基础骨架对目标行人和图片集进行特征表示,然后通过区域候选网络(RPN)生成行人候选区域,再利用后续的识别网络得到行人的检索特征,同时使用部件权重生成网络得到对应行人的部件权重,弱化行人信息量较小的部分以达到整体非平均化匹配的目的,最后通过交替训练方式优化部件权重生成网络和区域候选网络的参数,使得最终产生更精确的行人检索结果。本发明方法有效克服了现有行人检索方法在遮挡、弱光照场景下效果差的缺陷,为复杂公共视频监控环境下的行人检索任务提供了新的思路。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (4)
1.一种基于部件权重生成网络的行人检索方法,其特征在于,包括以下步骤:
步骤1:将原始图片集和目标行人图片通过DenseNet骨干网络和区域候选网络,提取出目标行人特征和候选行人特征,其中原始图片集来源于自然拍摄且非处理过的图片,目标行人图片取自于原始图片集并标注有行人的位置;
步骤2:将目标行人特征和候选行人特征输入识别网络进一步获取识别特征,然后将得到的行人识别特征通过部件权重生成网络,获得行人匹配的部件权重,加权度量后得到行人检索结果;
步骤3:采用余弦距离损失函数训练部件权重生成网络,采用改进的在线实例匹配损失函数训练整体的行人检索网络,其中行人检索网络表示整个端到端行人检索方法的全部网络,部件权重生成网络是其中的一部分并单独训练。
2.根据权利要求1所述的基于部件权重生成网络的行人检索方法,其特征在于,步骤1的具体实现是:
步骤1.1:将目标行人图片和原始图片集图像输入到DenseNet-121网络block1到block3层中,对图像进行特征提取;假设输入的原始图片集图像大小为W×H,则通过DenseNet-121网络block1到block3层后得到的特征图,其中N表示输入图片集大小,C表示特征提取后的图像通道数;
步骤1.3:将步骤1.2中获得的特征图一部分通过一个1×1的卷积层生成的得分张量,默认9个锚点框,即产生前景和背景总共18个得分;然后通过Reshape+Softmax+Reshape操作得到最终每个建议框的得分;另一部分通过一个1×1的卷积层生成的预测框张量,9个锚点框,每个锚点框包括(x,y,w,h),其中(x,y)代表建议框的左上角坐标,w,h代表建议框的宽和高,即得到36个位置信息;
步骤1.4:根据每个建议框的分数值并结合非极大抑制的方法提取出置信度高于阈值的候选框;
步骤1.5:最后利用ROI池化层从每个建议框的骨干特征映射到区域特征。
3.根据权利要求1所述的基于部件权重生成网络的行人检索方法,其特征在于,步骤2的具体实现是:
步骤2.1:将步骤1得到大小均为7×7×2048的目标行人特征图和候选行人特征图输入到DenseNet-121网络block4和block5层中,得到目标行人和候选行人的识别特征图,然后分别按照行数为(1、2、3),(3、4、5),(5、6、7)的3个部分池化层和一个全局池化层生成8个2048维的特征向量,分别对应的是头部、身体、腿部、整体的特征;
步骤2.2:将步骤2.1中得到的8个2048维的特征向量拼接,得到一个8×2048的特征矩阵并拉直为一个16384维的特征向量;
步骤2.3:通过一个kernel=1、out_channel=256的卷积层和一个全连接层,得到4维的权值向量并使用Softmax归一化得到加和为1的实际权值W0,W1,W2,W3;
4.根据权利要求1所述的基于部件权重生成网络的行人检索方法,其特征在于,步骤3的具体实现:
步骤3.1:采用余弦距离损失函数训练部件权重生成网络,给定一个行人样本对(i,j),如果样本对属于同一个行人则标签y=1,反之标签y=-1;其中余弦距离损失函数为:
其中,α表示间隔超参数;
步骤3.2:采用改进的在线实例匹配损失函数训练整体的行人检索网络;
具体过程为,对于行人候选区域生成网络生成的每个候选区域的特征向量x,将其分成4个部分,即x0,x1,x2,x3,通过步骤2.3得出候选区域与所有标签实例之间的权重,构成权重库w,即通过计算样本x与所有带标签实例之间的余弦相似度;其中,表示带标签行人特征库的第m行,表示权重库w的第m行,T表示矩阵转置;
在反向传播中,如果目标id为t,则通过vt,i←γvt,i+(1-γ)xi来更新LUT中的第t行,其中,LUT表示带标签行人特征库,vt,i表示带标签行人特征库中第t行的第i个部件特征,γ表示(0,1)的超参数;
通过Softmax函数定义某个有标签实例的第m部分特征xm被视为第i类行人的概率为:
同样,在循环队列中,无标签实例的第m部分特征xm被视为第i类无标签实例的概率为:
改进的在线实例匹配损失函数最终优化的目标是最大化期望似然函数:
其中,pt,n表示某个有标签实例的第n部分特征被视为第t类行人的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010211499.6A CN111401286B (zh) | 2020-03-24 | 2020-03-24 | 一种基于部件权重生成网络的行人检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010211499.6A CN111401286B (zh) | 2020-03-24 | 2020-03-24 | 一种基于部件权重生成网络的行人检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401286A true CN111401286A (zh) | 2020-07-10 |
CN111401286B CN111401286B (zh) | 2022-03-04 |
Family
ID=71432883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010211499.6A Active CN111401286B (zh) | 2020-03-24 | 2020-03-24 | 一种基于部件权重生成网络的行人检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401286B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215282A (zh) * | 2020-10-12 | 2021-01-12 | 西安交通大学 | 一种基于小样本图像分类的元泛化网络系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082110A1 (en) * | 2005-09-28 | 2018-03-22 | Avigilon Patent Holding 1 Corporation | Image classification and information retrieval over wireless digital networks and the internet |
US20180139565A1 (en) * | 2016-11-17 | 2018-05-17 | Glen A. Norris | Localizing Binaural Sound to Objects |
CN109753853A (zh) * | 2017-11-06 | 2019-05-14 | 北京航天长峰科技工业集团有限公司 | 一种同时完成行人检测与行人重识别的方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN110334687A (zh) * | 2019-07-16 | 2019-10-15 | 合肥工业大学 | 一种基于行人检测、属性学习和行人识别的行人检索增强方法 |
-
2020
- 2020-03-24 CN CN202010211499.6A patent/CN111401286B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082110A1 (en) * | 2005-09-28 | 2018-03-22 | Avigilon Patent Holding 1 Corporation | Image classification and information retrieval over wireless digital networks and the internet |
US20180139565A1 (en) * | 2016-11-17 | 2018-05-17 | Glen A. Norris | Localizing Binaural Sound to Objects |
CN109753853A (zh) * | 2017-11-06 | 2019-05-14 | 北京航天长峰科技工业集团有限公司 | 一种同时完成行人检测与行人重识别的方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN110334687A (zh) * | 2019-07-16 | 2019-10-15 | 合肥工业大学 | 一种基于行人检测、属性学习和行人识别的行人检索增强方法 |
Non-Patent Citations (2)
Title |
---|
LONGHUI WEI 等: "GLAD: Global-Local-Alignment Descriptor for Pedestrian Retrieval", 《ARXIV》 * |
徐龙壮 等: "基于多尺度卷积特征融合的行人重识别", 《激光与光电子学进展》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215282A (zh) * | 2020-10-12 | 2021-01-12 | 西安交通大学 | 一种基于小样本图像分类的元泛化网络系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111401286B (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN111160291B (zh) | 基于深度信息与cnn的人眼检测方法 | |
CN113052170B (zh) | 一种无约束场景下的小目标车牌识别方法 | |
US8094971B2 (en) | Method and system for automatically determining the orientation of a digital image | |
CN111401113A (zh) | 一种基于人体姿态估计的行人重识别方法 | |
CN111932582A (zh) | 一种视频图像中的目标跟踪方法及装置 | |
CN111582154A (zh) | 基于多任务骨架姿态划分部件的行人重识别方法 | |
WO2024032010A1 (zh) | 一种基于迁移学习策略的少样本目标实时检测方法 | |
CN114677633B (zh) | 基于多部件特征融合的行人检测多目标跟踪系统及方法 | |
Liu et al. | D-CenterNet: An anchor-free detector with knowledge distillation for industrial defect detection | |
CN112347967B (zh) | 一种复杂场景下融合运动信息的行人检测方法 | |
CN114494373A (zh) | 基于目标检测与图像配准的轨道高精度对齐方法及系统 | |
CN111401286B (zh) | 一种基于部件权重生成网络的行人检索方法 | |
CN116824641B (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
CN113591735A (zh) | 一种基于深度学习的行人检测方法及系统 | |
CN117333948A (zh) | 一种融合时空注意力机制的端到端多目标肉鸡行为识别方法 | |
CN116912670A (zh) | 基于改进yolo模型的深海鱼类识别方法 | |
CN113450321B (zh) | 基于边缘检测的单阶段目标检测方法 | |
TWI728655B (zh) | 應用於動物的卷積神經網路偵測方法及系統 | |
CN112541403B (zh) | 一种利用红外摄像头的室内人员跌倒检测方法 | |
CN111046861B (zh) | 识别红外影像的方法、构建识别模型的方法及应用 | |
Huang et al. | Joint Distribution Adaptive-Alignment for Cross-Domain Segmentation of High-Resolution Remote Sensing Images | |
Jelača et al. | Real-time vehicle matching for multi-camera tunnel surveillance | |
CN114842353B (zh) | 基于自适应目标方向的神经网络遥感影像目标检测方法 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |