CN108596034B - 一种基于目标中心编码外观模型的行人重识别方法 - Google Patents
一种基于目标中心编码外观模型的行人重识别方法 Download PDFInfo
- Publication number
- CN108596034B CN108596034B CN201810243227.7A CN201810243227A CN108596034B CN 108596034 B CN108596034 B CN 108596034B CN 201810243227 A CN201810243227 A CN 201810243227A CN 108596034 B CN108596034 B CN 108596034B
- Authority
- CN
- China
- Prior art keywords
- image
- pedestrian
- vector
- feature
- appearance model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/513—Sparse representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种目标中心编码外观模型的行人重识别方法,包括步骤:分离行人图像的前景区域和背景区域,将仅包含前景区域的图像作为训练集;对图像的前景图像进行分块,对每一图像块进行视觉特征提取,采用局部约束稀疏编码进行特征表达,再通过空间金字塔聚合得到特征表示,作为图像的外观模型向量;将每一幅图像通过局部约束稀疏编码表示成相应的外观模型向量;然后在训练样本中选取一组匹配的行人图像和一组非匹配的行人图像,利用外观模型向量进行距离学习,以完成行人重识别。该方法从特征提取的角度出发,针对行人图像人体区域部分,提取视觉特征并进行局部约束稀疏编码,建立行人的外观模型,以提高行人重识别的准确性。
Description
技术领域
本发明属于视频监控分析技术领域,涉及一种基于目标中心编码外观模型的行人重识别方法。
背景技术
行人重识别技术主要应用于智能视频监控分析,是指给定一个待查询的目标行人图像,通过计算机自动在另一个监控视频中找出该行人的图像。由于不同监控摄像头的安装位置及环境不同,导致同一个行人在不同监控下的图像具有较大差异,包括视角姿态变化与光照差异,给行人重识别任务带来较大困难。
为了解决这一难题,通常是采用特征提取和距离学习相结合的方法以提高行人重识别的准确性。特征提取主要对原始行人图像提取各种视觉特征,包括颜色特征、纹理特征、局部特征及各种特征的组合,得到行人图像有效的特征表示。距离学习主要是通过匹配的样本对和非匹配的样本对学习一个马氏距离函数,使得匹配的样本之间距离变小,非匹配的样本之间距离变大。特征提取和距离学习完成后,给定一个待查询的行人,首先进行特征提取然后采用学习出的距离函数计算该行人与目标数据库中所有行人的距离,按从小到大进行排列,得到查询结果。现有技术中,特征提取的性能不佳,速度较低,影响了行人重识别的准确性。
发明内容
为了解决现有技术所存在的问题,本发明提供了一种基于目标中心编码外观模型的行人重识别方法,该方法从特征提取的角度出发,针对行人图像人体区域部分,提取视觉特征并进行局部约束稀疏编码,建立行人的外观模型,以提高行人重识别的准确性。
本发明所采用的技术方案如下:一种基于目标中心编码外观模型的行人重识别方法,包括以下步骤:
步骤1、分离行人图像的前景区域和背景区域,将仅包含前景区域的图像作为训练集,用于局部约束稀疏编码训练和距离学习;
步骤2、对图像的前景图像进行分块,得到多个图像块;针对每一图像块进行视觉特征提取,并采用局部约束稀疏编码进行特征表达,再通过空间金字塔聚合得到最后的特征表示,作为图像的外观模型向量;
步骤3、对步骤1所述训练集中的训练样本,根据步骤2将每一幅行人图像通过局部约束稀疏编码表示成相应的外观模型向量;然后在训练样本中选取一组匹配的行人图像和一组非匹配的行人图像,利用相应的外观模型向量进行距离学习,根据学习出的距离完成行人重识别任务。
步骤2所述局部约束稀疏编码的过程为:将图像块的视觉特征进行聚类分析,形成聚类中心并记为字典B;对任意给定的一幅行人图像,按相同方式进行分块并进行同样的视觉特征提取,针对每一个图像块的视觉特征找出字典中与之距离最近的若干向量进行稀疏编码;对整幅行人图像所有图像块的编码向量进行空间金字塔聚合,得到该幅行人图像的局部约束稀疏编码。
所述局部约束稀疏编码的过程中,对于任意一图像块xi,在字典B中找到与之距离最近的k个向量组成集合Bi,并记录其在字典B中的索引位置idx,则与图像块xi对应的局部约束编码满足以下代价函数:其中λ为正则化参数,代价函数的解析解为建立一个全0的M维向量ci,将对应索引位置idx的k个值赋值为向量ci即为图像块xi相对于字典B的局部约束稀疏编码。
步骤2所述空间金字塔聚合的过程为:对图像进行L层金字塔划分,对原始图像额外生成L层,第1层被划分为21×21区域,第L层被划分为2L×2L的区域,原始图像被称为第0层且有20×20个区域;对每一个区域中的编码向量进行聚合操作,提取该区域所有图像块向量每一对应分量的最大值组合成一个向量;每一个区域的图像表示成一个向量后,将所有区域的向量连接成一个完整的特征向量作为该图像对应的外观模型向量。
上述技术方案中,局部约束稀疏编码过程可概括如下:将图像块的视觉特征进行聚类分析形成字典。任意给定一幅行人图像,按相同方式进行分块并进行同样的视觉特征提取。针对每一个图像块的视觉特征找出字典中与之距离最近的若干向量进行稀疏编码。对整幅图像所有图像块的编码向量进行空间金字塔聚合,得到该幅图像的局部约束稀疏编码。
本发明相对于现有技术具有如下的有益效果:对行人图像进行轮廓区域与背景区域的分离,能够有效地减小背景的干扰,同时针对行人目标区域进行局部约束稀疏编码。一方面,由于局部约束稀疏编码是对每一个图像块进行的,从反映所有图像块特征最有代表性的属性的聚类中心B中选取k个最近的向量进行编码,所以称为“局部约束”,同时局部也可以带来更好的稀疏属性,相对于传统的稀疏编码具有更好的特征性能,能够改善特征的判别性能;另一方面,局部约束稀疏编码具有解析解,能够提升特征提取的速度。相对于传统的视觉特征提取方法,本发明能够极大地提高行人重识别的准确性。
附图说明
图1为本发明的流程示意图。
图2为本发明局部约束稀疏编码的流程图。
图3为本发明局部约束稀疏编码聚合的示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步的详细说明,但本发明的实施方式不限于此。
本实施例的一种行人重识别方法,其流程如图1所示。具体实现包括以下步骤:
步骤1、针对每一个行人,分别从两个监控视频(如监控摄像头A和监控摄像头B)中选取一幅行人图像作为训练样本,共p个人。来自监控摄像头A的图像集合记作SA,来自监控摄像头B的图像集合记作SB。首先采用结构元素分析的方法分离行人图像的轮廓区域和背景区域,得到相应的两个监控视频的图像集合和然后将仅包含轮廓区域的图像作为训练集,用于局部约束稀疏编码训练和距离学习。
其中,结构元素分析主要是采用概率模型将一类图像中显著区域进行划分,由于原始所有行人图像均包括轮廓区域和背景区域,当采用结构元素分析将所有的行人图像划分成2个区域时,即可实现轮廓区域和背景区域的分离。
步骤2、对图像集合和中的所有图像进行规则地分块,针对每一块提取某一视觉特征,例如LBP(局部二进制模式)特征、HOG(梯度直方图)特征、dense SIFT(尺度不变特征变换)特征或其他视觉特征的一种。所有块的特征向量组成一个向量集合G∈Rd×N,其中d是特征的维数,N是所有块的个数。对所有块的视觉特征进行聚类分析,即对向量集合G进行聚类分析,例如可以采用K-means的聚类算法,将得到M个聚类中心B∈Rd×M记作为字典B(通常也被称为码本),即完成局部约束稀疏编码的训练过程,如图2所示。字典B反映了所有图像块特征最有代表性的属性,因此任一新的图像块可以通过字典B进行编码形成有意义的特征表示。
对任一给定的行人图像I,则可以通过字典B进行局部约束稀疏编码建立该图像的外观模型。首先按同样的方式对图像I进行分块,并对每块提取相同的视觉特征,该图像所有的特征集合记作X=[x1,x2,...,xn]∈Rd×n,其中n是图像块的个数。对于其中任意一图像块xi,在字典B中找到与之距离最近的k个向量组成集合Bi,并记录其在字典B中的索引位置idx,则与图像块xi对应的局部约束编码满足以下代价函数:其中λ为正则化参数。由于图像块xi,是采用字典B中最近的k个向量进行编码,所以称为“局部约束”,同时局部也可以带来更好的稀疏属性,相对于传统的稀疏编码具有更好的特征性能。通过最小二乘方法求解,可以得到代价函数的解析解为建立一个全0的M维向量ci,将对应索引位置idx的k个值赋值为向量ci即为图像块xi相对于字典B的局部约束稀疏编码。
按同样的方式可以对图像I的所有图像块进行局部约束稀疏编码,得到编码向量集合C=[c1,c2,...,cn]∈RM×n,然后对原始图像进行L层金字塔划分,如图3所示,对金字塔划分后的每一个区域中的编码向量进行聚合,并连接成一个完整的向量作为该图像对应的外观模型向量f,其特征维数为
在进行具体行人重识别任务时,首先对目标行人库中的所有图像按同样的方式进行分块,并提取同样的视觉特征,然后对每幅图像按上述步骤进行局部约束稀疏编码。其中,一般在聚类中心B中找出距离最近的5左右个向量组成向量集合Bi,即上述k一般取值为5;正则化参数λ一般取值0.01或0.001左右,计算出某一图像块对应的编码向量然后对该幅图像进行L层金字塔划分,通常L取2,即对原始图像额外生成2层,第1层被划分为21×21区域,第2层被划分为22×22的区域,原始图像通常被称为第0层且有20×20个区域。图3示意图描述的是L=1的情形,即图像被划分为1×1(第0层即原始图像)和21×21区域(第1层)。对每一个区域中的编码向量进行聚合操作,即提取该区域所有图像块向量每一对应分量的最大值组合成一个向量。每一个区域的图像表示成一个向量后,将所有区域的向量连接成一个完整的特征向量作为该图像对应的外观模型的向量f。按同样的方式对目标行人中所有的图像计算出其外观模型,得到向量集合F=[f1,f2,...,fG]。
本发明采用特征块提取特征,并进行局部约束稀疏编码,然后再将所有块的特征进行“聚合”,一个行人表示一个特征向量(外观模型),用于后续计算。本步骤的视觉特征提取是基于分块(patch)的方式进行,首先将包含前景区域(即轮廓区域)的行人图像规则地分成很多小块,对每一块提取基本的视觉特征。
步骤3、对步骤1中的训练样本,根据步骤2将每一幅行人图像通过局部约束稀疏编码表示成相应的外观模型向量;然后在训练样本中选取一组匹配的行人图像和一组非匹配的行人图像,利用相应的外观模型向量进行马氏距离学习,得到相应的马氏距离矩阵M。对于任一给定待查询的行人图像,计算其外观模型向量fx,则可以计算出该幅图像与目标行人库中所有图像的距离。按距离从小到大进行排列,将距离较小的图像作为该目标图像的查询结果,以完成行人重识别任务。
以上所述,仅为本发明专利发明优选的实施方式,但发明专利的保护范围不局限于此,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围内。
Claims (8)
1.一种基于目标中心编码外观模型的行人重识别方法,其特征在于,包括以下步骤:
步骤1、分离行人图像的前景区域和背景区域,将仅包含前景区域的图像作为训练集,用于局部约束稀疏编码训练和距离学习;
步骤2、对图像的前景图像进行分块,得到多个图像块;针对每一图像块进行视觉特征提取,并采用局部约束稀疏编码进行特征表达,再通过空间金字塔聚合得到最后的特征表示,作为图像的外观模型向量;
步骤3、对步骤1所述训练集中的训练样本,根据步骤2将每一幅行人图像通过局部约束稀疏编码表示成相应的外观模型向量;然后在训练样本中选取一组匹配的行人图像和一组非匹配的行人图像,利用相应的外观模型向量进行距离学习,根据学习出的距离完成行人重识别任务;
步骤2所述局部约束稀疏编码的过程为:所有图像块的特征向量组成一个向量集合G∈Rd×N,d是特征的维数,N是所有图像块的个数;将所有图像块的视觉特征进行聚类分析,形成M个聚类中心B∈Rd×M并记为字典B;对任意给定的一幅行人图像,按相同方式进行分块并进行同样的视觉特征提取,该图像所有的特征集合记作X=[x1,x2,...,xn]∈Rd×n,其中n是图像块的个数,针对每一个图像块的视觉特征找出字典中与之距离最近的若干向量进行稀疏编码;对整幅行人图像所有图像块的编码向量进行空间金字塔聚合,得到该幅行人图像的局部约束稀疏编码;
2.根据权利要求1所述的行人重识别方法,其特征在于,步骤2所述视觉特征为LBP特征、HOG特征或dense SIFT特征。
3.根据权利要求1所述的行人重识别方法,其特征在于,步骤2所述空间金字塔聚合的过程为:对图像进行L层金字塔划分,对原始图像额外生成L层,第1层被划分为21×21区域,第L层被划分为2L×2L的区域,原始图像被称为第0层且有20×20个区域;对每一个区域中的编码向量进行聚合操作,提取该区域所有图像块向量每一对应分量的最大值组合成一个向量;每一个区域的图像表示成一个向量后,将所有区域的向量连接成一个完整的特征向量作为该图像对应的外观模型向量。
4.根据权利要求3所述的行人重识别方法,其特征在于,所述L取值为1或2。
5.根据权利要求1所述的行人重识别方法,其特征在于,步骤3所述距离学习为马氏距离学习。
6.根据权利要求1所述的行人重识别方法,其特征在于,步骤1采用结构元素分析的方法分离行人图像的前景区域和背景区域。
7.根据权利要求1所述的行人重识别方法,其特征在于,所述k取值为5;正则化参数λ取值0.01或0.001。
8.根据权利要求1所述的行人重识别方法,其特征在于,所述代价函数采用最小二乘方法进行求解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810243227.7A CN108596034B (zh) | 2018-03-23 | 2018-03-23 | 一种基于目标中心编码外观模型的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810243227.7A CN108596034B (zh) | 2018-03-23 | 2018-03-23 | 一种基于目标中心编码外观模型的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108596034A CN108596034A (zh) | 2018-09-28 |
CN108596034B true CN108596034B (zh) | 2021-05-11 |
Family
ID=63627251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810243227.7A Active CN108596034B (zh) | 2018-03-23 | 2018-03-23 | 一种基于目标中心编码外观模型的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108596034B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192290B (zh) * | 2019-12-05 | 2023-06-30 | 大连民族大学 | 行人图像检测的分块处理方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101414348A (zh) * | 2007-10-19 | 2009-04-22 | 三星电子株式会社 | 多角度人脸识别方法和系统 |
CN103116762B (zh) * | 2013-03-20 | 2015-10-14 | 南京大学 | 一种基于自调制字典学习的图像分类方法 |
CN103984915B (zh) * | 2014-02-28 | 2017-11-24 | 中国计量学院 | 一种监控视频中行人重识别方法 |
CN107133575B (zh) * | 2017-04-13 | 2020-06-12 | 中原智慧城市设计研究院有限公司 | 一种基于时空特征的监控视频行人重识别方法 |
-
2018
- 2018-03-23 CN CN201810243227.7A patent/CN108596034B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108596034A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mao et al. | Voxel transformer for 3d object detection | |
CN110866896B (zh) | 基于k-means与水平集超像素分割的图像显著性目标检测方法 | |
CN105139004B (zh) | 基于视频序列的人脸表情识别方法 | |
CN111738143B (zh) | 一种基于期望最大化的行人重识别方法 | |
CN108629783B (zh) | 基于图像特征密度峰值搜索的图像分割方法、系统及介质 | |
CN106778768A (zh) | 基于多特征融合的图像场景分类方法 | |
CN111310773A (zh) | 一种高效的卷积神经网络的车牌定位方法 | |
WO2021082168A1 (zh) | 一种场景图像中特定目标对象的匹配方法 | |
Tang et al. | Multi-modal metric learning for vehicle re-identification in traffic surveillance environment | |
CN114792372B (zh) | 一种基于多头两级注意力的三维点云语义分割方法及系统 | |
Chen et al. | Dr-tanet: Dynamic receptive temporal attention network for street scene change detection | |
CN105956560A (zh) | 一种基于池化多尺度深度卷积特征的车型识别方法 | |
CN107085731B (zh) | 一种基于rgb-d融合特征与稀疏编码的图像分类方法 | |
Wang et al. | A comprehensive overview of person re-identification approaches | |
CN109840518B (zh) | 一种结合分类与域适应的视觉追踪方法 | |
CN108596195B (zh) | 一种基于稀疏编码特征提取的场景识别方法 | |
CN105469050B (zh) | 基于局部时空特征描述与金字塔词汇树的视频行为识别方法 | |
CN109165698A (zh) | 一种面向智慧交通的图像分类识别方法及其存储介质 | |
CN106156798A (zh) | 基于环形空间金字塔和多核学习的场景图像分类方法 | |
CN112150359B (zh) | 基于机器学习和特征点识别的无人机图像快速拼接方法 | |
Van Hoai et al. | Feeding Convolutional Neural Network by hand-crafted features based on Enhanced Neighbor-Center Different Image for color texture classification | |
CN108596034B (zh) | 一种基于目标中心编码外观模型的行人重识别方法 | |
CN111860668B (zh) | 一种针对原始3d点云处理的深度卷积网络的点云识别方法 | |
Fan et al. | Siamese graph convolution network for face sketch recognition: an application using graph structure for face photo-sketch recognition | |
CN115311327A (zh) | 融合共现统计与fhog梯度特征的目标跟踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |