CN112257553A - 一种基于循环矩阵的行人重识别方法 - Google Patents
一种基于循环矩阵的行人重识别方法 Download PDFInfo
- Publication number
- CN112257553A CN112257553A CN202011121826.5A CN202011121826A CN112257553A CN 112257553 A CN112257553 A CN 112257553A CN 202011121826 A CN202011121826 A CN 202011121826A CN 112257553 A CN112257553 A CN 112257553A
- Authority
- CN
- China
- Prior art keywords
- matrix
- picture
- positive sample
- anchor
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于人工智能技术领域,提供了一种基于循环矩阵的行人重识别方法,循环矩阵的的思路运用到了行人重识别领域,通过加入循环矩阵解决了行人重识别中大多数图片人不对齐的问题。最后在选取训练样本中,选取了最不相近的正样本对,最相近的负样本对,这样最难的训练可以使本发明的网络更加鲁棒,并且具有泛化能力。我们的发明在数据集Market1501比baseline提高了2‑3个百分点,证明我们发明的有效性。
Description
技术领域
本发明属于人工智能技术领域,涉及到计算机视觉,特别涉及到一种基于循环矩阵的行人重识别方法。
背景技术
近年来,行人重识别变得越来越火,主要是因为它的应用场景很广阔。公共场所安装监控摄像保证了个人财产生命的安全,在公共交通中,查找违法车辆,追踪车辆轨迹;在大型广场中,查找失踪儿童,帮扶孤寡老人等等,现在都离不开行人重识别技术。
然而行人重识别技术在很多方面都面临了挑战,例如行人之间的遮挡问题,由于摄像头安装角度,导致行人图片的不对齐问题,摄像头参数不一致,行人姿态发生变化等等问题,都是现在主要的研究挑战。
发明内容
本发明要解决的技术问题是:弥补上述现有方法的不足,提出一种基于循环矩阵的行人重识别方法,解决了行人图片中不对齐的问题。
本发明的技术方案:
一种基于循环矩阵的行人重识别方法,步骤如下:
(1)首先,划分行人重识别数据集Market1501,一半数据分为训练集数据,一半数据为测试集数据;
在训练集中取anchor为待预测图片,再选取与之具有相同身份的人的图片为正样本图片,与之身份不同的人的图片为负样本,这样三张图片组成一个三元组,作为特征网络的输入;
(2)三元组图片的每一张图片都是一张彩色图,有三个通道信息,大小是3*256*128;图片通过大小为7*7卷积核进行特征提取,之后是一个最大池化层来降低图片分辨率;随后经过四个卷积块结构,每一个块结构中都是由三个卷积层构成,卷积核大小分别为1*1,3*3和1*1;在每一个卷积核之后都跟随着一个BN层和Relu层,其中BN层是BatchNorm层,ReLu层是激活函数层;经过上述网络特征的提取之后,生成了特征大小变成w*h*C的三维特征图,其中w表示特征图的宽度,h表示特征图的高度,C表示特征图的通道数;
(3)上述生成的三维特征图经过循环矩阵大小变为(w*h)*(w*h)*C;循环矩阵的公式为,X=F*diag(x^)*FH,其中F表示离散傅里叶矩阵,FH表示离散傅里叶矩阵的共轭转置矩阵,x表示输入到循环矩阵的三维特征,diag表示是矩阵取对角矩阵的操作,这里我们选取当时4个点和8个点的离散傅里叶矩阵;循环矩阵是一个方阵,其中第一行,或者第一列为原来特征向量的原始向量,第二行向量是第一行向量向右平移一个单位,这是一个一维特征向量的循环矩阵;二维特征向量是一维特征向量循环矩阵的延伸,这其中用到了块循环矩阵;块循环矩阵把矩阵分块,每一块放在一起进行上下左右平移构成二维循环矩阵;经过循环矩阵后,在通道层次上进行降维归一化,我们这里选取通道上的平均池化技术,对于(w*h)*(w*h)上的每一个点跨通道加和再除以通道数,最后对于每一个三元组图片都会变为(w*h)*(w*h)大小的二维特征图;
(4)三元组图片经过循环矩阵后,选取最不相近正样本对和最相近负样本对进行最后的损失函数计算;首先,anchor最后生成的(w*h)*(w*h)大小的特征图,正样本和负样本分辨率与之相同;三元组图片特征图的每一行或者每一列都是原来图片位置的平移结果;因此可以解决行人重识别中人像不对齐的问题;其次,我们要把anchor与正样本组成正样本对,anchor与负样本组成负样本对;在正样本对中,我们取两个特征图进行矩阵相乘,生成的矩阵大小也是(w*h)*(w*h),其上每一个点(i,j)表示anchor的第i行与正样本对第j列相乘的结果,表示两种平移之后相似度的一种度量;这样我们在正样本对中选取结果最小正样本对进行训练,可以训练出鲁棒的特征;同理在负样本对中,anchor和负样本两个特征矩阵相乘,生成的矩阵中的每一个点也代表平移之后的一种相似性度量,不过在负样本中我们选取了相似度最大的负样本参与训练,其原因和正样本相同,都是为了训练出更鲁棒的特征;
(5)选择的损失函数是难样本采样的三元组损失函数;难样本采样三元组损失函数是输入一次性输入三个特征,包络正样本对和负样本对;通过三元组损失函数,它使正样本对之间距离变小,使负样本对之间变大;而从达到聚类的效果,类内间距变小,类间距离变大;在具体选择样本的时候,我们选择了最难训练的正样本对和负样本对;也就是最不像的正样本以及最像的负样本对,进行训练;这样可以学到更鲁棒的特征,也会减少样本数量不够的压力;损失函数如下:其中L为损失函数,()+操作为与数0比取最大值;a是anchor图片,p是正样本图片,n表示负样本图片,d表示上述矩阵相乘后的相似性度量,max表是最大值,min表示取最小值,α表示正负样本对距离间隔的阙值;通过深度学习网络框架回传梯度,更新网络参数,使损失函数的值不断下降,最终趋于稳定,即训练完成。
本发明的有益效果:本发明实现了基于卷积神经网络的行人重识别网络框架。设计了一个由resnet50网络特征提取器提取的特征,送入到三元组损失函数里,构成了一个端到端的整体网络。
本文的创新点在于基于循环矩阵解决了图片的不对齐问题,该方法利用特征矩阵通过循环矩阵生成了图片中的人在所有位置的一个大的特征矩阵,其中,该矩阵中的每一个行向量与列向量都是原图片中人的位置的一个平移,从而我们可以得到一个最佳位置的特征向量,再对该特征向量进行匹配与度量,进而解决图片不对齐问题。本文在在Market1501上比baseline高出2-3个百分点,说明本算法的有效性。
附图说明
图1是本发明的基本网络图。
图2是循环矩阵的具体架构。
图3本发明在Market1501上的检测结果。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。本发明的构思是:由于行人重识别数据集中大多数图片里面的人物没有对齐,导致在做度量学习的时候,不能很精确对比两张图片是否具有相同的身份。本发明利用特征矩阵通过循环矩阵生成了图片中的人在所有位置的一个大的特征矩阵,其中,该矩阵中的每一个行向量与列向量都是原图片中人的位置的一个平移,从而我们可以得到一个最佳位置的特征向量,再对该特征向量进行匹配与度量,进而解决图片不对齐问题。
本发明在选取正负样本时候,选取了最不相近的正样本对,最相近的负样本对,通过最难的训练,这样可以学习到鲁棒性的特征,使网络具有更强的泛化能力。
本发明具体实施如下:
(1)首先,划分行人重识别数据集Market1501,一半数据分为训练集数据,一半数据为测试集数据。
在训练集中取anchor为待预测图片,再选取与之具有相同身份的人的图片为正样本图片,与之身份不同的人的图片为负样本,这样三张图片组成一个三元组,作为特征网络的输入。
(2)三元组图片的每一张图片都是一张彩色图,有三个通道信息,大小是3*256*128。图片通过大小为7*7卷积核进行特征提取,之后是一个最大池化层来降低图片分辨率。随后经过四个卷积块结构,每一个块结构中都是由三个卷积层构成,卷积核大小分别为1*1,3*3和1*1。在每一个卷积核之后都跟随着一个BN层和Relu层,其中BN层是BatchNorm层,ReLu层是激活函数层。经过上述网络特征的提取之后,生成了特征大小变成w*h*C的三维特征图,其中w表示特征图的宽度,h表示特征图的高度,C表示特征图的通道数。
(3)上述生成的三维特征图经过循环矩阵大小变为(w*h)*(w*h)*C。循环矩阵的公式为,其中F表示离散傅里叶矩阵,FH表示离散傅里叶矩阵的共轭转置矩阵,x表示输入到循环矩阵的三维特征,diag表示是矩阵取对角矩阵的操作,这里我们选取当时4个点和8个点的离散傅里叶矩阵。循环矩阵是一个方阵,其中第一行,或者第一列为原来特征向量的原始向量,第二行向量是第一行向量向右平移一个单位,这是一个一维特征向量的循环矩阵。二维特征向量是一维特征向量循环矩阵的延伸,这其中用到了块循环矩阵。块循环矩阵把矩阵分块,我们把每一块放在一起进行上下左右平移构成二维循环矩阵。经过循环矩阵后,在通道层次上进行降维归一化,我们这里选取通道上的平均池化技术,对于(w*h)*(w*h)上的每一个点跨通道加和再除以通道数,最后对于每一个三元组图片都会变为(w*h)*(w*h)大小的二维特征图。
(4)三元组图片经过循环矩阵后,选取最不相近正样本对和最相近负样本对进行最后的损失函数计算。首先,anchor最后生成的(w*h)*(w*h)大小的特征图,正样本和负样本分辨率与之相同。对于三元组图片特征图的每一行或者每一列都是原来图片位置的平移结果。因此可以解决行人重识别中人像不对齐的问题。其次,我们要把anchor与正样本组成正样本对,anchor与负样本组成负样本对。在正样本对中,我们取两个特征图进行矩阵相乘,生成的矩阵大小也是(w*h)*(w*h),其上每一个点(i,j)表示anchor的第i行与正样本对第j列相乘的结果,表示两种平移之后相似度的一种度量。这样我们在正样本对中选取结果最小正样本对进行训练,可以训练出鲁棒的特征。同理在负样本对中,anchor和负样本两个特征矩阵相乘,生成的矩阵中的每一个点也代表平移之后的一种相似性度量,不过在负样本中我们选取了相似度最大的负样本参与训练,其原因和正样本相同,都是为了训练出更鲁棒的特征。
(5)选择的损失函数是难样本采样的三元组损失函数。难样本采样三元组损失函数是输入一次性输入三个特征,包络正样本对和负样本对。通过三元组损失函数,它使正样本对之间距离变小,使负样本对之间变大。而从达到聚类的效果,类内间距变小,类间距离变大。在具体选择样本的时候,我们选择了最难训练的正样本对和负样本对。也就是最不像的正样本以及最像的负样本对,进行训练。这样可以学到更鲁棒的特征,也会减少样本数量不够的压力。损失函数如下:其中L为损失函数,()+操作为与数0比取最大值。a是anchor图片,p是正样本图片,n表示负样本图片,d表示上述矩阵相乘后的相似性度量,max表是最大值,min表示取最小值,α表示正负样本对距离间隔的阙值。通过深度学习网络框架回传梯度,更新网络参数,使损失函数的值不断下降,最终趋于稳定,即训练完成。
Claims (1)
1.一种基于循环矩阵的行人重识别方法,其特征在于,步骤如下:
(1)首先,划分行人重识别数据集Market1501,一半数据为训练集,一半数据为测试集;
在训练集中取anchor为待预测图片,再选取与之具有相同身份的人的图片为正样本图片,与之身份不同的人的图片为负样本,这样三张图片组成一个三元组,作为特征网络的输入;
(2)三元组图片的每一张图片都是一张彩色图,有三个通道信息,大小是3*256*128;图片通过大小为7*7卷积核进行特征提取,之后是一个最大池化层来降低图片分辨率;随后经过四个卷积块结构,每一个卷积块结构中都是由三个卷积层构成,卷积核大小分别为1*1,3*3和1*1;在每一个卷积核之后都跟随着BN层和Relu层,其中BN层是BatchNorm层,ReLu层是激活函数层;经过上述网络特征的提取之后,生成了特征大小变成w*h*C的三维特征图,其中w表示特征图的宽度,h表示特征图的高度,C表示特征图的通道数;
(3)上述生成的三维特征图经过循环矩阵大小变为(w*h)*(w*h)*C;循环矩阵的公式为,其中F表示离散傅里叶矩阵,FH表示离散傅里叶矩阵的共轭转置矩阵,x表示输入到循环矩阵的三维特征,diag表示是矩阵取对角矩阵的操作,选取当时4个点和8个点的离散傅里叶矩阵;循环矩阵是方阵,其中第一行或第一列为原来特征向量的原始向量,第二行向量为第一行向量向右平移一个单位,是一个一维特征向量的循环矩阵;二维特征向量是一维特征向量循环矩阵的延伸,其中用到了块循环矩阵;块循环矩阵把矩阵分块,每一块放在一起进行上下左右平移构成二维循环矩阵;经过循环矩阵后,在通道层次上进行降维归一化,选取通道上的平均池化技术,对于(w*h)*(w*h)上的每一个点跨通道加和再除以通道数,最后对于每一个三元组图片都变为(w*h)*(w*h)大小的二维特征图;
(4)三元组图片经过循环矩阵后,选取最不相近正样本对和最相近负样本对进行最后的损失函数计算;首先,anchor最后生成的(w*h)*(w*h)大小的特征图,正样本和负样本分辨率与之相同;三元组图片特征图的每一行或每一列都是原来图片位置的平移结果;其次,把anchor与正样本组成正样本对,anchor与负样本组成负样本对;在正样本对中,取两个特征图进行矩阵相乘,生成的矩阵大小也是(w*h)*(w*h),其上每一个点(i,j)表示anchor的第i行与正样本对第j列相乘的结果,表示两种平移之后相似度的一种度量;在正样本对中选取结果最小正样本对进行训练,训练出鲁棒的特征;同理在负样本对中,anchor和负样本两个特征矩阵相乘,生成的矩阵中的每一个点也代表平移之后的一种相似性度量,在负样本中选取相似度最大的负样本参与训练,训练出鲁棒的特征;
(5)选择的损失函数是难样本采样的三元组损失函数;难样本采样三元组损失函数是输入一次性输入三个特征,包络正样本对和负样本对;通过三元组损失函数,使正样本对之间距离变小,使负样本对之间变大;而从达到聚类的效果,类内间距变小,类间距离变大;在具体选择样本的时候,选择最难训练的正样本对和负样本对;也就是最不像的正样本以及最像的负样本对,进行训练;损失函数如下:其中L为损失函数,()+操作为与数0比取最大值;a是anchor图片,p是正样本图片,n表示负样本图片,d表示上述矩阵相乘后的相似性度量,max表是最大值,min表示取最小值,α表示正负样本对距离间隔的阙值;通过深度学习网络框架回传梯度,更新网络参数,使损失函数的值不断下降,最终趋于稳定,即训练完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121826.5A CN112257553B (zh) | 2020-10-20 | 2020-10-20 | 一种基于循环矩阵的行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011121826.5A CN112257553B (zh) | 2020-10-20 | 2020-10-20 | 一种基于循环矩阵的行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112257553A true CN112257553A (zh) | 2021-01-22 |
CN112257553B CN112257553B (zh) | 2022-09-27 |
Family
ID=74245595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011121826.5A Active CN112257553B (zh) | 2020-10-20 | 2020-10-20 | 一种基于循环矩阵的行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112257553B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569657A (zh) * | 2021-07-05 | 2021-10-29 | 浙江大华技术股份有限公司 | 一种行人重识别方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108754A (zh) * | 2017-12-15 | 2018-06-01 | 北京迈格威科技有限公司 | 重识别网络的训练、重识别方法、装置和系统 |
CN110135295A (zh) * | 2019-04-29 | 2019-08-16 | 华南理工大学 | 一种基于迁移学习的无监督行人重识别方法 |
CN110175511A (zh) * | 2019-04-10 | 2019-08-27 | 杭州电子科技大学 | 一种嵌入正负样本对距离分布的行人重识别方法 |
CN110929558A (zh) * | 2019-10-08 | 2020-03-27 | 杭州电子科技大学 | 一种基于深度学习的行人重识别方法 |
CN111597876A (zh) * | 2020-04-01 | 2020-08-28 | 浙江工业大学 | 一种基于困难五元组的跨模态行人重识别方法 |
-
2020
- 2020-10-20 CN CN202011121826.5A patent/CN112257553B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108754A (zh) * | 2017-12-15 | 2018-06-01 | 北京迈格威科技有限公司 | 重识别网络的训练、重识别方法、装置和系统 |
CN110175511A (zh) * | 2019-04-10 | 2019-08-27 | 杭州电子科技大学 | 一种嵌入正负样本对距离分布的行人重识别方法 |
CN110135295A (zh) * | 2019-04-29 | 2019-08-16 | 华南理工大学 | 一种基于迁移学习的无监督行人重识别方法 |
CN110929558A (zh) * | 2019-10-08 | 2020-03-27 | 杭州电子科技大学 | 一种基于深度学习的行人重识别方法 |
CN111597876A (zh) * | 2020-04-01 | 2020-08-28 | 浙江工业大学 | 一种基于困难五元组的跨模态行人重识别方法 |
Non-Patent Citations (2)
Title |
---|
周刊等: "基于深度度量学习的行人重识别方法", 《传感器与微系统》 * |
陈兵等: "基于卷积神经网络判别特征学习的行人重识别", 《光学学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569657A (zh) * | 2021-07-05 | 2021-10-29 | 浙江大华技术股份有限公司 | 一种行人重识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112257553B (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cherian et al. | Riemannian dictionary learning and sparse coding for positive definite matrices | |
Gul et al. | A new methodology in steganalysis: breaking highly undetectable steganograpy (HUGO) | |
CN113420742B (zh) | 一种用于车辆重识别的全局注意力网络模型 | |
Moghaddasi et al. | Improving RLRN image splicing detection with the use of PCA and kernel PCA | |
CN108154133B (zh) | 基于非对称联合学习的人脸画像-照片识别方法 | |
CN109190513A (zh) | 结合图像显著性检测和神经网络的车辆重识别方法与系统 | |
CN111046964A (zh) | 一种基于卷积神经网络的人和车辆红外热图像识别方法 | |
CN110781766B (zh) | 基于特征谱正则化的格拉斯曼流形判别分析图像识别方法 | |
Akbulut et al. | Deep learning based face liveness detection in videos | |
CN107862680B (zh) | 一种基于相关滤波器的目标跟踪优化方法 | |
CN108764096B (zh) | 一种行人重识别系统和方法 | |
CN111612024B (zh) | 特征提取方法、装置、电子设备及计算机可读存储介质 | |
Thakur et al. | Machine learning based saliency algorithm for image forgery classification and localization | |
CN112257553B (zh) | 一种基于循环矩阵的行人重识别方法 | |
Huang et al. | Human emotion recognition based on face and facial expression detection using deep belief network under complicated backgrounds | |
CN116052025A (zh) | 一种基于孪生网络的无人机视频图像小目标跟踪方法 | |
CN103714340A (zh) | 基于图像分块的自适应特征提取方法 | |
CN111259780A (zh) | 一种基于分块线性重构鉴别分析的单样本人脸识别方法 | |
Faraji et al. | Face recognition under varying illuminations with multi-scale gradient maximum response | |
CN115830637B (zh) | 一种基于姿态估计和背景抑制的遮挡行人重识别方法 | |
Babbar et al. | Cross-age face recognition using deep residual networks | |
CN109919056B (zh) | 一种基于判别式主成分分析的人脸识别方法 | |
CN116645718A (zh) | 一种基于多流架构的微表情识别方法及系统 | |
Janarthanan et al. | An Efficient Face Detection and Recognition System Using RVJA and SCNN | |
Tian et al. | A Novel Deep Embedding Network for Building Shape Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |