CN111104911A - 一种基于大数据训练的行人重识别方法及装置 - Google Patents
一种基于大数据训练的行人重识别方法及装置 Download PDFInfo
- Publication number
- CN111104911A CN111104911A CN201911329869.XA CN201911329869A CN111104911A CN 111104911 A CN111104911 A CN 111104911A CN 201911329869 A CN201911329869 A CN 201911329869A CN 111104911 A CN111104911 A CN 111104911A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- training
- module
- image database
- recognition system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 16
- 230000001815 facial effect Effects 0.000 claims description 10
- 238000013508 migration Methods 0.000 claims description 10
- 230000005012 migration Effects 0.000 claims description 10
- 208000032538 Depersonalisation Diseases 0.000 claims description 7
- 230000006978 adaptation Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/94—Hardware or software architectures specially adapted for image or video understanding
- G06V10/955—Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
Abstract
本发明公开了一种基于大数据训练的行人重识别方法及装置,所述方法包括:获取第一行人图像数据库;利用第一行人图像数据库对重识别系统模型进行分布式训练;将第一行人图像数据库中的图像进行PTGAN处理,获得第二行人图像数据库;对第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型;根据推理线索模型调整重识别系统模型的目标参数的参数值;通过将待识别图像的特征向量输入训练好的重识别系统模型,搜索出相似度最高的行人图像。本发明解决了现有技术中的行人重识别方法跨摄像头的检索难度大,重识别准确率低的问题。
Description
技术领域
本发明涉及计算机视觉和智慧城市技术领域,具体涉及一种基于大数据训练的行人重识别方法、装置、终端设备及计算机可读介质。
背景技术
随着人工智能、计算机视觉和硬件技术的不断发展,视频图像处理技术已经广泛应用于智能城市系统中。
行人重识别(Person Re-identification)也称行人再识别,简称为Re-ID。是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,使得行人重识别成为计算机视觉领域中一个既具有研究价值同时又极具挑战性的热门课题。
目前来说,虽然行人重识别的检测能力已经显著提升,但是在实际场合中很多具有挑战性的问题还没被完全解决:比如在复杂的场景,光线差异,视角和姿势的改变,大量的行人在一个监控摄像头网络中等情况。在这些情况下,跨摄像头的检索通常难度会很大,同时前期进行视频图像样本训练时的标注工作代价昂贵,需要耗费大量的人力,并且往往现有算法通常无法达到预期效果,重识别准确率较低。
发明内容
有鉴于此,本发明的目的在于提供一种基于大数据训练的行人重识别方法、装置、终端设备及计算机可读介质,能够提高不同摄像头下行人重识别的准确率,解决了现有技术中的行人重识别方法跨摄像头的检索难度大,重识别准确率低的问题。
本发明实施例的第一方面提供了一种基于大数据训练的行人重识别方法,包括:
获取第一行人图像数据库,其中,所述第一行人图像数据库包含已标注的行人图像;
利用所述第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的所述重识别系统模型;
将所述第一行人图像数据库中的图像进行PTGAN处理,通过实现行人前景不变的前提下实现背景差异区域的迁移,获得第二行人图像数据库;
对所述第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型;
根据所述推理线索模型调整所述重识别系统模型的目标参数的参数值;
通过将待识别图像的特征向量输入训练好的所述重识别系统模型,搜索出相似度最高的行人图像。
进一步地,所述利用所述第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的所述重识别系统模型,包括:
通过使用多个处理器增大批量大小对所述重识别系统模型进行迭代训练;
根据线性缩放和预热策略算法对所述重识别系统模型进行迭代训练;
应用适应率缩放(LARS)对所述重识别系统模型中的每一层网络使用不同的学习率。
进一步地,在将所述第一行人图像数据库中的图像进行PTGAN处理步骤中,所述PTGAN的损失函数表达示如下:
式中LStyle代表生成的风格损失或区域差异,LID代表生成图像的身份损失。λ1是平衡LStyle和LID的权重。
进一步地,所述对所述第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型包括:
提取行人外观特征;
提取行人面部特征;
根据行人在第二行人图像数据库中不同视频图像的时间和定位特征构建定位分支Markov链,根据定位分支Markov链训练推理线索模型;
使用推理算法对所述推理线索模型进行调整并确定最后的推理线索模型。
本发明实施例的第二方面提供了一种基于大数据训练的行人重识别装置,其特征在于,包括:
获取模块,用于获取第一行人图像数据库,其中,所述第一行人图像数据库包含已标注的行人图像;
分布式训练模块,用于利用所述第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的所述重识别系统模型;
PTGAN处理模块,用于将所述第一行人图像数据库中的图像进行PTGAN处理,通过实现行人前景不变的前提下实现背景差异区域的迁移,获得第二行人图像数据库;
推理线索模块,用于对所述第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型;
调整模块,用于根据所述推理线索模型调整所述重识别系统模型的目标参数的参数值;
识别模块,用于通过将待识别图像的特征向量输入训练好的所述重识别系统模型,搜索出相似度最高的行人图像。
进一步地,所述分布式训练模块包括:
处理器增加模块,用于通过使用多个处理器增大批量大小对所述重识别系统模型进行迭代训练;
批量算法模块,用于根据线性缩放和预热策略算法对所述重识别系统模型进行迭代训练;
学习率调整模块,用于应用适应率缩放(LARS)对所述重识别系统模型中的每一层网络使用不同的学习率。
进一步地,所述PTGAN的损失函数表达示如下:
式中LStyle代表生成的风格损失或区域差异,LID代表生成图像的身份损失。λ1是平衡LStyle和LID的权重。
进一步地,所述推理线索模块包括:
外观提取模块,用于提取行人外观特征;
面部提取模块,用于提取行人面部特征;
定位分支模块,用于根据行人在第二行人图像数据库中不同视频图像的时间和定位特征构建定位分支Markov链,根据定位分支Markov链训练推理线索模型;
推理线索调整模块,用于使用推理算法对所述推理线索模型进行调整并确定最后的推理线索模型。
本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据训练的行人重识别方法的步骤。
本发明实施例的第四方面提供了一种计算机可读介质,所述计算机可读介质存储有计算机程序,所述计算机程序被处理执行时实现上述基于大数据训练的行人重识别方法的步骤。
在本发明实施例中,通过利用所述第一行人图像数据库对重识别系统模型进行分布式训练,大大提高了模型训练的速度,通过使用推理线索模型调整所述重识别系统模型的目标参数的参数值,提高了复杂条件下跨镜头追踪的行人重识别的准确率、提高了系统的鲁棒性。解决了现有技术中的行人重识别方法跨摄像头的检索难度大,重识别准确率低的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于大数据训练的行人重识别方法的流程图;
图2是本发明实施例提供的不同行人重识别方法实时转换效果对比图;
图3是本发明实施例所述的推理算法在关联矩阵上的工作原理图;
图4是本发明实施例提供的一种基于大数据训练的行人重识别装置的结构示意图;
图5是本发明实施例提供的分布式训练模块的细化结构图;
图6是本发明实施例提供的推理线索模块的细化结构图;
图7是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
请参阅图1,图1是本发明实施例提供的基于大数据训练的行人重识别方法的流程图。如图1所示,本实施例的基于大数据训练的行人重识别方法包括以下步骤:
步骤S102,获取第一行人图像数据库,其中,第一行人图像数据库包含已标注的行人图像;
步骤S104,利用第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的重识别系统模型;
进一步地,利用第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的重识别系统模型,包括:
步骤1,通过使用多个处理器增大批量大小对重识别系统模型进行迭代训练。
通过迭代算法,将算法扩展使用到更多的处理器,并在每次迭代时加载更多的行人图像数据,以此来减少总训练时间;
通常来说,在一定范围内,更大的批量将使单个GPU的速度更高。原因是低级矩阵计算库将更有效。对于使用ImageNet训练Res-Net 50模型,每个GPU的最佳批量大小为512。如果想要使用许多GPU并使每个GPU都有效,则需要更大的批量大小。例如,如果有16个GPU,那么应该将批量大小设置为16×512=8192。理想情况下,如果固定总数量访问量,随着处理器数量的增加相应呈线性增加批量大小,那么改进的SGD(随机梯度下降)迭代次数将会线性减小,每次迭代的时间成本保持不变,因此总时间也将随处理器数量线性减少。
具体的改进的随机梯度下降(SGD)迭代算法如下:令w代表DNN的权重、X代表训练数据、n为X中的样本数,而Y代表训练数据X的标注。我们令xi为X的样本,(xi,w)为xi和其标注yi(i∈{1,2,...,n))所计算出的损失。本发明使用如交叉熵函数那样的损失函数。DNN训练的目标是最小化方程(1)中的损失函数。公式如下:
在第t次迭代中,本发明算法使用前向和反向传播以求得损失函数对权重的梯度。然后,使用这个梯度来更新权重,根据梯度更新权重的方程(2)如下:
其中η为学习率。本发明算法令第t次迭代的批量大小为Bt,且Bt的大小为b。然后就可以基于以下方程(3)更新权重:
用此方法,进行迭代,同时尽可能多的用到处理器,能够大幅度线性减少训练时间。
步骤2,根据线性缩放和预热策略算法对重识别系统模型进行迭代训练。
在训练大的批量的时候,需要确保在运行相同数量的时间段(epoch)的情况下,实现与小的批量差不多的测试精度。在这里我们固定了时间段(epoch)的数量,因为:在统计上,一个时间段(epoch)意味着算法会触及整个数据集一次;而在计算上,固定时间段(epoch)的数量意味着固定浮点运算的数量。训练大批量的方法包括两种技术:
(1)线性缩放:将批量从B增加到kB,那么也应该将学习率从η增加到kη。
(2)预热策略:如果使用较大的学习率(η),应该从小的η值开始,然后在前几个时间段(epoch)将其增加到大的η。
通过线性缩放和预热策略,可以在一定范围内使用相对较大的批量数据图像。
步骤3,应用适应率缩放(LARS)对重识别系统模型中的每一层网络使用不同的学习率。
通过应用适应率缩放(LARS)对大批量训练层级进行相应训练,得出最后的快速训练模型。
本发明使用LARS算法来解决这个问题。基本LR规则在等式(1)中定义。l是缩放因子,本算法中在AlexNet和ResNet训练中将l设置为0.001。γ是用户的调整参数。通常一个好的γ,值都在[1,50]之间。在这个等式中,不同的层可以有不同的LR。向SGD添加动量(用μ表示)和权重衰减(用β表示),并对LARS使用以下序列:
得到每个可学习参数的本地LR,
得到每个层的真实LR,为η=γ×α;
用w=w-a来更新权重。
使用这种方法预热(warmup),用有大的批量的SGD可以实现与基准相同的精度。为了扩展到更大的批量大小(例如32k),需要将本地响应规范化(LRN)更改为批量归一化(BN)。本发明方法在每个卷积层之后添加BN。LARS可以帮助ResNet-50保持高的测试精度。当前的方法(线性缩放和预热)对于批量大小为16k和32k的精度要低得多。
步骤S106,将第一行人图像数据库中的图像进行PTGAN处理,通过实现行人前景不变的前提下实现背景差异区域的迁移,获得第二行人图像数据库;
PTGAN(Person Transfer GAN)是一个针对于重识别Re-ID问题的生成对抗网络。本发明中,PTGAN最大的特点就是在尽可能保证行人前景不变的前提下实现背景区域差异的迁移。首先PTGAN网路的损失函数包括两部分:
其中LStyle代表生成的风格损失,或者说区域差异domain损失,就是生成的图像是否像新的数据集风格。LID代表生成图像的身份损失,就是验证生成的图像是否和原始图像是同一个人。该处的λ1是平衡两个损失的权重。这两个损失定义如下:
首先,本发明所说PTGAN的损失函数(Loss)分为两部分;第一部分是LStyle,其具体公式如下:
以上几部分都是正常的PTGAN的损失,目的是为了保证生成的图片和期望的数据集的差异区域(domain)是一样的。
其次,为了保证图片迁移过程中前景不变,先用PSPNet对视频图像进行了一个前景分割,得到一个mask(面具层)区域。通常来说,传统的生成对抗网络如CycleGAN等并不是用于Re-ID任务,因此也不需要保证前景物体的身份信息不变,这样的结果就是前景可能模糊之类的质量很差,更糟糕的现象是行人的外观可能改变。为了解决这个问题,本发明提出LID损失,用PSPNet提取的前景,这个前景就是一个面具层mask,最后身份信息损失为:
其中M(a)和M(b)是两个分割出来的前景面具层,身份信息损失函数(Loss)将会约束行人前景在迁移过程中尽可能的保持不变。
图2显示了不同行人重识别方法实时转换效果对比图,其中,第一行图片为待转换的图片,第四行显示了PTGAN转换的结果,可以看出,与使用Cycle-GAN转换结果的第三行图片相比,PTGAN生成的图像质量更高的。例如,人的外观保持不变,风格被有效地转移到另一个摄像头上。自动生成阴影,道路标记和背景,与另一个摄像头拍摄的效果相似。同时,PTGAN可以很好地处理由PSPNet产生的噪声分割结果。可以看出,本发明算法直观上和传统的环形生成对抗网络等(CycleGAN)相比能够更好的保证行人的身份信息。
步骤S108,对第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型;
本发明使用外观、面部和可能的目的地线索,每个时间戳的特征都是单独提取的,用于跨摄像头的所有检测。
首先从人的检测中提取基于外观的属性,它们以外观的形式捕捉个体的特质和特征。图像表现的共同点是卷积神经网络(CNN)。本发明使用在ImageNet上预先训练过的AlexNet模型作为外观特征的提取器。这是通过移除顶部输出层并使用最后一个完全连接层的激活作为特征(长度4096)来完成的。AlexNet体系结构包括五个卷几层、三个完全连接层和三个紧跟第一、第二和第五卷积层的最大池层。第一卷积层有96个大小为11×11的滤波器,第二层有256个大小为5×5的滤波器,第三、第四和第五层彼此连接而不存在任何干涉池,并且分别具有384/384和256个大小为3×3的滤波器。完全连接层L学习非线性函数其中W和b是输入数据Xi的隐含观测量,分别有各自的权重与偏差,而f是激活隐藏层的校正线性单元。基于上述步骤,对每个时间戳的连续帧视频图像中的行人进行外观特征提取。
其次,提取面部特征,人脸生物识别是一种用于身份识别和验证的已建立的生物识别技术。人脸形态可以用于重识别因为它本质上是一种非接触生物特征,且是可以远程提取的。本发明使用ImageNet上预先训练的VGG-16模型从面部边界框中提取面部特征。这是通过移除顶部的输出层并使用最后一个完全连接层的激活作为面部特征(长度4096)来完成的。VGG-16是一种卷积神经网络,其结构由13个卷积层和3个完全连接层组成,过滤器尺寸为3×3。池将运用于具有2×2像素窗口的卷积层之间,步幅为2。训练集的平均减法用作预处理步骤。
同时,本发明描述了位置约束,它本质上是线性的,并且预测了摄像机内部和穿过摄像机之间的最可能路径。对于多个摄像头中的重识别和跟踪,有关可能目的地的知识被当做某个人出现在另一个摄像头视野中的先验判断。通常,通过学习摄像机网络中出现的重复模式来模拟过渡概率分布。从特定网格空间退出摄像机视图的个人很可能会从另一个特定网格空间进入另一个摄像机视图。本发明将状态转移概率分布建模为Markov链,每个摄像机视图被分为n个状态,假设有k个摄像机,则状态的总数N=n×k。一个Markov链被描述为一个n×n的转移概率矩阵p,每个条目在区间[0,1]内,每一行的条目之和加起来为1。
因此,利用Markov性质,将状态Si和Sj之间转换的概率分布估计为:
进行上述多尺度特征提取后,训练出推理线索模型。
进一步地,使用推理算法对推理线索模型进行调整并确定最后的推理线索模型。
在每个时间步长中,重识别的问题都可以用关联矩阵来表示,其中每一行表示一个以前看到的实体,列包含当前活动的实体。根据相关实体的特征或属性,将每行与列之间进行最佳关联的任务可以表示为一个线性规划问题,如下所示:
s.t W∈[0,1],W1=1,1TW=1
其中p是关联矩阵或概率矩阵,用于存储被关联实体的匹配概率,w是要优化的权重矩阵。图3描述了建议的推理算法是如何在关联矩阵P上工作的。关联矩阵中的匹配概率是使用预训练Alexnet和VGG-16模型分别计算的每个中层属性和面特征的余弦距离,或者是位置分数,即实体之间可能移动模式的转换概率模型。
约束w1=1的作用是规范列与列之间的匹配概率,并强制它们对每个先前的实体求和为1。从这个约束的表达式来看,很明显,对于每个先前实体的关联概率集只有一个极大值。这意味着每个以前的实体最多只能与一个当前实体关联。因此,选择权重矩阵w的值本质上减少为最佳关联分配1的值,因此,计算最佳可能关联等价于按顺序选择最大匹配概率的贪婪方法。最后,结合各特征提取的约束条件,确定最后的推理线索模型。
整体目标函数可以表示为:
其中Θ表示推理模型中的参数。L1,L2和L3分别表示面部,外观,定位分支中的分类损失。λ1,λ2,λ3表示相应损失的权重。
步骤S110,根据推理线索模型调整重识别系统模型的目标参数的参数值;
步骤S112,通过将待识别图像的特征向量输入训练好的重识别系统模型,搜索出相似度最高的行人图像。
其中,可以采用余弦距离计算相似度,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。公式如下:
计算得到的数值越小,则相似度越高。
在本发明实施例中,通过利用所述第一行人图像数据库对重识别系统模型进行分布式训练,大大提高了模型训练的速度,通过使用推理线索模型调整所述重识别系统模型的目标参数的参数值,提高了复杂条件下跨镜头追踪的行人重识别的准确率、提高了系统的鲁棒性。解决了现有技术中的行人重识别方法跨摄像头的检索难度大,重识别准确率低的问题。
请参阅图4,图4是本发明实施例提供的一种基于大数据训练的行人重识别装置的结构框图。如图4所示,本实施例的基于大数据训练的行人重识别20包括获取模块202、分布式训练模块204、PTGAN处理模块206、推理线索模块208、调整模块210和识别模块212。获取模块202、分布式训练模块204、PTGAN处理模块206、推理线索模块208、调整模块210和识别模块212分别用于执行图1中的S102、S104、S106、S108、S110、S112中的具体方法,详情可参见图1的相关介绍,在此仅作简单描述:
获取模块202,用于获取第一行人图像数据库,其中,第一行人图像数据库包含已标注的行人图像;
分布式训练模块204,用于利用第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的重识别系统模型;
PTGAN处理模块206,用于将第一行人图像数据库中的图像进行PTGAN处理,通过实现行人前景不变的前提下实现背景差异区域的迁移,获得第二行人图像数据库;
推理线索模块208,用于对第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型;
调整模块210,用于根据推理线索模型调整重识别系统模型的目标参数的参数值;
识别模块212,用于通过将待识别图像的特征向量输入训练好的重识别系统模型,搜索出相似度最高的行人图像。
进一步地,可参见图5,分布式训练模块204包括:
处理器增加模块2041,用于通过使用多个处理器增大批量大小对重识别系统模型进行迭代训练;
批量算法模块2042,用于根据线性缩放和预热策略算法对重识别系统模型进行迭代训练;
学习率调整模块2043,用于应用适应率缩放(LARS)对重识别系统模型中的每一层网络使用不同的学习率。
进一步地,PTGAN的损失函数表达示如下:
式中LStyle代表生成的风格损失或区域差异,LID代表生成图像的身份损失。λ1是平衡LStyle和LID的权重。
进一步地,可参见图6,推理线索模块208包括:
外观提取模块2081,用于提取行人外观特征;
面部提取模块2082,用于提取行人面部特征;
定位分支模块2083,用于根据行人在第二行人图像数据库中不同视频图像的时间和定位特征构建定位分支Markov链,根据定位分支Markov链训练推理线索模型;
推理线索调整模块2084,用于使用推理算法对推理线索模型进行调整并确定最后的推理线索模型。
在本发明实施例中,通过分布式训练模块204利用所述第一行人图像数据库对重识别系统模型进行分布式训练,大大提高了模型训练的速度,通过使用推理线索模型调整所述重识别系统模型的目标参数的参数值,提高了复杂条件下跨镜头追踪的行人重识别的准确率、提高了系统的鲁棒性。解决了现有技术中的行人重识别方法跨摄像头的检索难度大,重识别准确率低的问题。
图7是本发明一实施例提供的终端设备的示意图。如图7所示,该实施例的终端设备10包括:处理器100、存储器101以及存储在所述存储器101中并可在所述处理器100上运行的计算机程序102,例如进行基于大数据训练的行人重识别的程序。所述处理器100执行所述计算机程序102时实现上述方法实施例中的步骤,例如,图1所示的S102、S104、S106、S108、S110、S112的步骤。或者,所述处理器100执行所述计算机程序102时实现上述各装置实施例中各模块/单元的功能,例如图7所示的获取模块202、分布式训练模块204、PTGAN处理模块206、推理线索模块208、调整模块210和识别模块212的功能。
示例性的,所述计算机程序102可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器101中,并由所述处理器100执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序102在终端设备10中的执行过程。例如,所述计算机程序102可以被分割成获取模块202、分布式训练模块204、PTGAN处理模块206、推理线索模块208、调整模块210和识别模块212。(虚拟装置中的模块),各模块具体功能如下:
获取模块202,用于获取第一行人图像数据库,其中,第一行人图像数据库包含已标注的行人图像;
分布式训练模块204,用于利用第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的重识别系统模型;
PTGAN处理模块206,用于将第一行人图像数据库中的图像进行PTGAN处理,通过实现行人前景不变的前提下实现背景差异区域的迁移,获得第二行人图像数据库;
推理线索模块208,用于对第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型;
调整模块210,用于根据推理线索模型调整重识别系统模型的目标参数的参数值;
识别模块212,用于通过将待识别图像的特征向量输入训练好的重识别系统模型,搜索出相似度最高的行人图像。
所述终端设备10可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备10可包括,但不仅限于,处理器100、存储器101。本领域技术人员可以理解,图7仅仅是终端设备10的示例,并不构成对终端设备10的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器100可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器101可以是终端设备10的内部存储单元,例如终端设备10的硬盘或内存。所述存储器101也可以是终端设备10的外部存储设备,例如所述终端设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器101还可以既包括终端设备10的内部存储单元也包括外部存储设备。所述存储器101用于存储所述计算机程序以及终端设备10所需的其他程序和数据。所述存储器101还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据训练的行人重识别方法,其特征在于,包括:
获取第一行人图像数据库,其中,所述第一行人图像数据库包含已标注的行人图像;
利用所述第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的所述重识别系统模型;
将所述第一行人图像数据库中的图像进行PTGAN处理,通过实现行人前景不变的前提下实现背景差异区域的迁移,获得第二行人图像数据库;
对所述第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型;
根据所述推理线索模型调整所述重识别系统模型的目标参数的参数值;
通过将待识别图像的特征向量输入训练好的所述重识别系统模型,搜索出相似度最高的行人图像。
2.根据权利要求1所述的基于大数据训练的行人重识别方法,其特征在于,所述利用所述第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的所述重识别系统模型,包括:
通过使用多个处理器增大批量大小对所述重识别系统模型进行迭代训练;
根据线性缩放和预热策略算法对所述重识别系统模型进行迭代训练;
应用适应率缩放(LARS)对所述重识别系统模型中的每一层网络使用不同的学习率。
4.根据权利要求3所述的基于大数据训练的行人重识别方法,其特征在于,所述对所述第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型包括:
提取行人外观特征;
提取行人面部特征;
根据行人在第二行人图像数据库中不同视频图像的时间和定位特征构建定位分支Markov链,根据定位分支Markov链训练推理线索模型;
使用推理算法对所述推理线索模型进行调整并确定最后的推理线索模型。
5.一种基于大数据训练的行人重识别装置,其特征在于,包括:
获取模块,用于获取第一行人图像数据库,其中,所述第一行人图像数据库包含已标注的行人图像;
分布式训练模块,用于利用所述第一行人图像数据库对重识别系统模型进行分布式训练,得到训练之后的所述重识别系统模型;
PTGAN处理模块,用于将所述第一行人图像数据库中的图像进行PTGAN处理,通过实现行人前景不变的前提下实现背景差异区域的迁移,获得第二行人图像数据库;
推理线索模块,用于对所述第二行人图像数据库中的图像进行多维度特征提取并确定推理线索模型;
调整模块,用于根据所述推理线索模型调整所述重识别系统模型的目标参数的参数值;
识别模块,用于通过将待识别图像的特征向量输入训练好的所述重识别系统模型,搜索出相似度最高的行人图像。
6.根据权利要求5所述的基于大数据训练的行人重识别装置,其特征在于,所述分布式训练模块包括:
处理器增加模块,用于通过使用多个处理器增大批量大小对所述重识别系统模型进行迭代训练;
批量算法模块,用于根据线性缩放和预热策略算法对所述重识别系统模型进行迭代训练;
学习率调整模块,用于应用适应率缩放(LARS)对所述重识别系统模型中的每一层网络使用不同的学习率。
8.根据权利要求6所述的基于大数据训练的行人重识别装置,其特征在于,所述推理线索模块包括:
外观提取模块,用于提取行人外观特征;
面部提取模块,用于提取行人面部特征;
定位分支模块,用于根据行人在第二行人图像数据库中不同视频图像的时间和定位特征构建定位分支Markov链,根据定位分支Markov链训练推理线索模型;
推理线索调整模块,用于使用推理算法对所述推理线索模型进行调整并确定最后的推理线索模型。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述方法的步骤。
10.一种计算机可读介质,所述计算机可读介质存储有计算机程序,其特征在于,所述计算机程序被处理执行时实现如权利要求1-4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911329869.XA CN111104911A (zh) | 2019-12-20 | 2019-12-20 | 一种基于大数据训练的行人重识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911329869.XA CN111104911A (zh) | 2019-12-20 | 2019-12-20 | 一种基于大数据训练的行人重识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111104911A true CN111104911A (zh) | 2020-05-05 |
Family
ID=70422877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911329869.XA Pending CN111104911A (zh) | 2019-12-20 | 2019-12-20 | 一种基于大数据训练的行人重识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104911A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及系统 |
CN113673245A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、电子设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256439A (zh) * | 2017-12-26 | 2018-07-06 | 北京大学 | 一种基于循环生成式对抗网络的行人图像生成方法及系统 |
CN109716346A (zh) * | 2016-07-18 | 2019-05-03 | 河谷生物组学有限责任公司 | 分布式机器学习系统、装置和方法 |
-
2019
- 2019-12-20 CN CN201911329869.XA patent/CN111104911A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109716346A (zh) * | 2016-07-18 | 2019-05-03 | 河谷生物组学有限责任公司 | 分布式机器学习系统、装置和方法 |
CN108256439A (zh) * | 2017-12-26 | 2018-07-06 | 北京大学 | 一种基于循环生成式对抗网络的行人图像生成方法及系统 |
Non-Patent Citations (1)
Title |
---|
郑娇: "基于时空转移模型的监控目标交接算法研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914668A (zh) * | 2020-07-08 | 2020-11-10 | 浙江大华技术股份有限公司 | 一种基于图像增强技术的行人重识别方法、装置及系统 |
CN113673245A (zh) * | 2021-07-15 | 2021-11-19 | 北京三快在线科技有限公司 | 实体识别方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
WO2021043168A1 (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
Ansari et al. | Nearest neighbour classification of Indian sign language gestures using kinect camera | |
WO2021022521A1 (zh) | 数据处理的方法、训练神经网络模型的方法及设备 | |
RU2427911C1 (ru) | Способ обнаружения лиц на изображении с применением каскада классификаторов | |
AlDahoul et al. | Real-time human detection for aerial captured video sequences via deep models | |
CN109657533A (zh) | 行人重识别方法及相关产品 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN111126249A (zh) | 一种大数据和贝叶斯相结合的行人重识别方法及装置 | |
CN111178251A (zh) | 一种行人属性识别方法及系统、存储介质及终端 | |
CN111368672A (zh) | 一种用于遗传病面部识别模型的构建方法及装置 | |
CN111291612A (zh) | 一种基于多人多摄像头跟踪的行人重识别方法及装置 | |
CN113569598A (zh) | 图像处理方法和图像处理装置 | |
Fan | Research and realization of video target detection system based on deep learning | |
Chen et al. | A multi-scale fusion convolutional neural network for face detection | |
CN115223239A (zh) | 一种手势识别方法、系统、计算机设备以及可读存储介质 | |
Wang et al. | A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax | |
CN111104911A (zh) | 一种基于大数据训练的行人重识别方法及装置 | |
CN111666976A (zh) | 基于属性信息的特征融合方法、装置和存储介质 | |
CN111126250A (zh) | 一种基于ptgan的行人重识别方法及装置 | |
Ben Mahjoub et al. | An efficient end-to-end deep learning architecture for activity classification | |
CN113762331A (zh) | 关系型自蒸馏方法、装置和系统及存储介质 | |
Gori et al. | Semantic video labeling by developmental visual agents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |