CN109635634B - 一种基于随机线性插值的行人再识别数据增强方法 - Google Patents

一种基于随机线性插值的行人再识别数据增强方法 Download PDF

Info

Publication number
CN109635634B
CN109635634B CN201811268388.8A CN201811268388A CN109635634B CN 109635634 B CN109635634 B CN 109635634B CN 201811268388 A CN201811268388 A CN 201811268388A CN 109635634 B CN109635634 B CN 109635634B
Authority
CN
China
Prior art keywords
sample
pedestrian
training
samples
enhanced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811268388.8A
Other languages
English (en)
Other versions
CN109635634A (zh
Inventor
郭军
李智
陈�峰
许鹏飞
刘宝英
孟宪佳
常晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201811268388.8A priority Critical patent/CN109635634B/zh
Publication of CN109635634A publication Critical patent/CN109635634A/zh
Application granted granted Critical
Publication of CN109635634B publication Critical patent/CN109635634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于随机线性插值的行人再识别数据增强方法,采用随机线性插值方法用以增加原始行人再识别数据集中的样本数量,并且利用了大量的具有不同遮挡等级的行人图像样本,以获得数据集中更加丰富的行人数据分布信息。然后,通过使用基准的深度学习网络模型对增强后的数据集进行学习,提升了模型的泛化能力,降低行人再识别的Rank‑1匹配的误差。

Description

一种基于随机线性插值的行人再识别数据增强方法
技术领域
本发明涉及视频监控和数据处理领域,具体涉及一种基于随机线性插值的行人再识别数据增强方法。
背景技术
随着深度学习的快速发展,越来越多的卷积神经网络模型有效地处理图像分类,目标检测等问题计算机视觉任务,但是为了保证大型卷积网络模型对于小规模数据的泛化能力,尤其是当识别不同摄像机视角中的行人,正在面临着数据集较小的挑战,数据增强方法显得十分重要。传统的数据增强方法都是对单一的数据进行增强,包括了随机裁剪,随机翻转和随机擦除等算法,而在行人再识别数据集上,考虑到卷积网络模型需要对具有遮挡和不同灯光背景的数据样本有很好的识别能力,只针对单个样本的数据增强方法略有不足。因此,为了使得卷积神经网络模型对复杂背景样本识别的泛化性提高,基于样本间的数据增强方法应运而生。
数据增强是一种数据预处理方法,它是从原始数据集中生成新的训练样本,被广泛用于增加图像中数据集的大小。而且,数据增加由于具有降低过拟合风险的能力,因此在深度学习中起着关键作用。图像的数据增强分成两种常用的方法:第一种方法侧重于改变图像中像素点的位置分布,如随机旋转,这种方法优点在于能够增加样本在不同方向上的数据,使得神经网络模型能够对于不同角度的样本识别具有鲁棒性;第二种方法侧重于改变图像中像素点的值,如随机擦除,这种方法优点在于对于网络模型来说,像素值的改变意味着能够让神经网络学习到新特征,并且能够更加鲁棒的对一个具有噪声的样本进行学习,能够提高对有噪声样本的识别的泛化性。
在对行人再识别数据集进行训练时,第二种方法效果会更好一些,但是目前比较先进的方法随机擦除仅仅考虑了样本本身的像素值改变,这会使得模型对于数据集中的数据分布的学习具有局限性,进一步提高卷积神经网络模型对于行人再识别数据集中数据分布的学习能力,成为了行人再识别中亟待解决的一个问题。
发明内容
本发明的目的是提供一种基于随机线性插值的行人再识别数据增强方法,以进一步提高行人再识别的准确率。
为了实现上述任务,本发明采用以下技术方案:
一种基于随机线性插值的行人再识别数据增强方法,包括以下步骤:
步骤1,通过监控系统捉视角不交叉的不同相机下同一个行人的照片,再将不同行人照片中行人图像分别截取出来,构成该行人的图像数据集;利用不同行人的图像数据集构建行人再识别数据集,并将其划分为训练集和测试集;
步骤2,初始化随机线性插值的插值强度参数,设置训练集中需要被增强的样本比例,将待增强的样本与训练集中的随机一个样本进行插值操作,生成新的样本,然后对待增强的样本进行重新标记;
步骤3,将生成的新的样本和训练集中的样本混合作为输入层,使用卷积神经网络模型进行训练,设定训练代数,当模型的损失函数收敛或者达到训练代数,则进行步骤4,否则更新步骤3;
步骤4,步骤3中训练好的模型获得了不同相机拍摄的照片中行人图像的映射关系,利用训练好的模型对测试集中的行人图像进行匹配预测,得到识别的结果。
进一步地,所述的步骤2具体包括:
步骤2.1,首先通过贝塔分布Beta(α,β)生成随机线性插值的强度μ,这里α=β是贝塔分布的参数;
步骤2.2,将训练集平均划分成k个样本的批训练数据,设定需要被数据增强的样本比例γ,然后利用下式进行插值操作,得到新的样本的特征,从而得到新的样本;
Figure BDA0001845435980000021
其中,
Figure BDA0001845435980000022
表示批训练数据生成新的样本的特征,xa表示批训练数据中的待增强样本的特征,xt表示批训练数据中任意一个样本的特征,μ表示的是随机线性插值的插值强度,{R,G,B}表示样本的像素特征,共有三个颜色通道:红,绿,蓝。
步骤2.3,利用步骤2.1中的插值强度μ,对批训练数据中的待增强的样本进行重新标记,得到增强样本的双标记,如式2所示:
Figure BDA0001845435980000031
其中,
Figure BDA0001845435980000032
表示混合了待增强的样本a和批训练数据中任意样本t的标签,同时具备了两个样本的标签信息;ya表示待增强的样本a的标签,yt表示所述任意样本t的标签。
进一步地,所述的基于随机线性插值的行人再识别数据增强方法,还包括:
将测试集的样本放入到步骤3中得到的模型中训练,得到相应的预测向量,设定评估参数p的值,将预测向量中最大的p个值对应的类别和测试集中待测样本的真实类别进行比较,如果待测样本的真实类别存在于预测的p个类别中,则统计预测对的样本数增加1;
统计测试集中总共的预测正确的样本数T,以及总的测试集样本数N,计算 Rank-p准确率:
Figure BDA0001845435980000033
根据计算出来的Rank-p准确率,使用格点搜索的方法对对所述的卷积神经网络模型的参数μ、γ进行调节,使得最终得到的模型性能达到最好。
进一步地,步骤3所述的用卷积神经网络模型进行训练时,记录每一次训练时的损失函数值,如式3所示:
loss=μ·(ypred-ya)+(1-μ)·(ypred-yt) 式3
其中loss表示损失函数值,ypred表示样本a的预测标签,ya表示样本a的真实标签,yt表示样本t的真实标签。
进一步地,所述的卷积神经网络模型,是指:
所述的卷积神经网络采用改进的ResNet50网络,具体是在ResNet50网络的基础上,移除原有的全连接层,将全连接层替换为线性层,在线性层之后增加一个BatchNormalization层;除此之外,使用Leaky ReLU作为线性层和Batch Normalization层的激活函数,设定Leaky ReLU的负斜率参数为0.01,设定卷积神经网络的dropout的参数为0.5;在训练时,定训练代数参数为60,初始的学习率为0.001,并且网络的初始权重使用了在ImageNet上的训练参数。
进一步地,所述的样本比例γ的取值范围为[0.3,0.5]。
本发明具有以下技术特点:
1.本发明提出了一种基于随机线性插值的数据增强方法来增加行人再识别数据集中的不同遮挡程度的行人图像样本,能得到更加丰富的行人图像数据分布。
2.使用神经网络对于这些具有难度的行人图像样本进行训练,可以使得模型增强对于一些遮挡和背景斑驳的行人图像的泛化能力,同时提高行人再识别的 Rank-1准确率。
附图说明
图1为本发明方法的流程图;
图2为本发明采用改进的ResNet50网络中改进部分的结构示意图;
图3为本发明方法对在不同插值强度参数下生成的新样本;
图4为Market1501数据集上使用本发明方法的Rank-1识别准确率;
图5为DukeMTMC-reID数据集使用本发明方法的Rank-1识别准确率;
图6为Market1501数据集的参数α敏感性分析结果;
图7为DukeMTMC-reID数据集的参数γ敏感性分析结果。
具体实施方式
本发明公开了一种基于随机线性插值的行人再识别数据增强方法,包括以下步骤:
步骤1,通过监控系统捉视角不交叉的不同相机下同一个行人的照片,再将不同行人照片中行人图像分别截取出来,构成该行人的图像数据集;利用不同行人的图像数据集构建行人再识别数据集,并将其划分为训练集和测试集。
该步骤中,通过监控系统捉视角不交叉的不同相机下同一个行人的照片,则获取到一系列关于同一个行人的照片;再将每一张照片中所述的“同一个行人”采用手工标记边界框的形式截取出来,得到行人图像,则不同的照片截取出的行人图像共同构成该行人的图像数据集。所述的边界框指包含该行人在内的矩形框。
将不同行人的图像数据集构成行人再识别数据集,并将行人再识别数据集划分为训练集和测试集,训练集和测试集中每一个样本(行人图像)的大小为128 ×64像素;将每一张行人图像中的像素特征作为其数据特征空间。
本方法首先要确保视频监控中的相机是不交叉的,这也是保证行人再识别问题的基本要求;其次,我们使用边界框将行人的图像截取出来,这样可以减少背景的像素信息,同时突出行人在整个图像中的占比,保证行人的有效特征信息;将数据集中的所有图像都固定像素大小,方便在之后的网络模型中作为输入进行训练。
步骤2,初始化随机线性插值的插值强度参数,设置训练集中需要被增强的样本比例,将待增强的样本与训练集中的随机一个样本进行插值操作,生成新的样本,然后对待增强的样本进行重新标记。
步骤2.1,首先通过贝塔分布Beta(α,β)生成随机线性插值的强度μ,这里α=β是贝塔分布的参数;
步骤2.2,将训练集平均划分成k个样本的批训练数据,设定需要被数据增强的样本比例γ,一般情况下,样本比例γ的取值范围为[0,1];优选地,经发明人大量的实验验证,当样本比例γ的取值范围为[0.3,0.5]时,增强后的样本构成的数据集会对模型有较好的提升;然后利用下式进行插值操作,得到新的样本的特征,从而得到新的样本;
Figure BDA0001845435980000051
其中,
Figure BDA0001845435980000052
表示批训练数据生成新的样本的特征,xa表示批训练数据中的待增强(即需要被数据增强)样本的特征,xt表示批训练数据中任意一个样本的特征,μ表示的是随机线性插值的插值强度,{R,G,B}表示样本的像素特征,共有三个颜色通道:红,绿,蓝。
步骤2.3,利用步骤2.1中的插值强度μ,对批训练数据中的待增强的样本进行重新标记,得到增强样本的双标记,如式2所示:
Figure BDA0001845435980000053
其中,
Figure BDA0001845435980000061
表示混合了待增强的样本a和批训练数据中任意样本t的标签,同时具备了两个样本的标签信息;ya表示待增强的样本a的标签,yt表示所述任意样本t的标签。
该步骤中,使用贝塔分布得到的随机插值强度μ和设定的需要被数据增强的样本比例γ是我们方法需要的两个参数,而依靠这两个参数,就可以实现在训练数据集中不断地增加具有不同遮挡程度的新样本,因此本方法在参数层面上是轻量级的;而与此同时,增加的新样本具有行人再识别数据集中本身特别缺少的几部分要素:遮挡、背景斑驳、模糊,这样能够使得训练得到的模型具有更加好的泛化能力。
步骤3,将生成的新的样本和训练集中的样本混合作为输入层,使用卷积神经网络模型进行训练,设定训练代数,当模型的损失函数收敛或者达到训练代数,则进行步骤4。
本实施例中,将步骤2生成的新的样本以及训练集中的原样本放到卷积神经网络中进行训练。如图2所示,所述的卷积神经网络采用改进的ResNet50网络,具体是在ResNet50网络的基础上,移除原有的全连接层,将全连接层替换为线性层;本实施例中,线性层为1×1的卷积层,在网络中起到降维的作用;在线性层之后增加一个BatchNormalization层,除此之外,使用Leaky ReLU作为所述线性层和Batch Normalization层的激活函数,设定Leaky ReLU的负斜率参数 negative_slope为0.01,设定卷积神经网络的dropout的参数为0.5;在训练时,定训练代数参数为60,初始的学习率为0.001,并且网络的初始权重使用了在 ImageNet上的训练参数,即将网络利用ImageNet数据集进行预训练获得的权重参数。每一次训练时,我们记录下训练的损失函数值,如式3所示。直到训练误差收敛或者到达训练的最大次数时,停止训练,得到训练好的模型。
loss=μ·(ypred-ya)+(1-μ)·(ypred-yt) 式3
其中loss表示损失函数值,ypred表示样本a的预测标签,ya表示样本a的真实标签,yt表示样本t的真实标签。
该步骤通过Batch Normalization层可以减少模型在训练过程中出现过拟合的风险,另外Leaky ReLU也是一个弱化负神经元的比较好的激活函数,相比于 ReLU会激活一些可能会对识别有帮助的负神经元。Dropout的设置可以在一定程度上缓解网络模型参数过大而产生的过拟合情况,设置0.5的比例可以在神经网络训练的过程中,控制50%的神经元关闭。
步骤4,步骤3中训练好的模型获得了不同相机拍摄的照片中行人图像的映射关系,利用训练好的模型对测试集中的行人图像进行匹配预测,得到识别的结果。实际应用时,将行人图像输入模型中即可得到识别结果。
模型准确率的计算:
将测试集的样本放入到步骤3中得到的模型中训练,得到相应的预测向量,设定评估参数p的值,将预测向量中最大的p个值对应的类别和测试集中待测样本的真实类别进行比较,如果待测样本的真实类别存在于预测的p个类别中,则统计预测对的样本数增加1;
统计测试集中总共的预测正确的样本数T,以及总的测试集样本数N,计算 Rank-p准确率:
Figure BDA0001845435980000071
利用上述方法能够验证步骤3中训练出来的模型的好坏,并且可以比较识别的准确率再对步骤3中的模型参数μ、γ进行更改,使用格点搜索(Grid Search) 的方法对这两个参数进行调节,使得最终得到的模型性能达到最好。
下面将本方法应用在具体的数据集上来证明其更好的数据增强效果。
首先介绍两个标准的行人再识别数据集Market1501和DukeMTMC-reID:
Market1501数据集:Market1501数据集是由清华大学超市前的六台摄像机收集到的数据制作而成。这个数据集包含32668个行人图像,包含1501个行人。每个行人的图像大约为20张照片,然后使用手工制作和可变形零件模型(DPM) 的方法标记了1501个行人的边界框图像数据。将数据集中12936个图像作为训练集,另外使用19732张图像作为测试集。
DukeMTMC-reID数据集:DukeMTMC-reID取自于杜克大学的多目标多相机的追踪数据集DukeMTMC,共包含了1404个行人的36411张图像。702个行人的图像数据作为训练集,其余的图像数据作为测试集。这个数据集的所有图像都由8个摄像机进行行人捕获,然后通过手工制作而成。
(1)表1中所示是两个数据集的具体信息。
表1
Figure 1
(2)评价标准:按照我们的数据增强算法具体实施步骤,完成行人再识别任务。我们用Rank-p准确率(Rank-p Accuracy)作为行人再识别的评估标准,下面简单介绍一下该评估标准。
Rank-p准确率:将所有行人的图片集(gallery)中的图片,按照与待测行人图片的相似度排序,如果在第p个前就匹配正确,则统计识别正确的行人数目增加1,否则不变。当所有的待测行人都完成匹配识别之后,统计所有识别正确的行人数目,记作T;统计所有的待测行人数目,记作N。那么计算Rank-p准确率的式如下:
Figure BDA0001845435980000082
(3)结果分析:
表2
Figure BDA0001845435980000083
表2展示了三个神经网络模型使用我们的方法和不使用我们的方法再两个数据集Market1501和DukeMTMC-reID中的Rank-1精确度(Rank-1 Accuracy),从表中看到本发明方法优于其他算法,平均有2%的Rank-1精度提高。使用本发明方法可以有效地提高基准卷积神经网络模型的性能,这也证明了本发明方法是一个通用的数据增强方法。
表3
Figure BDA0001845435980000091
表3展示了基准模型和两种数据增强方法在两个数据集Market1501和 DukeMTMC-reID中的Rank-p精确度(Rank-p Accuracy),其中基准的模型是使用的ResNet50,从表中我们可以看到我们的方法优于其他算法,相比于随机裁剪的数据增强方法,我们的方法改变了图像数据的像素值,在根本上改变了数据集中的数据分布;相比于随机擦除的数据增强方法,本发明方法增加了一些模糊以及背景融合的样本,也在识别的准确率上有些提升。
图3描述了在两个数据集Market1501和DukeMTMC-reID上不同的插值强度生成的新样本。
图4、图5描述了两个数据集Market1501和DukeMTMC-reID在三个神经网络模型上是否使用本发明方法的Rank-1识别准确率的对比结果。
图6描述了在Market1501数据集上控制参数γ不变,对生成的随机差值强度μ的超参数α敏感性分析的结果;由于我们对每一个需要被增强的样本的插值强度随机,因此无法直接设置插值强度的值,因而我们依靠控制贝塔分布的参数α来随机生成插值强度参数μ。
图7描述了在DukeMTMC-reID数据集上控制参数α不变,对参数γ敏感性分析的结果。

Claims (5)

1.一种基于随机线性插值的行人再识别数据增强方法,其特征在于,包括以下步骤:
步骤1,通过监控系统捉视角不交叉的不同相机下同一个行人的照片,再将不同行人照片中行人图像分别截取出来,构成该行人的图像数据集;利用不同行人的图像数据集构建行人再识别数据集,并将其划分为训练集和测试集;
步骤2,初始化随机线性插值的插值强度参数,设置训练集中需要被增强的样本比例,将待增强的样本与训练集中的随机一个样本进行插值操作,生成新的样本,然后对待增强的样本进行重新标记;
步骤2.1,首先通过贝塔分布Beta(α,β)生成随机线性插值的强度μ,这里α=β是贝塔分布的参数;
步骤2.2,将训练集平均划分成k个样本的批训练数据,设定需要被数据增强的样本比例γ,然后利用下式进行插值操作,得到新的样本的特征,从而得到新的样本;
Figure FDA0003969025030000011
其中,
Figure FDA0003969025030000012
表示批训练数据生成新的样本的特征,xa表示批训练数据中的待增强样本的特征,xt表示批训练数据中任意一个样本的特征,μ表示的是随机线性插值的插值强度,{R,G,B}表示样本的像素特征,共有三个颜色通道:红,绿,蓝;
步骤2.3,利用步骤2.1中的插值强度μ,对批训练数据中的待增强的样本进行重新标记,得到增强样本的双标记,如式2所示:
Figure FDA0003969025030000013
其中,
Figure FDA0003969025030000014
表示混合了待增强的样本a和批训练数据中任意样本t的标签,同时具备了两个样本的标签信息;ya表示待增强的样本a的标签,yt表示所述任意样本t的标签;
步骤3,将生成的新的样本和训练集中的样本混合作为输入层,使用卷积神经网络模型进行训练,设定训练代数,当模型的损失函数收敛或者达到训练代数,则进行步骤4,否则更新步骤3;
步骤4,步骤3中训练好的模型获得了不同相机拍摄的照片中行人图像的映射关系,利用训练好的模型对测试集中的行人图像进行匹配预测,得到识别的结果。
2.如权利要求1所述的基于随机线性插值的行人再识别数据增强方法,其特征在于,所述的基于随机线性插值的行人再识别数据增强方法,还包括:
将测试集的样本放入到步骤3中得到的模型中训练,得到相应的预测向量,设定评估参数p的值,将预测向量中最大的p个值对应的类别和测试集中待测样本的真实类别进行比较,如果待测样本的真实类别存在于预测的p个类别中,则统计预测对的样本数增加1;
统计测试集中总共的预测正确的样本数T,以及总的测试集样本数N,计算Rank-p准确率:
Figure FDA0003969025030000021
根据计算出来的Rank-p准确率,使用格点搜索的方法对所述的卷积神经网络模型的参数μ、γ进行调节,使得最终得到的模型性能达到最好。
3.如权利要求1所述的基于随机线性插值的行人再识别数据增强方法,其特征在于,步骤3所述的用卷积神经网络模型进行训练时,记录每一次训练时的损失函数值,如式3所示:
loss=μ·(ypred-ya)+(1-μ)·(ypred-yt) 式3
其中loss表示损失函数值,ypred表示样本a的预测标签,ya表示样本a的真实标签,yt表示样本t的真实标签。
4.如权利要求1所述的基于随机线性插值的行人再识别数据增强方法,其特征在于,所述的卷积神经网络模型,是指:
所述的卷积神经网络采用改进的ResNet50网络,具体是在ResNet50网络的基础上,移除原有的全连接层,将全连接层替换为线性层,在线性层之后增加一个BatchNormalization层;除此之外,使用Leaky ReLU作为线性层和Batch Normalization层的激活函数,设定Leaky ReLU的负斜率参数为0.01,设定卷积神经网络的dropout的参数为0.5;在训练时,定训练代数参数为60,初始的学习率为0.001,并且网络的初始权重使用了在ImageNet上的训练参数。
5.如权利要求1所述的基于随机线性插值的行人再识别数据增强方法,其特征在于,所述的样本比例γ的取值范围为[0.3,0.5]。
CN201811268388.8A 2018-10-29 2018-10-29 一种基于随机线性插值的行人再识别数据增强方法 Active CN109635634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811268388.8A CN109635634B (zh) 2018-10-29 2018-10-29 一种基于随机线性插值的行人再识别数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811268388.8A CN109635634B (zh) 2018-10-29 2018-10-29 一种基于随机线性插值的行人再识别数据增强方法

Publications (2)

Publication Number Publication Date
CN109635634A CN109635634A (zh) 2019-04-16
CN109635634B true CN109635634B (zh) 2023-03-31

Family

ID=66066756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811268388.8A Active CN109635634B (zh) 2018-10-29 2018-10-29 一种基于随机线性插值的行人再识别数据增强方法

Country Status (1)

Country Link
CN (1) CN109635634B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428023B (zh) * 2019-05-31 2021-09-14 武汉大学 一种面向深度行人重识别系统的反侦察逃逸攻击方法
CN110472544A (zh) * 2019-08-05 2019-11-19 上海英迈吉东影图像设备有限公司 一种物品识别模型的训练方法及系统
CN111291833A (zh) * 2020-03-20 2020-06-16 京东方科技集团股份有限公司 应用于监督学习系统训练的数据增强方法和数据增强装置
CN111914668B (zh) * 2020-07-08 2024-10-18 浙江大华技术股份有限公司 一种基于图像增强技术的行人重识别方法、装置及系统
CN112147978A (zh) * 2020-08-25 2020-12-29 中国运载火箭技术研究院 一种采用神经网络的遥测数据处理方法
CN112183729A (zh) * 2020-09-30 2021-01-05 腾讯音乐娱乐科技(深圳)有限公司 一种神经网络模型训练方法、装置及计算机可读存储介质
CN113177640B (zh) * 2021-05-31 2022-05-27 重庆大学 一种离散异步事件数据增强方法
CN113361378B (zh) * 2021-06-02 2023-03-10 合肥工业大学 一种运用适应性数据增强的人体姿态估计方法
CN115858846B (zh) * 2023-02-16 2023-04-21 云南派动科技有限公司 一种基于深度学习的滑雪者图像检索方法和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011076539A (ja) * 2009-10-01 2011-04-14 Sony Corp 画像処理装置および画像処理方法
CN103824089A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联回归的人脸3d姿态识别方法
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
WO2016183766A1 (en) * 2015-05-18 2016-11-24 Xiaogang Wang Method and apparatus for generating predictive models
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法
CN108229444A (zh) * 2018-02-09 2018-06-29 天津师范大学 一种基于整体和局部深度特征融合的行人再识别方法
CN108257162A (zh) * 2016-12-29 2018-07-06 北京三星通信技术研究有限公司 合成脸部表情图像的方法和装置
CN108596211A (zh) * 2018-03-29 2018-09-28 中山大学 一种基于集中学习与深度网络学习的遮挡行人再识别方法
US10108850B1 (en) * 2017-04-24 2018-10-23 Intel Corporation Recognition, reidentification and security enhancements using autonomous machines
CN108710831A (zh) * 2018-04-24 2018-10-26 华南理工大学 一种基于机器视觉的小数据集人脸识别算法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011076539A (ja) * 2009-10-01 2011-04-14 Sony Corp 画像処理装置および画像処理方法
CN103824089A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联回归的人脸3d姿态识别方法
WO2016145379A1 (en) * 2015-03-12 2016-09-15 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
WO2016183766A1 (en) * 2015-05-18 2016-11-24 Xiaogang Wang Method and apparatus for generating predictive models
CN108257162A (zh) * 2016-12-29 2018-07-06 北京三星通信技术研究有限公司 合成脸部表情图像的方法和装置
US10108850B1 (en) * 2017-04-24 2018-10-23 Intel Corporation Recognition, reidentification and security enhancements using autonomous machines
CN107330396A (zh) * 2017-06-28 2017-11-07 华中科技大学 一种基于多属性和多策略融合学习的行人再识别方法
CN108229444A (zh) * 2018-02-09 2018-06-29 天津师范大学 一种基于整体和局部深度特征融合的行人再识别方法
CN108596211A (zh) * 2018-03-29 2018-09-28 中山大学 一种基于集中学习与深度网络学习的遮挡行人再识别方法
CN108710831A (zh) * 2018-04-24 2018-10-26 华南理工大学 一种基于机器视觉的小数据集人脸识别算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于运动特性的行人检测技术研究;郭强;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20110915;全文 *
移动场景动目标识别算法研究;曹剑;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20110815;全文 *

Also Published As

Publication number Publication date
CN109635634A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635634B (zh) 一种基于随机线性插值的行人再识别数据增强方法
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN111310862B (zh) 复杂环境下基于图像增强的深度神经网络车牌定位方法
WO2019233297A1 (zh) 数据集的构建方法、移动终端、可读存储介质
CN109359559B (zh) 一种基于动态遮挡样本的行人再识别方法
US20200074178A1 (en) Method and system for facilitating recognition of vehicle parts based on a neural network
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
CN109902761B (zh) 一种基于海洋环境因子融合和深度学习的渔情预测方法
CN112487999B (zh) 一种基于CycleGAN的遥感图像鲁棒特征提取方法
CN110580428A (zh) 图像处理方法、装置、计算机可读存储介质和电子设备
CN105930822A (zh) 一种人脸抓拍方法及系统
CN107403175A (zh) 一种运动背景下的视觉跟踪方法及视觉跟踪系统
CN104217404A (zh) 雾霾天视频图像清晰化处理方法及其装置
Pezzementi et al. Putting image manipulations in context: robustness testing for safe perception
CN111401246B (zh) 一种烟雾浓度检测方法、装置、设备及存储介质
US7747079B2 (en) Method and system for learning spatio-spectral features in an image
CN112633354B (zh) 路面裂缝检测方法、装置、计算机设备和存储介质
CN111260687A (zh) 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法
CN111507416B (zh) 一种基于深度学习的吸烟行为实时检测方法
Malav et al. DHSGAN: An end to end dehazing network for fog and smoke
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN113436735A (zh) 基于人脸结构度量的体重指数预测方法、设备和存储介质
TWI696958B (zh) 影像適應性特徵提取法及其應用
CN114612658A (zh) 基于双重类别级对抗网络的图像语义分割方法
Yang et al. Deep learning based real-time facial mask detection and crowd monitoring

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant