CN112861780A - 一种行人重识别方法、装置、介质和移动机器人 - Google Patents

一种行人重识别方法、装置、介质和移动机器人 Download PDF

Info

Publication number
CN112861780A
CN112861780A CN202110246506.0A CN202110246506A CN112861780A CN 112861780 A CN112861780 A CN 112861780A CN 202110246506 A CN202110246506 A CN 202110246506A CN 112861780 A CN112861780 A CN 112861780A
Authority
CN
China
Prior art keywords
convolution
pedestrian
module
block
convolution block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110246506.0A
Other languages
English (en)
Inventor
秦豪
赵明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yogo Robot Co Ltd
Original Assignee
Shanghai Yogo Robot Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yogo Robot Co Ltd filed Critical Shanghai Yogo Robot Co Ltd
Priority to CN202110246506.0A priority Critical patent/CN112861780A/zh
Publication of CN112861780A publication Critical patent/CN112861780A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种行人重识别方法、装置、介质和移动机器人,方法包括:构建行人重识别网络模型;通过第一训练集对行人重识别网络模型的骨干网络和检测头模块进行训练;固定优化后骨干网络和检测头模块的网络参数,并通过第二训练集对行人重识别网络模型的感兴趣池化模块和行人特征提取模块进行训练;采集实时行人图片,并基于训练完成的行人重识别网络模型对目标行人进行检测。本发明将行人识别网络、行人特征提取网络和行人特征对比模块整合到一个深度神经网络中,并将运算都移植到图形处理器,从而去除了不必要的数据拷贝过程,减少了CPU资源的占用率,加快了目标行人的识别速度,保障了网络有稳定的耗时,在实际业务环境中更容易落地。

Description

一种行人重识别方法、装置、介质和移动机器人
技术领域
本发明涉及机器人领域,尤其涉及一种行人重识别方法、装置、介质和移动机器人。
背景技术
随着机器人行业的快速发展,各种服务机器人层出不穷,机器人在我们的生活、工作中也应用得越来越广泛。在酒店、银行等服务行业的楼宇中,迎宾机器人可以协助实现宾客身份登记、协助宾客存放随身背包等物品,并跟随宾客直到服务结束。而在实际场景下,尤其是在人流量大、人与人相互穿行等场景,机器人容易错认目标宾客或者在目标宾客转弯时错失目标宾客等。机器人实现宾客跟随的首要前提是对行人重识别,行人重识别是一种判断图像中是否存在特定人,即目标宾客的技术,通过该技术实现对特定人的追随功能。现有技术的行人重识别方法包含多个步骤,即行人识别、行人特征提取和行人特征比对,其中行人识别和行人特征提取都是基于不同功能的深度卷积神经网络实现。在实际运用过程中,多步骤的行人重识别方案计算量大,且需要进行多次的数据拷贝,因此网络计算执行效率低,影响了机器人在各种复杂环境下的跟随效果。
发明内容
本发明提供了一种行人重识别方法、装置、介质和移动机器人,解决了现有行人重识别方法效率低,时延过长的技术问题。
本发明解决上述技术问题的技术方案如下:一种行人重识别方法,包括以下步骤:
步骤1,构建行人重识别网络模型,并将所述行人重识别网络模型设置到图形处理器中;所述行人重识别网络模型包括依次连接的骨干网络、检测头模块、感兴趣池化模块、行人特征提取模块和行人特征比对模块;
步骤2,获取第一训练集,并通过所述第一训练集对所述骨干网络和所述检测头模块进行训练,优化所述骨干网络和所述检测头模块的网络参数;
步骤3,固定优化后所述骨干网络和所述检测头模块的网络参数,并获取第二训练集,通过所述第二训练集对所述感兴趣池化模块和所述行人特征提取模块进行训练,优化所述感兴趣池化模块和所述行人特征提取模块的网络参数;
步骤4,采集实时行人图片,并基于训练完成的所述行人重识别网络模型对所述实时行人图片中的目标行人进行检测。
在一个优选实施方式中,所述骨干网络的网络结构按计算单元处理顺序为:
第一卷积块,卷积层为30通道,3x3卷积核,步长为2,连接BN层处理,再连接一个LeakyReLU层输出;
第二卷积块,卷积层为61通道,3x3卷积核,步长为2,连接BN层处理,再连接一个LeakyReLU层输出;
第一卷积块组,包括依次连接的第三卷积块、第四卷积块和第五卷积块,所述第三卷积块的卷积层为109通道,3x3卷积核,步长为2;所述第四卷积块的卷积层为64通道,1x1卷积核,步长为2;所述第五卷积块的卷积层为106通道,3x3卷积核,步长为1;
第二卷积块组,包括依次连接的第六卷积块、第七卷积块和第八卷积块,所述第六卷积块的卷积层为129通道,3x3卷积核,步长为2;所述第七卷积块的卷积层为128通道,1x1卷积核,步长为1;所述第八卷积块的卷积层为181通道,3x3卷积核,步长为1;
第三卷积块组,包括依次连接的第九卷积块、第十卷积块、第十一卷积块、第十二卷积块和第十三卷积块,所述第九卷积块的卷积层为277通道,3x3卷积核,步长为2;所述第十卷积块的卷积层为195通道,1x1卷积核,步长为1;所述第十一卷积块的卷积层为297通道,3x3卷积核,步长为1;所述第十二卷积块的卷积层为195通道,1x1卷积核,步长为1;所述第十三卷积块的卷积层为381通道,3x3卷积核,步长为1;
第四卷积块组,包括依次连接的第十四卷积块、第十五卷积块、第十六卷积块、第十七卷积块和第十八卷积块,所述第十四卷积块的卷积层为469通道,3x3卷积核,步长为2;所述第十五卷积块的卷积层为379通道,1x1卷积核,步长为1;所述第十六卷积块的卷积层为499通道,3x3卷积核,步长为1;所述第十七卷积块的卷积层为351通道,1x1卷积核,步长为1;所述第十八卷积块的卷积层为340通道,3x3卷积核,步长为1。
在一个优选实施方式中,所述检测头模块的网络结构包括第一检测头单元、第二检测头单元、上采样单元和非极大值抑制单元,
所述第一检测头单元包括第十九卷积块和第一检测头,所述第十九卷积块的第一输入端连接所述第三卷积块组的输出端,所述第十九卷积块的第一输出端经所述第一检测头连接所述非极大值抑制单元的第一输入端;
所述第二检测头单元包括第二十卷积块和第二检测头,所述第二十卷积块的输入端连接所述第四卷积块组的输出端,所述第二十卷积块的第一输出端经所述第二检测头连接所述非极大值抑制单元的第二输入端,所述第二十卷积块的第二输出端经所述上采样单元连接所述第十九卷积块的第二输入端;
所述第十九卷积块的卷积层为128通道,1x1卷积核,步长为1,连接BN层处理,再连接一个LeakyReLU层输出;
所述第二十卷积块的卷积层为128通道,1x1卷积核,步长为1,连接BN层处理,再连接一个LeakyReLU层输出。
在一个优选实施方式中,所述感兴趣池化模块的第一输入端连接所述第二卷积块组的输出端,所述感兴趣池化模块的第二输入端连接所述非极大值抑制单元的输出端,所述感兴趣池化模块的输出端连接所述行人特征提取模块的输入端;所述行人特征提取模块的网络结构包括第二十一卷积块、第二十二卷积块和第二十三卷积块,
所述第二十一卷积块的卷积层为128通道,3x3卷积核,步长为1;
所述第二十二卷积块的卷积层为96通道,3x3卷积核,步长为1;
所述第二十三卷积块的卷积层为64通道,3x3卷积核,步长为1。
在一个优选实施方式中,所述通过第一训练集对骨干网络和检测头模块进行训练时,采用中心值损失函数计算损失值,降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述骨干网络和所述检测头模块的权重和偏置进行更新,直至达到预设迭代停止条件,所述中心值损失函数为:
Loss=Loss_Center+Loss_HW,
其中,
Loss_Center=center_true*log(center_pre)+(1-center_true)*log(1-center_pre),
Loss_HW=(HW_true-HW_pre)^2,
center_pre表示行人中心点位置预测值,center_true表示行人中心点位置训练值,HW_pre表示行人尺寸预测值,HW_true表示行人尺寸训练值。
在一个优选实施方式中,所述通过第二训练集对感兴趣池化模块和行人特征提取模块进行训练,具体包括:
S301,选用公开数据集Market-1501作为第二训练集,将所述第二训练集Market-1501中同一行人的两张不同图片以及不同行人的一张图片随机缩放并随机粘贴到场景图片中,构造三元组图片;
S302,固定优化后所述骨干网络和所述检测头模块的网络参数,并采用所述感兴趣池化模块和所述行人特征提取模块对所述三元组图片中的行人进行特征提取,生成同一行人的第一特征向量featureA1和第二特征向量featureA2以及不同行人的特征向量featureB;
S303,采用三元组值损失函数计算损失值,降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述感兴趣池化模块和所述行人特征提取模块的权重和偏置进行更新,直至达到预设迭代停止条件,所述三元组值损失函数为:
Loss=max(A1*A2-A1*B+margin,0),
其中,margin取0.5。
第二方面,本发明提供了一种行人重识别装置,包括构建模块、第一训练模块、第二训练模块和识别模块,
所述构建模块用于构建行人重识别网络模型,并将所述行人重识别网络模型设置到图形处理器中;所述行人重识别网络模型包括依次连接的骨干网络、检测头模块、感兴趣池化模块、行人特征提取模块和行人特征比对模块;
所述第一训练模块用于获取第一训练集,并通过所述第一训练集对所述骨干网络和所述检测头模块进行训练,优化所述骨干网络和所述检测头模块的网络参数;
所述第二训练模块用于固定优化后所述骨干网络和所述检测头模块的网络参数,并获取第二训练集,通过所述第二训练集对所述感兴趣池化模块和所述行人特征提取模块进行训练,优化所述感兴趣池化模块和所述行人特征提取模块的网络参数;
所述识别模块用于采集实时行人图片,并基于训练完成的所述行人重识别网络模型对所述实时行人图片中的目标行人进行检测。
在一个优选实施方式中,所述第二训练模块具体包括:
数据处理单元,用于选用公开数据集Market-1501作为第二训练集,将所述第二训练集Market-1501中同一行人的两张不同图片以及不同行人的一张图片随机缩放并随机粘贴到场景图片中,构造三元组图片;
特征提取单元,用于固定优化后所述骨干网络和所述检测头模块的网络参数,并采用所述感兴趣池化模块和所述行人特征提取模块对所述三元组图片中的行人进行特征提取,生成同一行人的第一特征向量featureA1和第二特征向量featureA2,以及不同行人的特征向量featureB;
训练单元,用于采用三元组值损失函数计算损失值,降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述感兴趣池化模块和所述行人特征提取模块的权重和偏置进行更新,直至达到预设迭代停止条件,所述三元组值损失函数为:
Loss=max(A1*A2-A1*B+margin,0),
其中,margin取0.5。
第三方面,本发明提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,实现所述行人重识别方法的步骤。
第四方面,本发明提供了一种移动机器人,包括所述的计算机可读存储介质和处理器,所述处理器执行所述计算机可读存储介质上的计算机程序时实现以上所述行人重识别方法的步骤。
本发明提出一种行人重识别方法、装置介质和移动机器人,将行人识别网络、行人特征提取网络和行人特征对比模块整合到一个深度神经网络中,并将运算都移植到图形处理器中,从而在重识别过程中去除了不必要的数据拷贝过程,大大减少了CPU资源的占用率,加快了深度神经网络的识别速度。同时该深度神经网络的运算速度与行人数量无关,保障了网络有稳定的耗时,在实际业务环境中更容易落地。
为使发明的上述目的、特征和优点能更明显易懂,下文特举本发明较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的行人重识别方法的流程示意图;
图2是本申请实施例提供的行人重识别网络模型的整体结构示意图;
图3是本申请实施例提供的骨干网络的结构示意图;
图4是本申请实施例提供的检测头模块的结构示意图;
图5是本申请实施例提供的行人特征提取模块的结构示意图;
图6是本申请实施例提供的行人重识别装置的结构示意图;
图7为本申请实施例提供的一种移动机器人的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。
请参阅图1,为本发明实施例提供一种行人重识别方法的流程示意图,如图1所示,方法包括以下步骤:
步骤1,构建行人重识别网络模型,并将所述行人重识别网络模型设置到图形处理器中。
一个可选实施例中,如图2所示,为所述行人重识别网络模型的整体结构示意图,包括依次连接的骨干网络(back bone)、检测头模块(Head block)、感兴趣池化模块(Roipooling block)、行人特征提取模块(Reidfeature block)和行人特征比对模块(feature compare block)。
图3是一个申请实施例种骨干网络的结构示意图,如图3所示,所述骨干网络由卷积块堆叠而成,其网络结构按计算单元处理顺序为:
第一卷积块,卷积层为30通道,3x3卷积核,步长为2,连接BN层(批归一化层)处理,再连接一个LeakyReLU层(激活层)输出;
第二卷积块,卷积层为61通道,3x3卷积核,步长为2,连接BN层处理,再连接一个LeakyReLU层输出;
第一卷积块组,包括依次连接的第三卷积块、第四卷积块和第五卷积块,所述第三卷积块的卷积层为109通道,3x3卷积核,步长为2;所述第四卷积块的卷积层为64通道,1x1卷积核,步长为2;所述第五卷积块的卷积层为106通道,3x3卷积核,步长为1;
第二卷积块组,包括依次连接的第六卷积块、第七卷积块和第八卷积块,所述第六卷积块的卷积层为129通道,3x3卷积核,步长为2;所述第七卷积块的卷积层为128通道,1x1卷积核,步长为1;所述第八卷积块的卷积层为181通道,3x3卷积核,步长为1;
第三卷积块组,包括依次连接的第九卷积块、第十卷积块、第十一卷积块、第十二卷积块和第十三卷积块,所述第九卷积块的卷积层为277通道,3x3卷积核,步长为2;所述第十卷积块的卷积层为195通道,1x1卷积核,步长为1;所述第十一卷积块的卷积层为297通道,3x3卷积核,步长为1;所述第十二卷积块的卷积层为195通道,1x1卷积核,步长为1;所述第十三卷积块的卷积层为381通道,3x3卷积核,步长为1;
第四卷积块组,包括依次连接的第十四卷积块、第十五卷积块、第十六卷积块、第十七卷积块和第十八卷积块,所述第十四卷积块的卷积层为469通道,3x3卷积核,步长为2;所述第十五卷积块的卷积层为379通道,1x1卷积核,步长为1;所述第十六卷积块的卷积层为499通道,3x3卷积核,步长为1;所述第十七卷积块的卷积层为351通道,1x1卷积核,步长为1;所述第十八卷积块的卷积层为340通道,3x3卷积核,步长为1。
图4是一个可选实施例中检测头模块的结构示意图,如图4所示,所述检测头模块的网络结构包括第一检测头单元、第二检测头单元、上采样单元和非极大值抑制单元,
所述第一检测头单元包括第十九卷积块和第一检测头,所述第十九卷积块的第一输入端连接所述第三卷积块组的输出端,所述第十九卷积块的第一输出端经所述第一检测头连接所述非极大值抑制单元的第一输入端;
所述第二检测头单元包括第二十卷积块和第二检测头,所述第二十卷积块的输入端连接所述第四卷积块组的输出端,所述第二十卷积块的第一输出端经所述第二检测头连接所述非极大值抑制单元的第二输入端,所述第二十卷积块的第二输出端经所述上采样单元连接所述第十九卷积块的第二输入端;
所述第十九卷积块的卷积层为128通道,1x1卷积核,步长为1,连接BN层处理,再连接一个LeakyReLU层输出;
所述第二十卷积块的卷积层为128通道,1x1卷积核,步长为1,连接BN层处理,再连接一个LeakyReLU层输出;
所述上采样单元的尺寸为2。
具体来说,检测头模块通过卷积的方式得到两个尺度下的行人检测框,再通过非极大值抑制单元挑选出十个候选人方框,若候选人方框不足则以(-1,-1,-1,-1)填充。这里,非极大值抑制单元的主要功能是消除重复的冗余框,通过计算各个框之间的交并比,当交并比超过0.5的阈值就删除该框,并把置信度低于0.5的方框删除。
如图2所示,所述感兴趣池化模块的第一输入端连接所述第二卷积块组的输出端,感兴趣池化模块的第二输入端连接所述非极大值抑制单元的输出端,感兴趣池化模块的输出端连接所述行人特征提取模块的输入端。这里感兴趣池化模块(Roipooling block)是将非极大值抑制单元得到的候选框映射到特征图上,并根据候选框在特征图上的位置提取出感兴趣区域,再统一缩放到7*7的尺寸上,得到(10,181,7,7)的行人特征。然后行人特征提取模块主要功能是提取更细粒度的行人区别特征,并得到每个人的64维特征向量。图5是一个可选实施例中行人特征提取模块的结构示意图,如图5所示,所述行人特征提取模块的网络结构包括第二十一卷积块、第二十二卷积块和第二十三卷积块,
所述第二十一卷积块的卷积层为128通道,3x3卷积核,步长为1;
所述第二十二卷积块的卷积层为96通道,3x3卷积核,步长为1;
所述第二十三卷积块的卷积层为64通道,3x3卷积核,步长为1。
这里行人特征比对模块的主要功能是比较目标行人和候选行人特征向量之间的相似度,一个可选实施例中,其算法如下:
DetectFeature=Normal(DetectFeature)
Similarity=DetectFeature*ObjectFeature
MaxSimilarity,index=max(Similarity),argmax(Similarity)
MaxLocatio=Location[index]
MaxFeature=DetectFeature[index]
其中,DetectFeature为检测到的候选人特征向量;
DetectFeature为目标行人特征向量;
Normal()表示归一化;
Similarity表示相似度;
MaxSimilarity表示最大相似度;
MaxLocation表示最可能候选人的位置;
MaxFeature表示最可能候选人的特征。
然后执行步骤2:获取第一训练集,并通过所述第一训练集对所述骨干网络和所述检测头模块进行训练,优化所述骨干网络和所述检测头模块的网络参数。
具体来说,将第一训练集中的图片放入骨干网络和检测头模块进行计算,得到行人中心点位置预测值center_pre以及行人尺寸预测值HW_pre,将其与行人中心点位置训练值center_true和行人尺寸训练值HW_true进行对比,计算中心值损失函数的损失值。然后降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述骨干网络和所述检测头模块的权重和偏置进行更新,直至达到预设迭代停止条件。可选实施例中,中心值损失函数定义如下:
Loss=Loss_Center+Loss_HW,
其中,
Loss_Center=center_true*log(center_pre)+(1-center_true)*log(1-center_pre),
Loss_HW=(HW_true-HW_pre)^2。
可选实施例中,上述训练方法采用随机梯度下降法SGD+动量法,学习动量参数设定为0.9,卷积参数L2正则惩罚系数设定为0.001,学习率为多项式缓慢下降,训练100次后终止训练保存所述骨干网络和所述检测头模块的网络参数。
然后执行步骤3:固定优化后所述骨干网络和所述检测头模块的网络参数,并获取第二训练集,通过所述第二训练集对所述感兴趣池化模块和所述行人特征提取模块进行训练,优化所述感兴趣池化模块和所述行人特征提取模块的网络参数。
一个可选实施例中,步骤3具体包括:
S301,选用公开数据集Market-1501作为第二训练集,将所述第二训练集Market-1501中同一行人的两张不同图片以及不同行人的一张图片随机缩放并随机粘贴到场景图片中,构造三元组图片;
S302,固定优化后所述骨干网络和所述检测头模块的网络参数,并采用所述感兴趣池化模块和所述行人特征提取模块对所述三元组图片中的行人进行特征提取,生成同一行人的第一特征向量featureA1和第二特征向量featureA2以及不同行人的特征向量featureB;
S303,采用三元组值损失函数计算损失值,降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述感兴趣池化模块和所述行人特征提取模块的权重和偏置进行更新,直至达到预设迭代停止条件,所述三元组值损失函数为:
Loss=max(A1*A2-A1*B+margin,0),
其中,margin取0.5。
可选实施例中,上述训练方法采用随机梯度下降法SGD+动量法,学习动量参数设定为0.9,卷积参数L2正则惩罚系数设定为0.001,学习率为多项式缓慢下降,训练50次后终止训练保存所述感兴趣池化模块和所述行人特征提取模块的网络参数。
然后执行步骤4,采集实时行人图片,并基于训练完成的所述行人重识别网络模型对所述实时行人图片中的目标行人进行检测。
需要说明的是,在上述各个实施例中,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
本发明的实施例提供了一种行人重识别方法,将行人识别网络、行人特征提取网络和行人特征对比模块整合到一个深度神经网络中,并将运算都移植到图形处理器,从而去除了不必要的数据拷贝过程,减少了CPU资源的占用率,加快了目标行人的识别速度,保障了网络有稳定的耗时,在实际业务环境中更容易落地。采用本发明实施例方案和现有技术方案的耗时数据和占用资源数据如下表所示,从表中可以看出,本发明采用的耗时和资源均更少。
网络模块 行人检测 特征提取 特征比较 本专利
耗时 42ms 20ms*n 1ms*n 55ms
占用资源 GPU GPU+CPU CPU GPU
作为本发明实施例的另一方面,本发明实施例还提供一种行人重识别装置。其中,行人重识别装置可以为软件模块,所述软件模块包括若干指令,其存储在存储器内,处理器可以访问该存储器,调用指令进行执行,以完成上述各个实施例所阐述的行人重识别方法。
在一些实施例中,行人重识别装置亦可以由硬件器件搭建成的,例如,行人重识别装置可以由一个或两个以上的芯片搭建而成,各个芯片可以互相协调工作,以完成上述各个实施例所阐述的行人重识别方法。再例如,行人重识别装置还可以由各类逻辑器件搭建而成,诸如由通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(AcornRISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合而搭建成。
基于相同的发明构思,本申请实施例提供了一个行人重识别装置,如图6所示,所述行人重识别装置包括构建模块101、第一训练模块102、第二训练模块103和识别模块104,
所述构建模块101用于构建行人重识别网络模型,并将所述行人重识别网络模型设置到图形处理器中;所述行人重识别网络模型包括依次连接的骨干网络、检测头模块、感兴趣池化模块、行人特征提取模块和行人特征比对模块;
所述第一训练模块102用于获取第一训练集,并通过所述第一训练集对所述骨干网络和所述检测头模块进行训练,优化所述骨干网络和所述检测头模块的网络参数;
所述第二训练模块103用于固定优化后所述骨干网络和所述检测头模块的网络参数,并获取第二训练集,通过所述第二训练集对所述感兴趣池化模块和所述行人特征提取模块进行训练,优化所述感兴趣池化模块和所述行人特征提取模块的网络参数;
所述识别模块104用于采集实时行人图片,并基于训练完成的所述行人重识别网络模型对所述实时行人图片中的目标行人进行检测。
一个可选实施例中,所述第二训练模块103具体包括:
数据处理单元,用于选用公开数据集Market-1501作为第二训练集,将所述第二训练集Market-1501中同一行人的两张不同图片以及不同行人的一张图片随机缩放并随机粘贴到场景图片中,构造三元组图片;
特征提取单元,用于固定优化后所述骨干网络和所述检测头模块的网络参数,并采用所述感兴趣池化模块和所述行人特征提取模块对所述三元组图片中的行人进行特征提取,生成同一行人的第一特征向量featureA1和第二特征向量featureA2,以及不同行人的特征向量featureB;
训练单元,用于采用三元组值损失函数计算损失值,降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述感兴趣池化模块和所述行人特征提取模块的权重和偏置进行更新,直至达到预设迭代停止条件,所述三元组值损失函数为:
Loss=max(A1*A2-A1*B+margin,0),
其中,margin取0.5。
一个可选实施例中,所述第一训练模块102用于采用中心值损失函数计算损失值,降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述骨干网络和所述检测头模块的权重和偏置进行更新,直至达到预设迭代停止条件,所述中心值损失函数为:
Loss=Loss_Center+Loss_HW,
其中,
Loss_Center=center_true*log(center_pre)+(1-center_true)*log(1-center_pre),
Loss_HW=(HW_true-HW_pre)^2,
center_pre表示行人中心点位置预测值,center_true表示行人中心点位置训练值,HW_pre表示行人尺寸预测值,HW_true表示行人尺寸训练值。
本实施例的行人重识别装置将行人识别网络、行人特征提取网络和行人特征对比模块整合到一个深度神经网络中,并将运算都移植到图形处理器,从而去除了不必要的数据拷贝过程,减少了CPU资源的占用率,加快了目标行人的识别速度,保障了网络有稳定的耗时,在实际业务环境中更容易落地。
基于相同的发明构思,本申请实施例还提供一种移动机器人,如图7所示,该移动机器人70包括:存储器701、收发机702,以及一个或多个处理器703。其中,图7中以一个处理器703为例。收发机702,用于在处理器703的控制下收发数据。
处理器703和存储器701可以通过总线或者其他方式连接。存储器701作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的递送机器人的云端调度方法对应的程序指令/模块。处理器703通过运行存储在存储器701中的非易失性软件程序、指令以及模块,从而执行行人重识别装置的各种功能应用以及数据处理,即实现上述方法实施例提供的行人重识别方法以及上述行人重识别装置实施例的各个模块或单元的功能。
应理解,在上述实施例中,存储器701可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器701可选包括相对于处理器703远程设置的存储器,这些远程存储器可以通过网络连接至处理器703。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。收发机702可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元,这些传输介质包括无线信道、有线信道、光缆等传输介质。
该程序指令/模块存储在该存储器701中,当被该一个或者多个处理器703执行时,执行上述任意实施例中的行人重识别方法。
本发明实施例还提供了一种非易失性计算机存储介质,该计算机存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如图7中的一个处理器703,可使得上述一个或多个处理器可执行上述任意方法实施例中的行人重识别方法。
本发明实施例还提供了一种计算机程序产品,该计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,该计算机程序包括程序指令,当该程序指令被电子设备执行时,使该电子设备执行任一项该的机器人的递送调度方法。
以上所描述的装置或设备实施例仅仅是示意性的,其中该作为分离部件说明的单元模块可以是或者也可以不是物理上分开的,作为模块单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分该的方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种行人重识别方法,其特征在于,包括以下步骤:
步骤1,构建行人重识别网络模型,并将所述行人重识别网络模型设置到图形处理器中;所述行人重识别网络模型包括依次连接的骨干网络、检测头模块、感兴趣池化模块、行人特征提取模块和行人特征比对模块;
步骤2,获取第一训练集,并通过所述第一训练集对所述骨干网络和所述检测头模块进行训练,优化所述骨干网络和所述检测头模块的网络参数;
步骤3,固定优化后所述骨干网络和所述检测头模块的网络参数,并获取第二训练集,通过所述第二训练集对所述感兴趣池化模块和所述行人特征提取模块进行训练,优化所述感兴趣池化模块和所述行人特征提取模块的网络参数;
步骤4,采集实时行人图片,并基于训练完成的所述行人重识别网络模型对所述实时行人图片中的目标行人进行检测。
2.根据权利要求1所述的行人重识别方法,其特征在于,所述骨干网络的网络结构按计算单元处理顺序为:
第一卷积块,卷积层为30通道,3x3卷积核,步长为2,连接BN层处理,再连接一个LeakyReLU层输出;
第二卷积块,卷积层为61通道,3x3卷积核,步长为2,连接BN层处理,再连接一个LeakyReLU层输出;
第一卷积块组,包括依次连接的第三卷积块、第四卷积块和第五卷积块,所述第三卷积块的卷积层为109通道,3x3卷积核,步长为2;所述第四卷积块的卷积层为64通道,1x1卷积核,步长为2;所述第五卷积块的卷积层为106通道,3x3卷积核,步长为1;
第二卷积块组,包括依次连接的第六卷积块、第七卷积块和第八卷积块,所述第六卷积块的卷积层为129通道,3x3卷积核,步长为2;所述第七卷积块的卷积层为128通道,1x1卷积核,步长为1;所述第八卷积块的卷积层为181通道,3x3卷积核,步长为1;
第三卷积块组,包括依次连接的第九卷积块、第十卷积块、第十一卷积块、第十二卷积块和第十三卷积块,所述第九卷积块的卷积层为277通道,3x3卷积核,步长为2;所述第十卷积块的卷积层为195通道,1x1卷积核,步长为1;所述第十一卷积块的卷积层为297通道,3x3卷积核,步长为1;所述第十二卷积块的卷积层为195通道,1x1卷积核,步长为1;所述第十三卷积块的卷积层为381通道,3x3卷积核,步长为1;
第四卷积块组,包括依次连接的第十四卷积块、第十五卷积块、第十六卷积块、第十七卷积块和第十八卷积块,所述第十四卷积块的卷积层为469通道,3x3卷积核,步长为2;所述第十五卷积块的卷积层为379通道,1x1卷积核,步长为1;所述第十六卷积块的卷积层为499通道,3x3卷积核,步长为1;所述第十七卷积块的卷积层为351通道,1x1卷积核,步长为1;所述第十八卷积块的卷积层为340通道,3x3卷积核,步长为1。
3.根据权利要求2所述的行人重识别方法,其特征在于,所述检测头模块的网络结构包括第一检测头单元、第二检测头单元、上采样单元和非极大值抑制单元,
所述第一检测头单元包括第十九卷积块和第一检测头,所述第十九卷积块的第一输入端连接所述第三卷积块组的输出端,所述第十九卷积块的第一输出端经所述第一检测头连接所述非极大值抑制单元的第一输入端;
所述第二检测头单元包括第二十卷积块和第二检测头,所述第二十卷积块的输入端连接所述第四卷积块组的输出端,所述第二十卷积块的第一输出端经所述第二检测头连接所述非极大值抑制单元的第二输入端,所述第二十卷积块的第二输出端经所述上采样单元连接所述第十九卷积块的第二输入端;
所述第十九卷积块的卷积层为128通道,1x1卷积核,步长为1,连接BN层处理,再连接一个LeakyReLU层输出;
所述第二十卷积块的卷积层为128通道,1x1卷积核,步长为1,连接BN层处理,再连接一个LeakyReLU层输出。
4.根据权利要求3所述的行人重识别方法,其特征在于,所述感兴趣池化模块的第一输入端连接所述第二卷积块组的输出端,所述感兴趣池化模块的第二输入端连接所述非极大值抑制单元的输出端,所述感兴趣池化模块的输出端连接所述行人特征提取模块的输入端;所述行人特征提取模块的网络结构包括第二十一卷积块、第二十二卷积块和第二十三卷积块,
所述第二十一卷积块的卷积层为128通道,3x3卷积核,步长为1;
所述第二十二卷积块的卷积层为96通道,3x3卷积核,步长为1;
所述第二十三卷积块的卷积层为64通道,3x3卷积核,步长为1。
5.根据权利要求1-4任一所述的行人重识别方法,其特征在于,所述通过第一训练集对骨干网络和检测头模块进行训练时,采用中心值损失函数计算损失值,降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述骨干网络和所述检测头模块的权重和偏置进行更新,直至达到预设迭代停止条件,所述中心值损失函数为:
Loss=Loss_Center+Loss_HW,
其中,
Loss_Center=center_true*log(center_pre)+(1-center_true)*log(1-center_pre),
Loss_HW=(HW_true-HW_pre)^2,
center_pre表示行人中心点位置预测值,center_true表示行人中心点位置训练值,HW_pre表示行人尺寸预测值,HW_true表示行人尺寸训练值。
6.根据权利要求5所述的行人重识别方法,其特征在于,所述通过第二训练集对感兴趣池化模块和行人特征提取模块进行训练,具体包括:
S301,选用公开数据集Market-1501作为第二训练集,将所述第二训练集Market-1501中同一行人的两张不同图片以及不同行人的一张图片随机缩放并随机粘贴到场景图片中,构造三元组图片;
S302,固定优化后所述骨干网络和所述检测头模块的网络参数,并采用所述感兴趣池化模块和所述行人特征提取模块对所述三元组图片中的行人进行特征提取,生成同一行人的第一特征向量featureA1和第二特征向量featureA2以及不同行人的特征向量featureB;
S303,采用三元组值损失函数计算损失值,降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述感兴趣池化模块和所述行人特征提取模块的权重和偏置进行更新,直至达到预设迭代停止条件,所述三元组值损失函数为:
Loss=max(A1*A2-A1*B+margin,0),
其中,margin取0.5。
7.一种行人重识别装置,其特征在于,包括构建模块、第一训练模块、第二训练模块和识别模块,
所述构建模块用于构建行人重识别网络模型,并将所述行人重识别网络模型设置到图形处理器中;所述行人重识别网络模型包括依次连接的骨干网络、检测头模块、感兴趣池化模块、行人特征提取模块和行人特征比对模块;
所述第一训练模块用于获取第一训练集,并通过所述第一训练集对所述骨干网络和所述检测头模块进行训练,优化所述骨干网络和所述检测头模块的网络参数;
所述第二训练模块用于固定优化后所述骨干网络和所述检测头模块的网络参数,并获取第二训练集,通过所述第二训练集对所述感兴趣池化模块和所述行人特征提取模块进行训练,优化所述感兴趣池化模块和所述行人特征提取模块的网络参数;
所述识别模块用于采集实时行人图片,并基于训练完成的所述行人重识别网络模型对所述实时行人图片中的目标行人进行检测。
8.根据权利要求7所述行人重识别装置,其特征在于,所述第二训练模块具体包括:
数据处理单元,用于选用公开数据集Market-1501作为第二训练集,将所述第二训练集Market-1501中同一行人的两张不同图片以及不同行人的一张图片随机缩放并随机粘贴到场景图片中,构造三元组图片;
特征提取单元,用于固定优化后所述骨干网络和所述检测头模块的网络参数,并采用所述感兴趣池化模块和所述行人特征提取模块对所述三元组图片中的行人进行特征提取,生成同一行人的第一特征向量featureA1和第二特征向量featureA2,以及不同行人的特征向量featureB;
训练单元,用于采用三元组值损失函数计算损失值,降低所述损失值并进行反向传播,通过反复循环前向传播和反向传播对所述感兴趣池化模块和所述行人特征提取模块的权重和偏置进行更新,直至达到预设迭代停止条件,所述三元组值损失函数为:
Loss=max(A1*A2-A1*B+margin,0),
其中,margin取0.5。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1-6任一所述行人重识别方法。
10.一种移动机器人,其特征在于,包括权利要求9所述的计算机可读存储介质和处理器,所述处理器执行所述计算机可读存储介质上的计算机程序时实现如权利要求1-6任一项所述行人重识别方法的步骤。
CN202110246506.0A 2021-03-05 2021-03-05 一种行人重识别方法、装置、介质和移动机器人 Pending CN112861780A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110246506.0A CN112861780A (zh) 2021-03-05 2021-03-05 一种行人重识别方法、装置、介质和移动机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110246506.0A CN112861780A (zh) 2021-03-05 2021-03-05 一种行人重识别方法、装置、介质和移动机器人

Publications (1)

Publication Number Publication Date
CN112861780A true CN112861780A (zh) 2021-05-28

Family

ID=75993903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110246506.0A Pending CN112861780A (zh) 2021-03-05 2021-03-05 一种行人重识别方法、装置、介质和移动机器人

Country Status (1)

Country Link
CN (1) CN112861780A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537378A (zh) * 2021-07-28 2021-10-22 浙江大华技术股份有限公司 图像检测方法及装置、存储介质、电子装置
CN113963241A (zh) * 2021-12-22 2022-01-21 苏州浪潮智能科技有限公司 Fpga硬件架构及其数据处理方法、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399383A (zh) * 2018-02-14 2018-08-14 深圳市商汤科技有限公司 表情迁移方法、装置存储介质及程序
CN110852152A (zh) * 2019-09-27 2020-02-28 中山大学 一种基于数据增强的深度哈希行人重识别方法
CN111797769A (zh) * 2020-07-06 2020-10-20 东北大学 一种小目标敏感的车辆检测系统
US20200334830A1 (en) * 2018-06-20 2020-10-22 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and storage medium for processing video image
CN111881777A (zh) * 2020-07-08 2020-11-03 泰康保险集团股份有限公司 一种视频处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108399383A (zh) * 2018-02-14 2018-08-14 深圳市商汤科技有限公司 表情迁移方法、装置存储介质及程序
US20200334830A1 (en) * 2018-06-20 2020-10-22 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and storage medium for processing video image
CN110852152A (zh) * 2019-09-27 2020-02-28 中山大学 一种基于数据增强的深度哈希行人重识别方法
CN111797769A (zh) * 2020-07-06 2020-10-20 东北大学 一种小目标敏感的车辆检测系统
CN111881777A (zh) * 2020-07-08 2020-11-03 泰康保险集团股份有限公司 一种视频处理方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537378A (zh) * 2021-07-28 2021-10-22 浙江大华技术股份有限公司 图像检测方法及装置、存储介质、电子装置
CN113963241A (zh) * 2021-12-22 2022-01-21 苏州浪潮智能科技有限公司 Fpga硬件架构及其数据处理方法、存储介质
CN113963241B (zh) * 2021-12-22 2022-03-08 苏州浪潮智能科技有限公司 Fpga硬件架构及其数据处理方法、存储介质

Similar Documents

Publication Publication Date Title
CN110084173B (zh) 人头检测方法及装置
CN111126472B (zh) 一种基于ssd改进的目标检测方法
CN109543549B (zh) 用于多人姿态估计的图像数据处理方法及装置、移动端设备、服务器
CN111488985B (zh) 深度神经网络模型压缩训练方法、装置、设备、介质
CN110633745A (zh) 一种基于人工智能的图像分类训练方法、装置及存储介质
CN111626184B (zh) 一种人群密度估计方法及系统
CN108205703B (zh) 多输入多输出矩阵平均值池化向量化实现方法
CN112861780A (zh) 一种行人重识别方法、装置、介质和移动机器人
CN111008631B (zh) 图像的关联方法及装置、存储介质和电子装置
CN107292458A (zh) 一种应用于神经网络芯片的预测方法和预测装置
CN113947144B (zh) 用于对象检测的方法、装置、设备、介质和程序产品
CN112861718A (zh) 一种轻量级特征融合人群计数方法及系统
CN113241064A (zh) 语音识别、模型训练方法、装置、电子设备和存储介质
CN112307860A (zh) 图像识别模型训练方法和装置、图像识别方法和装置
CN111985597A (zh) 模型压缩方法及装置
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN113705598A (zh) 数据分类方法、装置及电子设备
CN114565092A (zh) 一种神经网络结构确定方法及其装置
CN111950507A (zh) 数据处理和模型训练方法、装置、设备及介质
CN110046632B (zh) 模型训练方法和装置
CN111814618A (zh) 行人重识别方法、步态识别网络训练方法及相关装置
CN116310356A (zh) 深度学习模型的训练方法、目标检测方法、装置及设备
CN117830790A (zh) 多任务模型的训练方法、多任务处理方法及装置
CN111652051B (zh) 人脸检测模型生成方法、装置、设备和存储介质
CN113840169B (zh) 一种视频处理方法、装置、计算设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination