CN114550220A - 行人重识别模型的训练方法及行人重识别方法 - Google Patents

行人重识别模型的训练方法及行人重识别方法 Download PDF

Info

Publication number
CN114550220A
CN114550220A CN202210420255.8A CN202210420255A CN114550220A CN 114550220 A CN114550220 A CN 114550220A CN 202210420255 A CN202210420255 A CN 202210420255A CN 114550220 A CN114550220 A CN 114550220A
Authority
CN
China
Prior art keywords
pedestrian
modal
infrared
visible light
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210420255.8A
Other languages
English (en)
Other versions
CN114550220B (zh
Inventor
张天柱
刘翔
张勇东
姜孔竹
吴枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210420255.8A priority Critical patent/CN114550220B/zh
Publication of CN114550220A publication Critical patent/CN114550220A/zh
Application granted granted Critical
Publication of CN114550220B publication Critical patent/CN114550220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种行人重识别模型的训练方法,包括:利用行人重识别模型的特征提取器提取行人的多模态图像的特征,得到行人的多模态特征;利用行人重识别模型的模态级对齐模块处理多模态特征,得到行人的多模态补全特征;根据预设查询特征,利用行人重识别模型的实例级对齐模块处理多模态补全特征,得到多模态查询结果;根据多模态特征、多模态补全特征、预设查询特征和多模态查询结果,利用损失函数优化行人重识别模型;迭代进行特征提取操作、模态级对齐处理操作、实例级对齐处理操作和优化操作,直到损失函数的值满足预设条件,得到训练完成的行人重识别模型。本发明还公开了一种行人重识别方法及装置、电子设备和存储介质。

Description

行人重识别模型的训练方法及行人重识别方法
技术领域
本发明涉及计算机视觉领域,特别涉及一种行人重识别模型的训练方法、行人重识别方法及装置、电子设备以及存储介质。
背景技术
行人重识别是一项跨摄像头跨场景下搜寻与匹配目标行人的技术。行人重识别技术可以与行人检测、行人跟踪技术相结合,在视频监控、智能安防、刑事侦查等方面有着广泛应用。
现有技术中,行人重识别方法存在多模态特征表达能力受限、重识别准确率低等问题。
发明内容
有鉴于此,本发明提供了一种行人重识别模型的训练方法、行人重识别方法及装置、电子设备以及存储介质,以期能至少解决上述问题之一。
根据本发明的第一个方面,提供了一种行人重识别模型的训练方法,包括:
利用行人重识别模型的特征提取器提取行人的多模态图像的特征,得到行人的多模态特征,其中,多模态特征包括可见光特征和红外特征;
利用行人重识别模型的模态级对齐模块处理多模态特征,得到行人的多模态补全特征,其中,多模态补全特征包括可见光补全特征和红外补全特征;
根据预设查询特征,利用行人重识别模型的实例级对齐模块处理多模态补全特征,得到多模态查询结果,其中,多模态查询结果包括可见光查询结果和红外查询结果;
根据多模态特征、多模态补全特征、预设查询特征和多模态查询结果,利用损失函数优化行人重识别模型;
迭代进行特征提取操作、模态级对齐处理操作、实例级对齐处理操作和优化操作,直到损失函数的值满足预设条件,得到训练完成的行人重识别模型。
根据本发明的实施例,上述利用行人重识别模型的模态级对齐模块处理多模态特征,得到行人的多模态补全特征包括:
将可见光特征划分成多个局部可见光特征;
利用模态级对齐模块的表示编码器处理局部可见光特征,获取局部可见光特征的上下文信息;
根据局部可见光特征的上下文信息,利用模态级对齐模块的模态补偿解码器生成可见光补偿特征;
将可见光补偿特征和红外特征进行融合,得到红外补全特征。
根据本发明的实施例,上述利用行人重识别模型的模态级对齐模块处理多模态特征,得到行人的多模态补全特征还包括:
将红外特征划分成多个局部红外特征;
利用模态级对齐模块的表示编码器处理局部红外特征,获取局部红外特征的上下文信息;
根据局部红外特征的上下文信息,利用模态级对齐模块的模态补偿解码器生成红外补偿特征;
将红外补偿特征和可见光特征进行融合,得到可见光补全特征。
根据本发明的实施例,上述根据预设查询特征,利用行人重识别模型的实例级对齐模块处理多模态补全特征,得到多模态查询结果包括:
利用实例级对齐模块对多模态补全特征进行池化预处理,得到预处理后的多模态补全特征;
根据预设查询特征,利用实例级对齐模块的查询自适应调制器生成调制参数;
根据调制参数和预处理后的多模态补全特征,生成多模态查询结果。
根据本发明的实施例,上述多模态查询结果由公式(1)表示:
Figure DEST_PATH_IMAGE001
(1),
其中,
Figure 40338DEST_PATH_IMAGE002
表示多模态查询结果,
Figure DEST_PATH_IMAGE003
表示多模态补全特征,
Figure 682799DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
表示调制参数;
其中,调制参数由公式(2)和公式(3)表示:
Figure 61828DEST_PATH_IMAGE006
(2),
Figure DEST_PATH_IMAGE007
(3),
其中,GAP表示全局平均池化函数,
Figure 65687DEST_PATH_IMAGE008
表示用于生成调制参数
Figure DEST_PATH_IMAGE009
的神经网络,
Figure 929476DEST_PATH_IMAGE010
表 示用于生成调制参数
Figure DEST_PATH_IMAGE011
的神经网络。
根据本发明的实施例,上述损失函数包括可见光模态一致性损失函数、红外模态一致性损失函数和调制鉴别力损失函数;
其中,可见光模态一致性损失函数由公式(4)确定:
Figure 522131DEST_PATH_IMAGE012
(4),
其中,N表示行人身份的总数量,K表示每个行人身份具有的图像数量,
Figure DEST_PATH_IMAGE013
表示可见 光补偿特征,
Figure 885110DEST_PATH_IMAGE014
表示可见光质心的特征;
其中,红外模态一致性损失函数由公式(5)确定:
Figure DEST_PATH_IMAGE015
(5),
其中,N表示行人身份的总数量,K表示每个行人身份具有的图像数量,
Figure 891113DEST_PATH_IMAGE016
表示红外 补偿特征,
Figure DEST_PATH_IMAGE017
表示红外质心的特征;
其中,调制鉴别力损失函数由公式(6)确定:
Figure 436888DEST_PATH_IMAGE018
(6),
其中,
Figure DEST_PATH_IMAGE019
表示控制距离的参数,
Figure 946367DEST_PATH_IMAGE020
表示与
Figure DEST_PATH_IMAGE021
具有相同身份的样本调制后的特征,
Figure 542564DEST_PATH_IMAGE022
表 示与
Figure 911229DEST_PATH_IMAGE021
具有不同身份的样本调制后的特征,
Figure DEST_PATH_IMAGE023
表示
Figure 116820DEST_PATH_IMAGE024
之间的距离。
根据本发明的第二个方法,提供了一种行人重识别方法,包括:
获取重识别类型和待重识别行人的图像,其中,重识别类型包括可见光重识别类型或红外重识别类型,待重识别行人的图像包括可见光图像和红外图像;
根据重识别类型,利用行人重识别模型处理待重识别行人的图像,获得重识别结果,其中,行人重识别模型由上述行人重识别模型的训练方法训练得到。
根据本发明的第三个方面,提供了一种行人重识别装置,包括:
数据获取模块,用于获取重识别类型和待重识别行人的图像,其中,重识别类型包括可见光重识别类型或红外重识别类型,待重识别行人的图像包括可见光图像和红外图像;
重识别模块,用于根据重识别类型,利用行人重识别模型处理待重识别行人的图像,获得重识别结果,其中,行人重识别模型由上述行人重识别模型的训练方法训练得到。
根据本发明的第四个方面,提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述行人重识别模型的训练方法和行人重识别方法。
根据本发明的第五个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述行人重识别模型的训练方法和行人重识别方法。
本发明提供的行人重识别模型的训练方法,充分利用了行人的多模态图像特征,能够自适应地预测模特的缺失特征,从而不丢失任何有价值的模态信息,进而实现多模态之间的信息对齐,并且通过迭代训练行人重识别模型,获得了具有较高多模态表达能力和较高重识别准确率的模型。
附图说明
图1是根据本发明实施例的行人重识别模型的训练方法的流程图;
图2是根据本发明实施例的获得行人的红外补全特征的流程图;
图3是根据本发明实施例的获得行人的可见光补全特征的流程图;
图4是根据本发明的实施例获得行人多模态查询结果的流程图;
图5是根据本发明实施例的行人重识别模型的训练方法的框架图;
图6是根据本发明实施例的行人重识别方法的流程图;
图7是根据本发明实施例的行人重识别装置的结构图;
图8示意性示出了根据本发明实施例的适于实现行人重识别模型的训练方法和行人重识别方法的电子设备的方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
传统的行人重识别方法大多只关注于可见光相机所拍摄的行人图像。但是,在光照条件较差的情况下(如夜间),可见光相机无法捕捉到人的有效外表信息。为了在黑暗中清晰成像,除了可见光摄像机外,在许多监控场景中还配备了对照明具有鲁棒性的红外摄像机。因此,在可见光图像与红外图像间进行相互检索的可见光到红外的行人重识别对于实际应用具有重大意义。
目前的可见光到红外的行人重识别方法可以归为两类。基于模态共享特征学习的方法将特征解耦为模态特定特征和模态共享特征。然后利用模态共享特征在特征层对齐模式。然而,模态特定的特征,例如颜色,也包含有助于最终检索的有用身份信息。因此,在仅基于模态共享特征的情况下,特征的表达能力上限是受限的。基于模态补偿方法利用图卷积网络以及跨模态样本之间的相似度来补偿缺失的模态特征。然而,补偿后的特征完全基于当前小批量的样本产生,这种策略存在一定的随机性,从而导致生成的模态特征不一致。并且现有方法大多没有考虑到行人重识别中相机视角背景干扰等造成的图像实例间分布差异。
有鉴于此,本发明提供了一种行人重识别模型的训练方法、行人重识别方法及装置、电子设备以及存储介质。本发明通过联合探索模态级对齐和实例级对齐的模型,并通过跨模态Transformer(转换)实现模态缺失特征的自适应补偿。
图1是根据本发明实施例的行人重识别模型的训练方法的流程图。
如图1所示,包括操作S110~操作S150。
在操作S110,利用行人重识别模型的特征提取器提取行人的多模态图像的特征,得到行人的多模态特征,其中,多模态特征包括可见光特征和红外特征。
上述特征提取器采用双层ResNet-50网络,用于处理行人的可见光图像和红外图像。
在操作S120,利用行人重识别模型的模态级对齐模块处理多模态特征,得到行人的多模态补全特征,其中,多模态补全特征包括可见光补全特征和红外补全特征。
在操作S130,根据预设查询特征,利用行人重识别模型的实例级对齐模块处理多模态补全特征,得到多模态查询结果,其中,多模态查询结果包括可见光查询结果和红外查询结果。
上述预设查询特征是指可见光图像特征或红外图像特征,当给定的预设查询特征是指行人的可见光图像特征时,模型根据上述预设查询特征去检索属于同一个行人的红外图像特征。
在操作S140,根据多模态特征、多模态补全特征、预设查询特征和多模态查询结果,利用损失函数优化行人重识别模型。
在操作S150,迭代进行特征提取操作、模态级对齐处理操作、实例级对齐处理操作和优化操作,直到损失函数的值满足预设条件,得到训练完成的行人重识别模型。
本发明提供的行人重识别模型的训练方法,充分利用了行人的多模态图像特征,能够自适应地预测模特的缺失特征,从而不丢失任何有价值的模态信息,进而实现多模态之间的信息对齐,并且通过迭代训练行人重识别模型,获得了具有较高多模态表达能力和较高重识别准确率的模型。
图2是根据本发明实施例的获得行人多模态补全特征的流程图。
如图2所示,上述利用行人重识别模型的模态级对齐模块处理多模态特征,得到行人的多模态补全特征包括操作S210~操作S240。
在操作S210,将可见光特征划分成多个局部可见光特征。
在操作S220,利用模态级对齐模块的表示编码器处理局部可见光特征,获取局部可见光特征的上下文信息。
在操作S230,根据局部可见光特征的上下文信息,利用模态级对齐模块的模态补偿解码器生成可见光补偿特征。
在操作S240,将可见光补偿特征和红外特征进行融合,得到红外补全特征。
图3是根据本发明另一实施例的获得行人的多模态补全特征的流程图。
如图3所示,上述利用行人重识别模型的模态级对齐模块处理多模态特征,得到行人的多模态补全特征还包括操作S250~操作S280。
在操作S250,将红外特征划分成多个局部红外特征。
在操作S260,利用模态级对齐模块的表示编码器处理局部红外特征,获取局部红外特征的上下文信息。
在操作S270,根据局部红外特征的上下文信息,利用模态级对齐模块的模态补偿解码器生成红外补偿特征。
在操作S280,将红外补偿特征和可见光特征进行融合,得到可见光补全特征。
下面结合具体实施方式,对上述获取行人的多模态补全特征的方法作进一步详细地说明。
对于行人的多模态图像,经过行人重识别模型的特征提取器处理后,得到行人的多模态特征,例如可见光特征或红外特征;将上述多模态特征水平划分为多个部分(例如p个part,p≥2),并将每个部分输入到表示编码器中,其中,上述表示编码器基于Transformer网络(转换网络),通过自注意力机制,捕获每个部分的上下文信息。上述获取行人的多模态补全特征的方法下述方程组表示:
Figure 152909DEST_PATH_IMAGE026
Figure 857691DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
其中,
Figure 510389DEST_PATH_IMAGE030
行人的多模态特征,
Figure DEST_PATH_IMAGE031
表示多模态特征不同纬度的权重矩阵,
Figure 991442DEST_PATH_IMAGE032
表示 自注意机制的激活函数,
Figure DEST_PATH_IMAGE033
表示权重系数。
为了实现缺失模态的自适应补偿,引入了两组可学习的模态原型以表示可见光和红外模态的全局模态信息,并通过模态补偿解码器自适应生成缺失的模态特征,下述方程组表示了上述过程:
Figure 147617DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
Figure 23301DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
其中,R和I是补全后的可见光和红外图像的特征表示。
图4是根据本发明的实施例获得行人多模态查询结果的流程图。
如图4所示,上述根据预设查询特征,利用行人重识别模型的实例级对齐模块处理多模态补全特征,得到多模态查询结果包括操作S410~S430。
在操作S410,利用实例级对齐模块对多模态补全特征进行池化预处理,得到预处理后的多模态补全特征。
在操作S420,根据预设查询特征,利用实例级对齐模块的查询自适应调制器生成调制参数。
在操作S430,根据调制参数和预处理后的多模态补全特征,生成多模态查询结果。
由于视角变化、背景杂波等影响,相同行人不同样本的特征分布存在较大差异。因此,本发明提出了一个实例级对齐模块,在该模块中,利用给定的查询特征,通过查询自适应调制器生成每个实例样本的调制参数,然后利用该调制参数自动调整图库中待检索的其他实例特征。
根据本发明的实施例,上述多模态查询结果由公式(1)表示:
Figure 271617DEST_PATH_IMAGE001
(1),
其中,
Figure 179530DEST_PATH_IMAGE002
表示多模态查询结果,
Figure 986949DEST_PATH_IMAGE003
表示多模态补全特征,
Figure 299113DEST_PATH_IMAGE004
Figure 129666DEST_PATH_IMAGE005
表示调制参数;
其中,调制参数由公式(2)和公式(3)表示:
Figure 434745DEST_PATH_IMAGE006
(2),
Figure 348868DEST_PATH_IMAGE007
(3),
其中,GAP表示全局平均池化函数,
Figure 956567DEST_PATH_IMAGE008
表示用于生成调制参数
Figure 602312DEST_PATH_IMAGE009
的神经网络,
Figure 196235DEST_PATH_IMAGE010
表示 用于生成调制参数
Figure 650350DEST_PATH_IMAGE038
的神经网络。
上述方法通过查询样本自适应地生成调制参数,调整图库中待检索样本的特征分布,能够减轻相机视角、背景干扰等影响因素对重识别过程中造成的负面干扰,实现更好的实例级别对齐。
根据本发明的实施例,上述损失函数包括可见光模态一致性损失函数、红外模态一致性损失函数和调制鉴别力损失函数;
其中,可见光模态一致性损失函数由公式(4)确定:
Figure 819163DEST_PATH_IMAGE012
(4),
其中,N表示行人身份的总数量,K表示每个行人身份具有的图像数量,
Figure 358729DEST_PATH_IMAGE013
表示可见 光补偿特征,
Figure 254879DEST_PATH_IMAGE014
表示可见光质心的特征;
其中,红外模态一致性损失函数由公式(5)确定:
Figure 891396DEST_PATH_IMAGE015
(5),
其中,N表示行人身份的总数量,K表示每个行人身份具有的图像数量,
Figure 106477DEST_PATH_IMAGE016
表示红外 补偿特征,表示红外质心的特征;
其中,调制鉴别力损失函数由公式(6)确定:
Figure 743126DEST_PATH_IMAGE018
(6),
其中,
Figure DEST_PATH_IMAGE039
表示控制距离的参数,表示与具有相同身份的样本调制后的特征,
Figure 131382DEST_PATH_IMAGE022
表示 与
Figure 659622DEST_PATH_IMAGE021
具有不同身份的样本调制后的特征,
Figure 107921DEST_PATH_IMAGE023
表示
Figure 622079DEST_PATH_IMAGE024
之间的距离。
上述损失函数保证了调制后的特征不丢失身份鉴别力特征。
图5是根据本发明实施例的行人重识别模型的训练方法的框架图,下面结合图5对上述行人重识别模型的训练方法作进一步详细地说明。
如图5所示,首先获取属于同一个行人的不同模态的图像,例如可见光图像和红外 图像;利用行人重识别模型的特征提取器分别处理行人的可见光图像和红外图像,可以获 得行人的可见光特征
Figure 361496DEST_PATH_IMAGE040
和红外特征
Figure DEST_PATH_IMAGE041
,通过模态级对齐模块中表示编码器处理可见光特征
Figure 238185DEST_PATH_IMAGE040
和红外特征
Figure 372232DEST_PATH_IMAGE041
得到可见光特征上下文信息
Figure 108107DEST_PATH_IMAGE042
和红外特征上下文信息
Figure DEST_PATH_IMAGE043
;将上述可见光 特征上下文信息
Figure 634903DEST_PATH_IMAGE042
和红外特征上下文信息
Figure 585673DEST_PATH_IMAGE043
通过模态补偿解码器处理后可以得到可见光 补全特征
Figure 438091DEST_PATH_IMAGE044
和红外补全特征
Figure DEST_PATH_IMAGE045
;将上述可见光补全特征
Figure 772514DEST_PATH_IMAGE044
和红外补全特征
Figure 306264DEST_PATH_IMAGE045
通过实例级 对齐模块进行池化处理,并通过查询自适应调制处理,利用预设的查询特征和参数生成器, 获得行人的多模态查询结果,例如,如果预设查询特征为行人的可见光图像特征时,则查询 与之对应的红外图像。
图6是根据本发明实施例的行人重识别方法的流程图。
如图6所示,包括操作S610~操作S620。
在操作S610,获取重识别类型和待重识别行人的图像,其中,重识别类型包括可见光重识别类型或红外重识别类型,待重识别行人的图像包括可见光图像和红外图像。
在操作S620,根据重识别类型,利用行人重识别模型处理待重识别行人的图像,获得重识别结果,其中,行人重识别模型由上述行人重识别模型的训练方法训练得到。
本发明提供的行人重识别方法,通过跨模态Transformer模型对缺失的模态特征进行补偿,实现了可见光与红外图像间的特征对齐,可广泛应用于安防系统、智慧城市、自动驾驶等场景。同时,上述行人重识别方法,可以以软件的方式安装于前端设备上,提供实时行人图像匹配;也可以安装于公司的后台服务器,提供大批量行人图像检索与匹配结果。
图7是根据本发明实施例的行人重识别装置的结构图。
如图7所示,上述行人重识别装置700包括数据获取模块710以及重识别模块720。
数据获取模块710,用于获取重识别类型和待重识别行人的图像,其中,重识别类型包括可见光重识别类型或红外重识别类型,待重识别行人的图像包括可见光图像和红外图像。
重识别模块720,用于根据重识别类型,利用行人重识别模型处理待重识别行人的图像,获得重识别结果,其中,行人重识别模型由上述行人重识别模型的训练方法训练得到。
根据本发明的实施例,数据获取模块710以及重识别模块720中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,数据获取模块710以及重识别模块720中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,数据获取模块710以及重识别模块720中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图8示意性示出了根据本发明实施例的适于实现行人重识别模型的训练方法和行人重识别方法的电子设备的方框图。
如图8所示,根据本发明实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有电子设备800操作所需的各种程序和数据。处理器 801、ROM802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种行人重识别模型的训练方法,包括:
利用所述行人重识别模型的特征提取器提取行人的多模态图像的特征,得到所述行人的多模态特征,其中,所述多模态特征包括可见光特征和红外特征;
利用所述行人重识别模型的模态级对齐模块处理所述多模态特征,得到所述行人的多模态补全特征,其中,所述多模态补全特征包括可见光补全特征和红外补全特征;
根据预设查询特征,利用所述行人重识别模型的实例级对齐模块处理所述多模态补全特征,得到多模态查询结果,其中,所述多模态查询结果包括可见光查询结果和红外查询结果;
根据所述多模态特征、所述多模态补全特征、所述预设查询特征和所述多模态查询结果,利用损失函数优化所述行人重识别模型;
迭代进行特征提取操作、模态级对齐处理操作、实例级对齐处理操作和优化操作,直到所述损失函数的值满足预设条件,得到训练完成的行人重识别模型。
2.根据权利要求1所述的方法,其中,所述利用所述行人重识别模型的模态级对齐模块处理所述多模态特征,得到所述行人的多模态补全特征包括:
将所述可见光特征划分成多个局部可见光特征;
利用所述模态级对齐模块的表示编码器处理所述局部可见光特征,获取所述局部可见光特征的上下文信息;
根据所述局部可见光特征的上下文信息,利用所述模态级对齐模块的模态补偿解码器生成可见光补偿特征;
将所述可见光补偿特征和所述红外特征进行融合,得到所述红外补全特征。
3.根据权利要求1所述的方法,其中,所述利用所述行人重识别模型的模态级对齐模块处理所述多模态特征,得到所述行人的多模态补全特征还包括:
将所述红外特征划分成多个局部红外特征;
利用所述模态级对齐模块的表示编码器处理所述局部红外特征,获取所述局部红外特征的上下文信息;
根据所述局部红外特征的上下文信息,利用所述模态级对齐模块的模态补偿解码器生成红外补偿特征;
将所述红外补偿特征和所述可见光特征进行融合,得到所述可见光补全特征。
4.根据权利要求1所述的方法,其中,所述根据预设查询特征,利用所述行人重识别模型的实例级对齐模块处理所述多模态补全特征,得到多模态查询结果包括:
利用所述实例级对齐模块对所述多模态补全特征进行池化预处理,得到预处理后的多模态补全特征;
根据所述预设查询特征,利用所述实例级对齐模块的查询自适应调制器生成调制参数;
根据所述调制参数和所述预处理后的多模态补全特征,生成所述多模态查询结果。
5.根据权利要求4所述的方法,其中,所述多模态查询结果由公式(1)表示:
Figure 582838DEST_PATH_IMAGE001
(1),
其中,
Figure 809420DEST_PATH_IMAGE002
表示所述多模态查询结果,
Figure 785466DEST_PATH_IMAGE003
表示所述多模态补全特征,
Figure 906262DEST_PATH_IMAGE004
Figure 346471DEST_PATH_IMAGE005
表示所述调制参 数;
其中,所述调制参数由公式(2)和公式(3)表示:
Figure 150479DEST_PATH_IMAGE006
(2),
Figure 223608DEST_PATH_IMAGE007
(3),
其中,GAP表示全局平均池化函数,表示用于生成调制参数
Figure 771264DEST_PATH_IMAGE008
的神经网络,
Figure 128296DEST_PATH_IMAGE009
表示用于生 成调制参数
Figure 103206DEST_PATH_IMAGE010
的神经网络。
6.根据权利要求1所述的方法,其中,所述损失函数包括可见光模态一致性损失函数、红外模态一致性损失函数和调制鉴别力损失函数;
其中,所述可见光模态一致性损失函数由公式(4)确定:
Figure 162166DEST_PATH_IMAGE011
(4),
其中,N表示所述行人身份的总数量,K表示每个行人身份具有的图像数量,
Figure 841409DEST_PATH_IMAGE012
表示所述 可见光补偿特征,
Figure 662735DEST_PATH_IMAGE013
表示可见光质心的特征;
其中,所述红外模态一致性损失函数由公式(5)确定:
Figure 215070DEST_PATH_IMAGE014
(5),
其中,N表示所述行人身份的总数量,K表示每个行人身份具有的图像数量,
Figure 121846DEST_PATH_IMAGE015
表示所述 红外补偿特征,
Figure 135938DEST_PATH_IMAGE016
表示红外质心的特征;
其中,所述调制鉴别力损失函数由公式(6)确定:
Figure 645724DEST_PATH_IMAGE017
(6),
其中,
Figure 962436DEST_PATH_IMAGE018
表示控制距离的参数,
Figure 746721DEST_PATH_IMAGE019
表示与
Figure 439871DEST_PATH_IMAGE020
具有相同身份的样本调制后的特征,表示与
Figure 111155DEST_PATH_IMAGE020
具有不同身份的样本调制后的特征,
Figure 192243DEST_PATH_IMAGE021
表示
Figure 73612DEST_PATH_IMAGE022
之间的距离。
7.一种行人重识别方法,包括:
获取重识别类型和待重识别行人的图像,其中,所述重识别类型包括可见光重识别类型或红外重识别类型,所述待重识别行人的图像包括可见光图像和红外图像;
根据所述重识别类型,利用行人重识别模型处理所述待重识别行人的图像,获得重识别结果,其中,所述行人重识别模型由权利要求1-6中任一项所述的方法训练得到。
8.一种行人重识别装置,包括:
数据获取模块,用于获取重识别类型和待重识别行人的图像,其中,所述重识别类型包括可见光重识别类型或红外重识别类型,所述待重识别行人的图像包括可见光图像和红外图像;
重识别模块,用于根据所述重识别类型,利用行人重识别模型处理所述待重识别行人的图像,获得重识别结果,其中,所述行人重识别模型由权利要求1-6中任一项所述的方法训练得到。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
CN202210420255.8A 2022-04-21 2022-04-21 行人重识别模型的训练方法及行人重识别方法 Active CN114550220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210420255.8A CN114550220B (zh) 2022-04-21 2022-04-21 行人重识别模型的训练方法及行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210420255.8A CN114550220B (zh) 2022-04-21 2022-04-21 行人重识别模型的训练方法及行人重识别方法

Publications (2)

Publication Number Publication Date
CN114550220A true CN114550220A (zh) 2022-05-27
CN114550220B CN114550220B (zh) 2022-09-09

Family

ID=81667422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210420255.8A Active CN114550220B (zh) 2022-04-21 2022-04-21 行人重识别模型的训练方法及行人重识别方法

Country Status (1)

Country Link
CN (1) CN114550220B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563584A (zh) * 2023-07-10 2023-08-08 安徽启新明智科技有限公司 图像匹配方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832672A (zh) * 2017-10-12 2018-03-23 北京航空航天大学 一种利用姿态信息设计多损失函数的行人重识别方法
CN108171247A (zh) * 2017-12-21 2018-06-15 北京大学 一种车辆再识别方法及系统
CN112597866A (zh) * 2020-12-16 2021-04-02 南京邮电大学 一种基于知识蒸馏的可见光-红外跨模态行人重识别方法
US20210150194A1 (en) * 2017-07-04 2021-05-20 Peking University Shenzhen Graduate School Image feature extraction method for person re-identification
CN114140657A (zh) * 2021-08-30 2022-03-04 浙江理工大学 一种基于多特征融合的图像检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150194A1 (en) * 2017-07-04 2021-05-20 Peking University Shenzhen Graduate School Image feature extraction method for person re-identification
CN107832672A (zh) * 2017-10-12 2018-03-23 北京航空航天大学 一种利用姿态信息设计多损失函数的行人重识别方法
CN108171247A (zh) * 2017-12-21 2018-06-15 北京大学 一种车辆再识别方法及系统
CN112597866A (zh) * 2020-12-16 2021-04-02 南京邮电大学 一种基于知识蒸馏的可见光-红外跨模态行人重识别方法
CN114140657A (zh) * 2021-08-30 2022-03-04 浙江理工大学 一种基于多特征融合的图像检索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116563584A (zh) * 2023-07-10 2023-08-08 安徽启新明智科技有限公司 图像匹配方法、装置及设备
CN116563584B (zh) * 2023-07-10 2023-11-14 安徽启新明智科技有限公司 图像匹配方法、装置及设备

Also Published As

Publication number Publication date
CN114550220B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
US10691952B2 (en) Adapting to appearance variations when tracking a target object in video sequence
CN111460968B (zh) 基于视频的无人机识别与跟踪方法及装置
WO2020047420A1 (en) Method and system for facilitating recognition of vehicle parts based on a neural network
US11501162B2 (en) Device for classifying data
US20170213081A1 (en) Methods and systems for automatically and accurately detecting human bodies in videos and/or images
US11106903B1 (en) Object detection in image data
US20180349716A1 (en) Apparatus and method for recognizing traffic signs
CN112016402B (zh) 基于无监督学习的行人重识别领域自适应方法及装置
CN112949578B (zh) 车灯状态识别方法、装置、设备及存储介质
Zheng et al. Active discriminative dictionary learning for weather recognition
CN114550220B (zh) 行人重识别模型的训练方法及行人重识别方法
Gu et al. Embedded and real-time vehicle detection system for challenging on-road scenes
Wang et al. Near-surface pedestrian detection method based on deep learning for UAVs in low illumination environments
Xue et al. Nighttime pedestrian and vehicle detection based on a fast saliency and multifeature fusion algorithm for infrared images
Zhang et al. A small target pedestrian detection model based on autonomous driving
CN111652242B (zh) 图像处理方法、装置、电子设备及存储介质
Angelika Mulia et al. YOLOv8 and Faster R-CNN Performance Evaluation with Super-resolution in License Plate Recognition
Wu et al. Research on asphalt pavement disease detection based on improved YOLOv5s
CN111753583A (zh) 一种识别方法及装置
Abd Gani et al. A live-video automatic Number Plate Recognition (ANPR) system using convolutional neural network (CNN) with data labelling on an Android smartphone
CN113343903B (zh) 一种自然场景下的车牌识别方法及系统
Kaimkhani et al. UAV with Vision to Recognise Vehicle Number Plates
Shen et al. Optical Prior‐Based Underwater Object Detection with Active Imaging
CN114882525B (zh) 基于模态特定记忆网络的跨模态行人重识别方法
CN115762178B (zh) 智能电子警察违章检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant