CN113553947B - 生成描述多模态行人重识别方法、装置及电子设备 - Google Patents

生成描述多模态行人重识别方法、装置及电子设备 Download PDF

Info

Publication number
CN113553947B
CN113553947B CN202110834682.6A CN202110834682A CN113553947B CN 113553947 B CN113553947 B CN 113553947B CN 202110834682 A CN202110834682 A CN 202110834682A CN 113553947 B CN113553947 B CN 113553947B
Authority
CN
China
Prior art keywords
training
pedestrian
features
image
sketch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110834682.6A
Other languages
English (en)
Other versions
CN113553947A (zh
Inventor
曹达
翟亚静
曾雅文
陆邵飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110834682.6A priority Critical patent/CN113553947B/zh
Publication of CN113553947A publication Critical patent/CN113553947A/zh
Application granted granted Critical
Publication of CN113553947B publication Critical patent/CN113553947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种生成描述多模态行人重识别方法、装置及电子设备。所述方法提供了一种基于三种模态以上的多模态行人重识别方法,能够将文本描述和素描图像的优势结合进行行人重识别,并基于生成对抗的方法减小描述特征与图像特征之间模态差距,使行人重识别的结果更加准确,提升行人重识别的准确率。

Description

生成描述多模态行人重识别方法、装置及电子设备
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种生成描述多模态行人重识别方法、装置及电子设备。
背景技术
随着智能视频监控设备的蓬勃发展及其在刑事侦查中的广泛应用,如何从大量的跨摄像头视频中快速、准确地进行行人重识别一直是学术界和产业界的一个关键研究问题。行人重识别可以大大加快视频分析的速度,提高工作人员的工作效率,保证结果的有效性,特别是在司法机关对犯罪嫌疑人的追踪中,具有重要的应用价值。没有它,人工查找视频数据中的嫌疑人不仅可能需要大量的时间和成本,消耗不必要的人力、物力和财力,还可能拖延案件的进展。
为了克服传统的行人重识别方法只适用于从不同摄像机的行人图像中检索同一个人的局限性,研究者们提出了跨模态的行人重识别任务来解决更复杂的场景。现有的跨模态行人重识别方法可分为基于低分辨率的、基于红外的、基于文本的和基于素描的行人重识别,该任务旨在从一个模态中检索另一个模态中的行人。但是,我们不能保证这种必要的查询图片始终可以获得,因此,文本描述和素描图像是较为常用的描述一个人的方式,这对于搜索犯罪嫌疑人等实际应用非常方便。
因此,描述性信息的应用就显得尤为重要,如何利用文本和素描两种模态信息的互补性来表达行人图像特征是非常有价值的。但是现有的方法大多数是单独考虑文本或者单独考虑素描的行人重识别,将两者结合来进行多模态行人重识别的方法很少被考虑。
发明内容
本发明的目的在于提供一种生成描述多模态行人重识别方法,能够利用文本描述和素描图像的优势结合进行行人重识别,提升行人重识别的准确率。
本发明的目的还在于提供一种生成描述多模态行人重识别装置,能够利用文本描述和素描图像的优势结合进行行人重识别,提升行人重识别的准确率。
本发明的目的还在于提供一种电子设备,能够利用文本描述和素描图像的优势结合进行行人重识别,提升行人重识别的准确率。
为实现上述目的,本发明提供一种生成描述多模态行人重识别方法,其特征在于,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括多个训练样本,每一个训练样本均包括:训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述;
步骤S2、分别提取所述训练图像、训练素描图像及训练文字描述的特征,得到训练图像特征、训练素描特征和训练文本特征;
步骤S3、融合所述训练素描特征和训练文本特征,得到训练融合描述特征;
步骤S4、将所述训练图像特征及训练融合描述特征输入到生成对抗对齐网络,生成伪训练图像特征及伪训练融合描述特征;
步骤S5、用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;
步骤S6、获取待识别的图片集,所述待识别的图片集包括多个待识别行人,每一个待识别行人均包括:行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述;
步骤S7、分别提取所述行人图像、行人素描图像及行人文字描述的特征,得到行人图像特征、行人素描特征和行人文本特征;
步骤S8、融合所述行人素描特征和行人文本特征,得到行人融合描述特征;
步骤S9、将所述行人融合描述特征及行人图像特征输入训练后的行人重识别网络,得到行人重识别结果。
具体地,所述步骤S2包括:
通过图像特征提取器从训练图像及训练素描图像提取训练图像特征及训练素描特征;
对所述训练文字描述进行文本嵌入处理,得到训练文本特征;
所述步骤S7包括:
通过图像特征提取器从行人图像及行人素描图像提取行人图像特征及行人素描特征;
对所述行人文字描述进行文本嵌入处理,得到行人文本特征。
具体地,所述步骤S2及步骤S7中,所述图像特征提取器为2048维的残差神经网络。
具体地,所述步骤S2及步骤S7中,通过Doc2Vec的方法进行文本嵌入。
具体地,所述步骤S3中通过一注意力池化网络融合所述训练素描特征和训练文本特征,得到训练融合描述特征;
所述步骤S8中通过一注意力池化网络融合所述行人素描特征和行人文本特征,得到行人融合描述特征。
具体地,所述步骤S3及步骤8中注意力池化网络的公式为:
Figure GDA0003579473160000031
其中,W1、W2、W3、W4为权重矩阵,α为分数矩阵,softmax为softmax函数,Zt为训练文本特征或行人文本特征,Zs为训练素描特征或行人素描特征,Zd为训练融合描述特征或行人融合描述特征。
具体地,所述步骤S4具体包括:
所述生成对抗对齐网络将训练融合描述特征分离成第一风格特征和第一内容特征,将训练图像特征分离成第二风格特征和第二内容特征;
用第一风格特征和第二内容特征生成伪训练图像特征,用第二风格特征和第一内容特征生成伪训练融合描述特征。
具体地,所述步骤S3和步骤S4之间还包括:对所述生成对抗对齐网络进行训练的步骤。
本发明还提供一种生成描述多模态行人重识别装置,包括:
获取单元,用于获取训练样本集,所述训练样本集包括多个训练样本,每一个训练样本均包括:训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述,以及获取待识别的图片集,所述待识别的图片集包括多个待识别行人,每一个待识别行人均包括:行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述;
提取单元,用于分别提取所述训练图像、训练素描图像及训练文字描述的特征,得到训练图像特征、训练素描特征和训练文本特征,以及分别提取所述行人图像、行人素描图像及行人文字描述的特征,得到行人图像特征、行人素描特征和行人文本特征;
融合单元,用于融合所述训练素描特征和训练文本特征,得到训练融合描述特征以及融合所述行人素描特征和行人文本特征,得到行人融合描述特征;
训练单元,用于用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;
行人重识别网络,用于在经过训练后接收所述行人融合描述特征及行人图像特征,得到行人重识别结果。
本发明提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述的方法。
本发明的有益效果:本发明提供一种生成描述多模态行人重识别方法、装置及电子设备。所述方法提供了一种基于三种模态以上的多模态行人重识别方法,能够将文本描述和素描图像的优势结合进行行人重识别,并基于生成对抗的方法减小描述特征与图像特征之间模态差距,使行人重识别的的结果更加准确,提升行人重识别的准确率。
附图说明
为了能更进一步了解本发明的特征以及技术内容,请参阅以下有关本发明的详细说明与附图,然而附图仅提供参考与说明用,并非用来对本发明加以限制。
附图中,
图1为本发明的生成描述多模态行人重识别方法的流程图;
图2为本发明的生成描述多模态行人重识别装置的架构图;
图3为本发明的电子设备的示意图。
具体实施方式
为更进一步阐述本发明所采取的技术手段及其效果,以下结合本发明的优选实施例及其附图进行详细描述。
请参阅图1,本发明提供一种生成描述多模态行人重识别方法,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括多个训练样本,每一个训练样本均包括:训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述。
步骤S2、分别提取所述训练图像、训练素描图像及训练文字描述的特征,得到训练图像特征、训练素描特征和训练文本特征。
具体地,所述步骤S2包括:
通过图像特征提取器从训练图像及训练素描图像提取训练图像特征及训练素描特征;
对所述训练文字描述进行文本嵌入处理,得到训练文本特征。
进一步地,所述步骤S2中,所述图像特征提取器为2048维的残差神经网络。
进一步地,所述步骤S2中,通过Doc2Vec的方法进行文本嵌入。
步骤S3、融合所述训练素描特征和训练文本特征,得到训练融合描述特征;
具体地,所述步骤S3中通过一注意力池化网络融合所述训练素描特征和训练文本特征,得到训练融合描述特征。
进一步地,所述步骤S3中注意力池化网络的公式为:
Figure GDA0003579473160000051
其中,W1、W2、W3、W4为权重矩阵,α为分数矩阵,softmax为softmax函数,Zt为训练文本特征,Zs为训练素描特征,Zd为训练融合描述特征。
步骤S4、将所述训练图像特征及训练融合描述特征输入到生成对抗对齐网络,生成伪训练图像特征及伪训练融合描述特征。
具体地,所述步骤S3和步骤S4之间还包括:对所述生成对抗对齐网络进行训练的步骤。
进一步地,所述生成对抗对齐网络为经过训练的生成对抗对齐网络,所述生成对抗对齐网络包括:分离单元、与所述分离单元相连的生成单元及与所述生成单元相连的判别单元;
进一步地,对所述生成对抗对齐网络进行训练的步骤包括:
提供第一训练样本,所述第一训练样本包括第一训练图片特征及第一训练融合描述特征;
所述分离单元分离所述第一训练融合描述特征得到第三风格特征和第三内容特征,所述分离单元分离所述第一训练图片特征得到第四风格特征和第四内容特征;
所述生成单元用第三风格特征和第四内容特征生成第一伪训练融合描述特征,用第四风格特征和第三内容特征生成第一伪训练图片特征;
所述判别单元接收第一训练图片特征、第一训练融合描述特征、第一伪训练融合描述特征或第一伪训练图片特征,并给出判别结果,所述判别结果用于显示判别单元接收到的特征是第一训练样本中的特征或是由生成单元生成的特征;
根据所述判别结果的正确率所述判别单元的模型参数进行调整,使得所述判别结果的正确率增大至收敛,完成所述判别单元的训练。
而对生成单元训练包括:
提供第一训练样本,所述第一训练样本包括第一训练图片特征及第一训练融合描述特征;
所述分离单元分离所述第一训练融合描述特征得到第三风格特征和第三内容特征,所述分离单元分离所述第一训练图片特征得到第四风格特征和第四内容特征;
所述生成单元用第三风格特征和第四内容特征生成第一伪训练融合描述特征,用第四风格特征和第三内容特征生成第一伪训练图片特征;
将所述第一伪训练融合描述特征或第一伪训练图片特征输入经过训练的判别单元,得到判别结果;
根据所述判别结果的正确率,对生成单元的模型参数进行迭代调整,使得所述判别结果的正确率减小至收敛,完成所述生成单元的训练。
接着,用经过训练的生成单元再次对判别单元进行训练,随后用再次训练的判别单元对生成单元进行训练,依次重复循环多次,直至达到预设的循环次数或预设的训练目标,完成所述生成对抗对齐网络的训练。
用上述经过训练的生成对抗对齐网络生成的伪图像特征及伪融合描述特征能够最大程度的接近原始图像特征和原始融合描述特征,保证伪图像特征及伪融合描述特征的有效性,有效减小图像特征与融合描述特征之间的模态差距。
步骤S5、用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络。
具体地,所述步骤S5中通过由训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集对行人重识别网络进行训练,有效减小了训练样本集中融合描述特征与图像特征之间的模态差异,进而训练得到识别精度更高的行人重识别网络模型。
具体地,所述步骤S5包括:
根据三元组损失函数和交叉熵损失函数确定行人重识别损失;
根据行人重识别损失、训练图像特征、训练融合描述特征、伪训练图像特征及伪训练融合描述特征确定训练损失值;
根据训练损失值调整对所述行人重识别网络的参数进行优化,直至训练损失值达到预设的目标阈值,完成行人重识别网络的训练。
其中,三元组损失函数的公式为:
Figure GDA0003579473160000071
Ltri表示行人重识别网络的三元组损失,
Figure GDA0003579473160000072
为一个锚点,
Figure GDA0003579473160000073
表示正例,即
Figure GDA0003579473160000074
是和
Figure GDA0003579473160000075
有相同身份的正样本,对应同一标签的图像的特征,
Figure GDA0003579473160000076
表示负例,即
Figure GDA0003579473160000077
是和
Figure GDA0003579473160000078
有不同身份的负样本,对应不同标签的图像的特征
Figure GDA0003579473160000079
表示超参数margin,D计算了欧几里得距离,基本思想是正例之间的距离应该小于负例的一个预定义的边界,最大化类内相似度、最小化类间相似度。
交叉熵损失函数的公式表示为:
Lcls=-logpzsl
其中,p=softmax(Wf+b),其中softmax为回归模型,W和b分别是训练权重和偏置,f为训练所有样本的矩阵,Zsl表示一个训练样本。
最终行人重识别损失L1可表示为:
L1=Lcls+Ltri
进一步地,三元组损失函数用于行人重识别网络的相似性学习,经过相似性学习后的行人重识别网络缩小同一人的图像之间的特征距离,扩大不同人的图像之间的特征距离,交叉熵损失函数用于行人重识别网络的身份学习,它将行人重识别的训练过程视为一个图像分类问题,即每个身份都是一个不同的类,经过身份学习后的行人重识别网络试图有效区分不同的类,即有效识别图像特征与融合描述特征中的行人是否为同一身份。
如此,通过进行相似性学习、身份学习的模型训练,能够使得到的行人重识别网络在进行行人重识别时,缩小同一人的融合描述特征与图像特征之间的特征距离,扩大不同人的图像之间的特征距离,并有效识别融合描述特征与图像特征中的行人是否为同一身份。
结合上述对生成对抗对齐网络和行人重识别网络的训练,最终用于实现本发明的生成描述多模态行人重识别方法的模型的总的训练损失L可表示为如下公式:
L=λcycLcycGANLGANrecLrecreidL1;
其中,Lcyc表示在生成对抗对齐网络训练过程中产生的循环一致性损失,LGAN表示在生成对抗对齐网络训练过程中产生的对抗损失,Lrec表示在生成对抗对齐网络训练过程中产生的图像重建损失,λcyc、λGAN、λrec及λreid分别表示循环一致性损失、对抗损失、图像重建损失和行人重识别损失的平衡因子。
步骤S6、获取待识别的图片集,所述待识别的图片集包括多个待识别行人,每一个待识别行人均包括:行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述。
步骤S7、分别提取所述行人图像、行人素描图像及行人文字描述的特征,得到行人图像特征、行人素描特征和行人文本特征。
具体地,所述步骤S7包括:
通过图像特征提取器从行人图像及行人素描图像提取行人图像特征及行人素描特征;
对所述行人文字描述进行文本嵌入处理,得到行人文本特征。
进一步地,所述步骤S7中,所述图像特征提取器为2048维的残差神经网络。
进一步地,所述步骤S7中,通过Doc2Vec的方法进行文本嵌入。
步骤S8、融合所述行人素描特征和行人文本特征,得到行人融合描述特征。
具体地,所述步骤S8中通过一注意力池化网络融合所述行人素描特征和行人文本特征,得到行人融合描述特征。
进一步地,所述步骤8中注意力池化网络的公式为:
Figure GDA0003579473160000091
其中,W1、W2、W3、W4为权重矩阵,α为分数矩阵,softmax为softmax函数,Zt为行人文本特征,Zs为行人素描特征,Zd为行人融合描述特征。
步骤S9、将所述行人融合描述特征及行人图像特征输入训练后的行人重识别网络,得到行人重识别结果。
具体地,所述步骤S9包括:在行人重识别网络根据待查询的行人融合描述特征检索行人图像特征,并输出行人图像特征对应行人图像的预设rank-K排名列表作为行人重识别结果,该行人图像的排名列表中的行人图像根据行人图像特征与待查询的行人融合描述特征的相似度进行排列。
请参阅图2,本发明还提供一种生成描述多模态行人重识别装置,包括:
获取单元10,用于获取训练样本集,所述训练样本集包括多个训练样本,每一个训练样本均包括:训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述,以及获取待识别的图片集,所述待识别的图片集包括多个待识别行人,每一个待识别行人均包括:行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述;
提取单元20,用于分别提取所述训练图像、训练素描图像及训练文字描述的特征,得到训练图像特征、训练素描特征和训练文本特征,以及分别提取所述行人图像、行人素描图像及行人文字描述的特征,得到行人图像特征、行人素描特征和行人文本特征;
融合单元30,用于融合所述训练素描特征和训练文本特征,得到训练融合描述特征以及融合所述行人素描特征和行人文本特征,得到行人融合描述特征;
训练单元40,用于用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;
行人重识别网络50,用于在经过训练后接收所述行人融合描述特征及行人图像特征,得到行人重识别结果。
请参阅图3,本发明还提供一种电子设备,包括:
处理器100;
用于存储所述处理器100可执行指令的存储器200;
其中,所述处理器100被配置为执行所述指令,以实现上述的方法。
综上所述,本发明提供一种生成描述多模态行人重识别方法、装置及电子设备。所述方法提供了一种基于三种模态以上的多模态行人重识别方法,能够将文本描述和素描图像的优势结合进行行人重识别,并基于生成对抗的方法减小描述特征与图像特征之间模态差距,使行人重识别的结果更加准确,提升行人重识别的准确率。
以上所述,对于本领域的普通技术人员来说,可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形,而所有这些改变和变形都应属于本发明权利要求的保护范围。

Claims (10)

1.一种生成描述多模态行人重识别方法,其特征在于,包括如下步骤:
步骤S1、获取训练样本集,所述训练样本集包括多个训练样本,每一个训练样本均包括:训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述;
步骤S2、分别提取所述训练图像、训练素描图像及训练文字描述的特征,得到训练图像特征、训练素描特征和训练文本特征;
步骤S3、融合所述训练素描特征和训练文本特征,得到训练融合描述特征;
步骤S4、将所述训练图像特征及训练融合描述特征输入到生成对抗对齐网络,生成伪训练图像特征及伪训练融合描述特征;
步骤S5、用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;
步骤S6、获取待识别的图片集,所述待识别的图片集包括多个待识别行人,每一个待识别行人均包括:行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述;
步骤S7、分别提取所述行人图像、行人素描图像及行人文字描述的特征,得到行人图像特征、行人素描特征和行人文本特征;
步骤S8、融合所述行人素描特征和行人文本特征,得到行人融合描述特征;
步骤S9、将所述行人融合描述特征及行人图像特征输入训练后的行人重识别网络,得到行人重识别结果。
2.如权利要求1所述的生成描述多模态行人重识别方法,其特征在于,所述步骤S2包括:
通过图像特征提取器从训练图像及训练素描图像提取训练图像特征及训练素描特征;
对所述训练文字描述进行文本嵌入处理,得到训练文本特征;
所述步骤S7包括:
通过图像特征提取器从行人图像及行人素描图像提取行人图像特征及行人素描特征;
对所述行人文字描述进行文本嵌入处理,得到行人文本特征。
3.如权利要求2所述的生成描述多模态行人重识别方法,其特征在于,所述步骤S2及步骤S7中,所述图像特征提取器为2048维的残差神经网络。
4.如权利要求2所述的生成描述多模态行人重识别方法,其特征在于,所述步骤S2及步骤S7中,通过Doc2Vec的方法进行文本嵌入。
5.如权利要求1所述的生成描述多模态行人重识别方法,其特征在于,所述步骤S3中通过一注意力池化网络融合所述训练素描特征和训练文本特征,得到训练融合描述特征;
所述步骤S8中通过一注意力池化网络融合所述行人素描特征和行人文本特征,得到行人融合描述特征。
6.如权利要求5所述的生成描述多模态行人重识别方法,其特征在于,所述步骤S3及步骤S8中注意力池化网络的公式为:
Figure FDA0003579473150000021
其中,W1、W2、W3、W4为权重矩阵,α为分数矩阵,softmax为softmax函数,Zt为训练文本特征或行人文本特征,Zs为训练素描特征或行人素描特征,Zd为训练融合描述特征或行人融合描述特征。
7.如权利要求1所述的生成描述多模态行人重识别方法,其特征在于,
所述步骤S4具体包括:
所述生成对抗对齐网络将训练融合描述特征分离成第一风格特征和第一内容特征,将训练图像特征分离成第二风格特征和第二内容特征;
用第一风格特征和第二内容特征生成伪训练图像特征,用第二风格特征和第一内容特征生成伪训练融合描述特征。
8.如权利要求1所述的生成描述多模态行人重识别方法,其特征在于,所述步骤S3和步骤S4之间还包括:对所述生成对抗对齐网络进行训练的步骤。
9.一种生成描述多模态行人重识别装置,其特征在于,包括:
获取单元,用于获取训练样本集,所述训练样本集包括多个训练样本,每一个训练样本均包括:训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述,以及获取待识别的图片集,所述待识别的图片集包括多个待识别行人,每一个待识别行人均包括:行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述;
提取单元,用于分别提取所述训练图像、训练素描图像及训练文字描述的特征,得到训练图像特征、训练素描特征和训练文本特征,以及分别提取所述行人图像、行人素描图像及行人文字描述的特征,得到行人图像特征、行人素描特征和行人文本特征;
融合单元,用于融合所述训练素描特征和训练文本特征,得到训练融合描述特征以及融合所述行人素描特征和行人文本特征,得到行人融合描述特征;
训练单元,用于用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集,用优化后的训练样本集训练行人重识别网络,得到训练后的行人重识别网络;
行人重识别网络,用于在经过训练后接收所述行人融合描述特征及行人图像特征,得到行人重识别结果。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的方法。
CN202110834682.6A 2021-07-23 2021-07-23 生成描述多模态行人重识别方法、装置及电子设备 Active CN113553947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110834682.6A CN113553947B (zh) 2021-07-23 2021-07-23 生成描述多模态行人重识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110834682.6A CN113553947B (zh) 2021-07-23 2021-07-23 生成描述多模态行人重识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN113553947A CN113553947A (zh) 2021-10-26
CN113553947B true CN113553947B (zh) 2022-05-17

Family

ID=78104149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110834682.6A Active CN113553947B (zh) 2021-07-23 2021-07-23 生成描述多模态行人重识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN113553947B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116682144B (zh) * 2023-06-20 2023-12-22 北京大学 一种基于多层次跨模态差异调和的多模态行人重识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046669B (zh) * 2019-04-22 2019-12-24 广东石油化工学院 基于素描图像的半耦合度量鉴别字典学习的行人检索方法

Also Published As

Publication number Publication date
CN113553947A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
Zhang et al. Gender and smile classification using deep convolutional neural networks
CN111126360A (zh) 基于无监督联合多损失模型的跨域行人重识别方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
JP2014232533A (ja) Ocr出力検証システム及び方法
CN108960124B (zh) 用于行人再识别的图像处理方法及装置
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN111738143A (zh) 一种基于期望最大化的行人重识别方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN112364791B (zh) 一种基于生成对抗网络的行人重识别方法和系统
CN108647621A (zh) 一种基于人脸识别的视频分析处理系统及方法
CN114677687A (zh) 一种融合ViT与卷积神经网络的毛笔字体类型快速识别方法
CN113095158A (zh) 一种基于对抗生成网络的笔迹生成方法及装置
Sabry et al. Image retrieval using convolutional autoencoder, infogan, and vision transformer unsupervised models
CN113553947B (zh) 生成描述多模态行人重识别方法、装置及电子设备
Wan et al. A facial recognition system for matching computerized composite sketches to facial photos using human visual system algorithms
CN110909678B (zh) 一种基于宽度学习网络特征提取的人脸识别方法及系统
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
Muthukumar et al. Vision based hand gesture recognition for Indian sign languages using local binary patterns with support vector machine classifier
CN117152625A (zh) 一种基于CoordConv和YOLOv5的遥感小目标识别方法、系统、设备及介质
CN113627218A (zh) 基于视频数据的人物识别方法及装置
CN112215252B (zh) 一种基于在线难易样本挖掘的弱监督目标检测方法
CN110851633B (zh) 一种实现同时定位和哈希的细粒度图像检索方法
Rong et al. Weakly supervised text attention network for generating text proposals in scene images
Wang et al. A convolutional neural network combined with aggregate channel feature for face detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant