CN114596588A - 基于文本辅助特征对齐模型的受损行人图像再识别方法及装置 - Google Patents

基于文本辅助特征对齐模型的受损行人图像再识别方法及装置 Download PDF

Info

Publication number
CN114596588A
CN114596588A CN202210242707.8A CN202210242707A CN114596588A CN 114596588 A CN114596588 A CN 114596588A CN 202210242707 A CN202210242707 A CN 202210242707A CN 114596588 A CN114596588 A CN 114596588A
Authority
CN
China
Prior art keywords
feature
damaged
image
text
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210242707.8A
Other languages
English (en)
Other versions
CN114596588B (zh
Inventor
洪金城
郑伟诗
秦家银
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202210242707.8A priority Critical patent/CN114596588B/zh
Publication of CN114596588A publication Critical patent/CN114596588A/zh
Application granted granted Critical
Publication of CN114596588B publication Critical patent/CN114596588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于文本辅助特征对齐模型的受损行人图像再识别方法及装置,包括:构建文本辅助特征对齐模型,对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;将测试集中的受损图像输入到深度卷积神经网络‑Corrupted以及全局平均池化层中提取得到受损图像特征向量;将参考集中的正常图像输入到深度卷积神经网络‑Normal以及全局平均池化层中提取得到未受损图像特征向量;使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算。本发明能高效地检索出受损的行人图像在正常行人数据库中相同身份的正常图像,提高行人再识别方法在实际应用场景中的鲁棒性。

Description

基于文本辅助特征对齐模型的受损行人图像再识别方法及 装置
技术领域
本发明属于图像识别的技术领域,具体涉及一种基于文本辅助特征对齐模型的受损行人图像再识别方法及装置。
背景技术
近年来,为了提高行人再识别方法在实际应用场景中的准确性和鲁棒性,一些方法不再只针对正常情况下的高质量行人图像进行研究,而是针对各种可能产生的图像受损情形,设计模型来减轻受损导致的行人再识别性能的下降。常见的图像受损情形有摄像头与行人间距过大或摄像头配置较低导致的图像低分辨率问题;行人在密集场景中外观随着遮挡物体发生显著变化的遮挡问题;由于环境光变化剧烈导致捕获的图像过曝或欠曝的光照异常问题;由于镜头种类不同导致的镜头畸变或鱼眼问题。
现有技术中的行人再识别方法有INTACT模型、PVPM模型和IID模型:
(1)INTACT模型针对的是低分辨率行人再识别任务,使用了生成式对抗网络(GAN)来提升原始低分辨率图像的分辨率;生成式对抗网络由生成模型和判别模型组成,生成模型负责生成尽可能真实的所需图像,判别模型负责鉴别输入图像的真假,二者在训练过程中互相博弈,使得最终得到的生成模型性能更强。
(2)PVPM模型针对的是遮挡行人再识别任务,使用姿态估计网络计算人体各个部位的可见分数,实现图像层面的人体部位对齐;PVPM模型由三个模块组成姿态引导的可视化预测模块、姿态引导的注意力模块和特征对应模块;姿态引导的可视化预测模块通过已训练好的姿态估计网络提取出输入行人图像的关键点热力图,经由姿态编码器处理后预测出行人各个身体部分的可见概率。
(3)IID模型针对的是光照异常行人再识别任务,尝试分离图像的光照信息。IID模型使用自编码器结构,通过编码器分离出图像的身份特征和光照特征,再使用生成器将分离的两者特征恢复回原始图像。
但是上述方法中,由于各种不同的环境因素的干扰,会造成行人图像分辨率低、环境物体遮挡行人、图像光照异常等图像受损情形。这些图像受损问题会导致行人图像中能用于行人匹配的有效信息的丢失,最终提取得到的特征向量含有的信息量远少于正常图像特征所含有的信息量。而在进行特征向量匹配时,信息量的不一致会影响匹配的准确率,从而导致行人再识别模型的检索性能下降。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于文本辅助特征对齐模型的受损行人图像再识别方法及装置,基于跨模态特征辅助的特征对齐模型,高效地检索出受损的行人图像在正常行人数据库中相同身份的正常图像,提高行人再识别方法在实际应用场景中的鲁棒性。
为了达到上述目的,本发明采用以下技术方案:
本发明一方面提供了基于文本辅助特征对齐模型的受损行人图像再识别方法,包括下述步骤:
构建文本辅助特征对齐模型,所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层,所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同,由多个不同大小的卷积层模块组成,所述全局平均池化层对输入到特征图的每一个通道进行均值化处理,将高维的特征图展平成一维的特征向量,所述双向门控循环单元由两个结构相同的门控循环单元组成,通过可以学习的重置门和更新门来控制信息流动,改变隐藏状态,损失函数层由多个损失函数组成,包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数;
对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;
将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量;
将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量;
使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算,首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离,找到欧式距离最小的参考集特征向量,将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。
作为优选的技术方案,所述语句层面特征提取具体为:
语句层面文本特征提取,将行人文本描述t映射成词向量,将词向量输入到双向门控循环单元Bi-GRU中提取文本特征;
将正常图像xN输入到深度卷积神经网络-Normal中,再经过全局平均池化层处理,得到512维的正常视觉特征向量fi N;将受损图像xC输入到深度卷积神经网络-Corrupted中,再经过全局平均池化层处理,得到512维的受损视觉特征向量fi C
为了能让卷积神经网络和双向门控循环单元生成具有可鉴别性的特征向量,利用数据的身份标签计算这三种特征向量的分类损失Lid
为了能让正常视觉特征向量fi N和受损视觉特征向量fi C在特征空间中与文本特征fi T有相似的关联性,提供一个跨模态相似度误差函数来对其进行约束,正常视觉特征向量fi N,受损视觉特征向量fi C和语句层面的文本特征fi T经过正则化处理后,分别计算视觉特征和文本特征之间的均方误差;
Figure BDA0003543212480000031
其中MSE(·,·)为均方误差计算,‖·‖为2-范数计算。
作为优选的技术方案,语句层面文本特征提取具体为:
Figure BDA0003543212480000032
其中,wt为第t个词向量,ht-1为处理完第t-1个词向量的Bi-GRU的隐藏层参数,右箭头表示正向序列,左箭头表示反向序列;将正向与反向的最终输出级联到一起,再经过一个全连接层的处理,得到语句层面的文本特征fi T
Figure BDA0003543212480000033
Figure BDA0003543212480000034
表示正向输出,
Figure BDA0003543212480000035
表示反向输出,Concat(·,·)为级联操作,FC(·)为全连接层
作为优选的技术方案,所述分类损失Lid由交叉熵损失Lce和三元组损失Ltri组成。交叉熵损失Lce用来判定实际的输出与期望的输出的接近程度,计算公式为:
Figure BDA0003543212480000036
其中,y为当前特征向量的真实身份标签,
Figure BDA0003543212480000037
为分类器预测的身份标签,三元组损失主要用于拉近属于同一行人的特征向量间的距离以及拉远属于不同行人的特征向量间的距离,计算公式为:
Ltri=max(d(a,p)-d(a,n)+m,0)
其中,d(·,·)为余弦距离度量函数,a为选定的锚点特征向量,p为同一类别的特征向量,n为不同类别的特征向量,m为允许的最小间隔,因此,分类损失Lid为:
Lid=Lce+Ltriplet
作为优选的技术方案,所述名词短语层面特征对齐具体为:
利用第一阶段预训练好的深度卷积神经网络进行微调训练,提取特征向量,将正常图像xN输入到深度卷积神经网络-Normal中,再经过全局平均池化层处理,得到正常视觉特征向量fi N,将受损图像xC输入到深度卷积神经网络-Corrupted中,再经过全局平均池化层处理,得到受损视觉特征向量fi C
分别计算正常视觉特征向量fi N和受损视觉特征向量fi C的分类损失Lid
为了进一步对齐正常视觉特征向量fi N和受损视觉特征向量fi C的数据分布,减小两种特征向量之间的差异,采用特征对齐损失对其进行约束,从特征层面和标签预测层面分别进行对齐;
根据词语的词性,对行人文字描述语句进行划分,滤除多余的单词获得所有名词短语{n1,n2,…,nM},利用第一阶段预训练好的双向门控循环单元进行微调训练,提取各个名词短语的特征向量
Figure BDA0003543212480000041
将名词短语的特征向量
Figure BDA0003543212480000042
正常视觉特征向量fi N和受损视觉特征向量fi C输入到模态间关联性模块中加强不同模态间特征向量的关联程度。
作为优选的技术方案,采用特征对齐损失对其进行约束,从特征层面和标签预测层面分别进行对齐,具体为:
要进行特征层面的对齐,首先计算特征间的实际匹配概率:
Figure BDA0003543212480000043
其中,当fi N和fj C拥有相同身份标签时mi,j=1,当fi N和fj C拥有不同身份标签时mi,j=0,再计算fi N和fj C的互相似概率:
Figure BDA0003543212480000044
Figure BDA0003543212480000045
其中,CS(·,·)为余弦相似度计算。最后通过计算互相似概率与实际匹配概率的KL散度,获得fi N和fj C的特征差异度:
Figure BDA0003543212480000051
要进行标签预测层面的对齐,先使用一个全连接层和Softmax函数得到两种特征向量的身份预测向量
Figure BDA0003543212480000052
Figure BDA0003543212480000053
再计算二者的KL散度,获得fi N和fj C的身份预测差异度:
Figure BDA0003543212480000054
最终的特征对齐损失为特征差异度与身份预测差异度之和:
Lalign=Lfeature+Lpredict
作为优选的技术方案,所述加强不同模态间特征向量的关联程度,具体为:
首先计算正常视觉特征向量fi N与各个名词短语特征向量
Figure BDA0003543212480000055
的关联因子:
Figure BDA0003543212480000056
根据关联因子对名词短语特征向量
Figure BDA0003543212480000057
进行加权融合处理,得到正常图像关联名词短语特征向量
Figure BDA0003543212480000058
Figure BDA0003543212480000059
同理,可获得受损图像关联名词短语特征向量
Figure BDA00035432124800000510
Figure BDA00035432124800000511
Figure BDA00035432124800000512
利用特征对齐损失Lalign加强
Figure BDA00035432124800000513
Figure BDA00035432124800000514
的相似性,保证正常视觉特征向量与受损视觉特征向量拥有相似的与名词短语特征向量的关联度,使得它们与每个名词短语的激活程度相似。
本发明另一方面提供了基于文本辅助特征对齐模型的受损行人图像再识别系统,应用于所述的基于文本辅助特征对齐模型的受损行人图像再识别方法,包括模型构建模块、模型训练模块、第一特征向量提取模块、第二特征向量提取模块以及识别模块;
所述模型构建模块,用于构建文本辅助特征对齐模型,所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层,所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同,由多个不同大小的卷积层模块组成,所述全局平均池化层对输入到特征图的每一个通道进行均值化处理,将高维的特征图展平成一维的特征向量,所述双向门控循环单元由两个结构相同的门控循环单元组成,通过可以学习的重置门和更新门来控制信息流动,改变隐藏状态,损失函数层由多个损失函数组成,包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数;
所述模型训练模块,用于对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;
所述第一特征向量提取模块,用于将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量;
所述第二特征向量提取模块,用于将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量;
所述识别模块,用于使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算,首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离,找到欧式距离最小的参考集特征向量,将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。
本发明又一方面提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于文本辅助特征对齐模型的受损行人图像再识别方法。
本发明再一方面提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于文本辅助特征对齐模型的受损行人图像再识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明采用文本特征作为锚点,利用行人图像与行人文本描述之间的关联性,协助正常图像特征和受损图像特征进行对齐,提高正常图像特征和受损图像特征的相似性,减小环境干扰带来的影响。将文本特征作为锚点,相比于直接进行文本特征与图像特征的多模态融合,能够避免在模型测试过程中文本描述缺失导致模型无法使用的情况,拓宽了模型的应用场景。
(2)本发明将正常图像和受损图像视作两种不同类型的图像,利用不同的深度卷积神经网络来分别处理两种图像,能够有效获取图像中的关键信息,避免两种图像共用同一网络导致相互制约、降低获得的视觉特征的可鉴别性的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中行人再识别推理阶段流程图;
图2为本发明实施例基于文本辅助特征对齐模型的受损行人图像再识别方法的流程图;
图3为本发明实施例深度卷积神经网络结构图;
图4为本发明实施例门控循环单元单向结构图;
图5为本发明实施例模型训练第一阶段的流程图;
图6为本发明实施例模型训练第二阶段的流程图;
图7为本发明实施例测试集特征提取流程图;
图8为本发明实施例参考集特征提取流程图;
图9为本发明实施例行人身份识别结果显示示意图;
图10为本发明实施例基于文本辅助特征对齐模型的受损行人图像再识别系统的方框图;
图11为本发明实施例电子设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
请参阅图1,为现有技术中行人再识别的部署时的推理流程图,具体包括:设置在公共场所中的监控摄像头捕获图像数据,使用行人检测算法检测图像中出现的行人并进行行人图像截取;将行人图像通过特征提取网络提取得到行人特征向量,将所需查询的行人特征向量与数据库中已知身份的行人特征进行相似度计算和特征匹配,与之相似度最高的特征的对应身份标识即为该查询行人图像的身份。
在实际应用场景中,由于各种不同的环境因素的干扰,会造成行人图像分辨率低、环境物体遮挡行人、图像光照异常等图像受损情形。这些图像受损问题会导致行人图像中能用于行人匹配的有效信息的丢失,最终提取得到的特征向量含有的信息量远少于正常图像特征所含有的信息量。而在进行特征向量匹配时,信息量的不一致会影响匹配的准确率,从而导致行人再识别模型的检索性能下降。本发明提出的基于文本辅助特征对齐模型的受损行人图像再识别方法采用基于跨模态特征辅助的特征对齐模型,用于解决行人再识别领域的行人图像受损问题。行人再识别技术用于实现不同摄像机间的行人追踪任务,其目的是对出现在监控摄像头视域内的某个目标行人,在监控网络其他摄像头视域内的大量行人样本中快速准确地将这个目标行人的身份标识出来。
请参阅图2,本实施例基于文本辅助特征对齐模型的受损行人图像再识别方法,包括下述步骤:
S1、构建文本辅助特征对齐模型。
所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层;
S1.1、深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同,由5个不同大小的卷积层模块组成,请参阅图3。
S1.2、全局平均池化层对输入到特征图的每一个通道进行均值化处理,将高维的特征图展平成一维的特征向量。
S1.3、双向门控循环单元由两个结构相同的门控循环单元组成,通过可以学习的重置门和更新门来控制信息流动,改变隐藏状态,请参阅图4。
S1.4、损失函数层由多个损失函数组成,包括有分类损失函数Lid、跨模态相似度误差函数Lsim、特征对齐损失函数Lalign
S2、对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;模型的训练如图2所示,具体为:
S21、语句层面特征提取协助,请参阅图5,具体为:
S211、语句层面文本特征提取;将行人文本描述t映射成300维的词向量,将词向量输入到双向门控循环单元Bi-GRU中提取文本特征,具体如下:
Figure BDA0003543212480000091
其中,wt为第t个词向量,ht-1为处理完第t-1个词向量的Bi-GRU的隐藏层参数,右箭头表示正向序列,左箭头表示反向序列,将正向与反向的最终输出级联到一起,再经过一个全连接层的处理,得到语句层面的文本特征fi T
Figure BDA0003543212480000092
其中,
Figure BDA0003543212480000093
表示正向输出,
Figure BDA0003543212480000094
表示反向输出,Concat(·,·)为级联操作,FC(·)为全连接层。
S212、将正常图像xN输入到深度卷积神经网络-Normal中,再经过全局平均池化层处理,得到512维的正常视觉特征向量fi N。将受损图像xC输入到深度卷积神经网络-Corrupted中,再经过全局平均池化层处理,得到512维的受损视觉特征向量fi C
S213、为了能让卷积神经网络和双向门控循环单元生成具有可鉴别性的特征向量,本发明利用数据的身份标签计算这三种特征向量的分类损失Lid,分类损失Lid由交叉熵损失Lce和三元组损失Ltri组成,交叉熵损失Lce用来判定实际的输出与期望的输出的接近程度,计算公式为:
Figure BDA0003543212480000095
其中,y为当前特征向量的真实身份标签,
Figure BDA0003543212480000096
为分类器预测的身份标签,三元组损失主要用于拉近属于同一行人的特征向量间的距离以及拉远属于不同行人的特征向量间的距离,计算公式为:
Ltri=max(d(a,p)-d(a,n)+m,0)
其中,d(·,·)为余弦距离度量函数,a为选定的锚点特征向量,p为同一类别的特征向量,n为不同类别的特征向量,m为允许的最小间隔;因此,分类损失Lid为:
Lid=Lce+Ltriplet
S214、此外,为了能让正常视觉特征向量fi N和受损视觉特征向量fi C在特征空间中与文本特征fi T有相似的关联性,本发明提供一个跨模态相似度误差函数来对其进行约束,正常视觉特征向量fi N,受损视觉特征向量fi C和语句层面的文本特征fi T经过正则化处理后,分别计算视觉特征和文本特征之间的均方误差,具体为:
Figure BDA0003543212480000101
其中,MSE(·,·)为均方误差计算,‖·‖为2-范数计算。
S22、名词短语层面特征对齐协助,请参阅图6,具体为;
S221、利用第一阶段预训练好的深度卷积神经网络进行微调训练,提取特征向量;将正常图像xN输入到深度卷积神经网络-Normal中,再经过全局平均池化层处理,得到正常视觉特征向量fi N;将受损图像xC输入到深度卷积神经网络-Corrupted中,再经过全局平均池化层处理,得到受损视觉特征向量fi C
S222、分别计算正常视觉特征向量fi N和受损视觉特征向量fi C的分类损失Lid
S223、为了进一步对齐正常视觉特征向量fi N和受损视觉特征向量fi C的数据分布,减小两种特征向量之间的差异,使用一个特征对齐损失对其进行约束;本发明从特征层面和标签预测层面分别进行对齐。
进一步的,要进行特征层面的对齐,首先计算特征间的实际匹配概率:
Figure BDA0003543212480000102
其中,当fi N和fj C拥有相同身份标签时mi,j=1,当fi N和fj C拥有不同身份标签时mi,j=0,再计算fi N和fj C的互相似概率:
Figure BDA0003543212480000103
Figure BDA0003543212480000104
其中,CS(·,·)为余弦相似度计算。最后通过计算互相似概率与实际匹配概率的KL散度,获得fi N和fj C的特征差异度:
Figure BDA0003543212480000105
要进行标签预测层面的对齐,先使用一个全连接层和Softmax函数得到两种特征向量的身份预测向量
Figure BDA0003543212480000111
Figure BDA0003543212480000112
再计算二者的KL散度,获得fi N和fj C的身份预测差异度:
Figure BDA0003543212480000113
最终的特征对齐损失为特征差异度与身份预测差异度之和:
Lalign=Lfeature+Lpredict
S224、根据词语的词性,对行人文字描述语句进行划分,滤除多余的单词获得所有名词短语{n1,n2,…,nM}。利用第一阶段预训练好的双向门控循环单元进行微调训练,提取各个名词短语的特征向量
Figure BDA0003543212480000114
S225、将名词短语的特征向量
Figure BDA0003543212480000115
正常视觉特征向量fi N和受损视觉特征向量fi C输入到模态间关联性模块中加强不同模态间特征向量的关联程度。首先计算正常视觉特征向量fi N与各个名词短语特征向量
Figure BDA0003543212480000116
的关联因子:
Figure BDA0003543212480000117
根据关联因子对名词短语特征向量
Figure BDA0003543212480000118
进行加权融合处理,得到正常图像关联名词短语特征向量
Figure BDA0003543212480000119
Figure BDA00035432124800001110
同理,可获得受损图像关联名词短语特征向量
Figure BDA00035432124800001111
Figure BDA00035432124800001112
Figure BDA00035432124800001113
利用特征对齐损失Lalign加强
Figure BDA00035432124800001114
Figure BDA00035432124800001115
的相似性,保证正常视觉特征向量与受损视觉特征向量拥有相似的与名词短语特征向量的关联度,使得它们与每个名词短语的激活程度相似。
S3、测试集特征向量提取,请参阅图7,截图为:
将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量;
S4、参考集特征向量提取,请参阅图8,具体为:
将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量;
S5、使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算,首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离,找到欧式距离最小的参考集特征向量,将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。
请参阅图9,通过本发明的实施例,需要辨别身份的行人图像输入到文本辅助特征对齐模型中,该图像会被提取特征,然后与数据库中的行人图像特征进行匹配,模型输入相似度最高的前五张行人图像作为查询结果,显示顺序按相似度由高到低进行排列。
本发明从特征层面上进行图像特征的对齐,解决图像层面无法进行有效修复的问题。引入行人的文本描述信息,其提供的先验信息能有效减小正常图像和受损图像之间的信息差,文本描述信息的跨摄像头一致性完美适配行人再识别任务,能够在不同的摄像头之间提供共享信息,有助于不同摄像头获取图像的关键信息提取。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的基于文本辅助特征对齐模型的受损行人图像再识别方法相同的思想,本发明还提供了基于文本辅助特征对齐模型的受损行人图像再识别系统,该系统可用于执行上述基于文本辅助特征对齐模型的受损行人图像再识别方法。为了便于说明,基于文本辅助特征对齐模型的受损行人图像再识别系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
请参阅图10,在本申请的另一个实施例中,提供了一种基于文本辅助特征对齐模型的受损行人图像再识别系统100,该系统包括模型构建模块101、模型训练模块102、第一特征向量提取模块103、第二特征向量提取模块104以及识别模块105;
所述模型构建模块101,用于构建文本辅助特征对齐模型,所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层,所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同,由多个不同大小的卷积层模块组成,所述全局平均池化层对输入到特征图的每一个通道进行均值化处理,将高维的特征图展平成一维的特征向量,所述双向门控循环单元由两个结构相同的门控循环单元组成,通过可以学习的重置门和更新门来控制信息流动,改变隐藏状态,损失函数层由多个损失函数组成,包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数;
所述模型训练模块102,用于对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;
所述第一特征向量提取模块103,用于将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量;
所述第二特征向量提取模块104,用于将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量;
所述识别模块105,用于使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算,首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离,找到欧式距离最小的参考集特征向量,将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。
需要说明的是,本发明的基于文本辅助特征对齐模型的受损行人图像再识别系统与本发明的基于文本辅助特征对齐模型的受损行人图像再识别方法一一对应,在上述基于文本辅助特征对齐模型的受损行人图像再识别方法的实施例阐述的技术特征及其有益效果均适用于基于文本辅助特征对齐模型的受损行人图像再识别的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述实施例的基于文本辅助特征对齐模型的受损行人图像再识别系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于文本辅助特征对齐模型的受损行人图像再识别系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
请参阅图11,在一个实施例中,提供了一种实现基于文本辅助特征对齐模型的受损行人图像再识别方法的电子设备,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如基于文本辅助特征对齐模型的受损行人图像再识别程序203。
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如基于文本辅助特征对齐模型的受损行人图像再识别程序203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
图11仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图11示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
所述电子设备200中的所述第一存储器202存储的基于文本辅助特征对齐模型的受损行人图像再识别程序203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
构建文本辅助特征对齐模型,所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层,所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同,由多个不同大小的卷积层模块组成,所述全局平均池化层对输入到特征图的每一个通道进行均值化处理,将高维的特征图展平成一维的特征向量,所述双向门控循环单元由两个结构相同的门控循环单元组成,通过可以学习的重置门和更新门来控制信息流动,改变隐藏状态,损失函数层由多个损失函数组成,包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数;
对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;
将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量;
将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量;
使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算,首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离,找到欧式距离最小的参考集特征向量,将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于文本辅助特征对齐模型的受损行人图像再识别方法,其特征在于,包括下述步骤:
构建文本辅助特征对齐模型,所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层,所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同,由多个不同大小的卷积层模块组成,所述全局平均池化层对输入到特征图的每一个通道进行均值化处理,将高维的特征图展平成一维的特征向量,所述双向门控循环单元由两个结构相同的门控循环单元组成,通过可以学习的重置门和更新门来控制信息流动,改变隐藏状态,损失函数层由多个损失函数组成,包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数;
对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;
将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量;
将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量;
使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算,首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离,找到欧式距离最小的参考集特征向量,将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。
2.根据权利要求1所述基于文本辅助特征对齐模型的受损行人图像再识别方法,其特征在于,所述语句层面特征提取具体为:
语句层面文本特征提取,将行人文本描述t映射成词向量,将词向量输入到双向门控循环单元Bi-GRU中提取文本特征;
将正常图像xN输入到深度卷积神经网络-Normal中,再经过全局平均池化层处理,得到512维的正常视觉特征向量
Figure FDA0003543212470000011
将受损图像xC输入到深度卷积神经网络-Corrupted中,再经过全局平均池化层处理,得到512维的受损视觉特征向量
Figure FDA0003543212470000012
为了能让卷积神经网络和双向门控循环单元生成具有可鉴别性的特征向量,利用数据的身份标签计算这三种特征向量的分类损失Lid
为了能让正常视觉特征向量
Figure FDA0003543212470000013
和受损视觉特征向量
Figure FDA0003543212470000014
在特征空间中与文本特征
Figure FDA0003543212470000015
有相似的关联性,提供一个跨模态相似度误差函数来对其进行约束,正常视觉特征向量
Figure FDA0003543212470000016
受损视觉特征向量
Figure FDA0003543212470000017
和语句层面的文本特征
Figure FDA0003543212470000018
经过正则化处理后,分别计算视觉特征和文本特征之间的均方误差;
Figure FDA0003543212470000021
其中MSE(·,·)为均方误差计算,‖·‖为2-范数计算。
3.根据权利要求2所述基于文本辅助特征对齐模型的受损行人图像再识别方法,其特征在于,语句层面文本特征提取具体为:
Figure FDA0003543212470000022
其中,wt为第t个词向量,ht-1为处理完第t-1个词向量的Bi-GRU的隐藏层参数,右箭头表示正向序列,左箭头表示反向序列;将正向与反向的最终输出级联到一起,再经过一个全连接层的处理,得到语句层面的文本特征
Figure FDA0003543212470000023
Figure FDA0003543212470000024
Figure FDA0003543212470000025
表示正向输出,
Figure FDA0003543212470000026
表示反向输出,Concat(·,·)为级联操作,FC(·)为全连接层。
4.根据权利要求2所述基于文本辅助特征对齐模型的受损行人图像再识别方法,其特征在于,所述分类损失Lid由交叉熵损失Lce和三元组损失Ltri组成。交叉熵损失Lce用来判定实际的输出与期望的输出的接近程度,计算公式为:
Figure FDA0003543212470000027
其中,y为当前特征向量的真实身份标签,
Figure FDA0003543212470000028
为分类器预测的身份标签,三元组损失主要用于拉近属于同一行人的特征向量间的距离以及拉远属于不同行人的特征向量间的距离,计算公式为:
Ltri=max(d(a,p)-d(a,n)+m,0)
其中,d(·,·)为余弦距离度量函数,a为选定的锚点特征向量,p为同一类别的特征向量,n为不同类别的特征向量,m为允许的最小间隔,因此,分类损失Lid为:
Lid=Lce+Ltriplet
5.根据权利要求1所述基于文本辅助特征对齐模型的受损行人图像再识别方法,其特征在于,所述名词短语层面特征对齐具体为:
利用第一阶段预训练好的深度卷积神经网络进行微调训练,提取特征向量,将正常图像xN输入到深度卷积神经网络-Normal中,再经过全局平均池化层处理,得到正常视觉特征向量
Figure FDA0003543212470000031
将受损图像xC输入到深度卷积神经网络-Corrupted中,再经过全局平均池化层处理,得到受损视觉特征向量
Figure FDA0003543212470000032
分别计算正常视觉特征向量
Figure FDA0003543212470000033
和受损视觉特征向量
Figure FDA0003543212470000034
的分类损失Lid
为了进一步对齐正常视觉特征向量
Figure FDA0003543212470000035
和受损视觉特征向量
Figure FDA0003543212470000036
的数据分布,减小两种特征向量之间的差异,采用特征对齐损失对其进行约束,从特征层面和标签预测层面分别进行对齐;
根据词语的词性,对行人文字描述语句进行划分,滤除多余的单词获得所有名词短语{n1,n2,…,nM},利用第一阶段预训练好的双向门控循环单元进行微调训练,提取各个名词短语的特征向量
Figure FDA0003543212470000037
将名词短语的特征向量
Figure FDA0003543212470000038
正常视觉特征向量
Figure FDA0003543212470000039
和受损视觉特征向量
Figure FDA00035432124700000310
输入到模态间关联性模块中加强不同模态间特征向量的关联程度。
6.根据权利要求5所述基于文本辅助特征对齐模型的受损行人图像再识别方法,其特征在于,采用特征对齐损失对其进行约束,从特征层面和标签预测层面分别进行对齐,具体为:
要进行特征层面的对齐,首先计算特征间的实际匹配概率:
Figure FDA00035432124700000311
其中,当
Figure FDA00035432124700000312
Figure FDA00035432124700000313
拥有相同身份标签时mi,j=1,当
Figure FDA00035432124700000314
Figure FDA00035432124700000315
拥有不同身份标签时mi,j=0,再计算
Figure FDA00035432124700000316
Figure FDA00035432124700000317
的互相似概率:
Figure FDA00035432124700000318
Figure FDA00035432124700000319
其中,CS·,·为余弦相似度计算。最后通过计算互相似概率与实际匹配概率的KL散度,获得
Figure FDA00035432124700000320
Figure FDA00035432124700000321
的特征差异度:
Figure FDA00035432124700000322
要进行标签预测层面的对齐,先使用一个全连接层和Softmax函数得到两种特征向量的身份预测向量
Figure FDA00035432124700000323
Figure FDA00035432124700000324
再计算二者的KL散度,获得
Figure FDA00035432124700000325
Figure FDA00035432124700000326
的身份预测差异度:
Figure FDA00035432124700000327
最终的特征对齐损失为特征差异度与身份预测差异度之和:
Lalign=Lfeature+Lpredict
7.根据权利要求5所述基于文本辅助特征对齐模型的受损行人图像再识别方法,其特征在于,所述加强不同模态间特征向量的关联程度,具体为:
首先计算正常视觉特征向量
Figure FDA0003543212470000041
与各个名词短语特征向量
Figure FDA0003543212470000042
的关联因子:
Figure FDA0003543212470000043
根据关联因子对名词短语特征向量
Figure FDA0003543212470000044
进行加权融合处理,得到正常图像关联名词短语特征向量
Figure FDA0003543212470000045
Figure FDA0003543212470000046
同理,可获得受损图像关联名词短语特征向量
Figure FDA0003543212470000047
Figure FDA0003543212470000048
Figure FDA0003543212470000049
利用特征对齐损失Lalign加强
Figure FDA00035432124700000410
Figure FDA00035432124700000411
的相似性,保证正常视觉特征向量与受损视觉特征向量拥有相似的与名词短语特征向量的关联度,使得它们与每个名词短语的激活程度相似。
8.基于文本辅助特征对齐模型的受损行人图像再识别系统,其特征在于,应用于权利要求1-7中任一项所述的基于文本辅助特征对齐模型的受损行人图像再识别方法,包括模型构建模块、模型训练模块、第一特征向量提取模块、第二特征向量提取模块以及识别模块;
所述模型构建模块,用于构建文本辅助特征对齐模型,所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层,所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同,由多个不同大小的卷积层模块组成,所述全局平均池化层对输入到特征图的每一个通道进行均值化处理,将高维的特征图展平成一维的特征向量,所述双向门控循环单元由两个结构相同的门控循环单元组成,通过可以学习的重置门和更新门来控制信息流动,改变隐藏状态,损失函数层由多个损失函数组成,包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数;
所述模型训练模块,用于对文本辅助特征对齐模型进行训练,训练过程分为两个阶段,第一阶段为语句层面特征提取,第二阶段为名词短语层面特征对齐;
所述第一特征向量提取模块,用于将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量;
所述第二特征向量提取模块,用于将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量;
所述识别模块,用于使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算,首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离,找到欧式距离最小的参考集特征向量,将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于文本辅助特征对齐模型的受损行人图像再识别方法。
10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于文本辅助特征对齐模型的受损行人图像再识别方法。
CN202210242707.8A 2022-03-11 2022-03-11 基于文本辅助特征对齐模型的受损行人图像再识别方法及装置 Active CN114596588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210242707.8A CN114596588B (zh) 2022-03-11 2022-03-11 基于文本辅助特征对齐模型的受损行人图像再识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210242707.8A CN114596588B (zh) 2022-03-11 2022-03-11 基于文本辅助特征对齐模型的受损行人图像再识别方法及装置

Publications (2)

Publication Number Publication Date
CN114596588A true CN114596588A (zh) 2022-06-07
CN114596588B CN114596588B (zh) 2024-05-31

Family

ID=81817358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210242707.8A Active CN114596588B (zh) 2022-03-11 2022-03-11 基于文本辅助特征对齐模型的受损行人图像再识别方法及装置

Country Status (1)

Country Link
CN (1) CN114596588B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226319A (zh) * 2023-05-10 2023-06-06 浪潮电子信息产业股份有限公司 一种混合异构模型训练方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN114022381A (zh) * 2021-08-30 2022-02-08 上海大学 一种双目图像自修复网络模型的训练方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909673A (zh) * 2019-11-21 2020-03-24 河北工业大学 一种基于自然语言描述的行人再识别方法
WO2021223323A1 (zh) * 2020-05-06 2021-11-11 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法
CN114022381A (zh) * 2021-08-30 2022-02-08 上海大学 一种双目图像自修复网络模型的训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郑烨;赵杰煜;王翀;张毅;: "基于姿态引导对齐网络的局部行人再识别", 计算机工程, no. 05, 15 May 2020 (2020-05-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226319A (zh) * 2023-05-10 2023-06-06 浪潮电子信息产业股份有限公司 一种混合异构模型训练方法、装置、设备及可读存储介质
CN116226319B (zh) * 2023-05-10 2023-08-04 浪潮电子信息产业股份有限公司 一种混合异构模型训练方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN114596588B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
Gavrila Pedestrian detection from a moving vehicle
Garcia-Fidalgo et al. Hierarchical place recognition for topological mapping
CN109558823B (zh) 一种以图搜图的车辆识别方法及系统
Lee et al. Place recognition using straight lines for vision-based SLAM
CN109034086B (zh) 车辆重识别方法、装置及系统
CN114419672A (zh) 基于一致性学习的跨场景持续学习的行人再识别方法及装置
Das et al. Automated Indian sign language recognition system by fusing deep and handcrafted feature
CN113343985B (zh) 车牌识别方法和装置
CN112634369A (zh) 空间与或图模型生成方法、装置、电子设备和存储介质
CN111104941B (zh) 图像方向纠正方法、装置及电子设备
CN114049512A (zh) 模型蒸馏方法、目标检测方法、装置及电子设备
Zhang et al. DetReco: Object‐Text Detection and Recognition Based on Deep Neural Network
Wang et al. Online visual place recognition via saliency re-identification
Zhang et al. Appearance-based loop closure detection via locality-driven accurate motion field learning
CN116311279A (zh) 样本图像的生成、模型训练、字符识别方法、设备及介质
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
Eom et al. Temporally consistent depth prediction with flow-guided memory units
CN116912541A (zh) 模型训练及图像检测方法、装置、电子设备及存储介质
CN114596588B (zh) 基于文本辅助特征对齐模型的受损行人图像再识别方法及装置
Liu et al. SLPR: A deep learning based Chinese ship license plate recognition framework
Guan et al. Lightweight attention network for very high-resolution image semantic segmentation
Xiao et al. Robust license plate detection and recognition with automatic rectification
Lv et al. Memory‐augmented neural networks based dynamic complex image segmentation in digital twins for self‐driving vehicle
Abdallah et al. Multi-vehicle tracking using heterogeneous neural networks for appearance and motion features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant