CN114596588A

CN114596588A - 基于文本辅助特征对齐模型的受损行人图像再识别方法及装置

Info

Publication number: CN114596588A
Application number: CN202210242707.8A
Authority: CN
Inventors: 洪金城; 郑伟诗; 秦家银
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-07
Anticipated expiration: 2042-03-11
Also published as: CN114596588B

Abstract

本发明公开了基于文本辅助特征对齐模型的受损行人图像再识别方法及装置，包括：构建文本辅助特征对齐模型，对文本辅助特征对齐模型进行训练，训练过程分为两个阶段，第一阶段为语句层面特征提取，第二阶段为名词短语层面特征对齐；将测试集中的受损图像输入到深度卷积神经网络‑Corrupted以及全局平均池化层中提取得到受损图像特征向量；将参考集中的正常图像输入到深度卷积神经网络‑Normal以及全局平均池化层中提取得到未受损图像特征向量；使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算。本发明能高效地检索出受损的行人图像在正常行人数据库中相同身份的正常图像，提高行人再识别方法在实际应用场景中的鲁棒性。

Description

基于文本辅助特征对齐模型的受损行人图像再识别方法及装置

技术领域

本发明属于图像识别的技术领域，具体涉及一种基于文本辅助特征对齐模型的受损行人图像再识别方法及装置。

背景技术

近年来，为了提高行人再识别方法在实际应用场景中的准确性和鲁棒性，一些方法不再只针对正常情况下的高质量行人图像进行研究，而是针对各种可能产生的图像受损情形，设计模型来减轻受损导致的行人再识别性能的下降。常见的图像受损情形有摄像头与行人间距过大或摄像头配置较低导致的图像低分辨率问题；行人在密集场景中外观随着遮挡物体发生显著变化的遮挡问题；由于环境光变化剧烈导致捕获的图像过曝或欠曝的光照异常问题；由于镜头种类不同导致的镜头畸变或鱼眼问题。

现有技术中的行人再识别方法有INTACT模型、PVPM模型和IID模型：

(1)INTACT模型针对的是低分辨率行人再识别任务，使用了生成式对抗网络(GAN)来提升原始低分辨率图像的分辨率；生成式对抗网络由生成模型和判别模型组成，生成模型负责生成尽可能真实的所需图像，判别模型负责鉴别输入图像的真假，二者在训练过程中互相博弈，使得最终得到的生成模型性能更强。

(2)PVPM模型针对的是遮挡行人再识别任务，使用姿态估计网络计算人体各个部位的可见分数，实现图像层面的人体部位对齐；PVPM模型由三个模块组成姿态引导的可视化预测模块、姿态引导的注意力模块和特征对应模块；姿态引导的可视化预测模块通过已训练好的姿态估计网络提取出输入行人图像的关键点热力图，经由姿态编码器处理后预测出行人各个身体部分的可见概率。

(3)IID模型针对的是光照异常行人再识别任务，尝试分离图像的光照信息。IID模型使用自编码器结构，通过编码器分离出图像的身份特征和光照特征，再使用生成器将分离的两者特征恢复回原始图像。

但是上述方法中，由于各种不同的环境因素的干扰，会造成行人图像分辨率低、环境物体遮挡行人、图像光照异常等图像受损情形。这些图像受损问题会导致行人图像中能用于行人匹配的有效信息的丢失，最终提取得到的特征向量含有的信息量远少于正常图像特征所含有的信息量。而在进行特征向量匹配时，信息量的不一致会影响匹配的准确率，从而导致行人再识别模型的检索性能下降。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于文本辅助特征对齐模型的受损行人图像再识别方法及装置，基于跨模态特征辅助的特征对齐模型，高效地检索出受损的行人图像在正常行人数据库中相同身份的正常图像，提高行人再识别方法在实际应用场景中的鲁棒性。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了基于文本辅助特征对齐模型的受损行人图像再识别方法，包括下述步骤：

构建文本辅助特征对齐模型，所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层，所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同，由多个不同大小的卷积层模块组成，所述全局平均池化层对输入到特征图的每一个通道进行均值化处理，将高维的特征图展平成一维的特征向量，所述双向门控循环单元由两个结构相同的门控循环单元组成，通过可以学习的重置门和更新门来控制信息流动，改变隐藏状态，损失函数层由多个损失函数组成，包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数；

对文本辅助特征对齐模型进行训练，训练过程分为两个阶段，第一阶段为语句层面特征提取，第二阶段为名词短语层面特征对齐；

将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量；

将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量；

使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算，首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离，找到欧式距离最小的参考集特征向量，将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。

作为优选的技术方案，所述语句层面特征提取具体为：

语句层面文本特征提取，将行人文本描述t映射成词向量，将词向量输入到双向门控循环单元Bi-GRU中提取文本特征；

将正常图像x^N输入到深度卷积神经网络-Normal中，再经过全局平均池化层处理，得到512维的正常视觉特征向量f_i ^N；将受损图像x^C输入到深度卷积神经网络-Corrupted中，再经过全局平均池化层处理，得到512维的受损视觉特征向量f_i ^C；

为了能让卷积神经网络和双向门控循环单元生成具有可鉴别性的特征向量，利用数据的身份标签计算这三种特征向量的分类损失L_id；

为了能让正常视觉特征向量f_i ^N和受损视觉特征向量f_i ^C在特征空间中与文本特征f_i ^T有相似的关联性，提供一个跨模态相似度误差函数来对其进行约束，正常视觉特征向量f_i ^N，受损视觉特征向量f_i ^C和语句层面的文本特征f_i ^T经过正则化处理后，分别计算视觉特征和文本特征之间的均方误差；

其中MSE(·,·)为均方误差计算，‖·‖为2-范数计算。

作为优选的技术方案，语句层面文本特征提取具体为：

其中，w_t为第t个词向量，h_t-1为处理完第t-1个词向量的Bi-GRU的隐藏层参数，右箭头表示正向序列，左箭头表示反向序列；将正向与反向的最终输出级联到一起，再经过一个全连接层的处理，得到语句层面的文本特征f_i ^T，

是

表示正向输出，

表示反向输出，Concat(·,·)为级联操作，FC(·)为全连接层

作为优选的技术方案，所述分类损失L_id由交叉熵损失L_ce和三元组损失L_tri组成。交叉熵损失L_ce用来判定实际的输出与期望的输出的接近程度，计算公式为：

其中，y为当前特征向量的真实身份标签，

为分类器预测的身份标签，三元组损失主要用于拉近属于同一行人的特征向量间的距离以及拉远属于不同行人的特征向量间的距离，计算公式为：

L_tri＝max(d(a，p)-d(a，n)+m，0)

其中，d(·,·)为余弦距离度量函数，a为选定的锚点特征向量，p为同一类别的特征向量，n为不同类别的特征向量，m为允许的最小间隔，因此，分类损失L_id为：

L_id＝L_ce+L_triplet。

作为优选的技术方案，所述名词短语层面特征对齐具体为：

利用第一阶段预训练好的深度卷积神经网络进行微调训练，提取特征向量，将正常图像x^N输入到深度卷积神经网络-Normal中，再经过全局平均池化层处理，得到正常视觉特征向量f_i ^N，将受损图像x^C输入到深度卷积神经网络-Corrupted中，再经过全局平均池化层处理，得到受损视觉特征向量f_i ^C；

分别计算正常视觉特征向量f_i ^N和受损视觉特征向量f_i ^C的分类损失L_id；

为了进一步对齐正常视觉特征向量f_i ^N和受损视觉特征向量f_i ^C的数据分布，减小两种特征向量之间的差异，采用特征对齐损失对其进行约束，从特征层面和标签预测层面分别进行对齐；

根据词语的词性，对行人文字描述语句进行划分，滤除多余的单词获得所有名词短语{n₁,n₂,…,n_M}，利用第一阶段预训练好的双向门控循环单元进行微调训练，提取各个名词短语的特征向量

将名词短语的特征向量

正常视觉特征向量f_i ^N和受损视觉特征向量f_i ^C输入到模态间关联性模块中加强不同模态间特征向量的关联程度。

作为优选的技术方案，采用特征对齐损失对其进行约束，从特征层面和标签预测层面分别进行对齐，具体为：

要进行特征层面的对齐，首先计算特征间的实际匹配概率：

其中，当f_i ^N和f_j ^C拥有相同身份标签时m_i,j＝1，当f_i ^N和f_j ^C拥有不同身份标签时m_i,j＝0，再计算f_i ^N和f_j ^C的互相似概率：

其中，CS(·,·)为余弦相似度计算。最后通过计算互相似概率与实际匹配概率的KL散度，获得f_i ^N和f_j ^C的特征差异度：

要进行标签预测层面的对齐，先使用一个全连接层和Softmax函数得到两种特征向量的身份预测向量

和

再计算二者的KL散度，获得f_i ^N和f_j ^C的身份预测差异度：

最终的特征对齐损失为特征差异度与身份预测差异度之和：

L_align＝L_feature+L_predict。

作为优选的技术方案，所述加强不同模态间特征向量的关联程度，具体为：

首先计算正常视觉特征向量f_i ^N与各个名词短语特征向量

的关联因子：

根据关联因子对名词短语特征向量

进行加权融合处理，得到正常图像关联名词短语特征向量

同理，可获得受损图像关联名词短语特征向量

利用特征对齐损失L_align加强

与

的相似性，保证正常视觉特征向量与受损视觉特征向量拥有相似的与名词短语特征向量的关联度，使得它们与每个名词短语的激活程度相似。

本发明另一方面提供了基于文本辅助特征对齐模型的受损行人图像再识别系统，应用于所述的基于文本辅助特征对齐模型的受损行人图像再识别方法，包括模型构建模块、模型训练模块、第一特征向量提取模块、第二特征向量提取模块以及识别模块；

所述模型构建模块，用于构建文本辅助特征对齐模型，所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层，所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同，由多个不同大小的卷积层模块组成，所述全局平均池化层对输入到特征图的每一个通道进行均值化处理，将高维的特征图展平成一维的特征向量，所述双向门控循环单元由两个结构相同的门控循环单元组成，通过可以学习的重置门和更新门来控制信息流动，改变隐藏状态，损失函数层由多个损失函数组成，包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数；

所述模型训练模块，用于对文本辅助特征对齐模型进行训练，训练过程分为两个阶段，第一阶段为语句层面特征提取，第二阶段为名词短语层面特征对齐；

所述第一特征向量提取模块，用于将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量；

所述第二特征向量提取模块，用于将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量；

所述识别模块，用于使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算，首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离，找到欧式距离最小的参考集特征向量，将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。

本发明又一方面提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于文本辅助特征对齐模型的受损行人图像再识别方法。

本发明再一方面提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于文本辅助特征对齐模型的受损行人图像再识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用文本特征作为锚点，利用行人图像与行人文本描述之间的关联性，协助正常图像特征和受损图像特征进行对齐，提高正常图像特征和受损图像特征的相似性，减小环境干扰带来的影响。将文本特征作为锚点，相比于直接进行文本特征与图像特征的多模态融合，能够避免在模型测试过程中文本描述缺失导致模型无法使用的情况，拓宽了模型的应用场景。

(2)本发明将正常图像和受损图像视作两种不同类型的图像，利用不同的深度卷积神经网络来分别处理两种图像，能够有效获取图像中的关键信息，避免两种图像共用同一网络导致相互制约、降低获得的视觉特征的可鉴别性的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中行人再识别推理阶段流程图；

图2为本发明实施例基于文本辅助特征对齐模型的受损行人图像再识别方法的流程图；

图3为本发明实施例深度卷积神经网络结构图；

图4为本发明实施例门控循环单元单向结构图；

图5为本发明实施例模型训练第一阶段的流程图；

图6为本发明实施例模型训练第二阶段的流程图；

图7为本发明实施例测试集特征提取流程图；

图8为本发明实施例参考集特征提取流程图；

图9为本发明实施例行人身份识别结果显示示意图；

图10为本发明实施例基于文本辅助特征对齐模型的受损行人图像再识别系统的方框图；

图11为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

请参阅图1，为现有技术中行人再识别的部署时的推理流程图，具体包括：设置在公共场所中的监控摄像头捕获图像数据，使用行人检测算法检测图像中出现的行人并进行行人图像截取；将行人图像通过特征提取网络提取得到行人特征向量，将所需查询的行人特征向量与数据库中已知身份的行人特征进行相似度计算和特征匹配，与之相似度最高的特征的对应身份标识即为该查询行人图像的身份。

在实际应用场景中，由于各种不同的环境因素的干扰，会造成行人图像分辨率低、环境物体遮挡行人、图像光照异常等图像受损情形。这些图像受损问题会导致行人图像中能用于行人匹配的有效信息的丢失，最终提取得到的特征向量含有的信息量远少于正常图像特征所含有的信息量。而在进行特征向量匹配时，信息量的不一致会影响匹配的准确率，从而导致行人再识别模型的检索性能下降。本发明提出的基于文本辅助特征对齐模型的受损行人图像再识别方法采用基于跨模态特征辅助的特征对齐模型，用于解决行人再识别领域的行人图像受损问题。行人再识别技术用于实现不同摄像机间的行人追踪任务，其目的是对出现在监控摄像头视域内的某个目标行人，在监控网络其他摄像头视域内的大量行人样本中快速准确地将这个目标行人的身份标识出来。

请参阅图2，本实施例基于文本辅助特征对齐模型的受损行人图像再识别方法，包括下述步骤：

S1、构建文本辅助特征对齐模型。

所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层；

S1.1、深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同，由5个不同大小的卷积层模块组成，请参阅图3。

S1.2、全局平均池化层对输入到特征图的每一个通道进行均值化处理，将高维的特征图展平成一维的特征向量。

S1.3、双向门控循环单元由两个结构相同的门控循环单元组成，通过可以学习的重置门和更新门来控制信息流动，改变隐藏状态，请参阅图4。

S1.4、损失函数层由多个损失函数组成，包括有分类损失函数L_id、跨模态相似度误差函数L_sim、特征对齐损失函数L_align。

S2、对文本辅助特征对齐模型进行训练，训练过程分为两个阶段，第一阶段为语句层面特征提取，第二阶段为名词短语层面特征对齐；模型的训练如图2所示，具体为：

S21、语句层面特征提取协助，请参阅图5，具体为：

S211、语句层面文本特征提取；将行人文本描述t映射成300维的词向量，将词向量输入到双向门控循环单元Bi-GRU中提取文本特征，具体如下：

其中，w_t为第t个词向量，h_t-1为处理完第t-1个词向量的Bi-GRU的隐藏层参数，右箭头表示正向序列，左箭头表示反向序列，将正向与反向的最终输出级联到一起，再经过一个全连接层的处理，得到语句层面的文本特征f_i ^T：

其中，

表示正向输出，

表示反向输出，Concat(·,·)为级联操作，FC(·)为全连接层。

S212、将正常图像x^N输入到深度卷积神经网络-Normal中，再经过全局平均池化层处理，得到512维的正常视觉特征向量f_i ^N。将受损图像x^C输入到深度卷积神经网络-Corrupted中，再经过全局平均池化层处理，得到512维的受损视觉特征向量f_i ^C。

S213、为了能让卷积神经网络和双向门控循环单元生成具有可鉴别性的特征向量，本发明利用数据的身份标签计算这三种特征向量的分类损失L_id，分类损失L_id由交叉熵损失L_ce和三元组损失L_tri组成，交叉熵损失L_ce用来判定实际的输出与期望的输出的接近程度，计算公式为：

其中，y为当前特征向量的真实身份标签，

L_tri＝max(d(a，p)-d(a，n)+m，0)

其中，d(·,·)为余弦距离度量函数，a为选定的锚点特征向量，p为同一类别的特征向量，n为不同类别的特征向量，m为允许的最小间隔；因此，分类损失L_id为：

L_id＝L_ce+L_triplet

S214、此外，为了能让正常视觉特征向量f_i ^N和受损视觉特征向量f_i ^C在特征空间中与文本特征f_i ^T有相似的关联性，本发明提供一个跨模态相似度误差函数来对其进行约束，正常视觉特征向量f_i ^N，受损视觉特征向量f_i ^C和语句层面的文本特征f_i ^T经过正则化处理后，分别计算视觉特征和文本特征之间的均方误差，具体为：

其中，MSE(·,·)为均方误差计算，‖·‖为2-范数计算。

S22、名词短语层面特征对齐协助，请参阅图6，具体为；

S221、利用第一阶段预训练好的深度卷积神经网络进行微调训练，提取特征向量；将正常图像x^N输入到深度卷积神经网络-Normal中，再经过全局平均池化层处理，得到正常视觉特征向量f_i ^N；将受损图像x^C输入到深度卷积神经网络-Corrupted中，再经过全局平均池化层处理，得到受损视觉特征向量f_i ^C。

S222、分别计算正常视觉特征向量f_i ^N和受损视觉特征向量f_i ^C的分类损失L_id。

S223、为了进一步对齐正常视觉特征向量f_i ^N和受损视觉特征向量f_i ^C的数据分布，减小两种特征向量之间的差异，使用一个特征对齐损失对其进行约束；本发明从特征层面和标签预测层面分别进行对齐。

进一步的，要进行特征层面的对齐，首先计算特征间的实际匹配概率：

和

再计算二者的KL散度，获得f_i ^N和f_j ^C的身份预测差异度：

最终的特征对齐损失为特征差异度与身份预测差异度之和：

L_align＝L_feature+L_predict

S224、根据词语的词性，对行人文字描述语句进行划分，滤除多余的单词获得所有名词短语{n₁,n₂,…,n_M}。利用第一阶段预训练好的双向门控循环单元进行微调训练，提取各个名词短语的特征向量

S225、将名词短语的特征向量

正常视觉特征向量f_i ^N和受损视觉特征向量f_i ^C输入到模态间关联性模块中加强不同模态间特征向量的关联程度。首先计算正常视觉特征向量f_i ^N与各个名词短语特征向量

的关联因子：

根据关联因子对名词短语特征向量

进行加权融合处理，得到正常图像关联名词短语特征向量

同理，可获得受损图像关联名词短语特征向量

利用特征对齐损失L_align加强

与

S3、测试集特征向量提取，请参阅图7，截图为：

S4、参考集特征向量提取，请参阅图8，具体为：

S5、使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算，首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离，找到欧式距离最小的参考集特征向量，将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。

请参阅图9，通过本发明的实施例，需要辨别身份的行人图像输入到文本辅助特征对齐模型中，该图像会被提取特征，然后与数据库中的行人图像特征进行匹配，模型输入相似度最高的前五张行人图像作为查询结果，显示顺序按相似度由高到低进行排列。

本发明从特征层面上进行图像特征的对齐，解决图像层面无法进行有效修复的问题。引入行人的文本描述信息，其提供的先验信息能有效减小正常图像和受损图像之间的信息差，文本描述信息的跨摄像头一致性完美适配行人再识别任务，能够在不同的摄像头之间提供共享信息，有助于不同摄像头获取图像的关键信息提取。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于文本辅助特征对齐模型的受损行人图像再识别方法相同的思想，本发明还提供了基于文本辅助特征对齐模型的受损行人图像再识别系统，该系统可用于执行上述基于文本辅助特征对齐模型的受损行人图像再识别方法。为了便于说明，基于文本辅助特征对齐模型的受损行人图像再识别系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

请参阅图10，在本申请的另一个实施例中，提供了一种基于文本辅助特征对齐模型的受损行人图像再识别系统100，该系统包括模型构建模块101、模型训练模块102、第一特征向量提取模块103、第二特征向量提取模块104以及识别模块105；

所述模型构建模块101，用于构建文本辅助特征对齐模型，所述文本辅助特征对齐模型包括深度卷积神经网络-Normal、深度卷积神经网络-Corrupted、全局平均池化层、双向门控循环单元和损失函数层，所述深度卷积神经网络-Normal和深度卷积神经网络-Corrupted的网络结构相同，由多个不同大小的卷积层模块组成，所述全局平均池化层对输入到特征图的每一个通道进行均值化处理，将高维的特征图展平成一维的特征向量，所述双向门控循环单元由两个结构相同的门控循环单元组成，通过可以学习的重置门和更新门来控制信息流动，改变隐藏状态，损失函数层由多个损失函数组成，包括有分类损失函数、跨模态相似度误差函数和特征对齐损失函数；

所述模型训练模块102，用于对文本辅助特征对齐模型进行训练，训练过程分为两个阶段，第一阶段为语句层面特征提取，第二阶段为名词短语层面特征对齐；

所述第一特征向量提取模块103，用于将测试集中的受损图像输入到深度卷积神经网络-Corrupted以及全局平均池化层中提取得到受损图像特征向量；

所述第二特征向量提取模块104，用于将参考集中的正常图像输入到深度卷积神经网络-Normal以及全局平均池化层中提取得到未受损图像特征向量；

所述识别模块105，用于使用测试集提取得到的受损特征向量与参考集提取得到的未受损特征向量进行相似度计算，首先计算测试集受损特征向量与参考集所有未受损特征向量之间的欧式距离，找到欧式距离最小的参考集特征向量，将该参考集特征向量的身份标签标注在测试集受损特征的输入受损行人图像上。

需要说明的是，本发明的基于文本辅助特征对齐模型的受损行人图像再识别系统与本发明的基于文本辅助特征对齐模型的受损行人图像再识别方法一一对应，在上述基于文本辅助特征对齐模型的受损行人图像再识别方法的实施例阐述的技术特征及其有益效果均适用于基于文本辅助特征对齐模型的受损行人图像再识别的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于文本辅助特征对齐模型的受损行人图像再识别系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于文本辅助特征对齐模型的受损行人图像再识别系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

请参阅图11，在一个实施例中，提供了一种实现基于文本辅助特征对齐模型的受损行人图像再识别方法的电子设备，所述电子设备200可以包括第一处理器201、第一存储器202和总线，还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序，如基于文本辅助特征对齐模型的受损行人图像再识别程序203。

其中，所述第一存储器202至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元，例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备，例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据，例如基于文本辅助特征对齐模型的受损行人图像再识别程序203的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器201在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器202内的程序或者模块，以及调用存储在所述第一存储器202内的数据，以执行电子设备200的各种功能和处理数据。

图11仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图11示出的结构并不构成对所述电子设备200的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备200中的所述第一存储器202存储的基于文本辅助特征对齐模型的受损行人图像再识别程序203是多个指令的组合，在所述第一处理器201中运行时，可以实现：

进一步地，所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于文本辅助特征对齐模型的受损行人图像再识别方法，其特征在于，包括下述步骤：

2.根据权利要求1所述基于文本辅助特征对齐模型的受损行人图像再识别方法，其特征在于，所述语句层面特征提取具体为：

将正常图像x^N输入到深度卷积神经网络-Normal中，再经过全局平均池化层处理，得到512维的正常视觉特征向量

将受损图像x^C输入到深度卷积神经网络-Corrupted中，再经过全局平均池化层处理，得到512维的受损视觉特征向量

为了能让正常视觉特征向量

和受损视觉特征向量

在特征空间中与文本特征

有相似的关联性，提供一个跨模态相似度误差函数来对其进行约束，正常视觉特征向量

受损视觉特征向量

和语句层面的文本特征

经过正则化处理后，分别计算视觉特征和文本特征之间的均方误差；

其中MSE(·,·)为均方误差计算，‖·‖为2-范数计算。

3.根据权利要求2所述基于文本辅助特征对齐模型的受损行人图像再识别方法，其特征在于，语句层面文本特征提取具体为：

其中，w_t为第t个词向量，h_t-1为处理完第t-1个词向量的Bi-GRU的隐藏层参数，右箭头表示正向序列，左箭头表示反向序列；将正向与反向的最终输出级联到一起，再经过一个全连接层的处理，得到语句层面的文本特征

是

表示正向输出，

表示反向输出，Concat(·,·)为级联操作，FC(·)为全连接层。

4.根据权利要求2所述基于文本辅助特征对齐模型的受损行人图像再识别方法，其特征在于，所述分类损失L_id由交叉熵损失L_ce和三元组损失L_tri组成。交叉熵损失L_ce用来判定实际的输出与期望的输出的接近程度，计算公式为：

其中，y为当前特征向量的真实身份标签，

L_tri＝max(d(a，p)-d(a，n)+m，0)

L_id＝L_ce+L_triplet。

5.根据权利要求1所述基于文本辅助特征对齐模型的受损行人图像再识别方法，其特征在于，所述名词短语层面特征对齐具体为：

利用第一阶段预训练好的深度卷积神经网络进行微调训练，提取特征向量，将正常图像x^N输入到深度卷积神经网络-Normal中，再经过全局平均池化层处理，得到正常视觉特征向量

将受损图像x^C输入到深度卷积神经网络-Corrupted中，再经过全局平均池化层处理，得到受损视觉特征向量

分别计算正常视觉特征向量

和受损视觉特征向量

的分类损失L_id；

为了进一步对齐正常视觉特征向量

和受损视觉特征向量

的数据分布，减小两种特征向量之间的差异，采用特征对齐损失对其进行约束，从特征层面和标签预测层面分别进行对齐；

将名词短语的特征向量

正常视觉特征向量

和受损视觉特征向量

输入到模态间关联性模块中加强不同模态间特征向量的关联程度。

6.根据权利要求5所述基于文本辅助特征对齐模型的受损行人图像再识别方法，其特征在于，采用特征对齐损失对其进行约束，从特征层面和标签预测层面分别进行对齐，具体为：

要进行特征层面的对齐，首先计算特征间的实际匹配概率：

其中，当

和

拥有相同身份标签时m_i,j＝1，当

和

拥有不同身份标签时m_i,j＝0，再计算

和

的互相似概率：

其中，CS·,·为余弦相似度计算。最后通过计算互相似概率与实际匹配概率的KL散度，获得

和

的特征差异度：

和

再计算二者的KL散度，获得

和

的身份预测差异度：

最终的特征对齐损失为特征差异度与身份预测差异度之和：

L_align＝L_feature+L_predict。

7.根据权利要求5所述基于文本辅助特征对齐模型的受损行人图像再识别方法，其特征在于，所述加强不同模态间特征向量的关联程度，具体为：

首先计算正常视觉特征向量

与各个名词短语特征向量

的关联因子：

根据关联因子对名词短语特征向量

进行加权融合处理，得到正常图像关联名词短语特征向量

同理，可获得受损图像关联名词短语特征向量

利用特征对齐损失L_align加强

与

8.基于文本辅助特征对齐模型的受损行人图像再识别系统，其特征在于，应用于权利要求1-7中任一项所述的基于文本辅助特征对齐模型的受损行人图像再识别方法，包括模型构建模块、模型训练模块、第一特征向量提取模块、第二特征向量提取模块以及识别模块；

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于文本辅助特征对齐模型的受损行人图像再识别方法。

10.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的基于文本辅助特征对齐模型的受损行人图像再识别方法。