CN114758362B

CN114758362B - 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法

Info

Publication number: CN114758362B
Application number: CN202210670639.5A
Authority: CN
Inventors: 高赞; 魏宏伟; 宋健明; 顾竟潇; 王水跟; 徐国智; 聂礼强
Original assignee: Suzhou Calmcar Vision Electronic Technology Co ltd; Shandong University; Iray Technology Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Suzhou Calmcar Vision Electronic Technology Co ltd; Shandong University; Iray Technology Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-11
Anticipated expiration: 2042-06-15
Also published as: CN114758362A

Abstract

本发明提供一种基于语义感知注意力和视觉屏蔽的换衣行人重识别方法、系统、电子设备及存储介质，属于计算机视觉技术领域，根据人体语义分割信息分别定位人体和服装区域。通过人体语义注意力网络获得前景增强的特征表示，以突出前景信息并为原始特征图重新赋权重。通过衣物视觉外观屏蔽网络获得原始特征和视觉屏蔽特征表示。本发明通过人体语义注意力网络，可以尽可能地减少背景信息的负面影响，并获得更多的辨别性特征。通过衣物视觉外观屏蔽网络，将换衣行人重识别模型集中在与衣服无关的视觉语义信息上为行人提取更稳健的特征表示。本发明具备科学性、系统性和鲁棒性的技术效果。

Description

基于语义感知注意力和视觉屏蔽的换衣行人重识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于语义感知注意力和视觉屏蔽的换衣行人重识别方法、系统、电子设备及存储介质。

背景技术

随着机器学习技术和深度学习模型在计算机视觉领域的发展，在安防场景中，基于深度学习方法的人体识别也获得了越来越广泛的应用。其中，以行人重识别(PersonReID)为人体识别代表的技术在行人跟踪、跨摄像头行人检索中被广泛应用，也可以作为人脸识别失效时的有效替代技术。行人重识别任务的目的是解决跨摄像头检索目标行人的问题，具体来讲就是基于计算机视觉技术来确定不同摄像机拍摄的图像或视频序列中是否存在特定的行人。行人重识别可以与人员检测和人员跟踪技术相结合，在城市规划和智能监控等场景中发挥重要的作用。行人重识别需要以天网摄像头或智能监控采集的视频或图像内容为媒介，受拍摄距离远、图像像素低等因素的影响，而且，背景的巨大变化，光照条件的变化、姿势的变换以及摄像头视角的变化经常同时发生，使得行人重识别成为一个具有挑战性的任务。传统的行人重识别研究目前已经取得了很好的效果，是时候考虑更符合现实情况的行人换衣场景。

行人重识别主流的做法是将检测出来的行人图像制作成数据集，划分训练集、验证集和测试集等，直接对图像进行检索。传统的行人重识别方法利用手工标注特征，比如LOMO+XQDA方法中，着眼于光照和视角问题，采用HSV直方图进行特征表示，用LOMO方法提取特征后，借助XQDA方法对空间进行降维和距离度量。

随着深度学习技术的快速发展，当前的行人重识别方法主要基于卷积神经网络（CNN）来提取图像特征，然后进行分类或特征匹配。比如Zhou等人设计了一种新颖的深度CNN用于全尺度特征学习，称为全尺度网络OSNet，通过多个卷积特征流组成的残差块来实现，每个残差块都可以检测一定尺度的特征。仅仅局限于对特征提取方法进行优化，方法能够达到的效果有限，因此很多研究者开始考虑细粒度的特征或者引入新的特征联合学习。比如Sun等人提出PCB方法在水平方向上将特征图划分成六块，进行细粒度的特征挖掘，最后对每个细分特征分别做平均池化，最终用六个分类器做类别预测。这样的“粗略划分”在行人出现遮挡的情况下效果欠佳，因此又出现了以人体骨架点或姿态预测为先验知识进行校准的方法。比如miao等人提出PGFA方法，利用关键点信息生成注意力图，引导模型关注没有被遮挡的人体区域，同时在提取特征时抹去遮挡信息，从而在整张图像中分离出没有被遮挡的有用特征。这些方法从不同角度为行人重识别任务提出了针对性的解决方案，也都发挥了很好的作用，但是，在换衣场景中，行人识别的效果还不理想。

因此，亟需一种在换衣场景下的行人重识别方法。

发明内容

本发明提供一种基于语义感知注意力和视觉屏蔽的换衣行人重识别方法、系统、电子设备及存储介质，用以克服现有技术中存在的至少一个技术问题。

为实现上述目的，本发明提供一种基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，方法包括：

获取待处理的行人图像；

利用预训练的语义分割模型对所述待处理的行人图像进行处理，获取各个语义区域对应的语义分割图像；

将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；

通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；并根据所述前景增强的特征表示获取待检索图像；

将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；

按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。

进一步，优选的，所述视觉屏蔽图的预获取方法包括，

利用预训练的语义分割模型对行人图像数据集的行人图像进行处理，获取各个语义区域对应的语义分割图像；

对各个语义区域对应的语义分割图像进行衣服所在区域的定位并获取视觉屏蔽信息；

利用所述视觉屏蔽信息对已屏蔽的衣服区域进行重新渲染，获取视觉屏蔽图。

进一步，优选的，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得的方法，包括，

对各个语义区域对应的语义分割图像分别进行人体所在的前景区域和衣服所在区域的定位，并分别获取前景信息和视觉屏蔽信息；

通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；通过衣物视觉外观屏蔽网络，根据预获取的视觉屏蔽图和各个语义区域对应的语义分割图像获取原始特征和视觉屏蔽特征表示；

利用损失函数对所述前景增强的特征表示、原始特征和视觉屏蔽特征表示进行训练约束；

获取训练好的换衣行人重识别模型。

进一步，优选的，对各个语义区域对应的语义分割图像进行人体所在的前景区域的定位，并获取前景信息的方法，包括，

将各个语义区域对应的语义分割图像进行二值化处理，获得各个语义区域对应的二值化后的语义分割图像；其中，将所述语义分割图像中所有包含人体部件的部分置为1，剩余背景部分置为0；

将所述原始行人图像与各个语义区域对应的二值化后的语义分割图像做乘运算，获取只保留身体区域的图像矩阵；

将所述只保留身体区域的图像矩阵作为前景信息。

进一步，优选的，通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示的方法，包括，

对所述前景信息进行基础特征提取，获取特征图；

通过加权特征向量对所述特征图的通道特征进行重新赋权重，并通过全局池化操作，获取前景增强的特征表示；其中，所述加权特征向量通过以下公式获取：

其中，F _A表示特征图；F _GAP表示全局平均池化的操作，FC ₁和FC ₂分别表示两个全连接层的权重矩阵。

进一步，优选的，所述损失函数通过以下公式实现：

其中，L _id为用于约束所述前景增强的特征表示的分类损失、L ₂为用于衡量样本对之间距离的度量损失；L ₃为用于约束所述原始特征和视觉屏蔽特征表示的语义损失。

进一步，优选的，所述语义损失通过以下公式实现：

其中，b表示训练批次的大小，||*||₂代表L2范化，

和

表示衣物视觉外观屏蔽网络的输出；其中

来自行人图像数据集，

来自视觉屏蔽图。

为了解决上述问题，本发明还提供一种基于语义感知注意力和视觉屏蔽的换衣行人重识别系统，包括：

语义分割单元，用于获取待处理的行人图像；利用预训练的语义分割模型对所述待处理的行人图像进行处理，获取各个语义区域对应的语义分割图像；

前景增强获取单元，用于将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；并根据所述前景增强的特征表示获取待检索图像；

结果识别单元将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。

为了解决上述问题，本发明还提供一种电子设备，电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法中的步骤。

本发明还保护一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现如上述的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法。

本发明的一种基于语义感知注意力和视觉屏蔽的换衣行人重识别方法、系统、电子设备以及存储介质，通过获取待处理的行人图像；利用预训练的语义分割模型对所述待处理的行人图像进行处理，获取各个语义区域对应的语义分割图像；将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；并根据所述前景增强的特征表示获取待检索图像；将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。具有有益效果如下：

1）通过语义引导获取了前景增强的特征表示和视觉屏蔽特征表示，获得了更鲁棒的行人特征描述；

2）本发明的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，在相关的换衣行人重识别数据集中达到了优异的效果，识别的性能以及稳定性更高。

附图说明

图1为根据本发明实施例的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法的流程示意图；

图2为根据本发明实施例的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法的原理示意图；

图3为根据本发明实施例的基于语义感知注意力和视觉屏蔽的换衣行人重识别系统的逻辑结构框图；

图4根据本发明实施例的实现基于语义感知注意力和视觉屏蔽的换衣行人重识别方法的电子设备的内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例可以基于人工智能技术和计算机视觉技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

具体的，作为示例，图1为本发明一实施例提供的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法的流程示意图。参照图1所示，本发明提供一种基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，包括步骤S110~ S130。

具体地说，S110、获取待处理的行人图像；利用预训练的语义分割模型对所述待处理的行人图像进行处理，获取各个语义区域对应的语义分割图像；S120、将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；并根据所述前景增强的特征表示获取待检索图像；S130、将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。

图2为根据本发明实施例的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法的原理示意图；如图2所示，本发明提供了一种换衣行人重识别模型，包括人体语义注意力网络和衣物视觉外观屏蔽网络。

首先，利用预训练的语义分割模型对行人图像数据集的行人图像进行处理，获取各个语义区域对应的语义分割图像。需要说明的是，语义分割模型可以但不限制于为人体解析自纠错模型（Self-Correction for Human Parsing ，SCHP）。需要说明的是，通过SCHP模型可以获得18个人体语义区域。如图2所示，在具体的实施过程中，将18个人体语义区域重新合并，获得七个有效的语义区域：背景、头部、胳膊、上衣、裤子、腿脚、随身携带物。

然后，对所获得的各个语义区域对应的语义分割图像，根据使用目的的不同获得两种增强的语义表示。第一，利用语义引导定位人体所在的前景区域和衣服所在区域，并分离出前景信息和视觉屏蔽信息。通过人体语义注意力网络，对前景信息中的原始特征重新赋权重获得前景权重，进而获取前景增强的特征表示（即强化特征），以突出人体区域的前景特征，获得对检索提供最大支持的视觉信息。第二，通过衣物视觉外观屏蔽网络，根据预获取的视觉屏蔽图和各个语义区域对应的语义分割图像获取原始特征和视觉屏蔽特征表示（即屏蔽特征）。也就是说，通过语义引导获得两种增强的语义表示：前景信息和视觉屏蔽信息，利用人体语义注意力网络突出人体区域特征，利用衣物视觉外观屏蔽网络学习衣服改变前后的视觉一致性。

最后，利用损失函数对所述前景增强的特征表示、原始特征和视觉屏蔽特征表示进行训练约束；获取训练好的换衣行人重识别模型。具体地说，损失函数包括用于约束所述前景增强的特征表示的分类损失、用于衡量样本对之间距离的度量损失以及用于约束所述原始特征和视觉屏蔽特征表示的语义损失。通过将得到的三部分损失加权求和，既可以专注人体区域特征，又可以挖掘出更换衣服前后的一致性特征。联合损失可以更好的约束网络进行训练，得到优化后的深度学习模型用于行人特征提取，即获得训练好的换衣行人重识别模型。

利用训练好的换衣行人重识别模型对待检索的行人图像进行行人特征提取，进而用于特定行人的检索匹配。具体来讲，通过换衣行人重识别模型得到可以表示待检索的行人图像的特征向量，将所述待检索的行人图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。也就是说，利用欧氏距离计算特征向量之间的相似度；然后将待检索的行人图像与检索库内的行人图像逐一匹配，按相似度从高到低对检索库内的行人图像进行排序，最后返回排名靠前的行人图像作为检索结果。

在具体的实施过程中，基于语义感知注意力和视觉屏蔽的换衣行人重识别方法包括步骤S110~S130。

S110、获取待处理的行人图像；利用预训练的语义分割模型对所述待处理的行人图像进行处理，获取各个语义区域对应的语义分割图像。

具体地说，在捕捉面部图像困难的场景中，如具有遮挡物、侧面角度、距离较远等困难。可以应用于安防监控、智慧社区等领域。而获取待处理的行人图像，就是需要识别的行人的图像。采集设备可以但不限制于为摄像头、手机、平板电脑等。

语义分割模型的各个神经网络均可以由卷积层、池化层组成，各个神经网络的结构可以相同，也可以不同，本申请实施例对各个神经网络的具体结构不作限定。语义分割模型可以但不限制于为人体解析自纠错模型，SCHP的原理为：以一个用噪声标签训练的模型作为初始模型，设计了一个循环学习的规程，通过迭代地在线聚合当前习得的模型和之前的最优的模型，推断出更可靠的伪标签。而且，这些纠正过的标签可以进一步提升模型的性能。这样，在自纠正的学习轮回中，模型和标签将相互作用得变得更加鲁棒和准确。人体特征可以包括人体部位的比例、姿态等。而具体的语义区域可以但不限制于为背景、头部、胳膊、上衣、裤子、腿脚、随身携带物。

S120、将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；并根据所述前景增强的特征表示获取待检索图像。

也就是说，针对现有的行人重识别方法无法把注意力集中在人体区域的问题，通过建立人体语义注意力网络，在提取行人特征的过程中，对原始特征重新赋权重，从而突出人体区域的前景特征，获得对检索提供最大支持的视觉信息。具体来讲，将获得的前景信息输入人体语义注意力网络获得前景权重，将其与原始特征做通道相乘，最终输出突出前景信息的强化特征。

利用训练好的换衣行人重识别模型，通过语义引导对步骤S110获得的语义分割图像进行语义区域定位，然后根据使用目的的不同获得两种增强的表示；即定位人体所在的前景区域，分离出前景信息；然后定位衣服所在的区域，把衣服像素全部擦除，获得视觉屏蔽信息。其中，在分离前景信息时，进行二值化处理以区分背景和非背景。所有除背景以外的信息都被作为前景信息，如胳膊、头部和腿。而在获取视觉屏蔽信息时，就需要更精细的标签指导，在众多人体部位中，选择性地屏蔽上衣和裤子所在位置。其他信息，如头部、裸露的腿脚和随身物品，有时可以作为有效的可辨别性人体特征信息，因此使其保持原有的视觉语义。

具体地说，与现有技术中获取全局特征和局部特征的工作不同，本发明中将前景信息和背景信息的关联性作为关键点，并分离出前景信息作为第一个增强的语义表示。关键步骤是为每张原始图像分离出前景和背景。对各个语义区域对应的语义分割图像进行人体所在的前景区域的定位，并获取前景信息的方法，包括步骤S1201~ S1203。S1201、将各个语义区域对应的语义分割图像进行二值化处理，获得各个语义区域对应的二值化后的语义分割图像；其中，将所述语义分割图像中所有包含人体部件的部分置为1，剩余背景部分置为0。S1202、将所述原始行人图像与各个语义区域对应的二值化后的语义分割图像做乘运算，获取只保留身体区域的图像矩阵。S1203、将所述只保留身体区域的图像矩阵作为前景信息。

在一个具体的实施例中，对于待处理的行人图像，其对应的语义分割图像包含细粒度的人体语义划分。在获取前景信息时，并不需要精细化的语义分割结果，因此把语义分割图像M进行二值化处理，所有包含人体部件的部分置为“1”，剩余背景部分置为“0”。将原始图像与处理过的语义分割图像在每个像素位置上做乘运算，结果就只保留下身体区域，最后保存为新的图像矩阵作为前景信息。

通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示的方法，包括步骤S1204~ S1205。S1204、对所述前景信息进行基础特征提取，获取特征图；S1205、通过加权特征向量对所述特征图的通道特征进行重新赋权重，并通过全局池化操作，获取前景增强的特征表示。

在具体的实施过程，首先利用ResNet50从前景图像中提取基础特征，得到FA特征图，且

，然后在特征图上做全局平均池化得到特征向量

。随后，特征向量

通过两个全连接层，分别是一个维度缩小过程和一个维度扩张过程，通过这两个过程可以最大限度地保留对特征分类最有用的通道。具体来说，首先通过一个全连接层压缩，得到一个降维的特征表示，降至1024/r维，其中r是降维率，在本实施例中设定r=16。接着是另一个维度增加的全连接层，增加至1024维，得到与相同维度的特征。整个过程被定义为从F _A特征图到加权特征向量F _w的转化。所述加权特征向量通过以下公式获取：

其中，F _A表示特征图；F _GAP表示全局平均池化的操作，FC ₁和FC ₂分别表示两个全连接层的权重矩阵。在具体的实施过程，两个全连接层之间用Sigmod激活函数和ReLU作用函数连接。

在接收到F _O特征图后，通过加权特征向量F _w对通道特征进行重新赋权重，以选择性地强调前景信息所属的特征通道，同时抑制不太有用的特征。加权过程通过以下公式实现：

其中，

表示强调前景信息的权重向量Fw与原始F _O特征图之间的通道相乘。最后，通过全局平均池化操作，得到可以描述行人的特征向量，用于后续分类训练。通过这种方式，前景信息和背景信息被充分挖掘和重新定位，这有助于优化最终的特征描述。

针对换衣行人重识别中的痛点问题，行人更换衣服以后外观无法作为可辨别特征，本发明的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法通过增加一个新的衣物外观视觉屏蔽网络，为换衣场景提供了一个更稳健的特征表示。将衣服区域进行覆盖，并通过对比学习的方法将模型注意力集中在与衣服无关的视觉信息上，从而消除衣服改变给行人重识别带来的负面影响。在换衣行人重识别场景中，最常见的情况是行人更换上衣和裤子。因此，将这两个标签所对应的区域的特征屏蔽掉，作为第二个增强的语义表示。

首先，根据前述的语义分割信息定位上衣和下衣的位置，与分离前景信息不同，在这个过程中，需要更精细的分割标签来准确找到上衣和下衣的局部位置。然后把衣服区域的像素置空，保留除衣服以外的所有原始特征细节，该操作同的前景信息分离过程，区别在于分割实例k需要分别定位上衣和裤子区域。

总的来说，换衣行人重识别模型包括人体语义注意力网络和衣物视觉外观屏蔽网络；通过人体语义注意力网络，对前景信息中的原始特征重新赋权重获得前景权重，进而获取前景增强的特征表示（即强化特征），以突出人体区域的前景特征，获得对检索提供最大支持的视觉信息。通过衣物视觉外观屏蔽网络，根据预获取的视觉屏蔽图和各个语义区域对应的语义分割图像获取原始特征和视觉屏蔽特征表示（即屏蔽特征）。

在具体的实施过程中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练的方法包括步骤S1210~ S1250。

S1210、利用预训练的语义分割模型对行人图像数据集的行人图像进行处理，获取各个语义区域对应的语义分割图像。S1220、对各个语义区域对应的语义分割图像分别进行人体所在的前景区域和衣服所在区域的定位，并分别获取前景信息和视觉屏蔽信息。

即定位衣服所在区域，把衣服像素全部擦除，即获得视觉屏蔽信息。

S1230、通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；通过衣物视觉外观屏蔽网络，根据预获取的视觉屏蔽图和各个语义区域对应的语义分割图像获取原始特征和视觉屏蔽特征表示。

对于通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示如上述步骤S1204~ S1205所示。对于衣物视觉外观屏蔽网络而言，首先依据获得的视觉屏蔽信息对已屏蔽的衣服区域进行重新渲染得到屏蔽图，像素值随机取自该批次内所有衣服像素。然后将原始图像和屏蔽图共同输入衣物外观视觉屏蔽模块，分别获得原始特征和视觉屏蔽特征表示。

所述视觉屏蔽图的预获取方法包括，S12321、利用预训练的语义分割模型对行人图像数据集的行人图像进行处理，获取各个语义区域对应的语义分割图像；S12322、对各个语义区域对应的语义分割图像进行衣服所在区域的定位并获取视觉屏蔽信息；S12323、利用所述视觉屏蔽信息对已屏蔽的衣服区域进行重新渲染，获取视觉屏蔽图。

具体地说，将各个语义区域对应的语义分割图像进行处理，获取图像的像素向量；提取所述图像的像素向量中衣服区域的所有像素，获取衣服区域的像素集合；利用所述衣服区域的像素集合中的像素对所述图像的像素向量中的衣服区域进行随机替换。

在具体的实施过程，将行人图像数据集的行人图像分成批次，每个批次输入的行人图像表示为

，对应的语义分割图像表示为

，

中的像素值范围为[0,1,2,3,4,5, 6]，这七个值分别代表前面提到的七个人体部件。

首先，分别随机打乱样本和语义分割图的顺序，把行人图像每个位置上的像素表示为一个长度为3的向量

，向量的值来自图像的（R,G,B）三个通道。也就是说，在每个批次输入的行人图像

上总共提取了W×H个像素向量。然后通过对应的语义分割图像

的定位作用，提取每个训练批次中衣服区域的所有像素

，假设行人图像I中的所有像素向量被表示为

，其中，

是与衣服有关的像素向量，

是整个图像上像素向量的总数。然后，衣服区域的所有像素V _cloth被用来改变行人图像I中的所有像素向量V中衣服区域的像素向量。最后，生成图像中的向量空间可以表示为

。其中，

。

需要说明的是，用于重新填充衣服区域的像素随机取自于该批次内所有样本的衣服区域，而不是简单地把衣服改变为纯白色或纯黑色等简单的像素覆盖，这样即使模型提取了衣服所在区域的特征，这部分特征可能与多个行人类别都相关，无法作为行人分类的辨别性信息，因此也就解决了换衣问题。

S1240、利用损失函数对所述前景增强的特征表示、原始特征和视觉屏蔽特征表示进行训练约束。

本发明在网络中设置了两条链路，通过人体语义注意力网络获得前景增强的特征表示，通过衣物视觉外观屏蔽网络获得原始特征和视觉屏蔽特征表示。在网络训练过程中，根据损失函数计算输出图像与输入图像的误差，利用反向传播算法调整优化网络的参数。在此基础上计算损失分为三部分：第一部分损失函数根据前景增强的特征表示计算分类损失；第二部分损失函数根据前景增强的特征表示计算度量损失；第三部分损失函数通过比较原始特征和视觉屏蔽特征表示计算语义损失，将得到的三部分损失加权求和，既可以专注人体区域特征，又可以挖掘出更换衣服前后的一致性特征。联合损失可以更好的约束网络进行训练，得到优化后的深度学习模型用于行人特征提取。

联合损失由分类损失L _id，度量损失L ₂和语义损失L ₃三者有机结合来监督优化；所述损失函数通过以下公式实现：

具体地说，行人重识别训练过程相当于图像分类，因此分类误差L _id用交叉熵损失Cross Entropy Loss来计算。

基于度量学习方法，度量损失L ₂被用来衡量样本对之间的距离。在提取完图像特征后，对于给定特征空间中的单个样本x，以x为基准，该批次所有行人图像中存在K个同类样本和L个非同类样本，将这些样本与x的相似性得分分别表示为

和

。

通过提供了一个关于深度特征学习的一对相似性优化观点，目的是最大化类内相似性

，最小化类间相似性

，同时完成多个样本的距离度量优化。

输入图像中的衣服区域在衣物外观视觉屏蔽模块中完成屏蔽和重新渲染，生成的屏蔽图像改变了外观样式但保留了身份信息，并与原始图像一起作为训练样本使用。由于衣服区域占据了很大比例的像素，生成的图像和原始图像有不同的外观，但用于辨别人的鲁棒性信息保持不变。为了迫使模型专注于与服装无关的线索，使用均方误差作为语义损失来约束所学的特征，也就是使两个特征差距缩小，通过语义损失来实现。

所述语义损失通过以下公式实现：

其中，b表示训练批次的大小，||*||₂代表L2范化，

和

表示衣物视觉外观屏蔽网络的输出；其中

来自行人图像数据集，

来自视觉屏蔽图。旨在通过训练使两个特征的空间距离尽可能缩小，从而使衣服改变前后的有效语义信息保持一致。

在具体的实施过程，根据实际需要确定联合损失函数中，各个损失的权重，在此不做具体限定。通过上述损失函数有助于减少换衣对行人识别的影响；经过上述训练过程，然后利用测试集进行测试，最终获得训练好的换衣行人重识别模型。

S1250、获取训练好的换衣行人重识别模型。

综上，本发明的换衣行人重识别模型通过采用一个视觉语义编码器，根据人体语义分割信息，分别定位人体和服装区域。然后，通过人体语义注意力网络获得前景增强的特征表示，以突出前景信息并为原始特征图重新赋权重。通过这种方式，可以尽可能地减少背景信息的负面影响，并获得更多的辨别性特征。通过衣物视觉外观屏蔽网络获得原始特征和视觉屏蔽特征表示。通过覆盖衣服区域，将模型集中在与衣服无关的视觉语义信息上，为换衣区域提取更稳健的特征表示。最重要的是，这两个模块是在一个端到端的统一框架中共同探讨的。大量的实验表明，本发明的所提出的方法可以明显地超过现有的换衣行人重识方法，而且获得更多的鲁棒性特征。

S130、将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。

具体来讲，通过换衣行人重识别模型得到可以表示待检索的行人图像的特征向量，将所述待检索的行人图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。也就是说，利用欧氏距离计算特征向量之间的相似度；然后将待检索的行人图像与检索库内的行人图像逐一匹配，按相似度从高到低对检索库内的行人图像进行排序，最后返回排名靠前的行人图像作为检索结果。

在具体的实施过程，给定一张行人图像，在测试集中检索得到同一身份的其他行人图像，并返回排序列表。检索匹配的过程如下：通过训练好的模型提取出测试集中所有图像的特征向量表示，将给定的检索图像与测试集中的所有图像分别计算相似性，根据相似性从高到低对测试集中的图像进行排序，并按此顺序返回检索结果列表。特征之间的相似性通过计算归一化之后特征的欧氏距离来度量。

综上，本发明的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法通过建立一种换衣行人重识别模型，通过人体语义注意力网络获得前景增强的特征表示，以突出前景信息并为原始特征图重新赋权重，通过衣物视觉外观屏蔽网络获得原始特征和视觉屏蔽特征表示。本发明通过人体语义注意力网络，可以尽可能地减少背景信息的负面影响，并获得更多的辨别性特征。通过衣物视觉外观屏蔽网络，将换衣行人重识别模型集中在与衣服无关的视觉语义信息上为换衣区域提取更稳健的特征表示。本发明具备科学性、系统性和鲁棒性的技术效果。

与上述基于语义感知注意力和视觉屏蔽的换衣行人重识别方法相对应，本发明还提供一种基于语义感知注意力和视觉屏蔽的换衣行人重识别系统。图3示出了根据本发明实施例的基于语义感知注意力和视觉屏蔽的换衣行人重识别系统的功能模块。

如图3所示，本发明提供的基于语义感知注意力和视觉屏蔽的换衣行人重识别系统300可以安装于电子设备中。根据实现的功能，所述基于语义感知注意力和视觉屏蔽的换衣行人重识别系统300可以包括语义分割单元310、前景增强获取单元320和结果识别单元330。本发明所述单元也可以称之为模块，指的是一种能够被电子设备的处理器所执行，并且能够完成某一固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

语义分割单元310，用于获取待处理的行人图像；利用预训练的语义分割模型对所述待处理的行人图像进行处理，获取各个语义区域对应的语义分割图像；

前景增强获取单元320，用于将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；并根据所述前景增强的特征表示获取待检索图像；

结果识别单元330，用于将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。

本发明所提供的上述基于语义感知注意力和视觉屏蔽的换衣行人重识别系统的更为具体的实现方式，均可以参照上述对基于语义感知注意力和视觉屏蔽的换衣行人重识别方法的实施例表述，在此不再一一列举。

本发明所提供的上述基于语义感知注意力和视觉屏蔽的换衣行人重识别系统，包括人体语义注意力和衣物外观视觉屏蔽两个视觉强化功能，前者关注人体区域的特征，后者则进一步关注与衣服无关的区域的特征。具体来讲，为了获得更鲁棒的行人特征描述，通过语义引导获得两种增强的语义表示：前景信息表示和视觉屏蔽信息表示。针对行人重识别中特征无法集中在人体区域的问题，通过人体语义注意力网络对原始特征重新赋权重，获得前景突出的视觉特征。针对衣服改变的问题，通过将衣服区域屏蔽，利用对比学习的方法将模型的注意力进一步集中在与衣服无关的视觉线索上。本发明的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，在相关的换衣行人重识别数据集中达到了优异的效果。

如图4所示，本发明提供一种基于语义感知注意力和视觉屏蔽的换衣行人重识别方法的电子设备4。

该电子设备4可以包括处理器40、存储器41和总线，还可以包括存储在存储器41中并可在所述处理器40上运行的计算机程序，如基于语义感知注意力和视觉屏蔽的换衣行人重识别程序42。

其中，所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器41在一些实施例中可以是电子设备4的内部存储单元，例如该电子设备4的移动硬盘。所述存储器41在另一些实施例中也可以是电子设备4的外部存储设备，例如电子设备4上配备的插接式移动硬盘、智能存储卡（Smart Media Card，SMC）、安全数字（SecureDigital，SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器41还可以既包括电子设备4的内部存储单元也包括外部存储设备。所述存储器41不仅可以用于存储安装于电子设备4的应用软件及各类数据，例如基于语义感知注意力和视觉屏蔽的换衣行人重识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器40在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器40是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器41内的程序或者模块（例如基于语义感知注意力和视觉屏蔽的换衣行人重识别程序等），以及调用存储在所述存储器41内的数据，以执行电子设备4的各种功能和处理数据。

所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器41以及至少一个处理器40等之间的连接通信。

图4仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图4示出的结构并不构成对所述电子设备4的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备4还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器40逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备4还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备4与其他电子设备之间建立通信连接。

可选地，该电子设备4还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备4中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备4中的所述存储器41存储的基于语义感知注意力和视觉屏蔽的换衣行人重识别程序42是多个指令的组合，在所述处理器40中运行时，可以实现：S110、获取待处理的行人图像；利用预训练的语义分割模型对所述待处理的行人图像进行处理，获取各个语义区域对应的语义分割图像；S120、将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；并根据所述前景增强的特征表示获取待检索图像；S130、将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。

具体地，所述处理器40对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述基于语义感知注意力和视觉屏蔽的换衣行人重识别程序的私密和安全性，上述基于语义感知注意力和视觉屏蔽的换衣行人重识别程序存储于本服务器集群所处区块链的节点中。

进一步地，所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

本发明实施例还提供一种计算机可读存储介质，所述存储介质可以是非易失性的，也可以是易失性的，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：S110、获取待处理的行人图像；利用预训练的语义分割模型对所述待处理的行人图像进行处理，获取各个语义区域对应的语义分割图像；S120、将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；并根据所述前景增强的特征表示获取待检索图像；S130、将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性；按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列，并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。

具体地，所述计算机程序被处理器执行时具体实现方法可参考实施例基于语义感知注意力和视觉屏蔽的换衣行人重识别方法中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新的应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等，区块链可以存储医疗数据，如个人健康档案、厨房、检查报告等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，其特征在于，包括：

获取待处理的行人图像；

将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得的方法包括，利用预训练的语义分割模型对行人图像数据集的行人图像进行处理，获取各个语义区域对应的语义分割图像；对各个语义区域对应的语义分割图像分别进行人体所在的前景区域和衣服所在区域的定位，并分别获取前景信息和视觉屏蔽信息；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；通过衣物视觉外观屏蔽网络，根据预获取的视觉屏蔽图和各个语义区域对应的语义分割图像获取原始特征和视觉屏蔽特征表示；利用损失函数对所述前景增强的特征表示、原始特征和视觉屏蔽特征表示进行训练约束；获取训练好的换衣行人重识别模型；

2.如权利要求1所述的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，其特征在于，所述视觉屏蔽图的预获取方法包括，

3.如权利要求1所述的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，其特征在于，对各个语义区域对应的语义分割图像进行人体所在的前景区域的定位，并获取前景信息的方法，包括，

将原始行人图像与各个语义区域对应的二值化后的语义分割图像做乘运算，获取只保留身体区域的图像矩阵；

将所述只保留身体区域的图像矩阵作为前景信息。

4.如权利要求1中所述的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，其特征在于，通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示的方法，包括，

对所述前景信息进行基础特征提取，获取特征图；

5.如权利要求1中所述的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，其特征在于，所述损失函数通过以下公式实现：

6.如权利要求5中所述的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法，其特征在于，所述语义损失通过以下公式实现：

其中，b表示训练批次的大小，||*||₂代表L2范化，

和

表示衣物视觉外观屏蔽网络的输出；其中

来自行人图像数据集，

来自视觉屏蔽图。

7.一种基于语义感知注意力和视觉屏蔽的换衣行人重识别系统，其特征在于，包括：

前景增强获取单元，用于将各个语义区域对应的语义分割图像输入预训练的换衣行人重识别模型，进行人体所在的前景区域定位并获取前景信息；其中，所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；并根据所述前景增强的特征表示获取待检索图像；所述换衣行人重识别模型利用行人图像数据集和预获取的视觉屏蔽图进行训练获得的方法包括，利用预训练的语义分割模型对行人图像数据集的行人图像进行处理，获取各个语义区域对应的语义分割图像；对各个语义区域对应的语义分割图像分别进行人体所在的前景区域和衣服所在区域的定位，并分别获取前景信息和视觉屏蔽信息；通过人体语义注意力网络，根据所述前景信息获取前景增强的特征表示；通过衣物视觉外观屏蔽网络，根据预获取的视觉屏蔽图和各个语义区域对应的语义分割图像获取原始特征和视觉屏蔽特征表示；利用损失函数对所述前景增强的特征表示、原始特征和视觉屏蔽特征表示进行训练约束；获取训练好的换衣行人重识别模型；

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一所述的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法中的步骤。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的基于语义感知注意力和视觉屏蔽的换衣行人重识别方法。