CN113157974A

CN113157974A - 一种基于文字表述的行人检索方法

Info

Publication number: CN113157974A
Application number: CN202110311957.8A
Authority: CN
Inventors: 朱继; 杨少毅; 褚智威; 石光明; 李甫; 牛毅
Original assignee: Xi'an Weiplastic Intelligent Technology Co ltd
Current assignee: Xi'an Weiplastic Intelligent Technology Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-23
Anticipated expiration: 2041-03-24
Also published as: CN113157974B

Abstract

本发明提出一种基于文字表述的行人检索方法，包括步骤1：在全局神经网络分支中，提取图像和文字的全局特征；步骤2：在细粒度神经网络分支中，通过引入关注度机制的神经网络，提取图像和文字相互对应的细粒度特征；步骤3：在粗粒度神经网络分支中，将步骤2中提取的细粒度图像和文字特征分别输入到图卷积神经网络中，将人体结构的先验信息嵌入到所提取的特征中；步骤4：分别计算步骤1‑3所述三个神经网络分支相对应的图像和文字特征的余弦相似度并求和，作为图像和文字的最终相似度；步骤5：比较文字表述和行人图像库中每张行人图像的余弦相似度，选取相似度最高的行人图像作为行人检索的匹配结果；本方法提高了行人检索的准确率和鲁棒性。

Description

一种基于文字表述的行人检索方法

技术领域

本发明涉及计算机图像处理领域，具体地，涉及一种基于文字表述的行人检索方法，可以应用于在监控视频中搜寻或者查找走丢的旅客。

背景技术

随着国民经济的持续发展和城市化进程的不断推进，城市管理和公共安全维护的需求与日俱增。然而面对海量的监控视频，传统的依靠人工查看监控录像的方式已难以满足安防需求。一方面，人工方式需要投入大量的人力。另一方面，监控人员不能长时间维持专注力，容易遗漏关键信息，难以充分发挥监控系统的效能。如何利用计算机图像处理技术对监控视频进行自动化分析成为了十分重要的研究课题。

基于文字表述的行人检索就是要在监控视频中根据对目标行人外观的文字表述，利用计算机图像处理技术自动地检索出该行人。该任务在实际场景中有广泛的应用需求，比如走丢旅客的查找定位等。其挑战在于(1)由于文字表述的灵活和多样性，同一个行人的外观可以有很多种不同的词汇和句子来表述，这对语言模型的准确建模能力要求很高；(2)文字表述和行人的图像属于不同的模态，不能直接对比相似度，因此需要将它们映射到同一个特征空间下进行比较。现有的基于文字表述的行人检索方法往往提取的是文字表述和图像作为一个整体去提取特征，而没有考虑表述中的词汇和图像局部区域的对应关系，因此检索的准确率和鲁棒性不理想。

发明内容

为了克服现有方法的上述不足之处，本发明提出了一种新的基于文字表述的行人检索方法。我们观察到在实际应用中，以文字来表述行人时通常形容的是他的身体局部衣着。因此，本发明把文字表述解析为多个词组，把图像分割为多个身体部位，通过在用于特征提取的深度神经网络中引入关注度机制，将每个词组特征和与之表述的身体部位对应的图像区域特征进行对齐和一一比较，最终确定图像中的行人是否与文字表述匹配。

本发明提出的一种基于文字表述的行人检索方法采用包含三个分支的深度神经网络架构，具体步骤如下：

步骤1：在全局(global-grained)神经网络分支中，将包含行人的图像和表述行人的文字输入全局特征提取网络，提取图像和文字的全局特征；

步骤2：在细粒度(fine-grained)神经网络分支中，将行人图像用人体图像分割算法分割成局部区域，并将文字解析成多个表述局部身体衣着的词组，通过引入关注度机制的神经网络，提取相互对应的细粒度图像和文字特征；

步骤3：在粗粒度(coarse-grained)神经网络分支中，基于人体身体结构的位置关系构建图卷积神经网络，将步骤2中提取的细粒度图像和文字特征分别输入到图卷积神经网络中，将人体结构的先验信息嵌入到粗粒度图像和文字特征；

步骤4：分别计算步骤1-3所述三个神经网络分支相对应的图像和文字特征的余弦相似度并求和，作为图像和文字的最终相似度；

步骤5：比较文字表述和行人图像库中每张行人图像的余弦相似度，选取相似度最高的行人图像作为行人检索的匹配结果。

所述的基于文字表述的行人检索方法，所述步骤1的具体步骤包括：

步骤1.1：将行人图像输入ResNet-50卷积网络得到初始图像特征；

步骤1.2：将文字表述中的每个单词用word2vec方法生成词嵌入特征，并将生成的词嵌入特征输入双向长短期记忆网络，提取初始文字特征；

步骤1.3：通过一层全连接层将初始图像特征和初始文字特征分别映射到共享的语义特征空间，从而得到最终用于比较的全局图像特征x^g和文字特征z^g；

步骤1.4：采用三元组损失函数训练全局神经网络分支，具体损失函数L^g定义如下式：

其中

分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative) 样本的全局特征向量，

分别表示文字锚样本、文字正样本和文字负样本的全局特征向量。上述数学符号中，x，z分别表示图像特征相关和文字特征相关；上标g表示全局，下标a，p，n分别表示锚样本，正样本和负样本。

所述的基于文字表述的行人检索方法，所述步骤2的具体步骤包括：

步骤2.1：使用Graphonomy人体图像分割算法将行人图像分割为头、躯干、手臂、腿部、脚部，得到对应这五个身体部位的0-1二值分割掩膜图，分别将每个身体部位对应的二值分割掩膜图和步骤1.1中提取的初始图像特征相乘并输入一个全连接层，得到对应身体不同部位的细粒度图像特征

步骤2.2：使用自然语言处理工具NLTK将文字表述解析为表述身体不同部位衣着的N个词组(比如蓝色的牛仔裤)，输入双向长短期记忆网络，提取得到词组特征向量矩阵

其中d表示每个词组向量的长度；

步骤2.3：分别构建与头、躯干、手臂、腿部、脚部这五个身体部位相关的名词词汇库，比如与头相关的词汇库包括头发、眼睛、帽子等。将步骤2.2解析出的每个词组中的关键名词与五个身体部位词汇中的单词一一比较，通过提取词嵌入向量计算向量间的余弦相似度；

步骤2.4：对于文字表述解析出的每个词组，分别在每个身体部位的词汇库中选取与该词组中的关键名词余弦相似度最高的单词，并以此构建文字表述中的N个词组与5 个身体部位的语义关联度矩阵

并进行归一化计算得到各个词组相对于身体不同部位的关注度权重矩阵A＝softmax(S)；

步骤2.5：引入关注度机制，通过把关注度权重矩阵A和词组特征P相乘，将词组特征聚合为分别关联身体不同部位的文字特征；

步骤2.6：将利用关注度机制聚合后的文字特征通过一个全连接层映射到共享的语义特征空间，得到最终用于和图像特征进行比较的关联身体不同部位的细粒度文字特征

步骤2.7：采用三元组损失函数训练细粒度神经网络分支，具体损失函数L^f定义如下式：

其中

分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative) 样本的和第i个身体部位相关联的细粒度特征向量，

分别表示文字锚样本、文字正样本和文字负样本的和第i个身体部位相关联的细粒度特征向量，上标f表示细粒度。

所述的基于文字表述的行人检索方法，所述步骤3的具体步骤包括：

步骤3.1：在粗粒度神经网络分支中，基于人体各部位的位置关系构建图结构，使得头、手臂、腿部和躯干相邻接，脚部和腿部相邻接，得到二值图邻接矩阵，并根据该矩阵构建三层图卷积神经网络(GCN,Graph Convolution Network)；

步骤3.2：将步骤2中提取的关联身体不同部位的细粒度图像特征和细粒度文字特征分别输入各自的图卷积神经网络，并经过一层全连接层最终映射为嵌入人体结构信息的粗粒度图像特征x^c和文字特征z^c；

上标c表示粗粒度；

步骤3.3：采用三元组损失函数训练粗粒度神经网络分支，具体损失函数L^c定义如下式：

与现有技术相比，本发明的有益效果为：

1、除了提取全局的图像和文字特征，本发明进一步将行人图像和文字表述划分为局部图像区域和词组，通过引入关注度机制将同一身体部位相关的图像区域和词组特征对齐比较，从而进行更细粒度的匹配，提高了行人检索的准确性。

2、本发明进一步引入人体结构信息，通过构建图卷积神经网络将身体各部位的位置分布关系嵌入到粗粒度的特征中，并且抑制了背景信息的干扰，提高了行人检索的鲁棒性。

附图说明

图1为本发明的神经网络模型架构图。

图2为本发明的人体各部位位置关系结构图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的表述，但本发明的实施方式不限于此。

针对现有方法的不足之处，本实施例提出一种新的基于文字表述的行人检索方法。下面结合一具体应用实例，对本发明实施例的技术方案进行详细说明。

本实施例中一种基于文字表述的行人检索方法采用了如图1所示的包含三个分支的深度神经网络架构，具体步骤如下：

其中

分别表示文字锚样本、文字正样本和文字负样本的全局特征向量。

步骤2.1：使用Graphonomy人体图像分割算法将行人图像分割为头、躯干、手臂、腿部、脚部，得到对应这五个身体部位的0-1二值分割掩膜图(Graphonomy人体图像分割算法属于现有技术，具体可参考作者Ke Gong,Yiming Gao,Xiaodan Liang,Xiaohui Shen,Meng Wang,andLiang Lin于2019年在CVPR发表的论文《Graphonomy:Universal HumanParsing via Graph Transfer Learning》，故不再详细赘述)。分别将每个身体部位对应的二值分割掩膜图和步骤1.1中提取的初始图像特征相乘并输入一个全连接层，得到对应身体不同部位的细粒度图像特征

其中d表示每个词组向量的长度；

其中

分别表示文字锚样本、文字正样本和文字负样本的和第i个身体部位相关联的细粒度特征向量。

步骤3.1：在粗粒度神经网络分支中，基于人体各部位的位置关系构建如图2所示的图结构，使得头、手臂、腿部和躯干相邻接，脚部和腿部相邻接，得到二值图邻接矩阵，并根据该矩阵构建三层图卷积神经网络(GCN,Graph Convolution Network)；

相对现有方法只提取图像和文字的整体特征而忽视了局部细节的不足，本发明的主要贡献和特点在于：(1)将行人图像和文字表述划分为局部图像区域和词组，通过引入关注度机制将同一身体部位相关的图像区域和词组特征对齐比较，进行更细粒度的匹配；(2)引入人体结构的先验信息，通过构建图卷积神经网络将身体各部位的位置分布关系嵌入到粗粒度的特征中，并且抑制了背景信息的干扰，从而提高了行人检索的准确率和鲁棒性。

本实施例在行人检索公开数据集(CUHK-PEDES)上通过对比实验来评估本发明提出的基于文字表述的行人检索的有效性，评估指标为基于文字表述来检索行人图像的TOP-1准确率。实验中我们将只提取包含全局神经网络分支的传统方法作为对比基准，通过添加本发明提出的细粒度神经网络分支和粗粒度神经网络分支并加以比较，验证本发明的有效性。表1给出了CUHK-PEDES数据集上的TOP1准确率评估结果。

以下表1是CUHK-PEDES数据集上的MOTA评估对比结果：

表1

实验证明，本实施例提出的细粒度和粗粒度神经网络分支结构能够有效提升基于文字表述的行人检索效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。