CN113157974A - 一种基于文字表述的行人检索方法 - Google Patents

一种基于文字表述的行人检索方法 Download PDF

Info

Publication number
CN113157974A
CN113157974A CN202110311957.8A CN202110311957A CN113157974A CN 113157974 A CN113157974 A CN 113157974A CN 202110311957 A CN202110311957 A CN 202110311957A CN 113157974 A CN113157974 A CN 113157974A
Authority
CN
China
Prior art keywords
image
character
grained
pedestrian
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110311957.8A
Other languages
English (en)
Other versions
CN113157974B (zh
Inventor
朱继
杨少毅
褚智威
石光明
李甫
牛毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Weiplastic Intelligent Technology Co ltd
Original Assignee
Xi'an Weiplastic Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Weiplastic Intelligent Technology Co ltd filed Critical Xi'an Weiplastic Intelligent Technology Co ltd
Priority to CN202110311957.8A priority Critical patent/CN113157974B/zh
Publication of CN113157974A publication Critical patent/CN113157974A/zh
Application granted granted Critical
Publication of CN113157974B publication Critical patent/CN113157974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于文字表述的行人检索方法,包括步骤1:在全局神经网络分支中,提取图像和文字的全局特征;步骤2:在细粒度神经网络分支中,通过引入关注度机制的神经网络,提取图像和文字相互对应的细粒度特征;步骤3:在粗粒度神经网络分支中,将步骤2中提取的细粒度图像和文字特征分别输入到图卷积神经网络中,将人体结构的先验信息嵌入到所提取的特征中;步骤4:分别计算步骤1‑3所述三个神经网络分支相对应的图像和文字特征的余弦相似度并求和,作为图像和文字的最终相似度;步骤5:比较文字表述和行人图像库中每张行人图像的余弦相似度,选取相似度最高的行人图像作为行人检索的匹配结果;本方法提高了行人检索的准确率和鲁棒性。

Description

一种基于文字表述的行人检索方法
技术领域
本发明涉及计算机图像处理领域,具体地,涉及一种基于文字表述的行人检索 方法,可以应用于在监控视频中搜寻或者查找走丢的旅客。
背景技术
随着国民经济的持续发展和城市化进程的不断推进,城市管理和公共安全维护的需求与日俱增。然而面对海量的监控视频,传统的依靠人工查看监控录像的方式 已难以满足安防需求。一方面,人工方式需要投入大量的人力。另一方面,监控人 员不能长时间维持专注力,容易遗漏关键信息,难以充分发挥监控系统的效能。如 何利用计算机图像处理技术对监控视频进行自动化分析成为了十分重要的研究课 题。
基于文字表述的行人检索就是要在监控视频中根据对目标行人外观的文字表述,利用计算机图像处理技术自动地检索出该行人。该任务在实际场景中有广泛的 应用需求,比如走丢旅客的查找定位等。其挑战在于(1)由于文字表述的灵活和 多样性,同一个行人的外观可以有很多种不同的词汇和句子来表述,这对语言模型 的准确建模能力要求很高;(2)文字表述和行人的图像属于不同的模态,不能直 接对比相似度,因此需要将它们映射到同一个特征空间下进行比较。现有的基于文 字表述的行人检索方法往往提取的是文字表述和图像作为一个整体去提取特征,而 没有考虑表述中的词汇和图像局部区域的对应关系,因此检索的准确率和鲁棒性不 理想。
发明内容
为了克服现有方法的上述不足之处,本发明提出了一种新的基于文字表述的行人检索方法。我们观察到在实际应用中,以文字来表述行人时通常形容的是他的身 体局部衣着。因此,本发明把文字表述解析为多个词组,把图像分割为多个身体部 位,通过在用于特征提取的深度神经网络中引入关注度机制,将每个词组特征和与 之表述的身体部位对应的图像区域特征进行对齐和一一比较,最终确定图像中的行 人是否与文字表述匹配。
本发明提出的一种基于文字表述的行人检索方法采用包含三个分支的深度神经网 络架构,具体步骤如下:
步骤1:在全局(global-grained)神经网络分支中,将包含行人的图像和表述行人的文字输入全局特征提取网络,提取图像和文字的全局特征;
步骤2:在细粒度(fine-grained)神经网络分支中,将行人图像用人体图像分割算法分割成局部区域,并将文字解析成多个表述局部身体衣着的词组,通过引入关注度机 制的神经网络,提取相互对应的细粒度图像和文字特征;
步骤3:在粗粒度(coarse-grained)神经网络分支中,基于人体身体结构的位置关系构建图卷积神经网络,将步骤2中提取的细粒度图像和文字特征分别输入到图卷积神 经网络中,将人体结构的先验信息嵌入到粗粒度图像和文字特征;
步骤4:分别计算步骤1-3所述三个神经网络分支相对应的图像和文字特征的余弦相似度并求和,作为图像和文字的最终相似度;
步骤5:比较文字表述和行人图像库中每张行人图像的余弦相似度,选取相似度最高的行人图像作为行人检索的匹配结果。
所述的基于文字表述的行人检索方法,所述步骤1的具体步骤包括:
步骤1.1:将行人图像输入ResNet-50卷积网络得到初始图像特征;
步骤1.2:将文字表述中的每个单词用word2vec方法生成词嵌入特征,并将生成的词嵌入特征输入双向长短期记忆网络,提取初始文字特征;
步骤1.3:通过一层全连接层将初始图像特征和初始文字特征分别映射到共享的语 义特征空间,从而得到最终用于比较的全局图像特征xg和文字特征zg
步骤1.4:采用三元组损失函数训练全局神经网络分支,具体损失函数Lg定义如下式:
Figure BDA0002990146090000021
Figure BDA0002990146090000022
Figure BDA0002990146090000023
其中
Figure BDA0002990146090000024
分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative) 样本的全局特征向量,
Figure BDA0002990146090000025
分别表示文字锚样本、文字正样本和文字负样本的全局 特征向量。上述数学符号中,x,z分别表示图像特征相关和文字特征相关;上标g表示 全局,下标a,p,n分别表示锚样本,正样本和负样本。
所述的基于文字表述的行人检索方法,所述步骤2的具体步骤包括:
步骤2.1:使用Graphonomy人体图像分割算法将行人图像分割为头、躯干、手臂、腿部、脚部,得到对应这五个身体部位的0-1二值分割掩膜图,分别将每个身体部位对 应的二值分割掩膜图和步骤1.1中提取的初始图像特征相乘并输入一个全连接层,得到 对应身体不同部位的细粒度图像特征
Figure BDA0002990146090000031
步骤2.2:使用自然语言处理工具NLTK将文字表述解析为表述身体不同部位衣着的N个词组(比如蓝色的牛仔裤),输入双向长短期记忆网络,提取得到词组特征向量 矩阵
Figure BDA0002990146090000032
其中d表示每个词组向量的长度;
步骤2.3:分别构建与头、躯干、手臂、腿部、脚部这五个身体部位相关的名词词 汇库,比如与头相关的词汇库包括头发、眼睛、帽子等。将步骤2.2解析出的每个词组 中的关键名词与五个身体部位词汇中的单词一一比较,通过提取词嵌入向量计算向量间 的余弦相似度;
步骤2.4:对于文字表述解析出的每个词组,分别在每个身体部位的词汇库中选取与该词组中的关键名词余弦相似度最高的单词,并以此构建文字表述中的N个词组与5 个身体部位的语义关联度矩阵
Figure BDA0002990146090000033
并进行归一化计算得到各个词组相对于身体不 同部位的关注度权重矩阵A=softmax(S);
步骤2.5:引入关注度机制,通过把关注度权重矩阵A和词组特征P相乘,将词组 特征聚合为分别关联身体不同部位的文字特征;
步骤2.6:将利用关注度机制聚合后的文字特征通过一个全连接层映射到共享的语 义特征空间,得到最终用于和图像特征进行比较的关联身体不同部位的细粒度文字特征
Figure BDA0002990146090000034
步骤2.7:采用三元组损失函数训练细粒度神经网络分支,具体损失函数Lf定义如下式:
Figure BDA0002990146090000035
Figure BDA0002990146090000036
Figure BDA0002990146090000037
其中
Figure BDA0002990146090000038
分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative) 样本的和第i个身体部位相关联的细粒度特征向量,
Figure BDA0002990146090000039
分别表示文字锚样本、 文字正样本和文字负样本的和第i个身体部位相关联的细粒度特征向量,上标f表示细 粒度。
所述的基于文字表述的行人检索方法,所述步骤3的具体步骤包括:
步骤3.1:在粗粒度神经网络分支中,基于人体各部位的位置关系构建图结构,使得头、手臂、腿部和躯干相邻接,脚部和腿部相邻接,得到二值图邻接矩阵,并根据 该矩阵构建三层图卷积神经网络(GCN,Graph Convolution Network);
步骤3.2:将步骤2中提取的关联身体不同部位的细粒度图像特征和细粒度文字特征分别输入各自的图卷积神经网络,并经过一层全连接层最终映射为嵌入人体结构信息的粗粒度图像特征xc和文字特征zc
上标c表示粗粒度;
步骤3.3:采用三元组损失函数训练粗粒度神经网络分支,具体损失函数Lc定义如下式:
Figure BDA0002990146090000041
Figure BDA0002990146090000042
Figure BDA0002990146090000043
与现有技术相比,本发明的有益效果为:
1、除了提取全局的图像和文字特征,本发明进一步将行人图像和文字表述划分为局部图像区域和词组,通过引入关注度机制将同一身体部位相关的图像区域和词组特征对齐比较,从而进行更细粒度的匹配,提高了行人检索的准确性。
2、本发明进一步引入人体结构信息,通过构建图卷积神经网络将身体各部位的位置分布关系嵌入到粗粒度的特征中,并且抑制了背景信息的干扰,提高了行人检索的鲁 棒性。
附图说明
图1为本发明的神经网络模型架构图。
图2为本发明的人体各部位位置关系结构图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的表述,但本发明的实施方式不限于此。
针对现有方法的不足之处,本实施例提出一种新的基于文字表述的行人检索方法。下面结合一具体应用实例,对本发明实施例的技术方案进行详细说明。
本实施例中一种基于文字表述的行人检索方法采用了如图1所示的包含三个分支的 深度神经网络架构,具体步骤如下:
步骤1:在全局(global-grained)神经网络分支中,将包含行人的图像和表述行人的文字输入全局特征提取网络,提取图像和文字的全局特征;
步骤2:在细粒度(fine-grained)神经网络分支中,将行人图像用人体图像分割算法分割成局部区域,并将文字解析成多个表述局部身体衣着的词组,通过引入关注度机 制的神经网络,提取相互对应的细粒度图像和文字特征;
步骤3:在粗粒度(coarse-grained)神经网络分支中,基于人体身体结构的位置关系构建图卷积神经网络,将步骤2中提取的细粒度图像和文字特征分别输入到图卷积神 经网络中,将人体结构的先验信息嵌入到粗粒度图像和文字特征;
步骤4:分别计算步骤1-3所述三个神经网络分支相对应的图像和文字特征的余弦相似度并求和,作为图像和文字的最终相似度;
步骤5:比较文字表述和行人图像库中每张行人图像的余弦相似度,选取相似度最高的行人图像作为行人检索的匹配结果。
所述的基于文字表述的行人检索方法,所述步骤1的具体步骤包括:
步骤1.1:将行人图像输入ResNet-50卷积网络得到初始图像特征;
步骤1.2:将文字表述中的每个单词用word2vec方法生成词嵌入特征,并将生成的词嵌入特征输入双向长短期记忆网络,提取初始文字特征;
步骤1.3:通过一层全连接层将初始图像特征和初始文字特征分别映射到共享的语 义特征空间,从而得到最终用于比较的全局图像特征xg和文字特征zg
步骤1.4:采用三元组损失函数训练全局神经网络分支,具体损失函数Lg定义如下式:
Figure BDA0002990146090000051
Figure BDA0002990146090000052
Figure BDA0002990146090000053
其中
Figure BDA0002990146090000054
分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative) 样本的全局特征向量,
Figure BDA0002990146090000055
分别表示文字锚样本、文字正样本和文字负样本的全局 特征向量。
所述的基于文字表述的行人检索方法,所述步骤2的具体步骤包括:
步骤2.1:使用Graphonomy人体图像分割算法将行人图像分割为头、躯干、手臂、腿部、脚部,得到对应这五个身体部位的0-1二值分割掩膜图(Graphonomy人体图像 分割算法属于现有技术,具体可参考作者Ke Gong,Yiming Gao,Xiaodan Liang,Xiaohui Shen,Meng Wang,andLiang Lin于2019年在CVPR发表的论文《Graphonomy:Universal HumanParsing via Graph Transfer Learning》,故不再详细赘述)。分别将每个身体部位 对应的二值分割掩膜图和步骤1.1中提取的初始图像特征相乘并输入一个全连接层,得 到对应身体不同部位的细粒度图像特征
Figure BDA0002990146090000061
步骤2.2:使用自然语言处理工具NLTK将文字表述解析为表述身体不同部位衣着的N个词组(比如蓝色的牛仔裤),输入双向长短期记忆网络,提取得到词组特征向量 矩阵
Figure BDA0002990146090000062
其中d表示每个词组向量的长度;
步骤2.3:分别构建与头、躯干、手臂、腿部、脚部这五个身体部位相关的名词词 汇库,比如与头相关的词汇库包括头发、眼睛、帽子等。将步骤2.2解析出的每个词组 中的关键名词与五个身体部位词汇中的单词一一比较,通过提取词嵌入向量计算向量间 的余弦相似度;
步骤2.4:对于文字表述解析出的每个词组,分别在每个身体部位的词汇库中选取与该词组中的关键名词余弦相似度最高的单词,并以此构建文字表述中的N个词组与5 个身体部位的语义关联度矩阵
Figure BDA0002990146090000063
并进行归一化计算得到各个词组相对于身体不 同部位的关注度权重矩阵A=softmax(S);
步骤2.5:引入关注度机制,通过把关注度权重矩阵A和词组特征P相乘,将词组 特征聚合为分别关联身体不同部位的文字特征;
步骤2.6:将利用关注度机制聚合后的文字特征通过一个全连接层映射到共享的语 义特征空间,得到最终用于和图像特征进行比较的关联身体不同部位的细粒度文字特征
Figure BDA0002990146090000064
步骤2.7:采用三元组损失函数训练细粒度神经网络分支,具体损失函数Lf定义如下式:
Figure BDA0002990146090000065
Figure BDA0002990146090000066
Figure BDA0002990146090000067
其中
Figure BDA0002990146090000071
分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative) 样本的和第i个身体部位相关联的细粒度特征向量,
Figure BDA0002990146090000072
分别表示文字锚样本、 文字正样本和文字负样本的和第i个身体部位相关联的细粒度特征向量。
所述的基于文字表述的行人检索方法,所述步骤3的具体步骤包括:
步骤3.1:在粗粒度神经网络分支中,基于人体各部位的位置关系构建如图2所示的图结构,使得头、手臂、腿部和躯干相邻接,脚部和腿部相邻接,得到二值图邻接 矩阵,并根据该矩阵构建三层图卷积神经网络(GCN,Graph Convolution Network);
步骤3.2:将步骤2中提取的关联身体不同部位的细粒度图像特征和细粒度文字特征分别输入各自的图卷积神经网络,并经过一层全连接层最终映射为嵌入人体结构信息的粗粒度图像特征xc和文字特征zc
步骤3.3:采用三元组损失函数训练粗粒度神经网络分支,具体损失函数Lc定义如下式:
Figure BDA0002990146090000073
Figure BDA0002990146090000074
Figure BDA0002990146090000075
相对现有方法只提取图像和文字的整体特征而忽视了局部细节的不足,本发明的主要贡献和特点在于:(1)将行人图像和文字表述划分为局部图像区域和词组, 通过引入关注度机制将同一身体部位相关的图像区域和词组特征对齐比较,进行更细粒 度的匹配;(2)引入人体结构的先验信息,通过构建图卷积神经网络将身体各部位的 位置分布关系嵌入到粗粒度的特征中,并且抑制了背景信息的干扰,从而提高了行人检 索的准确率和鲁棒性。
本实施例在行人检索公开数据集(CUHK-PEDES)上通过对比实验来评估本发明 提出的基于文字表述的行人检索的有效性,评估指标为基于文字表述来检索行人图像的TOP-1准确率。实验中我们将只提取包含全局神经网络分支的传统方法作为对比基准, 通过添加本发明提出的细粒度神经网络分支和粗粒度神经网络分支并加以比较,验证本 发明的有效性。表1给出了CUHK-PEDES数据集上的TOP1准确率评估结果。
以下表1是CUHK-PEDES数据集上的MOTA评估对比结果:
表1
Figure BDA0002990146090000081
实验证明,本实施例提出的细粒度和粗粒度神经网络分支结构能够有效提升基于文 字表述的行人检索效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本 发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明 的保护范围。

Claims (4)

1.一种基于文字表述的行人检索方法,其特征在于包括以下步骤:
步骤1:在全局(global-grained)神经网络分支中,将包含行人的图像和表述行人的文字输入全局特征提取网络,提取图像和文字的全局特征;
步骤2:在细粒度(fine-grained)神经网络分支中,将行人图像用人体图像分割算法分割成局部区域,并将文字解析成多个表述局部身体衣着的词组,通过引入关注度机制的神经网络,提取相互对应的细粒度图像和文字特征;
步骤3:在粗粒度(coarse-grained)神经网络分支中,基于人体身体结构的位置关系构建图卷积神经网络,将步骤2中提取的细粒度图像和文字特征分别输入到图卷积神经网络中,将人体结构的先验信息嵌入到粗粒度图像和文字特征;
步骤4:分别计算步骤1-3所述三个神经网络分支相对应的图像和文字特征的余弦相似度并求和,作为图像和文字的最终相似度;
步骤5:比较文字表述和行人图像库中每张行人图像的余弦相似度,选取相似度最高的行人图像作为行人检索的匹配结果。
2.根据权利要求1所述的基于文字表述的行人检索方法,其特征在于所述步骤1具体包括以下步骤:
步骤1.1:将行人图像输入ResNet-50卷积网络得到初始图像特征;
步骤1.2:将文字表述中的每个单词用word2vec方法生成词嵌入特征,并将生成的词嵌入特征输入双向长短期记忆网络,提取初始文字特征;
步骤1.3:通过一层全连接层将初始图像特征和初始文字特征分别映射到共享的语义特征空间,从而得到最终用于比较的全局图像特征xg和文字特征zg
步骤1.4:采用三元组损失函数训练全局神经网络分支,具体损失函数Lg定义如下式:
Figure FDA0002990146080000011
Figure FDA0002990146080000012
Figure FDA0002990146080000013
其中
Figure FDA0002990146080000014
分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative)样本的全局特征向量,
Figure FDA0002990146080000015
分别表示文字锚样本、文字正样本和文字负样本的全局特征向量。
3.根据权利要求1所述的基于文字表述的行人检索方法,其特征在于所述步骤2具体包括以下步骤:
步骤2.1:使用Graphonomy人体图像分割算法将行人图像分割为头、躯干、手臂、腿部、脚部,得到对应这五个身体部位的0-1二值分割掩膜图,分别将每个身体部位对应的二值分割掩膜图和步骤1.1中提取的初始图像特征相乘并输入一个全连接层,得到对应身体不同部位的细粒度图像特征
Figure FDA0002990146080000021
步骤2.2:使用自然语言处理工具NLTK将文字表述解析为表述身体不同部位衣着的N个词组,输入双向长短期记忆网络,提取得到词组特征向量矩阵
Figure FDA0002990146080000022
其中d表示每个词组向量的长度;
步骤2.3:分别构建与头、躯干、手臂、腿部、脚部这五个身体部位相关的名词词汇库,将步骤2.2解析出的每个词组中的关键名词与五个身体部位词汇中的单词一一比较,通过提取词嵌入向量计算向量间的余弦相似度;
步骤2.4:对于文字表述解析出的每个词组,分别在每个身体部位的词汇库中选取与该词组中的关键名词余弦相似度最高的单词,并以此构建文字表述中的N个词组与五个身体部位的语义关联度矩阵
Figure FDA0002990146080000023
并进行归一化计算得到各个词组相对于身体不同部位的关注度权重矩阵A=softmax(S);
步骤2.5:引入关注度机制,通过把关注度权重矩阵A和词组特征P相乘,将词组特征聚合为分别关联身体不同部位的文字特征;
步骤2.6:将利用关注度机制聚合后的文字特征通过一个全连接层映射到共享的语义特征空间,得到最终用于和图像特征进行比较的关联身体不同部位的细粒度文字特征
Figure FDA0002990146080000024
步骤2.7:采用三元组损失函数训练细粒度神经网络分支,具体损失函数Lf定义如下式:
Figure FDA0002990146080000025
Figure FDA0002990146080000026
Figure FDA0002990146080000027
其中
Figure FDA0002990146080000028
分别表示图像锚(anchor)样本、图像正(positive)样本和图像负(negative)样本的和第i个身体部位相关联的细粒度特征向量,
Figure FDA0002990146080000029
分别表示文字锚样本、文字正样本和文字负样本的和第i个身体部位相关联的细粒度特征向量。
4.根据权利要求1所述的基于文字表述的行人检索方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1:在粗粒度神经网络分支中,基于人体各部位的位置关系构建图结构,使得头、手臂、腿部和躯干相邻接,脚部和腿部相邻接,得到二值图邻接矩阵,并根据该矩阵构建三层图卷积神经网络(GCN,Graph Convolution Network);
步骤3.2:将步骤2中提取的关联身体不同部位的细粒度图像特征和细粒度文字特征分别输入各自的图卷积神经网络,并经过一层全连接层最终映射为嵌入人体结构信息的粗粒度图像特征xc和文字特征zc
步骤3.3:采用三元组损失函数训练粗粒度神经网络分支,具体损失函数Lc定义如下式:
Figure FDA0002990146080000031
CN202110311957.8A 2021-03-24 2021-03-24 一种基于文字表述的行人检索方法 Active CN113157974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110311957.8A CN113157974B (zh) 2021-03-24 2021-03-24 一种基于文字表述的行人检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110311957.8A CN113157974B (zh) 2021-03-24 2021-03-24 一种基于文字表述的行人检索方法

Publications (2)

Publication Number Publication Date
CN113157974A true CN113157974A (zh) 2021-07-23
CN113157974B CN113157974B (zh) 2023-05-26

Family

ID=76888250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110311957.8A Active CN113157974B (zh) 2021-03-24 2021-03-24 一种基于文字表述的行人检索方法

Country Status (1)

Country Link
CN (1) CN113157974B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792207A (zh) * 2021-09-29 2021-12-14 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN114052734A (zh) * 2021-11-24 2022-02-18 西安电子科技大学 基于渐进式图卷积神经网络的脑电情感识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129742A1 (en) * 2016-11-10 2018-05-10 Qualcomm Incorporated Natural language object tracking
CN110163127A (zh) * 2019-05-07 2019-08-23 国网江西省电力有限公司检修分公司 一种由粗到细的视频目标行为识别方法
CN111259836A (zh) * 2020-01-20 2020-06-09 浙江大学 一种基于动态图卷积表征的视频行人重识别方法
WO2020125216A1 (zh) * 2018-12-18 2020-06-25 深圳云天励飞技术有限公司 一种行人重识别方法、装置、电子设备及计算机可读存储介质
CN112364197A (zh) * 2020-11-12 2021-02-12 四川省人工智能研究院(宜宾) 一种基于文本描述的行人图像检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129742A1 (en) * 2016-11-10 2018-05-10 Qualcomm Incorporated Natural language object tracking
WO2020125216A1 (zh) * 2018-12-18 2020-06-25 深圳云天励飞技术有限公司 一种行人重识别方法、装置、电子设备及计算机可读存储介质
CN110163127A (zh) * 2019-05-07 2019-08-23 国网江西省电力有限公司检修分公司 一种由粗到细的视频目标行为识别方法
CN111259836A (zh) * 2020-01-20 2020-06-09 浙江大学 一种基于动态图卷积表征的视频行人重识别方法
CN112364197A (zh) * 2020-11-12 2021-02-12 四川省人工智能研究院(宜宾) 一种基于文本描述的行人图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI, S ET AL: "Person Search with Natural Language Description", 《IEEE》 *
武文博等: "基于深度卷积与全局特征的图像密集字幕描述", 《信号处理》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792207A (zh) * 2021-09-29 2021-12-14 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN113792207B (zh) * 2021-09-29 2023-11-17 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN114052734A (zh) * 2021-11-24 2022-02-18 西安电子科技大学 基于渐进式图卷积神经网络的脑电情感识别方法

Also Published As

Publication number Publication date
CN113157974B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN112163416B (zh) 一种融合句法和实体关系图卷积网络的事件联合抽取方法
CN108804530B (zh) 对图像的区域加字幕
CN112148832B (zh) 一种基于标签感知的双重自注意力网络的事件检测方法
Wu et al. Visual language modeling for image classification
Yuan et al. MCRN: A multi-source cross-modal retrieval network for remote sensing
CN113157974A (zh) 一种基于文字表述的行人检索方法
Suo et al. A simple and robust correlation filtering method for text-based person search
Lv et al. Storyrolenet: Social network construction of role relationship in video
Sitaula et al. Content and context features for scene image representation
Song et al. Sparse multi-modal topical coding for image annotation
CN116578734B (zh) 一种基于clip的概率嵌入组合检索方法
Sun et al. Security enhanced sentence similarity computing model based on convolutional neural network
CN113919358A (zh) 一种基于主动学习的命名实体识别方法和系统
Rashno et al. Efficient video captioning with frame similarity-based filtering
Pham et al. Person search by queried description in vietnamese natural language
Zhu et al. Face Detection and Recognition Based on Deep Learning in the Monitoring Environment
Monteiro et al. Tradeoffs in the efficient detection of sign language content in video sharing sites
Ouni et al. A hybrid approach for improved image similarity using semantic segmentation
Bajrami et al. Content Based Image Retrieval: Contemporary Trends and Challenges
Zheng et al. Compounded Face Image Retrieval Based on Vertical Web Image Retrieval
Guo et al. Cross task modality alignment network for sketch face recognition
Wu et al. Spatial-Channel Attention Transformer with Pseudo Regions for Remote Sensing Image-Text Retrieval
Ji et al. Human interaction recognition based on the co-occurring visual matrix sequence
Qin et al. Trajectory recognition based on asynchronous hidden Markov model
Yu et al. Multi-perspective Enhancement Of Text Semantic Matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant