CN112001279A - 基于双重属性信息的跨模态行人重识别方法 - Google Patents

基于双重属性信息的跨模态行人重识别方法 Download PDF

Info

Publication number
CN112001279A
CN112001279A CN202010805183.XA CN202010805183A CN112001279A CN 112001279 A CN112001279 A CN 112001279A CN 202010805183 A CN202010805183 A CN 202010805183A CN 112001279 A CN112001279 A CN 112001279A
Authority
CN
China
Prior art keywords
pedestrian
text
attribute
feature
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010805183.XA
Other languages
English (en)
Other versions
CN112001279B (zh
Inventor
高赞
陈琳
宋雪萌
王英龙
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Institute of Artificial Intelligence
Original Assignee
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Institute of Artificial Intelligence filed Critical Shandong Institute of Artificial Intelligence
Priority to CN202010805183.XA priority Critical patent/CN112001279B/zh
Publication of CN112001279A publication Critical patent/CN112001279A/zh
Priority to NL2028092A priority patent/NL2028092B1/en
Application granted granted Critical
Publication of CN112001279B publication Critical patent/CN112001279B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • G06N3/105Shells for specifying net layout

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于双重属性信息的跨模态行人重识别方法,通过基于双重属性信息的跨模态行人重识别方法,充分利用两个模态的数据所提取到丰富的语义信息,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法,通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络,大幅度提高了所提取特征的语义表达性,对行人属性信息的应用更加充分。

Description

基于双重属性信息的跨模态行人重识别方法
技术领域
本发明涉及计算机视觉及深度学习领域,具体涉及一种基于双重属性信息的跨模态行人重识别方法。
背景技术
在信息化时代,视频监控在维护公共安全方面发挥了不可取代的作用,行人重识别是视频监控场景下的一个重要子任务,其旨在不同的监控摄像头产生的图像数据中找到属于同一个行人的照片。公共安全监控设施的应用区域越来越广泛,产生了海量的图像数据,如何在海量的图像数据中快速又准确地找到目标人物是计算机视觉领域的研究热点,但是在一些特定的紧急场景下,人们无法及时提供与所寻找的行人相匹配的图片作为检索的依据,只能提供口头描述,因此催生了基于文本描述的跨模态行人重识别这一任务。
跨模态行人重识别是指根据对行人的自然语言描述,在图片库中找到最符合文本描述信息的图片。随着深度学习技术的发展及其在不同任务中取得的优越性能,针对跨模态行人重识别任务,研究者们已经提出了一些深度学习相关跨模态人体重识别算法,它们大致可以分为:1)计算语义亲密度值法,计算图片和文本之间语义关联的亲密度值,提高相同类的图文亲密度,降低不同类的图文亲密度;2)子空间法,该方法致力于为图片和文本建立共同的特征表达空间,并在这个共同的空间中使用度量学习策略拉近属于相同行人id的图文特征之间的距离,拉远属于不同行人id的图文特征之间的距离。然而,这些方法所提取特征的语义表达性还有待提高,它们忽略了利用行人的属性信息来表现语义概念是否有效,或考虑的不够充分。
发明内容
本发明为了克服以上技术的不足,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法的跨模态行人重识别的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于双重属性信息的跨模态行人重识别方法,包括如下步骤:
a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I;
b)对提取的行人文本描述中提取出文本属性特征cT,对提取的图片提取出图片属性特征cI
c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数,通过Softmax损失函数计算得到共享子空间中特征的分类损失;
d)将行人文本描述特征T和行人的图片特征I与文本属性cT和图片属性cI进行特征融合;
e)基于属性信息构建特征属性空间;
f)对提取的图片的特征及行人文本描述特征进行检索匹配。
进一步的,步骤a)中提取行人文本描述包括如下步骤:
a-1.1)对监控摄像头所拍摄的内容的描述语句分词后建立词频表;
a-1.2)过滤掉词频表中的低频词语;
a-1.3)对词频表中的单词的编码使用one-hot进行编码;
a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。
进一步的,步骤a)中提取图片包括如下步骤:
a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取;
a-2.2)对提取的图片进行语义分割,使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。
进一步的,步骤b)的提取步骤如下:
b-1)使用NLTK工具库对行人文本描述的数据进行预处理,提取出形容词加名词、多个名词叠加两种格式的名词词组;
b-2)将提取的名词词组按照词频进行排序,将低频词组舍弃,保留排名前400的名词词组组成属性表,得到文本属性cT
b-3)将图片使用PA-100K数据集训练,得到26种预测值,将预测值大于0的的图片的属性标记为1,将预测值小于0的图片的属性标记为0,得到图片属性cI。进一步的,步骤c)包括如下步骤:
c-1)通过公式
Figure BDA0002629163320000031
计算得到难样本三元组损失Ltrip(I,T),式中Ik为第k个图片的特征,将Ik作为锚,
Figure BDA0002629163320000032
为与锚Ik距离最近的异类文本样本特征,
Figure BDA0002629163320000033
为与锚Ik距离最远的同类文本样本特征,Tk为第k个行人文本描述特征,将Tk作为锚,
Figure BDA0002629163320000034
为与锚Tk距离最近的异类文本样本特征,
Figure BDA0002629163320000035
为与锚Tk距离最远的同类文本样本特征,ρ1为三元组损失的边界,S()为余弦相似度计算;
c-2)通过公式
Figure BDA0002629163320000036
计算
Figure BDA0002629163320000037
Figure BDA0002629163320000038
之间的余弦相似度,式中
Figure BDA0002629163320000039
为第k个图片的共享子空间特征,
Figure BDA00026291633200000310
为第k个行人文本描述的共享子空间特征;
c-3)通过公式
Figure BDA00026291633200000311
计算共享子空间图片特征Ik的分类损失Lcls(Ik),式中
Figure BDA00026291633200000312
为转置后的共享子空间中的图片特征,式中W为分类器,W∈Rdl×C,dl为共享子空间中的特征维度,C为行人身份信息类别数目,yk为
Figure BDA0002629163320000041
的身份信息,b为偏置向量,
Figure BDA0002629163320000042
为第j类的分类向量,bj为第j类的偏置值,
Figure BDA0002629163320000043
为对应的第yk类的分类向量,byk为第yk类的偏置值,通过公式
Figure BDA0002629163320000044
计算共享子空间行人文本描述特征Tk的分类损失函数Lcls(Tk),
Figure BDA0002629163320000045
为转置后的共享子空间中的文本特征;
c-4)通过公式
Figure BDA0002629163320000046
计算共享子空间的的损失函数Llatent(I,T),n为一个batch中样本数。
进一步的,步骤d)包括如下特征:
d-1)通过公式
Figure BDA0002629163320000047
计算损失函数Lcoral(I,T),图片特征I由
Figure BDA0002629163320000048
组成,行人文本描述特征T由
Figure BDA0002629163320000049
组成,式中|v|表示
Figure BDA00026291633200000410
Figure BDA00026291633200000411
的维度,||·||F为Frobenius范数;
d-2)通过公式t=sigmoid(C×Ug+F×Uf)计算属性特征和图片或文本特征在特征融合时的权重,式中C为待融合的属性特征,F为待融合的图片或文本特征,Ug与Uf为投影矩阵,式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重,Ug∈Rs×da,Uf∈Rda×da为投影矩阵,s为图片属性或文本属性的类别数,da为属性空间的特征维度;
d-3)通过公式A=t*||C×Wg||2+(1-t)*||F×Wf||2计算融合后的特征A,式中Wg∈Rs×da,Wf∈Rda×da为投影矩阵。
进一步的,步骤e)包括如下特征:
e-1)通过公式
Figure BDA0002629163320000051
计算属性空间的三元损失La-trip(I,T),式中ρ2为三元组损失边界,Sa()为cosine相似度计算,
Figure BDA0002629163320000052
为第k个属性空间中的图片的特征,将
Figure BDA0002629163320000053
作为锚,
Figure BDA0002629163320000054
为与锚
Figure BDA0002629163320000055
距离最近的异类文本样本特征,
Figure BDA0002629163320000056
为与锚
Figure BDA0002629163320000057
距离最远的同类文本样本特征,
Figure BDA0002629163320000058
为第k个属性空间中的行人文本描述特征,将
Figure BDA0002629163320000059
作为锚,
Figure BDA00026291633200000510
为与锚
Figure BDA00026291633200000511
距离最近的异类文本样本特征,
Figure BDA00026291633200000512
为与锚
Figure BDA00026291633200000513
距离最远的同类文本样本特征;
e-2)通过公式
Figure BDA00026291633200000514
计算
Figure BDA00026291633200000515
Figure BDA00026291633200000516
的余弦相似度,式中
Figure BDA00026291633200000517
Figure BDA00026291633200000518
均为属性空间中融合属性信息后的具有语义信息的图文特征;
e-3)通过公式
Figure BDA00026291633200000519
计算属性空间中的损失函数Lattr(I,T)。
进一步的,步骤f)包括如下特征:
f-1)通过公式L(I,T)=Llatent(I,T)+Lattr(I,T)计算双重属性网络的损失函数L(I,T);
f-2)通过公式
Figure BDA0002629163320000061
计算双重属性的相似度A(Ik,Tk),式中Al为共享子空间中学到的特征
Figure BDA0002629163320000062
所计算出的相似度,AC为属性空间中学到的特征
Figure BDA0002629163320000063
所计算的相似度;
f-3)根据相似度A(Ik,Tk)计算跨模态匹配的准确率。
本发明的有益效果是:通过基于双重属性信息的跨模态行人重识别方法,充分利用两个模态的数据所提取到丰富的语义信息,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法,通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络,大幅度提高了所提取特征的语义表达性,对行人属性信息的应用更加充分。
附图说明
图1为本发明的流程图;
图2为本发明的模型训练过程中的损失函数的变化图;
图3为CUHK-PEDES数据集上本发明的方法与现有方法在Top-k上的对比图。
具体实施方式
下面结合附图1、附图2、附图3对本发明做进一步说明。
如附图1所示,一种基于双重属性信息的跨模态行人重识别方法,包括如下步骤:
a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I。本发明致力于将现实场景中监控摄像头所拍摄的行人图片及相应的行人文本描述之间建立语义关联,需要先分别提取两种模态的数据的特征表示,其中,图片特征的提取使用了当下流行的卷积神经网络ResNet完成,文本特征的提取使用了双向LSTM,可以充分获取文本的上下文信息。
b)对提取的行人文本描述中提取出文本属性特征cT,对提取的图片提取出图片属性特征cI。本发明针对现有方法对于属性信息的使用不够充分导致特征的语义表达性不强的问题,设计使用行人属性信息作为辅助信息来提高图文特征的语义表达性。行人图片的属性提取使用了先前工作中比较稳定的行人图片属性提取模型;行人文本的属性则来源于数据集中的统计信息,本发明将数据集中词频较高的名词短语作为行人的文本属性。
c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数,通过Softmax损失函数计算得到共享子空间中特征的分类损失。投影到共同向量空间是解决跨模态检索问题的常见做法,在共享向量空间中可以建立两个模态的数据之间的关联。本发明将提取到的图文特征投影到共同的向量子空间中,利用度量学习的方法使得具有相同行人信息的图文特征之间的距离更近,而不属于同一行人的图文特征之间的距离更远,本发明利用难样本三元组损失来达到以上目的,即在一个批数据中,需要找到跟锚数据距离最近的另一个模态的异类样本和距离最远的另一个模态的同类样本。
d)将行人文本描述特征T和行人的图片特征I与文本属性cT和图片属性cI进行特征融合。现存的方法对于属性信息起到的辅助作用利用不够充分或者仅利用了一种模态的属性信息,导致模型可提取特征的语义表达性不够强,为了解决此问题,本发明利用了提取到的图文的双重属性信息。考虑到不同属性在行人图文匹配时所发挥的作用的重要程度不同,本发明使用了权重机制来使得特征融合时起到关键作用的语义信息发挥更大的作用。本发明利用矩阵投影的策略将待融合的图文特征和属性特征投影到相同的维度空间中,然后将两种特征加权即得到融合了语义信息的行人图文特征。在特征融合之前,为了避免两种模态的特征分布存在较大差异,本发明使用了跨域学习中常用的损失函数coral损失来拉近两种模态的数据之间的分布。
e)基于属性信息构建特征属性空间,融合了语义信息的图文特征同样被送入共享子空间中,本发明称为属性空间。本发明默认具有相同行人信息的图文特征具有相同的语义含义,在属性空间中本发明依然使用难样本三元组损失建立不同模态的行人图文特征之间的语义联系。
f)对提取的图片的特征及行人文本描述特征进行检索匹配。本发明最终提取的图文特征分为两部分,一部分是隐空间中提取的特征,另一部分是属性空间中提取的特征。对提取的模型特征进行检索匹配时,使用cosine距离来计算两个模型特征在特征空间的距离,以此对其相似度进行度量。为了让隐空间中学到的行人身份信息以及属性空间中学到的行人语义信息起到互补作用,本发明将两部分特征的相似度矩阵相加后再排序。
本发明为解决现有的跨模态行人重识别方法无法有效利用行人属性信息作为辅助信息来提高图文特征语义表达性的问题,提供了一种高效的基于双重属性信息的跨模态行人重识别方法,充分利用两个模态的数据所提取到丰富的语义信息,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法,通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络,大幅度提高了所提取特征的语义表达性,对行人属性信息的应用更加充分。
实施例1:
步骤a)中提取行人文本描述包括如下步骤:
a-1.1)本发明在对行人文本进行特征提取时,先对文本信息进行了预处理,即对监控摄像头所拍摄的内容的描述语句分词后建立词频表。
a-1.2)过滤掉词频表中的低频词语。
a-1.3)对词频表中的单词的编码使用one-hot进行编码。
a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。双向LSTM模型可以充分考虑每个单词的上下文,使得学习到的文本特征更加丰富。
步骤a)中提取图片包括如下步骤:
a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取;
a-2.2)对提取的图片进行语义分割,使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。
实施例2:
针对行人图片属性识别已有许多工作,且取得了不错的效果,本发明选择使用了较稳定的行人属性识别模型,提取出了数据集中行人图片所含的属性及可能性值,步骤b)的提取步骤如下:
b-1)使用NLTK工具库对行人文本描述的数据进行预处理,提取出形容词加名词、多个名词叠加两种格式的名词词组;
b-2)将提取的名词词组按照词频进行排序,将低频词组舍弃,保留排名前400的名词词组组成属性表,得到文本属性cT
b-3)将图片使用PA-100K数据集训练,得到26种预测值,将预测值大于0的的图片的属性标记为1,将预测值小于0的图片的属性标记为0,得到图片属性cI
实施例3:
本发明使用了跨模态行人重识别领域常用的共享子空间法来建立两个模态的特征向量之间的关联,隐空间的设置是为了使得行人的图片特征和文本特征都具有行人id的可分性以及图文特征间具有基本的语义关联。本发明考虑到在跨模态行人图文检索中,同一个行人id对应着多张图片和多个相应的文本描述,因此损失函数的设计目标在于拉近同属于一个行人id的图片和文本描述之间的距离,拉远不属于同一个行人id的图片和文本的距离。具体地,令其中一种模态中的数据作为锚,取另一种模态中的跟锚属于同一类的数据作为正样本,跟锚属于不同类的数据作为负样本。这样不仅起到了分类的作用,还在一定程度上使得不同模态中具有相同语义的图片和文本描述之间形成了对应,在实验中默认同一个行人的图片和文本描述具有相同的语义信息。步骤c)包括如下步骤:c-1)通过公式
Figure BDA0002629163320000091
计算得到难样本三元组损失Ltrip(I,T),式中Ik为第k个图片的特征,将Ik作为锚,
Figure BDA0002629163320000101
为与锚Ik距离最近的异类文本样本特征,
Figure BDA0002629163320000102
为与锚Ik距离最远的同类文本样本特征,Tk为第k个行人文本描述特征,将Tk作为锚,
Figure BDA0002629163320000103
为与锚Tk距离最近的异类文本样本特征,
Figure BDA0002629163320000104
为与锚Tk距离最远的同类文本样本特征,ρ1为三元组损失的边界,S()为余弦相似度计算;
c-2)通过公式
Figure BDA0002629163320000105
计算
Figure BDA0002629163320000106
Figure BDA0002629163320000107
之间的余弦相似度,式中
Figure BDA0002629163320000108
为第k个图片的共享子空间特征,
Figure BDA0002629163320000109
为第k个行人文本描述的共享子空间特征;
c-3)通过公式
Figure BDA00026291633200001010
计算共享子空间图片特征Ik的分类损失Lcls(Ik),式中
Figure BDA00026291633200001011
为转置后的共享子空间中的图片特征,式中W为分类器,W∈Rdl×C,dl为共享子空间中的特征维度,C为行人身份信息类别数目,yk为
Figure BDA00026291633200001012
的身份信息,b为偏置向量,
Figure BDA00026291633200001013
为第j类的分类向量,bj为第j类的偏置值,
Figure BDA00026291633200001014
为对应的第yk类的分类向量,byk为第yk类的偏置值,通过公式
Figure BDA00026291633200001015
计算共享子空间行人文本描述特征Tk的分类损失函数Lcls(Tk),
Figure BDA00026291633200001016
为转置后的共享子空间中的文本特征;
c-4)通过公式
Figure BDA0002629163320000111
计算共享子空间的的损失函数Llatent(I,T),n为一个batch中样本数。
实施例4:
在图文特征与属性特征融合之前,为了避免两种模态的数据分布差异过大,本发明使用了迁移学习中的coral函数来拉近两种模态的数据之间的距离,具体的步骤d)包括如下特征:
d-1)通过公式
Figure BDA0002629163320000112
计算损失函数Lcoral(I,T),图片特征I由
Figure BDA0002629163320000113
组成,行人文本描述特征T由
Figure BDA0002629163320000114
组成,式中|v|表示
Figure BDA0002629163320000115
Figure BDA0002629163320000116
的维度,||·||F为Frobenius范数;
d-2)通过公式t=sigmoid(C×Ug+F×Uf)计算属性特征和图片或文本特征在特征融合时的权重,式中C为待融合的属性特征,F为待融合的图片或文本特征,Ug与Uf为投影矩阵,式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重,Ug∈Rs×da,Uf∈Rda×da为投影矩阵,s为图片属性或文本属性的类别数,da为属性空间的特征维度;
d-3)通过公式A=t*||C×Wg||2+(1-t)*||F×Wf||2计算融合后的特征A,式中Wg∈Rs×da,Wf∈Rda×da为投影矩阵。
实施例5:
隐空间中对特征使用三元组损失来使图片特征和文本特征之间建立联系,属性空间中对于融合了语义信息的特征也使用了难样本三元组损失使不同模态的特征之间建立语义联系。因此步骤e)包括如下特征:
e-1)通过公式
Figure BDA0002629163320000121
计算属性空间的三元损失La-trip(I,T),式中ρ2为三元组损失边界,Sa()为cosine相似度计算,
Figure BDA0002629163320000122
为第k个属性空间中的图片的特征,将
Figure BDA0002629163320000123
作为锚,
Figure BDA0002629163320000124
为与锚
Figure BDA0002629163320000125
距离最近的异类文本样本特征,
Figure BDA0002629163320000126
为与锚
Figure BDA0002629163320000127
距离最远的同类文本样本特征,
Figure BDA0002629163320000128
为第k个属性空间中的行人文本描述特征,将
Figure BDA0002629163320000129
作为锚,
Figure BDA00026291633200001210
为与锚
Figure BDA00026291633200001211
距离最近的异类文本样本特征,
Figure BDA00026291633200001212
为与锚
Figure BDA00026291633200001213
距离最远的同类文本样本特征;
e-2)通过公式
Figure BDA00026291633200001214
计算
Figure BDA00026291633200001215
Figure BDA00026291633200001216
的余弦相似度,式中
Figure BDA00026291633200001217
Figure BDA00026291633200001218
均为属性空间中融合属性信息后的具有语义信息的图文特征;
e-3)通过公式
Figure BDA00026291633200001219
计算属性空间中的损失函数Lattr(I,T)。
实施例6:
在模型学习的过程中,隐空间和属性空间的训练同时进行,步骤f)包括如下特征:
f-1)通过公式L(I,T)=Llatent(I,T)+Lattr(I,T)计算双重属性网络的损失函数L(I,T)。如附图2所示,训练过程中三部分损失函数的变化曲线大致一致,证明了本发明的可应用性与合理性。
f-2)在测试过程中,为了让隐空间中学到的行人身份信息和属性空间中学到的行人语义信息起到互补作用,因此通过公式
Figure BDA0002629163320000131
计算双重属性的相似度A(Ik,Tk),式中Al为共享子空间中学到的特征
Figure BDA0002629163320000132
所计算出的相似度,AC为属性空间中学到的特征
Figure BDA0002629163320000133
所计算的相似度。
f-3)根据最终得到的相似度A(Ik,Tk)计算跨模态匹配的准确率,经过验证,如附图3所示本发明所采用的方法比表中列出的现有的5种方法在性能方面有了显著的提高。
以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种基于双重属性信息的跨模态行人重识别方法,其特征在于,包括如下步骤:
a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I;
b)对提取的行人文本描述中提取出文本属性特征cT,对提取的图片提取出图片属性特征cI
c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数,通过Softmax损失函数计算得到共享子空间中特征的分类损失;
d)将行人文本描述特征T和行人的图片特征I与文本属性cT和图片属性cI进行特征融合;
e)基于属性信息构建特征属性空间;
f)对提取的图片的特征及行人文本描述特征进行检索匹配。
2.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤a)中提取行人文本描述包括如下步骤:
a-1.1)对监控摄像头所拍摄的内容的描述语句分词后建立词频表;
a-1.2)过滤掉词频表中的低频词语;
a-1.3)对词频表中的单词的编码使用one-hot进行编码;
a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。
3.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤a)中提取图片包括如下步骤:
a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取;
a-2.2)对提取的图片进行语义分割,使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。
4.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤b)的提取步骤如下:
b-1)使用NLTK工具库对行人文本描述的数据进行预处理,提取出形容词加名词、多个名词叠加两种格式的名词词组;
b-2)将提取的名词词组按照词频进行排序,将低频词组舍弃,保留排名前400的名词词组组成属性表,得到文本属性cT
b-3)将图片使用PA-100K数据集训练,得到26种预测值,将预测值大于0的的图片的属性标记为1,将预测值小于0的图片的属性标记为0,得到图片属性cI
5.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤c)包括如下步骤:
c-1)通过公式
Figure FDA0002629163310000021
计算得到难样本三元组损失Ltrip(I,T),式中Ik为第k个图片的特征,将Ik作为锚,
Figure FDA0002629163310000022
为与锚Ik距离最近的异类文本样本特征,
Figure FDA0002629163310000023
为与锚Ik距离最远的同类文本样本特征,Tk为第k个行人文本描述特征,将Tk作为锚,
Figure FDA0002629163310000024
为与锚Tk距离最近的异类文本样本特征,
Figure FDA0002629163310000025
为与锚Tk距离最远的同类文本样本特征,ρ1为三元组损失的边界,S()为余弦相似度计算;
c-2)通过公式
Figure FDA0002629163310000026
计算
Figure FDA0002629163310000027
Figure FDA0002629163310000028
之间的余弦相似度,式中
Figure FDA0002629163310000031
为第k个图片的共享子空间特征,
Figure FDA0002629163310000032
为第k个行人文本描述的共享子空间特征;
c-3)通过公式
Figure FDA0002629163310000033
计算共享子空间图片特征Ik的分类损失Lcls(Ik),式中
Figure FDA0002629163310000034
为转置后的共享子空间中的图片特征,式中W为分类器,W∈Rdl×C,dl为共享子空间中的特征维度,C为行人身份信息类别数目,yk为
Figure FDA0002629163310000035
的身份信息,b为偏置向量,
Figure FDA0002629163310000036
为第j类的分类向量,bj为第j类的偏置值,
Figure FDA0002629163310000037
为对应的第yk类的分类向量,byk为第yk类的偏置值,通过公式
Figure FDA0002629163310000038
计算共享子空间行人文本描述特征Tk的分类损失函数Lcls(Tk),
Figure FDA0002629163310000039
为转置后的共享子空间中的文本特征;
c-4)通过公式
Figure FDA00026291633100000310
计算共享子空间的的损失函数Llatent(I,T),n为一个batch中样本数。
6.根据权利要求5所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤d)包括如下特征:
d-1)通过公式
Figure FDA00026291633100000311
计算损失函数Lcoral(I,T),图片特征I由
Figure FDA0002629163310000041
组成,行人文本描述特征T由
Figure FDA0002629163310000042
组成,式中|v|表示
Figure FDA0002629163310000043
Figure FDA0002629163310000044
的维度,||·||F为Frobenius范数;
d-2)通过公式t=sigmoid(C×Ug+F×Uf)计算属性特征和图片或文本特征在特征融合时的权重,式中C为待融合的属性特征,F为待融合的图片或文本特征,Ug与Uf为投影矩阵,式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重,Ug∈Rs×da,Uf∈Rda×da为投影矩阵,s为图片属性或文本属性的类别数,da为属性空间的特征维度;
d-3)通过公式A=t*||C×Wg||2+(1-t)*||F×Wf||2计算融合后的特征A,式中Wg∈Rs×da,Wf∈Rda×da为投影矩阵。
7.根据权利要求6所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤e)包括如下特征:
e-1)通过公式
Figure FDA0002629163310000045
计算属性空间的三元损失La-trip(I,T),式中ρ2为三元组损失边界,Sa()为cosine相似度计算,
Figure FDA0002629163310000046
为第k个属性空间中的图片的特征,将
Figure FDA0002629163310000047
作为锚,
Figure FDA0002629163310000048
为与锚
Figure FDA0002629163310000049
距离最近的异类文本样本特征,
Figure FDA00026291633100000410
为与锚
Figure FDA00026291633100000411
距离最远的同类文本样本特征,
Figure FDA00026291633100000412
为第k个属性空间中的行人文本描述特征,将
Figure FDA00026291633100000413
作为锚,
Figure FDA00026291633100000414
为与锚
Figure FDA00026291633100000415
距离最近的异类文本样本特征,
Figure FDA00026291633100000416
为与锚
Figure FDA00026291633100000417
距离最远的同类文本样本特征;
e-2)通过公式
Figure FDA0002629163310000051
计算
Figure FDA0002629163310000052
Figure FDA0002629163310000053
的余弦相似度,式中
Figure FDA0002629163310000054
Figure FDA0002629163310000055
均为属性空间中融合属性信息后的具有语义信息的图文特征;
e-3)通过公式
Figure FDA0002629163310000056
计算属性空间中的损失函数Lattr(I,T)。
8.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤f)包括如下特征:
f-1)通过公式L(I,T)=Llatent(I,T)+Lattr(I,T)计算双重属性网络的损失函数L(I,T);
f-2)通过公式
Figure FDA0002629163310000057
计算双重属性的相似度A(Ik,Tk),式中Al为共享子空间中学到的特征
Figure FDA0002629163310000058
所计算出的相似度,AC为属性空间中学到的特征
Figure FDA0002629163310000059
所计算的相似度;
f-3)根据相似度A(Ik,Tk)计算跨模态匹配的准确率。
CN202010805183.XA 2020-08-12 2020-08-12 基于双重属性信息的跨模态行人重识别方法 Active CN112001279B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010805183.XA CN112001279B (zh) 2020-08-12 2020-08-12 基于双重属性信息的跨模态行人重识别方法
NL2028092A NL2028092B1 (en) 2020-08-12 2021-04-29 Cross-modality person re-identification method based on dual-attribute information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010805183.XA CN112001279B (zh) 2020-08-12 2020-08-12 基于双重属性信息的跨模态行人重识别方法

Publications (2)

Publication Number Publication Date
CN112001279A true CN112001279A (zh) 2020-11-27
CN112001279B CN112001279B (zh) 2022-02-01

Family

ID=73464076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010805183.XA Active CN112001279B (zh) 2020-08-12 2020-08-12 基于双重属性信息的跨模态行人重识别方法

Country Status (2)

Country Link
CN (1) CN112001279B (zh)
NL (1) NL2028092B1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507853A (zh) * 2020-12-02 2021-03-16 西北工业大学 一种基于互注意力机制的跨模态行人重识别方法
CN113627151A (zh) * 2021-10-14 2021-11-09 北京中科闻歌科技股份有限公司 跨模态数据的匹配方法、装置、设备及介质
CN114612927A (zh) * 2020-12-09 2022-06-10 四川大学 一种基于图像文本双通道联合的行人重识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
US20190303660A1 (en) * 2013-11-15 2019-10-03 Facebook, Inc. Pose-Aligned Networks for Deep Attribute Modeling
CN110321813A (zh) * 2019-06-18 2019-10-11 南京信息工程大学 基于行人分割的跨域行人重识别方法
CN110909605A (zh) * 2019-10-24 2020-03-24 西北工业大学 基于对比相关的跨模态行人重识别方法
US20200104318A1 (en) * 2017-03-07 2020-04-02 Selerio Limited Multi-modal image search
US20200226421A1 (en) * 2019-01-15 2020-07-16 Naver Corporation Training and using a convolutional neural network for person re-identification

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190303660A1 (en) * 2013-11-15 2019-10-03 Facebook, Inc. Pose-Aligned Networks for Deep Attribute Modeling
US20200104318A1 (en) * 2017-03-07 2020-04-02 Selerio Limited Multi-modal image search
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN109344266A (zh) * 2018-06-29 2019-02-15 北京大学深圳研究生院 一种基于双语义空间的对抗性跨媒体检索方法
US20200226421A1 (en) * 2019-01-15 2020-07-16 Naver Corporation Training and using a convolutional neural network for person re-identification
CN109829430A (zh) * 2019-01-31 2019-05-31 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110321813A (zh) * 2019-06-18 2019-10-11 南京信息工程大学 基于行人分割的跨域行人重识别方法
CN110909605A (zh) * 2019-10-24 2020-03-24 西北工业大学 基于对比相关的跨模态行人重识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIANLOU SI ET AL: "Dual Attention Matching Network for Context-Aware Feature Sequence Based Person Re-identification", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
XUEZHI XIANG ET AL: "Cross-Modality Person Re-Identification Based on Dual-Path Multi-Branch Network", 《IEEE SENSORS JOURNAL》 *
罗浩等: "基于深度学习的行人重识别研究进展", 《自动化学报》 *
魏文钰等: "基于深度学习的行人再识别技术研究综述", 《计算机应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507853A (zh) * 2020-12-02 2021-03-16 西北工业大学 一种基于互注意力机制的跨模态行人重识别方法
CN112507853B (zh) * 2020-12-02 2024-05-14 西北工业大学 一种基于互注意力机制的跨模态行人重识别方法
CN114612927A (zh) * 2020-12-09 2022-06-10 四川大学 一种基于图像文本双通道联合的行人重识别方法
CN114612927B (zh) * 2020-12-09 2023-05-09 四川大学 一种基于图像文本双通道联合的行人重识别方法
CN113627151A (zh) * 2021-10-14 2021-11-09 北京中科闻歌科技股份有限公司 跨模态数据的匹配方法、装置、设备及介质

Also Published As

Publication number Publication date
NL2028092B1 (en) 2022-04-06
CN112001279B (zh) 2022-02-01
NL2028092A (en) 2021-07-28

Similar Documents

Publication Publication Date Title
Chen et al. Improving deep visual representation for person re-identification by global and local image-language association
CN112001279B (zh) 基于双重属性信息的跨模态行人重识别方法
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
Wang et al. Improving weakly supervised visual grounding by contrastive knowledge distillation
Guillaumin et al. Tagprop: Discriminative metric learning in nearest neighbor models for image auto-annotation
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN113779361A (zh) 基于多层注意力机制的跨模态检索模型的构建方法及应用
Zhang A survey of unsupervised domain adaptation for visual recognition
CN111666843A (zh) 一种基于全局特征和局部特征拼接的行人重识别方法
CN110826639B (zh) 一种利用全量数据训练零样本图像分类方法
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
Oluwasammi et al. Features to text: a comprehensive survey of deep learning on semantic segmentation and image captioning
TW201604821A (zh) 協作性人臉標註方法以及協作性人臉標註系統
Zhu et al. Image-text matching with fine-grained relational dependency and bidirectional attention-based generative networks
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
CN114612767A (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
Yuan Language bias in visual question answering: A survey and taxonomy
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN115311465A (zh) 一种基于双注意力模型的图像描述方法
Li et al. Social context-aware person search in videos via multi-modal cues
Vailaya Semantic classification in image databases
Liu et al. A multimodal approach for multiple-relation extraction in videos
Hong et al. Fine-grained feature generation for generalized zero-shot video classification
Kumar et al. Semi-supervised annotation of faces in image collection
Wang et al. A novel semantic attribute-based feature for image caption generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant