CN112001279B - 基于双重属性信息的跨模态行人重识别方法 - Google Patents
基于双重属性信息的跨模态行人重识别方法 Download PDFInfo
- Publication number
- CN112001279B CN112001279B CN202010805183.XA CN202010805183A CN112001279B CN 112001279 B CN112001279 B CN 112001279B CN 202010805183 A CN202010805183 A CN 202010805183A CN 112001279 B CN112001279 B CN 112001279B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- text
- attribute
- feature
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
- G06N3/105—Shells for specifying net layout
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
一种基于双重属性信息的跨模态行人重识别方法,通过基于双重属性信息的跨模态行人重识别方法,充分利用两个模态的数据所提取到丰富的语义信息,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法,通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络,大幅度提高了所提取特征的语义表达性,对行人属性信息的应用更加充分。
Description
技术领域
本发明涉及计算机视觉及深度学习领域,具体涉及一种基于双重属性信息的跨模态行人重识别方法。
背景技术
在信息化时代,视频监控在维护公共安全方面发挥了不可取代的作用,行人重识别是视频监控场景下的一个重要子任务,其旨在不同的监控摄像头产生的图像数据中找到属于同一个行人的照片。公共安全监控设施的应用区域越来越广泛,产生了海量的图像数据,如何在海量的图像数据中快速又准确地找到目标人物是计算机视觉领域的研究热点,但是在一些特定的紧急场景下,人们无法及时提供与所寻找的行人相匹配的图片作为检索的依据,只能提供口头描述,因此催生了基于文本描述的跨模态行人重识别这一任务。
跨模态行人重识别是指根据对行人的自然语言描述,在图片库中找到最符合文本描述信息的图片。随着深度学习技术的发展及其在不同任务中取得的优越性能,针对跨模态行人重识别任务,研究者们已经提出了一些深度学习相关跨模态人体重识别算法,它们大致可以分为:1)计算语义亲密度值法,计算图片和文本之间语义关联的亲密度值,提高相同类的图文亲密度,降低不同类的图文亲密度;2)子空间法,该方法致力于为图片和文本建立共同的特征表达空间,并在这个共同的空间中使用度量学习策略拉近属于相同行人id的图文特征之间的距离,拉远属于不同行人id的图文特征之间的距离。然而,这些方法所提取特征的语义表达性还有待提高,它们忽略了利用行人的属性信息来表现语义概念是否有效,或考虑的不够充分。
发明内容
本发明为了克服以上技术的不足,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法的跨模态行人重识别的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于双重属性信息的跨模态行人重识别方法,包括如下步骤:
a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I;
b)对提取的行人文本描述中提取出文本属性特征cT,对提取的图片提取出图片属性特征cI;
c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数,通过Softmax损失函数计算得到共享子空间中特征的分类损失;
d)将行人文本描述特征T和行人的图片特征I与文本属性cT和图片属性cI进行特征融合;
e)基于属性信息构建特征属性空间;
f)对提取的图片的特征及行人文本描述特征进行检索匹配。
进一步的,步骤a)中提取行人文本描述包括如下步骤:
a-1.1)对监控摄像头所拍摄的内容的描述语句分词后建立词频表;
a-1.2)过滤掉词频表中的低频词语;
a-1.3)对词频表中的单词的编码使用one-hot进行编码;
a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。
进一步的,步骤a)中提取图片包括如下步骤:
a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取;
a-2.2)对提取的图片进行语义分割,使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。
进一步的,步骤b)的提取步骤如下:
b-1)使用NLTK工具库对行人文本描述的数据进行预处理,提取出形容词加名词、多个名词叠加两种格式的名词词组;
b-2)将提取的名词词组按照词频进行排序,将低频词组舍弃,保留排名前400的名词词组组成属性表,得到文本属性cT;
b-3)将图片使用PA-100K数据集训练,得到26种预测值,将预测值大于0的的图片的属性标记为1,将预测值小于0的图片的属性标记为0,得到图片属性cI。进一步的,步骤c)包括如下步骤:
c-1)通过公式计算得到难样本三元组损失Ltrip(I,T),式中Ik为第k个图片的特征,将Ik作为锚,为与锚Ik距离最近的异类文本样本特征,为与锚Ik距离最远的同类文本样本特征,Tk为第k个行人文本描述特征,将Tk作为锚,为与锚Tk距离最近的异类文本样本特征,为与锚Tk距离最远的同类文本样本特征,ρ1为三元组损失的边界,S()为余弦相似度计算;
c-3)通过公式计算共享子空间图片特征Ik的分类损失Lcls(Ik),式中为转置后的共享子空间中的图片特征,式中W为分类器,W∈Rdl×C,dl为共享子空间中的特征维度,C为行人身份信息类别数目,yk为的身份信息,b为偏置向量,为第j类的分类向量,bj为第j类的偏置值,为对应的第yk类的分类向量,byk为第yk类的偏置值,通过公式计算共享子空间行人文本描述特征Tk的分类损失函数Lcls(Tk),为转置后的共享子空间中的文本特征;
进一步的,步骤d)包括如下特征:
d-2)通过公式t=sigmoid(C×Ug+F×Uf)计算属性特征和图片或文本特征在特征融合时的权重,式中C为待融合的属性特征,F为待融合的图片或文本特征,Ug与Uf为投影矩阵,式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重,Ug∈Rs×da,Uf∈Rda×da为投影矩阵,s为图片属性或文本属性的类别数,da为属性空间的特征维度;
d-3)通过公式A=t*||C×Wg||2+(1-t)*||F×Wf||2计算融合后的特征A,式中Wg∈Rs×da,Wf∈Rda×da为投影矩阵。
进一步的,步骤e)包括如下特征:
e-1)通过公式计算属性空间的三元损失La-trip(I,T),式中ρ2为三元组损失边界,Sa()为cosine相似度计算,为第k个属性空间中的图片的特征,将作为锚,为与锚距离最近的异类文本样本特征,为与锚距离最远的同类文本样本特征,为第k个属性空间中的行人文本描述特征,将作为锚,为与锚距离最近的异类文本样本特征,为与锚距离最远的同类文本样本特征;
进一步的,步骤f)包括如下特征:
f-1)通过公式L(I,T)=Llatent(I,T)+Lattr(I,T)计算双重属性网络的损失函数L(I,T);
f-3)根据相似度A(Ik,Tk)计算跨模态匹配的准确率。
本发明的有益效果是:通过基于双重属性信息的跨模态行人重识别方法,充分利用两个模态的数据所提取到丰富的语义信息,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法,通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络,大幅度提高了所提取特征的语义表达性,对行人属性信息的应用更加充分。
附图说明
图1为本发明的流程图;
图2为本发明的模型训练过程中的损失函数的变化图;
图3为CUHK-PEDES数据集上本发明的方法与现有方法在Top-k上的对比图。
具体实施方式
下面结合附图1、附图2、附图3对本发明做进一步说明。
如附图1所示,一种基于双重属性信息的跨模态行人重识别方法,包括如下步骤:
a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I。本发明致力于将现实场景中监控摄像头所拍摄的行人图片及相应的行人文本描述之间建立语义关联,需要先分别提取两种模态的数据的特征表示,其中,图片特征的提取使用了当下流行的卷积神经网络ResNet完成,文本特征的提取使用了双向LSTM,可以充分获取文本的上下文信息。
b)对提取的行人文本描述中提取出文本属性特征cT,对提取的图片提取出图片属性特征cI。本发明针对现有方法对于属性信息的使用不够充分导致特征的语义表达性不强的问题,设计使用行人属性信息作为辅助信息来提高图文特征的语义表达性。行人图片的属性提取使用了先前工作中比较稳定的行人图片属性提取模型;行人文本的属性则来源于数据集中的统计信息,本发明将数据集中词频较高的名词短语作为行人的文本属性。
c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数,通过Softmax损失函数计算得到共享子空间中特征的分类损失。投影到共同向量空间是解决跨模态检索问题的常见做法,在共享向量空间中可以建立两个模态的数据之间的关联。本发明将提取到的图文特征投影到共同的向量子空间中,利用度量学习的方法使得具有相同行人信息的图文特征之间的距离更近,而不属于同一行人的图文特征之间的距离更远,本发明利用难样本三元组损失来达到以上目的,即在一个批数据中,需要找到跟锚数据距离最近的另一个模态的异类样本和距离最远的另一个模态的同类样本。
d)将行人文本描述特征T和行人的图片特征I与文本属性cT和图片属性cI进行特征融合。现存的方法对于属性信息起到的辅助作用利用不够充分或者仅利用了一种模态的属性信息,导致模型可提取特征的语义表达性不够强,为了解决此问题,本发明利用了提取到的图文的双重属性信息。考虑到不同属性在行人图文匹配时所发挥的作用的重要程度不同,本发明使用了权重机制来使得特征融合时起到关键作用的语义信息发挥更大的作用。本发明利用矩阵投影的策略将待融合的图文特征和属性特征投影到相同的维度空间中,然后将两种特征加权即得到融合了语义信息的行人图文特征。在特征融合之前,为了避免两种模态的特征分布存在较大差异,本发明使用了跨域学习中常用的损失函数coral损失来拉近两种模态的数据之间的分布。
e)基于属性信息构建特征属性空间,融合了语义信息的图文特征同样被送入共享子空间中,本发明称为属性空间。本发明默认具有相同行人信息的图文特征具有相同的语义含义,在属性空间中本发明依然使用难样本三元组损失建立不同模态的行人图文特征之间的语义联系。
f)对提取的图片的特征及行人文本描述特征进行检索匹配。本发明最终提取的图文特征分为两部分,一部分是隐空间中提取的特征,另一部分是属性空间中提取的特征。对提取的模型特征进行检索匹配时,使用cosine距离来计算两个模型特征在特征空间的距离,以此对其相似度进行度量。为了让隐空间中学到的行人身份信息以及属性空间中学到的行人语义信息起到互补作用,本发明将两部分特征的相似度矩阵相加后再排序。
本发明为解决现有的跨模态行人重识别方法无法有效利用行人属性信息作为辅助信息来提高图文特征语义表达性的问题,提供了一种高效的基于双重属性信息的跨模态行人重识别方法,充分利用两个模态的数据所提取到丰富的语义信息,提供了一种基于文本属性和图像属性的双重属性空间构建和属性融合算法,通过构建基于隐空间和属性空间的跨模态行人重识别端到端网络提高了模型所提取特征的语义表达性。针对解决跨模态图文行人重识别问题提出了一个新的、基于隐空间和属性空间的跨模态行人重识别端到端网络,大幅度提高了所提取特征的语义表达性,对行人属性信息的应用更加充分。
实施例1:
步骤a)中提取行人文本描述包括如下步骤:
a-1.1)本发明在对行人文本进行特征提取时,先对文本信息进行了预处理,即对监控摄像头所拍摄的内容的描述语句分词后建立词频表。
a-1.2)过滤掉词频表中的低频词语。
a-1.3)对词频表中的单词的编码使用one-hot进行编码。
a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。双向LSTM模型可以充分考虑每个单词的上下文,使得学习到的文本特征更加丰富。
步骤a)中提取图片包括如下步骤:
a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取;
a-2.2)对提取的图片进行语义分割,使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。
实施例2:
针对行人图片属性识别已有许多工作,且取得了不错的效果,本发明选择使用了较稳定的行人属性识别模型,提取出了数据集中行人图片所含的属性及可能性值,步骤b)的提取步骤如下:
b-1)使用NLTK工具库对行人文本描述的数据进行预处理,提取出形容词加名词、多个名词叠加两种格式的名词词组;
b-2)将提取的名词词组按照词频进行排序,将低频词组舍弃,保留排名前400的名词词组组成属性表,得到文本属性cT;
b-3)将图片使用PA-100K数据集训练,得到26种预测值,将预测值大于0的的图片的属性标记为1,将预测值小于0的图片的属性标记为0,得到图片属性cI。
实施例3:
本发明使用了跨模态行人重识别领域常用的共享子空间法来建立两个模态的特征向量之间的关联,隐空间的设置是为了使得行人的图片特征和文本特征都具有行人id的可分性以及图文特征间具有基本的语义关联。本发明考虑到在跨模态行人图文检索中,同一个行人id对应着多张图片和多个相应的文本描述,因此损失函数的设计目标在于拉近同属于一个行人id的图片和文本描述之间的距离,拉远不属于同一个行人id的图片和文本的距离。具体地,令其中一种模态中的数据作为锚,取另一种模态中的跟锚属于同一类的数据作为正样本,跟锚属于不同类的数据作为负样本。这样不仅起到了分类的作用,还在一定程度上使得不同模态中具有相同语义的图片和文本描述之间形成了对应,在实验中默认同一个行人的图片和文本描述具有相同的语义信息。步骤c)包括如下步骤:c-1)通过公式计算得到难样本三元组损失Ltrip(I,T),式中Ik为第k个图片的特征,将Ik作为锚,为与锚Ik距离最近的异类文本样本特征,为与锚Ik距离最远的同类文本样本特征,Tk为第k个行人文本描述特征,将Tk作为锚,为与锚Tk距离最近的异类文本样本特征,为与锚Tk距离最远的同类文本样本特征,ρ1为三元组损失的边界,S()为余弦相似度计算;
c-3)通过公式计算共享子空间图片特征Ik的分类损失Lcls(Ik),式中为转置后的共享子空间中的图片特征,式中W为分类器,W∈Rdl×C,dl为共享子空间中的特征维度,C为行人身份信息类别数目,yk为的身份信息,b为偏置向量,为第j类的分类向量,bj为第j类的偏置值,为对应的第yk类的分类向量,byk为第yk类的偏置值,通过公式计算共享子空间行人文本描述特征Tk的分类损失函数Lcls(Tk),为转置后的共享子空间中的文本特征;
实施例4:
在图文特征与属性特征融合之前,为了避免两种模态的数据分布差异过大,本发明使用了迁移学习中的coral函数来拉近两种模态的数据之间的距离,具体的步骤d)包括如下特征:
d-2)通过公式t=sigmoid(C×Ug+F×Uf)计算属性特征和图片或文本特征在特征融合时的权重,式中C为待融合的属性特征,F为待融合的图片或文本特征,Ug与Uf为投影矩阵,式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重,Ug∈Rs×da,Uf∈Rda×da为投影矩阵,s为图片属性或文本属性的类别数,da为属性空间的特征维度;
d-3)通过公式A=t*||C×Wg||2+(1-t)*||F×Wf||2计算融合后的特征A,式中Wg∈Rs×da,Wf∈Rda×da为投影矩阵。
实施例5:
隐空间中对特征使用三元组损失来使图片特征和文本特征之间建立联系,属性空间中对于融合了语义信息的特征也使用了难样本三元组损失使不同模态的特征之间建立语义联系。因此步骤e)包括如下特征:
e-1)通过公式计算属性空间的三元损失La-trip(I,T),式中ρ2为三元组损失边界,Sa()为cosine相似度计算,为第k个属性空间中的图片的特征,将作为锚,为与锚距离最近的异类文本样本特征,为与锚距离最远的同类文本样本特征,为第k个属性空间中的行人文本描述特征,将作为锚,为与锚距离最近的异类文本样本特征,为与锚距离最远的同类文本样本特征;
实施例6:
在模型学习的过程中,隐空间和属性空间的训练同时进行,步骤f)包括如下特征:
f-1)通过公式L(I,T)=Llatent(I,T)+Lattr(I,T)计算双重属性网络的损失函数L(I,T)。如附图2所示,训练过程中三部分损失函数的变化曲线大致一致,证明了本发明的可应用性与合理性。
f-2)在测试过程中,为了让隐空间中学到的行人身份信息和属性空间中学到的行人语义信息起到互补作用,因此通过公式计算双重属性的相似度A(Ik,Tk),式中Al为共享子空间中学到的特征所计算出的相似度,AC为属性空间中学到的特征所计算的相似度。
f-3)根据最终得到的相似度A(Ik,Tk)计算跨模态匹配的准确率,经过验证,如附图3所示本发明所采用的方法比表中列出的现有的5种方法在性能方面有了显著的提高。
以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.一种基于双重属性信息的跨模态行人重识别方法,其特征在于,包括如下步骤:
a)将监控摄像头所拍摄的内容中提取行人文本描述特征T和行人的图片特征I;
b)对提取的行人文本描述中提取出文本属性特征cT,对提取的图片提取出图片属性特征cI;
c)将步骤a)中的行人文本描述特征和行人的图片特征输入到共享子空间中并计算难样本三元组损失函数,通过Softmax损失函数计算得到共享子空间中特征的分类损失;
d)将行人文本描述特征T和行人的图片特征I与文本属性cT和图片属性cI进行特征融合;
e)基于属性信息构建特征属性空间;
f)对提取的图片的特征及行人文本描述特征进行检索匹配;
步骤b)的提取步骤如下:
b-1)使用NLTK工具库对行人文本描述的数据进行预处理,提取出形容词加名词、多个名词叠加两种格式的名词词组;
b-2)将提取的名词词组按照词频进行排序,将低频词组舍弃,保留排名前400的名词词组组成属性表,得到文本属性cT;
b-3)将图片使用PA-100K数据集训练,得到26种预测值,将预测值大于0的的图片的属性标记为1,将预测值小于0的图片的属性标记为0,得到图片属性cI;步骤c)包括如下步骤:
c-1)通过公式计算得到难样本三元组损失Ltrip(I,T),式中Ik为第k个图片的特征,将Ik作为锚,为与锚Ik距离最近的异类文本样本特征,为与锚Ik距离最远的同类文本样本特征,Tk为第k个行人文本描述特征,将Tk作为锚,为与锚Tk距离最近的异类文本样本特征,为与锚Tk距离最远的同类文本样本特征,ρ1为三元组损失的边界,S()为余弦相似度计算;
c-3)通过公式计算共享子空间图片特征Ik的分类损失Lcls(Ik),式中为转置后的共享子空间中的图片特征,式中W为分类器,W∈Rdl×C,dl为共享子空间中的特征维度,C为行人身份信息类别数目,yk为的身份信息,b为偏置向量,为第j类的分类向量,bj为第j类的偏置值,为对应的第yk类的分类向量,byk为第yk类的偏置值,通过公式计算共享子空间行人文本描述特征Tk的分类损失函数Lcls(Tk),为转置后的共享子空间中的文本特征;
步骤d)包括如下特征:
d-2)通过公式t=sigmoid(C×Ug+F×Uf)计算属性特征和图片或文本特征在特征融合时的权重,式中C为待融合的属性特征,F为待融合的图片或文本特征,Ug与Uf为投影矩阵,式中t为投影结果相加后经过sigmoid函数得到特征融合时的权重,Ug∈Rs×da,Uf∈Rda×da为投影矩阵,s为图片属性或文本属性的类别数,da为属性空间的特征维度;
d-3)通过公式A=t*||C×Wg||2+(1-t)*||F×Wf||2计算融合后的特征A,式中Wg∈Rs×da,Wf∈Rda×da为投影矩阵;
步骤e)包括如下特征:
e-1)通过公式计算属性空间的三元损失La-trip(I,T),式中ρ2为三元组损失边界,Sa()为cosine相似度计算,为第k个属性空间中的图片的特征,将作为锚,为与锚距离最近的异类文本样本特征,为与锚距离最远的同类文本样本特征,为第k个属性空间中的行人文本描述特征,将作为锚,为与锚距离最近的异类文本样本特征,为与锚距离最远的同类文本样本特征;
2.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤a)中提取行人文本描述包括如下步骤:
a-1.1)对监控摄像头所拍摄的内容的描述语句分词后建立词频表;
a-1.2)过滤掉词频表中的低频词语;
a-1.3)对词频表中的单词的编码使用one-hot进行编码;
a-1.4)使用双向LSTM模型进行行人文本描述的特征提取。
3.根据权利要求1所述的基于双重属性信息的跨模态行人重识别方法,其特征在于,步骤a)中提取图片包括如下步骤:
a-2.1)使用在ImageNet数据集上完成预训练的ResNet网络进行图片特征提取;
a-2.2)对提取的图片进行语义分割,使用与步骤a-2.1)相同的ResNet网络对语义分割后的结果图片进行特征提取。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010805183.XA CN112001279B (zh) | 2020-08-12 | 2020-08-12 | 基于双重属性信息的跨模态行人重识别方法 |
NL2028092A NL2028092B1 (en) | 2020-08-12 | 2021-04-29 | Cross-modality person re-identification method based on dual-attribute information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010805183.XA CN112001279B (zh) | 2020-08-12 | 2020-08-12 | 基于双重属性信息的跨模态行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112001279A CN112001279A (zh) | 2020-11-27 |
CN112001279B true CN112001279B (zh) | 2022-02-01 |
Family
ID=73464076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010805183.XA Active CN112001279B (zh) | 2020-08-12 | 2020-08-12 | 基于双重属性信息的跨模态行人重识别方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112001279B (zh) |
NL (1) | NL2028092B1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507853B (zh) * | 2020-12-02 | 2024-05-14 | 西北工业大学 | 一种基于互注意力机制的跨模态行人重识别方法 |
CN114612927B (zh) * | 2020-12-09 | 2023-05-09 | 四川大学 | 一种基于图像文本双通道联合的行人重识别方法 |
CN113627151B (zh) * | 2021-10-14 | 2022-02-22 | 北京中科闻歌科技股份有限公司 | 跨模态数据的匹配方法、装置、设备及介质 |
CN114036336A (zh) * | 2021-11-15 | 2022-02-11 | 上海交通大学 | 基于语义划分的视觉文本属性对齐的行人图像搜索方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829430A (zh) * | 2019-01-31 | 2019-05-31 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
CN110021051A (zh) * | 2019-04-01 | 2019-07-16 | 浙江大学 | 一种基于生成对抗网络通过文本指导的人物图像生成方法 |
CN110321813A (zh) * | 2019-06-18 | 2019-10-11 | 南京信息工程大学 | 基于行人分割的跨域行人重识别方法 |
CN110909605A (zh) * | 2019-10-24 | 2020-03-24 | 西北工业大学 | 基于对比相关的跨模态行人重识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9400925B2 (en) * | 2013-11-15 | 2016-07-26 | Facebook, Inc. | Pose-aligned networks for deep attribute modeling |
GB201703602D0 (en) * | 2017-03-07 | 2017-04-19 | Selerio Ltd | Multi-Modal image search |
CN107562812B (zh) * | 2017-08-11 | 2021-01-15 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN109344266B (zh) * | 2018-06-29 | 2021-08-06 | 北京大学深圳研究生院 | 一种基于双语义空间的对抗性跨媒体检索方法 |
US11138469B2 (en) * | 2019-01-15 | 2021-10-05 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
-
2020
- 2020-08-12 CN CN202010805183.XA patent/CN112001279B/zh active Active
-
2021
- 2021-04-29 NL NL2028092A patent/NL2028092B1/en active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829430A (zh) * | 2019-01-31 | 2019-05-31 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
CN110021051A (zh) * | 2019-04-01 | 2019-07-16 | 浙江大学 | 一种基于生成对抗网络通过文本指导的人物图像生成方法 |
CN110321813A (zh) * | 2019-06-18 | 2019-10-11 | 南京信息工程大学 | 基于行人分割的跨域行人重识别方法 |
CN110909605A (zh) * | 2019-10-24 | 2020-03-24 | 西北工业大学 | 基于对比相关的跨模态行人重识别方法 |
Non-Patent Citations (4)
Title |
---|
Cross-Modality Person Re-Identification Based on Dual-Path Multi-Branch Network;Xuezhi Xiang et al;《IEEE SENSORS JOURNAL》;20191201;第19卷(第23期);11706-11713页 * |
Dual Attention Matching Network for Context-Aware Feature Sequence Based Person Re-identification;Jianlou Si et al;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;5363-5372页 * |
基于深度学习的行人再识别技术研究综述;魏文钰等;《计算机应用》;20200610;1-16页 * |
基于深度学习的行人重识别研究进展;罗浩等;《自动化学报》;20191130;第45卷(第11期);2032-2049页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112001279A (zh) | 2020-11-27 |
NL2028092A (en) | 2021-07-28 |
NL2028092B1 (en) | 2022-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112001279B (zh) | 基于双重属性信息的跨模态行人重识别方法 | |
CN111581961B (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN106095829B (zh) | 基于深度学习与一致性表达空间学习的跨媒体检索方法 | |
CN113779361A (zh) | 基于多层注意力机制的跨模态检索模型的构建方法及应用 | |
CN111666843A (zh) | 一种基于全局特征和局部特征拼接的行人重识别方法 | |
CN113076483A (zh) | 基于案件要素异构图的舆情新闻抽取式摘要方法 | |
TWI525574B (zh) | 協作性人臉標註方法以及協作性人臉標註系統 | |
Zhu et al. | Image-text matching with fine-grained relational dependency and bidirectional attention-based generative networks | |
CN113177612A (zh) | 一种基于cnn少样本的农业病虫害图像识别方法 | |
CN115187910A (zh) | 视频分类模型训练方法、装置、电子设备及存储介质 | |
CN114612767A (zh) | 一种基于场景图的图像理解与表达方法、系统与存储介质 | |
Yuan | Language bias in visual question answering: A survey and taxonomy | |
CN115311465A (zh) | 一种基于双注意力模型的图像描述方法 | |
CN113076490B (zh) | 一种基于混合节点图的涉案微博对象级情感分类方法 | |
Hong et al. | Fine-grained feature generation for generalized zero-shot video classification | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
Vailaya | Semantic classification in image databases | |
Wang et al. | A novel semantic attribute-based feature for image caption generation | |
Kumar et al. | Semi-supervised annotation of faces in image collection | |
Li et al. | Cross-domain facial expression recognition via contrastive warm up and complexity-aware self-training | |
CN110110598A (zh) | 一种基于视觉特征与时空约束的行人再识别方法及系统 | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
Huang et al. | Modeling multiple aesthetic views for series photo selection | |
TW202004519A (zh) | 影像自動分類的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |