CN110909673B - 一种基于自然语言描述的行人再识别方法 - Google Patents

一种基于自然语言描述的行人再识别方法 Download PDF

Info

Publication number
CN110909673B
CN110909673B CN201911148055.6A CN201911148055A CN110909673B CN 110909673 B CN110909673 B CN 110909673B CN 201911148055 A CN201911148055 A CN 201911148055A CN 110909673 B CN110909673 B CN 110909673B
Authority
CN
China
Prior art keywords
text
image
multiplied
loss function
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911148055.6A
Other languages
English (en)
Other versions
CN110909673A (zh
Inventor
于明
霍昶伟
师硕
郝小可
于洋
阎刚
朱叶
刘依
郭迎春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN201911148055.6A priority Critical patent/CN110909673B/zh
Publication of CN110909673A publication Critical patent/CN110909673A/zh
Application granted granted Critical
Publication of CN110909673B publication Critical patent/CN110909673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种基于自然语言描述的行人再识别方法,涉及用于识别图形记录载体的处理,具体说是设计图像和自然语言描述双分支网络结构,图像分支网络结构采用MobileNet卷积网络进行图像特征提取,自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取,对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练,用训练好的网络在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,克服了现有技术中所存在的特征提取部分文本特征表征性不高,损失函数部分训练网络困难训练时间长及训练过程要消耗大量内存的缺陷。

Description

一种基于自然语言描述的行人再识别方法
技术领域
本发明的技术方案涉及用于识别图形记录载体的处理,具体地说是一种基于自然语言描述的行人再识别方法。
背景技术
在监控视频中,因摄相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片。在人脸识别失效的情况下,行人再识别成为了一种十分重要的替代技术。借助于大量监控摄像头所摄的海量图像数据,行人再识别技术能够在一定范围内相对准确地实现行人再识别任务,甚至实时地发现和定位行人的当前位置,在公共安全领域中具有重要的意义。然而,在实际应用中,并不是所有需要进行行人再识别的任务中都有图像数据信息可供使用,但可能会有关于需要再识别行人特征的自然语言描述信息供使用,因此基于自然语言描述的行人再识别方法被人们提出并开始进行深入的研究。
基于自然语言描述的行人再识别多采用双分支结构框架,分别是文本编码分支和图像特征提取分支,然后对提取的特征再进行跨模态匹配,实现行人的图文匹配。文献“Cascade Attention Network for Person Search:Both Image and Text-ImageSimilarity Selection”,介绍了通过添加poseCNN提取图像的姿态信息与VGG16得到的特征共同作为图像特征,增加了特征的多样性。文献“Learning semantic concepts andorder for image and sentence matching”,介绍了通过提取LSTM网络的多个隐藏状态作为文本的特征表示,注重每个单词与图像的相似性。为了提高自然语言描述的文本和图像特征信息的有效性和准确性,需对初步特征进行进一步处理,近年来注意力机制在提高特征有效性上起到了关键作用。文献“Person search with natural languagedescription”提出了一种新颖的具有门控神经注意的递归神经网络(GNA-RNN)用于人员搜索,首先将文本描述的每个单词特征与图像特征结合,再通过软注意力机制得到权重分配,再结合文本特征和图像特征得到最终的相似性结果,但忽略了文本序列的时序性关系以及仍然存在较多的低相关性特征。
特征提取之后进行相似性度量是行人再识别技术的重要步骤。文献“Improvingdeep visual representation for person re-identification by global and localimage-language association”,介绍了使用二分类交叉熵函数作为损失函数对匹配结果进行二分类问题的研究,但是二分类问题分类过于简单和绝对化。文献“Dual-pathconvolutional image-text embedding”介绍了为输入的每一对图像和文本在mini-batch上选择出一个最相似的不同类图像或一个最相似的不同类文本组成两组三元组,让同类的图像和文本匹配结果好于不同类的图像和文本匹配结果,但每个batch输入的有限性以及三元组样本的选择,可能导致训练不稳定,而且随着训练集样本的增加,构建三元组的时间开销会明显增加。文献“Identity-aware textual-visual matching with latent co-attention”提出了跨模态交叉熵损失函数,该损失函数采用跨模态样本与身份标签的相似度进行类别预测,但这种策略需要分配额外的身份特征缓冲区,当数据集较大时,训练过程会消耗大量内存。
CN109993070A公开了一种基于全局距离尺度损失函数的行人再识别方法,是一种基于交叉熵损失函数和全局距离尺度损失函数的行人再识别方法,该方法存在每一个批次的数据需要额外的超参数以及交叉熵分类过于简单和绝对化的缺陷。CN109190446A公开了基于三元组聚焦损失函数的行人再识别方法和CN109635695A公开了基于三元组卷积神经网络的行人再识别方法,是一种聚集损失函数的行人再识别方法,该类方法存在限制每个批次行人类别数量以及每类行人的数量并且每个训练批次图像数量较大的缺陷。CN108960142A公开了基于全局特征损失函数的行人再识别方法,与上述专利技术同样是用的标准差和均值去做行人再识别,存在着在每一个批次的数据需要额外的超参数的缺陷。CN110321862A公开了一种基于紧致三元损失的行人再识别方法,该方法中存在难样本(即最相似的负样本)三元组损失函数训练结果不稳定的缺陷。CN109635636A公开了基于属性特征和加权的分块特征相融合的行人再识别方法,该方法运用传统特征和深度特征相结合,存在着在提高行人再识别准确率的情况下增大了网络结构影响了方法的实时性的缺陷。CN109190471A公开了基于自然语言描述的视频监控行人搜索的注意力模型方法,该方法存在主要去做单词与图像之间的相似性,忽略了文本以及图像之间的上下文信息的缺陷。CN109145763A公开了基于自然语言描述的视频监控行人搜索图像文本融合方法,该方法存在融合权重还是基于文本整体,对无关信息的干扰问题并没有解决的缺陷。
综上所述,基于自然语言描述的行人再识别方法的现有技术中,存在特征提取部分文本特征表征性不高,损失函数部分训练网络困难训练时间长及训练过程要消耗大量内存的缺陷。
发明内容
本发明所要解决的技术问题是:提供一种基于自然语言描述的行人再识别方法,是设计图像和自然语言描述双分支网络结构,图像分支网络结构采用MobileNet卷积网络进行图像特征提取,自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取,对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练,得到的训练模型导入网络之后,在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,克服了现有技术中所存在的特征提取部分文本特征表征性不高,损失函数部分训练网络困难训练时间长及训练过程要消耗大量内存的缺陷。
本发明解决该技术问题所采用的技术方案是:一种基于自然语言描述的行人再识别方法,设计图像和自然语言描述双分支网络结构,图像分支网络结构采用MobileNet卷积网络进行图像特征提取,自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取,对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练,得到的训练模型导入网络之后,在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,具体步骤如下:
第一步,设计图像分支网络结构:
设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取;
第二步,设计自然语言描述分支网络结构:
设计自然语言描述分支网络结构是进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征;
第三步,构建堆叠损失函数L,进行网络训练:
上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分进行构建跨模态损失函数Lit和构建单模态分类损失函数Lid,将跨模态损失函数Lit和单模态分类损失函数Lid合并构建堆叠损失函数L,再进行基于堆叠损失函数L的网络训练,得到训练模型;
第四步,实现基于堆叠损失函数的自然语言描述的行人再识别:
将上述第三步得到的训练模型导入网络之后,在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别;
至此,完成基于自然语言描述的行人再识别。
上述一种基于自然语言描述的行人再识别方法,所述设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取,具体操作如下:
首先搭建如下的MobileNet卷积网络,MobileNet卷积网络由14层卷积层,1层池化层和1层全连接层组成,其中卷积层除了第一层为传统卷积层之外,其它卷积层均为深度可分离卷积层,由一层深度卷积层和一层点卷积层组成;
再进行图像特征提取,过程是,输入MobileNet卷积网络的图像大小为224×224像素,经过MobileNet卷积网络之后特征图大小变为输入图像大小的1/32,输入MobileNet卷积网络的图像经过第一层传统卷积层之后,卷积后的特征图大小为112×112像素,通道数为32;第二层深度可分离卷积层由参数为3×3×32的深度卷积层和参数为1×1×32×64的点卷积层组成,经过第二层卷积后的特征图大小为112×112像素,通道数为64;第三层深度可分离卷积层由参数为3×3×64的深度卷积层和参数为1×1×64×128的点卷积层组成,经过第三层卷积后的特征图大小为56×56像素,通道数为128;第四层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×128的点卷积层组成,经过第四层卷积后的特征图大小为56×56像素,通道数为128;第五层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×256的点卷积层组成,经过第五层卷积后的特征图大小为28×28像素,通道数为256;第六层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×256的点卷积层组成,经过第六层卷积后的特征图大小为28×28像素,通道数为256;第七层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×512的点卷积层组成,第八层至第十二层深度可分离卷积层均由参数为3×3×512深度卷积层和参数为1×1×512×512的点卷积层组成,经过第七层以及第八层至第十二层卷积后的特征图大小为14×14像素,通道数为512;第十三层深度可分离卷积层由参数为3×3×512的深度卷积层和参数为1×1×512×1024的点卷积层组成,经过第十三层卷积后的特征图大小为7×7像素,通道数为1024;第十四层深度可分离卷积层由参数为3×3×1024的深度卷积层和参数为1×1×1024×1024的点卷积层组成,经过第十四层卷积后的特征图大小为7×7像素,通道数为1024;再经过一层池化层,得到特征图大小为1×1像素,通道数为1024的图像特征;为保证图像特征和文本特征的维度相同,将得到的大小为1×1像素,通道数为1024的图像特征经过MobileNet卷积网络之外的一个1×1×1024×512卷积层处理,提取得到图像特征为I∈R1×1×512,由此完成采用MobileNet卷积网络进行图像特征提取的操作。
上述一种基于自然语言描述的行人再识别方法,所述设计自然语言描述分支网络结构是进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征的具体操作如下:
第(2.1)步,文本预处理操作:
通过文本预处理操作得到文本的预处理特征矩阵E,方法是将文本中的句子划分为单词,对每个单词依据词汇表进行one-hot编码,句子中第i个单词的one-hot编码经过词嵌入矩阵
Figure GDA0003725355200000041
得到一个d维特征向量edi,如公式(1)所示,
Figure GDA0003725355200000042
公式(1)中,n是句子长度,v是词汇表的长度,d是edi的维度,
长度为n的句子,其n×v维的one-hot编码经过v×d的词嵌入矩阵,由此完成文本预处理操作得到文本的预处理特征矩阵E;
第(2.2)步,BiLSTM网络提取文本特征:
将上述第(2.1)步得到的文本的预处理特征矩阵E,依据句子长度为n的文本序列顺序,依次通过BiLSTM网络的前向LSTM单元和反向LSTM单元,得到句子的隐藏状态矩阵H,隐藏状态矩阵H中任意时刻t的状态向量
Figure GDA0003725355200000043
由前向隐藏状态
Figure GDA0003725355200000044
和反向隐藏状态
Figure GDA0003725355200000045
合并得到,如公式(2)所示,
Figure GDA0003725355200000046
公式(2)中,t为句子中第t个位置,t∈(1,n)为t的取值范围,
由此通过BiLSTM网络获取到文本特征;
第(2.3)步,截断式注意力机制再处理文本特征:
对软注意力机制添加阈值进行筛选,称为截断式注意力机制,截断式注意力机制由两层全连接层和一层Softmax层组成,
采用截断式注意力机制处理文本特征的具体操作是,将上述第(2.2)步得到的句子的时序状态矩阵H通过截断式注意力机制,得到一个和句子长度n相同维数的权重向量M,如公式(3)所示,
M=softmax(Wt2tanh(Wt1H+b1)+b2) (3),
公式(3)中,Wt1和b1为第一个全连接层的参数,Wt2和b2为第二个全连接层的参数,再通过对得到的权重向量M进行筛选,将权重小于阈值τ的权重向量忽略掉,而其他的权重向量保持不变,得到截断式注意力机制的权重向量Mnew,如公式(4)所示,
Figure GDA0003725355200000051
公式(4)中,x为权重向量M中第x个位置,Mx为权重向量M中第x个位置的权重,n为句子长度,将该截断式注意力机制的权重向量Mnew与上述第(2.2)步得到的隐藏状态矩阵H对应做乘积运算后再求和,得到最终的文本特征T,完成截断式注意力机制处理文本特征,文本特征T定义为如下公式(5),
T=∑MnewH (5),
由此完成截断式注意力机制再处理文本特征;
至此,完成进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征的操作。
上述一种基于自然语言描述的行人再识别方法,所述上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分进行构建跨模态损失函数Lit和构建单模态分类损失函数Lid,将跨模态损失函数Lit和单模态分类损失函数Lid合并构建堆叠损失函数L,再进行基于堆叠损失函数L的网络训练,其具体操作如下:
第(3.1)步,构建跨模态损失函数Lit
将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分组成匹配图像文本特征对(I,T),再将图像特征I与文本特征T在空间上进行相互映射,得到文本特征T空间下的图像特征
Figure GDA0003725355200000052
和图像特征I空间下的文本特征T,再将如此处理后的图像特征和文本特征作如下处理:
随机抽取训练集中部分图像和文本组成一组输入数据输入到神经网络中,将每一个图像特征和所有文本特征根据身份类别进行匹配,得到多个图像文本标签对(Iiid,Tjid),其中Iiid为第i个图像的身份标签,Tjid为第j个文本的身份标签,判断自由组合的图像文本标签对(Iiid,Tjid)是否属于同类,当同属于一类时,结果标签Qij记为1,当不是一类时,结果标签Qij记为0,如公式(6)所示:
Figure GDA0003725355200000053
一组输入的数据大小为r,那么由r×r个结果标签Qij组成标签矩阵Q,结果标签Qij对应的概率分布记为
Figure GDA0003725355200000061
如下公式(7)所示,
Figure GDA0003725355200000062
r×r个
Figure GDA0003725355200000063
组成概率分布矩阵
Figure GDA0003725355200000064
同上,在每次输入数据中,将每一个图像特征和所有的文本特征进行匹配,得到多个图像文本特征对,得到r×r个图文特征匹配结果Pij组成矩阵P;矩阵P经过Softmax层得到对应的r×r的概率分布结果矩阵
Figure GDA0003725355200000065
图文特征匹配结果Pij对应的概率分布是
Figure GDA0003725355200000066
图文特征匹配结果的概率分布
Figure GDA0003725355200000067
和图文标签匹配结果的概率分布
Figure GDA0003725355200000068
之间的距离即是跨模态损失函数Lit,由公式(8)所示,
Figure GDA0003725355200000069
公式(8)中,r为一组输入数据的大小,
Figure GDA00037253552000000610
Figure GDA00037253552000000611
分别表示第i个图像和第j个文本组成的图像文本对的特征和标签匹配结果的概率分布,由此完成构建跨模态损失函数Lit
第(3.2)步,构建单模态分类损失函数Lid
通过如下公式(9)计算获得单模态图像交叉熵损失函数
Figure GDA00037253552000000621
Figure GDA00037253552000000612
通过如下公式(10)计算获得文本多分类交叉熵损失函数
Figure GDA00037253552000000622
Figure GDA00037253552000000613
公式(9)和公式(10)中,Ws为全连接层权重,ψ为线性变换函数,r为输入批次的大小,Ik为第k个图像文本对的图像特征向量,Tk为第k个图像文本对的文本特征向量;
将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T经过线性变换后通过一个全连接层和一个Softmax层,得到单模态图像
Figure GDA00037253552000000614
的预测结果PI和文本多分类损失
Figure GDA00037253552000000615
的预测结果PT
用公式(11)计算图像文本概率分布之间的相对熵之和,
Figure GDA00037253552000000616
公式(11)中,
Figure GDA00037253552000000617
为PI的第q个图像的分类预测结果,
Figure GDA00037253552000000618
为PT的第q个文本的分类预测结果,r为输入批次的大小,Litid为图像文本概率分布之间的损失函数,q为PT和PI中第q个图像或者文本;
通过单模态图像交叉熵损失函数
Figure GDA00037253552000000619
文本多分类交叉熵损失函数
Figure GDA00037253552000000620
和图像文本概率分布之间的损失函数Litid求和,得到基于身份标签的单模态分类损失函数,如公式(12)所示,
Figure GDA0003725355200000071
公式(12)中,Lid为单模态分类损失函数,
由此完成构建单模态分类损失函数Lid
第(3.3)步,构建堆叠损失函数L:
将上述第(3.1)步得到的跨模态损失函数Lit和上述第(3.2)步得到的单模态分类损失函数Lid合并构建得到最终的堆叠损失函数L,如公式(13)所示,
L=Lit+Lid (13),
至此完成了构建堆叠损失函数L;
第(3.4)步,基于堆叠损失函数L的网络训练:
基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训练,具体操作如下:
对于整个训练集,随机抽取其中一部分图像和文本生成神经网络的一组输入数据,将不同次的输入数据分别输入到基于堆叠损失函数L的网络中进行训练,再通过堆叠损失函数L进行模型的优化,缩小跨模态匹配的概率分布差距和单模态分类的概率分布差距进行训练,其中堆叠损失函数L的反向传播算法为Adam,对堆叠损失函数L的梯度依次进行一阶矩估计记为nz和二阶矩估计记为vz,计算公式分别如下公式(14)和公式(15)所示,
nz=β1nz-1+(1-β1)gz (14),
vz=β2vz-1+(1-β2)gz2 (15),
公式(14)和公式(15)中,β1、β2表示默认参数,z为更新的步数,gz表示损失函数L的当前梯度,
再分别对nz、vz进行校正,以将其近似为对期望的无偏估计,校正公式如下公式(16)和公式(17)所示,
Figure GDA0003725355200000072
Figure GDA0003725355200000073
公式(16)和公式(17)中,
Figure GDA0003725355200000074
表示校正后的结果,β1、β2表示默认参数,最后网络参数的优化公式为如下公式(18)所示,
Figure GDA0003725355200000075
公式(18)中,α为学习率,θz为当前的参数权重,θz+1为梯度方向下降后的参数权重,至此实现了基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训练。
上述一种基于自然语言描述的行人再识别方法,所述将上述第三步得到的训练模型导入网络,之后在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,其具体操作如下:
在待测图像集中搜索所包含的对应的行人图像,操作如下,
依据上述第(3.1)步得到文本特征T空间下的图像特征
Figure GDA0003725355200000081
和图像特征I空间下的文本特征T,用以下公式(19)计算余弦距离,
Figure GDA0003725355200000082
公式(19)中,
Figure GDA0003725355200000083
为待测图像集中的第k个图像,
Figure GDA0003725355200000084
为当前输入的自然语言描述文本,Scorek
Figure GDA0003725355200000085
Figure GDA0003725355200000086
的余弦距离,即此时行人图像和自然语言描述文本之间的相似程度,
然后根据测试集图像与目标文本中的余弦距离进行排序,采用rank1,rank5,rank10的精度来进行性能评估,给定一个文本描述,构建待测图像集为
Figure GDA0003725355200000087
其中num表示待测图像集的总数,根据待测图像集里图像与当前输入的自然语言描述文本之间的余弦相似度对所有测试图像进行排序,当前面k个图像中包含对应的行人图像,则表示rank-k搜索成功;
至此,实现了基于堆叠损失函数的自然语言描述的行人再识别。
上述一种基于自然语言描述的行人再识别方法,所述MobileNet卷积网络,BiLSTM以及one-hot编码均是本技术领域的公知技术,其操作方法是本技术领域的技术人员能够掌握的。
本发明的有益效果是:与现有技术相比,本发明具有的突出的实质性特点和显著进步如下:
(1)本发明一种基于自然语言描述的行人再识别方法,是采用深度学习的方法提取图像特征和基于堆叠损失函数的自然语言描述文本的特征,再通过比较图像特征和文本特征之间的相似结果进而实现基于自然语言描述的行人再识别的方法,进一步说是,通过设计图像和自然语言描述双分支网络结构,图像分支网络结构采用MobileNet网络进行图像特征提取,自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取,以此保证图像特征与文本特征之间的特征分布相似,对于图像特征和文本特征不同模态特征的相似性度量部分进行构建堆叠损失函数,该堆叠损失函数分别用在跨模态匹配和单模态分类中,进行网络优化,进行跨模态匹配,区分同一身份的多模态特征,实现基于自然语言描述的行人图像的识别,克服了现有技术中所存在的特征提取部分文本特征表征性不高,损失函数部分训练网络困难训练时间长及训练过程要消耗大量内存的缺陷。
(2)本发明还提出了一种基于软注意力的截断式注意力机制,对不同特征分配不同的权重,通过对文本特征权重筛选,忽略掉其无关部分,提高了文本特征的表征性。
(3)本发明提出了一种堆叠损失函数(即CLF)来度量交叉模式匹配的相似性。堆叠损失函数包括跨模态匹配损失和单模态分类损失,两次采用相对熵并充分利用身份级别信息,堆叠损失函数不仅保证了交叉模态的特征分布更加一致,而且使均匀分布在单模态分类中更加聚类。
(4)与现有技术CN109993070A相比,本发明通过设计堆叠损失函数,将相对熵函数同时使用在单模态分类以及多模态匹配当中,在没有引入额外超参数的同时也提高了分类效果。
(5)与现有技术CN109190446A、CN110321862A和CN109635695A相比,本发明两次使用了相对熵构造了堆叠损失函数,进行跨模态匹配的相似性度量,提高了训练的稳定性以及测试结果的准确性。
(6)与现有技术CN109635636A相比,本发明设计了一个双流网络框架,其中一个使用最少的参数的MobileNet网络提取视觉特征,另一个使用BiLSTM网络提取自然语言文本的特征,在保证了特征的表征性基础上简化了网络结构,减少了网络参数。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明方法流程示意图。
图2为本发明方法的结果效果示意图。
具体实施方式
图1所示实施例表明,本发明一种基于自然语言描述的行人再识别方法的流程是:设计图像分支网络结构;设计自然语言描述分支网络─文本预处理操作,BiLSTM网络的构建,截断式注意力机制处理文本特征→堆叠损失函数的构建及网络训练:构建跨模态损失函数Lit,构建单模态分类损失函数Lid,构建堆叠损失函数L,基于堆叠损失函数L的网络训练→实现基于堆叠损失函数的自然语言描述的行人再识别。
图2所示实施例显示,每一行行人图像图片均为与当前输入文本相似程度靠前的十张图片,第一行的前四张行人图像图片加上边框的行人图像图片为第一个输入文本描述为同一类的行人的图像图片;第二行行人图像图片为与第二个输入文本相似程度靠前的十张图片,此时,其中第2、3、4和9张行人图像图片为与文本描述所同一类的行人的图像图片;第三行行人图像图片为与第三个输入文本相似程度靠前的十张行人图像图片,其中第1、3、4张行人图像图片为与当前文本描述属于同一类的行人的图像图片。
实施例
本实施例一种基于自然语言描述的行人再识别方法,具体步骤如下:
第一步,设计图像分支网络结构:
设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取,具体操作如下:
首先搭建如下的MobileNet卷积网络,MobileNet卷积网络由14层卷积层,1层池化层和1层全连接层组成,其中卷积层除了第一层为传统卷积层之外,其它卷积层均为深度可分离卷积层,由一层深度卷积层和一层点卷积层组成;
再进行图像特征提取,过程是,输入MobileNet卷积网络的图像大小为224×224像素,经过MobileNet卷积网络之后特征图大小变为输入图像大小的1/32,输入MobileNet卷积网络的图像经过第一层传统卷积层之后,卷积后的特征图大小为112×112像素,通道数为32;第二层深度可分离卷积层由参数为3×3×32的深度卷积层和参数为1×1×32×64的点卷积层组成,经过第二层卷积后的特征图大小为112×112像素,通道数为64;第三层深度可分离卷积层由参数为3×3×64的深度卷积层和参数为1×1×64×128的点卷积层组成,经过第三层卷积后的特征图大小为56×56像素,通道数为128;第四层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×128的点卷积层组成,经过第四层卷积后的特征图大小为56×56像素,通道数为128;第五层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×256的点卷积层组成,经过第五层卷积后的特征图大小为28×28像素,通道数为256;第六层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×256的点卷积层组成,经过第六层卷积后的特征图大小为28×28像素,通道数为256;第七层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×512的点卷积层组成,第八层至第十二层深度可分离卷积层均由参数为3×3×512深度卷积层和参数为1×1×512×512的点卷积层组成,经过第七层以及第八层至第十二层卷积后的特征图大小为14×14像素,通道数为512;第十三层深度可分离卷积层由参数为3×3×512的深度卷积层和参数为1×1×512×1024的点卷积层组成,经过第十三层卷积后的特征图大小为7×7像素,通道数为1024;第十四层深度可分离卷积层由参数为3×3×1024的深度卷积层和参数为1×1×1024×1024的点卷积层组成,经过第十四层卷积后的特征图大小为7×7像素,通道数为1024;再经过一层池化层,得到特征图大小为1×1像素,通道数为1024的图像特征;为保证图像特征和文本特征的维度相同,将得到的大小为1×1像素,通道数为1024的图像特征经过MobileNet卷积网络之外的一个1×1×1024×512卷积层处理,提取得到图像特征为I∈R1×1×512,由此完成采用MobileNet卷积网络进行图像特征提取的操作。
第二步,设计自然语言描述分支网络结构:
设计自然语言描述分支网络结构是进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征,具体操作如下:
第(2.1)步,文本预处理操作:
通过文本预处理操作得到文本的预处理特征矩阵E,方法是将文本中的句子划分为单词,对每个单词依据词汇表进行one-hot编码,句子中第i个单词的one-hot编码经过词嵌入矩阵
Figure GDA0003725355200000101
得到一个d维特征向量edi,如公式(1)所示,
Figure GDA0003725355200000102
公式(1)中,n是句子长度,v是词汇表的长度,d是edi的维度,
长度为n的句子,其n×v维的one-hot编码经过v×d的词嵌入矩阵,由此完成文本预处理操作得到文本的预处理特征矩阵E;
第(2.2)步,BiLSTM网络提取文本特征:
将上述第(2.1)步得到的文本的预处理特征矩阵E,依据句子长度为n的文本序列顺序,依次通过BiLSTM网络的前向LSTM单元和反向LSTM单元,得到句子的隐藏状态矩阵H,隐藏状态矩阵H中任意时刻t的状态向量
Figure GDA0003725355200000111
由前向隐藏状态
Figure GDA0003725355200000112
和反向隐藏状态
Figure GDA0003725355200000113
合并得到,如公式(2)所示,
Figure GDA0003725355200000114
公式(2)中,t为句子中第t个位置,t∈(1,n)为t的取值范围,
由此通过BiLSTM网络获取到文本特征;
第(2.3)步,截断式注意力机制再处理文本特征:
对软注意力机制添加阈值进行筛选,称为截断式注意力机制,截断式注意力机制由两层全连接层和一层Softmax层组成,
采用截断式注意力机制处理文本特征的具体操作是,将上述第(2.2)步得到的句子的时序状态矩阵H通过截断式注意力机制,得到一个和句子长度n相同维数的权重向量M,如公式(3)所示,
M=softmax(Wt2tanh(Wt1H+b1)+b2) (3),
公式(3)中,Wt1和b1为第一个全连接层的参数,Wt2和b2为第二个全连接层的参数,再通过对得到的权重向量M进行筛选,将权重小于阈值τ的权重向量忽略掉,而其他的权重向量保持不变,得到截断式注意力机制的权重向量Mnew,如公式(4)所示,
Figure GDA0003725355200000115
公式(4)中,x为权重向量M中第x个位置,Mx为权重向量M中第x个位置的权重,n为句子长度,将该截断式注意力机制的权重向量Mnew与上述第(2.2)步得到的隐藏状态矩阵H对应做乘积运算后再求和,得到最终的文本特征T,完成截断式注意力机制处理文本特征,文本特征T定义为如下公式(5),
T=ΣMnewH (5),
由此完成截断式注意力机制再处理文本特征;
至此,完成进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征的操作。
第三步,构建堆叠损失函数L,进行网络训练:
上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分进行构建跨模态损失函数Lit和构建单模态分类损失函数Lid,将跨模态损失函数Lit和单模态分类损失函数Lid合并构建堆叠损失函数L,再进行基于堆叠损失函数L的网络训练,得到训练模型,其具体操作如下:
第(3.1)步,构建跨模态损失函数Lit
将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T的之间的相似性度量部分组成匹配图像文本特征对(I,T),再将图像特征I与文本特征T在空间上进行相互映射,得到文本特征T空间下的图像特征
Figure GDA0003725355200000121
和图像特征I空间下的文本特征T,再将如此处理后的图像特征和文本特征作如下处理:
随机抽取训练集中部分图像和文本组成一组输入数据输入到神经网络中,将每一个图像特征和所有文本特征根据身份类别进行匹配,得到多个图像文本标签对
Figure GDA0003725355200000122
其中
Figure GDA0003725355200000123
为第i个图像的身份标签,
Figure GDA0003725355200000124
为第j个文本的身份标签,判断自由组合的图像文本标签对
Figure GDA0003725355200000125
是否属于同类,当同属于一类时,结果标签Qij记为1,当不是一类时,结果标签Qij记为0,如公式(6)所示:
Figure GDA0003725355200000126
一组输入的数据大小为r,那么由r×r个结果标签Qij组成标签矩阵Q,结果标签Qij对应的概率分布记为
Figure GDA0003725355200000127
如下公式(7)所示,
Figure GDA0003725355200000128
r×r个
Figure GDA0003725355200000129
组成概率分布矩阵
Figure GDA00037253552000001210
同上,在每次输入数据中,将每一个图像特征和所有的文本特征进行匹配,得到多个图像文本特征对,得到r×r个图文特征匹配结果Pij组成矩阵P;矩阵P经过Softmax层得到对应的r×r的概率分布结果矩阵
Figure GDA00037253552000001211
图文特征匹配结果Pij对应的概率分布是
Figure GDA00037253552000001212
图文特征匹配结果的概率分布
Figure GDA00037253552000001213
和图文标签匹配结果的概率分布
Figure GDA00037253552000001214
之间的距离即是跨模态损失函数Lit,由公式(8)所示,
Figure GDA00037253552000001215
公式(8)中,r为一组输入数据的大小,
Figure GDA00037253552000001216
Figure GDA00037253552000001217
分别表示第i个图像和第j个文本组成的图像文本对的特征和标签匹配结果的概率分布,由此完成构建跨模态损失函数Lit
第(3.2)步,构建单模态分类损失函数Lid
通过如下公式(9)计算获得单模态图像交叉熵损失函数
Figure GDA00037253552000001220
Figure GDA00037253552000001218
通过如下公式(10)计算获得文本多分类交叉熵损失函数
Figure GDA00037253552000001221
Figure GDA00037253552000001219
公式(9)和公式(10)中,Ws为全连接层权重,ψ为线性变换函数,r为输入批次的大小,Ik为第k个图像文本对的图像特征向量,Tk为第k个图像文本对的文本特征向量;
将上述第一步所提取得到的图像特征I和上述第二步所提取得到的文本特征T经过线性变换后通过一个全连接层和一个Softmax层,得到单模态图像
Figure GDA0003725355200000137
的预测结果PI和文本多分类损失
Figure GDA0003725355200000138
的预测结果PT
用公式(11)计算图像文本概率分布之间的相对熵之和,
Figure GDA0003725355200000131
公式(11)中,
Figure GDA0003725355200000132
为PI的第q个图像的分类预测结果,
Figure GDA0003725355200000133
为PT的第q个文本的分类预测结果,r为输入批次的大小,Litid为图像文本概率分布之间的损失函数,q为PT和PI中第q个图像或者文本;
通过单模态图像交叉熵损失函数
Figure GDA0003725355200000134
文本多分类交叉熵损失函数
Figure GDA0003725355200000135
和图像文本概率分布之间的损失函数Litid求和,得到基于身份标签的单模态分类损失函数,如公式(12)所示,
Figure GDA0003725355200000136
公式(12)中,Lid为单模态分类损失函数,
由此完成构建单模态分类损失函数Lid
第(3.3)步,构建堆叠损失函数L:
将上述第(3.1)步得到的跨模态损失函数Lit和上述第(3.2)步得到的单模态分类损失函数Lid合并构建得到最终的堆叠损失函数L,如公式(13)所示,
L=Lit+Lid (13),
至此完成了构建堆叠损失函数L;
第(3.4)步,基于堆叠损失函数L的网络训练:
基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训练,具体操作如下:
对于整个训练集,随机抽取其中一部分图像和文本生成神经网络的一组输入数据,将不同次的输入数据分别输入到基于堆叠损失函数L的网络中进行训练,再通过堆叠损失函数L进行模型的优化,缩小跨模态匹配的概率分布差距和单模态分类的概率分布差距进行训练,其中堆叠损失函数L的反向传播算法为Adam,对堆叠损失函数L的梯度依次进行一阶矩估计记为nz和二阶矩估计记为vz,计算公式分别如下公式(14)和公式(15)所示,
nz=β1nz-1+(1-β1)gz (14),
vz=β2vz-1+(1-β2)gz2 (15),
公式(14)和公式(15)中,β1、β2表示默认参数,z为更新的步数,gz表示损失函数L的当前梯度,
再分别对nz、vz进行校正,以将其近似为对期望的无偏估计,校正公式如下公式(16)和公式(17)所示,
Figure GDA0003725355200000141
Figure GDA0003725355200000142
公式(16)和公式(17)中,
Figure GDA0003725355200000143
表示校正后的结果,β1、β2表示默认参数,最后网络参数的优化公式为如下公式(18)所示,
Figure GDA0003725355200000144
公式(18)中,α为学习率,θz为当前的参数权重,θz+1为梯度方向下降后的参数权重,至此实现了基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训练。
第四步,实现基于堆叠损失函数的自然语言描述的行人再识别:
将上述第三步得到的训练模型导入网络之后,在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,其具体操作如下:
在待测图像集中搜索所包含的对应的行人图像,操作如下,
依据上述第(3.1)步得到文本特征T空间下的图像特征
Figure GDA0003725355200000145
和图像特征I空间下的文本特征T,用以下公式(19)计算余弦距离,
Figure GDA0003725355200000146
公式(19)中,
Figure GDA0003725355200000147
为待测图像集中的第k个图像,
Figure GDA0003725355200000148
为当前输入的自然语言描述文本,Scorek
Figure GDA0003725355200000149
Figure GDA00037253552000001410
的余弦距离,即此时行人图像和自然语言描述文本之间的相似程度,
然后根据测试集图像与目标文本中的余弦距离进行排序,采用rank1,rank5,rank10的精度来进行性能评估,给定一个文本描述,构建待测图像集为
Figure GDA00037253552000001411
其中num表示待测图像集的总数,根据待测图像集里图像与当前输入的自然语言描述文本之间的余弦相似度对所有测试图像进行排序,当前面k个图像中包含对应的行人图像,则表示rank-k搜索成功;
至此,实现了基于堆叠损失函数的自然语言描述的行人再识别,即完成基于自然语言描述的行人再识别。

Claims (1)

1.一种基于自然语言描述的行人再识别方法,其特征在于:设计图像和自然语言描述双分支网络结构,图像分支网络结构采用MobileNet卷积网络进行图像特征提取,自然语言描述分支网络结构通过BiLSTM网络进行文本特征提取,对于图像特征和文本特征之间的相似性度量部分进行构建堆叠损失函数并进行网络训练,得到的训练模型导入网络之后,在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,具体步骤如下:
第一步,设计图像分支网络结构:
设计图像分支网络结构是采用MobileNet卷积网络进行图像特征提取,得到的图像特征I,具体操作如下:
首先搭建如下的MobileNet卷积网络,MobileNet卷积网络由14层卷积层,1层池化层和1层全连接层组成,其中卷积层除了第一层为传统卷积层之外,其它卷积层均为深度可分离卷积层,由一层深度卷积层和一层点卷积层组成;
再进行图像特征提取,过程是,输入MobileNet卷积网络的图像大小为224×224像素,经过MobileNet卷积网络之后特征图大小变为输入图像大小的1/32,输入MobileNet卷积网络的图像经过第一层传统卷积层之后,卷积后的特征图大小为112×112像素,通道数为32;第二层深度可分离卷积层由参数为3×3×32的深度卷积层和参数为1×1×32×64的点卷积层组成,经过第二层卷积后的特征图大小为112×112像素,通道数为64;第三层深度可分离卷积层由参数为3×3×64的深度卷积层和参数为1×1×64×128的点卷积层组成,经过第三层卷积后的特征图大小为56×56像素,通道数为128;第四层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×128的点卷积层组成,经过第四层卷积后的特征图大小为56×56像素,通道数为128;第五层深度可分离卷积层由参数为3×3×128的深度卷积层和参数为1×1×128×256的点卷积层组成,经过第五层卷积后的特征图大小为28×28像素,通道数为256;第六层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×256的点卷积层组成,经过第六层卷积后的特征图大小为28×28像素,通道数为256;第七层深度可分离卷积层由参数为3×3×256的深度卷积层和参数为1×1×256×512的点卷积层组成,第八层至第十二层深度可分离卷积层均由参数为3×3×512深度卷积层和参数为1×1×512×512的点卷积层组成,经过第七层以及第八层至第十二层卷积后的特征图大小为14×14像素,通道数为512;第十三层深度可分离卷积层由参数为3×3×512的深度卷积层和参数为1×1×512×1024的点卷积层组成,经过第十三层卷积后的特征图大小为7×7像素,通道数为1024;第十四层深度可分离卷积层由参数为3×3×1024的深度卷积层和参数为1×1×1024×1024的点卷积层组成,经过第十四层卷积后的特征图大小为7×7像素,通道数为1024;再经过一层池化层,得到特征图大小为1×1像素,通道数为1024的图像特征;为保证图像特征和文本特征的维度相同,将得到的大小为1×1像素,通道数为1024的图像特征经过MobileNet卷积网络之外的一个1×1×1024×512卷积层处理,提取得到图像特征为I∈R1×1×512,由此完成采用MobileNet卷积网络进行图像特征提取的操作;
第二步,设计自然语言描述分支网络结构:
设计自然语言描述分支网络结构是进行文本预处理操作、BiLSTM网络提取文本特征和截断式注意力机制再处理文本特征,具体操作如下:
第(2.1)步,文本预处理操作;
通过文本预处理操作得到文本的预处理特征矩阵E,方法是将文本中的句子划分为单词,对每个单词依据词汇表进行one-hot编码,句子中第i个单词的one-hot编码经过词嵌入矩阵
Figure FDA0003766798850000021
得到一个d维特征向量edi,如公式(1)所示,
Figure FDA0003766798850000022
公式(1)中,n是句子长度,v是词汇表的长度,d是edi的维度,
长度为n的句子,其n×v维的one-hot编码经过v×d的词嵌入矩阵,由此完成文本预处理操作得到文本的预处理特征矩阵E;
第(2.2)步,BiLSTM网络提取文本特征,得到的文本特征T;
将上述第(2.1)步得到的文本的预处理特征矩阵E,依据句子长度为n的文本序列顺序,依次通过BiLSTM网络的前向LSTM单元和反向LSTM单元,得到句子的隐藏状态矩阵H,隐藏状态矩阵H中任意时刻t的状态向量
Figure FDA0003766798850000023
由前向隐藏状态
Figure FDA0003766798850000024
和反向隐藏状态
Figure FDA0003766798850000025
合并得到,如公式(2)所示,
Figure FDA0003766798850000026
公式(2)中,t为句子中第t个位置,t∈(1,n)为t的取值范围,
由此通过BiLSTM网络获取到文本特征T;
第(2.3)步,截断式注意力机制再处理文本特征;
对软注意力机制添加阈值进行筛选,称为截断式注意力机制,截断式注意力机制由两层全连接层和一层Softmax层组成,
采用截断式注意力机制处理文本特征的具体操作是,将上述第(2.2)步得到的句子的时序状态矩阵H通过截断式注意力机制,得到一个和句子长度n相同维数的权重向量M,如公式(3)所示,
M=soft max(Wt2tanh(Wt1H+b1)+b2) (3),
公式(3)中,Wt1和b1为第一个全连接层的参数,Wt2和b2为第二个全连接层的参数,再通过对得到的权重向量M进行筛选,将权重小于阈值τ的权重向量忽略掉,而其他的权重向量保持不变,得到截断式注意力机制的权重向量Mnew,如公式(4)所示,
Figure FDA0003766798850000031
公式(4)中,x为权重向量M中第x个位置,Mx为权重向量M中第x个位置的权重,n为句子长度,将该截断式注意力机制的权重向量Mnew与上述第(2.2)步得到的隐藏状态矩阵H对应做乘积运算后再求和,得到最终的文本特征T,完成截断式注意力机制处理文本特征,文本特征T定义为如下公式(5),
T=ΣMnewH (5),
由此完成截断式注意力机制再处理文本特征;
设计自然语言描述分支网络结构
由此,完成进行文本预处理操作、BiLSTM网络提取文本特征T和截断式注意力机制再处理文本特征的操作;
第三步,构建堆叠损失函数L,进行网络训练:
将上述第一步所提取得到的图像特征I和上述第二步的第(2.2)步所得到的文本特征T的之间的相似性度量部分进行构建跨模态损失函数Lit和构建单模态分类损失函数Lid,将跨模态损失函数Lit和单模态分类损失函数Lid合并构建堆叠损失函数L,再进行基于堆叠损失函数L的网络训练,得到训练模型,具体操作如下:
第(3.1)步,构建跨模态损失函数Lit
将上述第一步所提取得到的图像特征I和上述第二步的第(2.2)步所提取得到的文本特征T的之间的相似性度量部分组成匹配图像文本特征对(I,T),再将图像特征I与文本特征T在空间上进行相互映射,得到文本特征T空间下的图像特征
Figure FDA0003766798850000037
和图像特征I空间下的文本特征T,再将如此处理后的图像特征和文本特征作如下处理:
随机抽取训练集中部分图像和文本组成一组输入数据输入到神经网络中,将每一个图像特征和所有文本特征根据身份类别进行匹配,得到多个图像文本标签对(Iiid,Tjid),其中Iiid为第i个图像的身份标签,Tjid为第j个文本的身份标签,判断自由组合的图像文本标签对(Iiid,Tjid)是否属于同类,当同属于一类时,结果标签Qij记为1,当不是一类时,结果标签Qij记为0,如公式(6)所示:
Figure FDA0003766798850000032
一组输入的数据大小为r,那么由r×r个结果标签Qij组成标签矩阵Q,结果标签Qij对应的概率分布记为
Figure FDA0003766798850000033
如下公式(7)所示,
Figure FDA0003766798850000034
r×r个
Figure FDA0003766798850000035
组成概率分布矩阵
Figure FDA0003766798850000036
同上,在每次输入数据中,将每一个图像特征和所有的文本特征进行匹配,得到多个图像文本特征对,得到r×r个图文特征匹配结果Pij组成矩阵P;矩阵P经过Softmax层得到对应的r×r的概率分布结果矩阵
Figure FDA0003766798850000041
图文特征匹配结果Pij对应的概率分布是
Figure FDA0003766798850000042
图文特征匹配结果的概率分布
Figure FDA0003766798850000043
和图文标签匹配结果的概率分布
Figure FDA0003766798850000044
之间的距离即是跨模态损失函数Lit,由公式(8)所示,
Figure FDA0003766798850000045
公式(8)中,r为一组输入数据的大小,
Figure FDA0003766798850000046
Figure FDA0003766798850000047
分别表示第i个图像和第j个文本组成的图像文本对的特征和标签匹配结果的概率分布,由此完成构建跨模态损失函数Lit
第(3.2)步,构建单模态分类损失函数Lid
通过如下公式(9)计算获得单模态图像交叉熵损失函数LIid
Figure FDA0003766798850000048
通过如下公式(10)计算获得文本多分类交叉熵损失函数LTid
Figure FDA0003766798850000049
公式(9)和公式(10)中,Ws为全连接层权重,ψ为线性变换函数,r为输入批次的大小,Ik为第k个图像文本对的图像特征向量,Tk为第k个图像文本对的文本特征向量;
将上述第一步所提取得到的图像特征I和上述第二步的第(2.2)步所提取得到的文本特征T经过线性变换后通过一个全连接层和一个Softmax层,得到单模态图像LIid的预测结果PI和文本多分类损失LTid的预测结果PT
用公式(11)计算图像文本概率分布之间的相对熵之和,
Figure FDA00037667988500000410
公式(11)中,PIq为PI的第q个图像的分类预测结果,PTq为PT的第q个文本的分类预测结果,r为输入批次的大小,Litid为图像文本概率分布之间的损失函数,q为PT和PI中第q个图像或者文本;
通过单模态图像交叉熵损失函数LIid、文本多分类交叉熵损失函数LTid和图像文本概率分布之间的损失函数Litid求和,得到基于身份标签的单模态分类损失函数,如公式(12)所示,
Lid=LIid+LTid+Litid (12),
公式(12)中,Lid为单模态分类损失函数,
由此完成构建单模态分类损失函数Lid
第(3.3)步,构建堆叠损失函数L:
将上述第(3.1)步得到的跨模态损失函数Lit和上述第(3.2)步得到的单模态分类损失函数Lid合并构建得到最终的堆叠损失函数L,如公式(13)所示,
L=Lit+Lid (13),
由此完成了构建堆叠损失函数L;
第(3.4)步,基于堆叠损失函数L的网络训练:
基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训练,具体操作如下:
对于整个训练集,随机抽取其中一部分图像和文本生成神经网络的一组输入数据,将不同次的输入数据分别输入到基于堆叠损失函数L的网络中进行训练,再通过堆叠损失函数L进行模型的优化,缩小跨模态匹配的概率分布差距和单模态分类的概率分布差距进行训练,其中堆叠损失函数L的反向传播算法为Adam,对堆叠损失函数L的梯度依次进行一阶矩估计记为nz和二阶矩估计记为vz,计算公式分别如下公式(14)和公式(15)所示,
nz=β1nz-1+(1-β1)gz (14),
vz=β2vz-1+(1-β2)gz2 (15),
公式(14)和公式(15)中,β1、β2表示默认参数,z为更新的步数,gz表示损失函数L的当前梯度,
再分别对nz、vz进行校正,以将其近似为对期望的无偏估计,校正公式如下公式(16)和公式(17)所示,
Figure FDA0003766798850000051
Figure FDA0003766798850000052
公式(16)和公式(17)中,
Figure FDA0003766798850000053
表示校正后的结果,β1、β2表示默认参数,最后网络参数的优化公式为如下公式(18)所示,
Figure FDA0003766798850000054
公式(18)中,α为学习率,θz为当前的参数权重,θz+1为梯度方向下降后的参数权重,由此实现了基于堆叠损失函数L的网络训练即为对基于自然语言描述的行人再识别方法的训练;
第四步,实现基于堆叠损失函数的自然语言描述的行人再识别:
将上述第三步得到的训练模型导入网络之后,在待测图像集中搜索所包含的对应的行人图像,实现基于堆叠损失函数的自然语言描述的行人再识别,具体操作如下:
依据上述第(3.1)步得到文本特征T空间下的图像特征
Figure FDA0003766798850000055
和图像特征I空间下的文本特征T,用以下公式(19)计算余弦距离,
Figure FDA0003766798850000056
公式(19)中,
Figure FDA0003766798850000061
为待测图像集中的第k个图像,
Figure FDA0003766798850000062
为当前输入的自然语言描述文本,Scorek
Figure FDA0003766798850000063
Figure FDA0003766798850000064
的余弦距离,即此时行人图像和自然语言描述文本之间的相似程度,然后根据测试集图像与目标文本中的余弦距离进行排序,采用rank1,rank5,rank10的精度来进行性能评估,给定一个文本描述,构建待测图像集为
Figure FDA0003766798850000065
其中num表示待测图像集的总数,根据待测图像集里图像与当前输入的自然语言描述文本之间的余弦相似度对所有测试图像进行排序,当前面k个图像中包含对应的行人图像,则表示rank-k搜索成功,由此实现了基于堆叠损失函数的自然语言描述的行人再识别;
至此,完成基于自然语言描述的行人再识别。
CN201911148055.6A 2019-11-21 2019-11-21 一种基于自然语言描述的行人再识别方法 Active CN110909673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911148055.6A CN110909673B (zh) 2019-11-21 2019-11-21 一种基于自然语言描述的行人再识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911148055.6A CN110909673B (zh) 2019-11-21 2019-11-21 一种基于自然语言描述的行人再识别方法

Publications (2)

Publication Number Publication Date
CN110909673A CN110909673A (zh) 2020-03-24
CN110909673B true CN110909673B (zh) 2022-09-16

Family

ID=69818313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911148055.6A Active CN110909673B (zh) 2019-11-21 2019-11-21 一种基于自然语言描述的行人再识别方法

Country Status (1)

Country Link
CN (1) CN110909673B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428801B (zh) * 2020-03-30 2022-09-27 新疆大学 改进融合层与损失函数交替更新的图文匹配方法
CN111738186B (zh) * 2020-06-28 2024-02-02 香港中文大学(深圳) 目标定位方法、装置、电子设备及可读存储介质
CN111898510B (zh) * 2020-07-23 2023-07-28 合肥工业大学 一种基于渐进式神经网络的跨模态行人再识别方法
CN111984791B (zh) * 2020-09-02 2023-04-25 南京信息工程大学 一种基于注意力机制的长文分类方法
CN112241682B (zh) * 2020-09-14 2022-05-10 同济大学 一种基于分块以及多层信息融合的端到端行人搜索方法
CN112668544B (zh) * 2021-01-13 2022-03-22 昆明理工大学 一种基于难样本混淆增强特征鲁棒性的行人重识别方法
CN112817604B (zh) * 2021-02-18 2022-08-05 北京邮电大学 安卓系统控件意图识别方法、装置、电子设备及存储介质
CN113034592B (zh) * 2021-03-08 2021-08-31 西安电子科技大学 基于自然语言描述的三维场景目标检测建模及检测方法
CN113011322B (zh) * 2021-03-17 2023-09-05 贵州安防工程技术研究中心有限公司 监控视频特定异常行为的检测模型训练方法及检测方法
CN113220919B (zh) * 2021-05-17 2022-04-22 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113535914B (zh) * 2021-06-11 2024-05-21 中国海洋大学 一种文本语义相似度计算方法
CN114419678B (zh) * 2022-03-30 2022-06-14 南京甄视智能科技有限公司 基于行人重识别的训练和识别方法、装置、介质及设备
CN114821770B (zh) * 2022-04-11 2024-03-26 华南理工大学 文本到图像的跨模态行人再识别方法、系统、介质和设备
CN115830721B (zh) * 2022-11-02 2024-05-03 深圳市新良田科技股份有限公司 活体检测方法、装置、终端设备和可读存储介质
CN116775918B (zh) * 2023-08-22 2023-11-24 四川鹏旭斯特科技有限公司 基于互补熵对比学习跨模态检索方法、系统、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190471B (zh) * 2018-07-27 2021-07-13 天津大学 基于自然语言描述的视频监控行人搜索的注意力模型方法
CN109145763B (zh) * 2018-07-27 2021-07-13 天津大学 基于自然语言描述的视频监控行人搜索图像文本融合方法
CN109784197B (zh) * 2018-12-21 2022-06-07 西北工业大学 基于孔洞卷积与注意力学习机制的行人再识别方法
CN109829430B (zh) * 2019-01-31 2021-02-19 中科人工智能创新技术研究院(青岛)有限公司 基于异构层次化注意机制的跨模态行人再识别方法及系统
CN110222560B (zh) * 2019-04-25 2022-12-23 西北大学 一种嵌入相似性损失函数的文本人员搜索方法

Also Published As

Publication number Publication date
CN110909673A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110909673B (zh) 一种基于自然语言描述的行人再识别方法
CN113220919B (zh) 一种大坝缺陷图像文本跨模态检索方法及模型
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN113343707B (zh) 一种基于鲁棒性表征学习的场景文本识别方法
CN111428718B (zh) 一种基于图像增强的自然场景文本识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN112329760B (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN111340123A (zh) 一种基于深度卷积神经网络的图像分数标签预测方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN114973222B (zh) 基于显式监督注意力机制的场景文本识别方法
CN116775922A (zh) 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN112800876A (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN113822125B (zh) 唇语识别模型的处理方法、装置、计算机设备和存储介质
CN112818850B (zh) 基于渐进式神经网络和注意力机制的跨姿态人脸识别方法和系统
CN112861524A (zh) 一种基于深度学习的多层次中文细粒度情感分析方法
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN112364791A (zh) 一种基于生成对抗网络的行人重识别方法和系统
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN114154016A (zh) 基于目标空间语义对齐的视频描述方法
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN115512096A (zh) 基于CNN与Transformer的低分辨率图像分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant