CN114972795B - 一种结合属性检测和视觉感知的服装图像字幕生成方法 - Google Patents

一种结合属性检测和视觉感知的服装图像字幕生成方法 Download PDF

Info

Publication number
CN114972795B
CN114972795B CN202111650461.XA CN202111650461A CN114972795B CN 114972795 B CN114972795 B CN 114972795B CN 202111650461 A CN202111650461 A CN 202111650461A CN 114972795 B CN114972795 B CN 114972795B
Authority
CN
China
Prior art keywords
visual
national
image
attention
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111650461.XA
Other languages
English (en)
Other versions
CN114972795A (zh
Inventor
刘骊
张绪辉
付晓东
黄青松
刘利军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111650461.XA priority Critical patent/CN114972795B/zh
Publication of CN114972795A publication Critical patent/CN114972795A/zh
Application granted granted Critical
Publication of CN114972795B publication Critical patent/CN114972795B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及结合属性检测和视觉感知的民族服装图像字幕生成方法。先输入民族服装图像集,按不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top‑K显著属性检测概率,获得初步属性检测结果;根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕。本发明能用于民族服装图像字幕生成,具有较高的识别精确度和效率。

Description

一种结合属性检测和视觉感知的服装图像字幕生成方法
技术领域
本发明涉及一种结合属性检测和视觉感知的民族服装图像字幕生成方法,属于计算机视觉、图像应用领域。
背景技术
图像字幕(Image Caption)是场景理解的重要组成部分,最初针对普通场景下的对象进行识别理解,近几年扩展到不同应用场景如数字化服装、医学报告生成等。通常公知的方法基于编码器-解码器的结构实现字幕生成,并在此结构中的某一端进行改进,如针对编码端进行改进的相关网络NIC、SCA-CNN、sGPN、CAAG、ACG、 DaE等,以及针对解码端进行改进的如SCN-LSTM、LSTM-C、Skel-LSTM、LSTM-A、 R-LSTM、SAP-LSTM等。然而,对于款式结构复杂、语义及颜色丰富的民族服装而言,公知方法存在很大的局限性:仅提取底层特征而忽略属性信息与视觉特征,无法实现民族服装图像字幕准确生成。本发明通过提取民族服装的视觉、文本特征,以及采用属性检测和建立视觉感知模型来融合注意力机制和语义上下文,能有效解决民族服装图像的有效识别和字幕生成等问题,提高输出文本描述的准确率。
公知的图像字幕生成方法大多针对普通场景图像下的字幕生成。例如,YQ Huang(<IEEE Transactions on Image Processing>29,2020,4013~4026)通过对属性嵌入和对象特征之间的相似性建模预测属性概率分布,并结合了后续属性预测模块提高生成属性的准确率。但是该方法对于图像特征及语义属性的建模过于单一,无法妥善处理语义信息更为复杂、生成结果精度要求更高的图像字幕生成任务。S Wang(<ICASSP>2021,2245~2249)通过结合低级视觉信息和高级语义属性,实现了细粒度的图像字幕生成。该方法采用的三层LSTM网络,使得模型参数过于复杂,收敛速度较慢,并且在民族服装图像数据集上鲁棒性较差。XR Li(<Pattern Recognition Letters>141,2021,68~74)通过结合属性检测和门控注意力机制首次完成了针对服装图像字幕生成的工作,同时还对注意力结果进行了评估。但是对于属性检测结果和视觉特征的利用并不充分,没有通过注意力机制对二者关联性紧密结合,导致图像字幕生成的结果并不理想。公知的发明专利CN 107608943 B同样采取了视觉、语义双重注意力机制来生成自动平衡策略模型,并在结合了多层感知机模型MLP的基础上将得到的所有生成词进行串联组合产生更为精确的字幕。但是该公知发明方法没有利用输入图像的属性检测结果,无法结合图像中对象的属性来实现字幕生成工作。虽然这些方法都取得了不错的效果,但是针对款式结构复杂、语义及颜色丰富的民族服装而言仍有较大局限性。本发明基于民族服装的区域结构及语义属性,结合了属性检测和视觉感知技术,通过构建的视觉感知模型能有效关注民族服装图像的显著区域,实现针对民族服装特点的图像字幕生成。
发明内容
本发明提供了一种结合属性检测和视觉感知的民族服装图像字幕生成方法,针对民族服装图像的特殊性,提取民族服装图像的视觉显著区域及语义属性,从而实现对民族服装图像关键信息(风格、款式等)的字幕生成。
本发明的技术方案是:一种结合属性检测和视觉感知的民族服装图像字幕生成方法,所述方法的具体步骤如下:
Step1、输入民族服装图像集,按照不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;
Step2、对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top-K显著属性检测概率,获得初步属性检测结果;
Step3、根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;
Step4、通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕。
所述Step1具体如下:
根据民族服装的不同区域(领口、袖子、上衣等),采用Faster R-CNN对输入的民族服装图像集I={I1,I2,...In}进行显著区域检测,n表示民族服装图像集中图像数量。再采用VGG16进行特征提取,得到表示民族服装图像中显著区域的视觉特征 Vj={V1,V2,...Vm},其中j表示第j个显著区域,m表示该幅图像中显著区域的数量。
所述Step3具体如下:
首先,根据民族服装的种类和结构知识,对民族服装图像集的民族种类、服装款式、和颜色等属性进行语义标注,得到n幅图像对应的文本描述w={w1,w2,...wn},生成词汇表W,其中n表示民族服装图像数量。每幅图像文本描述的单词序列为Y={y1,y2,...yt},采用词嵌入方法得到输入词的词向量Eyt,其中E表示民族服装词汇表W的词嵌入矩阵,yt表示时间步t内输入的单词。
然后,结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型。
将Step1得到的民族服装图像的视觉特征Vj、t-1时间步内第一层LSTM的输出
Figure BDA00034447379300000317
以及词向量Eyt,融合后输入第一层LSTM得到当前时间步t的输出
Figure BDA0003444737930000031
再融合
Figure BDA0003444737930000032
Step2中获得的Top-K初步属性S={S1,S2,...Si}及对应的属性概率P={P1,P2,...Pi}(其中,i表示检测到的第i个属性及该属性的概率) 后输入语义注意力模块,得到表示语义属性的归一化注意力权重
Figure BDA0003444737930000033
其中i表示第i个语义属性的注意力权重,ωa、ωah、ωs分别是权重αi、向量
Figure BDA0003444737930000034
Si待学习的参数。基于检测到的Top-K语义属性Si和归一化注意力权重αi得到输入图像的语义上下文
Figure BDA0003444737930000035
最后,融合语义上下文
Figure BDA0003444737930000036
第一层LSTM的输出
Figure BDA0003444737930000037
t-1时间步内第二层LSTM 的输出
Figure BDA0003444737930000038
输入第二层LSTM得到输出
Figure BDA0003444737930000039
Figure BDA00034447379300000310
Step2中检测到的输入图像Top-K属性S={S1,S2,...Si}融合后输入视觉注意力模块。再结合语义属性Si以及输入图像的m个显著区域的视觉特征,通过关联匹配语义属性和视觉区域,得到表示显著区域视觉特征的归一化注意力权重
Figure BDA00034447379300000311
其中j表示第j个显著区域,ωb、ωbh、ωs、ωV分别是权重βj、向量
Figure BDA00034447379300000312
Si、Vj待学习的参数。基于第j个显著区域的归一化注意力权重βj与显著视觉特征Vj,得到输入图像m个显著区域的视觉注意力结果
Figure BDA00034447379300000313
所述Step4具体如下:
首先,融合语义上下文和视觉注意力结果,引入信息向量
Figure BDA00034447379300000314
其中
Figure BDA00034447379300000315
分别为M中向量
Figure BDA00034447379300000316
的待学习参数,b1为偏差。
然后,引入注意力门
Figure BDA0003444737930000041
通过Sigmoid激活函数输出0-1 之间的概率值对视觉和语义信息的关联性进行评估。对信息向量及注意力门采用点积运算得到最终的注意力结果AF=M⊙G,其中为
Figure BDA0003444737930000042
分别为G中向量
Figure BDA0003444737930000043
的待训练参数,b2为偏差。
之后,在时间步t通过计算民族服装词汇表W上的条件概率生成字幕,定义所有可能输出词的概率为
Figure BDA0003444737930000044
其中
Figure BDA0003444737930000045
是向量AF待学习的参数,b3是偏差,通过归一化后得到结果yt+1
最后,重复执行上述过程,直至生成当前民族服装图像对应的完整文本描述 w’={w’1,w’2,...w’n}。
本发明的有益效果是:
1、本发明根据民族服装特点,通过对民族服装图像的关键信息(种类、款式、颜色等)进行语义标注,自定义了民族服装图像集I及关键信息词汇表W,提升后续民族服装字幕生成的准确率,解决了民族服装数据集和词向量匮乏的问题。
2、本发明围绕民族服装款式结构复杂、语义及颜色丰富等特殊性,在对输入图像进行属性检测后,通过采用视觉、语义注意力机制结合属性检测结果,实现了高级语义和视觉区域的匹配,解决了民族服装图像属性信息复杂、不同民族服装图像相似度高难以生成正确字幕的问题,具有较好的性能。
3、本发明通过采用门控注意力机制,实现了对语义上下文和视觉注意力结果的优化及关联性评估,解决了注意力单元输出加权平均向量会导致不相关语义信息产生,从而影响结果准确性的问题,具有较高准确率。
附图说明
图1为本发明的流程图;
图2为本发明的民族服装图像显著区域视觉特征提取示例图;
图3为本发明的属性识别检测准确率-召回率曲线图;
图4为本发明的视觉感知模型示例图;
图5为以鄂温克族女性服装为例,本发明的注意力可视化结果示例图;
图6为以仡佬族女性服装为例,本发明的注意力可视化结果示例图;
图7为以京族男性服装为例,本发明的注意力可视化结果示例图;
图8为本发明的民族服装图像字幕生成结果示例图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
实施例1:如图1-图8所示,一种结合属性检测和视觉感知的民族服装图像字幕生成方法,包括如下步骤:
Step1、输入民族服装图像集,按照不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;
Step2、对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top-K显著属性检测概率,获得初步属性检测结果;
Step3、根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;
Step4、通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕。
进一步地,可设置,所述Step1具体如下:
根据民族服装的不同区域(领口、袖子、上衣等),采用Faster R-CNN对输入的民族服装图像集I={I1,I2,...In}进行显著区域检测,n表示民族服装图像集中图像数量。再采用VGG16进行特征提取,得到表示民族服装图像中显著区域的视觉特征 Vj={V1,V2,...Vm},其中j表示第j个显著区域,m表示该幅图像中显著区域的数量。
进一步地,可设置,所述Step3具体如下:
首先,根据民族服装的种类和结构知识,对民族服装图像集的民族种类、服装款式、和颜色等属性进行语义标注,得到n幅图像对应的文本描述w={w1,w2,...wn},生成词汇表W,其中n表示民族服装图像数量。每幅图像文本描述的单词序列为 Y={y1,y2,...yt},采用词嵌入方法得到输入词的词向量Eyt,其中E表示民族服装词汇表W的词嵌入矩阵,yt表示时间步t内输入的单词。
然后,结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型。
将Step1得到的民族服装图像的视觉特征Vj、t-1时间步内第一层LSTM的输出
Figure BDA0003444737930000061
以及词向量Eyt,融合后输入第一层LSTM得到当前时间步t的输出
Figure BDA0003444737930000062
再融合
Figure BDA0003444737930000063
Step2中获得的Top-K初步属性S={S1,S2,...Si}及对应的属性概率P={P1,P2,...Pi}(其中,i表示检测到的第i个属性及该属性的概率) 后输入语义注意力模块,得到表示语义属性的归一化注意力权重
Figure BDA0003444737930000064
其中i表示第i个语义属性的注意力权重,ωa、ωah、ωs分别是权重αi、向量
Figure BDA0003444737930000065
Si待学习的参数。基于检测到的Top-K语义属性Si和归一化注意力权重αi得到输入图像的语义上下文
Figure BDA0003444737930000066
最后,融合语义上下文
Figure BDA0003444737930000067
第一层LSTM的输出
Figure BDA0003444737930000068
t-1时间步内第二层LSTM 的输出
Figure BDA0003444737930000069
输入第二层LSTM得到输出
Figure BDA00034447379300000610
Figure BDA00034447379300000611
Step2中检测到的输入图像Top-K属性S={S1,S2,...Si}融合后输入视觉注意力模块。再结合语义属性Si以及输入图像的m个显著区域的视觉特征,通过关联匹配语义属性和视觉区域,得到表示显著区域视觉特征的归一化注意力权重
Figure BDA00034447379300000612
其中j表示第j个显著区域,ωb、ωbh、ωs、ωV分别是权重βj、向量
Figure BDA00034447379300000613
Si、Vj待学习的参数。基于第j个显著区域的归一化注意力权重βj与显著视觉特征Vj,得到输入图像m个显著区域的视觉注意力结果
Figure BDA00034447379300000614
进一步地,可设置,所述Step4具体如下:
首先,融合语义上下文和视觉注意力结果,引入信息向量
Figure BDA00034447379300000615
其中
Figure BDA00034447379300000616
分别为M中向量
Figure BDA00034447379300000617
的待学习参数,b1为偏差。
然后,引入注意力门
Figure BDA00034447379300000618
通过Sigmoid激活函数输出0-1 之间的概率值对视觉和语义信息的关联性进行评估。对信息向量及注意力门采用点积运算得到最终的注意力结果AF=M⊙G,其中为
Figure BDA00034447379300000619
分别为G中向量
Figure BDA00034447379300000620
的待训练参数,b2为偏差。
之后,在时间步t通过计算民族服装词汇表W上的条件概率生成字幕,定义所有可能输出词的概率为
Figure BDA0003444737930000071
其中
Figure BDA0003444737930000072
是向量AF待学习的参数,b3是偏差,通过归一化后得到结果yt+1
最后,重复执行上述过程,直至生成当前民族服装图像对应的完整文本描述 w’={w’1,w’2,...w’n}。
实施例2:一种结合属性检测和视觉感知的民族服装图像字幕生成方法,包括:
Step1、如图2所示,以仡佬族男性服装为例,根据民族服装的不同区域(领口、袖子、上衣等),对输入的民族服装图像集进行显著区域标注,并基于该数据集对Faster R-CNN进行预训练。采用经过预训练后的Faster R-CNN对输入的民族服装图像集I={I1,I2,...In}进行显著区域检测,其中n表示民族服装图像集中图像数量。
如图2所示,以仡佬族男性服装为例,采用经过自定义的民族服装数据集预训练后的VGG16模型对输入的民族服装图像进行显著区域特征提取,本发明采用的 VGG16去掉了最后一层的全连接层,仅使用提取的视觉特征作为后续输入,由此得到每幅民族服装图像中的关键区域的不同层次特征vx={v1,v2,...vz},经过平均池化
Figure BDA0003444737930000073
后得到每幅图像显著区域的视觉特征Vj={V1,V2,...Vm},其中x表示提取特征的不同层次,z表示测试数据时设置的卷积层数,j表示第j个显著区域,m 表示该幅图像中显著区域的数量。
Step2、本发明方法选择将所有出现5次以上的单词组成民族服装图像字幕词汇表W,并按照频率高低进行划分,部分词汇表及词汇信息如表1所示。
表1
Figure BDA0003444737930000074
Figure BDA0003444737930000081
如图3所示,对提取到的视觉特征进行属性检测,通过词嵌入将文本信息转换为向量形式,结合得到的视觉特征Vj通过Sigmoid层生成初始属性概率矩阵 Ppre=sigmoid(WVVj),其中WV是向量Vj的待训练参数。再采用多实例学习将初始概率矩阵中的每一行概率合并,以预测出输入图像包含所有属性的最终概率
Figure BDA0003444737930000082
表示输入图像中m个显著区域中检测到的所有属性概率。通过设定一个精度阈值以输出具有较高概率排名的属性{Att1,Att2,...AttK},得到Top-K 属性检测结果Si,i表示检测到的第i个属性。如图3所示,采用准确率-召回率折线图表示本发明方法中属性检测模块的性能,选择Top-K={10,15,20,25,30}的属性词对该模块进行评估测试。其准确率-召回率计算公式为:
Figure BDA0003444737930000083
其中Strue是检测到的属性中的正确属性,S是检测到的全部语义属性。
Step3、首先,根据民族服装的种类和结构知识,对民族服装图像集的民族种类、服装款式和颜色等属性进行语义标注,具体定义了12种不同的颜色属性,2种性别类型,55种民族类别及各民族对应的服装款式、形状等属性信息;再将这些属性信息作为训练标签,得到n幅图像对应的文本描述w={w1,w2,...wn}。每幅图像文本描述的单词序列为Y={y1,y2,...yt},采用词嵌入方法得到输入词的词向量Eyt,其中E表示民族服装词汇表W的词嵌入矩阵,yt表示时间步t内输入的单词。表2为自定义的民族服装语义属性及文本描述实例。
表2
Figure BDA0003444737930000091
然后,如图4所示,以佤族女性服装为例,结合视觉、语义注意力机制的双层 LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型,通过视觉感知模型得到佤族女性服装图像字幕生成结果及注意力可视化结果。
将Step1得到的民族服装图像的视觉特征Vj、t-1时间步内第一层LSTM的输出
Figure BDA0003444737930000092
以及词向量Eyt,融合后输入第一层LSTM得到当前时间步t的输出
Figure BDA0003444737930000093
再融合
Figure BDA0003444737930000094
Step2中获得的Top-K初步属性S={S1,S2,...Si}及对应的属性概率P={P1,P2,...Pi}(其中,i表示检测到的第i个属性)后输入语义注意力模块,得到表示语义属性的归一化注意力权重
Figure BDA0003444737930000095
其中i表示第i个语义属性的注意力权重,ωa、ωah、ωs分别是权重αi、向量
Figure BDA0003444737930000096
Si待学习的参数。基于检测到的Top-K语义属性Si和归一化注意力权重αi得到输入图像的语义上下文
Figure BDA0003444737930000097
最后,融合语义上下文
Figure BDA0003444737930000101
第一层LSTM的输出
Figure BDA0003444737930000102
t-1时间步内第二层LSTM 的输出
Figure BDA0003444737930000103
输入第二层LSTM得到输出
Figure BDA0003444737930000104
Figure BDA0003444737930000105
Step2中检测到的输入图像Top-K属性S={S1,S2,...Si}融合后输入视觉注意力模块。再结合语义属性Si以及输入图像的m个显著区域的视觉特征,通过关联匹配语义属性和视觉区域,为了更好的说明本方法在识别民族类别、属性等信息方面较其他方法有更好的效果,将本文提出的方法与其他的基于属性检测的图像字幕方法进行比较,比较结果如图所示。得到表示显著区域视觉特征的归一化注意力权重
Figure BDA0003444737930000106
其中j表示第j个显著区域,ωb、ωbh、ωs、ωV分别是权重βj、向量
Figure BDA0003444737930000107
Si、Vj待学习的参数。基于第j个显著区域的归一化注意力权重βj与显著视觉特征Vj,得到输入图像m个显著区域的视觉注意力结果
Figure BDA0003444737930000108
本发明方法通过结合属性检测和视觉感知模块来生成输入图像所属民族类别、性别、颜色、服装形状款式等关键信息,采用交叉熵损失函数训练模型生成关键信息的准确性:
Figure BDA0003444737930000109
其中n表示民族服装数据集数量、D 表示要生成的某一类属性的数量(如民族服装图像在本发明中共定义55个民族类别,则民族类别属性数量为55)、d表示生成属性类别中的第d个属性(如民族类别共 55种,第二个属性民族定义为白族)、ond表示符号函数(0或1)、pnd代表观测样本n属于类别d的预测概率,如果预测的结果越接近真实值(Ground Truth),则loss 越小。
如图5、图6、图7所示,本发明方法中的视觉感知模块在不同的时间步内关注与生成词最相关的图像信息,在每个时间步t内,语义注意力模块通过结合Top-K显著属性对不相关的视觉特征进行过滤,从而在之后的视觉注意力层实现更为精确的视觉区域和语义属性的关联匹配;视觉注意力模块会根据输出的语义注意力权重大小,将不同输出词与图像相关区域进行关联匹配,使得输出的图像字幕更为准确具体。
Step4、首先,融合语义上下文和视觉注意力结果,引入信息向量
Figure BDA0003444737930000111
其中
Figure BDA0003444737930000112
分别为M中向量
Figure BDA0003444737930000113
的待学习参数,b1为偏差。
然后,引入注意力门
Figure BDA0003444737930000114
通过Sigmoid激活函数输出0-1 之间的概率值对视觉和语义信息的关联性进行评估。对信息向量及注意力门采用点积运算得到最终的注意力结果AF=M⊙G,其中
Figure BDA0003444737930000115
分别为G中向量
Figure BDA0003444737930000116
的待训练参数,b2为偏差。
之后,在时间步t通过计算民族服装词汇表W上的条件概率生成字幕,定义所有可能输出词的概率为
Figure BDA0003444737930000117
其中
Figure BDA0003444737930000118
是向量AF待学习的参数,b3是偏差,再通过归一化后得到结果yt+1
最后,重复执行上述过程,直至生成当前民族服装图像对应的完整文本描述 w’={w’1,w’2,...w’n}。为了使得生成的文本描述信息准确、语句通顺,使用字符串 <startseq>、<endseq>来表示输出单词的开始与结束,以侗族女性服装为例,单词序列输出过程见表3。
表3
Figure BDA0003444737930000119
Figure BDA0003444737930000121
如表4所示,为了评估本发明方法的准确率,将最终生成的图像字幕中民族类别、性别、颜色、服装形状及款式作为评价标准,与图像字幕的真实值进行对比,以获取最终的民族服装图像字幕生成准确率结果。
表4
Figure BDA0003444737930000122
如图8所示,通过本发明方法的最终输出结果,实现了对以上民族服装关键信息较为准确的字幕生成。其中,每个关键信息的
Figure BDA0003444737930000123
其中TP为实际正类预测为正类的数量、FN为实际正类预测为负类的数量、FP实际负类预测为正类的数量、TN实际负类预测为负类的数量。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (2)

1.一种结合属性检测和视觉感知的民族服装图像字幕生成方法,其特征在于:包括如下步骤:
Step1、输入民族服装图像集,按照不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;
Step2、对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top-K显著属性检测概率,获得初步属性检测结果;
Step3、根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;
Step4、通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕;
所述Step3的具体过程为:
首先,根据民族服装的种类和结构知识,对民族服装图像集的属性进行语义标注,得到n幅图像对应的文本描述w={w1,w2,...wn},生成词汇表W,其中n表示民族服装图像数量;每幅图像文本描述的单词序列为Y={y1,y2,...yt},采用词嵌入方法得到输入词的词向量Eyt,其中E表示民族服装词汇表W的词嵌入矩阵,yt表示时间步t内输入的单词;
然后,结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型;
将Step1得到的民族服装图像的视觉特征Vj、t-1时间步内第一层LSTM的输出
Figure FDA0004036765270000011
以及词向量Eyt,融合后输入第一层LSTM得到当前时间步t的输出
Figure FDA0004036765270000012
再融合
Figure FDA0004036765270000013
Step2中获得的Top-K初步属性S={S1,S2,...Si}及对应的属性概率P={P1,P2,...Pi}后输入语义注意力模块,其中,i表示检测到的第i个属性,得到表示语义属性的归一化注意力权重
Figure FDA0004036765270000014
其中i表示第i个语义属性的注意力权重,ωa、ωah、ωs分别是权重αi、向量
Figure FDA0004036765270000015
Si待学习的参数,基于检测到的Top-K语义属性Si和归一化注意力权重αi得到输入图像的语义上下文
Figure FDA0004036765270000021
最后,融合语义上下文
Figure FDA0004036765270000022
第一层LSTM的输出
Figure FDA0004036765270000023
t-1时间步内第二层LSTM的输出
Figure FDA0004036765270000024
输入第二层LSTM得到输出
Figure FDA0004036765270000025
Figure FDA0004036765270000026
Step2中检测到的输入图像Top-K属性S={S1,S2,...Si}融合后输入视觉注意力模块;再结合语义属性Si以及输入图像的m个显著区域的视觉特征,通过关联匹配语义属性和视觉区域,得到表示显著区域视觉特征的归一化注意力权重
Figure FDA0004036765270000027
其中j表示第j个显著区域,ωb、ωbh、ωs、ωV分别是权重βj、向量
Figure FDA0004036765270000028
Si、Vj待学习的参数;基于第j个显著区域的归一化注意力权重βj与显著视觉特征Vj,得到输入图像m个显著区域的视觉注意力结果
Figure FDA0004036765270000029
所述Step4的具体过程为:
首先,融合语义上下文和视觉注意力结果,引入信息向量
Figure FDA00040367652700000210
其中
Figure FDA00040367652700000211
Figure FDA00040367652700000212
分别为M中向量
Figure FDA00040367652700000213
的待学习参数,b1为偏差;
然后,引入注意力门
Figure FDA00040367652700000214
通过Sigmoid激活函数输出0-1之间的概率值对视觉和语义信息的关联性进行评估;对信息向量及注意力门采用点积运算得到最终的注意力结果
Figure FDA00040367652700000215
其中为
Figure FDA00040367652700000216
分别为G中向量
Figure FDA00040367652700000217
的待训练参数,b2为偏差;
之后,在时间步t通过计算民族服装词汇表W上的条件概率生成字幕,定义所有可能输出词的概率为
Figure FDA00040367652700000218
其中
Figure FDA00040367652700000219
是向量AF待学习的参数,b3是偏差,通过归一化后得到结果yt+1
最后,重复执行上述过程,直至生成当前民族服装图像对应的完整文本描述w'={w’1,w'2,...w'n}。
2.根据权利要求1所述的结合属性检测和视觉感知的民族服装图像字幕生成方法,其特征在于:所述Step1的具体过程为:根据民族服装的不同区域,采用Faster R-CNN对输入的民族服装图像集I={I1,I2,...In}进行显著区域检测,n表示民族服装图像集中图像数量;再采用VGG16进行特征提取,得到表示民族服装图像显著区域的视觉特征Vj={V1,V2,...Vm},其中j表示第j个显著区域,m表示该幅图像中显著区域的数量。
CN202111650461.XA 2021-12-30 2021-12-30 一种结合属性检测和视觉感知的服装图像字幕生成方法 Active CN114972795B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111650461.XA CN114972795B (zh) 2021-12-30 2021-12-30 一种结合属性检测和视觉感知的服装图像字幕生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111650461.XA CN114972795B (zh) 2021-12-30 2021-12-30 一种结合属性检测和视觉感知的服装图像字幕生成方法

Publications (2)

Publication Number Publication Date
CN114972795A CN114972795A (zh) 2022-08-30
CN114972795B true CN114972795B (zh) 2023-04-07

Family

ID=82974390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111650461.XA Active CN114972795B (zh) 2021-12-30 2021-12-30 一种结合属性检测和视觉感知的服装图像字幕生成方法

Country Status (1)

Country Link
CN (1) CN114972795B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116994098B (zh) * 2023-09-27 2023-12-05 西南交通大学 基于类别属性知识增强的大模型提示学习方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN109344872A (zh) * 2018-08-31 2019-02-15 昆明理工大学 一种少数民族服装图像的识别方法
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170257B2 (en) * 2018-10-15 2021-11-09 Ancestry.Com Operations Inc. Image captioning with weakly-supervised attention penalty

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608943A (zh) * 2017-09-08 2018-01-19 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN109344872A (zh) * 2018-08-31 2019-02-15 昆明理工大学 一种少数民族服装图像的识别方法
CN109447242A (zh) * 2018-10-10 2019-03-08 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成系统及方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Clothes image caption generation with attribute detection and visual attention model;Xianrui Li 等;《Pattern Recognition Letters 141 (2021) 》;全文 *
基于双向注意力机制的图像描述生成;张家硕等;《中文信息学报》(第09期);全文 *
基于视觉特征的二维图像文本描述生成关键算法研究;管志斌;《全国博士学位论文信息科技》;全文 *
细粒度民族服饰图像检索的全局-局部特征提取方法;刘骊 等;《模式识别与人工智能》;全文 *

Also Published As

Publication number Publication date
CN114972795A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN111859912B (zh) 基于pcnn模型的带有实体感知的远程监督关系抽取方法
Yang et al. Co-attention network with question type for visual question answering
Guo et al. Human attribute recognition by refining attention heat map
Vahdani et al. Deep learning-based action detection in untrimmed videos: A survey
CN108681712A (zh) 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
Ji et al. A context knowledge map guided coarse-to-fine action recognition
Lai et al. Real-time micro-expression recognition based on ResNet and atrous convolutions
Jain et al. Video captioning: a review of theory, techniques and practices
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN114972795B (zh) 一种结合属性检测和视觉感知的服装图像字幕生成方法
CN113076483A (zh) 基于案件要素异构图的舆情新闻抽取式摘要方法
Ji et al. Deep pedestrian attribute recognition based on LSTM
Xu et al. HiSA: Hierarchically semantic associating for video temporal grounding
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
Luo et al. Spatial constraint multiple granularity attention network for clothesretrieval
CN117333908A (zh) 基于姿态特征对齐的跨模态行人重识别方法
CN110750669B (zh) 一种图像字幕生成的方法及系统
Xin et al. Recurrent temporal sparse autoencoder for attention-based action recognition
CN116340569A (zh) 一种基于语义一致性的半监督短视频分类方法
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
Shen et al. Stepnet: Spatial-temporal part-aware network for sign language recognition
Ananthanarayana et al. Dynamic cross-feature fusion for american sign language translation
CN115705756A (zh) 动作检测方法、装置、计算机设备和存储介质
CN117746441B (zh) 一种视觉语言理解方法、装置、设备及可读存储介质
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant