CN114972795A - 一种结合属性检测和视觉感知的民族服装图像字幕生成方法 - Google Patents
一种结合属性检测和视觉感知的民族服装图像字幕生成方法 Download PDFInfo
- Publication number
- CN114972795A CN114972795A CN202111650461.XA CN202111650461A CN114972795A CN 114972795 A CN114972795 A CN 114972795A CN 202111650461 A CN202111650461 A CN 202111650461A CN 114972795 A CN114972795 A CN 114972795A
- Authority
- CN
- China
- Prior art keywords
- visual
- national
- image
- attention
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000016776 visual perception Effects 0.000 title claims abstract description 27
- 230000000007 visual effect Effects 0.000 claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 48
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 239000001963 growth medium Substances 0.000 claims description 4
- 239000002609 medium Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000004438 eyesight Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及结合属性检测和视觉感知的民族服装图像字幕生成方法。先输入民族服装图像集,按不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top‑K显著属性检测概率,获得初步属性检测结果;根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕。本发明能用于民族服装图像字幕生成,具有较高的识别精确度和效率。
Description
技术领域
本发明涉及一种结合属性检测和视觉感知的民族服装图像字幕生成方法,属于计算机视觉、图像应用领域。
背景技术
图像字幕(Image Caption)是场景理解的重要组成部分,最初针对普通场景下的对象进行识别理解,近几年扩展到不同应用场景如数字化服装、医学报告生成等。通常公知的方法基于编码器-解码器的结构实现字幕生成,并在此结构中的某一端进行改进,如针对编码端进行改进的相关网络NIC、SCA-CNN、sGPN、CAAG、ACG、DaE等,以及针对解码端进行改进的如SCN-LSTM、LSTM-C、Skel-LSTM、LSTM-A、R-LSTM、SAP-LSTM等。然而,对于款式结构复杂、语义及颜色丰富的民族服装而言,公知方法存在很大的局限性:仅提取底层特征而忽略属性信息与视觉特征,无法实现民族服装图像字幕准确生成。本发明通过提取民族服装的视觉、文本特征,以及采用属性检测和建立视觉感知模型来融合注意力机制和语义上下文,能有效解决民族服装图像的有效识别和字幕生成等问题,提高输出文本描述的准确率。
公知的图像字幕生成方法大多针对普通场景图像下的字幕生成。例如,YQ Huang(<IEEE Transactions on Image Processing>29,2020,4013~4026)通过对属性嵌入和对象特征之间的相似性建模预测属性概率分布,并结合了后续属性预测模块提高生成属性的准确率。但是该方法对于图像特征及语义属性的建模过于单一,无法妥善处理语义信息更为复杂、生成结果精度要求更高的图像字幕生成任务。SWang(<ICASSP>2021,2245~2249)通过结合低级视觉信息和高级语义属性,实现了细粒度的图像字幕生成。该方法采用的三层LSTM网络,使得模型参数过于复杂,收敛速度较慢,并且在民族服装图像数据集上鲁棒性较差。XR Li(<Pattern Recognition Letters>141,2021,68~74)通过结合属性检测和门控注意力机制首次完成了针对服装图像字幕生成的工作,同时还对注意力结果进行了评估。但是对于属性检测结果和视觉特征的利用并不充分,没有通过注意力机制对二者关联性紧密结合,导致图像字幕生成的结果并不理想。公知的发明专利CN 107608943 B同样采取了视觉、语义双重注意力机制来生成自动平衡策略模型,并在结合了多层感知机模型MLP的基础上将得到的所有生成词进行串联组合产生更为精确的字幕。但是该公知发明方法没有利用输入图像的属性检测结果,无法结合图像中对象的属性来实现字幕生成工作。虽然这些方法都取得了不错的效果,但是针对款式结构复杂、语义及颜色丰富的民族服装而言仍有较大局限性。本发明基于民族服装的区域结构及语义属性,结合了属性检测和视觉感知技术,通过构建的视觉感知模型能有效关注民族服装图像的显著区域,实现针对民族服装特点的图像字幕生成。
发明内容
本发明提供了一种结合属性检测和视觉感知的民族服装图像字幕生成方法,针对民族服装图像的特殊性,提取民族服装图像的视觉显著区域及语义属性,从而实现对民族服装图像关键信息(风格、款式等)的字幕生成。
本发明的技术方案是:一种结合属性检测和视觉感知的民族服装图像字幕生成方法,所述方法的具体步骤如下:
Step1、输入民族服装图像集,按照不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;
Step2、对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top-K显著属性检测概率,获得初步属性检测结果;
Step3、根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;
Step4、通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕。
所述Step1具体如下:
根据民族服装的不同区域(领口、袖子、上衣等),采用Faster R-CNN对输入的民族服装图像集I={I1,I2,...In}进行显著区域检测,n表示民族服装图像集中图像数量。再采用VGG16进行特征提取,得到表示民族服装图像中显著区域的视觉特征Vj={V1,V2,...Vm},其中j表示第j个显著区域,m表示该幅图像中显著区域的数量。
所述Step3具体如下:
首先,根据民族服装的种类和结构知识,对民族服装图像集的民族种类、服装款式、和颜色等属性进行语义标注,得到n幅图像对应的文本描述w={w1,w2,...wn},生成词汇表W,其中n表示民族服装图像数量。每幅图像文本描述的单词序列为Y={y1,y2,...yt},采用词嵌入方法得到输入词的词向量Eyt,其中E表示民族服装词汇表W的词嵌入矩阵,yt表示时间步t内输入的单词。
然后,结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型。
将Step1得到的民族服装图像的视觉特征Vj、t-1时间步内第一层LSTM的输出以及词向量Eyt,融合后输入第一层LSTM得到当前时间步t的输出再融合Step2中获得的Top-K初步属性S={S1,S2,...Si}及对应的属性概率P={P1,P2,...Pi}(其中,i表示检测到的第i个属性及该属性的概率)后输入语义注意力模块,得到表示语义属性的归一化注意力权重其中i表示第i个语义属性的注意力权重,ωa、ωah、ωs分别是权重αi、向量Si待学习的参数。基于检测到的Top-K语义属性Si和归一化注意力权重αi得到输入图像的语义上下文
最后,融合语义上下文第一层LSTM的输出t-1时间步内第二层LSTM的输出输入第二层LSTM得到输出将Step2中检测到的输入图像Top-K属性S={S1,S2,...Si}融合后输入视觉注意力模块。再结合语义属性Si以及输入图像的m个显著区域的视觉特征,通过关联匹配语义属性和视觉区域,得到表示显著区域视觉特征的归一化注意力权重其中j表示第j个显著区域,ωb、ωbh、ωs、ωV分别是权重βj、向量Si、Vj待学习的参数。基于第j个显著区域的归一化注意力权重βj与显著视觉特征Vj,得到输入图像m个显著区域的视觉注意力结果
所述Step4具体如下:
然后,引入注意力门通过Sigmoid激活函数输出0-1之间的概率值对视觉和语义信息的关联性进行评估。对信息向量及注意力门采用点积运算得到最终的注意力结果AF=M⊙G,其中为分别为G中向量的待训练参数,b2为偏差。
最后,重复执行上述过程,直至生成当前民族服装图像对应的完整文本描述w’={w’1,w’2,...w’n}。
本发明的有益效果是:
1、本发明根据民族服装特点,通过对民族服装图像的关键信息(种类、款式、颜色等)进行语义标注,自定义了民族服装图像集I及关键信息词汇表W,提升后续民族服装字幕生成的准确率,解决了民族服装数据集和词向量匮乏的问题。
2、本发明围绕民族服装款式结构复杂、语义及颜色丰富等特殊性,在对输入图像进行属性检测后,通过采用视觉、语义注意力机制结合属性检测结果,实现了高级语义和视觉区域的匹配,解决了民族服装图像属性信息复杂、不同民族服装图像相似度高难以生成正确字幕的问题,具有较好的性能。
3、本发明通过采用门控注意力机制,实现了对语义上下文和视觉注意力结果的优化及关联性评估,解决了注意力单元输出加权平均向量会导致不相关语义信息产生,从而影响结果准确性的问题,具有较高准确率。
附图说明
图1为本发明的流程图;
图2为本发明的民族服装图像显著区域视觉特征提取示例图;
图3为本发明的属性识别检测准确率-召回率曲线图;
图4为本发明的视觉感知模型示例图;
图5为以鄂温克族女性服装为例,本发明的注意力可视化结果示例图;
图6为以仡佬族女性服装为例,本发明的注意力可视化结果示例图;
图7为以京族男性服装为例,本发明的注意力可视化结果示例图;
图8为本发明的民族服装图像字幕生成结果示例图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
实施例1:如图1-图8所示,一种结合属性检测和视觉感知的民族服装图像字幕生成方法,包括如下步骤:
Step1、输入民族服装图像集,按照不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;
Step2、对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top-K显著属性检测概率,获得初步属性检测结果;
Step3、根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;
Step4、通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕。
进一步地,可设置,所述Step1具体如下:
根据民族服装的不同区域(领口、袖子、上衣等),采用Faster R-CNN对输入的民族服装图像集I={I1,I2,...In}进行显著区域检测,n表示民族服装图像集中图像数量。再采用VGG16进行特征提取,得到表示民族服装图像中显著区域的视觉特征Vj={V1,V2,...Vm},其中j表示第j个显著区域,m表示该幅图像中显著区域的数量。
进一步地,可设置,所述Step3具体如下:
首先,根据民族服装的种类和结构知识,对民族服装图像集的民族种类、服装款式、和颜色等属性进行语义标注,得到n幅图像对应的文本描述w={w1,w2,...wn},生成词汇表W,其中n表示民族服装图像数量。每幅图像文本描述的单词序列为Y={y1,y2,...yt},采用词嵌入方法得到输入词的词向量Eyt,其中E表示民族服装词汇表W的词嵌入矩阵,yt表示时间步t内输入的单词。
然后,结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型。
将Step1得到的民族服装图像的视觉特征Vj、t-1时间步内第一层LSTM的输出以及词向量Eyt,融合后输入第一层LSTM得到当前时间步t的输出再融合Step2中获得的Top-K初步属性S={S1,S2,...Si}及对应的属性概率P={P1,P2,...Pi}(其中,i表示检测到的第i个属性及该属性的概率)后输入语义注意力模块,得到表示语义属性的归一化注意力权重其中i表示第i个语义属性的注意力权重,ωa、ωah、ωs分别是权重αi、向量Si待学习的参数。基于检测到的Top-K语义属性Si和归一化注意力权重αi得到输入图像的语义上下文
最后,融合语义上下文第一层LSTM的输出t-1时间步内第二层LSTM的输出输入第二层LSTM得到输出将Step2中检测到的输入图像Top-K属性S={S1,S2,...Si}融合后输入视觉注意力模块。再结合语义属性Si以及输入图像的m个显著区域的视觉特征,通过关联匹配语义属性和视觉区域,得到表示显著区域视觉特征的归一化注意力权重其中j表示第j个显著区域,ωb、ωbh、ωs、ωV分别是权重βj、向量Si、Vj待学习的参数。基于第j个显著区域的归一化注意力权重βj与显著视觉特征Vj,得到输入图像m个显著区域的视觉注意力结果
进一步地,可设置,所述Step4具体如下:
然后,引入注意力门通过Sigmoid激活函数输出0-1之间的概率值对视觉和语义信息的关联性进行评估。对信息向量及注意力门采用点积运算得到最终的注意力结果AF=M⊙G,其中为分别为G中向量的待训练参数,b2为偏差。
最后,重复执行上述过程,直至生成当前民族服装图像对应的完整文本描述w’={w’1,w’2,...w’n}。
实施例2:一种结合属性检测和视觉感知的民族服装图像字幕生成方法,包括:
Step1、如图2所示,以仡佬族男性服装为例,根据民族服装的不同区域(领口、袖子、上衣等),对输入的民族服装图像集进行显著区域标注,并基于该数据集对Faster R-CNN进行预训练。采用经过预训练后的Faster R-CNN对输入的民族服装图像集I={I1,I2,...In}进行显著区域检测,其中n表示民族服装图像集中图像数量。
如图2所示,以仡佬族男性服装为例,采用经过自定义的民族服装数据集预训练后的VGG16模型对输入的民族服装图像进行显著区域特征提取,本发明采用的VGG16去掉了最后一层的全连接层,仅使用提取的视觉特征作为后续输入,由此得到每幅民族服装图像中的关键区域的不同层次特征vx={v1,v2,...vz},经过平均池化后得到每幅图像显著区域的视觉特征Vj={V1,V2,...Vm},其中x表示提取特征的不同层次,z表示测试数据时设置的卷积层数,j表示第j个显著区域,m表示该幅图像中显著区域的数量。
Step2、本发明方法选择将所有出现5次以上的单词组成民族服装图像字幕词汇表W,并按照频率高低进行划分,部分词汇表及词汇信息如表1所示。
表1
如图3所示,对提取到的视觉特征进行属性检测,通过词嵌入将文本信息转换为向量形式,结合得到的视觉特征Vj通过Sigmoid层生成初始属性概率矩阵Ppre=sigmoid(WVVj),其中WV是向量Vj的待训练参数。再采用多实例学习将初始概率矩阵中的每一行概率合并,以预测出输入图像包含所有属性的最终概率表示输入图像中m个显著区域中检测到的所有属性概率。通过设定一个精度阈值以输出具有较高概率排名的属性{Att1,Att2,...AttK},得到Top-K属性检测结果Si,i表示检测到的第i个属性。如图3所示,采用准确率-召回率折线图表示本发明方法中属性检测模块的性能,选择Top-K={10,15,20,25,30}的属性词对该模块进行评估测试。其准确率-召回率计算公式为:其中Strue是检测到的属性中的正确属性,S是检测到的全部语义属性。
Step3、首先,根据民族服装的种类和结构知识,对民族服装图像集的民族种类、服装款式和颜色等属性进行语义标注,具体定义了12种不同的颜色属性,2种性别类型,55种民族类别及各民族对应的服装款式、形状等属性信息;再将这些属性信息作为训练标签,得到n幅图像对应的文本描述w={w1,w2,...wn}。每幅图像文本描述的单词序列为Y={y1,y2,...yt},采用词嵌入方法得到输入词的词向量Eyt,其中E表示民族服装词汇表W的词嵌入矩阵,yt表示时间步t内输入的单词。表2为自定义的民族服装语义属性及文本描述实例。
表2
然后,如图4所示,以佤族女性服装为例,结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型,通过视觉感知模型得到佤族女性服装图像字幕生成结果及注意力可视化结果。
将Step1得到的民族服装图像的视觉特征Vj、t-1时间步内第一层LSTM的输出以及词向量Eyt,融合后输入第一层LSTM得到当前时间步t的输出再融合Step2中获得的Top-K初步属性S={S1,S2,...Si}及对应的属性概率P={P1,P2,...Pi}(其中,i表示检测到的第i个属性)后输入语义注意力模块,得到表示语义属性的归一化注意力权重其中i表示第i个语义属性的注意力权重,ωa、ωah、ωs分别是权重αi、向量Si待学习的参数。基于检测到的Top-K语义属性Si和归一化注意力权重αi得到输入图像的语义上下文
最后,融合语义上下文第一层LSTM的输出t-1时间步内第二层LSTM的输出输入第二层LSTM得到输出将Step2中检测到的输入图像Top-K属性S={S1,S2,...Si}融合后输入视觉注意力模块。再结合语义属性Si以及输入图像的m个显著区域的视觉特征,通过关联匹配语义属性和视觉区域,为了更好的说明本方法在识别民族类别、属性等信息方面较其他方法有更好的效果,将本文提出的方法与其他的基于属性检测的图像字幕方法进行比较,比较结果如图所示。得到表示显著区域视觉特征的归一化注意力权重其中j表示第j个显著区域,ωb、ωbh、ωs、ωV分别是权重βj、向量Si、Vj待学习的参数。基于第j个显著区域的归一化注意力权重βj与显著视觉特征Vj,得到输入图像m个显著区域的视觉注意力结果
本发明方法通过结合属性检测和视觉感知模块来生成输入图像所属民族类别、性别、颜色、服装形状款式等关键信息,采用交叉熵损失函数训练模型生成关键信息的准确性:其中n表示民族服装数据集数量、D表示要生成的某一类属性的数量(如民族服装图像在本发明中共定义55个民族类别,则民族类别属性数量为55)、d表示生成属性类别中的第d个属性(如民族类别共55种,第二个属性民族定义为白族)、ond表示符号函数(0或1)、pnd代表观测样本n属于类别d的预测概率,如果预测的结果越接近真实值(Ground Truth),则loss越小。
如图5、图6、图7所示,本发明方法中的视觉感知模块在不同的时间步内关注与生成词最相关的图像信息,在每个时间步t内,语义注意力模块通过结合Top-K显著属性对不相关的视觉特征进行过滤,从而在之后的视觉注意力层实现更为精确的视觉区域和语义属性的关联匹配;视觉注意力模块会根据输出的语义注意力权重大小,将不同输出词与图像相关区域进行关联匹配,使得输出的图像字幕更为准确具体。
然后,引入注意力门通过Sigmoid激活函数输出0-1之间的概率值对视觉和语义信息的关联性进行评估。对信息向量及注意力门采用点积运算得到最终的注意力结果AF=M⊙G,其中分别为G中向量的待训练参数,b2为偏差。
最后,重复执行上述过程,直至生成当前民族服装图像对应的完整文本描述w’={w’1,w’2,...w’n}。为了使得生成的文本描述信息准确、语句通顺,使用字符串<startseq>、<endseq>来表示输出单词的开始与结束,以侗族女性服装为例,单词序列输出过程见表3。
表3
如表4所示,为了评估本发明方法的准确率,将最终生成的图像字幕中民族类别、性别、颜色、服装形状及款式作为评价标准,与图像字幕的真实值进行对比,以获取最终的民族服装图像字幕生成准确率结果。
表4
如图8所示,通过本发明方法的最终输出结果,实现了对以上民族服装关键信息较为准确的字幕生成。其中,每个关键信息的其中TP为实际正类预测为正类的数量、FN为实际正类预测为负类的数量、FP实际负类预测为正类的数量、TN实际负类预测为负类的数量。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (4)
1.一种结合属性检测和视觉感知的民族服装图像字幕生成方法,其特征在于:包括如下步骤:
Step1、输入民族服装图像集,按照不同服装区域对民族服装图像进行特征提取,得到表示民族服装图像显著区域的视觉特征;
Step2、对提取到的视觉特征进行属性检测,并采用多实例学习计算出Top-K显著属性检测概率,获得初步属性检测结果;
Step3、根据民族服装的种类和结构知识,定义民族服装图像集的词向量,并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型,得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果;
Step4、通过对语义上下文和注意力结果进行解码优化,评估其视觉和语义的关联性,生成民族服装图像的字幕。
2.根据权利要求1所述的结合属性检测和视觉感知的民族服装图像字幕生成方法,其特征在于:所述Step1的具体过程为:根据民族服装的不同区域,采用Faster R-CNN对输入的民族服装图像集I={I1,I2,...In}进行显著区域检测,n表示民族服装图像集中图像数量;再采用VGG16进行特征提取,得到表示民族服装图像显著区域的视觉特征Vj={V1,V2,...Vm},其中j表示第j个显著区域,m表示该幅图像中显著区域的数量。
3.根据权利要求1所述的结合属性检测和视觉感知的民族服装图像字幕生成方法,其特征在于:所述Step3的具体过程为:
首先,根据民族服装的种类和结构知识,对民族服装图像集的属性进行语义标注,得到n幅图像对应的文本描述w={w1,w2,...wn},生成词汇表W,其中n表示民族服装图像数量;每幅图像文本描述的单词序列为Y={y1,y2,...yt},采用词嵌入方法得到输入词的词向量Eyt,其中E表示民族服装词汇表W的词嵌入矩阵,yt表示时间步t内输入的单词;
然后,结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型;
将Step1得到的民族服装图像的视觉特征Vj、t-1时间步内第一层LSTM的输出以及词向量Eyt,融合后输入第一层LSTM得到当前时间步t的输出再融合Step2中获得的Top-K初步属性S={S1,S2,...Si}及对应的属性概率P={P1,P2,...Pi}后输入语义注意力模块,其中,i表示检测到的第i个属性,得到表示语义属性的归一化注意力权重其中i表示第i个语义属性的注意力权重,ωa、ωah、ωs分别是权重αi、向量Si待学习的参数,基于检测到的Top-K语义属性Si和归一化注意力权重αi得到输入图像的语义上下文
4.根据权利要求1所述的结合属性检测和视觉感知的民族服装图像字幕生成方法,其特征在于:所述Step4的具体过程为:
然后,引入注意力门通过Sigmoid激活函数输出0-1之间的概率值对视觉和语义信息的关联性进行评估;对信息向量及注意力门采用点积运算得到最终的注意力结果AF=M⊙G,其中为分别为G中向量的待训练参数,b2为偏差;
最后,重复执行上述过程,直至生成当前民族服装图像对应的完整文本描述w'={w′1,w′2,...w′n}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111650461.XA CN114972795B (zh) | 2021-12-30 | 2021-12-30 | 一种结合属性检测和视觉感知的服装图像字幕生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111650461.XA CN114972795B (zh) | 2021-12-30 | 2021-12-30 | 一种结合属性检测和视觉感知的服装图像字幕生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114972795A true CN114972795A (zh) | 2022-08-30 |
CN114972795B CN114972795B (zh) | 2023-04-07 |
Family
ID=82974390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111650461.XA Active CN114972795B (zh) | 2021-12-30 | 2021-12-30 | 一种结合属性检测和视觉感知的服装图像字幕生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972795B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994098A (zh) * | 2023-09-27 | 2023-11-03 | 西南交通大学 | 基于类别属性知识增强的大模型提示学习方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN109344872A (zh) * | 2018-08-31 | 2019-02-15 | 昆明理工大学 | 一种少数民族服装图像的识别方法 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
US20200117951A1 (en) * | 2018-10-15 | 2020-04-16 | Ancestry.com Operations Inc. (019404) (019404) | Image captioning with weakly-supervised attention penalty |
-
2021
- 2021-12-30 CN CN202111650461.XA patent/CN114972795B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN109344872A (zh) * | 2018-08-31 | 2019-02-15 | 昆明理工大学 | 一种少数民族服装图像的识别方法 |
CN109447242A (zh) * | 2018-10-10 | 2019-03-08 | 复旦大学 | 基于迭代学习的图像描述重生成系统及方法 |
US20200117951A1 (en) * | 2018-10-15 | 2020-04-16 | Ancestry.com Operations Inc. (019404) (019404) | Image captioning with weakly-supervised attention penalty |
CN109726696A (zh) * | 2019-01-03 | 2019-05-07 | 电子科技大学 | 基于推敲注意力机制的图像描述生成系统及方法 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
Non-Patent Citations (4)
Title |
---|
XIANRUI LI 等: "Clothes image caption generation with attribute detection and visual attention model", 《PATTERN RECOGNITION LETTERS 141 (2021) 》 * |
刘骊 等: "细粒度民族服饰图像检索的全局-局部特征提取方法", 《模式识别与人工智能》 * |
张家硕等: "基于双向注意力机制的图像描述生成", 《中文信息学报》 * |
管志斌: "基于视觉特征的二维图像文本描述生成关键算法研究", 《全国博士学位论文信息科技》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994098A (zh) * | 2023-09-27 | 2023-11-03 | 西南交通大学 | 基于类别属性知识增强的大模型提示学习方法 |
CN116994098B (zh) * | 2023-09-27 | 2023-12-05 | 西南交通大学 | 基于类别属性知识增强的大模型提示学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114972795B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
Chen et al. | Relation attention for temporal action localization | |
CN109344288A (zh) | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 | |
Yang et al. | Co-attention network with question type for visual question answering | |
Guo et al. | Human attribute recognition by refining attention heat map | |
CN108681712A (zh) | 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法 | |
CN111859912A (zh) | 基于pcnn模型的带有实体感知的远程监督关系抽取方法 | |
Ji et al. | A context knowledge map guided coarse-to-fine action recognition | |
Lai et al. | Real-time micro-expression recognition based on ResNet and atrous convolutions | |
CN110826639B (zh) | 一种利用全量数据训练零样本图像分类方法 | |
CN111860193B (zh) | 一种基于文本的行人检索自监督视觉表示学习系统及方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN112733764A (zh) | 一种基于多模态识别视频情感信息的方法 | |
CN114972795B (zh) | 一种结合属性检测和视觉感知的服装图像字幕生成方法 | |
Xu et al. | HiSA: Hierarchically semantic associating for video temporal grounding | |
CN112101154B (zh) | 视频分类方法、装置、计算机设备和存储介质 | |
Luo et al. | Spatial constraint multiple granularity attention network for clothesretrieval | |
CN117333908A (zh) | 基于姿态特征对齐的跨模态行人重识别方法 | |
Xin et al. | Recurrent temporal sparse autoencoder for attention-based action recognition | |
Gao et al. | A robust improved network for facial expression recognition | |
Afrasiabi et al. | Spatial-temporal dual-actor CNN for human interaction prediction in video | |
CN114238439B (zh) | 一种基于联合嵌入的任务驱动关系型数据视图推荐方法 | |
CN116340569A (zh) | 一种基于语义一致性的半监督短视频分类方法 | |
CN115098646A (zh) | 一种图文数据的多级关系分析与挖掘方法 | |
Ananthanarayana et al. | Dynamic cross-feature fusion for american sign language translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |