CN114972795B

CN114972795B - 一种结合属性检测和视觉感知的服装图像字幕生成方法

Info

Publication number: CN114972795B
Application number: CN202111650461.XA
Authority: CN
Inventors: 刘骊; 张绪辉; 付晓东; 黄青松; 刘利军
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2023-04-07
Anticipated expiration: 2041-12-30
Also published as: CN114972795A

Abstract

本发明涉及结合属性检测和视觉感知的民族服装图像字幕生成方法。先输入民族服装图像集，按不同服装区域对民族服装图像进行特征提取，得到表示民族服装图像显著区域的视觉特征；对提取到的视觉特征进行属性检测，并采用多实例学习计算出Top‑K显著属性检测概率，获得初步属性检测结果；根据民族服装的种类和结构知识，定义民族服装图像集的词向量，并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型，得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果；通过对语义上下文和注意力结果进行解码优化，评估其视觉和语义的关联性，生成民族服装图像的字幕。本发明能用于民族服装图像字幕生成，具有较高的识别精确度和效率。

Description

一种结合属性检测和视觉感知的服装图像字幕生成方法

技术领域

本发明涉及一种结合属性检测和视觉感知的民族服装图像字幕生成方法，属于计算机视觉、图像应用领域。

背景技术

图像字幕(Image Caption)是场景理解的重要组成部分，最初针对普通场景下的对象进行识别理解，近几年扩展到不同应用场景如数字化服装、医学报告生成等。通常公知的方法基于编码器-解码器的结构实现字幕生成，并在此结构中的某一端进行改进，如针对编码端进行改进的相关网络NIC、SCA-CNN、sGPN、CAAG、ACG、 DaE等，以及针对解码端进行改进的如SCN-LSTM、LSTM-C、Skel-LSTM、LSTM-A、 R-LSTM、SAP-LSTM等。然而，对于款式结构复杂、语义及颜色丰富的民族服装而言，公知方法存在很大的局限性：仅提取底层特征而忽略属性信息与视觉特征，无法实现民族服装图像字幕准确生成。本发明通过提取民族服装的视觉、文本特征，以及采用属性检测和建立视觉感知模型来融合注意力机制和语义上下文，能有效解决民族服装图像的有效识别和字幕生成等问题，提高输出文本描述的准确率。

公知的图像字幕生成方法大多针对普通场景图像下的字幕生成。例如，YQ Huang(<IEEE Transactions on Image Processing>29，2020，4013～4026)通过对属性嵌入和对象特征之间的相似性建模预测属性概率分布，并结合了后续属性预测模块提高生成属性的准确率。但是该方法对于图像特征及语义属性的建模过于单一，无法妥善处理语义信息更为复杂、生成结果精度要求更高的图像字幕生成任务。S Wang(<ICASSP>2021，2245～2249)通过结合低级视觉信息和高级语义属性，实现了细粒度的图像字幕生成。该方法采用的三层LSTM网络，使得模型参数过于复杂，收敛速度较慢，并且在民族服装图像数据集上鲁棒性较差。XR Li(<Pattern Recognition Letters>141，2021，68～74)通过结合属性检测和门控注意力机制首次完成了针对服装图像字幕生成的工作，同时还对注意力结果进行了评估。但是对于属性检测结果和视觉特征的利用并不充分，没有通过注意力机制对二者关联性紧密结合，导致图像字幕生成的结果并不理想。公知的发明专利CN 107608943 B同样采取了视觉、语义双重注意力机制来生成自动平衡策略模型，并在结合了多层感知机模型MLP的基础上将得到的所有生成词进行串联组合产生更为精确的字幕。但是该公知发明方法没有利用输入图像的属性检测结果，无法结合图像中对象的属性来实现字幕生成工作。虽然这些方法都取得了不错的效果，但是针对款式结构复杂、语义及颜色丰富的民族服装而言仍有较大局限性。本发明基于民族服装的区域结构及语义属性，结合了属性检测和视觉感知技术，通过构建的视觉感知模型能有效关注民族服装图像的显著区域，实现针对民族服装特点的图像字幕生成。

发明内容

本发明提供了一种结合属性检测和视觉感知的民族服装图像字幕生成方法，针对民族服装图像的特殊性，提取民族服装图像的视觉显著区域及语义属性，从而实现对民族服装图像关键信息(风格、款式等)的字幕生成。

本发明的技术方案是：一种结合属性检测和视觉感知的民族服装图像字幕生成方法，所述方法的具体步骤如下：

Step1、输入民族服装图像集，按照不同服装区域对民族服装图像进行特征提取，得到表示民族服装图像显著区域的视觉特征；

Step2、对提取到的视觉特征进行属性检测，并采用多实例学习计算出Top-K显著属性检测概率，获得初步属性检测结果；

Step3、根据民族服装的种类和结构知识，定义民族服装图像集的词向量，并融合词向量、初步属性检测结果、视觉特征构建视觉感知模型，得到关联匹配民族服装图像显著区域的语义上下文和视觉注意力结果；

Step4、通过对语义上下文和注意力结果进行解码优化，评估其视觉和语义的关联性，生成民族服装图像的字幕。

所述Step1具体如下：

根据民族服装的不同区域(领口、袖子、上衣等)，采用Faster R-CNN对输入的民族服装图像集I＝{I₁,I₂,...I_n}进行显著区域检测，n表示民族服装图像集中图像数量。再采用VGG16进行特征提取，得到表示民族服装图像中显著区域的视觉特征 V_j＝{V₁,V₂,...V_m}，其中j表示第j个显著区域,m表示该幅图像中显著区域的数量。

所述Step3具体如下：

首先，根据民族服装的种类和结构知识，对民族服装图像集的民族种类、服装款式、和颜色等属性进行语义标注，得到n幅图像对应的文本描述w＝{w₁,w₂,...w_n}，生成词汇表W,其中n表示民族服装图像数量。每幅图像文本描述的单词序列为Y＝{y₁,y₂,...y_t}，采用词嵌入方法得到输入词的词向量Ey_t,其中E表示民族服装词汇表W的词嵌入矩阵，y_t表示时间步t内输入的单词。

然后，结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型。

将Step1得到的民族服装图像的视觉特征V_j、t-1时间步内第一层LSTM的输出

以及词向量Ey_t，融合后输入第一层LSTM得到当前时间步t的输出

再融合

Step2中获得的Top-K初步属性S＝{S₁,S₂,...S_i}及对应的属性概率P＝{P₁,P₂,...P_i}(其中，i表示检测到的第i个属性及该属性的概率) 后输入语义注意力模块，得到表示语义属性的归一化注意力权重

其中i表示第i个语义属性的注意力权重，ω_a、ω_ah、ω_s分别是权重α_i、向量

S_i待学习的参数。基于检测到的Top-K语义属性S_i和归一化注意力权重α_i得到输入图像的语义上下文

最后，融合语义上下文

第一层LSTM的输出

t-1时间步内第二层LSTM 的输出

输入第二层LSTM得到输出

将

Step2中检测到的输入图像Top-K属性S＝{S₁,S₂,...S_i}融合后输入视觉注意力模块。再结合语义属性S_i以及输入图像的m个显著区域的视觉特征，通过关联匹配语义属性和视觉区域，得到表示显著区域视觉特征的归一化注意力权重

其中j表示第j个显著区域，ω_b、ω_bh、ω_s、ω_V分别是权重β_j、向量

S_i、V_j待学习的参数。基于第j个显著区域的归一化注意力权重β_j与显著视觉特征V_j，得到输入图像m个显著区域的视觉注意力结果

所述Step4具体如下：

首先，融合语义上下文和视觉注意力结果，引入信息向量

其中

分别为M中向量

的待学习参数，b₁为偏差。

然后,引入注意力门

通过Sigmoid激活函数输出0-1 之间的概率值对视觉和语义信息的关联性进行评估。对信息向量及注意力门采用点积运算得到最终的注意力结果A_F＝M⊙G，其中为

分别为G中向量

的待训练参数，b₂为偏差。

之后，在时间步t通过计算民族服装词汇表W上的条件概率生成字幕，定义所有可能输出词的概率为

其中

是向量A_F待学习的参数，b₃是偏差,通过归一化后得到结果y_t+1。

最后，重复执行上述过程，直至生成当前民族服装图像对应的完整文本描述 w’＝{w’₁,w’₂,...w’_n}。

本发明的有益效果是：

1、本发明根据民族服装特点，通过对民族服装图像的关键信息(种类、款式、颜色等)进行语义标注，自定义了民族服装图像集I及关键信息词汇表W，提升后续民族服装字幕生成的准确率，解决了民族服装数据集和词向量匮乏的问题。

2、本发明围绕民族服装款式结构复杂、语义及颜色丰富等特殊性，在对输入图像进行属性检测后，通过采用视觉、语义注意力机制结合属性检测结果，实现了高级语义和视觉区域的匹配，解决了民族服装图像属性信息复杂、不同民族服装图像相似度高难以生成正确字幕的问题，具有较好的性能。

3、本发明通过采用门控注意力机制，实现了对语义上下文和视觉注意力结果的优化及关联性评估，解决了注意力单元输出加权平均向量会导致不相关语义信息产生，从而影响结果准确性的问题，具有较高准确率。

附图说明

图1为本发明的流程图；

图2为本发明的民族服装图像显著区域视觉特征提取示例图；

图3为本发明的属性识别检测准确率-召回率曲线图；

图4为本发明的视觉感知模型示例图；

图5为以鄂温克族女性服装为例，本发明的注意力可视化结果示例图；

图6为以仡佬族女性服装为例，本发明的注意力可视化结果示例图；

图7为以京族男性服装为例，本发明的注意力可视化结果示例图；

图8为本发明的民族服装图像字幕生成结果示例图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

实施例1：如图1-图8所示，一种结合属性检测和视觉感知的民族服装图像字幕生成方法，包括如下步骤：

进一步地，可设置，所述Step1具体如下：

进一步地，可设置，所述Step3具体如下：

首先，根据民族服装的种类和结构知识，对民族服装图像集的民族种类、服装款式、和颜色等属性进行语义标注，得到n幅图像对应的文本描述w＝{w₁,w₂,...w_n}，生成词汇表W,其中n表示民族服装图像数量。每幅图像文本描述的单词序列为 Y＝{y₁,y₂,...y_t}，采用词嵌入方法得到输入词的词向量Ey_t,其中E表示民族服装词汇表W的词嵌入矩阵，y_t表示时间步t内输入的单词。

再融合

最后，融合语义上下文

第一层LSTM的输出

t-1时间步内第二层LSTM 的输出

输入第二层LSTM得到输出

将

进一步地，可设置，所述Step4具体如下：

首先，融合语义上下文和视觉注意力结果，引入信息向量

其中

分别为M中向量

的待学习参数，b₁为偏差。

然后,引入注意力门

分别为G中向量

的待训练参数，b₂为偏差。

其中

实施例2：一种结合属性检测和视觉感知的民族服装图像字幕生成方法，包括：

Step1、如图2所示，以仡佬族男性服装为例，根据民族服装的不同区域(领口、袖子、上衣等)，对输入的民族服装图像集进行显著区域标注，并基于该数据集对Faster R-CNN进行预训练。采用经过预训练后的Faster R-CNN对输入的民族服装图像集I＝{I₁,I₂,...I_n}进行显著区域检测，其中n表示民族服装图像集中图像数量。

如图2所示，以仡佬族男性服装为例，采用经过自定义的民族服装数据集预训练后的VGG16模型对输入的民族服装图像进行显著区域特征提取，本发明采用的 VGG16去掉了最后一层的全连接层，仅使用提取的视觉特征作为后续输入，由此得到每幅民族服装图像中的关键区域的不同层次特征v_x＝{v₁,v₂,...v_z}，经过平均池化

后得到每幅图像显著区域的视觉特征V_j＝{V₁,V₂,...V_m}，其中x表示提取特征的不同层次，z表示测试数据时设置的卷积层数，j表示第j个显著区域，m 表示该幅图像中显著区域的数量。

Step2、本发明方法选择将所有出现5次以上的单词组成民族服装图像字幕词汇表W，并按照频率高低进行划分，部分词汇表及词汇信息如表1所示。

表1

如图3所示，对提取到的视觉特征进行属性检测，通过词嵌入将文本信息转换为向量形式，结合得到的视觉特征V_j通过Sigmoid层生成初始属性概率矩阵 P_pre＝sigmoid(W_VV_j)，其中W_V是向量V_j的待训练参数。再采用多实例学习将初始概率矩阵中的每一行概率合并，以预测出输入图像包含所有属性的最终概率

表示输入图像中m个显著区域中检测到的所有属性概率。通过设定一个精度阈值以输出具有较高概率排名的属性{Att¹,Att²,...Att^K}，得到Top-K 属性检测结果S_i,i表示检测到的第i个属性。如图3所示，采用准确率-召回率折线图表示本发明方法中属性检测模块的性能，选择Top-K＝{10,15,20,25,30}的属性词对该模块进行评估测试。其准确率-召回率计算公式为：

其中S_true是检测到的属性中的正确属性，S是检测到的全部语义属性。

Step3、首先，根据民族服装的种类和结构知识，对民族服装图像集的民族种类、服装款式和颜色等属性进行语义标注，具体定义了12种不同的颜色属性，2种性别类型，55种民族类别及各民族对应的服装款式、形状等属性信息；再将这些属性信息作为训练标签，得到n幅图像对应的文本描述w＝{w₁,w₂,...w_n}。每幅图像文本描述的单词序列为Y＝{y₁,y₂,...y_t}，采用词嵌入方法得到输入词的词向量Ey_t,其中E表示民族服装词汇表W的词嵌入矩阵，y_t表示时间步t内输入的单词。表2为自定义的民族服装语义属性及文本描述实例。

表2

然后，如图4所示，以佤族女性服装为例，结合视觉、语义注意力机制的双层 LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型，通过视觉感知模型得到佤族女性服装图像字幕生成结果及注意力可视化结果。

再融合

Step2中获得的Top-K初步属性S＝{S₁,S₂,...S_i}及对应的属性概率P＝{P₁,P₂,...P_i}(其中，i表示检测到的第i个属性)后输入语义注意力模块，得到表示语义属性的归一化注意力权重

最后，融合语义上下文

第一层LSTM的输出

t-1时间步内第二层LSTM 的输出

输入第二层LSTM得到输出

将

Step2中检测到的输入图像Top-K属性S＝{S₁,S₂,...S_i}融合后输入视觉注意力模块。再结合语义属性S_i以及输入图像的m个显著区域的视觉特征，通过关联匹配语义属性和视觉区域，为了更好的说明本方法在识别民族类别、属性等信息方面较其他方法有更好的效果，将本文提出的方法与其他的基于属性检测的图像字幕方法进行比较，比较结果如图所示。得到表示显著区域视觉特征的归一化注意力权重

本发明方法通过结合属性检测和视觉感知模块来生成输入图像所属民族类别、性别、颜色、服装形状款式等关键信息，采用交叉熵损失函数训练模型生成关键信息的准确性：

其中n表示民族服装数据集数量、D 表示要生成的某一类属性的数量(如民族服装图像在本发明中共定义55个民族类别，则民族类别属性数量为55)、d表示生成属性类别中的第d个属性(如民族类别共 55种，第二个属性民族定义为白族)、o_nd表示符号函数(0或1)、p_nd代表观测样本n属于类别d的预测概率，如果预测的结果越接近真实值(Ground Truth)，则loss 越小。

如图5、图6、图7所示，本发明方法中的视觉感知模块在不同的时间步内关注与生成词最相关的图像信息，在每个时间步t内，语义注意力模块通过结合Top-K显著属性对不相关的视觉特征进行过滤，从而在之后的视觉注意力层实现更为精确的视觉区域和语义属性的关联匹配；视觉注意力模块会根据输出的语义注意力权重大小，将不同输出词与图像相关区域进行关联匹配，使得输出的图像字幕更为准确具体。

Step4、首先，融合语义上下文和视觉注意力结果，引入信息向量

其中

分别为M中向量

的待学习参数，b₁为偏差。

然后,引入注意力门

通过Sigmoid激活函数输出0-1 之间的概率值对视觉和语义信息的关联性进行评估。对信息向量及注意力门采用点积运算得到最终的注意力结果A_F＝M⊙G，其中

分别为G中向量

的待训练参数，b₂为偏差。

其中

是向量A_F待学习的参数，b₃是偏差，再通过归一化后得到结果y_t+1。

最后，重复执行上述过程，直至生成当前民族服装图像对应的完整文本描述 w’＝{w’₁,w’₂,...w’_n}。为了使得生成的文本描述信息准确、语句通顺，使用字符串 <startseq>、<endseq>来表示输出单词的开始与结束，以侗族女性服装为例，单词序列输出过程见表3。

表3

如表4所示，为了评估本发明方法的准确率，将最终生成的图像字幕中民族类别、性别、颜色、服装形状及款式作为评价标准，与图像字幕的真实值进行对比，以获取最终的民族服装图像字幕生成准确率结果。

表4

如图8所示，通过本发明方法的最终输出结果，实现了对以上民族服装关键信息较为准确的字幕生成。其中，每个关键信息的

其中TP为实际正类预测为正类的数量、FN为实际正类预测为负类的数量、FP实际负类预测为正类的数量、TN实际负类预测为负类的数量。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种结合属性检测和视觉感知的民族服装图像字幕生成方法，其特征在于:包括如下步骤：

Step4、通过对语义上下文和注意力结果进行解码优化，评估其视觉和语义的关联性，生成民族服装图像的字幕；

所述Step3的具体过程为：

首先，根据民族服装的种类和结构知识，对民族服装图像集的属性进行语义标注，得到n幅图像对应的文本描述w＝{w₁,w₂,...w_n}，生成词汇表W,其中n表示民族服装图像数量；每幅图像文本描述的单词序列为Y＝{y₁,y₂,...y_t}，采用词嵌入方法得到输入词的词向量Ey_t,其中E表示民族服装词汇表W的词嵌入矩阵，y_t表示时间步t内输入的单词；

然后，结合视觉、语义注意力机制的双层LSTM构建包含语义注意力模块和视觉注意力模块的视觉感知模型；

再融合

Step2中获得的Top-K初步属性S＝{S₁,S₂,...S_i}及对应的属性概率P＝{P₁,P₂,...P_i}后输入语义注意力模块，其中，i表示检测到的第i个属性，得到表示语义属性的归一化注意力权重

S_i待学习的参数，基于检测到的Top-K语义属性S_i和归一化注意力权重α_i得到输入图像的语义上下文

最后，融合语义上下文

第一层LSTM的输出

t-1时间步内第二层LSTM的输出

输入第二层LSTM得到输出

将

Step2中检测到的输入图像Top-K属性S＝{S₁,S₂,...S_i}融合后输入视觉注意力模块；再结合语义属性S_i以及输入图像的m个显著区域的视觉特征，通过关联匹配语义属性和视觉区域，得到表示显著区域视觉特征的归一化注意力权重

S_i、V_j待学习的参数；基于第j个显著区域的归一化注意力权重β_j与显著视觉特征V_j，得到输入图像m个显著区域的视觉注意力结果

所述Step4的具体过程为：

首先，融合语义上下文和视觉注意力结果，引入信息向量

其中

分别为M中向量

的待学习参数，b₁为偏差；

然后,引入注意力门

通过Sigmoid激活函数输出0-1之间的概率值对视觉和语义信息的关联性进行评估；对信息向量及注意力门采用点积运算得到最终的注意力结果

其中为

分别为G中向量

的待训练参数，b₂为偏差；

其中

是向量A_F待学习的参数，b₃是偏差,通过归一化后得到结果y_t+1；

最后，重复执行上述过程，直至生成当前民族服装图像对应的完整文本描述w'＝{w’₁,w'₂,...w'_n}。

2.根据权利要求1所述的结合属性检测和视觉感知的民族服装图像字幕生成方法，其特征在于：所述Step1的具体过程为：根据民族服装的不同区域，采用Faster R-CNN对输入的民族服装图像集I＝{I₁,I₂,...I_n}进行显著区域检测，n表示民族服装图像集中图像数量；再采用VGG16进行特征提取，得到表示民族服装图像显著区域的视觉特征V_j＝{V₁,V₂,...V_m}，其中j表示第j个显著区域,m表示该幅图像中显著区域的数量。