CN114780775A - 一种基于内容选择和引导机制的图像描述文本生成方法 - Google Patents

一种基于内容选择和引导机制的图像描述文本生成方法 Download PDF

Info

Publication number
CN114780775A
CN114780775A CN202210435607.7A CN202210435607A CN114780775A CN 114780775 A CN114780775 A CN 114780775A CN 202210435607 A CN202210435607 A CN 202210435607A CN 114780775 A CN114780775 A CN 114780775A
Authority
CN
China
Prior art keywords
information
target
image
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210435607.7A
Other languages
English (en)
Other versions
CN114780775B (zh
Inventor
杜友田
陈中奇
沈逸如
陈思源
张新明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202210435607.7A priority Critical patent/CN114780775B/zh
Publication of CN114780775A publication Critical patent/CN114780775A/zh
Application granted granted Critical
Publication of CN114780775B publication Critical patent/CN114780775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

一种基于内容选择和引导机制的图像描述文本生成方法,构建模型数据集;提取图像视觉信息特征、图像语义信息特征和图像空间几何信息特征;构建特征融合网络,将图像视觉信息特征、图像语义信息特征和图像空间几何信息特征有效融合;设置内容选择和引导机制,对特征进行筛选,增强有效信息特征,筛除冗余信息特征,并将有效特征信息准确引导至文本生成模型;构建文本生成模型,将编码特征以时序的方式生成描述文本。本发明通过建模图像和文本之间的潜在对齐关系,提高了图像描述文本生成的准确性。

Description

一种基于内容选择和引导机制的图像描述文本生成方法
技术领域
本发明属于计算机视觉和自然语言处理技术领域,涉及一种图像描述文本生成方法,特别涉及一种基于内容选择和引导机制的图像描述文本生成方法。
背景技术
图像描述文本生成是一项计算机视觉图像理解领域和自然语言生成处理领域的交叉任务,该任务的目标是通过算法理解图像,并根据输入图像的信息,自动生成对于图像的描述性文本。该方法可以实现图像到文本信息的跨模态转化,可以辅助视觉障碍人士理解图像内容。同时,可以应用到增强图片语义检索等领域。因此图像描述文本生成领域成为了一个具有重大研究价值和应用前景的方向。
图像到长文本的跨模态生成通常采用编码-解码框架,首先利用编码器提取图像的一系列局部区域特征再对得到的视觉特征进行非线性变换以及最大池化操作,将视觉区域特征矩阵转换为包含图像全局语义信息的一维特征向量;最后在文本生成阶段,使用图像全局语义特征向量作为解码器输入,将解码器隐层的状态向量通过全连接层映射到整个词典中,以映射概率最大的词作为生成结果,并以时序的方式生成完整的句子。
随着计算机视觉和自然语言处理领域的大力发展,越来越多的国内外学者开始投入到图像描述文本生成方法的研究。文献[Vinyals O,Toshev A,Bengio S,et al.Showand Tell:A Neural Image Caption Generator[J].IEEE,2015.]借鉴了机器翻译的思想,采用Encoder-Decoder结构,将机器翻译里原来使用的RNN编码器变为CNN编码器,通过CNN提取图像特征,再将特征输入LSTM解码器中生成描述文本。文献[Xu K,Ba J,Kiros R,etal.Show,Attend and Tell:Neural Image Caption Generation with Visual Attention[J].Computer Science,2015:2048-2057.]将注意力机制引入到图像描述中,将文本中具体的单词对应到图像中的某个区域,以增强文本生成的准确性。[Long C,Zhang H,Xiao J,et al.SCA-CNN:Spatial and Channel-Wise Attention in Convolutional Networksfor Image Captioning[J].IEEE,2016.]从CNN编码器入手,分析了其空间性、多通道和多层级的特性,分两部分改进了模型中作为编码器的CNN结构:对每层添加空间注意力机制和通道注意力得到了更好的文本生成效果。[Liang X,Hu Z,Zhang H,et al.RecurrentTopic-Transition GAN for Visual Paragraph Generation[C]//2017IEEEInternational Conference on Computer Vision(ICCV).IEEE,2017.]将生成对抗网络引入图像到文本生成中,设计了两个判别网络(语句判别器和主题判别器),并斯坦福数据集上进行了实验,实验结果证实了生成对抗网络用在图像到文本的跨模态生成中的有效性,但发现了生成对抗网络存在的问题:搜索空间大,训练难以收敛。
虽然对于图像文本描述生成的研究已经取得了巨大的进展,然而绝大多数方法仅仅使用的图像的抽象视觉特征,该特征是一个抽象的高维特征向量,忽略了图像中包含的语义信息特征和几何信息特征,且缺乏特征的选择和引导机制,从而导致文本生成的准确性较低。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种基于内容选择和引导机制的图像描述文本生成方法,以建模图像和文本之间的潜在对齐关系,提高图像描述文本生成的准确性。
为了实现上述目的,本发明采用的技术方案是:
一种基于内容选择和引导机制的图像描述文本生成方法,包括如下步骤:
步骤1,构建模型数据集;
步骤2,提取图像视觉信息特征;
步骤3,提取图像语义信息特征和图像空间几何信息特征;
步骤4,构建特征融合网络,将图像视觉信息特征、图像语义信息特征和图像空间几何信息特征有效融合;
步骤5,设置内容选择和引导机制,对特征进行筛选,增强有效信息特征,筛除冗余信息特征,并将有效特征信息准确引导至文本生成模型;
步骤6,构建文本生成模型,将编码特征以时序的方式生成描述文本。
在一个实施例中,所述模型数据集为MSCOCO数据集中的图像描述数据集,并通过保留出现设定次数以上的对象、属性和关系来过滤数据,过滤后剩下的对象、属性和关系被分别用来训练目标检测器、属性分类器和关系分类器。
在一个实施例中,所述步骤2,使用Faster R-CNN模型框架进行图像视觉信息提取,并使用区域ROI池化后的特征作为图像视觉信息特征。
在一个实施例中,所述步骤3,图像语义信息包括:目标语义信息、关系语义信息和属性语义信息;对于每一张图像获得一组显式的语义信息特征。
在一个实施例中,所述步骤3,图像空间几何信息包括:单个目标的空间信息和两个目标之间的空间几何关系信息;构建一个5维的相对几何信息特征对所述单个目标的空间信息进行编码得到目标空间几何信息特征,目标的横纵坐标表示了目标所在的具体空间位置,而目标框的相对面积表示了目标的大小以及重要性因素;构建一个8维的空间几何信息特征对所述两个目标之间的空间几何关系信息进行编码得到关系空间几何信息特征。
在一个实施例中,所述步骤4,将同一目标的图像视觉信息特征、目标语义信息特征和目标空间几何信息特征进行融合得到融合目标信息特征,将同一目标的多个属性语义信息特征进行融合得到融合属性信息特征,将同一关系的关系语义信息特征和关系空间几何信息特征进行融合,得到融合关系信息特征。
与现有技术相比,本发明的有益效果是:
本发明在图像特征提取阶段,不仅仅关注了图像视觉特征,还显式的提取了图像中的目标、属性和关系语义信息,同时还辅助以目标和关系的几何信息特征,扩大了文本可描述的语义特征空间,提高了生成描述文本内容的丰富性。
本发明还提出了内容选择和引导机制,内容选择机制对目标信息特征、属性信息特征和关系信息特征进行筛选,增强有效信息特征的权重,筛除无效和冗余信息特征,得到了对于图像更加准确的表征信息。同时,内容引导机制生成引导信息,使得在时序生成文本的过程中,每生成一个单词都有显式的信息特征与之对应,提高了文本生成的准确性和流畅性。
附图说明
图1为本发明方法的整体流程图。
图2为本发明基于内容选择和引导机制的图像描述文本生成模型框框图。
图3为本发明中语义信息特征提取案例图。
图4为本发明中图像文本描述生成案例图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
参考图1和图2,本发明一种基于内容选择和引导机制的图像描述文本生成方法,主要包含以下五个阶段:特征提取阶段、特征融合阶段、内容选择阶段、内容引导阶段和文本生成阶段,具体包括如下步骤:
步骤1,构建模型数据集。
本发明数据集来自微软团队创建的MSCOCO数据集,该数据集包含图像的识别、分割和描述三部分数据信息,本实施例使用的是图像描述数据集,并在数据集上进行了数据预处理,由于MS-COCO数据集中的目标、属性和关系标注非常繁多,本实施例通过保留在训练集中出现设定次数以上的目标、属性和关系来过滤数据集。本实施例设定次数选择2000次,过滤后,剩下的305个目标、103个属性和64个关系被用来训练本发明的目标检测器、属性分类器和关系分类器。同时,本发明将MSCOCO数据集分成训练集、验证集和测试集三个部分。训练集中包含82783张图片和413915句文本描述,验证集中包含40504张图片和202520句文本描述,测试集中包含40775张图片和379249句文本描述。
本发明中,目标的定义为:图像中被描述的物体;属性的定义为:目标自身具有的属性,例如:颜色,状态等;关系的定义为:两个目标之间的关系,例如:动作,相对空间位置和介词关系等。
步骤2,提取图像视觉信息特征。
图像视觉信息特征的定义为:使用深度神经网络提取的区域高维特征向量。
本实施例使用深度残差网络ResNet作为图像视觉信息提取的骨干网络,深度残差网络使用残差结构使信息更容易在各层之间流动,包括在前向传播时提供特征重用,在反向传播时缓解梯度信号消失,有效解决了深度网络退化的问题。具体地,本发明使用FasterR-CNN模型框架进行图像视觉信息提取,并使用其区域ROI池化后的特征作为图像视觉信息特征,该特征为一个抽象的2048维的特征向量,使用fI=(fI,1,…,fI,N)表示,其中fI代表一张图像中提取得到所有区域视觉信息特征的集合,fI,i代表第i个区域视觉信息特征。
步骤3,提取图像语义信息特征和图像空间几何信息特征。
本发明中,图像语义信息定义为:图像中目标、属性和关系通过模型获取的显式文字标注信息,包含:目标语义信息、关系语义信息和属性语义信息三类。目标语义信息定义为:图像中被描述目标物体的文字标注信息,属性语义信息定义为:目标自身所具有属性的文字标注信息,关系语义信息定义为:两目标之间关系的文字标注信息,如图3所示为图像语义信息特征提取案例图。
在图3所示案例中,左图为输入图像,右图为提取到的目标语义信息、属性语义信息和关系语义信息,例如,提取到的目标语义信息有:运动员和棒球棍等,棒球棍自身所具有的属性语义信息有:白色和木质,运动员和棒球棍两个目标之间的关系语义信息为挥动。
由于Faster R-CNN模型可以进行图像目标检测,所以本步骤直接使用区域ROI池化后的特征进行目标检测,得到目标语义信息特征。
同时,本实施例训练了一个属性分类器来预测每一个检测到的目标的属性,得到属性语义信息特征,该分类器由一个两层多层感知机网络和一个Softmax网络构成。
其次,本实施例使用MOTIFNET作为目标关系语义信息检测器,其主体原理为对检测到的目标进行两两关系匹配,同时预测两个目标之间的关系和关系的置信度,对高于设定置信度或排名靠前置信度的关系进行保留,得到关系语义信息特征。
最后,本实施例对于每一张图像获得一组显式的图像语义信息特征。
其中,目标语义信息特征用fo=(fo,1,…,fo,i)表示,其中fo,i表示图像的第i个目标的语义信息特征。目标的属性语义信息特征用
Figure BDA0003612792410000061
表示,其中
Figure BDA0003612792410000062
表示该图像的第i个目标的第k个属性信息特征。目标之间的关系语义信息特征用
Figure BDA0003612792410000063
表示,其中
Figure BDA0003612792410000064
表示第i个目标和第j个目标之间的三元组关系语义信息特征,组成形式为<fo,i,ri,j,fo,j>三元组信息,该三元组信息在语义上代表着<主语,谓语,宾语>信息,其中ri,j表示第i个目标和第j个目标之间的关系信息。
在提取到图像视觉信息和图像语义信息后,本发明还关注到了图像空间几何信息,其中也包含着重要的有效信息。
本发明中,图像空间几何信息的定义为:图像中包含的物理几何信息,例如:目标物体的位置和面积,两个目标之间的距离等。
图像空间几何信息包含两类:单个目标的空间信息和两个目标之间的空间几何关系信息。因为本发明使用模型Faster R-CNN作为目标检测器,所以可以使用模型中候选框的空间几何信息来表示目标的空间几何信息。
本发明中,单个目标的空间信息的定义为:单个目标所具有的物理几何信息,两个目标之间的空间几何关系信息的定义为:两个目标之间所具有的物理几何信息。
对于单个目标的空间几何信息,本实施例构建了一个5维的空间几何信息特征对其进行编码,计算公式定义如下:
Figure BDA0003612792410000065
其中,xi、yi表示第i个目标候选框中心点的横坐标与纵坐标;wi、hi表示第i个目标的候选框的宽度和高度;w、h表示整个图像的宽度和高度。
同时,对于单个目标的空间几何信息计算公式中每一维数据进行了归一化处理,以得到更加可信有效的空间几何信息。其中目标的横纵坐标表示了目标所在的具体空间位置,而目标框的相对面积表示了目标的大小以及重要性因素。在对图像进行分析可知,例如鸟类飞在空中,所以位置较多的在图片相对靠上的位置。同时,在一张图片中占据主体面积的目标应是模型文本生成描述的主体内容,所以本发明也关注的目标的相对面积信息。
对于目标之间的空间几何信息,本实施例构建了一个8维的空间几何信息特征对其进行编码,计算公式定义如下:
Figure BDA0003612792410000071
其中,xj、yj表示第j个目标的候选框中心点的横坐标与纵坐标;wj、hj表示第j个目标的候选框的宽度和高度;oi∩oj表示第i个目标和第j个目标的候选框交集的面积;oi∪oj表示第i个目标和第j个目标的候选框并集的面积。
同样,本实施例对目标之间的空间几何信息计算公式进行了归一化处理,以得到更加标准有效的空间几何信息。公文中,第一项是两个目标横坐标的相对差值,代表了横向相对平移;第二项是两个目标纵坐标的相对差值,代表了纵向相对平移;第三项代表了两个目标框宽度比值;第四项代表了两个目标框的高度比值;第五项代表了两个目标框的面积比值;第六项代表了两个目标框之间的交并比;第七项代表了两个目标框的中心对角线相对长度;第八项代表了两个目标之间的相对角度,该相对角度阈值为。本实施例通过以上八个角度两个目标之间的几何关系进行建模,通过该位置关系希望能够在已有的图像和语义信息的基础上,增强对于两个目标之间的关系表征,得到更加完善的关系信息,从而使解码器能够输出更加准确流畅的文本描述。
显然,步骤2和步骤3构成了图2所示的特征提取阶段。
步骤4,设计特征融合网络,将图像视觉信息特征、图像语义信息特征和图像空间几何信息特征有效融合。
通过步骤2和步骤3,本发明得到了目标的图像视觉信息特征fI,i,目标语义信息特征fo,i、属性语义信息特征
Figure BDA0003612792410000081
和关系语义信息特征
Figure BDA0003612792410000082
以及目标空间几何信息特征
Figure BDA0003612792410000083
和关系空间几何信息特征
Figure BDA0003612792410000084
需要进行有效的特征融合。
具体地,本发明将同一目标的图像视觉信息特征、目标语义信息特征和目标空间几何信息特征进行融合得到融合目标信息特征,将同一目标的多个属性语义信息特征进行融合得到融合属性信息特征,将同一关系的关系语义信息特征和关系空间几何信息特征进行融合,得到融合关系信息特征。
本发明融合目标信息特征、融合属性信息特征和融合关系信息特征分别使用
Figure BDA0003612792410000085
表示,则特征融合计算公式定义如下:
Figure BDA0003612792410000086
Figure BDA0003612792410000087
Figure BDA0003612792410000088
式中,
Figure BDA0003612792410000089
表示三个结构相同、参数相互独立的多层感知机网络,每层感知机网络均由全连接层-ReLU激活函数层-Dropout层组成;
通过上述特征融合操作后,得到了融合后的统一尺寸的特征,之后需要对特征进行进一步的编码,本实施例使用多层感知机网络对得到的特征加入非线性成分,以达到目标信息特征、属性信息特征和关系信息特征的交叉信息感知嵌入,得到更完善的特征信息表征。
特征编码后的目标信息特征、属性信息特征和关系信息特征分别用
Figure BDA00036127924100000810
Figure BDA00036127924100000811
来表示,特征编码计算公式定义如下:
Figure BDA0003612792410000091
Figure BDA0003612792410000092
Figure BDA0003612792410000093
式中,
Figure BDA0003612792410000094
表示三个结构相同,参数相互独立的多层感知机网络。
在特征编码计算公式中,引入了残差网络的思想,在使用多层感知机网络加入非线性映射得到的高维抽象特征时,不会丢失底层原始特征信息,提升了特征编码的有效性,将vo,va,vr分别定义为目标信息特征、属性信息特征和关系信息特征编码后的集合。
步骤4体现了图2中所示的特征融合阶段。
步骤5,设计内容选择和引导机制,对特征进行筛选,增强有效特征信息,筛除冗余特征信息,并将有效特征信息准确引导至文本生成模型。
在步骤4中得到了三类信息特征,即目标信息特征、属性信息特征和关系信息特征,为了使在生成每一个字时,都能有显式的信息特征与之对应并引导文本生成,使文本生成的更加准确和流畅。本实施例设计了内容选择机制和内容引导机制,使编码完善的目标信息特征、属性信息特征和关系信息特征有效的嵌入到文本生成的时序过程中。
首先,时序生成每一个字时,需要增强重要性高的信息特征,抑制重要性低的信息特征。所以内容选择机制需要动态地在多个目标、属性和关系中筛选重要的目标信息特征、属性信息特征和关系信息特征。本实施例使用注意力机制进行在每一类信息特征内进行内容选择。注意力机制的计算公式定义如下:
Figure BDA0003612792410000095
αt=softmax(at)
Figure BDA0003612792410000096
式中,
Figure BDA0003612792410000097
表示注意力LSTM在每一个时刻t输出隐藏层的值作为注意力机制的查询向量;x表示注意力机制的键和值矩阵,即对该特征施加响应和抑制;
Figure BDA0003612792410000101
Wa表示注意力机制在训练中可学习的参数;
本实施例将上述注意力机制应用于内容选择和内容引导,内容选择定义为
Figure BDA0003612792410000102
内容引导定义为
Figure BDA0003612792410000103
用该公式可以对目标信息特征、属性信息特征和关系信息特征分别进行筛选,内容选择计算公式定义如下:
Figure BDA0003612792410000104
Figure BDA0003612792410000105
Figure BDA0003612792410000106
然后本实施例通过内容引导机制,将注意力LSTM在每个时刻产生的隐藏层状态值作为引导向量,引导向量表示了在该时刻生成模型期望得到的信息特征,即该时刻是应该生成目标、属性和关系中哪一类信息特征所对应的单词,从而动态调整生成模型的输入,引导输入信息特征与期待输出结果的对齐,使输入特征更加准确,从而达到更好的生成文本效果,内容引导机制计算公式定义为:
Figure BDA0003612792410000107
将该动态的上下文特征向量ct作为文本生成模型的输入。
步骤5体现了图2所示的内容选择阶段和内容引导阶段。
步骤6,设计文本生成模型,将编码特征以时序的方式生成描述文本。
本实施例使用双层的长短时记忆网络(LSTM)作为文本生成模型,第一层为注意力LSTM层,用于生成该时刻的引导向量作为内容选择和引导机制注意力模型的查询向量,引导生成上下文特征向量ct作为文本生成模型的输入,注意力LSTM层的计算公式定义如下:
Figure BDA0003612792410000108
式中,
Figure BDA0003612792410000109
表示上一时刻注意力LSTM隐藏层的输出;
Figure BDA00036127924100001010
表示上一时刻文本生成LSTM隐藏层输出;
Figure BDA00036127924100001011
表示图像视觉特征的平均值;We表示生成文本的词编码矩阵;yt-1表示上一时刻生成的字。
第二层为文本生成LSTM层,接受输入特征以时序的方式在每一刻生成一个隐藏层输出,文本生成LSTM层的计算公式定义如下:
Figure BDA0003612792410000111
该文本生成LSTM层的隐藏层状态
Figure BDA0003612792410000112
通过softmax网络映射到生成文本的词编码矩阵中,得到该时刻生成的单词yt,通过时序的过程依次生成每一个单词,直到结束的特殊标识符,最终组合成一句完整的句子,如图4所示为本发明中图像文本描述生成案例图,第一行为输入图像,第二行为模型对该输入所生成的描述性文本,可以看出文本描述与图像所呈现的内容非常贴切。

Claims (10)

1.一种基于内容选择和引导机制的图像描述文本生成方法,其特征在于,包括如下步骤:
步骤1,构建模型数据集;
步骤2,提取图像视觉信息特征;
步骤3,提取图像语义信息特征和图像空间几何信息特征;
步骤4,构建特征融合网络,将图像视觉信息特征、图像语义信息特征和图像空间几何信息特征有效融合;
步骤5,设置内容选择和引导机制,对特征进行筛选,增强有效信息特征,筛除冗余信息特征,并将有效特征信息准确引导至文本生成模型;
步骤6,构建文本生成模型,将编码特征以时序的方式生成描述文本。
2.根据权利要求1所述基于内容选择和引导机制的图像描述文本生成方法,其特征在于,所述模型数据集为MSCOCO数据集中的图像描述数据集,并通过保留出现设定次数以上的对象、属性和关系来过滤数据,过滤后剩下的对象、属性和关系被分别用来训练目标检测器、属性分类器和关系分类器。
3.根据权利要求1所述基于内容选择和引导机制的图像描述文本生成方法,其特征在于,所述步骤2,使用Faster R-CNN模型框架进行图像视觉信息提取,并使用区域ROI池化后的特征作为图像视觉信息特征,所述图像视觉信息特征为一个抽象的2048维的特征向量,使用fI=(fI,1,…,fI,i,…,fI,N)表示,其中fI代表一张图像中提取得到所有区域视觉信息特征的集合,fI,i代表第i个区域视觉信息特征。
4.根据权利要求3所述基于内容选择和引导机制的图像描述文本生成方法,其特征在于,所述步骤3,图像语义信息包括:目标语义信息、关系语义信息和属性语义信息;
采用区域ROI池化后的特征进行目标检测,得到目标语义信息特征fo=(fo,1,…,fo,i),其中fo,i表示图像的第i个目标的语义信息特征;采用属性分类器预测每一个检测到的目标的属性,得到属性语义信息特征
Figure FDA0003612792400000021
其中
Figure FDA0003612792400000022
表示该图像的第i个目标的第k个属性信息特征;使用MOTIFNET作为关系语义信息检测器,对检测到的目标进行两两关系匹配,同时预测两个目标之间的关系和关系的置信度,对高于设定置信度的关系进行保留,得到关系语义信息特征
Figure FDA0003612792400000023
其中
Figure FDA0003612792400000024
表示第i个目标和第j个目标之间的三元组关系语义信息特征,组成形式为<fo,i,ri,j,fo,j>三元组信息,该三元组信息在语义上代表着<主语,谓语,宾语>信息,其中ri,j表示第i个目标和第j个目标之间的关系信息;
最终,对于每一张图像获得一组显式的语义信息特征。
5.根据权利要求3所述基于内容选择和引导机制的图像描述文本生成方法,其特征在于,所述步骤3,图像空间几何信息包括:单个目标的空间信息和两个目标之间的空间几何关系信息;
构建一个5维的相对几何信息特征对所述单个目标的空间信息进行编码得到目标空间几何信息特征,公式如下:
Figure FDA0003612792400000025
其中,xi、yi表示第i个目标候选框中心点的横坐标与纵坐标;wi、hi表示第i个目标的候选框的宽度和高度;w、h表示整个图像的宽度和高度;
目标的横纵坐标表示了目标所在的具体空间位置,而目标框的相对面积表示了目标的大小以及重要性因素;
构建一个8维的空间几何信息特征对所述两个目标之间的空间几何关系信息进行编码得到关系空间几何信息特征,公式如下:
Figure FDA0003612792400000031
其中,xj、yj表示第j个目标的候选框中心点的横坐标与纵坐标;wj、hj表示第j个目标的候选框的宽度和高度;oi∩oj表示第i个目标和第j个目标的候选框交集的面积;oi∪oj表示第i个目标和第j个目标的候选框并集的面积。
6.根据权利要求5所述基于内容选择和引导机制的图像描述文本生成方法,其特征在于,所述步骤4,将同一目标的图像视觉信息特征、目标语义信息特征和目标空间几何信息特征进行融合得到融合目标信息特征,将同一目标的多个属性语义信息特征进行融合得到融合属性信息特征,将同一关系的关系语义信息特征和关系空间几何信息特征进行融合,得到融合关系信息特征。
7.根据权利要求6所述基于内容选择和引导机制的图像描述文本生成方法,其特征在于,所述融合目标信息特征、融合属性信息特征和融合关系信息特征分别使用
Figure FDA0003612792400000032
表示,公式如下:
Figure FDA0003612792400000033
Figure FDA0003612792400000034
Figure FDA0003612792400000035
式中,
Figure FDA0003612792400000036
表示三个结构相同、参数相互独立的多层感知机网络,每层感知机网络均由全连接层-ReLU激活函数层-Dropout层组成;
通过特征融合操作,得到了融合后的统一尺寸的特征,之后进行特征编码,得到目标信息特征、属性信息特征和关系信息特征。
8.根据权利要求7所述基于内容选择和引导机制的图像描述文本生成方法,其特征在于,特征编码后的目标信息特征、属性信息特征和关系信息特征分别用
Figure FDA0003612792400000037
来表示,公式如下:
Figure FDA0003612792400000041
Figure FDA0003612792400000042
Figure FDA0003612792400000043
式中,
Figure FDA0003612792400000044
表示三个结构相同,参数相互独立的多层感知机网络。
9.根据权利要求7所述基于内容选择和引导机制的图像描述文本生成方法,其特征在于,所述步骤5,首先,使用注意力机制进行在每一类信息特征内进行内容选择,注意力机制的计算公式定义如下:
Figure FDA0003612792400000045
αt=softmax(at)
Figure FDA0003612792400000046
式中,
Figure FDA0003612792400000047
表示注意力LSTM在每一个时刻t输出隐藏层的值作为注意力机制的查询向量;x表示注意力机制的键和值矩阵,即对该特征施加响应和抑制;
Figure FDA0003612792400000048
Wa表示注意力机制在训练中可学习的参数;
将上述注意力机制应用于内容选择和内容引导,内容选择定义为
Figure FDA0003612792400000049
内容引导定义为
Figure FDA00036127924000000410
对目标信息特征、属性信息特征和关系信息特征分别进行筛选,内容选择计算公式定义如下:
Figure FDA00036127924000000411
Figure FDA00036127924000000412
Figure FDA00036127924000000413
之后,通过内容引导机制,将注意力LSTM在每个时刻产生的隐藏层状态值作为引导向量,引导向量表示了在该时刻生成模型期望得到的信息特征,即该时刻是应该生成目标、属性和关系中哪一类信息特征所对应的单词,从而动态调整生成模型的输入,引导输入信息特征与期待输出结果的对齐,使输入特征更加准确,从而达到更好的生成文本效果,内容引导机制计算公式定义为:
Figure FDA0003612792400000051
将ct作为文本生成模型的输入。
10.根据权利要求9所述基于内容选择和引导机制的图像描述文本生成方法,其特征在于,所述步骤6,使用双层的长短时记忆网络作为文本生成模型,第一层为注意力LSTM层,用于生成该时刻的引导向量作为内容选择和引导机制注意力模型的查询向量,引导生成上下文特征向量ct作为文本生成模型的输入,注意力LSTM层的计算公式定义如下:
Figure FDA0003612792400000052
式中,
Figure FDA0003612792400000053
表示上一时刻注意力LSTM隐藏层的输出;
Figure FDA0003612792400000054
表示上一时刻文本生成LSTM隐藏层输出;
Figure FDA0003612792400000055
表示图像视觉特征的平均值;We表示生成文本的词编码矩阵;yt-1表示上一时刻生成的字;
第二层为文本生成LSTM层,接受输入特征以时序的方式在每一时刻生成一个隐藏层输出,公式如下:
Figure FDA0003612792400000056
Figure FDA0003612792400000057
通过softmax网络映射到生成文本的词编码矩阵中,得到该时刻生成的单词yt,通过时序的过程依次生成每一个单词,直到结束的特殊标识符,最终组合成一句完整的句子。
CN202210435607.7A 2022-04-24 2022-04-24 一种基于内容选择和引导机制的图像描述文本生成方法 Active CN114780775B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210435607.7A CN114780775B (zh) 2022-04-24 2022-04-24 一种基于内容选择和引导机制的图像描述文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210435607.7A CN114780775B (zh) 2022-04-24 2022-04-24 一种基于内容选择和引导机制的图像描述文本生成方法

Publications (2)

Publication Number Publication Date
CN114780775A true CN114780775A (zh) 2022-07-22
CN114780775B CN114780775B (zh) 2024-07-19

Family

ID=82432975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210435607.7A Active CN114780775B (zh) 2022-04-24 2022-04-24 一种基于内容选择和引导机制的图像描述文本生成方法

Country Status (1)

Country Link
CN (1) CN114780775B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098722A (zh) * 2022-08-25 2022-09-23 北京达佳互联信息技术有限公司 文本和图像的匹配方法、装置、电子设备和存储介质
CN115661929A (zh) * 2022-10-28 2023-01-31 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
CN111062451A (zh) * 2019-12-30 2020-04-24 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN113569932A (zh) * 2021-07-18 2021-10-29 湖北工业大学 一种基于文本层级结构的图像描述生成方法
CN113672716A (zh) * 2021-08-25 2021-11-19 中山大学·深圳 基于深度学习和多模态数值推理的几何题解答方法及模型
CN114201592A (zh) * 2021-12-02 2022-03-18 重庆邮电大学 面向医学图像诊断的视觉问答方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018188240A1 (zh) * 2017-04-10 2018-10-18 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法
WO2020244287A1 (zh) * 2019-06-03 2020-12-10 中国矿业大学 一种图像语义描述的生成方法
CN111062451A (zh) * 2019-12-30 2020-04-24 合肥工业大学 一种基于文本引导图模型的图像描述生成方法
CN113569932A (zh) * 2021-07-18 2021-10-29 湖北工业大学 一种基于文本层级结构的图像描述生成方法
CN113672716A (zh) * 2021-08-25 2021-11-19 中山大学·深圳 基于深度学习和多模态数值推理的几何题解答方法及模型
CN114201592A (zh) * 2021-12-02 2022-03-18 重庆邮电大学 面向医学图像诊断的视觉问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李志欣;魏海洋;黄飞成;张灿龙;马慧芳;史忠植;: "结合视觉特征和场景语义的图像描述生成", 计算机学报, no. 09, 15 September 2020 (2020-09-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098722A (zh) * 2022-08-25 2022-09-23 北京达佳互联信息技术有限公司 文本和图像的匹配方法、装置、电子设备和存储介质
CN115098722B (zh) * 2022-08-25 2022-12-27 北京达佳互联信息技术有限公司 文本和图像的匹配方法、装置、电子设备和存储介质
CN115661929A (zh) * 2022-10-28 2023-01-31 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质
CN115661929B (zh) * 2022-10-28 2023-11-17 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114780775B (zh) 2024-07-19

Similar Documents

Publication Publication Date Title
CN111581961B (zh) 一种中文视觉词汇表构建的图像内容自动描述方法
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN111488807B (zh) 基于图卷积网络的视频描述生成系统
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN111444343B (zh) 基于知识表示的跨境民族文化文本分类方法
CN112733866B (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110390363A (zh) 一种图像描述方法
CN114780775A (zh) 一种基于内容选择和引导机制的图像描述文本生成方法
CN103984943A (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN113378919B (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
CN111125367A (zh) 一种基于多层次注意力机制的多种人物关系抽取方法
CN114821299B (zh) 一种遥感图像变化检测方法
CN112819013A (zh) 基于层内层间联合全局表示的图像描述方法
CN110619121A (zh) 基于改进深度残差网络和注意力机制的实体关系抽取方法
CN111062277A (zh) 基于单目视觉的手语-唇语转化方法
CN113449801A (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN117351550A (zh) 基于有监督对比学习的网格自注意力人脸表情识别方法
CN115718815A (zh) 一种跨模态检索方法和系统
CN116680343A (zh) 基于融合多模态信息的实体和关系表示的链接预测方法
CN111639594A (zh) 图像描述模型的训练方法及装置
CN110347853B (zh) 一种基于循环神经网络的图像哈希码生成方法
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant