CN114625882A - 提高图像文本描述独特多样性的网络构建方法 - Google Patents

提高图像文本描述独特多样性的网络构建方法 Download PDF

Info

Publication number
CN114625882A
CN114625882A CN202210095359.6A CN202210095359A CN114625882A CN 114625882 A CN114625882 A CN 114625882A CN 202210095359 A CN202210095359 A CN 202210095359A CN 114625882 A CN114625882 A CN 114625882A
Authority
CN
China
Prior art keywords
node
network
attention
image
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210095359.6A
Other languages
English (en)
Other versions
CN114625882B (zh
Inventor
朱虹
张雨嘉
杜森
史静
王栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202210095359.6A priority Critical patent/CN114625882B/zh
Publication of CN114625882A publication Critical patent/CN114625882A/zh
Application granted granted Critical
Publication of CN114625882B publication Critical patent/CN114625882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种提高图像文本描述独特多样性的网络构建方法,包括构建网络模型图像数据集,提取图像数据集的全局特征gks和抽象场景图节点的区域特征,用编码器对抽象场景图节点区域特征进行编码,得到最终的区域特征
Figure DDA0003490635590000011
Figure DDA0003490635590000012
取平均值得到平均区域编码特征
Figure DDA0003490635590000013
Figure DDA0003490635590000014
和gks融合,得到编码阶段输出的全局特征
Figure DDA0003490635590000015
将全局特征
Figure DDA0003490635590000016
通过双层解码器解码,得到输出
Figure DDA0003490635590000017
并将
Figure DDA0003490635590000018
通过图更新模块更新区域特征,重新计算节点权重,生成下一个单词,以此类推;构建单词精细模块和单词校正模块,使用标准的交叉熵损失训练网络,完成网络构建。本发明构建的网络在保持文本语句准确率的同时更具有独特、多样的描述。

Description

提高图像文本描述独特多样性的网络构建方法
技术领域
本发明属于图像文本描述网络技术领域,涉及一种提高图像文本描述独特多样性的网络构建方法。
背景技术
图像是人类活动中最常用的信息载体,蕴含着丰富的有用信息。如何自动提取图像内容,对其进行文本的正确描述虽很困难,但已经具有了可行性。图像文本描述算法是指对于给定的图像,计算机自动输出一句描述图像内容的文字。由于其能够完成从图像到文本信息的跨模态转换,所以可以应用到图像的跨模态快速检索等多个领域,因此,这个方向的研究具有广泛的应用前景。
图像文本描述的独特多样性主要取决于两个方面:一是对图像中包含物体的主要属性的准确识别能力;二是通过解码网络准确输出文本内容的描述能力,而不只是对图像中物体、场景的广泛概况。对物体属性的准确识别能力是能输出独特单词的前提,这部分的工作要求提取到的特征具有代表性。之后在模型的解码器中提高独特单词的输出概率,但是现有技术在这方面还存在输出物体信息不准确、输出句子信息较少的不足。
发明内容
本发明的目的是提供一种提高图像文本描述独特多样性的网络构建方法,解决了现有技术在图像文本描述过程中描述信息较低,以及描述内容不可控的问题。
本发明所采用的技术方案是,一种提高图像文本描述独特多样性的网络构建方法,包括以下步骤:
步骤1,构建网络模型图像数据集;
步骤2,提取图像数据集的全局特征gks和抽象场景图节点的区域特征;
步骤3,用编码器对抽象场景图节点区域特征进行编码,得到最终的区域特征
Figure BDA0003490635570000021
Figure BDA0003490635570000022
取平均值得到平均区域编码特征
Figure BDA0003490635570000023
Figure BDA0003490635570000024
和gks融合,得到编码阶段输出的全局特征
Figure BDA0003490635570000025
步骤4,将全局特征
Figure BDA0003490635570000026
通过双层解码器解码,得到输出
Figure BDA0003490635570000027
并将
Figure BDA0003490635570000028
通过图更新模块更新区域特征,重新计算节点权重,生成下一个单词,以此类推;
步骤5,构建单词精细模块,选择出更准确更独特的单词;
步骤6,构建单词校正模块,通过单词校正模块输出语句;
步骤7,使用标准的交叉熵损失训练网络,完成网络构建。
其中,步骤1的具体过程如下:
步骤1.1,建立训练及验证图像数据集
选用数据集图像样本和标签作为特征提取网络的数据样本,数据集的90%作为训练集,其余作为验证集,统称为样本图像;
步骤1.2,建立控制条件数据集
通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图,确定每幅图像中的对象节点、属性节点和关系节点,训练样本和验证样本图像数据集的抽象场景图ASG记为Gks=(Nks,Eks),ks=1,2,...,Ns,Ns为数据集中的样本个数,样本集合的ASG节点集合为Nks=[node1 ks,node2 ks,...,nodeNe ks],nodek ks∈{o,a,r},k=1,2,...,Ne,Ne为节点个数,ASG的边集合为Eks=[ei,j]Ne×Ne,ei,j∈{0,1}。
步骤2的具体过程如下:
步骤2.1,建立描述文本的语义词典
从训练集和验证集样本的标注中,选择出现频次最高的前m个单词,组成语义概念集合,m的取值范围为[10000,12000],对每个单词分配一个整数序号,再加上三个特殊位:开始标志位、结束标志位和低频词位,共m+3个整数序号构成词典;利用建立的词典对数据集样本进行语义词典标注,语义属性标注为Yks
Figure BDA0003490635570000031
Figure BDA0003490635570000032
是第t个单词在文本语义词典中的排序序号,t=1,2,...,Lks,Lks是数据集样本中第ks幅图像的文本描述长度;
步骤2.2,提取全局特征
采用ResNet网络提取样本图像的全局特征gks,取卷积网络ResNet中最后一层平均池化层的输出M1维特征向量描述图像的全局特征;
步骤2.3,提取抽象场景图节点的区域特征
取Faster-RCNN网络的全连接fc7层作为图像区域特征,提取所有ASG节点Nks的区域特征
Figure BDA0003490635570000033
对于nodek ks=o的目标节点,
Figure BDA0003490635570000034
为在对应的区域上提取的特征;对于nodek ks=a的属性节点,
Figure BDA0003490635570000035
与其连接的对象节点的区域特征相同,对于nodek ks=r的关系节点,
Figure BDA0003490635570000041
从涉及到的两个关联目标的联合区域中提取。
步骤3中编码器包括节点嵌入模块和图卷积模块,步骤3具体过程如下:
步骤3.1,将代表不同节点的区域特征
Figure BDA0003490635570000042
输入节点嵌入模块,进行节点嵌入增强,得到具有节点属性感知的区域特征Zk ks
Figure BDA0003490635570000043
其中,Wr是3×M1大小的节点嵌入矩阵,Wr[1],Wr[2],Wr[3]分别表示Wr的第1、2、3行,
Figure BDA0003490635570000044
是第k个节点的属性,posk是M1维的位置嵌入向量,当节点为属性节点时增大Wr[2]的权重系数,用来区分连接同一对象的不同属性节点的顺序,其中:
Figure BDA0003490635570000045
步骤3.2,将节点特征Zk ks输入图卷积模块进行编码,得到最终的区域特征
Figure BDA00034906355700000412
Figure BDA0003490635570000046
其中,
Figure BDA0003490635570000047
表示节点k在关系s下的邻居节点,σ是ReLU激活函数,
Figure BDA0003490635570000048
是由网络学出的第l层的关系s的参数;
步骤3.3,特征融合
Figure BDA0003490635570000049
取平均值得到平均区域编码特征
Figure BDA00034906355700000410
Figure BDA00034906355700000411
和gks融合,得到编码阶段输出的全局特征
Figure BDA0003490635570000051
Figure BDA0003490635570000052
步骤4中双层解码器包括双层LSTM模块,图注意力模块和图更新模块,步骤4的具体过程如下:
步骤4.1,构建双层LSTM模块,双层LSTM模块由注意LSTM和语言LSTM构成,t时刻注意LSTM的输入为全局特征
Figure BDA0003490635570000053
输出为
Figure BDA0003490635570000054
Figure BDA0003490635570000055
其中,θa是网络参数,Wt-1为词表特征,Drop为dropout操作,
Figure BDA0003490635570000056
为t-1时刻语言LSTM的输出;
步骤4.2,将t时刻的区域特征
Figure BDA0003490635570000057
和注意LSTM输出
Figure BDA0003490635570000058
作为双层解码器中图注意力模块的输入,得到内容注意力
Figure BDA0003490635570000059
和图流注意力
Figure BDA00034906355700000510
Figure BDA00034906355700000511
Figure BDA00034906355700000512
加权融合,获得最终的图注意力,加入图注意力后的注意力区域特征为
Figure BDA00034906355700000513
步骤4.3,将注意LSTM的输出
Figure BDA00034906355700000514
和注意力区域特征
Figure BDA00034906355700000515
作为语言LSTM的输入,生成t时刻的预测结果输出
Figure BDA00034906355700000516
Figure BDA00034906355700000517
其中,θl是网络训练的参数;
步骤4.4,构建图更新模块,在图注意力
Figure BDA00034906355700000518
下对重要节点进行解码后,需要通过图更新模块,以记录表示过的节点和需要被更新的节点,即需要一个擦除操作和增添操作,擦除操作是根据图注意力的强度对每个节点进行不同程度的擦除,擦除操作输出为
Figure BDA00034906355700000519
Figure BDA0003490635570000061
其中,sigmoid是S型激活函数,fc是全连接网络,θc是网络参数,
Figure BDA0003490635570000062
是语言LSTM的预测结果输出,
Figure BDA0003490635570000063
是t时刻的区域特征;如果不再需要访问某个节点,则可以将其设置为零,而如果一个节点需要多次访问,就需要使用一个增添操作,增添操作输出为
Figure BDA0003490635570000064
Figure BDA0003490635570000065
将擦除操作和增添操作结合,更新图以进行下一个解码步骤:
Figure BDA0003490635570000066
其中,fa是全连接网络,θa是网络参数,
Figure BDA0003490635570000067
是网络学习到的更新强度。
步骤4.2的具体过程如下:
步骤4.2.1,将t时刻的区域特征
Figure BDA0003490635570000068
和注意LSTM输出
Figure BDA0003490635570000069
作为双层解码器中图注意力的输入,,计算两者语义相关度,得到内容注意力
Figure BDA00034906355700000610
Figure BDA00034906355700000611
其中,Wc,Wxc,Whc是网络训练的参数,tanh是双曲正切函数,soft是softmax函数;
步骤4.2.2,输入图结构的邻接矩阵Mf、前一时刻的图流注意力
Figure BDA00034906355700000612
和注意力区域特征
Figure BDA00034906355700000613
得到t时刻距离为dis的节点的图流注意力:
Figure BDA00034906355700000614
Figure BDA00034906355700000615
Figure BDA0003490635570000071
其中,Ws,Wes,Whs是网络训练的参数,dis为转移距离,
Figure BDA0003490635570000072
为t时刻距离为dis的节点的图流注意力,
Figure BDA0003490635570000073
是上一时刻的图流注意力;
步骤4.2.3,将内容注意力
Figure BDA0003490635570000074
和图流注意力
Figure BDA0003490635570000075
进行加权融合,得到最终的图注意力:
Figure BDA0003490635570000076
其中,βt为t时刻网络学习到的权重;
加入图注意力后的注意力区域特征为
Figure BDA0003490635570000077
Figure BDA0003490635570000078
其中,
Figure BDA0003490635570000079
表示t时刻最终区域特征。
步骤5具体包括将LSTM的预测结果输出
Figure BDA00034906355700000710
通过两个不同全连接层,使特征变为词典维度大小的概率后,将两结果进行点乘得到最终的融合单词概率:
Figure BDA00034906355700000711
其中,f1和f2为不同的全连接层,
Figure BDA00034906355700000712
是按位点乘操作,输出为每个单词的概率。
步骤6包括采用束搜索和前k采样方法对重复单词进行校正的同时扩大寻优范围,在保证指标不降的前提下减少重复,提高语句的多样性;
前k采样方法是先确定每个时刻的候选词典mt,之后根据单词概率进行随机采样得到下一个单词;候选词典是在之前已经生成好的单词的情况下,选择当前概率最大的pk个单词:
Figure BDA0003490635570000081
其中,topk是对输入的数进行从大到小的排序,然后选取前pk个作为词典mt,按照单词概率在候选词典中随机采样出bk个词;
之后的时刻基于之前所有的输出序列,在组合的条件概率中再进行前k采样选取bk个单词,作为该时间步长下的候选输出序列,最后从bk个候选句子中挑出最优的。
步骤7包括对编码网络进行训练,用编码网络获得带有可控条件的图像特征,之后输入至解码网络,完成图像文本的描述;
使用标准的交叉熵损失训练网络,对于在控制条件Gks下图像ks的文本描述的损失Lks为:
Figure BDA0003490635570000082
本发明的有益效果是,将解码特征通过单词精细模块获得两个不同的单词特征,之后将两个特征融合使用,提高了图像文本描述的准确独特性,再通过单词校正模块对每个时刻的单词进行选择校正,输出最终的文本描述,与目前现有的图像文本描述网络相比,本发明图像文本描述网络可以在保持文本语句准确率的同时更具有独特、多样的描述。
附图说明
图1是本发明提高图像文本描述独特多样性的网络构建中抽象场景图的结构示意图;
图2是本发明提高图像文本描述独特多样性的网络构建中编码器结构示意图;
图3是本发明提高图像文本描述独特多样性的网络构建中双层解码器模型示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种提高图像文本描述独特多样性的网络构建方法,包括以下步骤:
步骤1,构建网络模型图像数据集
步骤1.1,建立训练及验证图像数据集
训练一个深度学习网络的数据集,需要大量的已经标注过的样本,考虑到自行对图像进行打标有一定的局限性,并且该网络模型需要提供控制条件来控制描述的生成,为此,本实施例选用已经公开发表的MSCOCO数据集图像样本和标签作为特征提取网络的数据样本,随机选出MSCOCO数据集的90%作为训练集,其余作为验证集,统称为样本图像;
步骤1.2,建立控制条件数据集
在生成图像文本描述时,对每幅样本图像都需要提供一个抽象场景图(ASG),作为输入来控制生成语句的结构,抽象场景图的结构如图1所示,包括三种类型的节点(对象节点o,属性节点a,和关系节点r)和连接节点的边;例如,用图1描述“一束粉红色的花放在木制的桌子上”句子时,“花”和“桌子”是对象节点,“粉红色”,“一束”,“木制的”是属性节点,“花与桌子是关联的”是关系节点;
通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图,之后使用已经公开的RPN模型来检测每幅图像中的对象节点,属性节点通过自动采样添加到对象节点上;关系节点只需确定物体间是否存在关系即可,所以采用一个简单的分类网络,判断两个物体间是否有关系节点(即边);训练样本和验证样本图像数据集的抽象场景图ASG记为Gks=(Nks,Eks),ks=1,2,...,Ns,Ns为数据集中的样本个数,样本集合的ASG节点集合为Nks=[node1 ks,node2 ks,...,nodeNe ks],nodek ks∈{o,a,r},k=1,2,...,Ne,Ne为节点个数,为描述和计算方便起见,设置每幅样本图的节点个数为固定值,优选范围为:Ne∈[10,20],如果实际提取出的节点数多于Ne,则消除没有关联的孤立节点,或者限制属性节点的个数,如果少于Ne,则将对应的节点置为0;ASG的边集合为Eks=[ei,j]Ne×Ne,ei,j∈{0,1}(两个节点间有关联为1,无关联为0)。
步骤2,提取数据集特征
步骤2.1,建立描述文本的语义词典
从训练集和验证集样本的标注中,选择出现频次最高的前m个单词,组成语义概念集合,m一般按照不同的文本描述领域和不同的描述准确度要求进行选择,本发明根据MSCOCO数据集和通用要求,优选单词总数m的取值范围为[10000,12000],对每个单词分配一个整数序号,再加上三个特殊位:开始标志位、结束标志位和低频词位,共m+3个整数序号构成词典;
对于数据集样本中的第ks幅图像样本,Lks是第ks幅图像的文本描述长度;利用建立的词典对数据集样本进行语义词典标注,语义属性
标注为Yks
Figure BDA0003490635570000111
其中,
Figure BDA0003490635570000112
是第t个单词在文本语义词典中的排序序号,t=1,2,...,Lks;步骤2.2,提取全局特征
采用ResNet网络提取样本图像的全局特征gks,取卷积网络ResNet中最后一层平均池化层的输出M1维特征向量描述图像的全局特征,本实施例中M1为2048;
步骤2.3,提取抽象场景图节点的区域特征
根据ASG节点集合Nks=[node1 ks,node2 ks,...,nodeNe ks],采用Faster-RCNN网络,取Faster-RCNN网络的全连接fc7层作为图像区域特征,为计算方便起见,区域特征也为M1维的特征向量;提取所有ASG节点Nks的区域特征
Figure BDA0003490635570000113
对于nodek ks=o的目标节点,
Figure BDA0003490635570000114
为在对应的区域上提取的特征;对于nodek ks=a的属性节点,
Figure BDA0003490635570000115
与其连接的对象节点的区域特征相同,对于nodek ks=r的关系节点,
Figure BDA0003490635570000116
从涉及到的两个关联目标的联合区域中提取。
步骤3,用编码器将特征进行编码
对特征进行编码的编码器结构如图2所示,包括节点嵌入模块和图卷积模块;
步骤3.1,仅仅通过提取到的区域特征
Figure BDA0003490635570000117
无法体现图像文本描述的可控性,因此将代表不同节点的区域特征
Figure BDA0003490635570000118
输入节点嵌入模块,经过节点嵌入模块将特征与节点属性结合,进行节点嵌入增强,得到具有节点属性感知的区域特征Zk ks
Figure BDA0003490635570000121
其中,Wr是3×M1大小的节点嵌入矩阵,Wr[1],Wr[2],Wr[3]分别表示Wr的第1、2、3行,
Figure BDA0003490635570000122
是第k个节点的属性,posk是M1维的位置嵌入向量,当节点为属性节点时增大Wr[2]的权重系数,用来区分连接同一对象的不同属性节点的顺序,其中:
Figure BDA0003490635570000123
步骤3.2,因为ASG中连接节点之间的边对两个节点的影响是相互的,而且消息从一种类型的节点传递到另一种类型的节点的方式与其反向也是不同的;所以需要将原先抽象场景图ASG中有方向的单向边扩展为具有不同含义的双向边,即将Gks=(Nks,Eks),ks=1,2,...,Ns改为多关系场景图Gks'=(Nks,Eks,Rks),ks=1,2,...,Ns,Rks是节点间的6种交互关系,包括物体对属性,属性对物体,主体对关系,关系对主体,客体对关系和关系对客体的关系;
将节点特征Zk ks输入图卷积模块进行编码,得到最终的区域特征
Figure BDA0003490635570000124
Figure BDA0003490635570000125
其中,
Figure BDA0003490635570000126
表示节点k在关系s下的邻居节点,σ是ReLU激活函数,
Figure BDA0003490635570000127
是由网络学出的第l层的关系s的参数;
使用一次GCN可以为每个节点带来相邻节点的特征信息,而堆叠多次可以获得更广泛的上下文;一般我们优选l∈[2,4],最后第l层的输出作为编码阶段输出的10个512维的区域特征
Figure BDA0003490635570000131
步骤3.3,特征融合
Figure BDA0003490635570000132
取平均值得到平均区域编码特征
Figure BDA0003490635570000133
Figure BDA0003490635570000134
将平均区域编码特征
Figure BDA0003490635570000135
和全局特征gks融合,得到编码阶段输出的全局特征
Figure BDA0003490635570000136
Figure BDA0003490635570000137
步骤4,将特征通过双层解码器解码
双层解码器解码模型结构如图3所示,包括双层LSTM模块,图注意力模块和图更新模块,双层LSTM模块由注意LSTM和语言LSTM构成,解码过程中先将步骤3得到的全局特征
Figure BDA0003490635570000138
作为输入,通过双层LSTM模块计算出t时刻注意LSTM的输出
Figure BDA0003490635570000139
再经过图注意力模块计算每个解码时刻需要关注的节点的权重,将图注意力后的注意力区域特征通过语言LSTM得到输出
Figure BDA00034906355700001310
再将当前LSTM的输出通过图更新模块以更新区域特征重新计算节点权重,生成下一个单词,以此类推;具体过程如下:
步骤4.1,构建双层LSTM模块,双层LSTM模块由注意(Top-Down Attention)LSTM和语言(Language)LSTM构成,t时刻注意LSTM的输入为全局特征
Figure BDA00034906355700001311
输出为
Figure BDA00034906355700001312
Figure BDA00034906355700001313
其中,θa是网络参数,Wt-1为词表特征,Drop为dropout操作,即在前向传播中随机让某些神经元间的激活值置0,这样会破坏神经元携带的信息,迫使它们更健壮地执行中间计算,使网络模型更具有泛化性;
Figure BDA0003490635570000141
为t-1时刻语言LSTM的输出;
步骤4.2,图注意力模块是为了兼顾语义内容和图的结构,所以将内容注意力和图流注意力结合使用;内容注意力不考虑图中节点的连接情况,因此可以在一个时间步长中跨越较远的距离;
步骤4.2.1,将t时刻的区域特征
Figure BDA0003490635570000142
和注意LSTM输出
Figure BDA0003490635570000143
作为双层解码器中图注意力模块的输入,计算两者语义相关度,得到内容注意力
Figure BDA0003490635570000144
Figure BDA0003490635570000145
其中,Wc,Wxc,Whc是网络训练的参数,tanh是双曲正切函数,soft是softmax函数;
步骤4.2.2,图的结构隐式地反映了用户在生成标题时的预期想法,所以也需要结合图流注意力;比如当前参与解码的是关系节点,那么下一个要访问的节点很有可能是紧随其后的对象节点;实现过程需要输入图结构的邻接矩阵Mf、前一时刻的图流注意力
Figure BDA0003490635570000146
和注意力区域特征
Figure BDA0003490635570000147
得到t时刻距离为dis的节点的图流注意力:
Figure BDA0003490635570000148
Figure BDA0003490635570000149
Figure BDA00034906355700001410
其中,Ws,Wes,Whs是网络训练的参数,dis为转移距离,
Figure BDA00034906355700001411
为t时刻距离为dis的节点的图流注意力,
Figure BDA0003490635570000151
是上一时刻的图流注意力;
步骤4.2.3,将内容注意力
Figure BDA0003490635570000152
和图流注意力
Figure BDA0003490635570000153
进行加权融合,得到最终的图注意力:
Figure BDA0003490635570000154
其中,βt为t时刻网络学习到的权重;
加入图注意力后的注意力区域特征为
Figure BDA0003490635570000155
Figure BDA0003490635570000156
其中,
Figure BDA0003490635570000157
表示t时刻最终区域特征。
步骤4.3,将注意LSTM的输出
Figure BDA0003490635570000158
和注意力区域特征
Figure BDA0003490635570000159
作为语言LSTM的输入,生成t时刻的预测结果输出
Figure BDA00034906355700001510
Figure BDA00034906355700001511
其中,θl是网络训练的参数;
步骤4.4,构建图更新模块,在图注意力
Figure BDA00034906355700001512
下对重要节点进行解码后,需要通过图更新模块,以记录表示过的节点和需要被更新的节点,即需要一个擦除操作和增添操作,擦除操作是根据图注意力的强度对每个节点进行不同程度的擦除,擦除操作输出为
Figure BDA00034906355700001513
Figure BDA00034906355700001514
其中,sigmoid是S型激活函数,fc是全连接网络,θc是网络参数,
Figure BDA00034906355700001515
是语言LSTM的预测结果输出,
Figure BDA00034906355700001516
是t时刻的区域特征;如果不再需要访问某个节点,则可以将其设置为零,而如果一个节点需要多次访问,就需要使用一个增添操作,增添操作输出为
Figure BDA00034906355700001517
Figure BDA0003490635570000161
将擦除操作和增添操作结合,更新图以进行下一个解码步骤:
Figure BDA0003490635570000162
其中,fa是全连接网络,θa是网络参数,
Figure BDA0003490635570000163
是网络学习到的更新强度。
步骤5,构建单词精细模块
通过增加全连接层,可以得到两种不同的预测结果,同时参考两个结果可以精细化单词,选择更准确更独特的单词;具体操作是将LSTM的预测结果输出
Figure BDA0003490635570000164
通过两个不同全连接层,使特征变为词典维度大小的概率后,将两结果进行点乘得到最终的融合单词概率:
Figure BDA0003490635570000165
其中,f1和f2为不同的全连接层,
Figure BDA0003490635570000166
是按位点乘操作,输出为每个单词的概率。
步骤6,构建单词校正模块
经过以上操作得到的句子中会出现一些明显的重复错误,比如“a white andwhite building”或“a luggage cart with luggage”;因此构建单词校正模块,就是采用束搜索(beam search)和前k采样(top-k)方法对重复单词进行校正的同时扩大寻优范围,在保证指标不降的前提下减少重复,提高语句的多样性;
传统的贪心搜索方法直接在每个时刻选取条件概率最大的候选单词作为最优进行输出,但该方法其实与人们平常表述出的单词分布是不同的;而前k采样方法是先确定每个时刻的候选词典mt,之后根据单词概率进行随机采样得到下一个单词;候选词典是在之前已经生成好的单词的情况下,选择当前概率最大的pk个单词:
Figure BDA0003490635570000171
其中,topk是对输入的数进行从大到小的排序,然后选取前pk个作为词典mt,pk的取值范围为[10,30],按照单词概率在候选词典中随机采样出bk个词,而不只是选取条件概率中最大的一个单词;
之后的时刻基于之前所有的输出序列,在组合的条件概率中再进行前k采样选取bk个单词,作为该时间步长下的候选输出序列,最后从bk个候选句子中挑出最优的。这种方法比一般的搜索方法空间更大,所以可以达到降低重复和提高句子多样性的结果。
步骤7,训练网络
对编码网络进行训练,用编码网络获得带有可控条件的图像特征,之后输入至解码网络,完成图像文本的描述;
使用标准的交叉熵损失训练网络,对于在控制条件Gks下图像ks的文本描述的损失Lks为:
Figure BDA0003490635570000172
训练过程中设置的具体参数为,批处理大小Batch size优选为128,迭代次数Epoch优选为50代,初始学习率Learning rate优选为0.0002;构建的网络可以根据图像和指定的ASG生成可控的图像文本描述。

Claims (9)

1.一种提高图像文本描述独特多样性的网络构建方法,其特征在于,包括以下步骤:
步骤1,构建网络模型图像数据集;
步骤2,提取图像数据集的全局特征gks和抽象场景图节点的区域特征;
步骤3,用编码器对抽象场景图节点区域特征进行编码,得到最终的区域特征
Figure FDA0003490635560000011
Figure FDA0003490635560000012
取平均值得到平均区域编码特征
Figure FDA0003490635560000013
Figure FDA0003490635560000014
和gks融合,得到编码阶段输出的全局特征
Figure FDA0003490635560000015
步骤4,将全局特征
Figure FDA0003490635560000016
通过双层解码器解码,得到输出
Figure FDA0003490635560000017
并将
Figure FDA0003490635560000018
通过图更新模块更新区域特征,重新计算节点权重,生成下一个单词,以此类推;
步骤5,构建单词精细模块,选择出更准确更独特的单词;
步骤6,构建单词校正模块,通过单词校正模块输出语句;
步骤7,使用标准的交叉熵损失训练网络,完成网络构建。
2.根据权利1所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤1的具体过程如下:
步骤1.1,建立训练及验证图像数据集
选用数据集图像样本和标签作为特征提取网络的数据样本,数据集的90%作为训练集,其余作为验证集,统称为样本图像;
步骤1.2,建立控制条件数据集
通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图,确定每幅图像中的对象节点、属性节点和关系节点,训练样本和验证样本图像数据集的抽象场景图ASG记为Gks=(Nks,Eks),ks=1,2,...,Ns,Ns为数据集中的样本个数,样本集合的ASG节点集合为Nks=[node1 ks,node2 ks,...,nodeNe ks],nodek ks∈{o,a,r},k=1,2,...,Ne,Ne为节点个数,ASG的边集合为Eks=[ei,j]Ne×Ne,ei,j∈{0,1}。
3.根据权利2所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤2的具体过程如下:
步骤2.1,建立描述文本的语义词典
从训练集和验证集样本的标注中,选择出现频次最高的前m个单词,组成语义概念集合,m的取值范围为[10000,12000],对每个单词分配一个整数序号,再加上三个特殊位:开始标志位、结束标志位和低频词位,共m+3个整数序号构成词典;利用建立的词典对数据集样本进行语义词典标注,语义属性标注为Yks
Figure FDA0003490635560000021
Figure FDA0003490635560000022
是第t个单词在文本语义词典中的排序序号,t=1,2,...,Lks,Lks是数据集样本中第ks幅图像的文本描述长度;
步骤2.2,提取全局特征
采用ResNet网络提取样本图像的全局特征gks,取卷积网络ResNet中最后一层平均池化层的输出M1维特征向量描述图像的全局特征;
步骤2.3,提取抽象场景图节点的区域特征
取Faster-RCNN网络的全连接fc7层作为图像区域特征,提取所有ASG节点Nks的区域特征
Figure FDA0003490635560000023
对于nodek ks=o的目标节点,
Figure FDA0003490635560000024
为在对应的区域上提取的特征;对于nodek ks=a的属性节点,
Figure FDA0003490635560000031
与其连接的对象节点的区域特征相同,对于nodek ks=r的关系节点,
Figure FDA0003490635560000032
从涉及到的两个关联目标的联合区域中提取。
4.根据权利3所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤3中编码器包括节点嵌入模块和图卷积模块,步骤3具体过程如下:
步骤3.1,将代表不同节点的区域特征
Figure FDA0003490635560000033
输入节点嵌入模块,进行节点嵌入增强,得到具有节点属性感知的区域特征Zk ks
Figure FDA0003490635560000034
其中,Wr是3×M1大小的节点嵌入矩阵,Wr[1],Wr[2],Wr[3]分别表示Wr的第1、2、3行,
Figure FDA0003490635560000035
是第k个节点的属性,posk是M1维的位置嵌入向量,当节点为属性节点时增大Wr[2]的权重系数,用来区分连接同一对象的不同属性节点的顺序,其中:
Figure FDA0003490635560000036
步骤3.2,将节点特征Zk ks输入图卷积模块进行编码,得到最终的区域特征
Figure FDA00034906355600000310
Figure FDA0003490635560000037
其中,
Figure FDA0003490635560000038
表示节点k在关系s下的邻居节点,σ是ReLU激活函数,
Figure FDA0003490635560000039
是由网络学出的第l层的关系s的参数;
步骤3.3,特征融合
Figure FDA00034906355600000421
取平均值得到平均区域编码特征
Figure FDA0003490635560000041
Figure FDA0003490635560000042
和gks融合,得到编码阶段输出的全局特征
Figure FDA0003490635560000043
Figure FDA0003490635560000044
5.根据权利4所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤4中双层解码器包括双层LSTM模块,图注意力模块和图更新模块,步骤4的具体过程如下:
步骤4.1,构建双层LSTM模块,双层LSTM模块由注意LSTM和语言LSTM构成,t时刻注意LSTM的输入为全局特征
Figure FDA0003490635560000045
输出为
Figure FDA0003490635560000046
Figure FDA0003490635560000047
其中,θa是网络参数,Wt-1为词表特征,Drop为dropout操作,
Figure FDA0003490635560000048
为t-1时刻语言LSTM的输出;
步骤4.2,将t时刻的区域特征
Figure FDA0003490635560000049
和注意LSTM输出
Figure FDA00034906355600000410
作为双层解码器中图注意力模块的输入,得到内容注意力
Figure FDA00034906355600000411
和图流注意力
Figure FDA00034906355600000412
Figure FDA00034906355600000413
Figure FDA00034906355600000414
加权融合,获得最终的图注意力,加入图注意力后的注意力区域特征为
Figure FDA00034906355600000415
步骤4.3,将注意LSTM的输出
Figure FDA00034906355600000416
和注意力区域特征
Figure FDA00034906355600000417
作为语言LSTM的输入,生成t时刻的预测结果输出
Figure FDA00034906355600000418
Figure FDA00034906355600000419
其中,θl是网络训练的参数;
步骤4.4,构建图更新模块,在图注意力
Figure FDA00034906355600000420
下对重要节点进行解码后,需要通过图更新模块,以记录表示过的节点和需要被更新的节点,即需要一个擦除操作和增添操作,擦除操作是根据图注意力的强度对每个节点进行不同程度的擦除,擦除操作输出为
Figure FDA0003490635560000051
Figure FDA0003490635560000052
其中,sigmoid是S型激活函数,fc是全连接网络,θc是网络参数,
Figure FDA0003490635560000053
是语言LSTM的预测结果输出,
Figure FDA0003490635560000054
是t时刻的区域特征;如果不再需要访问某个节点,则可以将其设置为零,而如果一个节点需要多次访问,就需要使用一个增添操作,增添操作输出为
Figure FDA0003490635560000055
Figure FDA0003490635560000056
将擦除操作和增添操作结合,更新图以进行下一个解码步骤:
Figure FDA0003490635560000057
其中,fa是全连接网络,θa是网络参数,
Figure FDA0003490635560000058
是网络学习到的更新强度。
6.根据权利5所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤4.2的具体过程如下:
步骤4.2.1,将t时刻的区域特征
Figure FDA0003490635560000059
和注意LSTM输出
Figure FDA00034906355600000510
作为双层解码器中图注意力的输入,,计算两者语义相关度,得到内容注意力
Figure FDA00034906355600000511
Figure FDA00034906355600000512
其中,Wc,Wxc,Whc是网络训练的参数,tanh是双曲正切函数,soft是softmax函数;
步骤4.2.2,输入图结构的邻接矩阵Mf、前一时刻的图流注意力
Figure FDA00034906355600000513
和注意力区域特征
Figure FDA0003490635560000061
得到t时刻距离为dis的节点的图流注意力:
Figure FDA0003490635560000062
Figure FDA0003490635560000063
Figure FDA0003490635560000064
其中,Ws,Wes,Whs是网络训练的参数,dis为转移距离,
Figure FDA0003490635560000065
为t时刻距离为dis的节点的图流注意力,
Figure FDA0003490635560000066
是上一时刻的图流注意力;
步骤4.2.3,将内容注意力
Figure FDA0003490635560000067
和图流注意力
Figure FDA0003490635560000068
进行加权融合,得到最终的图注意力:
Figure FDA0003490635560000069
其中,βt为t时刻网络学习到的权重;
加入图注意力后的注意力区域特征为
Figure FDA00034906355600000610
Figure FDA00034906355600000611
其中,
Figure FDA00034906355600000612
表示t时刻最终区域特征。
7.根据权利6所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤5具体包括将LSTM的预测结果输出
Figure FDA00034906355600000613
通过两个不同全连接层,使特征变为词典维度大小的概率后,将两结果进行点乘得到最终的融合单词概率:
Figure FDA00034906355600000614
其中,f1和f2为不同的全连接层,
Figure FDA00034906355600000615
是按位点乘操作,输出为每个单词的概率。
8.根据权利7所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤6包括采用束搜索和前k采样方法对重复单词进行校正的同时扩大寻优范围,在保证指标不降的前提下减少重复,提高语句的多样性;
前k采样方法是先确定每个时刻的候选词典mt,之后根据单词概率进行随机采样得到下一个单词;候选词典是在之前已经生成好的单词的情况下,选择当前概率最大的pk个单词:
Figure FDA0003490635560000071
其中,topk是对输入的数进行从大到小的排序,然后选取前pk个作为词典mt,按照单词概率在候选词典中随机采样出bk个词;
之后的时刻基于之前所有的输出序列,在组合的条件概率中再进行前k采样选取bk个单词,作为该时间步长下的候选输出序列,最后从bk个候选句子中挑出最优的。
9.根据权利8所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤7包括对编码网络进行训练,用编码网络获得带有可控条件的图像特征,之后输入至解码网络,完成图像文本的描述;
使用标准的交叉熵损失训练网络,对于在控制条件Gks下图像ks的文本描述的损失Lks为:
Figure FDA0003490635560000072
CN202210095359.6A 2022-01-26 2022-01-26 提高图像文本描述独特多样性的网络构建方法 Active CN114625882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210095359.6A CN114625882B (zh) 2022-01-26 2022-01-26 提高图像文本描述独特多样性的网络构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210095359.6A CN114625882B (zh) 2022-01-26 2022-01-26 提高图像文本描述独特多样性的网络构建方法

Publications (2)

Publication Number Publication Date
CN114625882A true CN114625882A (zh) 2022-06-14
CN114625882B CN114625882B (zh) 2024-04-16

Family

ID=81898896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210095359.6A Active CN114625882B (zh) 2022-01-26 2022-01-26 提高图像文本描述独特多样性的网络构建方法

Country Status (1)

Country Link
CN (1) CN114625882B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN116453120A (zh) * 2023-04-19 2023-07-18 浪潮智慧科技有限公司 基于时序场景图注意力机制的图像描述方法、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN112733866A (zh) * 2021-01-27 2021-04-30 西安理工大学 一种提高可控图像文本描述正确性的网络构建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020143137A1 (zh) * 2019-01-07 2020-07-16 北京大学深圳研究生院 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN112733866A (zh) * 2021-01-27 2021-04-30 西安理工大学 一种提高可控图像文本描述正确性的网络构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359323A (zh) * 2022-08-31 2022-11-18 北京百度网讯科技有限公司 图像的文本信息生成方法和深度学习模型的训练方法
CN116453120A (zh) * 2023-04-19 2023-07-18 浪潮智慧科技有限公司 基于时序场景图注意力机制的图像描述方法、设备及介质
CN116453120B (zh) * 2023-04-19 2024-04-05 浪潮智慧科技有限公司 基于时序场景图注意力机制的图像描述方法、设备及介质

Also Published As

Publication number Publication date
CN114625882B (zh) 2024-04-16

Similar Documents

Publication Publication Date Title
CN110111399B (zh) 一种基于视觉注意力的图像文本生成方法
CN112733866B (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN111694924B (zh) 一种事件抽取方法和系统
CN111291836B (zh) 一种生成学生网络模型的方法
CN110674305B (zh) 一种基于深层特征融合模型的商品信息分类方法
CN113190699B (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
CN114625882B (zh) 提高图像文本描述独特多样性的网络构建方法
CN112650886B (zh) 基于跨模态动态卷积网络的跨模态视频时刻检索方法
CN110490320B (zh) 基于预测机制和遗传算法融合的深度神经网络结构优化方法
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN113051399B (zh) 一种基于关系型图卷积网络的小样本细粒度实体分类方法
CN114443827A (zh) 基于预训练语言模型的局部信息感知对话方法及系统
CN116932722A (zh) 一种基于跨模态数据融合的医学视觉问答方法及系统
CN115293139A (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN116030908A (zh) 基于策略梯度和结构信息的抗癌肽生成模型及其训练方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN111680684A (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN113312498B (zh) 用无向图嵌入知识图谱的文本信息抽取方法
CN117094325B (zh) 水稻病虫害领域命名实体识别方法
CN114548106A (zh) 一种基于albert的科协活动命名实体识别的方法
CN112884087A (zh) 一种生物增强子及其类型的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant