CN114625882A - 提高图像文本描述独特多样性的网络构建方法 - Google Patents
提高图像文本描述独特多样性的网络构建方法 Download PDFInfo
- Publication number
- CN114625882A CN114625882A CN202210095359.6A CN202210095359A CN114625882A CN 114625882 A CN114625882 A CN 114625882A CN 202210095359 A CN202210095359 A CN 202210095359A CN 114625882 A CN114625882 A CN 114625882A
- Authority
- CN
- China
- Prior art keywords
- node
- network
- attention
- image
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012937 correction Methods 0.000 claims abstract description 8
- 239000002355 dual-layer Substances 0.000 claims abstract description 7
- 238000012935 Averaging Methods 0.000 claims abstract description 6
- 239000010410 layer Substances 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 31
- 238000005070 sampling Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 4
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims description 3
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 239000000758 substrate Substances 0.000 description 2
- 241000695274 Processa Species 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
Description
技术领域
本发明属于图像文本描述网络技术领域,涉及一种提高图像文本描述独特多样性的网络构建方法。
背景技术
图像是人类活动中最常用的信息载体,蕴含着丰富的有用信息。如何自动提取图像内容,对其进行文本的正确描述虽很困难,但已经具有了可行性。图像文本描述算法是指对于给定的图像,计算机自动输出一句描述图像内容的文字。由于其能够完成从图像到文本信息的跨模态转换,所以可以应用到图像的跨模态快速检索等多个领域,因此,这个方向的研究具有广泛的应用前景。
图像文本描述的独特多样性主要取决于两个方面:一是对图像中包含物体的主要属性的准确识别能力;二是通过解码网络准确输出文本内容的描述能力,而不只是对图像中物体、场景的广泛概况。对物体属性的准确识别能力是能输出独特单词的前提,这部分的工作要求提取到的特征具有代表性。之后在模型的解码器中提高独特单词的输出概率,但是现有技术在这方面还存在输出物体信息不准确、输出句子信息较少的不足。
发明内容
本发明的目的是提供一种提高图像文本描述独特多样性的网络构建方法,解决了现有技术在图像文本描述过程中描述信息较低,以及描述内容不可控的问题。
本发明所采用的技术方案是,一种提高图像文本描述独特多样性的网络构建方法,包括以下步骤:
步骤1,构建网络模型图像数据集;
步骤2,提取图像数据集的全局特征gks和抽象场景图节点的区域特征;
步骤5,构建单词精细模块,选择出更准确更独特的单词;
步骤6,构建单词校正模块,通过单词校正模块输出语句;
步骤7,使用标准的交叉熵损失训练网络,完成网络构建。
其中,步骤1的具体过程如下:
步骤1.1,建立训练及验证图像数据集
选用数据集图像样本和标签作为特征提取网络的数据样本,数据集的90%作为训练集,其余作为验证集,统称为样本图像;
步骤1.2,建立控制条件数据集
通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图,确定每幅图像中的对象节点、属性节点和关系节点,训练样本和验证样本图像数据集的抽象场景图ASG记为Gks=(Nks,Eks),ks=1,2,...,Ns,Ns为数据集中的样本个数,样本集合的ASG节点集合为Nks=[node1 ks,node2 ks,...,nodeNe ks],nodek ks∈{o,a,r},k=1,2,...,Ne,Ne为节点个数,ASG的边集合为Eks=[ei,j]Ne×Ne,ei,j∈{0,1}。
步骤2的具体过程如下:
步骤2.1,建立描述文本的语义词典
从训练集和验证集样本的标注中,选择出现频次最高的前m个单词,组成语义概念集合,m的取值范围为[10000,12000],对每个单词分配一个整数序号,再加上三个特殊位:开始标志位、结束标志位和低频词位,共m+3个整数序号构成词典;利用建立的词典对数据集样本进行语义词典标注,语义属性标注为Yks, 是第t个单词在文本语义词典中的排序序号,t=1,2,...,Lks,Lks是数据集样本中第ks幅图像的文本描述长度;
步骤2.2,提取全局特征
采用ResNet网络提取样本图像的全局特征gks,取卷积网络ResNet中最后一层平均池化层的输出M1维特征向量描述图像的全局特征;
步骤2.3,提取抽象场景图节点的区域特征
取Faster-RCNN网络的全连接fc7层作为图像区域特征,提取所有ASG节点Nks的区域特征对于nodek ks=o的目标节点,为在对应的区域上提取的特征;对于nodek ks=a的属性节点,与其连接的对象节点的区域特征相同,对于nodek ks=r的关系节点,从涉及到的两个关联目标的联合区域中提取。
步骤3中编码器包括节点嵌入模块和图卷积模块,步骤3具体过程如下:
其中,Wr是3×M1大小的节点嵌入矩阵,Wr[1],Wr[2],Wr[3]分别表示Wr的第1、2、3行,是第k个节点的属性,posk是M1维的位置嵌入向量,当节点为属性节点时增大Wr[2]的权重系数,用来区分连接同一对象的不同属性节点的顺序,其中:
步骤3.3,特征融合
步骤4中双层解码器包括双层LSTM模块,图注意力模块和图更新模块,步骤4的具体过程如下:
其中,θl是网络训练的参数;
步骤4.4,构建图更新模块,在图注意力下对重要节点进行解码后,需要通过图更新模块,以记录表示过的节点和需要被更新的节点,即需要一个擦除操作和增添操作,擦除操作是根据图注意力的强度对每个节点进行不同程度的擦除,擦除操作输出为
其中,sigmoid是S型激活函数,fc是全连接网络,θc是网络参数,是语言LSTM的预测结果输出,是t时刻的区域特征;如果不再需要访问某个节点,则可以将其设置为零,而如果一个节点需要多次访问,就需要使用一个增添操作,增添操作输出为
将擦除操作和增添操作结合,更新图以进行下一个解码步骤:
步骤4.2的具体过程如下:
其中,Wc,Wxc,Whc是网络训练的参数,tanh是双曲正切函数,soft是softmax函数;
其中,βt为t时刻网络学习到的权重;
步骤6包括采用束搜索和前k采样方法对重复单词进行校正的同时扩大寻优范围,在保证指标不降的前提下减少重复,提高语句的多样性;
前k采样方法是先确定每个时刻的候选词典mt,之后根据单词概率进行随机采样得到下一个单词;候选词典是在之前已经生成好的单词的情况下,选择当前概率最大的pk个单词:
其中,topk是对输入的数进行从大到小的排序,然后选取前pk个作为词典mt,按照单词概率在候选词典中随机采样出bk个词;
之后的时刻基于之前所有的输出序列,在组合的条件概率中再进行前k采样选取bk个单词,作为该时间步长下的候选输出序列,最后从bk个候选句子中挑出最优的。
步骤7包括对编码网络进行训练,用编码网络获得带有可控条件的图像特征,之后输入至解码网络,完成图像文本的描述;
使用标准的交叉熵损失训练网络,对于在控制条件Gks下图像ks的文本描述的损失Lks为:
本发明的有益效果是,将解码特征通过单词精细模块获得两个不同的单词特征,之后将两个特征融合使用,提高了图像文本描述的准确独特性,再通过单词校正模块对每个时刻的单词进行选择校正,输出最终的文本描述,与目前现有的图像文本描述网络相比,本发明图像文本描述网络可以在保持文本语句准确率的同时更具有独特、多样的描述。
附图说明
图1是本发明提高图像文本描述独特多样性的网络构建中抽象场景图的结构示意图;
图2是本发明提高图像文本描述独特多样性的网络构建中编码器结构示意图;
图3是本发明提高图像文本描述独特多样性的网络构建中双层解码器模型示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种提高图像文本描述独特多样性的网络构建方法,包括以下步骤:
步骤1,构建网络模型图像数据集
步骤1.1,建立训练及验证图像数据集
训练一个深度学习网络的数据集,需要大量的已经标注过的样本,考虑到自行对图像进行打标有一定的局限性,并且该网络模型需要提供控制条件来控制描述的生成,为此,本实施例选用已经公开发表的MSCOCO数据集图像样本和标签作为特征提取网络的数据样本,随机选出MSCOCO数据集的90%作为训练集,其余作为验证集,统称为样本图像;
步骤1.2,建立控制条件数据集
在生成图像文本描述时,对每幅样本图像都需要提供一个抽象场景图(ASG),作为输入来控制生成语句的结构,抽象场景图的结构如图1所示,包括三种类型的节点(对象节点o,属性节点a,和关系节点r)和连接节点的边;例如,用图1描述“一束粉红色的花放在木制的桌子上”句子时,“花”和“桌子”是对象节点,“粉红色”,“一束”,“木制的”是属性节点,“花与桌子是关联的”是关系节点;
通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图,之后使用已经公开的RPN模型来检测每幅图像中的对象节点,属性节点通过自动采样添加到对象节点上;关系节点只需确定物体间是否存在关系即可,所以采用一个简单的分类网络,判断两个物体间是否有关系节点(即边);训练样本和验证样本图像数据集的抽象场景图ASG记为Gks=(Nks,Eks),ks=1,2,...,Ns,Ns为数据集中的样本个数,样本集合的ASG节点集合为Nks=[node1 ks,node2 ks,...,nodeNe ks],nodek ks∈{o,a,r},k=1,2,...,Ne,Ne为节点个数,为描述和计算方便起见,设置每幅样本图的节点个数为固定值,优选范围为:Ne∈[10,20],如果实际提取出的节点数多于Ne,则消除没有关联的孤立节点,或者限制属性节点的个数,如果少于Ne,则将对应的节点置为0;ASG的边集合为Eks=[ei,j]Ne×Ne,ei,j∈{0,1}(两个节点间有关联为1,无关联为0)。
步骤2,提取数据集特征
步骤2.1,建立描述文本的语义词典
从训练集和验证集样本的标注中,选择出现频次最高的前m个单词,组成语义概念集合,m一般按照不同的文本描述领域和不同的描述准确度要求进行选择,本发明根据MSCOCO数据集和通用要求,优选单词总数m的取值范围为[10000,12000],对每个单词分配一个整数序号,再加上三个特殊位:开始标志位、结束标志位和低频词位,共m+3个整数序号构成词典;
对于数据集样本中的第ks幅图像样本,Lks是第ks幅图像的文本描述长度;利用建立的词典对数据集样本进行语义词典标注,语义属性
采用ResNet网络提取样本图像的全局特征gks,取卷积网络ResNet中最后一层平均池化层的输出M1维特征向量描述图像的全局特征,本实施例中M1为2048;
步骤2.3,提取抽象场景图节点的区域特征
根据ASG节点集合Nks=[node1 ks,node2 ks,...,nodeNe ks],采用Faster-RCNN网络,取Faster-RCNN网络的全连接fc7层作为图像区域特征,为计算方便起见,区域特征也为M1维的特征向量;提取所有ASG节点Nks的区域特征对于nodek ks=o的目标节点,为在对应的区域上提取的特征;对于nodek ks=a的属性节点,与其连接的对象节点的区域特征相同,对于nodek ks=r的关系节点,从涉及到的两个关联目标的联合区域中提取。
步骤3,用编码器将特征进行编码
对特征进行编码的编码器结构如图2所示,包括节点嵌入模块和图卷积模块;
步骤3.1,仅仅通过提取到的区域特征无法体现图像文本描述的可控性,因此将代表不同节点的区域特征输入节点嵌入模块,经过节点嵌入模块将特征与节点属性结合,进行节点嵌入增强,得到具有节点属性感知的区域特征Zk ks:
其中,Wr是3×M1大小的节点嵌入矩阵,Wr[1],Wr[2],Wr[3]分别表示Wr的第1、2、3行,是第k个节点的属性,posk是M1维的位置嵌入向量,当节点为属性节点时增大Wr[2]的权重系数,用来区分连接同一对象的不同属性节点的顺序,其中:
步骤3.2,因为ASG中连接节点之间的边对两个节点的影响是相互的,而且消息从一种类型的节点传递到另一种类型的节点的方式与其反向也是不同的;所以需要将原先抽象场景图ASG中有方向的单向边扩展为具有不同含义的双向边,即将Gks=(Nks,Eks),ks=1,2,...,Ns改为多关系场景图Gks'=(Nks,Eks,Rks),ks=1,2,...,Ns,Rks是节点间的6种交互关系,包括物体对属性,属性对物体,主体对关系,关系对主体,客体对关系和关系对客体的关系;
步骤3.3,特征融合
步骤4,将特征通过双层解码器解码
双层解码器解码模型结构如图3所示,包括双层LSTM模块,图注意力模块和图更新模块,双层LSTM模块由注意LSTM和语言LSTM构成,解码过程中先将步骤3得到的全局特征作为输入,通过双层LSTM模块计算出t时刻注意LSTM的输出再经过图注意力模块计算每个解码时刻需要关注的节点的权重,将图注意力后的注意力区域特征通过语言LSTM得到输出再将当前LSTM的输出通过图更新模块以更新区域特征重新计算节点权重,生成下一个单词,以此类推;具体过程如下:
其中,θa是网络参数,Wt-1为词表特征,Drop为dropout操作,即在前向传播中随机让某些神经元间的激活值置0,这样会破坏神经元携带的信息,迫使它们更健壮地执行中间计算,使网络模型更具有泛化性;为t-1时刻语言LSTM的输出;
步骤4.2,图注意力模块是为了兼顾语义内容和图的结构,所以将内容注意力和图流注意力结合使用;内容注意力不考虑图中节点的连接情况,因此可以在一个时间步长中跨越较远的距离;
其中,Wc,Wxc,Whc是网络训练的参数,tanh是双曲正切函数,soft是softmax函数;
步骤4.2.2,图的结构隐式地反映了用户在生成标题时的预期想法,所以也需要结合图流注意力;比如当前参与解码的是关系节点,那么下一个要访问的节点很有可能是紧随其后的对象节点;实现过程需要输入图结构的邻接矩阵Mf、前一时刻的图流注意力和注意力区域特征得到t时刻距离为dis的节点的图流注意力:
其中,βt为t时刻网络学习到的权重;
其中,θl是网络训练的参数;
步骤4.4,构建图更新模块,在图注意力下对重要节点进行解码后,需要通过图更新模块,以记录表示过的节点和需要被更新的节点,即需要一个擦除操作和增添操作,擦除操作是根据图注意力的强度对每个节点进行不同程度的擦除,擦除操作输出为
其中,sigmoid是S型激活函数,fc是全连接网络,θc是网络参数,是语言LSTM的预测结果输出,是t时刻的区域特征;如果不再需要访问某个节点,则可以将其设置为零,而如果一个节点需要多次访问,就需要使用一个增添操作,增添操作输出为
将擦除操作和增添操作结合,更新图以进行下一个解码步骤:
步骤5,构建单词精细模块
通过增加全连接层,可以得到两种不同的预测结果,同时参考两个结果可以精细化单词,选择更准确更独特的单词;具体操作是将LSTM的预测结果输出通过两个不同全连接层,使特征变为词典维度大小的概率后,将两结果进行点乘得到最终的融合单词概率:
步骤6,构建单词校正模块
经过以上操作得到的句子中会出现一些明显的重复错误,比如“a white andwhite building”或“a luggage cart with luggage”;因此构建单词校正模块,就是采用束搜索(beam search)和前k采样(top-k)方法对重复单词进行校正的同时扩大寻优范围,在保证指标不降的前提下减少重复,提高语句的多样性;
传统的贪心搜索方法直接在每个时刻选取条件概率最大的候选单词作为最优进行输出,但该方法其实与人们平常表述出的单词分布是不同的;而前k采样方法是先确定每个时刻的候选词典mt,之后根据单词概率进行随机采样得到下一个单词;候选词典是在之前已经生成好的单词的情况下,选择当前概率最大的pk个单词:
其中,topk是对输入的数进行从大到小的排序,然后选取前pk个作为词典mt,pk的取值范围为[10,30],按照单词概率在候选词典中随机采样出bk个词,而不只是选取条件概率中最大的一个单词;
之后的时刻基于之前所有的输出序列,在组合的条件概率中再进行前k采样选取bk个单词,作为该时间步长下的候选输出序列,最后从bk个候选句子中挑出最优的。这种方法比一般的搜索方法空间更大,所以可以达到降低重复和提高句子多样性的结果。
步骤7,训练网络
对编码网络进行训练,用编码网络获得带有可控条件的图像特征,之后输入至解码网络,完成图像文本的描述;
使用标准的交叉熵损失训练网络,对于在控制条件Gks下图像ks的文本描述的损失Lks为:
训练过程中设置的具体参数为,批处理大小Batch size优选为128,迭代次数Epoch优选为50代,初始学习率Learning rate优选为0.0002;构建的网络可以根据图像和指定的ASG生成可控的图像文本描述。
Claims (9)
1.一种提高图像文本描述独特多样性的网络构建方法,其特征在于,包括以下步骤:
步骤1,构建网络模型图像数据集;
步骤2,提取图像数据集的全局特征gks和抽象场景图节点的区域特征;
步骤5,构建单词精细模块,选择出更准确更独特的单词;
步骤6,构建单词校正模块,通过单词校正模块输出语句;
步骤7,使用标准的交叉熵损失训练网络,完成网络构建。
2.根据权利1所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤1的具体过程如下:
步骤1.1,建立训练及验证图像数据集
选用数据集图像样本和标签作为特征提取网络的数据样本,数据集的90%作为训练集,其余作为验证集,统称为样本图像;
步骤1.2,建立控制条件数据集
通过ASG生成器生成每幅训练集样本和验证集样本的抽象场景图,确定每幅图像中的对象节点、属性节点和关系节点,训练样本和验证样本图像数据集的抽象场景图ASG记为Gks=(Nks,Eks),ks=1,2,...,Ns,Ns为数据集中的样本个数,样本集合的ASG节点集合为Nks=[node1 ks,node2 ks,...,nodeNe ks],nodek ks∈{o,a,r},k=1,2,...,Ne,Ne为节点个数,ASG的边集合为Eks=[ei,j]Ne×Ne,ei,j∈{0,1}。
3.根据权利2所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤2的具体过程如下:
步骤2.1,建立描述文本的语义词典
从训练集和验证集样本的标注中,选择出现频次最高的前m个单词,组成语义概念集合,m的取值范围为[10000,12000],对每个单词分配一个整数序号,再加上三个特殊位:开始标志位、结束标志位和低频词位,共m+3个整数序号构成词典;利用建立的词典对数据集样本进行语义词典标注,语义属性标注为Yks, 是第t个单词在文本语义词典中的排序序号,t=1,2,...,Lks,Lks是数据集样本中第ks幅图像的文本描述长度;
步骤2.2,提取全局特征
采用ResNet网络提取样本图像的全局特征gks,取卷积网络ResNet中最后一层平均池化层的输出M1维特征向量描述图像的全局特征;
步骤2.3,提取抽象场景图节点的区域特征
4.根据权利3所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤3中编码器包括节点嵌入模块和图卷积模块,步骤3具体过程如下:
其中,Wr是3×M1大小的节点嵌入矩阵,Wr[1],Wr[2],Wr[3]分别表示Wr的第1、2、3行,是第k个节点的属性,posk是M1维的位置嵌入向量,当节点为属性节点时增大Wr[2]的权重系数,用来区分连接同一对象的不同属性节点的顺序,其中:
步骤3.3,特征融合
5.根据权利4所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤4中双层解码器包括双层LSTM模块,图注意力模块和图更新模块,步骤4的具体过程如下:
其中,θl是网络训练的参数;
步骤4.4,构建图更新模块,在图注意力下对重要节点进行解码后,需要通过图更新模块,以记录表示过的节点和需要被更新的节点,即需要一个擦除操作和增添操作,擦除操作是根据图注意力的强度对每个节点进行不同程度的擦除,擦除操作输出为
其中,sigmoid是S型激活函数,fc是全连接网络,θc是网络参数,是语言LSTM的预测结果输出,是t时刻的区域特征;如果不再需要访问某个节点,则可以将其设置为零,而如果一个节点需要多次访问,就需要使用一个增添操作,增添操作输出为
将擦除操作和增添操作结合,更新图以进行下一个解码步骤:
6.根据权利5所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤4.2的具体过程如下:
其中,Wc,Wxc,Whc是网络训练的参数,tanh是双曲正切函数,soft是softmax函数;
其中,βt为t时刻网络学习到的权重;
8.根据权利7所述的一种提高图像文本描述独特多样性的网络构建方法,其特征在于,所述步骤6包括采用束搜索和前k采样方法对重复单词进行校正的同时扩大寻优范围,在保证指标不降的前提下减少重复,提高语句的多样性;
前k采样方法是先确定每个时刻的候选词典mt,之后根据单词概率进行随机采样得到下一个单词;候选词典是在之前已经生成好的单词的情况下,选择当前概率最大的pk个单词:
其中,topk是对输入的数进行从大到小的排序,然后选取前pk个作为词典mt,按照单词概率在候选词典中随机采样出bk个词;
之后的时刻基于之前所有的输出序列,在组合的条件概率中再进行前k采样选取bk个单词,作为该时间步长下的候选输出序列,最后从bk个候选句子中挑出最优的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210095359.6A CN114625882B (zh) | 2022-01-26 | 2022-01-26 | 提高图像文本描述独特多样性的网络构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210095359.6A CN114625882B (zh) | 2022-01-26 | 2022-01-26 | 提高图像文本描述独特多样性的网络构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114625882A true CN114625882A (zh) | 2022-06-14 |
CN114625882B CN114625882B (zh) | 2024-04-16 |
Family
ID=81898896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210095359.6A Active CN114625882B (zh) | 2022-01-26 | 2022-01-26 | 提高图像文本描述独特多样性的网络构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114625882B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359323A (zh) * | 2022-08-31 | 2022-11-18 | 北京百度网讯科技有限公司 | 图像的文本信息生成方法和深度学习模型的训练方法 |
CN116453120A (zh) * | 2023-04-19 | 2023-07-18 | 浪潮智慧科技有限公司 | 基于时序场景图注意力机制的图像描述方法、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
-
2022
- 2022-01-26 CN CN202210095359.6A patent/CN114625882B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN112733866A (zh) * | 2021-01-27 | 2021-04-30 | 西安理工大学 | 一种提高可控图像文本描述正确性的网络构建方法 |
Non-Patent Citations (1)
Title |
---|
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359323A (zh) * | 2022-08-31 | 2022-11-18 | 北京百度网讯科技有限公司 | 图像的文本信息生成方法和深度学习模型的训练方法 |
CN116453120A (zh) * | 2023-04-19 | 2023-07-18 | 浪潮智慧科技有限公司 | 基于时序场景图注意力机制的图像描述方法、设备及介质 |
CN116453120B (zh) * | 2023-04-19 | 2024-04-05 | 浪潮智慧科技有限公司 | 基于时序场景图注意力机制的图像描述方法、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114625882B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111399B (zh) | 一种基于视觉注意力的图像文本生成方法 | |
CN112733866B (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN111291836B (zh) | 一种生成学生网络模型的方法 | |
CN110674305B (zh) | 一种基于深层特征融合模型的商品信息分类方法 | |
CN113190699B (zh) | 一种基于类别级语义哈希的遥感图像检索方法及装置 | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
CN114625882B (zh) | 提高图像文本描述独特多样性的网络构建方法 | |
CN112650886B (zh) | 基于跨模态动态卷积网络的跨模态视频时刻检索方法 | |
CN110490320B (zh) | 基于预测机制和遗传算法融合的深度神经网络结构优化方法 | |
CN113204952B (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN113051399B (zh) | 一种基于关系型图卷积网络的小样本细粒度实体分类方法 | |
CN114443827A (zh) | 基于预训练语言模型的局部信息感知对话方法及系统 | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及系统 | |
CN115293139A (zh) | 一种语音转写文本纠错模型的训练方法和计算机设备 | |
CN115545033A (zh) | 融合词汇类别表征的中文领域文本命名实体识别方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN116030908A (zh) | 基于策略梯度和结构信息的抗癌肽生成模型及其训练方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN111680684A (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN113312498B (zh) | 用无向图嵌入知识图谱的文本信息抽取方法 | |
CN117094325B (zh) | 水稻病虫害领域命名实体识别方法 | |
CN114548106A (zh) | 一种基于albert的科协活动命名实体识别的方法 | |
CN112884087A (zh) | 一种生物增强子及其类型的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |